Zum Hauptinhalt springen

AI-Agent-Workflow-Patterns wählen, die wirklich in Production gehen

· 4 Minuten Lesezeit
Claude Dev
Claude Dev

Die meisten Teams scheitern mit Agents nicht wegen der Modellqualität.

Sie scheitern, weil sie zu früh das falsche Workflow-Pattern wählen: zu viel Orchestrierung, zu viele bewegliche Teile und kein klarer Grund für diese Komplexität.

Anthropic’s aktueller Guide zu gängigen Agent-Workflow-Patterns ist nützlich, aber dieser Beitrag übersetzt ihn für Entwickler, die produktive Systeme bauen.

Die eine Regel, die Teams oft ignorieren

Beginnt mit dem einfachsten Pattern, das eure Qualitätsanforderung erfüllt.

In der Praxis heißt das:

  1. Zuerst einen Single-Agent-Call testen
  2. Sequenzielle Schritte nur hinzufügen, wenn Abhängigkeiten Reihenfolge erzwingen
  3. Parallele Worker nur hinzufügen, wenn Tasks wirklich unabhängig sind und Latenz zählt
  4. Evaluator-Optimizer-Loops nur hinzufügen, wenn Qualitätsgewinne messbar sind

Wenn ihr diese Reihenfolge überspringt, zahlt ihr meist mit Latenz, Token-Kosten und Debugging-Aufwand.


Pattern 1: Sequential Workflows

Nutzt sequenzielle Workflows, wenn Schritt B von Schritt A abhängt.

Denkt an eine Pipeline:

  • extract
  • transform
  • validate
  • route

Gute Passform

  • Mehrstufige Aufgaben mit harten Abhängigkeiten
  • Datenpipelines, in denen jede Stufe anderen Mehrwert liefert
  • Draft -> review -> polish Flows

Schlechte Passform

  • Wenn ein einzelner Agent den Job bereits zuverlässig erledigt
  • Wenn Schritte nur künstlich getrennt sind und zusammengelegt werden können

Entwickler-Tradeoff

  • Höhere Latenz
  • Bessere Kontrolle und Observability pro Stufe

Schneller Test

Wenn ihr eine Stufe entfernt und die Qualität kaum sinkt, ist sie wahrscheinlich überflüssig.


Pattern 2: Parallel Workflows

Nutzt parallele Workflows, wenn Teilaufgaben unabhängig sind und gleichzeitig laufen können.

In Distributed-Systems-Sprache: fan-out/fan-in:

  • Arbeit auf mehrere Agents aufteilen
  • Mit einer Aggregationsstrategie wieder zusammenführen

Gute Passform

  • Multi-Dimension-Evaluation (Sicherheit, Stil, Korrektheit)
  • Security-/Code-Reviews nach Kategorien
  • Dokumentanalyse mit unabhängigen Perspektiven

Schlechte Passform

  • Wenn Agents einen gemeinsamen, laufend veränderten Kontext brauchen
  • Wenn keine robuste Aggregationsstrategie existiert
  • Wenn API-Quoten/Concurrency-Limits den Geschwindigkeitsgewinn aufheben

Entwickler-Tradeoff

  • Schnellere Fertigstellung
  • Höhere Kosten + höhere Aggregationskomplexität

Schneller Test

Wenn eure Aggregationslogik komplexer ist als jeder einzelne Parallel-Worker, habt ihr über-parallelisiert.


Pattern 3: Evaluator-Optimizer Workflows

Nutzt evaluator-optimizer, wenn First-Draft-Qualität nicht reicht und Qualitätskriterien explizit sind.

Struktur:

  • Generator erzeugt Entwurf
  • Evaluator bewertet anhand konkreter Kriterien
  • Generator überarbeitet
  • Stop bei Schwellwert oder maximalen Iterationen

Gute Passform

  • Code-Generierung mit strengen Standards
  • High-Stakes-Dokumente/Kommunikation mit hohen Anforderungen an Ton und Präzision
  • SQL/Query-Generierung mit Security-/Perf-Checks

Schlechte Passform

  • Echtzeitinteraktionen mit sofortiger Antwortpflicht
  • Aufgaben mit zu subjektiven Kriterien, die Evaluators nicht konsistent anwenden können
  • Fälle, in denen deterministische Tools die Validierung bereits lösen (Linter, Schema-Validatoren)

Entwickler-Tradeoff

  • Potenziell deutlich bessere Qualität
  • Mehr Tokens, mehr Latenz und Risiko endloser Mikro-Iterationen

Schneller Test

Wenn Iteration 3+ nur minimale Verbesserungen bringt, Iterationslimit senken.


Ein praktischer Entscheidungsbaum

Nutzt das in Planung oder Design-Reviews:

  1. Kann ein Agent das zuverlässig lösen? Wenn ja, stoppen.
  2. Gibt es harte Schritt-Abhängigkeiten? Wenn ja, sequenziell.
  3. Sind Teilaufgaben unabhängig und latenzsensitiv? Wenn ja, parallele Branches hinzufügen.
  4. Liegt First-Pass-Qualität unter der Messlatte und ist messbar? Wenn ja, evaluator-optimizer gezielt ergänzen.

So bleibt Komplexität proportional zu echten Anforderungen.


Failure Handling, das ihr vorab definieren solltet

Unabhängig vom Pattern vor Rollout definieren:

  • Retry-Policy pro Stufe
  • Timeout-Budgets
  • Fallback-Verhalten
  • Strategie für partielle Fehler
  • Regeln zur Auflösung widersprüchlicher Outputs

Ohne das ist eure „Agent-Architektur“ nur eine Demo.


Erst Baseline, dann Orchestrierung

Anthropic’s Empfehlung ist in die richtige Richtung: Erst mit einer einfacheren Variante eine Baseline setzen.

Für Teams heißt das, mindestens zu tracken:

  • task success rate
  • latency p50/p95
  • token cost pro erfolgreichem Run
  • human correction rate

Zusätzliche Orchestrierung nur behalten, wenn mindestens eine Kennzahl klar verbessert wird.


Pattern-Kombinationen, die oft funktionieren

Patterns sind Bausteine, keine exklusiven Entscheidungen.

Zwei häufige Kombinationen:

  • Sequential + Parallel: sequenzielle Pipeline mit ein bis zwei parallelisierten Heavy Stages
  • Parallel + Evaluator: mehrere Generator-/Reviewer-Branches, danach ein fokussierter Evaluator-Pass

Verschachtelung vermeiden, solange ihr Qualität-/Kosten-Effekte nicht mit Metriken erklären könnt.


Fazit

Workflow-Patterns sind kein Architektur-Theater. Sie sind Kosten-/Qualitätshebel.

Wenn ihr Systeme shippen wollt, die wartbar bleiben:

  • einfach starten
  • Struktur nur bei nachgewiesenem Bottleneck hinzufügen
  • jede Komplexitätssteigerung messen

So werden Agent-Experimente zu produktiven Workflows.

Quelle