AI-Agent-Workflow-Patterns wählen, die wirklich in Production gehen
Die meisten Teams scheitern mit Agents nicht wegen der Modellqualität.
Sie scheitern, weil sie zu früh das falsche Workflow-Pattern wählen: zu viel Orchestrierung, zu viele bewegliche Teile und kein klarer Grund für diese Komplexität.
Anthropic’s aktueller Guide zu gängigen Agent-Workflow-Patterns ist nützlich, aber dieser Beitrag übersetzt ihn für Entwickler, die produktive Systeme bauen.
Die eine Regel, die Teams oft ignorieren
Beginnt mit dem einfachsten Pattern, das eure Qualitätsanforderung erfüllt.
In der Praxis heißt das:
- Zuerst einen Single-Agent-Call testen
- Sequenzielle Schritte nur hinzufügen, wenn Abhängigkeiten Reihenfolge erzwingen
- Parallele Worker nur hinzufügen, wenn Tasks wirklich unabhängig sind und Latenz zählt
- Evaluator-Optimizer-Loops nur hinzufügen, wenn Qualitätsgewinne messbar sind
Wenn ihr diese Reihenfolge überspringt, zahlt ihr meist mit Latenz, Token-Kosten und Debugging-Aufwand.
Pattern 1: Sequential Workflows
Nutzt sequenzielle Workflows, wenn Schritt B von Schritt A abhängt.
Denkt an eine Pipeline:
- extract
- transform
- validate
- route
Gute Passform
- Mehrstufige Aufgaben mit harten Abhängigkeiten
- Datenpipelines, in denen jede Stufe anderen Mehrwert liefert
- Draft -> review -> polish Flows
Schlechte Passform
- Wenn ein einzelner Agent den Job bereits zuverlässig erledigt
- Wenn Schritte nur künstlich getrennt sind und zusammengelegt werden können
Entwickler-Tradeoff
- Höhere Latenz
- Bessere Kontrolle und Observability pro Stufe
Schneller Test
Wenn ihr eine Stufe entfernt und die Qualität kaum sinkt, ist sie wahrscheinlich überflüssig.
Pattern 2: Parallel Workflows
Nutzt parallele Workflows, wenn Teilaufgaben unabhängig sind und gleichzeitig laufen können.
In Distributed-Systems-Sprache: fan-out/fan-in:
- Arbeit auf mehrere Agents aufteilen
- Mit einer Aggregationsstrategie wieder zusammenführen
Gute Passform
- Multi-Dimension-Evaluation (Sicherheit, Stil, Korrektheit)
- Security-/Code-Reviews nach Kategorien
- Dokumentanalyse mit unabhängigen Perspektiven
Schlechte Passform
- Wenn Agents einen gemeinsamen, laufend veränderten Kontext brauchen
- Wenn keine robuste Aggregationsstrategie existiert
- Wenn API-Quoten/Concurrency-Limits den Geschwindigkeitsgewinn aufheben
Entwickler-Tradeoff
- Schnellere Fertigstellung
- Höhere Kosten + höhere Aggregationskomplexität
Schneller Test
Wenn eure Aggregationslogik komplexer ist als jeder einzelne Parallel-Worker, habt ihr über-parallelisiert.
Pattern 3: Evaluator-Optimizer Workflows
Nutzt evaluator-optimizer, wenn First-Draft-Qualität nicht reicht und Qualitätskriterien explizit sind.
Struktur:
- Generator erzeugt Entwurf
- Evaluator bewertet anhand konkreter Kriterien
- Generator überarbeitet
- Stop bei Schwellwert oder maximalen Iterationen
Gute Passform
- Code-Generierung mit strengen Standards
- High-Stakes-Dokumente/Kommunikation mit hohen Anforderungen an Ton und Präzision
- SQL/Query-Generierung mit Security-/Perf-Checks
Schlechte Passform
- Echtzeitinteraktionen mit sofortiger Antwortpflicht
- Aufgaben mit zu subjektiven Kriterien, die Evaluators nicht konsistent anwenden können
- Fälle, in denen deterministische Tools die Validierung bereits lösen (Linter, Schema-Validatoren)
Entwickler-Tradeoff
- Potenziell deutlich bessere Qualität
- Mehr Tokens, mehr Latenz und Risiko endloser Mikro-Iterationen
Schneller Test
Wenn Iteration 3+ nur minimale Verbesserungen bringt, Iterationslimit senken.
Ein praktischer Entscheidungsbaum
Nutzt das in Planung oder Design-Reviews:
- Kann ein Agent das zuverlässig lösen? Wenn ja, stoppen.
- Gibt es harte Schritt-Abhängigkeiten? Wenn ja, sequenziell.
- Sind Teilaufgaben unabhängig und latenzsensitiv? Wenn ja, parallele Branches hinzufügen.
- Liegt First-Pass-Qualität unter der Messlatte und ist messbar? Wenn ja, evaluator-optimizer gezielt ergänzen.
So bleibt Komplexität proportional zu echten Anforderungen.
Failure Handling, das ihr vorab definieren solltet
Unabhängig vom Pattern vor Rollout definieren:
- Retry-Policy pro Stufe
- Timeout-Budgets
- Fallback-Verhalten
- Strategie für partielle Fehler
- Regeln zur Auflösung widersprüchlicher Outputs
Ohne das ist eure „Agent-Architektur“ nur eine Demo.
Erst Baseline, dann Orchestrierung
Anthropic’s Empfehlung ist in die richtige Richtung: Erst mit einer einfacheren Variante eine Baseline setzen.
Für Teams heißt das, mindestens zu tracken:
- task success rate
- latency p50/p95
- token cost pro erfolgreichem Run
- human correction rate
Zusätzliche Orchestrierung nur behalten, wenn mindestens eine Kennzahl klar verbessert wird.
Pattern-Kombinationen, die oft funktionieren
Patterns sind Bausteine, keine exklusiven Entscheidungen.
Zwei häufige Kombinationen:
- Sequential + Parallel: sequenzielle Pipeline mit ein bis zwei parallelisierten Heavy Stages
- Parallel + Evaluator: mehrere Generator-/Reviewer-Branches, danach ein fokussierter Evaluator-Pass
Verschachtelung vermeiden, solange ihr Qualität-/Kosten-Effekte nicht mit Metriken erklären könnt.
Fazit
Workflow-Patterns sind kein Architektur-Theater. Sie sind Kosten-/Qualitätshebel.
Wenn ihr Systeme shippen wollt, die wartbar bleiben:
- einfach starten
- Struktur nur bei nachgewiesenem Bottleneck hinzufügen
- jede Komplexitätssteigerung messen
So werden Agent-Experimente zu produktiven Workflows.
Quelle
- Anthropic official blog: Common workflow patterns for AI agents—and when to use them
https://claude.com/blog/common-workflow-patterns-for-ai-agents-and-when-to-use-them