Agentic Weekly #005 — Long-running Agents werden zur Architektur, Token-Budgets brechen weg

Wöchentlicher Überblick zu Agentic Engineering, Agentic Coding & Claude Code

Mai 07, 2026

7.Mai 2026 — Lesezeit: ~6 Min.

Die große Nachricht der Woche

Long-running Agents bekommen ihre Architektur — Brain, Hands, Session

Am 30. April hat Addy Osmani in einem Long-Read sortiert, was unter „long-running agents” eigentlich gemeint ist — und dabei die Architektur sichtbar gemacht, auf die unabhängig voneinander Anthropic, Cursor und Google zulaufen. Drei verschiedene Bedeutungen, sauber getrennt: Long-horizon reasoning (Modellqualität — die METR-Metrik fürs erfolgreich abgeschlossene Task-Horizon verdoppelt sich seit 2019 alle ~7 Monate, das jüngste TH1.1-Update hat die Anzahl der 8-Stunden-plus-Tasks im Eval-Set verdoppelt), long-running execution (das Modell wird hundert- bis tausendfach über die Laufzeit aufgerufen) und persistent agency (Identität über Tasks hinweg).

Drei Wände, an die jeder Agent läuft: endlicher Context plus „context rot” (Degradation lange vor dem harten Limit), kein persistenter State (Anthropics eigenes Bild: „Engineers, die in Schichten arbeiten — jeder neue ohne Erinnerung an die vorige Schicht”) und keine verlässliche Self-Verification (Modelle bewerten ihre eigene Arbeit konsistent zu positiv).

Spannender als die Wände ist die Konvergenz: Anthropics Brain / Hands / Session-Split, Cursors Planner / Worker / Judge und Googles Agent Runtime / Agent Sandbox / Agent Sessions sind drei Namen für dasselbe Muster. Brain = Modell plus Harness-Loop. Hands = sandboxed, ephemere Execution-Umgebungen. Session = append-only Event-Log, das den Lauf rekonstruierbar macht. Praktisch heißt das: State wandert aus dem Modell-Context heraus ins Filesystem oder in eine Datenbank — die Ralph Loop von Geoffrey Huntley und Ryan Carson zeigt das in 30 Zeilen Bash mit prd.json, progress.txt, AGENTS.md. Anthropic berichtet aus internen Tests von 30+ Stunden autonomem Coding, ein Lauf produzierte einen 11.000-Zeilen-Slack-Klon.

Warum das relevant ist: Wer Agents jenseits der Stundenmarke baut, kommt um diesen Split nicht herum. Osmanis Test ist ehrlich: „If you can’t reconstruct what the agent did in the last 24 hours from durable storage, what you have is a long-running shell script that happens to call an LLM, not a long-running agent.” — Eine Ebene weiter raus zoomt Jack Clark, Anthropic-Mitgründer, in Import AI #455 (4. Mai): Er taxiert die Wahrscheinlichkeit auf 60+ %, dass AI-Systeme bis Ende 2028 autonom R&D betreiben und ihre Nachfolger trainieren. SWE-Bench-Progression von ~2 % (Claude 2, Ende 2023) auf 93,9 % (Claude Mythos Preview); Task-Horizon von ~30 Sekunden 2022 auf ~12 Stunden 2026, Forecaster Ajeya Cotra projiziert ~100 Stunden bis Jahresende. Wer die Architektur-Arbeit dieser Woche zusammen mit Clarks Kurve liest, sieht, warum die Anthropic-Köpfe die Zeitachse für eng halten.

Quellen:

Claude Code: Die Highlights der Woche

Vier Releases in einer ruhigeren Woche: v2.1.126, v2.1.128, v2.1.129, v2.1.131. Schwerpunkt: Plugin-Distribution, OAuth-Polish, eine Reihe handfester Subprozess- und Cache-Fixes.

Für alle, die Claude Code täglich nutzen

claude project purge ist da — v2.1.126 räumt alle Claude-Code-Spuren aus einem Projekt: Transcripts, Tasks, File-History, Config. Mit --dry-run, --interactive, --all für mehrere Projekte. Vorher musste man drei Verzeichnisse von Hand kennen.

/context verschwendet keine Tokens mehr — v2.1.129 fixt einen alten Ärger: Der ASCII-Visualisierungs-Block landete bisher in der Konversation und kostete pro Aufruf rund 1.600 Tokens.

/model zeigt nur noch ein Opus-Eintrag — Die Doppelung „Opus 4.7” und „Opus” im Picker ist weg, der aktuelle Opus heißt jetzt schlicht „Opus” (v2.1.128).

Für Plugin- und MCP-Workflows

--plugin-url und --plugin-dir mit Zip — v2.1.128/129 erlauben das Laden von Plugin-Archiven direkt aus URL oder lokaler .zip. Saubere Lösung für Air-Gapped-Setups und ad-hoc-Tests, ohne Marketplace-Eintrag.

MCP-Reconnects fluten die Konversation nicht mehr — v2.1.128: Wenn ein Server seine Tools re-announced, kommt nur noch eine Server-Prefix-Zusammenfassung statt der vollen Tool-Liste. Wer mit fünf+ MCP-Servern arbeitet, merkt das sofort.

/mcp zeigt Tool-Counts — v2.1.128 markiert Server mit 0 Tools — ein simpler Blick reicht jetzt, um stille Misskonfigurationen zu sehen.

Für Performance und Plattform

Subagent-Summaries nutzen wieder Prompt-Cache — v2.1.128 fixt eine Regression, die cache_creation ungefähr verdreifacht hatte. Wer Subagents heavy nutzt, sollte den Token-Verbrauch nach dem Update direkt vergleichen.

Parallel Tool-Calls brechen sich nicht mehr gegenseitig ab — Ein fehlgeschlagener Read-Only-Befehl (grep, git diff, ls) cancelte bisher die Geschwister-Calls. Behoben in v2.1.128.

OAuth härtet sich — Eine Race Condition zwischen Wake-from-Sleep und Token-Refresh, die laufende Sessions ausloggte, ist gefixt (v2.1.129). Außerdem: claude auth login akzeptiert jetzt einen OAuth-Code per Paste, wenn der Browser-Callback localhost nicht erreicht (v2.1.126) — endlich sauber für WSL2, SSH-Sessions, DevContainer.

Quellen:

Agentic Coding: Cursor mit eigenem SDK und Security-Review, Codex baut Plugin-Disziplin aus

Cursor SDK (29. April) — Cursor öffnet seine Agent-Plattform für programmatischen Zugriff: TypeScript-SDK, lokal oder gegen Cursors Cloud-VMs ausführbar, freie Modellwahl. Dazu reworked Cloud-Agents-API mit SSE-Streaming und expliziten Lifecycle-Controls. Damit ist Cursor das nächste Tool nach Claude Code, das nicht nur als IDE/Terminal, sondern als API für Agent-Pipelines auftritt.

Cursor Security Review (30. April, Beta für Teams/Enterprise) — Zwei Always-On-Agenten: ein Security Reviewer, der jede PR auf Security-Vulnerabilities, Auth-Regressionen und Privacy-/Data-Handling-Risiken prüft, plus ein Vulnerability Scanner mit geplanten Codebase-Scans gegen bekannte Vulnerabilities und veraltete Dependencies. Direkter Konkurrent zu Claude Codes /security-review-Skill — und ein klares Signal, dass Review-Workloads in Pull Requests die nächste Schicht sind, in der die Agent-Hosts gegeneinander antreten.

Cursor Spend Management (4. Mai) — Granulare Allow-/Blocklists pro Modell und Provider, Soft-Spend-Limits mit Alerts bei 50/80/100 %. Liest sich wie eine direkte Antwort auf das Engineering-Budget-Problem, das diese Woche separat dokumentiert wurde (siehe Trend unten).

OpenAI Codex CLI legt zweimal nach: 0.128.0 (30. April) bringt Goals-Workflows, Permission Profiles, Plugin-Management und Support für externe Agent-Sessions. 0.129.0 (7. Mai) folgt mit TUI-Polish: redesigned Resume/Fork Picker, workspace-aware /diff, Plugin-Workspace-Sharing und Lifecycle-Hooks. Damit zieht Codex bei Plugin-Disziplin und Session-Handling sichtbar nach.

Quellen:

Trend der Woche

Token-Spend bricht Engineering-Budgets — und die Strategie spaltet sich

Gergely Orosz hat für The Pragmatic Engineer (30. April) 15 Firmen zwischen Seed-Stage und 10.000+ Mitarbeiter anonym befragt. Das Bild ist eindeutig und unbequem: Bei einem AI-Infra-Startup stieg Token-Spend pro Entwickler in sechs Monaten von $200 auf $3.000 pro Monat — 15-fach. Bei einem Healthcare-Konzern verbrauchte ein einzelner Engineer in einer Claude-Code-Session $1.400. In einem US-/EU-Fintech laufen Heavy-User auf Claude Code bei $500 pro Tag. Bei einem E-Commerce-Konzern mit ~2.000 Devs ist nur Opus 4.7 zum Coden zugelassen: „leichte Fehler in Produktion kosten Stunden”. Vendor-Verhandlungen klaffen weit auseinander: Cursor gewährt Rabatte ab ~$1 Mio. Spend, Anthropic auch bei $5 Mio.+ pro Jahr nicht.

Die Firmen teilen sich grob 50/50 in zwei Lager: „Let it rip and start measuring” (laufen lassen, Impact messen) und „Curb spending” (Default auf billigere Modelle, Caps, Consent-Gates). Ein Engineering Manager im Healthcare-Sektor mit fünfzehn Jahren Branchenerfahrung sagt, einen so dramatischen Wandel habe er noch nie erlebt — vergleichbar nur mit dem Sprung zu höheren Programmiersprachen.

Das Bemerkenswerte ist, wie schnell die Tools darauf antworten: Cursors Spend-Management dieser Woche ist genau die Telemetrie, die in den befragten Firmen bisher gefehlt hat. Wer 2026 ernsthaft Agentic Engineering betreibt, braucht eine Antwort auf die Kostenseite — nicht in zwölf Monaten, sondern für den nächsten Sprint.

Quellen:

Pragmatic Engineer: Token spend breaks budgets

Kurz notiert

Background Agents Summit (6./7. Mai, virtuell) — Ona richtet das nach eigener Beschreibung erste Event aus, das ausschließlich Background Agents gewidmet ist; Sprecher unter anderem von Stripe, Harvey, Uber, Monzo, AWS und WorkOS. Wer in den nächsten Monaten selbst eine Background-Agent-Infrastruktur aufbauen will, bekommt hier kompakt das, was sonst über mehrere Engineering-Blogs verteilt ist. background-agents.com/summit
Sierra holt $950 Mio. (4. Mai) — Bret Taylors Agent-Plattform für Enterprise-Customer-Service ist nach der von Tiger Global und GV angeführten Runde mit über $15 Mrd. bewertet. Das Rennen um Enterprise-Agents wird teurer, je breiter die Anwendungsfelder werden. TechCrunch
OpenAI: „Automated AI research intern bis September 2026” — Jack Clark zitiert dieses öffentlich kommunizierte Ziel von OpenAI in Import AI #455. Recursive Superintelligence (Startup) hat $500 Mio. spezifisch für AI-R&D-Automatisierung eingesammelt. Import AI #455

Nächste Ausgabe: Donnerstag, 14. Mai 2026

Feedback? Einfach kommentieren/antworten.

fluxum engineering

Diskussion über diese Post

Sind Sie bereit für mehr?