Agentic Weekly #004 — Drei Bugs, sechs Wochen, 40 Milliarden Dollar

Wöchentlicher Überblick zu Agentic Engineering, Agentic Coding & Claude Code

Mai 01, 2026

1.Mai 2026 — Lesezeit: ~7 Min.

Die große Nachricht der Woche

Anthropic legt offen, was Claude Code kaputt gemacht hat

Am 23. April hat Anthropic einen detaillierten Postmortem veröffentlicht — und damit beendet, was seit Februar Foren, Substacks und Tech-Presse beschäftigt hat: die Frage, ob Claude „dümmer” geworden ist.

Antwort: ja, aber nicht weil Anthropic das Modell absichtlich heruntergedreht hätte, sondern weil drei separate Bugs sich zeitlich überlappten und sich gegenseitig verschleierten.

Reasoning-Effort-Downgrade (4. März → zurückgenommen am 7. April): Default für Opus 4.6 und Sonnet 4.6 von high auf medium gesenkt — als Reaktion auf User-Beschwerden über lange Latenzen. Falscher Trade-off, wie sich herausstellte.
Caching-Bug (26. März → gefixt 10. April): Eine Optimierung sollte alte Thinking-Blöcke nach >1h Idle entfernen. Ein Bug ließ sie bei jedem Turn entfernen — Ergebnis: Cache-Misses, vermeintliches „Vergessen”, schneller verbrauchte Limits.
Verbosity-Prompt (16. April → zurückgenommen am 20. April): Eine System-Prompt-Anweisung sollte die Verbosity zwischen Tool-Calls reduzieren. In Kombination mit anderen Änderungen: 3 Prozent Performance-Drop bei Opus 4.6 und 4.7 in Ablation-Tests (Sonnet 4.6 ebenfalls betroffen), nicht in den ursprünglichen Evals erkannt.

Alle drei Issues sind seit v2.1.116 (20. April) behoben. Anthropic hat zusätzlich Usage Limits aller Subscriber zurückgesetzt und Default-Effort auf xhigh (Opus 4.7) bzw. high (alle anderen) angehoben. Die API war nicht betroffen — nur Claude Code.

Warum das relevant ist:

Das ist die transparenteste öffentliche Aufarbeitung, die ein Frontier-Lab bislang zu einem Quality-Drop geliefert hat.

Drei wichtige Lehren stecken drin:

Evaluation-Suiten erkennen interagierende Regressionen schlecht — keine der drei Änderungen war für sich genommen problematisch.
Caching- und Harness-Verhalten sind genauso modellrelevant wie Gewichte; wer Coding-Agents baut, muss das mitmessen.
Vertrauen kommt zurück, wenn Postmortems so detailliert sind wie dieses — und nicht, wenn man stillschweigend zurückrollt.

Der Wermutstropfen: Sechs Wochen Schaden waren entstanden, bevor die Aufklärung kam.

Quellen:

Claude Code: Die Highlights der Woche

Sieben Releases in sieben Tagen: v2.1.117 bis v2.1.123. Schwerpunkt diesmal: Polishing, Memory-Hygiene und Vim-Power-User-Features.

Für alle, die Claude Code täglich nutzen

Vim Visual Mode endlich da — v2.1.118 bringt vollwertige Visual-Selection (v) und Visual-Line (V) inklusive Operatoren. Wer Claude Code aus Vim-Reflex bedient, hatte bisher nur einen Krüppelmodus. Jetzt: voller Selection-Workflow, Operator-Pending, visuelles Feedback.

/cost und /stats werden zu /usage — Konsolidierter Tabbed-View mit Billing und Verbrauch in einem Command. Kleines Detail, aber spart die ständige „welcher Command war’s nochmal?”-Frage.

Custom Themes — Per /theme benannte Themes anlegen oder direkt JSON in ~/.claude/themes/ editieren. Plugins können Themes über ein themes/-Verzeichnis ausliefern. Endlich konfigurierbar ohne Hack.

/resume aus PR-URL — v2.1.122: PR-URL aus GitHub, GitHub Enterprise, GitLab oder Bitbucket in die /resume-Suche pasten und die Session finden, die diesen PR erzeugt hat. Wer mit vielen parallelen Worktrees jongliert: Game-Changer.

Für Multi-Agent- und Plugin-Workflows

alwaysLoad für MCP-Tools — MCP-Server können einzelne Tools aus dem Tool-Search-Deferral ausschließen. Wer Latenz-kritische Tools hat, sollte das setzen.

PostToolUse-Hooks dürfen Tool-Output ersetzen — Bisher nur für MCP-Tools möglich, jetzt für alle Tools via hookSpecificOutput.updatedToolOutput. Eröffnet sauberere Output-Sanitizer und Redaction-Pipelines.

Hooks können MCP-Tools aufrufen — v2.1.118 erlaubt type: "mcp_tool" direkt aus Hook-Konfiguration. Neue Komposition: Lifecycle-Events lösen Tool-Aufrufe ohne Wrapper-Skript aus.

claude plugin prune und tag — Verwaiste auto-installierte Dependencies entfernen; Release-Tags mit Versionsvalidierung erzeugen. Plugin-Hygiene wird langsam zu echtem Package-Management.

Für CI/CD und Automation

claude ultrareview [target] — /ultrareview jetzt non-interaktiv aus CI/Skripten. Damit ist Cloud-basierter Tiefen-Review als Pipeline-Step nutzbar, nicht nur als interaktiver Slash-Command.

AI_AGENT Environment Variable — Wird für Subprozesse gesetzt; GitHub und andere Hosts können damit Agent-Attribution korrekt taggen. Ein kleiner, aber wichtiger Baustein für saubere Audit-Trails.

Windows ohne Git Bash — v2.1.120 nutzt PowerShell als Default-Shell, wenn Git for Windows fehlt. PowerShell-Tool-Permissions können auto-genehmigt werden. Schluss mit dem Workaround-Setup für Windows-only-Teams.

Performance und Plattform

Memory-Leaks gefixt — v2.1.121 schließt mehrere Speicherlecks: Multi-GB-RSS bei vielen Bildern, ~2 GB Leak in /usage bei großen Transcripts, Leaks in long-running Tools. Wer Sessions tagelang offen lässt, merkt das sofort.

Skill-Suche und Effort-Placeholder — Filter-Suchbox in /skills, Skills können ${CLAUDE_EFFORT} referenzieren. Die Skill-Plattform reift in kleinen, nützlichen Schritten.

Quellen:

Agentic Coding: Cursor 3.1, Copilot Inline-Agent und der Stack-Mix wird Standard

Cursor 3.1 (Nachtrag, Mitte April: 3.1 am 13. April, Interactive Canvases am 15.) ergänzt das Agents-Window aus 3.0 um Interactive Canvases: durable Side-Panel-Artefakte mit Tabellen, Diagrammen, Diffs und Custom-Components. Cursor antwortet jetzt nicht mehr nur mit Text und Code, sondern baut Dashboards und Mini-Interfaces, die neben Terminal und Browser im Side-Panel persistent leben. Das ist die richtige Antwort auf eine Beobachtung, die mehrere Hosts gerade machen: Der Output eines längeren Agent-Laufs verträgt mehr als nur Markdown.

GitHub Copilot Inline Agent Mode (24. April) — Public Preview für JetBrains-IDEs. Agent-Capabilities aus dem Inline-Chat heraus, ohne in das Chat-Panel zu wechseln. Copilot positioniert sich klar in der „im IDE bleiben”-Ecke, während Claude Code Terminal-first und Cursor IDE-Rebuilt fährt.

The New Stack berichtet, dass Teams zunehmend alle drei parallel nutzen — Cursor für IDE-native Edits, Claude Code für Terminal-Workflows und Headless-Routinen, Codex für Browser- und Computer-Use. Das ist neu: Vor sechs Monaten war die Tooling-Frage „wer gewinnt?”. Jetzt ist sie „wie kombiniere ich?”.

Warum das relevant ist: Wer noch versucht, ein Tool für alles zu wählen, optimiert in die falsche Richtung. Die spannenden Setups bauen jetzt portable Skills, Hooks und Routines, die zwischen Hosts wandern können — genau dort, wo gh skill (siehe #003) ansetzt.

Quellen:

Trend der Woche

Big Tech doppelt nach: Googles 40-Milliarden-Wette auf Anthropic

Am 24. April hat Google bis zu 40 Mrd. $ Investment in Anthropic angekündigt — 10 Mrd. $ jetzt cash bei einer 350-Mrd.-$-Bewertung, weitere 30 Mrd. $ an Performance-Targets gekoppelt. Dazu: 5 Gigawatt Compute über fünf Jahre via Google Cloud, mit Option auf weitere Gigawatt. Das passiert nur vier Tage, nachdem Amazon zusätzliche bis zu 25 Mrd. $ committet hatte (5 Mrd. cash, 20 Mrd. an Milestones gekoppelt).

Die Choreographie ist bemerkenswert: Anthropic und Google sind gleichzeitig Partner und Konkurrenten — Gemini 3.1 Pro misst sich offen an Opus 4.7. Trotzdem zieht Google nach. Der Grund: Wer in der Coding-Agent-Schicht des Stacks führend bleiben will, muss die Compute-Allokation für die Modelle sichern, die Entwickler tatsächlich täglich benutzen. Anthropic ist genau das geworden — auch dank Claude Code.

Parallel hat Anthropic in der Woche drei weitere Expansionssignale gesetzt: Sydney als vierter APAC-Standort (27. April, Theo Hourmouzis von Snowflake als ANZ-GM), eine NEC-Partnerschaft in Japan mit Rollout an 30.000 Mitarbeiter und Aufbau einer der größten AI-native Engineering-Organisationen Japans (24. April), sowie Memorandum mit der australischen Regierung. Das zusammen mit den Investments ergibt das Bild: Anthropic positioniert sich für IPO als globale Plattform, nicht nur als Modell-Anbieter.

Quellen:

Kurz notiert

Google Cloud Next 2026 (22. April) — Konferenz unter dem Banner „Agentic Era”. Kevin Ichhpurani (President Global Partner Ecosystem) kündigt 750 Mio. $ für das 120k-Partner-Ökosystem an, um agentische Use-Cases zu beschleunigen. Google Cloud Press · BizTech
Cloudflare Agents Week (Nachtrag, 12.–20. April) — Vollständiger Stack-Push: Workers AI, AI Gateway, MCP-Hosting, Browser-Rendering. Im internen Engineering-Stack laufen pro Monat 241 Mrd. Tokens und 20 Mio. AI-Gateway-Requests durch die eigenen Produkte — gebaut auf dem, was sie auch verkaufen. Plattform-Konkurrenz für Anthropic und Google bekommt eine Edge-native Variante. Cloudflare Blog · Internal Stack-Daten
MIT Technology Review zu Agent Orchestration — Lesenswerter Überblick: Multi-Agent-Systeme als „Fließband-Moment” für White-Collar-Arbeit. Konkret namentlich erwähnt sind Claude Code (mit „a couple of dozen subagents” im Einsatz) und Claude Cowork (in zehn Tagen gebaut). Hauptsorge: unvorhersehbares LLM-Verhalten, sobald die Agenten aus dem Browser-Fenster heraus mit der echten Welt interagieren. MIT Tech Review
Simon Willison über Qwen3.6-27B — Alibabas neues 27-Mrd.-Dense-Modell erreicht Flagship-Coding-Performance lokal und schlägt das vorherige Open-Source-Flaggschiff Qwen3.5-397B-A17B. Open-Weight-Druck auf die Frontier-Labs steigt weiter. simonwillison.net

Nächste Ausgabe: Donnerstag, 7. Mai 2026

Feedback? Einfach kommentieren/antworten.

fluxum engineering

Diskussion über diese Post

Sind Sie bereit für mehr?