fluxum engineering: Agentic Weekly

Agentic Weekly #016 - „Nur überraschend, weil man bessere Sandboxes erwartet”

Martin Gross — Sun, 26 Jul 2026 13:12:08 GMT

So kommentiert ein Sicherheitsforscher den Vorfall, bei dem OpenAIs eigenes Modell ausbrach, um bei einen Benchmark zu schummeln - in derselben Woche, in der Anthropic mit Opus 5 kontert und seine IPO-Bewertung die Billion durchbricht.

Samstag, 25. Juli 2026 · Lesezeit ~11 Min.

Vorab eine Mitteilung zu ‘Agentic Weekly’ in eigener Sache:
Da die Zugriffszahlen hier auf meinem Blog im Vergleich zu LinkedIn niedrig sind, habe ich vor den Newsletter nur noch auf LinkedIn anstatt auf beiden Plattformen zu veröffentlichen. Daher bitte gerne ‘Agentic Weekly’ auf LinkedIn abonnieren.

Aber: Ich werde hier weiterhin Artikel und Deep Dives zu den Themen Agentic Engineering veröffentlichen. Formate, die vermutlich besser zu meinem Blog und zu Substack passen.

Wie GPT-5.6 Sol aus der eigenen Sandbox ausbrach — und was OpenAIs Absicherung nicht aufhielt

Am 16. Juli meldet Hugging Face einen Einbruch in die eigene Infrastruktur. Fünf Tage später, am 21. Juli, übernimmt OpenAI öffentlich die Verantwortung: Ein bereits ausgeliefertes Modell - GPT-5.6 Sol, mit für den Test eigens reduzierten Cyber-Sicherheitssperren - sowie ein unveröffentlichtes, leistungsstärkeres Vorabmodell hätten während eines internen Cybersecurity-Benchmarks namens ExploitGym (898 Testfälle aus realen Schwachstellen) ihre Sandbox verlassen. Die Modelle fanden dafür einen Zero-Day, eine bislang unbekannte, ungepatchte Sicherheitslücke, im eigenen Package-Registry-Cache-Proxy von OpenAI und verschafften sich damit Internetzugang. Von dort verketteten sie mehrere Angriffstechniken, darunter gestohlene Zugangsdaten und weitere Zero-Days, bis hin zu Remote Code Execution (RCE, dem Ausführen fremden Codes auf einem Zielsystem ohne physischen Zugriff) auf Produktionsservern von Hugging Face. Ziel: die eigene Lösungsdatenbank von ExploitGym stehlen, um im Benchmark zu schummeln.

Hugging Face fasst die Lage nüchtern zusammen: „Autonomous, AI-driven offensive tooling is no longer theoretical”. Autonomes, KI-gestütztes Angriffswerkzeug sei keine Theorie mehr. Die Sicherheitsfirma Noma Security beschreibt eine zusätzliche Wendung: Die eigenen kommerziellen KI-Werkzeuge weigerten sich während der Incident-Response-Analyse, den Angriffs-Payload zu untersuchen. Ihre Guardrails konnten nicht zwischen einem Verteidiger, der eine Bedrohung analysiert, und einem Angreifer, der sie baut, unterscheiden. Die Antwort: mitten in der Aufklärung haben sie auf Open-Weight-Modelle gewechselt, bei denen diese Guardrails nicht im Weg stehen.

Der Sicherheitsforscher Thomas Ptacek ordnet das ein:

„I genuinely believe that if you took an open weights model from 2025 and built a pentest harness for it, it could do this kind of sandbox escape and scan/hack in most networks. This is only surprising because you assume OpenAI has sounder sandboxes.”

Sinngemäß: Ptacek glaube, jedes Open-Weight-Modell aus 2025 hätte mit einem Pentest-Rahmenwerk dasselbe geschafft. Überraschend sei nur, dass man annehmen könnte, dass OpenAI bessere Sandboxes hätte. Vier Sicherheitsexperten (Dan Guido, Trail of Bits; Jake Williams; Daniel Card; Marteen Boone) am selben Tag bei TechCrunch: Was wie ein autonomer Ausbruch aussehe, sei in Wahrheit ein Sandbox-Design, das schlicht nicht für den Ernstfall gebaut war.

Warum das relevant ist: Ob man den Vorfall als Beleg für gefährliche Modell-Autonomie liest oder als Beleg für schlampiges Sandbox-Design. Beide Lesarten treffen denselben wunden Punkt: Es ist der erste öffentlich bestätigte Fall, in dem ein Frontier-Modell ohne Quellcode-Zugriff und ohne menschliche Anweisung eigenständig eine echte Zero-Day-Kette entdeckt und genutzt hat. Und es passiert ausgerechnet bei dem Lab, das die Sandbox gebaut hat und die das verhindern sollte.

Claude Opus 5

Während OpenAI seinen Sicherheitsvorfall erklärt, bringt Anthropic am 24. Juli Claude Opus 5 heraus - zum unveränderten Opus-Preis von 5 $ / 25 $ pro Million Tokens (Ein-/Ausgabe), Fast Mode zum doppelten Preis bei rund 2,5-facher Geschwindigkeit. Sofort verfügbar in claude.ai, der API, Claude Code (parallel erscheint v2.1.219, Details im Claude-Code-Abschnitt unten) und Claude Cowork; GitHub Copilot zieht laut eigenem Changelog am selben Tag nach.

Anthropic nennt Bestwerte auf mehreren Branchen-Benchmarks, darunter einen dreifach höheren Score als das nächstbeste Modell auf ARC-AGI 3 (einem Rätsel-Benchmark für generelles Problemlösen). Auffällig zurückhaltend bleibt Opus 5 dagegen bei Cyber-Exploitation-Aufgaben. Dort liegt es laut Anthropic weiterhin hinter dem stärker exportbeschränkten Mythos 5 (Anthropics potenterer, nur ausgewählten Partnern zugänglicher Modell-Variante) zurück, eine bewusste Design-Entscheidung, die im Licht der OpenAI-Geschichte oben fast wie eine Antwort wirkt. Kundenstimmen fallen euphorisch aus: Cognition-Chef Scott Wu (das Unternehmen hinter Devin) sieht Opus 5 „bei der Hälfte der Kosten” nah am Niveau von Fable 5 (Anthropics bisherigem Spitzenmodell), Zapier-CEO Wade Foster meldet die erste 100-Prozent-Bestwertung auf dem eigenen Automatisierungs-Benchmark.

Every-Autor Dan Shipper relativiert im „Vibe Check” umgehend: Opus 5 sei „ein armer Verwandter von Fable”. Es widerspreche Anweisungen, breche Aufgaben vorzeitig ab und vertrage sich schlecht mit bestehenden Skills, bis Everys Team seine Workflows komplett neu aufsetzte. Besser fahre man mit niedrigerem Denkaufwand als mit hohem.

Sicherheits-Woche: die vierte in Folge

Nach dem Dreifach-Vorfall und weiteren Sicherheitsfunden in den Vorwochen (#015) reihen sich diese Woche drei weitere frische Funde plus ein älterer Nachtrag ein. Der OpenAI/Hugging-Face-Vorfall oben eingerechnet, fünf.

„SharedRoot” (Oren Yomtov und Or Hiltch, Accomplish AI): Über den Kernel-Exploit CVE-2026-46331 (die standardisierte Kennung für öffentlich erfasste Schwachstellen) lässt sich aus Claude Cowork unter macOS ein Agent aus seiner Linux-VM-Sandbox befreien und erhält vollen Lese-/Schreibzugriff auf das gesamte Host-Dateisystem. Anthropic schloss den Report als „informativ, ohne Fix” - reagierte aber, indem Cowork standardmäßig auf Cloud-Ausführung umstellt; nur wer weiter lokal arbeitet, bleibt betroffen. Die Entdecker schätzen rund 500.000 betroffene macOS-Nutzer - eine Zahl, die bislang nur von Accomplish AI selbst stammt, nicht von Anthropic bestätigt.

„BioShocking” (LayerX): Sechs agentische Browser, darunter Claude-Plugin für Chrome, ChatGPT Atlas und Perplexity Comet, lassen sich über ein Fiktions-Framing austricksen: Eine Test-Website belohnt falsche Antworten (2+2=5) so lange, bis der Agent „Spiellogik” statt realer Sicherheitslogik anwendet und Zugangsdaten preisgibt. OpenAI behob die Lücke bei Atlas erfolgreich, Perplexity ließ den Bericht unbearbeitet liegen, und Anthropics Patch-Versuch für die Claude-Chrome-Erweiterung hielt laut LayerX im Test nicht.

Cursors lange ungepatchte Lücke wird zum Transparenz-Fall. Sicherheitsforscher Aaron Portnoy (Mindgard) legt offen: Die letzte Woche gemeldete git.exe-Ausführungslücke blieb über 197 Cursor-Releases hinweg offen, bevor sie überhaupt behoben wurde — und die Korrektur selbst kam ohne CVE oder Hinweis.

IssueTrojanBench (Ankur Singh, Jinqiu Yang, Tse-Hsun Chen): Ein Benchmark für indirekte Prompt-Injections über GitHub-Issues gegen Cursor, Claude Code und Codex Desktop findet in 4.176 Testläufen eine Erfolgsquote von 66,5 %, bei Supply-Chain-Angriffen sogar 96,6 %. Sonnet 4.6 (das Modell hinter Claude Code) erweist sich mit 41,1 % Anfälligkeit deutlich robuster als GPT-5.3 Codex (84,8 %) und GPT-5.4 (73,6 %).

Warum das relevant ist: Vier Wochen in Folge, jede mit eigenen Angriffsklassen bei mehreren Anbietern gleichzeitig. Aus dem Einzelfall ist längst ein strukturelles Muster geworden, kein Ausreißer mehr.

Anthropics IPO durchbricht die Billion

Investmentbanker behandeln laut Bloomberg eine Bewertung jenseits einer Billion Dollar inzwischen als Basisfall für Anthropics Börsendebüt. Ein deutlicher Sprung gegenüber den 965 Milliarden Dollar der offiziellen Serie-H-Runde vom Mai. Am Sekundärmarkt werden bereits 1,05 bis 1,2 Billionen Dollar gehandelt. Goldman Sachs, JPMorgan und Morgan Stanley führen seit Mitte Juli Investorengespräche; der vertrauliche S-1-Antrag (die Börsenzulassungs-Unterlage für US-Börsengänge) liegt seit dem 1. Juni vor, Nasdaq bleibt Ziel, ein Oktober-Termin ist möglich, aber nicht fixiert. Parallel verhandelt Anthropic über eine Ausweitung seiner bislang 2,5 Milliarden Dollar schweren Kreditlinien.

Warum das relevant ist: Das Überschreiten der Billion ist keine Formsache, sondern eine Größenordnung. Und es fällt in dieselbe Woche, in der Sicherheitsfunde bei gleich mehreren Anbietern zeigen, wie viel bei diesem Tempo auf der Strecke bleiben kann.

Claude Code: Die Highlights der Woche

Für alle, die Claude Code täglich nutzen

/verify und /code-review laufen nicht mehr automatisch (v2.1.215, 19. Juli) beide müssen künftig explizit aufgerufen werden, eine spürbare Verhaltensänderung für Vielnutzer.
Performance-Fix gegen quadratische Verlangsamung in langen Sessions, dazu sandbox.filesystem.disabled und /code-review als Hintergrund-Subagent (v2.1.216–218, 20.–22. Juli).

Für Multi-Agent- und Sicherheits-Workflows

v2.1.219 (24. Juli, zeitgleich mit Opus 5) bringt neben dem neuen Standardmodell ein striktes Sandbox-Netzwerk-Allowlist-Setting und erlaubt verschachtelte Subagenten jetzt bis Tiefe 3 statt vorher 1 (siehe oben).

Agentic Coding

Codex zieht bei Multi-Agent-Fähigkeiten nach - v0.145.0 (21. Juli) bringt Sub-Agent-Support, ein „Memories” genanntes Gedächtnis, paginierte Thread-Historie mit effizientem Wiederaufsetzen, Bedrock-Anbindung und Audio-Input.

Cursor Router (22. Juli) lässt Auto Mode (Cursors automatische Modellauswahl je nach Aufgabe) Anfragen jetzt modellübergreifend nach Intelligence-, Balance- oder Cost-Profil verteilen, inklusive Admin-Kontrollen für Teams — standardmäßig aktiv auf dem Teams-Plan.

Amp liefert im Wochentakt: Sourcegraphs Coding-Agent bringt binnen sieben Tagen sieben Feature-Drops: umgebungsübergreifendes Agent-zu-Agent-Spawning, Abo-Preismodell, Slack-Integration samt „Puck”-Assistent, selbstplanende Agenten, Mehrspieler-Kollaboration und webhook-getriggerte Workflows.

Cline meldet mit rekursiver Selbstverbesserung über das chinesische Modell Kimi K3 88,8 % auf Terminal-Bench 2.1 (einem Benchmark für Terminal-/CLI-Aufgaben) - zu einem Bruchteil der üblichen Kosten (siehe China-Ökonomie unten). Und Google Antigravity CLI (v1.1.6) lässt sich Custom Agents jetzt per Markdown-Datei mit YAML-Kopfzeile definieren. Dieselbe Konvergenz-Bewegung, die Cursor und Amp gerade parallel fahren.

China-Modelle-Ökonomie

Drei unabhängige Einordnungen landen in derselben Woche und ziehen in dieselbe Richtung. Ben Thompson (Stratechery) argumentiert in „Who’s Afraid of Chinese Models?”: Intelligenz wird zur Commodity, entscheidend ist die Kostenstruktur (COGS - Cost of Goods Sold, die reinen Herstellungskosten), nicht die Modellherkunft. Er plädiert für eine Lockerung der behördlichen Cybersecurity-Nutzungsbeschränkungen für Fable und Sol und warnt, dass US-Verteidiger dadurch selbst auf chinesische Modelle angewiesen blieben.

Das Handelsblatt-KI-Briefing spiegelt dieselbe Debatte aus deutscher Perspektive, ergänzt um ein Gespräch mit OpenAIs Strategiechef Jason Kwon.

Den konkreten Beleg liefert der Kimi-K3-Fund von Cline oben: Ein offenes chinesisches Modell erreicht Frontier-Ergebnisse zum Bruchteil der Kosten. Das Argument, das Thompson abstrakt beschreibt, wird hier praktisch vorgeführt.

Wer keine Verifizierbarkeit hat, hat keine Autonomie

Systima meint „The Subagent Tax. Claude Code Fan-Outs Cost Up to 5.9x the Tokens, and Were Never Faster“ und misst Subagent-Kosten per Logging-Proxy: Multi-Agent-Fan-out kostet in ihren Läufen 2,6- bis 5,9-mal mehr Tokens als sequenzielle Ausführung. Der Multi-Agent-Ausbau, den Amp und Codex diese Woche vorlegen (siehe oben), trifft damit auf einen Kosten-Einwand, der nicht kleiner wird, nur weil die Werkzeuge mehr können.

Addy Osmani meint: Nicht die Codeerzeugung ist der Flaschenhals für Agenten-Autonomie, sondern ihre Verifizierbarkeit. Dex Horthy ließ eine „Factory” vier Monate autonom laufen, bevor eine wachsende „Comprehension Debt”, angehäufte, nie wirklich verstandene Komplexität, kritisch wurde.

Mein Einspruch zu Systimas Subagent-„Steuer“: Der Mechanismus stimmt: jeder Subagent ist im Kern eine neue Instanz, die ihren gesamten Startaufwand neu bezahlt, bevor sie etwas beiträgt. Dieser Fixkosten-Sockel ist real.

Aber die Zahlen tragen die Zuspitzung im Titel nicht: Getestet wurde eine winzige Aufgabe, nur ein Durchlauf pro Szenario, bei wenig Nutzarbeit muss der Kostensockel dominieren, er kann nicht anders. Und „nicht schneller” stimmt nicht: Bei einem Modell machten mehr Subagents den Lauf schneller, bei einem anderen deutlich langsamer — bei einer Messung pro Fall ist das Rauschen, kein Befund. Fairerweise: Systima benennt diese Schwächen selbst, ungewöhnlich offen. Nur die Headline hält der eigenen Redlichkeit nicht stand.

Was bleibt: Fan-out ist keine kostenlose Parallelisierung, sondern ein Tausch von Token gegen Kontext-Sauberkeit. Bei abhängigen Teilaufgaben ist das ein schlechter Tausch, bei unabhängiger Arbeit ein guter. Und wer Subagents auf ein günstigeres Modell pinnt statt das teure Parent-Modell erben zu lassen, zahlt weniger: eine Empfehlung, die man sofort umsetzen kann.

Warum das relevant ist: Beide Texte zeigen dieselbe Rechnung von zwei Seiten. Mehr Agenten parallel verschieben die Kosten in die Token-Bilanz, längeres autonomes Laufen verschiebt sie in die Verifizierbarkeit. Bezahlt wird in beiden Fällen, nur an unterschiedlicher Stelle.

Tipp der Woche

Bei einem Fireside Chat auf der AI Engineer World’s Fair, den Simon Willison am 21. Juli in einem Recap-Post aufgreift, verraten zwei Mitglieder des Claude-Code-Teams, Cat Wu und Thariq Shihipar, dass Claude Tag (Anthropics persistenter Claude-Assistent in Slack) rund 65 % der Product-Engineering-Pull-Requests des eigenen Teams abdeckt: Anthropic testet neue Features zuerst an sich selbst. Bemerkenswerter ist ein zweiter Punkt: Der System-Prompt von Claude Code wurde um 80 % gekürzt. Thariq dazu:

„Removing examples was extremely helpful, because it was just more creative than the examples we gave it.”

Sinngemäß: Das Entfernen von Beispielen half enorm, weil das Modell ohne sie kreativer war als mit den Beispielen.

Warum das hier steht: Direkt anwendbar für alle, die eigene Skills oder Subagenten bauen — die Zurückhaltung mit Beispielen ist eine ungewöhnliche, aber sinnvolle Antwort für Skills. Beispiele werden in Zukunft eher einschränken anstatt zu helfen, da sie den Lösungsraum einengen.

Kurz notiert

SpaceX-Aktie fällt seit dem IPO-Start um 25,5 %:
ein Post-IPO-Realitätscheck, während Anthropic seinen eigenen Börsengang erst vorbereitet.
EU-KI-Verordnung: Transparenzpflichten nach Art. 50 greifen ab 2. August: Kennzeichnungspflicht für Chatbots, Deepfakes und KI-generierte Inhalte, Bußgelder bis 15 Mio. €.
OpenAI beruft David Vélez (Nubank) und Robin Vince (BNY) in seine Boards:
Vince übernimmt den Vorsitz des Audit Committee, ein klares Governance-Signal vor einem möglichen eigenen Börsengang.
OpenAI-Dienste fallen erneut aus:
vierter Vorfall binnen vier Tagen, Mitigation nach rund einer Stunde, keine offizielle Ursachenerklärung.
Europas Souveränitäts-Woche bei den Konzernen:
Microsoft mietet KI-Rechenkapazität von Mistral und bringt dessen Modelle in Copilot; SAP übernimmt das Freiburger Startup Prior Labs für über eine Milliarde Euro.

Quellen

Die große Nachricht der Woche: Hugging Face — Security Incident Update · OpenAI — Incident Report · Simon Willison — Analyse · The Register · Noma Security · Simon Willison — Ptacek-Zitat · TechCrunch — Gegenposition

Claude Opus 5: Anthropic — Introducing Claude Opus 5 · GitHub Changelog — Opus 5 in Copilot · Every — Vibe Check: Opus 5

Sicherheits-Woche: Claude Cowork Flaw (SharedRoot) · LayerX — BioShocking · The Hacker News — BioShocking · Mindgard — Cursor 0day: Full Disclosure · IssueTrojanBench (arXiv 2607.20759)

Anthropics IPO: CNBC — Anthropic moves closer to mega-IPO · Winbuzzer — Anthropic Seeks Billions in Bank Credit

Claude Code: Changelog · GitHub Releases

Agentic Coding: Codex Changelog · Cursor Changelog · Amp Updates · Cline Blog · Antigravity CLI Releases

China-Modelle-Ökonomie: Stratechery — Who’s Afraid of Chinese Models? · Exponential View — Will Kimi K3 change the economics of AI?

Trend der Woche: Systima — The Subagent Tax · Addy Osmani — Software Factories, Light and Dark

Tipp der Woche: Simon Willison — A Fireside Chat with Cat and Thariq

Kurz notiert: The Motley Fool — SpaceX Outlook · datenschutzticker.de — KI-Verordnung Transparenzpflichten · OpenAI — David Vélez and Robin Vince join OpenAI boards · TheNextWeb — OpenAI outage · Microsoft strikes deal for Mistral’s AI computing power · SAP kauft KI-Startup Prior Labs · Terence Tao — A digestion of the Jacobian conjecture counterexample

Das war Agentic Weekly #016. Danke fürs Lesen.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter.

Fragen, Anmerkungen oder Kritik? Antworte einfach auf diese Mail oder hinterlasse einen Kommentar.

Agentic Weekly #015 — Wenn der Agent tut, was er darf, aber nicht sollte

Martin Gross — Sat, 18 Jul 2026 11:15:08 GMT

Drei unabhängige Sicherheitsvorfälle in einer Woche zeigen, wie viel Vertrauen Coding-Agenten inzwischen genießen — während Anthropics IPO-Roadshow beginnt und eine Kostenanalyse zeigt, warum Claude Code deutlich mehr kostet als gedacht.

Juli 2026 · Lesezeit ~9 Min.

Drei Anbieter, drei Sicherheitslücken, eine Woche

Drei unabhängige Vorfälle innerhalb knapp einer Woche zeigen dasselbe Muster: Coding-Agenten bekommen mehr Vertrauen zugesprochen, als sie verdienen — und niemand hat das vorher bemerkt.

Grok Build lud komplette Repositories hoch. xAIs Coding-Agent Grok Build hat in Version 0.2.93 unbemerkt Inhalte eines 12-Gigabyte-Testrepositorys inklusive .env-Dateien und SSH-Schlüsseln in einen Google-Cloud-Speicher hochgeladen — mindestens 5,1 Gigabyte sind nachweislich angekommen. Ein „Improve the model”-Schalter, der genau das hätte verhindern sollen, stoppte den Upload nicht. Eine Wire-Level-Analyse (eine Untersuchung des tatsächlichen Netzwerkverkehrs) machte den Fund am 14. Juli publik; einen Tag später veröffentlichte xAI den kompletten Grok-Build-Code — 844.530 Zeilen Rust — als Open Source unter Apache 2.0, nachdem es die automatische Datenübertragung per Server-Flag deaktiviert hatte. Der problematische Upload-Code selbst blieb im Quellbaum stehen.

Cursor führte Code aus, ohne zu fragen — und schwieg dann. Sicherheitsforscher Aaron Portnoy (Mindgard) deckte am 14. Juli auf, dass Cursor eine git.exe im Repo-Root ausführt, ohne vorher zu fragen — seit Dezember 2025 gemeldet, aber von HackerOne als „out of scope” eingestuft. Cursor hatte den Fehler bereits am 13. Juli still gepatcht, ohne Sicherheitshinweis, CVE-Nummer (die standardisierte Kennung für öffentlich erfasste Schwachstellen) oder Versionsangabe — öffentlich bekannt wurde das erst am 17. Juli, durch Presseanfragen. Schweigend zu patchen ist kaum transparenter als gar nicht zu patchen.

Claude folgte Links, die es nicht hätte folgen sollen. Sicherheitsforscher Ayush Paul zeigte bereits am 9. Juli, dass Claudes web_fetch-Werkzeug über verkettete Honeypot-Links (präparierte Köder-URLs, die das Weiterklick-Verhalten des Modells testen) Nutzerdaten wie Namen, Wohnort und Arbeitgeber ausleiten konnte. Anthropic bestätigte, das Problem intern bereits gekannt, aber noch nicht behoben zu haben, und entzog dem Modell die Fähigkeit, Links auf bereits abgerufenen Seiten zu folgen — eine Bug-Bounty-Zahlung erfolgte nicht.

Zwei Gegenbewegungen: Diese Woche wurde bekannt, dass Codex die Prompts zwischen Haupt- und Unteragenten bereits seit Juni verschlüsselt — eine Vorabmaßnahme gegen Prompt-Lecks in Multi-Agent-Ketten, deren Nebenwirkung auf die Audit-Lesbarkeit gerade erst öffentlich diskutiert wird. Und Cloudflare bringt mit „Precursor” eine Verhaltenserkennung, die Menschen über eine ganze Session hinweg anhand von Maus- und Tastaturmustern von Agenten unterscheidet.

Warum das relevant ist: Datenexfiltration, unautorisierte Ausführung und ausufernde Tool-Rechte sind dieselben Kategorien wie in den Wochen zuvor, nur diesmal bei drei unabhängigen Anbietern innerhalb knapp einer Woche. Nach der Agentjacking-Ausweitung und #014s GhostApproval- und GitLost-Befunden ist das die dritte Woche in Folge mit einem substanziellen Agentic-Permission-Vorfall — inzwischen ein Muster, kein Ausreißer.

Googles teuerstes Coding-Problem

Am 16. Juli berichtet Bloomberg, dass Google sein Flaggschiff-Modell Gemini 3.5 Pro verschiebt — Monate hinter dem eigenen Zeitplan, weil die Coding-Fähigkeiten hinter den internen Zielen zurückbleiben. Ende Juni hatte Google die Trainingsdaten angepasst, um genau das zu verbessern; das Ergebnis enttäuschte laut Bericht auch danach. Die schwächere Flash-Variante war bereits im Mai auf der I/O-Konferenz vorgestellt worden, mit Juni als Zieltermin für die Pro-Version — der Termin ist seither verstrichen, ohne neuen Zeitplan.

Pikant: Google-Ingenieure sollen intern verstärkt KI-gestützt entwickeln, stoßen dabei aber laut Bericht auf Kapazitätsengpässe, weil die eigene Rechenleistung unternehmensweit umkämpft ist. Die Nachricht kostete Alphabet rund 200 Milliarden Dollar Marktkapitalisierung — ein Einbruch, der zeigt, wie unmittelbar Investoren Coding-Fähigkeit inzwischen als Wettbewerbsindikator lesen.

Warum das relevant ist: Sonnet 5, Opus 4.8 und GPT-5.6 haben die Messlatte für Coding-Qualität in den letzten Monaten mehrfach angehoben — und Google fällt bei genau dieser Messlatte zurück, während die eigenen Ingenieure die Konkurrenzmodelle im Alltag im Blick haben. Der Markt bepreist das nicht als Verzögerung, sondern als Rückstand.

Die Kapitalmarkt-Woche

Drei Bewegungen und ein unbestätigtes Gerücht zeigen, wie viel Geld gerade in Richtung Agentic Coding fließt.

Anthropics IPO-Roadshow beginnt. Seit dem 15. Juli sondieren Goldman Sachs, JPMorgan und Morgan Stanley Investorennachfrage vor der formellen Roadshow — ein öffentlicher S-1-Antrag (die Börsenzulassungs-Unterlage für US-Börsengänge) wird für August oder September erwartet, Preisfestsetzung im Oktober oder November, Nasdaq als Ziel. Die Bewertung bleibt bei 965 Milliarden Dollar aus der Serie-H-Runde vom Mai; parallel verhandelt Anthropic über eine Ausweitung seiner bislang 2,5 Milliarden Dollar schweren Kreditlinien.

Ode with Anthropic geht offiziell an den Start. Das im Mai gegründete Joint Venture — Anthropic, Blackstone, Hellman & Friedman und Goldman Sachs, 1,5 Milliarden Dollar — soll Unternehmen bei der praktischen Einführung von KI-Agenten begleiten. Ode-Chef Chris Taylor:

„It’s pretty easy to imagine this as a trillion-dollar company someday if we execute well.”

Sinngemäß: Es sei leicht vorstellbar, dass daraus bei guter Ausführung eines Tages ein Billionen-Dollar-Unternehmen wird.

Databricks erhöht seine Bewertung auf 188 Milliarden Dollar (Coatue-Runde, +40 % gegenüber Februar), und das AI-Coding-Startup Emergent wird zum Unicorn — 1,5 Milliarden Dollar Bewertung, versus 300 Millionen Dollar im Januar, bei 120 Millionen Dollar Jahresumsatz und über 200.000 zahlenden Kunden. Am Rand, unbestätigt: Laut New York Times verhandelt Meta, Anthropic für bis zu 10 Milliarden Dollar Rechenkapazität zu vermieten — beide Seiten äußerten sich nicht, ein frühes Stadium ohne Zusage.

Warum das relevant ist: Nach der Compute- und Governance-Woche der letzten Ausgabe liefert diese Woche die ersten konkreten Kapitalmarkt-Termine — das Geld, das in Agentic Coding fließt, übersetzt sich in Fristen und Bewertungen statt in bloße Ankündigungen.

Claude Code: Die Highlights der Woche

Für Sicherheits- und Team-Admins

v2.1.214 behebt mehrere reale Permission-Bypässe (Windows PowerShell 5.1, Bash-Umleitungsformen, Zsh-Vergleiche, Docker-Daemon-Flags) und bringt EndConversation: Claude kann eine Session bei Jailbreak-Versuchen selbst beenden — ein Verhalten, das claude.ai schon seit 2025 kennt.
Budget-Grenzen für Sessions — v2.1.212 begrenzt WebSearch-Aufrufe und Subagent-Spawns pro Session (Standard je 200), verschiebt lange MCP-Tool-Aufrufe automatisch in den Hintergrund, und /fork startet direkt eine Hintergrund-Session.

Für alle, die Claude Code täglich nutzen

Sandbox-Browser in der Desktop-App — eigenes Browser-Profil ohne gespeicherte Logins, Schreibaktionen laufen durch einen Klassifizierer. Ergänzt „Claude in Chrome GA” aus #013 um eine Desktop-eingebettete Variante.
Kleinere Nachzügler: Login-Expiry-Warnung, erweitertes Auto-Allow für git push, Namensreservierung „Claude Browser”.

Agentic Coding

GitHub automatisiert Sicherheits-Fixes. „Agentic Autofix for Code Scanning Alerts” (Public Preview) lässt einen Agenten CodeQL-Alerts eigenständig beheben — Erkundung, Fix, Re-Validierung, Draft-PR in zwei bis vier Minuten. Ein Gegenpol zu den drei Vorfällen oben: Der eine Anbieter automatisiert Absicherung, während anderswo Lücken entstehen.
Cursor baut in Richtung Slack aus — Plan-Vorschau vor Arbeitsbeginn, Multi-Repo-Support, kanalübergreifende Workflows.
Cline liefert im Wochentakt — die Haupt-Extension v4.0.9 bringt GPT-5.6-Support, CLI v3.0.43 automatisches Vertrauen des Betriebssystem-Zertifikatsspeichers (Corporate-Proxy-Setups).
Copilot legt eine Sicherheitswoche nach — Visual-Studio-Juni-Update, erweitertes BYOK für JetBrains, KI-Sicherheits-Erkennungen direkt in Pull Requests.

Trend der Woche: Was ein Agent wirklich kostet — und wer die Kontrolle behält

Zwei methodisch saubere Kostenmessungen, ein neuer Fachbegriff und ein Kontrapunkt landen in derselben Woche — zusammen ein Bild davon, wie teuer Autonomie wirklich ist und wer am Ende dafür geradesteht.

Die Zahlen. Systima misst per Logging-Proxy: Claude Code verbraucht rund 33.000 Tokens, bevor der erste Prompt überhaupt verarbeitet wird — 4,7-mal mehr als das Konkurrenzwerkzeug OpenCode, vor allem wegen eines deutlich längeren System-Prompts; Subagent-Delegation treibt die Gesamtkosten einer Aufgabe auf mehr als das Vierfache. Databricks kommt auf der eigenen Multi-Millionen-Zeilen-Codebase zu einem verwandten Befund: GLM 5.2 erreicht die Qualität von Opus 4.8 bei zwei Dritteln der Kosten, während Sonnet 5 trotz günstigerem Token-Preis teurer pro Aufgabe ist als Opus, weil es mehr Kontext verbraucht. Güte pro Dollar hängt offenbar stärker vom Werkzeug drumherum ab als vom Modellpreis selbst.

Der neue Begriff. Gergely Orosz nennt das, was sich daraus ergibt, „Loop Engineering” — die bewusste Gestaltung des Kreislaufs aus Planen, Ausführen und Prüfen, nicht nur des einzelnen Prompts. Boris Cherny, der bei Anthropic Claude Code leitet, bringt es auf den Punkt: Er prompte Claude nicht mehr, sein Job sei es, Loops zu schreiben.

Der Kontrapunkt. Andrew Kelley, Schöpfer der Programmiersprache Zig, legt beim Bun-Rewrite aus der letzten Ausgabe nach: The Register betitelt seine ausführlichere Fassung „unreviewed slop”; seine Frage, wie eine Test-Suite unbeaufsichtigten Rust-Code prüfen soll, wenn sie schon Bugs im ursprünglichen Zig-Code übersehen hat, bleibt unbeantwortet. Ray Myers verschärft in einem eigenen Beitrag: Er selbst habe mit einem hybriden Ansatz 50 Bugs in der Zig-Version von Bun gefunden — reines KI-Vorgehen reiche eben nicht. Simon Willison zieht die Grenze grundsätzlicher: Mit Verweis auf ein IBM-Zitat von 1979 — ein Computer könne nie zur Verantwortung gezogen werden, dürfe deshalb nie eine Management-Entscheidung treffen — muss Verantwortung strukturell menschlich bleiben, unabhängig vom Autonomiegrad.

Wie wenig diese Grenze in der Praxis gezogen wird, zeigt eine Studie von SAP und Oxford Economics unter 2.600 Führungskräften: Nur elf Prozent halten ihre eigene Governance für ausreichend, 57 Prozent haben keinen Human-Oversight-Prozess für agentische Workflows, 71 Prozent nutzen ungenehmigte „Schatten-KI”. Ein Gegenbeispiel zeigt, dass die Frage lösbar ist: Fields-Medaillist Terence Tao portierte binnen Stunden zwei Dutzend Java-Applets aus dem Jahr 1999 mit einem Coding-Agenten nach JavaScript und fand zwei bislang unbekannte Bugs im Original — betont aber, dass alle High-Level-Design-Entscheidungen bei ihm blieben, nur die Low-Level-Syntax beim Agenten.

Warum das relevant ist: Wer Loop Engineering betreibt, wie Systima und Databricks es vorrechnen, spart Geld. Wer dabei gleichzeitig die Verantwortung abgibt, wie die SAP-Studie es für die Mehrheit der Unternehmen beschreibt, spart am falschen Ende.

Tipp der Woche

Claude Code kann seit einigen Versionen ein zweites, stärkeres Modell als „Advisor” (Berater) hinzuziehen: Das Hauptmodell konsultiert es an Entscheidungspunkten — vor einem Ansatzwechsel, bei wiederkehrenden Fehlern, vor Abschluss einer Aufgabe. Aktivierbar über /advisor, die Einstellung advisorModel oder das Flag --advisor; das Hauptmodell entscheidet selbst, wann es fragt.

Mein Fazit: Viele Aufgaben brauchen gar kein Top-Modell — das spart spürbar Kosten und Zeit, und bei Bedarf springt automatisch ein stärkeres Modell ein, bei mir meist von Sonnet 5 zu Opus 4.8. Was fehlt: Transparenz darüber, wann und warum genau eskaliert wird.

Warum das hier steht: Der Advisor ist die eingebaute Antwort auf ein Muster, das hier schon als manueller Tipp lief — ein starkes Modell entscheidet die Richtung, ein günstigeres führt aus. Jetzt übernimmt Claude Code die Eskalations-Entscheidung selbst.

Kurz notiert

Bundestags-Gutachten: Open-Source-First bei öffentlicher Beschaffung ist vergaberechtlich zulässig — die Wissenschaftlichen Dienste bestätigen, dass sich Behörden in Ausschreibungen auf Open-Source-Software festlegen dürfen. Peter Ganten (Vorsitzender, Open Source Business Alliance): „Das Gutachten macht unmissverständlich klar, dass öffentliche Stellen sich in ihren Ausschreibungen auf Open-Source-Software festlegen können.”
Nur 0,7 % der Stellenanzeigen der öffentlichen Verwaltung nennen KI-Kompetenz — Privatwirtschaft 1,5 %, 43 % der Landkreise ganz ohne KI-Stellenanzeige (IW Köln, 13 Mio. ausgewertete Anzeigen).
Tom Blomfield (Mitgründer Monzo) wechselt zu Anthropics Compute-Team — nimmt dafür eine Auszeit als Group Partner bei Y Combinator, arbeitet künftig mit Compute-Chef Tom Brown zusammen.
DeepSeek strebt 74-Milliarden-Dollar-Bewertung an — nur Wochen nachdem die erste externe Finanzierungsrunde (Tencent/CATL) das Unternehmen bereits auf rund 63 Mrd. $ bewertet hatte, plus Vorbereitung für einen Börsengang an Shanghais STAR Market.

Das war Agentic Weekly #015. Danke fürs Lesen — die nächste Ausgabe kommt am Samstag, 25. Juli 2026.

Hinter Agentic Weekly steckt Martin Gross: wöchentlich ein kompakter, meinungsstarker Überblick zu Agentic Engineering, Agentic Coding und Claude Code.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter.

Quellen

Drei Anbieter, drei Sicherheitslücken, eine Woche: Simon Willison — xai-org/grok-build now open source · Cereblab Gist — wire-level analysis · x.ai — Grok Build is now open source · TechTimes — privacy toggle did nothing · Mindgard — Cursor 0day · Dark Reading — Cursor IDE Auto-Executes Malicious Code in Poisoned Repos · Ayush Paul — The Memory Heist · GitHub — openai/codex#28058 · Cloudflare — Introducing Precursor

Googles teuerstes Coding-Problem: Bloomberg — Google Gemini Launch Delayed · CNBC — Alphabet shares fall on Gemini delay

Die Kapitalmarkt-Woche: CNBC/startuphub.ai — Anthropic IPO roadshow begins · Investing.com — Anthropic 2026 IPO · CryptoBriefing — Anthropic targets IPO by October 2026 · TechCrunch — Ode with Anthropic · Bloomberg — Databricks $188B · TechCrunch — Emergent becomes a unicorn · DealStreetAsia — Emergent · CNBC — Anthropic in early talks with Meta · Bloomberg — Meta in Talks to Sell Computing Power to Anthropic

Claude Code: Changelog · the-decoder.de — Claude Code Browser

Agentic Coding: GitHub Changelog — Agentic Autofix · Cursor Changelog · Cline Releases · GitHub Blog Changelog

Trend der Woche: Systima — Claude Code vs OpenCode token overhead · Databricks Engineering — Benchmarking Coding Agents · Pragmatic Engineer — What is loop engineering? · The Register — Zig creator calls Bun’s rewrite unreviewed slop · Andrew Kelley — My thoughts on the Bun Rust rewrite · Ray Myers — Zig Creator Calls Spade a Spade · Simon Willison — Directly Responsible Individuals · heise — SAP Value of AI Report · Terence Tao — Old and new apps via modern coding agents

Tipp der Woche: Claude Code Docs — Escalate hard decisions with the advisor tool

Kurz notiert: OSBA — Bundestags-Gutachten schafft Klarheit · HASEPOST — Studie: Öffentliche Verwaltung verpasst Anschluss · Sifted — Anthropic recruits Tom Blomfield · techfundingnews.com — Tom Blomfield · Bloomberg — DeepSeek mulls new funding · techstartups.com — DeepSeek $74B valuation

Agentic Weekly #014 — 64 Agenten, ein Rewrite in elf Tagen

Martin Gross — Sun, 12 Jul 2026 16:38:57 GMT

In elf Tagen schreiben 64 Agenten den Kern von Bun von Zig auf Rust um — der bislang konkreteste Beleg, wie weit agentische Autonomie in der Praxis reicht. Dazu eine Compute- und Governance-Woche bei Anthropic, GPT-5.6 wird günstiger und breit verfügbar, während Fable 5 zum Aufpreis wird, gleich fünf Sicherheitsbefunde auf einmal — und Deutschland bekommt sein KI-Gesetz.

Juli 2026 · Lesezeit ~10 Min.

Bun in elf Tagen von Zig auf Rust — mit 64 Agenten parallel

Jarred Sumner, Kopf hinter der JavaScript-Runtime Bun, hat den Kern seines Projekts in elf Tagen von der Systemsprache Zig auf Rust umgeschrieben — nicht von Hand, sondern mit Claude Code und einer Vorabversion von Claude Fable 5, Anthropics Spitzenmodell. Simon Willison hat den Bericht aufgegriffen; die Zahlen sind der Grund für die Wellen.

6.502 Commits, 5,9 Milliarden Input-Tokens, bis zu rund 64 parallel arbeitende Agenten — am Ende 60.624 grüne Tests bei 1,39 Millionen einzelnen Prüfungen. Es ist die bislang größte öffentlich mit Zahlen belegte agentische Umschreibung eines produktiven Open-Source-Projekts (auf Hacker News über 750 Punkte).

Die schärfste Gegenstimme kommt einen Tag später von Andrew Kelley, dem Schöpfer von Zig: Der Wechsel sei gar kein Sprachproblem gewesen. Bun habe Zig nicht verlassen, weil die Sprache technisch nicht getaugt hätte, sondern weil die Beziehung zwischen Projekt und Sprach-Ökosystem nicht funktioniert habe — ein Management-Problem, kein technisches.

Warum das relevant ist: Die Frage aus #013 — nicht ob, sondern wie viel Autonomie — bekommt hier ihren konkretesten Praxisbeleg. Und Kelleys Einwand hält die Geschichte ehrlich: Die Agenten haben die Fleißarbeit gelöst; die Entscheidung, überhaupt umzuschreiben, traf ein Mensch aus Gründen, die mit Rust wenig zu tun hatten.

Claude Code: Die Highlights der Woche

Für alle, die Claude Code täglich nutzen

/doctor wird zum vollständigen Setup-Checkup — v2.1.205 macht aus der Diagnose einen vollständigen Setup-Checkup, v2.1.206 ergänzt den Vorschlag, eine aufgeblähte CLAUDE.md zu kürzen. Dazu ein sichtbares Manual-Mode-Badge, und /review kehrt zum schnellen Single-Pass zurück (der Multi-Agent-Review bleibt unter /code-review).

Für CI/CD und Plattform-Betrieb

Auto Mode ohne Opt-in auf den großen Cloud-Plattformen — v2.1.207 (am Erscheinungstag dieser Ausgabe) aktiviert den Auto Mode (in dem Claude selbst entscheidet, welche Aktionen ohne Rückfrage durchlaufen) standardmäßig ohne Opt-in auf Amazon Bedrock, Google Vertex AI und Microsoft Foundry; auf Bedrock, Vertex und der Claude Platform on AWS wechselt zugleich das Default-Modell auf Opus 4.8. Im selben Release ein Fix gegen Shell-Injection über Plugin-Hooks, Monitors und den MCP-headersHelper (MCP = Model Context Protocol, der Standard, über den Agenten externe Tools anbinden).

Agentic Coding

Codex CLI wird an GPT-5.6 gekoppelt. v0.143 bis v0.144.1 aktivieren Remote-Plugins (über einen npm-Marktplatz) standardmäßig, bringen eine Amazon-Bedrock-Anbindung für die neuen GPT-5.6-Modelle und einen writes-Freigabemodus, der Lese- und Schreibrechte trennt.
Cursor 3.11 bringt „Side Chats” — parallele Nebenchats neben der Hauptkonversation — plus Volltextsuche über Agent-Transkripte. Inkrementell, kein Paradigmenwechsel.
Amp „Agents Anywhere”. Sourcegraphs Amp startet Remote-Agenten jetzt auf beliebigen Maschinen (Laptop, Server, Cloud, Raspberry Pi) und bringt einen Headless-Runner (amp --no-tui). Dieselbe Bewegung wie Claude Codes Hintergrund-Agenten: Agenten laufen überall, nicht nur in der IDE.

Anthropics Compute- und Governance-Woche

Zwei echte Juli-Ereignisse zeigen, wie Anthropic seine Rechen- und Governance-Basis vor dem geplanten Börsengang verbreitert. Am 6. Juli unterzeichnet der Bitcoin-Miner TeraWulf einen 20-Jahres-Vertrag mit Anthropic über den „Justified Data”-Campus in Hawesville, Kentucky: rund 401 MW IT-Last, Vertragswert etwa 19 Mrd. $, Kapazität ab der zweiten Jahreshälfte 2027.

Am 9. Juli tritt Ben Bernanke dem Long-Term Benefit Trust bei — der Stiftung, die Anthropics Governance gegen kurzfristigen Investorendruck absichern soll. Dass der frühere Fed-Vorsitzende und Wirtschaftsnobelpreisträger von 2022 dort einzieht, ist ein deutliches Signal Richtung Wirtschafts- und Regierungsnähe.

Der Kontext dazu stammt aus dem Juni: das bereits Anfang Juni angekündigte 35-Mrd.-$-Finanzierungspaket von Apollo und Blackstone, dessen Debt-Tranchen jetzt in den Handel gehen — eine Zweckgesellschaft kauft damit Google-TPUs (Googles KI-Beschleuniger-Chips) und verleast sie an Anthropic. Und SemiAnalysis schätzt Anthropics Profit im dritten Quartal 2026 auf über 1 Mrd. $ — in einer Analyse, die Claude Code als einen der Wachstumstreiber nennt.

Warum das relevant ist: Rechenzentren, Kapital und Governance-Namen werden vor dem IPO gleichzeitig aufgebaut — und SemiAnalysis liefert erstmals eine belastbare Profit-Schätzung für diese Phase.

GPT-5.6 wird allgemein verfügbar — und Fable 5 wird zum Aufpreis

Zwei Preisbewegungen in derselben Woche, in entgegengesetzte Richtung.

Die Preisantwort. Nach zwei Wochen Limited Preview — zunächst nur für rund zwanzig Partner — schaltet OpenAI am 9. Juli die GPT-5.6-Familie (Sol, Terra, Luna) allgemein frei, gleichzeitig in Codex, ChatGPT, der API und GitHub Copilot (mit Admin-Opt-in). Die Preise, gestaffelt nach Modell: Sol 5 $ / 30 $, Terra 2,50 $ / 15 $, Luna 1 $ / 6 $ pro Million Tokens. Neu sind Programmatic Tool Calling (der Aufruf von Werkzeugen direkt aus dem generierten Code) und konfigurierbare Reasoning-Effort-Stufen — ein aggressiver Zug gegen Sonnet 5.

Der Konter. Anthropic geht den umgekehrten Weg: Der Zugang zu Fable 5, bislang in den zahlenden Claude-Plänen enthalten (auch in Claude Code), wird auf nutzungsbasierte Credits umgestellt — zum regulären GA-Tarif von 10 $ / 50 $ pro Million Tokens, dem Preis, zu dem Fable 5 im Juni startete. Neu ist nicht die Zahl, sondern das Modell: aus „im Plan enthalten” wird „extra bezahlt”. Der ursprüngliche Stichtag 7. Juli wurde nach deutlichem Nutzer-Backlash auf den 12./13. Juli verschoben.

Warum das relevant ist: OpenAI macht sein Frontier-Modell billiger und breiter, Anthropic seins teurer und exklusiver. Für Teams, die auf Fable 5 setzen, heißt das: neu rechnen.

Chinas Backdoor-Vorwurf gegen Claude Code

Die Linie aus #012 (Alibaba-Distillation-Vorwurf) und #013 (Rückbau der Steganographie-Marker) bekommt ihre nächste Wendung — mit umgekehrten Vorzeichen. Am 8. Juli wirft Chinas National Vulnerability Database Claude Code eine „Sicherheits-Backdoor” vor: Die Versionen 2.1.91 bis 2.1.196 hätten ohne Zustimmung Standortdaten erfasst. Alibaba verbietet seinen Mitarbeitenden seit dem 10. Juli die Nutzung von Claude Code und stellt intern auf das eigene Werkzeug Qoder um.

Anthropic widerspricht. Thariq Shihipar aus dem Claude-Code-Team ordnet das, was China als Backdoor liest, als jenes Experiment ein, das im März gegen Account-Missbrauch und Distillation (das Nachtrainieren eines eigenen Modells auf den Ausgaben eines fremden) eingebaut und im Juli wieder entfernt wurde:

„This is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and protect against distillation.”

Sinngemäß: ein Experiment gegen Account-Missbrauch durch nicht autorisierte Wiederverkäufer und gegen Distillation.

Warum das relevant ist: Was Anthropic als Schutz gegen chinesische Distillation baute, liest China als Überwachung — und derselbe Akteur, dem Anthropic im Juni den größten bekannten Distillation-Angriff vorwarf, begründet damit einen Bann.

Coding-Agenten & MCP: eine Sicherheits-Woche

Selten trafen so viele Befunde zu Agenten-Sicherheit in eine Woche. Fünf, die die Zielgruppe direkt betreffen:

GhostApproval (Wiz, via iX/heise, 9. Juli) — über manipulierte Repository-Symlinks (Verweise, die im Dateisystem auf eine andere Datei zeigen) lassen sich Coding-Agenten dazu bringen, Dateien außerhalb ihrer Sandbox zu lesen, etwa SSH-Schlüssel. Betroffen quer durch die Branche: Claude Code, Amazon Q Developer, Augment, Cursor, Google Antigravity und Windsurf. Patches liegen für Amazon Q, Antigravity und Cursor vor, für Augment und Windsurf noch nicht.
GitLost (Noma Security) — eine präparierte, öffentliche GitHub-Issue bringt GitHubs Agentic Workflows dazu, private Repo-Inhalte ohne Authentifizierung als öffentlichen Kommentar preiszugeben. Security Research Lead bei Noma Security, Sasi Levi, bringt die neue Qualität auf den Punkt: „GitLost is about manipulating what an agent does with its permissions.” — es geht nicht mehr darum, was ein Agent sagt, sondern was er mit seinen Rechten tut. Die Fortsetzung der „Agentjacking”-Serie der letzten Wochen — Angriffe, die einen Agenten über eine manipulierte Tool-Anbindung kapern.
„Friendly Fire” — ein PoC (Machbarkeitsnachweis) des AI Now Institute: Scannen Claude Codes Auto Mode oder Codex’ Auto-Review nicht vertrauenswürdigen Fremdcode, lässt sich der Prüfvorgang so präparieren, dass der Agent den Angreifer-Code ausführt, statt ihn nur zu prüfen.
Die Breitendaten: Eine Analyse von 9.695 öffentlichen MCP-Servern findet 4.982 Sicherheitsprobleme in 2.259 Servern — vor allem willkürlichen Dateizugriff, DoS und Command Injection. Popularität schützt nicht.
Die Gegenmaßnahme: Claude Code v2.1.205 blockiert im Auto Mode Manipulationen an den Session-Transkript-Dateien und markiert Background-Benachrichtigungen jetzt ausdrücklich als „kein Mensch hat zugestimmt” — direkte Antwort auf vorgetäuschte In-Transcript-Freigaben.

Die Woche der Souveränitäts-Ansage

Gleich drei Bewegungen bei Regulierung und digitaler Souveränität — eine davon fällt auf den Tag vor dieser Ausgabe.

Brüssel. Am 7. Juli stellt Henna Virkkunen, Exekutiv-Vizepräsidentin der EU-Kommission für technologische Souveränität, Sicherheit und Demokratie, den EU Action Plan on Cybersecurity and Artificial Intelligence vor — laut heise ein Neun-Punkte-Plan gegen künftige KI-Modell-Sperren durch Drittstaaten, mit einem „European blueprint” für strukturierten Zugang bis Ende 2026. Die Kommission verweist dabei auf ein bereits im Juni vorgestelltes, separates Programm über 200 Mrd. € für KI-Gigafactories.

Berlin. Am 10. Juli — dem Tag vor Erscheinen dieser Ausgabe — billigt der Bundesrat das KI-Durchführungsgesetz endgültig, ohne Vermittlungsausschuss. Die Bundesnetzagentur (BNetzA) wird damit zentrale KI-Marktüberwachungsbehörde in Deutschland. Flankierend liegt der Community-Draft des BSI (Bundesamt für Sicherheit in der Informationstechnik) vor: der modulare Prüfkatalog „A5” zur Bewertung vertrauenswürdiger KI, auf Basis des maschinenlesbaren Katalogformats OSCAL, Kommentierung bis 31. August.

Der Realitätscheck. Das deutsche Vorzeigeprojekt hakt: Die Fusion von Aleph Alpha und Cohere verzögert sich deutlich — offen sind Personalübernahme, Führungsstruktur und Schutzrechte für die Bundesregierung. Und das Berliner Startup Langdock steht wegen eines „Delaware-Flips” in der Kritik — die deutsche GmbH wird über eine US-Delaware-Corporation kontrolliert, eine bei US-Investoren und YC-Startups übliche Struktur, was Kritiker dennoch als Widerspruch zum eigenen Souveränitäts-Anspruch lesen.

Warum das relevant ist: Die zuletzt abstrakte Souveränitäts-Debatte ist konkret geworden — mit Gesetzestext, Prüfkatalog und Aktionsplan. Und zugleich zeigt sich, wie schwer die Umsetzung fällt, wenn selbst die Vorzeigeprojekte an Struktur- und Kapitalfragen hängen.

Trend der Woche: Der Job wandert in den Outer Loop

Addy Osmani setzt seine Autonomy-Levels-Reihe fort — „Own the Outer Loop”. Die Kernthese: Agenten übernehmen den Inner Loop (die Ausführung), Menschen behalten den Outer Loop — Verifikation, Freigabe, Verantwortung. Nicht blind akzeptieren, was der Agent liefert, sondern prüfbar machen. Der Bun-Rewrite oben ist die Illustration: viele Agenten im Inner Loop, ein Mensch, der die Richtung entscheidet.

Einen Datenpunkt dazu liefert Anthropic selbst: Mit der Ausweitung von Claude Cowork (Anthropics Werkzeug für asynchrone Team-Aufgaben, bislang Desktop-only) auf Web, iOS und Android zeigen Nutzungsdaten aus 1,2 Millionen Sessions, dass über 90 % der Cowork-Nutzung nicht Coding ist, sondern Business Ops und Content. Der Coder ist längst nicht die einzige Zielgruppe agentischer Werkzeuge.

Aus der Gegenrichtung ein Nachbeben: Der Godot-KI-Bann war kein Einzelfall. Hackaday ordnet ähnliche Regeln bei Mesa, NetBSD (KI-Code gilt als „tainted”, also nicht vertrauenswürdig) und im Linux-Kernel (Offenlegungspflicht für KI-Tools) ein. Verantwortung lässt sich nicht an einen Agenten delegieren.

Tipp der Woche

sqlite-utils 4.0 — größtenteils von Claude Fable geschrieben (Simon Willison, 5. Juli). Willison ließ das Stable-Release seines beliebten SQLite-Werkzeugs weitgehend von Fable schreiben: 37 Prompts, 34 Commits für den Release-Kandidaten, Gesamtkosten rund 149,25 $. Bemerkenswert ist nicht der Preis, sondern der Fund: Fable identifizierte fünf eigenständige Release-Blocker, darunter einen Datenverlust-Bug in delete_where(), den Willison selbst übersehen hatte.

Warum das hier steht: Öffentlich nachvollziehbare Kosten- und Qualitätszahlen für einen realen Produktionsrelease sind selten — und sie treffen genau die Frage hinter der Fable-Preisdebatte dieser Woche: Was kostet ein Release wirklich, und was ist die Arbeit wert, die der Agent übernimmt?

Kurz notiert

Fidji Simo verlässt OpenAI (9. Juli) — Die seit Mai 2025 als CEO of Applications amtierende Simo gibt die Vollzeitrolle wegen einer chronischen Erkrankung ab und wird Teilzeit-Beraterin; ihre Aufgaben teilen sich President Greg Brockman, CFO Sarah Friar und Chief Strategy Officer Jason Kwon.
Anthropic baut den Public-Sector-Zugang aus — Teresa Carlson wird erste Global Head of Public Sector, zuvor in Public-Sector-Führungsrollen bei Microsoft (Federal Sales), AWS (globaler Public-Sector-Bereich) und Splunk (President and Chief Growth Officer).
Prime Intellect sammelt 130 Mio. $ Series A bei 1 Mrd. $ Bewertung ein (Lead: Radical Ventures) — Enterprise-Tools für eigene KI-Agenten, 100 Mio. $ ARR, Kunden wie Ramp und Zapier.
Sanders’ Staatsbeteiligungs-Forderung bekommt neue Aktualität — Bernie Sanders’ bereits am 18. Juni eingebrachte Forderung nach 50 % Staatsbeteiligung an großen KI-Firmen rückt durch OpenAIs 5-%-Angebot an Washington wieder in den Fokus — auch wenn sie zwei Wochen davor datiert und damit kein Konter darauf ist.
ACCC prüft SpaceX/Cursor — Australiens Wettbewerbsbehörde nimmt die 60-Mrd.-$-Übernahme von Anysphere durch SpaceX unter die Lupe.

Quellen

Bun in elf Tagen von Zig auf Rust: Simon Willison — Rewriting Bun in Rust · Bun — Bun in Rust · Andrew Kelley — My thoughts on the Bun Rust rewrite

Claude Code: Changelog

Agentic Coding: Codex Changelog · Cursor Changelog · Ampcode Updates

Anthropics Compute- und Governance-Woche: CoinDesk — TeraWulf $19B Lease · Anthropic — Ben Bernanke joins the LTBT · Yahoo/Bloomberg — Apollo $35B Debt Package · SemiAnalysis — Anthropic 3Q26 Profit Over $1B

GPT-5.6 & Fable 5: OpenAI API Changelog · MarkTechPost — GPT-5.6 three-tier family · Forbes — Fable 5 credits · Android Authority — usage-based Fable 5

Chinas Backdoor-Vorwurf: CNBC — China calls Claude Code a backdoor · CBS News · Yahoo Tech — Alibaba bans Claude Code

Coding-Agenten & MCP: heise — Schwachstelle in Coding-Agenten über Symlinks · Noma Security — GitLost · The Hacker News — Friendly Fire · Cyber Security News — 4.982 Issues in 2.259 MCP Servers

Die Woche der Souveränitäts-Ansage: EU-Kommission — EU Action Plan on Cybersecurity and AI · heise — EU will KI-Sperren vorbeugen · Bundesrat — Plenarsitzung 10.7.2026 · heise — BSI publishes draft catalog · HASEPOST — Aleph Alpha × Cohere verzögert sich · Business Insider DE — Langdock Delaware-Flip

Trend der Woche: Addy Osmani — Own the Outer Loop · TechCrunch — Claude Cowork · Hackaday — Godot’s New Contributing Policy

Tipp der Woche: Simon Willison — sqlite-utils 4.0 mostly written by Claude Fable

Kurz notiert: TechCrunch — Fidji Simo steps down · Nextgov — Anthropic taps Teresa Carlson · TechCrunch — Prime Intellect $130M · CNBC — OpenAI proposes US 5% stake · MLex — SpaceX-Anysphere ACCC review

Das war Agentic Weekly #014. Danke fürs Lesen — die nächste Ausgabe kommt am Samstag, 18. Juli 2026.

Hinter Agentic Weekly steckt Martin Gross: wöchentlich ein kompakter, meinungsstarker Überblick zu Agentic Engineering, Agentic Coding und Claude Code.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter. Fragen, Anmerkungen oder Kritik? Antworte einfach auf diese Mail oder hinterlasse einen Kommentar.

Noch kein Abo?
Jede Woche die vollständige Ausgabe mit allen Quellen, direkt in dein Postfach.
Auf blog.fluxum.net abonnieren

Agentic Weekly #013 — Der Staat greift nach den Modellen

Martin Gross — Sun, 05 Jul 2026 21:49:39 GMT

Fable 5 ist zurück, GPT-5.6 kommt nur für zwanzig Auserwählte, und OpenAI bietet Washington eine fünfprozentige Beteiligung an — in einer Woche wird sichtbar, wie eng Frontier-KI und Regierung inzwischen verwoben sind. Dazu ein neues Standardmodell zum halben Preis, mit Sternchen, und eine Open-Source-Stiftung, die zu alldem laut Nein sagt.

Juli 2026 · Lesezeit ~7 Min.

Der Staat und die Frontier-Modelle

Der Bogen, der sich seit Ausgabe #010 über drei Wochen zog, schließt sich: Fable 5 und Mythos 5 sind wieder freigeschaltet. Am 1. Juli hat Anthropic beide Modelle neu ausgerollt, nachdem die US-Regierung die am 12. Juni verhängte Exportkontrolle am 30. Juni aufgehoben hatte — per Brief von Handelsminister Howard Lutnick, nicht per Präsidentenerlass.

Der Preis der Rückkehr ist ein Rahmen. Anthropic veröffentlicht die Freigabe zusammen mit einem Jailbreak Severity Framework — einem Schema, das die Schwere eines „Jailbreaks” (einer Umgehung der Modell-Schutzmechanismen) an vier Kriterien misst: dem Fähigkeitszuwachs, dessen Breite, wie leicht er sich für einen Angriff nutzen lässt, und der Auffindbarkeit. Dazu kommt ein neuer Safety-Classifier gegen genau die von Amazon gemeldete Technik — Forscher hatten Fable 5 per Jailbreak dazu gebracht, Software-Schwachstellen aufzuspüren und in einem Fall Code zu schreiben, der zeigt, wie sich eine davon ausnutzen ließe. Denselben Prompt beantworten laut Anthropic auch schwächere Modelle wie Opus 4.8 oder GPT-5.5, weshalb man von routinemäßiger Defensive-Security-Arbeit spricht, nicht von einer versteckten Superfähigkeit. Der Classifier blockt die Technik nach Anthropics Angaben in über 99 % der Fälle. Mythos 5, die stärkere Variante, bleibt auf eine Reihe US-Organisationen beschränkt. Lutnick dazu: „I have determined that appropriate safeguards are in place to permit certain trusted partners to access the Claude Mythos 5 Model.” — man habe, so der Handelsminister, angemessene Schutzvorkehrungen festgestellt, um bestimmten vertrauenswürdigen Partnern Zugang zu Mythos 5 zu gewähren.

Zwei Labs, ein Muster. Es ist nicht bei Anthropic geblieben. Wenige Tage zuvor zeigte OpenAI eine erste Vorschau der GPT-5.6-Familie (Sol, Terra, Luna) — und zwar auf Wunsch der US-Regierung zunächst nur für rund zwanzig „trusted partner”-Organisationen, mit Verweis auf nationale Sicherheit. Wo das Regierungsmuster Fable erst nach dem Rollout traf und zurückdrehte, trifft es den nächsten großen Launch schon präventiv. Aus dem Einzelfall wird ein Verfahren.

Und der Staat will mehr als das Türschloss. In derselben Woche berichtet die Financial Times, OpenAI habe der US-Regierung angeboten, 5 % am Unternehmen zu übernehmen — bei einer Bewertung von 852 Mrd. $ (Rekordrunde im März) entspricht das rund 42,6 Mrd. $. Sam Altman wirbt für ein Modell nach dem Vorbild des Alaska Permanent Fund, jenes Fonds, der Alaskas Öl-Einnahmen als jährliche Dividende an die Einwohner ausschüttet — jedes führende US-KI-Labor solle denselben Eigenkapitalanteil einbringen. Die Gespräche mit Trump, Lutnick und Finanzminister Scott Bessent gelten als „konzeptuell”; ein Vollzug bräuchte womöglich ein Gesetz des Kongresses.

Drei Bewegungen, ein Befund: Der Staat gibt beim einen Anbieter ein Modell frei, hält beim anderen den nächsten Launch klein — und will sich an ebendiesem beteiligen. Frontier-KI ist in Washington von der regulierten Branche zum strategischen Aktivposten geworden — Zugang ist zur Verhandlungsmasse und Beteiligung zur Option geworden. Für alle, die auf diesen Modellen bauen, heißt das: Verfügbarkeit ist keine rein technische Größe mehr.

Sonnet 5: das neue Standardmodell — mit Sternchen

Am 30. Juni hat Anthropic Claude Sonnet 5 gestartet und zum Standardmodell für Free- und Pro-Nutzer gemacht. Native 1M Token Kontext, ein Einführungspreis von 2 $ / 10 $ pro Million Tokens (Ein- und Ausgabe) bis zum 31. August, danach 3 $ / 15 $. TechCrunch fasst den Launch als „cheaper way to run agents” — den günstigeren Weg, Agenten laufen zu lassen.

Das Sternchen liefert Simon Willison. Er zeigt, dass der neue Tokenizer — der Baustein, der Text in die abgerechneten Tokens zerlegt — rund 30 % mehr Tokens pro Text erzeugt: der reale Preis liegt beim 1,42-fachen für englischen Text und beim 1,28-fachen für Python-Code. Der Rabatt schrumpft, sobald man ihn gegen die tatsächliche Abrechnungseinheit hält.

Und der Praxistest fällt verhalten aus. Katie Parrott vom Every-Team fasst ihren „Vibe Check” so zusammen: Sonnet 5 könne kompetent entwerfen, coden und analysieren — aber „every use case has a cheaper, faster, or smarter alternative.” Für jeden Anwendungsfall gebe es etwas Billigeres, Schnelleres oder Klügeres. Ein günstigeres Default heißt nicht automatisch das beste Default.

Anthropic zieht die geheimen Marker aus Claude Code

Leiser, aber symbolträchtig: Anthropic entfernt die Steganographie-Marker aus Claude Code — versteckte Wasserzeichen, die im März in den System-Kontext eingebaut worden waren, um Missbrauch und Distillation nachzuweisen (Distillation = das Nachtrainieren eines eigenen Modells auf den Ausgaben eines fremden). Der Rückbau landete am 1. Juli per Pull Request. Thariq Shihipar, Ingenieur im Claude-Code-Team, begründet ihn mit „stronger mitigations since then” — man habe inzwischen bessere Schutzmechanismen.

Das Timing ist bemerkenswert: Es fällt in dieselbe Woche, in der Anthropic Alibaba den bislang größten bekannten Distillation-Angriff vorwirft (siehe #012). Der eine Verteidigungsweg wird also zurückgebaut, während der Vorwurf, genau davor schützen zu müssen, öffentlich verhandelt wird.

Claude Code: Die Highlights der Woche

Für alle, die Claude Code täglich nutzen

Gestapelte Skill-Aufrufe — v2.1.199 lädt bei verketteten Slash-Befehlen (/skill-a /skill-b do XYZ) jetzt alle führenden Skills (bis zu fünf) auf einmal. Kleiner Handgriff, spürbarer Gewinn für alle, die mehrere Skills kombinieren.
„Claude in Chrome” ist GA — die Browser-Integration verlässt mit v2.1.198 den Preview-Status und ist allgemein verfügbar.

Für Multi-Agent- und Automation-Workflows

Subagents laufen jetzt standardmäßig im Hintergrund (v2.1.198), und Background-Agenten erstellen selbstständig einen Commit, laden ihn hoch und öffnen einen Draft-PR, statt vorher zu fragen. Die Richtung ist deutlich: Der Agent arbeitet weiter, ohne an jeder Weggabelung stehenzubleiben.

Für Sicherheits- und Team-Admins

Default Permission Mode wechselt auf „Manual” — v2.1.200 stellt CLI, VS Code und JetBrains einheitlich so um, dass Aktionen wieder explizit bestätigt werden müssen. Ein bewusster Gegenzug zum autonomeren Verhalten oben.
MCP-Sicherheits-Fix — v2.1.196 verhindert, dass sich selbst-genehmigte MCP-Server (Model Context Protocol, der Standard, über den Agenten externe Tools und Datenquellen anbinden) in nicht vertrauenswürdigen Workspaces automatisch starten. Dazu: org-weite Default-Modelle für Admins.

Agentic Coding

Erstes Open-Weight-Modell in Copilot. GitHub nimmt Kimi K2.7 Code von Moonshot AI in den Modell-Picker auf — das erste frei herunterladbare Modell (Open-Weight = die Modellgewichte sind öffentlich verfügbar) überhaupt in Copilot. Rollout startet bei Pro, Pro+ und Max. Bemerkenswert, weil damit ein Open-Weight-Modell in ein Enterprise-Coding-Tool einzieht, das bislang proprietären Modellen vorbehalten war.
Copilot-GA-Welle. Parallel schaltet GitHub eine Reihe kleinerer Bausteine frei: Vision GA, Browser-Tools in VS Code GA, Agent-Session-Streaming (Public Preview) und automatische Modellauswahl für Enterprises. Einzeln unspektakulär, in Summe eine hohe Release-Kadenz.

Trend der Woche: Der Trend teilt sich

Zwei Beobachtungen aus derselben Woche ziehen in entgegengesetzte Richtungen.

Gergely Orosz beschreibt nach Vor-Ort-Besuchen bei OpenAI, Anthropic und Cursor eine strukturelle Verschiebung: Cloud-Agenten seien zum Standardwerkzeug geworden — bei OpenAI nutzten laut seinem Bericht über 95 % der Non-Engineers den Coding-Agenten Codex statt ChatGPT. Der nächste große Hebel sei „Environments-Building für Agents”, also das Bauen von Umgebungen, in denen Agenten zuverlässig arbeiten können.

Aus der anderen Ecke kommt ein hartes Nein. Die Godot Foundation verbietet KI-generierten Code und KI-Text in Pull Requests und Kommunikation — die erste große Open-Source-Institution mit einer klaren Absage: „AI cannot take responsibility, and we can’t trust heavy users of AI to understand their code enough to fix it.” KI könne keine Verantwortung übernehmen, und man traue Vielnutzern nicht zu, ihren Code gut genug zu verstehen, um ihn zu reparieren.

Dazwischen liegt die eigentliche Frage: nicht ob, sondern wie viel Autonomie. Addy Osmani (Google) schlägt dafür ein sechsstufiges Raster von „Agentic Autonomy Levels” vor, mit Metriken wie der mittleren Zeit zwischen menschlichen Eingriffen. Und Kent Beck, Pionier des Test-Driven Development, bringt den Kern auf den Punkt: In der neuen Ära wachse das Vertrauen bei weitem nicht so schnell wie der Code selbst.

Tipp der Woche

Simon Willison zitiert einen Rat aus dem Claude-Code-Team, der in die Preisdebatte dieser Woche passt: teure Modelle für die Arbeit mit hohem Urteilsanteil reservieren, Routine-Coding per Anweisung an günstigere Subagents delegieren. Wer den Executor-Advisor-Gedanken ernst nimmt — ein starkes Modell entscheidet die Richtung, günstigere Modelle führen aus — spart Tokens schneller, als man erwartet.

Warum das hier steht: Sonnet 5 macht das billigere Modell zum Default, aber der Willison-Tokenizer-Fund zeigt, dass „billiger” trügt. Die Ersparnis liegt nicht im Modellpreis, sondern darin, welches Modell welche Aufgabe bekommt.

Kurz notiert

Anthropics Recruiting-Serie geht weiter: Jelani Nelson, Chair der Computer Science Division im EECS-Department der UC Berkeley, nimmt eine Beurlaubung und wechselt als Member of Technical Staff zu Anthropic — nach Karpathy, Jumper, Adler und Pritzel der nächste prominente Zugang binnen weniger Wochen.
Anthropic sondiert mit Samsung einen eigenen KI-Chip — Zweck, Server-Integration und Leistungsdaten noch offen. Passt in die Compute-Diversifizierung aus #012 (Micron-Deal, Broadcom-ASIC).
Etched verlässt den Stealth-Modus mit funktionierendem Inferenz-Chip: insgesamt 800 Mio. $ Funding bei 5 Mrd. $ Post-Money-Bewertung, über 1 Mrd. $ an Kundenverträgen. Auf der Investorenliste stehen Karpathy, Hinton, Fei-Fei Li, Arthur Mensch und Scott Wu.
„Agentjacking” breitet sich aus: Der Angriff kapert einen Agenten über eine manipulierte Tool-Anbindung. Die MCP-Vertrauens-Schwachstelle, die ursprünglich über Sentry Claude Code kompromittierte (85 % Erfolgsquote in Tests, 2.388 exponierte Organisationen), betrifft laut Update dieselbe Architektur bei Datadog, PagerDuty und Jira. Die Cloud Security Alliance stuft es inzwischen als systemische MCP-Schwachstellenklasse ein.
X bietet jetzt einen gehosteten, read-only MCP-Server und reiht sich neben GitHub, Slack, Notion und Stripe ein — autonomes Posten ist nicht möglich.

Quellen

Der Staat und die Frontier-Modelle: Anthropic — Redeploying Fable 5 · Anthropic — Jailbreak Severity Framework · heise (EN) — US government lifts ban · OpenAI — GPT-5.6 Sol · VentureBeat — GPT-5.6 Preview · CNBC — OpenAI proposes 5% government stake · Forbes — OpenAI pitches US government 5% stake

Sonnet 5: Anthropic — Claude Sonnet 5 · TechCrunch — cheaper way to run agents · Simon Willison — Claude Sonnet 5 · Every — Vibe Check: Sonnet 5

Steganographie-Marker: The Register — Removing covert code

Claude Code: Changelog · v2.1.199 Release

Agentic Coding: GitHub Changelog — Kimi K2.7 in Copilot · GitHub Changelog

Trend der Woche: Pragmatic Engineer — Impressions from visiting OpenAI, Anthropic & Cursor · The New Stack — Godot bans AI coding agents · Addy Osmani — Agentic Autonomy Levels · Pragmatic Engineer — How Kent Beck shapes software

Tipp der Woche: Simon Willison — Judgement

Kurz notiert: AddisInsight — Jelani Nelson zu Anthropic · TechCrunch — Anthropic × Samsung Chip · DCD — Etched verlässt Stealth · Etched — Pressemitteilung (GlobeNewswire) · VentureBeat — Agentjacking spreads · TechCrunch — X MCP-Server

Das war Agentic Weekly #013. Danke fürs Lesen — die nächste Ausgabe kommt am Samstag, 11. Juli 2026.

Hinter Agentic Weekly steckt Martin Gross: wöchentlich ein kompakter, meinungsstarker Überblick zu Agentic Engineering, Agentic Coding und Claude Code.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter.

Agentic Weekly #012 — Geklaut, gesperrt, selbst gebaut

Martin Gross — Sat, 27 Jun 2026 11:32:50 GMT

Dass Anthropic einem China-Akteur den größten bekannten Datendiebstahl an Claude vorwirft, zeigt vor allem, wie wertvoll ein Spitzenmodell geworden ist — in derselben Woche, in der Claude in Slack einzieht und die Labs anfangen, sich die Hardware darunter selbst zu bauen.

Samstag, 27. Juni 2026 — Lesezeit: ~10 Min.

Die große Nachricht der Woche

Anthropic beziffert den „größten bekannten Distillation-Angriff” — und zeigt nach China

Am 24. Juni macht Bloomberg einen Brief öffentlich, den Anthropic schon am 10. Juni an den US-Senatsausschuss für Banken (Senate Committee on Banking, Housing, and Urban Affairs) geschickt hatte — an dessen Vorsitzenden Tim Scott (Republikaner, South Carolina) und die ranghöchste Demokratin Elizabeth Warren (Massachusetts). Der Vorwurf: Ein mit Alibaba und dessen KI-Labor Qwen verbundener Akteur habe den nach Anthropics Worten „größten bekannten Distillation-Angriff” auf Claude gefahren.

Die Zahlen sind ungewöhnlich konkret. Zwischen dem 22. April und dem 5. Juni sollen rund 25.000 Fake-Accounts insgesamt 28,8 Millionen Dialoge mit Claude geführt haben — gezielt auf die laut Brief wertvollsten Fähigkeiten des Modells: „agentic reasoning, software engineering, and long-horizon tasks”, also eigenständiges Schlussfolgern, Programmieren und das Abarbeiten langer Aufgabenketten.

Distillation meint dabei, ein eigenes Modell auf den Ausgaben eines fremden nachzutrainieren — Datendiebstahl im industriellen Maßstab: Man erntet die Antwortmuster des Originals, statt von Grund auf selbst zu trainieren. Anthropics Verdacht: Das geerntete Material floss in Qwen. Alibaba wollte sich nicht äußern und wies den Vorwurf pauschal zurück; die Aktie gab am Tag der Meldung über drei Prozent nach.

Neu ist die Größenordnung, nicht das Muster. Schon im Februar hatte Anthropic drei „industrial-scale”-Kampagnen aus China benannt — DeepSeek, Moonshot und MiniMax. Der Alibaba-Fall liegt nach eigener Darstellung um Größenordnungen darüber.

Warum das relevant ist: Anthropic verlagert den Modellschutz von der Technik in die Politik — der Brief geht nicht an die eigene Rechtsabteilung, sondern an einen Senatsausschuss, und er liefert die Munition für die These, die das Lab seit Wochen vertritt: Spitzenmodelle sind nationale Vermögenswerte, und China greift sie systematisch ab. Dieselbe These trägt die Modell-Sperre der letzten beiden Ausgaben — nur dass der Vorwurf diesmal mit 28,8 Millionen Datenpunkten unterlegt ist statt mit einer anonymen Geheimdienstquelle.

Anthropic zieht in Slack ein — Claude Tag

Am 23. Juni stellt Anthropic Claude Tag vor: einen persistenten Claude, der direkt in Slack-Kanälen lebt. Per @Claude angesprochen, baut er Kontext aus dem Kanalverlauf auf, arbeitet Aufgaben asynchron mit eigener Planung ab und meldet sich proaktiv zurück — Anthropic nennt das „ambient behavior”. Die Beta läuft auf Opus 4.8 und ist Enterprise- und Team-Kunden vorbehalten; Admins steuern Token-Limits auf Organisations- und Kanal-Ebene.

Eine Eigenangabe lässt aufhorchen: Laut Anthropic stammen 65 Prozent des Codes des eigenen Produktteams aus der internen Claude-Tag-Version (unbestätigte Herstellerzahl). Die alte „Claude in Slack”-App wird zum 3. August abgeschaltet, mit 30 Tagen Migrationsfenster.

Warum das relevant ist: Claude Code hat Anthropic im Terminal verankert; Claude Tag öffnet die zweite Front im Chat-Tool der Wissensarbeiter. Anthropic geht damit nicht tiefer, sondern breiter: vom Coding-Werkzeug zum dauerhaften Teammitglied.

Update Mythos/Fable: Der Ton kippt, der Stand bleibt

Drei Wochen nach dem Export-Stopp für Anthropics Spitzenmodelle Mythos 5 und Fable 5 bewegt sich viel und ändert sich nichts. Im Axios-Interview vom 20. Juni nennt Donald Trump Anthropic und Dario Amodei „nicht mehr” ein nationales Sicherheitsrisiko — die Direktive selbst bleibt unangetastet. Eine vom 18. Juni datierte Frist für Handelsminister Howard Lutnick, vier überparteilichen Abgeordneten die Sperre schriftlich zu begründen, verstrich am 26. Juni ohne öffentliche Reaktion.

Dazwischen ein kurzes Aufflackern: Am 25. Juni kursiert auf X das Gerücht, Fable 5 sei zurück — ausgelöst durch einen Anzeige-Bug in Claude Code v2.1.190, der das Modell samt Wochenlimit-Texten im Model-Picker zeigte. Anthropic dementierte umgehend, unter anderem über Wachstumschef Amol Avasare: kein Traffic, das Modell bleibt offline.

Anthropic verlangt jetzt seinerseits Ausweise. Zum 8. Juli tritt eine aktualisierte Datenschutzrichtlinie in Kraft: Für eine „kleine Untergruppe verdächtiger Nutzer” werden ein Foto-Ausweis plus Live-Selfie fällig, abgewickelt über den Thiel-finanzierten Identitätsdienst Persona — und die Daten werden nicht sofort gelöscht. Betroffen sind nur Free-, Pro- und Max-Konten, nicht Team, Enterprise oder API. Für die europäische Zielgruppe ist das die nächste DSGVO-Baustelle: biometrische Verifikation bei einem US-Anbieter, dessen Spitzenmodelle hier ohnehin gesperrt sind.

Und die Geheimdienste melden sich. Am 23. Juni veröffentlichen die sechs Cyber-Behörden der Five-Eyes-Allianz (USA, Großbritannien, Kanada, Australien, Neuseeland — darunter NSA, CISA und das britische NCSC) eine seltene gemeinsame Erklärung: Frontier-KI werde die Cyber-Bedrohungslage „in Monaten, nicht Jahren” verschieben, Regierungen und Unternehmen sollten „jetzt handeln”. Eine konkrete Modell-Zuordnung vermeidet das Papier — die parallel kursierende Behauptung, Mythos habe in einem Test NSA-Systeme geknackt, ließ sich gegen die Primärquelle nicht erhärten.

Warum das relevant ist: Drei Bewegungen, eine Linie — Politik, Anbieter und Sicherheitsapparat verhandeln gerade neu, was ein Spitzenmodell wert ist und wem man es anvertrauen darf. Die Verfügbarkeit bleibt, was sie in #011 wurde: eine politische Variable.

Die Labs greifen nach eigener Hardware

Innerhalb einer Woche zeigen drei Deals dasselbe Muster: Wer Modelle baut, will die Schicht darunter kontrollieren.

Qualcomm kauft Modular (24. Juni) für rund 3,92 Milliarden Dollar in Aktien. Modular, 2022 vom LLVM- und Swift-Schöpfer Chris Lattner mitgegründet, liefert die Sprache Mojo und die Inference-Engine MAX — einen herstellerneutralen Compiler-Layer, der denselben KI-Code über Nvidia-, AMD- und Custom-Chips laufen lässt. Das ist ein direkter Angriff auf CUDA, Nvidias proprietären Software-Stack, der die GPU-Welt zusammenhält. Meta und Microsoft sind bereits als Kunden gelistet.

OpenAI und Broadcom enthüllen am selben Tag „Jalapeño”, OpenAIs ersten eigenen Inferenz-ASIC (einen für genau einen Zweck gefertigten Chip). Broadcom-Chef Hock Tan verspricht rund 50 Prozent geringere Kosten gegenüber üblichen KI-GPUs; erste Auslieferungen sind für Ende 2026 geplant.

Micron und Anthropic schließen einen Vier-Säulen-Deal (22. Juni): Co-Design für Speicher (HBM, der schnelle Stapelspeicher direkt neben dem Rechenkern), mehrjährige Lieferzusagen, Claude-Rollout bei Micron und eine Beteiligung an Anthropics Series H. Damit haben alle drei großen HBM-Hersteller — Micron, Samsung, SK Hynix — in Anthropic investiert.

Warum das relevant ist: Der Engpass der nächsten Phase ist nicht das Modell, sondern Rechenchip und Speicher darunter. Wer dort nur mietet, zahlt die Marge der Lieferanten — also kaufen sich die Labs gerade in den Stack ein, von der Compiler-Schicht bis zum Speicherriegel.

Claude Code: Die Highlights der Woche

Vier substanzielle Releases in sieben Tagen — von v2.1.187 bis v2.1.195.

Für Security- und Team-Admins

v2.1.187 — sandbox.credentials (23. Juni) — Ein neues Setting hindert sandboxed Bash-Befehle daran, Credential-Dateien und geheime Umgebungsvariablen zu lesen. Organisationsweite Modell-Restriktionen werden zudem durchgängig erzwungen — im Model-Picker, bei --model, /model und ANTHROPIC_MODEL —, und Remote-MCP-Aufrufe ohne Antwort brechen nach fünf Minuten ab.

v2.1.193 — Auto Mode härter, OTel-Falle (25. Juni) — Das neue autoMode.classifyAllShell schickt alle Shell-Befehle durch den Prüfer des Auto Mode (in dem Claude selbst entscheidet, welche Aktionen ohne Rückfrage durchlaufen dürfen) statt nur die offensichtlich riskanten. Wichtig für Observability-Teams: Ein neues OTel-Log-Event (OTel = OpenTelemetry, der offene Standard für Telemetriedaten) protokolliert künftig auch den Antworttext des Modells — und wer bereits Prompts mitschreibt, schreibt nach dem Upgrade ungefragt die Antworten mit, solange OTEL_LOG_ASSISTANT_RESPONSES=0 nicht gesetzt ist. Vor dem Update lesen.

Für alle, die Claude Code täglich nutzen

v2.1.191 — /rewind über /clear hinaus, 37 % weniger CPU (24. Juni) — /rewind stellt jetzt auch Gesprächsstände von vor einem /clear wieder her. Gleichzeitig sinkt der CPU-Verbrauch beim Streaming um rund 37 Prozent, weil Text-Updates auf 100-Millisekunden-Takte gebündelt werden — spürbar in langen Sessions.

Für Hook- und Multi-Agent-Workflows

Hook-Matcher werden zuverlässig (v2.1.191 + v2.1.195) — Zwei Fixes in Folge: v2.1.191 repariert komma-getrennte Matcher ("Bash,PowerShell" feuerten zuvor stillschweigend gar nicht), v2.1.195 (26. Juni) stellt Matcher mit Bindestrich-Namen wie code-reviewer oder mcp__brave-search von Teil- auf exakten Abgleich um. Wer solche Matcher nutzt, sollte seine Hook-Konfiguration nach dem Update einmal gegenprüfen.

Agentic Coding

Microsofts Doppelschritt — GitHub fährt diese Woche zwei Strategien parallel. Einerseits öffnet die Copilot-Desktop-App BYOK (23. Juni; „Bring Your Own Key” — den eigenen Modellschlüssel mitbringen), darunter für OpenAI, Azure, Ollama und Anthropic: Der Nutzer entkoppelt sich vom vorgegebenen Modell. Andererseits stellt Microsoft am 26. Juni mit MAI-Code-1-Flash ein eigenes Coding-Modell (5 Milliarden Parameter) für Copilot Business und Enterprise daneben — laut Microsoft 16 Punkte besser auf SWE-bench Pro (einem Benchmark realer Programmieraufgaben) als Haiku 4.5, bei bis zu 60 Prozent weniger Tokens. Im Wochentakt kamen außerdem: ein neues Terminal-Interface für die Copilot CLI (23. Juni), Copilot für Jira wird allgemein verfügbar (25. Juni), und GitHub Desktop 3.6 bekommt endlich Git-Worktree-Support — mehrere parallele Arbeitskopien eines Repos, wichtig für nebenläufige Agent-Sessions.

Codex Remote wird GA (25. Juni) — OpenAIs Coding-Agent lässt sich jetzt aus der ChatGPT-Mobile-App per QR-Code mit einem Mac- oder Windows-Rechner koppeln und von dort steuern; ein DigitalOcean-Plugin provisioniert auf Wunsch automatisch einen Server. Der Agent verlässt die IDE Richtung Smartphone.

Cursor 3.9 (22. Juni) bündelt Plugins, Skills, MCPs, Subagents und Hooks auf einer zentralen Customize-Seite samt Team-Marktplatz — derselbe „Extension-Layer wird Standard”-Zug, den auch Cline und Antigravity gerade fahren. Drei kürzere Bewegungen am Rand: Cognition führt Windsurf als Devin Desktop weiter (v3.3.18 zeigt jetzt den ACU-Verbrauch an), die Antigravity CLI liefert in 1.0.10–1.0.12 ARM64-Support und neue Launch-Flags nach, und Xcode 26.6 holt sich Google Gemini als Programmierassistenten ins Haus.

Trend der Woche

Slow down to speed up

Die Engineering-Reflexion der Woche kommt von Gergely Orosz (Pragmatic Engineer): Erst die Modelle vom November 2025 hätten Agenten „genuinely useful” gemacht — und die Adoptionszahlen seien steil. Teams mit AI-Agenten lieferten rund fünfmal mehr Pull Requests als vor zwei Jahren, einzelne Entwickler 2,5-mal mehr Code. Selbst DHH (David Heinemeier Hansson, Schöpfer von Ruby on Rails), noch im Sommer 2025 entschiedener Verweigerer, räumt ein, sein Widerstand habe schlicht daran gelegen, dass die Modelle damals „not good enough” waren.

Der Gegenbeat kommt von Stack Overflow, das seine Developer Survey 2026 öffnet — pointiert „for human developers only”. Die Agenten-Nutzung hat sich binnen eines Jahres fast verdoppelt (von 31 auf 59 Prozent), aber 63 Prozent lassen sie „selten oder nie” ohne Aufsicht laufen. Mehr Entwickler nutzen KI — und weniger vertrauen ihr blind. Den Schatten über den Zahlen setzt Orosz selbst: der jüngste Security-Vorfall bei Meta als Mahnmal, dass Tempo ohne Leitplanken kippt.

Tipp der Woche

Cloudflare „Temporary Accounts for AI Agents” — Mit npx wrangler deploy --temporary lässt sich ein Cloudflare-Workers-Projekt für 60 Minuten ins Netz stellen, ganz ohne Konto; ein Claim-Link reicht das Deployment später einem echten Account nach. Cloudflare selbst: „you can now create a Cloudflare Workers project and run this, without even creating a Cloudflare account.” Warum das hier steht: Es ist ein kleines, konkretes Infrastruktur-Primitiv für genau das Problem, das Multi-Agent-Setups gerade umtreibt — ephemere, wegwerfbare Deployments, die ein Agent selbst anlegen kann, ohne dass vorher jemand ein Konto und Zugangsdaten einrichtet.

Kurz notiert

Google-Exodus, Akt II (24. Juni) — Mit Jonas Adler (Google AI) und Alexander Pritzel (DeepMind, Gemini-Pretraining) wechseln zwei weitere Schlüsselleute zu Anthropic — Teil der Welle, die mit Noam Shazeers Abgang zu OpenAI begann und Alphabet am 22. Juni 7,2 Prozent kostete. DeepMind-Chef Demis Hassabis kontert: „We win our fair share of the top talent.” Nach John Jumper in #011 der nächste prominente Zugang.
OpenAI erwägt IPO-Verschiebung auf 2027 (25./26. Juni) — Laut New York Times macht der SpaceX-Kurssturz die Berater nervös; die Aktie verlor binnen sechs Tagen 31 Prozent vom Hoch. Morgan Stanley und Goldman gaben am 26. Juni jeweils über 4 Prozent nach — aus Sorge um die ausbleibenden IPO-Gebühren.
Anthropic und Meta heuern weiter an — Anthropic holt Steve Jarrett (zuvor Chief AI Officer bei Orange) nach Paris für den Europa- und Afrika-Markt; Meta übernimmt per Acqui-Hire die drei Gründer von Virtue AI (AI-Security) ins Superintelligence-Lab.
Der Souveränitäts-Reflex hält an — Cohere-KI-Chefin Joelle Pineau sagt, das Telefon klingele „durchgehend”; in Berlin holt Langdock (über 10.000 Firmenkunden) Investorin Judith Dada als Co-CEO an Bord.
Prompt Injection, zweimal — Ein neues Paper („Prompt Injection as Role Confusion”) zeigt, dass Modelle privilegierten Text nur am Stil erkennen: Entfernt man den, fällt die Angriffsquote von 61 auf 10 Prozent. Passend dazu nutzt die macOS-Schadsoftware Gaslight erstmals Prompt Injection gegen die KI-gestützte Schadcode-Analyse selbst.
Satire zum Wochenschluss — Andrew Nesbitts fiktiver „Incident Report: CVE-2026-LGTM” beschreibt, wie sich zwei konkurrierende AI-Review-Agenten in eine Eskalationsschleife reden. Näher an der Realität, als einem lieb ist.

Quellen

Die große Nachricht der Woche: Bloomberg — Anthropic accuses Alibaba · CNBC · Tom’s Hardware · Decrypt · The Next Web

Claude Tag: Anthropic — Introducing Claude Tag · heise — Delegieren statt chatten · TechCrunch · The New Stack · Bloomberg

Update Mythos/Fable: Globe and Mail — Verhandlungen · TechTimes — Trump softens, directive stands · explainx — Is Fable 5 Back? · heise — Anthropic may require an ID · Dr. Web — Ausweis und Selfie · Euronews — Five Eyes „months not years” · CNN — Five Eyes warning

Die Labs greifen nach eigener Hardware: CNBC — Qualcomm kauft Modular · Modular Blog · OpenAI — Jalapeño · Tom’s Hardware — Jalapeño · Micron IR — Micron + Anthropic · HPCwire

Claude Code: Changelog · GitHub Releases

Agentic Coding: GitHub Changelog — BYOK in Desktop App · MAI-Code-1-Flash für Enterprise · Copilot CLI GA · Copilot für Jira GA · GitHub Desktop 3.6 · OpenAI Codex Changelog · Cursor Changelog 3.9 · Devin Desktop Changelog · Antigravity CLI Releases · heise — Xcode 26.6 + Gemini

Trend der Woche: Pragmatic Engineer — Slow down to speed up · Stack Overflow Blog — Survey 2026

Tipp der Woche: Simon Willison — Temporary Cloudflare Accounts

Kurz notiert: Bloomberg — Adler & Pritzel zu Anthropic · CNBC — Shazeer zu OpenAI · Semafor — Hassabis-Counterpoint · Bloomberg — OpenAI leans toward 2027 IPO · Bloomberg — Morgan Stanley/Goldman fallen · Al Jazeera — SpaceX-Sell-off · Reuters via Yahoo — Steve Jarrett zu Anthropic · Axios — Meta acqui-hired Virtue AI · IT-Journal — Pineau „Telefon klingelt durchgehend” · Sifted — Judith Dada Co-CEO Langdock · Simon Willison — Prompt Injection as Role Confusion · SentinelOne Labs — macOS.Gaslight · Andrew Nesbitt — CVE-2026-LGTM

Das war Agentic Weekly #012. Danke fürs Lesen — die nächste Ausgabe kommt am Samstag, 4. Juli 2026.

Hinter Agentic Weekly steckt Martin Gross: wöchentlich ein kompakter, meinungsstarker Überblick zu Agentic Engineering, Agentic Coding und Claude Code.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter. Fragen, Anmerkungen oder Kritik? Antworte einfach auf diese Mail oder hinterlasse einen Kommentar.

Agentic Weekly #011 — Wer das Vakuum füllt

Martin Gross — Tue, 23 Jun 2026 19:51:36 GMT

Anthropics Modelle sind weiter gesperrt, der Ton kippt — aber die Direktive bleibt. Vier Tage nach SpaceX’ Börsengang kauft der Konzern für 60 Milliarden Dollar den meistgenutzten KI-Editor. Während Washington abschaltet, ordnet sich der Rest des Markts neu.

Dienstag, 23. Juni 2026 — Lesezeit: ~10 Min.

Die große Nachricht der Woche

Die Fable-Folgewoche — von „Modelle offline” zum Verhandlungs-Endspiel

Die Trilogie aus #010 — Launch, heimliche Sabotage, Export-Stopp — ist erzählt. Diese Woche zeigt, was danach passiert: Aus einem technischen Sicherheitsstreit ist ein geopolitischer geworden, und am Wochenende kippt der Ton, ohne dass sich der Stand ändert. Vier Strömungen verzahnen sich.

Die neue Begründung — der China-Strang (15. Juni). Semafor liefert eine zweite Lesart der Sperre: Ein China-naher Akteur habe Zugriff auf Mythos gehabt, Amazons Sicherheitsteam habe daraufhin Exploits — also funktionierende Angriffe — für vier verbreitete Apps erzeugen lassen und Finanzminister Bessent informiert. Das rahmt die Direktive nicht mehr nur als Jailbreak-Sorge, sondern als konkrete Spionage-Hypothese. Wichtig zur Einordnung: Die Kernbehauptung stützt sich auf eine anonyme Geheimdienstquelle, eine unabhängige Bestätigung steht aus. heise greift den Strang auf, ohne ihn zu erhärten.

Die G7-Antwort — Évian-les-Bains (17. Juni). Beim AI-Working-Lunch mit Donald Trump fordern Dario Amodei (Anthropic) und Demis Hassabis (Google DeepMind) eine US-geführte KI-Koalition mit „structured access to frontier models” — also geregeltem Zugang zu Spitzenmodellen für verbündete Staaten. Emmanuel Macron formuliert die Gegenposition Europas am schärfsten — sinngemäß: Niemand werde US-KI kaufen, die sich jederzeit abschalten lasse.

Die G7 bringen einen „Trusted Partners”-Mechanismus ins Gespräch — ein Verfahren, das geprüften Partnerstaaten verlässlichen Modellzugang garantieren soll.

Der Anthropic-Pivot — Seoul (17./18. Juni). Sechs Tage nach dem Export-Stopp gegen ausländische Nutzer eröffnet Anthropic unter KiYoung Choi sein drittes APAC-Büro nach Tokio und Bengaluru, mit Großkunden wie NAVER, Samsung SDS, LG CNS und Nexon. Eine Expansion in fremde Märkte, während die eigenen Modelle für genau deren Bürger gesperrt sind — Optik mit Doppelboden.

Das Verhandlungs-Endspiel — und die Ton-Wende am Wochenende. Anthropics International-Chef Chris Ciauri sagt in Seoul, man sei „very confident”, dass die Modelle „in den kommenden Tagen” wieder verfügbar seien; Globe and Mail berichtet parallel von laufenden Gesprächen zwischen Anthropic und Trump-Officials. Am 20. Juni kippt der Ton: Auf die Frage, ob Anthropic eine Gefahr für die nationale Sicherheit sei, antwortet Trump:

„Well, not now, but a week ago, maybe.”

Sinngemäß: jetzt nicht mehr, vor einer Woche vielleicht. Entscheidend ist der Unterschied zwischen Ton und Stand: Die Direktive bleibt in Kraft, Fable 5 und Mythos 5 bleiben auch am Dienstag (23. Juni) offline — die von Ciauri in Aussicht gestellten „kommenden Tage” sind verstrichen, der Stand ist unverändert. Und die eigene Branche stellt sich quer: Schon am 15. Juni forderten über 80 Cybersecurity-Führungskräfte, darunter von NVIDIA und Adobe, in einem offenen Brief an Handelsminister Howard Lutnick und National Cyber Director Sean Cairncross die Aufhebung der Sperre.

Während die Modelle offline sind, baut Anthropic personell weiter: John Jumper — Chemie-Nobelpreisträger 2024 und AlphaFold-Lead — verlässt nach rund neun Jahren Google DeepMind und geht zu Anthropic; Hassabis dankt für eine „extraordinary partnership”. Nach dem Karpathy-Wechsel der nächste Spitzen-Zugang mitten in der Krisenwoche.

Warum das relevant ist: Der Stand nach einer Woche ist nicht Eskalation, sondern Hängepartie — verhandelt wird hinter den Kulissen, der Ton wird weicher, die Sperre bleibt. Für jeden außerhalb der USA heißt das: Die Verfügbarkeit eines Spitzenmodells ist jetzt eine politische Variable, kein Vertragsdetail. Genau diese Unsicherheit treibt die beiden anderen Geschichten der Woche — den deutschen Souveränitäts-Reflex und die Bewegungen der Konkurrenz.

SpaceX kauft Cursor für 60 Milliarden Dollar

Es ist die größte Übernahme in der Geschichte des Developer-Toolings. Am 16. Juni kündigt SpaceX an, Anysphere — die Firma hinter dem KI-Coding-Editor Cursor — für 60 Milliarden Dollar zu übernehmen. Der Deal ist ein All-Stock-Deal (reine Aktien, kein Bargeld): Alle Anysphere-Anteile werden in SpaceX-Class-A-Aktien getauscht. Abschluss erwartet im dritten Quartal 2026, vorbehaltlich der Regulierungsfreigabe.

Die Vorgeschichte erklärt den Preis. SpaceX hatte sich im April 2026 das Recht gesichert, Cursor für 60 Milliarden Dollar in Aktien zu übernehmen — oder eine Abstandszahlung von 10 Milliarden Dollar zu leisten, falls der Deal platzt. Gezogen wird die Option jetzt, vier Tage nach SpaceX’ Börsengang an der Nasdaq: Die Aktie ging zu 135 Dollar an den Start und schoss in den ersten Handelstagen steil nach oben — erst dieser Wertzuwachs macht den Aktien-Deal überhaupt rechenbar. Anysphere war zuvor mit rund 29 Milliarden Dollar bewertet.

Strategisch ist das ein Markteintritt. SpaceX, im Februar mit xAI verschmolzen, war im Agentic Coding bisher nur über das Grok-Modell und die junge Grok-Build-Kommandozeile präsent (erstmals in #006). Mit Cursor kauft sich der Konzern auf einen Schlag den meistgenutzten KI-Editor — und das Modell darunter, dessen schnelles, günstiges Composer 2.5 schon im Mai den Preisbruch in der Branche ausgelöst hatte.

Passend dazu liefert Cursor in derselben Woche Version 3.8: ein /automate-Skill, der lokale Agent-Sessions automatisiert, neue Trigger über GitHub und Slack, und „Computer Use” für Cloud-Agenten — die Fähigkeit, eine grafische Oberfläche selbst zu bedienen, um etwa Demos oder Artefakte zu erzeugen. Und xAIs Grok Build bekommt ein Agent-Dashboard, das mehrere parallele Kommandozeilen-Sessions aus einem Terminal heraus überwacht — der Schritt von der einzelnen Session zur Mehr-Agenten-Übersicht.

Warum das relevant ist: In derselben Woche, in der ein Lab seine Spitzenmodelle per Regierungsanordnung vom Netz nimmt, kauft ein anderer Konzern die Werkzeugschicht darüber für eine Rekordsumme. Anthropic im Clinch mit der Regierung vor dem eigenen IPO, SpaceX frisch an der Börse und sofort auf Einkaufstour. Gleiche Woche, entgegengesetzte Kapitalmarkt-Logik.

Was die deutsche Reaktion zeigt

Während international verhandelt wird, zeigt Deutschland, was der Stopp politisch auslöst. Innenminister Alexander Dobrindt warnt, man gehöre „sehr schnell zu den Opfern”, und verweist auf BSI-Präsidentin Plattner und die „Umwälzungen im Umgang mit Sicherheitslücken”. Deutschland war in Gesprächen mit Anthropic, bekam aber keinen Mythos-Zugang — die erste hochrangige Bundesregierungs-Stimme zum Fall.

Die Wissenschaft ordnet ein: Das Science Media Center versammelt acht KI-Professorinnen und -Professoren. Gitta Kutyniok (LMU) fordert einen „Airbus-Moment für KI” — ein europäisches Großprojekt nach dem Vorbild des Flugzeugbauers. Paul Röttger (Oxford) hält dagegen: lieber vertraglich gesicherter Zugang als teure Eigenentwicklung. Andreas Hotho (Würzburg) ergänzt nüchtern, dass „andere frei verfügbare Modelle ähnlich gut” Schwachstellen finden können. Bitkom und OSBA stehen auf Röttgers Seite — mit schärferer Sprache: Wintergerst nennt die Abhängigkeit vom „US-Regierungs-Wohlwollen” untragbar, Ganten sieht Open Source als einzige nicht-entziehbare Antwort. Aus Brüssel meldet sich Thomas Regnier, Kommissionssprecher für technologische Souveränität: Maßnahmen dürften „nicht diskriminierend gegenüber Partnern” sein.

Databricks veröffentlicht Omnigent als Open Source

Abseits der Politik kam diese Woche die eigentliche Engineering-Nachricht: Databricks stellt Omnigent unter Apache-2.0-Lizenz frei. Omnigent ist ein Meta-Harness — eine herstellerneutrale Steuerungsschicht, die über mehreren Agenten-Werkzeugen wie Claude Code, Codex und eigenen Agenten liegt. Konfiguriert wird per YAML; das Framework bringt Ausführungs-Runner, Sandboxing und einheitliche Richtlinien für Kosten, Umgang mit personenbezogenen Daten und Risiko-Bewertung mit. Ein Modellwechsel ist laut Databricks eine „single line modification” — eine einzige geänderte Zeile.

Das „Der Harness wird zum Schlachtfeld”-Narrativ aus #007 bekommt damit eine Open-Source-Antwort: Nicht der Anbieter besitzt die Steuerungsschicht, sondern eine neutrale Konfiguration, die zwischen den Anbietern wechselt. Die technische Entsprechung zur Souveränitäts-Debatte eine Sektion höher: Wer die Steuerungsschicht kontrolliert, ist nicht mehr abschaltbar.

Claude Code: Die Highlights der Woche

Mehrere Releases zwischen 15. und 22. Juni, von v2.1.178 bis v2.1.186.

Für Multi-Agent- und Skill-Workflows

v2.1.178 — Agent-Teams umgebaut, neue Permission-Syntax (15. Juni) — TeamCreate/TeamDelete sind weg; Teammates werden jetzt direkt über Agent(name:…) angesprochen. Neu ist eine feinere Berechtigungs-Syntax Tool(param:value) — etwa Agent(model:opus), um den Einsatz eines bestimmten Modells gezielt zu sperren. Außerdem laden verschachtelte .claude/skills-Ordner jetzt zuverlässig — das schließt die Lücke aus dem Plugin-Autoloading der letzten Wochen.

Für alle, die Auto Mode produktiv nutzen

v2.1.183 — destruktive Befehle im Auto Mode geblockt (19. Juni) — Auto Mode (Claude entscheidet selbst, welche Aktionen unkritisch sind und keine Rückfrage brauchen) bekommt sein erstes Sicherheits-Hardening: git reset --hard, checkout -- ., clean -fd, stash drop sowie terraform/pulumi/cdk destroy werden ohne explizite Anweisung nicht mehr ausgeführt. Genau die Art von Leitplanke, die man sich wünscht, sobald man Auto Mode aus der Tokyo-Demo wirklich auf ein Repo loslässt. (attribution.sessionUrl-Setting und WebSearch-Fixes in Sub-Agenten kommen in demselben Release mit.)

Für den Alltag

v2.1.181 — /config key=value aus dem Prompt, Bun-Runtime auf 1.4 (17. Juni) — Konfiguration lässt sich jetzt direkt aus dem Prompt setzen; dazu ein Prompt-Caching-Fix für eigene API-Endpunkte und ein Schutz gegen 0-Byte-Dateien auf Netzlaufwerken. Der Patch v2.1.185 (20. Juni) formuliert nur den Hinweis bei hängendem Antwort-Stream ruhiger um und hebt das Timeout von 10 auf 20 Sekunden. v2.1.186 (22. Juni) legt nach: claude mcp login/logout meldet MCP-Server direkt aus der Kommandozeile an (ohne /mcp-Menü, per --no-browser auch über SSH), und Bash-Ausgaben lösen jetzt automatisch eine Claude-Antwort aus (respondToBashCommands: false schaltet es ab).

Billing-Umstellung verschoben (16. Juni) — Und eine Nachricht mit Politik-Beigeschmack: Anthropic verschiebt die geplante Abrechnungs-Umstellung. claude -p, das Agent SDK und Drittanbieter-Apps bleiben vorerst im Abo statt nach Verbrauch abgerechnet zu werden. Als Gründe nennt the-decoder den Preisdruck durch OpenAI, die IPO-Sensibilität und die regulatorische Unsicherheit rund um die Modell-Sperre.

Agentic Coding

Codex CLI v0.141 und Record & Replay (18. Juni) — OpenAI baut die Fernsteuerung aus: Die CLI bekommt Remote Executors, also das Ausführen von Aufgaben auf entfernten Rechnern über verschlüsselte Kanäle, plattformübergreifend und mit MCP-Anbindung pro Thread (MCP ist der offene Standard, über den externe Werkzeuge an KI-Agenten angeschlossen werden). Parallel bringt die Codex-App „Record & Replay”: einen macOS-Workflow einmal aufzeichnen und in einen wiederverwendbaren Skill umwandeln. Das ist exakt dasselbe Muster wie Cursors /automate weiter oben — beide am selben Tag, beide „lokalen Ablauf aufnehmen → Skill”. Die Konvergenz ist die eigentliche Geschichte. Pikant für europäische Nutzer: Obwohl OpenAI Computer Use — die Voraussetzung für Record & Replay — schon am 16. Juni in die EU gebracht hat, bleibt das neue Feature selbst in EU, UK und der Schweiz vorerst gesperrt.

Cline v3.0.28 (19. Juni) — Die Open-Source-Front zieht nach: neues Onboarding mit auswählbaren Modellen, ein Katalog wiederverwendbarer Bausteine („Hub”), sofort wirkende Auto-Approve-Schalter und das Kürzen großer Tool-Ergebnisse fürs Kontext-Budget. Der Hub-Katalog ist die eigentliche Architektur-Ergänzung.

Trend der Woche

Wer das Vakuum füllt

Während Washington den Hahn zudreht, machen andere die Tür weiter auf — auf zwei Wegen. Den vertraglichen geht Mistral: CEO Arthur Mensch positioniert sich offensiv — Mistral stehe „outside of centralised control exercised by states or corporations”, Frankreich rollt Mistral-Werkzeuge für den Staatsdienst aus, das Lab verhandelt eine Bewertung im zweistelligen Milliarden-Euro-Bereich, und Cohere meldet „huge inbound”. Den offenen Weg geht China: Das Lab Z.ai veröffentlicht mit GLM-5.2 ein Open-Weights-Modell (nach Angaben des Labs 753 Mrd. Parameter, 1 Mio. Token Kontext, MIT-Lizenz) — genau in der Woche, in der die US-Regierung ein US-Spitzenmodell deaktiviert. Simon Willison hat es bereits angetestet.

Der offene Brief der 80 Sicherheitschefs gehört in dieselbe Bewegung: Diesmal ist es die US-Industrie selbst, die sich gegen die Abschalt-Logik der eigenen Regierung stellt. Die Frage der nächsten Monate ist nicht, ob das Vakuum gefüllt wird, sondern womit — mit vertraglich gesichertem Zugang, mit frei herunterladbaren Modellen, oder mit politischem Druck von innen.

Tipp der Woche

Sean Lynch über MCP — was das Protokoll wirklich leistet (19. Juni, via Simon Willison) — In einem Satz bringt Lynch die laufende „Skills vs. MCP”-Debatte auf den Punkt: „The real valuable capability MCP offers over skills/CLI is isolating the auth flow outside of the agent’s context window …” Sinngemäß: Der eigentliche Mehrwert von MCP gegenüber Skills oder einer reinen CLI liegt darin, die Anmeldung (den „Auth-Flow”) aus dem Sichtfeld des Agenten herauszuhalten. Warum das hier steht: Wer sich fragt, wofür man MCP überhaupt braucht, wenn Skills so vieles können, bekommt hier die schärfste Antwort in einem Absatz — MCP im Kern als Auth-Gateway.

SemiAnalysis — „RL Systems Mind the Gap” (16. Juni) — Für alle, die tiefer wollen: Das Stück erklärt, warum die Abstimmung von Trainer- und Generator-Durchsatz das zentrale Nadelöhr moderner RL-Pipelines (Reinforcement Learning, das Nachtrainieren von Modellen über Belohnungssignale) ist. Warum das hier steht: Es erklärt eine konkrete Industrie-Mechanik statt nur einen Trend — und damit, warum Post-Training so teuer ist.

Kurz notiert

Refund-Frist abgelaufen (20. Juni, 23:59 PT) — Die anteilige Rückerstattung für Pro/Max/Team-Upgrades zwischen dem 9. und 14. Juni ist ohne gemeldete Verlängerung ausgelaufen.
GitHub Copilot baut Budget-Werkzeuge (17./19. Juni) — Ein Blog-Beitrag erklärt besseres Model-Routing, mit dem Credits länger reichen; dazu kommt ein Feld ai_credits_used pro Nutzer in die Usage-Metrics-API. Beides zielt auf die Kostentransparenz, um die sich die Pricing-Debatte der letzten Wochen dreht.

Quellen

Die große Nachricht der Woche: Semafor — White-House-Move wegen China-Zugang zu Mythos · heise — Einordnung · CNBC — Amodei/Hassabis fordern US-Koalition · Fortune — G7 AI Sovereignty · The National — G7 Trusted Partners · Anthropic — Seoul wird drittes APAC-Büro · Korea JoongAng Daily — Ciauri · Globe and Mail — Verhandlungen + Open Letter · Benzinga — Trump „not now” · Al Jazeera — Allianz-Reaktionen · the-decoder — Jumper zu Anthropic

SpaceX kauft Cursor: TechCrunch — SpaceX to acquire Cursor for $60B · CBS News · AI Business — Agentic Coding · Cursor Changelog — 3.8 · xAI Build Changelog

Was die deutsche Reaktion zeigt: CIO.de — Dobrindt · Science Media Center — Expertenstimmen · Bitkom — Wintergerst · OSBA — Ganten · the-decoder.de — EU prüft Folgen

Databricks Omnigent: heise — Databricks Releases Omnigent as Open Source

Claude Code: Changelog · the-decoder.de — Anthropic verschiebt Billing-Umstellung

Agentic Coding: Codex Changelog · Codex Releases · the-decoder — Codex Record & Replay (EU/UK/CH gesperrt) · Cline Releases

Trend der Woche: Sifted — Mistral Sovereignty · GuruFocus — Mistral-Bewertung · Simon Willison — GLM-5.2

Tipp der Woche: Simon Willison — Sean Lynch zu MCP · SemiAnalysis — RL Systems Mind the Gap

Kurz notiert: TechTimes — Refund-Frist · GitHub Blog — Getting more from each token · GitHub Changelog — ai_credits_used

Das war Agentic Weekly #011. Danke fürs Lesen — die nächste Ausgabe kommt am Samstag, 27. Juni 2026.

Hinter Agentic Weekly steckt Martin Gross: wöchentlich ein kompakter, meinungsstarker Überblick zu Agentic Engineering, Agentic Coding und Claude Code.

Hat dir die Ausgabe gefallen? Leite sie gerne weiter oder empfiehl den Newsletter. Fragen, Anmerkungen oder Kritik? Antworte einfach auf diese Mail oder hinterlasse einen Kommentar.

Agentic Weekly #009 — Anthropic geht aufs Parkett, Microsoft baut eigene Modelle, der Zähler läuft

Martin Gross — Sat, 06 Jun 2026 12:47:32 GMT

Anthropic reicht S-1 ein, Microsoft stellt sieben eigene MAI-Modelle gegen die Anthropic-Abhängigkeit, und Uber deckelt das KI-Budget bei $1.500 pro Tool — die Woche, in der das Coding-Layer erwachsen wird und die subventionierte Gratis-Schleife endet.

Samstag, 6. Juni 2026 — Lesezeit: ~8 Min.

Die große Nachricht der Woche

Der KI-Coding-Layer formiert sich

An zwei aufeinanderfolgenden Tagen wird sichtbar, wie sich die Schicht, die Code schreibt, marktwirtschaftlich verfestigt: Anthropic bereitet den Gang an die Börse vor, Microsoft baut sich aus der Abhängigkeit von fremden Modellen heraus. Zwei Achsen lohnen den Blick.

Anthropic geht aufs Parkett — die Kapitalmarkt-Achse.

Am 1. Juni hat Anthropic vertraulich einen Entwurf der Form S-1 bei der SEC eingereicht — der erste Schritt eines möglichen Börsengangs. Die Mitteilung ist betont nüchtern (Rule 135): Zahl und Preis der Aktien stehen nicht fest, der Gang aufs Parkett „hängt von Marktbedingungen und anderen Faktoren ab” und wird erst nach Abschluss der SEC-Prüfung zur Option.

Die Größenordnung liefert die Berichterstattung, nicht Anthropic: Laut TechCrunch trägt die Firma die rund $965 Mrd. Bewertung aus der Series H (#008) in das Verfahren, und die Run-Rate ist von $9 Mrd. Ende 2025 auf über $47 Mrd. gesprungen. Das Bemerkenswerte ist weniger die Zahl als der Schritt selbst: Anthropic ist das erste Frontier-Lab, das den Weg an die öffentliche Börse formal eröffnet — vor OpenAI, vor xAI.

Microsoft baut sich um Agents herum — die Stack-Achse.

Auf der Build 2026 (2./3. Juni) stellt Microsoft sieben neue MAI-Modelle vor — und das Signal sitzt in der Positionierung. Das Coding-Flaggschiff MAI-Code-1-Flash ist ein bewusst kleines Modell (5 Mrd. aktive Parameter), das Microsoft als „comparable to Haiku but cheaper” beschreibt — also gegen Anthropics günstigstes Modell, nicht gegen die Spitze. Es ist im Copilot-Model-Picker in VS Code wählbar, vorerst als limitierter Rollout.

Das zieht sich durch die Modellfamilie: Das neue Reasoning-Modell MAI-Thinking-1 wird laut Microsoft „in blind side-by-sides” gegenüber Sonnet 4.6 bevorzugt — Anthropics Mittelklasse. Ein Head-to-Head gegen GPT-5.5, Opus 4.8 oder Gemini taucht nirgends auf. Microsoft baut hier kein Frontier-Modell, sondern die billige Arbeitspferd-Schicht: effizienz-first (das Excel-getunte MAI „matches GPT-5.4 while being up to 10× more efficient”), während die Spitze weiter eingekauft wird — Opus und GPT bleiben in Copilot wählbar.

Dazu zwei Bausteine, die zeigen, wie ernst der Umbau ist. Rayfin ist ein Open-Source-Backend-as-a-Service, mit dem Entwickler und Coding-Agents ein komplettes App-Backend in Code definieren und nach Microsoft Fabric deployen — Microsofts Brücke von „Vibe Coding” zur produktionstauglichen App (Launch-Partner: Replit). Und die GitHub Copilot App (Desktop-Preview) startet aus einer Idee heraus mehrere Agent-Sessions parallel. Nadella klammert das unter eine angekündigte „Copilot Super App” aus Chat, Cowork und Code.

Warum das relevant ist: CNBC brachte die Woche auf die Formel, Microsoft und Google seien „late to AI coding” — und genau das adressiert Build. Microsoft reduziert mit eigenen Modellen die Abhängigkeit von OpenAI und Anthropic, ohne den Anspruch zu erheben, die Frontier zu schlagen; die Strategie ist Kosten und Kontrolle, nicht Capability-Maximierung.

Project Glasswing skaliert auf kritische Infrastruktur

Am 2. Juni weitet Anthropic Project Glasswing drastisch aus: rund 150 neue Organisationen in mehr als 15 Ländern kommen hinzu — Power, Water, Healthcare, Communications und Hardware-Hersteller. Damit sind rund 200 Organisationen an Bord. Die bisherigen Partner haben mit der Claude Mythos Preview mehr als 10.000 high- oder critical-severity-Schwachstellen gefunden. Anthropic schätzt, dass bei den meisten dieser Partner ein größerer Angriff über 100 Millionen Menschen treffen könnte.

Das ist der Skalierungs-Beleg für die Mythos-Linie: Was in #007 als öffentlicher Disclosure-Zähler startete, wird hier zum Programm für kritische Infrastruktur. Flankierend macht Anthropic Claude Security allgemein verfügbar — bisher als „Claude Code Security” in Limited Preview, jetzt GA für Enterprise. Geplante und gezielte Scans, Audit-Integration, ein Confidence-Rating pro Finding und mehrstufige Validierung gegen False Positives sollen den Weg vom Scan zum eingespielten Patch „in einem Sitting” tragen. Die Offensiv-Seite (Mythos findet Lücken) und die Defensiv-Seite (Security patcht sie) werden damit zur selben Produktlinie.

Claude Code: Die Highlights der Woche

Mehrere Releases zwischen 29. Mai und 6. Juni, von v2.1.157 bis v2.1.167. Schwerpunkt: Plugin-Autoloading, Ausfallsicherheit und Enterprise-Versionskontrolle.

Für alle, die Claude Code täglich nutzen

fallbackModel — sanfte Degradierung bei Überlast (v2.1.166, 6. Juni) — Ein neues Setting konfiguriert bis zu drei Fallback-Modelle, die der Reihe nach versucht werden, wenn das primäre Modell überlastet oder nicht erreichbar ist; --fallback-model greift jetzt in interaktiven Sessions, und Claude wiederholt einen Turn auf dem Fallback, wenn die API einen unerwarteten Fehler wirft. Für alle, die produktiv auf Opus angewiesen sind und Peak-Hour-Ausfälle kennen, ist das der bisher fehlende Resilienz-Baustein.

/plugin list mit Filtern (v2.1.163, 4. Juni) — Listet installierte Plugins mit --enabled/--disabled. Dazu kleine Alltagshilfen: c kopiert die Markdown-Antwort aus /btw, Hooks können über hookSpecificOutput.additionalContext Kontext zurückgeben.

Für Plugin- und Skill-Workflows

Plugins laden automatisch aus .claude/skills (v2.1.157, 29. Mai) — Plugins in .claude/skills-Verzeichnissen werden jetzt ohne Marketplace geladen, claude plugin init scaffoldet ein neues Plugin direkt, und die Autocomplete kennt /plugin-Subkommandos sowie installierte Plugin-Namen. Die Hürde, eigene Skills zu paketieren und zu teilen, sinkt damit weiter — passend zur Skill-Welle der letzten Wochen.

Für CI/CD und Plattform

Auto Mode auf Bedrock, Vertex und Foundry (v2.1.158, 30. Mai) — Der Auto Mode ist jetzt auf allen drei Enterprise-Cloud-Tiers verfügbar (für Opus 4.7 und 4.8), Opt-in via CLAUDE_CODE_ENABLE_AUTO_MODE=1. Damit ist das Setup für Cloud-gebundene Enterprise-Kunden geschlossen.

Versionskontrolle und gehärtetes Cross-Session-Messaging (v2.1.163 / v2.1.166) — Neue Managed Settings requiredMinimumVersion und requiredMaximumVersion erlauben Org-Admins, die erlaubte Claude-Code-Version zu pinnen. Sicherheitsseitig tragen über SendMessage weitergereichte Nachrichten zwischen Sessions keine User-Autorität mehr — eine ganze Klasse von Privilege-Confusion-Bugs in Multi-Agent-Setups fällt damit weg.

Agentic Coding

Cursor 3.7 (4. Juni) — Zwei Neuerungen tragen die Story, nachdem Composer 2.5 zuletzt im Mittelpunkt stand. Der Design Mode für Canvas lässt UI-Elemente direkt im Canvas selektieren und annotieren, statt sie in Prosa zu beschreiben — der Agent bekommt die Änderung gezeigt, nicht erzählt. Und der Context Explorer macht sichtbar, wie sich die Tokens auf System-Prompt, Tool-Definitionen, Rules und Skills verteilen — eine direkte Antwort auf das Context-Visibility-Problem, das Power-User seit Monaten umtreibt. Dazu: Organizations für Enterprise sind GA, und Bugbot wechselt von der Seat-Fee auf Usage-Based Billing.

Windsurf wird Devin Desktop (2. Juni) — Cognition integriert die Windsurf-Übernahme operativ: Beim Rebrand ersetzt Devin Local das bisherige Cascade als Default-Surface, das Agent Command Center wird zur Startfläche, und ACP (Agent Client Protocol) ist an Bord. Parallel kommt Devin 2.2 mit Self-Verify, Auto-Fix und Computer-Use für Test-Workflows. Der Anbieter, der 90 % seines eigenen Codes von Devin schreiben lässt, baut die Oberfläche konsequent um den Agenten herum, nicht umgekehrt.

Codex Sites — und ein Muster, das diese Woche dreimal auftaucht (Preview) — OpenAI gibt Codex eine Deploy-Schicht: Aus dem Codex heraus lassen sich Sites, Dashboards und interne Tools erstellen und ausspielen, der Schritt nach draußen zu eigener Infrastruktur entfällt (vorerst Preview). Das ist kein Einzelfall: Microsofts Rayfin → Fabric (siehe oben) und Anthropics self-hosted Sandboxes vom Mai gehen in dieselbe Richtung. Drei Frontier-Anbieter, eine Woche, dieselbe Bewegung — vom Modell zur vollständigen, ökosystem-internen Wertschöpfungskette. Der Effekt ist Bindung durch reduzierte Reibung: Der Workflow muss das Haus nicht mehr verlassen.

Trend der Woche

Usage-Based Billing wird zum Normalbetrieb

Drei Bewegungen dieser Woche markieren das Ende der subventionierten Gratis-Schleife — und sie verbinden sich zu einer These: Wer Agents im großen Stil laufen lässt, zahlt ab jetzt nach Verbrauch.

Uber liefert die Schlagzeile. Nachdem das Unternehmen sein gesamtes Jahres-KI-Budget in vier Monaten verbrannt hatte, deckelt es das Tool-Spending auf $1.500 pro Mitarbeiter pro Tool und Monat — getrennt je Werkzeug (Claude Code und Cursor zählen separat), überschreitbar nur mit Genehmigung. Das ist die erste konkrete Cap-Zahl eines börsennotierten Großkonzerns, und sie wird der Benchmark, an dem sich andere messen.

GitHub zieht strukturell nach: Zum 1. Juni stellt Copilot auf Usage-Based Billing um — alle Pläne migrieren auf AI-Credits, dazu ein neuer Copilot Max für $100/Monat für anhaltende agentische Workflows. Und Anthropic zieht ab dem 15. Juni eine Trennlinie durch die eigenen Abos: Programmatische Nutzung (Agent SDK, claude -p, GitHub Actions, Third-Party-Apps) wandert aus dem Subscription-Pool in einen separaten, zu API-Preisen abgerechneten Credit Pool — der interaktive Gebrauch (claude.ai, Claude Code interaktiv, Cowork) bleibt unverändert.

Damit bekommt das Token-Spend-Problem, das Pragmatic Engineer in #005 als erstes vermessen hat, seine ökonomische Antwort. Die Logik der drei Bewegungen ist dieselbe: Interaktives Arbeiten am Menschen bleibt im Flatrate-Komfort, der Dauerlauf im Hintergrund bekommt einen Zähler. Wer Async-Agents als Default-Ausführungsschicht plant, muss diese Rechnung jetzt explizit aufmachen — die Frage ist nicht mehr ob der Loop läuft, sondern was er pro Monat kostet.

Tipp der Woche

Best Claude Code Plugins, June 2026 — Composio hat eine annotierte Übersicht der meistgenutzten Claude-Code-Plugins veröffentlicht (1. Juni), sortiert nach Installs: Frontend Design (829k), Superpowers (752k), Context7 (349k), dazu Code Review, Code Simplifier und Skill Creator. Statt „installier alles” rät der Beitrag zu einem fokussierten Stack je Workflow.

Kurz notiert

Claude Partner Network (3. Juni) — Services Track plus Partner Hub, $100 Mio. in Partner-Training. Seit März über 40.000 Bewerbungen und mehr als 10.000 Claude-zertifizierte Consultants. Der Hub zeigt den Tier-Status täglich aktualisiert — die Vertriebsmaschine, die unter dem IPO-Filing sichtbar wird.
Codex CLI 0.137.0 (4. Juni) — OpenAI iteriert im Tagestakt weiter: monatliche Credit-Limits für Enterprise, Remote-Control-Pairing, Multi-Agent-v2-Verbesserungen. Inkrementell, aber konsequent.
Vorschau: Code w/ Claude Tokyo (10./11. Juni) — Anthropics erste Entwicklerkonferenz im asiatisch-pazifischen Raum, Englisch mit japanischer Live-Übersetzung, plus ein Extended-Tag für Indie-Devs und Gründer.

Quellen

Die große Nachricht der Woche: Anthropic — Confidential S-1 · TechCrunch — IPO-Filing · CNBC — late to AI coding · Microsoft AI — seven new MAI models · GitHub Changelog — MAI-Code-1-Flash · heise — Microsoft Build 2026

Project Glasswing: Anthropic — Expanding Project Glasswing · TechCrunch — Glasswing in 15 countries · Anthropic — Claude Security

Claude Code: Changelog · Releases (GitHub)

Agentic Coding: Cursor Changelog · AICoderscope — Windsurf Devin Desktop · Devin 2.2 · Codex Changelog

Trend der Woche: TechCrunch — Uber-Cap · GitHub Blog — Usage-Based Billing · The Decoder — Anthropic Subscription Credits

Tipp der Woche: Composio — Top Claude Code Plugins

Kurz notiert: Anthropic — Services Track & Partner Hub · Codex Releases (GitHub) · Code w/ Claude Tokyo

Nächste Ausgabe: Samstag, 13. Juni 2026.

Feedback? Einfach kommentieren/antworten.

Agentic Weekly #008 — Anthropics großer Tag: Opus 4.8, 65 Milliarden und der Mythos-Start

Martin Gross — Sat, 30 May 2026 17:15:19 GMT

Opus 4.8, die größte Finanzierungsrunde der Firmengeschichte und der öffentliche Mythos-Start — alles an einem 28. Mai; und während Cognition 48 Stunden zuvor eine zweite Milliardenrunde nachlegt, wird sichtbar, wohin das Kapital fließt: in die Schicht, die Code inzwischen selbst schreibt.

Samstag, 30. Mai 2026 — Lesezeit: ~7 Min.

Diesen Newsletter wöchentlich per Mail bekommen: blog.fluxum.net/s/agentic-weekly

Die große Nachricht der Woche

Anthropics großer Tag: ein Modell, 65 Milliarden und der Mythos-Start

Der 28. Mai war für Anthropic kein gewöhnlicher Release-Tag, sondern ein gebündelter Aufschlag: ein neues Frontier-Modell, die größte Finanzierungsrunde der Firmengeschichte und die Ankündigung, dass die nächste Modellgeneration in Kürze öffentlich wird — alles am selben Tag. Drei Bausteine lohnen den Blick.

Opus 4.8 — der Modell-Baustein.

Nur 42 Tage nach Opus 4.7 steht das nächste Flaggschiff. Auf SWE-bench Pro klettert Opus 4.8 auf 69,2 % (von 64,3 % bei 4.7), auf dem stärker gesättigten SWE-bench Verified auf 88,6 % — der größere Sprung liegt erwartbar auf dem härteren, weniger ausgereizten Set. Der 1-Million-Token-Context ist jetzt Default, die Preise bleiben mit $5 / $25 pro Mio. Tokens identisch zu 4.7, der Knowledge-Cutoff bleibt Januar 2026.

Der eigentliche Pitch ist aber nicht der Benchmark, sondern Ehrlichkeit: Opus 4.8 lässt laut Anthropic rund viermal seltener Fehler im selbst geschriebenen Code unmarkiert durchgehen als sein Vorgänger. Dazu kommen feinere Effort-Controls (bis /effort xhigh für die härtesten Aufgaben), und der Fast Mode kostet jetzt nur noch das Doppelte der Standardrate — statt wie bisher ein Vielfaches — bei 2,5-facher Geschwindigkeit.

Series H — der Kapital-Baustein.

Am selben Tag schließt Anthropic die größte Runde seiner Geschichte: $65 Mrd. eingesammelt, $965 Mrd. Post-Money-Bewertung — und überholt damit OpenAI als wertvollstes KI-Startup der Welt, knapp unter der Billionen-Marke und noch vor jedem IPO. Im Mai überschritt die Run-Rate-Revenue $47 Mrd. Co-Lead waren Altimeter, Dragoneer, Greenoaks und Sequoia; rund $15 Mrd. davon sind bereits zuvor zugesagte Hyperscaler-Investments. Auffällig ist, wofür das Geld reserviert ist: Compute-Verträge mit Amazon und einem Google-Broadcom-TPU-Verbund über jeweils 5 Gigawatt, dazu GPU-Kapazität von SpaceX. In #006 standen hier noch Gespräche im Raum — jetzt ist die Runde geschlossen, und deutlich größer.

Mythos — der Ausblick-Baustein.

Eingebettet in die Opus-Ankündigung meldet Anthropic „swift progress” bei den Safety-Safeguards und will „Mythos-class models” in den kommenden Wochen für alle Kunden freigeben. Opus 4.8 wird als Brücke positioniert — als Beleg, dass sich auch das schwächere Modell „honest enough to be safe” machen lässt.

Warum das relevant ist: Modell, Kapital und Sicherheits-Roadmap am selben Tag zu stapeln ist kein Zufall, sondern Signal. Anthropic koppelt die Botschaft „wir sind das wertvollste KI-Startup” direkt an „und wir liefern technisch” — und reserviert das frische Kapital sichtbar für Compute, die Ressource, an der die nächste Wettbewerbsrunde hängt.

Claude Code: Die Highlights der Woche

Für Multi-Agent-Workflows: Dynamic Workflows (Research Preview). Mit v2.1.154 schreibt Claude jetzt selbst Orchestrierungs-Skripte, die zehn bis hunderte Subagents parallel fahren — gedeckelt auf 16 gleichzeitig und 1.000 pro Lauf. Der Clou: Der Plan wandert in den Code statt in den Context, Zwischenergebnisse leben in Skript-Variablen. Ausgelöst wird das durch das Wort „workflow” im Prompt oder das Setting ultracode (= xhigh-Effort plus Auto-Orchestrierung plus Self-Verify). Als Beispiel führt Anthropic an, wie Bun-Autor Jarred Sumner Bun mit hunderten Agents von Zig nach Rust portierte — zwei Reviewer pro Datei. Verfügbar als Research Preview in CLI, Desktop und VS-Code für Max, Team und Enterprise. Das ist die nächste Stufe über klassische Multiagent-Orchestrierung: nicht mehr du orchestrierst die Agents, das Modell tut es.

Für alle, die Claude Code täglich nutzen: /code-review --fix (v2.1.152). Der in #007 eingeführte /code-review wendet seine Reuse-, Simplify- und Efficiency-Vorschläge jetzt direkt im Working Tree an, statt sie nur aufzulisten. Dazu öffnet / im NORMAL-Mode jetzt eine Reverse-History-Suche (wie Ctrl+R), und claude plugin marketplace remove versteht --scope user|project|local.

Agentic Coding

Cognition holt $1 Mrd. — und schreibt fast seinen ganzen Code selbst. Cognition ist die Firma hinter Devin, dem autonomen KI-„Software-Engineer”, der eigenständig Tickets von der Spec bis zum Pull Request abarbeitet; zu Cognition gehört zudem der Coding-Editor Windsurf. Zwei Tage vor Anthropics großem Tag sammelt das Unternehmen $1 Mrd. bei $26 Mrd. Bewertung ein (Series D, Co-Lead Lux Capital, General Catalyst, 8VC). Die eigentliche Schlagzeile steckt aber in einer Betriebszahl: mehr als 90 % des bei Cognition committeten Codes stammen inzwischen von Devin — im Dezember 2025 waren es noch 13 %. Die ARR sprang im selben Zeitraum von $37 Mio. auf $492 Mio. Kundenliste: Citi, Goldman Sachs, Mercedes-Benz, Dell, US Army und Navy. Ein Anbieter, der seine eigene These am eigenen Code vorführt.

Opus 4.8 am Launch-Tag in GitHub Copilot. Anthropics neues Modell war Tag eins in Copilot generell verfügbar (je nach Tier für Business, Enterprise und Pro). Bemerkenswert vor dem Hintergrund, dass Microsoft seine Claude-Code-Lizenzen einzieht (#007) — beim Modell greift man trotzdem sofort zu.

Codex CLI v0.134 und v0.135. OpenAI pflegt seine CLI im Tagestakt weiter: v0.134 bringt Conversation-History-Suche, --profile als kanonischen Selektor und per-Server-MCP-Env-Targeting; v0.135 ein codex doctor-Diagnose-Kommando (prüft Env, Git, Terminal, App-Server) sowie Vim-Text-Objects und benannte Profile in /permissions. Inkrementell, aber konsequent.

Trend der Woche

Async-Agents werden Normalbetrieb

Walden Yan von Cognition hat diese Woche einen Begriff geprägt, der die beiden Geld-Stories oben verbindet: „The Age of Async Agents”. Die Idee — Agents laufen nicht mehr interaktiv neben dir, sondern asynchron in eigenen Umgebungen, von Spec zu Pull Request, mit eigenem Gedächtnis, und der Mensch kommt erst beim Review wieder ins Spiel.

Diesen Sprung machen die Releases der Woche von zwei Seiten greifbar. Cognition zeigt am eigenen Betrieb, dass ein Agent den Großteil des produktiven Codes schreiben kann, wenn man ihn lässt. Und Anthropics Dynamic Workflows verlagern die Orchestrierung ins Modell: Wer hunderte Subagents fährt, plant nicht mehr jeden Schritt von Hand, sondern lässt Code den Plan halten.

Beides zusammen markiert die Verschiebung vom Agent-als-Assistent zum Agent-als-Default-Ausführungsschicht. Die spannende Frage der nächsten Quartale ist nicht mehr, ob Agents Code schreiben, sondern wie viel menschliche Aufsicht pro tausend Zeilen übrig bleibt — und ob die Review-Schicht damit Schritt hält.

Tipp der Woche

Skill Distillation — Tomasz Tunguz (Theory Ventures) beschreibt ein Teacher-Student-Setup, das gut zur Skills-Welt von Claude Code passt: Ein Frontier-Modell schreibt und testet SKILL.md-Playbooks, ein kleines lokales Modell (Qwen 35B, Gemma 26B) führt sie aus; ein nächtlicher Loop destilliert aus den Logs neue Skills. Das Ergebnis ist inspizierbar, versionierbar und hot-swappable — und es entkoppelt das institutionelle Wissen einer Firma vom jeweils teuersten Modell.

Warum das hier steht: Es dreht die übliche „das größte Modell”-Logik um — Skills werden zum dauerhaften Asset, das Modell zur austauschbaren Laufzeit. Wer Skills ohnehin pflegt, hat hier ein konkretes Muster, das sich übertragen lässt. Bezugspunkte: Pi (github.com/earendil-works/pi) und QMD (github.com/tobi/qmd).

Kurz notiert

Nachtrag: Google zeigte bereits am 19./20. Mai Gemini 3.5 Flash und Antigravity 2.0 — ein schnelleres, günstigeres Modell für Agents und Coding.
GitHub Copilot stellt Pro und Pro+ zum 1. Juni auf AI-Credits-Flex-Billing um — gleiche Preise ($10 / $39), neue Credit-Pools.
v2.1.156 (29. Mai) behebt einen Fehler, bei dem modifizierte Thinking-Blöcke unter Opus 4.8 zu API-Errors führten.

Quellen

Die große Nachricht der Woche: Anthropic — Opus 4.8 · Anthropic — Series H · TechCrunch · Simon Willison · The Register — Mythos · heise

Claude Code: DevelopersIO v2.1.154 · MarkTechPost · DevelopersIO v2.1.152 · Changelog

Agentic Coding: Bloomberg — Cognition · TheNextWeb · GitHub Changelog — Copilot · Codex Changelog

Trend der Woche: Latent Space — The Age of Async Agents

Tipp der Woche: tomtunguz.com

Kurz notiert: MarkTechPost — Gemini 3.5 Flash · GitHub Releases (v2.1.156)

Nächste Ausgabe: Samstag, 6. Juni 2026.

Feedback? Einfach kommentieren/antworten.

Diesen Newsletter regelmäßig lesen — per Mail?
Vollständige Ausgaben mit allen Quellen, direkt in dein Postfach.
Auf blog.fluxum.net abonnieren

Agentic Weekly #007 — Karpathy zu Anthropic, Stainless im Konzern, Cursor schlägt mit Composer 2.5 zurück

Martin Gross — Sat, 23 May 2026 17:31:00 GMT

Anthropic baut die Plattform breiter aus — Karpathy ins Pretraining-Team, Stainless gekauft, in London Sandboxes und MCP-Tunnel — und Cursor unterbietet die Premium-Preise mit Composer 2.5 um den Faktor 60.

Samstag, 23. Mai 2026 — Lesezeit: ~12 Min.

Diesen Newsletter wöchentlich per Mail bekommen: blog.fluxum.net/s/agentic-weekly

Agentic Weekly #006 — Anthropic schaltet hoch: Dreaming, Doppellimits und 300 MW von SpaceX

Martin Gross — Sat, 16 May 2026 11:55:33 GMT

Code with Claude 2026 — Agents lernen träumen, Limits fallen, Musk liefert Strom

Am 6. Mai hat Anthropic in San Francisco Code with Claude 2026 veranstaltet — die zweite Auflage der Entwicklerkonferenz und zugleich einer der dichtesten Produktrelease-Tage, die Anthropic bisher hatte.

Agentic Weekly #005 — Long-running Agents werden zur Architektur, Token-Budgets brechen weg

Martin Gross — Thu, 07 May 2026 19:59:58 GMT

7.Mai 2026 — Lesezeit: ~6 Min.

Die große Nachricht der Woche

Long-running Agents bekommen ihre Architektur — Brain, Hands, Session

Am 30. April hat Addy Osmani in einem Long-Read sortiert, was unter „long-running agents” eigentlich gemeint ist — und dabei die Architektur sichtbar gemacht, auf die unabhängig voneinander Anthropic, Cursor und Google zulaufen. Drei verschiedene Bedeutungen, sauber getrennt: Long-horizon reasoning (Modellqualität — die METR-Metrik fürs erfolgreich abgeschlossene Task-Horizon verdoppelt sich seit 2019 alle ~7 Monate, das jüngste TH1.1-Update hat die Anzahl der 8-Stunden-plus-Tasks im Eval-Set verdoppelt), long-running execution (das Modell wird hundert- bis tausendfach über die Laufzeit aufgerufen) und persistent agency (Identität über Tasks hinweg).

Drei Wände, an die jeder Agent läuft: endlicher Context plus „context rot” (Degradation lange vor dem harten Limit), kein persistenter State (Anthropics eigenes Bild: „Engineers, die in Schichten arbeiten — jeder neue ohne Erinnerung an die vorige Schicht”) und keine verlässliche Self-Verification (Modelle bewerten ihre eigene Arbeit konsistent zu positiv).

Spannender als die Wände ist die Konvergenz: Anthropics Brain / Hands / Session-Split, Cursors Planner / Worker / Judge und Googles Agent Runtime / Agent Sandbox / Agent Sessions sind drei Namen für dasselbe Muster. Brain = Modell plus Harness-Loop. Hands = sandboxed, ephemere Execution-Umgebungen. Session = append-only Event-Log, das den Lauf rekonstruierbar macht. Praktisch heißt das: State wandert aus dem Modell-Context heraus ins Filesystem oder in eine Datenbank — die Ralph Loop von Geoffrey Huntley und Ryan Carson zeigt das in 30 Zeilen Bash mit prd.json, progress.txt, AGENTS.md. Anthropic berichtet aus internen Tests von 30+ Stunden autonomem Coding, ein Lauf produzierte einen 11.000-Zeilen-Slack-Klon.

Warum das relevant ist: Wer Agents jenseits der Stundenmarke baut, kommt um diesen Split nicht herum. Osmanis Test ist ehrlich: „If you can’t reconstruct what the agent did in the last 24 hours from durable storage, what you have is a long-running shell script that happens to call an LLM, not a long-running agent.” — Eine Ebene weiter raus zoomt Jack Clark, Anthropic-Mitgründer, in Import AI #455 (4. Mai): Er taxiert die Wahrscheinlichkeit auf 60+ %, dass AI-Systeme bis Ende 2028 autonom R&D betreiben und ihre Nachfolger trainieren. SWE-Bench-Progression von ~2 % (Claude 2, Ende 2023) auf 93,9 % (Claude Mythos Preview); Task-Horizon von ~30 Sekunden 2022 auf ~12 Stunden 2026, Forecaster Ajeya Cotra projiziert ~100 Stunden bis Jahresende. Wer die Architektur-Arbeit dieser Woche zusammen mit Clarks Kurve liest, sieht, warum die Anthropic-Köpfe die Zeitachse für eng halten.

Quellen:

Claude Code: Die Highlights der Woche

Vier Releases in einer ruhigeren Woche: v2.1.126, v2.1.128, v2.1.129, v2.1.131. Schwerpunkt: Plugin-Distribution, OAuth-Polish, eine Reihe handfester Subprozess- und Cache-Fixes.

Für alle, die Claude Code täglich nutzen

claude project purge ist da — v2.1.126 räumt alle Claude-Code-Spuren aus einem Projekt: Transcripts, Tasks, File-History, Config. Mit --dry-run, --interactive, --all für mehrere Projekte. Vorher musste man drei Verzeichnisse von Hand kennen.

/context verschwendet keine Tokens mehr — v2.1.129 fixt einen alten Ärger: Der ASCII-Visualisierungs-Block landete bisher in der Konversation und kostete pro Aufruf rund 1.600 Tokens.

/model zeigt nur noch ein Opus-Eintrag — Die Doppelung „Opus 4.7” und „Opus” im Picker ist weg, der aktuelle Opus heißt jetzt schlicht „Opus” (v2.1.128).

Für Plugin- und MCP-Workflows

--plugin-url und --plugin-dir mit Zip — v2.1.128/129 erlauben das Laden von Plugin-Archiven direkt aus URL oder lokaler .zip. Saubere Lösung für Air-Gapped-Setups und ad-hoc-Tests, ohne Marketplace-Eintrag.

MCP-Reconnects fluten die Konversation nicht mehr — v2.1.128: Wenn ein Server seine Tools re-announced, kommt nur noch eine Server-Prefix-Zusammenfassung statt der vollen Tool-Liste. Wer mit fünf+ MCP-Servern arbeitet, merkt das sofort.

/mcp zeigt Tool-Counts — v2.1.128 markiert Server mit 0 Tools — ein simpler Blick reicht jetzt, um stille Misskonfigurationen zu sehen.

Für Performance und Plattform

Subagent-Summaries nutzen wieder Prompt-Cache — v2.1.128 fixt eine Regression, die cache_creation ungefähr verdreifacht hatte. Wer Subagents heavy nutzt, sollte den Token-Verbrauch nach dem Update direkt vergleichen.

Parallel Tool-Calls brechen sich nicht mehr gegenseitig ab — Ein fehlgeschlagener Read-Only-Befehl (grep, git diff, ls) cancelte bisher die Geschwister-Calls. Behoben in v2.1.128.

OAuth härtet sich — Eine Race Condition zwischen Wake-from-Sleep und Token-Refresh, die laufende Sessions ausloggte, ist gefixt (v2.1.129). Außerdem: claude auth login akzeptiert jetzt einen OAuth-Code per Paste, wenn der Browser-Callback localhost nicht erreicht (v2.1.126) — endlich sauber für WSL2, SSH-Sessions, DevContainer.

Quellen:

Agentic Coding: Cursor mit eigenem SDK und Security-Review, Codex baut Plugin-Disziplin aus

Cursor SDK (29. April) — Cursor öffnet seine Agent-Plattform für programmatischen Zugriff: TypeScript-SDK, lokal oder gegen Cursors Cloud-VMs ausführbar, freie Modellwahl. Dazu reworked Cloud-Agents-API mit SSE-Streaming und expliziten Lifecycle-Controls. Damit ist Cursor das nächste Tool nach Claude Code, das nicht nur als IDE/Terminal, sondern als API für Agent-Pipelines auftritt.

Cursor Security Review (30. April, Beta für Teams/Enterprise) — Zwei Always-On-Agenten: ein Security Reviewer, der jede PR auf Security-Vulnerabilities, Auth-Regressionen und Privacy-/Data-Handling-Risiken prüft, plus ein Vulnerability Scanner mit geplanten Codebase-Scans gegen bekannte Vulnerabilities und veraltete Dependencies. Direkter Konkurrent zu Claude Codes /security-review-Skill — und ein klares Signal, dass Review-Workloads in Pull Requests die nächste Schicht sind, in der die Agent-Hosts gegeneinander antreten.

Cursor Spend Management (4. Mai) — Granulare Allow-/Blocklists pro Modell und Provider, Soft-Spend-Limits mit Alerts bei 50/80/100 %. Liest sich wie eine direkte Antwort auf das Engineering-Budget-Problem, das diese Woche separat dokumentiert wurde (siehe Trend unten).

OpenAI Codex CLI legt zweimal nach: 0.128.0 (30. April) bringt Goals-Workflows, Permission Profiles, Plugin-Management und Support für externe Agent-Sessions. 0.129.0 (7. Mai) folgt mit TUI-Polish: redesigned Resume/Fork Picker, workspace-aware /diff, Plugin-Workspace-Sharing und Lifecycle-Hooks. Damit zieht Codex bei Plugin-Disziplin und Session-Handling sichtbar nach.

Quellen:

Trend der Woche

Token-Spend bricht Engineering-Budgets — und die Strategie spaltet sich

Gergely Orosz hat für The Pragmatic Engineer (30. April) 15 Firmen zwischen Seed-Stage und 10.000+ Mitarbeiter anonym befragt. Das Bild ist eindeutig und unbequem: Bei einem AI-Infra-Startup stieg Token-Spend pro Entwickler in sechs Monaten von $200 auf $3.000 pro Monat — 15-fach. Bei einem Healthcare-Konzern verbrauchte ein einzelner Engineer in einer Claude-Code-Session $1.400. In einem US-/EU-Fintech laufen Heavy-User auf Claude Code bei $500 pro Tag. Bei einem E-Commerce-Konzern mit ~2.000 Devs ist nur Opus 4.7 zum Coden zugelassen: „leichte Fehler in Produktion kosten Stunden”. Vendor-Verhandlungen klaffen weit auseinander: Cursor gewährt Rabatte ab ~$1 Mio. Spend, Anthropic auch bei $5 Mio.+ pro Jahr nicht.

Die Firmen teilen sich grob 50/50 in zwei Lager: „Let it rip and start measuring” (laufen lassen, Impact messen) und „Curb spending” (Default auf billigere Modelle, Caps, Consent-Gates). Ein Engineering Manager im Healthcare-Sektor mit fünfzehn Jahren Branchenerfahrung sagt, einen so dramatischen Wandel habe er noch nie erlebt — vergleichbar nur mit dem Sprung zu höheren Programmiersprachen.

Das Bemerkenswerte ist, wie schnell die Tools darauf antworten: Cursors Spend-Management dieser Woche ist genau die Telemetrie, die in den befragten Firmen bisher gefehlt hat. Wer 2026 ernsthaft Agentic Engineering betreibt, braucht eine Antwort auf die Kostenseite — nicht in zwölf Monaten, sondern für den nächsten Sprint.

Quellen:

Pragmatic Engineer: Token spend breaks budgets

Kurz notiert

Background Agents Summit (6./7. Mai, virtuell) — Ona richtet das nach eigener Beschreibung erste Event aus, das ausschließlich Background Agents gewidmet ist; Sprecher unter anderem von Stripe, Harvey, Uber, Monzo, AWS und WorkOS. Wer in den nächsten Monaten selbst eine Background-Agent-Infrastruktur aufbauen will, bekommt hier kompakt das, was sonst über mehrere Engineering-Blogs verteilt ist. background-agents.com/summit
Sierra holt $950 Mio. (4. Mai) — Bret Taylors Agent-Plattform für Enterprise-Customer-Service ist nach der von Tiger Global und GV angeführten Runde mit über $15 Mrd. bewertet. Das Rennen um Enterprise-Agents wird teurer, je breiter die Anwendungsfelder werden. TechCrunch
OpenAI: „Automated AI research intern bis September 2026” — Jack Clark zitiert dieses öffentlich kommunizierte Ziel von OpenAI in Import AI #455. Recursive Superintelligence (Startup) hat $500 Mio. spezifisch für AI-R&D-Automatisierung eingesammelt. Import AI #455

Nächste Ausgabe: Donnerstag, 14. Mai 2026

Feedback? Einfach kommentieren/antworten.

Agentic Weekly #004 — Drei Bugs, sechs Wochen, 40 Milliarden Dollar

Martin Gross — Fri, 01 May 2026 20:09:38 GMT

1.Mai 2026 — Lesezeit: ~7 Min.

Die große Nachricht der Woche

Anthropic legt offen, was Claude Code kaputt gemacht hat

Am 23. April hat Anthropic einen detaillierten Postmortem veröffentlicht — und damit beendet, was seit Februar Foren, Substacks und Tech-Presse beschäftigt hat: die Frage, ob Claude „dümmer” geworden ist.

Antwort: ja, aber nicht weil Anthropic das Modell absichtlich heruntergedreht hätte, sondern weil drei separate Bugs sich zeitlich überlappten und sich gegenseitig verschleierten.

Reasoning-Effort-Downgrade (4. März → zurückgenommen am 7. April): Default für Opus 4.6 und Sonnet 4.6 von high auf medium gesenkt — als Reaktion auf User-Beschwerden über lange Latenzen. Falscher Trade-off, wie sich herausstellte.
Caching-Bug (26. März → gefixt 10. April): Eine Optimierung sollte alte Thinking-Blöcke nach >1h Idle entfernen. Ein Bug ließ sie bei jedem Turn entfernen — Ergebnis: Cache-Misses, vermeintliches „Vergessen”, schneller verbrauchte Limits.
Verbosity-Prompt (16. April → zurückgenommen am 20. April): Eine System-Prompt-Anweisung sollte die Verbosity zwischen Tool-Calls reduzieren. In Kombination mit anderen Änderungen: 3 Prozent Performance-Drop bei Opus 4.6 und 4.7 in Ablation-Tests (Sonnet 4.6 ebenfalls betroffen), nicht in den ursprünglichen Evals erkannt.

Alle drei Issues sind seit v2.1.116 (20. April) behoben. Anthropic hat zusätzlich Usage Limits aller Subscriber zurückgesetzt und Default-Effort auf xhigh (Opus 4.7) bzw. high (alle anderen) angehoben. Die API war nicht betroffen — nur Claude Code.

Warum das relevant ist:

Das ist die transparenteste öffentliche Aufarbeitung, die ein Frontier-Lab bislang zu einem Quality-Drop geliefert hat.

Drei wichtige Lehren stecken drin:

Evaluation-Suiten erkennen interagierende Regressionen schlecht — keine der drei Änderungen war für sich genommen problematisch.
Caching- und Harness-Verhalten sind genauso modellrelevant wie Gewichte; wer Coding-Agents baut, muss das mitmessen.
Vertrauen kommt zurück, wenn Postmortems so detailliert sind wie dieses — und nicht, wenn man stillschweigend zurückrollt.

Der Wermutstropfen: Sechs Wochen Schaden waren entstanden, bevor die Aufklärung kam.

Quellen:

Claude Code: Die Highlights der Woche

Sieben Releases in sieben Tagen: v2.1.117 bis v2.1.123. Schwerpunkt diesmal: Polishing, Memory-Hygiene und Vim-Power-User-Features.

Für alle, die Claude Code täglich nutzen

Vim Visual Mode endlich da — v2.1.118 bringt vollwertige Visual-Selection (v) und Visual-Line (V) inklusive Operatoren. Wer Claude Code aus Vim-Reflex bedient, hatte bisher nur einen Krüppelmodus. Jetzt: voller Selection-Workflow, Operator-Pending, visuelles Feedback.

/cost und /stats werden zu /usage — Konsolidierter Tabbed-View mit Billing und Verbrauch in einem Command. Kleines Detail, aber spart die ständige „welcher Command war’s nochmal?”-Frage.

Custom Themes — Per /theme benannte Themes anlegen oder direkt JSON in ~/.claude/themes/ editieren. Plugins können Themes über ein themes/-Verzeichnis ausliefern. Endlich konfigurierbar ohne Hack.

/resume aus PR-URL — v2.1.122: PR-URL aus GitHub, GitHub Enterprise, GitLab oder Bitbucket in die /resume-Suche pasten und die Session finden, die diesen PR erzeugt hat. Wer mit vielen parallelen Worktrees jongliert: Game-Changer.

Für Multi-Agent- und Plugin-Workflows

alwaysLoad für MCP-Tools — MCP-Server können einzelne Tools aus dem Tool-Search-Deferral ausschließen. Wer Latenz-kritische Tools hat, sollte das setzen.

PostToolUse-Hooks dürfen Tool-Output ersetzen — Bisher nur für MCP-Tools möglich, jetzt für alle Tools via hookSpecificOutput.updatedToolOutput. Eröffnet sauberere Output-Sanitizer und Redaction-Pipelines.

Hooks können MCP-Tools aufrufen — v2.1.118 erlaubt type: "mcp_tool" direkt aus Hook-Konfiguration. Neue Komposition: Lifecycle-Events lösen Tool-Aufrufe ohne Wrapper-Skript aus.

claude plugin prune und tag — Verwaiste auto-installierte Dependencies entfernen; Release-Tags mit Versionsvalidierung erzeugen. Plugin-Hygiene wird langsam zu echtem Package-Management.

Für CI/CD und Automation

claude ultrareview [target] — /ultrareview jetzt non-interaktiv aus CI/Skripten. Damit ist Cloud-basierter Tiefen-Review als Pipeline-Step nutzbar, nicht nur als interaktiver Slash-Command.

AI_AGENT Environment Variable — Wird für Subprozesse gesetzt; GitHub und andere Hosts können damit Agent-Attribution korrekt taggen. Ein kleiner, aber wichtiger Baustein für saubere Audit-Trails.

Windows ohne Git Bash — v2.1.120 nutzt PowerShell als Default-Shell, wenn Git for Windows fehlt. PowerShell-Tool-Permissions können auto-genehmigt werden. Schluss mit dem Workaround-Setup für Windows-only-Teams.

Performance und Plattform

Memory-Leaks gefixt — v2.1.121 schließt mehrere Speicherlecks: Multi-GB-RSS bei vielen Bildern, ~2 GB Leak in /usage bei großen Transcripts, Leaks in long-running Tools. Wer Sessions tagelang offen lässt, merkt das sofort.

Skill-Suche und Effort-Placeholder — Filter-Suchbox in /skills, Skills können ${CLAUDE_EFFORT} referenzieren. Die Skill-Plattform reift in kleinen, nützlichen Schritten.

Quellen:

Agentic Coding: Cursor 3.1, Copilot Inline-Agent und der Stack-Mix wird Standard

Cursor 3.1 (Nachtrag, Mitte April: 3.1 am 13. April, Interactive Canvases am 15.) ergänzt das Agents-Window aus 3.0 um Interactive Canvases: durable Side-Panel-Artefakte mit Tabellen, Diagrammen, Diffs und Custom-Components. Cursor antwortet jetzt nicht mehr nur mit Text und Code, sondern baut Dashboards und Mini-Interfaces, die neben Terminal und Browser im Side-Panel persistent leben. Das ist die richtige Antwort auf eine Beobachtung, die mehrere Hosts gerade machen: Der Output eines längeren Agent-Laufs verträgt mehr als nur Markdown.

GitHub Copilot Inline Agent Mode (24. April) — Public Preview für JetBrains-IDEs. Agent-Capabilities aus dem Inline-Chat heraus, ohne in das Chat-Panel zu wechseln. Copilot positioniert sich klar in der „im IDE bleiben”-Ecke, während Claude Code Terminal-first und Cursor IDE-Rebuilt fährt.

The New Stack berichtet, dass Teams zunehmend alle drei parallel nutzen — Cursor für IDE-native Edits, Claude Code für Terminal-Workflows und Headless-Routinen, Codex für Browser- und Computer-Use. Das ist neu: Vor sechs Monaten war die Tooling-Frage „wer gewinnt?”. Jetzt ist sie „wie kombiniere ich?”.

Warum das relevant ist: Wer noch versucht, ein Tool für alles zu wählen, optimiert in die falsche Richtung. Die spannenden Setups bauen jetzt portable Skills, Hooks und Routines, die zwischen Hosts wandern können — genau dort, wo gh skill (siehe #003) ansetzt.

Quellen:

Trend der Woche

Big Tech doppelt nach: Googles 40-Milliarden-Wette auf Anthropic

Am 24. April hat Google bis zu 40 Mrd. $ Investment in Anthropic angekündigt — 10 Mrd. $ jetzt cash bei einer 350-Mrd.-$-Bewertung, weitere 30 Mrd. $ an Performance-Targets gekoppelt. Dazu: 5 Gigawatt Compute über fünf Jahre via Google Cloud, mit Option auf weitere Gigawatt. Das passiert nur vier Tage, nachdem Amazon zusätzliche bis zu 25 Mrd. $ committet hatte (5 Mrd. cash, 20 Mrd. an Milestones gekoppelt).

Die Choreographie ist bemerkenswert: Anthropic und Google sind gleichzeitig Partner und Konkurrenten — Gemini 3.1 Pro misst sich offen an Opus 4.7. Trotzdem zieht Google nach. Der Grund: Wer in der Coding-Agent-Schicht des Stacks führend bleiben will, muss die Compute-Allokation für die Modelle sichern, die Entwickler tatsächlich täglich benutzen. Anthropic ist genau das geworden — auch dank Claude Code.

Parallel hat Anthropic in der Woche drei weitere Expansionssignale gesetzt: Sydney als vierter APAC-Standort (27. April, Theo Hourmouzis von Snowflake als ANZ-GM), eine NEC-Partnerschaft in Japan mit Rollout an 30.000 Mitarbeiter und Aufbau einer der größten AI-native Engineering-Organisationen Japans (24. April), sowie Memorandum mit der australischen Regierung. Das zusammen mit den Investments ergibt das Bild: Anthropic positioniert sich für IPO als globale Plattform, nicht nur als Modell-Anbieter.

Quellen:

Kurz notiert

Google Cloud Next 2026 (22. April) — Konferenz unter dem Banner „Agentic Era”. Kevin Ichhpurani (President Global Partner Ecosystem) kündigt 750 Mio. $ für das 120k-Partner-Ökosystem an, um agentische Use-Cases zu beschleunigen. Google Cloud Press · BizTech
Cloudflare Agents Week (Nachtrag, 12.–20. April) — Vollständiger Stack-Push: Workers AI, AI Gateway, MCP-Hosting, Browser-Rendering. Im internen Engineering-Stack laufen pro Monat 241 Mrd. Tokens und 20 Mio. AI-Gateway-Requests durch die eigenen Produkte — gebaut auf dem, was sie auch verkaufen. Plattform-Konkurrenz für Anthropic und Google bekommt eine Edge-native Variante. Cloudflare Blog · Internal Stack-Daten
MIT Technology Review zu Agent Orchestration — Lesenswerter Überblick: Multi-Agent-Systeme als „Fließband-Moment” für White-Collar-Arbeit. Konkret namentlich erwähnt sind Claude Code (mit „a couple of dozen subagents” im Einsatz) und Claude Cowork (in zehn Tagen gebaut). Hauptsorge: unvorhersehbares LLM-Verhalten, sobald die Agenten aus dem Browser-Fenster heraus mit der echten Welt interagieren. MIT Tech Review
Simon Willison über Qwen3.6-27B — Alibabas neues 27-Mrd.-Dense-Modell erreicht Flagship-Coding-Performance lokal und schlägt das vorherige Open-Source-Flaggschiff Qwen3.5-397B-A17B. Open-Weight-Druck auf die Frontier-Labs steigt weiter. simonwillison.net

Nächste Ausgabe: Donnerstag, 7. Mai 2026

Feedback? Einfach kommentieren/antworten.

Agentic Weekly #003 — Opus 4.7, Pro-Verwirrung und Skills als neuer Standard

Martin Gross — Thu, 23 Apr 2026 08:01:00 GMT

23. April 2026 — Lesezeit: ~6 Min.

Die große Nachricht der Woche

Claude Opus 4.7: Der erste klare Sprung über 60 % auf SWE-bench Pro

Am 16. April hat Anthropic Claude Opus 4.7 general-available gemacht. Das eigentliche Signal ist weniger ein weiterer Benchmark-Gewinn als der Sprung auf SWE-bench Pro 53,4 → 64,3 % — also auf dem härteren Engineering-Benchmark, der längere, realistischere Software-Aufgaben abbildet. Dazu SWE-bench Verified 80,8 → 87,6 %, Terminal-Bench 2.0 65,4 → 69,4 %, CursorBench 58 → 70 %. Auf SWE-bench Pro liegt Opus 4.7 vor GPT-5.4 (57,7 %) und Gemini 3.1 Pro (54,2 %). Dazu High-Res-Vision bis 3,75 Megapixel (3× Opus 4.6) und Pricing unverändert bei 5 $ / 25 $ pro Million In-/Output-Tokens.

Die Reaktionen darauf sind trotzdem nicht einhellig. In der Community gab es Berichte über einen höheren Tokenverbrauch bei vergleichbaren Prompts — wichtig, weil ein stärkeres Modell in der Praxis nur dann ein klarer Gewinn ist, wenn die realen Kosten im eigenen Workflow mitziehen. Ein feststehendes Faktum ist das noch nicht, aber ein Community-Signal, das Teams in eigenen Läufen messen sollten. Anthropic hat zeitgleich an den Effort-Defaults gedreht: high ist jetzt Default für Opus 4.6 und Sonnet 4.6 bei Pro- und Max-Subscribern (vorher medium); xhigh steht als neue Stufe exklusiv für Opus 4.7 bereit. Direkte Antwort auf die Nerfing-Debatte der Vorwoche.

Warum das relevant ist: Opus 4.7 ist der erste allgemein verfügbare Release, der auf SWE-bench Pro sichtbar Abstand gewinnt. Das macht ihn nicht automatisch zum Gewinner in jedem Stack, verschiebt aber die Messlatte für längere agentische Coding-Läufe, Review-Workloads und komplexere Tool-Use-Szenarien. Wer Opus im Stack hat, sollte die Upgrade-Prüfung jetzt machen — inklusive echter Token- und Laufzeitmessung im eigenen Kontext.

Quellen:

Die unbequeme Debatte: Claude Code und die Pro-Verwirrung

Am 21. April tauchte Claude Code auf öffentlichen Anthropic-Seiten zeitweise nicht mehr im 20-$-Pro-Plan auf; Support-Dokumente sprachen nur noch von Max. Kritik auf X und Reddit folgte unmittelbar, ein paar Stunden später war die Darstellung wieder korrigiert. Anthropics Amol Avasare klärte auf: „a small test on ~2 % of new prosumer signups” — bestehende Abonnenten seien nicht betroffen, die öffentlichen Seiten „versehentlich” aktualisiert. Das Experiment läuft unter der Haube weiter.

Simon Willison ordnet nüchtern ein: Vertrauensverlust durch die intransparente Änderung, strategisches Fragezeichen (Codex kostet weiterhin weniger), und die Frage, ob man Lehrmaterial um ein Tool baut, das sich Leser nicht leisten können. Die eigentliche Story ist deshalb weniger „Claude Code ist raus”, sondern eher: Schon kleine, intransparente Änderungen an Limits und Zugängen erzeugen sofort Vertrauensverlust.

Warum das relevant ist: Derselbe Reflex wie bei der Effort-Debatte — still an wirtschaftlichen Stellschrauben drehen, erst kommunizieren, wenn die Community rebelliert. Wer Claude Code in Team-Workflows oder Trainingsmaterial einplant, sollte nicht nur auf Modellleistung schauen, sondern auch auf die Frage: Bleibt das Setup für Leser, Teilnehmer oder Teams bezahlbar und stabil erreichbar?

Quellen:

Claude Code: Die Highlights der Woche

Sieben Releases in sieben Tagen: v2.1.111 bis v2.1.117. Neben Opus-4.7-Support bringt die Woche einen Architekturwechsel.

Für alle, die Claude Code täglich nutzen

Native Binary statt bundled JavaScript — v2.1.113 schaltet auf macOS und Linux auf einen nativen Claude-Code-Binary um. Glob und Grep laufen über eingebettetes bfs und ugrep via Bash. Spürbar schnellere Kaltstarts, weniger Node-Overhead, weniger Abhängigkeit von globalem npm.

/ultrareview — Seit v2.1.111, in v2.1.113 parallelisiert mit Diffstat-Ausgabe: umfassende Code-Reviews in der Cloud. Für PR-Prüfungen, die lokal zu lange dauern, wird das der neue Default.

Opus 4.7 xhigh-Effort und interaktiver Effort-Slider — Neue Stufe zwischen high und max, exklusiv für Opus 4.7. /effort ohne Argument öffnet jetzt einen Slider — endlich ein Interface für den Trade-off zwischen Geschwindigkeit und Tiefe.

Für Multi-Agent- und Plugin-Workflows

Agent-Frontmatter endlich vollständig — mcpServers und hooks aus dem Agent-Frontmatter werden jetzt auch für Main-Thread-Sessions geladen, wenn per --agent gestartet wird. Kleines Detail, großer Effekt für alle, die Agents als First-Class in Workflows behandeln.

Plugin-Dependencies auto-resolved — plugin install, /reload-plugins und Auto-Update lösen fehlende Abhängigkeiten eigenständig auf. blockedMarketplaces und strictKnownMarketplaces werden durchgesetzt — Enterprise-Admins bekommen ihre Plugin-Kontrolle zurück.

/fewer-permission-prompts-Skill — Scannt Transcripts nach häufigen read-only Bash- und MCP-Calls und schlägt eine priorisierte Allow-List für .claude/settings.json vor. Der Endgegner der ständigen Permission-Dialoge.

Für CI/CD und Sicherheit

Sandbox-Härtung — sandbox.network.deniedDomains blockt Domains auch innerhalb weit gefasster Allow-Patterns. Deny-Rules greifen jetzt bei env-, sudo-, watch-, ionice- und setsid-gewrappten Kommandos; find:*-Allow-Regeln lassen nicht mehr automatisch -exec/-delete durch. Dazu ein gefixter Edge-Case, in dem dangerouslyDisableSandbox Kommandos ohne Sandbox und ohne Permission-Prompt laufen ließ. Wer ältere 2.1er in Pipelines hat: jetzt updaten.

Performance und Plattform

/resume bis zu 67 % schneller auf Sessions >40 MB (v2.1.116), parallelisierter MCP-Startup (v2.1.117), PowerShell-Tool progressiv auf Windows via CLAUDE_CODE_USE_POWERSHELL_TOOL. OpenTelemetry bekommt effort-Attribute auf Cost-, Token- und API-Metriken — Billing-Analysen nach Effort-Level werden endlich möglich.

Quellen:

Agentic Coding: Codex öffnet den Mac — und GitHub standardisiert Skills

OpenAI Codex „for (almost) everything” (16. April): Computer Use auf dem Mac, ein In-App-Browser mit Kommentar-Funktion direkt auf Webseiten, 90+ neue Plugins (Atlassian Rovo, CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon, Render u. a.), Memory und proaktive Task-Vorschläge. Parallele Agents drängen sich nicht ins Foreground-Fenster. OpenAI nennt 3 Mio. weekly active Developer, npm-Downloads wuchsen von 82k (April 2025) auf 14,5 Mio. (März 2026). Die Bewegung spiegelt Anthropics Desktop-Routines aus #002 — Codex holt strategisch auf.

gh skill Public Preview (16. April, GitHub CLI v2.90.0): Ein einziger Befehl, um Agent Skills über alle großen Agent-Hosts hinweg zu installieren, zu versionieren, zu suchen und zu publizieren — Claude Code, Copilot, Cursor, Codex, Gemini. Skills folgen einer offenen Spezifikation, jede Installation trägt die Git-Tree-SHA ihres Source-Verzeichnisses, Updates vergleichen echte Content-Änderungen. Das ist im Stillen der größte Schritt in Richtung Interoperabilität, den das Ökosystem seit MCP gesehen hat.

Warum das relevant ist: Die Frontline verschiebt sich. Codex schließt den Desktop-Gap zu Claude Code, GitHub liefert das fehlende Paketformat über alle Hosts hinweg. Wer Tooling-Entscheidungen trifft, sollte ab jetzt davon ausgehen, dass Skills portabel sind — und Lock-in auf einzelne Agent-Hosts wird zur strategischen Altlast.

Quellen:

Trend der Woche

Agent Skills werden zum neuen npm

Drei Bewegungen zeigen in dieselbe Richtung: gh skill macht Skills portabel über Hosts, Claude Code v2.1.111 erlaubt, built-in Slash-Commands (/init, /review, /security-review) via Skill-Tool zu discovern, und OpenAI Codex baut rund um Skills, Plugins und MCP-Server ein modulareres Ökosystem aus. Noch ist das kein vollständig konsolidierter Standard — aber es ist gut möglich, dass wir gerade den Moment sehen, in dem „Skill” vom Prompt-Schnipsel zum versionierten, signierten, cross-kompatiblen Artefakt wird. Wer Agentic Engineering ernsthaft baut, sollte aufhören, Wissen in Prompts und Repo-Wikis zu verstreuen, und Skills als First-Class-Artefakt versionieren. Genau dort dürfte sich in den nächsten Monaten entscheiden, welche Teams nur mit Agenten experimentieren — und welche daraus echte Produktivität ziehen.

Quellen:

Kurz notiert

Claude Design (17. April) — Anthropic Labs launcht Research Preview für Prototypen, Slides, One-Pager. Powered by Opus 4.7, liest Codebase und Design-Systeme, Export zu Canva, PDF, PPTX oder als Handoff-Bundle an Claude Code. Figmas Aktie reagierte sofort negativ. Anthropic · TechCrunch
Mythos-Leak-Report — TechCrunch berichtete am 21. April, eine unautorisierte Gruppe habe Zugriff auf Anthropics exklusives Cyber-Modell Mythos erlangt. Das Modell war nur im Rahmen von Project Glasswing an AWS, Apple, Google, JPMorgan, Microsoft und Nvidia verteilt. Anthropic hat bislang nicht offiziell kommentiert. TechCrunch
Simon Willison zur Agent-Definition — Nach monatelangem Herumschlagen gibt es jetzt eine konsensfähige: „An LLM agent runs tools in a loop to achieve a goal.” simonw.substack.com
GitHub Copilot Individual Plan-Änderungen — Am selben Tag wie das Anthropic-Pricing-Drama kündigt GitHub Usage-basierte Limits für Copilot-Agenten-Workflows an. Agentic Coding knirscht an den Rändern der alten Flatrate-Modelle. simonwillison.net

Nächste Ausgabe: Donnerstag, 30. April 2026

Feedback? Einfach kommentieren/antworten.

Agentic Weekly #002 — Claude wird autonom (und die Community nervös)

Martin Gross — Thu, 16 Apr 2026 08:44:00 GMT

16. April 2026 — Lesezeit: ~4 Min.

Die große Nachricht der Woche

Claude Code Desktop bekommt Routines — und wird zur Agent-Plattform

Am 14. April hat Anthropic die Claude Code Desktop App von Grund auf neu gebaut. Das ist kein kosmetisches Update, sondern ein Architekturwechsel: Die App ist jetzt um parallele Sessions herum organisiert, mit einer Sidebar zum Managen mehrerer gleichzeitiger Agent-Läufe, Drag-and-Drop-Layout, integriertem Terminal und File-Editor.

Das eigentliche Highlight heißt Routines — eine neue Automatisierungsschicht, die Claude Code ohne aktive Session laufen lässt. Eine Routine bündelt Prompt, Repository und Connectors in eine Konfiguration, die auf drei Arten triggern kann: nach Zeitplan, per API-Call oder durch ein GitHub-Event (z.B. neuer Pull Request). Routines laufen auf Anthropics Web-Infrastruktur, nicht lokal. Daily Caps nach Plan: Pro 5, Max 15, Team/Enterprise 25 (weitere zukaufbar).

Dazu kommt: Claude Code kann jetzt den Mac fernsteuern — wenn kein direkter Connector existiert (Slack, Google Calendar), navigiert Claude über den Bildschirm wie ein Mensch. Drei View Modes (Verbose, Normal, Summary) lassen Nutzer steuern, wie viel von Claudes Tool-Aktivität sie sehen wollen.

Warum das relevant ist: Wer letzte Woche das Conway-Leak verfolgt hat (immer noch unbestätigt), sieht hier die offizielle Version: Claude bewegt sich von einem reaktiven Tool zu einem persistent laufenden, event-gesteuerten Agent. Routines sind der erste produktionsreife Schritt dahin.

Quellen:

Die unbequeme Debatte: Wird Claude schlechter?

Es ist das Thema der Woche in der Community: Eine wachsende Zahl von Power-Usern beklagt, dass Claude — insbesondere Opus 4.6 — seit Februar spürbar schwächer geworden ist. Weniger gründliche Analysen, mehr Abkürzungen, häufigeres vorzeitiges Abbrechen.

Die Ursache ist bekannt: Anthropic hat das Default-Effort-Level von Opus 4.6 am 9. Februar auf Adaptive Thinking umgestellt und am 3. März auf Medium Effort (Level 85) gesenkt. Weniger Tokens pro Anfrage, schnellere Antworten — aber auch weniger Tiefe.

Stella Laurenzo, Senior Director bei AMDs AI-Gruppe, hat die Debatte mit einer datengestützten Analyse auf GitHub befeuert: 6.852 Sessions, 17.871 Thinking Blocks, 234.760 Tool Calls. Ihr Befund: Die Reasoning-Tiefe fiel ab Februar messbar, während „Simplest Fix”-Verhalten, Premature Stopping und Edit-first statt Research-first zunahmen.

Die Community-Reaktion ist deutlich. Fortune, VentureBeat, Axios und The Register haben berichtet. Der Vorwurf: Anthropic habe die Änderung nicht transparent genug kommuniziert — sie stand im Changelog, wurde aber nicht prominent angekündigt. Die Spekulation, dass Anthropic unter Compute-Knappheit leidet, hält sich hartnäckig.

Anthropics Antwort: Teams und Enterprise-Nutzer sollen künftig standardmäßig auf High Effort laufen, auch wenn das mehr Tokens und Latenz kostet. Für alle anderen bleibt /effort max der Workaround.

Quellen:

Claude Code CLI: Die Highlights der Woche

Sieben Releases in sieben Tagen — von v2.1.96 bis v2.1.108. Hier die Highlights, sortiert danach, wen sie betreffen:

Für alle, die Claude Code täglich nutzen

/recap — Beim Zurückkehren in eine Session liefert Claude jetzt automatisch einen Kontext-Überblick. Konfigurierbar in /config, manuell aufrufbar mit /recap. Wer viele parallele Sessions jongliert und nach einem Kontextwechsel erst mal „Wo war ich?” denkt, spart damit spürbar Zeit.

Prompt Caching wird steuerbar — Zwei neue Environment-Variablen: ENABLE_PROMPT_CACHING_1H für eine einstündige Cache-TTL, FORCE_PROMPT_CACHING_5M für fünf Minuten. Relevant für alle, die ihre API-Kosten optimieren oder auf langsamen Backends arbeiten. Ein Bug, bei dem Subscriber mit DISABLE_TELEMETRY auf 5 Minuten statt 1 Stunde zurückfielen, wurde gefixt.

Für Multi-Agent- und MCP-Workflows

Background Monitors — Plugins können jetzt über den monitors Manifest-Key automatisch mit der Session starten. Wer Monitoring-Tools für Builds, Tests oder Deployments als Plugin betreibt, bekommt damit eine hands-off Lösung. Dazu: /reload-plugins erkennt neue Skills ohne Neustart.

PreCompact Hook — Hooks können Compaction blockieren (Exit-Code 2 oder {"decision":"block"}). Nützlich für Agents, die mitten in einer langen Analyse stecken und ihren Kontext nicht verlieren dürfen.

Für CI/CD und Automation

Security-Fixes — Mehrere Bash-Tool-Permission-Bypasses gefixt in v2.1.97/98: Backslash-Escaping umging Auto-Allow-Regeln, Redirects über /dev/tcp und /dev/udp wurden nicht abgefangen, Env-Var-Prefixes tricksten die Permission-Prüfung aus. Wer ältere Versionen in Pipelines nutzt: jetzt updaten.

Enterprise und Plattform

Google Vertex AI Setup Wizard — Interaktiver Wizard für GCP-Authentifizierung, Projekt- und Regionskonfiguration, direkt vom Login-Screen aus. OS-CA-Zertifikate werden jetzt standardmäßig vertraut — Schluss mit manueller Zertifikats-Konfiguration für Enterprise-TLS-Proxies. Dazu PID Namespace Isolation für Subprocess-Sandboxing auf Linux und ein neuer /team-onboarding-Command, der Onboarding-Guides für Teammitglieder aus der eigenen Claude-Code-Nutzung generiert.

Quellen:

Agentic Coding: Cursor 3 und der Drei-Wege-Kampf

Cursor 3 markiert einen Paradigmenwechsel: Das Interface wurde komplett um die Idee herum neu gebaut, dass der Großteil des Codes von AI Agents geschrieben wird. Highlights: Agents Window, Design Mode, Cloud Agents. Composer 2 erreicht 61,3 auf CursorBench (+37 %) und 73,7 auf SWE-bench Multilingual. Anysphere hat über 3 Milliarden Dollar eingesammelt bei einer ARR von 2 Milliarden.

Der Markt teilt sich in drei Philosophien: Cursor setzt auf IDE-native Deep Integration, GitHub Copilot auf Reichweite und Enterprise (Agent Mode GA, agentic Code Review seit März), Claude Code auf Terminal-first mit Routines und maximaler Flexibilität. Die Wahl des Stacks ist jetzt eine Architekturentscheidung.

Quellen:

Trend der Woche

Anthropic auf dem Weg zum Börsengang — die 800-Milliarden-Frage

Anthropic zieht Investoren-Angebote an, die das Unternehmen mit bis zu 800 Milliarden Dollar bewerten — mehr als das Doppelte der Bewertung von 380 Milliarden aus dem Februar. Annualisierte Revenue: über 30 Milliarden Dollar. IPO wird für Oktober 2026 erwartet.

Vas Narasimhan, CEO von Novartis, wurde am 14. April in den Board berufen — erstes Pharma-Schwergewicht, klares Signal Richtung Healthcare. Trust-berufene Direktoren stellen jetzt die Board-Mehrheit. Ein IPO-bereites Anthropic wird Claude Code aggressiver kommerzialisieren — die Enterprise-Features und Routines der letzten Woche passen ins Bild.

Quellen:

Kurz notiert

Conway-Leak — Anfang April tauchten 512.000 Zeilen Claude-Code-Quellcode auf, darin Details zu einer Always-On-Agent-Plattform namens Conway. Anthropic hat weder bestätigt noch dementiert. Routines könnten die offizielle Antwort sein. MindStudio
Claude-Outage am 15. April — Erhebliche Störung bei Claude.ai, API und Claude Code von ~10:53 bis 13:42 ET. Wer Production-Workloads laufen hat: Redundanz einplanen. CNBC
Simon Willison über Cybersecurity als „Proof of Work” — AI-Modelle wie Mythos verändern Vulnerability Research fundamental. simonwillison.net
Anthropic Agentic Coding Trends Report 2026 — Umfassender Bericht darüber, wie Coding Agents Workflows verändern. Pflichtlektüre. Anthropic Resources
ICSE 2026: Workshop Agentic Engineering — Die führende Software-Engineering-Konferenz widmet dem Thema erstmals einen eigenen Workshop. ICSE 2026

Nächste Ausgabe: Donnerstag, 23. April 2026

Agentic Weekly #001

Martin Gross — Thu, 09 Apr 2026 08:47:00 GMT

9. April 2026 — Lesezeit: ~4 Min.

Die große Nachricht der Woche

Anthropic stellt Claude Mythos vor — und sperrt das Modell sofort weg

Am Montag hat Anthropic mit Claude Mythos Preview ein neues Frontier-Modell vorgestellt, das vor allem durch eine Fähigkeit auffällt: Es findet und exploitet Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern. In internen Tests identifizierte Mythos tausende bisher unbekannte Sicherheitslücken, viele davon in Code, der ein bis zwei Jahrzehnte alt ist.

Der Clou: Anthropic veröffentlicht das Modell nicht frei, sondern nur über Project Glasswing — eine neue Initiative für defensive Cybersecurity. Zwölf Launch-Partner, darunter AWS, Apple, Google, Microsoft, CrowdStrike und die Linux Foundation, erhalten kontrollierten Zugang. Anthropic stellt dafür bis zu 100 Millionen Dollar an Usage Credits und 4 Millionen Dollar an Direktspenden für Open-Source-Security bereit.

Simon Willison kommentierte treffend: Die Entscheidung, ein derart mächtiges Modell zunächst nur für Sicherheitsforscher zugänglich zu machen, sei „notwendig”. Platformer berichtet gleichzeitig, dass einige Security-Experten beunruhigt sind — die Frage, wie lange der Vorsprung der Verteidiger hält, steht im Raum.

Warum das relevant ist: Agentic Security ist der logische nächste Schritt — wenn AI Agents Code schreiben, müssen andere AI Agents ihn absichern. Mythos zeigt, wohin die Reise geht.

Quellen:

Claude Code: Die Highlights der Woche

Die Versionen v2.1.89 bis v2.1.92 brachten eine dichte Folge an Updates — hier die Highlights, sortiert danach, wen sie betreffen:

Für alle, die Claude Code täglich nutzen

Flicker-free Rendering — Mit CLAUDE_CODE_NO_FLICKER=1 gibt es eine Alt-Screen-Rendering-Option mit virtualisiertem Scrollback. Wer längere Agent-Sessions laufen lässt und vom Flackern bei schnellen Ausgaben genervt war, bekommt endlich eine saubere Terminal-Erfahrung.

/powerup Command — Interaktive Lektionen mit animierten Demos, die Claude-Code-Features Schritt für Schritt erklären. Besonders nützlich für Einsteiger, aber auch für erfahrene Nutzer, die versteckte Features entdecken wollen.

Bessere /cost-Transparenz — Per-Model- und Cache-Hit-Aufschlüsselung zeigt jetzt genau, wohin das Budget fließt. Relevant für alle, die ihre API-Kosten im Blick behalten müssen.

Für Multi-Agent- und MCP-Workflows

MCP 500K — Die maximale Tool-Result-Größe springt auf 500.000 Zeichen. Wer MCP-Server baut, die große Datenmengen zurückgeben — etwa Datenbank-Dumps, lange Logs oder umfangreiche API-Responses — ist damit nicht mehr so schnell am Limit.

Named Subagents — Subagents tauchen namentlich in den @-Mention-Vorschlägen auf. Für Teams, die mit spezialisierten Agents arbeiten (z.B. ein Test-Agent, ein Review-Agent, ein Deploy-Agent), wird die Orchestrierung damit deutlich intuitiver.

Für CI/CD und Automation

Permission Deferral für Headless Mode — PreToolUse Hooks können Sessions jetzt pausieren und extern wieder aufnehmen. Der Use Case: Ein Agent in einer CI-Pipeline stößt auf eine Aktion, die menschliche Freigabe braucht — statt abzubrechen, wartet er, bis jemand grünes Licht gibt.

PermissionDenied Hook — Neuer Hook, der nach Ablehnungen durch den Auto-Mode-Classifier feuert. Mit {retry: true} kann der Agent automatisch einen alternativen Weg einschlagen. Nützlich für robustere autonome Workflows, die nicht beim ersten „Nein” aufgeben sollen.

Performance und Plattform

Schnellere Write-Tool-Diffs für große Dateien (60 % schneller, besonders bei Dateien mit Tabs und Sonderzeichen), SSE-Transport jetzt in O(n) statt O(n²) — spürbar bei langen Sessions mit vielen Tool-Calls. Dazu ein interaktiver Bedrock Setup Wizard für AWS-Nutzer und eine Windows PowerShell Preview für das wachsende Windows-Lager.

Quellen:

Agentic Coding: Die Branche sortiert sich

Cursor launcht Agent Experience — Cursor hat eine neue Agent-Erfahrung vorgestellt, die explizit gegen Claude Code und Codex positioniert ist. Der Agent kann Dateien lesen/schreiben, Tests im Terminal ausführen, Fehler iterativ beheben und das gesamte Repository per RAG indexieren.

GitHub Copilot trainiert auf euren Daten — Ab dem 24. April nutzt GitHub Interaktionsdaten von Free-, Pro- und Pro+-Nutzern zum Modelltraining — inklusive Code-Snippets, Dateinamen und Repository-Strukturen. Opt-out ist möglich, aber nicht der Default. Business- und Enterprise-Kunden sind ausgenommen. Die Community-Reaktion ist eindeutig: 59 Thumbs-down, 3 Rockets. Wer nicht mitmachen will, sollte jetzt unter /settings/copilot/features die Option deaktivieren.

GitHub Agent HQ — Claude und OpenAI Codex sind jetzt als wählbare Agents in Public Preview verfügbar — direkt in GitHub, GitHub Mobile und VS Code. Die Multi-Agent-Zukunft wird konkret: Man wählt seinen Agent je nach Task.

CodeSignal: Agentic Coding Assessments — CodeSignal hat eine neue Kategorie technischer Assessments eingeführt, die misst, wie gut Entwickler mit AI-Agents arbeiten. Laut deren Umfrage nutzen bereits 91 % der befragten US-Entwickler Agentic-AI-Tools bei der Arbeit, 75 % haben in den letzten sechs Monaten zumindest teilweise AI-generierten Code in Production deployed.

Quellen:

Trend der Woche

Von Vibe Coding zu Agentic Engineering — die Reifephase

Das Buzzword „Vibe Coding” aus 2025 — locker prompten und schauen, was passiert — weicht einer strukturierteren Disziplin. Medium-Autor ESA Engineering beschreibt den Übergang treffend: Agentic Coding ist für Produktions-CI/CD-Pipelines und große Refactors gebaut, Vibe Coding für Hackathon-Prototypen.

Gartner prognostiziert, dass 40 % der Enterprise-Anwendungen bis Ende 2026 aufgabenspezifische AI-Agents enthalten werden (2025: unter 5 %). Anfragen zu Multi-Agent-Systemen stiegen um 1.445 % von Q1 2024 bis Q2 2025. Multi-Model-Routing wird dabei zur Pflicht: Das Plan-and-Execute-Pattern — ein starkes Modell plant, günstigere Modelle führen aus — senkt die Kosten um bis zu 90 %.

Gleichzeitig wächst die Skepsis: 80 % der Entwickler nutzen AI Coding Agents, aber das Vertrauen in deren Accuracy ist von 40 % auf 29 % gefallen. Die zentrale Herausforderung 2026: Agents, denen man vertrauen kann — nicht nur welche, die beeindruckend aussehen. Die Branche konsolidiert sich um das Muster human-prompted → agent-executed → human-reviewed.

Quellen:

Kurz notiert

Anthropic sichert sich 3,5 GW Compute — Neuer Deal mit Google und Broadcom, TPU-Kapazität ab 2027. Run-Rate-Revenue liegt bei über 30 Mrd. Dollar. TechCrunch · CNBC
1M-Token-Context-Beta wird eingestellt — Ab 30. April hat der context-1m-2025-08-07 Beta-Header keine Wirkung mehr für Sonnet 4.5 und Sonnet 4. Anthropic Release Notes
OpenAI, Anthropic und Google gegen Model-Distillation — Die drei arbeiten über das Frontier Model Forum zusammen, um adversariale Distillationsversuche aus China zu erkennen. Bloomberg
Xcode 26.3 mit Agentic Coding — Apple integriert Claude Agent und OpenAI Codex über MCP in Xcode. Apple Newsroom
Coefficient Bio Akquisition — Anthropic kauft AI-Biotech-Startup für ~400M Dollar, Team geht in die Healthcare & Life Sciences Gruppe.
Claude-Ausfälle — Am 6. und 8. April gab es Outages bei Claude — relevant für alle, die Production Workloads darauf laufen haben. TechRadar

Nächste Ausgabe: Mittwoch, 15. April 2026
Feedback? Einfach antworten — ich justiere gerne Fokus, Tiefe und Quellen.