Agentic Weekly #003 — Opus 4.7, Pro-Verwirrung und Skills als neuer Standard

Wöchentlicher Überblick zu Agentic Engineering, Agentic Coding & Claude Code

Apr. 23, 2026

23. April 2026 — Lesezeit: ~6 Min.

Die große Nachricht der Woche

Claude Opus 4.7: Der erste klare Sprung über 60 % auf SWE-bench Pro

Am 16. April hat Anthropic Claude Opus 4.7 general-available gemacht. Das eigentliche Signal ist weniger ein weiterer Benchmark-Gewinn als der Sprung auf SWE-bench Pro 53,4 → 64,3 % — also auf dem härteren Engineering-Benchmark, der längere, realistischere Software-Aufgaben abbildet. Dazu SWE-bench Verified 80,8 → 87,6 %, Terminal-Bench 2.0 65,4 → 69,4 %, CursorBench 58 → 70 %. Auf SWE-bench Pro liegt Opus 4.7 vor GPT-5.4 (57,7 %) und Gemini 3.1 Pro (54,2 %). Dazu High-Res-Vision bis 3,75 Megapixel (3× Opus 4.6) und Pricing unverändert bei 5 $ / 25 $ pro Million In-/Output-Tokens.

Die Reaktionen darauf sind trotzdem nicht einhellig. In der Community gab es Berichte über einen höheren Tokenverbrauch bei vergleichbaren Prompts — wichtig, weil ein stärkeres Modell in der Praxis nur dann ein klarer Gewinn ist, wenn die realen Kosten im eigenen Workflow mitziehen. Ein feststehendes Faktum ist das noch nicht, aber ein Community-Signal, das Teams in eigenen Läufen messen sollten. Anthropic hat zeitgleich an den Effort-Defaults gedreht: high ist jetzt Default für Opus 4.6 und Sonnet 4.6 bei Pro- und Max-Subscribern (vorher medium); xhigh steht als neue Stufe exklusiv für Opus 4.7 bereit. Direkte Antwort auf die Nerfing-Debatte der Vorwoche.

Warum das relevant ist: Opus 4.7 ist der erste allgemein verfügbare Release, der auf SWE-bench Pro sichtbar Abstand gewinnt. Das macht ihn nicht automatisch zum Gewinner in jedem Stack, verschiebt aber die Messlatte für längere agentische Coding-Läufe, Review-Workloads und komplexere Tool-Use-Szenarien. Wer Opus im Stack hat, sollte die Upgrade-Prüfung jetzt machen — inklusive echter Token- und Laufzeitmessung im eigenen Kontext.

Quellen:

Die unbequeme Debatte: Claude Code und die Pro-Verwirrung

Am 21. April tauchte Claude Code auf öffentlichen Anthropic-Seiten zeitweise nicht mehr im 20-$-Pro-Plan auf; Support-Dokumente sprachen nur noch von Max. Kritik auf X und Reddit folgte unmittelbar, ein paar Stunden später war die Darstellung wieder korrigiert. Anthropics Amol Avasare klärte auf: „a small test on ~2 % of new prosumer signups” — bestehende Abonnenten seien nicht betroffen, die öffentlichen Seiten „versehentlich” aktualisiert. Das Experiment läuft unter der Haube weiter.

Simon Willison ordnet nüchtern ein: Vertrauensverlust durch die intransparente Änderung, strategisches Fragezeichen (Codex kostet weiterhin weniger), und die Frage, ob man Lehrmaterial um ein Tool baut, das sich Leser nicht leisten können. Die eigentliche Story ist deshalb weniger „Claude Code ist raus”, sondern eher: Schon kleine, intransparente Änderungen an Limits und Zugängen erzeugen sofort Vertrauensverlust.

Warum das relevant ist: Derselbe Reflex wie bei der Effort-Debatte — still an wirtschaftlichen Stellschrauben drehen, erst kommunizieren, wenn die Community rebelliert. Wer Claude Code in Team-Workflows oder Trainingsmaterial einplant, sollte nicht nur auf Modellleistung schauen, sondern auch auf die Frage: Bleibt das Setup für Leser, Teilnehmer oder Teams bezahlbar und stabil erreichbar?

Quellen:

Claude Code: Die Highlights der Woche

Sieben Releases in sieben Tagen: v2.1.111 bis v2.1.117. Neben Opus-4.7-Support bringt die Woche einen Architekturwechsel.

Für alle, die Claude Code täglich nutzen

Native Binary statt bundled JavaScript — v2.1.113 schaltet auf macOS und Linux auf einen nativen Claude-Code-Binary um. Glob und Grep laufen über eingebettetes bfs und ugrep via Bash. Spürbar schnellere Kaltstarts, weniger Node-Overhead, weniger Abhängigkeit von globalem npm.

/ultrareview — Seit v2.1.111, in v2.1.113 parallelisiert mit Diffstat-Ausgabe: umfassende Code-Reviews in der Cloud. Für PR-Prüfungen, die lokal zu lange dauern, wird das der neue Default.

Opus 4.7 xhigh-Effort und interaktiver Effort-Slider — Neue Stufe zwischen high und max, exklusiv für Opus 4.7. /effort ohne Argument öffnet jetzt einen Slider — endlich ein Interface für den Trade-off zwischen Geschwindigkeit und Tiefe.

Für Multi-Agent- und Plugin-Workflows

Agent-Frontmatter endlich vollständig — mcpServers und hooks aus dem Agent-Frontmatter werden jetzt auch für Main-Thread-Sessions geladen, wenn per --agent gestartet wird. Kleines Detail, großer Effekt für alle, die Agents als First-Class in Workflows behandeln.

Plugin-Dependencies auto-resolved — plugin install, /reload-plugins und Auto-Update lösen fehlende Abhängigkeiten eigenständig auf. blockedMarketplaces und strictKnownMarketplaces werden durchgesetzt — Enterprise-Admins bekommen ihre Plugin-Kontrolle zurück.

/fewer-permission-prompts-Skill — Scannt Transcripts nach häufigen read-only Bash- und MCP-Calls und schlägt eine priorisierte Allow-List für .claude/settings.json vor. Der Endgegner der ständigen Permission-Dialoge.

Für CI/CD und Sicherheit

Sandbox-Härtung — sandbox.network.deniedDomains blockt Domains auch innerhalb weit gefasster Allow-Patterns. Deny-Rules greifen jetzt bei env-, sudo-, watch-, ionice- und setsid-gewrappten Kommandos; find:*-Allow-Regeln lassen nicht mehr automatisch -exec/-delete durch. Dazu ein gefixter Edge-Case, in dem dangerouslyDisableSandbox Kommandos ohne Sandbox und ohne Permission-Prompt laufen ließ. Wer ältere 2.1er in Pipelines hat: jetzt updaten.

Performance und Plattform

/resume bis zu 67 % schneller auf Sessions >40 MB (v2.1.116), parallelisierter MCP-Startup (v2.1.117), PowerShell-Tool progressiv auf Windows via CLAUDE_CODE_USE_POWERSHELL_TOOL. OpenTelemetry bekommt effort-Attribute auf Cost-, Token- und API-Metriken — Billing-Analysen nach Effort-Level werden endlich möglich.

Quellen:

Agentic Coding: Codex öffnet den Mac — und GitHub standardisiert Skills

OpenAI Codex „for (almost) everything” (16. April): Computer Use auf dem Mac, ein In-App-Browser mit Kommentar-Funktion direkt auf Webseiten, 90+ neue Plugins (Atlassian Rovo, CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon, Render u. a.), Memory und proaktive Task-Vorschläge. Parallele Agents drängen sich nicht ins Foreground-Fenster. OpenAI nennt 3 Mio. weekly active Developer, npm-Downloads wuchsen von 82k (April 2025) auf 14,5 Mio. (März 2026). Die Bewegung spiegelt Anthropics Desktop-Routines aus #002 — Codex holt strategisch auf.

gh skill Public Preview (16. April, GitHub CLI v2.90.0): Ein einziger Befehl, um Agent Skills über alle großen Agent-Hosts hinweg zu installieren, zu versionieren, zu suchen und zu publizieren — Claude Code, Copilot, Cursor, Codex, Gemini. Skills folgen einer offenen Spezifikation, jede Installation trägt die Git-Tree-SHA ihres Source-Verzeichnisses, Updates vergleichen echte Content-Änderungen. Das ist im Stillen der größte Schritt in Richtung Interoperabilität, den das Ökosystem seit MCP gesehen hat.

Warum das relevant ist: Die Frontline verschiebt sich. Codex schließt den Desktop-Gap zu Claude Code, GitHub liefert das fehlende Paketformat über alle Hosts hinweg. Wer Tooling-Entscheidungen trifft, sollte ab jetzt davon ausgehen, dass Skills portabel sind — und Lock-in auf einzelne Agent-Hosts wird zur strategischen Altlast.

Quellen:

Trend der Woche

Agent Skills werden zum neuen npm

Drei Bewegungen zeigen in dieselbe Richtung: gh skill macht Skills portabel über Hosts, Claude Code v2.1.111 erlaubt, built-in Slash-Commands (/init, /review, /security-review) via Skill-Tool zu discovern, und OpenAI Codex baut rund um Skills, Plugins und MCP-Server ein modulareres Ökosystem aus. Noch ist das kein vollständig konsolidierter Standard — aber es ist gut möglich, dass wir gerade den Moment sehen, in dem „Skill” vom Prompt-Schnipsel zum versionierten, signierten, cross-kompatiblen Artefakt wird. Wer Agentic Engineering ernsthaft baut, sollte aufhören, Wissen in Prompts und Repo-Wikis zu verstreuen, und Skills als First-Class-Artefakt versionieren. Genau dort dürfte sich in den nächsten Monaten entscheiden, welche Teams nur mit Agenten experimentieren — und welche daraus echte Produktivität ziehen.

Quellen:

Kurz notiert

Claude Design (17. April) — Anthropic Labs launcht Research Preview für Prototypen, Slides, One-Pager. Powered by Opus 4.7, liest Codebase und Design-Systeme, Export zu Canva, PDF, PPTX oder als Handoff-Bundle an Claude Code. Figmas Aktie reagierte sofort negativ. Anthropic · TechCrunch
Mythos-Leak-Report — TechCrunch berichtete am 21. April, eine unautorisierte Gruppe habe Zugriff auf Anthropics exklusives Cyber-Modell Mythos erlangt. Das Modell war nur im Rahmen von Project Glasswing an AWS, Apple, Google, JPMorgan, Microsoft und Nvidia verteilt. Anthropic hat bislang nicht offiziell kommentiert. TechCrunch
Simon Willison zur Agent-Definition — Nach monatelangem Herumschlagen gibt es jetzt eine konsensfähige: „An LLM agent runs tools in a loop to achieve a goal.” simonw.substack.com
GitHub Copilot Individual Plan-Änderungen — Am selben Tag wie das Anthropic-Pricing-Drama kündigt GitHub Usage-basierte Limits für Copilot-Agenten-Workflows an. Agentic Coding knirscht an den Rändern der alten Flatrate-Modelle. simonwillison.net

Nächste Ausgabe: Donnerstag, 30. April 2026

Feedback? Einfach kommentieren/antworten.

fluxum engineering

Diskussion über diese Post

Sind Sie bereit für mehr?