<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0"><channel><title><![CDATA[fluxum engineering: Agentic Weekly]]></title><description><![CDATA["Agentic Weekly" Newsletter — wöchentlicher Überblick zu Agentic Engineering, Agentic Coding & Claude Code.]]></description><link>https://blog.fluxum.net/s/agentic-weekly</link><image><url>https://substackcdn.com/image/fetch/$s_!y_oj!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa142b85f-3d35-4a80-bdac-1835f765cd9e_512x512.png</url><title>fluxum engineering: Agentic Weekly</title><link>https://blog.fluxum.net/s/agentic-weekly</link></image><generator>Substack</generator><lastBuildDate>Fri, 01 May 2026 23:44:15 GMT</lastBuildDate><atom:link href="https://blog.fluxum.net/feed" rel="self" type="application/rss+xml"/><copyright><![CDATA[Martin Gross]]></copyright><language><![CDATA[de]]></language><webMaster><![CDATA[fluxum@substack.com]]></webMaster><itunes:owner><itunes:email><![CDATA[fluxum@substack.com]]></itunes:email><itunes:name><![CDATA[Martin Gross]]></itunes:name></itunes:owner><itunes:author><![CDATA[Martin Gross]]></itunes:author><googleplay:owner><![CDATA[fluxum@substack.com]]></googleplay:owner><googleplay:email><![CDATA[fluxum@substack.com]]></googleplay:email><googleplay:author><![CDATA[Martin Gross]]></googleplay:author><itunes:block><![CDATA[Yes]]></itunes:block><item><title><![CDATA[Agentic Weekly #004 — Drei Bugs, sechs Wochen, 40 Milliarden Dollar]]></title><description><![CDATA[W&#246;chentlicher &#220;berblick zu Agentic Engineering, Agentic Coding & Claude Code]]></description><link>https://blog.fluxum.net/p/agentic-weekly-004-drei-bugs-sechs</link><guid isPermaLink="false">https://blog.fluxum.net/p/agentic-weekly-004-drei-bugs-sechs</guid><dc:creator><![CDATA[Martin Gross]]></dc:creator><pubDate>Fri, 01 May 2026 20:09:38 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!y_oj!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa142b85f-3d35-4a80-bdac-1835f765cd9e_512x512.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>1.Mai 2026 &#8212; Lesezeit: ~7 Min.</p><div><hr></div><h2>Die gro&#223;e Nachricht der Woche</h2><h3>Anthropic legt offen, was Claude Code kaputt gemacht hat</h3><p>Am 23. April hat Anthropic einen <strong>detaillierten Postmortem</strong> ver&#246;ffentlicht &#8212; und damit beendet, was seit Februar Foren, Substacks und Tech-Presse besch&#228;ftigt hat: die Frage, ob Claude &#8222;d&#252;mmer&#8221; geworden ist.</p><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.fluxum.net/subscribe?&quot;,&quot;text&quot;:&quot;Abonnieren&quot;,&quot;language&quot;:&quot;de&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Danke f&#252;rs Lesen von fluxum engineering! Abonnieren Sie kostenlos, um neue Posts zu erhalten und meine Arbeit zu unterst&#252;tzen.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="E-Mail-Adresse eingeben &#8230;" tabindex="-1"><input type="submit" class="button primary" value="Abonnieren"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><p>Antwort: ja, aber nicht weil Anthropic das Modell absichtlich heruntergedreht h&#228;tte, sondern weil <strong>drei separate Bugs</strong> sich zeitlich &#252;berlappten und sich gegenseitig verschleierten.</p><ol><li><p><strong>Reasoning-Effort-Downgrade</strong> (4. M&#228;rz &#8594; zur&#252;ckgenommen am 7. April): Default f&#252;r Opus 4.6 und Sonnet 4.6 von <code>high</code> auf <code>medium</code> gesenkt &#8212; als Reaktion auf User-Beschwerden &#252;ber lange Latenzen. Falscher Trade-off, wie sich herausstellte.</p></li><li><p><strong>Caching-Bug</strong> (26. M&#228;rz &#8594; gefixt 10. April): Eine Optimierung sollte alte Thinking-Bl&#246;cke nach &gt;1h Idle entfernen. Ein Bug lie&#223; sie <strong>bei jedem Turn</strong> entfernen &#8212; Ergebnis: Cache-Misses, vermeintliches &#8222;Vergessen&#8221;, schneller verbrauchte Limits.</p></li><li><p><strong>Verbosity-Prompt</strong> (16. April &#8594; zur&#252;ckgenommen am 20. April): Eine System-Prompt-Anweisung sollte die Verbosity zwischen Tool-Calls reduzieren. In Kombination mit anderen &#196;nderungen: 3 Prozent Performance-Drop bei Opus 4.6 und 4.7 in Ablation-Tests (Sonnet 4.6 ebenfalls betroffen), nicht in den urspr&#252;nglichen Evals erkannt.</p></li></ol><p>Alle drei Issues sind seit v2.1.116 (20. April) behoben. Anthropic hat zus&#228;tzlich <strong>Usage Limits aller Subscriber zur&#252;ckgesetzt</strong> und Default-Effort auf <code>xhigh</code> (Opus 4.7) bzw. <code>high</code> (alle anderen) angehoben. Die API war nicht betroffen &#8212; nur Claude Code.</p><p><strong>Warum das relevant ist:</strong></p><p>Das ist die transparenteste &#246;ffentliche Aufarbeitung, die ein Frontier-Lab bislang zu einem Quality-Drop geliefert hat.</p><p>Drei wichtige Lehren stecken drin:</p><ol><li><p>Evaluation-Suiten erkennen interagierende Regressionen schlecht &#8212; keine der drei &#196;nderungen war f&#252;r sich genommen problematisch.</p></li><li><p>Caching- und Harness-Verhalten sind genauso modellrelevant wie Gewichte; wer Coding-Agents baut, muss das mitmessen.</p></li><li><p>Vertrauen kommt zur&#252;ck, wenn Postmortems so detailliert sind wie dieses &#8212; und nicht, wenn man stillschweigend zur&#252;ckrollt.</p></li></ol><p>Der Wermutstropfen: Sechs Wochen Schaden waren entstanden, bevor die Aufkl&#228;rung kam.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.anthropic.com/engineering/april-23-postmortem">Anthropic: An update on recent Claude Code quality reports</a></p></li><li><p><a href="https://venturebeat.com/technology/mystery-solved-anthropic-reveals-changes-to-claudes-harnesses-and-operating-instructions-likely-caused-degradation">VentureBeat: Anthropic reveals harness changes likely caused degradation</a></p></li><li><p><a href="https://www.theregister.com/2026/04/23/anthropic_says_it_has_fixed/">The Register: Anthropic admits it dumbed down Claude with &#8216;upgrades&#8217;</a></p></li><li><p><a href="https://stackfutures.com/blog/anthropic-claude-code-postmortem-three-bugs-six-weeks-april-2026/">Stack Futures: Three Overlapping Changes, Six Weeks of Degradation</a></p></li><li><p><a href="https://machinelearningatscale.substack.com/p/anthropic-shipped-three-regressions">Machine Learning at Scale: Three regressions and the evals that didn&#8217;t catch them</a></p></li></ul><div><hr></div><h2>Claude Code: Die Highlights der Woche</h2><p>Sieben Releases in sieben Tagen: <strong>v2.1.117 bis v2.1.123</strong>. Schwerpunkt diesmal: Polishing, Memory-Hygiene und Vim-Power-User-Features.</p><h3>F&#252;r alle, die Claude Code t&#228;glich nutzen</h3><p><strong>Vim Visual Mode endlich da</strong> &#8212; v2.1.118 bringt vollwertige Visual-Selection (<code>v</code>) und Visual-Line (<code>V</code>) inklusive Operatoren. Wer Claude Code aus Vim-Reflex bedient, hatte bisher nur einen Kr&#252;ppelmodus. Jetzt: voller Selection-Workflow, Operator-Pending, visuelles Feedback.</p><p><code>/cost</code><strong> und </strong><code>/stats</code><strong> werden zu </strong><code>/usage</code> &#8212; Konsolidierter Tabbed-View mit Billing und Verbrauch in einem Command. Kleines Detail, aber spart die st&#228;ndige &#8222;welcher Command war&#8217;s nochmal?&#8221;-Frage.</p><p><strong>Custom Themes</strong> &#8212; Per <code>/theme</code> benannte Themes anlegen oder direkt JSON in <code>~/.claude/themes/</code> editieren. Plugins k&#246;nnen Themes &#252;ber ein <code>themes/</code>-Verzeichnis ausliefern. Endlich konfigurierbar ohne Hack.</p><p><code>/resume</code><strong> aus PR-URL</strong> &#8212; v2.1.122: PR-URL aus GitHub, GitHub Enterprise, GitLab oder Bitbucket in die <code>/resume</code>-Suche pasten und die Session finden, die diesen PR erzeugt hat. Wer mit vielen parallelen Worktrees jongliert: Game-Changer.</p><h3>F&#252;r Multi-Agent- und Plugin-Workflows</h3><p><code>alwaysLoad</code><strong> f&#252;r MCP-Tools</strong> &#8212; MCP-Server k&#246;nnen einzelne Tools aus dem Tool-Search-Deferral ausschlie&#223;en. Wer Latenz-kritische Tools hat, sollte das setzen.</p><p><code>PostToolUse</code><strong>-Hooks d&#252;rfen Tool-Output ersetzen</strong> &#8212; Bisher nur f&#252;r MCP-Tools m&#246;glich, jetzt f&#252;r alle Tools via <code>hookSpecificOutput.updatedToolOutput</code>. Er&#246;ffnet sauberere Output-Sanitizer und Redaction-Pipelines.</p><p><strong>Hooks k&#246;nnen MCP-Tools aufrufen</strong> &#8212; v2.1.118 erlaubt <code>type: "mcp_tool"</code> direkt aus Hook-Konfiguration. Neue Komposition: Lifecycle-Events l&#246;sen Tool-Aufrufe ohne Wrapper-Skript aus.</p><p><code>claude plugin prune</code><strong> und </strong><code>tag</code> &#8212; Verwaiste auto-installierte Dependencies entfernen; Release-Tags mit Versionsvalidierung erzeugen. Plugin-Hygiene wird langsam zu echtem Package-Management.</p><h3>F&#252;r CI/CD und Automation</h3><p><code>claude ultrareview [target]</code> &#8212; <code>/ultrareview</code> jetzt non-interaktiv aus CI/Skripten. Damit ist Cloud-basierter Tiefen-Review als Pipeline-Step nutzbar, nicht nur als interaktiver Slash-Command.</p><p><code>AI_AGENT</code><strong> Environment Variable</strong> &#8212; Wird f&#252;r Subprozesse gesetzt; GitHub und andere Hosts k&#246;nnen damit Agent-Attribution korrekt taggen. Ein kleiner, aber wichtiger Baustein f&#252;r saubere Audit-Trails.</p><p><strong>Windows ohne Git Bash</strong> &#8212; v2.1.120 nutzt PowerShell als Default-Shell, wenn Git for Windows fehlt. PowerShell-Tool-Permissions k&#246;nnen auto-genehmigt werden. Schluss mit dem Workaround-Setup f&#252;r Windows-only-Teams.</p><h3>Performance und Plattform</h3><p><strong>Memory-Leaks gefixt</strong> &#8212; v2.1.121 schlie&#223;t mehrere Speicherlecks: Multi-GB-RSS bei vielen Bildern, ~2 GB Leak in <code>/usage</code> bei gro&#223;en Transcripts, Leaks in long-running Tools. Wer Sessions tagelang offen l&#228;sst, merkt das sofort.</p><p><strong>Skill-Suche und Effort-Placeholder</strong> &#8212; Filter-Suchbox in <code>/skills</code>, Skills k&#246;nnen <code>${CLAUDE_EFFORT}</code> referenzieren. Die Skill-Plattform reift in kleinen, n&#252;tzlichen Schritten.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://code.claude.com/docs/en/changelog">Claude Code Changelog</a></p></li><li><p><a href="https://releasebot.io/updates/anthropic/claude-code">Releasebot: Claude Code April 2026</a></p></li><li><p><a href="https://ton-technotes.com/en/blog/2026-04-25-claude-code-weekly-update-v2119/">Ton Technotes: v2.1.115&#8211;119 Polish Inside</a></p></li></ul><div><hr></div><h2>Agentic Coding: Cursor 3.1, Copilot Inline-Agent und der Stack-Mix wird Standard</h2><p><strong>Cursor 3.1</strong> (Nachtrag, Mitte April: 3.1 am 13. April, Interactive Canvases am 15.) erg&#228;nzt das Agents-Window aus 3.0 um <strong>Interactive Canvases</strong>: durable Side-Panel-Artefakte mit Tabellen, Diagrammen, Diffs und Custom-Components. Cursor antwortet jetzt nicht mehr nur mit Text und Code, sondern baut Dashboards und Mini-Interfaces, die neben Terminal und Browser im Side-Panel persistent leben. Das ist die richtige Antwort auf eine Beobachtung, die mehrere Hosts gerade machen: Der Output eines l&#228;ngeren Agent-Laufs vertr&#228;gt mehr als nur Markdown.</p><p><strong>GitHub Copilot Inline Agent Mode</strong> (24. April) &#8212; Public Preview f&#252;r JetBrains-IDEs. Agent-Capabilities aus dem Inline-Chat heraus, ohne in das Chat-Panel zu wechseln. Copilot positioniert sich klar in der &#8222;im IDE bleiben&#8221;-Ecke, w&#228;hrend Claude Code Terminal-first und Cursor IDE-Rebuilt f&#228;hrt.</p><p><strong>The New Stack berichtet</strong>, dass Teams zunehmend <strong>alle drei parallel</strong> nutzen &#8212; Cursor f&#252;r IDE-native Edits, Claude Code f&#252;r Terminal-Workflows und Headless-Routinen, Codex f&#252;r Browser- und Computer-Use. Das ist neu: Vor sechs Monaten war die Tooling-Frage &#8222;wer gewinnt?&#8221;. Jetzt ist sie &#8222;wie kombiniere ich?&#8221;.</p><p><strong>Warum das relevant ist:</strong> Wer noch versucht, ein Tool f&#252;r alles zu w&#228;hlen, optimiert in die falsche Richtung. Die spannenden Setups bauen jetzt <strong>portable Skills, Hooks und Routines</strong>, die zwischen Hosts wandern k&#246;nnen &#8212; genau dort, wo <code>gh skill</code> (siehe #003) ansetzt.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://releasebot.io/updates/cursor">Cursor Release Notes</a></p></li><li><p><a href="https://github.blog/changelog/2026-04-24-inline-agent-mode-in-preview-and-more-in-github-copilot-for-jetbrains-ides/">GitHub Changelog: Inline agent mode in JetBrains</a></p></li><li><p><a href="https://thenewstack.io/ai-coding-tool-stack/">The New Stack: Cursor, Claude Code, Codex are merging into one stack</a></p></li><li><p><a href="https://devtoolpicks.com/blog/cursor-3-agents-window-review-2026">DevTool Picks: Cursor 3 Review</a></p></li></ul><div><hr></div><h2>Trend der Woche</h2><h3>Big Tech doppelt nach: Googles 40-Milliarden-Wette auf Anthropic</h3><p>Am 24. April hat <strong>Google bis zu 40 Mrd. $ Investment</strong> in Anthropic angek&#252;ndigt &#8212; 10 Mrd. $ jetzt cash bei einer 350-Mrd.-$-Bewertung, weitere 30 Mrd. $ an Performance-Targets gekoppelt. Dazu: <strong>5 Gigawatt Compute</strong> &#252;ber f&#252;nf Jahre via Google Cloud, mit Option auf weitere Gigawatt. Das passiert nur vier Tage, nachdem Amazon zus&#228;tzliche bis zu 25 Mrd. $ committet hatte (5 Mrd. cash, 20 Mrd. an Milestones gekoppelt).</p><p>Die Choreographie ist bemerkenswert: Anthropic und Google sind gleichzeitig Partner und Konkurrenten &#8212; Gemini 3.1 Pro misst sich offen an Opus 4.7. Trotzdem zieht Google nach. Der Grund: Wer in der Coding-Agent-Schicht des Stacks f&#252;hrend bleiben will, muss die Compute-Allokation f&#252;r die Modelle sichern, die Entwickler tats&#228;chlich t&#228;glich benutzen. Anthropic ist genau das geworden &#8212; auch dank Claude Code.</p><p>Parallel hat Anthropic in der Woche <strong>drei weitere Expansionssignale</strong> gesetzt: Sydney als vierter APAC-Standort (27. April, Theo Hourmouzis von Snowflake als ANZ-GM), eine <strong>NEC-Partnerschaft in Japan</strong> mit Rollout an 30.000 Mitarbeiter und Aufbau einer der gr&#246;&#223;ten AI-native Engineering-Organisationen Japans (24. April), sowie Memorandum mit der australischen Regierung. Das zusammen mit den Investments ergibt das Bild: Anthropic positioniert sich f&#252;r IPO <strong>als globale Plattform</strong>, nicht nur als Modell-Anbieter.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.bloomberg.com/news/articles/2026-04-24/google-plans-to-invest-up-to-40-billion-in-anthropic">Bloomberg: Google plans up to $40B in Anthropic</a></p></li><li><p><a href="https://techcrunch.com/2026/04/24/google-to-invest-up-to-40b-in-anthropic-in-cash-and-compute/">TechCrunch: Google to invest up to $40B in cash and compute</a></p></li><li><p><a href="https://www.axios.com/2026/04/24/google-amazon-anthropic-investment">Axios: Google&#8217;s $40B Anthropic move is Big Tech&#8217;s latest huge bet</a></p></li><li><p><a href="https://www.anthropic.com/news/theo-hourmouzis-general-manager-australia-new-zealand">Anthropic: Theo Hourmouzis als General Manager Australia &amp; New Zealand</a></p></li><li><p><a href="https://www.anthropic.com/news/anthropic-nec">Anthropic + NEC: Building Japan&#8217;s largest AI engineering workforce</a></p></li></ul><div><hr></div><h2>Kurz notiert</h2><ul><li><p><strong>Google Cloud Next 2026</strong> (22. April) &#8212; Konferenz unter dem Banner &#8222;Agentic Era&#8221;. Kevin Ichhpurani (President Global Partner Ecosystem) k&#252;ndigt 750 Mio. $ f&#252;r das 120k-Partner-&#214;kosystem an, um agentische Use-Cases zu beschleunigen. <a href="https://www.googlecloudpresscorner.com/2026-04-22-Google-Cloud-Commits-750-Million-to-Accelerate-Partners-Agentic-AI-Development">Google Cloud Press</a> &#183; <a href="https://biztechmagazine.com/article/2026/04/google-cloud-next-2026-businesses-are-moving-agentic-era">BizTech</a></p></li><li><p><strong>Cloudflare Agents Week</strong> (Nachtrag, 12.&#8211;20. April) &#8212; Vollst&#228;ndiger Stack-Push: Workers AI, AI Gateway, MCP-Hosting, Browser-Rendering. Im internen Engineering-Stack laufen pro Monat 241 Mrd. Tokens und 20 Mio. AI-Gateway-Requests durch die eigenen Produkte &#8212; gebaut auf dem, was sie auch verkaufen. Plattform-Konkurrenz f&#252;r Anthropic und Google bekommt eine Edge-native Variante. <a href="https://blog.cloudflare.com/agents-week-in-review/">Cloudflare Blog</a> &#183; <a href="https://blog.cloudflare.com/internal-ai-engineering-stack/">Internal Stack-Daten</a></p></li><li><p><strong>MIT Technology Review zu Agent Orchestration</strong> &#8212; Lesenswerter &#220;berblick: Multi-Agent-Systeme als &#8222;Flie&#223;band-Moment&#8221; f&#252;r White-Collar-Arbeit. Konkret namentlich erw&#228;hnt sind Claude Code (mit &#8222;a couple of dozen subagents&#8221; im Einsatz) und Claude Cowork (in zehn Tagen gebaut). Hauptsorge: unvorhersehbares LLM-Verhalten, sobald die Agenten aus dem Browser-Fenster heraus mit der echten Welt interagieren. <a href="https://www.technologyreview.com/2026/04/21/1135654/agent-orchestration-ai-artificial-intelligence/">MIT Tech Review</a></p></li><li><p><strong>Simon Willison &#252;ber Qwen3.6-27B</strong> &#8212; Alibabas neues 27-Mrd.-Dense-Modell erreicht Flagship-Coding-Performance lokal und schl&#228;gt das vorherige Open-Source-Flaggschiff Qwen3.5-397B-A17B. Open-Weight-Druck auf die Frontier-Labs steigt weiter. <a href="https://simonwillison.net/2026/Apr/22/qwen36-27b/">simonwillison.net</a></p></li></ul><div><hr></div><p><em>N&#228;chste Ausgabe: Donnerstag, 7. Mai 2026</em></p><p><em>Feedback? Einfach kommentieren/antworten.</em></p><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://blog.fluxum.net/subscribe?&quot;,&quot;text&quot;:&quot;Abonnieren&quot;,&quot;language&quot;:&quot;de&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">Danke f&#252;rs Lesen von fluxum engineering! Abonnieren Sie kostenlos, um neue Posts zu erhalten und meine Arbeit zu unterst&#252;tzen.</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="E-Mail-Adresse eingeben &#8230;" tabindex="-1"><input type="submit" class="button primary" value="Abonnieren"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div>]]></content:encoded></item><item><title><![CDATA[Agentic Weekly #003 — Opus 4.7, Pro-Verwirrung und Skills als neuer Standard]]></title><description><![CDATA[W&#246;chentlicher &#220;berblick zu Agentic Engineering, Agentic Coding & Claude Code]]></description><link>https://blog.fluxum.net/p/agentic-weekly-003-opus-47-pro-verwirrung</link><guid isPermaLink="false">https://blog.fluxum.net/p/agentic-weekly-003-opus-47-pro-verwirrung</guid><dc:creator><![CDATA[Martin Gross]]></dc:creator><pubDate>Thu, 23 Apr 2026 08:01:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!y_oj!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa142b85f-3d35-4a80-bdac-1835f765cd9e_512x512.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p><em>23. April 2026 &#8212; Lesezeit: ~6 Min.</em></p><div><hr></div><h2>Die gro&#223;e Nachricht der Woche</h2><h3>Claude Opus 4.7: Der erste klare Sprung &#252;ber 60 % auf SWE-bench Pro</h3><p>Am 16. April hat Anthropic <strong>Claude Opus 4.7</strong> general-available gemacht. Das eigentliche Signal ist weniger ein weiterer Benchmark-Gewinn als der Sprung auf <strong>SWE-bench Pro</strong> 53,4 &#8594; <strong>64,3 %</strong> &#8212; also auf dem h&#228;rteren Engineering-Benchmark, der l&#228;ngere, realistischere Software-Aufgaben abbildet. Dazu <strong>SWE-bench Verified</strong> 80,8 &#8594; <strong>87,6 %</strong>, <strong>Terminal-Bench 2.0</strong> 65,4 &#8594; 69,4 %, <strong>CursorBench</strong> 58 &#8594; 70 %. Auf SWE-bench Pro liegt Opus 4.7 vor GPT-5.4 (57,7 %) und Gemini 3.1 Pro (54,2 %). Dazu <strong>High-Res-Vision</strong> bis 3,75 Megapixel (3&#215; Opus 4.6) und Pricing unver&#228;ndert bei <strong>5 $ / 25 $ pro Million In-/Output-Tokens</strong>.</p><p>Die Reaktionen darauf sind trotzdem nicht einhellig. In der Community gab es Berichte &#252;ber einen <strong>h&#246;heren Tokenverbrauch bei vergleichbaren Prompts</strong> &#8212; wichtig, weil ein st&#228;rkeres Modell in der Praxis nur dann ein klarer Gewinn ist, wenn die realen Kosten im eigenen Workflow mitziehen. Ein feststehendes Faktum ist das noch nicht, aber ein Community-Signal, das Teams in eigenen L&#228;ufen messen sollten. Anthropic hat zeitgleich an den Effort-Defaults gedreht: <code>high</code><strong> ist jetzt Default</strong> f&#252;r Opus 4.6 und Sonnet 4.6 bei Pro- und Max-Subscribern (vorher <code>medium</code>); <code>xhigh</code> steht als neue Stufe exklusiv f&#252;r Opus 4.7 bereit. Direkte Antwort auf die Nerfing-Debatte der Vorwoche.</p><p><strong>Warum das relevant ist:</strong> Opus 4.7 ist der erste allgemein verf&#252;gbare Release, der auf SWE-bench Pro sichtbar Abstand gewinnt. Das macht ihn nicht automatisch zum Gewinner in jedem Stack, verschiebt aber die Messlatte f&#252;r l&#228;ngere agentische Coding-L&#228;ufe, Review-Workloads und komplexere Tool-Use-Szenarien. Wer Opus im Stack hat, sollte die Upgrade-Pr&#252;fung jetzt machen &#8212; inklusive echter Token- und Laufzeitmessung im eigenen Kontext.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.anthropic.com/news/claude-opus-4-7">Anthropic: Introducing Claude Opus 4.7</a></p></li><li><p><a href="https://venturebeat.com/technology/anthropic-releases-claude-opus-4-7-narrowly-retaking-lead-for-most-powerful-generally-available-llm">VentureBeat: Opus 4.7 narrowly retakes the lead</a></p></li><li><p><a href="https://www.vellum.ai/blog/claude-opus-4-7-benchmarks-explained">Vellum: Opus 4.7 Benchmarks Explained</a></p></li><li><p><a href="https://thenextweb.com/news/anthropic-claude-opus-4-7-coding-agentic-benchmarks-release">TheNextWeb: Opus 4.7 Agentic Benchmarks</a></p></li><li><p><a href="https://github.blog/changelog/2026-04-16-claude-opus-4-7-is-generally-available/">GitHub Changelog: Opus 4.7 GA</a></p></li></ul><div><hr></div><h2>Die unbequeme Debatte: Claude Code und die Pro-Verwirrung</h2><p>Am 21. April tauchte Claude Code auf &#246;ffentlichen Anthropic-Seiten zeitweise nicht mehr im <strong>20-$-Pro-Plan</strong> auf; Support-Dokumente sprachen nur noch von Max. Kritik auf X und Reddit folgte unmittelbar, ein paar Stunden sp&#228;ter war die Darstellung wieder korrigiert. Anthropics Amol Avasare kl&#228;rte auf: <strong>&#8222;a small test on ~2 % of new prosumer signups&#8221;</strong> &#8212; bestehende Abonnenten seien nicht betroffen, die &#246;ffentlichen Seiten &#8222;versehentlich&#8221; aktualisiert. Das Experiment l&#228;uft unter der Haube weiter.</p><p><strong>Simon Willison</strong> ordnet n&#252;chtern ein: Vertrauensverlust durch die intransparente &#196;nderung, strategisches Fragezeichen (Codex kostet weiterhin weniger), und die Frage, ob man Lehrmaterial um ein Tool baut, das sich Leser nicht leisten k&#246;nnen. Die eigentliche Story ist deshalb weniger &#8222;Claude Code ist raus&#8221;, sondern eher: Schon kleine, intransparente &#196;nderungen an Limits und Zug&#228;ngen erzeugen sofort Vertrauensverlust.</p><p><strong>Warum das relevant ist:</strong> Derselbe Reflex wie bei der Effort-Debatte &#8212; still an wirtschaftlichen Stellschrauben drehen, erst kommunizieren, wenn die Community rebelliert. Wer Claude Code in Team-Workflows oder Trainingsmaterial einplant, sollte nicht nur auf Modellleistung schauen, sondern auch auf die Frage: Bleibt das Setup f&#252;r Leser, Teilnehmer oder Teams bezahlbar und stabil erreichbar?</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.wheresyoured.at/news-anthropic-removes-pro-cc/">Where&#8217;s Your Ed At: Anthropic (Briefly) Removes Claude Code From Pro</a></p></li><li><p><a href="https://www.theregister.com/2026/04/22/anthropic_removes_claude_code_pro/">The Register: Anthropic tests reaction to yanking Claude Code from Pro</a></p></li><li><p><a href="https://simonwillison.net/2026/Apr/22/claude-code-confusion/">Simon Willison: Is Claude Code going to cost $100/month?</a></p></li><li><p><a href="https://thenewstack.io/anthropic-claude-code-limits/">The New Stack: Claude Code Limits</a></p></li></ul><div><hr></div><h2>Claude Code: Die Highlights der Woche</h2><p>Sieben Releases in sieben Tagen: <strong>v2.1.111 bis v2.1.117</strong>. Neben Opus-4.7-Support bringt die Woche einen Architekturwechsel.</p><h3>F&#252;r alle, die Claude Code t&#228;glich nutzen</h3><p><strong>Native Binary statt bundled JavaScript</strong> &#8212; v2.1.113 schaltet auf macOS und Linux auf einen nativen Claude-Code-Binary um. <code>Glob</code> und <code>Grep</code> laufen &#252;ber eingebettetes <code>bfs</code> und <code>ugrep</code> via Bash. Sp&#252;rbar schnellere Kaltstarts, weniger Node-Overhead, weniger Abh&#228;ngigkeit von globalem npm.</p><p><code>/ultrareview</code> &#8212; Seit v2.1.111, in v2.1.113 parallelisiert mit Diffstat-Ausgabe: umfassende Code-Reviews in der Cloud. F&#252;r PR-Pr&#252;fungen, die lokal zu lange dauern, wird das der neue Default.</p><p><strong>Opus 4.7 </strong><code>xhigh</code><strong>-Effort und interaktiver Effort-Slider</strong> &#8212; Neue Stufe zwischen <code>high</code> und <code>max</code>, exklusiv f&#252;r Opus 4.7. <code>/effort</code> ohne Argument &#246;ffnet jetzt einen Slider &#8212; endlich ein Interface f&#252;r den Trade-off zwischen Geschwindigkeit und Tiefe.</p><h3>F&#252;r Multi-Agent- und Plugin-Workflows</h3><p><strong>Agent-Frontmatter endlich vollst&#228;ndig</strong> &#8212; <code>mcpServers</code> und <code>hooks</code> aus dem Agent-Frontmatter werden jetzt auch f&#252;r Main-Thread-Sessions geladen, wenn per <code>--agent</code> gestartet wird. Kleines Detail, gro&#223;er Effekt f&#252;r alle, die Agents als First-Class in Workflows behandeln.</p><p><strong>Plugin-Dependencies auto-resolved</strong> &#8212; <code>plugin install</code>, <code>/reload-plugins</code> und Auto-Update l&#246;sen fehlende Abh&#228;ngigkeiten eigenst&#228;ndig auf. <code>blockedMarketplaces</code> und <code>strictKnownMarketplaces</code> werden durchgesetzt &#8212; Enterprise-Admins bekommen ihre Plugin-Kontrolle zur&#252;ck.</p><p><code>/fewer-permission-prompts</code><strong>-Skill</strong> &#8212; Scannt Transcripts nach h&#228;ufigen read-only Bash- und MCP-Calls und schl&#228;gt eine priorisierte Allow-List f&#252;r <code>.claude/settings.json</code> vor. Der Endgegner der st&#228;ndigen Permission-Dialoge.</p><h3>F&#252;r CI/CD und Sicherheit</h3><p><strong>Sandbox-H&#228;rtung</strong> &#8212; <code>sandbox.network.deniedDomains</code> blockt Domains auch innerhalb weit gefasster Allow-Patterns. Deny-Rules greifen jetzt bei <code>env</code>-, <code>sudo</code>-, <code>watch</code>-, <code>ionice</code>- und <code>setsid</code>-gewrappten Kommandos; <code>find:*</code>-Allow-Regeln lassen nicht mehr automatisch <code>-exec</code>/<code>-delete</code> durch. Dazu ein gefixter Edge-Case, in dem <code>dangerouslyDisableSandbox</code> Kommandos <strong>ohne Sandbox und ohne Permission-Prompt</strong> laufen lie&#223;. Wer &#228;ltere 2.1er in Pipelines hat: jetzt updaten.</p><h3>Performance und Plattform</h3><p><code>/resume</code><strong> bis zu 67 % schneller</strong> auf Sessions &gt;40 MB (v2.1.116), parallelisierter MCP-Startup (v2.1.117), PowerShell-Tool progressiv auf Windows via <code>CLAUDE_CODE_USE_POWERSHELL_TOOL</code>. OpenTelemetry bekommt <code>effort</code>-Attribute auf Cost-, Token- und API-Metriken &#8212; Billing-Analysen nach Effort-Level werden endlich m&#246;glich.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://code.claude.com/docs/en/changelog">Claude Code Changelog</a></p></li><li><p><a href="https://releasebot.io/updates/anthropic/claude-code">Releasebot: Claude Code April 2026</a></p></li><li><p><a href="https://github.com/anthropics/claude-code/releases">GitHub: Claude Code Releases</a></p></li></ul><div><hr></div><h2>Agentic Coding: Codex &#246;ffnet den Mac &#8212; und GitHub standardisiert Skills</h2><p><strong>OpenAI Codex &#8222;for (almost) everything&#8221;</strong> (16. April): <strong>Computer Use auf dem Mac</strong>, ein In-App-Browser mit Kommentar-Funktion direkt auf Webseiten, <strong>90+ neue Plugins</strong> (Atlassian Rovo, CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon, Render u. a.), Memory und proaktive Task-Vorschl&#228;ge. Parallele Agents dr&#228;ngen sich nicht ins Foreground-Fenster. OpenAI nennt <strong>3 Mio. weekly active Developer</strong>, npm-Downloads wuchsen von 82k (April 2025) auf 14,5 Mio. (M&#228;rz 2026). Die Bewegung spiegelt Anthropics Desktop-Routines aus #002 &#8212; Codex holt strategisch auf.</p><p><code>gh skill</code><strong> Public Preview</strong> (16. April, GitHub CLI v2.90.0): Ein einziger Befehl, um <strong>Agent Skills</strong> &#252;ber alle gro&#223;en Agent-Hosts hinweg zu installieren, zu versionieren, zu suchen und zu publizieren &#8212; Claude Code, Copilot, Cursor, Codex, Gemini. Skills folgen einer offenen Spezifikation, jede Installation tr&#228;gt die Git-Tree-SHA ihres Source-Verzeichnisses, Updates vergleichen echte Content-&#196;nderungen. Das ist im Stillen der gr&#246;&#223;te Schritt in Richtung Interoperabilit&#228;t, den das &#214;kosystem seit MCP gesehen hat.</p><p><strong>Warum das relevant ist:</strong> Die Frontline verschiebt sich. Codex schlie&#223;t den Desktop-Gap zu Claude Code, GitHub liefert das fehlende Paketformat &#252;ber alle Hosts hinweg. Wer Tooling-Entscheidungen trifft, sollte ab jetzt davon ausgehen, dass Skills portabel sind &#8212; und Lock-in auf einzelne Agent-Hosts wird zur strategischen Altlast.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://openai.com/index/codex-for-almost-everything/">OpenAI: Codex for (almost) everything</a></p></li><li><p><a href="https://www.macrumors.com/2026/04/16/openai-codex-mac-update/">MacRumors: Codex Mac Update</a></p></li><li><p><a href="https://github.blog/changelog/2026-04-16-manage-agent-skills-with-github-cli/">GitHub Changelog: gh skill</a></p></li><li><p><a href="https://groundy.com/articles/github-clis-gh-skill-command-one-standard-to-rule-claude-code-copilot-cursor/">Groundy: gh skill command analysis</a></p></li></ul><div><hr></div><h2>Trend der Woche</h2><h3>Agent Skills werden zum neuen npm</h3><p>Drei Bewegungen zeigen in dieselbe Richtung: <code>gh skill</code> macht Skills portabel &#252;ber Hosts, <strong>Claude Code v2.1.111</strong> erlaubt, built-in Slash-Commands (<code>/init</code>, <code>/review</code>, <code>/security-review</code>) via Skill-Tool zu discovern, und <strong>OpenAI Codex</strong> baut rund um Skills, Plugins und MCP-Server ein modulareres &#214;kosystem aus. Noch ist das kein vollst&#228;ndig konsolidierter Standard &#8212; aber es ist gut m&#246;glich, dass wir gerade den Moment sehen, in dem &#8222;Skill&#8221; vom Prompt-Schnipsel zum versionierten, signierten, cross-kompatiblen Artefakt wird. Wer Agentic Engineering ernsthaft baut, sollte aufh&#246;ren, Wissen in Prompts und Repo-Wikis zu verstreuen, und <strong>Skills als First-Class-Artefakt</strong> versionieren. Genau dort d&#252;rfte sich in den n&#228;chsten Monaten entscheiden, welche Teams nur mit Agenten experimentieren &#8212; und welche daraus echte Produktivit&#228;t ziehen.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://github.blog/changelog/2026-04-16-manage-agent-skills-with-github-cli/">GitHub: Manage agent skills with GitHub CLI</a></p></li><li><p><a href="https://code.claude.com/docs/en/changelog">Anthropic Claude Code: Skills in changelog</a></p></li><li><p><a href="https://www.bighatgroup.com/blog/gh-skill-github-cli-agent-skills-management/">Big Hat Group: gh skill Deep Dive</a></p></li></ul><div><hr></div><h2>Kurz notiert</h2><ul><li><p><strong>Claude Design</strong> (17. April) &#8212; Anthropic Labs launcht Research Preview f&#252;r Prototypen, Slides, One-Pager. Powered by Opus 4.7, liest Codebase und Design-Systeme, Export zu Canva, PDF, PPTX oder als Handoff-Bundle an Claude Code. Figmas Aktie reagierte sofort negativ. <a href="https://www.anthropic.com/news/claude-design-anthropic-labs">Anthropic</a> &#183; <a href="https://techcrunch.com/2026/04/17/anthropic-launches-claude-design-a-new-product-for-creating-quick-visuals/">TechCrunch</a></p></li><li><p><strong>Mythos-Leak-Report</strong> &#8212; TechCrunch berichtete am 21. April, eine unautorisierte Gruppe habe Zugriff auf Anthropics exklusives Cyber-Modell Mythos erlangt. Das Modell war nur im Rahmen von Project Glasswing an AWS, Apple, Google, JPMorgan, Microsoft und Nvidia verteilt. Anthropic hat bislang nicht offiziell kommentiert. <a href="https://techcrunch.com/2026/04/21/unauthorized-group-has-gained-access-to-anthropics-exclusive-cyber-tool-mythos-report-claims/">TechCrunch</a></p></li><li><p><strong>Simon Willison zur Agent-Definition</strong> &#8212; Nach monatelangem Herumschlagen gibt es jetzt eine konsensf&#228;hige: &#8222;An LLM agent runs tools in a loop to achieve a goal.&#8221; <a href="https://simonw.substack.com/p/i-think-agent-may-finally-have-a">simonw.substack.com</a></p></li><li><p><strong>GitHub Copilot Individual Plan-&#196;nderungen</strong> &#8212; Am selben Tag wie das Anthropic-Pricing-Drama k&#252;ndigt GitHub Usage-basierte Limits f&#252;r Copilot-Agenten-Workflows an. Agentic Coding knirscht an den R&#228;ndern der alten Flatrate-Modelle. <a href="https://simonwillison.net/2026/Apr/22/changes-to-github-copilot/">simonwillison.net</a></p></li></ul><div><hr></div><p><em>N&#228;chste Ausgabe: Donnerstag, 30. April 2026</em></p><p><em>Feedback? Einfach kommentieren/antworten.</em></p>]]></content:encoded></item><item><title><![CDATA[Agentic Weekly #002 — Claude wird autonom (und die Community nervös)]]></title><description><![CDATA[W&#246;chentlicher &#220;berblick zu Agentic Engineering, Agentic Coding & Claude Code]]></description><link>https://blog.fluxum.net/p/agentic-weekly-002-claude-wird-autonom</link><guid isPermaLink="false">https://blog.fluxum.net/p/agentic-weekly-002-claude-wird-autonom</guid><dc:creator><![CDATA[Martin Gross]]></dc:creator><pubDate>Thu, 16 Apr 2026 08:44:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!y_oj!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa142b85f-3d35-4a80-bdac-1835f765cd9e_512x512.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p><em>16. April 2026 &#8212; Lesezeit: ~4 Min.</em></p><div><hr></div><h2>Die gro&#223;e Nachricht der Woche</h2><h3>Claude Code Desktop bekommt Routines &#8212; und wird zur Agent-Plattform</h3><p>Am 14. April hat Anthropic die Claude Code Desktop App von Grund auf neu gebaut. Das ist kein kosmetisches Update, sondern ein Architekturwechsel: Die App ist jetzt um <strong>parallele Sessions</strong> herum organisiert, mit einer Sidebar zum Managen mehrerer gleichzeitiger Agent-L&#228;ufe, Drag-and-Drop-Layout, integriertem Terminal und File-Editor.</p><p>Das eigentliche Highlight hei&#223;t <strong>Routines</strong> &#8212; eine neue Automatisierungsschicht, die Claude Code ohne aktive Session laufen l&#228;sst. Eine Routine b&#252;ndelt Prompt, Repository und Connectors in eine Konfiguration, die auf drei Arten triggern kann: nach <strong>Zeitplan</strong>, per <strong>API-Call</strong> oder durch ein <strong>GitHub-Event</strong> (z.B. neuer Pull Request). Routines laufen auf Anthropics Web-Infrastruktur, nicht lokal. Daily Caps nach Plan: Pro 5, Max 15, Team/Enterprise 25 (weitere zukaufbar).</p><p>Dazu kommt: Claude Code kann jetzt den <strong>Mac fernsteuern</strong> &#8212; wenn kein direkter Connector existiert (Slack, Google Calendar), navigiert Claude &#252;ber den Bildschirm wie ein Mensch. Drei View Modes (Verbose, Normal, Summary) lassen Nutzer steuern, wie viel von Claudes Tool-Aktivit&#228;t sie sehen wollen.</p><p><strong>Warum das relevant ist:</strong> Wer letzte Woche das Conway-Leak verfolgt hat (immer noch unbest&#228;tigt), sieht hier die offizielle Version: Claude bewegt sich von einem reaktiven Tool zu einem persistent laufenden, event-gesteuerten Agent. Routines sind der erste produktionsreife Schritt dahin.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.macrumors.com/2026/04/15/anthropic-rebuilds-claude-code-desktop-app/">MacRumors: Anthropic Rebuilds Claude Code Desktop</a></p></li><li><p><a href="https://venturebeat.com/orchestration/we-tested-anthropics-redesigned-claude-code-desktop-app-and-routines-heres-what-enterprises-should-know">VentureBeat: Routines Hands-On</a></p></li><li><p><a href="https://9to5mac.com/2026/04/14/anthropic-adds-repeatable-routines-feature-to-claude-code-heres-how-it-works/">9to5Mac: Routines Feature</a></p></li><li><p><a href="https://siliconangle.com/2026/04/14/anthropics-claude-code-gets-automated-routines-desktop-makeover/">SiliconANGLE: Routines &amp; Desktop Makeover</a></p></li></ul><div><hr></div><h2>Die unbequeme Debatte: Wird Claude schlechter?</h2><p>Es ist das Thema der Woche in der Community: Eine wachsende Zahl von Power-Usern beklagt, dass Claude &#8212; insbesondere Opus 4.6 &#8212; seit Februar sp&#252;rbar schw&#228;cher geworden ist. Weniger gr&#252;ndliche Analysen, mehr Abk&#252;rzungen, h&#228;ufigeres vorzeitiges Abbrechen.</p><p>Die Ursache ist bekannt: Anthropic hat das Default-<strong>Effort-Level</strong> von Opus 4.6 am 9. Februar auf Adaptive Thinking umgestellt und am 3. M&#228;rz auf <strong>Medium Effort (Level 85)</strong> gesenkt. Weniger Tokens pro Anfrage, schnellere Antworten &#8212; aber auch weniger Tiefe.</p><p><strong>Stella Laurenzo</strong>, Senior Director bei AMDs AI-Gruppe, hat die Debatte mit einer datengest&#252;tzten Analyse auf GitHub befeuert: 6.852 Sessions, 17.871 Thinking Blocks, 234.760 Tool Calls. Ihr Befund: Die Reasoning-Tiefe fiel ab Februar messbar, w&#228;hrend &#8222;Simplest Fix&#8221;-Verhalten, Premature Stopping und Edit-first statt Research-first zunahmen.</p><p>Die Community-Reaktion ist deutlich. Fortune, VentureBeat, Axios und The Register haben berichtet. Der Vorwurf: Anthropic habe die &#196;nderung nicht transparent genug kommuniziert &#8212; sie stand im Changelog, wurde aber nicht prominent angek&#252;ndigt. Die Spekulation, dass Anthropic unter Compute-Knappheit leidet, h&#228;lt sich hartn&#228;ckig.</p><p><strong>Anthropics Antwort:</strong> Teams und Enterprise-Nutzer sollen k&#252;nftig standardm&#228;&#223;ig auf High Effort laufen, auch wenn das mehr Tokens und Latenz kostet. F&#252;r alle anderen bleibt <code>/effort max</code> der Workaround.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://fortune.com/2026/04/14/anthropic-claude-performance-decline-user-complaints-backlash-lack-of-transparency-accusations-compute-crunch/">Fortune: Anthropic Performance Backlash</a></p></li><li><p><a href="https://www.axios.com/2026/04/16/anthropic-claude-power-user-complaints">Axios: Anthropic&#8217;s AI Downgrade Stings Power Users</a></p></li><li><p><a href="https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance">VentureBeat: Is Anthropic &#8216;Nerfing&#8217; Claude?</a></p></li><li><p><a href="https://www.theregister.com/2026/04/13/claude_outage_quality_complaints/">The Register: Claude Is Getting Worse, According to Claude</a></p></li><li><p><a href="https://scortier.substack.com/p/claude-code-drama-6852-sessions-prove">Stella Laurenzo: 6,852 Sessions Analysis</a></p></li></ul><div><hr></div><h2>Claude Code CLI: Die Highlights der Woche</h2><p>Sieben Releases in sieben Tagen &#8212; von <strong>v2.1.96 bis v2.1.108</strong>. Hier die Highlights, sortiert danach, wen sie betreffen:</p><h3>F&#252;r alle, die Claude Code t&#228;glich nutzen</h3><p><code>/recap</code> &#8212; Beim Zur&#252;ckkehren in eine Session liefert Claude jetzt automatisch einen Kontext-&#220;berblick. Konfigurierbar in <code>/config</code>, manuell aufrufbar mit <code>/recap</code>. Wer viele parallele Sessions jongliert und nach einem Kontextwechsel erst mal &#8222;Wo war ich?&#8221; denkt, spart damit sp&#252;rbar Zeit.</p><p><strong>Prompt Caching wird steuerbar</strong> &#8212; Zwei neue Environment-Variablen: <code>ENABLE_PROMPT_CACHING_1H</code> f&#252;r eine einst&#252;ndige Cache-TTL, <code>FORCE_PROMPT_CACHING_5M</code> f&#252;r f&#252;nf Minuten. Relevant f&#252;r alle, die ihre API-Kosten optimieren oder auf langsamen Backends arbeiten. Ein Bug, bei dem Subscriber mit <code>DISABLE_TELEMETRY</code> auf 5 Minuten statt 1 Stunde zur&#252;ckfielen, wurde gefixt.</p><h3>F&#252;r Multi-Agent- und MCP-Workflows</h3><p><strong>Background Monitors</strong> &#8212; Plugins k&#246;nnen jetzt &#252;ber den <code>monitors</code> Manifest-Key automatisch mit der Session starten. Wer Monitoring-Tools f&#252;r Builds, Tests oder Deployments als Plugin betreibt, bekommt damit eine hands-off L&#246;sung. Dazu: <code>/reload-plugins</code> erkennt neue Skills ohne Neustart.</p><p><strong>PreCompact Hook</strong> &#8212; Hooks k&#246;nnen Compaction blockieren (Exit-Code 2 oder <code>{"decision":"block"}</code>). N&#252;tzlich f&#252;r Agents, die mitten in einer langen Analyse stecken und ihren Kontext nicht verlieren d&#252;rfen.</p><h3>F&#252;r CI/CD und Automation</h3><p><strong>Security-Fixes</strong> &#8212; Mehrere Bash-Tool-Permission-Bypasses gefixt in v2.1.97/98: Backslash-Escaping umging Auto-Allow-Regeln, Redirects &#252;ber <code>/dev/tcp</code> und <code>/dev/udp</code> wurden nicht abgefangen, Env-Var-Prefixes tricksten die Permission-Pr&#252;fung aus. Wer &#228;ltere Versionen in Pipelines nutzt: jetzt updaten.</p><h3>Enterprise und Plattform</h3><p><strong>Google Vertex AI Setup Wizard</strong> &#8212; Interaktiver Wizard f&#252;r GCP-Authentifizierung, Projekt- und Regionskonfiguration, direkt vom Login-Screen aus. OS-CA-Zertifikate werden jetzt standardm&#228;&#223;ig vertraut &#8212; Schluss mit manueller Zertifikats-Konfiguration f&#252;r Enterprise-TLS-Proxies. Dazu <strong>PID Namespace Isolation</strong> f&#252;r Subprocess-Sandboxing auf Linux und ein neuer <code>/team-onboarding</code>-Command, der Onboarding-Guides f&#252;r Teammitglieder aus der eigenen Claude-Code-Nutzung generiert.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://code.claude.com/docs/en/changelog">Claude Code Changelog</a></p></li><li><p><a href="https://releasebot.io/updates/anthropic/claude-code">Releasebot: Claude Code</a></p></li><li><p><a href="https://github.com/anthropics/claude-code/releases">GitHub: Claude Code Releases</a></p></li></ul><div><hr></div><h2>Agentic Coding: Cursor 3 und der Drei-Wege-Kampf</h2><p><strong>Cursor 3</strong> markiert einen Paradigmenwechsel: Das Interface wurde komplett um die Idee herum neu gebaut, dass der Gro&#223;teil des Codes von AI Agents geschrieben wird. Highlights: <strong>Agents Window</strong>, <strong>Design Mode</strong>, <strong>Cloud Agents</strong>. Composer 2 erreicht 61,3 auf CursorBench (+37 %) und 73,7 auf SWE-bench Multilingual. Anysphere hat &#252;ber 3 Milliarden Dollar eingesammelt bei einer ARR von 2 Milliarden.</p><p>Der Markt teilt sich in drei Philosophien: <strong>Cursor</strong> setzt auf IDE-native Deep Integration, <strong>GitHub Copilot</strong> auf Reichweite und Enterprise (Agent Mode GA, agentic Code Review seit M&#228;rz), <strong>Claude Code</strong> auf Terminal-first mit Routines und maximaler Flexibilit&#228;t. Die Wahl des Stacks ist jetzt eine Architekturentscheidung.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://dev.to/devtoolpicks/cursor-3-just-launched-with-an-ai-agents-window-what-changed-and-is-it-still-worth-it-496f">DEV Community: Cursor 3 Launch</a></p></li><li><p><a href="https://www.nxcode.io/resources/news/cursor-vs-claude-code-vs-github-copilot-2026-ultimate-comparison">NxCode: Cursor vs Claude Code vs Copilot</a></p></li></ul><div><hr></div><h2>Trend der Woche</h2><h3>Anthropic auf dem Weg zum B&#246;rsengang &#8212; die 800-Milliarden-Frage</h3><p>Anthropic zieht Investoren-Angebote an, die das Unternehmen mit bis zu <strong>800 Milliarden Dollar</strong> bewerten &#8212; mehr als das Doppelte der Bewertung von 380 Milliarden aus dem Februar. Annualisierte Revenue: &#252;ber 30 Milliarden Dollar. IPO wird f&#252;r Oktober 2026 erwartet.</p><p><strong>Vas Narasimhan</strong>, CEO von Novartis, wurde am 14. April in den Board berufen &#8212; erstes Pharma-Schwergewicht, klares Signal Richtung Healthcare. Trust-berufene Direktoren stellen jetzt die Board-Mehrheit. Ein IPO-bereites Anthropic wird Claude Code aggressiver kommerzialisieren &#8212; die Enterprise-Features und Routines der letzten Woche passen ins Bild.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.bloomberg.com/news/articles/2026-04-14/anthropic-attracts-investor-offers-at-a-800-billion-valuation">Bloomberg: Anthropic $800B Valuation</a></p></li><li><p><a href="https://www.anthropic.com/news/narasimhan-board">Anthropic: Narasimhan Board</a></p></li><li><p><a href="https://www.benzinga.com/markets/tech/26/04/51821987/anthropic-800b-valuation-claude-growth-ipo-openai-rivalry">Benzinga: Anthropic IPO</a></p></li></ul><div><hr></div><h2>Kurz notiert</h2><ul><li><p><strong>Conway-Leak</strong> &#8212; Anfang April tauchten 512.000 Zeilen Claude-Code-Quellcode auf, darin Details zu einer Always-On-Agent-Plattform namens Conway. Anthropic hat weder best&#228;tigt noch dementiert. Routines k&#246;nnten die offizielle Antwort sein. <a href="https://www.mindstudio.ai/blog/what-is-conway-agent-anthropic-always-on-background-ai">MindStudio</a></p></li><li><p><strong>Claude-Outage am 15. April</strong> &#8212; Erhebliche St&#246;rung bei Claude.ai, API und Claude Code von ~10:53 bis 13:42 ET. Wer Production-Workloads laufen hat: Redundanz einplanen. <a href="https://www.cnbc.com/2026/04/15/anthropic-outage-elevated-errors-claude-chatbot-code-api.html">CNBC</a></p></li><li><p><strong>Simon Willison &#252;ber Cybersecurity als &#8222;Proof of Work&#8221;</strong> &#8212; AI-Modelle wie Mythos ver&#228;ndern Vulnerability Research fundamental. <a href="https://simonwillison.net/2026/Apr/14/cybersecurity-proof-of-work/">simonwillison.net</a></p></li><li><p><strong>Anthropic Agentic Coding Trends Report 2026</strong> &#8212; Umfassender Bericht dar&#252;ber, wie Coding Agents Workflows ver&#228;ndern. Pflichtlekt&#252;re. <a href="https://resources.anthropic.com/2026-agentic-coding-trends-report">Anthropic Resources</a></p></li><li><p><strong>ICSE 2026: Workshop Agentic Engineering</strong> &#8212; Die f&#252;hrende Software-Engineering-Konferenz widmet dem Thema erstmals einen eigenen Workshop. <a href="https://conf.researchr.org/home/icse-2026/agent-2026">ICSE 2026</a></p></li></ul><div><hr></div><p><em>N&#228;chste Ausgabe: Donnerstag, 23. April 2026</em></p>]]></content:encoded></item><item><title><![CDATA[Agentic Weekly #001]]></title><description><![CDATA[W&#246;chentlicher &#220;berblick zu Agentic Engineering, Agentic Coding & Claude Code]]></description><link>https://blog.fluxum.net/p/agentic-weekly-001</link><guid isPermaLink="false">https://blog.fluxum.net/p/agentic-weekly-001</guid><dc:creator><![CDATA[Martin Gross]]></dc:creator><pubDate>Thu, 09 Apr 2026 08:47:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!y_oj!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa142b85f-3d35-4a80-bdac-1835f765cd9e_512x512.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p><em>9. April 2026 &#8212; Lesezeit: ~4 Min.</em></p><div><hr></div><h2>Die gro&#223;e Nachricht der Woche</h2><h3>Anthropic stellt Claude Mythos vor &#8212; und sperrt das Modell sofort weg</h3><p>Am Montag hat Anthropic mit Claude Mythos Preview ein neues Frontier-Modell vorgestellt, das vor allem durch eine F&#228;higkeit auff&#228;llt: Es findet und exploitet Zero-Day-Schwachstellen in allen gro&#223;en Betriebssystemen und Browsern. In internen Tests identifizierte Mythos tausende bisher unbekannte Sicherheitsl&#252;cken, viele davon in Code, der ein bis zwei Jahrzehnte alt ist.</p><p>Der Clou: Anthropic ver&#246;ffentlicht das Modell nicht frei, sondern nur &#252;ber <strong>Project Glasswing</strong> &#8212; eine neue Initiative f&#252;r defensive Cybersecurity. Zw&#246;lf Launch-Partner, darunter AWS, Apple, Google, Microsoft, CrowdStrike und die Linux Foundation, erhalten kontrollierten Zugang. Anthropic stellt daf&#252;r bis zu 100 Millionen Dollar an Usage Credits und 4 Millionen Dollar an Direktspenden f&#252;r Open-Source-Security bereit.</p><p>Simon Willison kommentierte treffend: Die Entscheidung, ein derart m&#228;chtiges Modell zun&#228;chst nur f&#252;r Sicherheitsforscher zug&#228;nglich zu machen, sei &#8222;notwendig&#8221;. Platformer berichtet gleichzeitig, dass einige Security-Experten beunruhigt sind &#8212; die Frage, wie lange der Vorsprung der Verteidiger h&#228;lt, steht im Raum.</p><p><strong>Warum das relevant ist:</strong> Agentic Security ist der logische n&#228;chste Schritt &#8212; wenn AI Agents Code schreiben, m&#252;ssen andere AI Agents ihn absichern. Mythos zeigt, wohin die Reise geht.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://www.anthropic.com/glasswing">Anthropic: Project Glasswing</a></p></li><li><p><a href="https://techcrunch.com/2026/04/07/anthropic-mythos-ai-model-preview-security/">TechCrunch: Anthropic Mythos Preview</a></p></li><li><p><a href="https://simonwillison.net/2026/Apr/7/project-glasswing/">Simon Willison&#8217;s Take</a></p></li><li><p><a href="https://thehackernews.com/2026/04/anthropics-claude-mythos-finds.html">The Hacker News: Zero-Day Findings</a></p></li></ul><div><hr></div><h2>Claude Code: Die Highlights der Woche</h2><p>Die Versionen <strong>v2.1.89 bis v2.1.92</strong> brachten eine dichte Folge an Updates &#8212; hier die Highlights, sortiert danach, wen sie betreffen:</p><h3>F&#252;r alle, die Claude Code t&#228;glich nutzen</h3><p><strong>Flicker-free Rendering</strong> &#8212; Mit <code>CLAUDE_CODE_NO_FLICKER=1</code> gibt es eine Alt-Screen-Rendering-Option mit virtualisiertem Scrollback. Wer l&#228;ngere Agent-Sessions laufen l&#228;sst und vom Flackern bei schnellen Ausgaben genervt war, bekommt endlich eine saubere Terminal-Erfahrung.</p><p><code>/powerup</code><strong> Command</strong> &#8212; Interaktive Lektionen mit animierten Demos, die Claude-Code-Features Schritt f&#252;r Schritt erkl&#228;ren. Besonders n&#252;tzlich f&#252;r Einsteiger, aber auch f&#252;r erfahrene Nutzer, die versteckte Features entdecken wollen.</p><p><strong>Bessere </strong><code>/cost</code><strong>-Transparenz</strong> &#8212; Per-Model- und Cache-Hit-Aufschl&#252;sselung zeigt jetzt genau, wohin das Budget flie&#223;t. Relevant f&#252;r alle, die ihre API-Kosten im Blick behalten m&#252;ssen.</p><h3>F&#252;r Multi-Agent- und MCP-Workflows</h3><p><strong>MCP 500K</strong> &#8212; Die maximale Tool-Result-Gr&#246;&#223;e springt auf 500.000 Zeichen. Wer MCP-Server baut, die gro&#223;e Datenmengen zur&#252;ckgeben &#8212; etwa Datenbank-Dumps, lange Logs oder umfangreiche API-Responses &#8212; ist damit nicht mehr so schnell am Limit.</p><p><strong>Named Subagents</strong> &#8212; Subagents tauchen namentlich in den @-Mention-Vorschl&#228;gen auf. F&#252;r Teams, die mit spezialisierten Agents arbeiten (z.B. ein Test-Agent, ein Review-Agent, ein Deploy-Agent), wird die Orchestrierung damit deutlich intuitiver.</p><h3>F&#252;r CI/CD und Automation</h3><p><strong>Permission Deferral f&#252;r Headless Mode</strong> &#8212; PreToolUse Hooks k&#246;nnen Sessions jetzt pausieren und extern wieder aufnehmen. Der Use Case: Ein Agent in einer CI-Pipeline st&#246;&#223;t auf eine Aktion, die menschliche Freigabe braucht &#8212; statt abzubrechen, wartet er, bis jemand gr&#252;nes Licht gibt.</p><p><strong>PermissionDenied Hook</strong> &#8212; Neuer Hook, der nach Ablehnungen durch den Auto-Mode-Classifier feuert. Mit <code>{retry: true}</code> kann der Agent automatisch einen alternativen Weg einschlagen. N&#252;tzlich f&#252;r robustere autonome Workflows, die nicht beim ersten &#8222;Nein&#8221; aufgeben sollen.</p><h3>Performance und Plattform</h3><p>Schnellere Write-Tool-Diffs f&#252;r gro&#223;e Dateien (<strong>60 % schneller</strong>, besonders bei Dateien mit Tabs und Sonderzeichen), SSE-Transport jetzt in O(n) statt O(n&#178;) &#8212; sp&#252;rbar bei langen Sessions mit vielen Tool-Calls. Dazu ein interaktiver <strong>Bedrock Setup Wizard</strong> f&#252;r AWS-Nutzer und eine <strong>Windows PowerShell Preview</strong> f&#252;r das wachsende Windows-Lager.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://code.claude.com/docs/en/changelog">Claude Code Changelog</a></p></li><li><p><a href="https://github.com/anthropics/claude-code/releases">GitHub Releases</a></p></li><li><p><a href="https://releasebot.io/updates/anthropic/claude-code">Releasebot: Claude Code</a></p></li></ul><div><hr></div><h2>Agentic Coding: Die Branche sortiert sich</h2><p><strong>Cursor launcht Agent Experience</strong> &#8212; Cursor hat eine neue Agent-Erfahrung vorgestellt, die explizit gegen Claude Code und Codex positioniert ist. Der Agent kann Dateien lesen/schreiben, Tests im Terminal ausf&#252;hren, Fehler iterativ beheben und das gesamte Repository per RAG indexieren.</p><p><strong>GitHub Copilot trainiert auf euren Daten</strong> &#8212; Ab dem 24. April nutzt GitHub Interaktionsdaten von Free-, Pro- und Pro+-Nutzern zum Modelltraining &#8212; inklusive Code-Snippets, Dateinamen und Repository-Strukturen. Opt-out ist m&#246;glich, aber nicht der Default. Business- und Enterprise-Kunden sind ausgenommen. Die Community-Reaktion ist eindeutig: 59 Thumbs-down, 3 Rockets. Wer nicht mitmachen will, sollte jetzt unter <code>/settings/copilot/features</code> die Option deaktivieren.</p><p><strong>GitHub Agent HQ</strong> &#8212; Claude und OpenAI Codex sind jetzt als w&#228;hlbare Agents in Public Preview verf&#252;gbar &#8212; direkt in GitHub, GitHub Mobile und VS Code. Die Multi-Agent-Zukunft wird konkret: Man w&#228;hlt seinen Agent je nach Task.</p><p><strong>CodeSignal: Agentic Coding Assessments</strong> &#8212; CodeSignal hat eine neue Kategorie technischer Assessments eingef&#252;hrt, die misst, wie gut Entwickler <em>mit</em> AI-Agents arbeiten. Laut deren Umfrage nutzen bereits 91 % der befragten US-Entwickler Agentic-AI-Tools bei der Arbeit, 75 % haben in den letzten sechs Monaten zumindest teilweise AI-generierten Code in Production deployed.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://explore.n1n.ai/blog/cursor-ai-agent-experience-claude-code-codex-2026-04-03">Cursor Agent Experience</a></p></li><li><p><a href="https://github.blog/news-insights/company-news/updates-to-github-copilot-interaction-data-usage-policy/">GitHub Blog: Copilot Data Policy</a></p></li><li><p><a href="https://github.blog/news-insights/company-news/pick-your-agent-use-claude-and-codex-on-agent-hq/">GitHub Blog: Agent HQ</a></p></li><li><p><a href="https://www.theregister.com/2026/03/26/github_ai_training_policy_changes/">The Register: GitHub Training</a></p></li><li><p><a href="https://www.prnewswire.com/news-releases/codesignal-launches-industry-first-agentic-coding-assessments-for-ai-era-engineering-hiring-302732265.html">CodeSignal: Agentic Assessments</a></p></li></ul><div><hr></div><h2>Trend der Woche</h2><h3>Von Vibe Coding zu Agentic Engineering &#8212; die Reifephase</h3><p>Das Buzzword &#8222;Vibe Coding&#8221; aus 2025 &#8212; locker prompten und schauen, was passiert &#8212; weicht einer strukturierteren Disziplin. Medium-Autor ESA Engineering beschreibt den &#220;bergang treffend: Agentic Coding ist f&#252;r Produktions-CI/CD-Pipelines und gro&#223;e Refactors gebaut, Vibe Coding f&#252;r Hackathon-Prototypen.</p><p>Gartner prognostiziert, dass 40 % der Enterprise-Anwendungen bis Ende 2026 aufgabenspezifische AI-Agents enthalten werden (2025: unter 5 %). Anfragen zu Multi-Agent-Systemen stiegen um <strong>1.445 %</strong> von Q1 2024 bis Q2 2025. Multi-Model-Routing wird dabei zur Pflicht: Das Plan-and-Execute-Pattern &#8212; ein starkes Modell plant, g&#252;nstigere Modelle f&#252;hren aus &#8212; senkt die Kosten um bis zu 90 %.</p><p>Gleichzeitig w&#228;chst die Skepsis: 80 % der Entwickler nutzen AI Coding Agents, aber das Vertrauen in deren Accuracy ist von 40 % auf 29 % gefallen. Die zentrale Herausforderung 2026: Agents, denen man <em>vertrauen</em> kann &#8212; nicht nur welche, die beeindruckend aussehen. Die Branche konsolidiert sich um das Muster <em>human-prompted &#8594; agent-executed &#8594; human-reviewed</em>.</p><p><strong>Quellen:</strong></p><ul><li><p><a href="https://medium.com/technologai/from-vibe-to-agentic-the-2026-maturation-of-ai-driven-development-1bfb0844b5a6">Medium: From Vibe to Agentic</a></p></li><li><p><a href="https://www.openpr.com/news/4447249/gartner-s-2026-multi-agent-systems-boom-why-enterprises-need">Gartner&#8217;s Multi-Agent Systems Boom</a></p></li><li><p><a href="https://thenewstack.io/5-key-trends-shaping-agentic-development-in-2026/">The New Stack: 5 Key Trends</a></p></li><li><p><a href="https://letsdatascience.com/news/ai-agents-increase-developer-preparatory-workload-b890e82a">Let&#8217;s Data Science: Developer Trust</a></p></li></ul><div><hr></div><h2>Kurz notiert</h2><ul><li><p><strong>Anthropic sichert sich 3,5 GW Compute</strong> &#8212; Neuer Deal mit Google und Broadcom, TPU-Kapazit&#228;t ab 2027. Run-Rate-Revenue liegt bei &#252;ber 30 Mrd. Dollar. <a href="https://techcrunch.com/2026/04/07/anthropic-compute-deal-google-broadcom-tpus/">TechCrunch</a> &#183; <a href="https://www.cnbc.com/2026/04/06/broadcom-agrees-to-expanded-chip-deals-with-google-anthropic.html">CNBC</a></p></li><li><p><strong>1M-Token-Context-Beta wird eingestellt</strong> &#8212; Ab 30. April hat der <code>context-1m-2025-08-07</code> Beta-Header keine Wirkung mehr f&#252;r Sonnet 4.5 und Sonnet 4. <a href="https://releasebot.io/updates/anthropic">Anthropic Release Notes</a></p></li><li><p><strong>OpenAI, Anthropic und Google gegen Model-Distillation</strong> &#8212; Die drei arbeiten &#252;ber das Frontier Model Forum zusammen, um adversariale Distillationsversuche aus China zu erkennen. <a href="https://www.bloomberg.com/news/articles/2026-04-06/openai-anthropic-google-unite-to-combat-model-copying-in-china">Bloomberg</a></p></li><li><p><strong>Xcode 26.3 mit Agentic Coding</strong> &#8212; Apple integriert Claude Agent und OpenAI Codex &#252;ber MCP in Xcode. <a href="https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/">Apple Newsroom</a></p></li><li><p><strong>Coefficient Bio Akquisition</strong> &#8212; Anthropic kauft AI-Biotech-Startup f&#252;r ~400M Dollar, Team geht in die Healthcare &amp; Life Sciences Gruppe.</p></li><li><p><strong>Claude-Ausf&#228;lle</strong> &#8212; Am 6. und 8. April gab es Outages bei Claude &#8212; relevant f&#252;r alle, die Production Workloads darauf laufen haben. <a href="https://www.techradar.com/news/live/claude-anthropic-down-outage-april-6-2026">TechRadar</a></p></li></ul><div><hr></div><p><em>N&#228;chste Ausgabe: Mittwoch, 15. April 2026</em><br><em>Feedback? Einfach antworten &#8212; ich justiere gerne Fokus, Tiefe und Quellen.</em></p>]]></content:encoded></item></channel></rss>