W14 — Anthropic kiszivárogtatja a Claude Code-ot, a skills-ek open standarddé érnek, és a ‘harness több, mint a modell’ tézis a kódba kerül

Bal oldalt egy kinyílt fekete doboz felirattal 'Claude Code — 513k LOC, 1906 file' — a fedele alatt fogaskerekek (tool registry, permission tiers, session-state, workflow-state, streaming events). Jobb oldalt egy plain markdown ikonnal 'SKILL.md', alatta logók (Microsoft, OpenAI, Atlassian, Figma, Notion). Felirat: 'A harness és a skill open standarddé érik egyetlen héten.'

Ez a hét egyetlen mondatba sűríthető: a piac most már nyíltan beszél arról, hogy egy agent-rendszer 80%-a unalmas plumbing — és ezen a héten ennek a plumbingnak két irányból is forrása lett. Március 30-án az Anthropic véletlenül publikálta az @anthropic-ai/claude-code npm csomag mellé a teljes source map-et: egy 59,8 MB-os .map fájl, nagyjából 513 ezer sor TypeScript, 1906 fájl, és benne 44 még nem aktivált feature flag. A leak órákon belül 88 ezer star fölé szaladt egy GitHub-mirroron, és Nate április 3-án 12-pontos primitiva-listával dolgozta ki a tanulságokat. A summa, ami ebből kirajzolódott: a 2,5 milliárd dolláros run-rate-ű Claude Code titka valójában jól dokumentált backend-mérnöki munka, nem mágia.

A másik szál, ami ezen a héten záródott össze: az Agent Skills december óta nyílt szabvánnyá vált, és most a Microsoft (VS Code, Copilot), az OpenAI (ChatGPT, Codex CLI), az Atlassian, a Figma és a Notion is formálisan adoptálta. Nate március 30-i sorvezetője ehhez egy rövid, de éles tézist tett le: a skill (a markdown-formátumú, version-controlled agent-utasítás) már nem személyes konfiguráció, hanem org-szintű infrastruktúra, és a hívók 90%-a már agent, nem ember. Mindeközben a Claude Mythos / Capybara modell körüli folyamat tovább tartott — az Anthropic a héten egy második incidenst is elismert: harmadik fél kontraktor jogosultságát kihasználva valaki megpróbálta jogosulatlanul lekérni a modellt.

A három szál egyetlen pontban ér össze. Az agent-stack mérnöki rétegei — harness (a modellt körülvevő, feladatra szabott eszközréteg), skill, verifier (a kimenetet ellenőrző, állapot-kötött komponens), budget, audit — ezen a héten egyszerre váltak láthatóvá. Aki most nem építi rájuk a saját rendszerét, az a “mini me” tévedésbe esik: azt hiszi, a saját, kézzel szabott prompt-szöveg pótolja azt, ami valójában infrastruktúra.

Az accidental peek-behind-the-curtain — mit tanít a Claude Code leak

A március 30-i leak az InfoQ szerint klasszikus packaging-hiba volt: a Bun build a .map fájlt alapból generálja, és az npmignore nem zárta ki — így a 2.1.88 verzióval a teljes, nem-obfuszkált TypeScript publikussá vált. A körüljáró X-conjecture szerint egy belső Anthropic-fejlesztő agentje fallback-elt Sonnet-re, és véletlenül commitolta a build-artifaktumot. A lényeg ugyanaz: AI ír kódot, AI commitol, AI nézi a packaging-pipeline-t, és nincs emberi failsafe.

Nate április 3-i videója 12 primitivára szedve elemezte a Claude Code architektúráját. Három réteg az, amit minden enterprise-stack-tervezőnek érdemes átvennie.

Az első a tool-registry, amit nem kódba beágyazva érdemes elképzelni, hanem önálló adatszerkezetként. A Claude Code két párhuzamos registry-t tart fenn: egy command-registryt 207 user-facing akcióval és egy tool-registryt 184 model-facing képességgel. Mindegyik bejegyzés name + source-hint + responsibility-dictionary, és az implementáció lazy-load. Ennek a mérnöki előnye az, hogy az agent meg tudja válaszolni a “mi létezik egyáltalán?” kérdést anélkül, hogy bármit végrehajtana. SET-tézisbe fordítva: a verifikációhoz először ismerni kell, mit tehet a rendszer — és ezt nem a modellnek kell kitalálnia, hanem a registry-nek listáznia.

A második a háromszintű permission-tier és a 18-modulos bash-sandbox. A tool-ok három trust-tier-be esnek: built-in (highest), plugin (medium, kapcsolható) és skill (lowest by default). A bash_tool egyetlen tool-nak 18 különálló biztonsági modulja van — pre-approved command pattern, destructive-command warning, git-specific safety check, sandbox-termination. Aki agent-stacket épít és nincs tier-ezett permission-rendszere, az demót épít, függetlenül attól, hány modellt cserélt tavaly óta.

A harmadik a session-state és a workflow-state szétválasztása, amit szinte minden agent-framework összemos. A session-state a beszélgetés-történet, a token-usage és a permission-döntések — JSON-ban tárolva, és restartolás után az agent visszaállítható belőle. A workflow-state ezzel szemben azt válaszolja meg, hogy “hol jártunk a folyamatban?” — planned, awaiting_approval, executing, waiting_external állapotokkal és checkpoint-tel. A különbség akkor üt, amikor crash közben tool-execution történik: ha csak session-state van, az agent újra lefutja a műveletet — duplikál egy DB-write-ot, kétszer küld emailt.

A maradék kilenc primitiva (token-budget hard limits, structured streaming events, system-event-logging audit-trail-ként, kétszintű verification — run és harness-evolúció szinten, dynamic tool-pool assembly, transcript-compaction, three-tier permission-handler, hatféle constrained agent-type) együtt egy copyolható enterprise-architektúra-vázlatot ad ki. Ami ebből kirajzolódik, az a Building Effective Agents W07-es tézisének konkrét megerősítése: a sweet spot ott van, ahol a verifikáció, az audit és a state-persistence előre tervezett réteg, nem utólagos hozzáragasztás.

A skill mint új közös réteg — 6 hónap alatt org-szintű infrastruktúra

A Nate március 30-i sorvezetője négy shift-et nevez meg a 2025 októberi Claude Skills-launch óta, és ezek együtt tették meg azt az utat, amit fél évvel ezelőtt még senki nem látott előre.

Az első, hogy a skill személyes konfigurációból org-szintű infrastruktúrává vált. Tavaly októberben magadnak írtál egy promptot; most enterprise admin-ek skill-csomagokat rolloutolnak az egész szervezetnek, version-controllolva, sidebar-ből callable, és — ami a kulcs — Excelben, PowerPointban, Copilotban, Claude-ban és ChatGPT-ben ugyanaz a skill-fájl fut.

A második shift az, hogy a hívók 90%-a már agent, nem ember. Egy ember egy beszélgetésben legfeljebb pár skillt hív; egy agent egyetlen run alatt akár több százat. Ez átírja a tervezési kalkulust: a description routing-signal lett, nem címke; az output kontraktusként viselkedik (mit garantál, mit nem); a composability pedig alapérték, hiszen egy skill-output egy másik agent input-ja. A loose-prompt-stílus, ami embernek elment, agent-callernél nem működik — nincs recovery-loop hiba esetén.

A harmadik szál, amire érdemes odafigyelni: a skill nem fejlesztői termék. A VentureBeat decemberben hozta le a Microsoft (VS Code, Copilot) és az OpenAI (ChatGPT, Codex CLI strukturálisan azonos implementáció) adoptálását, a héten pedig az Atlassian, Figma, Canva, Notion, Cloudflare, Stripe és Zapier mind csatlakozott a hivatalos partner-skills directory-hoz. A nyílt szabvány az agentskills.io-n él. Simon Willison októberi jóslata — “skills bigger than MCP” — most kezdi beigazolódni.

A negyedik tanulság talán a legfontosabb az ITLine-szempontból: a skill compoundol, a prompt nem. Aki hat hónapja gyűjti és élesíti a skilljeit, compounding asset-en ül; aki promptot copy-paste-el, nulláról kezdi. A prompt chat-ablakban él és vele tűnik el; a skill markdownban él, version-controllolható, tesztelhető, megosztható.

Két konkrét tervezési tanács, ami a héten ismétlődött. A description írásakor a figyelem 80%-a a trigger-fírásra menjen — a skillek inkább alulfírnek, ezért named output-types, named trigger-phrases és határozott, “pushy” megfogalmazás kell. A skill-test-suite pedig kvantitatív legyen: basket-of-tests, version-number-rel követett iteráció. A tier-modell, ami ehhez tartozik, három szintű: Tier 1 a standard (brand-voice, formatting — admin rolloutolja), Tier 2 a methodology (a senior-craft, ami most a fejekben él — ezt kéne kihúzni), Tier 3 a personal workflow. ITLine-perspektívából a Tier 2 az érdekes: a senior-engineer-craft skill-ekbe mentése egy tanítható, megosztható eszköz — pont ez az, amitől a 28-éves fejlesztői tapasztalat új multiplikátorrá válik.

A “Mythos-ready” stack — mit kéne most simplifyolni

A Claude Mythos / Capybara modell rövid kontextusa: az eredeti márciusi Anthropic-blogposzt-leak a Fortune-on “step-change in capabilities”-nek nevezi, és a leak publikussá teszi a “Capybara” tier-nevet — Sonnet és Opus felett. A draft posztban “unprecedented cybersecurity risks”-nek nevezett képességet egy security-kutató szerint a modell úgy hozta, hogy azonnal 0-day vulnerability-t talált a Ghost (50k star GitHub repo) kódbázisában. Ehhez kapcsolódik a héten egy második incidens is: harmadik fél kontraktor-account-on keresztül jogosulatlanul lekérték a modellt.

A Nate-féle április 1-i “stack isn’t ready for Mythos” videó négy audit-szempontot ad. Az első a prompt-scaffolding-prune: egy 3000 tokenes system-prompt fele procedurális, és okosabb modellnél 30-50%-a törölhető. A második a retrieval-handover: 1M+ context window-nál inkább a modellre kell bízni a kontextus-választást, mint kézzel-coded RAG-réteget feltölteni alá. A harmadik a hardcoded domain-rules ritkítása — sok rule két generációval korábbi modellhez kellett, és okosabb modell mellett már aktívan árt. A negyedik az eval-konsolidálás: egy end-eval-gate, ami functional és non-functional kimenetet is fed, többet ér, mint sok intermediate eval, mert utóbbiak csak lassítanak.

ITLine-tanulság: ha most ügyfélnek pipeline-t építünk, érdemes felmérni, mely komponensek profitálnak egy 2-3x okosabb modellből (verifier-szabályok, audit-log, tool-szerződések) és melyek veszítenek (workaround-promptok, modell-specifikus parsing). Ami veszít, az technical debt — refaktor-ütemezés, nem újragyártás később.

Outcome-agent piac és OpenClaw-fegyelem

A Nate április 4-i körkép négy outcome-fókuszú agent-toolt mér be három alap-kérdéssel: van-e persistent memory; az agent termel-e editálható artifaktumokat; és compoundol-e a kontextus session-ek között? Az eredmény vegyes. A Co-work (Anthropic) körülbelül 1,5/3-on áll. A Lindy (Flo Crivello) gyenge debug-felülettel és opaque credit-burn-nel küszködik (Trustpilot 2,4). A Sauna (ex-Wordware $30M pivot) memory-architektúra-narratívája tisztább, de a termék még demo-fázisban van. A Google Opal a Gemini 3 Flash-re épít és free, viszont a memory-rétege ma még spreadsheet-szintű. Az Obvious egy ambiciózus full-AI-workspace, de túl új a méréshez.

Ami ebből közvetlenül építhető három mérnöki tézis. Egy: a memory infrastruktúra, nem checkbox. Kettő: editable surfaces — chat-only háttér-akció nem agent. Három: compounding context, vagyis a 10. taszk legyen könnyebb, mint az 1.

Nate április 5-i OpenClaw-fegyelem-videója ezt egészíti ki egy ötpontos deployment-discipline-listával: audit before automate; fix the data first (clean schema); redesign for throughput; observability day-one; scope authority deliberately (sose --dangerously-skip-permissions). Ugyanazok az elvek, amik a Claude Code leakben primitivaként, kódolva ott vannak.

Mellékszál — Apple WWDC, Andreessen, token-prudencia

Apple WWDC-prep. A Mark German Bloomberg-leakje szerint érkezik egy standalone Siri-app, egy “app intents” framework agentic-app-okhoz, Apple-szintű MCP-integráció és egy Gemini-mint-LLM-partner-deal. A stratégia tiszta: az Apple beengedi az agentic AI-t az 1,5 milliárdos install-base-be — de “walled-garden agent-developer”-only módban. A vibe-coderek kimaradnak.
Marc Andreessen a Latent Space-en az “80-year overnight success” tézist hozta: négy fundamentális unlock — LLMs → reasoning → agents → RSI (recursive self-improvement / auto-research). Nem kell véglet-narratívát megvenni, de a “ha a modellek okosabbak lesznek, a termékem…” kérdést érdemes évre, nem hónapra ütemezni.
Token-prudencia kalkulátor. Nate április 2-i videója 8-10x költség-arányt mutatott “messy” és “clean” pipeline között. A fogások közismertek, együtt hatnak: PDF→markdown konverzió (4500 szó: 100k → 5k token), 10-15 turn-enkénti fresh-conversation, model-tier-mix (Opus reasoning, Sonnet execution, Haiku polish), prompt-caching (90% kedvezmény stable-context-en). Egy 10 fős dev-csapat havi költsége így megy 2000 dollárról 250-re. Mythos-érában ez 10-50x-eződik.

Mit viszünk magunkkal (SET / ITLine)

Három mérnöki és IT-vezetői akciópont, amit a hét után érdemes a prep-listára tenni.

Először: a Claude Code 12 primitivája (registry, permission-tiers, session+workflow-state, token-budget, streaming events, system-event-log, kétszintű verification, dynamic tool-pool, compaction, audit-trail, constrained agent-types) ezentúl konkrét self-audit checklist egy meglévő agent-projekthez. Aki SET-vel vagy bármilyen verifier-réteggel dolgozik, mostantól nem kell elvi vitát folytatnia: ez ipar-standard plumbing, nyíltan dokumentálva. Ahol hiány van, ott a következő sprintbe kerül a tétel.

Másodszor: a skill-stratégia mint senior-craft-export. A 28 év szoftverfejlesztői tapasztalat egy új multiplikátorra váltható — a Tier 2 methodology-skill-ek (PR-review, architecture-decision-checking, test-prioritization, security-rule-application) leírható skill-formátumban, és ettől kezdve agent-callable, ember-readable és version-controlled is egyben. Erre van egy konkrét belső pilot-javaslat: 5-10 belső skill kódolása és tesztelése, majd ügyfél-facing pilot SET-stackbe integrálva.

Harmadszor: a Mythos-ready audit és a token-prudencia. Az ügyfél-pipeline-ok mostani simplification-révé érdemes ütemezni a prompt-scaffolding-prune-t, a retrieval-handover-a-modellnek-átadását és az eval-konsolidálást. Külön tétel a token-instrumentálás: input/output token-tracking minden agent-call-on. Ez 2026 második felében — Mythos-éra árazás-ugrás esetén — több ezer eurós havi különbséget jelent egy mid-méretű agent-deployment-en.

A W15-re az openai-codex tovább-gyorsulása és a szivárgó Claude Mythos / Capybara közel-jövő release-fókusza várható. Ha a Mythos amellett indul mint tier-3 cyber-fókuszú modell, a W04-es Davos-Amodei “smarter model” framing három évvel ezelőtti ütemterv, ami most érkezik meg a piacra.

Források

Fő forrás — Nate B Jones csatornája:

2026-03-30 · Anthropic, OpenAI and Microsoft just agreed on one file format — agent-readable skills sorvezető, négy-shift-elemzés, tier-modell.
2026-03-31 · Your iPhone is about to control every AI app you use — Apple WWDC-prep, app intents + MCP + Gemini-deal.
2026-04-01 · Your AI stack isn’t ready for Claude Mythos — prompt-prune, retrieval-handover, eval-konsolidálás, simplification-tézis.
2026-04-02 · Your Claude limit burns in 90 minutes because of one ChatGPT habit — token-prudencia 8-10x költség-arány, “stupid button”.
2026-04-03 · I broke down Anthropic’s $2.5B leak — your agent is missing primitives — 12 primitiva, harness-design + harness-evaluation skill release.
2026-04-04 · Wall Street just bet $285B on AI agents, the best one barely passes — co-work / Lindy / Sauna / Opal / Obvious 3-kérdés-bench, three-layer DIY architektúra.
2026-04-05 · Your agent produces at 100x, your org reviews at 3x — OpenClaw 5 commandments, audit-fix-redesign-observability-scope.

Primer / hivatalos forrás — Anthropic:

2026-04-02 · When AIs act emotional — Anthropic Interpretability — a Claude-character “functional emotions” konstrukciója, desperation-neuron mint cheat-driver. Mérnöki implikáció: a model-state nem csak token-szekvencia, hanem belső reprezentációs pattern, és ez behavioural side-effekt-eket okoz.
Anthropic Engineering — Equipping agents for the real world with Agent Skills — hivatalos skill-architektúra-doku.

Körbejárás / tech-mélység — Latent Space podcast:

2026-04-03 · Marc Andreessen on the death of the browser, OpenClaw, RSI — A16Z partner, “80-year overnight success” framing, négy unlock (LLMs → reasoning → agents → RSI).

Bemutatós / mintaeset — Peter Yang Creator Economy:

2026-04-01 · Full tutorial — build a beautiful mobile app with Claude Code + Pencil + Expo — fitness-app, “design before code”, spec → Pencil → Claude Code → Expo Go.
2026-04-05 · How OpenAI’s Codex team builds with Codex (Alex Romain) — “we write very few specs, 10 bullets and that’s it”, designer-engineer ratio, PR-as-comm.

Fact-check és hivatkozott eredeti források:

A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.