Heti AI-hírlevél · ITLine

2026-W12   2026-03-16 — 2026-03-22   ·   11 forrás

W12 — A harness-réteg lett a kontextus, és a memória-fal mindenkit utolér

A hét egyetlen tézisbe sűríthető: a modell-szint stabilizálódik, a verseny pedig a harness-, a kontextus- és a verifier-rétegben dől el. Anthropic /loop + Chrome-extension új építőelemeket ad, a Latent Space Felix Rieseberg-interjúja a ‘co-work mint AGI a kisemberek számára’ tézist érleli, McKinsey 1 trillió dolláros agent-commerce-forecastot ad — eközben egy frontier agent 240 Upwork-feladatból csak 6-ot teljesít elfogadható minőségben.

Bal oldalt egy egyszerű ágens-séma: brain (LLM) + szív (loop heartbeat) + kéz (tools) + memória-doboz (DB). Jobb oldalt ugyanez a séma 'Upwork-feladat' címkével — és egy nagy piros 97,5%-os fail-pecsét rajta. Felirat: 'a primitívek megvannak, a kontextus hiányzik'.

A W12 a tavaszi szezon első olyan hete, ahol nem érkezik nagy modell-launch — és pontosan ettől válik láthatóvá, hogy a stack többi rétegében mi mozdul. Az Anthropic csendben kiad egy /loop parancsot Claude Code-ba, majd bővíti a Chrome-extensiont scheduled task-kel és multi-tab-bal. Két jelentéktelennek tűnő apróság, amik együtt egy biztonságos, szabványos OpenClaw-szubsztitútumot adnak. Ami ezen a héten kirajzolódott, az nem egy nagy bejelentés, hanem egy iparági átrendeződés: a modell-szint stabilizálódik, a verseny pedig a harness (a modellt körülvevő, feladatra szabott eszközréteg), a kontextus- és a verifier-réteg (a kimenetet ellenőrző, állapot-kötött komponens) szintjén dől el.

A Latent Space Felix Rieseberg-interjúja ehhez egy meglepően konkrét tézist tesz hozzá: a Co-work nem dumbed-down Claude Code, hanem superset — VM, harness, és a “value of the local computer” köré szervezve. A McKinsey ugyanezen a héten emeli az agent-commerce-forecastot 1 trillió US dolláros / 3-5 trillió globális sávra 2030-ra. Eközben két egymást-erősítő piaci kontextus is megérkezik: egy frontier agent a Remote Labor Indexen 240 valódi Upwork-feladatból csak 2,5%-ot teljesít elfogadható minőségben, és egy SWE-CL benchmarkon a tesztelt frontier modellek 75%-a a meglévő funkciókat aktívan rontja, ha hosszabb karbantartást kérnek tőle.

A közös szál, ami ebből a hétből összeáll: a W10-ben kibontott harness-tézis most konkrét ellen-narratívát kap. A harness és a context-layer azért lép elő, mert a modell önmagában nem tartja meg a kontextust — sem szervezeti, sem operatív értelemben. Aki ezt 2026 tavaszán nem látja, pár hónap múlva drága módon fogja megtanulni.

A három primitív — Anthropic csendben kirakja a Lego-t

A hét legkevésbé hangoztatott bejelentése az, ami mérnöki szempontból a legjelentősebb. Az Anthropic március 18-án a Claude Code 2.1.63-as verziójában csendben élesíti a /loop parancsot, pár nappal később pedig scheduled task-et és multi-tab-támogatást ad a Chrome-extensionhöz. Önmagában mindkét feature kicsi. Együtt — egy SQL-alapú memory-store-ral kombinálva, a W10-es open brain-pattern szerint — gyakorlatilag a teljes OpenClaw-funkcionalitás reprodukálható, a security-rémálom nélkül.

Ami az érdekes itt, az az, hogy egy ágenshez pontosan három primitív kell, és a hét után mindhárom Anthropic-natív formában rendelkezésre áll. Az első a memória: perzisztens olvasás-írás, jellemzően SQL-database-en, MCP-szerverre kötve. Nélküle minden interakció nullról indul — az ágens, ahogy a március 20-i összefoglaló találóan fogalmaz, “perpetually a new hire on their very first day”. A második a proaktivitás: a /loop adja a heartbeat-et, vagyis az ágens magától ébred, ellenőriz, dolgozik, és visszamegy aludni. Nélküle te vagy a metronóm. A harmadik a tools: API-hívás, artifact-generálás, DB-write — nélkülük az ágens “egy üvegben tartott agy”, gondolkodik, de keze-lába nincs.

A kombináció a kulcs. Egy weekly account-health-check memória-réteg nélkül azt mondja, hogy “usage dropped 15%”. Memóriával már látja, hogy hat hónapja egy hasonló trajectory három hét múlva account-loss-ban végződött, és executive-outreach-et javasol a héten. A stratégiai következmény az, hogy az Anthropic ezzel pozícionálja magát az OpenClaw-mozgalom mellé, annak biztonsági kockázatai nélkül. A /loop plusz Chrome-extension plusz skills-pattern (markdown-fájlok a fájlrendszeren, a W10-es harness-séma szerint) ugyanazt a használati értéket adja, csak Anthropic-szabványú trust-boundary-vel és scheduling-réteggel. Peter Steinberger maga is kimondta korábban: aki nem technikailag szofisztikált felhasználó, az ne fusson OpenClaw-t. Most már nem is kell.

Felix Rieseberg és a “local computer” tézis

A Latent Space március 17-i Felix Rieseberg-interjúja — Felix a Claude Co-work technikai vezetője, korábban a Microsoft Electron-csapatát vitte — egy iparág-konszenzussal szemben menő álláspontot szilárdít. A mondat, ami kiemelkedik az interjúból, így hangzik: “Silicon Valley overall is undervaluing the local computer.” Felix tézise az, hogy a hyper-personalized, mindent-cloudba-toló jövő nem érkezik meg, mert olyan triviális dolgok, mint a Chrome-cookie-decryptelés vagy a banki MFA-felismerés strukturálisan akadályozzák a teljes-cloud-átállást. A box-metafora, amit a W10-es Aaron Levie-tézis folytatásaként használ: a Claude-nak saját VM-ben kell lennie, de az adatközpont a felhasználó gépe marad.

Három konkrét architektúra-tanulság jön ki ebből az interjúból, mindhárom közvetlenül átfordítható ITLine-context-stratégiára. Az első, hogy a skills nem plug-in-rendszerként működik, hanem markdown-fájlként. Barry Mahesh (Anthropic) a co-work-prototípust egyszerű markdown-fájllal indította, körülbelül így: “Dear Claude, here’s the data warehouse endpoint. Figure it out.” A tanulság, hogy ahelyett, hogy custom tool-t építenél egy bonyolult API-ra, érdemes leírást tenni egy fájlba, és bízni a modell-progresszióban. A skills mint repo-package (plugins-formátum) cross-platform működik Claude Code-ban és Co-work-ben.

A második tanulság, hogy az evaluáció a teljes transcript-en fut. Felix-éknél nem csak a végkimenetet ellenőrzik, hanem a teljes interakciót — file-output, token-output, tool-call-szekvencia együtt. SET-stílusú verifier-tervezésnél ennek pontos megfelelője az, hogy nem csak a végkimenet, hanem a tool-call-sorozat is ellenőrzendő. A harmadik a demo-first kultúra: az Anthropicnál nem PRD-t írnak, hanem négy-öt prototípust építenek, kis fókuszcsoporttal letesztelik, és a győztest viszik. SET-megfelelő olvasata, hogy a gate-réteg legyen modellfüggetlen, a UX-réteg viszont nyugodtan futhat több párhuzamos próbán.

A Co-work plan-tool-ja explicit utasítást kap, hogy ne menjen el négy órára dolgozni és térjen vissza a rossz dologgal — kérdezzen vissza, tisztázza az ambiguitást. Ez ugyanarra a problémára válasz, mint a W10-es Cursor cloud-agents videós-PR-mintázata: az autonóm time-horizon növekedésével a verifikációs pont árát nem csökkentjük, hanem áthelyezzük.

A memória-fal: 97,5% fail-rate és három független tanulmány

A hét legkijózanítóbb része ez. A március 21-i összefoglaló három független forrást rak egymás mellé, és mindhárom ugyanazt a memória-falat méri, csak különböző oldalról.

A Remote Labor Index (Scale AI és Center for AI Safety) 240 valódi Upwork-projektet vizsgált — videó-produkció, építész-design, 3D-modellezés, game-dev, data-analysis. Az átlagos projekt-érték 630 dollár, az átlagos human-completion-time 29 óra. A legjobb frontier agent ezen 2,5%-os elfogadási rátát ért el, vagyis 240-ből hatot. Ugyanezek a modellek a GDPval-on (OpenAI-saját benchmark, ahol minden context előre megadva van) expert-szintet közelítenek. A különbség nem a modellben van, hanem a feladat természetében: GDPval feladat-jellegű (context provided), a Remote Labor Index pedig job-jellegű (bring your own). A 2026-os szóhasználatot ennek fényében érdemes olvasni: az “agents can do tasks” nem ekvivalens az “agents can do jobs”-szal.

A SWE-CL (Alibaba) új benchmark, amit arra terveztek, hogy egy frontier agent átlag 233 napon át, 71 commiten keresztül fenn tud-e tartani egy code-base-t. Az eredmény az, hogy a tesztelt frontier-modellek 75%-a megrontja a meglévő, korábban működő funkciókat karbantartás közben. Vagyis a code-writing és a code-maintenance fundamentálisan más képesség, és csak az elsőt benchmarkoljuk eddig. Ez közvetlenül aláássa a “jobs are over”-narratívát: ha embernek kell karbantartania, mit is váltunk meg?

A harmadik forrás a Harvard seniority-paper (Hossseini, Maum, Lickinger). 62 millió US-munkavállaló, 285 ezer cég, 2015-2025. A generatív-AI-adopter cégeknél a junior-foglalkoztatás 8%-kal csökken másfél éven belül, miközben a senior-foglalkoztatás tovább emelkedik. A csökkenést lassabb hiring hajtja, nem több elbocsátás. A naív értelmezés az, hogy “az AI a juniorokat váltja le”. A jobb értelmezés: az AI a task-execution-t váltja le; a senior-érték a kontextusban van, ami csak fejekben él.

A közös szál ebből a háromszögből az, hogy a context-fluctuation a knowledge-work szűk keresztmetszete, és ezt egy long-running ágens magától nem reprodukálja. Alexei Gregorov esete — az ágens kitörölte 2,5 év production-DB-jét, mert egy archívumból kicsomagolt config alapján az egész cluster-t “clean up”-nak nézte — vivid példa, de a tanulmány-háromszög arra mutat, hogy ez statisztikailag konzisztens hibaosztály, nem anekdota.

A management-konklúzió ebből egyetlen mondat: az eval senior-deliverable, nem junior-todo. Az érv, ami a héten többfelől is hallani volt, így hangzik: “the skill of writing great evaluations is the exact same skill that makes senior people valuable”. Ez közvetlenül megerősíti a SET-tézist — a verifier-réteg nem teszt-szuit-template, hanem ongoing contextual stewardship. Egy konkrét pattern Alexei esetére: “before destroying any cloud resource, verify it is not tagged as production”. Egy senior fél perc alatt megírja, az ágens magától soha. Az 11 Labs AI-insurance-ágenseit pontosan ezért indítja: a context-blind execution kockázatát egy biztosítási réteg fedi le, amíg az architektúra utoléri.

Vibe-coding → agent-management — öt skill

Ehhez kapcsolódik a március 16-i összefoglaló, ami a “vibe coder → agent manager”-átmenetet összegzi nem-fejlesztőknek. Öt szabály, mind tény-szerű mérnöki alapelv, csak nem-fejlesztői közönségnek elmagyarázva.

Az első a save-point: git-snapshot mint kötelező pre-feature-lépés — “this is one of the most common disasters in vibe coding in 2026”. A második a start fresh: a context-window körülbelül 30 üzenet körül kifárad, és advanced fix az, hogy workflow-fájlt, plan-fájlt, task-listát és context-fájlt használunk az ágens-restart utáni continuity-hez. A harmadik a standing orders, vagyis a claude.md vagy agents.md rules-fájl. Mini-fájllal indul, és minden alkalommal, amikor az ágens hibázik, hozzáadunk egy sort — végül 100-200 sor körül stabilizálódik. A negyedik a small bets — vagy más néven blast radius: kis-fókuszált task, validálás, save-point köztük. Az ötödik az, hogy vannak kérdések, amiket az ágens magától soha nem fog feltenni — error-state-UI (ne legyen white-screen), row-level security, secret-key-management, scaling-tervezés a várt user-szám függvényében. Plusz egy küszöb: amikor “be kell hozni egy real engineert” — payment, medical data, legal compliance.

Ami strukturálisan érdekes ezen a listán, hogy közvetlenül felhúzza a vibe-coder-piacot a SET-tézis irányába. Ha egy non-engineer is megtanul claude.md-rules-fájlt írni és git-snapshot-ot venni, akkor a verifier-réteg-tervezés mint kompetencia kifelé terjed. ITLine-context-szempontból ez az, amire érdemes építeni: a 2026-2027-es magyar enterprise-ügyfél már fog hallani a claude.md-ről — a kérdés az, hogy melyik tanácsadó tudja az ő ipari kontextusába illeszteni.

McKinsey, Stripe, SAP — agent-readable mint árazható átalakítás

A március 22-i összefoglaló a McKinsey új agentic commerce report-jára épül. A számok: 2030-ra US-retailen akár 1 trillió dollár, globálisan 3-5 trillió dollár orchestrated agent-revenue. A Google ezzel egy időben publikálta a Universal Commerce Protocol-t (agent-discovery, agent-cart, agent-checkout), Toby Lütke (Shopify) “transformation of a lifetime”-ot mond, és egymillió fölötti Shopify-merchant nyitja az agent-mediated transaction-réteget.

A friss megfigyelés, ami a hét során élesedett, az hogy az agent-readable / agent-writable nem MCP-API-wrapping-feladat, hanem teljes data-stack-átalakítás. Két konkrét eset mutatja a kettősséget. A Stripe shipelt MCP-szervert (refund, customer-lookup, subscription-mgmt), és ez működik. De a deeper analytics-réteg (Sigma — full-CSV-export, gyakorlatilag korlátlan tranzakció-volumen) nem MCP-wrap-elhető direkt, mert a context-window-overload megöli. A megoldás egy intermediary database-réteg, ugyanaz a W10-es open-brain-pattern. A SAP Commerce Cloud kapott MCP-szervert; a teljes portfólió-átalakítása viszont multi-quarter initiative, és a SAP-nak nem sürgős — az ő üzleti modelljük az adat bent-tartása.

A négy hibás procurement-vélekedés, ami ehhez érdemes hozzátenni, sorra dekonstruálódik. Az első, hogy “agent-discovery = search-optimization”. Nem: az ágens nem ranked-list-böngészik, hanem strukturált adatból szelekcióz constraint-ek alapján, és nincs above-the-fold. A második, hogy “a komplex termékeknél nem működik a strukturált schema”. Pont fordítva: minél komplexebb, annál inkább az ágens oldja fel a komplexitást a vásárló helyett. A harmadik, hogy “a user nem fog ágensre bízni transzakciót”. A trust valójában nem kapcsoló, hanem spektrum, és long-horizon intent delegation-nel kezdődik. A negyedik a “wait and see”, ami a cégek halálos ítélete: a data-cleanup project negyedévek, és aki most kezdi, az 2026 végére van a startvonalon.

ITLine-szempontból ez azt jelenti, hogy 2026 H2 és 2027 a magyar enterprise-context-réteg refaktor-szakasza lesz. Nem új SaaS-feature, hanem a meglévő (SAP, Salesforce, custom-stack) data-réteg agent-readable-tisztítása és MCP-front-end-húzása. A SET-tézis itt is illik: a clean schema egyszerre szolgálja az ágenst és a humán-experience-t.

Mellékszál — rovatok

Mit viszünk magunkkal (SET / ITLine)

Három konkrét, ITLine-prep-szempontjából használható kérdést hagy a hét. Mindhárom ugyanahhoz a memória-fal-tézishez konvergál, csak különböző felületeken.

Először: az agent-disaster mostantól biztosítási kategória, és az eval senior deliverable. A Remote Labor Index 97,5%-os fail-rate-je és Alexei DB-loss-története ugyanannak a memória-falnak a két oldala. A SET nem “AI-asszisztált fejlesztés”, hanem context-stewardship-réteg-építés. Egy konkrét offering-pattern, amit ebből érdemes kiépíteni: auditálható “agent-deployment-readiness assessment” — verifier-réteg, eval-coverage, rollback-strategy, blast-radius, on-call-eskaláció. Ezt egy magyar középvállalat ma még nem vásárolná külön (nem tudja, hogy hiányzik), de 2026 H2-2027-ben fogja, akkor, amikor az AI-insurance általánosul, és a biztosítási feltétel pont az ilyen audit lesz. Most kell pozícionálni.

Másodszor: a /loop plusz open brain mint elsődleges enterprise-pilot-stack. A három primitív (memory + proactivity + tools) most már elérhető, dokumentált, Anthropic-szabványú trust-boundary-vel. A pilot-template ebből: SQL-DB (Supabase vagy on-prem PostgreSQL) plusz MCP-szerver az ügyfél-stack-jén plusz /loop-job, és három-öt jól-definiált, kis-blast-radius-feladat (account-health-monitor, content-calendar-conflict-check, sales-pipeline-morning-brief). A pilot mérete ne grandiózus “digitális dolgozó” legyen, hanem öt-tíz órás agent-by-task-elimination, mérhetően. A team-of-five-narratíva (W10) erre épül: nem 30 fő helyett 5, hanem öt-fős “composite team agent-stackkel ugyanazt a domain-volume-t fedi le” — ambition-multiplier, nem cost-cut.

Harmadszor: az agent-readable mint multi-quarter ipari refaktor, nem MCP-feature. A Stripe-Sigma-paradoxon és a SAP-Grand-Canyon mutatja, hogy az MCP-wrapper egy API-ra olcsó, gyors, és nem oldja meg a problémát. ITLine-prep-fordítás: ne ajánljunk “MCP-átalakítást” külön termék-kategóriaként — az csak a látszó 10%. A stack-audit viszont (mit lehet egy-három hónapon belül csinálni vs. 12-18 hónapos data-cleanup) valódi konzultatív termék, és nincs tele a piac vele. A cégspecifikus tribal-knowledge nem tehető ágens-readable-vé — viszont azonosítható, dokumentálható, és senior-context-stewardship-réteget lehet eladni mellé.

A W13-ban várhatóan megérkezik a Claude 4.7 (vagy a 4.6.x rolling-update plusz a skills-marketplace publikus-launch), és az /loop első nem-developer-fókuszú UI-átemelése (a Co-work-be vagy a chat-felületre).

Források

Fő forrás — Nate B Jones csatornája:

Körbejárás / tech-mélység — Latent Space podcast:

Bemutatós / mintaeset — Peter Yang Creator Economy:

Fact-check és hivatkozott eredeti források:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.