Heti AI-hírlevél · ITLine

2026-W19   2026-05-04 — 2026-05-10   ·   6 forrás

W19 — Az agent nem az LLM: a munka struktúrája dönt

A hét hat videója hat irányból mondja ugyanazt: az agentic jövő nem a modellben dől el, hanem a köréje épített struktúrában — a munka szemantikájában, a verifikációs pipeline-ban, a cserélhető agyban és a scaffold-rétegben. A Mozilla Mythos kísérlete közben megkérdőjelezi, mennyire bízhatunk az ember által írt kódban.

Kép helye — Középen egy áttetsző LLM-kocka, körülötte koncentrikus rétegek: belül ‘access’, középen ‘meaning’, kívül ‘authority’ felirattal. A kocka egyik oldala cserélhető ajtóval jelölt (modell-swap ikon). Alatta szürke silhouette: egy fejlesztő, aki nem a kockát nézi, hanem a rétegeket rajzolja.

A hét hat videója hat különböző felszínről indult el, és ugyanoda érkezett: az agent nem azonos az LLM-mel. Az LLM a gondolkodó réteg, de az, hogy az agent tud-e érdemi munkát végezni, a köréje épített struktúrán múlik. A szó, ami a héten mindenhol visszatért: szemantika. Érti-e az agent, mit jelent az, amit csinál, vagy csak gombokat nyomkod? Mozilla közben 271 sebezhetőséget talált a Firefox saját kódjában egy AI-rendszerrel, és ezzel felvetette a kérdést, hogy az emberi kód vajon meddig marad a bizalom alapértelmezése. Közben az OpenClaw modell-cserés runtime-má érett, és kiderült, hogy az agentic scaffolding nem mérnököknek fenntartott ezoterikus réteg, hanem a munka strukturálásának univerzális kérdése.

A munka szemantikája — access, meaning, authority

A hét központi gondolata egy háromszintű modellben foglalható össze. Az első szint az access: az agent eléri a naptárat, a böngészőt, a fájlokat. A második a meaning: az agent érti, hogy egy naptár-áthelyezés öt embert értesít, esetleg megszeg egy ügyfélnek tett ígéretet. A harmadik az authority: az agent tudja, melyik lépéshez kell jóváhagyás, melyik visszafordítható, és melyiknek van pénzügyi következménye.

A legtöbb mai agent a hármasból csak az elsőt teljesíti. A computer use, vagyis az, hogy az agent képes vizuálisan navigálni a képernyőn, a régi világ univerzális adaptere. Nate [01:00] szerint: “The future is not an AI that gets really good at clicking buttons for you. That’s the bridge. The real fight is over who defines what the button means.” Az adaptert mindenki látja, de az adapter sekély felület. A screenshot megmutatja, mi van a képernyőn, de nem fedi fel a mögöttes struktúrát. A böngésző elér minden web-appot, de nem tudja automatikusan, melyik workflow-nak mi a domain-jelentése. Magas következményű munkánál a találgatás nem stratégia.

Ezért érkezik a szemantikus munka-primitív fogalma. Egy refund nem egy gomb, hanem pénz, felhasználói beleegyezés, adó, fraud-kockázat, visszatérítési politika és esetleg egy vita három hét múlva. Egy naptáresemény nem egy mező az adatbázisban, hanem emberi szándék, amelyet a résztvevők kontextusa tesz értelmezhetővé. Aki szoftvert épít, annak a kérdése mostantól nem az, hogy az agent el tudja-e érni a rendszert, hanem hogy a rendszer el tudja-e mondani az agentnek, mit érint és miért fontos.

A kódolási ágensek azért érkeztek először, mert a szoftverfejlesztés szokatlanul gazdag munka-szemantikával rendelkezik. A kódbázisnak van típusrendszere, tesztjei, lint-szabályai, git-történeti kontextusa. Az agent nem a felhasználónak kérdezget minden 30 másodpercben; a teszt megmondja, ha rossz. A legtöbb tudásmunka nem ilyen. Egy stratégiai dokumentumnak nincsenek tesztjei. Egy naptáresemény fontossága politikán, prioritáson és kapcsolatokon múlik. Egy beszerzési döntés kockázattűrése általában nincs leírva.

A platformharc, ami ebből következik, nem arról szól, hogy melyik cég nyeri az AI-t. Arról szól, hogy melyik réteg birtokolja a munka jelentését. A modellcégek széles, domain-átívelő ágenseket akarnak. A böngészőcégek az alkalmazások közötti orchestrációt. A SaaS-cégek a domain-szemantika feletti kontrollt. Az identitás-szolgáltatók az authorizációt. A Salesforce nyit az ágensek felé; az SAP zárkózik. A stratégiai fogadás jól látható: aki túl keveset mutat meg, azt ügyetlen ágensek fogják UI-n keresztül kapargatni. Aki túl sokat mutat meg, backend-infrastruktúrává válik valaki más agentic felülete mögött.

Mozilla Mythos — 271 seb, és az emberi kód bizalmi fordulata

Ami a héten a leginkább megállásra kényszerített, az nem egy modell-launch és nem egy piaci lépés volt, hanem egy kísérlet. A Mozilla hozzáférést kapott az Anthropic Mythos nevű preview-rendszeréhez, ráirányította a Firefoxra, és a Firefox 150-es verziója 271 sebezhetőség javításával jelent meg, amelyeket a Mythos azonosított egyetlen release-ciklusban. Egy korábbi együttműködés, az Opus 4.6-ra épülő, a Firefox 148-ban 22 biztonsági hibát talált, közülük 14-et magas súlyosságúnak jelölve. A Firefox nem egy hétvégi hobbiprojekt: évtizedes fuzzing, sandboxing, bug bounty, belső biztonsági csapatok és paranoia-kultúra van mögötte.

A felszíni olvasat az, hogy az AI jó kód-review-ra. A mélyebb olvasat az, amit Nate [01:00] így fogalmaz: “The point is that the reason we trusted human written code was never that humans were perfect. We trusted it because human judgment was the only thing capable of producing and understanding software at the correct level of abstraction.” Ha a gépek jobbá válnak, mint az emberek a kód következményeinek kimerítő keresésében, akkor az emberi szerzőség elveszíti a bizalmi horgony szerepét, és egyszerűen egy újabb forrása lesz a nem verifikált kockázatnak.

A gondolatmenet két rétegre bontja a kódot: meaning (jelentés) és implementation (megvalósítás). A kód egyszerre gépi artifact és emberi nyelv a szándék kifejezésére. A biztonsági hibák ott élnek, ahol a kettő elválik egymástól: a szerző egy formátumot engedélyez, a megvalósítás kettőt fogad el, és a támadás a résben él. Az adversarial kód-értelmezés lényege pontosan ez: mit engedélyez a kód, függetlenül attól, amit a szerző gondolt?

A Mythos nem egyszerűen ismert rossz mintákat keres. Olvassa a kódot, hipotézist alkot, eszközöket használ, teszteseteket generál, reprodukálja a problémát, finomítja a megállapítást, és magyarázza az eredményt. A Google Project Naptime, a Big Sleep és az OpenAI Codex Security hasonló irányba mozognak. A DARPA AI Cyber Challenge-e autonóm rendszereket tesztel, amelyek nagy kódbázisokban találnak és javítanak sebezhetőségeket.

A gyakorlati következtetés a pipeline-tervezésre vonatkozik. Ma a legjobb gyakorlat: az agentic pipeline végén egy senior biztonsági mérnök certifikálja a kódot. De ha a Mythos-szintű rendszer negyedéven belül szélesebb körben elérhetővé válik, és Nate arra számít, hogy decemberre az open source modellek is utolérik, akkor a pipeline-ban a certifikáló szerepet modularizálni kell, hogy a humán review-t Mythos-típusú modell tudja kiváltani. A kódhigiéniai eval-okból ma jellemzően 20% a nem-funkcionális rész. Nate [17:30] szerint legalább 50%-nak kellene lennie: függvényenkénti sorszám-korlátok, tiltott nyelvi kifejezések, dependency-szabályok, architekturális konvenciók. Mindez nem önmagáért van, hanem azért, hogy a kód olvasható legyen a gépi adversarial-reviewer számára.

A legélesebb mondat a héten ez volt [22:30]: “Messy code is not merely annoying. Messy code is extremely dangerous. Messy code may be structurally resistant to the AI tools that could make it safer.” Van egy arany refaktorálási ablak, talán négy-öt hónap, amíg érdemes a kódot olvashatóra hozni, mielőtt a Mythos-típusú eszközök széleskörűvé válnak. Utána a technikai adósság közvetlenül biztonsági adóssággá válik, mégpedig gyorsabban, mint korábban, mert az AI-val olyan tempóban gyártjuk a szoftvert, mint soha.

Az agent cserélhető agya — OpenClaw runtime és durable workflow

Áprilisban az OpenClaw kinőtte a vírusdemo-státuszt és valami sokkal érdekesebbé változott: action layer-ré, ahol tényleges munka történik. A task flow réteg tartós, többlépéses folyamatokat kezel saját állapottal és revíziókövetéssel. A feladatokat lehet vizsgálni, routolni, megszakítani, helyreállítani és visszaszállítani a megfelelő csatornára. A webhook-indítású workflow más, mint a kézi “kérlek csináld meg”, és a sub-agent, ami saját session-nel fut és megbízhatóan visszajelent, más, mint egy hosszú szál.

A runtime-érettség mellett a modellháború is megérkezett. Az Anthropic korlátozta a Claude-előfizetések használatát mindig bekapcsolt, harmadik feles ágensekre. Az érv racionális: az ágensek nem hagyományos chat-felhasználók, hosszabban futnak, többet retryolnak, köztes munkát generálnak, amit ember nem lát. De a lépés a fejlesztői közösségben mélyen népszerűtlen volt. Az OpenAI az ellenkező pozíciót vette fel: a Codex mostantól a ChatGPT fizetős csomagok részeként elérhető OpenClaw-routeolásra, Sam Altman pedig május 1-jén expliciten megerősítette ezt. A Google Gemma 4-et Apache 2.0 alatt adta ki, kifejezetten agentic workflow-kra és on-device használatra pozícionálva.

Nate központi üzenete [15:00]: “The practical unlock is not simply that OpenClaw can use different models. If you are swapping your entire runtime brain, that is a strategic shift you need to plan for.” A durable workflow lényege: van egy feladata, van hol futnia, emlékszik a korábbiakra, és elég struktúrája van ahhoz, hogy az alatta lévő modell cserélhessen anélkül, hogy a workflow eltörne. A lokális modell osztályozza a bejövő feladatot, a GPT 5.5 / Codex megírja a patch-et, egy review-modell ellenőrzi a diffet, a Claude architekturális pass-t csinál, ha a változtatás érzékeny.

Ha a workflow tartós és az agy cserélhető, a memória nem élhet egyetlen agyban. Ez köti össze az OpenClaw-történetet az Open Brain projekttel. A worker-nek tudnia kell, mi történt korábban: projekt-konvenciók, érintett személyek, korábbi döntések. Ha a memória egyetlen szolgáltató termékében él, a workflow ahhoz van kötve. Ha chat-transzkriptben él, retrieval-probléma lesz. Ha agent-scratchpadben, kontinuitás-probléma. A megoldás user-owned memory layer, ahol a memória provenienciával rendelkezik: forrásból megfigyelt, modell által inferált, felhasználó által megerősített, vagy transzkriptből importált.

Az elvesztegetett 40% — a scaffolding rétegei

A hét záró videója a leggyakorlatibb kérdésre válaszolt: mi van a modell és a kész munka között? Nate egy tiszta hierarchiát rajzolt fel, ami végre egyben mutatja, mit mire használunk.

A prompt egyszeri kérésre való. Ha a feladat ideiglenes, kicsi, egyedi a pillanathoz. De a prompt nem hordoz eszközöket, nem tartja meg a jogosultságokat, nem csomagolható újra. Aki mindent a promptba töm, hetente órákat pazarol. A skill ezzel szemben egy tiszta markdown dokumentum, ami leírja, hogyan végzed a munkát: a csapat PR-review stílusa, a marketing-dokumentumok formátuma, az outbound email szerkezete. A skill újrahívható, megosztható, modell-agnosztikus. A plugin a legnagyobb egység: tartalmaz skilleket, de tartalmaz MCP-kapcsolatokat, hook-okat, szkripteket, asset-eket is. Egy teljes, installálható workflow-csomag. A hook és a script a determinisztikus réteg: formázás, séma-validáció, teszt-futtatás, JSON-ellenőrzés. Nem az LLM-re bízzuk, hogy emlékezzen rá, hanem kikényszerítjük.

Nate [13:00] szerint: “Some things ought to be deterministic. A good agent workflow is designed so that the parts that are deterministic are correctly framed as scripts or hooks.” Ez az a pont, ahol a W17-ben tárgyalt Opus 4.7-es literális instrukciókövetés és az agentic scaffolding találkozik: a modell azt csinálja, amit mondasz neki, de a scaffolding feladata, hogy amit mondasz, az teljes és helyes legyen.

A plugin-gondolat legnagyobb hozadéka nem technikai. Nate arra mutatott rá, hogy a domain-tudást nem a mérnöknek, hanem a munkát ismerő embernek kell a pluginbe kódolnia. 2026-ban nem-technikai felhasználók is képesek plugint építeni. A szerkesztő, aki editorial first-pass plugint készített, a retail-workflow-t ismerő üzleti ember, aki az ügyfélszolgálati refund-plugint összerakta. A mérnöki ismeretek küszöbe drámaian csökkent. Ami maradt: az a képesség, hogy a munkafolyamatot jól definiált határokkal rendelkező egységekre bontsd.

Mellékszál — a jégmező-pillanat

A hét nyitóvideója a munkahelyi átrendeződésről szólt, és egy négybetűs audit-keretrendszert adott. A T-C-L-D séma (Theater, Commodity, on-the-Line, Durable) arra kéri a tudásmunkást, hogy nézze végig a legutóbbi két hetét, és minden egyes elemet jelöljön meg. A theater az a réteg, ami azért létezik, mert a szervezet performálja, nem azért, mert értéket termel. A commodity valódi, de nem specifikusan hozzád kötött. Az on-the-line a kellemetlen köztes: nem tisztán commodity, nem tisztán durable, de mozog. A durable az, ahol a kimenet a te kontextusodtól, ízlésedtől és bátorságodtól függ. A kereskedői analógia visszatért: a travel agent rutinmunka-rétege lett először felesleges, és az átrendeződés nem azonnal, hanem a következő gazdasági sokknál érkezett.

Az audit nem ítélet, hanem kiindulópont. A hat lépés röviden: hagyd abba a színházat, amit következmény nélkül abbahagyhatsz; ne öntsd a visszanyert időt több commodity munkába; fejleszd a durable képességeket ambivalens eseteken; építs privát track recordot az ítéleteket igénylő döntésekről; tedd a durable munkát éppen annyira láthatóvá, hogy értékeljék, de ne annyira, hogy commoditizálják; és ha a szereped nem ad elég durable munkát, fontold meg a váltást.

Amit ehhez a consumer AI videó hozzáadott: a fogyasztói oldalon a proaktivitás az anticipation gap. Az a pont, ahol az agent nem várja, hogy emlékezz rá, hanem a helyzet hívja elő az agentet. A delayed flight, a school permission slip, a feszült Slack-szál. A reaktív ceiling-et nem a modell-képesség tartja fenn, hanem az, hogy a felhasználó nem tudja megnevezni a feladatot. A consumer breakthrough nem jobb gombokat kíván, hanem azt, hogy az agent megértse, mikor kell megjelennie.

Mit viszünk magunkkal

A hét hat videója egyetlen gondolatra konvergál: a modell a motorblokk, nem az autó. A motor fontos, de a motor cseréjével nem válik a jármű mássá, ha a váz, a kormányzás és a fékrendszer megmarad. Az agent értékét a scaffolding adja: a skill, ami leírja a munkát; a plugin, ami összecsomagolja; a hook, ami kikényszeríti a determinisztikus lépéseket; a memória, ami túléli a session-t; és a szemantikus réteg, ami elmondja az agentnek, mit jelent az, amihez nyúl. Aki most pipeline-t épít, az a Mythos-tanulság alapján moduláris helyet hagy a verifikációs lépésnek, és a kódhigiéniát biztonsági befektetésként kezeli. Aki agent-workflow-t tervez, az a durable workflow mintáját követi: a modell cserélhető, a memória user-owned, a munka-szemantika explicit. A következő hetekben várhatóan érkeznek az első szélesebb körű Mythos-eredmények és a Gemma 4 független benchmarkjai.

Források

Fő forrás – Nate B Jones:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.