Heti AI-hírlevél · ITLine

2026-W01   2025-12-29 — 2026-01-04   ·   9 forrás

W01 — Karpathy bevallja: behind a programozó, és új skill-tree épül a delegáció köré

Karpathy 2025 karácsonyán kimondja: ‘I’ve never felt this much behind as a programmer’ — a szakma refaktorálódik, és új technikai skill-tree épül delegáció köré. Nate négy újévi videója kibontja: 10 előrejelzés 2026-ra, az intent gap mint új failure mode, tiger-team vs single-pane-of-glass és a probabilisztikus orchestration teljes hierarchiája.

Két oldal: bal oldalt egy fa-diagram a 'probabilisztikus orchestration skill tree'-ről négy szinttel (conditioning → authority → workflow → compounding), jobb oldalt egy Karpathy-idézet pajzs alakú keretben — 'I've never felt this much behind as a programmer' — alatta egy halvány 2026-os naptár a Q1-Q4 prediction-jelölőkkel.

Az év első napjai egyetlen kérdésre élesednek ki: hogyan kell újraszervezni a programozó-szakmát — és tágabban az egész tudásmunkát — most, amikor a probabilisztikus modellek (a kimenetet valószínűségi eloszlásból mintavételező rendszerek) kerültek a stack közepébe. December 26-án Andrej Karpathy egyetlen X-poszttal felrobbantotta a fejlesztői közösséget: “I’ve never felt this much behind as a programmer.” A poszt 14 millió megtekintést ért el, és maga a tweet nem azt mondja, hogy a fejlesztés véget ért, hanem azt, hogy a hozzájárulás-mintázat változott meg — a programozó által írt sorok egyre ritkábbak, és a tényleges leverage a delegáció és a verifikáció rétegébe csúszott át.

A hét másik felében Nate B Jones négy egymást követő reggelen adott ki értelmező-videót: újévi 10+1 előrejelzés, az intent gap (a felhasználó szándéka és a modell által kiolvasott szándék közti rés) mint új failure mode, a tiger-team vs single-pane-of-glass szervezeti dilemma, és végül a Karpathy-reflexió kibontása négy-szintes orchestration-skill-tree-vé. Ami a négy adásból kirajzolódik, egyetlen állításba sűríthető: 2026 nem újabb modell-launch-marketing évad lesz, hanem az az év, amikor a probabilisztikus orchestration mint mérnöki diszciplína mainstreammé válik.

A háttér tárgyi része sűrű. Az Anthropic 2025. november 24-én adta ki a Claude Opus 4.5-öt, és a Claude Managed Agents-szel a managed-platform-stack is publikussá vált. A long-running agent (napokon-heteken át futó ágens), a recursive self-improvement (a modell saját kimenetén tanuló visszacsatolás) és a continual learning (folyamatos tovább-tanulás éles használat közben) mind 2026-os roadmap-tételek voltak; a kérdés most már nem az, hogy érkeznek-e, hanem hogy melyik mikor kerül produkcióba. A SET- és orchestration-szempont közvetlen: a verifier-réteg (a kimenetet ellenőrző, állapot-kötött komponens), a tool-szerződés és a workflow-harness (a modellt körülvevő, feladatra szabott eszközréteg), amit eddig is hangsúlyoztunk, az iparág által elfogadott alap-koncepcióvá vált.

Karpathy reflexió — a hozzájárulás új mintázata

Karpathy december 26-i posztja három mondatban összegzi a saját helyzetét: úgy érzi, soha nem volt még ennyire le-maradva programozóként, mert a szakma drámaian refaktorálódik, és a programozó által hozzáadott bitek egyre ritkábbak, egyre szétszórtabbak. A kulcs a poszt harmadik mondata: úgy érzi, tízszer produktívabb lehetne, ha végre egybefűzné mindazt, ami egy év alatt elérhetővé vált — és a sikertelenség érzete most “skill-issue”, vagyis nem a szerszámok, hanem a saját készség-hiány problémája. Ez nem hype-fáradtság. Karpathy a Stanford / OpenAI / Tesla-ív minden állomásán a frontvonalon volt; ha ő érzi magát hátul, az a szakma egészéről mond valamit.

Nate ezt vezetői keretté szervezi át, és négy konkrét töréspontot nevez meg, amit a fejlesztők ma a saját bőrükön tapasztalnak. Az első: a kontroll már nem default. A klasszikus mérnöki munkában a kódoló a viselkedést megszerzi — adott input mindig ugyanazt adja, hiba esetén a kód visszafejthető. LLM mellett viszont a fejlesztő nem szerzi, hanem kondicionálja a viselkedést — prompttal, kontextussal, tool-szerződéssel —, és a modell probabilisztikusan reagál. A mestertudás új tartalma így hangzik: el tudom téríteni a modellt megbízhatóan X felé, és észreveszem, ha mégis elcsúszott.

A második töréspont: az erőfeszítés és az output szétvált. Két fejlesztő dolgozhat ugyanannyi órát, és az egyik tízszer annyi outputot termel, ha jól állítja be a delegációs loopot. Ez új skill, és a hiánya nem szorgalom-, hanem mintázat-kérdés. A harmadik: az absztrakció-stack megfordult. Eddig a magas-szintű intent kódra “összeomlott” a mérnök fejében; most a kód az intentből épül fel — a modell generál, verifikál, javít, újragenerál. A munka súlypontja a “konstruálni”-ról a “konstrukciós csapatot felügyelni”-re tolódott át. A negyedik: az engineering / non-engineering határ eltolódott. A régi határvonal a kódot író és nem író ember között futott; az új határ a delegálni tudó és nem tudó között. A probabilisztikus orchestration ezzel kilép a fejlesztés ketrecéből, és minden ismeretmunka-szakmába belekerül.

Ami ebből a SET-tézis felől megerősítést kap, az pontosan az a vonal, amit eddig is képviseltünk: a verifier-réteg, a tool-szerződés és a workflow-harness nem mellékes, hanem a stack része. A Karpathy-poszt és Nate kibontása ezt most iparági konszenzussá kovácsolja.

Az új skill-tree — négy szint

Nate a Karpathy-reflexiót négy-szintes hierarchikus skill-tree-be rendezi. A gyökér-tétel egyszerűen leírható: egy probabilisztikus rendszer megköveteli, hogy a döntést elválasszuk a generálástól. A modell jól generál, de nem ő dönti el, mi igaz, mi biztonságos, és mit szabad shipelni.

Az első szint a conditioning, vagyis a modell terelése. Három csomópont van rajta: az intent specification, ahol egy szigorú probléma-szerződést írunk le célokkal, közönséggel, kényszerekkel és sikerkritériummal; a context engineering, ahol eldől, mit teszünk be a kontextus-ablakba, mit hagyunk ki, mit foglalunk össze, és mi marad szó szerinti; és a constraint design, ahol az output-formátum, a séma, az idézés-kötelezettség, az engedélyezett tool-ok, a token-budget és a stop-feltételek élnek. Egy probabilisztikus rendszer kényszerek nélkül egy nyerőgép, ahogy Nate megfogalmazza.

A második szint az authority, vagyis a delegációban megtartott felhatalmazás. Ide tartozik a verification design — determinisztikus része a séma-illeszkedés és a unit-test-pass, procedurális része a humán review és az adversarial prompting; a provenance / chain of custody — forrás, idézet, retrieval-bizonyíték; és a permissions, ahol az alapelv kőkemény: a modell nem lehet a biztonsági határ. Least-privilege, allow-list, audit-trail.

A harmadik szint a workflow, az “intelligencia-gyár”. A pipeline-decomposition lépteti a modellt a chatbot-szerepből pipeline-komponenssé, közbenső artifactokkal és checkpointokkal. A failure-mode taxonomy az új debug: determinisztikus rendszerben a hiba egy logika-trace; probabilisztikusban viszont egy hibafajta-osztályozás — kontextus hiányzik, retrieval rossz, tool elhasalt, kényszerek konfliktusban, hallucinált, alulspecifikált, refused, túllépte a budget-et. Az observability pedig azért kritikus, mert a modell belső reasoningjába nem lehet belelátni: a körülötte lévő rendszer — tool-hívások, input, retrieved doc, intermediate output, validation pass/fail, latency, cost — az, aminek extrém-megfigyelhetőnek kell lennie.

A negyedik szint a compounding, ahol a tanulás összeadódik. Az evaluation harness — golden set, regressziós teszt, scorecard — Nate szerint az a komponens, ami nélkül nem kompoundálsz, csak gyorsabban improvizálsz. A feedback loop a draft → critique → revise → recheck → ship sorozat, a drift management és governance pedig a modell-verzionálást, az audit-policy-t és a retentiont fedi le.

Ami ebből a héten többfelől is hallhatóan kiemelkedett: ezt a fát mindenkinek építeni kell, akinek probabilisztikus komponens van a munkafolyamatában — nem csak a fejlesztőknek. A szerződés-review-workflow-t építő ügyvéd és a debug-agentet építő mérnök ugyanazon a skill-tree-n mászik felfelé.

Az intent gap — a hibafajta, amiről 2025-ben nem beszéltünk eleget

Nate január 2-i adása egy konkrét failure mode-ot bont ki, amit a 2025-ös agent-hype alatt alig címeztek. A nyitókép kínosan ismerős: megkéred az ágenst, hogy “tisztítsa meg a régi dokumentumokat”, odaadod neki a folder-hozzáférést, és pontosan azt csinálja, amit kértél — törli a duplikátumokat, rendszerez, ír egy összefoglalót. Aztán kiderül, hogy az eredetiket is törölte, amik kellettek volna. A modell nem hallucinált, nem hiányzott neki kontextus — egyszerűen félreolvasta a szándékot.

A diagnózis itt az, hogy az intent nem ugyanaz, mint a context. A context az, amit a promptba szó szerint beleírunk; az intent ezzel szemben látens — prioritások, tradeoff-ok, mit jelent a “kész”, mi a megengedett, mi a kockázatos, mit bánnánk meg. Az LLM-eket next-token-completionre tanítottuk emberi nyelven, és az emberi nyelv hagyományosan alulspecifikált. Az ágens-rendszerben ezért a guardrail-eket láthatóvá kell tenni — az intent nem maradhat ott, ahol a beszélő fejében van.

Négy konkrét eljárás kínálkozik erre, és mind közvetlenül beépíthető bármely SET-jellegű rendszerbe. Az első az active disambiguation: az ágens kérdezhessen vissza többértelmű feladatnál — promptba beépítve, agent-szinten szelektív loopként, ami csak nagy-tét esetén fut. A második a probabilisztikus intent-tartás: a modell ne fixáljon az első értelmezésre, hanem tartson párhuzamosan több plauzibilis cél-értelmezést, és frissítse őket, ahogy a beszélgetés halad. A harmadik a “semantic commit” — az intent legyen külön artefakt, egy dokumentum, ami a célokat, a kudarc-feltételeket, a graceful-fail-szabályokat, a tradeoff-okat és a prioritásokat kristályos formában rögzíti. Verzionálható, frissíthető, az “intent ezzel egy interfész- és workflow-probléma lesz”, ahogy Nate fogalmaz. A negyedik egy meglepő analógia a kriptóból: az intent-based DeFi-rendszerekben a felhasználó aláír egy intent-et — mit akar, milyen kényszerekkel —, és specializált solverek versenyeznek a végrehajtásért. A szándék és a végrehajtás kettéválasztása itt nem szervezeti, hanem protokoll-szintű minta.

A SET-megfeleltetés azonnali. Az intent commit ugyanazt a szerepet játssza külön artefakt-rétegként, mint egy openspec-stílusú változás-leírás vagy egy verifier-szabálykészlet. Érdemes a workflow-step → intent-commit → execution → verifier négyes-mintázatra állni, és kivenni a workflow-vezérlésből azt a csapdát, hogy “a modell magától eldönti, mi a fontos”.

Tiger team vs. single-pane-of-glass — szervezeti minta-választás

A január 3-i adás a vezetői perspektívára vált. Az AI olcsóvá tette a belső láthatóságot: PR-ek, Slack-szálak, on-call-logok, mindent át lehet futtatni egy modellen, és máris kapsz egy “single pane of glass”-dashboardot. Egy egész vendor-kategória építkezik erre. Ami viszont a héten élesen kirajzolódott, az ellenkező álláspont: ez csapda, és a csapdát Sean Goedecke (GitHub Copilot staff engineer) legible vs illegible work-koncepciója írja le pontosan, James C. Scott Seeing Like a State-jét hozva be a szoftverfejlesztésbe.

A kettősség egyszerű, de erős. A legible work — a Jirában, az OKR-ben, a roadmapen él — tervezett, követhető, kifelé magyarázható. Az illegible work ezzel szemben a háttérben zajlik: szívességek, back-channel-egyeztetések, közös intuíció, tiger-team-spike, a “hadd csinálom én ezt” típusú átvállalás. Az illegible az, ami valójában működteti a céget. Amikor valami fontos elromlik — DB-limit fogy ki, kulcs-ügyfél tűzben van —, a vállalat azonnal felfüggeszti a formális processzt, és pár megbízható embert ráenged. Az AI nem törli el ezt a mintázatot, csak felerősíti.

A veszély a következő: ha legible-work-fókusszal vezetünk be AI-t, látszat-legibilitás termelődik. Vibe-codolt dashboardok, AI-generált risk-score-ok, OKR-progresszió-jelentések, amik csak a ticket-turnoverre korrelálnak, érdemi outputra nem. A vezetés rossz térképben lesz overconfident. A tiger-teamek pedig elrejtik a rendetlen részeket — az AI-vel turbózott csapatok ironikus módon nagyobb rendetlenséget csinálnak, mint régen —, hogy elkerüljék a felülről lecsapó tisztaság-elvárást.

Ami a héten többfelől is megfogalmazódott, az a vezetői hozzáállás-irány: az AI ne felügyelő legyen, hanem fordító. Olcsó történész, aki a munka után rekonstruálja a jelentést, nem bürokrata, aki fentről diktálja. Ez közvetlenül illeszkedik a W27-es Project Vend-tanulsághoz: Claudius mikro-szinten mindent jól csinált, csak a glue work hiányzott. Most ugyanez szervezet-szinten — ne a single-pane-of-glass legyen a glue, hanem a tiger-team.

Mellékszál — Nate 2026-os előrejelzései

A január 1-jei adásban Nate 10+1 előrejelzést ad, és ezekből az alábbi tételek fordíthatók közvetlenül mérnöki döntéssé:

Mellékszál — Anthropic Opus 4.5 + Managed Agents

Termék-háttérben az Anthropic két ütős hírrel keretezte a fordulót. A Claude Opus 4.5 november 24-én jött ki, és 80,9%-ot ért el a SWE-bench Verified-en — első modell a 80% felett —, miközben 67%-kal csökkentett árral ($5 / $25 per 1M token). A Claude Managed Agents (public beta) ezzel együtt a teljes ágens-runtime-ot felhőre szervezi: az Anthropic futtatja, modell-fogyasztás plusz $0,08 / agent-runtime-óra. Ami itt érdekes, az a tükörkép: ez a hosszú-futású-agent-prediction egyenes leképezése — ha az ágens egy hetet jár, valakinek operálnia kell.

SET-relevancia szempontjából a managed-agent-csatorna nem ellenfele, hanem alternatívája az on-prem / saját-vezérelt orchestration-stacknek. Az enterprise-döntés ezen a tengelyen fog futni: managed-cloud (gyors deploy, vendor-lock, vendor-oldali audit) vagy önálló orchestration (saját verifier, saját audit, modellfüggetlen stack). A választást explicit kell meghozni, nem default-ban beengedni a managed-csatornát.

Mit viszünk magunkkal (SET / ITLine)

A hét három mérnöki / vezetői kérdést hagy a prep-listán, és mindhárom ugyanahhoz a Karpathy-féle alapelvhez konvergál: kezdj a sikerkritérium-meghatározással, és építsd köré a delegációs réteget.

Először: érdemes egy skill-tree-auditot futtatni. Ha a csapatod ágens-rendszert épít, vedd át Nate négy szintjét — conditioning → authority → workflow → compounding — diagnosztikai listaként, és nézd meg, melyik szinten áll a saját stackünk. A legtöbb csapat a Level-1-en (prompt-finomítás, context-engineering) jól áll, de a Level-2 (verification design, provenance, permissions) és a Level-4 (eval-harness, drift-management) gyakran teljesen hiányzik. A hiányzó szintek azonosítása konkrét, adható roadmap-elem.

Másodszor: az intent commit kerüljön be külön artefakt-rétegként. A SET-stack tervezésében ne a promptba mosódjon bele a szándék, és ne is az openspec-changekbe ragadjon. Önálló, verzionált, frissíthető dokumentum legyen, amit a workflow input-ként vesz fel. Ez ugyanaz a tervezési minta, amit a crypto-világban intent-based DeFi-nek hívnak: mit akarunk, milyen kényszerekkel — az “hogyan”-t a solver-réteg dönti.

Harmadszor: a tiger-team vs single-pane-of-glass választás kerüljön az ajánlat tetejére. Ha saját szervezetben vagy ügyfélnél AI-bevezetést tervezel, az első kérdés ne az legyen, hogy milyen dashboardot adunk a vezetésnek, hanem hogy hol vannak a tiger-team-ek, és AI-leverage-ot ők kapják-e meg vagy a riport-réteg. A legible-work-fókusz csapdája Goedecke posztjának a központi figyelmeztetése — a látszat-legibilitás drágább, mint a hiánya.

A W02-ben a karácsonyi Karpathy-szál tovább-pörgése (válaszok, ellen-tézisek), és az új évi első frontier-launch-jelek várhatók.

Források

Fő forrás — Nate B Jones csatornája (négy egymást követő reggel):

Körbejárás / eredeti források:

Fact-check és termék-háttér:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.