W04 — A Davosi AGI-vita, a 3 millió soros browser és a missing middle, ahol a tényleges AI-haszon él

Két oldal: bal oldalt egy Davos-i pódium 'Day After AGI' táblával (Amodei és Hassabis sziluettje), jobb oldalt egy ChatGPT-stílusú konzol, ami egy hetet fut és '3,000,000 lines of Rust' számlálóval pörög

Ez a hét két, egymással szembefutó történetet hozott. Az egyik Davosban játszódott: a Világgazdasági Fórum színpadán Dario Amodei és Demis Hassabis ült le a “Day After AGI” panelen Zanny Minton Beddoes (The Economist) moderálásával — Amodei szerint az AGI 1-2 év, Hassabis szerint 5-10 év, és a fehérgalléros munkák 50%-át Amodei öt éven belül veszélyeztetettnek tartja. A másik a hét legkonkrétabb mérnöki tette volt: Michael Truell, a Cursor CEO-ja bejelentette, hogy a csapata GPT-5.2-vel egy hét alatt, megszakítás nélkül legenerált egy működő, 3 millió soros Rust-böngészőt — “It kind of works!” Közben Apple hivatalosan kapitulált és a Sirit a Google Geminire cserélte, DeepSeek publikálta az Engramot, és a Microsoft 300 ezer fős Copilot-vizsgálata egy elgondolkodtató mintázatot rajzolt ki: a dolgozók 80%-a három hét után feladja az AI-használatot.

A közös szál, ami a hét után kirajzolódott, talán ez: az ágens-autonómia mérnökileg most már valódi és látványos, de a szervezeti haszon még mindig azon a középrétegen — a missing middle-en — múlik, ahol nem a prompt-trükk, hanem a megítélés (judgment, vagyis az alkalmazott szakmai döntés) számít.

Davos: AGI-vita két nézőpontból

Az Economist-féle összefoglalóból az látszik, hogy Amodei a megszokottnál is agresszívebben fogalmaz: az Anthropic mérnökei “szinte sosem írnak már kódot kézzel”, helyette az AI ír, az ember ellenőriz, és ezzel egy önerősítő visszacsatolási hurok indult be, ami szerinte 2026-2027-re elhozza az AGI-t. Hassabis óvatosabb — 50% esély a dekád végéig —, és három konkrét akadályt nevez meg: memória, folyamatos tanulás, hosszú távú érvelés.

A panel szakmailag legértékesebb pontja nem az időzítés-vita volt, hanem Hassabis pontos kontrája. Ha egy munkakör készségeinek 95%-át automatizáljuk, az nem 95%-os munkanélküliséget eredményez, hanem a maradék 5% értékét emeli meg drasztikusan. A 2025-2026-os tényleges munkaerőpiaci adatok ezt visszhangozzák: a layoff-szám aggregát szinten nem AI-vezérelt, a junior pozíciók valóban szűkülnek, de a tapasztalt szakemberek munkája intenzívebb és értékesebb lett. Az AI nem helyettesít egy embert, hanem felerősíti a hozzáértőket.

Az érdekes itt egy enterprise-szintű következtetés, amit a hét után érdemes elraktározni: AGI-időzítésre nem lehet architektúrát alapozni. Akár 1, akár 10 év — a jó stack az, ami modell-független verifier-rétegben (a kimenetet ellenőrző, állapot-kötött komponensben) él, és okosabb modell esetén automatikusan jobban működik (lásd a W07-es Anthropic-tanácsot). A Davos-vita inkább közönségmunka és piaci pozícionálás volt, mint mérnöki útmutató.

A “disposable software” hetek alatt browsert épít — és ez veszélyesebb, mint amilyennek látszik

A héten a leglátványosabb mérnöki tett Michael Truell tweetje. A Cursor csapata GPT-5.2-vel hetekig futtatott egy ágenses pipeline-t — planner-ek bontották a feladatot, worker-ek implementáltak, reviewer-ek validáltak —, és 3 milliónál is több sornyi Rust-kódot generált: HTML-parser, CSS-cascade, layout-engine, text-shaping, paint, custom JavaScript-VM, kódnévvel “FastRender”. Truell precíz fogalmazása: “It kind of works!” — egyszerűbb weboldalak rendezhetőek, de Webkit/Chromium-paritás még messze van. A Register szerint külső becslések alapján a futás 3 milliárd tokenes volt — érdemes ezt odatenni az “ingyenes szoftver”-narratíva mellé.

A keret, amibe ezt érdemes beleilleszteni, a disposable software (eldobható szoftver). A szoftver gyártási költsége valóban a nullához tart, és ez érdemi inverzió: a Chrome 2006-ban indult, 2008-ban jött az első béta, ma 35M sorral hetente 800 commitet írnak hozzá; a Cursor egy hét alatt érte el az alpha szintet. De a kódgenerálás költsége csak az egyik tényező — az iránymutatás, vagyis annak az emberi figyelemnek a költsége, ami eldönti, mit érdemes megépíteni, nem nullázódik. Sőt, BCG-Harvard kutatás szerint az AI-generált kódban a feladatok közel felében biztonsági sebezhetőség is bekerül — pont a mély, architektúra-szintűek.

A vita kulcsa, hogy a disposable software valójában két különböző jelenség. Az egyik a throwaway szoftver throwaway use-case-re (vakációs útiterv-app, hétvégi játék) — ez ártalmatlan, és ténylegesen demokratizálja a szoftverkészítést, a Replit-felhasználók 75%-a már nem ír kódot. A másik az enterprise-termékekbe csempészett disposable feature-réteg — itt válik érdekessé. A Cursor pontosan ezt teszi: napi több release, “code is reality”-filozófia. Csakhogy már fejlesztő-vevők is panaszkodnak: eltűnik a chat-history, billentyű-rebind kell, “professionally working with this is a nightmare” — Cursor-fórumposzt. Ha fejlesztők ezt mondják, mit fognak mondani CIO-szintű enterprise-vevők?

Az enterprise-tanulság ebből egyenesen jön: a vevő nem feature-t vesz, hanem megbízhatóságot. Aki Salesforce-ot vesz, arra fizet, hogy ne kelljen rá gondolnia. Ebből egy kétlépcsős szabály rajzolódik ki: először bizonyítsd a megbízhatóságot, és csak utána épülj proaktív ágensre. Lépéseket átugrani öngyilkos lépés — egy proaktív ágens csak akkor érték, ha a vevő bízik a műveletek korrektségében; ha nem, akkor terhet hoz, nem értéket.

Tooling: a kollégaszerű és az eszközszerű AI elválik egymástól

A Cursor-experimentnek van egy mérnöki olvasata is, ami a héten egész tisztán kirajzolódott: a Claude Code és a Codex két filozófia mentén különül el — kollégaszerű (colleague-shaped) és eszközszerű (tool-shaped) AI.

A Codex CNC-szerű. Precíz spec-et adsz, az autonóm ágens órákig-napokig fut. Helyes spec mellett kifogástalan eredmény. Rossz spec mellett a CNC megbízhatóan megépíti a rossz tervedet, és csak a végén látod. A Cursor browser-experiment ennek a maximalista esete. A Claude Code ezzel szemben esztergapad-szerű: iteráltok, kérdez, élesíti a szándékodat. Az Anthropic belső felmérése szerint 130+ saját mérnök közül csak a fele tudná munkája 20%-át Claude Code-nak teljesen átadni — és ők is iteratívan használják.

A mintázat, amit ebből érdemes magunkkal vinni: a senior mérnökök a Codex-szel jobban járnak, mert tudnak precíz spec-et írni; a juniorok és nem-műszakiak számára viszont a Claude Code az értelmes választás, ott ugyanis a párbeszéd maga a tanulás. A héten többször visszatért gondolat, hogy a legtöbben túlbecsüljük, mennyire pontosan tudunk specifikálni — és aki Codex-stílusban fogalmaz Claude-érettség nélkül, rosszabb eredményt kap, csak nem tudja.

A 2026-os enterprise-kérdés ezért most már az, hogy a céged hány embere tud high-quality spec-et írni. Aki tud, az CNC-multiplikátort kap — egy dolgozó, nyolcórás autonóm jobbal, egynapnyi értéket termel. Aki nem, annak a kollégaszerű minta marad. Ez nem ízlés-kérdés, hanem érettség-kérdés, és vélhetően ez lesz az új, mérhető vízválasztó.

A missing middle — és miért hagyja abba a 80% három hét után

A hét legfontosabb állítása egy belső Microsoft-vizsgálatból jött, amit Nate egy január 25-i videójában szedett szét. A vizsgálat 300 ezer dolgozó Copilot-használatát követte: első három hét lelkes, aztán csalódás-kráter, és négy hét után a többség csendesen abbahagyja.

A diagnózis abban az állításban összegezhető, hogy az AI-tréning-piac kettéhasadt. A 101-szint (promptolás, tool-tour) elérhető. A 401-szint (RAG, fine-tune, API) mérnököknek elérhető. Hiányzik viszont a 201-szint — az alkalmazott megítélés, ahol a szervezeti haszon ténylegesen él. A 201 nem prompt-skill, hanem hat vezetői kompetencia:

Context assembly — milyen háttéranyagot, példát, korlátozást, mikor.
Quality judgment — mikor bízz, mikor és min belül ellenőrizz (egy bekezdésen belül is keveredik pontos és hallucinált).
Task decomposition — mit dobsz az AI-ra, mit tartasz meg.
Iterative refinement — 70%-os draftból 95%, nem első kimenet-elfogadás.
Workflow integration — “This is just how we do RFP responses now”.
Frontier recognition — hol van az AI-nak rossz napja a saját területeden.

Egyik sem prompt-trükk; mindegyik management-skill. Ethan Mollick mondata, ami ezt a hetet keretezi: “the best users of AI are good managers.” A hivatkozott BCG-Harvard kutatás ehhez azt teszi hozzá, hogy az AI képesség-határa “egyenetlen” (jagged) — bizonyos feladatokon gyorsít, határon kívülieken viszont 19 százalékponttal romlik a helyesség, mert a felhasználó nem tudja, hogy határon kívül van.

Az enterprise-implikáció ebből markáns. Ha az “AI-rollout”-od egy 6 órás tréning meg licenc-kiosztás volt, a maradék 80%-od csendben elhagyja a tool-t. A megoldás, ami ebből kirajzolódik, a judgment-réteg explicit építése: a 401-szintű power-userek átképzése frontier-mapperré, funkciónként rendszerszintű feltérképezés (a Trek Bicycle így 40+ konkrét use-case-t talált), és minimum 5 órás formális tréning user-enként — ennél kevesebb statisztikailag nem visz át a kráteren.

A SET-nézőpontból ez közvetlenül validálja a verifier-réteg-stratégiát. A “frontier recognition” pontosan az, amit egy explicit verifier-réteg automatizál: a rendszer maga tudja, mikor van határon kívül, és nem hagyatkozik a felhasználó intuíciójára.

Apple kapitulál: Gemini lesz a Siri agya

Az Apple-Google közös közleménye szerint az új Apple Intelligence és a “context-aware Siri” a Google Geminire épül — egy 1,2 trillió paraméteres custom Gemini-modellre. A pénzügyi nagyságrend: becsült $1 milliárd/év cloud-compute, összesen $5 milliárdig. Az Apple Intelligence on-device és Private Cloud Compute-on fut, vagyis a privacy-keret marad, csak a modell-háttér nem saját.

Ez stratégiai vereség az Apple-nek és az OpenAI-nak. Az OpenAI elveszített egy hatalmas distribution-csatornát, az Apple pedig nyilvánosan elismerte, hogy a saját foundation-modellje versenyképtelen. A ChatGPT a telefonon az “OS”-pozícióból visszaesett másodlagos rétegre.

A héten ebből két IT-vezetői tanulság fogalmazódik meg. Az egyik, hogy a “saját foundation-modell”-tézis nehéz — most Apple-szintű erőforrással is megbukott —, ezért a multi-vendor stack és a modell-független absztrakciós réteg biztonságosabb. A másik, hogy a Gemini-platform Android után iOS-en is nyer, és ha a céged stratégiája egyetlen modell-szállítóra köt, a vendor-lock-in az AI-rétegben gyorsabb és fájdalmasabb, mert a model-output minőségi tulajdonságait nem lehet 1:1 helyettesíteni.

Mellékszál — rovatok

DeepSeek Engram. A január 12-i paper egy új sparsity-tengelyt vezet be: 2-3 tokenes szekvenciákat hash-el egy nagy embedding-táblába, és így a transformer csak a nehéz reasoning-ra koncentrál. Az eredmények azonos paraméterszám mellett: MMLU +3.4, HumanEval +3.0, MATH +2.4 — token-hatékony architektúra-újítás, open-source kiadásban.
Kilo Code app builder. A GitLab-társalapító Sid Sijbrandij által támogatott Kilo $8M seedet kapott Lovable / Cursor / Replit ellen. A pozícionálás engineer-fókuszú, open-source és modell-agnosztikus, public launch 6 hét múlva. A nyitott kérdés: van-e tér Cursor és Lovable között.
Latent Space — Yi Tay (Google DeepMind, IMO Gold). A január 23-i interjú Yi Tay-jel, a 2025-ös IMO-arany Gemini Deep Think négy “kapitányának” egyikével. A régi alpha-proof-rendszert (Lean-verifier + neuro-szimbolikus) eldobták, és end-to-end Gemini-modellel értek el aranyat. Yi mellékesen említi, hogy ML-kutatóként az AI-coding most lett bug-fix-pillér: “I run a job, I get a bug, I almost don’t look at the bug. I place it into Antigravity and tell it to fix the bug for me.”
AI Studio — “Yap to App”. Peter Yang január 25-i interjúja Logan Kilpatrickkel — a screenshotból kész UI-prototípus 68 másodperc alatt megvan. Logan a saját AI Studio UI-t klónozza naponta új feature-tervezéshez. PRD és design-mockup megmarad, de a prototípus mostantól előbb van, mint a végleges spec. A Peter Yang január 21-i klipje ennek apa-gyerek változata: 7 éves gyerekkel, Claude Code-dal, hétvége alatt shippelhető pixel-shooter Vercelen.

Mit viszünk magunkkal (SET / ITLine)

A hét három IT-vezetői napirend-pontot tett le. Mind ugyanahhoz az alaptézishez konvergál — a megbízhatóság-bizonyítás és a judgment-réteg most már nem nice-to-have, hanem az adoptáció kapuja —, csak különböző felületeken.

Először: a judgment-layer tervezése most konkrétan költségvetésbe való. A Nate által felsorolt hat készség (context, quality, decomposition, refinement, integration, frontier) nem tréning-modul, hanem szervezeti kompetencia, és a 80%-os adoption-szakadékot csak ezzel lehet áthidalni. Ha az AI-roadmapeden egyetlen sor sincs erre, akkor a Microsoft 300 ezres kohorsz mintázata nálatok is le fog játszódni. SET-fordításban: minden enterprise-pitchbe egy explicit “201-réteg-modul” kerül, ami nem a promptolásról, hanem az alkalmazott megítélésről szól.

Másodszor: a spec-érettség az új vízválasztó senior és junior között. A Codex-vs-Claude-Code mintázat nem terméktechnikai részlet, hanem 2026-os új kompenzációs tengely — aki precíz spec-et tud írni egy autonóm ágensnek, az megsokszorozza a saját produktivitását; aki nem, annak a kollégaszerű iteráció marad. Érdemes belső spec-writing-clinicet indítani, és pontosan ezt a réteget támogatja a SET / kontextus-alapú stack: strukturált követelmény-leírás, verifier, autonóm végrehajtás.

Harmadszor: reliability-first, agentic-second. Enterprise-térben nem érdemes másolni a Cursor-pace-et. A vevő megbízhatóságot vesz, és csak rászolgált bizalom után érdemes proaktív ágensre építeni. Sok startup egyenesen agentes-pitch-csel megy enterprise-ra, amitől a CIO-k visszahőkölnek. Itt az ITLine SET-narratíva pontos: az on-prem és cloud kétsávos megközelítés azért érték, mert a megbízhatóság-bizonyítás az olcsóbb sávon mehet végbe, mielőtt a kockázatos ágenses-rétegre rákötöd a kritikus munkafolyamatot.

A W05-re várhatóan jön az Anthropic első hivatalos válasza a Cursor-browser-experimentre (Claude 5 vagy Opus-frissítés rumor), és a Microsoft 300k-s kohorsz Microsoft Work Trend Index follow-up-jának feldolgozása.

Források

Fő forrás — Nate B Jones csatornája:

2026-01-19 · They Ignored My Tool Stack and Built Something Better — The 4 Patterns That Work — community-build mintázatok, principle-based vs rules-based.
2026-01-20 · Disposable Software: The Trend 90% of People are Getting Wrong — disposable software két típusa, reliability-first enterprise-stratégia.
2026-01-21 · The Skill That Separates AI Power Users From Everyone Else — Claude Code (kollégaszerű) vs Codex (eszközszerű), CNC-metafora, spec-érettség.
2026-01-22 · The People Getting Promoted All Have This One Thing in Common — high-agency mindset + AI mint “jet engine”, say-do-ratio, locus of control.
2026-01-23 · The Builders Who Figure This Out First Will Be Impossible to Catch — engineering-manager-mindset, “two architectures” (rules + taste), altitude-shifting.
2026-01-24 · Apple Took Years to Catch Up. Kilo Code Took 6 Weeks — heti összefoglaló: xAI Series E, Apple-Google Gemini-deal, DeepSeek Engram, Kilo Code launch.
2026-01-25 · Why Your Best Employees Quit Using AI After 3 Weeks — missing middle / 201-szint, Microsoft 300k Copilot-vizsgálat, hat 201-szintű készség.

Primer forrás — frontier-lab és termék-eredeti hangok:

Davos 2026 · The Day After AGI — Hassabis és Amodei a WEF-en — moderátor Zanny Minton Beddoes (The Economist).
Latent Space · Yi Tay (Google DeepMind Singapore) — IMO Gold, Deep Think, On-Policy RL — IMO-arany backstage, AI-coding mint ML-kutatói multiplikátor.
Peter Yang · Master Google AI Studio in 40 Minutes — Logan Kilpatrick — AI Studio “Yap to App”, screenshot → UI 68 mp, Gemini 3 multimodal.
Peter Yang · Zero to Shipped Game with Claude Code in 20 Minutes — apa-gyerek hétvégi vibe-coding workflow, Phaser + spec → milestones → Vercel.

Fact-check és hivatkozott eredeti források:

A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.