Heti AI-hírlevél · ITLine

2026-W04   2026-01-19 — 2026-01-25   ·   12 forrás

W04 — A Davosi AGI-vita, a 3 millió soros browser és a missing middle, ahol a tényleges AI-haszon él

Davosban Amodei és Hassabis a ‘day after AGI’-ról vitázik. Cursor egy hét alatt 3M sornyi Rust browsert generál GPT-5.2-vel. Apple kapitulál és Gemini-re vált. A Microsoft 300k fős vizsgálata szerint a dolgozók 80%-a 3 hét alatt feladja az AI-t — a missing middle a kulcs.

Két oldal: bal oldalt egy Davos-i pódium 'Day After AGI' táblával (Amodei és Hassabis sziluettje), jobb oldalt egy ChatGPT-stílusú konzol, ami egy hetet fut és '3,000,000 lines of Rust' számlálóval pörög

Ez a hét két, egymással szembefutó történetet hozott. Az egyik Davosban játszódott: a Világgazdasági Fórum színpadán Dario Amodei és Demis Hassabis ült le a “Day After AGI” panelen Zanny Minton Beddoes (The Economist) moderálásával — Amodei szerint az AGI 1-2 év, Hassabis szerint 5-10 év, és a fehérgalléros munkák 50%-át Amodei öt éven belül veszélyeztetettnek tartja. A másik a hét legkonkrétabb mérnöki tette volt: Michael Truell, a Cursor CEO-ja bejelentette, hogy a csapata GPT-5.2-vel egy hét alatt, megszakítás nélkül legenerált egy működő, 3 millió soros Rust-böngészőt — “It kind of works!” Közben Apple hivatalosan kapitulált és a Sirit a Google Geminire cserélte, DeepSeek publikálta az Engramot, és a Microsoft 300 ezer fős Copilot-vizsgálata egy elgondolkodtató mintázatot rajzolt ki: a dolgozók 80%-a három hét után feladja az AI-használatot.

A közös szál, ami a hét után kirajzolódott, talán ez: az ágens-autonómia mérnökileg most már valódi és látványos, de a szervezeti haszon még mindig azon a középrétegen — a missing middle-en — múlik, ahol nem a prompt-trükk, hanem a megítélés (judgment, vagyis az alkalmazott szakmai döntés) számít.

Davos: AGI-vita két nézőpontból

Az Economist-féle összefoglalóból az látszik, hogy Amodei a megszokottnál is agresszívebben fogalmaz: az Anthropic mérnökei “szinte sosem írnak már kódot kézzel”, helyette az AI ír, az ember ellenőriz, és ezzel egy önerősítő visszacsatolási hurok indult be, ami szerinte 2026-2027-re elhozza az AGI-t. Hassabis óvatosabb — 50% esély a dekád végéig —, és három konkrét akadályt nevez meg: memória, folyamatos tanulás, hosszú távú érvelés.

A panel szakmailag legértékesebb pontja nem az időzítés-vita volt, hanem Hassabis pontos kontrája. Ha egy munkakör készségeinek 95%-át automatizáljuk, az nem 95%-os munkanélküliséget eredményez, hanem a maradék 5% értékét emeli meg drasztikusan. A 2025-2026-os tényleges munkaerőpiaci adatok ezt visszhangozzák: a layoff-szám aggregát szinten nem AI-vezérelt, a junior pozíciók valóban szűkülnek, de a tapasztalt szakemberek munkája intenzívebb és értékesebb lett. Az AI nem helyettesít egy embert, hanem felerősíti a hozzáértőket.

Az érdekes itt egy enterprise-szintű következtetés, amit a hét után érdemes elraktározni: AGI-időzítésre nem lehet architektúrát alapozni. Akár 1, akár 10 év — a jó stack az, ami modell-független verifier-rétegben (a kimenetet ellenőrző, állapot-kötött komponensben) él, és okosabb modell esetén automatikusan jobban működik (lásd a W07-es Anthropic-tanácsot). A Davos-vita inkább közönségmunka és piaci pozícionálás volt, mint mérnöki útmutató.

A “disposable software” hetek alatt browsert épít — és ez veszélyesebb, mint amilyennek látszik

A héten a leglátványosabb mérnöki tett Michael Truell tweetje. A Cursor csapata GPT-5.2-vel hetekig futtatott egy ágenses pipeline-t — planner-ek bontották a feladatot, worker-ek implementáltak, reviewer-ek validáltak —, és 3 milliónál is több sornyi Rust-kódot generált: HTML-parser, CSS-cascade, layout-engine, text-shaping, paint, custom JavaScript-VM, kódnévvel “FastRender”. Truell precíz fogalmazása: “It kind of works!” — egyszerűbb weboldalak rendezhetőek, de Webkit/Chromium-paritás még messze van. A Register szerint külső becslések alapján a futás 3 milliárd tokenes volt — érdemes ezt odatenni az “ingyenes szoftver”-narratíva mellé.

A keret, amibe ezt érdemes beleilleszteni, a disposable software (eldobható szoftver). A szoftver gyártási költsége valóban a nullához tart, és ez érdemi inverzió: a Chrome 2006-ban indult, 2008-ban jött az első béta, ma 35M sorral hetente 800 commitet írnak hozzá; a Cursor egy hét alatt érte el az alpha szintet. De a kódgenerálás költsége csak az egyik tényező — az iránymutatás, vagyis annak az emberi figyelemnek a költsége, ami eldönti, mit érdemes megépíteni, nem nullázódik. Sőt, BCG-Harvard kutatás szerint az AI-generált kódban a feladatok közel felében biztonsági sebezhetőség is bekerül — pont a mély, architektúra-szintűek.

A vita kulcsa, hogy a disposable software valójában két különböző jelenség. Az egyik a throwaway szoftver throwaway use-case-re (vakációs útiterv-app, hétvégi játék) — ez ártalmatlan, és ténylegesen demokratizálja a szoftverkészítést, a Replit-felhasználók 75%-a már nem ír kódot. A másik az enterprise-termékekbe csempészett disposable feature-réteg — itt válik érdekessé. A Cursor pontosan ezt teszi: napi több release, “code is reality”-filozófia. Csakhogy már fejlesztő-vevők is panaszkodnak: eltűnik a chat-history, billentyű-rebind kell, “professionally working with this is a nightmare” — Cursor-fórumposzt. Ha fejlesztők ezt mondják, mit fognak mondani CIO-szintű enterprise-vevők?

Az enterprise-tanulság ebből egyenesen jön: a vevő nem feature-t vesz, hanem megbízhatóságot. Aki Salesforce-ot vesz, arra fizet, hogy ne kelljen rá gondolnia. Ebből egy kétlépcsős szabály rajzolódik ki: először bizonyítsd a megbízhatóságot, és csak utána épülj proaktív ágensre. Lépéseket átugrani öngyilkos lépés — egy proaktív ágens csak akkor érték, ha a vevő bízik a műveletek korrektségében; ha nem, akkor terhet hoz, nem értéket.

Tooling: a kollégaszerű és az eszközszerű AI elválik egymástól

A Cursor-experimentnek van egy mérnöki olvasata is, ami a héten egész tisztán kirajzolódott: a Claude Code és a Codex két filozófia mentén különül el — kollégaszerű (colleague-shaped) és eszközszerű (tool-shaped) AI.

A Codex CNC-szerű. Precíz spec-et adsz, az autonóm ágens órákig-napokig fut. Helyes spec mellett kifogástalan eredmény. Rossz spec mellett a CNC megbízhatóan megépíti a rossz tervedet, és csak a végén látod. A Cursor browser-experiment ennek a maximalista esete. A Claude Code ezzel szemben esztergapad-szerű: iteráltok, kérdez, élesíti a szándékodat. Az Anthropic belső felmérése szerint 130+ saját mérnök közül csak a fele tudná munkája 20%-át Claude Code-nak teljesen átadni — és ők is iteratívan használják.

A mintázat, amit ebből érdemes magunkkal vinni: a senior mérnökök a Codex-szel jobban járnak, mert tudnak precíz spec-et írni; a juniorok és nem-műszakiak számára viszont a Claude Code az értelmes választás, ott ugyanis a párbeszéd maga a tanulás. A héten többször visszatért gondolat, hogy a legtöbben túlbecsüljük, mennyire pontosan tudunk specifikálni — és aki Codex-stílusban fogalmaz Claude-érettség nélkül, rosszabb eredményt kap, csak nem tudja.

A 2026-os enterprise-kérdés ezért most már az, hogy a céged hány embere tud high-quality spec-et írni. Aki tud, az CNC-multiplikátort kap — egy dolgozó, nyolcórás autonóm jobbal, egynapnyi értéket termel. Aki nem, annak a kollégaszerű minta marad. Ez nem ízlés-kérdés, hanem érettség-kérdés, és vélhetően ez lesz az új, mérhető vízválasztó.

A missing middle — és miért hagyja abba a 80% három hét után

A hét legfontosabb állítása egy belső Microsoft-vizsgálatból jött, amit Nate egy január 25-i videójában szedett szét. A vizsgálat 300 ezer dolgozó Copilot-használatát követte: első három hét lelkes, aztán csalódás-kráter, és négy hét után a többség csendesen abbahagyja.

A diagnózis abban az állításban összegezhető, hogy az AI-tréning-piac kettéhasadt. A 101-szint (promptolás, tool-tour) elérhető. A 401-szint (RAG, fine-tune, API) mérnököknek elérhető. Hiányzik viszont a 201-szint — az alkalmazott megítélés, ahol a szervezeti haszon ténylegesen él. A 201 nem prompt-skill, hanem hat vezetői kompetencia:

  1. Context assembly — milyen háttéranyagot, példát, korlátozást, mikor.
  2. Quality judgment — mikor bízz, mikor és min belül ellenőrizz (egy bekezdésen belül is keveredik pontos és hallucinált).
  3. Task decomposition — mit dobsz az AI-ra, mit tartasz meg.
  4. Iterative refinement — 70%-os draftból 95%, nem első kimenet-elfogadás.
  5. Workflow integration“This is just how we do RFP responses now”.
  6. Frontier recognition — hol van az AI-nak rossz napja a saját területeden.

Egyik sem prompt-trükk; mindegyik management-skill. Ethan Mollick mondata, ami ezt a hetet keretezi: “the best users of AI are good managers.” A hivatkozott BCG-Harvard kutatás ehhez azt teszi hozzá, hogy az AI képesség-határa “egyenetlen” (jagged) — bizonyos feladatokon gyorsít, határon kívülieken viszont 19 százalékponttal romlik a helyesség, mert a felhasználó nem tudja, hogy határon kívül van.

Az enterprise-implikáció ebből markáns. Ha az “AI-rollout”-od egy 6 órás tréning meg licenc-kiosztás volt, a maradék 80%-od csendben elhagyja a tool-t. A megoldás, ami ebből kirajzolódik, a judgment-réteg explicit építése: a 401-szintű power-userek átképzése frontier-mapperré, funkciónként rendszerszintű feltérképezés (a Trek Bicycle így 40+ konkrét use-case-t talált), és minimum 5 órás formális tréning user-enként — ennél kevesebb statisztikailag nem visz át a kráteren.

A SET-nézőpontból ez közvetlenül validálja a verifier-réteg-stratégiát. A “frontier recognition” pontosan az, amit egy explicit verifier-réteg automatizál: a rendszer maga tudja, mikor van határon kívül, és nem hagyatkozik a felhasználó intuíciójára.

Apple kapitulál: Gemini lesz a Siri agya

Az Apple-Google közös közleménye szerint az új Apple Intelligence és a “context-aware Siri” a Google Geminire épül — egy 1,2 trillió paraméteres custom Gemini-modellre. A pénzügyi nagyságrend: becsült $1 milliárd/év cloud-compute, összesen $5 milliárdig. Az Apple Intelligence on-device és Private Cloud Compute-on fut, vagyis a privacy-keret marad, csak a modell-háttér nem saját.

Ez stratégiai vereség az Apple-nek és az OpenAI-nak. Az OpenAI elveszített egy hatalmas distribution-csatornát, az Apple pedig nyilvánosan elismerte, hogy a saját foundation-modellje versenyképtelen. A ChatGPT a telefonon az “OS”-pozícióból visszaesett másodlagos rétegre.

A héten ebből két IT-vezetői tanulság fogalmazódik meg. Az egyik, hogy a “saját foundation-modell”-tézis nehéz — most Apple-szintű erőforrással is megbukott —, ezért a multi-vendor stack és a modell-független absztrakciós réteg biztonságosabb. A másik, hogy a Gemini-platform Android után iOS-en is nyer, és ha a céged stratégiája egyetlen modell-szállítóra köt, a vendor-lock-in az AI-rétegben gyorsabb és fájdalmasabb, mert a model-output minőségi tulajdonságait nem lehet 1:1 helyettesíteni.

Mellékszál — rovatok

Mit viszünk magunkkal (SET / ITLine)

A hét három IT-vezetői napirend-pontot tett le. Mind ugyanahhoz az alaptézishez konvergál — a megbízhatóság-bizonyítás és a judgment-réteg most már nem nice-to-have, hanem az adoptáció kapuja —, csak különböző felületeken.

Először: a judgment-layer tervezése most konkrétan költségvetésbe való. A Nate által felsorolt hat készség (context, quality, decomposition, refinement, integration, frontier) nem tréning-modul, hanem szervezeti kompetencia, és a 80%-os adoption-szakadékot csak ezzel lehet áthidalni. Ha az AI-roadmapeden egyetlen sor sincs erre, akkor a Microsoft 300 ezres kohorsz mintázata nálatok is le fog játszódni. SET-fordításban: minden enterprise-pitchbe egy explicit “201-réteg-modul” kerül, ami nem a promptolásról, hanem az alkalmazott megítélésről szól.

Másodszor: a spec-érettség az új vízválasztó senior és junior között. A Codex-vs-Claude-Code mintázat nem terméktechnikai részlet, hanem 2026-os új kompenzációs tengely — aki precíz spec-et tud írni egy autonóm ágensnek, az megsokszorozza a saját produktivitását; aki nem, annak a kollégaszerű iteráció marad. Érdemes belső spec-writing-clinicet indítani, és pontosan ezt a réteget támogatja a SET / kontextus-alapú stack: strukturált követelmény-leírás, verifier, autonóm végrehajtás.

Harmadszor: reliability-first, agentic-second. Enterprise-térben nem érdemes másolni a Cursor-pace-et. A vevő megbízhatóságot vesz, és csak rászolgált bizalom után érdemes proaktív ágensre építeni. Sok startup egyenesen agentes-pitch-csel megy enterprise-ra, amitől a CIO-k visszahőkölnek. Itt az ITLine SET-narratíva pontos: az on-prem és cloud kétsávos megközelítés azért érték, mert a megbízhatóság-bizonyítás az olcsóbb sávon mehet végbe, mielőtt a kockázatos ágenses-rétegre rákötöd a kritikus munkafolyamatot.

A W05-re várhatóan jön az Anthropic első hivatalos válasza a Cursor-browser-experimentre (Claude 5 vagy Opus-frissítés rumor), és a Microsoft 300k-s kohorsz Microsoft Work Trend Index follow-up-jának feldolgozása.

Források

Fő forrás — Nate B Jones csatornája:

Primer forrás — frontier-lab és termék-eredeti hangok:

Fact-check és hivatkozott eredeti források:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.