Heti AI-hírlevél · ITLine

2026-W09   2026-02-23 — 2026-03-01   ·   11 forrás

W09 — Gemini 3.1 Pro a tisztaszobába költözik, Claude lepárolt agya, és a prompt négyfelé szakad

Google kiadja a Gemini 3.1 Pro-t — 77.1% ARC-AGI-2, az Opus 4.6 árának hetedéért, de Google nem akarja, hogy te használd. Anthropic publikálja: három kínai labor 16 millió beszélgetésből lepárolta Claude-ot. SWE-bench Verified saturated, helyét SWE-bench Pro veszi át. Prompting négy különálló diszciplínává hasad.

Bal oldalt egy 'pure reasoning' ívelt görbe magasan repül (Gemini 3.1 Pro), jobb oldalt egy 'agentic / tools' párhuzamos görbe (Claude Opus 4.6); középen egy hídon át '$2/$12 per million tokens' árcédula. Háttérben halványan: 16 millió chat-buborék 24 ezer fake account-ból (Anthropic-disclosure).

Ez a hét úgy zárult, hogy aki hétfőn még egyetlen modellre tervezte a 2026-os AI-stackjét, az péntekre három különálló piaci kategóriát látott a helyén — és egy árcédulát, ami nem fért bele a régi mentális modellbe. A Google február 19-én kiadta a Gemini 3.1 Pro-t, és Sundar Pichai egyetlen X-poszttal tette közzé azt a számot, ami megrengette a benchmark-irodalmat: 77,1% az ARC-AGI-2-n (a soha nem látott logikai problémákat tesztelő benchmarkon), miközben a 90 nappal korábbi előd még 31,1%-on állt. Az ár ehhez 2 dollár / millió input és 12 dollár / millió output token — nagyjából a Claude Opus 4.6 hivatalos árának hetede.

Négy nappal később, február 23-án az Anthropic publikálta a “Detecting and preventing distillation attacks” jelentést: három kínai labor — DeepSeek, MiniMax és Moonshot — összesen több mint 16 millió Claude-beszélgetést futtatott le 24 000 hamis fiókról, hogy a Claude kimenetein keresztül lepárolja a saját modelljeibe a Frontier-képességeket. Ugyanezen a héten az OpenAI bejelentette, hogy abbahagyja a SWE-bench Verified-en mért eredmények közlését, mert a benchmark kontaminált és telített — helyét a SWE-bench Pro veszi át.

Ami ezen a héten kirajzolódott, egyetlen mondatba sűríthető: a Frontier-modell mint termékkategória most differenciálódik szét. Pure-reasoning, agentic-tooling és distilled-derivative — három különböző piac, három különböző árképzéssel és három különböző hibamódusszal. A “melyik modellt használjuk” kérdés helyét átveszi a “melyik modellt melyik feladattípusra” kérdés, és ez az új kérdés most lett a központi szakmai készség.

Gemini 3.1 Pro — pure reasoning félárban, és a Google nem siet

A Gemini 3.1 Pro hivatalos model-cardja tisztán mutatja a tervezési filozófiát: a Google a pure reasoning tengelyre optimalizált, nem az agentic-tooling vagy a sustained autonomous coding (a hosszú, önálló kódolási munkamenetek) felé. Az ARC-AGI-2-n itt 77,1% áll, miközben az Opus 4.6 ugyanezen 68,8%-ot, a GPT-5.2 valamivel kevesebbet ér el. A fontos szám viszont nem ez, hanem a gyorsulás: a Gemini 3 Pro novemberben még 31,1%-on állt, három hónappal később 77,1%-on. Ez a 46 pontos egy-generációs ugrás a legnagyobb, amit Frontier-modell-család valaha produkált egyetlen iteráción belül — és ez Demis Hassabis 15 éve ismételt mondatát (“step one, solve intelligence; step two, use it to solve everything else”) egyszerre teszi mérnöki valósággá.

Az érdekes itt nem a benchmark-szám, hanem a stratégiai aszimmetria, amit többfelől is hallani lehetett: a Google nem akarja, hogy te a Geminit használd a napi munkára. Ez nem szándék-kérdés, hanem piaci pozícióból következik. A Google 100 milliárd dolláros nagyságrendben generál éves szabad cash-flow-t keresésből, YouTube-ból és Cloudból; idén 93 milliárdot költ CAPEX-re, ami nagyrészt AI-infrastruktúra. Ironwood TPU 7. generáció (10x compute az előzőhöz képest, fele energia operációnként), saját szilícium, saját cloud, saját alkalmazás-elosztás 650 millió havi aktív Gemini-felhasználóval. Eközben az Anthropic épp most írt alá egymillió TPU-ra szóló, többéves, milliárdos szerződést — vagyis a Frontier-versenytársak a Google szilícium-stackjén tanítanak. Ami ebből az árazásra következik, az pontosan az, amit a hetes ár — Opus 4.6 hetede — közvetít: a Google nem kényszerül modellt monetizálni; a Gemini 3.1 Pro egy kutatási vehicle, az ár pedig stratégiai jelzés. Aki tisztán intelligenciát akar venni, annak nincs olcsóbb hely.

A Latent Space egyik februári interjújában Joel Becker (METR) ehhez egy makró-keretet ad: a METR time-horizon görbéje — vagyis az a feladat-nehézség, amit egy modell 50%-os megbízhatósággal meg tud oldani, emberi órákban mérve — továbbra is hihetetlenül egyenes. A kapacitás-növekedés 2024 óta nem szakad meg, és a Gemini 3.1 Pro ARC-AGI-2-ugrása ennek a görbének nem törést, hanem a felső szélét rajzolja meg.

A gyakorlati következmény ennek megfelelően nem a “váltsunk Geminire” reflex, hanem hogy a model routing — a feladat-modell összerendelés — mostantól szakképzettség. A munka nem egy nehézség-tengelyen él, hanem legalább hat dimenzióban: pure reasoning, sustained effort, koordináció, érzelmi intelligencia, ítélőképesség és bátorság, domain-szakértelem, ambiguitás-tűrés. A Gemini 3.1 Pro a pure reasoning szeletre való — multi-jurisdiction adózás, új típusú szabályozási elemzés, cross-domain matematika. Az Opus 4.6 a sustained autonomous coding és agent-orchestration helye. A GPT-5.3 Codex a specialista coding-pipeline-oké. Aki a 2025-ös “egyetlen modell, mindenre” szokást viszi tovább, három-négy hónapos lemaradásban van a routing-skillen.

Az Anthropic-disclosure — Cold War-keret, de a valódi sztori a manifold

Az Anthropic hivatalos jelentése a számokat illetően konkrét: a MiniMax 13 millió fölötti üzenetet futtatott specifikusan agentic coding és tool-orchestration kapcsán; a DeepSeek 150 ezres nagyságrendű reasoning-traceset (gondolkodási nyom-adatkészletet) generált, a Claude-ot kérve, hogy “képzelje el és fogalmazza meg a kész válasz mögötti belső gondolatmenetet”; a Moonshot 3,4 millió üzenetet computer-use-ra és agentic reasoning-ra. Hydra-account-cluster, proxy-szolgáltatások, kampány közben 24 órás pivot új Claude-modellekre. A CNBC és a TechCrunch is kiemelte, hogy a publikálás időzítése egybeesik az export-control vita új körével.

Amit ezen a héten többfelől is hallani lehetett, az viszont nem a Cold War-keret, hanem egy ennél sokkal mérnökibb olvasat: ez Napster-probléma, nem Kína-probléma. Az érvelés egyszerű és mindenkit érint, aki AI-stacket vásárol. A frontline-modell tréningje milliárdos nagyságrend; a kimenetein keresztüli lepárlás 16 millió üzenet × Claude API-árak alapján nagyjából 2 millió dollár, retail. Ez 1000:1-es ROI a lopásra — politikailag legfeljebb lassítható, megállítani nem lehet. A fontos kérdés tehát nem geopolitikai, hanem mérnöki: mi történik magával a lepárolt modellel?

A válasz egy szóban: manifold-szűkülés. A Frontier-modell tréning közben széles képesség-felületet kap; tud több ismeretlen kombinációban tool-t használni, hibából kilábalni, hosszú workflow-n koherenciát tartani. A distilled modell csak azt a részhalmazt tanulja, amit a distiller célzottan kinyert. Az eredmény furcsán bicegő: rövid, jól-definiált taskon a benchmark-szám szinte azonos — ezért tűnik a MiniMax K2 jónak, ha kódolást mérünk —, hosszú agentic feladaton viszont katasztrofálisan szétesik. A gyakorlati teszt, amit erre off-manifold probe-nak hívnak, így néz ki: végy egy reális, multi-step taskot a saját domainedből, futtasd több modellen; amikor mindkettő sikeres, változtass meg egy constraintet, és nézd, hogy a modell adaptál-e, vagy újragenerálja a teljes megoldást. A frontier-modell adaptál; a distilled rákényszeríti a régi megoldást az új helyzetre. A jelenlegi eval-suite-ok ezt nem mérik — és pontosan ez az enterprise AI-procurement legalulmért kockázata.

Ennek a vezetői következménye, ami a héten is kirajzolódott: ha a vendorod nem hyperscaler — nem Google, Anthropic vagy OpenAI —, és a modellje “frontier-szintű” benchmark-eredményekkel jön, érdemes feltenni a kérdést, hogy a tréning-corpus mekkora része származik közvetlenül vagy közvetve Frontier-output-ból. Ez nem etikai vagy jogi kérdés. Capability-kérdés: a manifold szélessége határozza meg, hogyan bukik el a modell a sustained autonomous workflow-n.

SWE-bench Verified halála, és a “GDPval” mint a következő iránytű

Az OpenAI február 19-i posztjában bejelentette, hogy abbahagyja a SWE-bench Verified-eredmények közlését, és helyette a SWE-bench Pro használatát ajánlja. Az audit konkrét: a vizsgált probléma-szubszet 59,4%-a “flawed test case”-szel rendelkezik, ami a funkcionálisan helyes megoldást is bukásnak jelöli; minden tesztelt frontier-modell képes volt regurgitálni — szó szerint visszaadni — az eredeti, ember által írt bug-fixet, vagyis a benchmark-improvement most már nagyrészt azt méri, mennyit látott a modell a benchmark-anyagból tréning közben. A teljesítmény ennek megfelelően megakadt: 74,9%-ról 80,9%-ra mozgott hat hónap alatt, miközben más tengelyeken a modellek hatalmas ugrást csináltak.

A Latent Space február 23-i interjúja Mia Glaese-zel és Olivia Watkinsszel (OpenAI Frontier Evals) ennél tágabb mintát is láthatóvá tesz: a benchmark-érettség görbéjén minden eval ezen a pályán halad — eleinte 20%-on méri a “valami fontosat”, majd telítődik, majd kontaminálódik. A SWE-bench Verified 2024-es kiadása nagy mérnöki teljesítmény volt: közel 100 expert software engineer 500 problémát háromszorosan auditált; 2026-ban viszont a feladatok 90%-a egy tapasztalt mérnöknek kevesebb mint egy óra, és ez nem reprezentálja a 2026-os agentic-workflow-t, ami órákban, napokban, hetekben mér. A GDPval — egy másik OpenAI-eval, ami 15-16 white-collar szakmán mér realisztikus task-okat — itt szignifikánsan más képet ad: az Opus 4.6 vezet 289 ELO-ponttal a Gemini 3.1 Pro előtt, mert ez a tools-equipped, sustained reasoning tengely.

A vezetői tanulság itt mérnöki, nem PR: ne köss vendor-választást egy benchmark-számhoz. A Frontier Lab-ek maguk is a benchmark-érettség problémájával küzdenek. Aki ma azt mondja “a mi modellünk 80%-ot ért el SWE-bench Verified-en”, az 2024-es nyelven beszél. A 2026-os kérdés az, hogy mit csinál a modell egy reális, kontaminációtól mentes, hosszú-horizontú feladaton a saját domainedben — és ez a saját off-manifold-probe felelőssége.

A prompting négyfelé szakad — a 2026-os mérnöki stack

Ami a héten talán a leghosszabb távra szóló keret-újrarajzolása volt, az a prompting fogalmának szétválása. A 2026-os prompting-diszciplína négy különálló rétegre bomlik, és ezek nem egymás verziói, hanem külön szakmák, amik egymásra épülnek.

Az első a prompt craft — szinkron, egy session-ben élő, egyéni készség. Ez a 2024-es alapszint: tiszta utasítás, példák, output-formátum. Table stakes, vagyis belépőfeltétel, de nem differenciátor — körülbelül annyira, mint a 10-ujjas gépírás 1998-ban.

A második a context engineering, amit az Anthropic 2025 szeptemberében és Lance Martin a LangChain-blogon így definiált: stratégiák halmaza, amellyel egy LLM-feladat alatt a tokenek optimális készletét gondozzuk és tartjuk karban. Itt él a 2025-ös Frontier: rag-pipeline, MCP-szerverek, memóriarendszer, claude.md-fájlok, agent-specifikációk. Toby Lütke (Shopify-CEO) megfogalmazása szerint az igazi kérdés az, hogy egy problémát úgy tudunk-e megfogalmazni, hogy elég kontextussal együtt érkezzen ahhoz, hogy az ágens valószerűen megoldja, anélkül hogy magának kellene további információt összegyűjtenie. A SET-világban ez a claude.md + skills + decomposition-spec réteg — egy verifikálható agent-loophoz a context-pipeline ma a futórétegek minimum standardja.

A harmadik az intent engineering — pontosan az a hiányzó réteg, amit a Klarna-eset megmutatott. A Klarna AI-customer-service kísérlet 2024-ben 2,3 millió beszélgetést kezelt 35 nyelven, 11 percről 2 percre csökkentve a resolution time-ot. Sebastian Siemiatkowski viszont 2025-ben kénytelen volt visszafordulni — “lower quality” volt a hivatalos magyarázat —, és újraindítani az ember-recruitingot. Ami ebben az érdekes: az AI nem rosszul működött. Kiválóan optimalizált a mért célra, vagyis a resolution time-ra. A mért cél csak nem volt azonos a szervezeti céllal — a lifetime value-val, a retention-nel, a brand-trusttal. Az intent engineering ennek a résnek a kezelése: a szervezeti cél strukturált, gép-olvasható, ágens-aktivizálható megfogalmazása. Goal-strukturák, delegation-keretek (mit szabad és mit nem), eszkalációs logika, érték-hierarchiák a trade-off-ok feloldására. Az OKR-ek nem elegek; az OKR-eket emberek tudják kontextus-szerűen interpretálni, az ágensek nem.

A negyedik réteg a specification engineering — amit a héten úgy fogalmaztak meg, hogy “a legjobb gyakorlók már csinálják, csak a többség még nem hívja így”. Ez azt jelenti, hogy a teljes szervezeti dokumentum-corpust agent-readable specifikációként kezeled: minden produkt-roadmap, architektúra-döntési-doc és process-leírás úgy strukturált, hogy egy autonóm agent napokon-heteken át tudjon ellene dolgozni emberi beavatkozás nélkül. Az Anthropic saját Opus 4.5 eseteiben jött ki a minta: a “build a clone of claude.ai” prompt önmagában nem működött; a fix az volt, hogy egy planner-ágens felállította a környezetet, egy progress-log dokumentálta, mi készült el, és egy coding-ágens inkrementálisan haladt. A spec maga a scaffolding, ami lehetővé teszi, hogy több ágens napokon át összefüggő kimenetet termeljen.

SET-szempontból a 3. és 4. réteg konvergenciája az érdekes: az intent engineering és a specification engineering együtt írja le, hogy egy szervezet úgy szervezi-e a tudását, hogy egy autonóm verifier-loop napokon át fusson emberi felügyelet nélkül. Ez nem prompting-feladat, hanem szervezet-tervezési feladat.

Mellékszál — rovatok

Mit viszünk magunkkal (SET / ITLine)

A hét három mérnöki és vezetői kérdést hagy ott a prep-listán, és mindegyik ugyanahhoz az alapelvhez konvergál: a 2026-os munka nem egy modell körül szerveződik, hanem a feladat, a verifier és a szervezeti cél hármasa körül.

Először: a routing-skill mostantól deliverable. A “melyik modellt használjuk a stackünkben” kérdés helyét a pontosabb kérdés veszi át: melyik feladattípust melyik modellhez kötjük, és hol él kódban a routing-szabály. Egy modern verifier-loop architektúrában a routing-réteg külön komponens, ami döntést hoz: pure reasoning megy a Gemini 3.1 Pro deep-think-jébe (ahol az ár-érték a legjobb), sustained autonomous coding az Opus 4.6-ra, specialista coding-pipeline a GPT-5.3 Codexre, tool-orchestration és computer-use vissza az Opus 4.6-ra. Aki ma egyetlen modellel dolgozik mindenre, három-hat hónapos technical debt-et halmoz.

Másodszor: az off-manifold probe mint vendor-evaluation. A benchmark-érettség problémájára (SWE-bench Verified-szindróma) és a distillation-manifold-problemra (Anthropic-disclosure) ugyanaz a válasz: ne a benchmark-számra köss szerződést, hanem készíts a saját domainedre egy reális, multi-step, hosszú-horizontú evaluációs feladatot, amin változtatható constraintek vannak, és a vendor-modellek adaptációs viselkedését hasonlítod össze. Ez fél nap mérnöki munka, és nagyságrendekkel jobb információs alap, mint a vendor-marketing.

Harmadszor: az intent + specification engineering mint szervezet-szintű feladat. A Klarna-eset nem AI-kudarc volt, hanem szervezet-tervezési kudarc — a mért cél nem volt azonos a szervezeti céllal. Aki agent-stacket állít fel 2026-ban hosszan futó loop-okra, annak az intent + specification réteget a kódbázis melletti elsőszintű artefaktként kell kezelnie. Ez explicit goal-strukturát jelent (mit jelent “kész”), delegation-keretet (mit szabad és mit eszkalálni), érték-hierarchiát (sebesség vs. minőség, költség vs. teljesség) — strukturált, gép-olvasható formában. A SET-tézis ennek természetes megalapozása: a verifier-réteg már létezik mint architektúra-mintázat, az intent és a spec ennek a verifier-rétegnek a tartalmi feltöltése.

A W10-re várhatóan jönnek az Anthropic Tool Search első éles használati esetei, és a Polsia-szerű “AI runs the company” startupok skálázódási kísérletei.

Források

Fő forrás — Nate B Jones csatornája:

Primer forrás — Anthropic hivatalos és Google DeepMind:

Körbejárás / tech-mélység — Latent Space podcast:

Fact-check és hivatkozott eredeti források:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.