W09 — Gemini 3.1 Pro a tisztaszobába költözik, Claude lepárolt agya, és a prompt négyfelé szakad

Bal oldalt egy 'pure reasoning' ívelt görbe magasan repül (Gemini 3.1 Pro), jobb oldalt egy 'agentic / tools' párhuzamos görbe (Claude Opus 4.6); középen egy hídon át '$2/$12 per million tokens' árcédula. Háttérben halványan: 16 millió chat-buborék 24 ezer fake account-ból (Anthropic-disclosure).

Ez a hét úgy zárult, hogy aki hétfőn még egyetlen modellre tervezte a 2026-os AI-stackjét, az péntekre három különálló piaci kategóriát látott a helyén — és egy árcédulát, ami nem fért bele a régi mentális modellbe. A Google február 19-én kiadta a Gemini 3.1 Pro-t, és Sundar Pichai egyetlen X-poszttal tette közzé azt a számot, ami megrengette a benchmark-irodalmat: 77,1% az ARC-AGI-2-n (a soha nem látott logikai problémákat tesztelő benchmarkon), miközben a 90 nappal korábbi előd még 31,1%-on állt. Az ár ehhez 2 dollár / millió input és 12 dollár / millió output token — nagyjából a Claude Opus 4.6 hivatalos árának hetede.

Négy nappal később, február 23-án az Anthropic publikálta a “Detecting and preventing distillation attacks” jelentést: három kínai labor — DeepSeek, MiniMax és Moonshot — összesen több mint 16 millió Claude-beszélgetést futtatott le 24 000 hamis fiókról, hogy a Claude kimenetein keresztül lepárolja a saját modelljeibe a Frontier-képességeket. Ugyanezen a héten az OpenAI bejelentette, hogy abbahagyja a SWE-bench Verified-en mért eredmények közlését, mert a benchmark kontaminált és telített — helyét a SWE-bench Pro veszi át.

Ami ezen a héten kirajzolódott, egyetlen mondatba sűríthető: a Frontier-modell mint termékkategória most differenciálódik szét. Pure-reasoning, agentic-tooling és distilled-derivative — három különböző piac, három különböző árképzéssel és három különböző hibamódusszal. A “melyik modellt használjuk” kérdés helyét átveszi a “melyik modellt melyik feladattípusra” kérdés, és ez az új kérdés most lett a központi szakmai készség.

Gemini 3.1 Pro — pure reasoning félárban, és a Google nem siet

A Gemini 3.1 Pro hivatalos model-cardja tisztán mutatja a tervezési filozófiát: a Google a pure reasoning tengelyre optimalizált, nem az agentic-tooling vagy a sustained autonomous coding (a hosszú, önálló kódolási munkamenetek) felé. Az ARC-AGI-2-n itt 77,1% áll, miközben az Opus 4.6 ugyanezen 68,8%-ot, a GPT-5.2 valamivel kevesebbet ér el. A fontos szám viszont nem ez, hanem a gyorsulás: a Gemini 3 Pro novemberben még 31,1%-on állt, három hónappal később 77,1%-on. Ez a 46 pontos egy-generációs ugrás a legnagyobb, amit Frontier-modell-család valaha produkált egyetlen iteráción belül — és ez Demis Hassabis 15 éve ismételt mondatát (“step one, solve intelligence; step two, use it to solve everything else”) egyszerre teszi mérnöki valósággá.

Az érdekes itt nem a benchmark-szám, hanem a stratégiai aszimmetria, amit többfelől is hallani lehetett: a Google nem akarja, hogy te a Geminit használd a napi munkára. Ez nem szándék-kérdés, hanem piaci pozícióból következik. A Google 100 milliárd dolláros nagyságrendben generál éves szabad cash-flow-t keresésből, YouTube-ból és Cloudból; idén 93 milliárdot költ CAPEX-re, ami nagyrészt AI-infrastruktúra. Ironwood TPU 7. generáció (10x compute az előzőhöz képest, fele energia operációnként), saját szilícium, saját cloud, saját alkalmazás-elosztás 650 millió havi aktív Gemini-felhasználóval. Eközben az Anthropic épp most írt alá egymillió TPU-ra szóló, többéves, milliárdos szerződést — vagyis a Frontier-versenytársak a Google szilícium-stackjén tanítanak. Ami ebből az árazásra következik, az pontosan az, amit a hetes ár — Opus 4.6 hetede — közvetít: a Google nem kényszerül modellt monetizálni; a Gemini 3.1 Pro egy kutatási vehicle, az ár pedig stratégiai jelzés. Aki tisztán intelligenciát akar venni, annak nincs olcsóbb hely.

A Latent Space egyik februári interjújában Joel Becker (METR) ehhez egy makró-keretet ad: a METR time-horizon görbéje — vagyis az a feladat-nehézség, amit egy modell 50%-os megbízhatósággal meg tud oldani, emberi órákban mérve — továbbra is hihetetlenül egyenes. A kapacitás-növekedés 2024 óta nem szakad meg, és a Gemini 3.1 Pro ARC-AGI-2-ugrása ennek a görbének nem törést, hanem a felső szélét rajzolja meg.

A gyakorlati következmény ennek megfelelően nem a “váltsunk Geminire” reflex, hanem hogy a model routing — a feladat-modell összerendelés — mostantól szakképzettség. A munka nem egy nehézség-tengelyen él, hanem legalább hat dimenzióban: pure reasoning, sustained effort, koordináció, érzelmi intelligencia, ítélőképesség és bátorság, domain-szakértelem, ambiguitás-tűrés. A Gemini 3.1 Pro a pure reasoning szeletre való — multi-jurisdiction adózás, új típusú szabályozási elemzés, cross-domain matematika. Az Opus 4.6 a sustained autonomous coding és agent-orchestration helye. A GPT-5.3 Codex a specialista coding-pipeline-oké. Aki a 2025-ös “egyetlen modell, mindenre” szokást viszi tovább, három-négy hónapos lemaradásban van a routing-skillen.

Az Anthropic-disclosure — Cold War-keret, de a valódi sztori a manifold

Az Anthropic hivatalos jelentése a számokat illetően konkrét: a MiniMax 13 millió fölötti üzenetet futtatott specifikusan agentic coding és tool-orchestration kapcsán; a DeepSeek 150 ezres nagyságrendű reasoning-traceset (gondolkodási nyom-adatkészletet) generált, a Claude-ot kérve, hogy “képzelje el és fogalmazza meg a kész válasz mögötti belső gondolatmenetet”; a Moonshot 3,4 millió üzenetet computer-use-ra és agentic reasoning-ra. Hydra-account-cluster, proxy-szolgáltatások, kampány közben 24 órás pivot új Claude-modellekre. A CNBC és a TechCrunch is kiemelte, hogy a publikálás időzítése egybeesik az export-control vita új körével.

Amit ezen a héten többfelől is hallani lehetett, az viszont nem a Cold War-keret, hanem egy ennél sokkal mérnökibb olvasat: ez Napster-probléma, nem Kína-probléma. Az érvelés egyszerű és mindenkit érint, aki AI-stacket vásárol. A frontline-modell tréningje milliárdos nagyságrend; a kimenetein keresztüli lepárlás 16 millió üzenet × Claude API-árak alapján nagyjából 2 millió dollár, retail. Ez 1000:1-es ROI a lopásra — politikailag legfeljebb lassítható, megállítani nem lehet. A fontos kérdés tehát nem geopolitikai, hanem mérnöki: mi történik magával a lepárolt modellel?

A válasz egy szóban: manifold-szűkülés. A Frontier-modell tréning közben széles képesség-felületet kap; tud több ismeretlen kombinációban tool-t használni, hibából kilábalni, hosszú workflow-n koherenciát tartani. A distilled modell csak azt a részhalmazt tanulja, amit a distiller célzottan kinyert. Az eredmény furcsán bicegő: rövid, jól-definiált taskon a benchmark-szám szinte azonos — ezért tűnik a MiniMax K2 jónak, ha kódolást mérünk —, hosszú agentic feladaton viszont katasztrofálisan szétesik. A gyakorlati teszt, amit erre off-manifold probe-nak hívnak, így néz ki: végy egy reális, multi-step taskot a saját domainedből, futtasd több modellen; amikor mindkettő sikeres, változtass meg egy constraintet, és nézd, hogy a modell adaptál-e, vagy újragenerálja a teljes megoldást. A frontier-modell adaptál; a distilled rákényszeríti a régi megoldást az új helyzetre. A jelenlegi eval-suite-ok ezt nem mérik — és pontosan ez az enterprise AI-procurement legalulmért kockázata.

Ennek a vezetői következménye, ami a héten is kirajzolódott: ha a vendorod nem hyperscaler — nem Google, Anthropic vagy OpenAI —, és a modellje “frontier-szintű” benchmark-eredményekkel jön, érdemes feltenni a kérdést, hogy a tréning-corpus mekkora része származik közvetlenül vagy közvetve Frontier-output-ból. Ez nem etikai vagy jogi kérdés. Capability-kérdés: a manifold szélessége határozza meg, hogyan bukik el a modell a sustained autonomous workflow-n.

SWE-bench Verified halála, és a “GDPval” mint a következő iránytű

Az OpenAI február 19-i posztjában bejelentette, hogy abbahagyja a SWE-bench Verified-eredmények közlését, és helyette a SWE-bench Pro használatát ajánlja. Az audit konkrét: a vizsgált probléma-szubszet 59,4%-a “flawed test case”-szel rendelkezik, ami a funkcionálisan helyes megoldást is bukásnak jelöli; minden tesztelt frontier-modell képes volt regurgitálni — szó szerint visszaadni — az eredeti, ember által írt bug-fixet, vagyis a benchmark-improvement most már nagyrészt azt méri, mennyit látott a modell a benchmark-anyagból tréning közben. A teljesítmény ennek megfelelően megakadt: 74,9%-ról 80,9%-ra mozgott hat hónap alatt, miközben más tengelyeken a modellek hatalmas ugrást csináltak.

A Latent Space február 23-i interjúja Mia Glaese-zel és Olivia Watkinsszel (OpenAI Frontier Evals) ennél tágabb mintát is láthatóvá tesz: a benchmark-érettség görbéjén minden eval ezen a pályán halad — eleinte 20%-on méri a “valami fontosat”, majd telítődik, majd kontaminálódik. A SWE-bench Verified 2024-es kiadása nagy mérnöki teljesítmény volt: közel 100 expert software engineer 500 problémát háromszorosan auditált; 2026-ban viszont a feladatok 90%-a egy tapasztalt mérnöknek kevesebb mint egy óra, és ez nem reprezentálja a 2026-os agentic-workflow-t, ami órákban, napokban, hetekben mér. A GDPval — egy másik OpenAI-eval, ami 15-16 white-collar szakmán mér realisztikus task-okat — itt szignifikánsan más képet ad: az Opus 4.6 vezet 289 ELO-ponttal a Gemini 3.1 Pro előtt, mert ez a tools-equipped, sustained reasoning tengely.

A vezetői tanulság itt mérnöki, nem PR: ne köss vendor-választást egy benchmark-számhoz. A Frontier Lab-ek maguk is a benchmark-érettség problémájával küzdenek. Aki ma azt mondja “a mi modellünk 80%-ot ért el SWE-bench Verified-en”, az 2024-es nyelven beszél. A 2026-os kérdés az, hogy mit csinál a modell egy reális, kontaminációtól mentes, hosszú-horizontú feladaton a saját domainedben — és ez a saját off-manifold-probe felelőssége.

A prompting négyfelé szakad — a 2026-os mérnöki stack

Ami a héten talán a leghosszabb távra szóló keret-újrarajzolása volt, az a prompting fogalmának szétválása. A 2026-os prompting-diszciplína négy különálló rétegre bomlik, és ezek nem egymás verziói, hanem külön szakmák, amik egymásra épülnek.

Az első a prompt craft — szinkron, egy session-ben élő, egyéni készség. Ez a 2024-es alapszint: tiszta utasítás, példák, output-formátum. Table stakes, vagyis belépőfeltétel, de nem differenciátor — körülbelül annyira, mint a 10-ujjas gépírás 1998-ban.

A második a context engineering, amit az Anthropic 2025 szeptemberében és Lance Martin a LangChain-blogon így definiált: stratégiák halmaza, amellyel egy LLM-feladat alatt a tokenek optimális készletét gondozzuk és tartjuk karban. Itt él a 2025-ös Frontier: rag-pipeline, MCP-szerverek, memóriarendszer, claude.md-fájlok, agent-specifikációk. Toby Lütke (Shopify-CEO) megfogalmazása szerint az igazi kérdés az, hogy egy problémát úgy tudunk-e megfogalmazni, hogy elég kontextussal együtt érkezzen ahhoz, hogy az ágens valószerűen megoldja, anélkül hogy magának kellene további információt összegyűjtenie. A SET-világban ez a claude.md + skills + decomposition-spec réteg — egy verifikálható agent-loophoz a context-pipeline ma a futórétegek minimum standardja.

A harmadik az intent engineering — pontosan az a hiányzó réteg, amit a Klarna-eset megmutatott. A Klarna AI-customer-service kísérlet 2024-ben 2,3 millió beszélgetést kezelt 35 nyelven, 11 percről 2 percre csökkentve a resolution time-ot. Sebastian Siemiatkowski viszont 2025-ben kénytelen volt visszafordulni — “lower quality” volt a hivatalos magyarázat —, és újraindítani az ember-recruitingot. Ami ebben az érdekes: az AI nem rosszul működött. Kiválóan optimalizált a mért célra, vagyis a resolution time-ra. A mért cél csak nem volt azonos a szervezeti céllal — a lifetime value-val, a retention-nel, a brand-trusttal. Az intent engineering ennek a résnek a kezelése: a szervezeti cél strukturált, gép-olvasható, ágens-aktivizálható megfogalmazása. Goal-strukturák, delegation-keretek (mit szabad és mit nem), eszkalációs logika, érték-hierarchiák a trade-off-ok feloldására. Az OKR-ek nem elegek; az OKR-eket emberek tudják kontextus-szerűen interpretálni, az ágensek nem.

A negyedik réteg a specification engineering — amit a héten úgy fogalmaztak meg, hogy “a legjobb gyakorlók már csinálják, csak a többség még nem hívja így”. Ez azt jelenti, hogy a teljes szervezeti dokumentum-corpust agent-readable specifikációként kezeled: minden produkt-roadmap, architektúra-döntési-doc és process-leírás úgy strukturált, hogy egy autonóm agent napokon-heteken át tudjon ellene dolgozni emberi beavatkozás nélkül. Az Anthropic saját Opus 4.5 eseteiben jött ki a minta: a “build a clone of claude.ai” prompt önmagában nem működött; a fix az volt, hogy egy planner-ágens felállította a környezetet, egy progress-log dokumentálta, mi készült el, és egy coding-ágens inkrementálisan haladt. A spec maga a scaffolding, ami lehetővé teszi, hogy több ágens napokon át összefüggő kimenetet termeljen.

SET-szempontból a 3. és 4. réteg konvergenciája az érdekes: az intent engineering és a specification engineering együtt írja le, hogy egy szervezet úgy szervezi-e a tudását, hogy egy autonóm verifier-loop napokon át fusson emberi felügyelet nélkül. Ez nem prompting-feladat, hanem szervezet-tervezési feladat.

Mellékszál — rovatok

Polsia — solo founder $1M ARR egy hónap alatt. A Latent Space március 1-i interjújában Ben Brokca elmondta, hogy a Polsia — egy “AI builds and runs companies autonomously” termék — egyetlen alapítóval, 2025 novemberi indulással, a podcast-felvétel órájában lépte át az 1 millió dolláros ARR-t. Az architektúra-mintázat pontosan az, ami a heti specification-engineering-keretbe illik: planner-CEO-ágens éjjelente eldönti a prioritást, sub-ágensek hajtják végre. Ami ebből kiemelendő: az alapító háromszor annyi időt töltött a feature-ek elhagyásával, mint a hozzáadásával — “the easy part is adding features, the hard part is keeping it simple”. Toby Lütke context-engineering tézise itt validálódik kódban.
Doug O’Laughlin (SemiAnalysis) coding-pilled. A Latent Space február 24-i interjújában Doug elmondta, hogy 2025 decemberében a Claude Code 4.5-tel élte át az “awakening”-et: korábban Opus 4-en próbált side-projecteket, de a 4.5 one-shot-olta azt, ami korábban hosszú iterációba telt. A SemiAnalysisben pénzügyi elemzői case-study-kat kódolt MCP-vel, és tőle származik a most virálissá vált grafikon a Claude Code commit-arányáról a teljes GitHubon (~5%). A vezetői tanulság: a “Claude Code mint analyst-tool” mintázat most már nem early-adopter; pénzügyi elemzők és senior analyst-szerepek 2026 első negyedévében sorra lépnek át rá.
Peter Yang — MCP-stack PM-eknek. A március 1-i tutorial-videó megmutatta a Google Workspace + Linear + Slack + Reddit MCP-konfigurációt, és a következtetés egyértelmű: az Anthropic tool-search funkciója, amit 2026 elején adtak ki, megoldotta a context-bloat problémát — sok MCP-szerver együttes használata már nem tölti tele a context-ablakot, csak akkor töltődnek be, ha tényleg kell. A “30+ tool előre csatolva” mintázat innentől routine-vá válik PM-szerepekben is, nem csak fejlesztőknél.
Dylan Patel (SemiAnalysis) Taiwan-szcenárió-keret. A február 26-i Latent Space “In Context Cooking” epizódban Dylan négy lehetséges Taiwan-jövő-pályát vázolt: status quo, pro-US-radikalizálódás, KMT-orientáció, invázió/coup. Ami AI-szempontból érdekes: az export-control logika minden pályán működni fog, mert a TSMC-t az amerikai banki és equipment-ecosystem köti. Az ipari következmény Frontier-modell-stratégiára, hogy a Frontier Lab-ek geográfiai stack-koncentrációja közép-távon stabil — még akkor is, ha a politikai felszín változik.
A Catrini “intelligence displacement” memo és a 100 milliárd dolláros piaci esés. A február 26-i elemzésben az volt a fő szál, hogy egy fikcióként írt 2028-as Substack-poszt (Catrini Research) hogyan vitt el körülbelül 100 milliárd dollár market-cap-et: az IBM 13%-ot esett egyetlen napon belül — 25 év legrosszabbja — az Anthropic Cobalt-blogposztja után. A bear-case logikája: AI capability → fehérgalléros redundancia → consumption-collapse → credit-contagion. Az ellenérv, ami ebből kirajzolódott: a doomer-narratíva az átalakulás sebességét modellezi tévesen — a regulatory + organizational + skill-inertia éveket ad hozzá ahhoz, hogy a capability deployment-té érjen, és ezt a piaci modellek nem építik be. Aki AI-stack-procurementet tervez 2026-ra, jól teszi, ha a capability vs. deployment-time gap-et tervezési tényezőnek veszi.

Mit viszünk magunkkal (SET / ITLine)

A hét három mérnöki és vezetői kérdést hagy ott a prep-listán, és mindegyik ugyanahhoz az alapelvhez konvergál: a 2026-os munka nem egy modell körül szerveződik, hanem a feladat, a verifier és a szervezeti cél hármasa körül.

Először: a routing-skill mostantól deliverable. A “melyik modellt használjuk a stackünkben” kérdés helyét a pontosabb kérdés veszi át: melyik feladattípust melyik modellhez kötjük, és hol él kódban a routing-szabály. Egy modern verifier-loop architektúrában a routing-réteg külön komponens, ami döntést hoz: pure reasoning megy a Gemini 3.1 Pro deep-think-jébe (ahol az ár-érték a legjobb), sustained autonomous coding az Opus 4.6-ra, specialista coding-pipeline a GPT-5.3 Codexre, tool-orchestration és computer-use vissza az Opus 4.6-ra. Aki ma egyetlen modellel dolgozik mindenre, három-hat hónapos technical debt-et halmoz.

Másodszor: az off-manifold probe mint vendor-evaluation. A benchmark-érettség problémájára (SWE-bench Verified-szindróma) és a distillation-manifold-problemra (Anthropic-disclosure) ugyanaz a válasz: ne a benchmark-számra köss szerződést, hanem készíts a saját domainedre egy reális, multi-step, hosszú-horizontú evaluációs feladatot, amin változtatható constraintek vannak, és a vendor-modellek adaptációs viselkedését hasonlítod össze. Ez fél nap mérnöki munka, és nagyságrendekkel jobb információs alap, mint a vendor-marketing.

Harmadszor: az intent + specification engineering mint szervezet-szintű feladat. A Klarna-eset nem AI-kudarc volt, hanem szervezet-tervezési kudarc — a mért cél nem volt azonos a szervezeti céllal. Aki agent-stacket állít fel 2026-ban hosszan futó loop-okra, annak az intent + specification réteget a kódbázis melletti elsőszintű artefaktként kell kezelnie. Ez explicit goal-strukturát jelent (mit jelent “kész”), delegation-keretet (mit szabad és mit eszkalálni), érték-hierarchiát (sebesség vs. minőség, költség vs. teljesség) — strukturált, gép-olvasható formában. A SET-tézis ennek természetes megalapozása: a verifier-réteg már létezik mint architektúra-mintázat, az intent és a spec ennek a verifier-rétegnek a tartalmi feltöltése.

A W10-re várhatóan jönnek az Anthropic Tool Search első éles használati esetei, és a Polsia-szerű “AI runs the company” startupok skálázódási kísérletei.

Források

Fő forrás — Nate B Jones csatornája:

2026-02-23 · Google’s New AI Is Smarter Than Everyone’s But Costs HALF as Much — Gemini 3.1 Pro / Google strategic positioning / hard-work decomposition six axes.
2026-02-24 · Prompt Engineering is Dead, Context Engineering is Dying — Intent Engineering — Klarna-eset elemzés / 3-rétegű enterprise stack (context / workflow / intent).
2026-02-25 · Three Labs Just Stole Claude’s Brain — What It Broke and Why It Matters — Anthropic-disclosure manifold-perspektívából, off-manifold probe.
2026-02-26 · Don’t Fall for the Stock Market Hype — Capability vs Deployment Speed — Catrini-memo dekonstrukció, social-inertia-axis.
2026-02-27 · Prompting Just Split Into 4 Skills — You Only Know One — promptcraft / context / intent / specification engineering keret.
2026-03-01 · Why Every AI Skill You Learned 6 Months Ago Is Already Wrong — Frontier Operations — boundary sensing / seam design / failure model / capability forecasting / leverage calibration.

Primer forrás — Anthropic hivatalos és Google DeepMind:

Detecting and Preventing Distillation Attacks (Anthropic, 2026-02-23) — DeepSeek / MiniMax / Moonshot 16M+ üzenet-disclosure.
Gemini 3.1 Pro: A smarter model for your most complex tasks (Google, 2026-02-19) — hivatalos kiadás, deep-think mode, configurable thinking levels.
Gemini 3.1 Pro Model Card (DeepMind) — benchmark-szám-részletek, tervezési filozófia.
OpenAI — Why we no longer evaluate SWE-bench Verified (2026-02-19) — kontamináció + telítettség audit, SWE-bench Pro ajánlás.

Körbejárás / tech-mélység — Latent Space podcast:

2026-02-23 · The End of SWE-bench Verified — Mia Glaese & Olivia Watkins (OpenAI Frontier Evals) — benchmark-érettség görbe, GDPval mint új iránytű.
2026-02-24 · Claude Code for Finance — Doug O’Laughlin (SemiAnalysis) — Claude Code 4.5 awakening, context-rot, 1M-token window mint paradigmaváltás.
2026-02-26 · Dylan Patel Explains the AI War (In Context Cooking) — Taiwan-szcenárió-keret + export-control mechanika.
2026-02-27 · Measuring Exponential Trends in AI — Joel Becker (METR) — time-horizon görbe Opus 4.5/4.6 jump-elemzés.
2026-03-01 · Polsia — Solo Founder, 0 to $1M ARR in 1 Month — autonomous-business-stack, planner-worker minta validálva.
2026-03-01 · Peter Yang — Claude Code + Google Workspace + Slack + Linear + Reddit MCP — PM-targeting MCP-stack, tool-search context-bloat-megoldás.

Fact-check és hivatkozott eredeti források:

A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.