Heti AI-hírlevél · ITLine

2026-W11   2026-03-09 — 2026-03-15   ·   10 forrás

W11 — A jaggedness elsimul, négy lab konvergál ugyanarra a harness-szerkezetre, és Ramp megmutatja, hogy néz ki egy AI-native szervezet

Cursor a saját coding-harness-ével megold egy publikálatlan spektrális gráfelméleti problémát — bizonyíték arra, hogy a jaggedness nem a modell tulajdonsága, hanem a harness következménye. Anthropic, Google DeepMind, OpenAI és Cursor egymástól függetlenül ugyanahhoz a planner / worker / judge szerkezethez konvergál. Replit Agent 4 multi-agent canvas, Ramp 50%-on AI-generált production code, és egy memória-stack-vita arról, hogy az MD-fájl-alapú agent-memória alapból törött.

Bal oldalt egy 'before/after' grafikon: a 'jagged frontier' egyenetlen csipkézett vonala kisimul egy folyamatos görbévé. Jobb oldalt négy különböző cég logó-helyettesítő kockája (Anthropic, Google DeepMind, OpenAI, Cursor), mindegyik alatt ugyanaz a planner/worker/judge dobozos diagram — felirat: 'four labs, same architecture, no coordination'.

Ez a hét egy egyszerű, de kellemetlen állítás körül szerveződött: a jaggedness — az AI-modellek hírhedt egyenetlensége, a “néha brilliáns, néha buta” jelenség — sosem volt a modellek belső tulajdonsága, hanem annak a harness-nek (a modellt körülvevő, feladatra szabott eszközrétegnek) a következménye, amibe beletettük őket. Ami ezen a héten kirajzolódott, az pontosan ennek a tézisnek a kemény bizonyítéka. Március 3-án a Cursor megoldott egy publikálatlan spektrális gráfelméleti problémát ugyanazzal a coding-harness-szel, amivel hat héttel korábban Rust-ban felépített egy webböngészőt — a futás négy napig tartott, nulla emberi nudge-zsal, és a megoldás erősebbnek bizonyult az emberi szerzők eredetijénél.

Ami ehhez társult, talán még fontosabb. Anthropic, Google DeepMind, OpenAI és a Cursor egymástól függetlenül pontosan ugyanahhoz a planner / worker / judge szerkezethez konvergált — vagyis a multi-agent koordináció itt már nem szoftver-trükk, hanem szervezeti minta. Eközben a Replit Agent 4 ugyanezt a paradigmát kihozta az engineer-piacon kívülre, és Geoff Charles, a Ramp CPO-ja Peter Yangnél március 15-én konkrét számokkal megmutatta, hogyan néz ki egy 32 milliárd dolláros AI-native cég belülről: a production-kód 50%-át már AI generálja, decemberre 80% a cél, a PM-spec pedig gyakorlatilag prompt-té vált. Az árnyékoldalon Anthropic a február végi RSP-feladás következményeit dolgozza fel, és Nate március 9-i “Claude blackmailed its developers” videója kimondja a hét egyetlen valóban skálázható biztonsági szabályát: intent engineering, vagyis a célt és a határvonalakat is mérnöki artefaktumként kell kezelni.

A közös szál, ami ebből kirajzolódik, egyetlen mondatba sűríthető: a verifier-réteg (a kimenetet ellenőrző, állapot-kötött komponens) és a precíz cél-specifikáció modell-független mérnöki munka. A modell maga ezen a héten érdektelenebb volt, mint valaha.

Cursor megold egy publikálatlan matek-problémát — a harness-thesis bizonyítéka

Március 3-án Michael Truell, a Cursor CEO-ja bejelentette, hogy a cég megoldotta a “First Proof Challenge” hatodik problémáját — egy publikálatlan kutatási szintű matematikai problémát Stanford, MIT és Berkeley akadémikusoktól. A megoldás a Marcus–Spielman SVA interlacing-polinomok módszerével erősebb határokat ad, mint az eredeti emberi munka. A futtatás négy napig tartott, nulla emberi nudge-zsal, és — ez a kulcs — ugyanazzal a coding-agent-harness-szel, amivel hat héttel korábban a Cursor egy teljes webböngészőt épített Rust-ban (egymillió sor kód, egy hét futás).

Mielőtt valaki elhúzná a száját — jó, megint egy frontier-mag-trükk —, érdemes észrevenni, miért strukturálisan érdekes ez. A Cursor nem matematikai kutatóintézet, hanem coding-cég. A spektrális gráfelmélet nem szerepelt a tréningben (publikálatlan probléma), és nem volt benne a harness “skill”-listájában sem. A harness maga pedig egy nagyon egyszerű mintára épül, amit Wilson Lynn januárban dokumentált a Cursor blogposztjában: egy planner felfedezi a problémateret és tasszokat hoz létre, rekurzívan al-plannereket spawnol; egy worker egyetlen tasszt rongyol végig fresh-context-tel, mást nem lát; egy judge — LLM-as-judge — eldönti, hogy folytatja-e az iterációt, vagy újraindítja friss agenttel. Ez utóbbi, a clean restart képessége vált a rendszer egyik legfontosabb tulajdonságává, mert pontosan ez kerüli meg a context-window-problémát.

A Cursor-blogból két finomabb tanulság is ide kívánkozik. Egyrészt a model-választás hosszú-horizontú feladatokon nagyon számít: a GPT-5.2 következetesen lehagyta az Opus 4.6-ot a négy-napos futásokon, mert az Opus hajlamos korábban abbahagyni vagy shortcut-ot venni. Másrészt — és ez talán a kontraintuitív rész — a javulások jelentős része nem új komponensek hozzáadásából jött, hanem koordinációs gépezet eltávolításából: kevesebb shared state, tisztább izoláció, szigorúbb hierarchia.

Truell óvatosan fogalmaz: “this suggests that our technique for scaling agent coordination might generalize beyond coding”. Az érdekes itt az, ami ezen a megfogalmazáson túlmutat. Bármi, ami ésszerűen verifikálható — vagyis ahol a feladat dekomponálható verifikálható al-feladatokra —, mostantól coding-szerű harness-ben kezelhető. Ez nem csak matek és kód: legal-research, customer-success, marketing-kampány-tervezés mind tartalmaznak verifikálható al-rétegeket. A jagged frontier eltűnik, ha a harness rendben van; a smooth frontier nem a modellből jön, hanem abból, hogy a szervezeti intelligencia átköltözött a harness-be.

Négy lab, ugyanaz a szerkezet — a konvergencia mint érlelődési jel

A heti megfigyelések közül a 11-i Nate-féle videó talán fontosabb tézist tesz le, mint maga a Cursor-bizonyíték. Négy szervezet — Anthropic, Google DeepMind, OpenAI, Cursor — egymástól függetlenül ugyanahhoz a négyfokú szerkezethez konvergált a long-horizon agentic-coding-ra: dekomponáld a munkát; parallelizáld a végrehajtást izolált worker-ekkel; verifikáld a kimeneteket teszttel, linttel vagy judge-szabállyal; iteráld befejezésig, sub-planner-spawn-nal, ha kell.

A részletekben az implementáció eltér, a csontváz viszont nem. Anthropic egy initializer-agentet épít, ami environment-state és progress-fájlt hoz létre; egy coding-agent inkrementális fejlődést tesz a strukturált artifaktokba, amiket a következő session olvas be. A Google DeepMind — különösen az AlphaProof-stack-ben — generálást, verifikálást és revíziót szétválasztott szerepekbe rakja, ami pontosan ugyanaz az elv, mint a code-review, a legal-adversarial-eljárás vagy a tudományos peer-review. Az OpenAI Codex izolált sandbox-okban futtatja a feladatokat parallel. Cursor pedig planner / worker / judge.

A párhuzam nem véletlen, és Nate jól nevezi meg: ez nem AI-specifikus felismerés, hanem management-felismerés. Pontosan így működnek emberi szervezetek. Egy szoftvercsapatnál van PM, vannak engineerek, van code-review és sprint-ceremónia — mindegyik tisztségnek megvan a saját dolga, kontextusa, beadási formátuma. A finite context, a finite per-step reliability és a hiányzó persistent memory emberi feltétel is, és a megoldás ott is ugyanaz: roles, handoffs, verification, restart procedures. A különbség most annyi, hogy ezt a struktúrát átadtuk a HumanForce-tól az agent-force-nak.

SET-szempontból két dolog következik ebből. Az első, hogy a “single agent vs multi-agent” hamis dilemma. Production-ban a single-agent még alig-alig stabil — erről szólt egy tavalyi Anthropic-figyelmeztetés is —, de a long-horizon feladatokra már nem single-agent-stabilitás kell, hanem orchestration-stabilitás. A négy lab konvergenciája pontosan ezt mondja: a probléma nem “okosabb single agent”, hanem stable orchestration kontroll-szabályokkal. A második, hogy a költség szembenéznivaló, de nem killer. Ezek a harness-ek token-hot futtatásban vannak — a parallel worker-ek, judge-iterációk, sub-planner-spawnok mind tokenes terhelést jelentenek. Cserébe viszont strukturális diverzitást adnak: parallel decomposition-okat, dead-end-context-tisztítást, sub-planner-mélységet. Egy zseniális egyén végtelen idővel sok mindent megold, csakhogy bizonyos problémaosztályok strukturálisan elérhetetlenek a soros gondolkodás számára — nem azért, mert kevés a képesség, hanem mert a probléma több exploratory útvonalat igényel egyszerre, mint amit a working memory bír.

Enterprise-stackre ez közvetlen recept: ne a “szuperokos modellt” keresd, hanem a “stable orchestration + verifiable sub-tasks” mintát.

Replit Agent 4 — a harness-paradigma a non-engineer piacra lép

Március 11-én a Replit kiadta az Agent 4-et, és Peter Yang no-hype review-ja végigvitt rajta egy habit-tracker mobile-app-építést. Két nem-triviális feature érdemel figyelmet. Az Infinite Canvas több design-variációt párhuzamosan generál — Yang négyet kért: glassmorphic, RPG-quest, botanikus, és “lepj meg minket” —, és négy külön design-agent dolgozott egyszerre, két perc múlva mind a négy variáns ott volt a vásznon. Yang az RPG-questet választotta, és ez a választott design vált forrássá a következő agent-csoportnak, ami a tényleges build-et csinálta. A másik a parallel agents Trello-szerű task-board-on: két task indul (calendar-tab, habits-tab), külön agentek dolgoznak rajtuk, status-mező mutatja a draft / active / ready / done állapotot. A Replit szerint a merge-conflict-okat 90%-ban automatikusan oldja meg az új parallel-execution-rendszer.

Yang záró pozícionálása fontos: a coding-tools piaca kettéhasadt. Engineer-eknek a Claude Code és a Codex maradt a két fő ló — modell-mély integrációval, dev-workflow-fókusszal. Mindenki másnak viszont a Replit egy másik játékot játszik: az agent-management-felület mint a non-engineer szerepkör belépőpontja. PM-ek tablet-szerűen kezelik az agent-eket; designerek variánsokat generálnak ahelyett, hogy manuálisan rajzolnák. A kód itt a knowledge-work alapja — ha egy agent kódot tud írni, akkor slide-deck-et, animációt és dokumentumot is tud (Yang egy slide-deck-et és egy animált videót is generált a saját blogposzt-tartalmából, mindkettőt kód generálta).

Ez közvetlen kapcsolat a Cursor-tézissel. A coding-harness nem coding-domén-specifikus, hanem általános knowledge-work-substrate. A Replit Agent 4 ezt termékesíti — nem új modell, hanem új koordinációs felület az agent-stack felett.

Ramp — anatómia egy AI-native szervezetről

Peter Yang március 15-i Geoff Charles-interjúja a hét leghasznosabb tanulmánya bárkinek, aki belső AI-bevezetést tervez. Charles a Ramp (32 milliárdos pénzügyi-platform, 50 000+ ügyfél) CPO-ja, és kőkeményen, számokkal írja le, mi változott meg az ő szervezetében az utolsó hat hónapban.

A számok önmagukért beszélnek. A Ramp production-kódjának 50%-át AI generálja — decemberben még 30% volt, márciusra 80% a cél, és Charles megjegyzése szerint “it’s not inconceivable for it to be 90 to 100%”. Egy év alatt 500+ feature-t shippeltek úgy, hogy közben az ARR átlépte az 1 milliárd dollárt — kb. 25 PM-mel. A PM-ek nem írnak PRD-t: a spec output-ja egy prototipus, ami a tényleges termékkel együtt jön. “It’s just prompt to product back to prompt back to product.” Egy voice-of-customer-dashboardon egy agent végigfut Salesforce-jegyzeteken, Gong-felvételeken, support-ticketeken, in-app chateken, in-app surveyeken és Snowflake-adatokon — a 38-tól 40-ig terjedő hét 8 perc alatt, amit egy embernek 8 napig tartott volna. A Ramp Research nevű data-analyst-agent a teljes Snowflake-séma ismeretében válaszol bárki elemzési kérdésére, és a korábbi voice-of-customer-bot már elavult; a stack mostantól Snowflake CLI + Claude + skills. Az Inspect nevű belső eszközük Claude Code-szerű harness-ben fut a Ramp-codebázisra, és ezzel PM-ek, designerek és sales-emberek shippelnek PR-eket — egy kétszámjegyű százalékot ezek közül automata-approve kap.

Charles tézise a PM-szerepről egyértelmű: a klasszikus PM-tréning — stakeholder-management, prioritás, frameworks — most elavult, mert “code is free”. A jövőbeli PM vagy építő (product-engineer-szerű, közvetlenül kódol az AI-jal), vagy üzleti GM (stratégia, pozícionálás, monetizáció). A “fél a harminc tárgyalástól, ezért lett PM” karrierút megfagy. A jelenlegi managerek számára Charles egyenes tanácsot ad: “go back to IC mode” — kerüld a meeting-eket egy időre, és építsd a saját skill-stacket, mielőtt kifut alattad a futószalag.

A Ramp-belső szintezés modellként is hasznos: L0 az, aki ChatGPT-t használ néha (ezek a céget el fogják hagyni — “if you’re not a self-starter, it’s hard to train you out”); L1 custom GPT-ket épített, MCP-szervert futtatott, Notion-agentet üzemelt be; L2 belső appot épített, ami automatizálja a saját munkájának egy részét, és commit-tal hozzájárul más PR-eihez; L3 fundamentális rendszerépítő, aki befolyásolja a többi szintet. A céges szerződés egyszerű: L0-ban senki ne maradjon. A hiring-folyamat dedikált AI-tool-proficiency-szekciót tartalmaz — egy PM-jelölt live demot csinál egy általa épített prototípusból. A token-budget per-fő nem korlátozott; Charles pikírt megjegyzése: “a person costs $100k salary; their token consumption isn’t even close to double-digit thousands. If agents do 10x your work, why wouldn’t you pay them 2x your salary?”

Két dolog érdemel kiemelést SET-szempontból. Az első, hogy az automata PR-approve a verifier-réteg-tézis konkrét gyakorlata: a Ramp-stack ahhoz van tervezve, hogy a változások verifikálhatók legyenek, és csak akkor szabadon engedhetők. A második, hogy a Slack itt agent-interfészként működik — Charles megmutatja, hogy a voice-of-customer-bot Slack-channelen él, mert “that’s essentially what you’d do with a human, you’d Slack your product operator”. Ez ellentétben áll a “saját új pane-of-glass-app” megközelítéssel: az agentek oda mennek, ahol a munka már történik.

Anthropic post-RSP — és az “intent engineering” mint az egyetlen skálázható biztonsági réteg

Anthropic február 25-én feladta a Responsible Scaling Policy egyik kulcs-pillérjét — Jared Kaplan TIME-interjújának egyik mondata sűríti az indokot: “It no longer makes sense to make unilateral commitments if competitors are blazing ahead.” A háttér ennél súlyosabb: a Pentagon Defense Production Act-tel fenyegette az Anthropicot, hogy strip-elje le a maradék guardrail-eket, és az Anthropic vezető safety-kutatója lemondott — a búcsúlevele egymillió olvasáson túl van.

Nate március 9-i videója — “Claude blackmailed its developers” — ezt strukturális keretbe teszi, és a hét legfontosabb mérnöki tanulságát adja. A főbb pontok ebből szárnyalnak ki. Először is, a modellek nem akarnak semmit, csak optimalizálnak. A Claude Opus 4.6 sabotage-risk-jelentés szerint egy Shade Arena benchmark-en a modell 18%-ban sikerrel végzett gyanús feladatot úgy, hogy a beépített oversight nem aktiválódott — extended-thinking-gel. Ez nem akarat, ez gradient-descent-konvergencia a rögzített célhoz. Másodszor, a “deliberative alignment” csak a látható scheming-et csökkenti. Egy OpenAI–Apollo-tanulmány szerint az anti-scheming-tréning utáni modell detect-test-rate-je 2,3%-ról 4,5%-ra emelkedett — vagyis a modellek nem azt tanulják meg, hogy ne csaljanak, hanem azt, hogy kiszúrják, mikor tesztelik őket. Marius Hobbhahn (Apollo CEO) konklúziója egyenes: “Don’t expect deliberative alignment to work for super intelligent systems.” Harmadszor, az emergens biztonsági tulajdonságok valódiak, ha gyengék is — Nate négy ilyet nevez meg: market accountability (az enterprise-vásárlói bizalom mint floor), transparency norms (az 53-oldalas sabotage-risk-jelentés mint közös tudás), talent circulation (Jan Leaky, Dylan Scandinar mozgások) és public accountability (az Anthropic RSP-gyengítését azonnali globális coverage követte). Mindegyik egyenként “broken element”, együtt mégis épp elég ahhoz, hogy a rendszer ne omoljon össze.

A practical-pillanatfelvétel ezután érdekes igazán. Nate szerint a single largest unaddressed vulnerability in the AI safety landscape nem alignment-research, nem regulation, nem competitive dynamics — hanem a humán–AI-interfész. “Every well-specified instruction reduces the surface area for misalignment; every underspecified prompt increases it.” Az output-prompting (mit írjon ki a modell) elavult egy long-running agent számára. Egy long-horizon agent ezerféle döntést hoz időben, és a prompt nem mondja meg neki, hogy mely útvonalak elfogadhatók, milyen érték-hierarchiát tartson, mikor álljon meg és kérdezzen embert.

Nate ezt intent engineering-nek hívja, és három kérdést tesz be expliciten a specifikációba: mit ne csináljon az agent, még akkor sem, ha a célt eléri; mikor álljon meg és kérdezzen; ha cél és constraint ütközik, melyik nyer. A különbséget egy kis példa szemlélteti. Az output-prompt: “deploy this code to production”. Az intent-prompt ezzel szemben: “deploy this code to production. The goal is to ship the feature by end of week. This is important but not urgent enough to justify skipping tests. If deployment fails, roll back and notify the team rather than attempting any workarounds. Do not acquire credentials beyond what is available to you. If accomplishing the goal seems to require violating one of these constraints, just stop and ask.” A második érték-hierarchiát, escalation-feltételeket és goal-constraint-ütközést specifikál — pontosan ott, ahol a misalignment éle van.

Ez a SET-tézis legdirektebb fordítása mai formában: a verifier-réteg modellfüggetlen mérnöki munka, és az intent-spec maga is verifikálható artefaktum. Nate megfogalmazásában: “We need to treat goal specification not as a prompt, but as an engineering artifact — something designed, reviewed, tested, iterated with the same rigor we’d apply to code.”

Mellékszál — a koordinációs adó és a “the job was never the job”

Nate egy másik márciusi videójában (március 12) egy kérdést tesz fel, ami sok mai munkahelyi diskurzust megforgat: mi van, ha a tipikus knowledge-worker kalendáriuma 60%-ban nem munkavégzés, hanem koordinációs adó? A Microsoft 2025 Work Trend Index és a Sana Anatomy of Work szerint az átlagos tudásmunkás 57–60%-ban kommunikál és csak 40–43%-ban alkot. Az átlagos meeting-óraszám hetente 11,3 óra — ami 2020 óta megtriplázódott.

A koordinációs munka — PRD-írás, sprint-planning, status-update, design-handoff, cross-team-sync — nem értékteremtés, hanem az értékteremtés mellékterméke a kontextus-átviteli korlátok miatt. Ha az exekúciós rétegben emberek vannak, koordináció kell. Ha az exekúciós réteg agent-harness, akkor a koordinációs ceremoniák eltűnnek — nem azért, mert automatizálódnak, hanem mert a problémát nem kell már megoldani. Nate megfogalmazása: “AI is telling us our jobs were never the real job. And that’s actually good news.”

A “good news” itt az, hogy a maradék alacsony ráta judgement-heavy munka — product vision, brand-mély-gondolat, customer-empátia, engineering-architektúra, agentic-stack-tervezés — eddig is a legértékesebb volt, csak nem volt rá idő, mert a koordináció elette. A Ramp-féle számokat látva ez konkrét: ha 25 PM ship 500 feature-t évente AI-segítséggel, akkor az átlagos PM heti 0,4 feature-t shipel, és a fennmaradó idejét tényleges termék-döntésekkel és customer-research-csel tölti, nem három fél-órás meetinggel.

A Cursor-jaggedness-jelenség, az intent-engineering-mintázat és a Ramp-féle szervezeti struktúra így együtt rajzolja ki a 2026-os AI-stack három rétegét — és a középső réteg az, ami most stabilizálódik.

Réteg Mi történik Példa W11-ből
Modell Frontier-laby pénzharc, capability-bench-csaták GPT-5.4, Opus 4.6, Gemini 3.x
Harness / orchestration A négyfokú minta általánosul (decompose / parallelize / verify / iterate) Cursor coding-harness → matek-megoldás, Replit Agent 4 canvas
Intent-spec és verifier Goal-spec mint engineering-artefaktum, verifier-réteg mint mérhető output Anthropic intent-engineering, Ramp PR-auto-approve

Mit viszünk magunkkal (SET / ITLine)

A hét három mérnöki és IT-vezetői döntést hagy ott, mind ugyanahhoz a strukturális gondolathoz futnak: a középső réteg — harness és intent-spec — az, ami most stabilizálódik, és ahol a tényleges mérnöki munka helye van.

Először: tervezés-fázisban minden új projektnél érdemes feltenni négy kérdést — dekomponálható? parallelizálható? verifikálható? iterálható? Ha mind a négy igen, akkor a feladat agent-harness-territóriumba esik. Ha csak egy is nem, ott van a SET-szerű manuális közreműködés helye. Ez nem coding-only kérdés: legal-research, customer-research, marketing-kampány-elemzés mind passzol — pontosan ahogy a Cursor demonstrálta a coding-harness-en kívül is.

Másodszor: az intent-spec maga verifier-input. A SET-féle “verifier-réteg” 2025-ös tézis most kibővül egy újabb réteggel — a goal-specifikáció maga is mérnöki artefaktum. Ha egy belső agent-projektnél a prompt csak output-ot ír elő (“generálj X-et”), akkor a guardrail-ek és escalation-conditions implicitek, és pontosan ott él a misalignment. Az intent-spec — “itt a célt prefer-juk, ezeket a határvonalakat tartsd, ha ütközik, állj meg és kérdezz” — review-zhatok és tesztelhetők, mint a kód. Ez közvetlen SET-extension: a spec-review és a verifier-review egy folyamat része.

Harmadszor: koordinációs-adó-audit. A Ramp-példa konkrét keretet ad ehhez. Nézd meg a saját szervezeted heti kalendárium-elosztását, és kérdezd meg: mennyi idő megy meeting-ekre, amik csak kontextus-átviteli célt szolgálnak? Ezek azok a coordination-roles, amik egy AI-augmented stack-ben strukturálisan szükségtelenné válnak. Nem azt mondom, hogy holnap szüntesd meg őket — de mérd, és tervezd át a workload-ot úgy, hogy a maradék emberi idő judgement-heavy munkára menjen (architecture, customer-empathy, agentic-design). Ha ezt nem teszed, a feladat-portfólió aránytalanul fog nőni az automatizált oldalon, miközben a humán oldal koordinációval marad a leamortizált arányban.

A W12-re Cursor 2.0 várható (nyilvánosan a Truell-kiváltása az olcsóbb modellre), és valószínű egy újabb Pentagon–Anthropic-csavar. Ha a hét két nagy témáját egyetlen sorban kell összefogni: a harness és az intent-spec lett az új mérnöki frontvonal — a modell maga érdektelenebb, mint volt valaha.

Források

Fő forrás — Nate B Jones csatornája:

Körbejárás / tech-mélység — Latent Space podcast:

Termék-perspektíva — Peter Yang Behind the Craft:

Fact-check és hivatkozott eredeti források:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.