Ez a hét úgy zárult, hogy aki továbbra is azon vitatkozott, melyik modell vezet a leaderboardon, az lemaradt a tényleges játékról. Ami ezen a héten kirajzolódott, egyetlen mondatban annyi: a modell-szint kérdése elveszítette a stratégiai súlyát, és helyette a harness (a modellt körülvevő, feladatra szabott eszközréteg) meg a context layer (a kontextust biztosító tudás-réteg) lépett előre. Egyfelől Daario Amodei kiállt a Pentagon-szerződéssel szemben, és cserébe megkapta a “supply chain risk” minősítést — közvetlen következményként Claude március 1-jén megelőzte a ChatGPT-t az App Store-ban, a napi feliratkozások háromszorozódtak, a fizetős előfizetők megduplázódtak. Sam Altman ugyanazon a hétvégén csendben aláírta az OpenAI-Pentagon-szerződést, és ráhúzta a 110 milliárd dolláros, 840 milliárdos post-money valuációval záruló mega-funding round-ot — Amazon 50 milliárddal, Nvidia 30-cal, SoftBank 30-cal.
Másfelől március 5-én megérkezett a GPT-5.4, 1M-es kontextusablakkal és natív computer-use-szal — Nate vak kiértékelésében Mickey Mouse simán bejutott egy “production database”-be, miközben kvantitatív modellezésben verést mért az Opus 4.6-ra. A Latent Space ugyanezen a héten Aaron Levie-vel (Box), a Cursor cloud agents launchcsel, Dex Horthyval (HumanLayer) és a Pencil swarm mode-jával ugyanazt az egy tézist erősítette különböző hangszerelésben: az “agent-stack” most már annak a függvénye, milyen harness, milyen context, milyen verifier (a kimenetet ellenőrző, állapot-kötött komponens) és milyen csapatméret veszi körül. Ez egybehangzik az Anthropic Building Effective Agents-féle W07-tézissel — csak most 2026-ban a piac kemény üzleti döntésként élte meg.
Anthropic vs. OpenAI vs. Pentagon — a hét nagy reverzál-játszma
A hét központi eseménye nem egy modell-launch volt. Daario Amodei február 26-i nyilvános állásfoglalásában közölte: az Anthropic 98-99%-ban támogat Pentagon-felhasználást, sőt — és ez a meglepő csavar — Amodei explicit kimondta, hogy a részben autonóm fegyverek vitálisak a demokrácia védelméhez, és még a teljesen autonóm fegyverek is kritikusak lehetnek a nemzetvédelemben. Az Anthropic kifogása tehát technikai, nem morális volt: a modellek még nem elég megbízhatóak. Ezt a Pentagon nem fogadta el, és Pete Hegseth védelmi miniszter — Nate elemzése szerint — ultimátumot adott: vagy korlátlan használat bármilyen lawful military purpose-ra, vagy “supply chain risk” minősítés. Az Anthropic visszautasította, és március elején megkapta azt a stigmát, amit korábban amerikai céggel szemben nem használtak.
Itt érdemes pár tényt egy helyre tenni, mert a sajtó-narratíva ezen a vonalon hajlamos egyszerűsíteni. Először is, Claude már ott lakott a Pentagonban: a Wall Street Journal beszámolója szerint a US Central Command Claude-ot használt intelligence-assessmentre, target identificationre és combat-simulationre — még az iráni csapásoknál is, órákkal azután, hogy egy elnöki utasítás megtiltotta a használatát. A modell egyszerűen túl mélyen volt integrálva a workflow-kba ahhoz, hogy real-time kihúzzák. Másodszor, a backlash-effekt mérhető lett: Claude március 1-jén a #1 lett az amerikai App Store-ban, a ChatGPT-t is megelőzve, az Anthropic szóvivője szerint pedig a napi feliratkozások háromszorozódtak, a free user-ek 60%-kal nőttek január óta, a fizetős előfizetők pedig megduplázódtak. Harmadszor, és ez talán a legfontosabb: az OpenAI gyakorlatilag ugyanezt írta alá, csak csendben. Sam Altman szerződése szinte azonos red-line-okat tartalmaz — nincs mass domestic surveillance, nincs autonóm fegyver, nincs social-credit-jellegű automatizálás —, a különbség inkább a deployment-architektúrában rejlik: cloud-only, OpenAI-engineerek embedded a Pentagonban, és a modellek nem épülnek bele weapon-hardware-be (legalábbis amennyit publikusan tudunk).
A 110 milliárdos round szerkezete hasonlóan tanulságos. Amazon 50 milliárddal száll be (ebből 35 feltételes), Nvidia és SoftBank 30-30 milliárddal — a 840 milliárdos post-money valuáció pedig azt is jelenti, hogy a Microsoft kimaradt, vagyis a 27%-os tulajdonát visszafogta, és helyette egy 20%-os revenue-share-t vesz 2032-ig. Az AWS lesz az exkluzív third-party distributor az OpenAI Frontier-platformhoz. Bloomberg jellemzése körkörös finanszírozás: Nvidia befektet, OpenAI Nvidia-chipet vesz; Amazon befektet, OpenAI AWS-t fogyaszt; SoftBank befektet, OpenAI Stargate-en deployol. Hogy ez flywheel vagy kártyaház, Nate megfogalmazásában attól függ, mennyi enterprise-token-igény materializálódik. Annyi mindenesetre objektív, amennyit a TechCrunch is megerősít: a 2023-as teljes amerikai VC-volumen 65%-a egyetlen tranzakcióban landolt.
Harness diverzió — Claude Code vs. Codex, és miért nem a modell a kérdés
Nate március 6-i “Claude Code vs Codex: The Decision That Compounds Every Week You Delay” videója egy mérnöki alapfogalmat tisztázott, ami eddig hiányzott a publikus diskurzusból: a model és a harness együtt adja az AI-stack teljesítményét, és a harness sokkal jobban divergál, mint maga a modell. A January 2026 AI Engineer Summiton bemutatott CORE benchmark konkrét számot adott rá: ugyanaz a Claude-modell 78%-ot ér a Claude Code-harness-ben, és 42%-ot egy másik harness-ben. Ugyanaz a brain, más body, és kétszeres teljesítmény-különbség.
A két harness-philosophy nem véletlenül különbözik. A Claude Code filozófiája az, hogy “bash is all you need”: az agent a saját shell-edben fut, hozzáfér mindenhez (env-változó, SSH-kulcs, fájlrendszer), Unix-primitíveket láncol pipe-okkal, a kontextust pedig fájlrendszer-alapon kezeli — claude.md, progress-log JSON, git history. A skillek markdown-fájlok a fájlrendszeren, az agent csak a rövid leírást látja (50-100 token), és csak akkor olvas teljes skill-definíciót, ha használni akarja. Multi-agent szinten explicit sub-agentek (Haiku-példányok exploration-re, Opus döntéshozatalra), shared task list, dependency-tracking. A trust boundary itt a teljes munkaállomásod.
A Codex ezzel szemben azt mondja, “repo is the system of record”. Az agent isolated cloud-container-ben fut, internet by default tiltva, kód clone-olva. A Browser DevTools Protocol direkt drótra van kötve (DOM-snapshot, screenshot, navigáció), per-worktree Victoria-logs/Victoria-metrics observabilityvel. Az architektúra-szabályok lintekkel kódba vannak kényszerítve, és a lint-error üzenete egyben remediation-instruction is. Multi-agent szinten izolált sandboxok, koordináció git-branch-ek és merge-ek között. Ami nincs a repóban, az illegible az agentnek, tehát nem létezik — ez OpenAI 1 millió soros internal-product-épitéséből (5 hónap, 1500 PR, 0 manuálisan írt kód) levont alaptétel.
Ami a harness-választást stratégiai kérdéssé teszi: a csapat köré akkumulált automatizálás minden héttel összegződik a választott harness körül. Calvin French Owen (Codex web product launch) a saját skill-evolúcióját — /commit, /worktree, /implement, /implement-all — leírva pontosan ezt mutatja meg: minden skill az adott harness architektúrájához kötődik. Másik harness-re átállás tehát nem új commands-tanulás, hanem az egész compounding chain újraépítése. Ez strukturális lock-in, nem vendor-előfizetés — modelmaker-philosophy-lock-in. Nate analógiája erre a 2010-es cloud-háború: aki akkor azt mondta, “AWS és Azure ugyanaz, mindkettő VM és storage”, technikailag igaza volt, stratégiailag tévedett. Az AI coding-tools most ugyanitt vannak: a modellek hasonlóak benchmarken, az architektúrák viszont olyan vonalakon divergálnak, amik 2-3 év múlva határozzák meg, mi lesz egyáltalán lehetséges.
Cursor Cloud Agents és Pencil swarm — ugyanaz a tézis vizuálisan
A Latent Space március 6-i Cursor-epizódjában Sam Whitmore és Jonas Nelle bemutatta a most launcholó cloud-agents-t. A három “pillér” pontosan azt a harness-felépítést konkretizálja, amit fent láttunk. Az első, hogy a modell maga teszteli a saját változtatását: full VM, dev-server-ek elindulnak, end-to-end test fut. Egy fél órás futás után már nem “I tried”-PR-t kapsz, hanem “I tested”-PR-t. A második pillér a videó a változásról: amikor egy agent gyorsan tud kódot generálni, a code-review lesz az új szűk keresztmetszet, és egy 20 másodperces videó az új belépőpont, nem a giant diff. Jonas megfogalmazásában: ha egy ember adna olyan PR-t, amit nem tesztelt, ugyanennyire idegesítő lenne. A harmadik pillér a full remote VNC-access a VM-be — a cloud-agent saját cloud-agentet indíthatna (a Cursor egyelőre disabled-ben tartja, “someday we might”). A bug-fixek pedig egy /repro slash-commanddal mennek: az agent reprodukálja a bugot, videót csinál, fixeli, újabb videót csinál — könnyű merge, mert látod, hogyan működik.
A 78% vs 42% szám itt épp dimenzióját mutatja: a Cursor cloud-agent harness ugyanazt a modellt az Auto-Tab-tól örökölt 2023-as DOM-based browser-use-experimentum után egy AGI-pilled “brain in a box”-architektúrára cserélte, ami csak pixeleket kap és csak koordinátákat ad ki. Aaron Levie (Box, március 5-i Latent Space) ezt egyetlen mondatba tömöríti: minden agentnek kell egy doboza. Nála ezen kívül van egy fontos megfigyelés is arról, hogy az AI-coding miért robbant, és más knowledge-work miért nem. A software-engineering esetében az új engineer a teljes codebase-hez fér, a medium text-in-text-out, a labok daily-userei a saját tooljuknak, és létezik doc/spec-practice. Más knowledge-work esetében a hozzáférés egy tiny subset, a medium Zoom és in-person-call, a labok nem napi userek, és nincs dokumentáció-practice sem. Az AI-coding-momentum tehát nem automatikusan száll át a marketing-re, sales-re vagy legal-re — ez egy multi-year march, hogy az ügynököket beengedjék az enterprise-ba.
A Peter Yang március 8-i Tom Krcha-interjúja (lásd a Pencil app-ot, a16z Speedrun, 100 000 user 8 héttel a launch után) ugyanezt vizuálisan demonstrálja: hat AI-design-agent dolgozik egyszerre egy mobile-app-design-en, mindegyiknek saját kurzor és név a vásznon, párhuzamos szub-task-okat dolgoznak. A .pen fájl-formátum JSON, agentic-ground-up tervezve: olyan design-fájl, ami git-be mehet, agentek olvashatják és írhatják, és a Cursor extension-ben rendes vizuális editort kapsz hozzá. Ez közvetlen leképezése a Codex “repo is the system of record”-elvének design-tooling-ra. Tom megfigyelése a “humanizált kurzorról” pedig egy érdekes UX-tanulság: csak egy kurzor, mégis úgy érzed, valaki tényleg ott áll mögötte — observability mint UX-feature, ahogy a Cursor videós PR-jánál is.
GPT-5.4 — agent-substrate, nem chat-frontier
Március 5-én megérkezett a GPT-5.4 három felületen egyszerre: a ChatGPT-be mint “GPT-5.4 Thinking”, az API-ra gpt-5.4 néven 1M-es kontextusablakkal, és a Codexbe is. Nate a március 7-i blind-eval-videójában hat strukturált evalon futtatta a modellt — Opus 4.6 és Gemini 3.1 Pro ellen, független judginggal —, és a tanulságok mérnöki szempontból három pontba szervezhetőek.
Az első a toggle-thinking-vs-auto-szakadék: az epistemic-calibration evalon thinking-mode-ban a GPT-5.4 első helyért versenyez (pontosan eltalálja a Higgs-boson-tömeget, az Apple-záróárfolyamot, a matrix-multiplication-exponenst). Auto-mode-ban viszont 2024-es Nobel-díjasokat nevez egy 2025-ös kérdésre, egy 2020-as matrix-boundot idéz, és utolsó helyre csúszik. Ugyanaz a modell, ugyanaz a kérdés, drámaian eltérő eredmény. Az operatív implikáció elég kemény: a felhasználók 99%-a auto-módban használja, és nem fogja érteni, miért nem világelvonal.
A második tanulság a Mickey Mouse a production database-ben. A “shoebox-schema-migration” eval (kézzel írt számlák, vegyes DB-sémák, korrupt JSON-backupok) GPT-5.4-en 99,1%-os file-discovery-t hoz (Opus 4.6 ezzel szemben csak 75%-ot, mert nem hajlandó pip install openpyxl-t futtatni, és csendben skip-eli az Excel-eket). Csakhogy: a tesztadatban szándékosan elhelyezett “Mickey Mouse” fake customer és egy 25 000 dolláros car-wash-order átment a szűrőn, és a végén 394 flag-elt itemet ad vissza kategorizálás, prioritás, szűrés nélkül — a Claude ugyanerre 19 actionable flag-et ad. A GPT-5.4 pipeline-ként kezeli a feladatot, nem problémaként; beépíti az adatot, de nem kérdezi meg, miért. A 56 perces task-completion-time vs Claude 15 perces is ezt erősíti: több munka, kevesebb judgment.
A harmadik az igazi erősség, a progressive tool discovery. Nate ezt nem-marketing-szempontból a kiadás legfontosabb architektúrális innovációjának tartja: ahelyett, hogy minden tool-definíció a system-promptba töltődne (38 GitHub MCP-tool már önmagában 15 000 token), runtime-on keresi a relevánsakat. Aki több tucat MCP-szerverrel zsonglőrködő agenteket épít, annak ennek konkrét cost-impactje lesz.
A model-positioningnél az érdekes megfigyelés Nate olvasatában az, hogy a release-notes leggyakoribb szava nem “intelligence” és nem “reasoning” — ezek 2025-ös szavak —, hanem “agent”. Az új feature-ök agentikusak, az architektúra-innováció (tool search) agentikus, a pricing-emelés akkor logikus, ha agentek órákig futnak token-fogyasztás-folyamatosan, nem ha emberek típusolnak egy kérdést per turn. Időzítés-szempontból érdekes az is, hogy Peter Steinberger pár héttel a release előtt ment OpenAI-ba, és ott “secure stable big-company OpenClaw”-t épít. A GPT-5.4 még nem az, de nagyon erős nyilak mutatnak az irányba — computer-use, long-running task, tool-search.
Mellékszál — rovatok
- Team-of-five és AI-slop-tax. Nate március 8-i videójában elővesz egy 2025-ös Harvard-mezőkísérletet (P&G, 776 professional): az AI-augmented team háromszor nagyobb eséllyel produkál top-10%-os ötletet. A team-of-five-tézis (Dunbar 1992, Brooks 1975, Bezos two-pizza) egyszerű: 5 fő = 10 kommunikációs path, 10 fő = 45, 20 fő = 190. Az AI nem rendezte át a számot, csak a következményeit: ha egy fő 250 000 dollár értéket termelt, a 6. fő coordination-cost-ja kezelhető volt; ha 2-3 milliót AI-val, akkor a 6. fő hozzáadása megsemmisíti azt. Volume cheap, correctness scarce — ahogy Nate fogalmaz, nem költségcsökkentést kaptál, hanem force multipliert.
- Open Brain — agent-readable second-brain. Nate március 2-i videójában database-backed, MCP-readable kontext-réteg-architektúrát rak le — havi 10-30 cent költség mellett. A tézis itt az, hogy a memóriaarchitektúra sokkal jobban meghatározza az agent képességeit, mint a modellválasztás. A Claude memory nem tudja, mit mondtál ChatGPT-nek; 2026-ban VC-stack épül erre a felismerésre (Mem, Synced, OneContext). A walled-garden-memory már nem felhasználói kényelmi probléma, hanem agent-kompatibilitási kérdés.
- Cursor mint Slack-IDE; Dex Horthy és a “dumb-zone”. A Cursor-team belső megfigyelése, hogy a cloud-agent-rendszer az IDE-fogalmat Slack-irányba rendezi át — issue-channelben
@cursorindít agentet, az agent pedig saját maga@-z embereket git-blame alapján. Plusz a Latent Space In-Context Cooking epizódja Dex Horthyval (HumanLayer, 12-Factor Agents): a 40%-os kontextus-kihasználás újoncnak red-flag (compaction-pont), tapasztaltak 60-70%-ig nyomják — Horthy szerint heti 70 órát kell beszélni Claude-dal, hogy az ember intuíciót építsen erre.
Mit viszünk magunkkal (SET / ITLine)
A hét három, az ITLine-prep-szempontjából közvetlenül használható kérdést hagy ott, és mindhárom ugyanahhoz az alapelvhez konvergál: a stack mostantól nem a modellnél kezdődik, hanem a körülötte épülő rétegnél.
Először: a harness-első procurement-szempont. Ha vezetői pozícióban ülsz, és AI-coding-tooling-ról döntesz, a kérdés nem az, hogy “Claude vagy Codex”, hanem az, hogy melyik harness-philosophy illik a csapat valós workflow-jához, és mibe kerül átállni róla 12-18 hónap múlva. SET-átfordításban: a verifier-réteg — test-suite, lint-rules, gate-script-ek — modell-független és harness-független, ezt érdemes elsőre tervezni, és az adott harness köré húzni a CI/CD-integrációt, nem fordítva. A Building Effective Agents-tézis (W07) ma is áll, csak most konkrétan árazható: ha a csapatnak egy működő claude.md-workflow-ja van, a Codexre váltás költsége nem a parancsok újratanulása, hanem a teljes compounding chain újraépítése.
Másodszor: a context-layer mint “system of record” — házon belül építeni vagy várni. Nate március 5-i mélyebb elemzése leírja, hogy az OpenAI publikusan az AWS-szel egy stateful runtime environmentet fejleszt — ez a trillió-token-context-layer, ami szubsztituálná a klasszikus SaaS-system-of-record-stacket (Salesforce, ServiceNow). Számos enterprise nem tud erre 12-18 hónapot várni. SET-fordításban: kis-skálájú context-layer (néhány millió token, jól strukturált hierarchia, MCP-szerver) ma is építhető, és ha ITLine-projektben jelenik meg, ne SaaS-feature-ként, hanem agent-readable rétegként tervezzük. Ahogy Aaron Levie fogalmaz, a legtöbb enterprise több kosárban akarja tartani a tojásait — az on-prem context-layer értéke pedig pontosan akkor nő, amikor az iparági narratíva OpenAI/AWS-monopóliumra konvergál.
Harmadszor: a team-of-five mint stratégiai — nem költségcsökkentési — kérdés. A 2026-os ITLine-prep-ben a “kisebb csapat AI-val” ne cost-cut framingben merüljön fel, hanem ambition-multiplier-ben: ugyanaz a 10-15 fős csapat AI-val 2-3 párhuzamos strike-team-re rendezhető át, mindegyik egy konkrét misszióra. Ez közvetlenül érinti a SET-mint-bemutatható-eset narratívát is: nem azt mondjuk, hogy 5 ember helyettesít 30-at, hanem azt, hogy egy 5 fős kompozit-csapat AI-stackkel ugyanazt a domén-volument fedi le, amit 30 fő addig 6 hónap alatt. Mérési proxy ehhez a revenue-per-employee mint operatív-érettségi mutató — a SaaS-átlag 500K alatt van, az AI-native cégeké 2-3M sávban.
A W11-ben várhatóan jönnek az AWS Frontier-distribution-program első konkrét enterprise-deal-jei, és valószínűleg egy Anthropic-Claude memory-update is.
Források
Fő forrás — Nate B Jones csatornája:
- 2026-03-02 · You Don’t Need SaaS. The $0.10 System That Replaced My AI Workflow — open-brain-architektúra, MCP-readable agent-second-brain.
- 2026-03-03 · Dario Amodei Made One Mistake. Sam Altman Got $110 Billion — Pentagon-reverzál, OpenAI 110B funding-round-elemzés.
- 2026-03-04 · Everyone You Know Is About to Try Claude — Constitutional AI vs RLHF, gyakorlati Claude-tanulság új user-eknek.
- 2026-03-05 · OpenAI Leaked GPT-5.4. It’s a Distraction — context-layer mint új system-of-record, négy-bet-elmélet.
- 2026-03-06 · Claude Code vs Codex: The Decision That Compounds — harness-philosophy mélyelemzés, 78% vs 42% benchmark.
- 2026-03-07 · GPT-5.4 Let Mickey Mouse Into a Production Database — blind eval-elemzés, thinking-vs-auto chasm.
- 2026-03-08 · 45 People, $200M Revenue. The Question Nobody’s Asking — team-of-five-tézis, AI-slop-tax, ambition-expansion.
Körbejárás / tech-mélység — Latent Space podcast:
- 2026-03-05 · Why Every Agent Needs a Box — Aaron Levie (Box) — context-engineering, agent-identity, miért nem terjed enterprise-context-AI az AI-coding sebességén.
- 2026-03-06 · Cursor’s Third Era: Cloud Agents — Sam Whitmore, Jonas Nelle — cloud-agents launch, video-as-PR-review, /repro-pattern, Slack-as-IDE.
- 2026-03-06 · Why Your AI Agents Don’t Work — Dex Horthy (HumanLayer) — context-engineering 12-Factor Agents-szerző, dumb-zone-szabály, slop-tágabb-definíció.
Bemutatós / mintaeset — Peter Yang Creator Economy:
- 2026-03-08 · I Watched 6 AI Agents Design an App Together — Tom Krcha (Pencil) — Pencil swarm-mode,
.penJSON-format, agentic-ground-up design-tooling.
Fact-check és hivatkozott eredeti források:
- TechCrunch — OpenAI launches GPT-5.4 with Pro and Thinking versions (2026-03-05)
- OpenAI — Introducing GPT-5.4
- TechCrunch — Anthropic’s Claude rises to No. 1 in App Store (2026-03-01)
- Fortune — Anthropic’s Claude overtakes ChatGPT in App Store (2026-03-02)
- CNBC — Anthropic’s Claude hits No. 1 on Apple’s top free apps list (2026-02-28)
- CNBC — OpenAI announces $110B funding round (2026-02-27)
- TechCrunch — OpenAI raises $110B in one of the largest private funding rounds in history
- Nate B Jones Substack — Same model, 78% vs 42%: the harness made the difference
- Tom Krcha / Pencil — SWARM mode launch (2026-03-04)
- Pencil.dev — a16z Speedrun company page
A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.