W18 — Nem a modell dönti el: az infrastruktúra hete

Kép helye — Középen egy vízszintes rétegdiagram: alul ‘substrate’ feliratú vastag csík (Jira-ikon, CRM-ikon, Stripe-logó), fölötte vékony, cserélhető modell-réteg (GPT 5.5, Claude, Gemini kis kártyák egymás mellett), legfölül agent-sziluettek. A kép hangulata technikai, szürke-kék, editorial.

Aki ezen a héten csak a GPT 5.5 benchmarkjait nézte, az a felszínen maradt. Az OpenAI új modellje valóban megemelte a padlószintet, és a három nyilvános hard-teszten megmutatta, mire képes egy erősebb pre-train a valós munkában. De a hét hét videójából kirajzolódó közös szál nem a modellről szólt, hanem arról, ami körülötte van: az infrastruktúráról. A Workspace Agents, a Salesforce Headless 360, a Copilot Co-work, az issue tracker mint agent-szubsztrát, a Stripe agentic commerce és a személyes AI-gép stack mind ugyanazt mondta el más-más oldalról: a modell cserélhető réteg. Az adat, a jogosultságok, az állapotgép, a fizetési sínek és a memória — ott van a valódi lock-in.

A GPT 5.5 megemeli a padlószintet — de a routing fontosabb, mint a benchmark

Az OpenAI április 23-án jelentette be a GPT 5.5-öt, és egy hétre rá a modell már a napi munka részévé vált. Nate három nehéz, privát teszten futtatta végig a modellt, amelyeket kifejezetten úgy tervezett, hogy a frontier-modelleket is eltörjék. Az eredmények árnyalt képet adnak.

A Dingo teszt — egy fiktív alaszkai pet-tech startup teljes executive launch-csomagja, 23 deliverable egyetlen promptból — a GPT 5.5 87,3 ponttal nyerte, szemben az Opus 4.7 67,0 és a Gemini 3.1 Pro 49,8 pontjával. A modell nem csak teljesített: megértette a munka pózát. Egy egzotikus háziállat-importálással összekötött terméklauncsot nem novelty-kampányként kezelt, hanem szűk, kvalifikált háztartásokra célzó, jogilag óvatos bevezetésként fogalmazott. 17 valódi slide, formulákat tartalmazó spreadsheet-ek, működő dashboard, 34 URL-es kutatási fájl — mind valódi artifact-típusok, nem markdown-ok rossz kiterjesztéssel.

A Splash Brothers teszt — 465 fájlos kis cég adatmigrációja — érdekesebb. A GPT 5.5 elsőként szűrte ki az adatba rejtett csapdákat: elutasította Mickey Mouse-t, a Test Customert, az ASDF ASDF-et és a hamis 25 000 dolláros fizetést. De a backend-higiéniában — enum-normalizálás, service code kezelés, orphan-rekordok — visszaesett a GPT 5.4-hez képest. Nate szerint [15:30]: “5.5 got much better at the areas that are semantically obvious to a human. It still struggled with the boring back-end hygiene that makes a migration durable.”

A harmadik teszt (Artemis 2, interaktív 3D vizualizáció) pedig megmutatta, hol marad az Opus 4.7 előnyben: a vizuális kompozícióban, a blank-canvas ízlésben. A GPT 5.5 információsűrűségben nyert, de vizuálisan rajzfilmesebb lett, mint kellett volna.

A gyakorlati konklúzió nem az, hogy válasszunk egyetlen modellt. Az eredmény egy routing-táblázat: komplex, multi-step, tool-heavy végrehajtásra a GPT 5.5 az első hívás; blank-canvas vizuális tervezésre az Opus; frontend-implementációra referencia-kép + 5.5 Codexben; és a kettő együtt, tervezés + végrehajtás elosztva, mérhetően jobb, mint bármelyik egyedül. A modell-hűség helyett a routing-képesség lett 2026 tavaszi literacy-je.

Az agent-réteg nem modellverseny, hanem infrastruktúra-kérdés

A hét legfontosabb felismerése három különböző videóból állt össze egyetlen tézissé: az agent-réteg értéke nem a modellben van, hanem az alatta lévő infrastruktúrában.

Workspace Agents. Az OpenAI április 22-én indította a Workspace Agents-et: megosztott, Codex-alapú ágensek, amelyek ütemezhetők, Slackben futnak, és team-szinten kezelhetők. A korábbi Custom GPT-khez képest a különbség nem a promptban van, hanem abban, hogy az ágens a munkafolyamat több lépésén keresztül tud dolgozni, fájlokat kezel, eszközöket használ, és ott jelenik meg, ahol a munka történik. A repeatable, cross-tool, known-path feladatokra — heti pipeline-higiénia-riport, ticket-triage, RFP-válasz — a Workspace Agents működik. Nate öt szűrőkérdést fogalmazott meg minden agent-launchhoz: csatlakozik-e a meglévő eszközökhöz, ráépíthetnek-e más ágensek, hozzáfér-e az adatokhoz, van-e ökoszisztéma körülötte, és stackelhető-e.

Salesforce Headless 360. A Salesforce a Trailblazer DX-en jelentette be, hogy minden fontosabb platform-képességet API-n, MCP-eszközön és CLI-parancson keresztül is elérhetővé tesz. Parker Harris kérdése: “Why should you ever log into Salesforce again?” A számok: 60+ új MCP-eszköz, 30+ előkonfigurált coding-skill, Claude Code, Cursor, Codex és Windsurf támogatás. A Salesforce nem ágenst indított — infrastruktúrát épített az agent-gazdaság alá. Az Agent Exchange összefogja a Slack-appokat, az AgentForce-ágenseket és az MCP-szervereket egyetlen piactérre. Egy rejtett, de fontos részlet: az AgentForce 5-ben a Claude Sonnet 4.5 az alapértelmezett kódolási modell, a GPT 5 opcióként elérhető.

Az issue tracker mint agent-szubsztrát. A hét legváratlanabb tézise: a legfontosabb agent-infrastruktúrát nem az AI-labortól kaptuk, hanem véletlenül — a ticketrendszerektől. A Linear CEO márciusban azt írta, az issue tracking halott. Hetekkel később az OpenAI publikálta a Symphony-t, ami pontosan a Linear-boardot használja control plane-ként az autonóm kódolási ágensekhez. A látszólagos ellentmondás feloldása: a humán-ceremónia (manuális ticket-grooming) valóban haldoklik, de az alatta lévő szubsztrát — a tartós állapot, a tulajdonos-mező, az audit-nyom, a jogosultsági modell, a dependency-gráf — az ágenseknek pontosan az, amire szükségük van. Az ágensek ugyanazokkal a korlátokkal küzdenek, mint az emberek: elveszítik a kontextust, kézbesíteni kell egymásnak a munkát, jogosultságra van szükségük, és napokra-hetekre nyúló feladatoknál kell egy context window-on kívüli igazságforrás.

Ez a felismerés újraárazta a “unalmas” enterprise-szoftvereket: a CRM az árbevétel issue trackere, a service desk az ügyfélproblémák ticketrendszere, az ERP a pénz és az ellátási lánc állapotgépe. Az ötpontos diagnosztika, amit Nate javasol minden meglévő eszközre: vannak-e rekordok (nem csak tartalom), van-e állapotgép (nem csak címkék), explicit-e a tulajdonjog, strukturáltak-e az igék, és lekérdezhető-e az előzmény. Amelyik eszköz jól teljesít mind az ötön, az agent-infrastruktúra lesz. Amelyik nem, az köré valaki más építi meg a szubsztrátot.

A vállalati AI-eszköz nem csereszabatos

A héten az is világossá vált, hogy a “melyik modellt használjuk” kérdés mellett van egy keményebb, szervezeti kérdés: mi történik, ha a cég által kiválasztott alapértelmezett AI-eszköz nem alkalmas a csapat tényleges munkájára?

A probléma nem elméleti. A Microsoft maga teszteli a Claude-ot a saját Copilotja ellen — a Copilot Co-work-ben az Anthropic technológiája dolgozik. A Perplexity Computer a Claude Opus 4.7-et használja alapértelmezett orchestrátorként. A Salesforce AgentForce Claude Sonnet 4.5-ön fut. Vagyis az Anthropic enterprise-stratégiája egyre inkább az, hogy más cégek termékeinek belső rétege legyen, nem pedig önálló termékként versenyezzen.

Ennek van egy emberi oldala, ami a héten külön videót kapott. A helyzet, amit Nate leír, nem ismeretlen: az igazgatóság 10x-es AI-eredményeket vár, a jóváhagyott eszköz viszont nem tudja elvégezni a tényleges munkát. Az egyéni közreműködő tudja, a csapat tudja, de az „az eszköz gyenge" nem olyan állítás, ami átmegy a szervezeten. A panasz preferenciának hangzik, nem teljesítményadatnak.

A javasolt megoldás egyszerű, de fegyelmezett. Válassz egy feladatot, ami hetente ismétlődik, legalább 30 perces, és látható kimenettel rendelkezik. Futtasd végig az alapértelmezett eszközön és egy specialistán, ugyanazzal az inputtal. Mérd az időt, az utómunkát és azt, hogy a kimenet küldhető-e. Egy hét után 5-15 adatpontod van, ami több valódi bizonyíték, mint ami az eredeti beszerzési döntés során született. Ha az adat alátámasztja, extrapoláld csapat- és szervezeti szintre, és kérj pontosan annyit, amennyit az adat igazol.

A nagyobb keret: a standardizálás nem azt jelenti, hogy egyetlen eszköz minden feladatra. Az analitikában sem használ senki mindent Excelben. Az agent-rétegben is van helye az alapértelmezettnek, ahol az nyer, és a specialistának, ahol a munka megköveteli. A mérés határa a kettő között — ez az, amit a beszerzésnek ismernie kellene. Nate szerint [24:00]: “Talent is concentrating in places where AI native tooling is excellent.”

Az agentic kereskedelem átrendezi az internet gazdaságát

A Stripe Sessions-en bejelentett termékcsomag egyenként fejlesztési hír, együtt viszont struktúraváltás. A közös irány: fizetési infrastruktúra olyan gazdasághoz, amelyben a vásárló ágense érkezik szándékkal, kontextussal, jogosultsággal — és néha fizetési felhatalmazással — mielőtt az eladó bármit konvertálna.

A régi internet kérdése az volt: hogyan kapjuk be a vásárlót az üzletbe? Az új kérdés: hogyan leszünk használhatóak a vásárló ágense számára, ha a vásárló soha nem jön be? A különbség nem checkout-gomb-kérdés. A Walmart ChatGPT instant checkout tesztje háromszor rosszabbul konvertált, mint amikor a ChatGPT visszaküldte a vásárlót a Walmart saját oldalára. Az instant checkout nem az az abstrakció, ami működik — az agentic discovery igen: a kereskedő termékkatalógusa, árazása, feltételei, készlete agent-olvasható formában jelenik meg ott, ahol a szándék keletkezik.

A Link wallet for agents a legfuturisztikusabb elem: a felhasználó programozható hozzáférést ad az ágensnek a Link-hez, az ágens fizetési kérelmet hoz létre, a Link egyhasználatú kártyát vagy megosztott fizetési tokent ad vissza — az ágens soha nem látja a nyers fizetési adatokat. Ma minden kérés jóváhagyást igényel; a tervek szerint költési limitek és automatikus jóváhagyási szintek jönnek. A fizetési felhatalmazás átköltözik az eladó felületéről a vásárló feladatába.

A kétféle fizetési sín nem véletlen: az egyhasználatú kártya adapter a mai webhez (ágensek vásárolhatnak a meglévő checkout-oldalakon), a megosztott fizetési token a gép-natív jövő felé mutat (streaming payments, per-token számlázás, outcome-alapú elszámolás). A Stripe a Metronome-mal (precíz usage tracking) és a Tempóval (stablecoin micropayment) a két világot egyszerre hídolja. A fraud-kérdés sem mellékszál: a Radar bejelentés arról szól, hogy ha az agentic gazdaság nem tud különbséget tenni valódi vásárlási szándék és agent-formába öltöztetett visszaélés között, akkor az egész piac leáll, mielőtt elindul.

Az egyik legérdekesebb gondolat a márkáról szól. Az ágens nem érez státuszt vagy nosztalgiát, de hordozhatja a márkahűséget mint constraintet. A márka nem billboard lesz, hanem bejegyzés a vásárló működési kontextusában. A kérdés nem az, hogyan éreztessünk valamit a vásárlóval most, hanem hogyan legyünk az a vállalkozás, amelyre a vásárló ágense jó válaszként emlékszik.

Pillanatkép — A személyes AI-gép visszajelentkezett

Az elmúlt 15 évben a személyes számítógép szinte eltűnt: a fájlok a felhőbe költöztek, az alkalmazások böngészőfülekké váltak, a tárolás szinkronizálássá. Az ágensek megfordítják az irányt. Egy hasznos ágens nem csak válaszol — fájlokat akar olvasni, mappákat vizsgálni, teszteket futtatni, böngészőt nyitni, és emlékezni a korábbi döntésekre. Minél hasznosabb az ágens, annál jobban nyúl vissza a számítástechnika legrégibb építőkockáihoz: fájlok, folyamatok, jogosultságok, memória, lokális állapot.

A heti videó nem GPU-vásárlási tanácsot adott, hanem teljes stack-gondolkodást: hardver (Mac Studio M4 Max 128 GB egységes memóriával a tudásmunkásnak, RTX 5090 duál a CUDA-fejlesztőnek, DGX Spark a helyi appliance-úthoz), runtime (Ollama a napi használatra, LM Studio kiértékelésre, vLLM ha a serving infrastruktúrává válik), modellportfólió (gyors helyi modell olcsó hívásokra, erősebb generálista, kódolási modell, embedding modell a memóriához, frontier-felhő a nehéz esetekre), memória (Open Brain SQL-alapú + embedding-hibrid megoldás MCP-vel, vagy Obsidian + plain markdown + Git), és felületek (Open WebUI chat, Continue editor, Whisper lokális transzkripció, Raycast/Alfred launcher).

Az alapelv nem anti-cloud, hanem anti-dependency: a lokális réteg abszorbeálja a privát, ismétlődő, nagy volumenű, kontextus-nehéz munkát, a frontier modell megmarad specialistának a ritka, nehéz feladatokra. A memória a szív: a projektjeid, jegyzeteid, döntéseid, meeting-transzkriptjeid kereshető, saját tulajdonú intézményi memóriává válnak, amely évről évre gyarapodik — függetlenül attól, melyik modellt használod. Nate szerint [16:30]: “In the cloud-first model, the AI service wants to own your memory, and you visit your memory. In the personal compute model, you own the memory, and the models come to you.”

Mit viszünk magunkkal

A hét tanulsága egyetlen kérdésre egyszerűsíthető: mit birtokolsz te, és mit bérelsz? A modell bérelhető réteg — cserélhető, hónapról hónapra javuló, és egyre kevésbé tud egyedül versenyelőnyt adni. Ami nem cserélhető: az adatréteg (a CRM-ben, a ticketrendszerben, az ERP-ben); az állapotgép (a jogosultságokkal, a tulajdonos-mezőkkel, az audit-nyommal); a fizetési sínek (a Stripe-típusú infrastruktúra, ami az agent-gazdaság tranzakcióit hordozza); és a saját memória (legyen az enterprise-szintű context layer vagy személyes Open Brain). Aki most választ agent-infrastruktúrát, az nem modellt választ, hanem szubsztrátot. A modell jövőre más lesz. A szubsztrát marad.

Források

Fő forrás — Nate B Jones:

2026-04-27 · OpenAI Just Gave Every Team A Free Employee. Here’s The Catch. — Workspace Agents: Codex-alapú team-ágensek, Slack-integrációval, ismétlődő workflow-automatizáció.
2026-04-28 · GPT-5.5 vs Claude vs Gemini: The Real Difference Nobody’s Talking About — Három hard-teszt (Dingo, Splash Brothers, Artemis 2), routing-tábla, 5.5 + Codex ereje.
2026-04-29 · Salesforce Killed The Browser. Every Agent Runs Your CRM Now. — Headless 360, 60+ MCP-eszköz, ötpontos agent-launch szűrő, Claude mint embedded engine.
2026-04-30 · Microsoft Is Testing Claude Against Its Own Copilot. Here’s Why. — Copilot Co-work, vállalati default vs. specialist mérés, tehetségmegtartás.
2026-05-01 · RTX 5090, Mac Studio, or DGX Spark? I tried all three. — Személyes AI-gép teljes stackje: hardver, runtime, modellek, memória, Open Brain.
2026-05-02 · Anthropic Might Buy Atlassian For $40B. Here’s Why It Makes Sense. — Issue tracker mint agent-szubsztrát, Symphony, Rovo MCP, szubsztrát-hipotézis.
2026-05-03 · Stripe, Visa, Mastercard, Microsoft, Meta. All Building The Same Thing. — Agentic commerce, Link wallet, streaming payments, fizetési felhatalmazás áthelyezése.

A heti hírlevelet saját gondolatainkból és független forrásokból állítjuk össze. Az eredeti források a fenti listában találhatók.