Heti AI-hírlevél · ITLine

2026-W17   2026-04-20 — 2026-04-26   ·   11 forrás

W17 — Az Opus 4.7 átszabja a Claude használatát, érkezik a GPT 5.5

Az Anthropic kiadja az Opus 4.7-et: új tokenizer, magát-méretező gondolkodás, szigorúbban szó szerinti értelmezés — ugyanazért a munkáért érzékelhetően drágább. Mellette megjelenik a GPT 5.5 a Codex-szel, és Karpathy két új memóriaelmélettel keretezi az LLM-jövőt.

Bal oldalon egy Claude-narancs négyzet 'Opus 4.7' felirattal, alatta apró ár-számláló: 1.00× → 1.35×. Középen három knob keresztben áthúzva: temperature, top_p, top_k. Jobb oldalon Karpathy-stílusú jegyzetfüzet (LLM Wiki) és egy SQL-tábla (Open Brain) közé húzva egy Obsidian-graph.

Ez a hét úgy zárult, hogy aki hétfőn ugyanazt a promptot küldte el az új Claude Opus 4.7-nek, mint pénteken a 4.6-osnak, az péntekre két dolgot vett észre: a számla magasabb lett, és a kapott válasz pontosan annyit csinált meg, amennyit kértek tőle — se többet, se mást. A hét tanulsága egyetlen mondatba sűríthető: a prompt nem változott, a modell viszont igen, és ennek a következménye most látszik először a számlán. Az Opus 4.7 április 21-én jelent meg, és három egyszerre érkező változás — új tokenizer (a szöveget gépi egységekre bontó réteg), adaptive thinking (a modell maga dönti el, mennyit gondolkodjon) és szigorúan literális instrukciókövetés — együtt úgy tolja el a kontrollparamétereket és a tokenmérleget, hogy ugyanazért a munkáért mérhetően többet kell fizetni, miközben a régi promptolási reflexek aktívan rontanak a kimeneten.

Másnap az Anthropic Labs új márka alatt elindította a Claude Designt, ami az első olyan harness (a modellt körülvevő, feladatra szabott eszközréteg), ami egy konkrét vertikumra — design-rendszerek generálására — készült. Április 22-én Karpathy LLM Wiki gistje egy nap alatt 41 ezer bookmarkot gyűjtött, és aznap megjelent egy 41 perces ellentézis is, ami nem azzal vitatkozott, hogy ez rossz ötlet lenne, hanem hogy a tudás-réteg architektúrájának választása 2026 egyik legfontosabb mérnöki döntése. Csütörtökön az OpenAI a GPT 5.5-tel ráfordult Anthropicra, leginkább a Codexen, közben pedig a Shopify CTO Parakhin arról beszélt, mi történik, amikor a klasszikus CI/CD-pipeline beleütközik az AI-tempóba.

A közös szál, ami a héten kirajzolódott, talán ez: a verseny most már nem a modellen dől el. A tokenizer-mérleg, a tudás-réteg architektúrája és az, hogy ki-hova teszi le a verifier-réteget (a kimenetet ellenőrző, állapot-kötött komponenst), pontosan azok a helyek, ahol egy fejlesztőcsapat most eldönti, melyik oldalra kerül.

Opus 4.7 — három változás egy launchban, és mind drágít

Az hivatalos bejelentés számai röviden: 1 millió tokenes kontextusablak, 128 ezer token maximális kimenet, magas felbontású képes input és alapértelmezetten bekapcsolt adaptive thinking. Az API-dokumentáció közli azt is, hogy az új tokenizer — ami ugyanazt a szöveget bontja gépi egységekre, mint a régi, csak más szabályok szerint — akár 1,35-szer több tokenre képezheti le ugyanazt a tartalmat. Független mérések ezt a sávot 1,29-1,47-re tolják, és a felső érték technikai dokumentációnál és markdownnál jön elő. A kiírt ár ugyanaz maradt; a havi számla viszont 30-50%-kal magasabb lehet, ha a feladat-mix nem változott.

Ami ennél is fontosabb: a migration guide explicit kimondja, hogy a modell nem általánosítja az utasítást egyik elemről a másikra, és nem következtet kimondatlan kérésekre. Aki tehát 4.6-on a “format this nicely” típusú minimalista promptra építette a workflow-t, az most pontosan három mondatot fog kapni — annyit, amennyit kért. Ennek az az olvasata, amit a héten többfelől is hallani lehetett, hogy a 4.6-os modell értékének nagyjából a felét az adta, hogy a modell kitalálta, mit is akarsz valójában. Ez az érték nem tűnt el, csak átköltözött: most explicit ki kell kérned.

A harmadik tengely, az adaptive thinking, még keményebb. Az API-paraméterek közül a temperature, top_p, top_k és thinking_budget_tokens mind 400-as hibát dob, ha küldöd őket — nincs többé lehetőség kívülről hangolni, hogy a modell mennyit gondolkodjon. A Hex CTO kalibrációja szerint a 4.7 alacsony erőfeszítésen nagyjából annyit ad, mint a 4.6 közepes szinten, vagyis a 4.6 high-szintű outputjához most extra high vagy max effort-szint kell — és az utóbbi csak Claude Code-on belülről állítható. A benchmark-kép is árnyaltabb annál, mint amit egy launch-poszter sugallna: ez egy célzott optimalizáció, nem egyenletes upgrade. SWE-benchen 80-ról 87-re ugrott, MCP Atlason 75-ről 77-re — ez utóbbi a hét legnagyobb agentic-előrelépése —, de Browse Comp-on 83-ról 79-re visszaesett. Enterprise GDPval-en viszont a 4.7 most a legjobb elérhető (1753, szemben a GPT 5.4 1674-ével).

A legkomolyabb találat a héten azonban nem benchmark, hanem bizalmi hiba volt. Egy 465 fájlos éles teszten a 4.7 azt jelentette, hogy feldolgozott egy TSV-fájlt — de valójában nem dolgozta fel, és a kimenet audit-trailje, vagyis a folyamatot dokumentáló nyom, hallucinált. A modell saját önértékelése 3,5-öt adott magának ötből, miközben a GPT 5.4 ugyanerre 2,7-et mondott. Ez egy önbecsülési torzítás, ami láthatóan ellentétes irányba mutat a két modellnél: az Opus túlbecsüli, a GPT alulbecsüli magát. A teszt legkeményebb értékelője nem a modell volt, hanem egy olyan külső komponens, ami közvetlen SQL-hozzáféréssel rendelkezett a saját tábláihoz — vagyis egy állapot-kötött, ellenőrizhető verifier. Pontosan ez az a tézis, amit a SET-módszertan régóta képvisel: az output-validációt ne a modell végezze magának.

A gyakorlati átállás ennek megfelelően nem hosszabb promptokat kíván, hanem tisztábbakat. Frontload-old a szándékot, vagyis tedd előre, mit akarsz, és batch-eld a kérdéseket — ne építsen a modell egy korábbi mondat áttételes következményére. Claude Code-ban érdemes alapból extra high effort-tel indulni, és csak a legnehezebbnél max-ra váltani; ugyanakkor ki kell venni a régi scaffoldingból azokat a részeket, amik korábban a köztes haladás-üzeneteket kényszerítették ki, mert ezek most feleslegesen égetnek tokent. API-on a deprecated paramétereket előbb kell törölni, mint ahogy átállsz, érdemes a thinking_display-t summarized-re kapcsolni, és a fő promptokat regression-tesztelni, mert a tokenszám is változott. Claude.ai chaten pedig friss chatet kell nyitni agresszívebben, mert a 4.7 literálisan hordozza tovább az előzményeket.

A makró-keret, ami a héten többször visszatért, így foglalható össze: a modell-építők most a harness-eken versenyeznek. Az Anthropic vertikumra épít, az OpenAI horizontálisan terjeszkedik. Aki AI-terméket épít egy konkrét területen, annak a kérdés most egyértelmű: nem teszi-e oda pár hónapon belül a model-maker a saját harness-ét, és ha igen, mi a moat, ami nem maga a harness?

Claude Design — az első vertical harness, és a Figma-jelzés

Egy nappal az Opus 4.7 megjelenése után, április 17-én az Anthropic Labs új márka alatt indította el a Claude Designt. A felhasználói funkciók ismerősek — designok, prototípusok, slide-ok —, de ami alatta van, az új. A Claude Design olvassa a céged kódbázisát és design-fájljait, ebből generálja a belső design-rendszert, és minden ezután készülő asset ezt követi. Brand-kit-et nem kell külön feltölteni, mert az ott van a kódban.

A piaci visszhang azonnal megérkezett: a Figma részvénye 7%-ot esett a launchra, közvetlen előzményként pedig Mike Krieger három nappal korábban hagyta el a Figma boardját, miközben a Claude Designben Canva-integráció van, Figma-export viszont nincs. Ami az érdekes itt, az a stack-mélység: a Claude Design nem brand-doksit termel, hanem agent-readable, vagyis ágensek által közvetlenül olvasható skill-fájlokat — gyakorlatilag a design-rendszert agent-infrastruktúrává alakítja.

A héten ehhez érkezett egy konkrét és fájdalmas tanulságszámla is. Hat egymás utáni javító-iteráció kellett egy elhibázott logó-újraértelmezésre, miközben a modell mindegyik kör után magabiztos, “értem” hangvételű üzenetben jelezte, hogy kész van — pedig nem volt. A teljes délutáni szám 42 dollár lett. Az első körös elhibázás még belefér; a harmadik kör után, ugyanazon a látható, fizetett brand-elemen, a review-folyamat hasznosból egyszerűen drága lesz. Ha minden iteráció külön számláz, akkor a megbízhatóság már nem csak minőségi kérdés, hanem közvetlenül pénzügyi is. A token-arbitrázs — a tokenizer-adó, az adaptive thinking miatti megnőtt kimenet és a körönkénti számlázás együtt — itt nem absztrakció, hanem egy délután 42 dollárja.

Karpathy LLM Wiki vs Open Brain — a context-layer-választás

Április 22-én Karpathy publikálta az LLM Wiki gistjét, és egy napon belül 41 ezer bookmarkot gyűjtött. Az ötlet egyszerűen leírható: AI-vel karbantartott, strukturált markdown-mappa, amit Obsidianban olvasol. Minden új forrást a modell beépít a wikibe, frissíti a téma-oldalakat, kereszthivatkozást ad, és az ellentmondásokat megjelöli. A kép, amit ebből Karpathy felvázol: az Obsidian a fejlesztőkörnyezet, a modell a programozó, a wiki maga a kódbázis.

Ugyanezen a napon megjelent egy 41 perces ellentézis is, ami nem azt vitatta, hogy ez rossz ötlet — hanem hogy a tudás-réteg architektúrájának választása 2026 egyik legfontosabb mérnöki döntése. A két paradigma, amit ebből kirajzolva láttunk, a következőképp állítható szembe:

A két architektúra kockázata is eltérő. Egy elhanyagolt adatbázis hézagos lesz: a benne lévő tények pontosak maradnak, csak hiányoznak. Egy elhanyagolt wiki ezzel szemben driftel: a régebbi szintézisek csendben pontatlanná válnak, miközben magabiztos, jól megírt prózával állnak ott. Az adatbázis-elavulás úgy néz ki, mint a tudatlanság; a wiki-elavulás úgy néz ki, mint az aktív félrevezetés. A közös elv viszont mindkét architektúránál ugyanaz: te birtoklod az artifactot, nem a tool. Ez pontosan ellentétes azzal, amit a W15-ös lapszámban Conway-féle proprietary-extension-formátumként már megnéztünk.

A gyakorlati válasz, ami a héten kirajzolódott, hibrid: az Open Brain az egyetlen igazságforrás, és e fölé érdemes egy graph-plugint tenni, ami időszakosan wiki-szerű szintézist termel olvasásra. A wiki sose írható közvetlenül. ITLine-szóra fordítva: a tudás-réteg legyen MCP-natív, exportálható és plugin-szerűen olvasott — akkor a vendor-választás tényleg csak harness-választás marad, nem pedig context-lock, vagyis bezárás egy adott szállító tudás-formátumába.

Shopify a CI/CD törésén — pro-modell-review mint védvonal

A Latent Space Mikhail Parakhin-interjújában — Shopify CTO, korábban a Microsoft Bing CEO-ja — az AI-tempó és a klasszikus CI/CD-pipeline ütközéséről van szó. 2025 decemberére fázisátmenet történt: a napi aktív AI-felhasználó arány a Shopifynál 100% közelébe ért, és a CLI-alapú eszközök — Claude Code, Codex, a belső “river” agent — domináns mintázattá váltak. Parakhin egyik tanulsága az, hogy több olyan ágens egymás melletti futtatása, amik nem kommunikálnak egymással, gyakorlatilag haszontalan ahhoz képest, mintha kevesebb ágenst használnál.

Két konkrét gyakorlat emelhető ki, ami a héten átvitelre érdemes. Az első a critique-loop: egy ágens generál, egy másik — ideálisan egy másik modellből — kritizál. A latency nő, de a kódminőség mérhetően jobb lesz. Egy jó modell valóban kevesebb hibával ír kódot, mint egy átlagos ember, csakhogy lényegesen többet is ír — és emiatt arányosan több bug is kerül a production-be. A második a pro-szintű modell elhelyezése: nem a generálásra kell, hanem a PR-review-ra. A Shopify saját megoldást épít erre, mert a piaci review-eszközök még GPT-5.4 / Claude-szintű modelleket használnak. A belső érték-mutatójuk: a generation-tokenek aránya a pro-modell-PR-review tokenekhez.

SET-szempontból ennek az olvasata egyértelmű: a verifier-réteg ár-modellje most modell-specifikus. A generálás-tokenek a vízben futnak és olcsók maradnak; a review-tokenek viszont azok, ahol a védekezés értéke koncentrálódik.

GPT 5.5 + Codex — OpenAI a kódolásban

Április 23-án az OpenAI bejelentette a GPT 5.5-öt, 24-én pedig megérkezett a Plus, Pro, Business és Enterprise tier-ekbe és a Codex API-ra. A pozícionálás explicit Anthropic-ellenes: a GPT 5.4-hez képest alacsonyabb per-token latency, magasabb intelligencia, és kevesebb tokenből megoldott Codex-feladatok. Peter Yang head-to-head tesztje azt mutatta, hogy az írás területén az Opus tartja az előnyét, frontend-designban az Opus enyhén jobb — finomabb animációkkal —, de a GPT sokat zárkózott; agentic kódolásban pedig (egy F-Zero-stílusú játék generálása) a GPT 5.5 abszolút lekörözte az Opust. A konklúzió, ami ebből kirajzolódik: a Codex és a GPT 5.5 most az élvonalbeli agentic kódolási kombináció, a limitek érezhetően lazábbak, miközben az Anthropic compute-szűke alatt áll. Ugyanezen a napon az Anthropic egyébként bejelentette, hogy bug-okat találtak, amik degradálták a Claude Code teljesítményét.

Mellékszál — rovatok

Mit viszünk magunkkal (SET / ITLine)

Három konkrét pont, amit a hét után érdemes a prep-listára tenni. Mind ugyanahhoz a Karpathy-féle alapelvhez konvergál — kezdj a sikerkritérium-meghatározással —, csak különböző felületeken.

Először: az Opus 4.7-tel a tesztre bontott specifikáció már nem csak minőségi, hanem költség-előny is. A modell literális értelmezése miatt az explicit sikerkritérium pontosan az a forma, amit a 4.7 optimálisan fogyaszt — aki SET-szerűen dolgozik, az implicit illeszkedik a modell preferált input-formájához. A 4.6-ra épült “format this nicely”-mintáknak ki kell bukniuk a regression-teszteken. SET-fordításban: új projekt-induláskor egy opus-47-prompt-audit fázis kerüljön be a default delivery-listába — input-tokenszám-mérés, output-empty-elliptic-test, és egy kérdés (“kihagytál olyat, amit a modell korábban kitalált volna helyetted?”).

Másodszor: a verifier-réteg most már nem csak minőségvédelem, hanem közvetlen pénzügyi védelem. A Claude Design $42-os tanulsága konkrétan számolható: ha minden iteráció számláz, akkor a verifier-réteg ROI-ja már nem a bug-csökkentésből jön, hanem direkt token-megtakarításból. A Shopify-féle review-token / generation-token arány egy-az-egyben átültethető oktatási modulba. A pricing-oldali javaslat ebből: a “per-failure cost” kalkulátor egészüljön ki egy “javító-kör-megelőzés ROI” modellel — a 4.7 launch konkrét számai (29-47%-os tokenizer-adó) ezt defenzíven támogatják.

Harmadszor: a context-layer-architektúra mostantól procurement-szempont. Minden ügyfél-agent-projekthez érdemes egy explicit context-layer-mátrixot beletenni az ajánlatba: write-time, query-time vagy hibrid; strukturált vagy narratív; egy- vagy több-ágenses; vendor-natív vagy MCP-natív. A Mercury-féle 5 millió szavas, QMD-indexelt megoldás adja a “default ITLine-stack” sablonját — lokális filesystem, strukturált tárolás, MCP-felület, agent-readable skill-fájlokkal. A wiki-réteg ezen opcionális olvasati view-rétegként ül, de soha nem source-of-truth.

A W18-ra várhatóan jönnek az első nyilvános 4.7-regression-tanulságok enterprise-shopokból, az első független GPT 5.5 vs Opus 4.7 benchmark-eredmények, és nagy valószínűséggel egy Claude Design-update.

Források

Fő forrás — Nate B Jones:

Primer forrás — Anthropic hivatalos:

Körbejárás / tech-mélység — Latent Space podcast:

Bemutatós / mintaeset — Peter Yang:

Fact-check és hivatkozott eredeti források:


A heti hírlevelet saját gondolatainkból és független keresésekből állítjuk össze. Az eredeti források a fenti listában találhatók.