Dlouho se čekalo, že Anthropic vydá nový AI model Sonnet 5. Nakonec společnost opravdu nový model vydala a rovnou ten svůj nejpokročilejší. Model Opus 4.6 dostal desetinku do čísla - a záhy o desetinku povýšila OpenAI model GPT-5.3-Codex. Těžiště souboje se totiž přesunulo do světa agentního kódování, plánování a samostatného řešení úloh. Zejméně těch vývojových.
Načasování není náhoda. Obě firmy připravovaly reklamy na Super Bowl (9. února), obě věděly o chystaném vydání konkurenta, a obě chtěly ovládnout story o nejpokročilejší AI dříve, než si firemní zákazníci v únoru–březnu uzavírají roční rozpočty na nástroje. Výsledek? Proto ta desetinková změna - rychlý update. Mediální prostor zaplavily desítky porovnávacích článků, z nichž většina jen parafrázuje tiskové zprávy. V tomto textu si kladu jiný cíl. Oddělit reálná data od marketingového šumu.
Klíčová otázka zní: Došlo k kvalitativnímu skoku, nebo jen k dalšímu inkrementálnímu vylepšení? Simon Willison, nejrespektovanější nezávislý komentátor v oboru, měl preview přístup k oběma modelům a jeho verdikt je střízlivý: “Oba jsou opravdu dobré, ale to byli i jejich předchůdci. Nemůžu najít úlohy, které by staré modely nezvládly a nové ano.” Nejzajímavějším výstupem dne pro něj nebyl žádný benchmark, ale Carliniho experiment se stavbou C kompilátoru pomocí 16 paralelních agentů (popsaný zde).
Pokud si potřebujete o obou modelech něco zapamatovat a má to být realistické a střízlivé, mělo by vám výše uvedené zhodnocení plně postačovat a nemusíte číst dále. Pokud potřebujete (či chcete) detaily, pokračujte.
Co přinesly benchmarky, a co nepřinesly
Než se ponoříme do čísel, je třeba říct nepříjemnou pravdu: obě firmy se primárně srovnávají na testech, kde vedou. Anthropic zdůrazňuje GDPval-AA, BrowseComp a ARC-AGI-2. OpenAI tlačí Terminal-Bench 2.0, SWE-bench Pro a OSWorld. Nezávislé cross-benchmark srovnání na identických podmínkách zatím neexistuje. Všechna čísla v tabulce níže pocházejí z vlastních měření výrobců, pokud není uvedeno jinak.
Konsolidovaná tabulka benchmarků
| Benchmark | Opus 4.5 | Opus 4.6 | GPT-5.2 | GPT-5.3-C | Poznámka |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 59.8% | 65.4% | 62.2% | 77.3% ★ | OpenAI vede |
| SWE-bench Verified | 80.9% | 80.8% ↓ | 80.0% | — | Regrese Opus |
| SWE-bench Pro | — | — | 55.6% | 56.8% | +0.4 b., minimální |
| MCP Atlas | 62.3% ★ | 59.5% ↓ | 60.6% | — | Regrese Opus |
| ARC-AGI-2 | 37.6% | 68.8% ★ | 54.2% | — | Největší skok |
| GDPval-AA (Elo) | 1416 | 1606 ★ | 1462 | ~70.9% w/t | Opus +144 Elo |
| BrowseComp | 67.8% | 84.0% ★ | 77.9% | — | Opus vede |
| HLE (no tools) | 30.8% | 40.0% ★ | — | — | Opus, ale viz* |
| OSWorld-Verified | 66.3% | 72.7% | 37.9% | 64.7% ★ | Různé verze? |
| GPQA Diamond | 87.0% | 91.3% | 93.2% ★ | — | GPT-5.2 vede |
| Cyber CTF | — | — | — | 77.6% | Pouze GPT-5.3 |
| Finance Agent | 55.9% | 60.7% ★ | 56.6% | — | Opus vede |
| MRCR v2 (1M ctx) | — | 76.0% ★ | — | — | Sonnet 4.5: 18.5% |
★ = nejlepší skóre v řádku. ↓ = regrese oproti předchůdci. Všechna čísla jsou self-reported výrobci, pokud není uvedeno jinak. GPT-5.3-C = GPT-5.3-Codex.
Co tabulka odhaluje
Žádný model nevede na všech frontách. GPT-5.3-Codex dominuje v Terminal-Bench 2.0 (77.3% vs 65.4%), což je test terminálových dovedností při agentic codingu. To je reálný, 12bodový náskok. Opus 4.6 naopak vede v knowledge work (GDPval-AA: +144 Elo), abstraktním reasoning (ARC-AGI-2: 68.8% vs 54.2%) a webovém vyhledávání (BrowseComp: 84.0% vs 77.9%).
Obě strany mají regrese. Opus 4.6 ztrácí na SWE-bench Verified (80.8% vs 80.9%, statisticky nevýznamné, ale symbolické) a na MCP Atlas (59.5% vs 62.3%), benchmarku pro škálované používání nástrojů. GPT-5.3-Codex na SWE-bench Pro zlepšil skóre o pouhých 0.4 procentního bodu (56.8% vs 56.4%), což je na hranici statistické chyby.
Humanity’s Last Exam je problematický. Anthropic testoval Opus 4.6 s web search, code execution, tool calling a až 3M tokeny kontextu. To je zásadně odlišná konfigurace než standardní model pro porovnání. Srovnávat toto číslo s modely testovanými bez nástrojů je jako srovnávat závodníka s autem a závodníka pěšky.
OSWorld čísla jsou nesrovnatelná. Opus 4.6 reportuje 72.7% na OSWorld, GPT-5.3-Codex 64.7% na OSWorld-Verified. Jde o odlišné verze benchmarku. OpenAI měří na “Verified” subsetě, Anthropic na plné sadě. Bez srovnání na identické verzi je porovnání zavádějící.
Jak tato testovací čísla číst?
Codex exceluje v provádění – rychlé, efektivní vykonávání jasně definovaných technických úloh. Terminal, GUI, opravy bugů. Je to model, který chceš, když víš co chceš udělat a potřebuješ, aby to někdo udělal rychle a levně. Odpovídá tomu i designová filozofie OpenAI: interaktivní spolupráce, ovlivňování běhu agenta v reálném čase (real-time steering), rychlost.
Opus exceluje v přemýšlení – složitá analýza, syntéza z mnoha zdrojů, abstraktní reasoning, profesní práce založená na znalostech. Je to model, který chceš, když problém není jasně definovaný a potřebuješ, aby někdo přemýšlel a dal ti strukturovanou odpověď. Odpovídá tomu designová filozofie Anthropic: autonomní agent, který plánuje sám, pracuje déle, méně se ptá.
Dá se to říct takto: GPT-5.3-Codex je lepší řemeslník, Opus 4.6 je lepší konzultant.
Ale pozor na dvě věci. Za prvé, tyhle profily se stírají – Every.to explicitně říká, že modely konvergují. Za druhé, benchmark dominance neznamená, že ten druhý model je v dané oblasti špatný. Opus 4.6 na Terminal-Bench má 65.4%, což by bylo state-of-the-art ještě před třemi měsíci. GPT-5.2 na GDPval-AA má 1462 Elo, což je pořád silné skóre. Rozdíl je v detailech, ne v kategorii “umí/neumí”.
Reálné zlepšení vs. marketingový šum
ARC-AGI-2: Nejsilnější důkaz skutečného pokroku
Ze všech benchmarků je ARC-AGI-2 nejpřesvědčivější nezávislý důkaz reálného zlepšení. Na rozdíl od většiny testů je ARC-AGI-2 navržen tak, aby odolával předběžnému učení (kdy se modely test prostě naučí), testuje abstraktní reasoning na úlohách snadných pro lidi, ale těžkých pro AI. Opus 4.6 skočil z 37.6% na 68.8%, téměř dvojnásobek. GPT-5.2 dosahuje 54.2%. Leaderboard ARC-AGI-2 je nezávislý a výsledky ověřitelné, proto pro nás cenné.
Důležitý kontext: na ARC-AGI-2 s přibližně 1 dolarem za úlohu dosahuje Opus 4.6 výsledku 68.8%. GPT-5.2 (Refine - tedy speciální nastavení) dosahuje 72% při přibližně 30 dolarech za úlohu. Třicetkrát vyšší cena za 4 procentní body navíc. To ukazuje na efektivitu, nikoliv jen na výkon.
Token efektivita: Tichá revoluce GPT-5.3-Codex
Nejdůležitější změna v GPT-5.3-Codex není skóre na SWE-bench Pro (+0.4 bodu), ale efektivita. Model spotřebuje 2.09krát méně tokenů než GPT-5.2-Codex na SWE-Bench-Pro. V kombinaci se zhruba 40% zrychlením inference to znamená téměř 3x rychlejší vyřešení úlohy za přibližně stejný výsledek. Pro týmy platící za token je to reálná úspora. Tohle není úplně bomba do titulků, ale je to pravděpodobně nejpraktičtější zlepšení celého releasu.
Konvergence modelů
Tým Every.to, který testoval oba modely na reálných produkčních případech v předstihu, přišel se zásadním pozorováním: modely konvergují. Opus 4.6 převzal hloubku a preciznost, které dříve byly doménou Codexu. GPT-5.3-Codex získal ochotu Opus jednat bez zbytečných otázek a příjemnější interakci. Oba modely tedy míří k identickému cíli, univerzálnímu kódovacímu agentovi, který je technicky přesný, rychlý a příjemný na spolupráci.
Konkrétní zjištění z Every.to testování: Opus 4.6 měl nulové chyby při buildu na rozsáhlém iOS UI redesignu. Codex 5.3 byl rychlejší a spolehlivější při přesných specifikacích. Opus exceloval u vágních zadání, kde sám investigoval a konvergoval k řešení. Codex při vágních zadáních hádal nebo se zasekl. Ale Opus občas reportoval úspěch, i když ve skutečnosti selhal, což je vlastně nebezpečnější chyba než přiznané selhání.
Elicit: jediný nezávislý test s vědeckou metodologií
Justin Reppert z Elicit, nástroje pro analýzu vědecké literatury, reportoval testování na biopharma competitive intelligence benchmarku. Opus 4.6 dosáhl 85% recall, +12 bodů nad baseline, s p<0.02 a 100% bayesovskou pravděpodobností zlepšení, bez jakéhokoliv tuningu promptu. Tohle je vzácný příklad statisticky validovaného testu třetí strany s jasnou metodologií a signifikancí.
Opus 4.6: co skutečně přinesl
1M token kontext: reálný skok, nikoliv jen číslo
Opus 4.6 je první model třídy Opus s kontextovým oknem 1M tokenů (v beta verzi). Číslo samo o sobě nic neznamená, jak ukazuje Gemini 3 Pro: na 128K tokenech dosahuje 77% na MRCR v2, srovnatelně s Opus 4.6 (76%). Ale na 1M tokenech Gemini padá na 26.3%, podle vlastního evaluation card Google. Opus drží 76%. To je kvalitativní rozdíl, ne jen kvantitativní.
Praktický dopad: 1M tokenů odpovídá zhruba 750 000 slovům v angličtině, půl milionu slov v češtině a cca 100 000 řádků kódu (jak kterého). Tedy celému projektovému codebase o tisících souborů nebo kompletní regulatorní dokumentaci zpracované v jednom průchodu. Ale pozor: prefill latence na 1M tokenech přesahuje dvě minuty, než model začne generovat první token. A Anthropic účtuje premium za kontexty nad 200K tokenů (10/37.50 USD za milion input/output tokenů místo standardních 5/25 USD). Takže extra kontext stojí extra peníze.
Agent Teams: slibný výzkumný prototyp
A tohle je další bombastická novinka, která zamoří sociální sítě. Agent Teams v Claude Code postavené hlavně na Opus 4.6 umožňují spustit více nezávislých Claude instancí pracujících paralelně. Jeden agent je “lead”, ostatní jsou “teammates” s vlastními kontextovými okny a možností peer-to-peer komunikace. Zní to jako budoucnost vývoje. Realita je komplikovanější.
Carliniho experiment s C kompilátorem ukazuje potenciál i limity: 16 paralelních agentů, dva týdny práce, 20 000 USD za API tokeny. Výsledek: 100 000 řádků Rust kódu, kompilátor, který zkompiluje Linux 6.9, ale generuje méně efektivní kód než GCC i bez optimalizací. Nové funkce opakovaně rozbíjely existující funkcionalitu. Tým vývoje Cursoru se svými tisíci autonomními agenty v tomto experimentu zjistil, že přijatelná míra chybovosti a závěrečný opravný průchod jsou nutný kompromis.
Agent Teams jsou research preview, nikoliv produkční nástroj. Pro obtížné úlohy, kde převažuje čtení (review, analýza, debugging) jsou použitelné dnes. Pro úlohy vyžadující psaní (vývoj nových funkcí) vyžadují robustní supervizi, kterou zatím nemají. Dejte jim čas, když pár týdnů počkáte, budou vyspělejší a nic neztratíte.
Regrese a breaking changes
MCP Atlas regrese (z 62.3% na 59.5% mezi modely) je relevantní pro vývojáře budující agenty s mnoha nástroji. Anthropic tuto regresi nijak nevysvětlil. Stejně tak SWE-bench Verified regrese (80.9% na 80.8%) je sice minimální, ale symbolicky problematická pro model, který má být “upgradem” v kódování.
Zásadní změna, která rozbíjí zpětnou kompatibilitu: předvyplňování odpovědí asistenta je deaktivováno a vrací chybu 400. Týmy, které tuto techniku používaly k vynucení strukturovaných výstupů, musí okamžitě přejít na jinou metodu. Nejde o drobnost — předvyplňování bylo široce rozšířenou praktikou.
Na druhé straně: Opus 4.6 během pre-release testování nezávisle objevil přes 500 dříve neznámých zero-day zranitelností v open-source kódu (GhostScript, OpenSC a další). To je bezpečnostní přínos s reálnou hodnotou pro celý ekosystém.
GPT-5.3-Codex: co skutečně přinesl
Token efektivita jako hlavní inovace
Hlavní testy GPT-5.3-Codex vypadají impozantně (77.3% Terminal-Bench, 64.7% OSWorld-Verified), ale reálně největší hodnota leží v efektivitě. Model generuje stejnou kvalitu za výrazně méně tokenů a rychleji. Pro týmy s desítkami paralelních agentů nebo velkými CI/CD pipeline to je reálná úspora nákladů i času, a to bez nutnosti měnit workflow.
SWE-bench Pro zlepšení o 0.4 procentního bodu (56.8% vs 56.4%) je statisticky na hranici šumu. OpenAI na toto téma mlčí a místo toho zdůrazňuje Terminal-Bench, kde má 12bodový náskok nad Opus 4.6. Je to pochopitelná strategie, ale upřímná komunikace by vypadala jinak.
Cybersecurity “High”
GPT-5.3-Codex je první model v historii OpenAI klasifikovaný jako „vysoce schopný” v oblasti kybernetické bezpečnosti podle rámce připravenosti (Preparedness Framework). Bezpečnostní karta modelu ale přiznává: „Nemáme definitivní důkaz, že model dosahuje vysokého prahu schopností, ale nemůžeme to vyloučit, a proto přistupujeme preventivně.” To je důležitý detail: nejde o potvrzení, že model umí automatizovat kybernetické útoky, ale o preventivní opatření.
Praktické důsledky: pokročilé kybernetické funkce jsou dostupné jen vyvoleným bezpečnostním odborníkům. OpenAI spouští pilotní program Trusted Access for Cyber a investuje 10 milionů USD v API kreditech na obranu kritické infrastruktury. Model je také přímo trénován na identifikaci softwarových zranitelností, což je poprvé v historii Codex řady.
Pro firemní zákazníky v regulovaných odvětvích je tato klasifikace dvousečná: demonstruje schopnosti modelu, ale zároveň vyvolává otázky o compliance. Pokud nástroj, který používáte, je sám klasifikován jako bezpečnostní riziko, jak vysvětlíte auditorovi, že ho pouštíte do produkčního kódu? No, uvidíme, co z toho bude.
”Self-bootstrapping”: realita vs. narativ
OpenAI tvrdí, že GPT-5.3-Codex je “první model, který se podílel na vlastním vytvoření.” Altman přidal na X: “Bylo úžasné sledovat, o kolik rychleji jsme mohli dodat 5.3-Codex díky použití 5.3-Codex.”
Co se skutečně stalo: tým Codexu použil rané verze modelu jako vývojářský nástroj, ke debugování tréninku, správě deploymentu a diagnostice evaluací. To je ekvivalent toho, co dělá každý vývojář s Claude Code nebo Codex CLI denně. Není to “model, který se sám naučil”. Je to “vývojáři použili svůj vlastní produkt při vývoji svého vlastního produktu.” Užitečné? Ano. Marketing? Ano. Revoluce? Ne.
API zatím nedostupné
Na rozdíl od Opus 4.6, který je okamžitě dostupný na API a všech hlavních cloudových platformách (AWS Bedrock, Azure Foundry, GCP Vertex AI) o routerech modelů, GPT-5.3-Codex je zatím dostupný pouze přes Codex app, CLI, IDE extension a web pro placené ChatGPT plány. API přístup je “coming soon”. Pro enterprise vývojáře, kteří potřebují programatický přístup, je to zásadní omezení.
Co ani jeden model nepřinesl
Uprostřed nadšení z nových čísel je důležité pojmenovat, co se nezměnilo.
Autonomní vývoj bez supervize stále nefunguje. Carliniho kompilátor za 20 000 USD generuje horší kód než GCC bez optimalizací (jehož vývoj ovšem v lidské síle stál více). Cursor s tisíci agenty musel přijmout stabilní error rate jako nutný kompromis. Box AI evaluace ukazuje 68% přesnost na komplexních enterprise úlohách, tedy chybu v každém třetím úkolu. Žádná z těchto studií nenaznačuje, že by bylo bezpečné nechat agenta pracovat bez dozoru na produkčním kódu. Seniorní živý orchestrátor běhu s kávovarem je stále nutnost.
Koordinace mnoha agentů je stále nedořešený problém. Cursor prošel čtyřmi architekturami, z nichž první tři selhaly z odlišných důvodů, než našel funkční design. Finální architektura (rekurzivní plánovači + izolovaní pracovníci) funguje, ale je to výsledek měsíců iterací, ne vlastnost modelu. Agent Teams v Claude Code jsou krok správným směrem, ale bez robustní session persistence, merge conflict resolution a rollback mechanismů zůstávají research preview.
“Projektový manažer může řídit AI tým” je nebezpečný mýtus. Manan Gupta, který vytvořil produkční Postgres parser s jedním Claudem za 8 týdnů (287 000 řádků, 2.5krát rychlejší než alternativa), shrnuje klíčovou lekci: “AI násobí vaši expertízu, ale jen pokud víte, jak vypadá správný výsledek.” Jeho Claude opakovaně dělal stejnou chybu (špatný typ v gramatice), fixoval symptomy místo příčin. Bez Guptovy hluboké znalosti Postgres by výsledkem nebyl funkční parser.
Produkční kvalita na první pokus zůstává iluzí. Anthropic tvrdí, že Opus 4.6 “se blíží produkční kvalitě na první pokus”. Box AI evaluace říká, že je 68% spolehlivost. Anthropicův vlastní Real-World Finance evaluace ukazuje 23bodové zlepšení oproti Sonnet 4.5, ale neříká absolutní číslo, protože by pravděpodobně nebylo tak působivé. Iterace a lidská revize zůstávají nezbytné.
Strategický kontext: proč na tom záleží
Tržní dynamika
Data z průzkumu Andreessen Horowitz ukazují dramatický nárůst firemních výdajů na LLM: průměrně 7 milionů USD v roce 2025 (+180% oproti 2024), s projekcí 11.6 milionů USD v roce 2026. Ale podíl OpenAI klesá, z 62% v roce 2024 na projektovaných 53% počátkem roku 2026. Anthropic naopak vzrostl z 0% na 40% produkční adopce za pouhé dva roky. Claude Code generuje 1 miliardu USD v ročním run-rate pouhých šest měsíců po obecné dostupnosti.
Oba hráči potřebují enormní kapitál. Anthropic jedná o kole, které by mohlo přinést přes 20 miliard USD při valuaci minimálně 350 miliard USD. OpenAI má závazky přesahující 1 bilion USD vůči investorům včetně společností Oracle, Microsoft a Nvidia, kteří v podstatě předfinancovávají výpočetní kapacitu v očekávání budoucích výnosů.
Platformní bitva
Simultánní vydání signalizuje novou fázi soutěže. Apple právě oznámil Xcode 26.3 s nativní podporou Claude Agent i OpenAI Codex přes MCP (Model Context Protocol). GitHub Copilot nyní podporuje oba modely. Agentic coding přestává být experiment a stává se standardní součástí vývojářských postupů. Otázka už není “zda” AI agent, ale “který”.
SemiAnalysis odhaduje, že 4% veřejných GitHub commitů jsou nyní generovány Claude Code, s projekcí 20%+ do konce 2026. I kdyby byla metodologie nepřesná, trend je jasný: AI agenti se stávají běžnou součástí vývojového procesu.
Komu co doporučit
Pro firemní znalostní práce (finance, právo, analýza): Opus 4.6 má jasný náskok na GDPval-AA, Finance Agent, BigLaw Bench a BrowseComp. Milionový kontext s funkčním retrieval je reálná výhoda pro regulatorní a due diligence úlohy.
Pro agentní vývoj v terminálovém prostředí (CI/CD, automatizace, infrastruktura): GPT-5.3-Codex vede na Terminal-Bench o 12 bodů a spotřebovává méně tokenů. Pro týmy s velkými agentic pipeline je to měřitelná výhoda v nákladech i rychlosti.
Pro abstraktní reasoning a výzkum: Opus 4.6 (dle výsledků ARC-AGI-2). Pro matematiku a graduate-level reasoning: GPT-5.2 (dle GPQA Diamond). Multi-model routing, tedy směrování úloh na model, který je zvládne nejlépe, přestává být luxus a stává se doporučenou praktikou. Však můj oblíbený OpenRouter má funkci Auto Router - paradoxem vůči tomuto článku je, že ve statistikách tam boduje Gemini 2.5 Flesh jakožto velmi rychlý a levný model s milionovým kontextem. Ale OpenRouter neobsluhuje provoz agentních vývojových nástrojů, tak proto …
Závěr: Inkrementální pokrok v superlativních titulcích
Opus 4.6 a GPT-5.3-Codex představují reálná zlepšení oproti svým předchůdcům. Ale upřímná odpověď na otázku “co se skutečně změnilo” je: méně, než slibují titulky.
Největší reálný skok: ARC-AGI-2 u Opus (téměř dvojnásobek), 1M funkční kontext u Opus, token efektivita u Codexu. Největší marketingový šum: “AI runs an engineering team for you” (nepravda), “model that created itself” (nadsázka), “production-ready on first try” (68% accuracy).
Simon Willison to shrnul nejlépe: oba modely jsou velmi dobré, ale to byli i jejich předchůdci. Hledání úloh, které staré modely nezvládly a nové ano, vyžaduje skutečné úsilí. Posun je reálný, ale je to evoluce, ne revoluce.
Pro praktického uživatele to znamená: testujte na svých úlohách, ne na cizích benchmarcích. Benchmark, na kterém poskytovatel vede, nemusí korelovat s tím, co děláte vy. A pamatujte na Guptovo pravidlo: AI násobí vaši expertízu. Pokud nevíte, jak vypadá správný výsledek, ani ten nejlepší model vám nepomůže.
PS: Pustil jsem Opus 4.6, aby prošel půl roku starý kód, který běží bez závad na produkci. Našel v něm slušnou řádku chyb, provedl slušnou řádku zlepšení, za 30 minut samostatného běhu jsem kód commitnul a vše bez jediného zásahu běží správně, lépe, rychleji, na dashboardu nečekám tak dlouho na data. To je hezký výsledek.
\