Claude Sonnet 4.6 vs. Grok 4.20: souboj dvou filozofií

V polovině února 2026 vydaly Anthropic i xAI nové modely ve stejný den – a shoda v datu je čistá náhoda, nikoli koordinovaná strategie. Claude Sonnet 4.6 přichází jako plánovaná součást roadmapy, s kompletní bezpečnostní kartou, plným přístupem přes API a jasně zdokumentovanými výsledky srovnávacích měření. Grok 4.20 přichází jako beta verze se zpožděním přibližně osmi týdnů, bez formálního blogového příspěvku od xAI, bez API přístupu pro vývojáře a s minimem nezávislých dat.

Hlavní novinkou je pro nás tedy Sonnet, ale na Grok nezapomínejme, jeho investice do AI jsou obrovské a je dobré jeho posuny sledovat. Zvláště proto, že už nejde o souboj čísel, ale o souboj architektonických filozofií. Sonnet 4.6 sází na škálování uvažování uvnitř jednoho modelu. Grok 4.20 sází na distribuovanou spolupráci čtyř agentů při samotné inferenci. Která filozofie vede k lepším výsledkům v praxi – to se dnes s jistotou říct nedá. Jedno je ale důležité si říci hned: Grok volí filozofii podobnou spíše čínským modelům, zatímco Anthropic jede těžkotonážní dráhu modelů amerických. U tohoto architektonického sporu se ještě později zastavíme.

Rychlý přehled

Položka	Claude Sonnet 4.6	Grok 4.20 (beta)
Výrobce	Anthropic	xAI (součást SpaceX od 2/2026)
Vydáno	února 2026	února 2026 (beta, zpoždění ~8 týdnů)
Stav	Plná dostupnost	beta, dostupný na webu
API přístup	Ano, ihned	Zatím nedostupné
Kontextové okno	1M tokenů (beta)	256K / až 2M (agentic, neověřeno)
Cena API	$3 / $15 za milion tokenů	Grok 4 základ: $3/$15; Grok 4.20 neznámá
Architektura inference	Jeden model + rozšířené uvažování	Čtyři spolupracující agenti
Bezpečnostní karta	Publikována	Nepublikována (ani pro Grok 4)

Údaje o Grok 4.20 jsou z komunitních zdrojů a neoficiálních sdělení xAI. xAI dosud nepublikovala formální oznámení ani bezpečnostní kartu pro verzi 4.20.

Architektura: jeden mozek vs. poradní shluk agentů

Přístup Anthropic: škálování uvnitř jednoho modelu

Sonnet 4.6 je jeden model s nastavitelnou hloubkou uvažování. Vývojář může rozšířené uvažování vypnout (rychlá odpověď), zapnout (standardní řetězec myšlenek), nebo nastavit maximální úsilí - tedy tak, jak to známe z Opusu 4.6. Anthropic navíc v beta verzi spustil automatické zkomprimování kontextu: když se konverzace blíží limitům kontextového okna, model starší části automaticky shrne a uvolní prostor pro pokračování – agentní session tak může trvat déle bez ztráty klíčového kontextu.

Přístup xAI: radní komora čtyř agentů

Grok 4.20 zavádí nativní víceagentní inferenci. Čtyři specializované repliky modelu spolu interně komunikují ve schématu: uvažování → debata → shoda → výsledek, přičemž jeden agent slouží jako koordinátor. Zásadní rozdíl oproti běžné orchestraci (LangChain, vlastní frameworky): koordinace probíhá přímo při inferenci, nikoli přes sérii API volání. Tedy z pohledu uživatele by to nemuselo být vidět, ale Grok se tím graficky pochlubí.

Předchůdce Grok 4 Heavy dovedl tento přístup dál: 32 paralelních agentů, ale za cenu $300 měsíčně a výrazně pomalejší odpovědi. Grok 4.20 omezuje počet agentů na čtyři s cílem najít lepší rovnováhu - a jeho silnější varianta má mít agentů až šestnáct.

💬 Není jasné, zda 4 spolupracující agenti přinášejí lepší výsledky než ekvivalentní výpočetní výkon soustředěný do rozšířeného uvažování jednoho modelu. Distribuovaná debata může zvyšovat diverzitu pohledů, ale také kumulovat chyby sdíleného modelu. Nezávislé srovnání zatím chybí.

Proč na architektuře záleží

SWE-rebench (leden 2026) ukazuje, že špičkové výsledky v programování jsou spjaty s cca 1–2 miliony tokenů na jeden úkol. Top nasazení v tomto jsou Claude Code, Claude Opus 4.6 a GPT-5.2 – klíčem je kombinace schopnosti modelu a efektivity využití tokenového rozpočtu (tedy schopnosti nástroje, proto zmiňuji výslovně Claude Code). Víceagentní přístup Groку 4.20 by mohl být alternativní cestou k efektivnějšímu využití tohoto rozpočtu – ale žádný výsledek na SWE-rebench pro verzi 4.20 dosud neexistuje a tuto hypotézu nepotvrzuje.

Kontextové okno: papír (snese vše) vs. praxe (ta už méně)

Sonnet 4.6 nabízí 1 milion tokenů v beta verzi. Anthropic explicitně tvrdí, že model přes celé okno skutečně uvažuje, nikoli jen přijímá tokeny – a toto tvrzení je podpořeno výsledky na Vending-Bench Arena, kde model projevil schopnost strategického plánování přes dlouhý časový horizont, tedy na dlouhém kontextu.

Grok 4.20 standardně nabízí 256 000 tokenů, v agentním režimu až 2 miliony. Komunitní pozorování u základního Groку 4 ukazují stabilní vyhledávání v rámci přes 200 000 tokenů, ale žádné systematické testy pro 2 miliony tokenů u verze 4.20 nebyly publikovány.

⚠️ Upozornění: Velikost kontextového okna bez dokladů o kvalitě uvažování přes celou jeho délku je marketingový argument, nikoli technická záruka. Obě čísla – 1M i 2M – by měla být ověřena nezávislými testy před tím, než se na ně spoléhají produkční systémy.

Přehled dostupných výsledků

Tabulku klidně přeskočte, pokud si ty testy nepamatujete, mám ji tady spíš pro sebe, abych vám ji mohl pod tabulkou vysvětlit, takže si přeskočte dolů 🙂\

Výkonnostní test	Sonnet 4.6	Grok 4.20	Poznámka
SWE-bench Verified (agentní programování)	79,6 %	Nepublikováno	Grok 4 Heavy: ~75 % (vlastní data xAI, neověřeno)
Terminal-Bench 2.0 (terminálové kódování)	59,1 %	Nepublikováno	Opus 4.6: 65,4 %
OSWorld-Verified (ovládání počítače)	72,5 %	Nepublikováno	Opus 4.6: 72,7 %
GPQA Diamond (vědecké uvažování PhD)	89,9 %	Nepublikováno	Grok 4: 87,5 % (Vellum.ai leaderboard); GPT-5.2: 92,4 %
ARC-AGI-2 (abstraktní uvažování)	58,3 % (max. úsilí)	Nepublikováno	Grok 4 Heavy: 15,9 % ⚠️ jiná verze, nelze srovnat přímo
Humanity’s Last Exam (s nástroji)	49,0 %	Nepublikováno	Grok 4 Heavy: 50,7 % ⚠️ jiná verze
GDPval-AA Elo (kancelářské úkoly)	1633 ⚠️	Nepublikováno	Grok 4 (základní): 991 – poslední místo žebříčku
Finance Agent v1.1 (finanční analýza)	63,3 %	Nepublikováno	Nejlepší v tabulce Anthropic
ForecastBench (předpovídání)	Nepublikováno	místo*	*Vlastní tvrzení xAI, nezávislé ověření chybí
Alpha Arena (živé burzovní obchodování)	Nepublikováno	+10 až +34 %*	*Jedna simulace, jeden časový úsek
MMMLU (vícejazyčné Q&A)	89,3 %	Nepublikováno	—

Výsledky Sonnet 4.6 jsou z oficiálního oznámení Anthropic ze 17. 2. 2026, s nezávislým ověřením Artificial Analysis. Výsledky Grok 4.20 z nezávislých benchmark stránek neexistují – model je v beta fázi. Pro srovnání jsou tam, kde jsou dostupná, uvedena čísla Grok 4 (základní model, červenec 2025).

Klíčové benchmarky pod lupou

SWE-bench Verified – agentní programování

Testuje opravu reálných chyb z GitHubu. Takový test je blíže praxi než akademické testy. Sonnet 4.6 dosahuje 79,6 %, Opus 4.6 pak 80,8 %.

Metodologická poznámka: SWE-bench obsahuje GitHub problémy, které jsou veřejně dostupné a mohly být součástí trénovacích dat. Tvůrci tento problém průběžně řeší aktualizacemi (SWE-bench Verified), ale zcela ho nelze vyloučit. SWE-rebench (živý benchmark s novými úkoly každý měsíc) je spolehlivější, ale má zatím méně modelů v žebříčku.

GPQA Diamond – vědecké uvažování na úrovni PhD

Sonnet 4.6 dosahuje 89,9 %, Grok 4 (základní) dle Vellum.ai leaderboard 87,5 %, GPT-5.2 vede s 92,4 %. Čísla jsou si blízká a v rámci variability měření – vypovídají především o výkonnostních kohortách, než že by se z nich dalo tvrdit, že jeden z těchto tří modelů je prokazatelně nejlepší.

Problém GPQA: Výzkum z roku 2025 ukazuje, že při jednoduché parafrázi otázek výkon modelů na GPQA výrazně klesá – v experimentech propad přesahoval 20 procentních bodů. Část vysokého skóre odpovídá přizpůsobení na konkrétní formulace otázek, nikoli obecnému vědeckému uvažování.

ARC-AGI-2 – abstraktní uvažování

Tento test je navržen jako odolný vůči memorování. Sonnet 4.6 dosahuje 58,3 % při maximálním úsilí, Opus 4.6 pak 68,8 %. Grok 4 Heavy dosahoval 15,9 % – to je číslo pro jinou verzi modelu za jiných podmínek a nelze ho přímo srovnávat.

Poznámka: ARC-AGI-2 je považován za jeden z nejodolnějších testů vůči kontaminaci, proto jsou jeho výsledky věrohodnější signál skutečné schopnosti zobecnění. Výsledky Sonnet 4.6 a Opus 4.6 jsou v tomto ohledu silné.

OSWorld-Verified – ovládání počítače

Sonnet 4.6 dosahuje 72,5 %, Opus 4.6 pak 72,7 %. Progrese řady Sonnet je impozantní: od 14,9 % v říjnu 2024 na 72,5 % v únoru 2026 – za 16 měsíců pětinásobný nárůst. Grok 4.20 uvádí multimodal jako novinku, ale bez záznamu na OSWorld.

GDPval-AA – kancelářské a znalostní úkoly

Tento benchmark od Artificial Analysis měří agentní výkon na reálných pracovních úkolech – modely mají přístup k webovému prohlížeči a příkazové řádce. Sonnet 4.6 dosahuje Elo 1633 a obsazuje první místo žebříčku.

Jenže výsledek vyžaduje kontext, který Anthropic v oznámení nezmiňuje, ale Artificial Analysis ano:

Sonnet 4.6 k dosažení tohoto výsledku spotřeboval 280 milionů tokenů (adaptive thinking, maximální úsilí). Opus 4.6 dosáhl skóre 1606 s pouhými 160 miliony tokenů – tedy s 43 % tokenů méně. Sonnet 4.5 pro srovnání spotřeboval 58 milionů tokenů. Celkové náklady na benchmark u Sonnet 4.6 tak mírně převyšují náklady Opus 4.6, přestože je Sonnet jako takový levnější model.

Důležitá poznámka: Rozdíl mezi Sonnet 4.6 (1633) a Opus 4.6 (1606) není statisticky signifikantní – oba modely jsou v rámci 95% intervalu spolehlivosti. Sonnet 4.6 je tedy na prvním místě žebříčku, ale není prokazatelně lepší než Opus 4.6. Část dramatického zlepšení oproti Sonnet 4.5 odráží kvalitnější model, část odráží agresivnější tokenový rozpočet díky adaptive thinking. Toto je přesně případ, kdy jedno číslo bez kontextu klamavě vypadá jako jednoznačné vítězství.

Co je na GDPval-AA žebříčku skutečně pozoruhodné, je pozice Groку 4 (základní verze z července 2025): 991 Elo, poslední místo z 21 testovaných modelů. Grok 4.1 Fast dosahuje 1051. To je v příkrém rozporu s tím, jak xAI Grok 4 prezentovala jako špičkový model – na reálných agentních úkolech s přístupem k webu a příkazové řádce zaostává za Sonnet 4.6 o více než 600 Elo bodů. Tento výsledek je nezávislý a opakovaně měřený, takže ho nelze odbýt jako výjimku.

Alpha Arena – živé burzovní obchodování

Grok 4.20 byl jediný ziskový model v simulaci: +10 až +34 % za 14 dní, ostatní modely prodělaly. Přístup k datům z X v reálném čase byl pravděpodobně klíčovým faktorem.

Pozor na zobecňování: Alpha Arena je jedna simulace, jeden trh, jeden časový úsek. Burzovní výsledky závisejí silně na tržních podmínkách daného období. Výsledek nelze interpretovat jako důkaz obecné převahy – maximálně jako indikátor schopnosti práce s real-time daty ve specifickém kontextu. Zároveň je to jediný test, kde má Grok 4.20 jakýkoli výsledek – a ten je ze své podstaty neopakovatelný a nereplikovatelný za stejných podmínek.

Jak agenti Grok 4.20 fungují uvnitř

A tady jsme u té architektury a možnýczh přínosů. I když je to zatím jen určitá rekonstrukce a spekulace o tom, jak funguje Grok 4.20 uvnitř. Čtyři agenti mají specializované role: koordinátor rozkládá úkol a syntetizuje výsledek, výzkumný agent čerpá z X firehose (to je označení plného toku příspěvků na platformě X v reálném čase, cca 68 milionů anglických příspěvků denně) pro faktické ověřování v reálném čase, matematicko-logický agent ověřuje výpočty a důkazy, kreativní agent hledá slepá místa a alternativní úhly pohledu. Agenti pracují paralelně na sdílených vahách modelu a KV cache – overhead je odhadován na 1,5–2,5× oproti jednomu volání, nikoli 4×. Plný čtyřagentní režim se aktivuje pouze u komplexních dotazů. Tato čísla a role xAI oficiálně nepotvrdila, takže je přijímejte jako věrohodnou hypotézu, nikoli jako specifikaci.

Pokud je popis přesný, vysvětluje to, proč xAI tvrdí výrazné snížení halucinací: Harper (výzkumný agent) aktivně ověřuje faktická tvrzení ostatních agentů ještě před tím, než odpověď opustí systém. Jde o principiálně odlišný přístup k faktické přesnosti než post-hoc grounding u single-model systémů.

Nové funkce a vývojářský ekosystém

Claude Sonnet 4.6 přinesl také novinky pro vývojáře:

Dynamické filtrování webového vyhledávání: Model sám píše a spouští kód pro zpracování výsledků vyhledávání a zachovává v kontextu jen relevantní části. Praktické řešení tokenové neefektivity při práci s webovými výsledky.

Nástroje obecně dostupné (GA): Spouštění kódu, paměť, programové volání nástrojů, vyhledávání nástrojů, příklady použití nástrojů – vše přešlo z beta do produkčního stavu.

MCP konektory v Claude v Excelu: Podpora pro S&P Global, LSEG, PitchBook, Moody’s, FactSet a další – Claude pracuje s daty mimo tabulku bez opuštění Excelu.

Odolnost proti vkládání škodlivých příkazů: Bezpečnostní hodnocení ukazují výrazné zlepšení oproti Sonnet 4.5 – odolnost je nyní srovnatelná s Opus 4.6.

A i Grok 4.20 má novinky

Nativní multimodal: Text + obraz + video integrováno nativně, na rozdíl od předchozích verzí.

Real-time data z X (Twitter): Unikátní vlastnost bez přímého ekvivalentu u Anthropic. Pro aplikace zaměřené na analýzu sociálních sítí nebo finanční sentiment jde o relevantní výhodu. Jinak se musí API X platit, ačkoliv nová verze z února je bez nutnosti zaplatit tučný vstupní poplatek.

Slibovaná týdenní vylepšení: xAI slibuje průběžné zlepšování na týdenní bázi. Zajímavá změna přístupu k vývoji, ale bez track rekordu je to zatím slib, nikoli garance.

API zatím nedostupné: API pro Grok 4.20 není v únoru 2026 dostupné. Model je přístupný pouze přes SuperGrok odběr (~$30/měsíc) nebo X Premium+. Pro vývojáře je model v praxi nedostupný pro produkční nasazení.

Kdo za modely stojí?

I tohle je důležité říct si na rovinu, protože zejména u xAI došlo v poslední době ke změnám.

Anthropic vydává modely systematicky – s bezpečnostními kartami, veřejnými benchmark protokoly a předvídatelnou cenovou politikou. Sonnet 4.6 stojí stejně jako Sonnet 4.5 ($3/$15 za milion tokenů). Udržet cenu při zlepšení výkonu je oproti konkurenci spíše výjimečný přístup.

xAI prošla v únoru 2026 zásadní změnou. SpaceX akvizovala xAI v transakci oceněné na 1,25 bilionu dolarů, označované jako největší fúze v historii. xAI v době transakce spalovala přibližně miliardu dolarů měsíčně. SpaceX generuje kolem osmi miliard dolarů ročního zisku – fúze je tedy z velké části záchranná finanční operace.

Začlenění do SpaceX by mohlo přesměrovat zaměření xAI směrem k vládním kontraktům a obranným aplikacím (xAI již má smlouvu s Pentagonem pro platformu GenAI.mil). Dopad na otevřenost vývojářského ekosystému a cenovou politiku je nejasný.

Grok 4.20 přichází 6–8 týdnů po původně plánovaném termínu. Zpoždění způsobily výpadky napájení v datovém centru v Memphisu (extrémy počasí, poškození rozvodů stavební technikou). V kontextu firmy spalující miliardu dolarů měsíčně nejde o marginální detail. Tato zpoždění a absence formálního blogového příspěvku naznačují operační nestabilitu, kterou by vývojáři měli vzít v potaz při plánování závislostí na tomto modelu.

Pro co se který model hodí

Použití	Claude Sonnet 4.6	Grok 4.20
Nasadit dnes v produkci	✅ Ano	❌ API nedostupné
Agentní programování	✅ Ověřeno (79,6 % SWE-bench)	❓ Bez dat
Ovládání počítače	✅ 72,5 % OSWorld	❓ Bez dat
Dlouhý kontext s uvažováním	✅ 1M, ověřeno benchmarky	❓ Deklarováno, neověřeno
Kancelářské dokumenty	✅ Elo 1633, nejlepší ve třídě	❓ Bez dat
Real-time data sociálních sítí	❌ Nedostupné	✅ Nativní přístup k X
Finanční sentiment analýza	Standardní	✅ Potenciální výhoda
Bezpečnost a auditovatelnost	✅ System card publikována	❌ Nepublikována
Předvídatelná cena	✅ $3/$15, stejná jako Sonnet 4.5	❓ Neznámá

Závěr

Claude Sonnet 4.6 je v únoru 2026 ověřená volba: plné API, dokumentované výsledky, produkční nástroje, předvídatelná cena. Výsledky na OSWorld (72,5 %) a GDPval-AA Elo (1633) jsou pro model ve Sonnet cenové třídě výjimečné. Schopnost skutečného uvažování přes milion tokenů je podpořena benchmarky, nikoli jen marketingovým tvrzením. Nelámal bych si s tím hlavu a směle jej pojďme používat spolu s ostatními členy rodiny Opus a Haiku.

Grok 4.20 je v únoru 2026 architektonicky zajímavá hypotéza. Víceagentní inference je legitimní inovace – ale bez API, bez systematických benchmark dat a bez jasné cenové politiky jde o model vhodný maximálně k experimentálnímu testování. Unikátní přístup k datům z X v reálném čase je skutečná přidaná hodnota, hodnotná pro specifické případy použití.

Klíčové otázky, které se zodpoví v nejbližších měsících:

Přinese víceagentní architektura Groку ověřitelnou výhodu v nezávislých benchmarku – nebo skóre Sonnet 4.6 na SWE-rebench drží?
Otevře xAI API pro Grok 4.20 a za jakou cenu?
Změní začlenění do SpaceX strategii xAI způsobem, který ovlivní vývojářský ekosystém?

Sledujte SWE-rebench a nezávislé leaderboardy (Vellum.ai, Artificial Analysis) – jakmile Grok 4.20 opustí beta stav a bude dostupný přes API, nezávislé srovnání bude možné. Do té doby pracujeme s asymetrií dat, a tuto asymetrii je třeba pojmenovat.