GPT-5.4: OpenAI slučuje linie, ale nevrací se na vrchol

OpenAI vydal svůj nový model GPT-5.4 a udělal to způsobem, který stojí za pozornost ještě dříve, než se podíváme na čísla. Poprvé v historii totiž sjednotil vydání modelu napříč produkty jako ChatGPT, API a Codex. GPT-5.4 absorbuje schopnosti specializovaného kódovacího modelu GPT-5.3-Codex a přidává nativní ovládání počítače a milionový kontext. Vše v jednom modelu. Tato sázka na „jeden model místo portfolia specialistů” je strategická, nikoli jen technická. A má ukazovat rozdíl mezi OpenAI a levnou Čínou.

Co je méně mediálně viditelné: GPT-5.4 je první velký model OpenAI, který při vydání nevystoupal na první místo Intelligence Indexu od Artificial Analysis. Skončil na hodnotě 57, tedy stejně jako Gemini 3.1 Pro Preview, který byl vydán o dva týdny dřív. Pořadí: Gemini 3.1 Pro Preview (57, první), GPT-5.4 (57, druhý), GPT-5.3 Codex (54), Claude Opus 4.6 (53), Claude Sonnet 4.6 (52). OpenAI dorovnal Google, ale nepředehl ho. A to je další symbol doby. OpenAI už není bez diskusí první.

Co GPT-5.4 skutečně přináší

Ovládání počítače je nejpodstatnější novinka. GPT-5.4 je prvním obecným špičkovým (frontierovým) modelem s nativní schopností ovládání počítače bez potřeby samostatného specializovaného systému. Na OSWorld-Verified dosahuje 75,0 % – nad lidským benchmarkem 72,4 % a nad Claude Opus 4.6 (72,7 %). To není marginální vylepšení; je to okamžik, kdy se ovládání počítače stává standardní součástí hlavního modelu, nikoli doplňkovou funkcí. Jak modely Anthropicu, tak doposud OpenAI to doposud řešily externí vrstvou, nově je ale ale součástí modelu řídící infrastruktura a vrstva, která všechno obstará sama, v přímém propojení.

U výrazu frontier model se na chvíli zastavme. Frontier model je novější termín, který popularizovaly samotné AI laboratoře (OpenAI, Anthropic, DeepMind). Má specifičtější konotace. Jde o modely na absolutní hranici schopností (doslova „hranici”). Implikuje se, že za touto hranicí jsou neznámá území – včetně bezpečnostních rizik. A výraz se používá téměř výhradně pro velké proprietární modely od velkých laboratoří…
Já, jak vidíte, v češtině zkusím používat špičkový model, což poněkud koliduje se SOTA (State Of The Art) modelem…

GDPval – interní OpenAI benchmark měřící výkon na znalostních úkolech napříč 44 profesemi – ukazuje GPT-5.4 na 83,0 %, oproti 70,9 % u GPT-5.2 a 78,0 % u Opus 4.6. Zlepšení o více než 12 procentních bodů oproti předchůdci je reálné. Nicméně GDPval je benchmark sestavený a spravovaný OpenAI – nikoliv nezávislou stranou jako Artificial Analysis. Srovnávat ho přímo s GDPval-AA, který provozuje Artificial Analysis, nelze bez výhrad.

Halucinace: OpenAI tvrdí pokles o 33 % na úrovni jednotlivých faktických tvrzení a o 18 % na úrovni celých odpovědí oproti GPT-5.2. Tato čísla jsou z vlastní firemní deklarace a srovnání jde pouze vůči GPT-5.2, nikoli vůči současné konkurenci – Gemini 3.1 Pro Preview nebo Claude Opus 4.6. Ještě uvidíme, jaké budou nezávislé testy.

Tool Search – nová funkce pro API prostředí s velkými MCP konfiguracemi – redukuje spotřebu tokenů o 47 % při zachování přesnosti na benchmarku MCP Atlas. Toto je konkrétní a měřitelný přínos pro vývojáře pracující s komplexními agentními systémy, pro které Tool Search umožní zapojit do kontextu jen ty MCP nástroje, které jsou potřeba - a tím nedojde ke zbytečnému zaplňování kontextu MCP hláškami, dnešní to mor používání MCP.

Kde GPT-5.4 nevede

Gemini 3.1 Pro Preview stále drží náskok na GPQA Diamond (94,3 % vs. 92,8 % GPT-5.4) a ARC-AGI-2 (77,1 % vs. 73,3 % GPT-5.4). Na abstraktním uvažování odolném vůči memorování Google stále vede. Což je pro OpenAI nepříjemné.

Claude Opus 4.6 stále dominuje na SWE-Bench Verified (80,8 % vs. 57,7 % GPT-5.4 na SWE-Bench Pro – pozor, jde o různé verze benchmarku). Přímé srovnání kódovacích benchmarků mezi GPT-5.4 a Opus 4.6 je metodologicky komplikované, protože OpenAI reportuje SWE-Bench Pro, zatímco Anthropic SWE-Bench Verified.

Cena: záleží na kontextu

Standardní GPT-5.4: $2,50/$15 za milion tokenů (vstup/výstup). Oproti Gemini 3.1 Pro Preview ($2/$12) je to o 25 % dražší vstup a o 25 % dražší výstup – za identické skóre na Intelligence Indexu.

GPT-5.4 Pro: $30/$180 za milion tokenů. To je 15× dražší vstup než Gemini 3.1 Pro Preview. Pro vyhrazené profesionální workflow s prokázanou ROI to může být obhajitelné; pro obecné nasazení ve vysokém objemu to není. Nepočítejte s tím, že byste si milionový kontext použili jen tak pro ladění své codebase, to byste rychle přišli na buben.

Artificial Analysis zaznamenal celkové náklady na benchmark pro GPT-5.4 (xhigh): $2 950 – přibližně 3,3× více než Gemini 3.1 Pro Preview ($892) za stejné výsledné skóre indexu. Tomu říkám prémium příplatek za jméno…

Bezpečnostní aspekt si zaslouží pozornost

OpenAI publikoval výzkum o schopnosti modelů kontrolovat vlastní uvažování (CoT-Control). Výsledek: GPT-5.4 Thinking kontroluje pouhých 0,3 % svých uvažovacích řetězců délky 10 000 znaků. Žádný ze 13 testovaných frontierových modelů nepřekročil 15,4 % kontrolovatelnosti. OpenAI to prezentuje jako bezpečnostní pozitivum – model nedokáže cíleně manipulovat vlastním uvažováním, aby obešel bezpečnostní zábrany. Interpretace je legitimní, ale zároveň otevírá otázku, co to znamená pro transparentnost a auditovatelnost uvažovacích řetězců v produkčních systémech.

GPT-5.4 je klasifikován jako High pro kybernetické schopnosti v OpenAI Preparedness Framework – první obecný mainline model, který tohoto prahu dosáhl. OpenAI to doprovází rozšířeným bezpečnostním stackem. A proto se také OpenAI holedbá tím, že jeho smlouva s americkým ministerstvem války nemůže vést ke zneužití AI, protože samo její AI má své mantinely v sobě zabudované. Komunita to ovšem OpenAI příliš nevěří. Cožeto?

Strategický kontext: vojenské smlouvy

Vydání GPT-5.4 totiž proběhlo v týdnu, kdy OpenAI čelila výraznému internímu i externímu odporu kvůli smlouvám s americkým ministerstvem obrany na platformu GenAI.mil. Pentagon přerušil práci s Anthropic kvůli omezením na vojenské využití, které šéf firmy Dario Amodei vyžadoval. OpenAI tato omezení neuplatňuje. Situaci mu nicméně komplikuje rezignace Caitlin Kalinowski (šéfky robotiky a spotřebitelského hardwaru) a veřejná kritika ze strany části uživatelů. OpenAI se nyní totiž explicitně pohybuje ve dvou rolích současně: výzkumná laboratoř zaměřená na bezpečnost a dodavatel národní bezpečnosti. Tato dualita bude mít důsledky pro vnímání značky v části enterprise segmentu, který bezpečnostní kulturu Anthropic aktivně preferuje.

Jak GPT-5.4 zapadá do aktuálního obrazu

Březen 2026 uzavírá sérii vydání, která začala koncem ledna. Výsledný obraz frontierového pole je jednoznačný: tři laboratoře jsou na Intelligence Indexu v rozsahu pěti bodů (Gemini 3.1 Pro Preview / GPT-5.4: 57, Opus 4.6: 53), žádná nevede ve všem a každá dominuje v jiné kategorii. Čili peloton jezdců na AI poli je ve špičce velmi vyrovnaný, někdo lépe v zatáčce, jiný zase kopce - a teprve uvidíme, jaký bude terén na cílové pásce, která je ovšem ještě pěkně daleko.

GPT-5.4 je nejsilnější pro profesionální kancelářské workflow – dokumenty, tabulky, vícekrokové agentní úkoly – a jako první obecný model překračuje lidský práh na ovládání počítače. Za tuto pozici ale platí výrazně vyšší cenu než Gemini 3.1 Pro Preview, který nabízí stejné celkové skóre. Claude Opus 4.6 zůstává nejsilnější pro produkční kódování a hluboké uvažovací řetězce.

Jeden model pro vše – jak to OpenAI sází – je správná sázka pro většinu uživatelů. Otázka není, zda je GPT-5.4 dobrý model. Je. Otázka je, zda je dost dobrý na to, aby ospravedlnil cenový příplatek oproti Gemini, který sedí na stejném místě Intelligence Indexu.