I
Inception 4. 3. 2026
81 skóre

Inception: Mercury 2

inception/mercury-2

Mercury 2 je specializovaný nástroj pro vývojáře vyžadující extrémní rychlost a strukturované výstupy, který obětuje délku kontextu ve prospěch latence a propustnosti.

Killer Feature Architektura dLLM umožňující paralelní generování rychlostí >1 000 tokenů/s při zachování schopností usuzování.
Skryté riziko Jako první 'reasoning diffusion' model může vykazovat netypické halucinace nebo artefakty odlišné od standardních autoregresivních modelů.
$0.25 / 1M vstup
$0.75 / 1M výstup
128k kontext
50k max výstup
Dobrý hodnocení
text text Extrémní rychlostAgentní systémyProgramování

📊 Benchmarky

Rychlost
98
Výborný
💻 Programování
85
Výborný
💰 Cena/Výkon
88
Výborný
🧠 Usuzování
78
Dobrý
📏 Kontextové okno
55
Průměrný
Celkové skóre 81/100

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Inception Mercury 2
← Právě prohlížíte
Stejná cena vstupu ($0.25), ale Mercury má 2x levnější výstup ($0.75 vs $1.50) Gemini nabízí 8x větší kontext (1M) a multimodalitu, Mercury 2 kontruje vyšší rychlostí generování a lepším zaměřením na kód.
Grok je mírně levnější ($0.20/$0.50 vs $0.25/$0.75) Grok dominuje v kontextu (2M), ale Mercury 2 nabízí 'tunable reasoning' a pravděpodobně nižší latenci pro real-time hlasové aplikace.
DeepSeek DeepSeek v3.2
Velmi podobná cena, DeepSeek je levnější na výstupu ($0.40) DeepSeek je silný univerzální model, Mercury se specificky vymezuje architekturou dLLM pro scénáře vyžadující extrémní propustnost.

🎯 Rozhodovací pomocník

Použij když...

  • Real-time generování kódu (autocomplete)
  • Hlasové konverzační rozhraní s nízkou latencí
  • Komplexní agentní smyčky vyžadující JSON

Nepoužívej když...

  • Analýza rozsáhlých dokumentů (>100 stran)
  • Úlohy vyžadující analýzu obrázků
Ideální pro:
Vývojáři AI agentůPlatformy pro hlasovou asistenciSaaS nástroje pro generování kódu

💪 Silné a slabé stránky

+ Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.

📝 Detailní popis

Mercury 2 je extrémně rychlý LLM pro usuzování a první difuzní LLM (dLLM) pro usuzování. Namísto sekvenčního generování tokenů, Mercury 2 produkuje a vylepšuje více tokenů paralelně, čímž dosahuje >1 000 tokenů/s na standardních GPU. Mercury 2 je 5x+ rychlejší než přední LLM optimalizované pro rychlost, jako jsou Claude 4.5 Haiku a GPT 5 Mini, za zlomek nákladů. Mercury 2 podporuje laditelné úrovně usuzování, kontext 128K, nativní používání nástrojů a JSON výstup zarovnaný se schématem. Vytvořen pro pracovní postupy kódování, kde se latence kumuluje, hlasové vyhledávání/vyhledávání v reálném čase a smyčky agentů. Kompatibilní s OpenAI API. Více informací v blogovém příspěvku.

Unikátní charakteristiky

Mercury 2 využívá inovativní architekturu difuzního LLM (dLLM), která nahrazuje sekvenční predikci tokenů paralelním zjemňováním celých sekvencí. Tento přístup umožňuje dosahovat rychlosti přes 1 000 tokenů za sekundu při zachování schopností usuzování (reasoning).

Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.