Inception: Mercury 2

inception/mercury-2

Mercury 2 je specializovaný nástroj pro vývojáře vyžadující extrémní rychlost a strukturované výstupy, který obětuje délku kontextu ve prospěch latence a propustnosti.

✦

Killer Feature Architektura dLLM umožňující paralelní generování rychlostí >1 000 tokenů/s při zachování schopností usuzování.

⚠

Skryté riziko Jako první 'reasoning diffusion' model může vykazovat netypické halucinace nebo artefakty odlišné od standardních autoregresivních modelů.

$0.25 / 1M vstup

$0.75 / 1M výstup

128k kontext

50k max výstup

Dobrý hodnocení

text text Extrémní rychlostAgentní systémyProgramování

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Inception Mercury 2	← Právě prohlížíte	—
Google Gemini 3.1 Flash Lite Preview	Stejná cena vstupu ($0.25), ale Mercury má 2x levnější výstup ($0.75 vs $1.50)	Gemini nabízí 8x větší kontext (1M) a multimodalitu, Mercury 2 kontruje vyšší rychlostí generování a lepším zaměřením na kód.
xAI Grok 4.1 Fast	Grok je mírně levnější ($0.20/$0.50 vs $0.25/$0.75)	Grok dominuje v kontextu (2M), ale Mercury 2 nabízí 'tunable reasoning' a pravděpodobně nižší latenci pro real-time hlasové aplikace.
DeepSeek DeepSeek v3.2	Velmi podobná cena, DeepSeek je levnější na výstupu ($0.40)	DeepSeek je silný univerzální model, Mercury se specificky vymezuje architekturou dLLM pro scénáře vyžadující extrémní propustnost.

🎯 Rozhodovací pomocník

✓

Použij když...

Real-time generování kódu (autocomplete)
Hlasové konverzační rozhraní s nízkou latencí
Komplexní agentní smyčky vyžadující JSON

✗

Nepoužívej když...

Analýza rozsáhlých dokumentů (>100 stran)
Úlohy vyžadující analýzu obrázků

Ideální pro:

Vývojáři AI agentůPlatformy pro hlasovou asistenciSaaS nástroje pro generování kódu

💪 Silné a slabé stránky

+ Silné stránky

Rychlost generování

Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.

Strukturovaný výstup

Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.

Výstupní kapacita

Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.

− Slabé stránky

Kontextové okno

Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).

Multimodalita

Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.

📝 Detailní popis

Mercury 2 je extrémně rychlý LLM pro usuzování a první difuzní LLM (dLLM) pro usuzování. Namísto sekvenčního generování tokenů, Mercury 2 produkuje a vylepšuje více tokenů paralelně, čímž dosahuje >1 000 tokenů/s na standardních GPU. Mercury 2 je 5x+ rychlejší než přední LLM optimalizované pro rychlost, jako jsou Claude 4.5 Haiku a GPT 5 Mini, za zlomek nákladů. Mercury 2 podporuje laditelné úrovně usuzování, kontext 128K, nativní používání nástrojů a JSON výstup zarovnaný se schématem. Vytvořen pro pracovní postupy kódování, kde se latence kumuluje, hlasové vyhledávání/vyhledávání v reálném čase a smyčky agentů. Kompatibilní s OpenAI API. Více informací v blogovém příspěvku.

Unikátní charakteristiky

Mercury 2 využívá inovativní architekturu difuzního LLM (dLLM), která nahrazuje sekvenční predikci tokenů paralelním zjemňováním celých sekvencí. Tento přístup umožňuje dosahovat rychlosti přes 1 000 tokenů za sekundu při zachování schopností usuzování (reasoning).

Silné stránky

Rychlost generování