Mercury 2 je extrémně rychlý LLM pro usuzování a první difuzní LLM (dLLM) pro usuzování. Namísto sekvenčního generování tokenů, Mercury 2 produkuje a vylepšuje více tokenů paralelně, čímž dosahuje >1 000 tokenů/s na standardních GPU. Mercury 2 je 5x+ rychlejší než přední LLM optimalizované pro rychlost, jako jsou Claude 4.5 Haiku a GPT 5 Mini, za zlomek nákladů. Mercury 2 podporuje laditelné úrovně usuzování, kontext 128K, nativní používání nástrojů a JSON výstup zarovnaný se schématem. Vytvořen pro pracovní postupy kódování, kde se latence kumuluje, hlasové vyhledávání/vyhledávání v reálném čase a smyčky agentů. Kompatibilní s OpenAI API. Více informací v blogovém příspěvku.
Unikátní charakteristiky
Mercury 2 využívá inovativní architekturu difuzního LLM (dLLM), která nahrazuje sekvenční predikci tokenů paralelním zjemňováním celých sekvencí. Tento přístup umožňuje dosahovat rychlosti přes 1 000 tokenů za sekundu při zachování schopností usuzování (reasoning).
Silné stránky
Rychlost generování
Díky paralelnímu zpracování dosahuje >1 000 tokenů/s, což je 5x více než u optimalizovaných modelů jako Claude 4.5 Haiku.
Strukturovaný výstup
Nativní podpora pro schema-aligned JSON a tool use je optimalizována pro spolehlivé agentní smyčky.
Výstupní kapacita
Max output 50 000 tokenů je výrazně vyšší než standardních 4k-8k u většiny rychlých modelů, ideální pro generování dlouhého kódu.
Slabé stránky
Kontextové okno
Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ (Gemini, Grok).
Multimodalita
Model je omezen pouze na text-to-text, zatímco konkurenti v podobné cenové hladině (Gemini Flash) zpracovávají i obraz.