Voxtral Small je vylepšení modelu Mistral Small 3, které zahrnuje nejmodernější možnosti audio vstupu při zachování nejlepšího textového výkonu ve své třídě. Vyniká v přepisu řeči, překladu a porozumění audiu. Cena za vstupní audio je 100 USD za milion sekund.
Unikátní charakteristiky
Voxtral Small 24B je specializovaná adaptace modelu Mistral Small 3, která integruje nativní zpracování audia přímo do jazykového modelu. Díky tomu eliminuje potřebu samostatných systémů pro rozpoznávání řeči (ASR) a umožňuje přímou sémantickou analýzu zvukových vstupů při zachování nízké latence.
Silné stránky
Cenová efektivita audia
Cena $100 za 1 milion sekund audia vychází přibližně na $0.36 za hodinu záznamu, což je vysoce konkurenceschopné oproti dedikovaným transkripčním API.
Textová inference
S cenou $0.10 za 1M vstupních tokenů patří k nejlevnějším modelům na trhu, přičemž staví na ověřené architektuře Mistral Small 3.
Integrovaná analýza
Schopnost provádět ‘audio understanding’ (nejen přepis, ale i pochopení obsahu) v jednom kroku snižuje latenci oproti pipeline ASR + LLM.
Slabé stránky
Kontextové okno
Kapacita 32,000 tokenů je na poměry prosince 2025 velmi nízká (konkurence běžně nabízí 128k až 2M tokenů), což limituje práci s dlouhými záznamy.
Omezená multimodalita
Model zpracovává pouze audio vstup na text; nepodporuje vstup obrazu ani generování audia, na rozdíl od modelů řady GPT-Audio nebo Gemini.