Mistral: Voxtral Small 24B 2507

mistralai/voxtral-small-24b-2507

Voxtral Small 24B je vysoce efektivní 'pracant' pro zpracování mluveného slova, který drtí konkurenci poměrem cena/výkon, pokud vám stačí menší kontextové okno.

✦

Killer Feature Kombinace extrémně levného textového vstupu ($0.10) a nativního zpracování audia v jednom modelu.

⚠

Skryté riziko Limit 32k tokenů může být kritický při zpracování delších konverzací, kde se audio tokeny rychle nasčítají.

$0.1 / 1M vstup

$0.3 / 1M výstup

32k kontext

Dobrý hodnocení

textaudio text Zpracování audiaPřepis a překlad řečiEfektivní textová inference

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Mistralai Voxtral Small 24B 2507	← Právě prohlížíte	—
OpenAI GPT-Audio Mini	Voxtral je 6x levnější na textovém vstupu ($0.10 vs $0.60)	GPT-Audio Mini nabízí 4x větší kontext (128k), ale Voxtral je výrazně ekonomičtější pro masivní zpracování dat.
Google Gemini 3 Flash Preview	Voxtral je 5x levnější na vstupu, 10x na výstupu	Gemini dominuje kontextem (1M) a podporou videa/obrazu, Voxtral je úzce specializovaný na levné audio/text úlohy.
Mistral AI Mistral Small Creative	Identická cena textu	Voxtral je přímý upgrade modelu Small Creative o audio modality; pro čistě textové úlohy jsou ekvivalentní.

🎯 Rozhodovací pomocník

✓

Použij když...

Levná transkripce a sumarizace hovorů
Překlad řeči v reálném čase
Klasifikace sentimentu z audio nahrávek

✗

Nepoužívej když...

Analýza dlouhých hodinových záznamů v jednom kontextu
Úlohy vyžadující vizuální vstupy
Generování mluveného slova (TTS)

Ideální pro:

Vývojáři hlasových asistentůCall centraPlatformy pro podcasting a média

💪 Silné a slabé stránky

+ Silné stránky

Cenová efektivita audia

Cena $100 za 1 milion sekund audia vychází přibližně na $0.36 za hodinu záznamu, což je vysoce konkurenceschopné oproti dedikovaným transkripčním API.

Textová inference

S cenou $0.10 za 1M vstupních tokenů patří k nejlevnějším modelům na trhu, přičemž staví na ověřené architektuře Mistral Small 3.

Integrovaná analýza

Schopnost provádět 'audio understanding' (nejen přepis, ale i pochopení obsahu) v jednom kroku snižuje latenci oproti pipeline ASR + LLM.

− Slabé stránky

Kontextové okno

Kapacita 32,000 tokenů je na poměry prosince 2025 velmi nízká (konkurence běžně nabízí 128k až 2M tokenů), což limituje práci s dlouhými záznamy.

Omezená multimodalita

Model zpracovává pouze audio vstup na text; nepodporuje vstup obrazu ani generování audia, na rozdíl od modelů řady GPT-Audio nebo Gemini.

📝 Detailní popis

Voxtral Small je vylepšení modelu Mistral Small 3, které zahrnuje nejmodernější možnosti audio vstupu při zachování nejlepšího textového výkonu ve své třídě. Vyniká v přepisu řeči, překladu a porozumění audiu. Cena za vstupní audio je 100 USD za milion sekund.

Unikátní charakteristiky

Voxtral Small 24B je specializovaná adaptace modelu Mistral Small 3, která integruje nativní zpracování audia přímo do jazykového modelu. Díky tomu eliminuje potřebu samostatných systémů pro rozpoznávání řeči (ASR) a umožňuje přímou sémantickou analýzu zvukových vstupů při zachování nízké latence.

Silné stránky

Cenová efektivita audia