Model gpt-audio je prvním obecně dostupným audio modelem od OpenAI. Nový snapshot obsahuje vylepšený dekodér pro přirozeněji znějící hlasy a zachovává lepší konzistenci hlasu. Cena audia je 32 USD za milion vstupních tokenů a 64 USD za milion výstupních tokenů.
Unikátní charakteristiky
Jedná se o první obecně dostupný model OpenAI s nativní schopností zpracovávat audio vstup i výstup (audio-to-audio) bez nutnosti převodu na text. Model využívá vylepšený dekodér pro přirozenější intonaci a vyšší konzistenci hlasu, přičemž odděluje ceník pro textové a audio tokeny.
Silné stránky
Nativní audio zpracování
Schopnost zpracovávat zvuk přímo (end-to-end) eliminuje latenci a ztrátu sémantických nuancí (tón, emoce), ke kterým dochází u tradičních STT/TTS systémů.
Konzistence hlasu
Nový snapshot modelu vykazuje výrazně vyšší stabilitu v udržení charakteru hlasu během delších konverzací oproti předchozím experimentálním verzím.
Slabé stránky
Cena audio výstupu
Cena $64.00 za milion audio výstupních tokenů je extrémně vysoká, což model diskvalifikuje pro vysokoobjemové aplikace s nízkou marží.
Kontextové okno
Kapacita 128,000 tokenů je v prosinci 2025 podprůměrná; konkurence (Gemini 3, Grok 4) nabízí v podobné cenové hladině 1M až 2M tokenů.