Model gpt-4o-audio-preview přidává podporu pro audio vstupy jako podněty (prompty). Toto vylepšení umožňuje modelu detekovat nuance v audio nahrávkách a přidat hloubku generovaným uživatelským zážitkům. Audio výstupy aktuálně nejsou podporovány. Audio tokeny jsou zpoplatněny 40 USD za milion vstupních audio tokenů a 80 USD za milion výstupních audio tokenů.
Unikátní charakteristiky
Tento model představuje specializovanou variantu GPT-4o zaměřenou na nativní zpracování audio vstupů, což umožňuje detekci tónu, emocí a nuancí řeči přímo bez převodu na text. Ačkoliv je model multimodalní, v této verzi ‘preview’ je funkce generování audia omezena, přičemž důraz je kladen na analýzu zvukových dat.
Silné stránky
Nativní audio analýza
Schopnost detekovat nuance, intonaci a emoční zabarvení v audio vstupech, což běžný přepis (STT) nezachytí.
Multimodální promptování
Umožňuje kombinovat textové a zvukové instrukce v jednom kontextovém okně pro komplexní úlohy.
Slabé stránky
Cena audio tokenů
Cena 40 USD za milion vstupních audio tokenů je výrazně vyšší než u textového zpracování.
Kontextové okno
Kapacita 128 000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí nabízející 1M+ tokenů.
Omezení výstupu
Dle specifikace model aktuálně nepodporuje generování audio výstupů, což omezuje jeho využití v plně hlasových konverzacích.