Cenově výhodná verze GPT Audio. Nový snapshot obsahuje vylepšený dekodér pro přirozeněji znějící hlasy a zachovává lepší konzistenci hlasu. Vstup je zpoplatněn 0,60 USD za milion tokenů a výstup je zpoplatněn 2,40 USD za milion tokenů.
Unikátní charakteristiky
Model je optimalizovanou verzí GPT Audio, zaměřenou na nízkou latenci a snížení provozních nákladů při zachování vysoké kvality hlasového výstupu. Využívá vylepšený dekodér pro konzistentnější hlasový projev a přirozenější intonaci, přičemž zpracovává audio a text nativně bez nutnosti externího převodu.
Silné stránky
Cenová efektivita
S cenou $0.60 za 1M vstupních tokenů je přibližně 4x levnější než plná verze GPT Audio ($2.50), což umožňuje masové nasazení.
Kvalita hlasového výstupu
Nový snapshot obsahuje vylepšený dekodér, který specificky řeší stabilitu hlasu a přirozenost, což je kritické pro konverzační agenty.
Výstupní kapacita
Limit 16,384 výstupních tokenů je dostatečný pro generování dlouhých mluvených segmentů nebo rozsáhlých odpovědí.
Slabé stránky
Kontextové okno
Kapacita 128,000 tokenů je výrazně nižší než u konkurence v podobné cenové hladině (např. Gemini 3 Flash s 1M+ tokeny).
Komplexní uvažování
Jakožto ‘Mini’ varianta pravděpodobně nedosahuje hloubky uvažování (reasoning) jako modely třídy GPT-5.2 nebo Claude Opus.