Qwen: Qwen3.5-122B-A10B

qwen/qwen3.5-122b-a10b

Qwen3.5-122B-A10B je silný 'middle-weight' model, který exceluje v multimodálních úlohách za agresivní cenu vstupu, ale ztrácí body kvůli drahému generování textu.

✦

Killer Feature Kombinace lineární pozornosti a MoE umožňuje efektivní zpracování videa za cenu textových modelů střední třídy.

⚠

Skryté riziko Vysoký poměr ceny výstupu k vstupu (8:1) může nečekaně prodražit aplikace s ukecanými odpověďmi.

$0.4 / 1M vstup

$3.2 / 1M výstup

262k kontext

66k max výstup

Dobrý hodnocení

textimagevideo text Multimodální zpracování (Video/Obraz)Efektivita dlouhého kontextuVšeobecné usuzování

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Qwen Qwen3.5-122B-A10B	← Právě prohlížíte	—
Google Gemini 3 Flash Preview	Podobná cena ($0.50 vs $0.40 vstup, $3.00 vs $3.20 výstup)	Gemini nabízí 4x větší kontext (1M) a silný ekosystém. Qwen může být preferován pro specifické video úlohy nebo pokud uživatel preferuje non-Google infrastrukturu.
MistralAI Devstral 2512	Shodná cena vstupu ($0.40), ale Mistral má levnější výstup ($2.00)	Mistral cílí primárně na kódování a vývoj (Devstral), zatímco Qwen je univerzálnější díky vizuálním modalitám.
DeepSeek DeepSeek V3.2	DeepSeek je výrazně levnější ($0.25/$0.40)	DeepSeek dominuje v poměru cena/výkon u textových úloh. Qwen je lepší volbou pouze pokud je vyžadována analýza obrazu či videa.

🎯 Rozhodovací pomocník

✓

Použij když...

Analýza a sumarizace video obsahu
Multimodální RAG (Retrieval-Augmented Generation)
Zpracování dokumentů s grafy a schématy

✗

Nepoužívej když...

Generování dlouhých textů (kvůli drahému výstupu)
Jednoduché textové klasifikace (existují levnější modely)

Ideální pro:

Vývojáři multimediálních aplikacíAnalytici video obsahuFirmy zpracovávající velké objemy vizuálních dat

💪 Silné a slabé stránky

+ Silné stránky

Multimodální schopnosti

Nativní podpora vstupu videa a obrázků, která překonává předchozí Qwen3-VL-235B, což je v této cenové kategorii ($0.40 za vstup) vysoce konkurenční.

Architektonická efektivita

Využití lineární pozornosti (Linear Attention) snižuje výpočetní náročnost u dlouhých kontextů (262k tokenů) ve srovnání s kvadratickou složitostí standardních Transformerů.

Poměr cena/výkon u vstupu

Cena $0.40 za 1M vstupních tokenů je velmi nízká pro model s parametry 122B a schopností video analýzy.

− Slabé stránky

Disproporce cen výstupu

Cena výstupu $3.20/1M je 8x vyšší než cena vstupu, což prodražuje úlohy generující dlouhé texty ve srovnání s konkurencí (např. DeepSeek).

Velikost kontextového okna

Ačkoliv je 262k tokenů dostačující, přímí konkurenti v podobné cenové hladině (Gemini 3 Flash, Grok 4.1) nabízejí 1M až 2M tokenů.

📝 Detailní popis

Nativní vizuálně-jazykový model Qwen3.5 122B-A10B je postaven na hybridní architektuře, která integruje mechanismus lineární pozornosti s řídkým modelem směsi expertů, čímž dosahuje vyšší efektivity inference. Z hlediska celkového výkonu je tento model druhý nejlepší po Qwen3.5-397B-A17B. Jeho textové schopnosti výrazně překonávají schopnosti modelu Qwen3-235B-2507 a jeho vizuální schopnosti překonávají schopnosti modelu Qwen3-VL-235B.

Unikátní charakteristiky

Qwen3.5-122B-A10B se vyznačuje unikátní hybridní architekturou, která kombinuje lineární mechanismus pozornosti (pro efektivní zpracování dlouhých sekvencí) s modelem Mixture-of-Experts (MoE). Tato kombinace umožňuje modelu nativně zpracovávat video a obrazové vstupy s vysokou inferenční efektivitou, přičemž výkonnostně překonává starší, výrazně větší modely řady Qwen3.

Silné stránky

Multimodální schopnosti