Nativní vizuálně-jazykový model Qwen3.5 122B-A10B je postaven na hybridní architektuře, která integruje mechanismus lineární pozornosti s řídkým modelem směsi expertů, čímž dosahuje vyšší efektivity inference. Z hlediska celkového výkonu je tento model druhý nejlepší po Qwen3.5-397B-A17B. Jeho textové schopnosti výrazně překonávají schopnosti modelu Qwen3-235B-2507 a jeho vizuální schopnosti překonávají schopnosti modelu Qwen3-VL-235B.
Unikátní charakteristiky
Qwen3.5-122B-A10B se vyznačuje unikátní hybridní architekturou, která kombinuje lineární mechanismus pozornosti (pro efektivní zpracování dlouhých sekvencí) s modelem Mixture-of-Experts (MoE). Tato kombinace umožňuje modelu nativně zpracovávat video a obrazové vstupy s vysokou inferenční efektivitou, přičemž výkonnostně překonává starší, výrazně větší modely řady Qwen3.
Silné stránky
Multimodální schopnosti
Nativní podpora vstupu videa a obrázků, která překonává předchozí Qwen3-VL-235B, což je v této cenové kategorii ($0.40 za vstup) vysoce konkurenční.
Architektonická efektivita
Využití lineární pozornosti (Linear Attention) snižuje výpočetní náročnost u dlouhých kontextů (262k tokenů) ve srovnání s kvadratickou složitostí standardních Transformerů.
Poměr cena/výkon u vstupu
Cena $0.40 za 1M vstupních tokenů je velmi nízká pro model s parametry 122B a schopností video analýzy.
Slabé stránky
Disproporce cen výstupu
Cena výstupu $3.20/1M je 8x vyšší než cena vstupu, což prodražuje úlohy generující dlouhé texty ve srovnání s konkurencí (např. DeepSeek).
Velikost kontextového okna
Ačkoliv je 262k tokenů dostačující, přímí konkurenti v podobné cenové hladině (Gemini 3 Flash, Grok 4.1) nabízejí 1M až 2M tokenů.