Řada Qwen3.5 397B-A17B nativního modelu pro zpracování obrazu a jazyka je postavena na hybridní architektuře, která integruje mechanismus lineární pozornosti s řídkým modelem směsi expertů, čímž dosahuje vyšší efektivity inference. Poskytuje nejmodernější výkon srovnatelný s předními modely v široké škále úloh, včetně porozumění jazyku, logického uvažování, generování kódu, úloh založených na agentech, porozumění obrazu, porozumění videu a interakcí s grafickým uživatelským rozhraním (GUI). Díky svým robustním schopnostem generování kódu a agentů model vykazuje silnou generalizaci napříč různými agenty.
Unikátní charakteristiky
Model využívá unikátní hybridní architekturu kombinující lineární attention mechanismus s řídkým Mixture-of-Experts (MoE), což umožňuje masivní celkovou kapacitu parametrů (397B) při zachování efektivity inference odpovídající 17B modelu. Specializuje se na nativní zpracování vizuálních vstupů včetně videa a interakce s grafickým uživatelským rozhraním (GUI).
Silné stránky
Multimodální Agenti
Vynikající schopnost interpretovat GUI a video pro agentní úlohy, překonávající standardní textové modely v automatizaci softwarových rozhraní.
Efektivita Inference
Díky aktivaci pouze 17B parametrů nabízí latenci srovnatelnou s malými modely, přestože disponuje znalostní bází 400B modelu.
Cena Vstupu
Cena $0.60 za 1M vstupních tokenů je velmi konkurenceschopná pro model této velikosti a schopností.
Slabé stránky
Cena Výstupu
Cena $3.60 za 1M výstupních tokenů je téměř 10x vyšší než u DeepSeek v3.2 ($0.38) a vyšší než u Gemini 3 Flash ($3.00).
Kontextové Okno
Kapacita 262,144 tokenů je sice dostatečná, ale zaostává za konkurencí od Google a xAI (1M - 2M tokenů).