Modely Qwen3.5 nativní řady pro zpracování obrazu a jazyka Plus jsou postaveny na hybridní architektuře, která integruje mechanismy lineární pozornosti s řídkými modely typu mixture-of-experts, čímž dosahuje vyšší efektivity inference. V různých hodnoceních úloh řada 3.5 konzistentně prokazuje výkon srovnatelný s nejmodernějšími vedoucími modely. Ve srovnání s řadou 3 vykazují tyto modely skokový posun vpřed jak v čistě textových, tak i multimodálních schopnostech.
Unikátní charakteristiky
Model využívá inovativní hybridní architekturu kombinující lineární mechanismy pozornosti (pro efektivní zpracování 1M kontextu) s řídkým Mixture-of-Experts (MoE). Tato kombinace umožňuje modelu ‘Plus’ dosahovat výkonu na úrovni SOTA při zachování nízké latence a nákladů typických pro menší modely.
Silné stránky
Efektivita kontextu
Díky lineární pozornosti (Linear Attention) zvládá kontext 1 000 000 tokenů s výrazně nižší výpočetní náročností než standardní Transformer modely.
Cenová agresivita
S cenou $0.40 za 1M vstupních tokenů podbíjí většinu konkurence v kategorii ‘Plus/Pro’ (např. Gemini 3 Flash je o 25 % dražší na vstupu).
Nativní multimodalita
Schopnost zpracovávat video a obrázky přímo v rámci hybridní architektury bez nutnosti externích vizuálních enkodérů.
Slabé stránky
Cena výstupu
Poměr ceny vstupu a výstupu (1:6) je méně výhodný než u open-weights konkurence (DeepSeek V3.2 má poměr cca 1:1.5).
Omezení generování
Maximální výstup 65 536 tokenů je sice vysoký, ale u úloh vyžadujících extrémně dlouhé generování textu (např. psaní celých knih) může být limitující oproti kontextu vstupu.