Google: Gemma 3n 4B

google/gemma-3n-e4b-it

Gemma 3n 4B je technický triumf v efektivitě, který přináší multimodalitu do segmentu ultra-levných modelů, ačkoliv její malý kontext a nižší kapacita pro reasoning ji omezují na specifické, méně náročné úlohy.

✦

Killer Feature Architektura MatFormer umožňující extrémně levný provoz ($0.02/1M) při zachování multimodálních vstupů.

⚠

Skryté riziko Malé kontextové okno (32k) může být v roce 2025 pro mnoho RAG (Retrieval-Augmented Generation) aplikací limitující.

$0.02 / 1M vstup

$0.04 / 1M výstup

33k kontext

Dobrý hodnocení

text text Edge computing / Mobilní zařízeníMultimodalita (Text, Audio, Vizuální data)Extrémní efektivita

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Google Gemma 3n 4B	← Právě prohlížíte	—
MistralAI Mistral Small Creative	Gemma je 5x levnější na vstupu a 7.5x levnější na výstupu	Mistral Small má stejný kontext (32k), ale zaměřuje se více na kreativní text. Gemma vítězí cenou a multimodalitou.
MistralAI Devstral 2512	Gemma je 2.5x levnější na vstupu	Devstral nabízí výrazně větší kontext (262k) a specializaci na kód, zatímco Gemma cílí na obecné lehké úlohy a multimédia.
X-AI Grok 4.1 Fast	Gemma je 10x levnější na vstupu	Grok nabízí masivní 2M kontext, ale pro jednoduché, krátké úlohy je Gemma ekonomicky výhodnější volbou.

🎯 Rozhodovací pomocník

✓

Použij když...

Rychlá klasifikace textu a obrázků
Offline-first asistenti (při lokálním nasazení)
Překlady v reálném čase

✗

Nepoužívej když...

Analýza rozsáhlých právních dokumentů (malý kontext)
Generování složitých softwarových systémů

Ideální pro:

Vývojáři mobilních aplikacíIoT inženýřiStartupy s omezeným rozpočtem na inferenci

💪 Silné a slabé stránky

+ Silné stránky

Cenová dostupnost

S cenou $0.02 za 1M vstupních tokenů jde o jeden z nejlevnějších modelů na trhu, ideální pro vysokoobjemové zpracování dat.

Multimodální schopnosti

Na rozdíl od většiny malých modelů (4B) podporuje nativně vstup textu, audia i vizuálních dat, což zjednodušuje pipeline pro mobilní aplikace.

Jazyková podpora

Trénink na více než 140 jazycích zajišťuje nadprůměrnou lokalizaci pro model této velikosti.

− Slabé stránky

Kontextové okno

Limit 32,768 tokenů je na poměry konce roku 2025 podprůměrný (konkurence běžně nabízí 128k+), což omezuje práci s dlouhými dokumenty.

Komplexní reasoning

S pouhými 4 miliardami parametrů nemůže konkurovat větším modelům v hluboké logické dedukci nebo složitém programování.

📝 Detailní popis

Gemma 3n E4B je optimalizována pro efektivní spouštění na mobilních zařízeních a zařízeních s omezenými zdroji, jako jsou telefony, notebooky a tablety. Podporuje multimodální vstupy – včetně textu, vizuálních dat a zvuku – umožňující různorodé úlohy, jako je generování textu, rozpoznávání řeči, překlad a analýza obrazu. Díky využití inovací, jako je Per-Layer Embedding (PLE) caching a architektura MatFormer, Gemma 3n dynamicky spravuje využití paměti a výpočetní zátěž selektivní aktivací parametrů modelu, což výrazně snižuje požadavky na zdroje za běhu.

Tento model podporuje širokou jazykovou škálu (trénován ve více než 140 jazycích) a nabízí flexibilní kontextové okno s 32 tisíci tokeny. Gemma 3n dokáže selektivně načítat parametry, optimalizovat paměť a výpočetní efektivitu na základě úlohy nebo schopností zařízení, díky čemuž je vhodná pro aplikace zaměřené na soukromí, s offline funkcemi a pro AI řešení přímo na zařízení. Více informací v blogovém příspěvku

Unikátní charakteristiky

Gemma 3n 4B využívá architekturu MatFormer a technologii PLE (Per-Layer Embedding) caching, což umožňuje dynamické škálování výpočetní náročnosti podle dostupného hardwaru. Model je navržen primárně pro efektivní běh na koncových zařízeních s podporou nativní multimodality v malém parametrickém balení.

Silné stránky

Cenová dostupnost