Gemma 3 zavádí multimodalitu, podporuje vstup v podobě obrazu a jazyka a textové výstupy. Zvládá kontextová okna až do velikosti 128 tisíc tokenů, rozumí více než 140 jazykům a nabízí vylepšené matematické, logické a chatovací schopnosti, včetně strukturovaných výstupů a volání funkcí.
Unikátní charakteristiky
Gemma 3 4B je vysoce efektivní SLM (Small Language Model), který přináší nativní multimodální schopnosti (text i obraz) do segmentu s minimálními hardwarovými nároky. Model kombinuje extrémně nízké provozní náklady s podporou dlouhého kontextu a strukturovaných výstupů.
Silné stránky
Cenová dostupnost
S cenou $0.02 za 1M vstupních tokenů je model 5x až 10x levnější než nejlevnější konkurence v seznamu (např. Mistral Small).
Multimodalita
Schopnost zpracovávat vizuální vstupy (image-to-text) je v kategorii 4B modelů vzácná a poskytuje významnou výhodu oproti text-only modelům.
Kontextové okno
Kapacita až 128 000 tokenů umožňuje zpracování rozsáhlých dokumentů, což je u takto malých modelů nadstandardní.
Slabé stránky
Hloubka uvažování
Jako 4B model nemůže konkurovat větším modelům (nad 14B+) v komplexním logickém uvažování a řešení složitých matematických úloh.
Faktická přesnost
Menší počet parametrů zvyšuje riziko halucinací, zejména u dotazů vyžadujících encyklopedické znalosti mimo kontext.