gpt-oss-safeguard-20b je model pro odůvodňování bezpečnosti od OpenAI, postavený na modelu gpt-oss-20b. Tento model s otevřenými váhami, 21 miliardami parametrů a architekturou Mixture-of-Experts (MoE), nabízí nižší latenci pro bezpečnostní úlohy, jako je klasifikace obsahu, filtrování LLM a označování pro důvěryhodnost a bezpečnost.
Více informací o tomto modelu naleznete v uživatelské příručce gpt-oss-safeguard od OpenAI.
Unikátní charakteristiky
Tento model je specializovanou variantou architektury gpt-oss-20b, jemně doladěnou (fine-tuned) výhradně pro bezpečnostní usuzování a klasifikaci rizik. Jako open-weight MoE model s 21 miliardami parametrů nabízí extrémně nízkou latenci a náklady, což jej předurčuje pro roli ‘guardrail’ filtru v reálném čase.
Silné stránky
Cenová efektivita
S cenou $0.07 za 1M vstupních tokenů patří mezi nejlevnější modely na trhu, což umožňuje levné skenování velkých objemů dat.
Specializace na bezpečnost
Díky specifickému tréninku na safety tasks překonává v detekci jailbreaků a škodlivého obsahu i mnohem větší univerzální modely.
Architektura MoE
Mixture-of-Experts design zajišťuje, že se aktivuje jen část parametrů, což zvyšuje propustnost (throughput) při zachování kvality úsudku.
Slabé stránky
Omezená generativita
Model není vhodný pro kreativní psaní nebo složité generování textu; je optimalizován pro klasifikaci a stručné odůvodnění.
Riziko falešných pozitiv
Jako u všech safety modelů existuje riziko přílišné opatrnosti (over-refusal) u hraničních, ale neškodných dotazů.