2025.12.26 リコー、LLM出力も監視するセーフガードモデル開発 有害情報の検知・遮断を強化

 リコーは、大規模言語モデル(LLM)からの有害情報の出力を検知するセーフガードモデルを開発した。米メタ・プラットフォームズが提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースモデルに、自社開発のガードレール機能を組み込んだ。

 従来は有害なプロンプト入力の判別に対応していたが、今回の開発により、LLMが生成する有害情報の出力についても検知できるようになった。生成AIの安全な利活用を支援する取り組みの一環。

 同社は昨年10月に安全性対策プロジェクトを立ち上げ、今年8月には有害なプロンプト(指示)入力を対象とした判別機能をリリース。リコージャパンが提供する「RICOH オンプレLLMスターターキット」に標準搭載してきた。

 今回開発したセーフガードモデルは、LLMに対するガードレールとして機能し、プロンプト入力されたテキストとLLMから出力された回答を常時監視。不適切・有害な内容を自動で検出する。

 学習には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類した同社独自構築の数千件のデータを用いた。これにより、LLMへの有害情報の入力や、LLMから出力された有害な回答を検知し、ブロックすることが可能となる。

 一般的な有害表現の検知に加え、「業務に無関係な内容をブロックしたい」といった顧客ニーズに応じたカスタマイズ対応も検討している。ベンチマーク評価では、他社製と比較して高いスコア(F1スコア)を得ており、検知性能の高さを確認したとしている。