2023.07.04 「国産」生成AIの開発競争過熱 NICT、日本語特化モデル試作

NICTが開発した生成AIの画面

 日本語に特化した独自の国産生成AI(人工知能)を開発する動きが急速に広がっている。情報通信研究機構(NICT)は、日本語のウェブデータのみで学習した400億パラメーターの「大規模言語モデル(LLM)」を開発。NECも8月から独自開発の生成AIを企業向けに提供する。ほかにもNTTやソフトバンクなど多くの国内企業が開発に乗り出しており、海外勢から巻き返しを図る起爆剤として、国産生成AIをめぐる主導権争いも本格化してきた。

 生成AIは、大量のデータを深層学習することで文章の作成や要約などをできるようにする「大規模言語モデル」と呼ばれるAI技術が基盤として使われている。ただ、米オープンAIの「Chat(チャット)GPT」をはじめ、海外で開発が進むLLMは、英語を中心に学習させているため、英語に比べ日本語の精度が低いことが課題となっている。

 NICTは、チャットGPTの急速な普及を受け、3月から本格的な日本語特化型LLMの研究開発に着手。ウェブから収集した日本語文章400億ページの中から、「ため」や「ので」など理由を説明する接続詞を含むテキストを抽出してAIが大規模言語モデルを事前学習し、動作を検証。人工的な分類ラベルを出力する識別系言語モデルの構築で培ったノウハウを生かし約4カ月で日本語に特化した生成AIの試作にこぎ着けた。

 LLMの性能指標の一つであるパラメーター数はチャットGPT(GPT-3)が1790億に対し、NICTは400億。「性能面では比較できるレベルにないが、尖った仮説を出すといったある種ユースケースにフォーカスすれば太刀打ちすることは可能かもしれない。チャットGPTが出た直後の衝撃に比べれば、ずいぶん希望が持てる状況」。開発を主導したNICTフェローの鳥澤健太郎氏はこう説明する。

 試作では、要領を得ないテキストが出力されるケースがあるものの、各種質問への回答、要約、翻訳に加えて、存在しない映画の簡単なあらすじを生成するといった創作ができる可能性も示した。一方、生成テキストの悪用を示唆する結果もあり否定的な要素の改善や、生成したテキストに類似するテキストが学習データにないかを自動検索するなど著作権侵害のチェックを強化する。

 独自生成AIをめぐっては、NECが3月から稼働を始めたAI研究用のスーパーコンピューターを使い、日本語特化のLLMを開発。独自の生成AIを8月から企業向けに提供する予定で、今月から関連サービスを順次立ち上げる。

 またIT大手のサイバーエージェントが日本語中心のLLMを開発して公開。ソフトバンクやLINEも開発に乗り出しているほか、NTTは2023年度中の外部提供に向けた準備を進めている。また、富士通と理化学研究所は共同開発したスーパーコンピューター「富岳(ふがく)」を使い、東京工業大、東北大と連携して日本語能力の高いLLMの開発プロジェクトを進めるなど開発競争が激化している。

 (5日付の電波新聞/電波新聞デジタルで詳報します)