生成AIが人の発話を効率よく再現　NTT、対話と音声合成で新技術

2024.01.17 生成AIが人の発話を効率よく再現　NTT、対話と音声合成で新技術

個人性再現対話技術と従来技術の比較

　NTTは17日、自社開発した生成AI(人工知能)の基盤技術となる大規模言語モデル「tsuzumi(ツヅミ)」を活用し、会話データから本人らしい発話を生成する技術と、本人の音声を合成できる技術を新たに開発したと発表した。これまで個人の特徴を学習し再現するには大量のデータが必要だったが、少量データから再現でき、簡単にデジタル空間内にアバター(自身のデジタル分身)を持てるようになる。

　LLMは、対話を集めたデータを学習することで雑談や議論など人の自然な会話を生成する対話技術にも適用できるが、個人性の再現のためには大量の個人データを使って調整する必要があり、コスト面などが課題となっていた。

　今回開発したのは、少量のデータから本人らしい発話を生成する「個人性再現対話技術」と、数秒～数分程度の音声から本人の音声を合成できる音声合成技術の二つの技術。

　記者発表したNTT人間情報研究所の深山篤氏は「自分の代わりに他人とコミュニケーションするデジタル分身を誰もが持てるようになり、ユーザー自身がログインしていなくても自律的に活動するデジタル分身がメタバースなどの仮想空間上でコミュニケーションしてくれるようになる」と説明。全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約にしばられず会話でき、趣味や関心が共通する人との交流の活発化が期待できるという。

　技術の実演では、あいさつ程度の短い会話から子供や高齢者の声音や話し方の特徴をとらえ、発話者本人の生音声とほぼ同様の合成音声を生成した。

　今後は、専門的な言語能力を有しながら、親しみやすい個性を持つデジタルヒューマンやチャットボットの実現につなげたい考え。広告やマーケティング分野での活用を検討する。

　(18日付の電波新聞／電波新聞デジタルで詳報します)