2020.11.02 【NHK技研90周年特集】NHK技研の次世代技術 手話CG生成技術の研究〈スマートプロダクション研究部 梅田修一主任研究員〉

 生まれつきのろう者にとっては、日本語の字幕よりも手話の方が理解しやすいことがある。そのため、例えば台風接近時の防災やコロナ禍の感染防止などに関する政府の記者会見では、手話通訳士がテレビに映し出される機会も多くなっている。さらに、ドラマやバラエティ番組にも手話を付与してほしいとの要望も多い。

 生まれつきのろう者は、全国に約5万7000人いると推計されている(01年日本手話学会)。NHKは、ろう者のような障害者を含むあまねく人々に等しく情報を伝えるユニバーサルサービスの拡充を重要な課題の一つと位置付け、その一環として手話を付与した放送番組を増やすことにつながる研究開発に取り組んでいる。

 現在、NHKでは、放送するほぼ全ての番組に字幕を付与している一方で、手話を付与できる番組数は極めて少ない。生放送に手話を付与しようとすると番組数に対して、十分な数の手話通訳士を確保することは困難だからである。また、収録番組でも、用いられる専門的な用語に対応できる手話通訳士が限られるという実状もある。

 NHK技研では、人の代わりに、コンピュータグラフィックス(CG)キャラクタが手話通訳士の役割を果たす「手話CG」の研究開発を09年から開始した。手話放送拡充に向けて手話CGの活用に期待は大きい。

 手話CGの正確さを保証する手段として、日本語を手話に通訳する手話通訳士の動きをモーションキャプチャしたり、手話の動きに基づいてCGアニメータがキャラクタアニメーションを制作したりすることが考えられる。しかし、これらの方法では、現状の手話通訳士による手話番組よりもはるかに長い制作時間を要し、結果として、手話CG制作にも関わる手話通訳士の負担は大きくなる。

 そこで、あらかじめモーションキャプチャで作成したモーションデータを組み合わせて、3次元CGアニメーションを生成する方式を採用した。この方式は日本語の原稿が出稿されるたびに手話を発話する必要がなく、手話通訳士の負担は小さくなる。しかし、顔の表情を含む手話動作を自然に正しく伝えるための技術的課題があり、各課題についてNHK技研の取り組みを説明する。

 〈合成技術の向上-手話動作の再現-〉

 自然で伝わりやすい手話CGアニメーションをリアルタイムで生成するために、約7000語の手話のモーションデータをデータベースに登録した。データベースに登録する単語の選定に当たっては、全日本ろうあ連盟発行の「わたしたちの手話」を中心に、毎日放送している「NHK手話ニュース」で使用される単語も参考にした。

 取得したモーションデータに従って動作するCGキャラクタが単語の意味を正しく伝えているかどうか、さらにその動きが手話として自然かどうかを調査するため13年9月から「手話CG評価サイト」(https://www.nhk.or.jp/signlanguage/)を公開している(図1)。

図1 手話CG評価サイトで単語「手話」を検索した例

 同評価サイトを閲覧したろう者からは、それぞれの単語の手話CGの動きは正しくとも、複数の単語を組み合わせて文章とした場合の手話CGの動きはぎこちなく、実際の手話を再現していない、という指摘をいただいた。そこで、キャラクタアニメーション制作で用いられるインバースキネマティクス(IK)の技術を応用して、手指動作の滑らかな接続や修正が可能な制御法を開発した。

 この手法により、手が胴体にめり込むような不自然な位置関係となることを防いだり、手話を発話する空間位置を微調整したりすることができる。また、手話では手指の動作に加えて、顔の表情や口型などの手指以外の動作(非手指動作)が重要な役割を持つことから、非手指動作に拡張した制御技術の開発を進めている。

 〈翻訳精度の向上〉

 手話CG制作を効率的に行うために、日本語を手話へ機械翻訳し、その結果に従ってアニメーションを合成するワークフローを検討している。手話には標準的な文字表現がないため、意味的に近い日本語の語句を時系列に列挙した手話単語列を翻訳結果として、その翻訳精度を向上する研究を進めている。

 12年までに、用例翻訳と統計翻訳を融合して、入力した日本語文を節・句に分けて機械翻訳する技術を開発した(図2)。その後も翻訳精度の向上に取り組み、19年からはニューラルネットワーク機械翻訳の開発に着手した。

図2 日本語―手話CG翻訳システム

 機械翻訳の精度は、学習する対訳コーパスの量に依存するため、日本語を手話に対応付けた日本語-手話単語列の対訳コーパスの拡充を進めてきた。具体的には、09年度からNHKで放送された「手話ニュース」の映像を元に、番組音声を日本語テキストに書き起こすとともに、手話通訳士のキャスタの手話表現を見て手話単語列を人手で作成する。対訳コーパスの規模は20年現在で、約18万文対となっている。

 日本語から手話への機械翻訳に一定の精度が確保された段階で、できるだけ早期に手話CGを利用できるようにするため、機械翻訳の誤りを手動で修正することを想定している。18年には直感的なユーザーインターフェイスによって、手話単語の語順を簡単に修正できる手話CG制作支援システムの研究開発を開始した。

 〈実用化に向けた取り組み〉

 膨大な数に及ぶ日本語の全てを対象として翻訳して手話CGアニメーションを合成する技術の実現は現状では難しいため、対象分野を気象情報やスポーツの定型文に限定して、サービス可能な範囲から手話CG生成技術の実用化を進めている。

 日常の気象情報の内容はある程度限られているため、日本語から手話単語列に翻訳するのではなく、いくつか用意した日本語定型文に対応する手話表現をあらかじめ用意し、気象電文から手話CGを自動生成するシステムを開発した。本システムは、気象電文の解析部と手話CG生成部で構成される。気象電文解析部は、あらかじめ用意したテンプレートの空欄部分に、受信した気象電文に基づく手話単語を挿入して、手話表現を完成させる。

 完成された手話表現(テンプレート+挿入された手話単語)は手話生成部に伝達され、相当するモーションデータをデータベースから取得し、一連のアニメーションが合成される。15年には、気象庁の〝府県天気予報〟データの手話CGを自動制作・更新するシステムを開発した。このシステムにより、17年2月から関東7都県の県庁所在地の天気予報、最高最低気温、降水確率を手話CGで伝える評価サイトを、NHKオンライン上で公開している(図3)。

図3 気象手話CGの評価サイト

 スポーツ情報については、試合中に配信される得点や反則などの競技データを解析し、リアルタイムで実況用の手話CGや字幕を自動生成するシステムを開発した。同システムについては、これまでにアイスホッケーやカーリングなどの実際の競技データを利用した技術検証をしている。

 今後、手話CGによる実用サービスと機械翻訳の精度向上などの研究開発を進め、多くのテレビ放送での利用を目指していきたい。

 「NHK技研の次世代技術」は本紙で随時掲載します。