2024.01.18 【情報通信総合特集】2024市場/技術トレンド 生成AI〈2〉
NECが開発した動画の内容を自動認識して文章化する生成AIの画面
動画説明、カルテ作成、現場でも導入事例が急速に拡大
生成AI(人工知能)は、既に多くの分野でサービスに組み込まれている。動画を認識して文章で説明する世界初の技術をはじめ、電子カルテから医療文書を生成する仕組みや、音声認識アプリのアシスタントとして活用されるなど、幅広い分野で導入されている。2024年も新たな領域との融合が期待される。
NECは、生成AIの基盤となる大規模言語モデル(LLM)と映像認識AIを組み合わせ、AIが動画の内容を自動で認識して文章で表現する新たな技術を開発した。
静止画と違って時間経過とともに変化する動画を生成AIが認識するには技術的な難易度が高いとされていたが、同社は長時間の動画から短縮動画と説明文章を自動生成することに世界で初めて成功した。ドライブレコーダーの動画から交通事故の原因を分析するなど、新たな活用が期待されている。
100以上の画像認識AIが連携して、シーンを構成する人物や車、建物、樹木のほか、天候などの環境の変化を個別に認識。認識結果をLLMで分析してとりまとめ、文章を生成する仕組み。
ドライブレコーダーの動画の場合、事前に道路交通関係の動画を学んだLLMが専門知識を備え、動画内で起きた出来事を把握。NECが独自開発したLLMとデータ検索システムを活用し、1時間以上の動画から目的のシーンの動画と説明文章を数秒間で作成できるという。
医療分野では、東北大学病院(仙台市青葉区)と共同で、生成AIで電子カルテから医療文書を自動作成する技術を開発。電子カルテに記録された患者の症状、検査結果、経過、処方などの情報をAIが時系列に整理し、NEC独自の日本語版LLMを使って治療経過の要約文章を自動生成する仕組みを構築した。生成した要約文章には、引用元の電子カルテの記載内容が関連付けて表示されるため、医師がエビデンスを効率的に把握できるという。
さらに適用範囲を広げ、生成AIを活用した医療機関向けのソリューションを2024年内に提供する予定。医療文書の作成時間を半減し、人手不足が深刻化する医療現場の業務効率化につながる仕組みとして注目されそうだ。
音声と生成AIを組み合わせたのはアドバンスト・メディアだ。主力のAI音声認識ソフト「AmiVoice」を機能強化し、米オープンAIの「Chat(チャット)GPT」との連携機能を新搭載したAI音声対話アバター「AI Avatar AOI(アバター・アオイ)」を市場投入した。
チャットGPTと連携することで、品質の高いAI対話を実現。専門用語や固有名詞も高精度にテキスト化する辞書登録機能も搭載した。
目的や用途に合わせ、パソコン(PC)やスマートフォン、デジタルサイネージなど、さまざまなデバイスを選択できるようにした。24時間365日体制で顧客対応を自動化できるため、人手不足解消やリモート環境下での顧客接点強化などを支援する。
MODEは、IoTシステムと生成AIを融合したシステムに目を付けた。主力のクラウド型IoT基盤サービス「BizStack(ビズスタック)」に生成AIを組み込み、建設や工場などの現場データを生成AIが監視する仕組みを構築。異常があった場合には、現場作業員のスマートフォンを通じて生成AIが自動で話しかけ状況を知らせる。
ビズスタックは、デバイスや車両、ロボット、産業機器などのデータの収集から蓄積、活用まで、トータルでIoTサービスを提供する。企業が持つデータの可視化にとどまらず、データを活用して現場業務の改善につなげる企業向けパッケージとして30社以上に導入されている。
これまでは、リアル空間で計測した数値やグラフといった現場データは、現場事務所などに設置したPC画面にダッシュボード形式で表示して確認してもらう利用方法が一般的だった。ただ導入企業から「現場で仕事をする作業員はいつもPCの前に座っているわけではない」「PCでしか確認できないのは不便」といった要望が寄せられていた。
そこでビズスタックに生成AIを組み込み、現場データを介してリアル世界とつなぐことで、工事現場や点検の見回りなどPCが使えない現場でも、AIを通じて現場データが活用できるようにした。上田学CEOは「自然言語で対話しながら、生成AIが現場業務を支援するアシスタントの役割を果たす」と話す。
一方、大塚商会は、業務用クラウドソフト「マイクロソフト365」の一般的なアプリなどに対話型生成AIを搭載した「365Copilot(コパイロット)」の導入から活用までを支援する、新サービスの提供を始めた。
昨年11月に企業向けにリリースされたばかりのコパイロットの早期導入をサポートし、業務効率化につなげてもらう狙いだ。
研究領域でも技術革新
生成AIが脳内イメージを画像化
研究領域でも生成AI(人工知能)の登場が新たな技術革新をもたらした。量子科学技術研究開発機構(QST)などの研究チームは、人が頭の中に思い浮かべた風景や物体のイメージを脳信号から数値化し、生成AIを使って画像化する新たな技術を開発。画像化の精度の面で課題はあるものの、脳から直接意思が伝えられる装置の開発などにつながる技術として期待される。
研究チームは、風景や物体などの画像を実際に見ているときの脳信号と、それらの画像の特徴を数値化したデータをそれぞれ蓄積した上で、脳信号を数値に変換する「脳信号翻訳機」を構築。頭に思い浮かべたイメージが脳信号から数値に変換され、生成AIが修正を繰り返すことで画像として復元する仕組みだ。
まず1200枚の風景や物体などの写真を準備し、画像認識を訓練したAIに入力。AIは画像1枚1枚について、低次から高次にわたるさまざまな画像特徴を約613万個の数値で表現した「採点表」を作成する。あわせて、AIに入力したものと同じ写真を被験者に見せながら脳活動を機能的磁気共鳴画像法(fMRI)で計測し、合計1200枚分の脳信号データを取得。最初に取得した画像1200枚分の採点表と、1200枚分の被験者の脳信号データをもとに、脳信号を採点表に翻訳する脳信号翻訳機を構築する。同機を使うと、脳信号のみから被験者の体験している画像の採点表を得ることができる。翻訳の後、生成AIに画像を描かせることで、メンタルイメージの復元を行う。
これまでも、画像を見ている際の脳をfMRIで調べ、脳信号データをもとに画像化した例はあったものの、対象がアルファベット文字などに限られた。頭の中に思い浮かべた「メンタルイメージ」の復元に成功したのは世界初という。病気やけがで意思疎通の難しい人との対話のほか、夢や幻覚のメカニズム解明に役立つ可能性があるという。
QSTの間島慶研究員は「これまで顕微鏡などを用いて目では見えない世界を見てきたが、心の中には踏み込めていなかった。人類が初めて他人の頭の中をのぞくことができた」と語った。
実験では、動物のヒョウの顔を想像した人から得られた画像は、ヒョウの柄や耳の形などの特徴が再現されていた。ただ、形などはやや不鮮明で、今後も精度の改善を続けるという。
■エッジ型の開発も進む
米IT大手が開発した生成AIなどクラウド経由でサービスが提供されるケースが多いが、エッジデバイスに生成AIを組み込むことで、AIの学習データを外部サーバーに送らず動かすことができるエッジ型の導入が外資企業を中心に進んでいる。
IoTソリューションを提供する米サンダーコムは、大規模言語モデル(LLM)をIoT機器に組み込むことができる生成AIを発表した。クラウドを経由せずに生成AIが動かせるため、機密情報を扱う製造現場での活用のほか、自動車の車載AIなどへの導入が期待されている。
通信を介さずにエッジ側にあるAIが稼働するため応答速度(レイテンシー)の向上にもつながるという。
サンダーコムジャパンの今井正徳社長は「非常に大きなゲームチェンジになる。音声認識や自然言語処理により、利用者の声で指示に応答するスマートスピーカーや音声アシスタントデバイスが開発できるようになる」と胸を張る。
リアルタイムの画像処理や顔認識、動画生成技術をセキュリティーカメラやドライブレコーダーの運転支援機能に搭載すれば、車載のバーチャルアシスタントとして運転者を支援できる。また、産業用機器に生成AIを搭載し、センサーデータと組み合わせれば、故障を自己診断し、メンテナンスが必要な場合には自らアラートを発信するといった仕組みも構築できるようになる。
2022年10月のチャットGPT登場から1年余り。急速に活用が広がる生成AIの進化はとどまることをしらない。