2022.04.22 【5Gがくる】ローカル5G簡単解説<84>5G×ディープラーニング=DXになる⑤

 前回、脳(後頭葉の視覚野)の神経回路網には、網膜に映る人物画像の情報から顔認識に必要なごく一部の本質だけを捉えて学習する能力があることと、これをコンピューターで模倣したものがディープラーニング(深層学習)であることを単純明快に述べた。

 ディープラーニングは画像認識によるデジタルトランスフォーメーション(DX)に欠かせないわけだが、その精度を人間の画像認識能力ほどに高めるためには、大量の「画像データ」を与えて学習させなければならない。それは毎日接しているうちに父親の顔を認識して笑ってくれるようになる人間の赤ちゃんと同じだ。

特徴量だけを抽出

 ディープラーニングの赤ちゃんは、母親をはじめ祖父母や近所のおじさんも映っている大量の画像データから父親の顔を識別する上で欠かせない「特徴量」(対象の特徴を数値化したもの)だけを抽出しながら学習する。その驚くべき能力を数字で実感してみよう。

デープラーニングは、人間の赤ちゃんの学びと同じ

 画像は、画素(ピクセル)と呼ぶ格子状に分割した最小単位の四角形で構成されており、画像データは水平画素数に垂直画素数を掛けた数で表される。

 最近のテレビなどでも採用されるようになってきている高精細な4K画像は、水平画素数3840×垂直画素数2160=800万画素から構成される。各画素には「階調」と呼ばれる色の濃淡を表現するグラデーションや明るさを値で示す画素値があり、8ビットの場合には256階調のグレースケール画像を表現できる。

 一方の特徴量は、画像に映る対象とその構成要素のそれぞれの特徴が表現された数値のことになる。顔の場合は、顔全体と、顔を構成する目や鼻、口、さらにこれらを構成するまぶたや瞳、唇といった部品がある。

 これらの特徴表現として、顔全体の輪郭や部品の輪郭がある。輪郭は隣接した画素(エッジ=線分)がある方向に連続して組み合わさったものだ。そこで、任意の画素の組み合わせの数がどれほどあるかというと、4K画像の場合には256の800万乗という天文学的な数となる。

 人をそれぞれ識別するための画像データには膨大な数の特徴量があるため、人間がその中から人物ごとに特徴量を抽出して画像認識をする人工知能(AI)を作ることは不可能に近い。

 ところがディープラーニングの赤ちゃんに大量の画像データを与えると、膨大な数の特徴量の中から認識対象の表現に欠かせない特徴量だけを過不足なく抽出し、優れた画像認識能力を持つ大人のAIになってくれる。

超高速「5G」必要

 その特徴量の抽出能力は、砂浜に埋もれている一粒のダイヤを発掘するようなもの。そこで問題になるのが、ディープラーニングはクラウド上にあるということだ。速やかに現場の4K画像データをクラウドまで転送するには、超高速な通信網が必要になる。有線だけでなく、場所を問わずデータを集めるためには超高速な第5世代移動通信規格5Gが必要となる。

 例えていうと、ダイヤが埋蔵されているかもしれない大量の砂を運ぶ大型トラックが必要となるわけだ。加えて、途中で砂(データ)が漏れたり盗まれたりしないように、セキュア(安全)な「ローカル5G」を整備するほうが無難といえる。(つづく)

 〈筆者=モバイルコンピューティング推進コンソーシアム上席顧問。グローバルベンチャー協会理事。国士舘大学非常勤講師・竹井俊文氏〉