2024.10.07 生成AI学習、分散型データセンターで実現 世界初 NTTコム

実証のイメージ

実証成果を説明する張担当部長=7日、東京都千代田区実証成果を説明する張担当部長=7日、東京都千代田区

 NTTコミュニケーションズは7日、端末からサーバーまで全てを光信号で伝えるオールフォトニクス・ネットワーク技術(APN)と、米半導体大手エヌビディアのGPU(画像処理半導体)搭載サーバーを組み合わせ、複数のデータセンター(DC)をまたいで生成AI(人工知能)の機械学習を行う実証実験に世界で初めて成功したと発表した。今回は約40キロメートル離れた2拠点で、小規模モデルで検証。今後さらに距離を広げ大規模モデルの学習も行い、商用サービス展開を目指す。

 今回の実証は、エヌビディアのGPUを搭載したサーバーを約40キロメートル離れた東京都三鷹市と秋葉原のDCに分散して配置。DC間を100Gbps(ギガビット毎秒)回線のAPNで接続し、エヌビディアのAI学習プラットフォーム「NeMo」を使って両拠点のGPUサーバーを連携させた。その上で、メタ社の生成AI「Llama2」の事前学習を分散DCで実施した。

 実証の結果、単一のDCで学習させる場合の所要時間と比較して、インターネット経由の分散DCでは時間が29倍かかるが、APN経由の分散DCでは1.006倍と、単一のDCとほぼ同等の性能を発揮できることが確認された。APNとNeMoを組み合わせた環境で、生成AIのモデル学習に成功したのは世界初という。

 NTTコミュニケーションズイノベーションセンターIOWN推進室の張暁晶担当部長は「APNの高速大容量・低遅延接続により、GPUサーバー間のデータ転送が迅速かつ効率的に行われ、単一DCと遜色ない性能を発揮できた」と説明する。

 今後は、実証で得られたノウハウを実用サービスとして展開することを目指す。同社は、国内70拠点以上のDC間を接続するAPN専用線サービスや、液冷方式サーバーに対応した超省エネ型DCサービスも展開している。各種サービスと組み合わせたGPUソリューションとして事業化を進める考えだ。

 張担当部長は「業種業界を問わず共創パートナーを募集して、さまざまな分野で発展させていきたい」と意気込みを示した。

 生成AIの学習を巡っては、モデルサイズの増大に伴い処理量も膨大になっている。これまで一般的だった単一のDC内でGPUクラスターを配置する方法では、収容量や電力供給に制限があり、処理量の変動に応じてオンデマンドにGPUリソースを入手できないといったことが課題になっていた。