2024.04.12 AIが文書画像を理解 NTTが世界初 LLMの視覚読解技術を実現

図表やレイアウトも把握

 NTTは12日、生成AI(人工知能)の基盤となる大規模言語モデル(LLM)が、図表を含めた文書画像を理解し、自然言語での指示に応答する「視覚読解技術」を世界で初めて実現したと発表した。文書に含まれるテキスト情報と視覚情報をLLMが理解できる形式に変換するアダプター技術を開発し、同社独自のLLM「tsuzumi(ツヅミ)」に...  (つづく)