第72回

大規模マルチモーダルモデル(LMM)の展開

相澤 清晴 東京大学大学院情報理工学系研究科 教授

講演概要

ツール・環境

AIは、大規模言語モデル(LLM)から大規模マルチモーダルモデル(LMM)へと急速に進化を続けています。LMMでは、自然言語テキストに加えて、画像などの複数のモダリティの入力に対して、自然言語のテキストで応答をすることができます。さらには、応答出力も言語だけでなく、複数のモダリティでの応答が可能になってきています。LMMは、LLMの基盤の上に展開しており、ここでは、画像を例にして、その概要を紹介します。

講演映像

講演資料

講演資料ダウンロード(PDF)