第97回

LLM-jp-Moshi-v1の構築と日本語音声対話モデルの展望

東中 竜一郎 名古屋大学 大学院情報学研究科/NII LLMC

講演概要

音声対話モデル

音声言語データ

対話システム

音声対話モデルの研究が活発化する中、我々はLLM-jpプロジェクトの対話ワーキンググループにおいて、制約の少ないライセンスでの日本語音声対話モデル公開を目指して活動を行ってきた。本講演では、その成果として公開したLLM-jp-Moshi-v1を中心に紹介する。まず、音声言語モデル構築の概要とアーキテクチャについて述べ、学習に用いたデータおよび構築プロセスを説明する。次に、LLM-jp-Moshi-v1の評価結果を示し、その性能と課題を考察する。最後に、音声言語モデルの最近の動向を俯瞰しつつ、今後の展望について議論する。

講演映像

講演資料

講演資料ダウンロード(PDF)