第97回
音声対話モデル
音声言語データ
対話システム
音声対話モデルの研究が活発化する中、我々はLLM-jpプロジェクトの対話ワーキンググループにおいて、制約の少ないライセンスでの日本語音声対話モデル公開を目指して活動を行ってきた。本講演では、その成果として公開したLLM-jp-Moshi-v1を中心に紹介する。まず、音声言語モデル構築の概要とアーキテクチャについて述べ、学習に用いたデータおよび構築プロセスを説明する。次に、LLM-jp-Moshi-v1の評価結果を示し、その性能と課題を考察する。最後に、音声言語モデルの最近の動向を俯瞰しつつ、今後の展望について議論する。