第87回
大規模言語モデル
評価
LLM-as-a-Judge
近年の大規模言語モデル(LLM)の発展により、文章自動生成の性能は飛躍的に向上している。しかし、従来の評価手法は翻訳や要約など、正答が想定しやすいタスクを想定した指標が中心であり、より多様な生成文書の品質を測るには人手評価に頼らざるを得ないという課題があった。そこで注目されているのが「LLM-as-a-Judge」である。本手法では、文章をLLMによって評価する仕組みを導入することで、人手評価にかかる時間とコストを削減しつつ、より柔軟な評価を可能にする。本公演では、LLM-as-a-Judgeの概要と課題、NII LLMセンターでの取り組みについて詳説するとともに、教育分野における応用可能性を提示し、今後の研究・開発の方向性を探る。