第85回
推論モデル
Monte-Carlo-Tree-Search
強化学習
OpenAI社のo1/o3モデルは、自然言語による質問応答にとどまらず、コード生成や数学、推論タスクでも高い性能を示した。これに触発され、アカデミアや産業界でも推論タスクに強い派生モデルが次々と生まれている。特に、大規模データを用いた学習から得られた豊富な知識を活用しながら、コード生成や数学問題の推論能力を両立させるためのさまざまな工夫が施されてきた。今回は、これらのモデル開発にあたって、各社が模索してきたChain of Thoughtやプランニング、強化学習などの技術的アプローチを紹介する。