自然言語処理分野(NLP)でもっとも権威ある国際会議のひとつである EMNLP 2025 にて下記の論文が Findings として採択されました。
- Lui Yoshida, Are the Reasoning Models Good at Automated Essay Scoring?
本論文は、論文作成時の最新であった推論モデル(OpenAI o3-mini、o4-mini)が従来モデル(GPT-4o mini)よりもエッセイの自動採点で優秀かを調べた研究です。TOEFL試験の12,100本のエッセイを使って比較した結果、意外にも推論モデルの方が専門家との一致度や採点の一貫性で大幅に劣ることが判明しました。この結果は、一般的なベンチマークで高性能を示す最新AIでも、特定の作業では従来モデルに劣る場合があることを示しており、AI選択において作業に応じた慎重な評価が重要であることを教えてくれます。

EMNLP 2025 について
The 2025 Conference on Empirical Methods in Natural Language Processing(EMNLP 2025)は、2025年11月5日~9日まで中国 蘇州市で開催される自然言語処理分野のトップ国際会議です。本会議は、自然言語処理の実証的手法に関する実質的で独創的かつ未発表の研究を扱う、ACL(Association for Computational Linguistics: 計算言語学会)系列の会議です。EMNLP は、コンピュータサイエンスのカンファレンスランキングで有名な CORE でA*ランク(全ランキング785会場の上位8%)であり、自然言語処理分野において最も権威ある国際会議の一つです。
最後に
ACL 系列の会議への論文投稿は初めての試みでしたが、教育AIのみではなく幅広く自然言語処理を扱う会議であり、トップ国際会議の一つであるEMNLPにおいて、研究成果が認められ大変嬉しく思います。
生成AIに関する研究は近年多く蓄積され始めていますが、教育への応用・活用といった観点ではまだまだ知見が足りないと感じています。そこに対し、少しでも貢献できるよう引き続き精力的に活動していきます!