
異なる大規模言語モデル(LLM)の性能について、ゲームを通じて測定するためのプラットフォーム「Game Arena」が公開されました。ゲームの解き方を推論させることで、AIの思考プロセスの一端がうかがえると期待されています。
Kaggle Game Arena evaluates AI models through games
https://blog.google/technology/ai/kaggle-game-arena/

AIの性能は日々上がり続けているため、その性能を定量的に測定するためのベンチマークテストも常に進化を求められています。進化したAIが満点を取るようなベンチマークテストは、テストとしての意味をなさなくなってしまうためです。
そこで、Googleは新たに「Game Arena」というベンチマークプラットフォームを開発しました。さまざまなゲームをベンチマークテストとして利用するためのプラットフォームで、各種LLMがこのプラットフォームを通じてゲームをプレイすることで、その能力を測定することができるとされています。
初期のデモンストレーションとして、日本時間の8月6日(水)2時30分からチェスのエキシビションマッチがYouTubeでライブ配信される予定です。これはGame Arenaを通じてLLM同士でチェスの対戦をさせるもので、DeepSeek-R1、o4-mini、Gemini 2.5 Pro、Claude Opus 4など、複数の推論モデルが参加する予定です。
AI Chess Exhibition Tournament August 5th – YouTube
ゲームをプレイさせ、その戦略、解法などを定量的に測定することで性能を可視化し、さらに「推論」の内容を出力させることで、AIがどのようなプロセスで処理をしているのかをうかがえるのではないかと期待されています。
Game Arenaは、透明性を確保するため、ゲームハブと呼ばれるフレームワークおよびゲーム環境はすべてオープンソース化されています。

Googleは「モデルを競争的な環境でテストすることで、推論の明確な基準を確立し、追跡できます。モデルが厳しい競争に直面するにつれて難易度も上昇する拡大可能なベンチマークを構築することが目標です。時間とともに、これはAlphaGoの『Move 37』のように人間を困惑させる新たな戦略を生み出す可能性があります。ゲーム中で計画し、適応し、プレッシャー下で推論する能力は、科学やビジネスにおける複雑な課題解決に必要な思考プロセスと類似しています。今後、定期的にさらなるトーナメントを開催する計画です」と述べました。
