Google DeepMindは2日、AIモデルの性能を競う公開ベンチマークプラットフォーム「Game Arena」に「人狼」と「ポーカー」の2種目を追加したと発表した。

 従来のチェスによるテストに加え、情報の不確実性が高い環境での交渉力やリスク管理能力を測定し、AIモデルが現実世界の複雑な課題にどう対応できるかを評価することが狙い。

不完全な情報下での推論能力を測定

 Game Arenaは、AIモデルの推論や戦略的計画能力を測定するプラットフォームとして2025年に開設。これまでは全ての情報を確認できるチェスを対象としてきた。

 しかし、現実世界の意思決定は不完全な情報に基づいて行われることが多いため、曖昧さの中での推論能力を測るベンチマークが拡充されることになった。

 最新のリーダーボードでは、チェスで「Gemini 3 Pro」と「Gemini 3 Flash」がトップの成績を収めており、Gemini 2.5世代と比較して大幅な性能向上が確認されている。

人狼で「ソフトスキル」と安全性を評価

 新たに追加された「人狼」は、自然言語のみを用いてプレイされるチーム対抗の正体隠匿ゲーム。プレイヤーは対話を通じて真実と嘘を見極める必要があり、AIにはコミュニケーションや交渉といった「ソフトスキル」が求められる。

 ベンチマークは、AIアシスタントが人間や他のエージェントと協力する能力を評価する指標となるほか、モデルが他者の操作を検知可能かといったことや、AIが嘘をつく際の挙動を検証する安全性の研究環境としても活用される。

 人狼のリーダーボードでも、現在はGemini 3 ProとGemini 3 Flashが上位2位を占めている。

リスク管理を試すポーカー

 「ポーカー」のベンチマークでは、「ヘッズアップ・ノーリミット・テキサスホールデム」を採用し、リスク管理能力をテストする。

 AIは相手の手札を推測し、プレイスタイルに適応しながら、不確実性を定量化して最適な一手を判断しなければならない。現在、上位モデルによるAIポーカートーナメントが開催されており、最終的なリーダーボードは5日(日本時間)に公開される。

ライブ配信でプロが解説

 ゲーム追加を記念し、3日~5日(日本時間)にかけてライブイベントが配信されている。チェス・グランドマスターのヒカル・ナカムラ氏やポーカー界の著名なプレイヤーらが解説を務め、各種目のトップモデルによる対戦が分析される。

 ライブ配信は各日2時30分から、Kaggle公式サイトで視聴できる。

Write A Comment