2026年02月03日 11時46分
AI

GoogleのAI開発部門であるGoogle DeepMindは2025年にKaggleと提携し、AIモデルが戦略ゲームで競い合う公開ベンチマークプラットフォーム「Game Arena」を立ち上げています。このGame Arenaの競争種目に「人狼ゲーム」と「ポーカー」を追加したことが2026年2月2日に発表されました
Game Arena: Poker and Werewolf, and Gemini 3 tops chess
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/
Game Arenaは、AIモデルの推論能力や戦略的計画を測定するためにGoogle DeepMindとKaggleが提携して2025年に立ち上げたもので、これまではチェスが競争種目として使われてきました。
AIのゲーム性能を測定するベンチマークプラットフォーム「Game Arena」をGoogleが公開 – GIGAZINE

チェスはすべての情報が公開されている完全情報ゲームですが、現実の世界は不完全な情報に基づいて意思決定を行う必要があるため、曖昧さに直面した際のモデルの推論能力を測定する新しい指標が必要とされていました。

今回追加された人狼ゲームは自然言語を用いた対話を通じてチームで戦うソーシャル推論ゲームであり、不完全な情報の中でモデルがどのように社会的ダイナミクスをナビゲートするかをテストできるとのこと。Google DeepMindはこの人狼ゲームを用いたベンチマークが、次世代のAIアシスタントに求められるコミュニケーション能力や交渉術、そして曖昧さを克服する能力といったソフトスキルの評価に役立つと述べています。
また、人狼ゲームはエージェントの安全性を研究するための安全な環境としても機能し、他者の操作を検知する能力や、モデル自身の欺瞞に関する能力を現実世界の展開前にテストすることを可能にします。

そして、ポーカーは人狼ゲームと同様に不完全情報ゲームですが、リスク管理と不確実性の定量化という新たな側面をAIモデルに要求するゲームです。モデルは配られたカードの運に左右されるだけでなく、相手の手札を推測し、相手のプレイスタイルに適応しながら最適な行動を決定しなければなりません。

記事作成時点でのリーダーボード(順位表)では、最新世代のモデルであるGemini 3 ProとGemini 3 Flashがチェスと人狼ゲームの両方でトップのEloレーティングを記録しているとのこと。これらのモデルは、他のプレイヤーの発言と投票パターンの矛盾を特定して合意を形成するなど、高度な推論能力を示しているとGoogle DeepMindは述べています。
Google DeepMindはこれに伴って上位モデルをテキサスホールデムルールで競わせるAIポーカー大会を開催しており、その最終的な順位を2026年2月4日に公開する予定です。
さらにGoogle DeepMindは、チェスのグランドマスターであるヒカル・ナカムラ氏やポーカー界のレジェンドたちを招いたライブ配信イベントを通じて、これらの新しいベンチマークにおけるAIモデルのパフォーマンスを分析し、モデルの進化を追跡していく方針を示しました。
この記事のタイトルとURLをコピーする