「下手な万策より、少しの良策」というソクラテスの格言は、OpenAIの「ChatGPT」や「Perplexity」といったチャットボット、さらには企業で導入が進むエージェント型AI(人工知能)の活用にも当てはまる。
AIに関する研究成果は、この技術と数日や数週間にわたって密接に関わり続けるよりも、成果が明確で検証可能な小規模かつ限定的なタスクに利用することが、最も安全で生産的であることを示している。
ChatGPTやPerplexityなどのチャットボットとの長時間の対話は、少なくとも誤った情報につながりかねず、最悪の場合には妄想や死に至る危険性さえはらんでいる。現在の技術は、人間が優位な推論や論理、常識、深い分析といった高度な要求に応えられる段階にはない。
「人工汎用知能」(AGI)と呼ばれる人間レベルの能力には到達していないため、利用に際しては、技術的な限界を常に意識する必要がある。要するに、AIの会話の泥沼に足を取られるのではなく、あくまで一つの道具として割り切って使うべきである。
AIが得意なこと、不得意なこと
AIは単純なタスクには長けているが、複雑で深い分析には向かない。一例として、米スタンフォード大学のHuman-Centered AI(HAI)が発表した「Annual AI Index 2026」は、その実態を浮き彫りにした。
同レポート編集長のSha Sajadieh氏ら研究チームは、エージェント型AIがウェブ上の情報検索において、人間と同等の水準に近づいていると指摘している。チームが、「GAIA」「OSWorld」「WebArena」の3つのベンチマークテストを用いて、データベースの起動やポリシールールの適用、顧客レコードの更新といった複数ステップのタスクにおいて、エージェントが人間レベルのパフォーマンスに近づいていることを発見した。GAIAでは、1年前の20%から74.5%へと急上昇した。依然として人間の92%には及ばないものの、進歩は著しい。
他のテストでも、OSWorldでは、コンピューターサイエンス専攻の学生が約72%のタスクを2分前後で解決するのに対し、Anthropicの「Claude Opus 4.5」は66.3%に達した。またWebArenaでは、AIの精度は人間の基準値である78.2%まで残り4ポイントに迫っている。

エージェント型AIはウェブブラウジングなどのオンラインタスクにおいて性能が向上しているものの、依然として人間のレベルの精度には及ばない(出典:Stanford)
Claude Opusなどの大規模言語モデル(LLM)は完璧ではないが、人間レベルのパフォーマンスに急速に近づいている。ブラウザー操作やデータベース検索といった自然言語プロンプトは、APIや外部連携しやすい比較的簡単な用途だからだ。つまり、AIは限られた範囲でアプリケーションと連携し、タスクを実行するために必要な機能のほとんどを備えていると言えるだろう。
ただし、明確に定義された限定的なタスクでも、AIエージェントから得られる結果を確認べきだ。こうしたベンチマークでの平均値はまだ人間の能力には及んでおらず、しかもベンチマークは一種のシミュレーションでしかない。実環境では、結果が異なる場合があり、それは必ずしも良いことばかりではないだろう。
ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

WACOCA: People, Life, Style.