人工知能(AI)企業の経営陣は、「汎用人工知能(AGI)の時代がすぐそこまで来ている」と語りたがる。しかし、最新モデルの知能をさらに賢くするには、さらなる訓練が必要だ。
Scale AIは、フロンティアモデル(従来のAIモデルを超える性能と汎用性をもつ高度なモデル)を開発する企業がAIモデルを構築する上で、重要な役割を担ってきた。そのScale AIが今回、モデルに対し数千に及ぶベンチマークやタスクを自動でテストして弱点を特定し、性能の向上に役立つ追加の学習データを提示するプラットフォームを開発した。もちろん、必要な訓練データはScale AIが提供する。
モデルの弱点を特定する新ツール
Scale AIは、高度なAIモデルの訓練とテストに不可欠な「人的リソース」の提供で知られている。大規模言語モデル(LLM)は、書籍やウェブサイトなどから集められた膨大なテキストによって訓練されている。こうしたモデルを有用で一貫性があり、適切な応答ができるチャットボットに仕上げるには、モデルの出力に対して人間がフィードバックを提供する「事後学習」が必要不可欠だ。
Scale AIはモデルの問題点や限界を専門的に調査できる人材を提供している。今回発表された新ツール「Scale Evaluation」は、そうした作業の一部をScale AI独自の機械学習アルゴリズムによって自動化するものだ。
「大手の研究所では、AIモデルの弱点把握の手法にばらつきがあります」と、Scale Evaluationのプロダクト責任者であるダニエル・ベリオスは語る。今回の新ツールは「モデル開発者が結果を確認し詳細に分析することで、モデルがうまく機能していない領域を特定できるようにします」とベリオスは説明する。「そして、その情報を改善に向けたデータ収集に活用できる仕組みです」
推論能力の向上に活用
すでに、複数のフロンティアモデルを開発するAI企業がこのツールを活用している。ベリオスによれば、多くの企業がモデルの推論能力の強化にScale Evaluationを利用しているという。AIの推論とは、モデルが問題をより効果的に解決するため、その問題を構成要素に分解して分析するプロセスを指す。この能力の評価は、モデルが問題を正しく解決できたかどうかを判断するユーザーからのフィードバックに大きく依存している。
Scale Evaluationにより、英語以外の言語でプロンプトを与えると、モデルの推論能力が顕著に低下することが明らかになったとベリオスは説明する。「モデルの汎用的な推論能力は非常に高く、ベンチマークでは良好な成績を収めていたものの、プロンプトが英語でない場合は性能が大きく低下する傾向が見られました」と説明する。Scale Evaluationがこの問題を特定したことで、モデルの開発企業は、弱点に対応するために必要な追加の学習データを集めた。
ベンチマークの進化
大規模なAIモデルを開発しているDatabricksの主任AIサイエンティスト、ジョナサン・フランクルは、基盤モデル同士を比較評価できる仕組みの有用性を認めている。「評価手法を少しでも発展させるものはどんなものでも、より優れたAIの構築に役立ちます」とフランクルは語る。
Scale AIはこの数カ月間、AIモデルをより賢く進化させるとともに、問題のある動作の精査を目的とした複数のベンチマークの開発に貢献してきた。EnigmaEval、MultiChallenge、MASK、Humanity’s Last Examなどがその一部だ。
WACOCA: People, Life, Style.