Boston Dynamicsのロボット犬に「アナログ計器読み取り能力」追加

現場の計器巡視・記録業務が軽減されそう

Image:Google DeepMind

Boston Dynamicsのロボット犬「Spot」は、施設の巡回警備や簡単な目視点検作業といった極基本的な用途によく用いられている印象があるが、人間の従業員が毎日こなしているような、高度な作業を代替するには至っていない。

しかしGoogle DeepMindは、4月14日に発表した新しいロボットタスク向けの高度推論モデル「Gemini Robotics-ER 1.6」によって、Spotに複雑な計器類などの計測器を正確に読み取ったり、タンクやピット内部を覗き込むための透明な窓となるサイトグラスを使用して目視点検を行う機能を与えた。

Image:Google DeepMind

工場や発電所、その他産業施設の現場ではよく、様々な計測機器の針が指し示している数値を読み取り、チェックリストに記入していくルーティーン業務がある。こうした日常作業は、運転している機器に異常がないかを確認し、故障を未然に防ぐための重要な業務だ。

最近はテレメトリー技術によってリアルタイムでプラント制御システムに取り込まれることが多い計器データだが、それほどクリティカルでない機器のメーター類、タンクやピットの水面などは依然として目視読み取りによる点検も行われていることだろう。

Boston Dynamicsは、親会社の現代（ヒョンデ）自動車グループの工場をはじめとする幅広い産業施設で、Spotやヒューマノイドを現場作業員として運用することに強い関心がある。Gemini Robotics-ER 1.6はこうしたタスクを処理するためにイメージで対象物を検査・操作するため「視覚的スクラッチパッド（Visiual Scratchpad）」を作成する「エージェント型ビジョン（Agentic Vision）」を搭載している。エージェント型ビジョンは今年1月にGoogleのAIモデルGemini 3.0 Flashで導入されたものだ。

計器読み取りの正確率は、旧モデルのGemini Robotics-ER 1.5が23％だったのに対し、同1.6ではエージェント型ビジョンにより、98％へと飛躍的に向上した。なお、Gemini Robotics-ER 1.6は、エージェント型ビジョンがなくても、計器類の読み取り正確率を86%まで向上させている。これはAIモデルの、視覚画像内のさまざまな要素を指し示すプロセスを用いて、機器の指示値や最も目立つ特徴の識別といった複雑なタスクを処理するためだ。

Gemini Robotics-ER 1.6にはさらに、ロボットシステムが複数のカメラストリームを使用して環境をよりよく理解可能にする、改良された「マルチビュー推論」機能も備えているという。

Image:Google DeepMind

Google DeepMindは、こうしたいくつかの機能を使用して、具体的にGemini Robotics-ER 1.6でどんなことができるかを紹介する動画を公開している。

Googleは、Gemini Robotics-ER 1.6を「これまでで最も安全なロボットモデル」と位置づけ、「物理的な安全制約を遵守する能力が大幅に向上した」と説明している。

ただ、これらの技術や製品の実際の評価が出てくるのは、企業や研究者がその能力を検証したときになると思われる。

現在も、生産現場で使用される産業用ロボットや、現在のSpotのようなロボット犬は、組立ラインで同じ特定の作業を繰り返し行う高度に専門化された機械として、あるいは倉庫の通路で高度に調整され振り付けられた動きを行う機械として、最も効率的かつ生産的であることが証明されている。

GoogleなどのAI企業は、最新のAIモデルによってロボットが複雑で制御の少ない現実世界の環境でより自由に動き、働くことができるようになることを期待している。だが、実際に人が作業している産業分野の施設や設備内では、まだまだそのようなロボットには困難な作業環境がたくさんある。

それでも計器読み取りは、現場によっては毎日数回は繰り返し行わなければならない重要な巡回作業であり、それをロボットが担えるようになるのなら、人々の身体的負担は大きく軽減されるだろう。