- 2026/04/21 掲載
Google DeepMind、ロボット視覚AIモデル「Gemini Robotics-ER 1.6」を発表
Boston Dynamics連携により計器読み取り機能を強化
本モデルの機能向上は、空間論理、マルチビュー理解、タスク計画、成功判定の領域にわたる。空間論理においては、物体の向きや環境の制約を考慮したポインティングと動作推論を実行する。マルチビュー理解では、複数のカメラからの映像ストリームを統合して状況を把握し、タスクの進行状況を推定する。
作業工程においては複雑なタスクを管理可能な手順に分割し、環境変化に応じた再試行などの判断を下す。加えて、ロボットが意図した動作(引き出しを開けるなど)を完了したか物理的な結果から検証する成功判定機能を組み込み、予測困難な環境下での自律稼働の信頼性を高めた。
本モデルに導入された「Agentic Vision」機能は、視覚的推論とPythonコードの実行を連動させる技術である。この技術を活用し、Boston Dynamicsとの共同開発を通じて工業環境における高度な計器読み取り機能を実現した。円形圧力計、垂直レベルインジケーター、デジタル表示器などの多様な計器に対応する。
具体的には、針の位置、液面、容器の境界、目盛りなどの視覚情報を同時に認識し、それらの関係性を解析する。カメラの視点による歪みを補正してサイトグラス内の液体量を推定するほか、計器に印字された単位テキストを読み取り、桁数の異なる複数の針の指示値を統合して最終的な数値を算出する。
同モデルは、産業用の四足歩行ロボットからヒューマノイドまで幅広いハードウェアへの実装を想定しており、視覚的判断を伴う物理タスクの完全自動化に向けた基盤技術として提供される。
ロボティクスのおすすめコンテンツ
PR
PR
PR