ようこそゲストさん

ビジネス+ITを始める

フォローの多い人気のタグ
人気のタグ一覧へ
注目のイベント・セミナー
イベント・セミナー一覧へ

未来の製造業を新定義するメディア

ログイン

無料登録

閉じる

トップページ
製造業種別
ロボティクス
ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

会員限定
2024/05/30 掲載

ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

ロボティクス

|

タグをもっとみる

大規模基盤モデルを使ってロボットに世界を理解させ、汎用（はんよう）性を持たせようとする試みが盛んになってきた。目指すところは、日常言語による指示の意図を適切に理解し、初めての環境にも対応して作業が行える「汎用ロボット」の実現だ。物体認識の研究発展において大規模画像データベースの「ImageNet」が重要な役割を果たしたように、汎用ロボット実現のためにも学習用データセットを整えることが、まずは重要となる。日本国内はもとより世界各国でさまざまなプロジェクトが進められている。その概要とロボットのこれからの可能性を追ってみたい。

執筆：サイエンスライター森山和道

サイエンスライター森山和道

フリーランスのサイエンスライター。1970年生。愛媛県宇和島市出身。1993年に広島大学理学部地質学科卒業。同年、NHKにディレクターとして入局。教育番組、芸能系生放送番組、ポップな科学番組等の制作に従事する。1997年8月末日退職。フリーライターになる。現在、科学技術分野全般を対象に取材執筆を行う。特に脳科学、ロボティクス、インターフェースデザイン分野。研究者インタビューを得意とする。

「Dry-AIREC」。JSTムーンショット型研究開発事業：目標3（1人に1台一生寄り添うスマートロボット）では、AIとロボットの共進化で人と共生する汎用（はんよう）ロボットの開発を目指している。これは横浜で5月に開催されたロボティクスとオートメーションの国際会議「IEEE ICRA2024」に出展されたときの様子

（写真：筆者撮影）

夢の存在「家事ロボット」が実現？

1ページ目を1分でまとめた動画

　読者の皆さまもご存じのとおり、現在のロボットはもっぱら工場や物流倉庫のなかで使われている。決まった環境で、決まった作業をプログラムどおりに実行する。

　一方フィクションの世界では昔から「家事ロボット」が夢の存在として登場している。実際問題、多くの家事が家電で行えるようになった今でも、細かい仕事が作業と作業の間に残り続けている。それらの雑用も含めて自動でこなしてほしいという願いは消えていない。だが家庭のなかでさまざまな作業をさせるためには、無限に近い組み合わせがある状況下で、あいまいな指示に対応して動ける能力が必要とされる。

　そもそも論として「お手伝いさん」のような人間サイズのロボットを家庭に迎え入れることが本当に現実的かどうかはさておき、技術として追求するための研究は今でもあちこちで進められている。ロボットと人間のインタラクション、日常を想定したシーンのなかでロボットにタスクをさせる競技大会「ロボカップ@Home」はそのための試みの1つである。

　以前は話者推定などに苦労していたが、昨今はそこに苦労することはなくなった。また状況の認識にもChatGPTなどでおなじみ大規模言語モデル（LLM）が活用されるようになり、競技で競うべき内容も変わりつつあるようだ。ただ、大規模言語モデルがあれば何でもできるという話でもなく、汎用サービスロボットへの道のりはまだ遠い。ロボカップでも、基本となる物体データや、異なるロボットに転移学習させることができる共通スキルのモデルをそろえて共有しようといった動きもあると聞く。

RoboCup 2024 @Homeの予選ビデオ

　スタンフォード大学 Vision and Learning Labなどによる「BEHAVIOR-1K」では、洗濯や片付け、テーブルセッティングなど、1000の日常的な家事活動を「身体化人工知能（Embodied Artificial Intelligence、EAI）」でこなすことを目指すプロジェクトが進行している。「OMNIGIBSON」というリアルかつ物理的なシミュレーション環境を活用する。

　「BEHAVIOR-1K」は2つのコンポーネントからなる。1つ目は8つのシーンタイプ、家やオフィス、レストランや庭など50のインタラクティブシーン、注釈付きの1900以上のオブジェクト・タイプ、9000以上のオブジェクト・モデルを含む、日常活動の定義からなるデータセットだ。

　2つ目が「OMNIGIBSON」環境である。これはデジタルツイン開発などに用いられているNVIDIAのメタバースプラットフォーム「Omniverse」をベースとして開発されたシミュレーション環境で、柔軟なマテリアルと変形可能なボディ、リアルな流体と熱エフェクトなどもサポートする。

　この環境を使って、人間本位、多様性、リアリズムを元にしたロボット学習ソリューションの研究開発を目指すという。なお「BEHAVIOR」は「Benchmark for Everyday Household Activities in Virtual, Interactive, and EcOlogical EnviRonments」の略だ。

　似たような考え方のプロジェクトは世界各国で行われている。今回はそのような試みをいくつか紹介しておきたい。どれでも良いので成功してもらいたい。

　なお、本連載では2023年4月にも「大規模言語モデルでロボットはどう進化するのか、いい意味で「予測不可能」な未来とは」でこの話題を取り上げている。今回はその続きだと思ってもらいたい。ただ、この分野の発展は本当に早いので、あくまでスナップショットの1枚だと思ってもらったほうがいいかもしれない。

編集部おすすめ記事

【現地レポ】日本最大級「ゴミの島」造成計画、万博の裏で静かに進む「未来都市建設」

Google DeepMindのロボット工学モデル「RT-X」

　話をいったん基本的なところに戻す。現在「大規模基盤モデル」の活用が注目されている。タスクごとに個別に詳細なプログラミングを行ってロボットを動作させるのではなく、乱雑な日常空間にあるようなさまざまな作業、いわゆる汎用作業に適応させる手法としての活用だ。

RT-Xのアニメーション

　「大規模基盤モデル」とは多種多様なデータで学習させた大規模ニューラルネットワークである。基盤モデルを元に「ファインチューニング」することで、さまざまなタスクに適応させることができる。

　計算量とデータ量とパラメータ数を大規模にすることで、大規模言語モデルは飛躍的に性能を伸ばし、多様なタスクに対応できるようになった。仕組みとしては確率モデルなのだが、実際に実現できていることは驚きとしか言いようがない。

　しかも猛烈な速度で進化し続けている。OpenAIが2024年5月13日に発表した最新モデル「GPT-4o」との会話はまるで人間のようだ。リアルタイムで逐次通訳までやってくれる。学習データの偏りによるのか、日本語の発話には外国人訛（なま）りがあり、性能も英語よりも劣るようだが、OpenAIは日本にも拠点を設けているので、今後の発展に期待したい。

GPT-4oのイントロダクション

　GPT-4oの話はいったん横に置いておき、ロボットの話に戻ろう。同様に、大規模な確率モデルを使うことでロボットに周囲の環境や求められているタスク目標を認識・理解させたり、動作させるためのコードを自動生成させて、タスクを実行させたりしようという考え方がある。たとえばロボットの知覚処理に大規模モデルを使うことは容易に想像できる。

　Google DeepMindは各国の数十の大学と共同で「RT-X」というプロジェクトを提案している。「RT」はRobotics Transformerの略で、Transformerアーキテクチャーをベースとしていることを意味する。RT-Xは2つのTransformetモデルから構成される。リアルワールドのロボットから学習させたRT-1-Xと、Webとロボットのデータから自然言語に応答できるようにしたRT-2-Xというモデルだ。2つのモデルを組み合わせることで高い汎化（はんか）性能を持たせられるという。

　DeepMindは異なるロボットから収集した多様な動作や視覚データなどからなる「Open X-Embodiment」という巨大データセットを作り、あいまいな自然言語にしたがっていろいろなタスクに適用できる動作モデルを作ろうとしている。詳細はこちらのブログで解説されているが、100万以上のエピソード、500以上のスキルと15万以上のタスクを実証する22種類のロボットからデータを収集した包括的なデータセットだという。

　このデータセットを使ってRT-1-Xを訓練し、ものをつかんだり移動させたりさせる実験を行ったところ、従来のモデルよりも50％ほど成功率が高くなったとされている。RT-2-Xのほうは別のロボットの別のデータセットを使って訓練したら3倍の能力を発揮した。また、元のモデルにはなかった空間理解、指示の理解の能力を見せたという。たとえば「move apple on cloth（リンゴを布の上に）」と「move apple near cloth（リンゴを布の近くに）」という指示では、ロボットが取るべきアームの軌道は異なるが、それに対応できたというのだ。

　つまり、ほかのロボットのデータを組み合わせると、ロボットがより賢くなる可能性があるというわけだ。「多くのデータを集めれば集めるほどロボットを賢くすることができるのではないか？」という考え方は以前からあったのだが、それが本当になりつつあるのかもしれない。

　なお、5月に横浜で行われたロボティクスのトップカンファレンス「ICRA2024」で「RT-X」はベストペーパー賞を獲得した。ただし、実際に試すとそれほどうまくは動かないとも聞く。【次ページ】NVIDIAのヒューマノイドプロジェクト「GR00T」

ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

夢の存在「家事ロボット」が実現？

Google DeepMindのロボット工学モデル 「RT-X」

ロボティクスのおすすめコンテンツ

食品製造の人手不足解消の次の一手は？FOOMA JAPAN 2023で見た最新ロボット活用

熟練技をロボットが再現、パナソニック「エアコン室外機外装自動分解システム」のスゴさ

「Unity」「Unreal Engine」とは？ 2大ゲームエンジンの仕組み・活用事例を徹底解説

ゲームエンジン「Unity」がデジタルツインで台頭、川重・京セラ・ニコンが支持するワケ

いまだ「人手頼み」物流業界の深刻、これからの本当の危機をロボットは支えられるか

ロボティクスの関連コンテンツ

ロボットが人間の「能力拡張」と「瞬間移動」を可能にする時代へ。「生成AI」で身近に

花王・豊橋工場の次世代倉庫のすべて、完全自動/無人化・少量多品種対応が可能なワケ

アイリスオーヤマ自社製造「清掃ロボット」のすべて、売上1,000億円への目算

中国格安協働ロボの快進撃、「あれ見たか」業界関係者の注目集める理由

製造現場視点の「計測と制御」オムロンら提案、AI時代の人と機械の協調生産ライン

パナソニック コネクトの製造業ノウハウ活かすソフトウェア・デファインドな物流とは

自動化しないほうがリスクの時代…オートストア・オカムラ語る、製造業の未来

もうムリかも……崖っぷち「ルンバ」はなぜ負けた？「存続危機」招いた決定的失態

激動の海外のヒューマノイド事情 置いてけぼりになった日本が取るべき戦略は？

転換期を迎えたロボット・フィジカルAI開発、AIとシミュレーションがもたらす変化

製造業“復活”のチャンス、「フィジカルAI時代」を迎える日本の可能性と落とし穴

無法地帯だった「横浜の町工場」が大激変、5年かけた「職場と人材」の大改革とは

生成AIで「ロボット」はここまで進化した、早大 尾形哲也教授が語る「2050年の世界」

現場は阿鼻叫喚「物流の2024年問題」、AIやロボットの導入が喫緊の課題であるワケ

デンソーが開発する「生成AIロボット」とは、トヨタ生産方式で激変する「未来の製造」

人気のタグ

Google DeepMindのロボット工学モデル「RT-X」

パナソニックコネクトの製造業ノウハウ活かすソフトウェア・デファインドな物流とは

激動の海外のヒューマノイド事情　置いてけぼりになった日本が取るべき戦略は？

生成AIで「ロボット」はここまで進化した、早大尾形哲也教授が語る「2050年の世界」