• 2025/06/18 掲載

実データ不要でAIロボット開発「40倍」高速化、NVIDIA「Cosmos-Transfer1」のヤバさ(2/2)

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
5
会員になると、いいね!でマイページに保存できます。

Transfer1による変革、人工データのスケーリングを加速

 Omniverseの価値を何倍にも高めることができるのが、NVIDIAが開発した「Cosmos」世界基盤モデル(WFM)だ。中でも注目を集めているのが「Cosmos-Transfer1」モデル。現在Hugging Face上でオープンライセンスモデルとして公開されている。

画像
NVIDIAが開発した「Cosmos-Transfer1」モデル
(出典:Hugging Face

 このモデルは、物理AIシステムにおける長年の課題である、シミュレーショントレーニング環境と実世界のギャップを埋めるものとして位置づけられる。

 従来のロボット学習では、実際の環境で膨大なデータを集めるか、あるいは現実味に欠ける簡易的なコンピューターシミュレーションを使うしかなかった。Cosmos-Transfer1は、物体の輪郭や奥行き情報、人の動きのポイントなど、さまざまな視覚データを入力として受け取り、それらを物理法則に従った現実そっくりの映像に変換できる。簡単に言えば、シンプルな3D情報から、まるで実際のカメラで撮影したかのような高品質な映像を自動生成する技術だ。

画像
Ominiverseにより作成された3D環境(左)とCosmos-Transfer1モデルで変換された映像(右)
(出典:NVIDIAWebサイト

 実際の開発現場では、NVIDIAのOmniverseを使って基本となる3D環境を作り、そこにCosmos-Transferの技術を適用する。すると、照明や色合い、質感などが大幅に向上し、まるで実写のような映像に変換される。この技術により、多様な条件下でのシミュレーションが可能になり、ロボットや自動運転車の学習効率が飛躍的に高まるのだ。

 シミュレーションスピードも大きな課題だったが、NVIDIAの最新ハードウェアGB200 NVL72ラックを使用したCosmos-Transfer1では、64基のGPUにスケールした場合、1基の場合と比較して約40倍の高速化を実現。5秒間の高品質動画を4.2秒で生成可能で、ほぼリアルタイムのスループットを達成している。

 自動運転車の開発では、この技術の価値がさらに際立つ。事故現場や災害時など、滅多に遭遇しないものの、安全のためには対応が不可欠な「エッジケース(レアなケース)」をシミュレートできるようになるからだ。実際の道路でこうした危険な状況に遭遇することなく、自動運転システムを安全に訓練することで、システムの精度をさらに高めることが可能となる。

 NVIDIAのCosmosプラットフォームには、Transfer1以外にも優れた機能が備わっている。「Cosmos-Predict1」は将来の状況を予測でき、「Cosmos-Reason1」は物理世界の「常識」を持ち合わせている。特にCosmos Reasonは、人間のような思考プロセスで視覚情報を理解し、次に何が起こるかを予測。そして最も適切な行動を選び出す能力を持っている。これにより、ロボットが単なるプログラム通りの動作ではなく、状況に応じた判断ができるようになる。

 Cosmos-Transfer1モデルは、GitHubHugging Faceで公開されており、誰でもダウンロードして利用することが可能だ。

具体的なワークフロー、倉庫ロボット学習の実例

 Cosmos-Transfer1の使い方を、具体例を通して見ていきたい。

 NVIDIAが公開している倉庫内のフォークリフト学習事例は、この技術がどのように現場で活用できるかを示している。

 従来の合成データ作成は、3DCG専門知識と膨大な時間を必要としていた。しかし、Cosmosを活用した新しいアプローチでは、テキスト指示(プロンプト)で多様なバリエーションを簡単に生成でき、リアルな映像を短時間で作成することが可能となった。

 まず、Omniverseで基本となる3D映像を作成する。たとえば、倉庫内でフォークリフトがパレットを持ち上げる動作を単純な3Dで再現。この段階では色や質感などの細かい表現は重視せず、動きの正確さを優先する。次に、この基本映像をCosmos-Transfer1に送ることで、実写のような高品質映像に変換する。

画像
3DCGで作成されたフォークリフトの映像
(出典:NVIDIAWebサイト

 映像の変換には、何を重視するかを指示するプロンプトが重要になる。たとえば「高い天井と明るい照明を持つ倉庫。少し摩耗したコンクリートの床。背景には金属製の棚が並び、さまざまな箱やパッケージが置かれている。黄色と黒のフォークリフトが木製パレットに近づき……」といった詳細な説明文を入力することで、AIはそのイメージ通りの映像を生成するのだ。

画像
Cosmosモデルでリアリズムを加えたフォークリフトの映像
(出典:NVIDIAWebサイト


 フアンCEOは、2025年3月に開催した年次イベントGTCで、AIエージェントや推論モデルに加え、ロボティクスと自動運転分野が次のフロンティアであると明言しており、今後エコシステム拡大に向けた動きがさらに活発化する見込みだ。

評価する

いいね!でぜひ著者を応援してください

  • 5

会員になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 4

  • 0

  • 0

  • 1

  • 0

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます