- 2025/06/18 掲載
実データ不要でAIロボット開発「40倍」高速化、NVIDIA「Cosmos-Transfer1」のヤバさ(2/2)
Transfer1による変革、人工データのスケーリングを加速
Omniverseの価値を何倍にも高めることができるのが、NVIDIAが開発した「Cosmos」世界基盤モデル(WFM)だ。中でも注目を集めているのが「Cosmos-Transfer1」モデル。現在Hugging Face上でオープンライセンスモデルとして公開されている。
このモデルは、物理AIシステムにおける長年の課題である、シミュレーショントレーニング環境と実世界のギャップを埋めるものとして位置づけられる。
従来のロボット学習では、実際の環境で膨大なデータを集めるか、あるいは現実味に欠ける簡易的なコンピューターシミュレーションを使うしかなかった。Cosmos-Transfer1は、物体の輪郭や奥行き情報、人の動きのポイントなど、さまざまな視覚データを入力として受け取り、それらを物理法則に従った現実そっくりの映像に変換できる。簡単に言えば、シンプルな3D情報から、まるで実際のカメラで撮影したかのような高品質な映像を自動生成する技術だ。

実際の開発現場では、NVIDIAのOmniverseを使って基本となる3D環境を作り、そこにCosmos-Transferの技術を適用する。すると、照明や色合い、質感などが大幅に向上し、まるで実写のような映像に変換される。この技術により、多様な条件下でのシミュレーションが可能になり、ロボットや自動運転車の学習効率が飛躍的に高まるのだ。
シミュレーションスピードも大きな課題だったが、NVIDIAの最新ハードウェアGB200 NVL72ラックを使用したCosmos-Transfer1では、64基のGPUにスケールした場合、1基の場合と比較して約40倍の高速化を実現。5秒間の高品質動画を4.2秒で生成可能で、ほぼリアルタイムのスループットを達成している。
自動運転車の開発では、この技術の価値がさらに際立つ。事故現場や災害時など、滅多に遭遇しないものの、安全のためには対応が不可欠な「エッジケース(レアなケース)」をシミュレートできるようになるからだ。実際の道路でこうした危険な状況に遭遇することなく、自動運転システムを安全に訓練することで、システムの精度をさらに高めることが可能となる。
NVIDIAのCosmosプラットフォームには、Transfer1以外にも優れた機能が備わっている。「Cosmos-Predict1」は将来の状況を予測でき、「Cosmos-Reason1」は物理世界の「常識」を持ち合わせている。特にCosmos Reasonは、人間のような思考プロセスで視覚情報を理解し、次に何が起こるかを予測。そして最も適切な行動を選び出す能力を持っている。これにより、ロボットが単なるプログラム通りの動作ではなく、状況に応じた判断ができるようになる。
Cosmos-Transfer1モデルは、GitHub/Hugging Faceで公開されており、誰でもダウンロードして利用することが可能だ。
具体的なワークフロー、倉庫ロボット学習の実例
Cosmos-Transfer1の使い方を、具体例を通して見ていきたい。NVIDIAが公開している倉庫内のフォークリフト学習事例は、この技術がどのように現場で活用できるかを示している。
従来の合成データ作成は、3DCG専門知識と膨大な時間を必要としていた。しかし、Cosmosを活用した新しいアプローチでは、テキスト指示(プロンプト)で多様なバリエーションを簡単に生成でき、リアルな映像を短時間で作成することが可能となった。
まず、Omniverseで基本となる3D映像を作成する。たとえば、倉庫内でフォークリフトがパレットを持ち上げる動作を単純な3Dで再現。この段階では色や質感などの細かい表現は重視せず、動きの正確さを優先する。次に、この基本映像をCosmos-Transfer1に送ることで、実写のような高品質映像に変換する。

映像の変換には、何を重視するかを指示するプロンプトが重要になる。たとえば「高い天井と明るい照明を持つ倉庫。少し摩耗したコンクリートの床。背景には金属製の棚が並び、さまざまな箱やパッケージが置かれている。黄色と黒のフォークリフトが木製パレットに近づき……」といった詳細な説明文を入力することで、AIはそのイメージ通りの映像を生成するのだ。

フアンCEOは、2025年3月に開催した年次イベントGTCで、AIエージェントや推論モデルに加え、ロボティクスと自動運転分野が次のフロンティアであると明言しており、今後エコシステム拡大に向けた動きがさらに活発化する見込みだ。
半導体のおすすめコンテンツ
PR
PR
PR