• 会員限定
  • 2024/08/09 掲載

合成データとは何か? 生成AIとの関係は? アマゾン・花王・東京大学ら活用事例10選

連載:デジタル産業構造論

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
1
会員になると、いいね!でマイページに保存できます。
近年、話題を集める「生成AI」とともに、注目されはじめているのが「合成データ」だ。生成AIとともに、企業のDXを加速させる存在として期待が集まっているが、そもそも合成データとはどのようなものなのだろうか。本記事では、生成AIの活用が当たり前となる時代において、重要な技術となる合成データについて解説する。
執筆:d-strategy,inc 代表取締役 、東京国際大学 特任准教授 小宮 昌人

d-strategy,inc 代表取締役 、東京国際大学 特任准教授 小宮 昌人

株式会社d-strategy,inc 代表取締役CEO、東京国際大学 データサイエンス研究所 特任准教授

 日立製作所、デロイトトーマツコンサルティング、野村総合研究所、産業革新投資機構 JIC-ベンチャーグロースインベストメンツを経て現職。2024年4月より東京国際大学データサイエンス研究所の特任准教授としてサプライチェーン×データサイエンスの教育・研究に従事。加えて、株式会社d-strategy,inc代表取締役CEOとして下記の企業支援を実施(https://dstrategyinc.com/)。

(1)企業のDX・ソリューション戦略・新規事業支援
(2)スタートアップの経営・事業戦略・事業開発支援
(3)大企業・CVCのオープンイノベーション・スタートアップ連携支援
(4)コンサルティングファーム・ソリューション会社向け後方支援

 専門は生成AIを用いた経営変革(Generative DX戦略)、デジタル技術を活用したビジネスモデル変革(プラットフォーム・リカーリング・ソリューションビジネスなど)、デザイン思考を用いた事業創出(社会課題起点)、インダストリー4.0・製造業IoT/DX、産業DX(建設・物流・農業など)、次世代モビリティ(空飛ぶクルマ、自動運転など)、スマートシティ・スーパーシティ、サステナビリティ(インダストリー5.0)、データ共有ネットワーク(IDSA、GAIA-X、Catena-Xなど)、ロボティクス・ロボットSIer、デジタルツイン・産業メタバース、エコシステムマネジメント、イノベーション創出・スタートアップ連携、ルール形成・標準化、デジタル地方事業創生など。

 近著に『メタ産業革命~メタバース×デジタルツインでビジネスが変わる~』(日経BP)、『製造業プラットフォーム戦略』(日経BP)、『日本型プラットフォームビジネス』(日本経済新聞出版社/共著)。経済産業省『サプライチェーン強靭化・高度化を通じた、我が国とASEAN一体となった成長の実現研究会』委員(2022)、経済産業省『デジタル時代のグローバルサプライチェーン高度化研究会/グローバルサプライチェーンデータ共有・連携WG』委員(2022)、Webメディア ビジネス+ITでの連載『デジタル産業構造論』(月1回)、日経産業新聞連載『戦略フォーサイト ものづくりDX』(2022年2月-3月)など。

【問い合わせ:masahito.komiya@dstrategyinc.com】

photo
合成データと生成AIの違い
(出典:筆者作成)

生成AI時代の超重要コンセプト「合成データ」とは?

 合成データ(Synthetic Data)とは、現実世界に実在するデータに似せて、人工的に作り出されたデータを指す。

 合成データの特徴は、生成AIと比べてみると分かりやすいかもしれない。たとえば、生成AIは、あらゆるデータを学習させた「言語モデル(LLM)」を基に、実在しない新たなデータを生成するアプローチである。一方、合成データは、実在するデータを基に、実在するデータにそっくりなデータ(同じ構造・特徴だが、値は異なる)を生成するアプローチだ。

 それでは、何のために合成データが必要なのか。たとえば、下記のケースなどにおいて、合成データは役立つ。
■合成データが活躍する場面
  1. (1)大量の学習データが必要になる場合、または学習データが不足・欠損している場合に、その分を補うデータを用意できる

  2. (2)個人情報や秘匿情報など、そのまま活用できないデータを学習させたい場合に、その代わりとなるそっくりな学習データを用意できる

合成データは何に使える? 4つの方向性を解説

 合成データの活用方法としては、大きく分けて下記の4つの方向性が存在する。

 たとえば、AIシステムの学習を高速化させるための学習データとして活用されているほか、個人情報などを扱う領域における学習データとして使われる事例も増えてきている。 また、そのままでは学習データとして活用できないデータに関して、活用しやすいデータフォーマットに変換・調整された合成データを生成し、学習データとして活用するケースもある。さらに、十分な学習データを用意できない領域などにおいて合成データがその不足したデータを埋める形で活用される事例もある。

画像
合成データの価値
(出典:筆者作成)

 ここからは、実際に合成データがどのように使われているのか、企業の事例を交えながら解説していきたい。

【一覧表付き】合成データの活用事例10選

 下図では、合成データの活用事例の一部をまとめた。

画像
合成データ活用事例10選
(出典:筆者作成)

 ここで紹介している事例以外にも、現在、合成データはさまざまな業界で活用が進んでいる。その1つの事例として、自律搬送ロボットやピッキングロボット、自動運転車などの学習の効率化が挙げられる。

 これまで、ロボットの学習は、事前にさまざまな行動パターンを想定して学習をさせる必要があり、このティーチング作業に時間がかかっていた。しかし、こうした課題を合成データは解決してくれる。

 たとえば、アマゾンは倉庫内のロボットの学習データを用意するにあたり、エヌビディアの「合成データ活用のプラットフォーム」を活用しており、これが学習の高速化につながっている。

画像
Amazonのピッキングロボット・自律搬送ロボットの学習における合成データ活用
(出典:エヌビディア)

 そのほか、製造業における検査システムの学習データとして、検査時にNGの出るデータを合成データで用意する事例が出てきている。また、物流業界では、サプライチェーン効率化を図るべく、関連企業の秘匿情報に似せた合成データを用意し、これを学習データとして活用している。

 こうした特定の業界における活用に留まらず、合成データは、欧州を中心に活発化するデータ共有の取り組みを加速させる役割も担っている。たとえば、Catena-XManufacturing-X、日本のウラノス・エコシステムなどの枠組みにおいて、企業を超えたデータ連携の議論が活発化しているが、それらの取り組みにおいても、企業秘匿情報に似せた合成データを活用していくことが検討されている。

 ここからは、上記の事例の中から、東京大学における合成データ活用の取り組みについて、東京大学 空間情報科学研究センター 特任准教授の小塩篤史氏に解説してもらった。 【次ページ】【第一人者が解説】「生成AI」と「合成データ」の使い分けは?
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます