開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2019/08/21

データ同化とは何か?ポスト“データドリブン”の分析手法を4事例で解説

企業の研究開発を支える科学的手法は4つに大別される。それが「経験科学(実験)」「理論科学」「計算科学(シミュレーション)」「データ科学」だ。本稿ではこれら4つの科学的手法を解説し、データ科学とシミュレーションの合わせ技である「データ同化」がもたらす可能性を解き明かす。

フロスト&サリバン ジャパン 伊藤 祐、陳 宇鴻(執筆アシスタント)

フロスト&サリバン ジャパン 伊藤 祐、陳 宇鴻(執筆アシスタント)

photo
ポスト“データドリブン”の分析手法とはどんなものなのか?
(Photo/Getty Images)

企業の研究開発を支える4つの科学的手法とは

 20世紀以前までの科学は、経験科学(実証的な方法で研究する学問)と理論科学が支えていた。人々は実験を通じて新しい元素や物質を発見し、観察と思考の中で万有引力の理論や相対性理論を導いた。その後、コンピューターが登場したことで、気象現象やロケットエンジン噴射など、複雑な現象の予測・解析をコンピューターに行わせるシミュレーションが発達した。シミュレーションでは、現象を数学的に表現したモデル(数理モデル)が非常に重要となる。

 たとえば、ロケットエンジンを安定的に燃焼させるには、発射直後から大気圏突破まで大小異なるレベルの衝撃や圧力変化に耐えうるエンジン設計が要求される。その際、エンジン内外に分布する気体や液体の動きを把握することが必要になるが、高温下での計測は容易でない。そこで気体や液体の流れを取り扱った理論である流体力学に基づいて数理モデルが構築され、スーパーコンピューターで予測分析が行われる。

 シミュレーションはこのような予測解析に優れていて、各業界で重宝されるようになった。20世紀後半には、シミュレーションは経験科学と理論科学に次ぐ「第3の科学」と呼ばれるようになった。

 2010年代に入ると、アルゴリズムに関する研究およびコンピューターの演算能力の向上により、「データ科学」が注目を浴びることになった。データ科学は、膨大なデータを解釈・探索することで帰納的に事象を読み解くアプローチだ。理論や法則から演繹的に分析を進めていくシミュレーションと“対”になる存在ともいえるだろう。

 現在注目を浴びている機械学習は「データ科学」の一種であり、「第4の科学」として認識され始めている。データ科学の具体例としては、バイオ・インフォマティクスや、以前紹介したマテリアルズ・インフォマティクスが挙げられる。

データ科学の得意・不得意

 機械学習は、コンピューターに膨大なデータを読み込ませることで現象のパターンや特徴を抽出する技術であり、将来予測やシステム制御、異常検知に活用できる。

 たとえば、「モノをうまく掴めるロボットアームを作りたい」というプロジェクトのプロセスは、下記のように説明できる(ここではカリフォルニア大学バークレー校の研究結果を例としている)。

1. データ入力:モノの形状と掴み方に関する大量のデータセットをコンピューターに入力する
2. 数理モデルの構築:ニューラルネットワークなど特定のアルゴリズムを使ってデータセットを学習する

 これにより、ロボットアームがモノを掴んだときに、その“掴み具合”がどれくらい“よい”かを評価する数理モデルが、コンピューター内に構築されていく。そしてデータ学習の結果、ロボットアームがより“よい”と判断された掴み具合が採択される。

 しかし、実際にはプロセス1にあたる「データ入力」が、プロジェクトのボトルネックとなるケースは多い。なぜなら、日常的に起こりにくい事象は、データが集まりにくいのだ。

 たとえば、氷点下30度の極限状態での機械の運用や飛行機の墜落事故、巨大津波などの大規模災害はデータが取りにくい。データが十分に取れないと、コンピューターも満足のいく数理モデルを構築することができず、発生頻度が低いイベントに対しては適切に対処できないケースが多くなる。その結果、「実用に耐えない」と判断されてしまうのだ。

 この課題を解決する手法として注目されているのが「データ同化」である。データ同化とは、「シミュレーションとデータ科学をブレンドすることで、より精度の高い予測分析を行う」手法を指す。

【次ページ】「データ同化」で日本酒をおいしく

ビッグデータ ジャンルのセミナー

ビッグデータ ジャンルのトピックス

ビッグデータ ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!