開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2020/06/19

データの「見せ方」の極意、ヒトの視覚を“ハック”すると何がどう伝わるのか

データの中に潜む傾向をあぶり出す、「データ視覚化」を行うには、データ以前に人間の認知システムの特性をよく理解している必要があります──そう指摘するのは、アクセンチュアや楽天、KPMGを経て、現在はPATH代表取締役、日本Tableauユーザー会会長をつとめる永田ゆかり氏だ。本稿では「データ視覚化」、つまり人間の視覚-認知脳神経系にフィットするようにデータの表現形式をハックすることで、人間の情報を読み取る能力をブーストする技術体系について、『データ視覚化のデザイン』を上梓した永田氏に解説してもらう。

PATH 代表取締役 永田ゆかり

PATH 代表取締役 永田ゆかり

アクセンチュア、楽天、KPMGなどを経て、独立。PATH Data Analytics & Visualization(PATH株式会社)を立ち上げる。日本Tableauユーザー会会長を務める。2019年2月にTableau ZEN MASTER に日本人女性で初めて選ばれる。 データ活用コンサルティングに加え、データビジュアライゼーション、データアナリティクス、データ分析・活用のためのクリティカルシンキング、役員向けデータ活用研修などをテーマとしたトレーニング講師を行う。「ビジネスとデータをつなぐ」「データビジュアライゼーション」「データ視覚化のデザイン」「データアナリティクス」などのテーマで講演、メディア、新聞などへの寄稿多数。PATH 代表取締役(PATH Data Analytics & Visualization) データメディア「Data Viz Lab」主宰 早稲田大学トランスナショナルHRM研究所招聘研究員 早稲田大学政経学部卒。


絵の中に9はいくつあるのか?

 下の図の左の絵の中に、9はいくつあるでしょう? 数えるのはとても大変ですよね。それでは、右の絵ではどうでしょう?

画像

 すぐにわかりましたよね。

 もう1つの例を見てみましょう。下記は、4つのグループ(A,B,C,D)のデータを並べた表です。

画像

 この数字は何を伝えようとしているでしょうか? このデータセットは、XとYの2つの数値が組みになって、1つのデータを表します。それが11個集まって、1つのグループを構成しています。この4つのグループは、それぞれ、どんな傾向のあるグループと言えますか?

 数字の羅列から傾向を読み取るのは、手間がかかるし、面倒くさい? そうですよね。確かに、このままでは、傾向を読み取るのは、難しいです。こういう場合、一般的には、傾向を読み取るために、何をしようとするでしょう?

 グラフや数字を見て、「グループAよりもBの方が大きい数字が多い」とか「グループBよりもグループCの方が散らばりが大きそう」などは言えますが、それらは曖昧で主観的ですよね。もっと客観的に傾向を把握する方法はないでしょうか。

画像
 では、平均、分散、相関係数、回帰直線などの統計量を計算すればいいでしょうか? こういう場合に使える最強のツールが統計です。統計処理することで、それぞれのデータの傾向を「客観的」に把握できます。それでは、この4つのグループの統計量を計算してみましょう。右の表が、それです。

 えっ、これはどのグループの統計量なのかですって? 実は、上記4つのグループの平均、分散、相関係数、回帰直線などの統計量は、全部同一なのです。

「これらはすべて、客観的に見て同じ傾向のデータだった!」

統計では把握できないデータの傾向がある

 という結論に飛びつく前に、これらのデータを散布図で表示してみたのが、次の図です。

画像

 「あれ?」と思いましたか? そうなんです。実は、平均、分散、相関係数などが完全に同じなのにも関わらず、こんなに傾向が異なるデータだったのです。

 これが何を意味するかと言うと、『「平均、分散、相関係数」などの統計量だけでは、表せないデータの傾向がある』ということです。また、統計量だけでは表せないデータの傾向を、データ視覚化によって把握することができる場合がある、ということです。

 確かに、統計というのはデータの傾向を客観的に把握することができる、非常に強力なツールです。しかしながら、統計によって把握できないデータの傾向というものが、確かにあるのです。これこそが、データ視覚化が必要な、最も本質的な理由の1つです。

 ちなみに、この素晴らしいデータセットは、イギリスの有名な統計家、Frank Anscombe氏が「Anscombe's Quartet」として、視覚的表現の重要性を説くために作成したデータセットです。視覚的効果がなぜ重要か、このデータセットで如実に表現できていますよね。

 ここまで傾向が異なるのであれば、統計的指標が同じでも、これを見た時にビジネス上でとるべきアクションや、次に何をすべきかを考える上でアイデアは確実に変わってくるはずです。実際にビジネスの現場では、数字だけしか見ておらず、的外れな意思決定をしてしまうリスクは多分にあります。

 さて、ここまでデータ視覚化をするメリットについてお話してきましたが、実際統計的指標はとても便利です。統計的指標と視覚化は対立概念ではなく、統計的指標の力と視覚化の力を一緒に使っていくことに大きな価値があります。

 統計量は結局何かしら「集計」された結果です。たとえば、よくある「平均」の難しさの議論で「平均の鵜呑みは危険」ということはさまざまな場面でよく引き合いに出されますよね。これはなぜかと言うと、俯瞰的に全体の散らばりを見た時には分布が異なり、極端に大きい値や極端に小さい値の影響を強く受ける統計量だからです。標準偏差などもそうですね。

画像

 しかし、だからといって、何万件もあるアンケートのデータ1つ1つの数字や回答を見て解釈するのは大変です。そのため、ある種の代表値(平均、分散、標準偏差、相関係数など)を参考にし、全体を捉えて理解するという意味では、統計量はとても便利です。

 注意しなければならないのは、何か1つの指標、たとえば「平均」を見るだけでは、分析したい対象の分布や推移などの「真の姿」は見えないということです。

 昔は、大量のデータを文字通り「見える」ようにするにはとてもコストがかかりました。大量のデータを短い時間で見て理解するようにできる便利なツールがなかったからです。そのような状況では、集計された統計量というのは、大まかに全体を把握するためにとても便利でした。

 しかし、今は便利なツールがたくさんあります。データ視覚化も行いながらあわせて統計量も観察していくことで、昔よりも格段に高い示唆を出すことが可能になっています。データ視覚化は、先のAnscombe's Quartetの例にあるように、データが言わんとしていることをストレートに伝えることができ、統計量とともに使用することでさらに威力を発揮します。

【次ページ】「色」はなぜ重要なのか? 色選びのテクニック

ビッグデータ ジャンルのセミナー

ビッグデータ ジャンルのトピックス

ビッグデータ ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!