開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

日本アイ・ビー・エム株式会社提供コンテンツ

  • スペシャル
  • 会員限定
  • 2018/09/20

データクレンジングの手法を解説、どうすれば価値あるデータとなるのか

企業経営や日常業務での意思決定にデータを活用することで、自社の競争力を高めようと考える企業が年々増えています。ところがデータ活用を本格的に開始しようとすると、必ず陥る落とし穴があります。それは、社内に蓄積しているデータも、社外から取り込んだデータも、必ずしもそのままでは利用できないということです。なぜそのようなことが起こるのか、またどうすれば活用可能な価値あるデータになるかについて分かりやすく説明します。

photo
データを活用しやすいように綺麗にするのが「データクレンジング」だ
(©metamorworks - Fotolia)

データクレンジングとは何か?

 最初に本稿のテーマである「データクレンジング」という言葉について説明します。

 クレンジング(cleansing)とは、「清潔にする、洗い清める、浄化する」などを意味する動詞“cleanse”の名詞形で、「洗浄、浄化」などと訳されます。「データクレンジング」という場合は、「データをきれいにする」という意味になります。

 きれいにしないといけないということは、データは「汚れがち」ということです。では、なぜ・どのように汚れてしまうでしょうか。

 分かりやすい例として「名刺管理システム」を考えてみましょう。営業担当者が、名詞を見て手入力するタイプのシステムです。

 同じ会社名でも、ある人は「株式会社ABC商事」と入力するかもしれません。別の人は「(株)ABC商事」と入力するかもしれません。担当者名も「大沢」と入力する人もいれば「大澤」と入力する人もいます。アルファベットや数字を全角で入力する人も、半角で入力する人もいます。住所を「1丁目2番地3号」と入力する人もいれば、「1-2-3」と入力する人もいます。中には入力ミスをする人もいます。

 気の利いたシステムであれば、ある程度はシステム側で整えてくれるかもしれません。しかし限界はあります。「株式会社」と「(株)」は同一視してくれても、「大沢」と「大澤」では別物とみなすのが普通でしょう。「大沢仁史」さんと「大澤仁史」さんは本当は同一人物なのに、別の人物とみなされて検索結果がおかしくなることが起こりえます。

 ですので、通常は入力ルールを設けて統一化を図ります。しかし、なかなか守られるものではありません。

 仮に完璧に守られたとしましょう。それでも部門ごとに別々の名刺管理システムを使っていたとしたらどうでしょうか(よくあることです)。同じ入力ルールを採用していれば問題ありませんが、そのようなことはあまり期待できません。

 それぞれが別のシステムを使っていたら、さらに他の問題も起こりえます。ある部門のシステムは、性別は「男」、「女」と表していました。ところが別の部門のシステムは、性別を男なら「1」、女なら「2」として表していました。この2部門のデータを単純にマージ したら、性別は「男、女、1、2」の4種類あることになってしまいます。

 このように企業の持っているデータは汚れがちであり、半角/全角、大文字/小文字、表記方法、誤字脱字などを適宜修正する必要があります。この修正作業を「データクレンジング」と言うのです。

この記事の続き >>
・データクレンジングの必要性
・データクレンジングの手順
・データが企業競争力の源泉となる時代に

この続きは会員限定です

ここから先は「ビジネス+IT」の会員の方(登録は無料)のみ、ご利用いただけます。

今すぐビジネス+IT会員にご登録ください。

すべて無料!ビジネスやITに役立つメリット満載!

  • 1

    インタビューから事例記事まで、ここでしか読めない1万本超の記事が無料で閲覧可能

  • 2

    導入事例資料や技術資料、デモ動画などを無料でダウンロード・閲覧可能

  • 3

    年間1,000本以上、会員限定のスペシャルセミナーにご招待

  • 4

    ビジネス+IT編集部が必読記事を、メールマガジンでお知らせ!

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!