開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2020/12/01

「オントロジー」「知識表現」解説、データをAIが読み込める仕様に変換する方法とは

連載:図でわかる3分間AIキソ講座

人工知能(AI)に人間の知識を理解させることは簡単なことではありません。それは、コンピューターが情報を数字や数式で理解する一方、人間は文字・視覚・聴覚などで理解するからです。両者の違いは、コンピューターが人間を理解する上でも、コンピューターが扱うデータを人間が読み解く上でも障害にもなります。AI研究の歴史は、この課題をクリアするためにどのような道筋をたどったのでしょうか。今回は、AI技術に関連する「知識表現」、「オントロジー」、「構造化データ」、「メタデータ」というキーワードとともに、AIの仕組みを解説します。

フリーライター 三津村直貴

フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

画像
AIに人間の扱う情報を理解させるには、機械が理解しやすい形に変換・整理してあげる必要があります……(後ほど詳しく解説します)


「知識表現」:人間語を機械語に変換すること

 人間の持つ知識を人工知能(AI)にも分かるように記述する手法に「知識表現」と呼ばれるものがあります。これを理解するためには、私たちが普段扱っている「情報」や「知識」の違いを理解する必要があるでしょう。

 人間が扱う情報は、私たちの中に単なる記号として存在しているのではなく、ほかの記号と結びつくことで“知識”となっています。たとえば、「猫」という記号(単語)は「猫は動物である」など、別の記号との関係性を理解することではじめて知識になります。さらに「動物は生物である」「動物は植物と違って自ら動く」といった情報も組み合わせることで、より有用な知識になります。

 こうした「AはBである(is)」「AはBとは違う(not)」「AでありBである(and)」といった記号同士の関係性を表す記号は、コンピューター内にあらかじめ定義されています。そのため、コンピューター上でも、数式で関係そのもの表すことはできます。

 しかし、人間の知識の中にある情報同士の関係性はより複雑です。猫について、「猫の種類」や「猫の生態」と細分化していくと、好む食事だったり、特徴的な模様だったり、変わった習性だったり、色々な情報が「猫」に結びついています。

 このように人間にとっては自然に扱われる情報ですが、これをコンピューターが扱える状態にするためには、分かりやすく記述してあげなければなりません。その際、記述における共通の方式を決める必要があるのですが、その前に、そもそも人間の扱う「情報とは何か」「知識とは何か」というレベルで、改めて自分たちが扱う情報について考える必要がでてきたのです。

画像
人間が自然に扱う情報をコンピューターに理解させるためには、コンピューターが扱いやすいよう、分かりやすく記述してあげる必要がある
(Photo/Getty Images)
 

「オントロジー」:知識・情報を構造化し整理するモデル

 こうした「物事の存在」について考え、概念を体系化する学問を「オントロジー」と呼びます。この学問を哲学として扱ってしまうと、かなりややこしいのですが、情報理論の中の「オントロジー」はもう少しシンプルです。

 機械に事物の概念を伝えるためには、まずはただの記号に過ぎない情報に何らかの意味を持たせて、扱いやすい形に変える必要があります。

 そのために、1つの情報に対していくつかの「メタデータ」と呼ばれる、情報に関するメモのようなデータを作る方法があります。アーティストの楽曲をイメージすると分かりやすいでしょう。

 たとえば、「曲名」はその楽曲を表す記号であり、楽曲の「メロディ」や「歌詞」は曲の概念を形作る情報の中身であり、楽曲の「ジャンル」や「アーティスト」は所属や属性を表すもので、すべて1つの楽曲に紐付けられている情報群です。

 こうした情報や知識の在り方を考え整理するのが情報理論におけるオントロジーであり、実際に知識の在り方を示すための方法が「知識表現」となります。

 そう考えると、機械が扱う「知識の形」が見えてくるのではないでしょうか。機械はさまざまな情報同士を紐付けて、情報同士の関係性でネットワークのようなもの作り、必要に応じてネットワーク上の情報を辿っていくのです。すると、オントロジーに基づいた「知識表現」に近いデータベースというのが、あちこちに存在することが分かるでしょう。

 音楽の再生リストを見るだけでも、そこに曲に関する知識が詰まっていますし、ウィキペディアや検索エンジン、SNSにだって知識表現の片鱗が隠れています。今では当たり前のように使っているデータベースの数々が、オントロジーによって研究され、知識表現によって記述され、1つのデータを形作っているのです。

 そうして知識表現などにより整理されたデータのことを何と呼ぶのでしょうか。

【次ページ】「構造化データ」と「非構造化データ」とは

お勧め記事

AI・人工知能・機械学習 ジャンルのセミナー

AI・人工知能・機械学習 ジャンルのトピックス

AI・人工知能・機械学習 ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!