開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2021/03/12

「コーパス」とは?自然言語を扱うAIのカラクリ

連載:図でわかる3分間AIキソ講座

今では当たり前のように言葉を扱う人工知能(AI)ですが、その道程は決して平坦なものではありませんでした。また、クイズで人間に勝ったことで知られるIBMの「Watson(ワトソン)」のように、人間の言葉を理解しているように見えるAIも存在しますが、その実態はどのようなものなのでしょうか。自然言語を操るAIについて、基本的なところを解説しましょう。

フリーライター 三津村直貴

フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

画像
AIが自然言語を扱うとき、どのような仕組みが裏側で働いているのでしょうか(後ほど、詳しく解説します)



「コーパス」とは

 AIと聞くと、機械学習のように「勝手に必要なことを学習してくれる」といったイメージを持つ人が多いかもしれませんが、扱う対象が「自然言語」となると、そう簡単な話ではないのです。

 インターネット上には無数の自然言語がありますが、そのほとんどは非構造化データと呼ばれる扱いにくいデータです。AIにとっては読み方の分からない外国語のようなものでしょう。それを「勝手に読んで学んでくれと」言っても、かなり難しいタスクであることが分かります。

 人間が外国語を学ぶように、AIにも書かれている単語の文法上の扱い、意味、用例などを記した辞書的なデータベースが必要不可欠となります。そこで、インターネット上の自然言語を収集し、文法などの構造情報を整理したデータベース「コーパス」が世界中の言語で作成されました。

 コーパスは構造化されているため、AIはコーパスを参照することで人間の書いた構造化されていない文章を構造化して読むことができるようになります。これは、AIが辞書を引きながら外国語を読むといったイメージです。

画像
AIが自然言語を扱う時に、活躍するのが自然言語の文章を構造化し、データベース化した「コーパス」
(Photo/Getty Images)


クイズに答えるAI、「検索」と何が違う?

 コーパスのおかげで、AIも自然言語をある程度は「読める」ようになったと解釈することができます。

 たとえば、IBMのWatsonはこのコーパスを駆使して、Wikipediaなどインターネット上のさまざまなリソースの内容を読み取れるようになり、知識を問うクイズに答えられるようになりました。今では論文や判決文などを読んで必要な情報を取り出せるようになり、より高度な複雑な文章にも対応できるようになっています。

 ただ、質問やクイズに答えられるようになったからといって、意味が分かっているとは限りません。こうしたAIが実際に行っているのはコーパスと機械学習によって非構造化データ(文章)を構造化して扱えるようにし、もっともらしい解答を見つける確率論によって、問い(入力)にふさわしい答え(出力)をデータベースから取り出しているだけ。要するに、私達が普段やっている「検索」を高度にしただけのものということです。

【次ページ】「該当する単語を検索してくること」と「意味を理解し答えること」の差

お勧め記事

AI・人工知能・機械学習 ジャンルのセミナー

AI・人工知能・機械学習 ジャンルのトピックス

AI・人工知能・機械学習 ジャンルのIT導入支援情報

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!