• 会員限定
  • 2021/03/12 掲載

「コーパス」とは?自然言語を扱うAIのカラクリ

連載:図でわかる3分間AIキソ講座

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
今では当たり前のように言葉を扱う人工知能(AI)ですが、その道程は決して平坦なものではありませんでした。また、クイズで人間に勝ったことで知られるIBMの「Watson(ワトソン)」のように、人間の言葉を理解しているように見えるAIも存在しますが、その実態はどのようなものなのでしょうか。自然言語を操るAIについて、基本的なところを解説しましょう。

執筆:フリーライター 三津村直貴

執筆:フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

画像
AIが自然言語を扱うとき、どのような仕組みが裏側で働いているのでしょうか(後ほど、詳しく解説します)



「コーパス」とは

 AIと聞くと、機械学習のように「勝手に必要なことを学習してくれる」といったイメージを持つ人が多いかもしれませんが、扱う対象が「自然言語」となると、そう簡単な話ではないのです。

 インターネット上には無数の自然言語がありますが、そのほとんどは非構造化データと呼ばれる扱いにくいデータです。AIにとっては読み方の分からない外国語のようなものでしょう。それを「勝手に読んで学んでくれと」言っても、かなり難しいタスクであることが分かります。

 人間が外国語を学ぶように、AIにも書かれている単語の文法上の扱い、意味、用例などを記した辞書的なデータベースが必要不可欠となります。そこで、インターネット上の自然言語を収集し、文法などの構造情報を整理したデータベース「コーパス」が世界中の言語で作成されました。

 コーパスは構造化されているため、AIはコーパスを参照することで人間の書いた構造化されていない文章を構造化して読むことができるようになります。これは、AIが辞書を引きながら外国語を読むといったイメージです。

画像
AIが自然言語を扱う時に、活躍するのが自然言語の文章を構造化し、データベース化した「コーパス」
(Photo/Getty Images)


クイズに答えるAI、「検索」と何が違う?

 コーパスのおかげで、AIも自然言語をある程度は「読める」ようになったと解釈することができます。

 たとえば、IBMのWatsonはこのコーパスを駆使して、Wikipediaなどインターネット上のさまざまなリソースの内容を読み取れるようになり、知識を問うクイズに答えられるようになりました。今では論文や判決文などを読んで必要な情報を取り出せるようになり、より高度な複雑な文章にも対応できるようになっています。

 ただ、質問やクイズに答えられるようになったからといって、意味が分かっているとは限りません。こうしたAIが実際に行っているのはコーパスと機械学習によって非構造化データ(文章)を構造化して扱えるようにし、もっともらしい解答を見つける確率論によって、問い(入力)にふさわしい答え(出力)をデータベースから取り出しているだけ。要するに、私達が普段やっている「検索」を高度にしただけのものということです。

【次ページ】「該当する単語を検索してくること」と「意味を理解し答えること」の差

関連タグ

関連コンテンツ

オンライン

Slack AI Day

Slack AI の日本語ローンチを祝し、革新の軌跡を振り返り、未来への一歩を踏み出す特別なイベントを開催します。 「コミュニケーションの先の未来を再定義する」というテーマのもと、Slack はメッセージングツールから AI を活用した強力なプラットフォームへと進化しました。 私たちの働き方を根本から変えるこのプラットフォームでは、CRM やアプリケーションの複数同時活用が可能で、 あらゆるデジタル業務が Slack を通じて円滑に進行します。 また、AI の強化により、過去の会話や見落としていた情報を活用して、ワンクリックで最適なコミュニケーションを実現することができます。 この記念すべきイベントでは、「新しい働き方」と業務における生成 AI の活用に焦点を当てます。 Slack AI を通じて、私たちは日常の業務プロセスを根本から変革し、生産性の飛躍的な向上を目指します。 AI とオートメーションの融合が、時間を要する従来のプロセスを一新。 Salesforce の Customer 360 と連携した Slack で働き方が劇的に変わります。 Slack を愛用し続けてくださる皆さま、そしてこれから Slack をご利用してくださる皆さまと共に、AI による業務効率化の新時代を創ります。 進化を遂げた Slackと一緒に、未来の働き方を再定義し、その可能性を探求しませんか? 【このような方におすすめです】 ・業務における生成 AI の活用を模索している方 ・より効率的な働き方・チームコミュニケーションを模索している方 ・Slack でできることを知りたい方、Slack の利用を検討している方 ・Slack を使っているけど、"コミュニケーション" 以外の新しい利用価値を知りたい方 ・部門・プロジェクトごとの部分的な Slack 利用から組織全体へ広げていきたい方 ・Slack 無償版から有償版へ切り替えたい方

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます