• 会員限定
  • 2024/01/25 掲載

ベクトルデータベースとは何かを解説、生成AIで「必須の存在」はどんな役割を担うのか

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
生成AIの可能性を広げる「ベクトルデータベース」への関心が急速に高まっている。ベクトルデータベースとは、生成AIが扱う非構造化データの格納・管理・照会で利用されるデータベースのこと。ここではベクトルデータベースの基本をわかりやすく解説するとともに、生成AIの普及において、どのような役割を果たすのか、注目される理由などと合わせて紹介しよう。

執筆:細谷 元、構成:ビジネス+IT編集部

執筆:細谷 元、構成:ビジネス+IT編集部

バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

photo
SQLなど従来のデータベースとは何が違う?
(Photo/Shutterstock.com)

ベクトルデータベースとは何か?

 今後2~3年かけて企業における生成AI活用が急速に増えると予想される中、「ベクトルデータベース」への注目度が高まっている。

 ベクトルデータベースとは、生成AIが扱う非構造化データ(テキスト、画像、音声など)の格納・管理・照会で利用されるデータベースで、企業が自社データを活用した生成AIアプリケーションを開発する際に必須となるインフラだ。

 企業で最も普及している生成AIユースケースの1つとして、社内データを大規模言語モデルに読み込ませた社内向けカスタマイズチャットAIが挙げられる。たとえば、OpenAIのGPT-3.5やGPT-4モデルなどに社内データを与え、社員が社内データから必要な情報やインサイトを取得できるシステムを開発する動きが増えつつある。マッキンゼーが社内で展開しているLilliはその好例といえるだろう。

 基本的にOpenAIのGPTモデルなどは、ネット上の公開データをもとにトレーニングされたもので、社内データなどの非公開データに関する知識は持ち合わせていない。この不足を補うために、企業の社内データをAIモデルに与え、AIモデルが企業の特定文脈に沿った回答を生成できるようにするシステムを開発する動きが増えつつあるのだ。

 このアプローチは「Retrieval Augmented Generation(RAG)」と呼ばれ、国内外多くの企業で採用・計画が進んでいる。

 ベクトルデータベースは、このRAGアプローチにおいて非常に重要な存在であり、ベクトルデータベースサービスを提供する企業への投資も生成AIトレンドの中で急速に拡大中だ。

 MarketsandMarketsの調査によると、ベクトルデータベース市場規模は2023年に15億ドルとなり、今後23%以上の成長率を維持し、2028年には43億ドルに拡大する見込みという。

画像
ベクトルデータベース市場の概況
(出典:MarketsandMarkets

従来のデータベース(SQLなど)と何が違うのか

 データベースといえば、Eコマースのバックエンドやウェブアプリケーションにおけるユーザー管理などで広く利用されているSQL系のデータベースを指すことが多いだろう。

 このSQLデータベースとベクトルデータベースにはどのような違いがあるのか気になるところ。SQLデータベースの特徴とベクトルデータベースの特徴を比較してみたい。

 まず、SQLデータベースの特徴を概観したい。

 データ構造は、行と列を使用してデータを表形式で格納する構造。エクセルのようなスプレッドシートのような構造だ。

 クエリ言語としてSQL(Structured Query Language)を使用しデータを操作する。構造化されたデータの管理に適しており、Eコマース、トランザクション処理、顧客管理情報などで広く利用されている。

 インデックスと検索では、B-treeなどのインデックス構造により、大量の構造化データを素早く検索できる仕組みとなっている。

 これに対し、ベクトルデータベースはどのような特徴を持つのか。

 まずデータは上記でも説明したように、ベクトル形式で格納される構造で、多次元空間の点として表されるデータ表現となる。

 ベクトルデータベースのクエリは、伝統的なSQLクエリとは異なり、ベクトル間の類似性に基づいて実施される。このとき使用されるのは、ユークリッド距離やコサイン類似性など。ユークリッド距離とは、2つの点間の直線最短距離をピタゴラスの定理を用いて測定する方法。一方、コサイン類似性は、2つの非ゼロベクトル間の類似度をコサイン角度を用いて測定する。-1から1の間で変動し、ベクトル間の類似度が高いほど1に近づく。 【次ページ】具体的な活用プロセスとは?

関連タグ

関連コンテンツ

オンライン

Slack AI Day

Slack AI の日本語ローンチを祝し、革新の軌跡を振り返り、未来への一歩を踏み出す特別なイベントを開催します。 「コミュニケーションの先の未来を再定義する」というテーマのもと、Slack はメッセージングツールから AI を活用した強力なプラットフォームへと進化しました。 私たちの働き方を根本から変えるこのプラットフォームでは、CRM やアプリケーションの複数同時活用が可能で、 あらゆるデジタル業務が Slack を通じて円滑に進行します。 また、AI の強化により、過去の会話や見落としていた情報を活用して、ワンクリックで最適なコミュニケーションを実現することができます。 この記念すべきイベントでは、「新しい働き方」と業務における生成 AI の活用に焦点を当てます。 Slack AI を通じて、私たちは日常の業務プロセスを根本から変革し、生産性の飛躍的な向上を目指します。 AI とオートメーションの融合が、時間を要する従来のプロセスを一新。 Salesforce の Customer 360 と連携した Slack で働き方が劇的に変わります。 Slack を愛用し続けてくださる皆さま、そしてこれから Slack をご利用してくださる皆さまと共に、AI による業務効率化の新時代を創ります。 進化を遂げた Slackと一緒に、未来の働き方を再定義し、その可能性を探求しませんか? 【このような方におすすめです】 ・業務における生成 AI の活用を模索している方 ・より効率的な働き方・チームコミュニケーションを模索している方 ・Slack でできることを知りたい方、Slack の利用を検討している方 ・Slack を使っているけど、"コミュニケーション" 以外の新しい利用価値を知りたい方 ・部門・プロジェクトごとの部分的な Slack 利用から組織全体へ広げていきたい方 ・Slack 無償版から有償版へ切り替えたい方

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます