• 2025/07/02 掲載

AI活用最大の課題「データの準備と整理」、驚愕手法で解決するStructify「DoRa」の衝撃

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
8
会員になると、いいね!でマイページに保存できます。
企業のAIプロジェクトで最大の課題となっているのが、データの「準備」と「整理」だ。データサイエンティストの業務時間の8割がこの作業に費やされ、本来の分析業務を圧迫している。この課題に挑戦するのが視覚言語モデル「DoRa」を開発したStructifyだ。人間のように、文書やWebページを「見て」理解し、必要なデータを自動抽出する。ここではデータ準備の自動化を実現するStructifyの驚くべき技術アプローチの詳細に迫ってみたい。
執筆:細谷 元

細谷 元

バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

  構成:ビジネス+IT編集部
photo
データ整備分野の注目株、Structify
(出典:Structify

AI導入をはばむデータ整備の壁、準備作業に8割の時間を費やす現実

 企業のAIプロジェクトで最も深刻な課題となっているのが、データの準備と整理だ。過去調査が示すところでは、データサイエンティストの業務時間の実に8割がデータの収集、クリーニング、整理に費やされているという。高度な分析モデルの構築や実装といった本来の業務に充てられる時間は、わずか2割に過ぎない計算となる。

 この状況を「データ準備のボトルネック」と呼ぶ専門家も多い。Snowflakeの調査では、企業の5社中4社が生成AIを十分に活用するためのデータ基盤を欠いており、不適切なデータ準備がAI導入の最大の障壁となっていることが明らかになった。

 特に深刻なのが非構造化データの処理だ。フォースポイントの分析によると、新規に生成されるデータの約8割が電子メール、PDF、画像、自由記述テキストなどの非構造化データ。これらのデータは従来の分析ツールでは扱いづらく、その大半が有効活用されないまま放置される状態となっている。

 情報量は爆発的に増加しているものの、それらを意味のあるビジネス判断に結びつけられる形式に変換することが極めて困難となっており、結果として、企業は膨大なデータを保有しながらも、それを実際のAIプロジェクトで活用できない状況に陥っているのだ。

 ガートナーは、2025年までに生成AIプロジェクトの少なくとも3割が実証実験の段階で頓挫すると警告しているが、その主な原因として、データ品質の低さと価値提案の不明確さを挙げている。

 こうした調査が示唆するのは、高額な投資を行ってAIプロジェクトを立ち上げても、その土台となるデータ基盤が脆弱であれば、期待した成果を得られない可能性が高いということ。

 高給のデータサイエンティストたちが、革新的なモデル開発ではなく、データの下準備に時間を費やさざるを得ない現状は、企業にとって大きな機会損失となる。

画像
年間25万ドルのコスト削減も実現
(Photo/Shutterstock)

視覚と言語を組み合わせた新手法、DoRaが切り開くデータ準備の自動化

 こうしたデータ準備の課題に挑戦するスタートアップとして注目されているのがStructifyだ。

 Structifyは2025年4月30日、410万ドルのシード資金を調達し、同日にプラットフォームの一般公開も行った。

画像
Structifyプラットフォーム
(出典:Structify

 DoRaの最大の特徴は、コンピュータービジョンと自然言語理解を組み合わせた視覚言語機能をデータエンジニアリングに応用している点にある。

 これにより、Webページや文書を人間のように「見て」理解し、必要なデータを抽出することが可能となった。従来のように複雑なスクリプトを書いたり、複数のソースから手作業でデータをコピー&ペーストしたりする必要はない。ユーザーは必要なデータについてDoRaに指示を出すだけで、AIが自動的にさまざまなデータソースを巡回して情報を収集・整理する仕組みとなっている。

 Structifyの創業者らによると、DoRaは「人間のようにWebを巡回する」能力を持つという。システムの内部では、多数のAIエージェントがWebページやファイルをクリックし、スクロールし、読み込んでいく。これは膨大なデータを調査する研究者の作業を模倣したものだ。

 従来型のツールが固定的なルールやテンプレートに依存していたのに対し、DoRaの視覚言語モデルは文脈を理解し、グラフやフォームなどの視覚的要素を柔軟に解釈することができる。また、SECの財務報告書やリンクトインのプロフィール、ニュース記事、専門的な業界向けPDFなど、幅広いデータソースに対応している点も特徴だ。

 データの信頼性を確保するため、Structifyは「4重検証」システムを導入。AIと人間の専門家による品質管理を組み合わせることで、高い精度を維持している。AIが不審な点を検出したり、ユーザーが異常を発見したりした場合、その作業は人間の専門家に転送される。

 専門家はAIエージェントと同じ手順で元のコンテンツを確認し、データ抽出の正確性を検証する。また、修正された内容は新たな学習データとなり、専門分野におけるDoRaの精度を継続的に向上させていく。この仕組みにより、自動化によるスピードと人間の専門性の両立が可能となった。

画像
Structifyでの自動構造データ作成
(出典:Structify
【次ページ】非構造化データの活用を加速、導入企業で年間25万ドルのコスト削減も
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます