- 会員限定
- 2025/07/02 掲載
AI活用最大の課題「データの準備と整理」、驚愕手法で解決するStructify「DoRa」の衝撃
英大学院修了後、RPA企業に勤務。大手通信社シンガポール支局で経済・テクノロジーの取材・執筆を担当。その後、Livit Singaporeでクライアント企業のメディア戦略とコンテンツ制作を支援(主にドローン/AI領域)。2026年2月、シンガポールで「SimplyPNG」を設立し、AI画像編集のモデル運用とGPUコスト最適化を手がける。主にEC向け画像処理ワークフローの設計・運用自動化に注力。
AI導入をはばむデータ整備の壁、準備作業に8割の時間を費やす現実
企業のAIプロジェクトで最も深刻な課題となっているのが、データの準備と整理だ。過去調査が示すところでは、データサイエンティストの業務時間の実に8割がデータの収集、クリーニング、整理に費やされているという。高度な分析モデルの構築や実装といった本来の業務に充てられる時間は、わずか2割に過ぎない計算となる。この状況を「データ準備のボトルネック」と呼ぶ専門家も多い。Snowflakeの調査では、企業の5社中4社が生成AIを十分に活用するためのデータ基盤を欠いており、不適切なデータ準備がAI導入の最大の障壁となっていることが明らかになった。
特に深刻なのが非構造化データの処理だ。フォースポイントの分析によると、新規に生成されるデータの約8割が電子メール、PDF、画像、自由記述テキストなどの非構造化データ。これらのデータは従来の分析ツールでは扱いづらく、その大半が有効活用されないまま放置される状態となっている。
情報量は爆発的に増加しているものの、それらを意味のあるビジネス判断に結びつけられる形式に変換することが極めて困難となっており、結果として、企業は膨大なデータを保有しながらも、それを実際のAIプロジェクトで活用できない状況に陥っているのだ。
ガートナーは、2025年までに生成AIプロジェクトの少なくとも3割が実証実験の段階で頓挫すると警告しているが、その主な原因として、データ品質の低さと価値提案の不明確さを挙げている。
こうした調査が示唆するのは、高額な投資を行ってAIプロジェクトを立ち上げても、その土台となるデータ基盤が脆弱であれば、期待した成果を得られない可能性が高いということ。
高給のデータサイエンティストたちが、革新的なモデル開発ではなく、データの下準備に時間を費やさざるを得ない現状は、企業にとって大きな機会損失となる。
視覚と言語を組み合わせた新手法、DoRaが切り開くデータ準備の自動化
こうしたデータ準備の課題に挑戦するスタートアップとして注目されているのがStructifyだ。Structifyは2025年4月30日、410万ドルのシード資金を調達し、同日にプラットフォームの一般公開も行った。
DoRaの最大の特徴は、コンピュータービジョンと自然言語理解を組み合わせた視覚言語機能をデータエンジニアリングに応用している点にある。
これにより、Webページや文書を人間のように「見て」理解し、必要なデータを抽出することが可能となった。従来のように複雑なスクリプトを書いたり、複数のソースから手作業でデータをコピー&ペーストしたりする必要はない。ユーザーは必要なデータについてDoRaに指示を出すだけで、AIが自動的にさまざまなデータソースを巡回して情報を収集・整理する仕組みとなっている。
Structifyの創業者らによると、DoRaは「人間のようにWebを巡回する」能力を持つという。システムの内部では、多数のAIエージェントがWebページやファイルをクリックし、スクロールし、読み込んでいく。これは膨大なデータを調査する研究者の作業を模倣したものだ。
従来型のツールが固定的なルールやテンプレートに依存していたのに対し、DoRaの視覚言語モデルは文脈を理解し、グラフやフォームなどの視覚的要素を柔軟に解釈することができる。また、SECの財務報告書やリンクトインのプロフィール、ニュース記事、専門的な業界向けPDFなど、幅広いデータソースに対応している点も特徴だ。
データの信頼性を確保するため、Structifyは「4重検証」システムを導入。AIと人間の専門家による品質管理を組み合わせることで、高い精度を維持している。AIが不審な点を検出したり、ユーザーが異常を発見したりした場合、その作業は人間の専門家に転送される。
専門家はAIエージェントと同じ手順で元のコンテンツを確認し、データ抽出の正確性を検証する。また、修正された内容は新たな学習データとなり、専門分野におけるDoRaの精度を継続的に向上させていく。この仕組みにより、自動化によるスピードと人間の専門性の両立が可能となった。
データ戦略のおすすめコンテンツ
データ戦略の関連コンテンツ
PR
PR
PR