- 2026/05/04 掲載
米スタンフォード大報告書、AI学習データが枯渇しつつある「ピークデータ」を警告
人間のテキストデータが、早ければ2026年にも枯渇する懸念
この「ピークデータ」と呼ばれる資源の枯渇は、データ量と計算量の拡大によってAIをスケールアップしてきた従来の開発手法に根本的な見直しを迫るものだ。これまでテクノロジー企業はウェブ上の膨大な文章をかき集めることでモデルの精度を向上させてきたが、その無償の供給源が限界に達しつつある。
代替策として、AI自身が生成した「合成データ」を次世代モデルの学習に用いる試みが業界内で進められている。しかし、この手法には技術的なリスクが伴うことが複数の研究で確認されている。合成データに過度に依存して学習を繰り返すと、「モデル崩壊」や「自己貪食障害」と呼ばれる出力の劣化を引き起こす。モデルが生成する情報の多様性が失われ、元のデータ分布におけるマイノリティな知識や外れ値が忘却されてしまうためだ。医療などの高リスクな専門領域では、誤診などの深刻なエラーにつながる問題も指摘されている。
スタンフォード大学の報告書は、導入現場におけるAIの生産性向上効果にもばらつきがあると分析している。プログラミングなどの構造化されたタスクでは大幅な改善が見られる一方、複雑なビジネス判断を要する領域では効果が薄いかマイナスに作用する事例も報告された。高精度なAIへの過信が、人間の検証作業を怠らせる逆説的な現象も生じている。
データ不足が表面化するなか、AI開発企業は報道機関との有償提携による独自データの確保や、人間の専門家による検証を組み込んだ学習プロセスの構築へと戦略の転換を急いでいる。無尽蔵のデータに依存した成長モデルが終焉を迎え、今後は限られた質の高いリソースをいかに効率的に活用するかがAI開発の成否を分ける段階に入った。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR