株式会社データダイレクト・ネットワークス・ジャパン 提供コンテンツ

  • スペシャル
  • 会員限定
  • 2025/09/26 掲載

最適な「生成AI基盤」の作り方、高額GPUを台無しにする…見落としがちな“あの要素”

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
生成AI開発が活発化する中、多くの企業がGPUの投資効果に疑問を抱き始めている。高額なGPUで基盤を構築したものの、期待したパフォーマンスが出ない、学習時間が想定以上にかかるといった課題が頻発している。問題の根本は、GPU以外のインフラ設計にある。
photo
「最適な」生成AI基盤はどう作る?
(Photo/Shutterstock.com)

2週間で数千万円……「GPU待機時間」が引き起こす深刻な損失

 現在多くの企業で、生成AIの基盤をどう構築するかに頭を悩ませている。GPUの選定に注力する一方で、実際の学習環境では、GPUが処理中にデータの読み書きを待つ「GPU待ち」状態が頻繁に発生し、高額な投資が無駄になるケースが相次いでいる。

 たとえば、ある大規模LLM開発機関では、1720億パラメータモデルの学習時に、NFSストレージを使用した結果、チェックポイント保存に20分もかかり、約1時間に1回の保存設定では約1/3の時間でGPUが停止していることが判明した。1時間のGPU停止による損失は50万~100万円に達することもあり、2週間の学習期間全体では数千万円規模の損失が生じていたことになる。

 こうした問題の根本原因は、GPUが効率的に動作するために必要な3つの要素──高速なGPU、高速なネットワーク、高速なストレージ──のうち、ストレージ性能が軽視されることにある。では、どうすればこうした損失を防ぎ、生成AI利用を加速させる基盤を作ることができるのだろうか。

この記事の続き >>

  • ・【図解】「生成AI基盤」基本のデータの流れ
    ・【学習基盤】GPU効率を最大化する方法
    ・【推論基盤】プロンプトを“知の資産”に変える「革新的活用法」
    ・セキュリティを保ちながら社内AI基盤を構築する方法

この続きは
会員限定(完全無料)です

ここから先は「ビジネス+IT」会員に登録された方のみ、ご覧いただけます。

今すぐビジネス+IT会員に
ご登録ください。

すべて無料!今日から使える、
仕事に役立つ情報満載!

  • ここでしか見られない

    2万本超のオリジナル記事・動画・資料が見放題!

  • 完全無料

    登録料・月額料なし、完全無料で使い放題!

  • トレンドを聞いて学ぶ

    年間1000本超の厳選セミナーに参加し放題!

  • 興味関心のみ厳選

    トピック(タグ)をフォローして自動収集!

関連タグ タグをフォローすると最新情報が表示されます


処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます