生成AIが「爆速化」、30倍高速のNVIDIAの次世代GPU「Blackwell」がもたらすヤバさ

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

半導体

|

タグをもっとみる

GPT-4を超える大規模言語モデル（LLM）が乱立する「ポストGPT-4」フェーズに突入した生成AI市場だが、生成AIを爆速化する次世代GPUの開発競争にも拍車がかかっている。トップを走るNVIDIAは、次世代GPU「Blackwell（ブラックウェル）」を発表。前世代と比べ、最大30倍のパフォーマンス向上を実現するとともに、コストとエネルギー消費を1/25に抑えることに成功したという。一方、スタートアップの動きも活発化しており、GroqはChatGPTを13倍高速化できるGPUの開発を終え、すでに販売拡大に乗り出している。激化するGPU開発競争、その最前線を追ってみたい。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

NVIDIAの次世代GPUアーキテクチャー「Blackwell」

（出典：NVIDIAニュースルーム）

NVIDIAのAI専用GPU「Blackwell（ブラックウェル）」とは

1ページ目を1分でまとめた動画

　生成AI市場は、GPT-4を超える大規模言語モデル（LLM）が乱立する「ポストGPT-4」フェーズに突入した。これと同時に起こっているのが、AIモデルのトレーニング／推論をさらに加速させる次世代GPUの開発競争の激化だ。

　NVIDIAは2024年3月、次世代GPU「Blackwell（ブラックウェル）」を発表。Blackwellは、AI処理のタスクにおいて、前世代比で25倍もの低コストと低消費電力を実現したとされる。また推論ワークロードにおいては、前世代に比べ最大30倍のパフォーマンス向上を達成したという。

　Blackwellは、初のアフリカ系アメリカ人としてアメリカ国立科学アカデミーに選出された数学者、デイビッド・ハロルド・ブラックウェル氏にちなんで名付けられたモデル。2080億個ものトランジスタを搭載し、TSMCのカスタムメイドの4ナノメートルプロセスで製造される。

　特筆すべきは、Blackwellが大規模言語モデル用に特化したGPUであるという点だろう。まず、AIモデルの学習と推論を高速化するための第2世代トランスフォーマーエンジンを搭載。AIの演算をより効率的に行える工夫がなされており、同じメモリ量でより大きなAIモデルを扱えるようになったほか、演算能力とモデルサイズを2倍に拡張できるようになったという。

　また、LLM向けに第5世代のNVLinkネットワーキング技術も搭載されている。NVLinkとは、NVIDIA社が開発した高速なGPU間通信技術。この最新バージョンのNVLinkにより、最大576個のGPU間で高速かつシームレスにデータをやり取りできるようになる。これにより、あたかも1つの巨大なGPUで処理しているかのように、効率的にLLMの学習や推論を行うことが可能になるのだ。

　Blackwellはマイクロソフト、アマゾン、メタ、グーグル、OpenAIなどの主要なクラウドプロバイダーやAI企業に投入されることが予想されている。NVIDIAが主張するように、30倍のパフォーマンスを実現できるとすれば、その影響は計り知れない。

Blackwellはコストとエネルギー消費も1/25に

（Photo/Shutterstock）

編集部おすすめ記事

もうムリかも……崖っぷち「ルンバ」はなぜ負けた？「存続危機」招いた決定的失態

NVIDIA競合、8エクサFLOPSのAIスパコンを開発した企業とは

　NVIDIA以外のプレイヤーも研究開発を加速させている。その1社が、Cerebrasだ。

　CerebrasとG42は2024年3月13日、AI性能で8エクサFLOPSを達成できるスーパーコンピューター「Condor Galaxy 3」の構築に着工したことを発表した。エクサFLOPSとは、1秒間に1京（10の18乗）回の浮動小数点演算を行うことができる性能指標だ。

　Condor Galaxy 3は、5800万個ものAIに最適化されたコアを搭載したスパコンクラスター。その心臓部となるのが、Cerebrasが開発した業界最速のGPU「Wafer-Scale Engine 3（WSE-3）」だ。

　WSE-3を搭載したスパコン「CS-3」を64台組み合わせた大規模スパコンネットワークがCondor Galaxy 3となる。

　Cerebrasの創業者兼CEOであるアンドリュー・フェルドマン氏は、Condor Galaxy 3について「世界最大級のAIスーパーコンピューターの1つになる」と自信を見せる。

　Condor Galaxy 3は、テキサス州ダラスに設置され、Condor Galaxyネットワークの3番目のAIスーパーコンピューターとして稼働する予定だ。

　Condor Galaxyネットワークには、すでに世界最大級のAIスーパーコンピューターとして知られるCondor Galaxy 1とCondor Galaxy 2が存在する。Condor Galaxy 3の追加により、ネットワーク全体の総合力は16エクサFLOPSに達すると見込まれている。

　さらに、2024年末までにCondor Galaxyネットワークは55エクサFLOPS以上のAIコンピューティング性能を提供する計画となっている。

　WSE-3チップは、最先端の5ナノメートルプロセスで製造されており、4兆個ものトランジスタと90万個のAIに特化したコアを搭載している。トランジスタは、半導体の基本的な構成要素で、その数が多いほど高性能な半導体であることを示す。AIに特化したコアを大量に搭載することで、WSE-3は複雑なAIタスクを高速に処理できるようになっている。

　WSE-3のピーク性能は、125ペタFLOPSに達するという。ペタFLOPSとは、1秒間に1000兆（10の15乗）回の浮動小数点演算ができる性能を表す。

　CS-3の特長は、システムのあらゆるコンポーネントがAIワークロードに最適化されている点にある。これにより、他のシステムと比べて、より少ないスペースとエネルギーで、より多くの計算パフォーマンスを発揮できる。

　一般的にGPUの消費電力は世代ごとに倍増する傾向にあるが、CS-3は演算性能を2倍に引き上げながらも、消費電力を従来と同等に抑えることに成功したという。

　Condor Galaxyネットワークでは、これまでにもJais-30B、Med42、Crystal-Coder-7B、BTLM-3B-8Kといった生成AIモデルの学習に活用されてきた実績がある。各モデル名に付された数字は、そのモデルが持つパラメータの数を表しており、たとえばJais-30Bは300億のパラメータを持つモデルであることを示している。

　パラメータが多いほど、AIモデルは複雑なタスクを処理できるようになる。CerebrasがCondor Galaxy 3でパートナーシップを組む企業から、どのような画期的な成果が達成されるのか、大きな期待が寄せられている。【次ページ】ChatGPTを13倍高速にできるGPUを開発した「特異な存在」