Stability AIも「Stable Code 3B」で参入、激化する「コード生成AI」シェア獲得競争

会員限定
2024/03/27 掲載

Stability AIも「Stable Code 3B」で参入、激化する「コード生成AI」シェア獲得競争

記事をお気に入りリストに登録することができます。

生成AIが得意とするのはテキストや画像生成だけではない。プログラムのコード生成も得意分野の1つ。この2年ほどで「コード生成AI」領域の研究開発が進み、コード生成の精度は大きく改善、現在はユーザー獲得をめぐる競争が激化している。コード生成AIの進化の過程を鑑みつつ、Stability AIの「Stable Code 3B」などの最新モデルはどれほどの実力を持つのか、その現状を探ってみたい。

執筆：細谷元、構成：ビジネス＋IT編集部

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

「小型化」でOpenAIら大手の牙城を切り崩そうとしているのがStability AIだ

（Photo/Shutterstock）

〈オススメ記事〉
・ChatGPT以前のソフトウェア開発は「石器時代」、プログラミングが劇的大変化のワケ（https://www.sbbit.jp/article/cont1/131345）

OpenAIが主導してきたコード生成AIモデルの開発

1ページ目をまとめた動画

　2023年11月にChatGPTが登場して以来、生成AI開発が加速しているのは明らかだろう。テキストや画像のアウトプット品質は日進月歩で改善され、最近では音楽や動画の生成でも顕著な進化が見られる。

　プログラムのコード生成も例外ではなく着実に前進しており、開発競争は激化の様相となっている。

　そんなコード生成分野の開発をリードしてきたのはOpenAIだ。テキスト生成を得意とするGPTモデルを開発しつつ、それらのモデルをコーディングデータセットでファインチューニングする形で、コード生成に強い大規模言語モデルの開発を推進してきた歴史を持つ。

　そんなOpenAIのコード生成AI開発の歴史において重要な出来事となるのが、2021年7月の論文発表だろう。この論文が重要視される理由は大きく2つある。1つは、OpenAIが当時最新のテキスト生成AIだったGPT-3をコーディングデータで微調整したコード生成AI「Codex 12B」を開発・発表し、テキストだけでなく、コーディングも生成AIの可能性領域であることを示した点にある。

　もう1つがこのCodex 12Bのコーディング能力を評価するために「HumanEval」という新たなベンチマークが導入されたことだ。この「HumanEval」は、その後の大規模言語モデル開発において、モデルのコード生成能力を評価するスタンダードの1つとなり、さまざまなモデルを直接比較できる非常に有用な指標となっている。

　HumanEvalは、164のPythonによるプログラミング問題によって構成されるデータセットで、コーディングタスクにおける言語理解、推論、アルゴリズム、数学能力を評価するように設計されている。一般的に、1回の試行で問題解決できる割合（pass@1）が評価対象となるが、10回（pass@10）や100回（pass@100）の試行結果も付随して論文に記載されることもある。

　HumanEvalには以下のような問題が含まれる。

HumanEvalの問題1

（出典：Arxiv.org）

　これは「リスト内の各要素に1を加え、新しいリストとして返す」という比較的シンプルなPythonの問題。この問題に関しては、Codex 12Bは90％の確率で正しいコードを生成できたと報告されている。

HumanEvalの問題2

（出典：Arxiv.org）

　2つ目は「リスト内の整数のうち、偶数位置にあるすべての奇数要素を加算して合計を返す」という1つ目の問題に比べ、若干複雑さが増した問題。Codex 12Bの1回目試行における正解率は17％まで下がってしまう。このほかにもさまざまな難易度のPythonのプログラミング問題が用意されている。

　HumanEvalスコアを時系列でトラッキングすることで、コード生成AIの進化具合を観察することも可能だ。

　まず上記論文で披露されたOpenAIのCodex 12BのHumanEvalスコア（pass@1）は28.81％だった。2021年7月時点では、まだ競合モデルもなく、これがこの時点における最高スコアとみなされている。同時にGPT-3でもHumanEvalテストが実施されたが、スコアは0％と、当時のテキスト生成モデルにはコーディング能力がなかったことが示唆される結果となった。

　その後開発が進み、生成AIのコーディング能力も大きく改善しており、HumanEvalスコアも右肩上がりで上昇中だ。

　直近で最も包括的なHumanEvalスコア比較は、グーグルGeminiのテクニカルレポートに見ることができる。同レポートによると、最も高いHumanEvalスコアを記録したのはグーグルGemini Ultraで、その数値は74.4％に達したという。これにGemini Proが67.7％、アンソロピックのClaude2が70％、GPT-4が67％、Grokが63.2％、GPT-3.5が48.1％などと続く。

主要生成AIモデルのHumanEvalスコア比較

（出典：グーグルGeminiのテクニカルレポート（https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf））

【次ページ】コード生成AIは小型化の流れ、ローカルでも利用できるモデルも

関連コンテンツ

記事

開発総論

AWSを最大活用するための1dayカンファレンス

【これからAWSを導入していく方】に向けて、「AWSを最大活用する」をメインテーマのもと、以下のようなお悩みや課題を解決していくカンファレンスを開催します！ AWSを活用したいが何からはじめたらよいかわからない AWSへの移行や運用についてスキルに不安がある AWSやその他SaaSも活用して、スピーディに業務効率化していきたい本カンファレンスでは、「AWS移行への課題解決」「生成AIなどAWS最新トレンドの活用方法」「AWS活用におけるセキュリティ対策」の3つの柱をベースに、最新の情報をご紹介します。この度、スペシャルゲストとしてAWSに登壇いただき、AWSの最新トレンドついても語っていただきます。グローバルでもトップクラスの技術力集団であるクラスメソッド、オンプレミス、ネットワークからクラウドと幅広い領域で地域の皆さまのサポートをしてきたNTT東日本、クラスメソッドとNTT東日本で設立されたSaaS導入支援のエキスパートであるネクストモードが、AWS・SaaSの活用において、皆さまの業務DX推進のために、共催カンファレンスを開催します。こんな方におすすめ既存のオンプレミス環境からAWSへの移行を検討している方。生成AIなどの最新トレンドをAWSで活用し、業務DXを推進したい経営者の方。 AWS・SaaSなどクラウド活用における情報セキュリティ対策を推進していく方。

イベント・セミナー

オンライン 2024/05/29開催

VALTES QUALITY DAY

ソフトウェア開発において、品質は重要な要素です。しかしながら、コスト・納期などの要因から品質（QUALITY）が後回しとなり、結果プロジェクトが危機に瀕してしまうという事例は枚挙にいとまがありません。そこで、ソフトウェアテストを専門に20年を迎えるバルテスが「ソフトウェア品質」にフォーカスを当て、品質向上に取り組む様々な企業様の挑戦と、今後の品質保証について一日ゆっくり考える「VALTES QUALITY DAY 」を開催します。今、品質に課題を感じる方も、これから品質向上に取り組む方もこの機会に「品質」を改めて考える一日を過ごしてみませんか？

イベント・セミナー

オンライン 2024/06/04開催

DXを支えるクラウドネイティブなアプリ・ソフトウェア開発基盤

デジタルトランスフォーメーションを成し遂げるため、企業のITにはこれまで以上に柔軟性やスピード感が求められています。B2B、B2Cを問わず、ユーザーとの接点となるアプリケーションの重要性は増すばかりですが、エンジニア確保の困難やレガシーの壁が障壁となり、これまでの開発体制やツールではそのニーズに対応しきれなくなりつつあります。当セミナーではデジタルトランスフォーメーションを支えるアプリケーション開発運用基盤にフォーカスし、最新の情報を提供してまいります。

あなたの投稿

ようこそゲストさん

フォローの多い人気のタグ

注目のイベント・セミナー