• 会員限定
  • 2024/05/11 掲載

Grok-1.5とは何かをわかりやすく解説、イーロン・マスクのxAIがX(Twitter)も革新へ

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
いいね!でマイページに保存して見返すことができます。
イーロン・マスク氏が率いるxAIが、大規模言語モデル(LLM)「Grok-1.5」を発表した。同社によると、Grok-1.5はOpenAIの「GPT-4」やアンソロピックの「Claude 3」に匹敵する推論・問題解決能力を持つという。ここにきて同サービスが注目を集める理由は、同発表からわずか2週間後にマルチモーダル版である「Grok-1.5V」を発表したこと。これにより、テキストプロンプトに加えて、図表や写真、空間情報などを処理できると主張する。さらには、X(旧Twitter)において話題のニュースやトピックを要約する「Stories on X」に同モデルが採用されることも明らかになった。Grok-1.5の実力を確かめるとともに、競合モデルと比較しつつ、今後リリースされる「Grok-2」について占っていこう。
執筆:細谷 元
photo
Grok-1.5の実力とは如何に?
(Photo:rafapress / Shutterstock.com)

Grok-1.5とは何か?GPT-4超えを目指して加熱するLLM開発競争

 この数カ月、ポストGPT-4をめぐる生成AI開発競争が激化の様相だ。アンソロピックの「Claude3」、Cohereの「Command R+」、グーグルの「Gemini Ultra」など、新たなモデルが続々登場している。

 イーロン・マスク氏率いるAI企業xAIは2024年3月末、同社の大規模言語モデル「Grok-1」のアップグレード版「Grok-1.5」を発表。xAIによると、Grok-1.5はコーディングや数学タスクにおいて大幅な改善を見せており、高度な数学能力を測るMATHベンチマークでは50.6%、基礎数学能力を測定するGSM8Kベンチマークでは90%、コーディング能力を測るHumanEvalベンチマークでは74.1%のスコアを獲得したという。

画像
Grok-1.5のベンチマーク。Claude 3 OpusやGemini Pro 1.5には及ばないが、一部ベンチマークでGPT-4やCalude 3 Sonnetは一部上回っている
(出典:xAI

 Grok-1.5はOpenAIの「GPT-4」やアンソロピックの「Claude 3」に迫る性能を発揮しており、多様な分野の知識を測るMMLUベンチマークでも81.3%のスコアを記録。これはGrok-1の73%から大きく向上した数字となる。

 さらに、Grok-1.5は最大12万8000トークンのコンテクストウィンドウを備え、長文の分析・要約・情報抽出タスクにも適しているとのこと。コンテクストウィンドウに関しては、同じ12万8000トークンのコンテクストウィンドウを持つGPT-4 TurboやCohereのCommand R+に並んだ格好となる。

 ただ、現在利用可能な大規模言語モデルでは、Claude3シリーズが20万トークンでトップを走る。

 xAIはGrok-1.5を限定公開しつつ、順次ユーザーを拡大していく計画だ。一方、後継モデルとなる「Grok-2」は現在トレーニング中で、マスク氏は「あらゆるメトリクスで現在のAIを超える」と意気込んでいる。テック系コンサルタントのブライアン・ルーメル氏は、「Grok-2はリリース時に最も強力なLLM AIプラットフォームの1つになるだろう。ほぼすべてのメトリクスでOpenAIを凌駕するはずだ」とGrok-2に対する大きな期待を表明している

 現時点ではGrok-1.5を使用できないため、実際のパフォーマンスを確認することができない。回答精度、日本語能力、生成スピード、価格などにおいて、現リーダーボーダーにどう食い込んでくるのか気になるところだ。

画像
主要大規模言語モデルのリーダーボード(2024年4月18日時点)
(出典:artificialanalysis.ai

幅広い視覚情報を処理するマルチモーダルモデル、OpenAIも対抗へ

 テキストだけでなく、さまざまなファイルを理解するマルチモーダルモデルの開発競争も熾烈化している。Grok-1.5の発表からわずか2週間後、xAIは同モデルのマルチモーダル版である「Grok-1.5V」を発表した。xAIによると、Grok-1.5Vはテキストの理解に加え、ダイヤグラム、チャート、スクリーンショット、写真など、幅広い視覚情報を処理できるという。

 Grok-1.5Vは多分野の推論から文書・科学図表・チャート・スクリーンショット・写真の理解に至るまで、さまざまな領域で既存のマルチモーダルモデルと肩を並べる性能を発揮しているという。

 特にxAIが独自に開発した「RealWorldQA」ベンチマークでは、GPT-4VやClaude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5を上回る68.7%のスコアを記録し、現実世界の空間理解において際立った結果を示したとされる。

画像
Grok-1.5VはRealWorldQA(一番下)の項目で最も高い値を示した
(出典:xAI

 xAIはGrok-1.5Vの可能性を示すために7つの例を挙げている。ホワイトボードのフローチャートのスケッチからPythonコードを生成したり、子供の絵から物語を作成したり、ミームの説明や表のCSVファイルへの変換、デッキ中の腐った木材の特定など、多岐にわたるユースケースが紹介されている。

 RealWorldQAは、700以上の画像とそれぞれの質問・回答のペアを使ってトレーニングされたベンチマークで、車両から撮影された画像や他の実世界のサンプルなど、多様な画像が含まれている。xAIはRealWorldQAをクリエイティブ・コモンズ・ライセンスの下で一般公開する予定だ。

 競合の追い上げに対し、OpenAIもマルチモーダルモデルの開発を加速している。同社は2023年9月にGPT-4のビジョン機能とオーディオアップロード機能を発表したが、2024年4月にGPT-4 Turbo with Visionモデルを一般公開、これにより単一のモデルでテキストと画像の両方を処理できるようになった。

 GPT-4 Turbo with Visionは、すでにいくつかの顧客に活用されている。自律型AIコーディングエージェントのDevinを開発したスタートアップCognitionは、同モデルを使用してユーザーに代わって自動でコード生成を行うプラットフォームを展開。また、ヘルスケア&フィットネスアプリのHealthifyでも、食事の写真から栄養分析と推奨事項を提示するためにGPT-4 Turbo with Visionが活用されているという。 【次ページ】Xで話題のニュースを要約する機能に採用
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます