• 会員限定
  • 2024/04/03 掲載

Claude 3(クロード3)を試してわかった「ヤバすぎる」生成AI力、「GPT-4超え」を検証

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
OpenAIの最大のライバルとして知られるAIスタートアップ、Anthropic(アンソロピック)が新しいAIモデル「Claude 3」シリーズを発表した。最上位モデルの「Opus」は、OpenAIの「GPT-4」やグーグル「Gemini」を凌ぐ性能を発揮し、数学的推論力やエキスパートレベルの知識を評価する学術的ベンチマークでトップスコアを記録したという。Claude 3シリーズは、画像入力にも対応しており、法律サービスや金融分析、物流、品質保証などの分野での活用が期待されている。本記事では、Claude 3シリーズの評価を紹介するとともに、実際に日本語でのパフォーマンステストを検証し、GPT-4を超えるとされるその実力を探る(追記:2023年4月3日 各社モデルの価格表を追加)。
執筆:細谷 元
photo
「Claude 3」の実力は?日本語でも使えるのか?
(出典:Claude 3 Opus

生成AIモデル「Claude 3」とは?

 OpenAIの最大のライバルとして知られるAIスタートアップ、アンソロピックが、GPT-4を上回る性能を持つ新しいAIモデル「Claude 3(クロード3)」シリーズを発表した。「Claude 3」シリーズは、最上位モデルの「Opus」、ミッドレンジモデルの「Sonnet」、最も手頃な価格の「Haiku」の3つのモデルから構成されている。

 アンソロピックの共同創業者兼CEOのダリオ・アモデイ氏はVentureBeatの取材で、「Opusは、これまでに公開されたAIシステムの中で最も優れた性能を発揮し、OpenAIやグーグルのトップモデルをも上回る」と豪語。同氏によれば、Opusは、数学的推論力を測るGSM-8kやエキスパートレベルの知識を評価するMMLUなどの学術的ベンチマークでトップスコアを記録したという。

 具体的には、MMLUの5ショットセッティングでは88.2%、MATHの4ショットセッティングでは61%、GSM8Kの0ショットCoTセッティングでは95.0%、GPQAの0ショットCoTセッティングでは50.4%といった高い精度を達成している。これらのスコアは、GPT-4やGeminiシリーズを上回るものだ。

 ここで各ベンチマークについて簡単に解説しておこう。MMLUとは、Massive Multitask Language Understandingの略で、言語モデルの一般的な言語理解力を評価するために使われる。科学や歴史、文学などさまざまな分野の質問に答える能力を測定する。MATHは、数学の問題を解く能力を評価するベンチマーク。GSM8KとGPQAも同様に、算数や数学の文章題を解く力を測るためのテストだ。

 また、0ショットや5ショットといった用語が登場するが、これはfew-shot learningと呼ばれる手法に関連する。0ショットは、モデルに例示を与えずにタスクを解かせること。5ショットは、5つの例示を与えた上でタスクを解かせることを指す。つまり、事前知識がゼロの状態からタスクを遂行できるかを測るのが0ショット、少数の例示から学習してタスクを遂行できるかを測るのが5ショットとなる。

 さらに、Claude 3シリーズは、画像入力にも対応しており、テキスト認識などの用途で高い需要が見込まれている。アンソロピックのダニエラ・アモデイ氏は、「多くの顧客データは非構造化されているか、何らかの視覚的なフォーマットになっている」と述べ、生成AIツールと相互作用させるために情報を手動でコピーするプロセスは非常に面倒だと指摘。それを踏まえ、Claude 3では画像入力機能を強化したという。

 アンソロピックはコンシューマーではなく、企業での需要にフォーカスしており、法律サービスや金融分析、物流、品質保証などでClaude 3を普及させる計画だ。

画像
アンソロピックのClaude 3は有識者の間でもすこぶる好評だ
(Photo/Shutterstock)

Claude 3の強みと弱点

 Claude 3シリーズの大きな特徴は、Constitutional AIを用いて有益かつ無害な振る舞いを学習している点だ。また、ハルシネーション確率の低減、指示に従う能力の向上、YAML/JSON/XMLなどの構造化データの出力生成の改善なども図られた。

 YAML、JSON、XMLはいずれも、データを構造化された形式で表現するためのフォーマットだ。YAMLはシンプルで人間にも読みやすい形式、JSONはJavaScriptとの親和性が高く、Webアプリケーションでよく使われる。XMLは、タグを使ってデータを階層構造で表現する汎用的なフォーマットである。Claude 3は、こうした構造化データの入出力でも力を発揮できるようになった。

 さらに、実験では100万トークンに及ぶ長文コンテキストに対応し、QuALITYベンチマークで高い成績を収めている。QuALITYとは、1万ワードを超える長文を読み、その内容に関する質問に答える能力を測るテストだ。差別や有害な偏見を最小限に抑え、選挙の健全性を守るための取り組みも強化された。大災害リスクの評価も実施され、ASL-2と判定されている。

 ASL-2というのは、アンソロピックが定義したAI Systemsのリスクレベルを示す指標だ。レベル1が最も低いリスク、レベル5が最も高いリスクを意味する。Claude 3はレベル2、つまり比較的低いリスクに分類されたことになる。

 一方で、Claude 3シリーズにも弱点がある。まず、現在の知識は2023年8月までの情報に基づいている点だ。

 インターネットへの直接アクセスはできず、少数言語での処理能力も限られている。高度な専門知識や判断を必要とするタスクでは能力が限定される。

 また、ビジョン機能については、小さな画像や低解像度の画像では性能が低下する傾向にある。不正確な情報や説明を生成してしまうこともあり、人間による検証なしに重要な用途での利用は推奨されていない。

 加えて、新しい機能の追加により、他の領域での性能が微妙に低下するトレードオフが発生したことも報告されている。

公式のプロンプトライブラリも公開

 今回のClaude 3のリリースに伴い、アンソロピックが公式のプロンプトライブラリを公開したことも特筆に値する。これはAPI利用を前提としたプロンプト集で、アプリケーションのシステムプロンプトとして利用できるライブラリとなる。

画像
公式のプロンプトライブラリ
(出典:アンソロピック

 その1つ、面接用質問プロンプト「Interview question crafter」を例にとってみる。以下のプロンプトをシステムプロンプトに入力しておくと、ユーザープロンプトごとに、面接用の質問が生成されるようになる。
システムプロンプト:
Your task is to generate a series of thoughtful, open-ended questions for an interview based on the given context. The questions should be designed to elicit insightful and detailed responses from the interviewee, allowing them to showcase their knowledge, experience, and critical thinking skills. Avoid yes/no questions or those with obvious answers. Instead, focus on questions that encourage reflection, self-assessment, and the sharing of specific examples or anecdotes.

訳:
あなたのタスクは、与えられた文脈に基づいて、インタビューのための思慮深く、オープンエンドな質問のシリーズを生成することです。質問は、インタビュー対象者から洞察力のある詳細な回答を引き出すように設計されるべきであり、インタビュー対象者が自分の知識、経験、および批判的思考能力を発揮できるようにします。はい/いいえの質問や、明確な答えがある質問は避けてください。代わりに、内省、自己評価、具体的な例や逸話の共有を促すような質問に焦点を当ててください。
ユーザープロンプト:
You are interviewing a candidate for a marketing manager position at a well-established e-commerce company. The ideal candidate should have experience developing and executing multi-channel marketing campaigns, strong analytical skills, and the ability to collaborate effectively with cross-functional teams. They should also be passionate about staying up-to-date with the latest marketing trends and technologies.

訳:
あなたは、老舗Eコマース企業のマーケティングマネージャーポジションにおける候補者の面接を行っています。理想的な候補者は、複数のチャネルを使ったマーケティングキャンペーンの開発と実行の経験、強力な分析スキル、クロスファンクショナルチームと効果的にコラボレーションする能力を備えている必要があります。また、最新のマーケティングのトレンドやテクノロジーに常に注目するなど、同領域に対する情熱を持っている必要もあります。
 APIでの利用が前提となるが、Claude 3のチャットインタフェースでも「このシステムプロンプトとユーザープロンプトを考慮した質問例を作成してください」と入力し、実際に質問を作成してみた。以下のような質問が生成された。
  • あなたがこれまでに主導した中で、最も成功したマルチチャネルマーケティングキャンペーンについて教えてください。そのキャンペーンの目標は何でしたか?どのようにしてその目標を達成しましたか?
  • マーケティングキャンペーンの効果を測定し、改善するために、データ分析をどのように活用していますか?具体的な事例を挙げて説明してください。
  • クロスファンクショナルチームとのコラボレーションにおいて、困難な状況に直面したことはありますか?その状況をどのように乗り越えましたか?
  • マーケティング業界での経験から、チームワークとコミュニケーションの重要性について学んだことを教えてください。
  • 急速に変化するデジタルマーケティングの世界で、自分のスキルと知識を常に最新の状態に保つために、どのような取り組みをしていますか?
  • 当社のEコマース事業の成長にとって、マーケティングが果たす役割についてどのようにお考えですか?あなたのビジョンを聞かせてください。
  • マーケティングマネージャーとして、チームメンバーのモチベーションを高め、能力を最大限に引き出すためにどのようなリーダーシップスタイルを採用しますか?
  • 当社の製品やサービスについて、どのような新しいマーケティング手法を取り入れることができると考えますか?その理由も含めて説明してください。

画像
次ページで各社サービスの結果と価格表のまとめを紹介します
【次ページ】Claude 3 vs GPT-4 vs Gemini
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます