Claude 3（クロード3）を試してわかった「ヤバすぎる」生成AI力、「GPT-4超え」を検証

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

OpenAIの最大のライバルとして知られるAIスタートアップ、Anthropic（アンソロピック）が新しいAIモデル「Claude 3」シリーズを発表した。最上位モデルの「Opus」は、OpenAIの「GPT-4」やグーグル「Gemini」を凌ぐ性能を発揮し、数学的推論力やエキスパートレベルの知識を評価する学術的ベンチマークでトップスコアを記録したという。Claude 3シリーズは、画像入力にも対応しており、法律サービスや金融分析、物流、品質保証などの分野での活用が期待されている。本記事では、Claude 3シリーズの評価を紹介するとともに、実際に日本語でのパフォーマンステストを検証し、GPT-4を超えるとされるその実力を探る（追記：2023年4月3日各社モデルの価格表を追加）。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

「Claude 3」の実力は？日本語でも使えるのか？

（出典：Claude 3 Opus）

生成AIモデル「Claude 3」とは？

　OpenAIの最大のライバルとして知られるAIスタートアップ、アンソロピックが、GPT-4を上回る性能を持つ新しいAIモデル「Claude 3（クロード3）」シリーズを発表した。「Claude 3」シリーズは、最上位モデルの「Opus」、ミッドレンジモデルの「Sonnet」、最も手頃な価格の「Haiku」の3つのモデルから構成されている。

　アンソロピックの共同創業者兼CEOのダリオ・アモデイ氏はVentureBeatの取材で、「Opusは、これまでに公開されたAIシステムの中で最も優れた性能を発揮し、OpenAIやグーグルのトップモデルをも上回る」と豪語。同氏によれば、Opusは、数学的推論力を測るGSM-8kやエキスパートレベルの知識を評価するMMLUなどの学術的ベンチマークでトップスコアを記録したという。

　具体的には、MMLUの5ショットセッティングでは88.2％、MATHの4ショットセッティングでは61％、GSM8Kの0ショットCoTセッティングでは95.0％、GPQAの0ショットCoTセッティングでは50.4％といった高い精度を達成している。これらのスコアは、GPT-4やGeminiシリーズを上回るものだ。

　ここで各ベンチマークについて簡単に解説しておこう。MMLUとは、Massive Multitask Language Understandingの略で、言語モデルの一般的な言語理解力を評価するために使われる。科学や歴史、文学などさまざまな分野の質問に答える能力を測定する。MATHは、数学の問題を解く能力を評価するベンチマーク。GSM8KとGPQAも同様に、算数や数学の文章題を解く力を測るためのテストだ。

　また、0ショットや5ショットといった用語が登場するが、これはfew-shot learningと呼ばれる手法に関連する。0ショットは、モデルに例示を与えずにタスクを解かせること。5ショットは、5つの例示を与えた上でタスクを解かせることを指す。つまり、事前知識がゼロの状態からタスクを遂行できるかを測るのが0ショット、少数の例示から学習してタスクを遂行できるかを測るのが5ショットとなる。

　さらに、Claude 3シリーズは、画像入力にも対応しており、テキスト認識などの用途で高い需要が見込まれている。アンソロピックのダニエラ・アモデイ氏は、「多くの顧客データは非構造化されているか、何らかの視覚的なフォーマットになっている」と述べ、生成AIツールと相互作用させるために情報を手動でコピーするプロセスは非常に面倒だと指摘。それを踏まえ、Claude 3では画像入力機能を強化したという。

　アンソロピックはコンシューマーではなく、企業での需要にフォーカスしており、法律サービスや金融分析、物流、品質保証などでClaude 3を普及させる計画だ。

アンソロピックのClaude 3は有識者の間でもすこぶる好評だ

（Photo/Shutterstock）

編集部おすすめ記事

アジフライ定食2,400円の衝撃……訪日客で激変、「食べログ」も動く“急成長市場”

Claude 3の強みと弱点

　Claude 3シリーズの大きな特徴は、Constitutional AIを用いて有益かつ無害な振る舞いを学習している点だ。また、ハルシネーション確率の低減、指示に従う能力の向上、YAML/JSON/XMLなどの構造化データの出力生成の改善なども図られた。

　YAML、JSON、XMLはいずれも、データを構造化された形式で表現するためのフォーマットだ。YAMLはシンプルで人間にも読みやすい形式、JSONはJavaScriptとの親和性が高く、Webアプリケーションでよく使われる。XMLは、タグを使ってデータを階層構造で表現する汎用的なフォーマットである。Claude 3は、こうした構造化データの入出力でも力を発揮できるようになった。

　さらに、実験では100万トークンに及ぶ長文コンテキストに対応し、QuALITYベンチマークで高い成績を収めている。QuALITYとは、1万ワードを超える長文を読み、その内容に関する質問に答える能力を測るテストだ。差別や有害な偏見を最小限に抑え、選挙の健全性を守るための取り組みも強化された。大災害リスクの評価も実施され、ASL-2と判定されている。

　ASL-2というのは、アンソロピックが定義したAI Systemsのリスクレベルを示す指標だ。レベル1が最も低いリスク、レベル5が最も高いリスクを意味する。Claude 3はレベル2、つまり比較的低いリスクに分類されたことになる。

　一方で、Claude 3シリーズにも弱点がある。まず、現在の知識は2023年8月までの情報に基づいている点だ。

　インターネットへの直接アクセスはできず、少数言語での処理能力も限られている。高度な専門知識や判断を必要とするタスクでは能力が限定される。

　また、ビジョン機能については、小さな画像や低解像度の画像では性能が低下する傾向にある。不正確な情報や説明を生成してしまうこともあり、人間による検証なしに重要な用途での利用は推奨されていない。

　加えて、新しい機能の追加により、他の領域での性能が微妙に低下するトレードオフが発生したことも報告されている。

公式のプロンプトライブラリも公開

　今回のClaude 3のリリースに伴い、アンソロピックが公式のプロンプトライブラリを公開したことも特筆に値する。これはAPI利用を前提としたプロンプト集で、アプリケーションのシステムプロンプトとして利用できるライブラリとなる。

公式のプロンプトライブラリ

（出典：アンソロピック）

　その1つ、面接用質問プロンプト「Interview question crafter」を例にとってみる。以下のプロンプトをシステムプロンプトに入力しておくと、ユーザープロンプトごとに、面接用の質問が生成されるようになる。

システムプロンプト：
Your task is to generate a series of thoughtful, open-ended questions for an interview based on the given context. The questions should be designed to elicit insightful and detailed responses from the interviewee, allowing them to showcase their knowledge, experience, and critical thinking skills. Avoid yes/no questions or those with obvious answers. Instead, focus on questions that encourage reflection, self-assessment, and the sharing of specific examples or anecdotes.

訳：
あなたのタスクは、与えられた文脈に基づいて、インタビューのための思慮深く、オープンエンドな質問のシリーズを生成することです。質問は、インタビュー対象者から洞察力のある詳細な回答を引き出すように設計されるべきであり、インタビュー対象者が自分の知識、経験、および批判的思考能力を発揮できるようにします。はい/いいえの質問や、明確な答えがある質問は避けてください。代わりに、内省、自己評価、具体的な例や逸話の共有を促すような質問に焦点を当ててください。

ユーザープロンプト：
You are interviewing a candidate for a marketing manager position at a well-established e-commerce company. The ideal candidate should have experience developing and executing multi-channel marketing campaigns, strong analytical skills, and the ability to collaborate effectively with cross-functional teams. They should also be passionate about staying up-to-date with the latest marketing trends and technologies.

訳：
あなたは、老舗Eコマース企業のマーケティングマネージャーポジションにおける候補者の面接を行っています。理想的な候補者は、複数のチャネルを使ったマーケティングキャンペーンの開発と実行の経験、強力な分析スキル、クロスファンクショナルチームと効果的にコラボレーションする能力を備えている必要があります。また、最新のマーケティングのトレンドやテクノロジーに常に注目するなど、同領域に対する情熱を持っている必要もあります。

　APIでの利用が前提となるが、Claude 3のチャットインタフェースでも「このシステムプロンプトとユーザープロンプトを考慮した質問例を作成してください」と入力し、実際に質問を作成してみた。以下のような質問が生成された。

あなたがこれまでに主導した中で、最も成功したマルチチャネルマーケティングキャンペーンについて教えてください。そのキャンペーンの目標は何でしたか？どのようにしてその目標を達成しましたか？

マーケティングキャンペーンの効果を測定し、改善するために、データ分析をどのように活用していますか？具体的な事例を挙げて説明してください。

クロスファンクショナルチームとのコラボレーションにおいて、困難な状況に直面したことはありますか？その状況をどのように乗り越えましたか？

マーケティング業界での経験から、チームワークとコミュニケーションの重要性について学んだことを教えてください。

急速に変化するデジタルマーケティングの世界で、自分のスキルと知識を常に最新の状態に保つために、どのような取り組みをしていますか？

当社のEコマース事業の成長にとって、マーケティングが果たす役割についてどのようにお考えですか？あなたのビジョンを聞かせてください。

マーケティングマネージャーとして、チームメンバーのモチベーションを高め、能力を最大限に引き出すためにどのようなリーダーシップスタイルを採用しますか？

当社の製品やサービスについて、どのような新しいマーケティング手法を取り入れることができると考えますか？その理由も含めて説明してください。