• 2026/06/02 掲載

Claude「一強」崩壊?開発者が「Codex」へ流出するワケ、どこに“17倍”性能差ある?(3/3)

会員(無料)になると、いいね!でマイページに保存できます。

【検証】4つのテストで「開発力」を測ってみた

 Claude CodeからOpus 4.7とSonnet 4.6、Codex CLIからGPT-5.5、GPT-5.3-Codex、GPT-5.3-Codex-Sparkの5モデルを用意し、4つの課題を1ターン完結で実行した。合計で20セッションになる。

 課題は実際の業務に近いものを4種類選んだ。

    ■テストの内容
  1. 新規実装は、Markdown形式の読書メモから要点を3つ抜き出すPythonツールをゼロから作らせる。仕様を読み解いて動くものを最短で組み上げる力を測る。

  2. リファクタリングは、故意に汚く書いた100行のコードを「読みやすく整理して」と指示する。既存コードを読んで構造を改善する力と、踏み込む程度の差を見る。

  3. リポジトリ説明は、実在するWebサービス(筆者の運営するneartomo.fun)のソースコード一式を渡し、何ができるサービスか説明させる。他人が書いた大きなコード群を素早く理解する力が測れる。

  4. 設計相談は、「個人ブログを月1万PVに育てる相談」で、コードを一切書かせず応答に文章から個性を観察する。


画像
モデル20セッションの実測。Spark Highが速度・コストともに突出するが、全モデルがコードを一発で動かした

 まず速度の差が際立った。CodexのGPT-5.3-Codex-Sparkは読書メモから要点を3つ抽出するPythonツールを作る課題を18秒、0.15ドル(約24円)で完了した。同じ課題でClaude Sonnet 4.6は5分14秒、0.54ドル(約86円)かかった。約17倍の時間と3倍超の料金を投じた計算になる。20セッションを通じて、コードを書かせて失敗したモデルは1つもなかった。差は速さと、出てきたコードの作り込みに表れた。

 リファクタリング課題では、親切丁寧(ときに丁寧すぎる)Claudeと、言われたことを最低限に行うCodex系という性格差がよく表れた。Claude系2モデル(Opus、Sonnet)は文字表示のコードまで書き直し、文字列を+でつなぐ古い書き方を、現代的なf-stringと呼ばれる記法に総入れ替えする。一方、Codex系3モデルは公開された関数だけ綺麗にして、表示部分は元のまま残した。「動いているコードはむやみに変えない」スタンスだ。

 設計相談の課題でも応答の作りが分かれた。Claude系2モデルは「目的・読者・更新頻度・収益化」など6カテゴリ前後の質問を返してそこで止まり、ユーザーの回答に合わせてオススメや参考データを提示する流れにした。特にOpusは目的指向、Sonnetは技術寄りの傾向だった。

 GPT-5.5は技術寄りの質問を6項目挙げた後、続けて推奨と9軸の比較表、公式ドキュメントのURLまでを一気に表示した。同じGPTでもCodex系はデータの提示は控え目だが、技術志向は強く、質問数は10項目と多かった。

 プログラミング初心者にはClaude系のステップバイステップに話を進める手法が向いている。中級以上のエンジニアなら、先に参考データや選択肢を提示するOpenAI系に好感を持つだろうが、AIも人間も技術に寄りすぎて、場合によってはプロジェクトが方向を見誤りそうな危惧も感じる。

【結論】あなたに合うAIは? スタイル別「究極の選択」

 機能・コスト・開発力テストの3軸を並べても、CodexとClaude Codeは「どちらが優れているか」と簡単に割り切れない。

 速度と低コストを優先するならCodex CLIが向いていそうだ。GPT-5.3-Codex-Sparkは短い作業を秒で片付け、料金も低い。凝った設計と丁寧なコードを優先するならClaude Codeのほうが良さそうだ。Opus 4.7は時間も金もかかるが、出力の作り込みが厚い。

 開発や仕事の課題についてAIと議論しながら絞り込んでいくなら、Claude系のほうが親切で丁寧だ。ただし、あなたがプロフェッショナルで判断材料を一度にすべて並べて検討したいならCodexのGPT-5.5が合うだろう。

 「言われたこと以外の余計なことは親切でもやらないで欲しい」というプロのエンジニアはCodex系が向いているし、「言わなくても空気を読んでやって欲しい」という人はClaude系が向いている。ただ、サボり屋でAI任せにしがちな筆者の皮膚感では、両者の差はだんだん縮まっている。Codexは以前ほど不親切ではなく、Claudeも以前ほど「手取り足取り」ではなくなった。

 予算に余裕があるなら両者を契約し、Claude Opus 4.7に設計と実装計画を立てさせて、GPT-5.3-Codex-Sparkに実装させ、GPT-5.5にレビューさせるのが理想だ。難しければ、片方ずつ試して自分に向いているほうを選ぼう。

画像
作業スタイルと望む応答で4つに分類した推奨。月20ドルから両方を契約し、課題ごとに使い分けるのも現実的な選択

Googleで見つけやすく

評価する

いいね!でぜひ著者を応援してください

  • 0

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 2

  • 8

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像