2026/05/08 掲載

OpenAI、GPT-5クラスの推論力を備えた音声モデル「GPT-Realtime-2」など3種を公開

最大12万8000トークンのコンテクストウインドウに対応

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

米OpenAIは2026年5月7日、リアルタイムAPI向けに新たな音声特化型AIモデル3種を公開した。GPT-5クラスの推論能力を持つ主力の「GPT-Realtime-2」に加え、リアルタイム翻訳に特化した「GPT-Realtime-Translate」、低遅延で文字起こしを行う「GPT-Realtime-Whisper」を提供する。音声処理における遅延や文脈理解の課題を解消する。

（画像：ビジネス+IT）

　OpenAIが今回発表したモデル群の中核となる「GPT-Realtime-2」は、音声処理において直接的な思考と計画立案を実行する初のモデルである。最大12万8000トークンのコンテキストウィンドウを備え、複数ツールの並列呼び出しに対応する。推論の強度を5段階で調整する機能を持ち、対話中の割り込みや予期せぬエラーからの復帰を含め、複雑な要求を会話の流れを止めずに処理する。開発者はモデルが情報をどの程度深く処理するかを細かく制御できる。

　あわせて公開した「GPT-Realtime-Translate」は、70以上の言語の音声をリアルタイムで双方向に翻訳し、13の言語で直接音声出力する。生の音声をエンドツーエンドで処理する手法を採用し、話者の声のトーンや感情のニュアンスを維持したまま翻訳内容を伝える。人間の同時通訳と比較して運用費用を抑え、1分あたり約0.034ドルで提供する。「GPT-Realtime-Whisper」は、発話と同時に文字起こしを実行する低遅延のストリーミングモデルであり、会議の記録作成や業務フローの自動化に利用する。これら3つのモデルはすべてOpenAIのリアルタイムAPI経由で開発者向けに提供を開始した。

【図版付き記事はこちら】OpenAIがGPT-5クラスの推論力を持つ音声AIモデル「GPT-Realtime-2」など3種発表

OpenAIがGPT-5クラスの推論力を持つ音声AIモデル「GPT-Realtime-2」など3種発表

（図版：ビジネス+IT）

　これまでの音声AIプラットフォームは、ユーザーの発話をテキストに変換し、言語モデルで処理した後に再び音声へ変換するカスケード型構成が主流であった。この手法は処理過程での情報の欠落や遅延の蓄積が避けられなかった。新モデル群は音声をネイティブに処理するマルチモーダル基盤を利用し、情報伝達の速度と正確性を向上させている。

　不動産情報のZillowや旅行予約のPriceline、通信大手のDeutsche Telekomなどがカスタマーサポートや多言語コミュニケーションの分野でこれらのモデルのテスト運用を開始した。顧客対応においてキーボード入力に依存せず、口頭のみで手続きを完結させるエージェントの開発が進んでいる。