• 2026/05/08 掲載

OpenAI、GPT-5クラスの推論力を備えた音声モデル「GPT-Realtime-2」など3種を公開

最大12万8000トークンのコンテクストウインドウに対応

1
会員(無料)になると、いいね!でマイページに保存できます。
米OpenAIは2026年5月7日、リアルタイムAPI向けに新たな音声特化型AIモデル3種を公開した。GPT-5クラスの推論能力を持つ主力の「GPT-Realtime-2」に加え、リアルタイム翻訳に特化した「GPT-Realtime-Translate」、低遅延で文字起こしを行う「GPT-Realtime-Whisper」を提供する。音声処理における遅延や文脈理解の課題を解消する。
photo
(画像:ビジネス+IT)
 OpenAIが今回発表したモデル群の中核となる「GPT-Realtime-2」は、音声処理において直接的な思考と計画立案を実行する初のモデルである。最大12万8000トークンのコンテキストウィンドウを備え、複数ツールの並列呼び出しに対応する。推論の強度を5段階で調整する機能を持ち、対話中の割り込みや予期せぬエラーからの復帰を含め、複雑な要求を会話の流れを止めずに処理する。開発者はモデルが情報をどの程度深く処理するかを細かく制御できる。

 あわせて公開した「GPT-Realtime-Translate」は、70以上の言語の音声をリアルタイムで双方向に翻訳し、13の言語で直接音声出力する。生の音声をエンドツーエンドで処理する手法を採用し、話者の声のトーンや感情のニュアンスを維持したまま翻訳内容を伝える。人間の同時通訳と比較して運用費用を抑え、1分あたり約0.034ドルで提供する。「GPT-Realtime-Whisper」は、発話と同時に文字起こしを実行する低遅延のストリーミングモデルであり、会議の記録作成や業務フローの自動化に利用する。これら3つのモデルはすべてOpenAIのリアルタイムAPI経由で開発者向けに提供を開始した。

画像
【図版付き記事はこちら】OpenAIがGPT-5クラスの推論力を持つ音声AIモデル「GPT-Realtime-2」など3種発表(図版:ビジネス+IT)

 これまでの音声AIプラットフォームは、ユーザーの発話をテキストに変換し、言語モデルで処理した後に再び音声へ変換するカスケード型構成が主流であった。この手法は処理過程での情報の欠落や遅延の蓄積が避けられなかった。新モデル群は音声をネイティブに処理するマルチモーダル基盤を利用し、情報伝達の速度と正確性を向上させている。

 不動産情報のZillowや旅行予約のPriceline、通信大手のDeutsche Telekomなどがカスタマーサポートや多言語コミュニケーションの分野でこれらのモデルのテスト運用を開始した。顧客対応においてキーボード入力に依存せず、口頭のみで手続きを完結させるエージェントの開発が進んでいる。

評価する

いいね!でぜひ著者を応援してください

  • 1

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 0

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像