2026/05/08 掲載

オープンAIの新音声AIがヤバい…英語→日本語が“ほぼ同時通訳”になる時代が来た

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

米オープンAIは2026年5月7日、アプリケーション開発者向けの新しい音声API群を発表した。GPT-5クラスの推論機能を備えた音声対話モデル「GPT-Realtime-2」のほか、リアルタイム翻訳に特化した「GPT-Realtime-Translate」、即時文字起こしを行う「GPT-Realtime-Whisper」の3種類の提供を発表した。あわせて、リアルタイム音声翻訳モデル「GPT-Realtime-Translate」による英語から日本語への音声翻訳デモ動画を公開された。音声を通じた外部ツールの操作や多言語通訳の実用化を推進する狙いがある。

英語を聞いた瞬間、日本語で返ってくる…オープンAI新モデルが“同時通訳AI”を現実に

米OpenAI、次世代の音声API群を発表 GPT-5級の推論力を持つ「GPT-Realtime-2」など3種

米オープンAIが公開したリアルタイム音声翻訳モデル「GPT-Realtime-Translate」のデモ動画が関心を集めている。公開された映像では、英語の発話をほぼ遅延なく日本語の音声に翻訳する様子が確認できる。

【デモ動画付き記事全文はこちら】英語→日本語にほぼ遅延なしでリアルタイムに翻訳できる

ほぼリアルタイム翻訳が実現可能に…

（画像：ビジネス＋IT）

同社は2026年5月7日にこの翻訳モデルを含むアプリケーション開発者向けの新しい音声API群の提供を開始した。これまでの単純な一問一答形式を超え、会話の文脈を維持しながら翻訳やソフトウェア操作をリアルタイムに実行するインターフェースの構築を目指している。

新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason liu (@jxnlco) May 7, 2026

「GPT-Realtime-Translate」は、70以上の言語を音声で受け取り、13の言語へ即座に翻訳して出力する音声翻訳モデルだ。専門の通訳者のデータを用いて最適化されており、話者の語調や話す速度を維持しながら多言語間の会話をつなぐ。顧客サポートや越境での営業活動、国際会議などでの利用を見込む。

中核を担う「GPT-Realtime-2」は、GPT-5クラスの推論能力を持つ初の音声モデルである。ユーザーの複雑な要求を処理しつつ、自然に会話を継続する。複数の外部ツールを同時に呼び出す機能や、処理中に短い前置きを挟む機能を追加し、対話時の不自然な空白を解消した。推論の深さは5段階で調整でき、用途に合わせて処理速度と推論精度を選択できる。

「GPT-Realtime-Whisper」は、低遅延でのストリーミング文字起こしに特化したモデルだ。発話と同時にテキストデータを生成するため、ライブ字幕の付与や議事録の即時作成、音声エージェントの状況把握などに活用できる。

評価する

いいね！でぜひ著者を応援してください