• 2026/05/08 掲載

オープンAIの新音声AIがヤバい…英語→日本語が“ほぼ同時通訳”になる時代が来た

会員(無料)になると、いいね!でマイページに保存できます。
米オープンAIは2026年5月7日、アプリケーション開発者向けの新しい音声API群を発表した。GPT-5クラスの推論機能を備えた音声対話モデル「GPT-Realtime-2」のほか、リアルタイム翻訳に特化した「GPT-Realtime-Translate」、即時文字起こしを行う「GPT-Realtime-Whisper」の3種類の提供を発表した。あわせて、リアルタイム音声翻訳モデル「GPT-Realtime-Translate」による英語から日本語への音声翻訳デモ動画を公開された。音声を通じた外部ツールの操作や多言語通訳の実用化を推進する狙いがある。
photo
英語を聞いた瞬間、日本語で返ってくる…オープンAI新モデルが“同時通訳AI”を現実に

米OpenAI、次世代の音声API群を発表 GPT-5級の推論力を持つ「GPT-Realtime-2」など3種

米オープンAIが公開したリアルタイム音声翻訳モデル「GPT-Realtime-Translate」のデモ動画が関心を集めている。公開された映像では、英語の発話をほぼ遅延なく日本語の音声に翻訳する様子が確認できる。

画像
【デモ動画付き記事全文はこちら】英語→日本語にほぼ遅延なしでリアルタイムに翻訳できる
ほぼリアルタイム翻訳が実現可能に…
(画像:ビジネス+IT)

同社は2026年5月7日にこの翻訳モデルを含むアプリケーション開発者向けの新しい音声API群の提供を開始した。これまでの単純な一問一答形式を超え、会話の文脈を維持しながら翻訳やソフトウェア操作をリアルタイムに実行するインターフェースの構築を目指している。


「GPT-Realtime-Translate」は、70以上の言語を音声で受け取り、13の言語へ即座に翻訳して出力する音声翻訳モデルだ。専門の通訳者のデータを用いて最適化されており、話者の語調や話す速度を維持しながら多言語間の会話をつなぐ。顧客サポートや越境での営業活動、国際会議などでの利用を見込む。

中核を担う「GPT-Realtime-2」は、GPT-5クラスの推論能力を持つ初の音声モデルである。ユーザーの複雑な要求を処理しつつ、自然に会話を継続する。複数の外部ツールを同時に呼び出す機能や、処理中に短い前置きを挟む機能を追加し、対話時の不自然な空白を解消した。推論の深さは5段階で調整でき、用途に合わせて処理速度と推論精度を選択できる。

「GPT-Realtime-Whisper」は、低遅延でのストリーミング文字起こしに特化したモデルだ。発話と同時にテキストデータを生成するため、ライブ字幕の付与や議事録の即時作成、音声エージェントの状況把握などに活用できる。

評価する

いいね!でぜひ著者を応援してください

  • 0

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 1

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます

AI・生成AIの関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像