- 2026/05/08 掲載
オープンAIの新音声AIがヤバい…英語→日本語が“ほぼ同時通訳”になる時代が来た
米OpenAI、次世代の音声API群を発表 GPT-5級の推論力を持つ「GPT-Realtime-2」など3種
米オープンAIが公開したリアルタイム音声翻訳モデル「GPT-Realtime-Translate」のデモ動画が関心を集めている。公開された映像では、英語の発話をほぼ遅延なく日本語の音声に翻訳する様子が確認できる。同社は2026年5月7日にこの翻訳モデルを含むアプリケーション開発者向けの新しい音声API群の提供を開始した。これまでの単純な一問一答形式を超え、会話の文脈を維持しながら翻訳やソフトウェア操作をリアルタイムに実行するインターフェースの構築を目指している。
新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA— jason liu (@jxnlco) May 7, 2026
「GPT-Realtime-Translate」は、70以上の言語を音声で受け取り、13の言語へ即座に翻訳して出力する音声翻訳モデルだ。専門の通訳者のデータを用いて最適化されており、話者の語調や話す速度を維持しながら多言語間の会話をつなぐ。顧客サポートや越境での営業活動、国際会議などでの利用を見込む。
中核を担う「GPT-Realtime-2」は、GPT-5クラスの推論能力を持つ初の音声モデルである。ユーザーの複雑な要求を処理しつつ、自然に会話を継続する。複数の外部ツールを同時に呼び出す機能や、処理中に短い前置きを挟む機能を追加し、対話時の不自然な空白を解消した。推論の深さは5段階で調整でき、用途に合わせて処理速度と推論精度を選択できる。
「GPT-Realtime-Whisper」は、低遅延でのストリーミング文字起こしに特化したモデルだ。発話と同時にテキストデータを生成するため、ライブ字幕の付与や議事録の即時作成、音声エージェントの状況把握などに活用できる。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR