OpenAIのモデルを使用した音声入出力に関する現在の状況メモ
2024年11月08日
以下は、2024年10月4日時点のOpenAIモデルを使った音声入出力の状況を技術メモとしてまとめたものです。
まず、OpenAIのモデルを活用した音声入出力には、以下の3つのケースが考えられます。
【ケース1】複数のモデルを組み合わせて音声入出力を実現する
これは現時点で実現可能な方法です。具体的には、以下の手順で処理を進めます。
「Whisper」モデルを使用して音声をテキストに変換。
「GPT-4o」モデルでテキストに基づく回答を生成。
「TTS」モデルで回答を再び音声に変換。
複数のモデルを使用するため、実装が複雑で処理速度が遅くなるデメリットがあります。
【ケース2】単一モデルで音声入出力を順次処理する
この方法は現在はまだ実現されていませんが、今後数週間以内にリリースが予定されている「gpt-4o-audio-preview」モデルが、この順次処理方式を可能にします。音声データの入力と出力を順番に処理するもので、リアルタイム性はありませんが、複数モデルの組み合わせに比べてシンプルな構成になる見込みです。
【ケース3】単一モデルで音声入出力をリアルタイムで処理する
これは、2024年10月1日の「OpenAI DevDay 2024」で発表された「Realtime API」を活用する方法です。
「gpt-4o-realtime-preview」モデルを使用し、音声入出力をリアルタイムで処理します。
この方式では、会話中に話題の切り替えも可能で、ChatGPTアプリの高度な音声モードと同様の動作が期待できます。
ただし、リアルタイム性を実現するためのAPI仕様が複雑なため、実装には高度な技術が必要です。
まとめ
ケース1の方法は古くなりつつあり、今後はケース2またはケース3にシフトしていくと考えられます。 リアルタイム性が必須ならケース3、そうでなければケース2という選択が主流になりそうです。