OpenAI upgrades its transcription and voice-generating AI models | TechCrunch

OpenAI upgrades its transcription and voice-generating AI models | TechCrunch
OpenAI is bringing new transcription and voice-generating AI models to its API that the company claims improve upon its ...続きを読む
OpenAIは2025年3月20日に新しい音声生成および文字起こしAIモデルをAPIに追加しました。これらのモデルは、ユーザーの代わりにタスクを自動的に実行できる「エージェント」システムの構築に寄与しており、特に音声生成モデル「gpt-4o-mini-tts」は、より自然でリアルな音声を提供し、開発者が特定の話し方を指示できる機能を持っています。
また、文字起こしモデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」は、以前のWhisperモデルを置き換え、さまざまなアクセントや混雑した環境でもより正確に音声をキャッチできるようになっています。
しかし、これらの新しいモデルはオープンソースとして提供される予定はなく、より大規模であるためローカルでの実行には適していないとされています。OpenAIは、ユーザーが求める音声体験をよりコントロールできるようにし、正確性を重視したモデルを提供することを目指しています。

