2人の大学生がNotebookLMに匹敵するAI音声モデルを構築 | TechCrunch

Two undergrads built an AI speech model to rival NotebookLM | TechCrunch

Two undergrads built an AI speech model to rival NotebookLM | TechCrunch
A pair of undergrads, neither with extensive AI expertise, say that they've created an openly available AI model that ca...続きを読む

二人の学部生がAI音声モデル「Dia」を開発しました。このモデルは、GoogleのNotebookLMに似たポッドキャストスタイルのクリップを生成することができ、彼らはAIの専門知識がほとんどない状態からわずか3ヶ月でこのプロジェクトを立ち上げました。

Diaは1.6億のパラメータを持ち、スクリプトから対話を生成することが可能で、ユーザーは声のトーンや非言語的な合図(咳や笑いなど)をカスタマイズできます。GoogleのTPU Research Cloudを利用してトレーニングされ、Hugging FaceやGitHubから入手可能で、10GBのVRAMを持つ現代のPCで動作します。

デフォルトではランダムな声を生成しますが、特定のスタイルを指定することで声をクローンすることもできます。

TechCrunchのテストでは、Diaはスムーズに対話を生成し、音声の質は競争力があると評価されました。しかし、Diaは悪用の可能性があり、偽情報や詐欺的な録音を作成することが容易であるため、Nari Labsはモデルの悪用を防ぐためのガイドラインを設けていますが、責任は負わないとしています。また、トレーニングに使用したデータの詳細は公開されておらず、著作権に関する懸念も指摘されています。

今後、Nari LabsはDiaを基にした「社会的側面」を持つ合成音声プラットフォームを構築する計画を持っており、将来的には英語以外の言語への対応も予定しています。このように、Nari LabsのDiaは音声AI技術の新たな可能性を示す一例であり、今後の展開が注目されます。

GitHub – nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.
https://github.com/nari-labs/dia
nari-labs/Dia-1.6B ・ Hugging Face
https://huggingface.co/nari-labs/Dia-1.6B

Translate »
タイトルとURLをコピーしました