産総研、少ないデータから高性能な日本語音声AIを構築できる基盤モデル – PC Watch

産総研、少ないデータから高性能な日本語音声AIを構築できる基盤モデル
産業技術総合研究所(産総研)は、6万時間の日本語音声データを用いて構築した音声基盤モデル「いざなみ」および「くしなだ」を公開した。ともに、各モデルでパラメータ数の異なるBase、Largeの2種類が用意され、AIモデル公開プラットフォームの...続きを読む

産業技術総合研究所(産総研)は、6万時間の日本語音声データを基にした音声基盤モデル「いざなみ」と「くしなだ」を公開しました。

これらのモデルは、AIモデル公開プラットフォームのHugging Faceからダウンロード可能で、いざなみは利用者のデータを用いて容易に改良できる点が特徴です。一方、くしなだは日本語の音声感情認識と音声認識において高い性能を発揮します。

性能評価では、いざなみが80.12%、くしなだが84.77%の感情認識精度を達成し、以前のモデルと比べて10ポイント以上の改善が見られました。

今後、産総研は地域や世代による音声AIの性能低下の問題を改善するために新たな方言音声データセットの構築に取り組むとともに、少量のデータを活用した音声AIの構築と普及にも貢献していく方針です。

産総研:日本語音声基盤モデル「いざなみ」「くしなだ」を公開
https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.html
いざなぎ/くしなだの公開ページ(Hugging Face、Intelligent Media Processing Research Team)
https://huggingface.co/imprt

Translate »
タイトルとURLをコピーしました