
動画生成AIモデル「Hunyuan(フンユエン)Video」が盛り上がっています。2024年12月に中国のIT大手テンセントが発表したもので、130億パラメータを持ち、動画品質の高さや動きの安定性で高い水準を維持できるという点で話題になりました。しかも、その学習済みデータがオープンモデルとして公開されたということもあり、ローカルPC環境で高品質な動画生成が可能になるのではと、期待が集まったのです。実際、動画生成をVRAM 8GB環境でも生成できるようになったことで、使いやすいものになりました。
初期の生成品質はまだ成長途上であり、特に複雑なシーンでは形状が混ざり合うなどの問題が見られ、RTX 4090を使用した場合でも、848×480の動画生成に約4分半かかる。
しかし、LoRA(簡易な追加学習)環境を開発・公開は簡易な追加学習環境で、特定のキャラクターを学習させることが可能ため、Hunyuan Video用のアダルト向けLoRAが公開されるも、法的リスクから削除要請が出される事例も。
さらに、米イリノイ大学とソニーによる、「MMAudio」という研究も注目を集めています。動画生成AIの弱点は、生成した音声は無音であることでした。それに効果音をつけていくことは動画編集ソフトを使い、効果音を別に作成したりして設定する必要があるため手間がかかります。MMAudioは、動画を解析して、動画の動きに合わせて効果音を生成してくれるのです。WebUI環境のGradioで動かすことができるのですが、操作も簡単で非常に使いやすいです。権利もMITライセンスと使いやすいものです。
Hunyuan Videoはオープンモデルとして注目されているが、クラウドモデルとの競争が激化している。品質と価格の両面での競争が続いており、今後の展開が注目される。
この記事は、動画生成AIの技術的進展とその社会的影響、特にアダルトコンテンツに関する倫理的な問題を考察しています。今後の技術の進化とその利用方法について、引き続き注目が必要です。
コメント