
中国のAIスタートアップDeepSeekは、OpenAIの最新画像生成AI「DALL-E3」を性能面で上回るとする新たな画像生成モデル「Janus-Pro」をリリースした。同社が公開した技術レポートによると、最大7B(70億)パラメータを持つ「Janus-Pro-7B」は、主要なベンチマークテストにおいて、OpenAIやStability
AIなど、業界をリードする企業の画像生成モデルを凌駕する性能を示したとされる。Janus-Proは、DeepSeekが開発した新しいオートリグレッシブフレームワークに基づいており、画像の分析と生成を一つのモデルで統合的に処理できる点が特徴です。従来のAIモデルは、分析と生成を別々のモデルで行うことが一般的でしたが、Janus-Proはこれらの機能を効率的に統合することで、より自然で文脈に即した画像生成を実現しています。
また、モデルのスケーラビリティも重要なポイントです。DeepSeekは、1Bから7Bまでのパラメータを持つ異なるバージョンを展開しており、特に7Bモデルは業界標準の評価基準であるGenEvalやDPG-Benchにおいて、OpenAIのDALL-E 3やStability AIのStable Diffusion XLを上回る性能を示しています。
画像生成の品質向上に寄与しているのは、DeepSeekが採用した独自のデータ戦略です。7,200万件の高品質な合成画像データを実世界の画像データとバランスよく学習に活用することで、生成される画像の安定性と細部の表現力が向上しています。さらに、学習プロセスの最適化により、テキストプロンプトからの画像生成速度と精度も向上しています。
ただし、現行のJanus-Proモデルは384×384ピクセルという解像度に制限されており、DALL-E 3やStable Diffusion XLが提供する高解像度画像生成に比べると明確な制約があります。この点についてDeepSeekは、モデルの軽量さとパフォーマンスのバランスを重視する戦略を取っています。
商用利用に関しては、DeepSeekはJanus-ProをMITライセンスで公開しており、企業や開発者が自由に利用・カスタマイズできる環境を提供しています。これにより、特に中小企業やスタートアップが高度な画像生成AI技術にアクセスしやすくなります。
DeepSeekの発表は、AI開発における技術的優位性が必ずしも巨額の資金や計算資源に依存しないことを示唆しており、特に米中のAI開発競争において重要な意味を持つと考えられます。DeepSeekの効率的な技術開発手法は、今後のAI開発における新たなパラダイムを示す可能性があります。
Hugging Face: DeepSeek
https://huggingface.co/organizations/deepseek-ai/activity/all

