DeepSeek may have used Google’s Gemini to train its latest model | TechCrunch

DeepSeekが最新のR1推論AIモデルR1のアップデート版をリリースしました。このモデルは、数々の数学およびコーディングベンチマークで優れたパフォーマンスを発揮していますが、トレーニングデータの出所は明らかにしていません。
一部のAI研究者は、DeepSeekのモデルがGeminiの出力を利用していると推測しています。
メルボルンの開発者Sam Paech氏は、DeepSeekのモデルがGemini 2.5 Proに似た言葉や表現を好むことを示す証拠を公開しました。また、別の開発者もDeepSeekのモデルの「思考」がGeminiのトレースに似ていると指摘しています。
多くのAIモデルは、オープンウェブからのトレーニングデータの質が低いため、誤認識や同じ表現に収束する問題を抱えています。コンテンツファームがAIを利用してクリックベイトを生成し、ボットはRedditやXに溢れていることが影響しています。
この「汚染」により、トレーニングデータのフィルタリングが難しくなっています。
DeepSeekは過去にも競合AIモデルのデータを使用した疑いをかけられており、OpenAIはDeepSeekがデータを不正に取得している可能性を示唆しています。
AIモデルのトレーニングにおいて、データの「蒸留」技術が使われることは一般的ですが、OpenAIの利用規約では競合AIの構築にその出力を使用することを禁じています。
AI専門家のNathan Lambert氏は、DeepSeekがGoogleのGeminiのデータを使用してトレーニングした可能性を否定していません。
彼は、DeepSeekが資金は豊富だがGPUが不足しているため、他のAPIモデルから合成データを生成する可能性があると指摘しています。
AI業界では、データの出所を特定することが難しくなっており、AI企業はデータの蒸留を防ぐためにセキュリティ対策を強化しており、OpenAIは特定のモデルへのアクセスにID確認を義務付けています。
GoogleはAI Studioを通じて生成されたトレースの要約を開始し、競合モデルの学習を難しくしています。
Anthropicも競争上の優位性を守るために、自社モデルのトレース要約を始めました。

