DeepSeekは最新モデルのトレーニングにGoogleのGeminiを利用した可能性 | TechCrunch

DeepSeek may have used Google’s Gemini to train its latest model | TechCrunch

DeepSeek may have used Google's Gemini to train its latest model | TechCrunch
Chinese AI lab DeepSeek released an updated version of its R1 reasoning model that performs well on a number of math and...続きを読む

DeepSeekが最新のR1推論AIモデルR1のアップデート版をリリースしました。このモデルは、数々の数学およびコーディングベンチマークで優れたパフォーマンスを発揮していますが、トレーニングデータの出所は明らかにしていません。

一部のAI研究者は、DeepSeekのモデルがGeminiの出力を利用していると推測しています。

メルボルンの開発者Sam Paech氏は、DeepSeekのモデルがGemini 2.5 Proに似た言葉や表現を好むことを示す証拠を公開しました。

また、別の開発者もDeepSeekのモデルの「思考」がGeminiのトレースに似ていると指摘しています。

多くのAIモデルは、オープンウェブからのトレーニングデータの質が低いため、誤認識や同じ表現に収束する問題を抱えています。

コンテンツファームがAIを利用してクリックベイトを生成し、ボットはRedditやXに溢れていることが影響しています。

この「汚染」により、トレーニングデータのフィルタリングが難しくなっています。

DeepSeekは過去にも競合AIモデルのデータを使用した疑いをかけられており、OpenAIはDeepSeekがデータを不正に取得している可能性を示唆しています。

AIモデルのトレーニングにおいて、データの「蒸留」技術が使われることは一般的ですが、OpenAIの利用規約では競合AIの構築にその出力を使用することを禁じています。

AI専門家のNathan Lambert氏は、DeepSeekがGoogleのGeminiのデータを使用してトレーニングした可能性を否定していません。

彼は、DeepSeekが資金は豊富だがGPUが不足しているため、他のAPIモデルから合成データを生成する可能性があると指摘しています。

AI業界では、データの出所を特定することが難しくなっており、AI企業はデータの蒸留を防ぐためにセキュリティ対策を強化しており、OpenAIは特定のモデルへのアクセスにID確認を義務付けています。

GoogleはAI Studioを通じて生成されたトレースの要約を開始し、競合モデルの学習を難しくしています。

Anthropicも競争上の優位性を守るために、自社モデルのトレース要約を始めました。

Translate »
タイトルとURLをコピーしました