DeepSeekは最新モデルのトレーニングにGoogleのGeminiを利用した可能性

DeepSeek may have used Google’s Gemini to train its latest model | TechCrunch

DeepSeek may have used Google's Gemini to train its latest model | TechCrunch

Chinese AI lab DeepSeek released an updated version of its R1 reasoning model that performs well on a number of math and...続きを読む

DeepSeekが最新のR1推論AIモデルR1のアップデート版をリリースしました。このモデルは、数々の数学およびコーディングベンチマークで優れたパフォーマンスを発揮していますが、トレーニングデータの出所は明らかにしていません。

一部のAI研究者は、DeepSeekのモデルがGeminiの出力を利用していると推測しています。

メルボルンの開発者Sam Paech氏は、DeepSeekのモデルがGemini 2.5 Proに似た言葉や表現を好むことを示す証拠を公開しました。

また、別の開発者もDeepSeekのモデルの「思考」がGeminiのトレースに似ていると指摘しています。

多くのAIモデルは、オープンウェブからのトレーニングデータの質が低いため、誤認識や同じ表現に収束する問題を抱えています。

コンテンツファームがAIを利用してクリックベイトを生成し、ボットはRedditやXに溢れていることが影響しています。

この「汚染」により、トレーニングデータのフィルタリングが難しくなっています。

DeepSeekは過去にも競合AIモデルのデータを使用した疑いをかけられており、OpenAIはDeepSeekがデータを不正に取得している可能性を示唆しています。

AIモデルのトレーニングにおいて、データの「蒸留」技術が使われることは一般的ですが、OpenAIの利用規約では競合AIの構築にその出力を使用することを禁じています。

AI専門家のNathan Lambert氏は、DeepSeekがGoogleのGeminiのデータを使用してトレーニングした可能性を否定していません。

彼は、DeepSeekが資金は豊富だがGPUが不足しているため、他のAPIモデルから合成データを生成する可能性があると指摘しています。

AI業界では、データの出所を特定することが難しくなっており、AI企業はデータの蒸留を防ぐためにセキュリティ対策を強化しており、OpenAIは特定のモデルへのアクセスにID確認を義務付けています。

GoogleはAI Studioを通じて生成されたトレースの要約を開始し、競合モデルの学習を難しくしています。

Anthropicも競争上の優位性を守るために、自社モデルのトレース要約を始めました。

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31