
DeepSeek-R1は、中国のAI企業が開発した動的量子化モデルで、OpenAIの推論モデルo1に匹敵する性能を持ちながら、オープンソースとして公開されています。
このモデルは、ダニエル・ハン氏とマイケル・ハン氏が運営するAI開発チーム「unsloth」によって、サイズを最大80%削減することに成功しました。モデルの各部分に異なる圧縮率を適用することで、元の720GBから131GBにサイズを削減。
データの精度を落とすことでサイズを小さくする技術で、例えば32ビット浮動小数点を8ビット整数に変換することで、データサイズを4分の1に減少させる。
VRAMとRAMが合計80GB以上の環境で最適に動作。
スループットは毎秒140トークン、単一ユーザーの推論で毎秒14トークンを達成。
GPUなしでも20GBのRAMで動作可能だが、処理速度は遅くなる。モデルのバリエーション
DeepSeek-R1には以下の4つのバージョンがあります:1.58ビット版 (モデルサイズ131GB)
1.73ビット版 (モデルサイズ158GB)
2.22ビット版 (モデルサイズ183GB)
2.51ビット版 (モデルサイズ212GB)特に重要なレイヤーは高い精度で量子化されており、全体の重みの約88%を占めるレイヤーは1.58ビットで量子化されています。動的量子化により、無限ループや意味不明な出力といった問題を回避しています。
unslothは、Flappy Bird風ゲームのコード作成を通じて、1.58ビット版でも実用的な性能を確認しました。
このモデルは、Hugging Faceで公開されており、さまざまなフレームワークで利用可能です。DeepSeek-R1は、中国のAI企業が開発した動的量子化モデルで、OpenAIの推論モデルo1に匹敵する性能を持ちながら、オープンソースとして公開されています。
このモデルは、ダニエル・ハン氏とマイケル・ハン氏が運営するAI開発チーム「unsloth」によって、サイズを最大80%削減することに成功しました。モデルの各部分に異なる圧縮率を適用することで、元の720GBから131GBにサイズを削減。
データの精度を落とすことでサイズを小さくする技術で、例えば32ビット浮動小数点を8ビット整数に変換することで、データサイズを4分の1に減少させる。
VRAMとRAMが合計80GB以上の環境で最適に動作。
スループットは毎秒140トークン、単一ユーザーの推論で毎秒14トークンを達成。
GPUなしでも20GBのRAMで動作可能だが、処理速度は遅くなる。
DeepSeek-R1には以下の4つのバージョンがあります:1.58ビット版 (モデルサイズ131GB)
1.73ビット版 (モデルサイズ158GB)
2.22ビット版 (モデルサイズ183GB)
2.51ビット版 (モデルサイズ212GB)特に重要なレイヤーは高い精度で量子化されており、全体の重みの約88%を占めるレイヤーは1.58ビットで量子化されています。動的量子化により、無限ループや意味不明な出力といった問題を回避しています。
unslothは、Flappy Bird風ゲームのコード作成を通じて、1.58ビット版でも実用的な性能を確認しました。
このモデルは、Hugging Faceで公開されており、さまざまなフレームワークで利用可能です。

