DeepSeek-R1のサイズを最大80%削減した動的量子化モデルが公開中 – GIGAZINE

DeepSeek-R1のサイズを最大80%削減した動的量子化モデルが公開中
中国のAI企業がリリースしたDeepSeek-R1は、OpenAIの推論モデル・o1相当の性能を持ちながら、モデルデータがオープンソースとして公開されていることが特徴です。ダニエル・ハン氏とマイケル・ハン氏の兄弟2人で運用されるAI開発チー...続きを読む

DeepSeek-R1は、中国のAI企業が開発した動的量子化モデルで、OpenAIの推論モデルo1に匹敵する性能を持ちながら、オープンソースとして公開されています。
このモデルは、ダニエル・ハン氏とマイケル・ハン氏が運営するAI開発チーム「unsloth」によって、サイズを最大80%削減することに成功しました。

モデルの各部分に異なる圧縮率を適用することで、元の720GBから131GBにサイズを削減。
データの精度を落とすことでサイズを小さくする技術で、例えば32ビット浮動小数点を8ビット整数に変換することで、データサイズを4分の1に減少させる。
VRAMとRAMが合計80GB以上の環境で最適に動作。
スループットは毎秒140トークン、単一ユーザーの推論で毎秒14トークンを達成。
GPUなしでも20GBのRAMで動作可能だが、処理速度は遅くなる。

モデルのバリエーション
DeepSeek-R1には以下の4つのバージョンがあります:

1.58ビット版 (モデルサイズ131GB)
1.73ビット版 (モデルサイズ158GB)
2.22ビット版 (モデルサイズ183GB)
2.51ビット版 (モデルサイズ212GB)

特に重要なレイヤーは高い精度で量子化されており、全体の重みの約88%を占めるレイヤーは1.58ビットで量子化されています。動的量子化により、無限ループや意味不明な出力といった問題を回避しています。

unslothは、Flappy Bird風ゲームのコード作成を通じて、1.58ビット版でも実用的な性能を確認しました。
このモデルは、Hugging Faceで公開されており、さまざまなフレームワークで利用可能です。DeepSeek-R1は、中国のAI企業が開発した動的量子化モデルで、OpenAIの推論モデルo1に匹敵する性能を持ちながら、オープンソースとして公開されています。
このモデルは、ダニエル・ハン氏とマイケル・ハン氏が運営するAI開発チーム「unsloth」によって、サイズを最大80%削減することに成功しました。

モデルの各部分に異なる圧縮率を適用することで、元の720GBから131GBにサイズを削減。
データの精度を落とすことでサイズを小さくする技術で、例えば32ビット浮動小数点を8ビット整数に変換することで、データサイズを4分の1に減少させる。
VRAMとRAMが合計80GB以上の環境で最適に動作。
スループットは毎秒140トークン、単一ユーザーの推論で毎秒14トークンを達成。
GPUなしでも20GBのRAMで動作可能だが、処理速度は遅くなる。

DeepSeek-R1には以下の4つのバージョンがあります:

1.58ビット版 (モデルサイズ131GB)
1.73ビット版 (モデルサイズ158GB)
2.22ビット版 (モデルサイズ183GB)
2.51ビット版 (モデルサイズ212GB)

特に重要なレイヤーは高い精度で量子化されており、全体の重みの約88%を占めるレイヤーは1.58ビットで量子化されています。動的量子化により、無限ループや意味不明な出力といった問題を回避しています。

unslothは、Flappy Bird風ゲームのコード作成を通じて、1.58ビット版でも実用的な性能を確認しました。
このモデルは、Hugging Faceで公開されており、さまざまなフレームワークで利用可能です。

Translate »
タイトルとURLをコピーしました