Gemma 3 Release – a google Collection
https://blog.google/technology/developers/gemma-3/
Googleが新たにGemma3を発表しました。モデルは27B、12B、4B、1Bの4種類で、最大128Kトークンのコンテキストをサポートし、マルチモーダルかつ多言語対応です。
主なポイント:
- Gemma 3-27B-ITはMMLU-Proで67.5のスコアを記録し、Gemini 1.5 Proに近い結果。
- チャットボットアリーナでEloスコア133を達成し、LLaMA 3やQwen2.5を上回る。
- SigLIPビジョンエンコーダーを使用し、画像処理を改善。
- 最大128Kトークンをサポートし、メモリ効率を向上。
- 14Tトークンで事前トレーニングされ、数学や多言語能力を強化。
すべてのモデルはHugging Face Hubで利用可能です。
HuggingFace Gemma 3 Release
https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma3 – 27B、12B、4B、1Bモデルが登場し、128Kのコンテキストをサポートするマルチモーダルかつ多言語対応
評価:
- MMLU-Proで、Gemma 3-27B-ITは67.5のスコアを記録し、Gemini 1.5 Pro(75.8)に近い結果を出しています。
- Gemma 3-27B-ITはチャットボットアリーナでEloスコア133を達成し、LLaMA 3 405B(1257)やQwen2.5-70B(1257)を上回っています。
- Gemma 3-4B-ITはGemma 2-27B-ITと競争力があります。
マルチモーダル:
- SigLIPビジョンエンコーダーを使用し、画像をソフトトークンのシーケンスとして処理します。
- パン&スキャン(P&S)アルゴリズムにより、非正方形の画像を896×896のクロップに分割し、高解像度画像でのパフォーマンスを向上させます。
長いコンテキスト:
- 最大128Kトークンをサポート(1Bモデルは32K)。
- ローカルとグローバルの注意層の比率を5:1にしてKVキャッシュのメモリ爆発を抑制。
- ローカル層は1024トークンの範囲を持ち、グローバル層は長いコンテキストを処理します。
メモリ効率:
- 5:1の比率により、KVキャッシュのメモリオーバーヘッドを60%から15%未満に削減。
- 量子化対応トレーニング(QAT)を使用し、int4、int4(ブロックごと)、スイッチfp8形式でモデルを提供し、メモリフットプリントを大幅に削減。
トレーニングと蒸留:
- 27Bモデルは14Tトークンで事前トレーニングされ、多言語データが増加。
- 知識蒸留を使用し、256のロジットをトークンごとに教師の確率で重み付け。
- 数学、推論、多言語能力の向上に焦点を当てた新しいアプローチでGemma 2を上回ります。
ビジョンエンコーダーのパフォーマンス:
- 高解像度エンコーダー(896×896)は、低解像度(256×256)よりもDocVQAなどのタスクで優れた結果を出します(59.8対31.9)。
- P&Sはテキスト認識タスクのパフォーマンスを向上させ、4BモデルのDocVQAは+8.2ポイント改善します。
長いコンテキストのスケーリング:
- モデルは32Kシーケンスで事前トレーニングされ、RoPEリスケーリングを使用して128Kにスケールアップ。
- 128Kトークンを超えるとパフォーマンスが急激に低下しますが、この制限内ではモデルは良好に一般化します。
すべてのモデルはHugging Face Hubで利用可能で、Transformersと統合されています

