Googleが新たにGemma3を発表

Gemma 3 Release – a google Collection
https://blog.google/technology/developers/gemma-3/

Gemma 3 is a collection of lightweight, state-of-the-art open models built from the same research and technology that powers our Gemini 2.0 models. → https://t.co/lA6jOuri5d pic.twitter.com/wv0MDrCJiW
— Google AI Developers (@googleaidevs) March 12, 2025

Googleが新たにGemma3を発表しました。モデルは27B、12B、4B、1Bの4種類で、最大128Kトークンのコンテキストをサポートし、マルチモーダルかつ多言語対応です。

主なポイント：

Gemma 3-27B-ITはMMLU-Proで67.5のスコアを記録し、Gemini 1.5 Proに近い結果。

チャットボットアリーナでEloスコア133を達成し、LLaMA 3やQwen2.5を上回る。

SigLIPビジョンエンコーダーを使用し、画像処理を改善。

最大128Kトークンをサポートし、メモリ効率を向上。

14Tトークンで事前トレーニングされ、数学や多言語能力を強化。

すべてのモデルはHugging Face Hubで利用可能です。

HuggingFace　Gemma 3 Release
https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Google is BACK!! Welcome Gemma3 – 27B, 12B, 4B & 1B – 128K context, multimodal AND multilingual! 🔥

Evals:
> On MMLU-Pro, Gemma 3-27B-IT scores 67.5, close to Gemini 1.5 Pro (75.8)
> Gemma 3-27B-IT achieves an Elo score of 133 in the Chatbot Arena, outperforming larger LLaMA 3… pic.twitter.com/R47khfY2Yf
— Vaibhav (VB) Srivastav (@reach_vb) March 12, 2025

Gemma3 – 27B、12B、4B、1Bモデルが登場し、128Kのコンテキストをサポートするマルチモーダルかつ多言語対応
評価:

MMLU-Proで、Gemma 3-27B-ITは67.5のスコアを記録し、Gemini 1.5 Pro（75.8）に近い結果を出しています。

Gemma 3-27B-ITはチャットボットアリーナでEloスコア133を達成し、LLaMA 3 405B（1257）やQwen2.5-70B（1257）を上回っています。

Gemma 3-4B-ITはGemma 2-27B-ITと競争力があります。

マルチモーダル:

SigLIPビジョンエンコーダーを使用し、画像をソフトトークンのシーケンスとして処理します。

パン＆スキャン（P&S）アルゴリズムにより、非正方形の画像を896×896のクロップに分割し、高解像度画像でのパフォーマンスを向上させます。

長いコンテキスト:

最大128Kトークンをサポート（1Bモデルは32K）。

ローカルとグローバルの注意層の比率を5:1にしてKVキャッシュのメモリ爆発を抑制。

ローカル層は1024トークンの範囲を持ち、グローバル層は長いコンテキストを処理します。

メモリ効率:

5:1の比率により、KVキャッシュのメモリオーバーヘッドを60%から15%未満に削減。

量子化対応トレーニング（QAT）を使用し、int4、int4（ブロックごと）、スイッチfp8形式でモデルを提供し、メモリフットプリントを大幅に削減。

トレーニングと蒸留:

27Bモデルは14Tトークンで事前トレーニングされ、多言語データが増加。

知識蒸留を使用し、256のロジットをトークンごとに教師の確率で重み付け。

数学、推論、多言語能力の向上に焦点を当てた新しいアプローチでGemma 2を上回ります。

ビジョンエンコーダーのパフォーマンス:

高解像度エンコーダー（896×896）は、低解像度（256×256）よりもDocVQAなどのタスクで優れた結果を出します（59.8対31.9）。

P&Sはテキスト認識タスクのパフォーマンスを向上させ、4BモデルのDocVQAは+8.2ポイント改善します。

長いコンテキストのスケーリング:

モデルは32Kシーケンスで事前トレーニングされ、RoPEリスケーリングを使用して128Kにスケールアップ。

128Kトークンを超えるとパフォーマンスが急激に低下しますが、この制限内ではモデルは良好に一般化します。

すべてのモデルはHugging Face Hubで利用可能で、Transformersと統合されています

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31