Googleが新たにGemma3を発表

Gemma 3 Release – a google Collection
https://blog.google/technology/developers/gemma-3/

Googleが新たにGemma3を発表しました。モデルは27B、12B、4B、1Bの4種類で、最大128Kトークンのコンテキストをサポートし、マルチモーダルかつ多言語対応です。

主なポイント:

  • Gemma 3-27B-ITはMMLU-Proで67.5のスコアを記録し、Gemini 1.5 Proに近い結果。
  • チャットボットアリーナでEloスコア133を達成し、LLaMA 3やQwen2.5を上回る。
  • SigLIPビジョンエンコーダーを使用し、画像処理を改善。
  • 最大128Kトークンをサポートし、メモリ効率を向上。
  • 14Tトークンで事前トレーニングされ、数学や多言語能力を強化。

すべてのモデルはHugging Face Hubで利用可能です。

HuggingFace Gemma 3 Release
https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma3 – 27B、12B、4B、1Bモデルが登場し、128Kのコンテキストをサポートするマルチモーダルかつ多言語対応
評価:

  • MMLU-Proで、Gemma 3-27B-ITは67.5のスコアを記録し、Gemini 1.5 Pro(75.8)に近い結果を出しています。
  • Gemma 3-27B-ITはチャットボットアリーナでEloスコア133を達成し、LLaMA 3 405B(1257)やQwen2.5-70B(1257)を上回っています。
  • Gemma 3-4B-ITはGemma 2-27B-ITと競争力があります。

マルチモーダル:

  • SigLIPビジョンエンコーダーを使用し、画像をソフトトークンのシーケンスとして処理します。
  • パン&スキャン(P&S)アルゴリズムにより、非正方形の画像を896×896のクロップに分割し、高解像度画像でのパフォーマンスを向上させます。

長いコンテキスト:

  • 最大128Kトークンをサポート(1Bモデルは32K)。
  • ローカルとグローバルの注意層の比率を5:1にしてKVキャッシュのメモリ爆発を抑制。
  • ローカル層は1024トークンの範囲を持ち、グローバル層は長いコンテキストを処理します。

メモリ効率:

  • 5:1の比率により、KVキャッシュのメモリオーバーヘッドを60%から15%未満に削減。
  • 量子化対応トレーニング(QAT)を使用し、int4、int4(ブロックごと)、スイッチfp8形式でモデルを提供し、メモリフットプリントを大幅に削減。

トレーニングと蒸留:

  • 27Bモデルは14Tトークンで事前トレーニングされ、多言語データが増加。
  • 知識蒸留を使用し、256のロジットをトークンごとに教師の確率で重み付け。
  • 数学、推論、多言語能力の向上に焦点を当てた新しいアプローチでGemma 2を上回ります。

ビジョンエンコーダーのパフォーマンス:

  • 高解像度エンコーダー(896×896)は、低解像度(256×256)よりもDocVQAなどのタスクで優れた結果を出します(59.8対31.9)。
  • P&Sはテキスト認識タスクのパフォーマンスを向上させ、4BモデルのDocVQAは+8.2ポイント改善します。

長いコンテキストのスケーリング:

  • モデルは32Kシーケンスで事前トレーニングされ、RoPEリスケーリングを使用して128Kにスケールアップ。
  • 128Kトークンを超えるとパフォーマンスが急激に低下しますが、この制限内ではモデルは良好に一般化します。

すべてのモデルはHugging Face Hubで利用可能で、Transformersと統合されています

Translate »
タイトルとURLをコピーしました