マサチューセッツ工科大学(MIT)の研究チームが、AIの自己学習フレームワーク「Self-Adapting Language Models(SEAL)」を発表しました。
このフレームワークは、AIが新しい情報に出会った際に自ら情報を編集し、強化学習を通じて賢くなることを可能にし、SEALを適用したAIモデルは、与えられた新しい入力を多様な方法で再構成し、独自の微調整データを生成し、このプロセスは「自己編集(Self-Edit)」と呼ばれ、生成された結果を強化学習に活用し、強化学習アルゴリズムには、Google DeepMindが開発した「ReST^{EM}」が使用され、最もパフォーマンスの高い学習パターンが選ばれます。
研究チームは、Alibabaの言語モデル「Qwen2.5-7B」にSEALを適用し、その性能向上を調査しました。結果、SEALを適用したモデルは、初期状態ではGPT 4.1に劣っていましたが、二回の自己学習を経てその性能を超えることに成功しました。
しかし、自己学習を繰り返すことで「壊滅的な忘却」という現象が発生し、以前できていたタスクが実行不能になることも確認されています。このため、知識を保持するメカニズムの必要性が指摘されています。
Self-Adapting Language Models
https://jyopari.github.io/posts/seal
Continual-Intelligence/SEAL: Self-Adapting Language Models | GitHub
https://github.com/Continual-Intelligence/SEAL
[2506.10943] Self-Adapting Language Models | arxiv.org
https://arxiv.org/abs/2506.10943
自己適応型言語モデル(SEAL)の概要(Self-Adapting Language Models | GitHub.io)
自己適応型言語モデル(SEAL)は、従来の大規模言語モデル(LLM)が持つ静的な特性を克服するための新しいフレームワークです。LLMは新しいタスクや知識に応じて重みを適応させるメカニズムを欠いていますが、SEALは自己生成したファインチューニングデータと更新指示を用いて、モデルが自ら適応できるように設計されています。
主な特徴
- 自己編集(Self-Edit): モデルは新しい入力に基づいて情報を再構成したり、最適化ハイパーパラメータを指定したりする自己編集を生成します。
- 強化学習(RL): モデルは、更新後のパフォーマンスを報酬信号として使用し、効果的な自己編集を生成する能力を強化します。
- 持続的な適応: 自己編集を通じて、モデルは持続的な重みの更新を行い、新しいデータに対して長期的に適応します。
実験と結果
SEALは以下の2つのドメインでテストされました:
- 知識の統合: モデルは与えられたテキストから新しい事実情報を内在化し、元の文脈にアクセスせずに関連する質問に答える能力を向上させます。実験では、QA精度が32.7%から47.0%に改善され、従来のモデルを上回りました。
- 少数ショット学習: モデルは少数のデモから一般化し、独自にデータ拡張やトレーニング設定を選択します。ARCベンチマークの簡略化されたサブセットで、成功率は72.5%に達し、従来の手法を大きく上回りました。
課題と今後の展望
SEALは持続的な適応を可能にしますが、自己編集の繰り返しが「破滅的忘却」を引き起こす可能性があることが示されています。これは、新しい更新が以前のタスクのパフォーマンスを低下させることを意味します。この問題に対処するためには、知識の保持を促進するメカニズムが必要です。
将来的には、モデルがいつどのように適応するかを判断し、推論中に自己編集が必要かどうかを決定できるシステムの開発が期待されています。これにより、思考の過程を重みとして永続化し、継続的に改善されるエージェントモデルの基盤が築かれるでしょう。

