Why do LLMs make stuff up? New research peers under the hood. – Ars Technica

Why do LLMs make stuff up? New research peers under the hood.
Claude's faulty "known entity" neurons sometimes override its "don't answer" circuitry.
最近のAnthropicの研究は、大規模言語モデル(LLM)が情報を作り上げる理由を探求しています。特に、モデルが「知らない」と言わずに、信憑性のあるが誤った回答を生成するメカニズムに焦点を当てています。この研究は、LLMの内部の神経回路がどのように応答を生成するかを明らかにし、AIの誤情報問題に対する解決策の改善に寄与する可能性があります。
主なポイント
- LLMの設計: LLMはテキストの文字列を受け取り、その後に続くテキストを予測するように設計されています。この設計は、モデルの訓練データに基づいていますが、あまり知られていない事実やトピックに対しては、信憑性のある推測を行う傾向があります。
- 神経回路の役割: Anthropicの研究では、特定の「特徴」と呼ばれる神経のグループが、モデルが応答を生成する際にどのように影響を与えるかを示しています。例えば、知られている名前(例: マイケル・ジョーダン)に対しては、モデルが自信を持って回答する一方で、知らない名前(例: マイケル・バトキン)に対しては「答えられない」とする回路が活性化されます。
- 誤情報の生成: モデルが「知らない」と認識する回路が誤ってオフになると、全く存在しない情報を自信を持って生成することがあります。これは、モデルが特定の名前を認識しているが、関連する具体的な情報を持っていない場合に発生します。
- 今後の研究の必要性: 現在の研究はLLMの計算の一部しか捉えておらず、さらなる研究が必要です。Anthropicは、より深い理解を得るための方法を模索しており、将来的にはLLMの誤情報問題を解決する手助けになることを期待しています。
この研究は、LLMの内部動作を理解するための重要なステップであり、AIの信頼性を向上させるための基盤を提供します。
大規模言語モデルの思考を辿る | Anthropic
Tracing the thoughts of a large language model | Anthropic
https://www.anthropic.com/research/tracing-thoughts-language-model

