Anthropicが新たなAI安全技術「Constitutional Classifiers」を発表、公開サイトで安全性テストも実施

Anthropicが新たなAI安全技術「Constitutional Classifiers」を発表、公開サイトで安全性テストも実施 | XenoSpectrum

Anthropicが、AIモデル「Claude」の新たなセキュリティ技術「Constitutional Classifiers」を発表した。同社によれば、95%の不正操作を防御する性能を実現しているとのことで、現在は一般公開テストによる更な...続きを読む

Anthropicが発表した「Constitutional Classifiers」は、AIモデル「Claude」の安全性を向上させるための新技術であり、不正操作（ジェイルブレイク）を抑制するシステムです。この技術は、自然言語で記述された「憲法・制約」に基づいてAIの行動を制御する「Constitutional AI」を発展させたもので、許可・禁止コンテンツを区別する明確なルールセットを活用しています。

具体的には、Claudeに多様なプロンプトを生成させ、それに基づいて許容可能な応答と不適切な応答を分類します。入力分類器は、有害な情報を求める巧妙な不正要求を検出し、出力分類器は生成される文章を評価して禁止コンテンツが含まれる可能性を計算します。

Anthropicは、HackerOneを通じてバグ報奨金プログラムを実施し、専門家によるテストで95%の攻撃を阻止したことを報告しています。ただし、計算コストが23.7%増加し、無害なプロンプトへの過剰拒否も0.38%増加する課題があります。

さらに、一般公開テストを通じて新たな不正手法の発見を目指しており、ユーザーは特定の質問への不正操作に挑戦できる機会があります。Anthropicは、発見された事例を基にConstitutional Classifiersの改善を図る方針です。

Anthropic: Constitutional Classifiers: Defending against universal jailbreaks
https://www.anthropic.com/research/constitutional-classifiers

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31