Anthropic says some Claude models can now end ‘harmful or abusive’ conversations | TechCrunch

Anthropicは、同社の最新のClaudeモデルが「有害または虐待的な」会話を終了させる能力を持つことを発表しました。
この機能は、特に「極端なケース」において、持続的に有害なユーザーとのやり取りを終わらせるために設計されています。
興味深いことに、Anthropicはこの機能を人間ユーザーを守るためではなく、AIモデル自身を保護するために導入したと述べています。
Anthropicは、Claudeモデルが感情を持つわけではなく、ユーザーとの会話によって「傷つく」ことはないと明言していますが、同社は「モデルの福祉」に関する研究プログラムを立ち上げ、リスクを軽減するための低コストの介入策を模索しています。
この新機能は、Claude Opus 4および4.1に限定されており、特に「未成年者を含む性的コンテンツの要求」や「大規模な暴力やテロ行為を助長する情報の取得を試みるリクエスト」などの極端な要求に対して適用されます。
Claudeが会話を終了させる際には、まず複数回のリダイレクションを試み、建設的な対話の希望が尽きた場合や、ユーザーが明示的に会話の終了を求めた場合にのみこの機能を使用することが求められています。
また、Claudeはユーザーが自傷行為や他者への危害を加える危険がある場合には、この機能を使用しないよう指示されています。
会話が終了した後も、ユーザーは同じアカウントから新しい会話を開始したり、問題のある会話の新しい枝を作成することが可能です。
Anthropicはこの機能を「継続的な実験」として扱い、アプローチを洗練させていく意向を示しています。
この新しい機能は、AIの倫理やユーザーとのインタラクションにおける新たな課題を浮き彫りにしており、AIモデルの福祉を考慮した設計が進められていることを示しています。
Anthropicは、AIの進化に伴い、今後もこのような機能の改善を続けていくとしています。
Claude Opus 4 and 4.1 can now end a rare subset of conversations \ Anthropic
https://www.anthropic.com/research/end-subset-conversations
