
DeepSeekは“脱獄”による悪用が簡単 話題のLLMにセキュリティ企業が注意喚起
米パロアルトネットワークスの脅威インテリジェンスチームUnit 42は、中国のAI企業「DeepSeek」のオープンソースのLLMが、“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログにて指摘した。
ソースで公開するLLM(大規模言語モデル)が“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログで指摘した。
今回、Unit 42がDeepSeekのLLMに対して、「Deceptive Delight」「Bad Likert Judge」といった脱獄手法や、LLMとのやり取りを重ねて制限を緩める「Crescendo」という手法を試したところ、次のような結果が得られたという。
- DeepSeekの高い脱獄率が明らかになり、攻撃者に悪用される可能性がある
- 脱獄により、キーロガー(ユーザーの入力情報などを記録するマルウェア)やデータ盗難ツール、爆発物などを作成するための具体的なガイダンスが提示された
- 安全のための制限が不十分なLLMは、容易に利用でき、実行可能な出力をコンパイル(ソースコードを実行可能な形式に変換)して提示するため、サイバー攻撃の参入障壁を低くする可能性がある
- 社員が未承認のサードパーティ製LLMを使用することは、セキュリティリスクになり得るため、オープンソースLLMをビジネスプロセスに統合する際には、脆弱性に対処する必要がある
また米シスコも、DeepSeekのLLM「DeepSeek-R1」および主要なLLMに対して、悪意のあるコンテンツを引き出す50個のプロンプトを用いて脱獄を試みるというテストを実施した。
すると、DeepSeek-R1は、すべてのプロンプトを素通りさせ、攻撃成功率は100%という結果に。一方で、OpenAIの「o1」の攻撃成功率は26%と、有害な入出力をガードレールでブロックした他モデルとは対照的だったという
Recent Jailbreaks Demonstrate Emerging Threat to DeepSeek
https://unit42.paloaltonetworks.com/jailbreaking-deepseek-three-techniques/
Evaluating Security Risk in DeepSeek – Cisco Blogs
https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
コメント