AI生成コードはソフトウェアサプライチェーンにとって大惨事となる可能性とその理由 – Ars Technica

AI-generated code could be a disaster for the software supply chain. Here’s why. – Ars Technica

403 Forbidden

AIが生成したコンピュータコードには、存在しないサードパーティライブラリへの参照が多数含まれており、データの盗難、バックドアの設置、その他の不正行為の実行が可能な悪質なパッケージで正当なプログラムを汚染するサプライチェーン攻撃の絶好の機会を作り出していることが、新たに発表された研究で明らかになった。

研究者らは、この研究のために30のテスト(Pythonプログラミング言語で16件、JavaScriptで14件)を実行し、テストごとに19,200件のコードサンプルを生成しました。合計576,000件のコードサンプルに含まれる223万件のパッケージ参照のうち、440,445件(19.7%)は存在しないパッケージを指していました。この440,445件のパッケージ幻覚のうち、205,474件は固有のパッケージ名を持っていました。

また、パッケージ幻覚は持続的であり、43%が10回のクエリで繰り返し発生していることが示されました。多くのパッケージの幻覚は、ランダムな単発のエラーではなく、実際には存在しないパッケージの特定の名前が何度も繰り返されるのです。攻撃者は、繰り返し幻覚化される存在しないパッケージを特定することで、このパターンを突くことができます。

この「依存関係混乱攻撃」(パッケージコンフュージョン)は、悪意のあるパッケージが正規のパッケージと同じ名前で公開されることで発生し、ユーザーが誤って悪意のあるコードをインストールする可能性があります。依存関係とは、別のコードが正しく動作するために必要な必須のコードコンポーネントです。

これは、ソフトウェアサプライチェーン攻撃で使用される手法の一つであり、ソフトウェアのソースコードに悪意を持たせ、下流のすべてのユーザーに感染させることを狙っています。

これらの結果は、LLMの出力が本質的に信頼できないことを示すものであり、今後5年以内にコードの95%がAIによって生成されるとの予測もある中、開発者は注意が必要です。

We Have a Package for You! A Comprehensive Analysis of Package Hallucinations
by Code Generating LLMs
https://arxiv.org/pdf/2406.10279

Translate »
タイトルとURLをコピーしました