AI生成コードはソフトウェアサプライチェーンにとって大惨事となる可能性とその理由 – Ars Technica

AI-generated code could be a disaster for the software supply chain. Here’s why. – Ars Technica

AI-generated code could be a disaster for the software supply chain. Here’s why.

LLM-produced code could make us much more vulnerable to supply-chain attacks.

AIが生成したコンピュータコードには、存在しないサードパーティライブラリへの参照が多数含まれており、データの盗難、バックドアの設置、その他の不正行為の実行が可能な悪質なパッケージで正当なプログラムを汚染するサプライチェーン攻撃の絶好の機会を作り出していることが、新たに発表された研究で明らかになった。

研究者らは、この研究のために30のテスト（Pythonプログラミング言語で16件、JavaScriptで14件）を実行し、テストごとに19,200件のコードサンプルを生成しました。合計576,000件のコードサンプルに含まれる223万件のパッケージ参照のうち、440,445件（19.7%）は存在しないパッケージを指していました。この440,445件のパッケージ幻覚のうち、205,474件は固有のパッケージ名を持っていました。

また、パッケージ幻覚は持続的であり、43%が10回のクエリで繰り返し発生していることが示されました。多くのパッケージの幻覚は、ランダムな単発のエラーではなく、実際には存在しないパッケージの特定の名前が何度も繰り返されるのです。攻撃者は、繰り返し幻覚化される存在しないパッケージを特定することで、このパターンを突くことができます。

この「依存関係混乱攻撃」(パッケージコンフュージョン)は、悪意のあるパッケージが正規のパッケージと同じ名前で公開されることで発生し、ユーザーが誤って悪意のあるコードをインストールする可能性があります。依存関係とは、別のコードが正しく動作するために必要な必須のコードコンポーネントです。

これは、ソフトウェアサプライチェーン攻撃で使用される手法の一つであり、ソフトウェアのソースコードに悪意を持たせ、下流のすべてのユーザーに感染させることを狙っています。

これらの結果は、LLMの出力が本質的に信頼できないことを示すものであり、今後5年以内にコードの95%がAIによって生成されるとの予測もある中、開発者は注意が必要です。

We Have a Package for You! A Comprehensive Analysis of Package Hallucinations
by Code Generating LLMs
https://arxiv.org/pdf/2406.10279

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31