A new AI coding challenge just published its first results – and they aren’t pretty | TechCrunch

新しいAIコーディングチャレンジが初の結果を発表し、その結果はあまり良くないものでした。
このチャレンジは、Laude Instituteが主催し、DatabricksとPerplexityの共同創設者であるAndy Konwinski氏が設計したK Prizeというもので、AIによるソフトウェアエンジニアの能力を測ることを目的としています。
初代の受賞者はブラジルのプロンプトエンジニア、Eduardo Rocha de Andrade氏で、彼はテストの問題のうちわずか7.5%に正解しただけで、50,000ドルの賞金を獲得しました。
Konwinski氏は、「実際に難しいベンチマークを作ったことを嬉しく思う」と述べ、AIモデルがこのテストで高得点を取ることができるかどうかは、参加するモデルの質に依存すると強調しました。
K Prizeは、GitHubからの問題を使用しており、特定のトレーニングを受けたモデルが有利にならないように設計されています。
これに対し、従来のSWE-Benchでは、より高いスコアが出ていることが示されていますが、K Prizeの結果はそれとは対照的です。
この新しいチャレンジは、AIの評価問題を解決するための重要なステップと見なされており、AIの能力をより正確に測定するための新しい基準を提供することが期待されています。
Konwinski氏は、最初のオープンソースモデルが90%以上のスコアを達成した場合、100万ドルの賞金を提供することを約束しています。このような取り組みは、AIの進化を促進し、業界全体に新たな挑戦をもたらす可能性があります。

