
AIモデルの進歩として報告されるものは「ほとんどでたらめ」ではないのかという指摘
AI技術の発展はすさまじく、毎月のように新しいAIモデルが生まれては会話の自然さや計算能力などのスコアがアップデートされています。しかし、AIセキュリティツールを構築するエンジニアのディーン・バレンタイン氏は「最近のAIモデルの進歩は、ほと...続きを読む
AI技術は急速に進化しており、新しいモデルが毎月登場していますが、その進歩が実際には「ほとんどでたらめ」ではないかという指摘があります。特に、AIセキュリティツールを開発するディーン・バレンタイン氏がこの問題を提起しています。
バレンタイン氏は、AIモデルの評価に使用されるベンチマークが統一されておらず、実際の能力を正確に反映していない可能性があると指摘しています。彼は、AIの能力を測定するための「正しい尺度」が存在しないことが問題であると述べ、実際のパフォーマンスが新しいモデルの導入によって向上しないことが多いと報告しています。例えば、Claude 3.5 Sonnetの導入後も、セキュリティツールの性能に大きな変化が見られなかったとされています。さらに、2025年のアメリカ数学オリンピックの問題に対するAIモデルのパフォーマンスが低かったことが示されており、これは従来のベンチマークが数学的推論を必要とするタスクに対して不十分であることを示唆しています。
バレンタイン氏は、AIモデルにポケモンゲームをプレイさせる「ClaudePlaysPokemon」を例に挙げ、これがAIの能力をより正確に評価する指標になる可能性があると述べています。
最後に、バレンタイン氏はAIが社会の中心になると予測し、その影響を高潔なものにすることが重要であると強調しています。このように、AIモデルの進歩には多くの疑問があり、今後の評価基準の確立が求められています。
On Recent AI Model Progress – ZeroPath Blog
https://zeropath.com/blog/on-recent-ai-model-progress

