Crowdsourced AI benchmarks have serious flaws, some experts say | TechCrunch

AIラボが最新モデルの評価にクラウドソーシングされたベンチマークプラットフォーム、特にChatbot Arenaに依存していることが取り上げられています。しかし、専門家たちはこのアプローチに深刻な問題があると指摘しています。
ワシントン大学のエミリー・ベンダー教授は、Chatbot Arenaが「有効なベンチマーク」としての基準を満たしていないと批判し、出力の選好が実際の好みと関連しているかどうかの証拠が不足していると述べています。また、AI企業のLesanの共同創設者アズメラシュ・テカ・ハドグは、AIラボがベンチマークを利用して誇張された主張を行っていると指摘し、特にMetaのLlama 4 Maverickモデルに関する最近の論争を例に挙げています。
さらに、評価者に対する報酬の必要性が強調されており、アスピン研究所のクリスティン・グロリアは、データラベリング業界の問題を踏まえ、AIラボは評価者に適切な報酬を支払うべきだと述べています。ハドグは、ベンチマークは静的なデータセットではなく、動的であるべきだと主張し、異なる分野に特化した評価が必要だとしています。
Gray Swan AIのCEOマット・フレデリクソンは、公共のベンチマークは「有料のプライベート評価」の代わりにはならないと認め、開発者は内部ベンチマークや専門知識を持つ契約チームに依存する必要があると述べています。最後に、LM Arenaの創設者であるUCバークレーのAI博士課程学生ウェイ・リン・チアンは、Chatbot Arenaの設計に問題があるのではなく、ラボがそのポリシーを誤解しているとし、評価の透明性を確保するための取り組みを強調しています。

