新たな挑戦的なAGIテストがほとんどのAIモデルを困惑させる

A new, challenging AGI test stumps most AI models | TechCrunch

A new, challenging AGI test stumps most AI models | TechCrunch

The Arc Prize Foundation has a new test for AGI that leading AI models from Anthropic, Google, and DeepSeek score poorly...続きを読む

2025年3月24日、Arc Prize Foundationが新しいAGI（人工一般知能）テスト「ARC-AGI-2」を発表しました。このテストは、AIモデルの一般知能を測定するために設計されており、多くのAIモデルが苦しんでいます。

ARC-AGI-2は、異なる色の正方形から視覚パターンを特定し、正しい「回答」グリッドを生成するパズルのような問題で構成されており、AIが未経験の問題に適応する能力を試すことを目的としています。

テストを受けた400人以上の人間は平均60%の正答率を達成しましたが、AIモデルは1%から1.3%のスコアにとどまっています。また、ARC-AGI-2はAIモデルが新しいスキルを効率的に習得できるかどうかを評価する新しい基準を導入しており、単なる計算能力に依存しない設計になっています。

さらに、Arc Prize Foundationは、ARC-AGI-2テストで85%の正答率を達成し、タスクあたり0.42ドルのコストで済むよう挑戦する「Arc Prize 2025」コンテストも発表しました。この新しいテストは、AIの進歩を測るための新しい基準を求める声が高まる中で登場しました。

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.

It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp
— François Chollet (@fchollet) March 24, 2025

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31