
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、AIの知能を測定するために設計されたベンチマークであり、特にAIが未知のタスクに対してスキルを効率的に習得する能力を評価します。従来のAIベンチマークは主に出力精度やスキルを測定することに焦点を当てていますが、ARC-AGIは知能の本質的な側面を捉えることを目指しています。
ARC Prizeは、汎用人工知能(AGI)の実現に向けた新しいアイデアを定義し、評価することを目的としています。このコンテストは、AIの進歩を促進するためのグローバルなイノベーション環境を構築することに努めています。ARC Prizeの主催者は、現時点ではAGIは存在しておらず、イノベーションは依然として制約されていると考えています。
ARC-AGIは、AIの知能を測るための唯一のベンチマークとされており、AIが新しい問題にどれだけ迅速に適応できるかを評価します。これは、AIが限られたデータからどれだけ効率的に学習し、一般化できるかを示す重要な指標です。従来のスキル測定では、AIの能力が過去のデータや経験に依存するため、真の知能を反映しない可能性があります。
このように、ARC-AGIとARC Prizeは、AIの知能をより正確に評価し、AGIの実現に向けた重要なステップとされています。
DeepSeekは、独自の推論モデル「DeepSeek-R1」を発表し、OpenAIのo1と同等のパフォーマンスを実現しました。特に、DeepSeek-R1は運用コストがo1のわずか3.6%であり、AI業界で注目されています。
- ARC-AGIベンチマーク:
- DeepSeek-R1とR1-Zeroは、ARC-AGIでそれぞれ15.8%と14%のスコアを記録。
- OpenAIのo1は低コンピューティングモードで20.5%、高モードで35%のスコアを持つ。
- o3は低モードで75.7%、高モードで87.5%のスコアを達成。
- コストと効率:
- DeepSeek-R1の平均運用コストは非常に低く、o1と比較しても大幅にコスト削減が可能。
- 推論システムの違い:
- OpenAIのモデルはクローズドであり、詳細な処理プロセスは不明。
- DeepSeekのモデルはオープンソースであり、推論システムの機能が明らかになっている。
- 新しいアプローチ:
- DeepSeekは、CoT(思考連鎖)プロセスのトレーニングに人間のラベルを追加し、強化学習を利用している。
- R1-Zeroは強化学習に依存し、SFT(教師あり微調整)を使用しない。
ARC Prizeは、DeepSeekのアプローチがAIの推論能力を向上させる可能性があると評価しています。特に、オープンで再現可能なモデルであることが、AGI(汎用人工知能)への道を開くと期待されています。DeepSeekは、AI業界における重要な革新を促進しているとされています。
コメント