スーパーマリオを使ったAIのベンチマーク

People are using Super Mario to benchmark AI now | TechCrunch

People are using Super Mario to benchmark AI now | TechCrunch

Thought Pok??mon was a tough benchmark for AI? One group of researchers argues that Super Mario Bros. is even tougher.

ポケモンはAIにとって厳しいベンチマークだと思っていたが、ある研究者グループはスーパーマリオブラザーズはさらに厳しいと主張している。

カリフォルニア大学サンディエゴ校のHao AI Labが、AIの性能を評価するためにスーパーマリオブラザーズを使用しています。この研究では、AnthropicのClaude 3.7が最も良い結果を出し、次いでClaude 3.5が続きました。一方、GoogleのGemini 1.5 ProやOpenAIのGPT-4oは苦戦しました。

この実験では、オリジナルの1985年版とは異なるエミュレーターを使用し、GamingAgentというフレームワークを通じてAIにマリオを操作させました。AIは、障害物や敵が近くにいる場合の動きやジャンプの指示を受け取り、Pythonコードを生成してマリオを操作しました。

興味深いことに、問題を段階的に考える「推論モデル」は、リアルタイムゲームでのプレイにおいては「非推論モデル」よりもパフォーマンスが劣ることが分かりました。これは、推論モデルが行動を決定するのに時間がかかるためで、スーパーマリオではタイミングが非常に重要です。

ゲームを使ったAIのベンチマークは長年行われていますが、専門家の中には、AIのゲームスキルと技術の進歩との関連性に疑問を呈する声もあります。最近のゲームベンチマークは、AIの評価基準に関する「評価危機」を示唆していると、OpenAIの研究者アンドレイ・カルパティは述べています。

このように、AIがマリオをプレイする様子を観察することはできますが、AIの実際の能力を測るための指標は依然として不明瞭です。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31