People are using Super Mario to benchmark AI now | TechCrunch

ポケモンはAIにとって厳しいベンチマークだと思っていたが、ある研究者グループはスーパーマリオブラザーズはさらに厳しいと主張している。
カリフォルニア大学サンディエゴ校のHao AI Labが、AIの性能を評価するためにスーパーマリオブラザーズを使用しています。この研究では、AnthropicのClaude 3.7が最も良い結果を出し、次いでClaude 3.5が続きました。一方、GoogleのGemini 1.5 ProやOpenAIのGPT-4oは苦戦しました。
この実験では、オリジナルの1985年版とは異なるエミュレーターを使用し、GamingAgentというフレームワークを通じてAIにマリオを操作させました。AIは、障害物や敵が近くにいる場合の動きやジャンプの指示を受け取り、Pythonコードを生成してマリオを操作しました。
興味深いことに、問題を段階的に考える「推論モデル」は、リアルタイムゲームでのプレイにおいては「非推論モデル」よりもパフォーマンスが劣ることが分かりました。これは、推論モデルが行動を決定するのに時間がかかるためで、スーパーマリオではタイミングが非常に重要です。
ゲームを使ったAIのベンチマークは長年行われていますが、専門家の中には、AIのゲームスキルと技術の進歩との関連性に疑問を呈する声もあります。最近のゲームベンチマークは、AIの評価基準に関する「評価危機」を示唆していると、OpenAIの研究者アンドレイ・カルパティは述べています。
このように、AIがマリオをプレイする様子を観察することはできますが、AIの実際の能力を測るための指標は依然として不明瞭です。

