
OpenAIは2025年2月18日に、フリーランスのソフトウェアエンジニアリングタスクを評価する新しいベンチマーク「SWE-Lancer」を発表しました。このベンチマークは、Upworkから収集した1,400以上のタスクを基にしており、合計で100万ドル相当の報酬が設定されています。タスクの内容は、バグ修正から機能実装まで多岐にわたり、AIモデルが実際のエンジニアリング業務にどの程度対応できるかを測定します。
SWE-Lancerの特徴として、従来の単体テストではなく、エンドツーエンドのテストを採用している点が挙げられます。これにより、モデルは実際のユーザーのワークフローをシミュレーションし、問題の特定からデバッグ、パッチの検証までを行うことが求められます。また、タスクは複数のファイルにわたる変更やAPIとの統合を含み、技術的なスキルだけでなく、複数の提案から最適なものを選ぶ管理的な判断力も評価されます。
この新しいベンチマークは、AIモデルのパフォーマンスを実際の市場価値に基づいて評価することを目的としており、AI開発の経済的影響に関する研究を促進することが期待されています。
OpenAIは将来的な研究に役立てるためにSWE-Lancerをオープンソース化しています。SWE-LancerのソースコードはGitHubで確認可能。
GitHub – openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?”
https://github.com/openai/SWELancer-Benchmark
コメント