阿里通义千问推出 CodeElo 基准测试,评估大语言模型编程水平
项目背景
1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。大语言模型的 AI 应用之一就是生成和补全代码,但现阶段评估其编程真实能力存在诸多挑战。
现有基准测试的局限性
现有的基准测试如 LiveCodeBench 和 USACO 存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。
CodeElo 的创新评估体系
Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。CodeElo 的题目来自以严格编程竞赛闻名的 CodeForces 平台,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。
CodeElo 三大核心要素
-
全面的问题选择:题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。
-
稳健的评估方法:提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。
-
标准化的评级计算:Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案。
测试结果
在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者;开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。
总结
阿里通义千问推出的 CodeElo 基准测试,通过 Elo 评级系统评估大语言模型的编程水平,解决了现有基准测试的诸多局限性。测试结果显示,虽然一些模型表现出色,但在某些复杂算法方面仍需改进。CodeElo 为评估和提升 LLM 的编程能力提供了全面、稳健和标准化的工具,推动了 AI 编程技术的发展。