阿里通义千问推出 CodeElo 基准测试,评估大语言模型编程水平

项目背景

1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型（LLM）的编程水平。大语言模型的 AI 应用之一就是生成和补全代码,但现阶段评估其编程真实能力存在诸多挑战。

现有基准测试的局限性

现有的基准测试如 LiveCodeBench 和 USACO 存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。

CodeElo 的创新评估体系

Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。CodeElo 的题目来自以严格编程竞赛闻名的 CodeForces 平台,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。

CodeElo 三大核心要素

全面的问题选择：题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。
稳健的评估方法：提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。
标准化的评级计算：Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者；开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。

总结

阿里通义千问推出的 CodeElo 基准测试,通过 Elo 评级系统评估大语言模型的编程水平,解决了现有基准测试的诸多局限性。测试结果显示,虽然一些模型表现出色,但在某些复杂算法方面仍需改进。CodeElo 为评估和提升 LLM 的编程能力提供了全面、稳健和标准化的工具,推动了 AI 编程技术的发展。