FrontierMath:评估 AI 数学推理能力的新基准测试集

新基准测试集发布

11 月 15 日消息,研究机构 Epoch AI 公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。

高难度数学问题

与现有如 GSM-8K、MATH 等测试题集不同,FrontierMath 中的数学问题号称特别复杂,涵盖了现代数学中的数论、代数和几何等领域。这些题目的难度极高,甚至人类专家解答往往需要数小时甚至数天的时间。

专家设计题目

FrontierMath 的题目由人工智能学方面资深专家设计,不仅要求 AI 理解数学概念,还需要具备复杂情境的推理能力,以避免模型利用以前学习过的类似题目进行比对作答。

初步测试结果

研究机构利用 FrontierMath 对当前市场上的 AI 模型进行初步测试,结果发现这些模型普遍表现不佳。即便是此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型,在 FrontierMath 中的解题成功率也均低于 2%。

AI 解题的主要困难

研究团队指出,AI 在解决高级数学问题时的主要困难在于这些模型通常依赖于训练数据中学过的类似题目来生成答案,而不是对问题本身的逻辑结构进行真正的理解和推理。这意味着目前业界大部分 AI 模型只要遇到没学过的题目,就容易出错,而这一原则性的问题无法通过 “暴力增加模型规模” 解决,需要研发人员从模型推理架构层面进行深入改造。

总结

FrontierMath 是一款全新的 AI 模型数学基准测试集,旨在评估 AI 模型的数学推理能力。其高难度题目要求 AI 理解复杂数学概念并进行情境推理。初步测试结果显示,当前市场上的 AI 模型在 FrontierMath 上表现不佳,成功率极低。这表明,AI 在解决高级数学问题时仍存在重大挑战,需要从模型推理架构层面进行深入改进,而不仅仅是增加模型规模。