亚利桑那州立大学科研团队测试 OpenAI o1 模型的规划能力

来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究发现,虽然 o1 模型有了长足的进步,但它依然有不少 “槽点”。

PlanBench 基准简介

PlanBench 于 2022 年上线,用于考察 AI 系统的规划能力。它包括 600 个来自 Blocksworld 领域的任务,任务要求按照特定顺序堆叠积木。

OpenAI o1 模型成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型以 97.8% 的准确率惊艳四座,远超之前的顶尖语言模型 LLaMA 3.1 405B(62.6% 的准确率)。这结果就像打游戏时突然满级装备,全场 MVP。

在难度更高的 “Mystery Blocksworld” 加密版本中,传统模型几乎 “团灭”,而 OpenAI 的 o1 模型却杀出重围,准确率达到 52.8%。

研究人员还搞了个 “小动作”,测试了一种新的随机变体,排除 o1 的成绩可能是 “作弊带来的”。在这次测试中,o1 的准确率降到 37.3%,但依旧甩开其它模型几条街。

规划步骤越多,性能下降越明显

任务一复杂,o1 模型立马 “掉链子”。在那些需要 20 到 40 个规划步骤的任务中,o1 的准确率从之前的 97.8% 直线下滑到 23.63%。

此外,这个模型在识别无法解决的任务时,也显得 “智商不在线”,只有 27% 的时间能正确识别出来。在 54% 的情况下,o1 模型还 “脑补” 出了一堆根本不可能完成的计划。

“量子改进”,但并非突破性

虽然 o1 在基准性能上实现了所谓的 “量子改进”(Quantum improvement),但它并不能保证所有解决方案都正确。经典的快速向下算法等规划算法,可以在更短的时间内实现完美的准确性。

研究还吐槽了 o1 的高资源消耗,运行这些测试花费近 1900 美元,而经典算法在普通电脑上运行几乎不花钱。

研究总结

研究人员强调,评估 AI 系统时必须综合考虑准确性、效率、成本和可靠性。研究结果表明,尽管像 o1 这样的 AI 模型在复杂推理任务上有所进步,但这些能力还不够强大,仍需努力。