Gemini 2.5 Pro 深夜上线,谷歌 AI 推理能力再创巅峰

Gemini 2.5 Pro 上线,推理能力卓越

刚刚深夜上线的 Gemini 2.5 Pro 是谷歌最新发布的「思考」模型,专为复杂任务打造,推理能力强大,一经诞生便横扫各大榜单,拿下各类 TOP 1,并创下历史上最大分数飞跃纪录。该模型能够在回应前先进行思考推理,从而提升性能并改善准确性。

谷歌的世界最强模型

谷歌称,Gemini 2.5 Pro 是世界上最强大的模型,具备统一的推理能力以及用户所喜爱的 Gemini 的所有功能(长上下文、工具等)。它在多个基准测试中达到了 SOTA(最先进)水平,并且以显著的优势在 LMArena 上排名第一,登顶 Arena 排行榜,创下历史最大分数飞跃,比 Grok-3 / GPT-4.5 整整高出了 40 分!

全面横扫各大领域

在代号「nebula」的测试中,Gemini 2.5 Pro 横扫所有类别夺得第一,并独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军。在困难提示词和编程两大领域,它与 Grok-3 / GPT-4.5 拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首。此外,Gemini 2.5 Pro 还成功登顶了视觉竞技场(Vision Arena)排行榜榜首,并在网页开发竞技场(WebDev Arena)斩获亚军宝座。

谷歌 AI 系统的推理能力

谷歌表示,在 AI 领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让 AI 更智能、更具推理能力的方法。正是在此基础上,他们在 2 月推出了第一个思考模型 Gemini 2.0 Flash Thinking,而今天,通过 Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。

推理和代码能力大幅提升

Gemini 2.5 Pro 展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。在各类需要高级推理能力的基准测试中,它都达到了 SOTA 水平。无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro 就能在 GPQA 和 AIME 2025 等数学和科学基准评测中表现卓越。而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿「人类最后的考试」中取得了 18.8% 的准确率,达到业界领先。

结论

Gemini 2.5 Pro 的上线标志着谷歌在 AI 推理能力上的又一次巨大飞跃。其强大的推理和代码能力使其在多个领域表现卓越,并在多项基准测试中达到了顶尖水平。随着技术的不断发展,Gemini 2.5 Pro 有望在更多应用场景中发挥重要作用,成为 AI 领域的领军者。