月之暗面发布视觉思考模型 k1,挑战 OpenAI 等巨头
k1 模型的发布与亮点
12 月 16 日,月之暗面 Kimi 正式发布了其最新的视觉思考模型 k1。这款模型基于强化学习技术,原生支持端到端图像理解和思维链技术,并将其能力扩展到数学之外的更多基础科学领域。月之暗面官方表示,k1 模型在数学、物理、化学等基础科学学科的基准能力测试中,表现超过了 OpenAI 的 o1、GPT-4o 以及 Claude 3.5 Sonnet。
k1 模型的全面上线
新发布的 k1 视觉思考模型已在最新版的「Kimi 智能助手」Android 和 iPhone 手机 App 以及网页版kimi.com上线。用户可以在「Kimi 视觉思考版」中拍照或上传图片,体验模型的强大功能。该版本会完整呈现推理思维链 CoT,让用户不仅能看到答题结果,还能看到模型思索答案的全过程。
k1 模型的训练与优化
从模型训练的角度来看,k1 视觉思考模型的训练分为两个阶段:首先通过预训练得到基础模型,然后在基础模型上进行强化学习训练。k1 的基础模型重点优化了字符识别能力,在 OCRBench 上取得了 903 分的优异成绩,并在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分别取得了 69.1、66.7 和 96.9 的高分。
强化学习的突破与优化
月之暗面表示,k1 模型在强化学习后训练的过程中,在数据质量和学习效率方面做了进一步优化,并在强化学习的规模化(scaling)上取得了新的突破。这些优化使得 k1 模型在科学的模型能力基准测试中表现更加出色。
自主构建的标准化测试集
由于市面上缺乏针对基础科学学科的图形测试集,Kimi 模型研发团队自主构建了一个标准化的测试集 Science Vista,涵盖不同难度的数理化图片题目,并且从分布上与实际用户需求较为匹配。该测试集将开放给全行业,用户可申请在许可范围内使用。
k1 模型的局限性与未来展望
尽管 k1 模型在多个方面表现出色,但月之暗面在内部测试中也发现了一些局限性。例如,在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,k1 模型仍有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。
总结
月之暗面的 k1 视觉思考模型的发布,展示了其在基础科学领域的强大实力和创新能力。尽管在某些方面仍有提升空间,但 k1 模型的问世无疑为 AI 领域注入了新的活力,并为未来的技术发展提供了更多可能性。