OpenAI 引入视觉微调功能,为 GPT-4o 模型带来新突破

OpenAI 公司近日发布博文,宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能,除了文本之外,还支持对图像进行微调。

微调功能的应用与成效

OpenAI 表示,自开放微调 GPT-4o 以来,数十万开发者使用文本数据集对该模型进行了微调,从而提升了其在特定任务上的表现。此次新增的视觉微调功能,将为开发者提供更多的灵活性和应用场景。

在博文中,OpenAI 展示了一些合作伙伴的微调案例：

Garb：通过视觉微调,提升了交通标志定位准确性 20% 和限速标志定位 13%。
Automat：成功率从 16.60% 提升至 61.67%,在信息提取任务中 F1 分数提升 7%。
Coframe：通过微调提升了网站生成的一致性和布局正确性 26%。

定价与用户体验

OpenAI 宣布向所有付费用户开放视觉微调功能。为了吸引更多用户尝试,在 2024 年 10 月 31 日之前,每天将免费提供 100 万训练 token,用于针对 GPT-4o 模型进行图像微调。

从 2024 年 10 月 31 日之后,GPT-4o 微调训练将开始收费,具体价格如下：

每 100 万训练 token 收费 25 美元（当前约 176 元人民币）。
推理每 100 万 token 输入收费 3.75 美元（当前约 26.3 元人民币）。
推理每 100 万 token 输出收费 15 美元（当前约 105 元人民币）。

未来展望

通过引入视觉微调功能,OpenAI 再次展示了其在 AI 技术领域的创新能力。此次更新不仅为开发者提供了更多的工具和选择,也为 GPT-4o 模型的应用场景开辟了新的可能性。未来,随着技术的不断演进和用户需求的变化,OpenAI 有望继续优化和扩展这一功能,为用户提供更强大、更全面的 AI 服务。

总结

OpenAI 通过引入视觉微调功能,为 GPT-4o 模型增加了新的维度和应用场景。通过与合作伙伴的实际案例展示,这一功能的潜力和效果得到了验证。未来,随着定价策略的调整和功能的不断优化,OpenAI 将继续推动 AI 技术的发展,为开发者和用户提供更高效、更便捷的解决方案。这一举措不仅体现了 OpenAI 在 AI 领域的创新力,也为未来的技术应用带来了新的可能性。