OpenAI 推出强化微调技术，助力开发者打造专家模型

“shipmas” 新品发布周期第二日

12 月 7 日消息，OpenAI 启动了为期 12 天的 “shipmas” 新品发布周期，将推出一系列新功能、新产品以及相关演示。本次活动第二日，OpenAI 推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。

强化微调技术简介

该项目通过全新的模型定制技术，让开发者可以使用高质量任务集对模型进行微调，并利用参考答案评估模型的响应，从而提升模型在特定领域任务中的推理能力和准确性。开发人员能够使用数十到数千个高质量任务，定制 OpenAI 的模型，并使用提供的参考答案对模型的响应进行评分。官方表示这项技术强化了模型推理类似问题的方式，并提高了其在该领域特定任务上的准确性。

RFT 与监督式微调的区别

RFT 与监督式微调不同，它不是让模型模仿输入，而是教模型以全新的方式进行推理，通过对模型答案进行评分并强化正确的推理路线，RFT 只需少量示例即可显著提高模型性能。

适用领域与目标群体

RFT 支持用户利用自己的黄金数据集创建独特的模型，并将其应用于法律、金融、工程、保险等需要专业知识的领域。OpenAI 鼓励研究机构、高校和企业申请，特别是那些目前由专家领导执行一系列狭窄复杂任务，并且将受益于人工智能协助的机构。

早期测试与未来展望

参与者可提前访问 Alpha 版强化微调 API，并在特定领域任务中进行测试，此外 OpenAI 鼓励参与者分享数据集，共同改进 OpenAI 模型。OpenAI 预计 2025 年初公开发布强化微调功能。

CEO 的评价

OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）表示：“强化微调，效果出奇地好；它是我 2024 年最大的惊喜之一。”

总结

OpenAI 在 “shipmas” 新品发布周期的第二日推出了强化微调技术，为开发者和机器学习工程师提供了强大的工具，帮助他们在特定复杂领域任务中打造专家模型。通过少量高质量任务集和参考答案评估，RFT 显著提升了模型的推理能力和准确性，特别适用于法律、金融、工程、保险等专业领域。OpenAI 鼓励相关机构参与早期测试，共同改进和推广这一创新技术。