首页 > 业界资讯 > 正文

OpenAI推出强化微调技术 助力精准定制o4-mini模型

【太平洋科技快讯】5月9 日,OpenAI 在其紧凑型推理模型 o4-mini 上推出了强化微调技术(Reinforcement Fine-Tuning, RFT),为定制基础模型以适应特定任务提供了强大工具。

OpenAI 的强化微调技术(RFT)将强化学习原理融入语言模型的微调过程。这一方式打破了传统微调模式,开发者不再仅仅依赖于标注数据,而是可以通过设计任务特定的评分函数(grader)来评估模型输出。这些评分函数根据自定义标准(例如准确性、格式或语气)为模型表现打分,模型则通过优化奖励信号逐步学习,生成符合期望的行为。这种方法在处理难以定义标准答案的复杂任务时尤为有效,例如在医疗领域,开发者可以通过程序评估解释的清晰度与完整性,指导模型改进。

o4-mini 是 OpenAI 于 2025 年 4 月发布的一款紧凑型推理模型,支持文本和图像输入,擅长结构化推理和链式思维提示(chain-of-thought prompts)。通过在 o4-mini 上应用 RFT,OpenAI 为开发者提供了一个轻量但强大的基础模型,适合高风险、领域特定的推理任务,其计算效率高,响应速度快,非常适合实时应用场景。

使用 RFT 技术需要完成四个步骤:设计评分函数、准备高质量数据集、通过 OpenAI API 启动训练任务、持续评估和优化模型表现。多家早期采用者已展示 RFT 在 o4-mini 上的潜力,凸显了 RFT 在法律、医疗、代码生成等领域的定制化优势。

据悉,RFT 目前向认证组织开放,训练费用为每小时 100 美元。若使用 GPT-4o 等模型作为评分工具,则额外按标准推理费率计费。为了鼓励数据共享,OpenAI 还推出激励措施,同意共享数据集用于研究的组织可享受 50% 的训练费用折扣。

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
为您推荐
  • 相关阅读
  • 业界资讯
  • 手机通讯
  • 电脑办公
  • 新奇数码
  • 软件游戏
  • 科学探索