AUDUSD
0.6317
(-0.63%)
DXY
103.72
(0.24%)
EURUSD
1.0867
(-0.32%)
GBPUSD
1.2964
(-0.31%)
USCL
67.18
(0.4%)
USDCNH
7.2427
(0.18%)
USDJPY
148.5985
(-0.06%)
XAUUSD
3045.63
(-0.07%)
注册 / 登录

快讯

当前位置:首页 > 快讯

【首个端到端强化微调平台发布 支持无服务器和端到端训练方法】今天凌晨,知名大模型训练、开发平台Predibase发布了,

【首个端到端强化微调平台发布 支持无服务器和端到端训练方法】今天凌晨,知名大模型训练、开发平台Predibase发布了,首个端到端强化微调平台(RFT)。与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。也就是说,你只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。通过RFT,Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。在Kernelbench数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct经过强化后,其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的体量却比这三个小很多。

相关新闻

实时行情

  • 资产
    现价
    涨跌
  • 美元指数DXY
    103.72
    +0.25(0.24%)
  • 欧元/美元EURUSD
    1.0867
    -0.0035(-0.32%)
  • WTI原油USCL
    67.18
    +0.27(0.4%)
  • 离岸人民币USDCNH
    7.2427
    +0.013(0.18%)
  • 美元/日元USDJPY
    148.5985
    -0.0948(-0.06%)
  • 现货黄金XAUUSD
    3045.63
    -2.12(-0.07%)

财经日历

查看更多 >>
2025-03-20 星期三
  • 16:00
    欧洲央行行长拉加德在欧洲议会经济与货币事务委员会听证会上发表讲话
    前值: --
    预期: --
    今值: --
  • 16:30
    瑞士央行公布利率决议
    前值: --
    预期: --
    今值: --
  • 17:00
    欧洲央行公布经济公报
    前值: --
    预期: --
    今值: --
  • 18:00
    1月工作日调整后建筑业产出同比
    前值: -0.1
    预期: --
    今值: --
  • 18:00
    1月季调后建筑业产出环比
    前值: --
    预期: --
    今值: --
  • 19:00
    3月CBI工业物价预期差值
    前值: 19
    预期: 20
    今值: --
广告合作