DeepSeek-R1模型训练方法发布
时间:2025-09-18 12:18:58来源:科技日报


【资料图】

DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

标签:

生活指南
  • 中国电子商会会长王宁拜会俄罗斯工业和贸易部副部长什巴克-焦点报道

     8月20日,中国电子商会会长王宁应邀前往莫斯科,拜会俄罗斯工

  • 参展指南|一文详解2025全球智能机械与电子产品博览会

     在全球科技步入白热化阶段,粤港澳⼤湾区依托⼀国两制制度优

  • 2025年中国内地电影暑期档票房破50亿元

    据灯塔专业版数据,截至北京时间7月27日11时23分,中国内地电影暑期

  • 锚定新质生产力 A股并购重组浪潮涌动 视点

    在政策支持之下,近段时间以来,A股市场并购重组活跃度持续攀升,地

  • 专业与服务并举 东方雨虹助力“好房子”品质构筑

    适应人民群众高品质居住需要,完善标准规范,推动建设安全、舒适、

  • 中国经济半年报|金融总量合理增长 信贷结构持续优化——透视上半年金融数据

    14日,上半年我国金融统计数据出炉。今年在适度宽松的货币政策支持

  • 水利部针对广东启动洪水防御Ⅳ级应急响应

    据水利部网站消息,据预报,受台风丹娜丝环流影响,7月9日至11日,

  • 历史规律再现!A股或迎“924”行情后第五次调整 牛市蓄势的下蹲?

    A 股自2024年9月24日 924 行情 启动以来,3400 点关口便如同多

  • 今起试行 中国单方面免签“朋友圈”再增5国

    今天起,中方对巴西、阿根廷、智利、秘鲁、乌拉圭5国持普通护照人员

  • 深蓝汽车邓承浩:丰富产品体系,深耕海外市场,共绘品牌向上蓝图

    在前不久落幕的2025年上海车展上,深蓝汽车邓承浩就深蓝汽车的市场

  • 2025(第二届)全国大学生讲解大会在大同启幕

    2025(第二届)全国大学生讲解大会16日在大同古城华严寺广场开幕。本

  • 脑残粉是什么意思?什么是脑残粉?

    脑残粉是一个网络用语,通常用来形容那些对某个明星、偶像、事物或

  • 长城汽车总裁穆峰:通过油电协同技术实现多重优势

      4月23日,第二十一届上海国际汽车工业展览会开幕。车展

  • 2025亚足联中国女子五人制足球亚洲杯在呼和浩特开战

    2025亚足联中国女子五人制足球亚洲杯5月6日晚间在内蒙古自治区呼和

  • “山水对话”推动黄山市加强与奥地利文旅合作

    由黄山市主办的文化旅游推介会,于24日下午在阿尔卑斯山脚下的奥地

  • 迎客百余日 北京民企会客厅“会”出成果几何?

    去年12月10日,北京民企会客厅在丰台区丰汇中心开门迎客。在市、区

  • 民生
    • 电影《生还》“铭记·新生”首映礼在京举行 将于9月3日全国上映 消息

    • 锁凌燕:“保险+”新范式让银发岁月更有保障 每日视点

    • 困在转型里的男装

    • 关于“银发游”,老人们都关注什么?