业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 智能时代>人工智能

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

量子位 2025/1/26 15:09:11 责编：清源

评论：

当初 OpenAI 抛出 Sora 大饼，一时间 Open Sora 项目热火朝天。

现在，这股 Open 的风也是反向吹起来了，最新目标，正是国产大模型 DeepSeek-R1。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

Open R1 项目由 HuggingFace 发起，联合创始人兼 CEO Clem Delangue 是这么说的：

我们的科学团队已经开始致力于完全复制和开源 R1，包括训练数据、训练脚本……
我们希望能充分发挥开源 AI 的力量，让全世界每个人都能受益于 AI 的进步！我相信这也有助于揭穿一些神话。

HuggingFace 振臂一呼，立刻欢呼者众。项目上线仅 1 天，就在 GitHub 上刷下 1.9k 标星。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

看来这一波，DeepSeek-R1 真是给全球大模型圈带来了不小的震撼，并且影响还在持续。

Open R1

不过话说回来，DeepSeek-R1 本身就是开源的，HuggingFace 搞这么个“Open R1”项目，又是为何？

官方在项目页中做了解释：

这个项目的目的是构建 R1 pipeline 中缺失的部分，以便所有人都能在此之上复制和构建 R1。

HuggingFace 表示，将以 DeepSeek-R1 的技术报告为指导，分 3 个步骤完成这个项目：

第 1 步：用 DeepSeek-R1 蒸馏高质量语料库，来复制 R1-Distill 模型。
第 2 步：复制 DeepSeek 用来构建 R1-Zero 的纯强化学习（RL）pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。
第 3 步：通过多阶段训练，从基础模型过渡到 RL 版本。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

结合 DeepSeek 的官方技术报告来看，也就是说，Open R1 项目首先要实现的，是用 R1 数据蒸馏小模型，看看效果是不是像 DeepSeek 说的那么好：

DeepSeek 开源了 6 个用 R1 蒸馏的小模型，其中蒸馏版 Qwen-1.5 甚至能在部分任务上超过 GPT-4o。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

接下来，就是按照 DeepSeek 所说，不用 SFT，纯靠 RL 调教出 R1-Zero，再在 R1-Zero 的基础上复刻出性能逼近 o1 的 R1 模型。

其中多阶段训练是指，R1 技术报告提到，DeepSeek-R1 训练过程中引入了一个多阶段训练流程，具体包括以下 4 个阶段：

冷启动

用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始的推理能力

面向推理的强化学习

在第一个 SFT 阶段的基础之上，用和训练 R1-Zero 相同的大规模强化学习方法，进一步提升模型的推理能力，特别是应对编程、数学、科学和逻辑推理任务的能力。

拒绝采样和监督微调

再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。

针对所有场景的强化学习

这次强化学习的重点是让模型行为与人类偏好保持一致，提升模型的可用性和安全性。

目前，在 GitHub 仓库中，已经可以看到这几个文件：

GRPO 实现
训练和评估代码
合成数据生成器

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

阿尔特曼坐不住了

有意思的是，R1 刷屏之中，阿尔特曼也坐不住了。

这不，他又带来了 o3-mini 的最新剧透：

ChatGPT Plus 会员可以每天获得 100 条 o3-mini 查询。
Plus 会员马上就能用上 operator 了，我们正在尽力！
下一个智能体 Plus 会员首发就能用。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

这话一出，𝕏的空气中充满了快乐的气息（doge）：

哇！DeepSeek 正在让 OpenAI 主动大甩卖诶！

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

参考链接：

[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

Open R1

阿尔特曼坐不住了

相关文章