外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......
DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。
整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。
关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。
SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。
其中一些关键亮点包括:
DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外
DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20
DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水
DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格
o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下
V3 和 R1 发布后,H100 价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用
5 万块 Hopper GPU,投资超 5 亿美金
DeepSeek 背后顶级投资者幻方量化(High-Flyer),很早就洞察到了 AI 在金融领域之外的巨大潜力,以及规模化部署的关键重要性。
基于这一认知,他们持续扩大 GPU 投资规模。
在使用数千个 GPU 集群进行模型实验后,幻方在 2021 年投资购入了 10,000 块 A100,这一决策最终证明是极具前瞻性的。
随着业务发展,他们在 2023 年 5 月决定分拆成立「DeepSeek」,以更专注地推进 AI 技术发展。由于当时外部投资者对 AI 领域持谨慎态度,幻方选择自行提供资金支持。
目前,两家公司在人力资源和计算资源方面保持密切合作。
与媒体将其描述为「副业项目」不同,DeepSeek 已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响,高级分析师估计他们在 GPU 方面的投资规模已超 5 亿美元。
据 SemiAnalysis 评估,他们拥有约 50,000 块 Hopper 架构 GPU,这些计算资源在幻方和 DeepSeek 之间共享使用,并在地理位置上进行了分散部署,用于交易、推理、训练和研究等多个领域。
根据分析,DeepSeek 在服务器方面的资本支出总额约为 16 亿美元,而运营这些计算集群的成本高达 9.44 亿美元。
150 + 顶尖人才,年薪 934 万
在人才战略方面,DeepSeek 专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。
他们经常在北京大学和浙江大学等顶尖高校举办招聘活动,现有员工中很多都来自这些学校。
公司的职位设置非常灵活,不会过分限定岗位职责,招聘广告甚至强调可以自由使用数万个 GPU 资源。
他们提供极具竞争力的薪酬待遇,据报道为优秀候选人提供的年薪可达 130 万美元以上,远超其他科技巨头和 AI 实验室的水平。
目前公司约有 150 名员工,并保持快速扩张态势。
历史经验表明,资金充足且目标明确的创业公司,往往能够突破现有技术边界。
与谷歌等大公司的繁琐决策流程相比,DeepSeek 凭借自主融资的优势,能够更快速地将创新理念付诸实践。
有趣的是,DeepSeek 在运营模式上却与谷歌相似,主要依靠自建数据中心而非外部服务提供商。
这种模式为技术创新提供了更大的实验空间,使他们能够在整个技术栈上进行深度创新。
在 SemiAnalysis 看来,DeepSeek 已经成为当今最优秀的「开源权重」(open weights)实验室,其成就超越了 Meta Llama、Mistral 等竞争对手。
训练成本不止 600 万美金
DeepSeek 的定价策略和运营效率在本周引发了广泛关注,特别是有关 DeepSeek V3 训练成本「600 万美元」的报道。
但事实上,预训练成本仅是整体投入中的一小部分。
训练成本解析
高级分析师认为,预训练阶段的支出远不能代表模型的实际总投入。
据他们评估,DeepSeek 在硬件方面的累计投资已远超 5 亿美元。在开发新架构的过程中,需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验(ablation studies)。
比如,作为 DeepSeek 重要技术突破的多头潜注意力机制(Multi-Head Latent Attention),其开发周期就长达数月,消耗了大量的人力资源和计算资源。
论文中,提到的 600 万美元仅指预训练阶段的 GPU 直接成本,这只是模型总成本的一个组成部分。
其中并未包含研发投入、硬件设施的总拥有成本(TCO)等关键要素。
举例来说,Claude 3.5 Sonnet 训练成本就达到了数千万美元。
如果这就是 Anthropic 所需的全部投入,他们就不会从谷歌筹集数十亿美元,更不会从亚马逊获得数百亿美元的投资。
这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。
算法优化,让性能差距缩小
V3 无疑是一个令人瞩目的模型,但需要在合适的参照系下评估其成就。
许多分析将 V3 与 GPT-4o 进行对比,强调 V3 超越了后者的性能。这个结论虽然正确,但需要注意 GPT-4o 是在 2024 年 5 月发布的。
在 AI 快速迭代的背景下,半年前的技术水平已显得相对陈旧。
此外,随着时间推移,用更少的计算资源实现相当或更强的性能,也符合行业发展规律。推理成本的持续下降正是 AI 进步的重要标志。
一个典型的例子是,现在可以在普通笔记本电脑上运行的小型模型,已能达到与 GPT-3 相当的性能水平,而后者在发布时需要超级计算机进行训练,且推理阶段也需要多个 GPU 支持。
换言之,算法的持续优化使得训练和推理同等性能的模型,所需的计算资源不断减少,这种趋势在行业内屡见不鲜。
目前的发展趋势表明,AI 实验室在绝对投入增加的同时,单位投入所能获得的智能水平提升更为显著。
据估计,算法效率每年提升约 4 倍,这意味着实现相同性能所需的计算资源每年减少 75%。
Anthropic CEO Dario 的观点更为乐观,认为算法优化可以带来 10 倍的效率提升。
就 GPT-3 级别的模型推理成本而言,已暴降 1200 倍。
在分析 GPT-4 成本演变时,高级分析师还观察到类似的下降趋势,尽管仍处于成本优化曲线的早期阶段。
与前述分析不同的是,这里的成本差异反映了性能提升和效率优化的综合效果,而非保持性能不变的单纯比较。
在这种情况下,算法改进和优化措施共同带来了约 10 倍的成本降低和性能提升。
值得强调的是,DeepSeek 独特之处在于他们率先实现了这一成本和性能的突破。
虽然开源模型权重的做法,此前已有 Mistral 和 Llama 等先例,但 DeepSeek 的成就仍然显著。
考虑到行业发展趋势,到今年年底,相关成本可能还会进一步下降 5 倍左右。
R1 与 o1 打平手,「推理」新范式
另一个引人关注的问题是,R1 能够达到与 o1 相当的性能水平,而 o1 仅在去年 9 月才发布。
那么,DeepSeek 是如何能在如此短的时间内,实现这一跨越的?
其关键在于,「推理」这一新范式的出现。
与传统范式相比,推理范式具有更快的迭代速度,且能以较少的计算资源获得显著收益。
正如 SemiAnalysis 在 scaling law 报告中指出的,传统范式主要依赖预训练,这种方式不仅成本越来越高,而且越来越难以实现稳定的性能提升。
新的推理范式,主要通过合成数据生成和在现有模型基础上进行后训练强化学习来提升推理能力,这使得以更低成本获得快速进展成为可能。
随着业界逐步掌握这一新范式的扩展技巧,高级分析师预计不同模型之间在能力匹配上的时间差距可能会进一步拉大。
虽然 R1 在推理性能上确实达到了相当水平,但它并非在所有评估指标上都占据优势,在许多场景下其表现甚至不如 o1。
OpenAI 最近发布的 o3 测试结果显示,其性能提升几乎呈现垂直上升趋势。
这似乎印证了「深度学习遇到了瓶颈」的说法,只是这个瓶颈的性质与以往不同。
谷歌推理模型,实力相当
在 R1 引发广泛关注的同时,一个重要事实往往被忽视:谷歌在一个月前就推出了一款更具性价比的推理模型 ——Gemini Flash 2.0 Thinking。
这个模型不仅可以直接使用,而且通过 API 提供了更长的上下文长度。
在已公布的基准测试中,Flash 2.0 Thinking 表现优于 R1,尽管基准测试并不能完全反映模型的真实能力。谷歌仅公布了 3 项基准测试结果,这显然不足以提供完整的对比。
即便如此,分析师认为谷歌的模型具有很强的稳定性,在多个方面都能与 R1 分庭抗礼,只是没有获得应有的关注度。
这可能部分源于谷歌欠佳的市场策略和用户体验,也与出乎意料的竞争者 R1 的到来有关。
需要强调的是,这些比较并不会削弱 DeepSeek 的突出成就。
正是凭借快速行动、充足资金、卓越智慧和明确目标的创业公司特质,DeepSeek 才能在推理模型的竞争中超越 Meta 这样的科技巨头。
中国 MLA 创新,让全世界抄作业
接下来,让我深入扒一扒 DeepSeek 所取得的领先实验室尚未实现的技术突破。
SemiAnalysis 高级分析师预计,DeepSeek 发布的任何技术改进,都会被西方实验室迅速复制。
那么,这些突破性进展是什么?
实际上,主要的架构创新与 V3 模型密切相关,该模型也是 R1 的基础模型。
训练(前期和后期)
不是「下一个 token 预测」,而是「多 token 预测」
DeepSeek V3 以前所未见的规模实现了多 Token 预测(MTP)技术,这些新增的注意力模块可以预测接下来的多个 Token,而不是传统的单个 Token。
这显著提高了训练阶段的模型性能,且这些模块可以在推理阶段移除。
这是一个典型的算法创新案例,实现了在更低计算资源消耗下的性能提升。
其他方面,虽然 DeepSeek 在训练中采用了 FP8 精度,但像全球一些顶尖的实验室已经采用这项技术相当长时间了。
DeepSeek V3 采用了我们常见的「混合专家模型」(MoE)架构,个由多个专门处理不同任务的小型专家模型组成的大模型,展现出强大的涌现能力。
MoE 模型面临的主要挑战是,如何确定将哪个 Token 分配给哪个子模型(即「专家」)。
DeepSeek 创新性地采用了一个「门控网络」(gating network),能够高效且平衡地将 Token 路由到相应的专家,同时保持模型性能不受影响。
这意味着路由过程非常高效,在训练过程中每个 Token 只需要调整小量参数(相较于模型整体规模)。
这既提高了训练效率,又降低了推理成本。
尽管有人担心 MoE 带来的效率提升,可能降低投资意愿,但 Dario 指出,更强大的 AI 模型带来的经济效益非常可观,任何节省的成本都会立即被投入到开发更大规模的模型中。
因此,MoE 效率提升不会减少总体投资,反而会加速 AI 规模化进程。
当前,包括 OpenAI、谷歌、Anthropic 等一些公司正专注于扩大模型的计算规模,并提高算法效率。
V3 打好了基础,RL 立大功
对于 R1 而言,它极大地受益于其强大的基础模型 ——V3,这在很大程度上要归功于强化学习(RL)。
RL 主要关注两个方面:格式化(确保输出连贯性)以及有用性与安全性(确保模型实用且无害)。
模型的推理能力,是在对合成数据集进行微调过程中自然涌现的,这与 o1 的情况类似。
值得注意的是,R1 论文中并没有提及具体的计算量,因为披露使用的计算资源,会暴露 DeepSeek 实际拥有的 GPU 数量远超过其对外宣称的规模。
这种规模的强化学习需要庞大的计算资源,特别是在生成合成数据时。
谈到蒸馏,R1 论文最引人注目的发现可能是,通过具有推理能力的模型输出来微调较小的非推理模型,使其获得推理能力。
数据集包含了约 80 万个样本,现在研究人员可以利用 R1 的思维链(CoT)输出创建自己的数据集,并借此开发具有推理能力的模型。
未来,我们可能会看到更多小模型展现出推理能力,从而提升小模型的整体性能。
多头潜注意力(MLA)
如开头所述,MLA 是一项重要的技术创新,它显著降低了 DeepSeek 模型推理成本。
与标准注意力机制相比,MLA 将每次查询所需的 KV 缓存减少了约 93.3%(KV 缓存是 Transforme 模型中的一种内存机制,用于存储表示对话上下文的数据,从而减少不必要的计算开销)。
KV 缓存会随着对话上下文的增长而不断扩大,这会造成显著的内存限制。
通过大幅减少每次查询所需的 KV 缓存量,可以相应减少每次查询所需的硬件资源,从而降低运营成本。
MLA 这项创新,特别引起了许多美国顶级实验室的关注。实际上,MLA 首次在 2024 年 5 月发布的 DeepSeek V2 中就已推出。
此外,由于 H20 芯片比 H100 具有更高的内存带宽和容量,DeepSeek 在推理工作负载方面获得了更多效率提升。
R1 并非真正动摇 o1 技术优势
在利润率方面,SemiAnalysis 发现了一个关键现象:R1 并非真正动摇了 o1 的技术优势,而是以显著更低的成本实现了相似的性能水平。
这种现象本质上符合市场逻辑,接下来高级分析师将提出一个框架,来分析未来价格机制的运作方式。
技术能力的提升往往能带来更高的利润率。
这种情况与半导体制造业的发展模式极其相似,只是节奏更快。就像台积电每当率先突破新制程时,都能获得显著的定价优势,因为他们提供了此前市场上不存在的产品。
其他落后的竞争对手(如三星、英特尔)则会采取较低的定价策略,以在性价比上达到平衡。
对芯片制造商(在这个类比中,即 AI 实验室)来说,一个有利条件是他们可以灵活调整产能分配。
当新型号能提供更优的性价比时,他们可以将产能转移到新型号的生产上。虽然旧型号仍会继续支持,但会相应减少其供应规模。
这种策略模式与当前 AI 实验室的实际运营行为高度吻合,也反映了半导体制造业的基本规律。
率先破局者,手握定价权
这很可能就是 AI 能力发展的基本规律。
率先突破到新的能力层次,将带来可观的价格溢价,而那些能够快速追赶到相同能力水平的竞争者,只能获得适度利润。
如果能为特定应用场景保留较低能力水平的产品,这些产品仍将继续存在。
但能够追赶到领先能力水平的公司,将随着每一代技术更迭而逐渐减少。
所有人见证了,R1 取得了领先水平,却采用了 0 利润率的定价策略。
这种显著的价格差异不禁让人质疑:为什么 OpenAI 的价格如此之高?这是因为他们采用了基于 SOTA 的前沿定价策略,享受着技术领先带来的溢价优势。
甚至就连刚刚上线的 o3-mini,网友也不忘暗讽一下模型的定价
SemiAnalysis 预计,AI 未来的发展速度,将超过领先芯片制造业的发展节奏。
快速实现最新能力意味着可以保持定价权(如 ChatGPT Pro),而能力落后则意味着更低的定价,主要收益将流向提供 token 服务的基础设施提供商。
当前正处于技术快速迭代的周期,我们将会看到产品以前所未有的速度更新换代。
只要科技公司能够通过 scaling 能力来开发出新功能,并在这些功能基础上创造价值,就应该拥有定价权。
否则,开源模型市场将在下一代技术中迅速商品化。
在这种背景下,高级分析师认为,市场存在一个「根本性的误解」。
芯片制造业是目前资本最密集的行业,虽然全球没有任何行业在研发投入上超过半导体行业,但这个最接近的现实类比实际上表明 —— 模型公司发展态势越快,对高性能芯片的需求也越大。
将 AI token 与「杰文斯悖论」(技术进步提高效率反而增加资源消耗)进行比较时,我们可以发现深刻的历史相似性。
最初,业界并不确定是否能持续缩小晶体管尺寸,但当这一可能性得到证实后,整个行业都致力于将 CMOS 工艺微缩到极限,并在此基础上构建有意义的功能。
目前,我们正处于整合多个 CoT 模型和能力的早期阶段。
我们正在像早期缩小晶体管一样 scaling 模型规模,尽管这在技术进步方面可能会经历一段异常忙碌的时期,但这种发展趋势对英伟达来说无疑是利好消息。
免费,还能维持多久?
事实上,市场一直在寻找一个突破点,而这就成为了他们的选择。
如果 DeepSeek 愿意接受零利润率甚至负利润率运营,他们确实可以维持如此低的价格水平。
但显然,提供前沿 token 服务的价格弹性阈值要高得多。考虑到 DeepSeek 正在筹备新一轮融资,这种策略对他们来说是有其战略意义的。
DeepSeek 刚刚在推理能力这个关键突破点上,打破了 OpenAI 的高利润率格局。
但这种领先优势能持续多久?
SemiAnalysis 对此持怀疑态度 —— 这更像是一个开源实验室展示了它能够达到闭源实验室的能力水平。
高级分析师确实认为,一个更强大的开源实验室(而 DeepSeek 现在无疑是其中表现最好的)对新兴云服务提供商(Neoclouds)和各类服务提供商来说是重大利好。
无论采用开源还是闭源模式,计算资源的集中度仍然至关重要。
但如果上层服务提供商选择免费提供其产品,那么提升计算资源的商业价值就成为可能。
这意味着更多的资金将流向计算资源提供方而非闭源模型提供商,换句话说,支出将更多地流向硬件设施而非其他环节。
与此同时,软件企业也将从这一趋势中获得巨大收益。
参考资料:
https://semianalysis.com/2025/01/31/deepseek-debates/
本文来自微信公众号:新智元(ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。