IT之家的家友们,蛇年吉祥!
在这个农历新年期间,科技界却并不平静...
距离 OpenAI 发布由 GPT-3.5 模型驱动的 ChatGPT 聊天机器人,已经过去了两年多的时间。
在这两年间,不管是微软、谷歌这样的科技巨头,还是如雨后春笋般出现的初创企业,都在 AI 大模型领域,投入了巨额的资源。
算力逐渐膨胀,大模型的训练及推理成本也同样水涨船高。
OpenAI 去年推出的 ChatGPT Pro 会员,价格已经来到了每月 200 美元。
“屠龙者终成恶龙”,每月 20 美元的 ChatGPT Plus 会员,包含的 o1 模型使用次数,可以说仅仅只够“玩一玩”,很难真的应用于自己的工作之中。
如果未来成本进一步上涨,难道 AI 的未来,是每月 2000 美元的“ChatGPT Pro Max 会员”吗?
然而,一家来自杭州的“小公司” DeepSeek,却给整个 AI 行业带来了新思路,这两天可以说是火遍了全网。IT之家这就来跟大家一起看看是怎么回事。
01. 用起来怎么样?
去年年底,DeepSeek-V3 模型发布,其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
作为一款开源的 MoE 混合专家模型,DeepSeek-V3 当时获得了业内人士不少的关注,但是还并没有“出圈”。
不过,在 DeepSeek 官方的手机应用 1 月上旬上线之前,已经有一些山寨 App 准备凑热度了。
而 1 月 20 日发布的推理模型 DeepSeek-R1,则在性能上实现了对 OpenAI-o1 正式版的对标。
此外,DeepSeek 也并没有藏着掖着,同期公开了 DeepSeek-R1 的训练技术,并且开源了模型权重。
而且对我们普通用户来说,DeepSeek-R1 直接在其官网免费开放使用。
而且,DeepSeek-R1 还可以联网搜索信息,增加了不少使用上的灵活性。
要知道,去年 10 月 31 号上线的 ChatGPT Search 搜索功能目前还不支持与 ChatGPT o1 模型协同使用,我们只能退而求其次选择 4o 模型。
此外,作为一款采用 CoT 思维链技术的推理模型,DeepSeek-R1 直接把其思考过程显示给用户,这一点令我们可以直观感受到目前大模型技术的实力。
在海内外全网爆火的同时,DeepSeek 也承受了非常大的压力,相信我们不少家友都对下面这句话非常熟悉。
除了大量用户的涌入,DeepSeek 甚至还承受了大规模的恶意攻击。
要知道,即便是 ChatGPT,也经常出现宿机事件,这方面也希望大家可以“理解万岁”。
除了 671B 参数的完整模型,DeepSeek 还蒸馏了好几款小模型,32B 和 70B 模型也在多项能力上实现了对标 OpenAI o1-mini 的效果。
而这些蒸馏后的模型,我们已经可以尝试在自己的设备上,本地进行运行。
02. 两把杀手锏
- MoE 混合专家模型
DeepSeek-R1 的成本优势,便在其官方 API 服务定价中体现了出来:
每百万输入 tokens:1 元(缓存命中)/ 4 元(缓存未命中)
每百万输出 tokens:16 元
其输出 API 价格,甚至只是 ChatGPT o1 的约 3%,这就要聊到 MoE 混合专家模型了。
IT之家前面提到,DeepSeek-R1 是一款 671B 参数的模型,从传统的角度来看,运行起来绝不会轻松。
而 MoE 架构的核心思想,其实就是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。
这样,当我们向 MoE 模型输入提示时,查询不会激活整个 AI,而只会激活生成响应所需的特定神经网络。
因此,R1 和 R1-Zero 在回答提示时激活的参数仅为 37B,不到其总参数量的十分之一,“让专业的人干专业的事”,推理成本大大降低。
其实,MoE 并不是一个新概念,最早起源于 1991 年的论文《Adaptive Mixture of Local Experts》。
不过这一思路的“起飞”,还要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。
外界普遍认为 GPT-4 就使用了 MoE 模型,但对于已经变成“CloseAI”的 OpenAI 来说,其旗舰模型的许多技术细节,我们无从得知......
- RL 强化学习
传统的 AI 大模型训练,使用的是 SFT 监督微调过程,在精心策划的数据集上训练模型,教会它们逐步推理。
而 DeepSeek-R1 则使用 RL 强化学习的方法,完全依赖环境反馈(如如问题的正确性)来优化模型行为。
它也第一次证明了通过纯 RL 训练,即可提升模型的推理能力。模型在 RL 训练中自主发展出自我验证、反思推理等复杂行为,达到 ChatGPT o1 级别的能力。
这项技术,说明我们未来在训练的过程中,可能不再需要付出极为高昂的成本,获取大量经过详细标注的高质量数据。
03. 多模态,补短板
尽管 DeepSeek-V3 和 DeepSeek-R1 十分强大,但他们还都是名副其实的“大语言模型”,并不具有多模态的能力。
也就是说,我们目前还没发把图片、音频等信息丢给他们,他们也不具备生成图片的能力,只能通过文字的方式来进行信息交流。
目前 DeepSeek 官方提供的文件上传能力,其实只是走了一遍文字 OCR 识别。
不过,就在 1 月 28 日凌晨,DeepSeek 开源了全新的视觉多模态模型 Janus-Pro-7B。
与以往的方法不同,Janus-Pro 通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。
这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。
Janus 的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro 成为下一代统一多模态模型的有力竞争者。
其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。
不过作为一款仅有 7B 参数的“小”模型,Janus-Pro 目前只能处理 384 x 384 分辨率的图像。
但我们相信,这只是一道开胃菜,我们期待在新思路下,DeepSeek 未来多模态大模型的表现。
04. 除夕不眠夜
DeepSeek 的爆火,让不少 AI 大模型领域的“友商”,都没法无视这样一家“小公司”。
今天(1 月 29 日)凌晨,农历新年的钟声刚刚敲响,阿里通义团队带来了他们的“新年礼物”—— Qwen2.5-Max 模型。
通义千问团队,也在 Qwen2.5-Max 模型的介绍中提到了 DeepSeek-V3。
近期,DeepSeek V3 的发布让大家了解到超大规模 MoE 模型的效果及实现方法,而同期,Qwen 也在研发超大规模的 MoE 模型 Qwen2.5-Max,使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)相比,Qwen2.5-Max 的性能表现也相当有竞争能力。
在基座模型的对比中,与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B 相比,Qwen2.5-Max 在大多数基准测试中都展现出了优势。
目前 Qwen2.5-Max 已经面向用户开放,不过作为“Max”定位的模型,Qwen2.5-Max 暂未开源。
而与 DeepSeek-R1 的直接对决,我们可能要等到未来新版的 QwQ、QVQ 模型。
OpenAI 的 CEO 阿尔特曼也对 DeepSeek-R1 进行了评价:
面对大家价格上的抱怨,阿尔特曼也表示未来的 ChatGPT o3-mini 模型将会开放给免费用户使用,Plus 会员则每天有 100 条请求的额度。
此外,新的 ChatGPT Operator 功能也将尽快向 Plus 会员开放,而 OpenAI 的下一款模型也不会由每月 200 美元的 Pro 会员独占,Plus 会员就能用
这究竟是来自于 DeepSeek 等竞争对手的压力,还是 OpenAI 自身的成本优化,我们不得而知。
我们期待着在 2025 年,还会有哪些关键领域的突破,AGI 通用人工智能是不是也离我们越来越近了。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。