对话传神语联：以“数推分离”解大模型落地困局

2024/12/31 18:14:49 来源：之家网站作者：- 责编：-

评论：

大模型技术正加速走向商业应用。然而，真正将大模型落地企业场景的过程中，问题远比想象中复杂。

目前，常见的主流大模型多采用数据与推理一体化的模式，这种模式难以持续不断地实时学习企业业务知识，是大模型商业化的核心痛点之一。一方面，企业的数据是训练模型成为行业专家的基础，但数据外流存在安全隐患，企业对公有云方案存疑；另一方面，企业自行训练大模型成本高昂，不仅需要大规模算力和人才支持，传统的微调模式还可能削弱模型的通用能力，使得整体效益难以为继。

OpenAI 首席执行官萨姆・奥特曼曾在麻省理工学院的一次对话中提到，GPT-4 在推理速度、算力成本等方面存在瓶颈，GPT-5 将尝试“数据与推理分离”的新策略。面对相似的问题，中国企业同样在寻找可行路径。

传神语联以“双网络架构”为核心，推出了“数推分离”大模型技术。用副总裁蔺伟的话来说，这种架构好比“两个协同联动的大脑”：一个负责学习客户的数据，确保动态管理和迭代训练；另一个作为预训练的推理网络，专注于高效的推理和泛化能力。

不同于主流的技术路线，“数推分离”大模型不再一味追求大参数、海量数据的暴力增长，而是通过算法和架构的优化，让企业以更低成本实现更高效的大模型能力。身处百模大战中，传神语联为什么走向了一条与主流路径不同的技术路线？又凭什么能在这条与众不同的路上实现突破？（袁宁）

以下为《网易科技》与传神语联副总裁蔺伟的交流，内容经编辑整理。

网易科技：传神语联相比其他大模型公司，技术优势体现在哪里？

蔺伟：我们的技术优势主要体现在以下几点：

一是双网络架构：传统大模型通常采用单网络架构，将预训练网络与用户数据网络混合在一起。这种方式在处理用户动态数据时效率较低，同时可能导致基础网络退化。我们创新性地将两者分离，用户数据通过独立的网络处理，既能快速适应企业知识更新，又避免影响基础网络的性能和通用性。

二是高效的智慧转化能力：我们的算法特别注重数据向智慧的转化能力。简单来说，相同的数据量，我们的模型能提炼出更高密度的知识和逻辑，而不是仅堆积冗余数据。

三是全栈自主研发：我们团队从底层算法库到框架完全自主研发，这让我们在调整模型结构、优化算法时拥有极高的灵活性。相比于依赖开源框架的企业，我们可以更快地响应企业需求，提供定制化解决方案。

网易科技：传神语联为什么会走向一条与主流方向不同的技术路线？

蔺伟：回答这个问题，我们需要先理解不同公司背景的差异。以 OpenAI 为例，它本质上是一个科研机构，而非盈利机构。从一开始，OpenAI 的目标就是专注于前沿技术的探索，背后有充足的资金和资源支持。它无需考虑商业化带来的盈利压力，可以采取‘暴力美学’的方式，不计成本地追求技术上的极致。

对传神语联而言，我们的资源有限，必须从一开始就注重效率和可行性。我们的目标是用更低的成本实现同样的智能效果，因此在技术选择上，我们更加注重算法优化和架构创新，而非单纯依靠堆算力和扩参数规模。我们清楚地计算过技术与商业化之间的账，明白只有在有限资源的情况下找到一条独特的路径，才能实现可持续发展。

这种思路使我们走上了与 OpenAI 不同的技术路径。这也解释了为什么中国的大型科技公司，如华为和阿里巴巴，可以尝试类似 OpenAI 的路径，而对于像传神语联这样的创业公司来说，我们必须兼顾技术路径和商业化需求，找到二者的平衡点。因为尽管从技术角度看，“暴力美学”是一条捷径，但从商业角度，它却是一条困难重重的道路。这也是为什么我们能够在技术上走出一条独特道路的原因。

网易科技：同样的技术路线还有别的企业在做吗？

蔺伟：在美国，已经有不少企业在探索类似的基于非标准 Transformer 架构的小参数模型。比如，微软正在研发自己的模型 Phi-3，这个模型在 Transformer 架构基础上做了优化与创新。此外，还有像‘曼巴’（Mamba）这样的新兴技术，也在尝试不同的路径，避免完全依赖当前主流的架构设计。

我觉得对于算法架构的优化或探索，是行业发展的必然趋势。从长远来看，无论是出于降低成本的需求，还是提升模型效率的考虑，大模型技术的创新都会不断深入。即便是 OpenAI，未来可能也会调整其现有的架构，尝试更加高效和低成本的技术路线。

网易科技：能否介绍一下传神语联的核心技术团队？

蔺伟：自公司创立以来，传神就选择了国产原创这条路。我们的核心技术团队也专注在 AI 技术领域，他们主要专注于重构和优化大模型算法的基础架构，曾经参与过中国第一代指纹识别算法的开发。之后他们将目光转向自然语言处理，并在传神语联的平台上不断创新。

网易科技：如果算生意账的话，对于企业而言，token 成本其实一直是在下降的，这方面我们有优势吗？

蔺伟：那是公有云，我认为绝大部分央国企几乎不会用公有云或 API 的方式，一定是私有部署。因为所有部署都要考虑安全的问题，中小企业肯定不是我们的市场，我们还是做中大型企业的思维。

网易科技：传神语联的商业模式是怎样的？

蔺伟：目前主要还是通过大客户进行私有云部署的模式，为他们提供知识管理相关的解决方案。

网易科技：这部分市场有多大？

蔺伟：我们可以类比中国的计算机市场或服务器市场。服务器大多是企业直接采购用于内部部署，而不是依赖 IDC（互联网数据中心）或公有云。类似地，大模型市场也分为两部分：一部分是面向公有云服务的市场，另一部分是企业私有化部署的市场。

我们专注的是企业私有化部署的领域，至少有数百亿的潜力空间，能够容纳许多公司在其中找到定位。

网易科技：您怎么看待模型层“赢家通吃”的观点？

蔺伟：我不认同这种观点。大模型并不像互联网平台那样具有网络效应，其本质更接近于计算机行业。即便是同一行业的不同企业，其对模型的需求也千差万别。未来的大模型市场不会是一家独大的局面，而是多种模型共存，分别服务于不同的场景和需求。

网易科技：传神语联 2024 年主要在做什么？明年的重点事项是什么？

蔺伟：我们此前主要在做的就是把我们双网这个架构给做起来了，我们抛弃了做参数这件事情，选择了这条道路。2025 年是 AI 大模型步入企业应用落地的关键时期。明年主要是把它兑现，变成产品，实现商业化。未来，传神也会更加重视对模型“智慧”的深度挖掘，聚焦持续实时学习客户数据的能力，通过数推分离技术，赋能企业大模型落地应用，并展现更多元的商业新范式。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

对话传神语联：以“数推分离”解大模型落地困局

相关文章