设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

对话传神语联:以“数推分离”解大模型落地困局

2024/12/31 18:14:49 来源:之家网站 作者:- 责编:-

大模型技术正加速走向商业应用。然而,真正将大模型落地企业场景的过程中,问题远比想象中复杂。

目前,常见的主流大模型多采用数据与推理一体化的模式,这种模式难以持续不断地实时学习企业业务知识,是大模型商业化的核心痛点之一。一方面,企业的数据是训练模型成为行业专家的基础,但数据外流存在安全隐患,企业对公有云方案存疑;另一方面,企业自行训练大模型成本高昂,不仅需要大规模算力和人才支持,传统的微调模式还可能削弱模型的通用能力,使得整体效益难以为继。

OpenAI 首席执行官萨姆・奥特曼曾在麻省理工学院的一次对话中提到,GPT-4 在推理速度、算力成本等方面存在瓶颈,GPT-5 将尝试“数据与推理分离”的新策略。面对相似的问题,中国企业同样在寻找可行路径。

传神语联以“双网络架构”为核心,推出了“数推分离”大模型技术。用副总裁蔺伟的话来说,这种架构好比“两个协同联动的大脑”:一个负责学习客户的数据,确保动态管理和迭代训练;另一个作为预训练的推理网络,专注于高效的推理和泛化能力。

不同于主流的技术路线,“数推分离”大模型不再一味追求大参数、海量数据的暴力增长,而是通过算法和架构的优化,让企业以更低成本实现更高效的大模型能力。身处百模大战中,传神语联为什么走向了一条与主流路径不同的技术路线?又凭什么能在这条与众不同的路上实现突破?(袁宁)

以下为《网易科技》与传神语联副总裁蔺伟的交流,内容经编辑整理。

网易科技:传神语联相比其他大模型公司,技术优势体现在哪里?

蔺伟:我们的技术优势主要体现在以下几点:

一是双网络架构:传统大模型通常采用单网络架构,将预训练网络与用户数据网络混合在一起。这种方式在处理用户动态数据时效率较低,同时可能导致基础网络退化。我们创新性地将两者分离,用户数据通过独立的网络处理,既能快速适应企业知识更新,又避免影响基础网络的性能和通用性。

二是高效的智慧转化能力:我们的算法特别注重数据向智慧的转化能力。简单来说,相同的数据量,我们的模型能提炼出更高密度的知识和逻辑,而不是仅堆积冗余数据。

三是全栈自主研发:我们团队从底层算法库到框架完全自主研发,这让我们在调整模型结构、优化算法时拥有极高的灵活性。相比于依赖开源框架的企业,我们可以更快地响应企业需求,提供定制化解决方案。

网易科技:传神语联为什么会走向一条与主流方向不同的技术路线?

蔺伟:回答这个问题,我们需要先理解不同公司背景的差异。以 OpenAI 为例,它本质上是一个科研机构,而非盈利机构。从一开始,OpenAI 的目标就是专注于前沿技术的探索,背后有充足的资金和资源支持。它无需考虑商业化带来的盈利压力,可以采取‘暴力美学’的方式,不计成本地追求技术上的极致。

对传神语联而言,我们的资源有限,必须从一开始就注重效率和可行性。我们的目标是用更低的成本实现同样的智能效果,因此在技术选择上,我们更加注重算法优化和架构创新,而非单纯依靠堆算力和扩参数规模。我们清楚地计算过技术与商业化之间的账,明白只有在有限资源的情况下找到一条独特的路径,才能实现可持续发展。

这种思路使我们走上了与 OpenAI 不同的技术路径。这也解释了为什么中国的大型科技公司,如华为和阿里巴巴,可以尝试类似 OpenAI 的路径,而对于像传神语联这样的创业公司来说,我们必须兼顾技术路径和商业化需求,找到二者的平衡点。因为尽管从技术角度看,“暴力美学”是一条捷径,但从商业角度,它却是一条困难重重的道路。这也是为什么我们能够在技术上走出一条独特道路的原因。

网易科技:同样的技术路线还有别的企业在做吗?

蔺伟:在美国,已经有不少企业在探索类似的基于非标准 Transformer 架构的小参数模型。比如,微软正在研发自己的模型 Phi-3,这个模型在 Transformer 架构基础上做了优化与创新。此外,还有像‘曼巴’(Mamba)这样的新兴技术,也在尝试不同的路径,避免完全依赖当前主流的架构设计。

我觉得对于算法架构的优化或探索,是行业发展的必然趋势。从长远来看,无论是出于降低成本的需求,还是提升模型效率的考虑,大模型技术的创新都会不断深入。即便是 OpenAI,未来可能也会调整其现有的架构,尝试更加高效和低成本的技术路线。

网易科技:能否介绍一下传神语联的核心技术团队?

蔺伟:自公司创立以来,传神就选择了国产原创这条路。我们的核心技术团队也专注在 AI 技术领域,他们主要专注于重构和优化大模型算法的基础架构,曾经参与过中国第一代指纹识别算法的开发。之后他们将目光转向自然语言处理,并在传神语联的平台上不断创新。

网易科技:如果算生意账的话,对于企业而言,token 成本其实一直是在下降的,这方面我们有优势吗?

蔺伟:那是公有云,我认为绝大部分央国企几乎不会用公有云或 API 的方式,一定是私有部署。因为所有部署都要考虑安全的问题,中小企业肯定不是我们的市场,我们还是做中大型企业的思维。

网易科技:传神语联的商业模式是怎样的?

蔺伟:目前主要还是通过大客户进行私有云部署的模式,为他们提供知识管理相关的解决方案。

网易科技:这部分市场有多大?

蔺伟:我们可以类比中国的计算机市场或服务器市场。服务器大多是企业直接采购用于内部部署,而不是依赖 IDC(互联网数据中心)或公有云。类似地,大模型市场也分为两部分:一部分是面向公有云服务的市场,另一部分是企业私有化部署的市场。

我们专注的是企业私有化部署的领域,至少有数百亿的潜力空间,能够容纳许多公司在其中找到定位。

网易科技:您怎么看待模型层“赢家通吃”的观点?

蔺伟:我不认同这种观点。大模型并不像互联网平台那样具有网络效应,其本质更接近于计算机行业。即便是同一行业的不同企业,其对模型的需求也千差万别。未来的大模型市场不会是一家独大的局面,而是多种模型共存,分别服务于不同的场景和需求。

网易科技:传神语联 2024 年主要在做什么?明年的重点事项是什么?

蔺伟:我们此前主要在做的就是把我们双网这个架构给做起来了,我们抛弃了做参数这件事情,选择了这条道路。2025 年是 AI 大模型步入企业应用落地的关键时期。明年主要是把它兑现,变成产品,实现商业化。未来,传神也会更加重视对模型“智慧”的深度挖掘,聚焦持续实时学习客户数据的能力,通过数推分离技术,赋能企业大模型落地应用,并展现更多元的商业新范式。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知