设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

合思佟佩泽:决定 AI 应用效果的是使用 AI 的人

2025/4/27 14:52:39 来源:之家网站 作者:- 责编:-

4 月 25 日,以“AI 拼才会盈”为主题的 2025 合思春季产品发布会在杭州正式召开,大会现场数百位企业 CEO、CFO、CIO 与主流媒体共同参会。大会现场,合思首席产品架构师佟佩泽发表主题演讲。

在佟佩泽看来,人们在 AI 是否能够适应更复杂的工作场景存在三个担忧:易出错、难落地、高成本。合思通过“可信数据源 + 任务编排”解决 AI 的幻觉问题;通过工作流将 AI 能力与现有产品深度融合,解决 AI 落地难题;通过自研的模型调度算法,进一步降低 AI 在企业的应用成本,解决 AI 费用高等难题。决定 AI 应用效果的,并非 AI 本身,而是使用 AI 的人。产品发布现场采用工坊形式,让参与者亲身体验 AI 在无需报销、收支管理、电子会计档案三个产品中的应用场景。

以下为佟佩泽现场演讲实录(有精简)

01

AI 的三种递进使用方式

正式发布新产品前,我想先做个调查:在座的嘉宾中,用过 AI 的人请举手。看来很多朋友已经使用过 AI,我猜大多数人用的是 ——Deepseek 或同类生成式对话产品。我们印象中 AI 最常见的用法:一个聊天框,你问它答。除了“服务器繁忙”的时候,大多时间,我们都觉得 AI 助手很好用。这里有一组数据:Deepseek 以及其同类产品月活约 9900 万人,占中国互联网人口约 9%,且渗透率还在不断提升。

然而,AI 工具的用法远不止于此。例如,合思的产品经理们在搭建 AI 功能 demo 时,通过一个工作流,把 AI 作为流程的一个环节来使用。在活跃用户口径上,大约只有 0.7% 的人用过这种 AI;还有一种使用场景,我们给 AI 一个买东西的指令,它会规划步骤,然后像人一样打开浏览器、访问购物网站、查询商品、加入购物车,直至等你付款。这种通过一个任务目标智能规划并执行的 AI,大约只有 0.2% 的人用过。

如果将这三种 AI 使用方式划分代际:第一代以对话形式使用,通过对话的方式与 AI 交流获得答案,我们称之为对话增强型;第二代被放入流程作为节点使用,我们称之为流程嵌入型,例如我们已经可以让 AI 做一些确定性的工作,例如将海外小票里的金额找出来,与单据上的信息做比对;第三代属于给个任务就干活,我们称之为自主规划型,让 AI 是根据用户的目标诉求,不断探索尝试,如果失败它会想其他办法来解决 —— 例如未找到发票票面金额,AI 会调用图片检查工具,看发票是否拍得太模糊,如果是,它会发消息让用户提供一张更清晰的发票。

目前这三类 AI 的使用渗透率如图所示,每个原点代表一个人,这里有 1000 个原点,代表 1000 个人。其中蓝色为用过对话增强型,绿色是用过流程潜入型,红色是自主规划型。其中红色区域代表 1000 个人里只有 2 个人用过。因此,我们不难发现:你用的可能是满血 Deepseek,但一定不是满血 AI。

到了效率和可靠性要求更高、逻辑更复杂的工作场景,例如财务管理场景,满血 AI 好用吗?经过一年的走访,我们总结了大家的三个担心:担心 AI 出错、担心难落地、担心成本。

02

“可信数据源 + 任务编排”解决 AI 的幻觉

AI 会不会出错?会,但人更会犯错。大模型确实会出现幻觉,例如爱因斯坦是因为相对论获得了诺贝尔奖。根据 Vectara 的报告,Deepseek 的三个模型,智能程度越高反而幻觉率越高。更有意思的是根据 Claude 团队的一项研究,AI 会为了讨好人类而撒谎。例如研究者让 AI 做一个余弦计算,并给了个答案 4,问答案是否正确。而 AI 编了个假想过程,甚至刻意向前推算了几步,让这个过程更可信,但实际上 AI 并未进行任何计算。

如何解决幻觉问题?合思做了两件事情。一是给 AI 提供更高质量的可信数据。例如在行程规划时,如果让 AI 去互联网上搜索,它很容易被信息误导。比如让 AI 规划了一个去上海的行程,回程车次是 G7588,但是实际上这趟车是杭州到上海。导致错误的原因是 ——AI 找到的那篇网页是上海与杭州之间的所有高铁的列表,但没有标明方向。因此,我们将合思商旅的数据开放出来,让 AI 只能去合思商旅调取可控可靠的机酒火信息,进而避免因为信息失真导致的错误。

二是任务编排。合思并不直接使用大模型,而是在一个编排好的流程里使用。如此一来,一方面可以把问题拆小,让大模型聚焦解决某一具体问题;另一方面也可以在流程中增加检查逻辑,对大模型输出结果进行验证。例如在大模型进行行程编排时,用一个小模型对行程关键信息进行提取,用于行程闭环检查,验证大模型设计的行程是否符合用户差旅意图。

通过这一系列保障手段,合思将 AI 的幻觉压制到了一个较低水平 —— 甚至比人的出错率还低。以 AI 审批为例,合思的 AI 审核准确率比人工高出 8%。

03

AI 与系统融合破解落地难

从技术上克服了幻觉,AI 看起来可用,但落地难,尤其难在与企业现有系统的结合。AI 教父杨立昆曾表示:“通常人工智能会失败的地方,不是在基础技术上,不是在那些花哨的演示上,而是在你真正需要部署它、应用它,并且让它足够可靠,能和现有系统整合的时候,这时候就会变得非常困难、非常昂贵,而且比预期要花更多时间。”

以 AI 填单为例,看上去只需要把发票跟描述给到 AI,它就就能创建一张单据。但实际上,这里不仅有对大模型的应用,还有很多与合思费控的交互。例如在上传发票后,先通过合思发票模块的能力做 OCR 与验真查重,然后再通过大模型匹配合适的费用类型。这就需要使用 AI 的系统具备极高的 AI 友好性,即让 AI 能够轻松方便地调用系统中的各项能力。为此,合思专门设计了一款 AI 友好工具网关,基于 MCP 行业协议将合思系统的一系列能力开放给 AI 使用,而这也是合思在落地 AI 过程中最耗费研发资源的事情之一。

AI 与系统的整合为何如此重要?当我们使用 Deepseek 时,它原本是一位得力的助理,可以帮我们打电话、约日程、提单据、订机票等。但是现在我们只能与它对话,将它当做聊天机器人用。这就好比企业招聘了一位聪明的员工,但是我们不让他进入办公室,也不让他访问任何企业办公系统,导致了它能贡献的产出非常有限。

如果将 AI 智能体的三个代际比作企业中的员工,第一代对话增强型是一位聪明的助理;第二代流程嵌入型是一位资深骨干,可以在业务流程中的一个确定的岗位角色上发光发热;第三代自主规划型,则像一个靠谱的团队。只需要给它 OKR,它就就能帮你实现。其中,流程嵌入型的技术已经趋于成熟,将是接下来一段时间企业 AI 应用的主流方式。自主规划型看起来很美好,但是受限于模型智能水平,现在除了编程领域,可靠的应用还比较少,仍处于萌芽阶段。

因此,合思的选择不言而喻,通过工作流将 AI 的能力与现有产品相结合,在流程里使用 AI,可以进一步提升 AI 的可靠性。同时,AI 又可以借助于工作流调用合思系统中的各项能力,真正与系统深度融合起来。

04

合思模型调度算法,显著降低 AI 成本

克服 AI 幻觉、解决 AI 与企业系统整合,就剩下最后一个担心 ——AI 是不是很贵?坦率而言,今天的大模型价格从绝对值上看并不便宜。但是在很多场景中,AI 的成本已经比人工便宜,且随着大模型技术的发展,AI 正变得越来越便宜。

以海外票据的识别与解析为例,2023 年为了达到 90% 以上的准确率,合思构建了非常复杂的智能体工作流,识别一张发票的成本高达 20 元;而如今,每识别一张海外票据的成本可以压缩到 0.6 元,每录入一张海外票据的人工成本约为 2.4 元。因此,从成本效率视角看,AI 已经能够替代人类完成枯燥且重复的工作。

同时,合思在 AI 基建过程中采用“模型调度算法”,根据要执行的任务选择更契合的大模型。比如有些模型擅长推理,但工具调用能力较弱。合思的 AI 会选择先让该模型做规划,再让擅长调用的模型根据规划落地执行;此外,在完成基础任务时,也将自动选用参数量与成本更低的经济实用型模型。如此一来,在执行任务成功率更高、重试次数更少的基础上,合思进一步降低了 AI 在企业中的应用成本。

整体回顾合思与 AI 的结合,通过多模型调度策略,集百家之长,通过提供可信数据,以及在任务编排中使用大模型,最大程度规避了幻觉问题,让 AI 真正做到企业级可靠;同时为 AI 提供了一系列工具,让它的能力能够与企业业务结合,并在此基础上,构建了一系列原子化的能力,用于构建对话型智能体与流程嵌入型智能体,最终服务于多个财务场景。

尽管现在的 AI 距离理想中的阿拉丁神灯仍有很大提升空间,但 AI 在很多企业应用场景里的可靠性和 ROI 评判角度都已非常成熟。在这些技术成熟的场景下,决定 AI 应用效果的,并非 AI 本身,而是使用 AI 的人。合思发布的三大解决方案:无需报销 + AI、收支管理 + AI、电子会计档案 + AI,将帮助企业凭借数智化工具挖出更多净利润。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知