设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

首次披露,中关村科金公布 DeepSeek 在智能客服 30 + 真实场景的实测效果

2025/2/17 17:30:26 来源:之家网站 作者:- 责编:-

今年开了个好头!哪吒 2 点燃中国票房市场创造新记录,DeepSeek 火爆全球正在重塑 AI 大模型产业发展新格局。有人开玩笑说,现在每天只关注 2 个话题:哪吒 2 的票房多少了?哪些企业在 DeepSeek 模型上又有新进展了?

2 月 4 日,中关村科金得助大模型平台已率先全面支持 DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Ditill 系列、DeepSeek-Janus 的 API 接入及企业私有化部署,第一时间加速企业智能化升级。

今天继续带来好消息,我们的智能客服全系产品已完成 DeepSeek 的全面接入!并对 DeepSeek + 智能客服在不同行业,超过 30 个大模型应用场景进行全面评测。结果显示超过 90% 的场景,通过切换 DeepSeek V3 或 R1 模型,平均带来了 5%-20% 的效果提升。在全媒体呼叫中心、智能工作台、语音机器人、文本机器人、智能陪练等企业连接客户的核心场景持续推进智能化的提效。同时,我们把评测结果整理成 5 条要点,方便你快速了解核心内容。

要点 1:DeepSeek 有效提升复杂文本问答的准确率

场景:银行、财富、保险等金融行业,由于金融产品的复杂性,如金融产品、金融条款、技术支持等内容往往特别复杂,而且内容很长。基于小模型的传统机器人在处理类似问题时,准确率一直无法突破。直到大模型的到来,该场景的准确率快速逼近 80%,使得该场景正式达到了商用要求。

实测:当前通用开源大模型准确率普遍为 79.8% 左右,我们在真实的金融业务场景中进行实测,其中 DeepSeek-V3(通用型)准确率为 95.1%,DeepSeek-R1(推理型)的准确率为 94.9%。整体准确率提升了 15%,极大的提升了复杂文本问答场景的商用价值。同时,V3 版本比 R1 版本效果更好,也充分体现了两个版本的特性区别。V3 更擅长处理标准化任务,结果稳定但缺少创新。而 R1 版本更擅长复杂推理任务,通过推理能力生成更具创新的结果。

价值:可以进一步降低金融行业客户咨询场景中的复杂咨询转人工率,从而让 AI 客服可自主完成更多的咨询任务,降低人工客服的压力。

要点 2:DeepSeek 用思维链重构客服质量体系

场景:过往,客服与客户的对话内容质量较难评价,多数情况下只能做简单的质检,只对客服话术的合规性进行检查。而针对话术的效果一般通过有经验的业务专家人工进行评价,导致后期的话术优化、运营成本长期居高不下。

实测:我们在真实的机器人营销场景中,对 DeepSeek 的话术质量评价能力进行了评测,评测结果令人惊喜:DeepSeek 在回复时,是非常清晰且有结构的。逻辑清晰且结构严谨。首先,它能给出明确的结论,判断话术是否合理;接着,展示清晰的合理性评价标准,并精准归类;最后,阐述具体原因。

经过客户侧业务专家评价,DeepSeek 给出的原因分析高度契合业务部门的评价标准。甚至在总结原因方面,DeepSeek 比业务专家做得更加简洁清晰。

价值:在未来的客服对话场景中,无论是人工客服还是机器人客服,每一次对话内容都将能得到精准且清晰的定性评价。这为企业持续优化自身话术、客服人员持续提升自身能力,提供了强有力的支持。

要点 3:DeepSeek 推理框架,大幅提升陪练剧本生成效果

场景:在金融领域,理财顾问的营销效率一直受限于金融产品的复杂性与专业性。行业目前标准的解决方案是引入智能陪练系统,通过 AI 机器人对销售顾问进行持续的营销陪练,机器人模仿目标客户,销售顾问通过多轮对话持续与机器人沟通,来快速提升营销能力以及增加对产品的熟练程度。从而快速提升金融机构整体营销效率。在 AI 陪练机器人创建时,陪练系统需要根据客户的业务背景知识、营销目标、产品信息、陪练计划等多维度的信息,人工编写对练脚本,极大占用人力资源,且对人的业务能力有极高的要求。

实测:我们在证券行业场景中进行实测,使用 DeepSeek 自动生成对练脚本,整个效果提升非常明显。目前,开源大模型生成的脚本准确率普遍在 80% 左右,DeepSeek V3(通用型)准确率为 85%,而 DeepSeek R1 版本(推理型)表现更为突出,准确率高达 95%,相比之下提升了 15%,创历史新高。

价值:DeepSeek 强大的推理框架,极大地拓展了有效陪练内容的深度与广度。更精准的陪练脚本,能让员工获得更好的陪练效果,提升专业素养。同时,高准确率减少了培训导师手动优化脚本的精力投入,全面提升陪练系统的质量,为企业在激烈的市场竞争中赢得优势,创造更大的价值。

要点 4:DeepSeek 思维链模式,学员对练效果评价更精准

场景:在陪练系统中,每一次陪练结束,系统都需要根据该员工的实际表现,给出明确的评分以及评价,以此来量化学员的实际表现。以便后续为学员提供更加个性化、更有针对性的提升建议,帮助学员针对不足进行优化,持续提升培训效果。

实测:通过在证券业、制造业场景中进行实测,当前市场上的开源大模型,评价的准确率一般在 77% 左右,效果很难进一步提升。经过实测发现,DeepSeek V3 的学员评价准确率为 77.5%,与当前其他开源大模型平均水平保持一致。而 DeepSeek R1 的准确率却高达 92.5%,非常惊艳!我们做一组对比:在多维度语义能力评价场景,使用传统小模型或基于规则对学员进行评价时,准确率一直很难超过 60%;23 年底,我们通过大模型将准确率提升到 70%,达到商用标准;令人惊喜的是,DeepSeek R1 直接将这一数值拉升到了 92.5%,大幅促进了多维度对话效果评价场景的商用化进程。

价值:DeepSeek R1 的高准确率意义重大,直接推动了金融、制造、零售、教育等需高频培训大量销售人员的行业发展,让 AI 陪练质效实现飞跃,开启千人千面的个性化陪练新时代。它还将促使传统人工培训模式加速变革,有效解决“只训不练”的难题,让培训不再纸上谈兵,真正做到学以致用,为行业培养出更多专业能力强、实战经验丰富的销售人才,提升行业整体竞争力。

要点 5:DeepSeek 有效提升智能填单的准确率

场景:在人工坐席为客户服务的过程中,填写客户信息、工单信息以及业务记录是一项极为繁琐且耗费精力的工作。一旦出现填写错误,不仅会增加客户运营成本,严重时甚至可能引发客诉。智能填单作为解决这一难题的核心方案,借助平台的语义识别和会话洞察技术,能够自动从客户与坐席的交互内容里提取相关信息,并辅助坐席进行自动填写,从而有效减轻客服压力,提升坐席的工作体验。

实测:对比多行业场景实测效果,传统通用开源大模型在智能填单方面的平均准确率约为 85%;而引入 DeepSeek 模型后,智能填单的平均准确率提升了 8 个百分点,达到 93%。在特定客户的场景下,这一准确率更是能飙升至 98%。同时,对比原模型,由 DeepSeek 生成的工单小结内容更加精简、完整。

价值:在坐席填单场景中,DeepSeek 拥有极高的准确率,极大地减少了客服手工填单的工作量。人工填单时普遍存在格式不标准、内容不准确以及漏填、错填等问题,而 DeepSeek 却能始终保持超高的填单水准,大幅提升填单的准确性与时效性。这不仅有助于坐席人员更高效地完成工作,还能为客户带来更优质的服务体验,进一步提升企业的服务质量和客户满意度。

此外,中关村科金研发团队还在客户意图识别、多语言对话、问答对抽取、长文本问答、工单自动回复等等超过 30 个以上的智能客服大模型应用场景进行了评测,结果令人欣喜。

中关村科金聚焦企业客户连接领域,坚持用最先进的技术,为客户提供最优秀的产品和应用,是唯一凭借领域大模型优势登上《2024 胡润中国人工智能企业 50 强》的企业。智能客服场景作为企业与客户连接的中枢纽带,是企业撬动商业增长、赢得客户信任的关键战场。基于 DeepSeek 的智能客服将成为企业连接客户智能化升级的重要引擎。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知