数字化浪潮席卷全球,数据与人工智能的融合正给各行各业带来巨大变革,不仅重塑数据处理流程,更在决策支持、业务优化、产品创新等多个维度上展现巨大的潜力。
近期,火山引擎数智平台技术和产品专家受邀出席 DataFun 首届“数据与人工智能解决方案大会”,围绕数据飞轮 2.0 模式,及 Data+AI 领域热门话题 ChatBI、多模态数据湖展开分享。
据介绍,2023 年 4 月火山引擎发布了数据飞轮,其内核为“以数据消费促资产建设,以数据消费助业务发展”,升级后,数据飞轮 2.0 模式聚焦把 AI 作为数智化核心竞争力,通过 AI 技术促进更普惠的企业数据消费。
为了充分发挥 AI 技术潜力,一套能适配 AI 能力的数据底座至关重要。来自火山引擎 EMR 的高级产品经理则详细拆解了多模态数据湖建设,在大模型时代数据管理中的作用。
火山引擎多模态数据湖解决方案
随着企业数据量呈爆发式增长,且数据类型愈发复杂多样,从传统的结构化数据,到图像、音频、视频等非结构化数据,如何高效存储、管理与运用这些数据,成为摆在企业面前的一大难题。火山引擎多模态数据湖解决方案可以实现海量结构化、半结构化及非结构化数据的统一精细化管理,全方位兼容各类数据格式,为 LLM 预训练、持续训练和微调全程各个环节提供更好的数据支持。
在解决方案层面,火山引擎多模态数据湖解决方案通过全域数据集成 DataSail 实现无缝整合,底层采用兼容多种数据湖格式的 TOS 进行高效存储与管理。在数据湖管理上,LAS 提供全面管理能力和近计算、近存储加速,配合多元计算引擎满足复杂数据处理需求。上层 DataLeap 提供智能化数据开发能力,降低使用门槛。最终,该方案助力海量数据集成、存储、计算与分析,为下游应用场景如 Data Agent、商业智能等提供数据支持,服务于企业科学决策。
在数据建设层面上,火山引擎数据飞轮 2.0 也同样提出了全新解决方案和落地实践,其中包括 DataWind ChatBI 能力,实现用 AI 降低数据消费门槛,提升效率。
火山引擎 DataWind 大模型能力矩阵
来自火山引擎 DataWind 资深架构师分享了来自于抖音集团内外部的 ChatBI 应用经验。据介绍,DataWind ChatBI 将人工智能的自然语言处理技术深度融入数据分析流程,彻底改变了传统数据分析工具复杂的操作模式。“ChatBI 智能体”的引入则进一步精准满足企业内部多业务的个性化数据查询与分析需求。
在日常工作中,企业内部员工常需处理多个数据集,但因不同需求可能导致数据口径不一致,给上游数据生产部门带来解释压力。针对这一问题,“ChatBI 智能体”通过聚焦员工所在业务及用数特性,支持指定官方数据集,确保数据消费口径的一致性,避免跨数据集查询导致的口径割裂,并配置推荐问题和 Prompt 以提供针对性的数据查询与分析服务。
此外,智能体还能结合业务团队使用场景,关闭无效字段、精炼语义模型,并提供语义模型配置功能,使业务团队能依据实际需求自定义大模型字段,实现贴合业务的大模型能力部署与学习效率提升。更重要的是,“ChatBI 智能体”在使用过程中能持续深研业务特征,规整相似业务数据集,优化明确适用场景,并收集维护业务常用词及同义词,不仅使大模型应用更加贴合业务需求,还进一步释放人力。
举个例子来看,在抖音集团内部销售情况分析场景中,销售人员在客户现场无法即时访问内部 BI 平台,以便查询 token 调用数据,影响工作效率。而基于 ChatBI 智能体,销售人员能通过自然语言对话的方式,随时获取客户 token 使用情况及活跃度,更加精准地把握客户需求和使用习惯,提供更加个性化的服务和支持,有力推动了业务发展。
Data+AI 已经成为引领未来发展的新趋势。构建适配 AI 能力的数据底座、智能数据工具,能够更好地挖掘和利用数据的价值。未来,数据飞轮也将持续加磅 AI 能力,推动企业更好实现数字化转型。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。