设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

物联网平台如何支持亿级设备、海量租户推送?从消息中间件架构发展趋势看华为云 IoT 的思考

2024/10/22 21:08:56 来源:之家网站 作者:- 责编:-

本文来源于《华为云 DTSE®》第五期开源专刊,更多文章请查看:https://bbs.huaweicloud.com/blogs/435823

作者:贺张俭华为云 IoT 技术专家

摘要

随着物联网平台业务的快速增长,基于传统消息中间件构筑面临着处理亿级设备连接和海量数据的挑战。本文分析了消息中间件的架构发展趋势以及核心优势,还探讨了 Apache Pulsar 在华为云 IoT 平台上的实践应用,展示了华为云 IoT 是如何在其之上构筑支持亿级设备和处理大规模数据流方面的高安全、高可靠、高性能。

物联网平台推送业务介绍

华为云 IoTDA 服务是华为云物联网的一个核心底座服务,提供海量设备连接上云、设备和云端双向消息通信、数据流转、设备联动规则等能力,上图为 IoTDA 架构图。数据流转服务是华为云 IoTDA 的一个核心功能,为用户提供高效、灵活的数据处理能力。当物联网平台中的设备满足预设规则条件时,平台会自动触发相应的操作,帮助用户实现关键业务目标,如将数据对接至华为云其他服务,实现全栈的数据存储、计算和分析。针对各式各样的用户、开发者,华为云 IoTDA 规划了多种接受数据方式。

物联网平台推送业务扩展性遇到问题

谈到消息中间件,就不得不提到 Apache Kafka,Apache Kafka 在 2011 年开源,在过往的一段时间内几乎成为了消息中间件的代名词、消息中间件接口上的事实标准。同时 Confluent 公司也积极地在做 Kafka 的商业化服务,近年来也完成了去 ZooKeeper、级联存储等重大特性。物联网平台最初也使用 Apache Kafka 作为其消息组件。

Kafka 作为早期的领跑者,凭借简洁的概念,优秀的性能,积累了大量的用户和丰富的场景应用。但在应用上云、业务量不断上涨、SaaS 应用多租化的趋势下,暴露出了一些问题。

・  消息中间件费用高:出于可靠性的要求,常见的高可用方案都会将数据至少分布在两个 AZ 上,其费用包括云上磁盘存储费用,以及部分公有云跨可用区流量费用,值得一提的是,像华为云等一些云厂商不收取跨可用区流量费用。

・  扩容时间长:云上的应用更加弹性,往往需要在业务高峰时进行扩容,Kafka 的 topic 数据持久化在本地磁盘,一旦进行扩容,需要进行数据的迁移,这个时间可能会达到小时级甚至天级别。

・  Topic 量级限制:随着 SaaS 应用的发展,租户间的消息队列隔离变得更加重要。Kafka 的存储模型,一个 partition 对应一个磁盘文件,且依赖 PageCache。在 Topic 量级超过 5000 之后,性能表现结果较差。

・  长尾时延高:Kafka 的消息写入需要等待 Leader 落盘成功才能写入,相比更高 SLA 保障或 Quorum 模式的系统没有优势。

・  消费模型单一:消息中间件需要支持队列(共享)的消费模式,从而在较多消费者连接的时候降低资源的大量浪费。而像 AMQP 这种业务则必须这种消费模式,否则需要在业务层自己构筑相应的能力。

消息中间件架构发展趋势与华为云的实践

面对这些问题,市场上的挑战者们如 AutoMQ、Pulsar、WarpStream 等提出了各自的解决方案,从目前公开的资料来看:

・  降低消息中间件费用:为降低持久化费用,可以广泛使用对象存储(使用级联存储或直接存储或仅在 WAL 中使用磁盘)。而对于跨可用区流量费用,除非直接存储到高可用的对象存储,否则流量费在所难免。

・  缩短扩容时间:扩容时间长由于主从磁盘的复制模式,扩容出的节点需要从旧的磁盘处复制内容,这时候写入还在持续,这一过程可能需要较长时间完成。可以通过解决存储的扩容问题(使用对象存储或 Quorum 的模式),或尽量降低需要复制的内容(级联存储到对象存储)。

・  扩大 Topic 量级:从大数据批量处理的视角来看,问题并不显著。但在 SaaS 应用或物联网解决方案中,有着很强的单通道诉求,租户与租户间,设备与设备间的消息队列隔离变得更加重要。通常通过存储模型的优化,避免单个 Topic 对应单个文件句柄来解决。

・  降低长尾时延:可以通过 WAL 或 Quorum 两种技术手段来降低时延。

・  消费模型多样化:此特性并不是一个通用问题,问题场景出在较多消费者能力较差需要共享消费单个 partition 时,(企业)内网大数据处理中很少出现这个场景。截止目前,只有 Pulsar 做了队列模型消费的支持,不过 Kafka 也提出了 KIP-932 来支持队列的消费模式,预期在接下来能补齐队列消费模式。

从大的实现策略上来看,关键的技术决策分歧点如下图(图中虚线为可选模块)

・  协议层,支持一种或多种协议,支持 Kafka 协议还是支持 Pulsar 协议?

・  是否存在 WAL,拥有 WAL 会表现出更低的延迟,但是由于 WAL 本身需要高可用,无法避免一份跨 AZ 的流量费用

・  存储层,是否直接使用对象存储,或者是否使用分级存储,将冷数据 offload 到对象存储

・  存储层,如果使用磁盘存储,使用主从模式还是 Quorum 模式,Quorum 会有更平稳的延时(如 P99),但网络拓扑可能会变得复杂(为了性能,通常客户端会直接连接多个 broker)

根据上面的技术分歧点,业内的 AutoMQ、Kafka、Pulsar、WarpStream 的技术路线可以描述为:

・  AutoMQ:支持 Kafka 协议,使用 WAL,持久化存储在对象存储上的消息中间件。

・  Kafka:支持 Kafka 协议(Kafka 当然支持 Kafka 协议),无 WAL,持久化存储在主从模式的磁盘上,同时支持级联到对象存储的消息中间件。

・  Pulsar:支持 Kafka、Pulsar、AMQP 等多种协议,使用 WAL,持久化存储在 Quorum 的磁盘上,同时支持级联到对象存储的消息中间件。

・  WarpStream:支持 Kafka 协议,无 WAL,持久化存储在对象存储的消息中间件。

总得来说,针对消息中间件的关键优化点,业内达成了一定程度上的共识,协议也一定程度上形成了事实上的标准(Kafka 协议),接下来可能细节设计、工程能力会变得更加重要。

Apache Pulsar 在 Kafka 的挑战者中诞生较早,且相对全面,较好地解决了扩容时间长、Topic 量级限制、长尾时延高、消费模型单一的问题。华为云 IoTDA 最终选型基于 Apache Pulsar 构筑核心消息中间件。

Apache Pulsar 官方描述

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构,支持多租户、持久化、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高扩展性等流数据存储特性,被看作是云原生时代实时消息流传输、存储和计算的理想平台。

华为云 IoT 不仅仅深度使用了 Apache Pulsar,同时还积极参与 Pulsar 社区的发展,致力于提升 Pulsar 的安全性、可靠性和功能性,除了已经合并的 300+PR 贡献(含下游、周边项目)之外,还开发了多项增强功能,计划在未来合并到社区版本中。

・  调试能力增强:Pulsar 自带的调试能力只能通过调整 broker 的日志级别来观察 debug 信息,海量消息场景下,难以在生产环境开启。IoT 产品部将 Pulsar 与配置中心对接,引入新的配置项,仅为指定的主题打印详细的调试信息,从而快速识别和解决消息从生产者到服务端的延迟问题。这一特性上线后,帮助排查解决数十个问题。

・  性能相关增强:将 SkyWalking 调用链能力集成到 Pulsar 和 BookKeeper 中,提供细节化的性能分析。有助于用户了解系统的性能情况,识别长尾请求,进行做出性能优化

・  可靠性增强:与社区更倾向于在问题发生后解决问题相比,IoT 产品部采取的策略是增强系统的自愈能力。例如,当检测到磁盘数据不一致时可自动重启以修复数据,生产者失败率过高时可重建生产者,以及当 Broker 检测到消费者异常(如持续生产、有接受队列长度但无消费)时自动断开消费者链接。尽管这些措施可能导致丢失一些故障定位信息,但它们弥补了社区在自动恢复方面的不足,确保系统在异常情况下保持稳定运行。

华为云 IoT & 丰图科技案例分析

丰图科技的前身是顺丰科技的地理信息研发中心,是顺丰集团的子公司。致力于打造数字化和 AI 系统能读懂的实时精准地图,为企业和个人提供位置智能决策服务。

客户痛点:

1. 消息并发数 20 倍增长

2. 车辆高频行驶

丰图科技拥有 3 万 + 货运车辆摄像头负责地图拍摄,接入的数据流转,最高可达 15 万 TPS。华为云 IoT 相比企业自建平台省钱省心,它拥有高可用、高可靠、高性价比的平台实例,并支持按需扩容。

华为云 IoT 凭借高可用、高可靠的消息总线,稳定支持 15 万 TPS 的数据流转,快速将上云的数据流转给 EI、大数据等高阶服务,帮助客户快速挖掘数据价值。助力丰图科技通过货运车辆的运行轨迹,获取实时街景,完成动态地图的绘制,基于传感数据,打造新商业模式。

总结

华为云 IoT 团队积极参与 Apache Pulsar 及其下游项目的社区发展,确保了 Pulsar 在华为云物联网平台上的稳定运行超过五年,从而增强了平台的核心竞争力。此外,该团队也对 Apache BookKeeper、ApolloConfig、openGemini 等其他开源项目做出了显著贡献。华为云 IoT 产品部将继续致力于积极参与和支持开源社区,不仅通过技术分享和问题解决,还积极参与开源项目的治理、新功能的开发及社区的建设等多个方面,有效推动技术创新,并实现 IoT 业务与技术的协同发展。

凭借与开源社区的紧密合作,华为云 IoT 平台在高并发环境下的高性能表现得到了提升,为企业提供了可靠、高效的服务。IoT 产品团队将继续为物联网的高效运转和数字化转型提供更全面的支持。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知