记者获悉,经过一年奋战,小红书已把业界体量最大的数据湖 0 故障迁上阿里云。据统计,该项目共有 1500 人参与,迁移数据 500PB。
作为中国头部互联网公司之一,小红书月活已过 3 亿,其数据湖存储了过去 11 年的所有原始数据,包括结构化、半结构化和非结构化数据。近年来,随着业务的高速增长,小红书在线处理数据的需求不断增加,同时离线处理所积累的历史问题,也会在未来的切换中带来更多成本与风险。
为此,2023 年 11 月,小红书发起迁云项目 —— 计划一年内,把小红书的数据湖搬上阿里云。
迁移至阿里云上后,数据湖可通过多个 OSS Bucket 支持纳入统一资源池,实现多个 Bucket 共享资源池内的 OSS 吞吐及 QPS 能力。这样的流控能力在面向小红书复杂业务场景,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。阿里云原生 HDFS+DLA 元数据可实现无缝对接 Hadoop EMR 体系,支持元数据线性扩展能力,轻松应对小红书数百 PB 数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁移的数据体量更大。
* 注:任务 = 数据处理过程
(图片来自小红书官方公众号)
据介绍,小红书的迁云项目经历了三个阶段。第一步,项目组首先解决标准问题,然后根据标准进行治理;第二步,完成治理后,项目在 2024 年 5 月正式进入双跑阶段。把数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性;第三步,2024 年 8 月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。
2024 年 11 月,小红书迁云项目正式宣告结束。在 0 故障的情况下,迁移数据 500PB,任务 11 万,参与人数 1500 人,涉及部门 40 多个。项目涉及产品之多和数据体量之大均创下业界记录。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。