在数据的时代里,应该遵循什么样的法则?
如今,中国拥有了一部针对“数据”的基础性法律。6 月 10 日,历时近 3 年的《中华人民共和国数据安全法》(下称《数据安全法》)正式出台,并将于今年 9 月 1 日起实施。
对“数据”立法,中国走出了第一步。通商律师事务所律师李思筱告诉「甲子光年」,在此之前,尽管国内已有《个人信息保护法》《网络安全法》,但都没有针对“数据”这一主体进行规范。
数据,已经是最重要的生产要素之一。自 2008 年“大数据”概念被提出以来,这项技术快速对各行业进行“颠覆”。但数据在赋能行业、改变生活的同时,也频频引发乱象:大数据杀熟、隐私侵犯、数据黑产等问题考验着政府管理者,更影响了大数据产业的发展。
大数据野蛮生长,对数据安全和大数据管理的立法,已势在必行。自 2018 年以来,全球性的数据立法竞赛在多国展开。全球性立法冲动的背后,是各国逐渐意识到:谁如果在立法上落后一步,谁就将在数字时代处于被动态势。
从数据大国到数据强国,为了实现数据价值最大化,中国正加快数据要素市场化。这又倒逼着数据立法的完善。走出保障数据安全的第一步后,更艰难的是对数据确权。
为什么要对数据确权?确权的困难是什么?如何确权?「甲子光年」通过梳理大数据行业发展历史,并结合业内人士分析,得出如下要点:
得数据者得天下,中国在发展大数据的时间上已晚于国外;
数据产业早期缺乏监管,数据黑产、隐私泄露等事件频发;
全球各国都在为数据立法,保障数据安全;
数据确权是“数据”的核心,是数据交易、发挥价值的基础;
数据确权要动 BAT 的奶酪。
1. 数据大时代:得数据者得天下
大数据不仅是互联网企业争夺的对象,也已经上升到国家战略的层面上。数据安全已经是国家安全的一部分。
在大数据发展史上,两个时间点不得不提:
2004 年之前,数据产业处在“单机时代”。由于谷歌要将全世界所有的网站数据爬取并存储起来,以构建索引,单机存储越来越不适应发展需求。2004 年,谷歌发表《分布式文件系统 GFS》《大数据分布式计算框架 MapReduce》和 《NoSQL 数据库系统 BigTable》三篇论文,证明了大数据从理论概念到生产实践的业务价值,并给出了架构典范。
这打开了大数据时代的大门。此后,大数据技术框架 Hadoop 出现,并在 2008 年正式成为 Apache (世界使用排名第一的 Web 服务器软件)顶级项目,把大数据带到各大企业尤其是互联网企业的 IT 基础设施中。
完成技术“铺路”之后,大数据在互联网行业中的应用开始爆发。对“数据”、“大数据”应用的研究,开始频频出现在《经济学人》、麦肯锡的报告以及一些世界性经济论坛中。各国也竞相制定相关政策,发展大数据产业。美国于 2012 年发布“大数据研究发展创新计划”;两年后的 2014 年,中国将“大数据”写入当年的《政府工作报告》,2015 年国务正式印发《促进大数据发展行动纲要》,标志着大数据正式上升为国家战略。
2013 年是中国的“大数据元年”。这一年,电商开始根据用户的收藏夹、购物种类、搜索记录、浏览记录、相似推荐等数据,为每一位消费者量身定制自己的购物清单。2015 年,基于大数据的个性化推荐第一次在双 11 中大放异彩。由阿里巴巴双 11 团队编著的《尽在双 11—— 阿里巴巴技术演进与超越》一书,对 2015 年双 11 中个性化推荐系统的效果进行了披露:平台的跳失率首次达到个位数,用户只访问一个页面就离开的次数降到了一个历史新低,而个性化推荐系统引导的人数和人均引导页面数都是前一年的 2~3 倍。
大数据可以让系统更懂人。一个经典的梗是“买尿不湿的人通常也会买啤酒”。在有婴儿的美国家庭中,一般是母亲在家照看婴儿,年轻的父亲去超市买尿布湿,他们往往也会顺手买上啤酒。这为商家提供了一个不用降价就可促销的诀窍。
到了 2016 年双 11,个性化推荐系统已遍及无线端的各个场景,包括天猫主会场在内的几乎全部活动会场、产品都实现了个性化算法投放。
大数据应用的另一个典型领域是金融行业。2013 年余额宝横空出世,基于淘宝和支付宝的数据平台,余额宝可以及时把握申购、赎回变动信息,同时还可以利用历史数据把握客户的行为规律。不到半年时间,余额宝规模超 1000 亿、用户近 3000 万,相当于当年国内全部 78 只货币基金总规模的近 20%。
互联网与大数据结合的威慑力,让传统银行侧目。在交通、教育、医疗、智慧城市等领域,大数据也在快速渗透。数据逐渐成为一些科技企业的核心资产。
至此,人们对英国数据科学家及数学家克莱夫・哈姆比 (Clive Humby) 在 2006 年提出的口号“数据是新时代的石油”已经完全认可,在科技公司口中,它变成了另外一句表述:得数据者得天下。
科技公司对数据的争夺也不断上演。比如 2017 年 6 月,顺丰关闭丰巢自提柜和淘宝平台物流数据信息回传,阿里巴巴旗下物流平台菜鸟与顺丰在网络上隔空“掐架”,显现的是两者在客户数据信息控制权的深度较量;两个月后,华为 Magic 手机在尝试人工智能应用中,想调用微信数据时遭遇腾讯拒绝,进而引发纠纷。
企业之间的竞争,变成了对“数据”的竞争。
2. 应对数据滥用,数据立法得跟上了
英国皇家工程院院士郭毅可曾在节目中讲过一个故事:一家著名的制药公司,以上百万英镑的巨资,购买了一个罕见的癌症患者的数据。这家公司之所以愿意花这么多钱,是因为该患者患有 6 种癌症,他的数据在世界上几乎是独一无二的。
或许个人并不知道自己掌握的数据价值有多大,但一些精明的公司则对其洞若观火。利益的驱使下,部分公司便违规获取数据,一度拉动了数据黑产的繁荣和隐私泄露问题。
互联网金融行业曾是大数据黑产的重灾区。就在余额宝“颠覆”银行的同一时期,一批履历光鲜、出身名门的创业者纷纷踏入互金领域,聚信立、魔蝎科技等一批服务互联网金融的数据服务公司也应运而生。
2015 年,互金风控企业聚立信发布了一款“爬虫”产品,大大降低了拓展数据源的技术门槛和成本。在不到一年时间里,“爬虫”爬过的网站超过 100 个,接入数据接口增加到 80 个,将数据分析的维度从 50 个扩展至 5000 + 个。此后,“爬虫”在整个互金风控行业蔓延,并屡屡造成恶果 —— 隐私数据泄露、数据黑产盛行。
中国互联网协会发布的《中国网民权益保护调查报告 (2015)》显示,78.2% 的网民个人身份信息被泄露过;63.4% 的网民个人网上活动信息被泄露过;82.3% 的网民亲身感受到个人信息泄露对日常生活造成的影响。
因个人信息泄露遭遇诈骗的徐玉玉案曾入选“2017 年推动法治进程十大案件”。高中生徐玉玉因遭遇电信诈骗,9900 元的大学费用被骗后伤心欲绝,最终导致心脏骤停。事后,顶着“中国大数据第一股”光环的新三板上市公司数据堂出现在涉案名单之中。根据警方披露的信息,数据堂的核心服务是大数据的采集、处理和挖掘,在 8 个月内,日均传输公民个人信息高达 1 亿 3 千万余条,累计传输数据压缩后达 4000G。
此后,一些估值几十亿,甚至上百亿元的大数据公司也相继被查。
更有一些信息倒卖案件给行业敲响警钟。2019 年巧达科技被查,其通过非法手段,爬取正规招聘网站 2 亿条用户简历,并把简历数据“打造”成公司产品,卖到不同行业领域,非法获利过亿元。
一项统计显示,国内个人信息泄露数达 55.3 亿条左右,平均每人就有 4 条相关的个人信息泄露,这些信息最终的命运,是在黑市中反复倒手,直至被榨干价值。其中,80%的数据泄露自企业内鬼,黑客仅占 20%。
隐私泄露-数据黑产形成了一条恶性循环。
从一些查处的新闻中,也可看到侵犯个人信息的泛滥程度 ——2019 年前 11 个月,公安部门查处的违规采集个人信息 App 共 683 款。此后,针对侵犯个人信息 App 的整治行动不断进行。仅今年 5 月以来,国家相关部门就通报了前程无忧、高德地图等 217 款 App 存在侵权行为,5 月 13 日工信部通报下架 90 款侵害用户权益的 App,其中天涯社区和脉脉等 5 家企业在不同版本 App 中反复出现同类问题,被直接下架。
除了数据黑产和隐私问题之外,还有一个被诟病的问题是“大数据杀熟”。
2018 年,一些经常出差的网友发现,在携程预订机票或酒店时,同一件商品或者同一项服务,平台显示给老用户的价格要高于新用户。随后,携程被爆出利用大数据“杀熟”。随后携程回应,内部调查中未发现对使用同一账号,不同手机预定同酒店、同房型进行差别定价。
但对“大数据杀熟”的质疑不仅没有就此打住,反而波及到互联网打车、电商、外卖等领域,几乎成了互联网行业的“潜规则”。其背后的“推动力”则源于互联网平台的盈利压力 —— 为了填平早期烧钱带来的巨额亏损,只能不断提价,而老用户对平台的粘性比新用户高,因此相对更能承受更高的价格。
野蛮生长数年后,对数据的立法已势在必行。
3. 一场全球性的数据立法竞赛
世界上较早对数据立法的是欧盟。2018 年 5 月 25 日,欧盟《通用数据保护条例》(简称 GDPR)在成员国内正式生效实施。
该条例的适用范围极为广泛,任何收集、传输、保留或处理涉及到欧盟所有成员国内的个人信息的机构或组织,均受该条例的约束。即使一个主体不属于欧盟成员国的公司(包括免费服务),只要收集了欧盟境内的自然人信息,就要受到 GDPR 的管辖。GDPR 被称为有史以来规模最大、最具惩罚性的数据保护法。
在 GDPR 生效的第一天,Facebook 和谷歌就被告了,理由是强迫用户同意共享个人数据。2019 年 1 月,法国以谷歌违反欧盟 GDPR 隐私法为由,对谷歌处以 5000 万欧元(约 5700 万美元)的罚款。
大洋彼岸的美国也未闲着。2018 年 6 月 28 日,美国加利福尼亚州颁布了《2018 年加州消费者隐私法案》(简称 CCPA),对消费者隐私权和数据安全进行保护。CCPA 被认为是美国国内最严格的隐私立法,于 2020 年 1 月 1 日生效。
「甲子光年」根据公开数据不完全统计,仅 2019 年美国就有超过 12 个州就个人信息或隐私数据进行立法,同年美国《2019 年国家安全与个人数据保护法》的提案也发布出来。根据该法,美国国务卿每年根据每个外国国家的数据隐私和安全要求状态,评判其持有美国国民和居民的用户数据是否使美国国家安全受到威胁,并有权将其划归“关注的国家”。原则上中国、俄罗斯以及国务卿认定的其他国家为“关注的国家”,该国的公司不能将美国国民和居民的用户数据传回国内。
此外,新加坡颁布并实施了《个人资料保护条例》,印度也公布《2019 年个人数据保护法》草案。
全球性立法冲动的背后,是大家都逐渐意识到:谁如果在立法上落后一步,谁就将在数字时代处于被动态势。
尽管我国早在 2017 年就实施了《网络安全法》,但在数据领域并没有一部专属的法律规范。从 2016 年开始,贵州等一些地方开始制定地方性数据条例法规,但这些地方法规缺乏统一性。
到了 2018 年 9 月,全国人大常委会公布了《中华人民共和国数据安全法》立法规划。今年 6 月 10 日,《中华人民共和国数据安全法》正式出炉,并将于今年 9 月 1 日起实施。
《数据安全法》对数据安全的管理单位进行了明确规定,也对政府收集数据的行为、数据中介机构的行为进行了规范,对违反数据安全保护的行为明确了处罚标准。至此,中国有了第一部针对数据安全的法律。
4. 科技企业关心啥?安全和确权
《数据安全法》一出,立即引来许多科技企业的关注。
李思筱告诉「甲子光年」,在该法律一审稿、二审稿出来后,就有很多企业来咨询,他们最关注的点是对数据分级分类和数据跨境流通的规定。
“从专业领域看,数据分级分类非常重要,分级分类是管理的基础,不同类数据面临不同管理要求、合规义务。”李思筱说。但是之前国内并没有法律指导企业如何做。现在明确企业要对数据进行分级分类,就可以让企业准确识别义务,把数据管理的要求落实下来。
文康-君益诚律师联盟律师马清泉则从另外一个角度对《数据安全法》进行解读。他称,该法律设立中央机构为统筹机关,避免“九龙治水”的尴尬局面。但整体上看,当下距离《数据安全法》正式实施已不足三个月,本部法律涉及的领域广,原则性强,留给各界的准备时间并不太多,诸多规定需要结合配套操作细则,尽快开展合规工作。
在企业的具体合规措施方面,马清泉律师给出五条建议:
建立数据全生命周期合规管理制度与流程;
建立数据分级分类目录及重要数据目录;
建立重要数据风险评估制度;
建立自身的重要数据出境管理制度;
建立数据出口管制制度。
从企业角度,UCLoud(优刻得)政府及运营商事业部架构总监吕雁飞认为:此次《数据安全法》进一步规范了政务数据的开放要求,解决了政务数据开放规范性方面的迫切需求。在推动政务数据开放之后,需要更专业的公司来协助政府做大量本地化细致化的工作。这对企业而言是新的机会。
对从事数据服务的企业来说,确保数据安全固然重要,但他们更关心的是如何对数据确权。数澜科技数字政务总经理、九三学社社员武凯认为,“数据属于谁,为谁保护,这是最核心的。”
确权后,数据才能发挥其价值。如果数据权属不明确,会影响数据的流动、交易,进而影响这些数据最大程度地发挥作用。
举一个常见的例子:病人去医院看病,病例留在医院,在数据权属未明确界定的情况下,这些数据信息只能留在医院,不流动,也不产生更大的价值。但在数据确权后,这些数据在确保安全的情况下可以进行市场化交易。当数据流入保险公司手中,保险公司可以针对该数据对保费精准定价,原本 1 万元的保费可能降至 5000 元。省下的 5000 元保费便是这些数据带来的价值。
中国政法大学教授张丽英认为,数据权属界定不清、安全保护不足等 "痛点" 都是目前数字化转型要解决的问题。
数据确权,会影响到所有数字化的行业,比如今年火热的自动驾驶。今年 4 月的特斯拉刹车失灵事件,曾引发人们对车辆后台数据真实性的质疑。随后,特斯拉宣布正开发车主数据平台,以供车主查询获取车机交互的数据。目前看,监管部门、执法部门以及企业都享有对车辆数据使用的权利,消费者也依法享有对自己车辆行驶数据的知情权,那这些数据应该归谁却仍是问题。
当数据成为智能汽车的“口粮”,数据权属不明将成为制约智能汽车产业健康发展的因素之一。
在今年 5 月 26 日的“2021 中国国际大数据产业博览会”开幕式上,国务院副总理刘鹤通过视频演讲表示,在确保个人隐私和数据安全的前提下,探索实现更精准的数据确权,更便捷的数据交易,更合理的数据使用,促进公平竞争,反对垄断。“开放合作是大数据产业发展的内在要求。”
2020 年 4 月,国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,把数据纳入生产要素的范围。这意味着,数据要素市场化已被政府明确了。但市场化的前提是有产权支撑。解决数据确权问题,将是数据立法“下半场”的重要议题。
5. 数据确权要动谁的奶酪?
国内对数据确权的立法之路,显得颇为坎坷。
早在 2016 年,贵州在全国率先出台大数据地方性法规《贵州省大数据发展应用促进条例》,对大数据发展应用的系列环节和数据共享开放、数据安全等重点内容进行规范调整。
贵州之外,还有北京、上海、安徽、福建、黑龙江等省市针对大数据开发利用有地方性立法。据不完全统计,全国各地以“数据”为名的法规(草案)已经近百部。
但是这些地方性法律几乎都未触碰“数据确权”这一敏感的问题。
此前许多地方还成立了大数据交易所,意图通过数据交易带动数据产业。然而,由于数据没有确权,个人数据、企业数据难以交易,只能交易政府掌握的开放数据。问题是,开放数据人人可得,其价值也会大打折扣,而有限的数据量也使得交易不活跃,一些大数据交易所也逐渐形同虚设。
当数字经济占比较小,解决数据确权的问题显得并不迫切。但如今,数字经济在 GDP 中的地位已经举足轻重,2020 年我国数字经济规模占 GDP 比重已近四成,对 GDP 贡献率近七成。数字经济的崛起,倒逼着对数据的确权。
今年的数博会上,数据确权已经成为专家讨论的热点话题。他们的一个观点是,我国数据滥用的主要原因之一是大量数据被超级平台占有,数据在生产、收集、流通、使用等过程中的产权归属不清。
如今被超级平台占有的数据,已经成为其最核心的资产。因此对数据确权,就是动互联网平台企业的“奶酪”。
甚至某种意义上,对数据的确权,首先要过 BAT 这关 —— 以 2020 年 6 月中国各大 App 月活排名,前 30 大 App 中,腾讯系占 14 席,阿里系占 7 席,Baidu 系占了 3 席,三者总计占了八成。要确权这些平台上的数据,足以引发万亿级的“地震”。
自去年下半年以来,互联网平台公司频频遭遇反垄断处罚,这释放的信号已经越来越明确,超级平台占有大量数据带来的问题正被监管层重新审视。
今年 6 月 2 日,《深圳经济特区数据条例 (征求意见稿)》在市人大常委会网站上公开征求意见。条例明确提出,大数据“杀熟”情节严重的,可处 5000 万元以下或者上一年度营业额 5% 以下罚款。深圳市人大常委会相关负责人在作立法说明时称,该条例的亮点之一是强化个人数据保护,维护个人数据主体的合法权益。
中国政法大学传播法研究中心副主任朱巍认为:明确数据权属问题是大数据立法的一项重要内容,深圳的大数据立法将为国家大数据立法提供宝贵经验。他认为,推动国家大数据统一立法的时机已经成熟。
法律对数据确权的同时,还需要有操作层面的技术支撑,比如建立个人数据账户。
武凯认为,目前建立个人数据账户已经没有技术难度。一个可能的设想是,给个人配套一种类似身份证系统的个人数据授权账户系统。有这样一套系统,就可以使个人对数据授权,进而完成数据要素市场化。
唯有突破这一关,才能跨越数据大国,奔向数据强国。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。