设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

到底什么是数据(data)?

鲜枣课堂 2025/4/14 19:37:12 责编:梦泽

什么是数据?

简单来说,数据是信息的一种载体。更严谨一点,我们也可以说,数据是客观世界中被记录、存储的原始符号或信息。

在目前我们所处的时代,通常所说的数据,都是指计算机系统里的那些文本、图片、音频、视频文件,那些二进制的 0 和 1。

整个计算机系统,甚至整个数字世界,都是围绕数据进行工作。CPU,计算数据。内存和硬盘,存储数据。通信网络,传递数据。

因此,在计算机科学中,数据被定义为:“所有能输入计算机并被程序处理的符号的总称”。

需要注意的是,数据本身是没有意义的,是未经加工的“原材料”。经过处理和分析之后,数据才能转化为有意义的信息。

也有人指出,信息是数据经过处理后的结果,是对数据的解释和赋予意义的产物。这句话虽然有点抽象(烧脑),但准确地表达了数据和信息之间的关系。

█ 数据的特性

数据有很多特性。小枣君初步统计了一下,就有 14 个,分别是 ——

符号性:数据以符号形式存在,例如数字,以及刚才提到的文字、图像、音频、视频等。

客观性:数据反映了现实世界事物的属性、状态、关系等情况。它是客观存在的,不随主观意志而改变。

量化性:数据通常以量化的形式存在,便于计数、测量和统计分析。

可比性:数据之间可以进行对比分析,通过比较可以揭示数据之间的关系和差异。

可传递性:数据可以通过各种方式进行传输,如电子文档、纸质报告等,使得信息能够在不同个体或组织间传递。

可存储性:数据可以被存储在数据库、文件系统或其他存储介质中,以便于未来的访问和使用。

可处理性:数据可以通过计算、分析、加工等手段进行处理,以提取有用信息或转化为知识。

多维度:数据可以从多个角度进行观察和分析,如时间、空间、类别等多个维度。

多样性:数据有多种多样的类别和形式,能够满足不同领域和需求。

时效性:数据可能随时间的推移而发生变化,某些数据在特定时间点之后可能失去价值或准确性。

可靠性:数据应该是可靠的,即数据的来源、收集方法和处理过程应该是可信的,以保证数据的准确性。

相关性:数据之间存在相关性,某些数据的变化可能会影响其他数据的表现。

可解释性:数据应该能够被解释和理解,其背后的意义和代表的现实世界情况应该清晰。

限制性:数据可能受到隐私、法律、伦理等因素的限制,使用数据时需要遵守相关规范。

以上这么多的特性,在现实情况中,并不能都满足。

例如,在追求数据时效性的同时,可能需要牺牲部分可存储性。因为实时数据的收集和处理,需要更高的空间和成本。

同样,为了提高数据的可靠性,可能需要投入更多的资源进行数据验证和清洗,这可能会增加数据处理的复杂性和时间成本。

总之,能够尽可能地满足更多特性的数据,就会被认为是高质量的数据。数据的价值,也就更大。在实际应用中,我们需要根据具体场景和需求,权衡数据的各个特性,加以利用。

█ 数据的分类方式

刚才在说数据特性的时候,提到数据有多样性的特点,也就是有多种形式和类别。

对数据有很多种分类方式。例如,现在最常用的,就是按结构进行分类,包括结构化数据、半结构化数据和非结构化数据。

结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

结构化数据

非结构化数据,指网页文章、邮件内容、图像、音频、视频等。

半结构化数据,介于结构化和非结构化数据之间。如 XML、JSON 等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。

目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了 80%。

根据数据的来源,也可以分类。

例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据,等等。

根据数据的性质,还可以分为定位数据(描述空间位置,如坐标)、定性数据(描述事物属性,如“阴雨天气”)、定量数据(反映数量特征,如长度、重量)、定时数据(记录时间特征,如日期、时刻)等。

总之,每种分类方式都有其特定的应用场景和价值。

了解数据的分类,有助于我们更好地理解数据的本质,以及如何在不同场景下有效地管理和利用数据。

█ 数据的度量方式

前面我们也提到,数据具有量化性的特点。也就是说,数据是可以度量的。

我们通常度量数据的单位,大家应该比较熟悉,就是 KB、MB、GB、TB 等。

我们传统 PC 和手机处理的数据,是 GB / TB 级别。例如,我们的硬盘,现在通常是 1TB / 2TB / 4TB 的容量。

在 TB 之上,还有 PB、EB、ZB 等。

TB、GB、MB、KB 的关系,如下:

1 KB = 1024 B  (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是 20 万张照片或 20 万首 MP3 音乐,或者是 20 万部电子书。

1PB,需要大约 2 个机柜的存储设备。容量大约是 2 亿张照片或 2 亿首 MP3 音乐。如果一个人不停地听这些音乐,可以听差不多两千年。

1EB,需要大约 2000 个机柜的存储设备。如果并排放这些机柜,可以连绵 1.2 公里那么长。如果摆放在机房里,需要 21 个标准篮球场那么大的机房,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近 EB 级。目前全人类的数据量,是 ZB 级。

数据中心

根据 IDC 的数据,在 2020 年,全球创建、捕获、复制和消耗的数据总量约为 64ZB。而到了 2025 年,全球数据总量可能会达到惊人的 163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比 196 个鸟巢体育场还大。

█ 数据的产生阶段

人类社会的数据体量不仅大,增长速度也很快 —— 每年增长 50%。也就是说,每两年就会增长一倍多。

为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段,是 1940-1990 年。

计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。

第二个阶段,是 1990-2010 年。

伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0 出现后,人们开始使用博客、facebook、youtube 这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。

第三个阶段,是 2010 年至今。

随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。

值得一提的是,如今,随着我们逐渐进入 AI 智能时代,很可能会迎来第四次数据暴增阶段。以 AIGC 为代表的智能机器生产内容,正在急剧增加。

█ 数据的作用和意义

数据是信息的载体。它的最基础作用,就是记录和表征。

例如,考勤数据,记录了员工每天的上下班时间、请假、迟到、早退等信息。这些数据不仅帮助我们了解员工的出勤情况,还能进一步分析员工的工作效率、团队协作以及可能存在的管理问题。

再例如,体检数据,记录了我们的身高、体重、血压、血糖等各项生理指标。这些数据不仅有助于我们了解自身的健康状况,还能及时发现潜在的健康问题,为预防和治疗疾病提供重要依据。

除了个人工作和生活领域之外,在科学、商业和公共管理领域,都有对应的系统和数据。这个数据的体量更大,甚至达到了大数据的级别。

通过深入挖掘和分析海量的数据,企业和政府部门可以找到隐藏在数据背后的规律和趋势,为未来的发展和决策提供有力的支持。

在科学领域,实验数据、观测数据、模拟数据等构成了科学研究的基础。这些数据不仅帮助科学家验证理论、发现新现象,还能推动科学技术的进步和创新。

例如,天文学中的天文观测数据,记录了星系的运动、恒星的诞生和消亡等宇宙现象,这些数据为理解宇宙的起源和演化提供了重要线索。

在商业领域,销售数据、客户数据、市场数据等是企业运营和决策的重要依据。通过分析这些数据,企业可以了解市场需求、优化产品设计、提升客户满意度,从而制定更为精准的市场策略和商业计划。

例如,电商平台通过分析用户的购买历史和浏览行为,可以为用户推荐更为符合其需求的商品,提升用户的购物体验和平台的销售额。

在公共管理领域,政府数据、公共服务数据、社会调查数据等是政策制定和实施的基础。这些数据不仅帮助政府了解社会现状、预测发展趋势,还能为政策评估和优化提供依据。

例如,通过分析交通流量数据,政府可以合理规划交通路线、优化公共交通服务,从而缓解城市交通拥堵问题。

█ 最后的话

总而言之,数据在目前这个时代,已经变成了重要的无形资产,也被称为“新石油”。

从个人生活到全球治理,数据都扮演着不可或缺的角色,已成为驱动效率提升、科学发现和社会进步的核心资源。

最近几年愈演愈烈的 AI 浪潮,进一步推动了数据的价值提升。人工智能的三要素,其中一项,就是数据(另外两个是算力和算法)。数据作为 AI 的“燃料”,其质量和数量直接决定了 AI 系统的性能和准确性。

未来,随着数据规模的指数级增长和技术的持续突破,数据的价值将进一步释放。

好啦,以上就是关于数据的基本常识。大家都搞明白了嘛?

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:数据

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知