设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

最新研究揭示 AI 数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

新智元 2025/1/30 14:51:39 责编:问舟

相比 LLM 和 Agent 领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过 50 名研究人员组成的数据溯源计划(DPI)旨在回答这样一个问题:AI 训练所需的数据究竟来自何处?

「AI 就是数据」,这句话想必已经成为了业内的共识。

当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI 领域的开发者和研究人员并不真正了解这些数据的来源。

与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。

成立于 2024 年的 Data Provenance Initiative 就想要解决这个问题 —— 构建 AI 模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的 AI 学术界和工业界的 50 多名研究人员组成。

他们审核的近 4000 个公共数据集中,涵盖了 67 个国家、近 700 个组织、600 多种语言,含有约 800 种数据来源,时间跨度长达三十年。

DPI 的研究结果呈现出一种令人担忧的趋势:AI 领域的数据存在着「垄断」倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。

LLM 数据来源之变

时间回溯到 2010 年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。

参与项目的 MIT 研究员 Shayne Longpre 表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。

2017 年,Transformer 横空出世,虽然 Scaling Law 还要几年后才提出,但这就已经标志着我们开始迈进了「大模型」时代,数据集越大、模型参数量越大,就会有更好的性能。

它不仅来自百科全书和网络,还来自议会记录、财报电话和天气预报等来源。隆普雷说,当时,人工智能数据集是专门从不同来源收集和整理的,以适应个别任务。

从 2018 开始,网络就一直是所有媒介数据(包括音频、图像和视频)的主要来源;如今,大多数 AI 数据集都是通过不加区别地从互联网上爬取材料构建的,抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。

Longpre 表示,对基座模型的能力而言,似乎没有什么比互联网及数据的规模和异构性更重要了。对规模的需求也促进了合成数据的大量使用。

除了语言模型,过去几年中我们也见证了多模态 GenAI 的兴起,比如各种图像和视频的生成模型。和 LLM 类似,这些模型也需要尽可能多的数据。

正如下表所示,视频模型的语音和图像数据集中,超过 70% 的数据都来自同一个来源 YouTube。

这对于拥有 YouTube 平台的谷歌和母公司 Alphabet 来说可能是天大的利好。文本数据是分布在整个互联网上的,且由许多不同的网站和平台控制,但对于视频数据,权力竟如此集中地掌握在一家公司手中。

AI Now Institute 联合执行董事 Sarah Myers West 表示,由于谷歌也在开发自己的人工智能模型(例如 Gemini),其巨大的优势也引发了人们的疑问:谷歌将如何向竞争对手提供这些数据。

更深一层,如果我们所交互的大多数 AI 数据集都是在反映以利润为导向的科技巨头的意图和设计,那么这也会不可避免地作用到其他方面,这些大公司会以符合自己利益的方式重塑我们世界的基础设施。

DPI 计划的另一位成员 Sara Hooker 从另一个角度提出了担忧:单一数据来源造成的偏差和失真。

博主们将视频上传到 YouTube 时会考虑到特定的受众群体,视频中的内容也通常是为了达到特定的效果。那么,这些视频能否捕捉到人性中的细微之处,以及各种不同的生活和行为方式?

举个简单的例子,比如你是一个想了解中国的歪果仁,能否通过影视剧、小视频和短剧,学习到中国人的性格、行为和处事方式呢?

隐藏起来的数据集

虽然许多科技公司都会选择发布部分模型的代码甚至权重,但几乎很少公开训练数据。原因之一是保护竞争优势,但实际上还有另一个原因:由于数据集捆绑、打包和分发的方式复杂且不透明,他们甚至可能也说不清数据来源。

此外,关于使用和共享数据的限制,发布这些模型的公司可能也没有完整信息。DPI 的研究人员发现,数据集通常附加有限制性许可或条款,比如限制其用于商业目的等。

如图所示,文本、语音和视频数据集分别有 25%、33% 和 32% 明确发布了非商业许可,这意味着它们可以用于学术或个人创意,但不能用于商业盈利。

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难对使用哪些数据做出正确的选择,也几乎不可能百分百保证,模型训练过程中完全没有使用过受版权保护的数据。

最近,OpenAI 和 Google 等公司与出版商、Reddit 等主要论坛以及网络社交媒体平台达成了独家数据共享协议,但这却成了他们集中权力的另一种方式。

数据集方面这一趋势有利于 AI 领域的那些最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界的研究人员、非营利组织和小公司的利益。

可以说,这些具有排他性质的数据共享协议会将互联网划出不同的区域,是一波新的「非对称访问」浪潮,且已经达到了开放网络上我们前所未见的程度。

西方国家 vs. 其他地区

这项研究中还证实了另一件事:用于训练 AI 模型的数据也严重偏向西方世界。研究人员分析的数据集中,超过 90% 来自欧洲和北美,却只有不到 4% 来自非洲。

Hugging Face 首席伦理学家 Giada Pistilli 表示,英语之所以在训练数据中占据主导地位,部分原因是,互联网中 90% 以上的内容仍然是英语;另一个原因是方便:将其他语言的数据集放在一起并考虑其他文化,这需要进行更大量的数据工作,以及开发人员有意识的意图。

通过多模态模型的输出,我们可以更明显地感受到这些数据集是如何以西方文化为焦点的。例如,如果提示 AI 模型生成婚礼的景象和声音,可能只能得到西式婚礼相关的内容,因为训练数据就是如此。

数据集代表了人类社会中的偏见,而经过这些数据训练后的模型又加剧了偏见,并可能导致 AI 模型推动某种以美国为中心的世界观,同时不经意间抹去其他语言和文化。

参考资料:

  • https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:AI算法数据

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知