业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

StackOverflow：类 ChatGPT 们用我数据训练得付费

量子位 2023/4/24 14:07:11 责编：梦泽

评论：

ChatGPT，遭到了一波反向收费。

而管 OpenAI 要钱的，正是全球最大程序员问答网站 StackOverflow。

理由是这样的：

你们拿我家的数据去训练 AI 了。

StackOverflow：类 ChatGPT 们用我数据训练得付费

无独有偶，在 StackOverflow 之前，Reddit 近日也发出了类似的信号 —— 计划开始向访问其 API 的公司收费。

Reddit 老板给出的理由更是直白：

我们的数据非常有价值，不想免费提供给科技巨头们。

StackOverflow：类 ChatGPT 们用我数据训练得付费

不得不说，这波围绕类 ChatGPT 展开的“商战”着实有点意思。

不过围观的网友们就不那么乐观了：

唯一没有获利的…… 好像就是用户了。

StackOverflow：类 ChatGPT 们用我数据训练得付费

科技巨头们要为训练数据买单了

我们都知道，训练一个像诸如 ChatGPT 这样的 AI，背后定然需要海量的数据。

无论是 OpenAI、谷歌、微软、Meta 或是其它公司都是如此。

但这些科技巨头们一般获取这些数据的方式都是从网上抓取，也因此不会给对应数据背后的公司掏钱。

他们所获取的数据来源，就包括了 StackOverflow、Reddit 在内的数千个在线“资源”。

然后科技巨头们就会将这些数据“喂”给大模型，让对话 AI 变得更聪明、更智能。

待产品们成熟可以“上岗”之后，科技巨头们就会开启付费模式，例如我们熟知的 ChatGPT Plus、GitHub Copilot 等等。

StackOverflow：类 ChatGPT 们用我数据训练得付费

但在这么一个过程中，像 StackOverflow 和 Reddit 这样的网站，就有点惨了。

首先，就是我们刚才提到的，这些 AI 拿着他们家的数据做训练，变得更强更优秀。

其次，这些 AI 的诞生似乎对于它们来说并没有太大的益处，反倒可能会变成非常有竞争力的对手。

于是乎，Reddit 就率先不干了，CEO Steve Huffman 直接撂下狠话：

想白嫖，没门！得交钱。

而后 StackOverflow 的 CEO Prashanth Chandrasekar 也公开赞成 Reddit 的做法。

不仅如此，他还认为这些大语言模型（LLM）的开发人员还违反了自家网站用户们的权益。

因为在 StackOverflow 条款中有这样的明确规定：

用户拥有他们在 Stack Overflow 上发布内容的所有权，但所有内容均受知识共享许可的约束，该许可要求以后使用这些数据的任何人都说明其来源。

Chandrasekar 认为，日后科技巨头们拿着自家的类 ChatGPT 的产品去出售的时候，开发人员是解释不清用了 StackOverflow 哪些用户的问答去训练的模型：

因此，他们违反了知识共享许可。

StackOverflow：类 ChatGPT 们用我数据训练得付费

据了解，StackOverflow 和 Reddit 目前都没有对数据收费做明确的公示，而且价格也没有定下来。

但另一方面，各种大语言模型背后的企业，也正在努力降低开发的成本。

将来若是训练数据都要收费了…… 那这部分成本又将会有谁来买单呢？

反正 Reddit CEO 的表态是：

爬取 Reddit 数据产生了价值，却不将任何价值返还给我们的用户，这是个问题。

会怎么收费？

虽然目前 StackOverflow 和 Reddit 都没有明确训练数据的价格，但有媒体猜测，他们可能会借鉴马斯克推特的“定价路线”。

例如在这个月，马斯克就提高了访问推特数据的价格 ——42000 美元 / 5000 万条推文。

更戏剧性的是，马斯克前一阵子还以“OpenAI 非法使用推特数据训练”为由，准备起诉 OpenAI。

StackOverflow：类 ChatGPT 们用我数据训练得付费

而不仅是文字领域，在图片生成领域，因训练数据而产生的纠纷也是屡见不鲜。

例如 Getty Image 就在此前起诉了 OpenAI 的对手 Stability AI。

理由是涉嫌使用超过 1200 万张照片且之前没有寻求过许可。

……

至于像 StackOverflow 和 Reddit 最终将如何定价，还需要等待他们官方的表态。

但值得明确的一点是，随着这一波 AIGC 热潮的到来，其背后的各种“规矩”，是值得深入探讨、商定了。

参考链接：

[1]https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
[2]https://qz.com/reddit-ai-bots-training-payment-1850352526
[3]https://twitter.com/ruchowdh/status/1649168431063736320

本文来自微信公众号：量子位（ID：QbitAI），作者：金磊

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

StackOverflow：类 ChatGPT 们用我数据训练得付费

科技巨头们要为训练数据买单了

会怎么收费？

相关文章