推特等公司要价太高，OpenAI 和 Cohere 等 AI 公司转向合成数据

2023/7/20 10:30:59 来源：IT之家作者：故渊责编：故渊

评论：

IT之家 7 月 20 日消息，人工智能公司 Cohere 首席执行官 Aiden Gomez 近日透露，由于 Reddit、Twitter 等公司的数据采集要价太高，包括微软、OpenAI 和 Cohere 在内的 AI 公司，已使用合成数据来训练 AI 模型。

Gomez 表示合成数据可以适用于很多训练场景，只是目前尚未全面推广。

IT之家在此附上 Gomez 举的一个例子：如果某个企业想在高等数学中训练一个模型，可以创建两个人工智能模型，分别扮演老师和学生的角色，并让它们讨论三角学之类的话题。人工主要负责观察，如果看到有什么错误，可以进行纠正。

IT之家注：

合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。

但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

相关文章