微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜？

原创

2023-07-22 12:06 星期六

科创板日报郑远方

①微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型；
②一方面，网络上那些通用数据已不足以推动AI模型的性能提升，另一方面，真实数据售价高昂；
③但合成数据的负面影响堪比“毒药”，可能让AI大模型患上“痴呆症”。

《科创板日报》7月22日讯（编辑郑远方）AI大模型对数据的庞大需求之下，AI公司们正在摸索一条获取数据的“新路”——从零开始自己“造”数据。

微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。

已有的（通用）数据资源似乎接近效能极限，开发人员认为，网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出，网络极为嘈杂混乱，“它并不能为你提供你真正想要的数据，网络无法满足我们的一切需求。”

之前，ChatGPT、Bard等聊天机器人的训练数据多来自于互联网，例如电子书、新闻文章、博客、推特与Reddit的推文帖子、Youtube视频、Flickr图片等。但随着AIGC技术愈发复杂，高质量数据的获取难度也越来越大。开发AI模型的科技公司们，也因不当使用数据而遭受多方抨击。

今年5月的一场活动上，OpenAI首席执行官Sam Altman曾被问及，是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否，并表示自己“非常有信心，很快所有数据都将是合成数据”。

▌人类真实数据售价高昂

为了大幅提高AI模型的性能，提升它们在科学、医学、商业等领域的水平，AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”，或是需要从药企、银行、零售商等大型企业获取专业数据。

这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。

且不说那些技术含量极高的制药、科学数据，光是之前Reddit和推特给出的数据采集要价，都被Gomez“嫌弃”价格太高。

其中，Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者Christian Selig透露，Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说，这大约相当于200万美元/月开销。

而根据推特今年3月发布的API政策，企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用，对应可以获得5000万至2亿条推文。而测算数据显示，最低一个档次的套餐只约等于整体推文的0.3%。

在这种情况下，合成数据自然成了一个实惠方案，不仅可以避开这些数据的高昂售价，还能生成一些更复杂的数据来训练AI。

▌如何用合成数据训练？

具体如何用合成数据训练AI大模型？Gomez举了一个例子：

在训练一个高级数学模型时，Cohere可能会使用两个AI模型进行对话，其中一个扮演数学老师，另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话，“其实一切都是模型‘想象’出来的”。

如果在这个过程中，模型说错了什么，人类就会在查看这段对话时作出纠正。

而微软研究院最近的两项研究，也表明合成数据可以用来训练AI模型，这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。

在其中一篇论文中，GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集，里面使用的单词全部非常简单，一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型，后者能生成流畅且语法正确的故事。

另一篇论文中，AI可以通过合成的Python代码进行训练，并在之后的编码任务中给出相对较好的表现。

▌蜜糖还是砒霜？

想要合成数据的客户有了，供应商自然也如雨后春笋般涌现，例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立，其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作，用合成数据来扩充现有数据，帮助训练人工智能模型。

Gretel.ai首席执行官Ali Golshan表示，合成数据的关键在于，它既能保护数据集中所有个人的隐私，又能保持数据的统计完整性。

同时，合成数据还可以消除现有数据中的偏差和不平衡。“举例来说，对冲基金可以研究黑天鹅事件，我们可以创建一百种变体，看看模型能否破解；而对于银行来说，欺诈事件通常不到总数据的百分之一，Gretel的软件可以生成成千上万的欺诈案例，并以此训练AI模型。”

不过，也有人不看好合成数据。

反对派认为，并不是所有合成数据都经过精心调试，并能反映或改进真实世界。

来自牛津、剑桥、帝国理工等机构研究人员发现，合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。

新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误理解。随着时间推移，模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下，这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。

即便是合成数据从业人员Golshan也坦承，在劣质合成数据上进行训练可能会阻碍进步。

“网上越来越多的内容都是由AI生成的。随着时间推移，这确实会导致退化，因为这些大模型产生的知识都是重复的，没有任何新的见解。

阅119.47W

我要评论

反馈意见

图片

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

要闻

股市

关联话题

6.13W 人关注

1.1W 人关注

4.12W 人关注

1.61W 人关注

8.88W 人关注

1.45W 人关注

9236 人关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见