网站策划怎么做内容,服装设计师培训学校,中国住房和城乡建设部网站注册中心,成都网站建设公司浅谈4月7日#xff0c;纽约时报在官网发布了一篇名为《科技巨头如何挖空心思#xff0c;为AI收集数据》的技术文章。
纽约时报表示#xff0c;OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题#xff0c;便开发了知名开源语音识别模型Whispe…4月7日纽约时报在官网发布了一篇名为《科技巨头如何挖空心思为AI收集数据》的技术文章。
纽约时报表示OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题便开发了知名开源语音识别模型Whisper。
随后在OpenAI副总裁Greg Brockman的带领下从视频平台YT、有声播客/读物等转录了超过100万小时的视频数据然后转化成文本数据用于训练GPT-4。
虽然这一举措游走在法律的边缘处于灰色地带但也直接反映出了大模型厂商对于训练数据的饥渴程度。 纽约时报指出不只是OpenAI谷歌、Meta等科技巨头因为想搜集高质量训练数据而修改隐私数据条款来避免版权法的制裁。
例如Meta为了追赶OpenAI、微软使用了互联网上几乎所有公开的英语书籍、散文、诗歌和新闻文章等内容。
甚至想直接买下一家大型出版社来获取更高质量的有版权、付费数据。不过没有人敢轻易相信Meta的数据隐私条例。
这是因为2018年的“剑桥分析丑闻”让Meta的信誉陷入低谷那时的名字是Facebook。
该事件是一家英国剑桥分析公司通过一款心理测试程序非法获取了大约8700万Facebook用户的个人隐私数据包括未经用户明确同意的信息。 用户在参与测试时不仅自己的数据被收集就连Facebook好友的信息也被抓取。该丑闻爆发后Facebook面临了前所未有的审查该公司的数据隐私政策和管理不当受到严重处罚。
最后以扎克伯格出面道歉、参加听证会才收场。
高质量数据是生成式AI领域的“黄金”。
当你向ChatGPT、Gemini、Claude等提问获得文本答案时心里是否会想过这种内容的写法好像在哪里见过
居然可以轻松写出古龙、金庸、莫言、莎士比亚、泰戈尔、芥川龙之介、夏目漱石等国内外知名作家风格的内容。
没错大模型最擅长的便是抄袭然后二次创新但整体框架、叙述方法还是以模仿为基石。
如果只用一句大白话来解释大模型的原理——通过海量预训练数据让大模型学会人类的写作技巧和习惯视频、音频、图片架构会更复杂一些但基本同理然后进行排列组合、预测生成全新的内容大模型的文本提示相当于搜索引擎的关键字。
所以相比几千亿甚至上万亿的参数在架构、算法差不多的情况下训练数据对于大模型更重要。微软、Stability AI发布的Orca 2、Stable LM 2等模型也充分证明了——通过高质量数据训练的小参数模型性能可以强过大参数模型。
就像上面的作家举例一样A厂商的模型学习了夏目漱石的写作数据而B没有两家又都是基于Transformer架构明显A的写作能力要大于B。
也可以把训练数据看成“内功心法”当两位剑客的招式几乎差不多时在关键时刻比拼的就是谁的内功高谁便能技高一筹。
此外为了获取高质量数据2023年7月5日谷歌 修改了数据隐私条款将会抓取用户公开或来自其他公共来源的数据用于训练Gemini当时用名Bard、谷歌翻译和云AI等产品。 但好景不长在公布消息的15天后谷歌就接到了美国克拉克森律师事务所的起诉。在这份长达90页的诉讼书中指控谷歌从网络秘密窃取大量数据来训练其AI产品。指控其疏忽、侵犯隐私、盗窃、侵犯版权以及从非法获取的个人数据中获利。
谷歌为了获取高质量数据铤而走险可见数据对于大模型的重要性。
合成数据正成为主流
4月2日华尔街日报在官网发布了一篇名为《对于大量消耗数据的AI企业来说互联网太小了》的内容。
华尔街日报指出对于大模型厂商来说互联网那点数据就像一口被挖干的油井根本不够用。
尤其是对于训练视频、音频、图像这些比文本更复杂的模型就像一个“数据黑洞”可以无限吸收各种数据。 但常在河边走哪有不湿鞋的事各家科技巨头当然也清楚游走在灰色地带只是无奈之举。所以他们想了一个新办法使用合成数据。
合成数据是通过算法、机器学习模型自动合成的“虚拟数据”以模拟真实世界数据的统计特性。基本上也是以模仿为主但在法律和应用场景等方面有很多优势。
良好的隐私保护合成数据可以在不暴露个人或敏感信息的情况下生成数据这对于遵守GDPR或HIPAA等隐私法规非常重要。
无限数据源理论上可以生成无限量的合成数据这对于需要大量数据但现实世界数据不足以支持的场景非常有用。
控制数据分布可以精确控制合成数据的分布能定制数据以探索特定的情况或增强模型在特定任务上的性能。
成本低收集和标注大量真实世界数据比较贵而生成合成数据的成本通常较低主要由AI自动完成。
但合成数据也并非完美无缺最致命的缺点便是过度拟合如果合成数据过于简化或未能捕捉到真实数据的关键特征、表示用于训练AI模型可能会过度拟合输出的内容同质化且繁重无用。
在合成数据应用方面OpenAI在今年2月15日重磅发布的视频模型Sora很多技术大咖就分析Sora能生成如此高清的视频和时长可能使用了虚幻引擎5生成的合成数据。
事实上根据内测用户发布Sora生成的视频然后与虚幻引擎5的示例视频进行了多维度对比大概率是使用了合成的视频数据来训练Sora。
所以使用合成数据训练AI模型将成为未来主要趋势之一。
本文素材来源纽约时报、维基百科、谷歌官网、Meta官网、theverge官网如有侵权请联系删除
END