苹果 Anthropic和其他公司利用YouTube视频训练人工智能
据ProofNews调查并与Wired联合发表,超过170,000个YouTube视频是用于训练一些大型科技公司AI系统的海量数据集的一部分。Apple、Anthropic、Nvidia和Salesforce等科技公司未经许可就使用了从视频平台窃取的“YouTube字幕”数据。训练数据集是从属于48,000多个频道的YouTube视频中提取的字幕集合——它不包括视频中的图像。
数据集中包括MrBeast和MarquesBrownlee等热门创作者的视频,以及ABCNews、BBC和纽约时报等新闻媒体的片段。数据集中包括来自TheVerge的100多个视频,以及来自Vox的许多其他视频。
“苹果从多家公司获取了AI数据,”布朗利(其昵称MKBHD)在X上的一篇帖子中写道。“其中一家公司从YouTube视频中抓取了大量数据/文字记录,包括我的视频。”他补充道:“这将是一个长期存在的问题。”
作为调查的一部分,ProofNews还发布了一个交互式查找工具。您可以使用其搜索功能查看您的内容(或您最喜欢的YouTuber的内容)是否出现在数据集中。
字幕数据集是非营利组织EleutherAI的大型资料库ThePile的一部分,这是一个开源集合,还包含书籍、维基百科文章等数据集。去年,对一个名为Books3的数据集的分析揭示了哪些作者的作品曾被用于训练人工智能系统,作者在针对使用它来训练人工智能的公司提起的诉讼中引用了该数据集。
人工智能公司很少愿意公开其人工智能系统中的数据;YouTube内容的具体用途一直是近几个月来的一个关键问题。今年3月,当OpenAI推出其强大的视频生成工具Sora时,首席技术官MiraMurati多次回避有关该系统是否接受过YouTube视频训练的问题。
她当时对《华尔街日报》表示:“我不会透露所用数据的细节,但这些数据是公开的或经过授权的数据。”当《华尔街日报》询问有关YouTube内容的具体情况时,穆拉蒂表示她“对此并不确定”。
在之前的采访中,YouTube首席执行官尼尔·莫汉(NealMohan)曾表示,使用视频内容(包括转录)来训练AI会违反该平台的条款。5月份,在《Decoder》节目的一集中,谷歌首席执行官SundarPichai同意莫汉的评估,即如果OpenAI确实用YouTube内容训练了Sora,那么它就会违反YouTube的条款。
皮查伊说:“我们有条款和条件,我们希望人们在制造产品时遵守这些条款和条件,这就是我的感受。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【木屋别墅建造成本】在当今建筑市场中,木屋别墅因其环保、自然美观和良好的保温性能,逐渐受到越来越多消费...浏览全文>>
-
【洛的组词有哪些】“洛”是一个常见的汉字,具有丰富的文化内涵和多样的用法。在现代汉语中,“洛”常用于地...浏览全文>>
-
【木纹长条铝扣板】在现代家居和商业空间设计中,材料的选择直接影响整体风格与实用性。木纹长条铝扣板作为一...浏览全文>>
-
【木纹水泥板的优点是什么】木纹水泥板作为一种新型的装饰材料,近年来在建筑和室内设计中越来越受到欢迎。它...浏览全文>>
-
【木纹人造石生产设备介绍】随着建筑装饰行业的不断发展,木纹人造石因其独特的纹理、优异的耐候性以及环保特...浏览全文>>
-
【洛晨名字的寓意】“洛晨”是一个富有诗意和文化底蕴的名字,常用于男孩或女孩。它不仅音韵优美,而且蕴含着...浏览全文>>
-
【木纹铝单板】木纹铝单板是一种结合了木材纹理与铝合金材质的新型建筑装饰材料。它不仅保留了天然木材的美观...浏览全文>>
-
【洛冰河沈清秋扩写】一、《洛冰河沈清秋》是一部以古风爱情与江湖恩怨为主题的网络小说,故事围绕主角洛冰河...浏览全文>>
-
【木卫三和地球哪个大】在太阳系中,木卫三是木星最大的卫星,也是太阳系中最大的卫星。而地球则是我们赖以生...浏览全文>>
-
【木卫二有生命吗】在太阳系众多天体中,木卫二(Europa)因其潜在的宜居环境而备受关注。作为木星的第四大卫...浏览全文>>