首页 数码 > 内容

谷歌证实它也在对巴德进行网络数据抓取方面的培训

时间:2023-07-11 16:20:33 来源:
导读 无论网络上公开提供什么内容,谷歌都已允许自己使用它来训练人工智能。插图由HaeinJeong TheVerge提供周一,Gizmodo发现谷歌更新了其隐私政

无论网络上公开提供什么内容,谷歌都已允许自己使用它来训练人工智能。插图由HaeinJeong/TheVerge提供

周一,Gizmodo发现谷歌更新了其隐私政策,披露其各种人工智能服务(例如Bard和CloudAI)可能会根据该公司从网络上抓取的公共数据进行训练。

谷歌发言人ChristaMuldoon向TheVerge表示:“我们的隐私政策长期以来一直是透明的,谷歌使用来自开放网络的公开信息来训练谷歌翻译等服务的语言模型。”“这个最新的更新只是澄清了像Bard这样的新服务也包括在内。我们根据我们的人工智能原则,将隐私原则和保障措施纳入人工智能技术的开发中。”

继2023年7月1日更新后,Google的隐私政策现在规定“Google使用信息来改进我们的服务并开发有利于我们的用户和公众的新产品、功能和技术”,并且公司可以“使用公开可用的信息”帮助训练Google的AI模型并构建GoogleTranslate、Bard和CloudAI功能等产品和功能的信息。”

您可以从策略的修订历史记录中看到,更新对于将使用收集的数据进行培训的服务提供了一些额外的清晰度。例如,该文件现在表示,这些信息可以用于“人工智能模型”而不是“语言模型”,从而使谷歌能够更自由地根据公共数据训练和构建除法学硕士之外的系统。甚至该注释也隐藏在该政策的“您的本地信息”选项卡下的“可公开访问的来源”的嵌入式链接下,您必须单击该链接才能打开相关部分。

更新后的政策规定“公开信息”用于训练谷歌的人工智能产品,但没有说明该公司将如何(或是否)阻止受版权保护的材料包含在该数据池中。许多可公开访问的网站都制定了政策,禁止出于训练大型语言模型和其他人工智能工具集的目的而收集数据或网络抓取。看看这种方法如何在GDPR等各种全球法规中发挥作用将会很有趣,这些法规也可以保护人们的数据免遭未经明确许可的滥用。

这些法律和日益激烈的市场竞争相结合,使得流行的生成式人工智能系统(例如OpenAI的GPT-4)的制造商对用于训练的数据的来源极其谨慎,以及这些数据是否包括社交媒体帖子或人类艺术家的受版权保护的作品。作者。

合理使用原则是否适用于此类应用目前处于法律灰色地带。这种不确定性引发了各种诉讼,并促使一些国家的立法者出台更严格的法律,更好地规范人工智能公司收集和使用训练数据的方式。它还提出了如何处理这些数据以确保其不会导致人工智能系统内出现危险故障的问题,因为负责对这些大量训练数据进行分类的人员通常要承受长时间工作和极端工作条件。

美国最大的报纸出版商甘尼特正在起诉谷歌及其母公司Alphabet,声称人工智能技术的进步帮助这家搜索巨头垄断了数字广告市场。谷歌的人工智能搜索测试版等产品也被称为“抄袭引擎”,并因导致网站流量匮乏而受到批评。

与此同时,Twitter和Reddit这两个包含大量公共信息的社交平台最近采取了严厉措施,试图阻止其他公司随意收集他们的数据。API的更改和平台上的限制遭到了各自社区的强烈反对,因为反抓取更改对Twitter和Reddit的核心用户体验产生了负面影响。

标签:
最新文章