首页 要闻 > 内容

微软有一个新的文本到语音AI工具让我们惊叹和恼火

时间:2023-01-17 11:07:52 来源:
导读 2023年似乎是人工智能(AI)年,而微软是最新一家热衷于参与其中的公司。该公司的研究人员发表了一篇论文(在新标签页中打开)详细介绍了一项新

2023年似乎是人工智能(AI)年,而微软是最新一家热衷于参与其中的公司。该公司的研究人员发表了一篇论文(在新标签页中打开)详细介绍了一项新技术,该技术将在文本到语音工具方面取得巨大飞跃。

该论文的摘要解释了这项被称为VALL-E的技术如何“产生情境学习能力,并可用于合成高质量的个性化语音,只需录制3秒的未见过的说话者的录音作为声音提示。”

这在简单的形式中意味着该工具现在可以分解是什么让一个人发出他们的声音,包括音素和声学代码提示,这要归功于Meta的EnCodec,并生成更接近他们的声音的声音超过三秒钟的示例录音。通过分析超过60,000小时的英语录音,VALL-E的早期阶段成为可能。

虽然简明扼要,但提到了这种文本到语音工具的潜在影响,这在人工智能揭示了我们以前梦寐以求(或做噩梦)的道德问题的时代变得越来越重要。

事实上,允许某事的虚假录音(例如使用基于电话的语音识别身份验证的银行数量)可能会导致许多问题,甚至更糟。

结论指出,VALL-E“可能存在滥用模型的潜在风险,例如欺骗语音识别或冒充特定说话者。ArsTechnica的BenjEdwards(在新标签页中打开)还指出,微软尚未共享该项目的代码供任何人试用,这表明仍在考虑潜在风险。

标签:
最新文章