首页 >> 生活 >

一种节能的文本到音频AI

2023-03-16 15:25:26 来源：用户：

根据萨里大学研究人员的说法，生成人工智能(AI)系统将激发音乐行业及其他领域的创造力爆炸式增长，他们正在邀请公众测试他们新的文本到音频模型。

AudioLDM是Surrey推出的一种新的基于AI的系统，它允许用户提交文本提示，然后用于生成相应的音频剪辑。该系统可以使用比当前AI系统更少的计算能力来处理提示和传送剪辑，而不会影响音质或用户操作剪辑的能力。

公众可以通过访问其HuggingFace空间来试用AudioLDM。他们的代码也在GitHub上开源，获得了1000多颗星。

这样的系统可以被声音设计师用于各种应用，例如电影制作、游戏设计、数字艺术、虚拟现实、元宇宙和视障人士的数字助理。

萨里大学的项目负责人HaoheLiu说：“生成式人工智能有可能改变每个领域，包括音乐和声音创作。”

“通过AudioLDM，我们证明任何人都可以在几秒钟内用很少的计算能力创建高质量和独特的样本。虽然对该技术存在一些合理的担忧，但毫无疑问，人工智能将为这些创意产业中的许多人打开大门，激发新思想的爆发。”

Surrey的开源模型以半监督方式构建，采用一种称为对比语言-音频预训练(CLAP)的方法。使用CLAP方法，AudioLDM可以在没有文本标记的情况下对大量不同的音频数据进行训练，从而显着提高模型容量。

萨里大学信号处理和机器学习教授WenwuWang说：“AudioLDM的特别之处不仅在于它可以根据文本提示创建声音片段，而且它可以根据相同的文本创建新的声音，而无需再培训。”

“这节省了时间和资源，因为它不需要额外的培训。随着生成AI成为我们日常生活的一部分，重要的是我们开始考虑为运行这些技术的计算机供电所需的能量。AudioLDM是一个朝着正确的方向迈进。”

用户社区使用AudioLDM创建了各种不同流派的音乐剪辑。

AudioLDM是一个研究示范项目，依赖于当前英国非商业研究数据挖掘的版权例外豁免。论文发表在arXiv预印本服务器上。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！