技术前沿与科研应用

微软公司推出可快速模仿人声的AI语音模型

日期:2023-03-02

|  来源:【字号:

 2023年1月5日,美国微软公司推出一款名为VALL-E的语音生成模型,仅需3秒音频训练即可模仿人类声音。该模型一旦学会了一个特定的声音,可以复制说话者的情绪和语气,甚至说话者从未说过的单词。考虑到潜在的滥用风险,微软公司尚未将VALL-E模型开源。

微软称VALL-E为“神经编解码器语言模型”,它建立在Meta公司于2022年10月宣布的一项名为EnCodec的技术之上。与其他通常通过操作波形合成语音的文本转语音方法不同,VALL-E分析一个人的声音,通过EnCodec将这些信息分解成离散的组件,并使用训练数据来匹配它“知道”的声音,使用生成的声学标记与相应的神经编解码器解码器合成最终波形。

微软基于音频库LibriLight训练了VALL-E模型,该音频库包含来自LibriVox有声读物的6万小时英语演讲。VALL-E模型通过匹配被模仿者与语音库中7000人的声音,找到与之高度相似的声音来进行准确生成。

信息来源:

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

https://arxiv.org/pdf/2301.02111.pdf

附件: