研究:人工智能生成语音可以假乱真
参考消息网报道 据美国趣味科学网站10月4日报道,科学家表示,普通听众已无法分辨真人声音与“深度伪造”语音的区别。
美国《科学公共图书馆·综合》杂志9月24日发表的一项新研究结果表明,当同时聆听真人声音与AI生成的相同语音,人们无法准确区分真人声音与伪造语音。
研究报告的主要作者、伦敦玛丽王后大学心理学高级讲师娜丁·拉文在一份声明中称:“如今AI生成语音已无处不在。我们都和Alexa或Siri交谈过,我们的电话由自动客服系统接听。这些语音听起来还不太像真人声音,但AI技术生成自然的、像人声的语音只是时间问题。”
研究表明,虽然从零开始生成的通用语音被认为不够逼真,但基于真人声音训练出来的克隆语音,即深度伪造声音,其可信度与真人声音完全相当。
研究人员给受试者提供了80种不同的语音样本(40种为AI生成语音,40种为真人声音),让他们找出哪些是真人声音、哪些是AI生成语音。结果显示,平均仅有41%的从零生成的AI语音被误判为真人声音。这表明,在大多数情况下,人们仍能将AI语音与真人声音区分开。
然而,对于依照真人声音克隆出来的AI语音,有58%被误判为真人声音。而真人声音被正确识别出来的比例也仅略高一点(62%)。研究人员由此得出结论:在辨别真人声音与深度伪造的克隆语音方面,我们的能力不存在统计学意义上的差异。
拉文表示,这一结果可能对伦理、版权和安全领域产生深远影响。若犯罪分子利用AI克隆你的声音,他们将能更容易绕过银行的语音验证程序,或欺骗你的亲友转钱。
类似事件其实已发生多起。例如,7月9日,佛罗里达居民莎伦·布赖特韦尔被骗走1.5万美元。她认为她在电话中听到自己的女儿哭诉称出了车祸,需要钱聘请律师以免入狱。谈到那段逼真的AI伪造语音,布赖特韦尔表示:“没人能说服我,那不是她的声音。”
逼真的AI语音还可能被用于伪造政治人物或名人的声明和访谈。伪造的声音可能被用来诋毁个人或煽动动乱,进而埋下社会分裂与冲突的隐患。例如,近日有骗子利用AI克隆澳大利亚昆士兰州州长史蒂文·迈尔斯的声音,并借用他的公众形象试图诱使人们投资一个比特币骗局。
研究人员强调,他们在研究中使用的克隆语音其实并非特别复杂。这些克隆语音是他们使用商用软件生成的,仅用4分钟的人类声音录音对其进行了训练。
拉文在声明中说:“整个过程所需的专业知识极少,只需要几分钟的语音录音,成本也几乎为零。这恰恰表明,AI语音技术已变得多么容易获取,且多么先进。”(编译/刘宗亚)
(审核:欧云海)