ai人声克隆软件 ai克隆声音

更新时间:2020-05-02 23:14:24    阅读:253

随着科技的发展,人声克隆也是一个争议的热点。因为我们知道,克隆是一件需要严肃对待的事情。当初我们克隆出了第一只小羊,克隆人类的讨论也随之而起。甚至有人担心,如果克隆出了声音,那么诈骗集团有可能会有所利用,保护隐私也就变得更为的重要。那么,当下是否有克隆声音的软件呢?同时,科技的发展可以做到克隆声音了吗?今天,小编为大家整理了一些关于ai人声克隆软件的内容,一起看看吧!

随着科技的发展,人声克隆也是一个争议的热点。因为我们知道,克隆是一件需要严肃对待的事情。当初我们克隆出了第一只小羊,克隆人类的讨论也随之而起。甚至有人担心,如果克隆出了声音,那么诈骗集团有可能会有所利用,保护隐私也就变得更为的重要。那么,当下是否有克隆声音的软件呢?同时,科技的发展可以做到克隆声音了吗?今天,小编为大家整理了一些关于ai人声克隆软件的内容,一起看看吧!

 

一、ai人声克隆软件

 

初音

软件使抄用了Yamaha的VOCALOID2语音合成引擎,把初音未来人类的声音录音并合成为酷似真正的歌声


只需输入音调、歌词则可发出声音,亦可以调整震音、音速等的“感情参数”,最多能够16人合唱,亦支援即时演奏、对应ReWire。制作完成后会以WAV格式输出,但软件本身只可做出歌唱部分,伴奏音声需要使用其他音乐软件合成。歌词输入能辨认平假名、片假zhidao名和罗马字,但不能辨认は、へ作为助词和う、い作为长音时会分别转为わ、え、お、え的发音,亦不能对应促音、汉字,需要自行修改。

 

二、ai克隆声音

 

仅需3.7秒的音频,中国科技巨头百度开发的一种新的AI算法就可以克隆出一种非常可信的虚假声音。就像机器学习软件的迅速发展一样,这种软件可以使虚拟视频的制作民主化,这项研究表明为什么越来越难相信互联网上的任何媒体。

这家科技巨头的研究人员在Deep Voice发布了他们的最新进展,Deep Voice是一个为声音克隆开发的系统。一年前,该技术需要大约30分钟的音频来创建新的假音频片段。现在,只需几秒钟的培训材料,它可以创造出更好的结果。

 

百度近日宣布,百度开发的新 AI 算法Deep Voice可以通过3.7秒钟的录音样本数据就能完美的克隆出一个人的声音。

 

Deep Voice是百度AI研究院一个由深度神经网络构建的高质量语音转(TTS )系统。该系统不仅提高的模拟的时间,百度还优化了它出错的概率。甚至还在一个单GPU服务器上,把推断规模提高到到每天1000万次以上。

 

自适应说话人编码方法在训练、克隆和音频生成中的应用。

 

Deep Voice最早是在2017年的年初发布了第一版,初版的系统就能模拟初简短的句子,而且说起话来几乎无法区分和真人的区别。但是该系统一次只能模拟一个人的声音,而且需要好几个小时的学习才能克隆成功。但是最新发布的成功已经缩短到3.7秒,并且能将女性声音转变成男性,英式声音变成美式。

 

模拟器编码器结构

 

百度研究院的研究人员在预印本网站 arxiv 上的发表了其 Deep Voice 系统的最新进展《Neural Voice Cloning with a Few Samples》。除了利用少量样本克隆声音外,系统还能将女性声音转变成男性,英式声音变成美式。百度研究人员表示,这项研究可应用于人机交互的个性化方面。


access-audio-audio-equipment-462441.jpg


三、克隆人声语音系统

 

科技日报北京5月3日电 (记者聂翠蓉)据《科学美国人》杂志网站2日报道,加拿大新创公司琴鸟(Lyrebird)发布了新款人工智能(AI)语音系统,其能通过分析讲话录音和对应文本以及两者之间的关联,在1分钟内模仿人类“讲话”,比如,模仿特朗普、奥巴马和希拉里三个人的声音展开一段对话。

 

让声音听起来更自然,是计算机程序在将文字转换成语音过程中面临的核心挑战,即使目前最好的语音助手,如苹果公司的Siri和亚马逊公司的Alexa,一发声给人的第一感觉仍然是,“哇!这是计算机。”背后原因在于这些语音助手系统的工作原理:根据预录的声音文档整理出词汇,再通过另一个新的音频文档将这些词汇拼凑在一起发声。

 

而琴鸟公司的AI使用了一种全新的语音合成系统,能在“倾听”过程中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿这个人声音中的情感和语调,“说”出全新的语句。

 

新系统使用模仿人脑思维的算法创建出一种人工神经网络,能利用深度学习技术将所听到的转换成语音,并仅靠任何人1分钟讲话内容,就能完全模仿这个人说话。其市场前景非常广阔,可用来改进个人人工智能助手、音频书籍以及残疾人语音系统等。

 

开发该系统的蒙特利尔大学学习算法实验室博士后亚历山大·布瑞比森表示,在学会并模仿了几个人的声音后,再模仿任何一个新对象的语音就会变得更快,因此新语音系统不需太多信息,1分钟足以捕获某个人声音的核心特点。

 

但美国卡内基梅隆大学语言技术研究所教授迪莫·鲍曼表示,琴鸟的语音系统和真正的人声之间还有差距。“我仔细听过琴鸟系统的发声,其带有背景噪音,以及微弱的机器人特征。而且,它还不能模仿人们在讲话中的呼吸和唇部运动,因此仍然能听出其计算机语音特征。”鲍曼说。他认为,语音系统真正令人信服地复制人声,还需再等几年。

 

以上就是小编为大家整理的关于ai克隆声音的相关内容了,不知道大家是否有所收获呢!其实,当下,人声克隆的探索空间还是比较大的,不过比较成熟的是模拟人声声音生成器,感兴趣的小伙伴也可以了解一下哟!期待在不久之后,我们能够使用到更多的科技软件,让媒体行业向前迈步。

 


该内容为非商业目的的转载分享,不代表本站观点,本文版权属其著作权人所有。若侵犯了您的正当权益,请立即联系我们删除。