我们离完美的AI之声还有多远?告诉你TTS的真相!

浏览 93 次  2018-12-27 09:28  来源: Soundtrack音迹

人类与AI的对话频率,正在进入一个前所未有的大爆炸时代。


无论是智能手机里的语音助手、有买有送的智能音箱,还是千娇百媚的智能机器人或者地图导航,总有一款声音萌动你心。


这些生活中随处可见的声线,背后其实都是靠一项核心技术来支撑的:语音合成TTS( Text-To-Speech),即将文字转化为声音。


1.jpg


在一般情况下TTS并不受到广泛关注。很多智能语音相关产品的发布会上,它甚至不会占用超过一页PPT的篇幅。但实际上,TTS对于整个AI语音交互的体验触发,起到了决定性的作用:用户听到什么声音,直接影响到AI在他心中的“三次元化”形象。


比如我一个朋友就是因为志玲姐姐嗲嗲的配音,成为了地图导航的死忠粉。而在经典的AI电影《Her》里,人工智能系统OS1就拥有斯嘉丽约翰逊的迷人声线,让男主人公为之倾倒,一段人与AI的虐恋就此展开。


语音合成,为机器注入了一种人格化的魅力,也让人类更愿意与之建立亲密关系。这也意味着,在商业价值都要靠黏住用户来实现的当下,TTS能力将成为各个语音场景输赢的命脉。


尽管企业对TTS的需求是如此迫切,但从学术到产业应用之间,TTS依然存在着大片的技术空白。相近的技术原理和前沿算法探索之后,每家公司的解决方案、解决能力都千差万别。二者叠加之下,导致TTS变成了一个巨大的赛场。



详情请收听今天的音迹音频节目。想了解更多资讯,欢迎关注闪电配音