从语音激活到空间音频,让声音更加智能化

更新时间:0000-00-00 00:00:00    阅读:312

在人机交互过程中,声音总是最自然和最直观的途径,不久之后所有设备都将会支持随时倾听,等待着我们的命令。

在人机交互过程中,声音总是最自然和最直观的途径,不久之后所有设备都将会支持随时倾听,等待着我们的命令。



随着新一代智能音箱和其它语音激活设备井喷式的发展,让您可以更加舒适地和设备交谈。如果在国外旅行时使用翻译耳机的效果如何呢?虽然它们还不是很常见,但是Google刚刚发布的智能耳机Pixel Buds已经支持了这个功能。


在最近的一篇文章中,我回顾了智能音箱发展的第二次浪潮,以高效生产和批量上市为特征。我推测这一阶段将给市场领导者以压力,促使他们进行技术创新和制造新的产品类型,同时进一步提高其它人的进入门槛。这正是我们这个月所看到的,谷歌、亚马逊、苹果等公司发布了很多新的音频语音产品。


去年Google Home的推出对于之前大获成功的Amazon Echo做出了回应。现在,谷歌正在扩大产品线,对抗包括Echo Dot,Apple HomePod和AirPods。谷歌语音激活助理因此可以有更多的使用场景,获得更大的价格空间。


新的Google mini形状像一个插针包,更小并且更便宜,是Google Home的替代品。对于那些寻找更好的声音体验而且愿意花更多钱的用户,Google Max提供了更加高端的声音体验,它也具备Google Home的全部功能。新的Pixel Buds 提供了活动式(on-the-go )体验,通过与智能手机配对创建一个入耳式的私人助理,和Apple的AirPods类似使用的是蓝牙音频流。这些耳机最有趣的特点之一是集成了谷歌翻译,如视频中看到的一样支持入耳式同声传译功能。谷歌表示它将支持40种不同的语言,这个数字无疑会随着产品演进而不断增加。


微信图片_20181121175410.jpg

[图1 | 从上到下依次是:AirPods 和Pixel Buds,Echo Dot 和Home Mini,以及HomePod 和Home Max]


语音激活技术另一个激动人心的发展是新的Gopro Hero6运动相机可以通过语音命令开机。这是GoPro第二代支持语音界面的设备,最早引入的是Gopro Hero5。


大多数的语音命令和之前一样,比如“GoPro 启动/停止录音”等等。


新机型的创新点体现在用户可以使用语音命令——“GoPro开机”打开相机。这个功能是可选的,在相机关机后的8个小时内维持激活。尽管这还不是一台完全随时倾听(always-listening)的设备,但它朝这个方向迈出了重要的一步。可以语音激活的Gopro还例证了我们的另一个设想,语音将会成为主要的用户界面。在人机交互过程中,声音总是最自然和最直观的途径,不久之后所有设备都将会支持随时倾听,等待着我们的命令。


Alexa的下一个应用是汽车,然后是你的脸


亚马逊正在让这一愿景成为现实,它仍在智能音箱市场上领先“新人”(谷歌)一步。在Google发布会之前,亚马逊抢先发布了一系列新的Echo产品,包括采用了新外观设计的一系列Echo产品和智能闹钟Echo Spot,延续了Echo Show开始的集成屏幕的风格。亚马逊还透露Alexa很快就会整合到宝马2018的车型中。


这可能是Alexa在成为最受欢迎的家庭智能音箱之后,再一次率先成为最受喜爱的公路旅行伴侣。


比任何官方消息都更有趣的是那些关于即将推出的亚马逊眼镜的推测。肆意蔓延的传闻指出它是基于Alexa的非手持,电池供电的眼镜。根据猜测,亚马逊眼镜不会提供视觉体验,但作为一个可穿戴设备,将允许用户随时随地和Alexa说话。这将是亚马逊向前迈出的重要一步,进军了可穿戴领域并且支持always-on功能。


很明显为了释放语音助手的全部潜能需要消除电源插孔,这里有相关技术可以实现。


空间音频可以产生或者打破虚拟/增强现实


随着亚马逊和谷歌的加入,将直接导致耳戴式设备(hearables)的全面改善。针对这种产品已经提出了很多有趣的概念,比如Kickstarter项目中名叫Vi的人工智能私人教练,可以掌握用户的生物识别特征并由此定制化训练,从而实现运动目标。现在想象一下,通过添加多维空间的音频制造出Vi就在你身前或身后的感觉,是不是可以提供额外的动力帮助你打破个人记录(参见10年前申请的专利)。


微信图片_20181121175415.jpg

[图2 | AR/VR应用大肆炒作视觉技术,但是要制造沉浸式的感觉,音频是至关重要的]


在苹果全新的手机中提出了最新的音频创新理念。iPhone 8第一次包含了双扬声器。这是一件大事情,因为双扬声器可以启用多维空间音频,这意味着苹果正在押宝到增强现实和虚拟现实(AR/VR)应用上。要创建一个沉浸式的AR/VR体验,空间音频是必须的。否则即使有令人惊叹的画面也不会产生一个足够有说服力的真实空间。


下一步是神经网络使能的声音感知


音频发展的下一步是什么? iPhone8和iPhoneX已经包含了一个专门的神经网络引擎。针对耳戴式设备和语音激活设备,神经网络可用于声音感知和音频分析。这一技术已经用来在家中识别某些特定的声音,比如门铃或者玻璃破碎,从而触发适当的响应。它可以改善耳戴式设备使用时的安全性,比如Vi私人教练和其它沉浸式 AR/VR应用程序。神经网络可以感知到某些重要的声音,并且通知用户,如警报器或者狗叫。通过这种方式,无论安全性还是享受感都可以兼顾。



“闪电配音”是内容与媒体首选的配音服务商,平台可实现7*24小时在线、最快15分钟实现千字配音且达到FM音质标准的实际要求,每百字仅需2-10元,通过产品驱动满足了对时效性要求高的自媒体等行业,实现了配音行业生产方式的变革。现阶段,平台已签约主播1万多名,平均每天有2千~3千笔订单,已服务累计服务客户超过3000家。行业覆盖新闻媒体、自媒体、知识付费、短视频、出版社有声书业务等;包括故宫、知识分子、见字如面、吴晓波频道、极客公园;磨铁、邮电出版社、喜马拉雅等。


该内容为非商业目的的转载分享,不代表本站观点,本文版权属其著作权人所有。若侵犯了您的正当权益,请立即联系我们删除。