万物互联语音交互从端开始2017年云栖大会付强博士:听清世界的声音

2017years 10months 17day

2017年10月11日,被称为全球云计算TOP级聚会的阿里巴巴“杭州·云栖大会”在杭州云栖小镇拉开序幕。

1508222460955186.png


大会现场吸引了来自五大洲,67个国家和地区的近5万名嘉宾与会,在4天时间里,大会围绕人工智能、大数据、新零售、金融科技、弹性计算、基础设施、量子计算、生命科学、物联网、多媒体、AR等20个前沿科技领域,设置了2场主论坛、20场主题峰会、110余场行业分论坛,包括阿里巴巴集团董事局主席马云,国际奥委会首席信息技术官Gerry Pennell,中国科学院潘建伟、姚期智、梅宏三位院士及阿里巴巴集团技术委员会主席王坚、阿里巴巴集团CTO张建锋、阿里云总裁胡晓明等在内的800多位嘉宾带来了关于新经济、新技术的饕餮盛宴。

 

1508222490640987.jpg

北京先声互联科技有限公司CEO付强博士受邀参加本次大会行业分论坛“智能语音交互专场”的嘉宾演讲环节,同时受邀参与本论坛的嘉宾还有美国佐治亚理工学院李锦辉教授、阿里巴巴iDST总监鄢志杰、西北工业大学谢磊教授等。

1508223290848373.jpg

付强博士曾为中国科学院声学研究所研究员,现为北京先声互联科技有限公司创始人兼CEO,在声学语音前端技术领域有20多年的学术研究成果和多项国内外学术奖项,奠定了他在行业内的学术地位。

此次会议中,付强博士就语音交互前端处理从技术到商业的主题与参加本次论坛的其他专家教授与业界精英们进行了深入的交流与探讨。


付强博士表达了以下几个观点:

1、自然语音交互在物联时代会是重要的入口,然而场景的“碎片化”使得终端必须面对各种不利声学因素的挑战。综合运用信号处理、机器学习,以及融合语义信息的成熟前端处理是语音交互“自然化”的保障,成熟完整的端云一体的落地方案更是大规模商业化的动力。

2、当终端从某个特定的形态,发展到泛在的万物时,人机交互设计原则就需要从以机器为中心,过渡到以人为中心的自然交互体验。 


在讨论前端技术时,自然离不开关于技术路线的探讨,这也是我们先声互联一直以来的思考:

传统的前端处理技术主要采用的是子问题分而治之的思想,针对回声、噪声、混响等不利声学因素采用相应的信号处理算法,在最小化均方误差的优化准则下加以解决。

近年来,随着大数据和深度学习技术的兴起,在音频前端处理中,人们也开始使用传统信号处理技术和深度学习相结合的方法。传统信号处理的客观物理模型和基于深度学习的数据驱动模型相结合,既遵从了声源和声传播的客观物理规律,又利用了海量音频先验信息,使得前端系统的性能和稳健性得到进一步提升。由于深度学习是嵌入到传统信号处理框架中作为某个模块使用的,所以该阶段系统仍然是以最小化均方误差作为优化准则。

虽然现阶段的前端系统在某些应用领域中取得了成功,但是仍然还存在着许多更有挑战性的环境,例如卖场、展会等复杂场景、极低信噪比场景,以及多目标说话人场景等。这就要求未来的前端语音增强与后端语音识别进一步融合并联合优化,以迎接更加苛刻的挑战。为了实现前后端融合并联合优化,其优化准则也发生了改变,从基于信号处理的最小化均方误差变为了基于语音识别的准确率。在联合优化的过程中,识别误差从后端声学模型反向传播回前端,用于指导前端的优化。

 一言蔽之,前端处理是为了让获取的语音更加清晰自然,“听清世界的声音”


1508222646417668.png

在最后,付强博士总结道:这个产业链条的确很长,拼凑式的组装思维来做一定是走不远的,需在技术、方案、产品各方面多管齐下。