端云一体、软硬结合,先声互联想要提供智能语音交互一站式解决方案

2017years 08months 21day

【36氪】石亚琼 资深分析师

远程是自然语音交互的最大障碍之一


智能语音交互成为新趋势, 以麦克风阵列为代表的声学前端器件的重要性日益凸显。从传统声学器件厂商、互联网公司、声学初创公司、语音技术服务商都纷纷推出相关产品。我们近期接触的先声互联科技也是其中的一家,主要面向家居、车载等消费应用市场,为有智能语音交互需求的客户提供包括声学结构设计测试、硬件模组设计加工、终端语音模块研发、端云一体语音交互、场景定制NLP开发、产品准入认证与评测等在内的端云一体、软硬结合的一站式解决方案。

 

当前,智能语音交互的诸多问题,都是伴随着远场出现的。移动互联网时代,语音交互多是发生在近场环境中,比如语音通信、调用Siri等语音助手,但目前家居、车载、可穿戴等智能语音交互的常见场景中,人与机器的交互基本都是发生在以米计量的距离内。一般来说,人听到的声音包括直达声和反射声(人听自己说话的声音还包括骨导传输),当距离声源较远以后,声波的反射效果增强形成较强的混响,特别是在一些声学效果较差的环境,如果附近还有其他的噪声干扰,例如电视、风扇、汽车等等,即便我们人类也很难听清远处的人声,这就直接影响了远场语音识别的准确率,也会产生远讲语音唤醒和识别等难题。要想提升智能语音交互的体验,就必须解决远场带来的这些问题。

 

为此,先声互联研发了自己独有的多通道语音前端信号处理引擎,综合利用了多麦克风空间滤波、语音分离、解混响和声源定位等多项基于物理建模的信号处理技术,并融合了基于机器学习的数据建模机制,可以适用于远场免提模式的语音识别和通信应用,帮其抑制背景噪声、非平稳干扰、设备回声、房间混响等不利声学因素,提升声学效果及相关用户体验。

 

相比于目前市面上的大部分方案,先声互联多通道语音前端信号处理引擎采用了物理信号建模与机器学习数据建模相结合的实现路径,这使得使用更少的麦克风达到更好的效果有了可能,对麦克风间距、阵列拓扑结构、以及阵元一致性要求也低于传统的阵列增强算法,实施效率和灵活性较高。目前市面上大多声学方案都仅采用物理信号建模的处理方式,这也是比较经典的处理方式。但随着机器学习等技术的成熟,数据建模的效果也逐步体现。比如,Google Home智能音响,仅使用2个麦克风的阵列达到了一定的效果,背后也是有类似技术的支持。

 

之所以做这样的尝试,与团队过去声学领域的研究和经验密不可分。创始人兼CEO付强博士于2000年语音处理专业博士毕业,并在美国和欧洲的一流科研机构从事过相关的博士后研究,曾是中国科学院声学所的研究员,20余年语音信号处理领域的研究,在包括IEEE Trans.等国内外权威学术刊物及会议上发表论文70余篇,专利10余项。完成了国家和省部委的几十项科研课题,其中多项成果在相关部委列装。并在2006年和2008年分别和通用、大众合作,将远场语音方案应用到车载环境中。2013年与长虹合作完成国内首颗智能语音SoC。2014年带领团队与海信合作完成国内首台具有远讲语音交互功能的智能电视。2016年中国语音产业联盟先进个人。另外,付强博士的学生团队曾在2016年国际语音分离和识别挑战赛CHiME4中,在主办方提供的基线识别系统上,仅靠在前端处理部分做的工作,就取得了较好的综合成绩;在前端算法性能提升的横向比较当中,位于国际前列。

 

为了方便客户快速开发,先声互联也希望提供围绕智能语音交互相关的更多产品和服务,包括端云一体语音交互、场景定制NLP开发、测试服务等。语音交互方面,先声互联在后端对接了百度、腾讯、阿里、亚马逊的智能语音服务,也自研发了自然语言处理相关技术,可以为用户提供场景定制NLP开发。公司也希望未来可以借助云服务,成为语音内容分发的入口。

 

首页图片.png

目前,先声前端处理引擎可支持家居、车载、会议等多种应用场景。根据不同的场景需求,先声前端处理引擎目前可支持三种不同的解决方案:

●双麦克风方案。主要面向以家用电子为主的消费类电子应用,可以灵活地应用于消费类音响、电视机顶盒、空调以及网络路由器等设备;

●四到六麦克风方案。主要面向高端家用电子产品、企业级应用以及机器人,阵列拓扑并不限于标准的线阵和环阵,可以根据产品形态定制阵列结构;

●七麦克风以上方案。主要面向对性能要求高的企业级应用和机器人。

 

与市面上一些厂商做标准化的硬件路径不同,先声互联会在固定方案的基础上,会针对客户做一定的“定制”,以达到更好的效果。CEO付强博士表示,因为团队已有多年的产品落地经验,目前这种“定制”更多是体现在麦克风阵列拓扑结构的变化上,可以做到根据客户的ID设计来给出最佳的选择,也是由于先声互联的前端处理算法自身的适应性较强,所以这种“定制”并不会带来系统的复杂,也不会增加工时。事实上,目前现阶段,C端消费级市场的客户很多还处于尝试阶段,销量还相对有限,短期内各家厂商的订单量都还不大。

 

目前先声互联的技术及产品已有多项落地,TCL智能电视、海信智能电视、物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2、360的巴迪龙儿童陪伴机器人等产品都采用了先声互联的远讲算法以及麦克风拾音模组(由共达电声合作生产)。此外,先声互联也正在和小米、联想、阿里、腾讯、优必选等公司就某些智能硬件产品展开合作。

 

因为处于产业链的上游,此前声学前端器件厂商给外界留下的印象多是“不赚钱”。几家声学相关的上市公司,声学直接相关的业务营收也都相对有限。不过,智能家居、智能车载等新场景上,传统输入方式受限,对智能语音交互需求有了提升。调研机构预测,2020年联网设备将达340亿台(激进数据预测或达460亿台),产值也有望增长到500亿美元;届时全球语音市场规模预计将达到191.7亿美元。这样的前景之下,这一领域不仅涌现出了多家初创公司,也吸引了资本的青睐。成立于2016年的声智科技已于2016年底获得1600万元Pre-A轮融资,由洪泰基金领投,峰瑞资本跟投;成立于2016年下半年的GMEMS已经完成来自北极光的A轮融资,预计今年的订单量可以达到七八千万元。

注:题图来自123RF