语音助理市场爆发面临声音拾取与语义理解技术挑战

分享到:
198
下一篇 >

  众所周知,语音交互是一门多项技术融合的交叉学科,涉及到信号处理、模式识别、概率论与信息论、发声机理和听觉机理、神经网络,语音识别,机器学习等。因此在谈语音助理的技术挑战之前,我们首先需要明白语音识别分为语音层和语言层两部分,语音(Speech)是语言(Language)的信号载体,语音是人的发音器官发出的,承载一定的语言意义,而语言才承载人类的智慧,因此想要实现语音识别就需要先解决语音拾取的问题。Alexa与Siri同属于语音识别,不过分别代表着语音识别的两个领域,Alexa主要是远场语音交互,Siri则主要是近场语音交互。

中国科学院声学研究所副研究员/声智科技CEO陈孝良

  以Siri为代表的近场语音交互场景的语音拾取一般都是采用单麦克风系统。中国科学院声学研究所副研究员/声智科技CEO陈孝良介绍,单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离,这样就无法实现声源定位和分离。这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。

  除了声音拾取的问题,要让机器听懂用户的命令,还面临语音识别模型和语义理解的挑战。陈孝良表示,远场语音识别可以基于深度学习技术,因为当前的语音识别基本都是深度学习训练的结果。不过深度学习有个局限就是严重依赖于输入训练的样本库,若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解,物理世界的信号处理也并非越是纯净越好,而是越接近于训练样本库的特征越好,即便这个样本库的训练信号很差。显然,这是一个非常难于实现的过程,因此至少要声学处理和深度学习的两个团队配合才能做好这个事情。但好消息是,利用麦克风处理的远场数据直接训练远场语音识别模型这种方法已经证明非常有效果。

思必驰CMO龙梦竹

  思必驰CMO龙梦竹还告诉记者:“语音助理还有一个亟待突破的技术方向,就是ASR++(即语音识别++),传统语音识别是通过音频采集,拾取,对信号进行处理,更关注音素本身。而ASR++则更关注音素以外的其他信号,识别发声人的声纹、性别、年龄等特征。在未来,这个方向的技术会有很强的商用价值。”

  麦克风阵列及深度学习技术解决语音助理普及难题

  当语音交互场景从近场语音交互过渡到以Echo为代表的远场语音交互的时候,单麦克风的局限性就凸显出来。为了能够满足远场语音交互的声音拾取,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

北京灵隆科技**科学家汤跃忠

  据了解,受访的几家公司麦克风阵列方案都各具特色,处于行业**水平。陈孝良介绍:“声智的核心产品已经在360、小米等客户量产的产品中应用。我们的远场语音交互方案很齐全,包括单麦、双麦、4+1麦环形,4麦线形、6麦环形、6+1环形和8+1环形等麦克风阵列以及适配不同场景的远场语音识别引擎。”北京灵隆科技**科学家汤跃忠则透露叮咚智能音箱采用了具有****水平的8麦克风阵列方案。龙梦竹表示:“思必驰在2015年12月推出了国内首款环形6+1远场麦克风阵列,在中文自然语言交互领域受到关注,能够实现5米远场交互,360°全角度拾音,识别角度精准度控制在±10°以内。”

  当然,麦克风阵列仍然还需要解决小型化和低成本的问题。陈孝良表示,麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。因此麦克风阵列朝着小型化发展。另外,当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。

  语义理解还是一个比较困难的事情,目前以深度学习为突破点。深度学习是近年来新兴的一门机器学习子领域,主要探讨包含多层结点的人工神经网络的建模和学习问题。这种深度神经网络在面对复杂的智能问题时可以更好地进行处理,网络模型的信息处理方式在模仿人脑方面更进一步,模型可以好的用于进行语音识别。目前语音助理的算法主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等。

  不过,陈孝良表示:“当前用户实际上不需要复杂的语言理解,只需要根据场景不同优化不同的语言模型,基本上就能解决很多用户的问题。”叮咚智能音箱在语义理解的处理上,汤跃忠解释说:“我们*新的版本已经使用了深度学习方法。而语义理解一直是我们的核心优势之一,它使用了*新的人工智能方面的技术,比如RNN。而且针对智能家居控制的需求,我们专门开发了智件云系统,来处理智能家居的语义理解需求。”龙梦竹则表示,语音识别要求对自然口语交互有非常场景化和垂直化的能力。要实现识别、合成、语义理解,不仅需要软件,也需要硬件模块的配合。(责编:振鹏)

你可能感兴趣: 市场行情 图片 Alexa 机器学习 信号处理
无觅相关文章插件,快速提升流量