个人语音助理终于来了！-电子网

靠语音激活的智能助手正在火速传播。苹果的Siri, 亚马逊的Alexa, 谷歌的Home, 微软的Cortana及很多类似的产品正在竞争。

接下来，让我们看看究竟是什么在**它的潮流，它将面临的挑战，以及它所涉及的问题。

从语音识别到语音理解的发展

几年前，语音识别还是一大难题，也是很多厂家渴望的免提用户界面之一。我还记得当初的Siri是如何误听我说的内容，或是不停地回复“不好意思，我没有完全听懂”。今天，人们普遍认同机器学习的重大提升及更经济和高效的处理能力已经使语音识别无处不在。

近期，谷歌高层研究员Jean Dean在讲座中声称神经网络降低了百分之三十的语音识别单词错误。连同语音识别的种种提升，降噪消音及语音加强也受益于神经网络。一个**的例子就是Cypher的技术，它可以使用神经网络隔离我们的声音发言。ASR则针对降噪消音来提升高原始数据的质量，提高使语音识别引擎的成功率提高。这些因素使当下的语音识别成为多种设备可靠并实使用的用户界面。

因此，该行业已经面临并着手处理下一个巨大挑战：理解人类丰富的语言，包括复合句，并列句及前后文关系。简单地说，机器已经逐渐学会了如何进行对话。根据专研语言理解的公司Houndify的介绍，我们可以向它的对话界面提问，例如“让我知道旧金山所有三星或四星，有健身房和游泳池，拥有空调，可以带宠物，价格在两三百之间，并可以住两天的酒店”。除了复杂的提问，他们称自己的平台还可以支持语境和跟进，使两者的互动接近正常对话。这种复杂程度在过去的十年前还只出现在科幻小说里。在该行业的大咖接二连三的发布自己的机器学习框架后，开源社区成为支持完整语言理解的动力，并使其迅速发展。这一行之所以能迅速变革要归功于机器学习所驱使的人工智能。伴随着软件的种种升级，硬件也在逐渐改善，使计算更加强大和高效。谷歌的Tensor Processing Units(TPU)就是一个的例子。这些谷歌内部研发的加速芯片会为它们的机器学习项目提供能源，例如AlphaGo。量身定制硬件来满足他们的深层神经网络算法使他们在竞争中取得了宝贵的优势。

个人语音助理的竞技场

对于连接移动设备，功耗和响应时间限制更为重要。大小，重量及电池寿命的限制具有更大的挑战，但这些问题都会随着时间消失。自带智能低功耗的一系列优势，便携设备将是此改革的下一步。这需要我们注意每个豪瓦和时钟周期来实现要求的效率。

在智能家居的用例中，亚马逊以Echo为潮流契机，将他们的对话助手Alexa带到了数百万的家庭。这款成功的无线扬声器起初只是一个有7-麦克风的设备，带有一些新功能的远场声控的音乐系统。从这之后，Alexa变得更加智能和方便，外带很多新功能，包括定外卖和叫出租车。亚马逊还发布一款便携版本并命名Echo Tap。这款软件的弊端也从名字中体现出来，一定要轻击后才能说话。一个更高效的嵌入式方案才有可能像插入的Echo一样带来这种声控激活并提供一个免提界面。

在近期的谷歌I/O大会，谷歌宣布了他们所设计的智能助手，Google Home. 这一单位引用了其他谷歌支持的设备所使用的同款谷歌助手，以”Ok Google”激活。该助手已经拥有了许多技能，可以用提供的词典浏览。在I/O演讲中，谷歌的CEO Sundar Pichai称该助手还会继续升级为支持上下文，跟进及复合句，并让它具备完整对话的能力。

关于个人语音助理的隐私性与此同时，苹果也通过近期开放Siri API的决定准备着进军该市场。这是非常重要的一步，因为用户会被助手背后的生态系统，应用及功能吸引。这些IT巨头们显然明白进入居家行就像一把解锁大众内心和钱包的钥匙；一款真正有益的智能助手永远在你身旁提供该公司的种种服务。

这些助手绝大多数的处理都在未加工的声音上传到云之后完成。这允许带有超强计算能力的超大服务器来进行处理。一旦上传，谷歌，亚马逊，或其他公司会记录并保存这些数据。这会带来一些隐私方面的质疑。我们已经接近所有语录都被这些大公司记录并保存的境界。一种解决方案是让处理器足够强大，在本地运行软件并无需上传语录。这样的话，云就可以提取信息，比如天气，方向等等，但不会提供那些敏感并私人的信息。

另一方面，大数据的收集导致了机器理解的种种提升和成就。如果要继续让机器学习和提升，我们必须继续提供数据。或许这个问题的解决方案会以管理的方式呈现，但这个过程会非常有趣。

了解更多信息

CEVA走在挑战的前沿只为带来实用的智能科技。我们的超低功率CEVA-TeakLite-4处理器可以使用高效的声控唤醒方案，降噪，语言识别，等等。点击收看DSP芯片演示了CEVA支持的语音激活Galaxy S7

你可能感兴趣：业界新闻图片 Google 解决方案语音识别

资讯发现

个人语音助理终于来了！

*新资讯