谷歌读唇智能 取得重大进展

分享到:
12305
下一篇 >
谷歌的DeepMind人工智能部门与牛津大学的研究员合作,利用人工智能来建立起有史以来*准确的读唇软件。利用BBC的数千小时电视节目,科学家训练一个神经网络来为视频片段加上字幕,准确度有46.8%。这看来并非那么特别,尤其相比人工智能在誊写语音的准确度。但以同样的片段作测试,一名人类专业读唇家只能够取得12.4%的准确度。

牛津大学另一支研究团队本月较早前亦有公布类似的研究报告。利用相关的技术,这批科学家弄出一项名为LipNet的读唇程式,能够在测试中取得93.4%的准确度,相比人类只能达成52.3%准确度。但LipNet只测试特别录制的片段,自愿人士在片段中读出公式化的句子。相比之下,名为“看、听、注意及串字”的DeepMind软件是以更高难度的片段来测试;誊写BBC政谈节目没有讲稿的自然对话。

科学家用《Newsnight》、《Question Time》以及《World Today》等电视节目的五千多小时片段来训练DeepMind的Watch, Listen, Attend, and Spell程式。视频包括有118,000个不同句子以及约17,500个不同单字,而LipNet的测试视频数据库只有51个不同单字。

DeepMind的研究人员指出,这项程式可以有各类不同的应用,包括协助弱听人士了解对话内容。它亦可以用作为默片加注旁白,或让你对着镜头不发声动嘴来控制Siri或Alexa等数码助手(方便在公共场所使用)。

你可能感兴趣: 业界新闻 谷歌 人工智能 电视 软件
无觅相关文章插件,快速提升流量