实时侦测细部动作 计算机理解人类肢体语言

分享到:
147
下一篇 >
语音识别技术日新月异的同时,计算机似乎也开始理解人类的肢体语言。 卡内基美隆大学(CMU)机器人学院的研究团队近日发布其*新成果,可让计算机在单一镜头内实时侦测复数人的姿势、动作,以至脸部、五指等细节,藉此辨识人与人、人与物之间的互动关系,以期开**一种人机互动模式。

机器人学院副教授Yaser Sheikh指出,人们透过肢体动作沟通的频率与透过言语相去不远,现今的计算机对此仍多少存有一些障碍。 透过此新发布的辨识技术,人们能以更自然的方式与机器沟通,比方单纯指向某物来对计算机下指令等;机器也能感测周遭人类彼此间的非言语沟通细节,诸如当下的动作、情绪,适不适合被打断等,在餐厅、车道等社会空间中提供更进一步的服务。 提供新的人机互动机制之外,Sheikh也期望令人们藉此更了解周遭的世界。

辨识群体中每个人的动作,乃至彼此间可能的互动情形,对计算机是不小的挑战;尤其当群体较庞大时,纯靠单体动作捕捉程序显然不敷使用。 另一方面,鉴于单一镜头难以捕捉手部动作全貌,加上相对身体、表情等动作缺乏已标注过的影像数据库,手势辨识显得更为棘手。 为此,该新技术的研发主要借助于CMU的Panoptic Studio多重摄影系统完成--此圆顶摄影棚具备超过500颗影像传感器,包含30个高画质摄影机,可360度辨识棚内所有人的动作。

Sheikh表示,Panoptic Studio可同步强化肢体、脸部与手部的辨识训练,模型由2D转3D亦有助于自动建立家住过的影像数据。 藉此,该研究团队由上而下,先单独定义影像场景中出现的各个身体部分,诸如手臂、腿部与脸部等,*终将所有部分接合起来为特定个体,以利计算机进行辨识;至于较棘手的手势辨识,则透过该系统加速建立数据库,令计算机单凭部分手部影像即可链接其他500多个相关角度,以此较精准地判断镜头内个体的手部动作。

此辨识技术赋予机器理解人类行为的能力,应用上具有不少潜力,诸如协助自动驾驶车辆监控周遭行人的行为,藉此预测其动向、强化**性;以运动赛事分析来说,则可判断各球员的场上位置、当下的动作,进一步推断其目前甚至未来的行动;未来甚至可望针对特定病征协助进行诊断、复健等医疗相关作业,比方自闭症、忧郁症、学习障碍等。

现阶段为强化推广,Sheikh表示,其研究团队已释出多人、手势判别相关的程序代码于网络上。 目前该技术已被广泛采用于诸多研究群组,并有超过20个含汽车厂商在内的商业组织对此表示兴趣。

你可能感兴趣: 业界新闻 机器人
无觅相关文章插件,快速提升流量