EPFL研究团队找出不让AI规避人类命令的方法

分享到:
266
下一篇 >
人工智能(AI)机器会执行特定动作、观察结果,再据此调整行为。之后会观察新结果,再次调整行为,并从此重复过程中学习。但此过程有可能失控。洛桑联邦理工学院(EPFL)分布式程式设计实验室(Distributed Programming Laboratory)教授Rachid Guerraoui表示,AI总会试图避免人为干预,因此AI工程师须防止机器*终学会如何规避人类命令。根据ScienceDaily报导,专门研究此问题的EPFL研究团队已发现如何让操作员控制1组AI机器人的方法,并在加州举办的神经资讯处理系统(NIPS)会议上发表报告。其研究为自驾车和无人机的发展作出重大贡献,使其能大量而**地运行。增强式学习(reinforcement learning)为机器学习方法之一。在这种借鉴行为心理学的学习方法中,AI会因正确执行某些行为而获得奖励。例如,机器人若正确堆好一组箱子就能得分,从屋外搬回箱子也能得分;但是,若外面下雨,机器人走向屋外搬箱子时操作员就会中断机器人的动作,因此机器人*终会学会*好呆在室内堆箱子,才能得到更多分。Guerraoui表示,真正的挑战不是中断机器人的动作,而是要写程式,让人为干预不会改变其学习过程,也不会诱使它优化行为,避免被人类阻止。2016年,Google旗下DeepMind和牛津大学人类未来研究所(Future of Humanity Institute)的研究人员共同开发了1个学习协议,防止机器被打断而变得无法控制。例如,在上述范例,若外面下雨,机器人的得分将被加权,使机器人有更大诱因取回外面的箱子。Guerraoui表示,此解决方案非常简单,因为仅需处理1台机器人。然而,AI越常被用于涉及数十台机器的应用中,如自驾车或无人机。该研究共同作者Alexandre Maurer表示,这会让事情变得更复杂,因为机器之间会互相学习,特别是在被中断的情况下。另一名共同研究者Hadrien Hendrikx举两台自驾车为例说明,这两台车在狭窄的道路上彼此无法让路。它们须在不违反交通规则的情况下,尽快达到目的地,而车内人员随时可接手控制。若首辆自驾车里的人经常煞车,**辆车每次都会适应其行为,*终会对何时要煞车,或可能离**辆车太近或开得太慢感到困惑。EPFL研究人员想透过**中断(safe interruptibility)来解决这种复杂情况。其方法让人们在必要时中断AI学习过程,同时确保中断行为不会改变AI的学习方式。该研究的另名作者El Mahdi El Mhamdi表示,他们为学习演算法添加遗忘机制,从本质上删除AI的部分记忆。换言之,研究人员改变AI的学习和奖励系统,使其不受中断影响,好比父母惩罚1个小孩,并不会影响家庭其他孩子的学习过程。Maurer表示,该团队研究现有演算法,并发现无论AI系统有多复杂,所涉及的机器人数量或中断类型,**中断法都适用。并且可将其与终结器(Terminator)一起使用,仍具相同结果。目前使用强化学习的自主机器并不常见。El Mhamdi表示,犯错的后果很小时,此系统运作得非常好。

你可能感兴趣: 业界新闻 AI 无人机 机器人 首页推荐
无觅相关文章插件,快速提升流量