你真的了解AlphaGo吗？-电子网

分享人工智能的伟大胜利的朋友，你们真的了解AlphaGo吗？按维基百科：

AlphaGo是由Google DeepMind开发的围棋程序。2015年10月，它成为**个不借助让子，在全尺寸19×19的棋盘上击败职业围棋棋手的电脑围棋程序。

AlphaGo使用蒙特卡洛树搜索（Monte Carlo tree search），借助值网络（value network）与策略网络（policy network）这两种深度神经网络，通过值网络来评估大量选点，并通过策略网络选择落点。

AlphaGo*初通过模仿人类玩家，尝试匹配职业棋手的棋局，一旦它达到了一定的熟练程度，它开始和自己对弈大量棋局，使用强化学习进一步改善它。围棋无法仅通过寻找*佳步来解决；游戏一盘平均有150步，每一步平均有200种可选的下法，意味着有太多需要解决的可能性。

而根据Nature在一月份的文章，他是这样描述的：

AlphaGo是一套为了围棋优化的设计周密的深度学习引擎，使用了神经网路加上MCTS (Monte Carlo tree search），并且用上了巨大的谷歌云计算资源，结合CPU+GPU，加上从高手棋谱和自我学习的功能。

这套系统比以前的围棋系统提高了接近1000分的Elo，从业余5段提升到可以击败职业2段的水平，超越了前人对围棋领域的预测，更达到了人工智能领域的重大里程碑。

Alphago 人工智能的计算机装有 48 个 CPU 和 8 个 GPU，不过，除此之外，谷歌没有公布更多详细信息。

而制造AlphaGo的则是谷歌的DeepMind团队。

DeepMind并不是谷歌自己创建的，而是，其联合创始人Larry在2014年初以4亿美元收购的一家英国人工智能公司所创建的。DeepMind的创始人是Demis Hassabis，这可是一位计算机天才，但是，很少有人听说过 DeepMind和这位天才。直到现在网上疯炒的各家媒体，依然还是展望人工智能的前景，很少有报道这位天才以及这家公司，也难怪，这真是一家非常低调的公司。另外，DeepMind 的投资人之一可是大名鼎鼎的 Elon Musk，就是 Tesla 和 Space X的老板，这位牛人向 DeepMind 投资了 650 万美元。谷歌收购的过程也非常有趣，其联合创始人Larry在飞机上听说了这个公司，非常感兴趣。恰巧，Facebook的创始人Mark Zuckerberg也同时对这个小公司产生了兴趣。所以，谷歌收购的过程很漫长，不过*终还是早出手的Larry胜出，这点让Zuckerberg如今仍耿耿于怀。

再来看看DeepMind 的核心技术。

现在街头巷尾都在谈论的机器学习，其实这是一个非常宽泛的概念，而其中*酷的分支要算是深度学习（Deeplearning）和强化学习（Reinforcement learning）。

深度学习是受人脑启发的一种结构，在实验的基础上，该结构中模拟神经元层间的联结得到加强。深度学习系统能够从大量的非结构数据中获取复杂信息(see Nature505, 146–148; 2014)。Google正在使用这种算法来自动分类图片，目的则是为了进行机器翻译。

强化学习，其实就是一个连续决策的过程，其特点是不给任何数据做标注，仅仅提供一个回报函数，这个回报函数决定当前状态得到什么样的结果（比如“好”还是“坏”），从数学本质上来看，还是一个马尔科夫决策过程。强化学习*终目的是让决策过程中整体的回报函数期望**。

谷歌的DeepMind就将深度学习和强化学习两者的精髓合二为一，提出了深度强化学习。2014年，这个团队就在《自然》杂志发表了Human-level control through deep reinforcement learning的论文，让业界对此充满了期待。

你可能感兴趣：业界新闻 Google CPU GPU 谷歌

资讯发现

你真的了解AlphaGo吗？

*新资讯