第一千五百零五章、两会前夕（8） (3 / 5)_

        这些神经网络并非依靠暴力计算或手动制定的规则来运作，他们分析大量数据以‘学习’特定的任务。

        将足够多的袋熊照片送入神经网络，它可以学习识别袋熊；给它‘投喂’足够多的口语，它可以学会辨认你说的话；‘投喂’足够的围棋走法，它就可以学会下围棋。

        在DeepMind，研究人员希望神经网络可以通过‘看’盘中的选点来掌握围棋，就像人类在下棋时一样。

        这项技术反馈良好，通过将深度学习与‘蒙特卡洛树’方法结合，Facebook旗下的系统已经击败了一些人类玩家。

        但DeepMind团队更加深入的执行了这个理念。

        当接受了3千万步人类棋着的训练后，DeepMind神经网络能以57%的概率预测下一手人类棋着，这是一个令人印象深刻的数字（此前的记录是44%）。

        在这之后，研究员们让该神经网络和与其自身略有不同的版本进行相互对弈，这被称之为强化学习。

        本质上来说，通过神经网络进行自我对弈，系统会追踪哪一手棋能够带来最大利益——在围棋中体现在获得最多的地盘。

        随着时间的增加，系统在识别‘哪些棋能带来利益，哪些不能’方面变得越来越完善。

        ‘AlphaGo通过其神经网络之间的数百万次相互对弈，日渐提高，最终学会了自己发现新的战略。’DeepMind的研究员西尔弗说。

        内容未完，下一页继续阅读