“而我的系统在设计如何落子时是将上述两个神经是网络合二为一,摒弃了棋谱,通过它自己产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
让它从低级的对战慢慢成长,从而让它能得到更高效的训练和评估”
落寒停顿了一下,观察了一下评委,发现他们差不多消化了他所说的信息,继续道:
“在获取棋局信息后,围棋系统会神经网络中根据策略网络功能,探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。
在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,围棋系统的搜索算法就能在其计算能力之上加入近似人类的直觉判断。”
前世包括阿尔法系统的旧版本,都是结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
而现在落寒所讲述的方法,还没有任何期刊杂志发表过,毫不过分的说落寒现在的方法是全球首创也不为过。
当然这是在获得深度睡眠学习系统后,在梦里附身前世阿尔法的机器人的主创人员学到的办法,只是时间有些短,现在还有一些问题没有解决。
......
内容未完,下一页继续阅读