下棋这活比的是零出错 与阿尔发狗玩最多走和
2017-05-24 07:58:02
来源:新浪网
分享到微信
1、电脑浏览:打开微信,点击【发现】(Discover),【扫一扫】(Scan QR Code)下面的二维码,打开网页后点击屏幕右上角分享按钮。2、手机浏览器:保存二维码图到本地,再打开微信的扫一扫,点击右上角【相册】,导入已保存的二维码即可。3、手机微信:长按二维码图即可识别

深度强化学习:降低搜索树的宽度和深度。本文图片均来自  澎湃新闻记者 王心馨

这次柯洁面对的AlphaGo大师版,和去年李世石面对的AlphaGo李版主要有三大不同:首先,AlphaGo大师版摈弃人类棋谱,单纯向AlphaGo李版的经验学习;其次,AlphaGo大师版的计算量只有AlphaGo李版的十分之一,只需在单个TPU机器上运行;最后,AlphaGo大师版拥有更强大的策略网络和价值网络。

要理解AlphaGo的算法,首先要从1997年击败国际象棋神话卡斯帕罗夫的“深蓝”算法说起。国际象棋的每一步都会引出下面三十种可能的走法,棋局的走向就和一棵不断分出三十个分杈的大树一样。而“深蓝”所做的,就是检索完这棵大树上的所有分杈,找出当下最优的那一步。“深蓝”的计算能力因此能达到每秒1亿个位置,是那个时代的突破性产物。
但到了围棋这里,这种蛮力计算是不可行的。围棋的每一步牵出的后续选择有数百种。这么庞大的搜索树是无法被穷举的。哈萨比斯说道,比起解构性的象棋,围棋是个建构性的游戏,也更依赖直觉,而非单纯的计算。
而AlphaGo就依赖两个网络来简化这棵庞大的搜索树:降低搜索树宽度的策略网络和降低搜索树深度的价值网络。
席尔瓦介绍道,AlphaGo李版首先运用策略网络进行深度学习,将大量人类棋谱输入其中,根据人类经验排除掉搜索树上一部分的分杈。也就是说,虽然围棋当前的每一步都有上百种可能性,但根据人类经验,只有一部分是好的选择,AlphaGo只需要搜索这些分杈,另一些根本就是“臭棋”。
然后,AlphaGo也不需要在这些分杈上一路搜索到底,模拟到棋盘结束才知道当前这步棋的优劣。在当前某个特定的选择往下,AlphaGo只模拟几步,就能得出一个分数。这个数值越大,AlphaGo获胜的概率就越高。那么,这个数值是怎么得出的呢?这就要靠价值网络进行强化学习。
在强化学习中,AlphaGo就根据策略网络推荐的走法自我对弈,左右互搏,在经过反复自我训练,积累了大量数据之后,AlphaGo就能更快地对当前走法的胜率有一个概念。
策略网络和价值网络配合形成的深度强化学习,虽然不能提高AlphaGo的计算能力(事实上,AlphaGo每秒计算1万个位置,远低于“深蓝”),但却能让AlphaGo更“聪明”地计算。
AlphaGo自学成才:上一代是下一代的老师
而这次柯洁面对的AlphaGo大师版,比起去年李世石面对的AlphaGo李版,最大的不同是在深度学习环节,使用的大量训练数据并非人类棋谱,而是AlphaGo李版自我对弈的数据。

收藏
热点排行
热门写手