浅谈Alpha Go所涉及的深度学习技术( 四 )


1.选取:首先根据目前的状态,选择几种可能的对手落子模式 。
2.展开:根据对手的落子,展开至我们胜率最大的落子模式(我们称之为一阶蒙地卡罗树) 。所以在AlphaGo的搜索树中并不会真的展开所有组合 。
3.评估:如何评估最佳行动(AlphaGo该下在哪?),一种方式是将行动后的棋局丢到评价网络来评估胜率,第二种方式则是做更深度的蒙地卡罗树(多预测几阶可能的结果) 。这两种方法所评估的结果可能截然不同,AlphaGo使用了混合系数(mixing      coefficient)来将两种评估结果整合,目前在Nature刊出的混合系数是50%-50%(但是我猜实际一定不是)
4.倒传导:在决定我们最佳行动位置后,很快地根据这个位置向下透过策略网络评估对手可能的下一步,以及对应的搜索评估 。所以AlphaGo其实最恐怖的是,李世石在思考自己该下哪里的时候,不但AlphaGo可能早就猜出了他可能下的位置,而且正利用他在思考的时间继续向下计算后面的棋路 。

浅谈Alpha Go所涉及的深度学习技术

文章插图
根据AlphaGo团队的实测,如果单独使用一个大脑或是蒙利卡罗搜索树技术,都能达到业余(段)的等级(欧洲棋王樊摩强度等级大概是在2500~2600,而李世石是在3500以上) 。但是当这些技术整合就能呈现更强大的力量 。但是在刊登Nature论文时他的预估强度大概也只有职业3~4段(李世石是9段),不过刚刚提到他透过增强技术强化策略网络、透过两台AlphaGo来优化评价网络,这都可以让他可以在短时间变得更加强大 。而且计算机没有情感也不怕压力,更不会因为对手表现而轻敌(AlphaGo的策略网络一向只预测强者),所以人类就算有更强大的实力也未必能够承受输赢压力而做最好的发挥 。
浅谈Alpha Go所涉及的深度学习技术

文章插图
李世石有没有赢的机会?
在很多评论中,我觉得对于AlphaGo都有很多不正确的猜测,首先是AlphaGo有没有「整体棋局」评估的能力,必须说的是以整台AlphaGo来说是有的,这主要是来自于评价网络的计算结果(因为它计算的是最后胜率),但是获得的是个池化区域的平滑化后平均胜率 。在AlphaGo的策略网络主要是针对对手接下来的落子进行评估,至于蒙地卡罗搜索树则是使用了评价网络的参数(脱机训练的结果)以及根据目前状态实时计算价值差异的Rollouts技术,所以可以做出具有整体棋局考虑的模拟试算 。但是人类对于「整体棋局」的掌控是透过直觉,这一点应该还是比计算机强大,而且如果利用目前AlphaGo是透过卷积核池化过后结果评估平均胜率(主要是为了平滑化以及避免过度学习),如果李世石有办法利用AlphaGo会预测他的行为做后面决策,作出陷阱,来制造胜率评估的误区(在池化范围内平均是高胜率,但是某个位子下错就造成「整体棋局」翻覆的状况,这就是胜率预测的误区),那么人类就有可能获胜(当然啦,我这里只是提出可能性,但是知易行难,这样的行动的实际执行可能性是偏低的) 。现在李世石必输的原因在于它一直在猜测AlphaGo的棋路,但是事实上反而是AlphaGo一直在靠猜测李世石的下一步来做决策,所以他应该改变思路,透过自己的假动作来诱骗AlphaGo,这才有可能有胜利的可能性 。
弱人工智能与强人工智能
现在计算机在围棋这个号称人类最后的堡垒中胜过了人类,那我们是不是要担心人工智能统治人类的一天到来,其实不必杞人忧天,因为在人工智能的分类上来说,区分为弱人工智能(Artificial Narrow Intelligence)与强人工智能(Artificial General Intelligence)(事实上还有人提出高人工智能Artificial Super Intelligence,认为是比人类智力更强大,具备创造创新与社交技能的人工智能,但我觉得这太科幻了,不再讨论范围内),其中最大的差别在于弱人工智能不具备自我意识、不具备理解问题、也不具备思考、计划解决问题的能力 。各位可能要质疑AlphaGo如果不能理解围棋他是如何可以下的那么好?请注意,AlphaGo本质上就是一个深度学习的神经网络,他只是透过网络架构与大量样本找到了可以预测对手落子(策略网络)、计算胜率(评价网络)以及根据有限选项中计算最佳解的蒙地卡罗搜索树,也就是说,他是根据这三个函数来找出最佳动作,而不是真的理解了什么是围棋 。所以AlphaGo在本质上与微软的Cortana或iPhone的Siri其实差别只是专精在下围棋罢了,并没有多出什么思考机制 。我也看到一些报导乱说AlphaGo是个通用性的网络,所以之后叫他学打魔兽或是学医都能够快速上手,那这也是很大的谬误,如果各位看完了上面的说明,就会知道AlphaGo根本就是为了下围棋所设计出来的人工智能,如果要拿它来解决其他问题,势必神经结构以及算法都必须要重新设计 。所以李世石与其说是输给了AlphaGo,还不如说是输给了数学,证明其实直觉还是不如数学的理性判断 。有人觉得人类输掉了最后的堡垒,围棋这项艺术也要毁灭了...其实各位真的不用太担心 。人类跑不过汽车的时候为何没有那么恐慌呢?跑步这项运动到现在也好好的,奥运金牌也不是都被法拉利拿走了...所以真的不必太过紧张 。