查看原文
其他

人机围棋大战:人类的错误可以避免吗?

2017-05-26 人神共奋的李刚 人神共奋



输不要紧,重要的是,我们还有机会猜测AlphaGo的独特思维。

为什么某一阶段的最优策略,有时恰恰是全局最劣策略?

“破坏性创新”的经典案例:钢铁巨人是如何倒下的。

首发于“人神共奋(ID:tongyipaocha)”微信公众号


1

致两千年后的你


那一天,人类终于回想起,曾经一度被AlphaGo支配的恐怖,还有被囚禁于棋局中的那份耻辱。

 

李世石能赢一局,水平更高的柯洁却一局都赢不了,因为人类进步靠经验,经验积累靠感觉,而AlphaGo进步的方向只有一个:不断积累“胜率”更高的走法。

 

AlphaGo 开发团队主管使用 Elo 算法评估AlphaGo对阵柯洁,每局的胜率为99.37% 。

 

剑未出手,胜负已分,这不是古龙小说,这是AI时代的游戏规则。

 

AlphaGo的开发团队没有围棋高手,只负责算法和喂“棋局”(据说现在连棋局都不“喂”了),AlphaGo可算是不折不扣的“自学成才”。

 

所以,输不要紧,重要的是,我们还有机会猜测AlphaGo的独特思维。


2

AlphaGo为什么常下“臭棋”?


围棋大师能够记忆实战棋局,却记不住棋盘上随意摆放的棋子。因为人类下棋的方法,是把棋局分为几块,左下角、右下角、边路、中腹……,再去评估每一块的得失。

 

人类这么做也是没办法,因为我们可以评估每一步棋对某一块的形势影响,却无法计算这一步棋对整个棋局的影响。人类也有“内势”和“外势”概念,只不过,所有不基于概率的思考,都是“人类一思考,AlphaGo就发笑”。

 


AlphaGo不是一块一块地思考。每手棋,它都要重新评估整个棋盘,这个能力,既来自它强大的计算能力,也在于它看过棋局,是对手的几十上百倍。

 

去年的时候,人类还嘲笑AlphaGo经常下“臭棋”。后来人类明白了,对某一块棋是“臭棋”的,恰恰提升了全局的胜率。

 

总结成一句话:“某一阶段的最优策略,有时恰恰是全局的最劣策略。”

 

这个说法,让我想起了美国管理学家克莱顿·克里斯坦森(Clayton Christensen)提出的“破坏性创新”理论(Disruptive Innovation)。


3

钢铁巨人是如何被打败的?


让我们重温作者的一个钢铁行业的经典案例吧。这样的事情,在每个行业都发生过,尤其在中国。

 

假设有一家行业NO.1的巨型钢铁企业,我们暂时叫它“宇宙钢铁”,技术牛,产品线丰富,资本雄厚。 


看上去,“宇宙钢铁”没有竞争对手了?当然不会,一定会有一些“小不点儿”钢厂,质量虽然不行,但成本更低,它们的下游客户也是利润微薄的小企业,买不起也不需要好钢材。

 


“宇宙钢铁”一开始没把这些“小不点儿”当回事,直到经济繁荣忽然停止,“宇宙钢铁”发现,自己的大客户因为利润下降,用不起自己的产品,纷纷改买“小不点儿”们的产品。

 

怎么办呢?董事会找来了咨询公司,请专家分析钢铁行业。他们分析了“宇宙钢铁”的产品结构,发现其中最基础的钢筋产品,技术难度低,客户对成本更敏感,而钢板产品,工艺最复杂,客户对品质更敏感。

 

“砖家叫兽”们给出了一个理所当然的“聪明”建议:避免劣势,退出低利润的钢筋市场;发挥优势,大力拓展高利润的钢板市场。

 

这个策略看上去一点问题都没有,我们常常在上市公司年报中看到“产品升级,进入利润率更高的XX市场”这样的字眼,再被证券研究机构一忽悠,股价立刻来个涨停板。

 

接下来会发生什么呢?花开两朵,各表一枝,我们先讲“宇宙钢铁”。由于放弃了低毛利产品,高利润带动资本收益率大幅上升,投资人纷纷看好,股价一路上扬。但其中的危机,却没有人看出来。

 

花的另一枝就是行业本身的巨变,由于“宇宙钢铁”撤出低利润的钢筋市场,这个市场被大量“小不点儿”企业占据,它们之间发生了惨烈的价格战,被分析师判定为最危险的行业。

 

所有杀不死你的,都会让你更强大。那些最后活下来的企业,要么是经过收购兼并重组,要么是保持低成本的同时升级了技术。而价格战的噩梦,也让他们把眼光投向更高利润的钢板市场


这个策略的问题就开始暴露了,“宇宙钢铁”再次成为靶子,只是对手比当初更强大当你放弃了一个细分市场的时候,只要市场需求还在,你其实是在为自己培养竞争对手。

 

“宇宙钢铁”的好日子到头了吗?还没有,董事会又作出了“英明”的最优决策:进入利润更高的钢架市场——只是这一次,它已经无法再用高利润来掩饰市场份额的下降了。

 

新一轮循环开始了,但巨人的命运早已注定。可我们还是要继续追问开始的那个问题:我们能否避免“现在的优势导致未来的败局”呢?



4

“赢多少”重要,还是“赢面多大”重要?


让我们再回到“人机大战”,看看人类和AlphaGo的决策方法有什么不同。

 

前面说了,人类下围棋是一块棋一块棋的累积优势。所以,人类的最佳策略是把握好每一块棋,打得过的地方尽量多赢几目,打不过的地方尽量少丢几目,能够斩对方大龙的机会,绝不放过,用每一块的优势,争取全局的胜利。

 

一句话概括:人类直接计算的是“胜幅”——这一手棋下去,能赚几目。

 

而AlphaGo不同,前面说它是全局思考的,所以它直接计算的是“胜率”——这一手棋下去后,最终的赢面概率是多少。只要它觉得这么下可以提高未来的“胜率”,哪怕眼前让对方赚上几目,也就是人类眼里的“臭棋”,也可以接受。


换一种说法:在98%概率赢5万,和99%的概率赢1万元之间,人类选前者,AlphaGo选后者。

 

我们能否从“胜幅”和“胜率”的不同思维出发,再反思一下“宇宙钢铁”的案例呢?


5

100年之后的企业生存概率


“宇宙钢铁”在第一次危机中,有两个选择:一是保利润,保住自己现在的优势(胜幅策略),二是保市场,加入两败俱伤的价格战,遏制竞争对手,争取未来活下来的概率(胜率策略)。


现在我们知道了,选择一是错误的。但当初,“宇宙钢铁”能够避免这个错误吗?

 

如果CEO不是一个披着人类外皮的机器人,基本上,这个,很难。

 

选择一注重现在的优势,我们称之为“百强企业战略”,它有一套财务指标体系,利润率、销售额、净资产收益率……

 

选择二注重长远的生存,我们称之为“百年企业战略”,但它无法被评估。如果一定要有一个指标的话,那我们就开个脑洞,叫它“存活指数”——100年之后的生存概率。


如果企业以后能发展出自己的“人工智能”,它恐怕最关心的就是这一条指标,就像人人都怕死一样。

 


遗憾的是,人类不擅长概率计算,这个指标,恐怕只有AlphaGo这样的人工智能才有可能学会计算。

 

人类只能看到眼前的利益。“宇宙钢铁”的选择,我们完全可以理解,一个守着低毛利产品不放还打价格战CEO,财务数据一定很难看,一定会被股东扫地出门。

 

但希望未必没有,人类直觉学习的能力,从未被真正开发过。在AlphaGo打败李世石之后,围棋界出现了“AlphaGo流”,模仿它一些独特的下法,反思被过去奉为圣经的定式。

 

因为这些,都可能是人类思维的盲区。


6

致两千年后的你


记得《棋魂》中有一段对话:

 

“围棋的乐趣在于有对手的存在。”

“那棋神不是很寂寞了吗?”

“因为这样,所以神教会人类下棋,希望人类能理解他的世界。”


近期热文


逻辑性差怎么办?4个“苏格拉底式提问”一定有帮助

节日怎样安排加班,才能人人满意又公平?

碎片化学习是如何把林则徐带到“坑”里去的?



人神

共奋

每周两篇原创

颠覆你对职场的看法

长按识别二维码关注我们




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存