德州扑克技巧与AI应用

德州扑克的介绍

1. 棋牌游戏

这些年来，很少玩网络游戏，虽然游戏能获得人性中想要的即时满足感，但是还是很少玩，说到原因，还不是因为玩得菜吗？

虽然很少玩网络游戏，但是抵抗不了牌类游戏的魅力，比如德州扑克、斗牛等，我想还是由“不确定性而产生的美”的所带来的。

言归正传，棋牌类游戏均属于策略类游戏，运气决定下限，策略决定上限。那么对于策略类游戏，AI是否可以战胜人类？

我们知道Alpha Go的横空出世，让AI在棋类游戏中大放异彩，在围棋这种复制的棋类游戏中首次战胜人类，也将AI推向了一个高峰，飞入寻常百姓家，AI这个术语不再只是圈内流行，已经触及到社会的各个角落。

那么AI是否能够在由运气 + 策略共同决定的游戏中也战胜人类呢，比如德州扑克。

玩围棋的人，你会觉得他具有非凡的大局观、深谋远虑；而玩德州扑克的人，你会觉得他首先是一个赌徒，同时善于数学计算与人性把握。

炒股人士、金融人士尤其喜欢德州扑克，因此德州扑克参杂着理性、赌性、风险、运气、人性等各个方面，更像是对真实世界的一个模拟，或者说是一个缩影。

围棋与德州扑克都具有技术性的一面，也都具有艺术性一面。技术性一般是可以计算的，既具有能够使用形式化的语言来定义的策略与方法，而艺术性的一面往往是难以计算的。但是，随着技术的发展，也不好说，比如围棋的艺术一面也证明是可计算的。

由于策略类游戏是当下检验AI技术能否超过人类的基准测试之一，随着人类在国际象棋、围棋等这些策略类游戏上不断被AI超越，那么人类智慧最后的堡垒到底是什么？以前说是围棋，现在说是德州扑克，我还觉得是狼人杀呢？

这篇文章首先根据自己的一些认识与理解来讲述德州扑克。下一篇讲述AI在德州扑克上的应用。

2. 德州扑克

德州扑克（Texas hold'em），简称德扑，是世界上最流行的公牌扑克类游戏之一。

德州扑克是一个多轮次博弈游戏，本轮到担任大小盲先下注。然后分为4轮下注，每一轮筹码平掉之后才开始下一轮：

第一轮(翻牌前，Preflop)：每个玩家发两张手牌，根据自己的手牌进行下注；

第二轮(翻牌，Flop)：翻开三张公牌，根据已翻开的三张公牌+自己手牌下注；

第三轮(转牌，Turn)：增加一张公牌，继续下注；

第四轮(河牌，River): 再增加一张公牌，继续下注；最后每个还在线的选手从五张公牌+自己的两张公牌选出五张牌，组成最大牌来比牌，当然可以五张牌都来自于公牌，只是这样，你的唯一赢面在于每个人选出的最大牌也都来源于五张公牌。在每轮下注时，你根据自己的手牌与现有的公牌计算自己的赢面大小，如果觉得自己的赢面很小，那么可以选择弃牌，及时止损。

德州扑克使用一副牌去掉大小鬼后的52张牌，不分花色，即花色没有大小，只有组合的数字大小。常用的大小顺序是：同花大顺皇家同花顺，Royal Straight Flush)>同花顺子(Straight Flush)>四条(Four of a Kind)>葫芦(Full House)>同花(Flush)>顺子(Straight)>三条(Three of a Kind)>两对(Two Pair)>一对(One Pair)>散牌(No Pair)，其中单牌按照A>K>Q>....>3>2的大小顺序。如果最后一轮比牌的时候，未弃牌的参与者牌面构成的大小都一样，则均分桌面上的筹码。

看完上面的简单讲述，是不是觉得德州扑克其实并不复杂，只有一副牌，牌面也不复杂，同时可以根据牌面来得到推测其他人牌面可能出现的各种可能性，即使无法快速进行精确的计算，但是也可以大概估计，甚至根据自己的手牌来估计自己的赢面可能性，不能够计算精确的概率，也可以进行简单估计。比如，自己拿到了是不同花的2与6，那么可能第一轮（未开公牌）就会选择弃牌，因为赢面确实太小；又如，自己拿到了一个A，那么第一轮基本上会下注或者跟上。

但是，德州扑克又非常复杂，因为德州扑克是一种包含很多隐藏信息的“不完全信息”游戏，属于非对称信息博弈。玩家只掌握不对称的信息，你不知道对手手中是什么牌，不知道五张公共牌会开出怎样的结果，也不知道对手如何猜测自己握有的手牌，并且可能对方还会选择赌概率非常小的牌面。最难的是，德州扑克中参杂着更多人性和运气的成分，而这些成分往往是无法计算与预估的。

3. 对称 & 非对称信息

围棋与德州扑克都属于需要博弈的游戏，它们之间最大的区别在于信息量的多少。

围棋的双方对于对方的信息都是完全知道的，因为双方的棋面信息是完全明示的，即属于对称信息博弈，也就是说，双方知道的信息是一样的，胜负的决定因素在于各自的技能与策略，属于明牌游戏。

而德州扑克，除了公牌信息，每个人还拥有两张自己的手牌，因此每个参与者是不知道全量的信息的，每个参与者知道的信息是不对称的，即属于非对称信息博弈，那么胜负不仅取决于参与者的技能与策略，还取决于自己拥有信息量与计算出的信息（自己的牌面大小与猜测其他人的牌面可能性），属于暗牌游戏。

通俗的来说，非对称信息博弈便是存在一个黑箱子，每个参与者都需要去猜测箱子里面是什么？

4. 沉没成本

这是德州扑克中经常使用的一个术语。它指的是，由于不舍得放弃前面的投入（德州扑克便是筹码，现实中还包括时间等，导致在下一步决策的时候作出错误的决定。很多事件中，往往拖垮你的便是沉没成本。

比如，现在很多的网络诈骗中，骗子说受害者的信用卡出现问题被锁定，需要转一笔钱到这个信用卡上进行激活，激活后会退回，受害者因为骗子提供的信息非常正确而相信了，就转了一笔钱过去，结果那边再次打电话需要再转一笔钱，本来心里有点怀疑了但想着已经转了一笔钱，而且还在自己的账户上，再转一次应该也没事，结果就在这种不断的恶性循环中，这些钱就都被骗子套走了。在这个例子中，第一笔被套走的钱就属于沉没成本，如果受害者在第一次转钱后给信用卡客服打电话确认一下，就可以及时止损了。但遗憾的是，人们总是会是受到过往决定和付出成本的影响，继续做出错误的决策。

又比如，在男女恋爱过程中，某一方觉得没法继续在一起，而另一方由于自己前期的投入与付出，不愿意放弃，于是做出各种动作，死缠烂打，这样可能更加坚定了对方的分手决心。

而在德州扑克中，玩家也经常会有这种心理，以及对手也会利用这种心理，比如公牌里有一个A、K、10、9、5，自己手牌有一个K与Q，三家在场，很明显，自己一对K，由于有三家还在场，那么很大概率某一家是有A的，基本上自己赢面很小，但是已经是最后一轮了，前期已经付出了三轮筹码，只能赌对方没有A，于是付出了更多，最终对方一对A。

沉没成本造成的原因有两点：一点是不舍得前期的投入，另一点是，还抱有希望，哪怕希望渺小，从而固执己见，导致对未来的判断力不够。但是，我觉得没有人敢说自己能逃脱沉没成本，只是程度不同。

因此，我们要根据环境进行判断，来决定是否及时止损，并且干净利落。

5. 纳什均衡

德州扑克也属于一种博弈，多方博弈的游戏。德州扑克玩家中经常会说到一个词“GTO”（Game Theory Optimal，游戏策略最优化），也就是说：在游戏中，你可以采取一种最优策略，使得自己的损失最小，同时游戏中的对手也会采取与其相对应的策略，否则只会扩大你的收益。

而GTO与纳什均衡（Nash Equilibrium）有相似的地方。纳什均衡是由著名的诺贝尔经济学奖获得者约翰·纳什提出的，他是博弈论学科的创始人，也是著名电影《美丽心灵》的男主角的原型。

纳什均衡理论：在非合作类博弈中，存在一种策略组合，使得每个参与人的策略是对其他参与人策略的最优反应。如果各方参与者当前的策略选择形成了“纳什均衡”，那么对于任何一方参与者来说，单方更改自己的策略并不会给自己带来任何好处，往往是会给其他人带来好处。

纳什均衡只经常会提到一个案例是“囚徒困境”，它是由斯坦数学家-塔克讲述的一个故事。讲述的是：有两个盗贼甲与乙，在正要作案的时候被警察抓住，由于没有足够的证据，因此为了防止他们串供，于是分开两个房间进行审讯。并分别告诉他们二人同样的规则：1）如果两个人都坦白，均判刑5年；2）如果一个人坦白，另一个人抵赖，则坦白的人释放，而抵赖的人判刑十年；3）如果两个人都抵赖，则由于证据不足，判刑一年。

由于两个人是分开的，不能互通信息，从而构成不合作类博弈，也是信息不对称下的博弈，他们只能想对自己最有利的策略。

显然，如果两个人都抵赖，对于整个团体是最有利的。

对于个人，则不是，而是自己坦白，对方抵赖。

但是，两个人都会想着对自己最有利的策略，也就是两个人都要求对方抵赖，自己坦白；从而会导致双方都坦白；如果自己抵赖，那么对方可能会坦白，从而自己带来更大损失，更加利于对方。

因此，双方都可能会怀疑对方会坦白，保全自己而出卖对方，于是便自己坦白，无论对方是否坦白，都不会导致自己是最坏的结果，也就是对于自己都合算，因此最终都会进行坦白。

也就是说，个人最优不代表整体最优，局部最优不代表全局最优。现实中，往往会选择次优的策略。纳什均衡理论对亚当·斯密提出的【看不见的手】理论提出了挑战。【看不见的手】理论提出：在市场经济下，每个参与者都是理性的，都会从利己的角度出发，做出对自己最有利的策略，从而达到全社会利他的效果。而纳什均衡则与该理论相违背，从利己的角度出发，选择对自己最优的策略，往往会损人不利己。这其实在很多社会实践中也可以得出，选择的是最利己的，但是最终结果既不利己也不利他。

阿里也有一句话，与纳什均衡非常契合：让别人成功，最终自己也会成功。

6. 心理揣摩

在打德州扑克时，有一种非常重要的策略便是观察与心理揣摩，随着牌局的进行，需要不断去构造每个人的人物画像（风格），也就是根据每个参与者的历史牌局来构造这个人的打法。比如最简单的，这个人是保守型的还是激进型的，保守型在还没有翻开公牌的时候便会进行考虑是否弃牌，一般都是自己的两张手牌较大时才会跟上。而激进型的一般无论手牌是大还是小，都会进行加注来提高参与者看公牌的成本，并且会经常赌小概率发生的牌面。

但是，很多老玩家并不会这么容易让你看到他的打法，他会经常切换风格，时而保守，时而激进，让你不会这么容易看透他。所以，不要一有事情就都写在脸上，也就是要控制情绪。

同时，玩家还会加一些动作来迷惑你，比如公牌出来后，自己是大牌，赢面很大了，轮到他下注了，他会思考一会，然后看一下公牌，看一下手牌，好像是在计算概率，其实这局基本上胜券在握。并且，抓到大牌后（前面轮次），特别是前面的轮次都直接过牌或者不主动加注，或者自己是第一个位置的时候，会选择过牌，从而造成让后面的人觉得他牌面不大的假象，从而引人入瓮，利用别人的沉没成本心理来获得更多的收益。

比如，在一局中，公牌出现了A、K、9，而自己的手牌是A与K，一对A与一对K，这时候，自己的赢面已经非常大了，那么轮到你说话了，便可以只加注一点点，让对方判断你可能没有一对A。如果加注很多，这样只会吓跑别人，便可以做出各种思考假动作与不加注（过牌）来迷惑一对A、一对K的、赌顺子的人。

因此，观测与揣摩是非常有必要的，是策略中非常重要的组成部分。其实，在观测的时候，你可以多看他的眼睛，但是最好不要直视。

7. 不确定性

在高中之前，时间更精确一点是在没有接触到概率论之前，我们学的很多知识与理论都是来描述世界的确定性一面，比如基础数学中的数论、几何学等，基础物理中的经典力学，以及基础化学等。

随着知识的增加、阅历越来越丰富、社会实践越来越多，这个世界的不确定性的一面越来越多。富兰克林说过，世界上只有两件事是确定的：死亡与交税。

不确定性便伴随着风险，往往是由于很多不确定性的存在导致一些人成功，另一些人失败。对于确定性的事情，你只要付出努力，脚踏实地，一步一个坑，便可以取得成功，如考试；对于不确定性的事情，往往只能根据对过往的总结与对未来的判断来做出相应的决策。我们经常说的一件事便是风险越大，收益越大。这句话从概率的角度来说，便是大家都会优先选择发生概率大的结果，而极少部分人会选择概率小的结果，如果小概率事件发生了，由于收益获得者的人数少，从而收益大。

不过，不确定性也分成两种：

一种是有边界的不确定性，也就是说发生的可能性有多种，但是这些可能性都是可以枚举的，比如今天是否下雨，虽然具有不确定性，但是结果的范围是可确定的，也就是只有下雨或者不下雨。这种不确定性，虽然带有风险，但是风险的后果是可以预估到，从而做最坏的打算，足够的历史统计是可以做出明智的策略。

另一种不确定性，是无边界的不确定性，也就是发生可能的种类都具有不确定性，也就是结果是没有范围的，没法预估的。比如很多中概股，虽然明天是否涨，这个结果的可能性范围是确定的，但是涨或者跌多少往往是很难预判的，并且会超出你的认知，经常很多小中概股，不知道发生什么了，便一夜跌去50%，甚至更多。这种不确定性，带了无法预知的风险，从而这种不确定性，是无法通过相应的计算来做出决策。这也可能便是世界的美丽一面。

回到德州扑克，根据公牌与自己的手牌，可以预估其他参与人的牌面大小与自己的赢面大小，从而做出相应的决策。但是由于每个人的性格、打法不同，并且还伴随着每个人根据当前形势作出的不同策略，从而导致不确定性增加，从而增加预估计算的难度。精确的猜测对方的手牌是很难的，但是随着轮次的进行，根据对方下注的情况，以及整个牌面的情形，预估对方的手牌会越来越准确。因此，一旦自己已经不怎么有赢面的时候，需要及时止损。不要犹豫。

还有一种风险便是，按照牌面，自己的赢面非常大，但是最后小概率事件发生了，从而输了，这属于系统性风险，而自己的策略是没有问题的。这种情况下，也只能坦然面对。