AI机器人Pluribus在无限德州扑克中战胜人类牌手的突破性胜利

2023-04-08 14:08:23

当计算机科学家们首次在创建能够打败顶级人类职业牌手的机器人领域取得进展时,人类至少有一点点慰藉,因为扑克机器人只在有限德州扑克发挥优异。复杂的下注尺度使得更普遍的无限德州扑克暂时是安全的。

2017年,一个叫做Libratus的机器人横空出世,在单挑无限德州扑克中战胜了一批顶级职业牌手,扑克社区不得不用扑克机器人只能在单挑扑克中取胜来安慰自己。

然而,在2019年6月,Libratus背后的研发者曝料他们的最新机器人Pluribus能够在无限德州扑克六人桌打败顶级人类职业牌手。

卡耐基梅隆大学计算机科学教授 Tuomas Sandholm(左)与他的门生,现任 Facebook 科学家 Noam Brown。

10年前,卡耐基梅伦大学的Noam Brown博士和Tuomas Sandholm教授开始将研究扑克作为解决其他复杂的非完整信息问题的一种手段。他们最近的扑克机器人是和Facebook的AI研究小组联合开发的。

Brown和Sandholm在刊载于《科学》杂志的学术论文中写道:“过去二十年来,我们见证了AI系统在挑战复杂扑克形式的飞速进展。然而,所有之前的突破仅限于两人对弈。开发一个同时对抗多个牌手的超级AI被人们普遍认为是一个尚未达成的主要里程碑。”

Pluribus的性能评估涉及两个对抗人类职业牌手的实验。在第一个实验中,五名人类牌手和Pluribus的一个拷贝坐在一桌。这个实验的参与者有Jimmy Chou,Seth Davies,Michael Gagliano,Anthony Gregg,Dong Kim,Jason Les,Linus Loeliger,Daniel McAulay,2012 WSOP主赛事冠军Greg Merson,两副WSOP金手镯得主Nick Petrangelo,Sean Ruane,Trevor Savage和Jacob Toole。

在为期12天的对战中,双方一共打了10000手牌。每个牌手都被分配了一个别名(网名),从而他们能够跟踪对手的游戏倾向,但他们打牌时不知道对手的真实身份为了激励人类牌手发挥出最佳水准,实验者将根据他们的绩效分配五万美元的奖金。最终Pluribus在对抗中交出了每百手4.8BB的好成绩。

Pluribus的研发者们在论文中写道:“这在无人德州扑克六人桌被视作一个很高的赢率,特别是对抗一批精英级职业牌手。这表明Pluribus比人类牌手更厉害。”

第二个实验的参与者是六副WSOP金手镯得主Chris Ferguson和四届WPT主赛事冠军Darren Elias,他们每人迎战Pluribus的五个拷贝。每个参与者将获得2000美元的参赛奖励,此外,成绩更好者将获得另外2000美元的额外奖赏。

这次仍然是对战10000手牌。最终,Pluribus平均每百手牌赢了Elias 4BB,赢了Ferguson 2.5BB。Ferguson获得了2000美元的额外奖赏。

Brown和Sandholme对于Pluribus的无限六人桌玩法可能对人类牌手有哪些启示提出了他们的看法:“Pluribus证实了跛入是一种次优玩法的传统人类智慧。虽然在最初编制Pluribus自我对战的基本策略时采用了跛入,但随着自我对战的继续,Pluribus逐渐在其策略中抛弃了这种行动。但是,Pluribus不认同‘反主动下注’(donk bet)是个错误的普遍看法。Pluribus做反主动下注的频率远高于人类职业牌手。”

因为扑克机器人已经跨越了人机对战的一个主要里程碑,像Brown和Sandholm这样的AI研究者可能开始投入更多时间到AI的其他应用,比如模拟战争、军事策略分析和AI在商业市场的应用。

评论
还没有评论哦~
发表第一个评论吧!