内容来源:澎湃新闻
一项“国际卓越论文”奖在美国人工智能协会(AAAI)举办的人工智能国际顶会上颁给了德州扑克。
AAAI 的英文全称是“Association for the Advance of Artificial Intelligence”,该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。
获得这个奖的相关项目是一个轻量型德州扑克AI程序:Alpha Holdem。
该程序由中国科学院自动化所兴军亮团队研发出品。
这个程序在和高水平德扑玩家对抗时所表现出的决策速度及其他能力都已达到人类专业玩家水平。
有人或许会想,不过是一个德扑AI,能有什么了不起?
其实在兴军亮团队之前就已经有不少类似的项目出现。
研究者认为德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。
近年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。
比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出 AI 程序 DeepStack 和 Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的 Pluribus 又在六人无限注德州扑克中战胜了人类专业选手。
在这个领域比较主流的德州扑克AI核心思想,是利用一种“反事实遗憾最小化(CFR)”算法,逼近纳什均衡策略——即任意一位参与者,在其他所有参与者策略确定的情况下,他所做的策略都是“最优解”。
可这种方法一直有一个比较明显的缺陷:它太过依赖人类专家去进行博弈树抽象。这就意味着,无论是在进行AI训练还是最后对局,它都需要大量的计算和存储资源。而这,也成为限制德州扑克AI进一步发展的阻碍。
兴军亮团队之所以能获得卓越论文奖,就是因为他们为AlphaHoldem采用了一种新的、基于端到端的深度强化学习算法。
这种新算法将一种改进后的深度强化学习算法与一种新型的自博弈学习算法相结合,可以在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作,然后做出决策。
数据显示,AlphaHoldem每次决策的速度甚至都不到3毫秒,比之前同类AI决策速度快了1000倍。并且,AlphaHoldem与4位高水平德州扑克选手对抗1万局的结果也证明,它已经达到了人类专业玩家水平。
为了教会AI打德州扑克,兴军亮带着团队前后用了十多台服务器,集中算力,让AI不断跟自己打牌,20天的时间,就打了1亿局左右。
随后,他们又进一步提升了游戏学习的性能。这次,他们仅用1台服务器,训练不到3天,就能达到预期水平。
而在这个过程中,参与训练的AI能学会一些类似于人类专业选手才会掌握的计谋。而这,正是不完美信息博弈最有趣的地方。
目前,兴军亮和团队打造的德州扑克在线人机对抗平台OpenHoldem已经对外开放。
据兴军亮说,这个系统可能是国内唯一能公开打德州扑克的地方。
该平台具有如下特点:
● 高性能在线对抗环境:支持2-6人无限注德州扑克对抗;支持人人、机机、人机等多种对抗模式;支持多终端并发访问;支持AI分布式并行测试;
● 丰富的基准AI:平台内置知识驱动推理型、数据驱动学习型、离线学习型、在线适应型等多种不同种类的高水平两人/多人德扑AI;
● AI研发技术共享:平台提供面向AI研发的工具包,包括AI训练环境、AI编程接口、AI开发文档以及博弈复盘服务;提供多种编程语言的SDK和示例代码;平台可接收团队/个人的自研AI,并将高水平AI纳入为新的基准。
当然,兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。
像不完美信息博弈,这种机制,在经济政策的制定、法律法规的优化、外交策略的选择等领域,都有很广泛的应用。这些,是国际同行正在努力攻克的,也是国内相关研究比较薄弱的。
去训练出一个更聪明、更有用、可以和人类融为一体的人工智能,是兴军亮不懈追求的方向。