首页> 图文教程> 浅谈人工智能在德州扑克中的应用

浅谈人工智能在德州扑克中的应用

发布时间: 2019-03-30 文章来源: 黑桃大师

德州扑克培训软件.jpg


2016年AlphaGo战胜最强人类围棋选手,开启了人工智能的新时代。德扑是最典型的博弈游戏,因此也是人工智能重点研究领域。在德州扑克领域,存在有多种不同类型的AI,从AI作用(战胜人类、战胜人类老师)和技术路线(强化学习、大数据挖掘+自适应技术)2个维度区分,大概可以分为3种。


第一种:以战胜人类为目标的德扑AI


世界上有两个知名的AI在德州扑克1v1比赛中打败了人类职业扑克选手,它们分别是DeepStack和Libratus(冷扑大师)。目前AI尚未征服德扑多人桌。


其中,Libratus基于强化学习实现,也就是自己跟自己玩大量的游戏,并不断保留最好的策略,而避免从人类的既定模式中学习经验,最终实现的是纳什均衡策略(也可以理解为GTO)。


当然,默默征战线上1v1、不知名的AI就很多了。实战中,多人桌多人博弈非常复杂、相同场景AI能采集到数据量非常小,所以德州扑克AI多人桌打赢人类还是世界性难题,目前该类AI还处于实验阶段,至于效果,你自己想。


人工智能1.png


第二种:教人GTO的德扑AI


这种AI的核心是通过自己打自己(强化学习)摸索出一套最优策略,然后教给人类。该领域最出名的是pokersnowie和pioslover。


拿snowie说说,它的原理和Libratus差不多,通过强化学习生成最优策略(GTO),并把此策略教给玩家。它经过了多年的迭代,在高级别德扑玩家圈建立了一定的信任度,是目前最好的GTO学习软件之一、也是应用最广泛的德扑培训AI。对于想用这类AI的人,我有这么一些提醒:


1. 它对高手很有用,很多高手都用它和pioslover跑一些牌谱分析,甚至两个对照着看,用来检验一些观点或获得一些启发;


2. 机器人的范围和实战对手范围一定不一样,这就导致snowie教你最优策略照搬到实战中时通常不是最优策略、甚至不是好策略,但是它没教你该怎么调整,所以你光练这个只会成为GTO教条选手、优秀者也许可立于不输之地,但战胜不了rake和各种生活成本的;


3. 对于非顶级高手,要追求效率最大化,寻找对手的弱点最大利益化远比花大力气修补自己不明显的漏洞现实得多;


4. 用过pioslover分析的人都知道,计算策略得运算半天,人脑不是机器,记不住那么多策略,实战中也是运算不出的。


概括一下(由此GTO的定义不同人有不同理解,我用纳什均衡/平衡来说明问题),我的看法是对手水平级别越高时越需要考虑平衡因素,级别越低越需要剥削性打法、平衡越没用甚至误导人、有害。同理,snowie对顶级玩家是有用的,对中低水平玩家是有害的、误导的、拔苗助长、事倍功半的,这就像小马过河,别人云亦云。


人工智能2.png

Pokersnowie手牌分析图1


人工智能3.png

Pokersnowie手牌分析图2



人工智能4.png

图:ante straddle桌,所有人弃牌到小盲时的,pioslover建议的跟注频率


第三种:基于自适应技术的德扑培训AI


这种AI的核心是实现个性化培训,算法为学员动态的生成和匹配合适他的训练内容和训练难度。在教育AI领域,普遍采用这种AI技术,因为这种技术路线对学员来说体验是最好,在德州扑克培训领域,全球只有黑桃大师一个,因为这个得考虑学员的差异,导致工程实现上难度系数高、工作量也大,有点像罗胖说的,用户有多爽,生产者就有多痛苦。


黑桃大师的理念和强化学习出来的AI很不同,它以人为中心,考虑了以下因素:


1. 以人类学习的自然规律为基础,遵循刻意练习法则、最近发展去理论和游戏化教学;

2. 德州扑克博大精深,直接教新手高级的技巧、教一个终极大招是行不通的,得一步步来,所以必须因材施教,得个性化培训,动态调整培训内容和难度;

3. 教什么好,不能搞产品的人决定,要来源于玩家并根据玩家反馈改进。


人工智能5.gif


它的主要机制:

1. 训练内容的产生:利用大数据分析/AI聚类技术,对海量线上真实玩家实战历史数据进行玩家分类、场景分类、行动树分类,识别出行动树分类明确、优秀玩家与差玩家赢率差别大(教学效果大)的场景,并生成初步的评判标准,人工教研团队进行审核、补充完善,形成训练内容,并根据玩家反馈不断改进。


2. 训练推送:利用玩家训练数据完善推送算法和评价算法,并不断基于大数据分析,审核并过滤教学效果差的场景。


黑桃大师教的和教GTO/最优策略的AI还有啥区别呢,主要有两点:

1. 黑桃大师教针对性打法,毕竟效率才是最重要,而效率都来自于利用对手漏洞,尤其是弱对手的;

2. 训练也覆盖了部分平衡策略/最优策略比较明确的训练


那如果要选培训AI该怎么选呢?建议顶级高手用pokersnowie和pioslover,中低级别玩家毫无悬念的选黑桃大师,对于一般意义上的高手,打打黑桃大师看看综合水平得分和他的牌局点评,自然也就心中有数。



德州扑克培训扫码.png











黑桃大师-海报