CMU 人工智能二次挑战扑克世界级玩家,欲攻破宇宙最难博弈

admin2024年05月14日 23:22:20
阅读:
标签: 人工智能 扑克 宇宙
分享:

CMU 人工智能二次挑战扑克世界级玩家,欲攻破宇宙最难博弈

  1月11日,卡内基梅隆的AI系统将再次在扑克上挑战人类顶尖高手。去年失利后,今年AI 能在扑克上战胜人类吗?新智元为此采访了国内非完备机器博弈领域专家王轩,王轩表示:围棋和复杂的非完备信息博弈问题相比,难度要小,机器(在棋牌类游戏上)全面打败人类不会像想象的那么快。
 
  四个世界上最专业的扑克选手,将要挑战被开发者称为史诗级对战人工智能系统,以了解机器是否可以赢过人类。
 
  匹茨堡卡内基梅隆计算机科学教授 Tuomas Sandholm 说:“很早以前AI研究中,打败顶级人类选手就是这一领域进展的重要测量手段。”他还说:“1997年搞定了国际象棋,2009年搞定了 Jeopardy!,去年搞定了围棋。”
 
  然而扑克,是一种完全不同的更复杂的挑战。
 
  Sandholm 说:“扑克比起那些游戏困难得多,机器需要根据不完整的信息作出极其复杂的决策,还有各种虚张声势、强扮慢打法和其它计谋。”
 
  被称为“人脑 vs 人工智能:跟不跟 ” 的赛事将于1月11日在匹茨堡的 Rivers 赌场启幕。比赛期间,职业扑克手 Jason Les, Dong Kim, Daniel McAulay 和 Jimmy Chou 将在20天的时间和计算机程序玩120000手一对一不限注的德州扑克。
 
  非完备信息博弈
 
  联想到前几天 DeepMind 人工智能系统 Master 全胜顶尖围棋手,那么对 AI 来说到底围棋更难还是德州扑克更难呢?新智元为此采访了国内非完备机器博弈领域专家王轩,王老师表示:围棋和复杂的非完备信息博弈问题相比,难度要小,机器(在棋牌类游戏上)全面打败人类不会像想象的那么快。DeepMind 和谷歌选择围棋做突破口,一是因为围棋较难,另一个原因是知道的人多,群众基础好,但并不是最难的机器博弈问题。德州扑克有很多种玩法,机器博弈的难度会随着玩家个数和规则的增加难度加大。
 
  王轩还对结果预测:“卡内基梅隆在这方面很强,有可能机器赢。”
 
  谈到这次人机对战的由来,王轩说:“本来德州扑克是学术界研究非完备机器博弈的平台,每年都有国际比赛,加拿大的阿尔伯塔大学有个课题组在这方面也很强,DeepMind团队里的那个技术负责人 Silver 就是从这个组出来的。他们没想到研究这么多年,成果独领风骚,却让DeepMind 抢了风头,心有不甘,我想他们才弄了这次德州扑克的人机比赛。”
 
  双人限注的德州扑克理论上解决了,文章也发到《Science》上,但实际中却有很多变数,他们为此弄了个CFR算法,有点复杂。
 
  这个 AI 更难对付
 
  卡内基梅隆的研究者开发的 AI 系统叫 Libratus。
 
  Dong Kim 是四位职业扑克选手之一,他们将在20天的扑克比赛中对战CMU 人工智能。图片是他2015年参与第一次人机对战。
 
  职业选手竞争20万美元的奖金。甚至如果 AI 系统赢了,会根据人类选手表现给他们分发这笔奖金。
 
  Rivers 赌场的总经理 Craig Clark 说:“我们很兴奋能和卡内基梅隆大学计算机科学系一起主办这次人机大战。上一次人类是胜利者,但是新的 AI 来自最好的计算机科学大学,这点可能是计算机的优势。看看到底是人还是机器占优势,这将会非常有意思。”
 
  职业选手 Phil Galfond 曾在锦标赛赢得超过230万美元并且创立了扑克训练网站 Runitonce.com,他说:“尽管有的业余扑克迷也许不知道,但是Les, Kim, McAulay 和 Chou 是世界上最好的一对一不限注德州扑克选手。” 不像电视上的多人扑克比赛,专业的一对一不限注德州扑克通常是网上玩。
 
  他还说:“你最爱的扑克选手几乎肯定不会和这些人下高注,否则一定会输得很惨。他们其中任何一个都显然能打败我。”
 
  这是卡内基梅隆第二次做 AI 系统挑战世界级扑克玩家。
 
  2015年的时候,CMU启动的第一次人脑 vs AI 的比赛。这次赛事,CMU用了叫 Claudico 的系统,也是 Sandholm 开发的。
 
  第一次挑战中, Claudico 没有赢得比赛,比三位职业选手(共四位职业选手)的筹码少。
 
  然而,CMU 辩称在第一次人机扑克对战的80000手牌,在统计意义上不足以明确认定人类或者计算机的优势。
 
  这就是为什么在接下来的比赛中,Sandholm 和职业扑克选手把手数增加了50%。
 
  比赛中的一位职业选手Les 说:“我很兴奋能看到最新的 AI 是什么样的。我本以为 Claudico 很难对付。在第一次比赛之后的20个月内,Sandholm 博士和他的团队又有了新的资源和想法,我猜这个 AI 更难对付。”
 
  虽然他认为机器这次会玩的更好,但是 Les 也认为人类选手改进了这项游戏。
 
  Les 说:“从人类的角度,最近20个月以来扑克变得更难了。”他解释职业选手采纳了公开的游戏理论工具,这也提高了他们的水平。
 
  根据 Sandholm 所说,新的程序Libratus,是重新创建的,用了新的想法,比其它扑克机器人有更多计算能力。
 
  Sandholm 和他的博士生 Noam Brown 做这个新项目,他说他们用了匹茨堡超级计算中心的 Bridges 超级计算机来计算他们希望会赢的策略。
 
  Sandholm 说 :”我们不设定策略,我们写算法去计算策略。”
 
  Sandholm 说:“我们疯狂地推动超级计算机进步。”花了将近1500万核小时计算以创建 Libratus,而 Claudico 花了200到300万核小时。这一计算过程还会在比赛中持续增长。
 
  Libratus 是一个拉丁名字,代表着平衡和强大。选这个名字是因为程序算法采用了新的技术以达到博弈理论学家称为纳什平衡的状态。以卡内基梅隆校友也是诺贝尔奖得主约翰·福布斯·纳什命名的理论,纳什均衡是一对策略(双方每人一个),即当对方不改变策略的时候,没有一个选手能从改变策略中收益。
 
  Libratus 其中一个新技术是更快速的达到均衡的方法。它能识别哪些路径打不出好牌。渐渐地,算法开始忽略这些不好的路径。
 
  Sandholm 说:“我们发现这样不仅更快,答案也更好。”
 
  Claudico 常用的策略是limping,这是一个扑克术语指跟注混进去看看,而不是加注或者放弃。而 Libratus 偶尔也会这样。
 
  另外一个改变是终局的策略。去年比赛时,职业选手发现 Claudico 会高一些太明显的很容易被揭穿的小计谋。不像 Claudico 那么依赖终局, Libratus 会用 Bridges 计算机实时计算新的终局解决方法和算法。
 
  一对一(两个选手)不限注的德州扑克是一个极度复杂的游戏,有10的160次方(1后面160个0)信息集——每个集合都根据出牌方的理解有不同的路径。这个巨大的信息集比整个宇宙的原子数还多。
 
  AI 必须在不知道所有牌的情况下做出决策,并发现对手的计谋。根据不限注规则,选手可能赌或者增加任意数量的筹码。
 
  解决这样不完整的和误导性信息的问题可以应用到现实世界各个领域,例如商业、军事、网络安全和医疗。算法不是只用于扑克,还可以应用到无数信息不完整的决策场景。
 
  PSC 高级研究总监 Nick Nystrom 说:“把 AI 延伸到现实世界的决策中,在这些细节未知和对手不断修改策略的场景,比有着完备信息或者问答系统要难得多。这才是真正有趣的点。”
 
  2016年2月,Sandholm 和 Brown 较早时候开发的一个 AI 赢得了年度计算机德州扑克一对一不限注的冠军。
 
  一对一的限注游戏更简单,大概有10的13次方的信息集,由卡内基梅隆校友 Michael Bowling 带领的Alberta 大学的计算机扑克团队已经近似最优地解决了。
 
  为了确保比赛结果不是归于运气,四个职业选手会双双重复比赛——每组的选手 A 会收到跟计算机一样的牌来跟选手B 对战,反之亦然。每对的一个选手会在赌场大厅打牌,而它的对手被隔离在另外的房间。

注:本文系作者 admin 授权融媒体发表,并经融媒体编辑,转载请注明出处和本文链接

我要围观…
705人参与 36条评论
  • 最热评论
  • 最新评论
加力那24分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

Taso韩先生28分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

加力那28分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

Taso韩先生24分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

admin

关注

现专注于互联网行业—公关领域。兴趣广泛,热爱传统文化,以及看书,闲时写些文字等。

  • 17万阅读量
  • 17万文章数
  • 3评论数
作者文章
  • 湖南电气职院师生赴英雄航天员汤洪波家中观看“神舟十七号”返航着陆

  • 拼多多跨界微短剧,能演好这出戏吗?

  • 湖南水电职院在中国国际“互联网+”大学生创新创业大赛中取得新突破

  • 国产数据库实践:亚信安慧AntDB在DTC 2024展示创新实力

  • 583硬派家族+SUPER9跑车,方程豹产品矩阵献礼比亚迪30周年

关于我们 |加入我们 |广告及服务 |提交建议
友情链接
赛迪网 |钛媒体 |虎嗅网 |品途网 |i黑马 |果壳网 |砍柴网 |创业邦 |易观网 |凯恩思 |创业邦 |舆情之家
Copyright©2003-2015 融媒体版权
粤ICP备05052968