「天凤」平台创建于 2006 年,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数 23.8 万,而能达到十段的仅 27 人(含 AI),不到万分之一。相比其他麻将 AI 和人类玩家,「绝艺 LuckyJ」不仅稳定段位更高,从零开始达到十段所需的对战局数也明显更少,仅需要 1321 局。这体现了腾讯 AI Lab 在决策 AI 方向上世界领先的技术实力。相比其他麻将 AI 和人类玩家,绝艺 LuckyJ 稳定段位更高,从零开始达到十段所需的对战局数也明显少,仅需要 1321 局
天凤稳定段位 bootstrap 的分布,绝艺 LuckyJ 显著强于之前最强的两个日本麻将 AI(Suphx,NAGA)。LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05值得一提的是,此前「绝艺 LuckyJ」在国标麻将中也有亮眼表现,在线下职业选手邀请赛中,成功击败六位职业选手,成为首个战胜国标麻将顶尖职业选手的麻将 AI。对战数据显示,在近 2000 场对局中,绝艺 LuckyJ 的平均赢番达到 1.76 番。番为国标麻将的结算单位,数值越大,说明赢得越 非完美信息博弈麻将AI需要更强大的决策能力过去半个世纪以来,游戏在人工智能的技术演变中一直都扮演了重要的角色,其多样化的情境为 AI 的训练和学习提供了便利的研究场景。从国际象棋到围棋,再到德州扑克、王者荣耀等游戏,AI 不断在游戏场景中拓展能力边界。腾讯 AI Lab 自研的「绝艺」、「绝悟」两款决策 AI,借助棋牌、MOBA 等多类游戏场景,探索用 AI 解决现实中的复杂问题。不同的游戏对 AI 的能力要求也不一样,竞技类游戏 AI 项目,体现的是 AI 的博弈能力,即通过所掌握的信息来形成决策,进而战胜对手的智能。简单来看,这种博弈能力又可以分为完美信息博弈和非完美信息博弈。围棋、象棋等游戏中,参与竞技的双方的每次决策,都可以看到全局的信息,这种情况就是完美信息博弈。AI 可以通过强大的计算力来枚举各种可能性,从而找到致胜策略。而麻将等游戏中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈。麻将一共有 136 张牌,每一位玩家只能看到很少的牌,包括自己的 13 张手牌和所有人打出来的牌。牌局开始时,另外三位玩家的手牌以及墙牌都是看不到的,面对如此多的隐藏未知信息,麻将玩家的每一个决策都需要兼顾进攻和防守。此外,在麻将的对战中,除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都会改变摸牌的顺序,这一过程也涉及了大量的决策。如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息。纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。麻将对战中所包含的隐藏信息要远远大于德州扑克和围棋。腾讯 AI Lab 在游戏环境中推进决策 AI 的能力,最终是希望AI能从虚拟走向现实,解决真实世界的复杂问题,在现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。算法创新,拓展决策AI能力边界过去曾战胜人类的棋牌类 AI,比如围棋和扑克,包含两大核心技术要素——离线训练和在线搜索。离线训练的目的在于得到一个固定的较优的游戏策略(什么状态下做什么动作),在线搜索的目的在于根据当前实际的游戏状态,通过往前搜索很多步的方式来更精确地评价当前游戏状态下各个动作的得失,从而改善离线训练的固定游戏策略。例如,围棋 AI AlphaGo 采用的就是强化学习+蒙特卡洛树搜索;德州扑克 AI 「冷扑大师」 采用的就是遗憾值最小化算法 +安全子博弈搜索(一种针对非完美信息游戏搜索算法)。值得一提的是,由于德州扑克是非完美信息游戏,训练 AlphaGo 采用的算法框架完全不适用,因为蒙特卡洛树搜索要求知道对手的当前状态,而这在扑克里面是不成立的,因为对手的手牌不可见。麻将是一类更大规模的非完美信息博弈问题。鉴于传统的强化学习针对非完美信息游戏没有收敛到最强策略的理论保证,而有理论保证的遗憾值最小化算法(表格型)计算复杂度太高。腾讯 AI Lab 的研究员提出了一种新型的策略优化算法,该算法具备传统强化学习可扩展性好的优点,又部分继承了遗憾值最小化算法的一些理论性质。相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。结合深度学习,在不使用任何人类数据的情况下,研究人员采用该策略优化算法训练得到了绝艺 LuckyJ 的离线策略。另一方面,目前的 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是由于麻将巨大的隐藏信息存在,环境不确定性较大,传统非完美信息搜索算法在麻将面前很难发挥同样的功效。具体来说,过去一系列非完美信息搜索算法的算法复杂度是隐藏信息数量的平方,这对于德州扑克来说可以承受(因为对手只有 2 张不可见手牌),但是对于有海量隐藏信息的麻将来说太高。基于以上考虑,研究员引入了一种高效的非完美信息搜索技术。该技术有两大特征,一是对搜索树做了高效的变换和剪枝,避免了 AI 大量的无效搜索,极大提高了搜索效率;另一方面,区别于过去搜索与离线策略的结合方式,腾讯 AI Lab 将搜索返回的结果作为一种「特征」输入到自研的策略神经网络。这种方式的巧妙之处在于,它既能同时在离线训练和在线决策上提供有用的信息,又不会对 AI 的效果上限造成影响。这种搜索方式解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习高效结合非完美信息搜索成为可能。应用展望:解决真实世界问题,走向通用人工智能腾讯 AI Lab从 2017 年开始投入游戏 AI 研究,在决策 AI 及生成式 AI 两大方向取得多项领先成果。「绝艺 LuckyJ」 在专业领域获得的成果,体现了腾讯 AI Lab 的深度强化学习智能体通过步步进化,正逐渐向解决更复杂更多样化的问题迁移,每一次进展,都让 AI 朝解决真实世界问题的目标更近一步。「AI+游戏」是攻克 AI 终极研究难题——通用人工智能(AGI)的关键应用场景。在模拟真实世界的虚拟游戏中,AI 学会快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。由于现实生活中存在大量的隐藏信息和不确定的因素,对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加「智能」的 AI 系统。来源:腾讯AI实验室