Post

ZeusAI:当强化学习遇上《七大奇迹:对决》

一篇关于 ZeusAI 的论文解读,探讨如何用 AlphaZero 风格的强化学习训练 AI 玩七大奇迹对决,以及 AI 发现的策略洞察和游戏平衡性分析

ZeusAI:当强化学习遇上《七大奇迹:对决》

七大奇迹:对决(7 Wonders Duel)是我最喜欢的德式桌游。最近读到一篇论文 Learning to Play 7 Wonders Duel Without Human Supervision,研究者用 AlphaZero 风格的强化学习训练了一个名为 ZeusAI 的系统,在没有任何人类监督的情况下学会了这款游戏,并达到了顶尖人类玩家的水平。论文已被 IEEE Conference on Games 2024 接收。

七大奇迹:对决

七大奇迹:对决发布于 2015 年,是经典多人游戏七大奇迹的双人版本。每位玩家都是一个文明的领袖,为城市建造建筑和奇迹。截至 2025 年 12 月,它在 BoardGameGeek(BGG) 排名第 21 位。关于 Board Game Arena(BGA)上的详细统计数据,可以参考社区整理的 7WD in Numbers

这是一款完全信息博弈游戏——没有隐藏手牌,不存在 bluffing 的空间,理论上存在最优策略。但与围棋、国际象棋不同的是,游戏中存在随机性:卡牌的翻开顺序、奇迹的出现顺序都是随机的。

核心机制

游戏分为三个时代(Age I、II、III)。每个时代开始时,卡牌按照特定的金字塔结构排列在桌面上,部分正面朝上,部分背面朝下。玩家只能拿取没有被其他卡牌压住的牌,当上层卡牌被移除后,下层的暗牌才会翻开。

三个时代的卡牌结构(白色为正面朝上,彩色为背面朝下) Fig. 1: 三个时代(I、II、III)的卡牌结构

游戏组件包括 10 个发展标记(Progress Token)、12 个奇迹和 73 张建筑卡牌。其中 5 个奇迹在建造后可以立即获得额外回合,这是游戏中最关键的战术资源之一。

游戏开始时,先随机展示 5 个发展标记,然后进入奇迹选择阶段。第一轮选择 4 个奇迹,按照 1-2-2-1 的顺序选取;第二轮再选 4 个,按照 2-1-1-2 的顺序。最终每位玩家各持有 4 个奇迹。

每回合玩家必须从可选卡牌中选择一张,执行以下三种行动之一:

  • 建造建筑:支付卡牌左上角标注的资源费用,将卡牌加入自己的城市
  • 弃牌换钱:弃掉卡牌,获得 2 金币加上城市中黄色商业建筑数量的金币
  • 建造奇迹:将卡牌面朝下放入奇迹板下方,支付奇迹的建造费用

当玩家收集到两个相同的科技符号时,可以从场上选择一个发展标记。

游戏中总共只能建造 7 个奇迹。这条规则给双方都带来了压力——通常情况下,在对手之前建完自己的 4 个奇迹是有利的。奇迹建造时机的选择是游戏中最关键的决策之一。

三种胜利条件

军事压制:游戏版图上有一条军事轨道,中间放置冲突指示物。打出红色军事牌会将指示物推向对手方向。一旦指示物推入对手首都,游戏立即结束,推进方获胜。

科技压制:游戏中有 7 种不同的科技符号(绿色牌)。如果收集到 6 种不同的科技符号,游戏立即结束,收集方获胜。

文化胜利:如果三个时代结束时没有人达成上述两种即时胜利,则进入分数结算。计算所有建筑、奇迹、金币(3 金币 = 1 分)和军事推进度的分数,总分高者获胜。

这三种胜利条件的存在使得游戏具有相当的策略深度。玩家需要在进攻与防守、短期收益与长期布局之间不断权衡。

ZeusAI 的技术架构

ZeusAI 的设计灵感来自 DeepMind 的 AlphaZero,核心是 Monte Carlo Tree Search(MCTS)与深度神经网络的结合。但针对七大奇迹对决的特点,做了两处关键改进。

为什么选择 Transformer

围棋和国际象棋的状态具有天然的棋盘几何结构,卷积神经网络(CNN)可以很好地捕捉空间局部性。但七大奇迹对决的状态是一组离散的组件:卡牌、奇迹、发展标记、金币数量、军事轨道状态等,它们之间没有空间邻近关系。

ZeusAI 采用了 Transformer Encoder 架构。最终模型有 12 层、12 个注意力头,维护 768 维的表示,前馈层的隐藏维度为 3072,总参数量约 9200 万。

状态表示方式类似于语言模型处理文本的方式:每个游戏组件(卡牌、奇迹、发展标记等)与其位置信息配对,位置信息包括卡牌在时代结构中的位置、在哪位玩家的城市中、是否被弃置、是否用于建造奇迹等。所有组件和位置都有学习得到的 768 维嵌入向量。

值得注意的是,模型没有显式编码任何游戏规则、组件的费用和效果——这些全部通过自我对弈学习得到。

双头输出

Transformer 输出两个值:

  • Value Head:输出 -1 到 +1 之间的状态价值,表示当前玩家获胜的概率
  • Policy Head:输出所有合法行动的概率分布,概率越高表示该行动越有前景

MCTS 与随机性处理

行动选择使用 MCTS 算法。从只包含根节点(当前状态)的树开始,每次模拟从根节点遍历,直到遇到新状态并将其加入树中。行动选择平衡探索(优先选择访问次数少的行动)和利用(优先选择模型认为更有前景或历史上导致高价值结果的行动)。

与围棋、国际象棋不同,七大奇迹对决存在随机事件——比如翻开暗牌。ZeusAI 引入了 afterstate 的概念:当一个行动导致需要发生随机事件的状态时,这个状态被称为 afterstate。为了控制搜索树的分支因子,每个 afterstate 最多只保留 11 个子状态。在非训练对局中,这个限制会随着 afterstate 被访问次数的增加而逐渐放宽。

训练时每次行动运行最多 1000 次 MCTS 模拟,按访问次数加权随机选择行动。正式对局时运行最多 5000 次模拟,确定性地选择访问次数最多的行动。

训练过程

训练分为两个阶段。

第一阶段:使用三种简单的规则策略生成 35000 局游戏作为冷启动数据。第一种策略随机选择行动,但倾向于不弃牌;第二种和第三种策略分别尝试建造绿色和红色卡牌(对应科技胜利和军事胜利),其他情况下行为与第一种相同。用这些游戏的所有状态训练 Value Head,目标值基于游戏结果(+1 胜利,-1 失败,0 平局)。

第二阶段:使用 ZeusAI 自我对弈生成游戏。每约 3000 局游戏后,用最近约 100000 局游戏的状态重新训练模型。Policy Head 的训练目标是预测 MCTS 根节点处合法行动的访问次数分布。

总共生成了约 420000 局自我对弈游戏。如果一个人类玩家在 BGA 上以正常速度进行这么多对局,需要 9 年时间。

训练过程中胜利类型和获胜者分布 Fig. 3: 训练过程中胜利类型和获胜者(先手/后手)分布的演变

训练过程中一个有趣的现象是:ZeusAI 很快学会了利用先手优势,但科技胜利作为一种可行策略直到约 100000 局游戏后才被”发现”。这是因为收集 6 种不同科技符号的奖励非常稀疏。科技胜利的发现也标志着研究者无法再稳定击败 ZeusAI 的时刻。

训练过程中奇迹偏好的变化 Fig. 4: 训练过程中奇迹偏好的演变

ZeusAI 发现的策略洞察

胜利类型分布

在 10000 局自我对弈游戏中,胜利类型分布为:文化胜利 61.7%,科技胜利 21.4%,军事胜利 16.9%。这与 BGA 上优秀玩家的统计数据(58.0% / 25.6% / 16.4%)相当接近。

奇迹偏好

ZeusAI 最偏好的是 5 个带有额外回合效果的奇迹,这与人类玩家的偏好几乎一致。金字塔(Pyramids)几乎总是被最后选择。

有趣的是,ZeusAI 对宙斯神像(Statue of Zeus)的偏好程度远高于人类玩家,而对亚历山大灯塔(Great Lighthouse)的评价则明显低于人类。这种差异暗示着人类玩家对某些奇迹的价值判断可能存在偏差。

关于奇迹平衡性的调整,研究者表示目前优先关注先手优势问题,因为这对社区、出版商和游戏作者来说是更紧迫的议题。

奇迹建造时机

ZeusAI 在第一时代剩余 2 张牌时,有 52% 的概率会建造一个带额外回合的奇迹;剩余 4 张牌时,这个概率是 12%。这是一个已知的战术——通过在时代末尾建造奇迹获得额外回合,可以在第一时代获得更多卡牌,同时抢占第二时代的先手。

ZeusAI 即使只剩一个额外回合奇迹时也经常使用这个战术,而人类玩家通常更保守。

整体来看,ZeusAI 建造奇迹的时机比人类玩家更早。在第一时代,先手玩家平均建造 0.83 个奇迹,后手玩家平均建造 0.49 个。

卡牌偏好

第一时代建造最多的是客栈(Tavern),资源卡(棕色和灰色)的建造频率高于其他黄色商业卡。在资源选择上,纸莎草优于玻璃,木材优于石头和黏土。

ZeusAI 经常在第一和第二时代就建造蓝色文化卡,试图在分数上建立早期优势。有社区玩家注意到,ZeusAI 对绿色科技卡的热情似乎不如很多强力玩家。

关于第一时代的红色军事卡,ZeusAI 的态度与人类玩家类似——通常不会主动建造。研究者提到,他们确实见过 ZeusAI 在第一时代建造全部 4 张红色卡并取得军事胜利的对局,但这是特殊情况。

发展标记排名

按选择频率排序,前三名是宗教(Theology)、法律(Law)和战略(Strategy),这与社区公认的最强发展标记一致。有玩家对数学(Mathematics)排名较低感到意外。

发展标记选择频率排名 Fig. 6: 发展标记按 ZeusAI 选择频率排名

研究者表示,他们有更详细的选择率数据,可能会在后续论文或直播中公布。

先手优势与平衡性变体

社区一直知道七大奇迹对决存在先手优势。ZeusAI 的自我对弈数据量化了这个优势:先手玩家的胜率是 66.8%。这远高于基于 BGA 上 605 局人类对局统计的 55.7%。

关于这个数据的解读,BGG 社区有一些讨论。有玩家指出,更高的先手胜率并不能直接证明 ZeusAI 比人类更强——如果 ZeusAI 的先手胜率接近 50%,同样可以解释为它比人类更强。研究者的回应是:这确实只是一个启发式的论证。理论上,最优策略下先手胜率是某个未知的 X%(他们认为接近 67%),而随机策略下先手胜率略高于 50%(估计约 53%)。从随机策略到最优策略的过渡中,先手胜率会从约 53% 变化到 X%,总体趋势是上升的。因此,55% 的先手胜率对应的水平很可能弱于 67% 的先手胜率对应的水平。当然,这个论证在 ZeusAI 作为先手和后手的水平不一致时会失效。

金币变体

最直接的平衡方式是调整双方的初始金币。研究者测试了多种配置:

先手玩家金币数后手玩家金币数   
 78910
766.8%65.5%63.4%58.8%
663.7%62.4%59.2%53.6%
562.5%58.3%59.5%54.4%

即使给后手玩家 5 金币的优势也不足以完全补偿先手优势。大约每 1 金币的差距对应 2.7% 的胜率变化。

需要注意的是,表中 5-8 和 5-9 的数据存在反常(5-9 的先手胜率反而高于 5-8),这是由于样本量有限导致的统计波动,真实数值应在报告值的 ±2% 范围内。

社区中有玩家提出更激进的金币差距方案,比如 4-7 或 3-7。研究者解释说,ZeusAI 的神经网络是在标准规则下训练的,对于差异过大的初始状态,模型的决策可能不准确。例如,如果先手只有很少的金币,合理的策略可能是先弃牌换钱并阻断对手的资源卡——但这是 ZeusAI 从未学习过的策略。

奇迹选择变体

更有效的平衡方式是修改奇迹选择阶段的规则。研究者提出了三种变体(以下用 Aristotle 和 Cleopatra 指代两位玩家,Cleopatra 是第一时代的先手):

变体 1(Cleopatra 胜率 60.0%):看到前 4 个奇迹后,Aristotle 决定是否先选;另一位玩家在第二轮先选。这个变体在社区中已有人使用。

变体 2(Cleopatra 胜率 54.6%):在两轮选择中,看到 4 个奇迹后都由 Aristotle 决定是否先选。54.6% 的胜率与国际象棋中白方的期望得分相当,可以接受用于竞技对局。

变体 3(Cleopatra 胜率 51.6%):Aristotle 看到全部 8 个可用奇迹,将其中 4 个分配给第一时代先手玩家,另外 4 个分配给对手。然后 Cleopatra 决定是否要成为第一时代的先手。这可以视为”专家变体”,因为最优策略需要对各奇迹强度有深入理解。

社区实践

BGG 社区中已有玩家开始尝试这些变体。一种常见的组合是:先手玩家少 2 金币(5-7 配置),加上变体 1 的奇迹选择规则。有玩家估算,如果金币变体和奇迹选择变体的效果可以叠加,那么变体 2(54.6%)减去 2 金币的效果(约 4.3%)可能接近 50%。研究者对此的回应是:严格来说,两种变体的效果不能简单相加,但由于它们主要影响游戏的不同阶段,实际效果可能确实接近估算值。

另一个社区提出的方案是将 8 个奇迹一起选择,而不是分两轮。这可以直接避免额外回合奇迹的 3-1 分配问题。研究者表示,如果有机会继续实验,会考虑测试这类变体。

对局表现

2024 年 1 月至 4 月期间,研究者组织了与 BGA 上 3 位顶尖玩家的 Best-of-5 挑战赛,并在 YouTube 上进行了直播。两场挑战赛 ZeusAI 获胜(3-2 和 3-1),一场失败(2-3)。此外还有一个持续进行的系列赛,ZeusAI 目前以 18-6 领先。

总计 38 局对顶尖玩家的比赛中,ZeusAI 赢了 26 局,胜率 68.4%。

ZeusAI 重新发现了许多已知的策略,但也经常做出让专家玩家感到反直觉的决策。这说明七大奇迹对决远未被”解决”,仍有大量策略空间等待探索。

ZeusAI 在各时代最常建造的卡牌 Fig. 2: ZeusAI 在各时代最常建造的卡牌

小结

ZeusAI 展示了现代强化学习技术在复杂桌游上的应用潜力。Transformer 架构对非结构化状态的处理能力、MCTS 对随机性的适配方案、以及通过自我对弈发现策略的能力,都值得在其他类似问题上借鉴。

从游戏设计的角度,ZeusAI 提供了一个量化分析游戏平衡性的工具。66.8% 的先手胜率确实偏高,而研究者提出的奇迹选择变体提供了可行的解决方案。期待这些变体能在社区中得到更多测试和讨论。

关于扩展包(Pantheon、Agora)的支持,研究者表示这些扩展引入了隐藏信息(尤其是 Agora),处理起来会复杂很多,目前没有明确计划。

参考资料

This post is licensed under CC BY 4.0 by the author.