ZeusAI:当强化学习遇上《七大奇迹:对决》
一篇关于 ZeusAI 的论文解读,探讨如何用 AlphaZero 风格的强化学习训练 AI 玩七大奇迹对决,以及 AI 发现的策略洞察和游戏平衡性分析
七大奇迹:对决(7 Wonders Duel)是我最喜欢的德式桌游。最近读到一篇论文 Learning to Play 7 Wonders Duel Without Human Supervision,研究者用 AlphaZero 风格的强化学习训练了一个名为 ZeusAI 的系统,在没有任何人类监督的情况下学会了这款游戏,并达到了顶尖人类玩家的水平。论文已被 IEEE Conference on Games 2024 接收。
七大奇迹:对决
七大奇迹:对决发布于 2015 年,是经典多人游戏七大奇迹的双人版本。每位玩家都是一个文明的领袖,为城市建造建筑和奇迹。截至 2025 年 12 月,它在 BoardGameGeek(BGG) 排名第 21 位。关于 Board Game Arena(BGA)上的详细统计数据,可以参考社区整理的 7WD in Numbers。
这是一款完全信息博弈游戏——没有隐藏手牌,不存在 bluffing 的空间,理论上存在最优策略。但与围棋、国际象棋不同的是,游戏中存在随机性:卡牌的翻开顺序、奇迹的出现顺序都是随机的。
核心机制
游戏分为三个时代(Age I、II、III)。每个时代开始时,卡牌按照特定的金字塔结构排列在桌面上,部分正面朝上,部分背面朝下。玩家只能拿取没有被其他卡牌压住的牌,当上层卡牌被移除后,下层的暗牌才会翻开。
游戏组件包括 10 个发展标记(Progress Token)、12 个奇迹和 73 张建筑卡牌。其中 5 个奇迹在建造后可以立即获得额外回合,这是游戏中最关键的战术资源之一。
游戏开始时,先随机展示 5 个发展标记,然后进入奇迹选择阶段。第一轮选择 4 个奇迹,按照 1-2-2-1 的顺序选取;第二轮再选 4 个,按照 2-1-1-2 的顺序。最终每位玩家各持有 4 个奇迹。
每回合玩家必须从可选卡牌中选择一张,执行以下三种行动之一:
- 建造建筑:支付卡牌左上角标注的资源费用,将卡牌加入自己的城市
- 弃牌换钱:弃掉卡牌,获得 2 金币加上城市中黄色商业建筑数量的金币
- 建造奇迹:将卡牌面朝下放入奇迹板下方,支付奇迹的建造费用
当玩家收集到两个相同的科技符号时,可以从场上选择一个发展标记。
游戏中总共只能建造 7 个奇迹。这条规则给双方都带来了压力——通常情况下,在对手之前建完自己的 4 个奇迹是有利的。奇迹建造时机的选择是游戏中最关键的决策之一。
三种胜利条件
军事压制:游戏版图上有一条军事轨道,中间放置冲突指示物。打出红色军事牌会将指示物推向对手方向。一旦指示物推入对手首都,游戏立即结束,推进方获胜。
科技压制:游戏中有 7 种不同的科技符号(绿色牌)。如果收集到 6 种不同的科技符号,游戏立即结束,收集方获胜。
文化胜利:如果三个时代结束时没有人达成上述两种即时胜利,则进入分数结算。计算所有建筑、奇迹、金币(3 金币 = 1 分)和军事推进度的分数,总分高者获胜。
这三种胜利条件的存在使得游戏具有相当的策略深度。玩家需要在进攻与防守、短期收益与长期布局之间不断权衡。
ZeusAI 的技术架构
ZeusAI 的设计灵感来自 DeepMind 的 AlphaZero,核心是 Monte Carlo Tree Search(MCTS)与深度神经网络的结合。但针对七大奇迹对决的特点,做了两处关键改进。
为什么选择 Transformer
围棋和国际象棋的状态具有天然的棋盘几何结构,卷积神经网络(CNN)可以很好地捕捉空间局部性。但七大奇迹对决的状态是一组离散的组件:卡牌、奇迹、发展标记、金币数量、军事轨道状态等,它们之间没有空间邻近关系。
ZeusAI 采用了 Transformer Encoder 架构。最终模型有 12 层、12 个注意力头,维护 768 维的表示,前馈层的隐藏维度为 3072,总参数量约 9200 万。
状态表示方式类似于语言模型处理文本的方式:每个游戏组件(卡牌、奇迹、发展标记等)与其位置信息配对,位置信息包括卡牌在时代结构中的位置、在哪位玩家的城市中、是否被弃置、是否用于建造奇迹等。所有组件和位置都有学习得到的 768 维嵌入向量。
值得注意的是,模型没有显式编码任何游戏规则、组件的费用和效果——这些全部通过自我对弈学习得到。
双头输出
Transformer 输出两个值:
- Value Head:输出 -1 到 +1 之间的状态价值,表示当前玩家获胜的概率
- Policy Head:输出所有合法行动的概率分布,概率越高表示该行动越有前景
MCTS 与随机性处理
行动选择使用 MCTS 算法。从只包含根节点(当前状态)的树开始,每次模拟从根节点遍历,直到遇到新状态并将其加入树中。行动选择平衡探索(优先选择访问次数少的行动)和利用(优先选择模型认为更有前景或历史上导致高价值结果的行动)。
与围棋、国际象棋不同,七大奇迹对决存在随机事件——比如翻开暗牌。ZeusAI 引入了 afterstate 的概念:当一个行动导致需要发生随机事件的状态时,这个状态被称为 afterstate。为了控制搜索树的分支因子,每个 afterstate 最多只保留 11 个子状态。在非训练对局中,这个限制会随着 afterstate 被访问次数的增加而逐渐放宽。
训练时每次行动运行最多 1000 次 MCTS 模拟,按访问次数加权随机选择行动。正式对局时运行最多 5000 次模拟,确定性地选择访问次数最多的行动。
训练过程
训练分为两个阶段。
第一阶段:使用三种简单的规则策略生成 35000 局游戏作为冷启动数据。第一种策略随机选择行动,但倾向于不弃牌;第二种和第三种策略分别尝试建造绿色和红色卡牌(对应科技胜利和军事胜利),其他情况下行为与第一种相同。用这些游戏的所有状态训练 Value Head,目标值基于游戏结果(+1 胜利,-1 失败,0 平局)。
第二阶段:使用 ZeusAI 自我对弈生成游戏。每约 3000 局游戏后,用最近约 100000 局游戏的状态重新训练模型。Policy Head 的训练目标是预测 MCTS 根节点处合法行动的访问次数分布。
总共生成了约 420000 局自我对弈游戏。如果一个人类玩家在 BGA 上以正常速度进行这么多对局,需要 9 年时间。
Fig. 3: 训练过程中胜利类型和获胜者(先手/后手)分布的演变
训练过程中一个有趣的现象是:ZeusAI 很快学会了利用先手优势,但科技胜利作为一种可行策略直到约 100000 局游戏后才被”发现”。这是因为收集 6 种不同科技符号的奖励非常稀疏。科技胜利的发现也标志着研究者无法再稳定击败 ZeusAI 的时刻。
ZeusAI 发现的策略洞察
胜利类型分布
在 10000 局自我对弈游戏中,胜利类型分布为:文化胜利 61.7%,科技胜利 21.4%,军事胜利 16.9%。这与 BGA 上优秀玩家的统计数据(58.0% / 25.6% / 16.4%)相当接近。
奇迹偏好
ZeusAI 最偏好的是 5 个带有额外回合效果的奇迹,这与人类玩家的偏好几乎一致。金字塔(Pyramids)几乎总是被最后选择。
有趣的是,ZeusAI 对宙斯神像(Statue of Zeus)的偏好程度远高于人类玩家,而对亚历山大灯塔(Great Lighthouse)的评价则明显低于人类。这种差异暗示着人类玩家对某些奇迹的价值判断可能存在偏差。
关于奇迹平衡性的调整,研究者表示目前优先关注先手优势问题,因为这对社区、出版商和游戏作者来说是更紧迫的议题。
奇迹建造时机
ZeusAI 在第一时代剩余 2 张牌时,有 52% 的概率会建造一个带额外回合的奇迹;剩余 4 张牌时,这个概率是 12%。这是一个已知的战术——通过在时代末尾建造奇迹获得额外回合,可以在第一时代获得更多卡牌,同时抢占第二时代的先手。
ZeusAI 即使只剩一个额外回合奇迹时也经常使用这个战术,而人类玩家通常更保守。
整体来看,ZeusAI 建造奇迹的时机比人类玩家更早。在第一时代,先手玩家平均建造 0.83 个奇迹,后手玩家平均建造 0.49 个。
卡牌偏好
第一时代建造最多的是客栈(Tavern),资源卡(棕色和灰色)的建造频率高于其他黄色商业卡。在资源选择上,纸莎草优于玻璃,木材优于石头和黏土。
ZeusAI 经常在第一和第二时代就建造蓝色文化卡,试图在分数上建立早期优势。有社区玩家注意到,ZeusAI 对绿色科技卡的热情似乎不如很多强力玩家。
关于第一时代的红色军事卡,ZeusAI 的态度与人类玩家类似——通常不会主动建造。研究者提到,他们确实见过 ZeusAI 在第一时代建造全部 4 张红色卡并取得军事胜利的对局,但这是特殊情况。
发展标记排名
按选择频率排序,前三名是宗教(Theology)、法律(Law)和战略(Strategy),这与社区公认的最强发展标记一致。有玩家对数学(Mathematics)排名较低感到意外。
研究者表示,他们有更详细的选择率数据,可能会在后续论文或直播中公布。
先手优势与平衡性变体
社区一直知道七大奇迹对决存在先手优势。ZeusAI 的自我对弈数据量化了这个优势:先手玩家的胜率是 66.8%。这远高于基于 BGA 上 605 局人类对局统计的 55.7%。
关于这个数据的解读,BGG 社区有一些讨论。有玩家指出,更高的先手胜率并不能直接证明 ZeusAI 比人类更强——如果 ZeusAI 的先手胜率接近 50%,同样可以解释为它比人类更强。研究者的回应是:这确实只是一个启发式的论证。理论上,最优策略下先手胜率是某个未知的 X%(他们认为接近 67%),而随机策略下先手胜率略高于 50%(估计约 53%)。从随机策略到最优策略的过渡中,先手胜率会从约 53% 变化到 X%,总体趋势是上升的。因此,55% 的先手胜率对应的水平很可能弱于 67% 的先手胜率对应的水平。当然,这个论证在 ZeusAI 作为先手和后手的水平不一致时会失效。
金币变体
最直接的平衡方式是调整双方的初始金币。研究者测试了多种配置:
| 先手玩家金币数 | 后手玩家金币数 | |||
|---|---|---|---|---|
| 7 | 8 | 9 | 10 | |
| 7 | 66.8% | 65.5% | 63.4% | 58.8% |
| 6 | 63.7% | 62.4% | 59.2% | 53.6% |
| 5 | 62.5% | 58.3% | 59.5% | 54.4% |
即使给后手玩家 5 金币的优势也不足以完全补偿先手优势。大约每 1 金币的差距对应 2.7% 的胜率变化。
需要注意的是,表中 5-8 和 5-9 的数据存在反常(5-9 的先手胜率反而高于 5-8),这是由于样本量有限导致的统计波动,真实数值应在报告值的 ±2% 范围内。
社区中有玩家提出更激进的金币差距方案,比如 4-7 或 3-7。研究者解释说,ZeusAI 的神经网络是在标准规则下训练的,对于差异过大的初始状态,模型的决策可能不准确。例如,如果先手只有很少的金币,合理的策略可能是先弃牌换钱并阻断对手的资源卡——但这是 ZeusAI 从未学习过的策略。
奇迹选择变体
更有效的平衡方式是修改奇迹选择阶段的规则。研究者提出了三种变体(以下用 Aristotle 和 Cleopatra 指代两位玩家,Cleopatra 是第一时代的先手):
变体 1(Cleopatra 胜率 60.0%):看到前 4 个奇迹后,Aristotle 决定是否先选;另一位玩家在第二轮先选。这个变体在社区中已有人使用。
变体 2(Cleopatra 胜率 54.6%):在两轮选择中,看到 4 个奇迹后都由 Aristotle 决定是否先选。54.6% 的胜率与国际象棋中白方的期望得分相当,可以接受用于竞技对局。
变体 3(Cleopatra 胜率 51.6%):Aristotle 看到全部 8 个可用奇迹,将其中 4 个分配给第一时代先手玩家,另外 4 个分配给对手。然后 Cleopatra 决定是否要成为第一时代的先手。这可以视为”专家变体”,因为最优策略需要对各奇迹强度有深入理解。
社区实践
BGG 社区中已有玩家开始尝试这些变体。一种常见的组合是:先手玩家少 2 金币(5-7 配置),加上变体 1 的奇迹选择规则。有玩家估算,如果金币变体和奇迹选择变体的效果可以叠加,那么变体 2(54.6%)减去 2 金币的效果(约 4.3%)可能接近 50%。研究者对此的回应是:严格来说,两种变体的效果不能简单相加,但由于它们主要影响游戏的不同阶段,实际效果可能确实接近估算值。
另一个社区提出的方案是将 8 个奇迹一起选择,而不是分两轮。这可以直接避免额外回合奇迹的 3-1 分配问题。研究者表示,如果有机会继续实验,会考虑测试这类变体。
对局表现
2024 年 1 月至 4 月期间,研究者组织了与 BGA 上 3 位顶尖玩家的 Best-of-5 挑战赛,并在 YouTube 上进行了直播。两场挑战赛 ZeusAI 获胜(3-2 和 3-1),一场失败(2-3)。此外还有一个持续进行的系列赛,ZeusAI 目前以 18-6 领先。
总计 38 局对顶尖玩家的比赛中,ZeusAI 赢了 26 局,胜率 68.4%。
ZeusAI 重新发现了许多已知的策略,但也经常做出让专家玩家感到反直觉的决策。这说明七大奇迹对决远未被”解决”,仍有大量策略空间等待探索。
小结
ZeusAI 展示了现代强化学习技术在复杂桌游上的应用潜力。Transformer 架构对非结构化状态的处理能力、MCTS 对随机性的适配方案、以及通过自我对弈发现策略的能力,都值得在其他类似问题上借鉴。
从游戏设计的角度,ZeusAI 提供了一个量化分析游戏平衡性的工具。66.8% 的先手胜率确实偏高,而研究者提出的奇迹选择变体提供了可行的解决方案。期待这些变体能在社区中得到更多测试和讨论。
关于扩展包(Pantheon、Agora)的支持,研究者表示这些扩展引入了隐藏信息(尤其是 Agora),处理起来会复杂很多,目前没有明确计划。



