ZeusAI：当强化学习遇上《七大奇迹：对决》

一篇关于 ZeusAI 的论文解读，探讨如何用 AlphaZero 风格的强化学习训练 AI 玩七大奇迹对决，以及 AI 发现的策略洞察和游戏平衡性分析

Posted Dec 27, 2025 Updated Dec 28, 2025

By Alden Wang

views 24 min read

七大奇迹：对决（7 Wonders Duel）是我最喜欢的德式桌游。最近读到一篇论文 Learning to Play 7 Wonders Duel Without Human Supervision，研究者用 AlphaZero 风格的强化学习训练了一个名为 ZeusAI 的系统，在没有任何人类监督的情况下学会了这款游戏，并达到了顶尖人类玩家的水平。论文已被 IEEE Conference on Games 2024 接收。

七大奇迹：对决

七大奇迹：对决发布于 2015 年，是经典多人游戏七大奇迹的双人版本。每位玩家都是一个文明的领袖，为城市建造建筑和奇迹。截至 2025 年 12 月，它在 BoardGameGeek（BGG）排名第 21 位。关于 Board Game Arena（BGA）上的详细统计数据，可以参考社区整理的 7WD in Numbers。

这是一款完全信息博弈游戏——没有隐藏手牌，不存在 bluffing 的空间，理论上存在最优策略。但与围棋、国际象棋不同的是，游戏中存在随机性：卡牌的翻开顺序、奇迹的出现顺序都是随机的。

核心机制

游戏分为三个时代（Age I、II、III）。每个时代开始时，卡牌按照特定的金字塔结构排列在桌面上，部分正面朝上，部分背面朝下。玩家只能拿取没有被其他卡牌压住的牌，当上层卡牌被移除后，下层的暗牌才会翻开。

Fig. 1: 三个时代（I、II、III）的卡牌结构

游戏组件包括 10 个发展标记（Progress Token）、12 个奇迹和 73 张建筑卡牌。其中 5 个奇迹在建造后可以立即获得额外回合，这是游戏中最关键的战术资源之一。

游戏开始时，先随机展示 5 个发展标记，然后进入奇迹选择阶段。第一轮选择 4 个奇迹，按照 1-2-2-1 的顺序选取；第二轮再选 4 个，按照 2-1-1-2 的顺序。最终每位玩家各持有 4 个奇迹。

每回合玩家必须从可选卡牌中选择一张，执行以下三种行动之一：

建造建筑：支付卡牌左上角标注的资源费用，将卡牌加入自己的城市
弃牌换钱：弃掉卡牌，获得 2 金币加上城市中黄色商业建筑数量的金币
建造奇迹：将卡牌面朝下放入奇迹板下方，支付奇迹的建造费用

当玩家收集到两个相同的科技符号时，可以从场上选择一个发展标记。

游戏中总共只能建造 7 个奇迹。这条规则给双方都带来了压力——通常情况下，在对手之前建完自己的 4 个奇迹是有利的。奇迹建造时机的选择是游戏中最关键的决策之一。

三种胜利条件

军事压制：游戏版图上有一条军事轨道，中间放置冲突指示物。打出红色军事牌会将指示物推向对手方向。一旦指示物推入对手首都，游戏立即结束，推进方获胜。

科技压制：游戏中有 7 种不同的科技符号（绿色牌）。如果收集到 6 种不同的科技符号，游戏立即结束，收集方获胜。

文化胜利：如果三个时代结束时没有人达成上述两种即时胜利，则进入分数结算。计算所有建筑、奇迹、金币（3 金币 = 1 分）和军事推进度的分数，总分高者获胜。

这三种胜利条件的存在使得游戏具有相当的策略深度。玩家需要在进攻与防守、短期收益与长期布局之间不断权衡。

ZeusAI 的技术架构

ZeusAI 的设计灵感来自 DeepMind 的 AlphaZero，核心是 Monte Carlo Tree Search（MCTS）与深度神经网络的结合。但针对七大奇迹对决的特点，做了两处关键改进。

为什么选择 Transformer

围棋和国际象棋的状态具有天然的棋盘几何结构，卷积神经网络（CNN）可以很好地捕捉空间局部性。但七大奇迹对决的状态是一组离散的组件：卡牌、奇迹、发展标记、金币数量、军事轨道状态等，它们之间没有空间邻近关系。

ZeusAI 采用了 Transformer Encoder 架构。最终模型有 12 层、12 个注意力头，维护 768 维的表示，前馈层的隐藏维度为 3072，总参数量约 9200 万。

状态表示方式类似于语言模型处理文本的方式：每个游戏组件（卡牌、奇迹、发展标记等）与其位置信息配对，位置信息包括卡牌在时代结构中的位置、在哪位玩家的城市中、是否被弃置、是否用于建造奇迹等。所有组件和位置都有学习得到的 768 维嵌入向量。

值得注意的是，模型没有显式编码任何游戏规则、组件的费用和效果——这些全部通过自我对弈学习得到。

双头输出

Transformer 输出两个值：

Value Head：输出 -1 到 +1 之间的状态价值，表示当前玩家获胜的概率
Policy Head：输出所有合法行动的概率分布，概率越高表示该行动越有前景

MCTS 与随机性处理

行动选择使用 MCTS 算法。从只包含根节点（当前状态）的树开始，每次模拟从根节点遍历，直到遇到新状态并将其加入树中。行动选择平衡探索（优先选择访问次数少的行动）和利用（优先选择模型认为更有前景或历史上导致高价值结果的行动）。

与围棋、国际象棋不同，七大奇迹对决存在随机事件——比如翻开暗牌。ZeusAI 引入了 afterstate 的概念：当一个行动导致需要发生随机事件的状态时，这个状态被称为 afterstate。为了控制搜索树的分支因子，每个 afterstate 最多只保留 11 个子状态。在非训练对局中，这个限制会随着 afterstate 被访问次数的增加而逐渐放宽。

训练时每次行动运行最多 1000 次 MCTS 模拟，按访问次数加权随机选择行动。正式对局时运行最多 5000 次模拟，确定性地选择访问次数最多的行动。

训练过程

训练分为两个阶段。

第一阶段：使用三种简单的规则策略生成 35000 局游戏作为冷启动数据。第一种策略随机选择行动，但倾向于不弃牌；第二种和第三种策略分别尝试建造绿色和红色卡牌（对应科技胜利和军事胜利），其他情况下行为与第一种相同。用这些游戏的所有状态训练 Value Head，目标值基于游戏结果（+1 胜利，-1 失败，0 平局）。

第二阶段：使用 ZeusAI 自我对弈生成游戏。每约 3000 局游戏后，用最近约 100000 局游戏的状态重新训练模型。Policy Head 的训练目标是预测 MCTS 根节点处合法行动的访问次数分布。

总共生成了约 420000 局自我对弈游戏。如果一个人类玩家在 BGA 上以正常速度进行这么多对局，需要 9 年时间。

Fig. 3: 训练过程中胜利类型和获胜者（先手/后手）分布的演变

训练过程中一个有趣的现象是：ZeusAI 很快学会了利用先手优势，但科技胜利作为一种可行策略直到约 100000 局游戏后才被”发现”。这是因为收集 6 种不同科技符号的奖励非常稀疏。科技胜利的发现也标志着研究者无法再稳定击败 ZeusAI 的时刻。

Fig. 4: 训练过程中奇迹偏好的演变

ZeusAI 发现的策略洞察

胜利类型分布

在 10000 局自我对弈游戏中，胜利类型分布为：文化胜利 61.7%，科技胜利 21.4%，军事胜利 16.9%。这与 BGA 上优秀玩家的统计数据（58.0% / 25.6% / 16.4%）相当接近。

奇迹偏好

ZeusAI 最偏好的是 5 个带有额外回合效果的奇迹，这与人类玩家的偏好几乎一致。金字塔（Pyramids）几乎总是被最后选择。

有趣的是，ZeusAI 对宙斯神像（Statue of Zeus）的偏好程度远高于人类玩家，而对亚历山大灯塔（Great Lighthouse）的评价则明显低于人类。这种差异暗示着人类玩家对某些奇迹的价值判断可能存在偏差。

关于奇迹平衡性的调整，研究者表示目前优先关注先手优势问题，因为这对社区、出版商和游戏作者来说是更紧迫的议题。

奇迹建造时机

ZeusAI 在第一时代剩余 2 张牌时，有 52% 的概率会建造一个带额外回合的奇迹；剩余 4 张牌时，这个概率是 12%。这是一个已知的战术——通过在时代末尾建造奇迹获得额外回合，可以在第一时代获得更多卡牌，同时抢占第二时代的先手。

ZeusAI 即使只剩一个额外回合奇迹时也经常使用这个战术，而人类玩家通常更保守。

整体来看，ZeusAI 建造奇迹的时机比人类玩家更早。在第一时代，先手玩家平均建造 0.83 个奇迹，后手玩家平均建造 0.49 个。

卡牌偏好

第一时代建造最多的是客栈（Tavern），资源卡（棕色和灰色）的建造频率高于其他黄色商业卡。在资源选择上，纸莎草优于玻璃，木材优于石头和黏土。

ZeusAI 经常在第一和第二时代就建造蓝色文化卡，试图在分数上建立早期优势。有社区玩家注意到，ZeusAI 对绿色科技卡的热情似乎不如很多强力玩家。

关于第一时代的红色军事卡，ZeusAI 的态度与人类玩家类似——通常不会主动建造。研究者提到，他们确实见过 ZeusAI 在第一时代建造全部 4 张红色卡并取得军事胜利的对局，但这是特殊情况。

发展标记排名

按选择频率排序，前三名是宗教（Theology）、法律（Law）和战略（Strategy），这与社区公认的最强发展标记一致。有玩家对数学（Mathematics）排名较低感到意外。

Fig. 6: 发展标记按 ZeusAI 选择频率排名

研究者表示，他们有更详细的选择率数据，可能会在后续论文或直播中公布。

先手优势与平衡性变体

社区一直知道七大奇迹对决存在先手优势。ZeusAI 的自我对弈数据量化了这个优势：先手玩家的胜率是 66.8%。这远高于基于 BGA 上 605 局人类对局统计的 55.7%。

关于这个数据的解读，BGG 社区有一些讨论。有玩家指出，更高的先手胜率并不能直接证明 ZeusAI 比人类更强——如果 ZeusAI 的先手胜率接近 50%，同样可以解释为它比人类更强。研究者的回应是：这确实只是一个启发式的论证。理论上，最优策略下先手胜率是某个未知的 X%（他们认为接近 67%），而随机策略下先手胜率略高于 50%（估计约 53%）。从随机策略到最优策略的过渡中，先手胜率会从约 53% 变化到 X%，总体趋势是上升的。因此，55% 的先手胜率对应的水平很可能弱于 67% 的先手胜率对应的水平。当然，这个论证在 ZeusAI 作为先手和后手的水平不一致时会失效。

金币变体

最直接的平衡方式是调整双方的初始金币。研究者测试了多种配置：

先手玩家金币数	后手玩家金币数
	7	8	9	10
7	66.8%	65.5%	63.4%	58.8%
6	63.7%	62.4%	59.2%	53.6%
5	62.5%	58.3%	59.5%	54.4%

即使给后手玩家 5 金币的优势也不足以完全补偿先手优势。大约每 1 金币的差距对应 2.7% 的胜率变化。

需要注意的是，表中 5-8 和 5-9 的数据存在反常（5-9 的先手胜率反而高于 5-8），这是由于样本量有限导致的统计波动，真实数值应在报告值的 ±2% 范围内。

社区中有玩家提出更激进的金币差距方案，比如 4-7 或 3-7。研究者解释说，ZeusAI 的神经网络是在标准规则下训练的，对于差异过大的初始状态，模型的决策可能不准确。例如，如果先手只有很少的金币，合理的策略可能是先弃牌换钱并阻断对手的资源卡——但这是 ZeusAI 从未学习过的策略。

奇迹选择变体

更有效的平衡方式是修改奇迹选择阶段的规则。研究者提出了三种变体（以下用 Aristotle 和 Cleopatra 指代两位玩家，Cleopatra 是第一时代的先手）：

变体 1（Cleopatra 胜率 60.0%）：看到前 4 个奇迹后，Aristotle 决定是否先选；另一位玩家在第二轮先选。这个变体在社区中已有人使用。

变体 2（Cleopatra 胜率 54.6%）：在两轮选择中，看到 4 个奇迹后都由 Aristotle 决定是否先选。54.6% 的胜率与国际象棋中白方的期望得分相当，可以接受用于竞技对局。

变体 3（Cleopatra 胜率 51.6%）：Aristotle 看到全部 8 个可用奇迹，将其中 4 个分配给第一时代先手玩家，另外 4 个分配给对手。然后 Cleopatra 决定是否要成为第一时代的先手。这可以视为”专家变体”，因为最优策略需要对各奇迹强度有深入理解。

社区实践

BGG 社区中已有玩家开始尝试这些变体。一种常见的组合是：先手玩家少 2 金币（5-7 配置），加上变体 1 的奇迹选择规则。有玩家估算，如果金币变体和奇迹选择变体的效果可以叠加，那么变体 2（54.6%）减去 2 金币的效果（约 4.3%）可能接近 50%。研究者对此的回应是：严格来说，两种变体的效果不能简单相加，但由于它们主要影响游戏的不同阶段，实际效果可能确实接近估算值。

另一个社区提出的方案是将 8 个奇迹一起选择，而不是分两轮。这可以直接避免额外回合奇迹的 3-1 分配问题。研究者表示，如果有机会继续实验，会考虑测试这类变体。

对局表现

2024 年 1 月至 4 月期间，研究者组织了与 BGA 上 3 位顶尖玩家的 Best-of-5 挑战赛，并在 YouTube 上进行了直播。两场挑战赛 ZeusAI 获胜（3-2 和 3-1），一场失败（2-3）。此外还有一个持续进行的系列赛，ZeusAI 目前以 18-6 领先。

总计 38 局对顶尖玩家的比赛中，ZeusAI 赢了 26 局，胜率 68.4%。

ZeusAI 重新发现了许多已知的策略，但也经常做出让专家玩家感到反直觉的决策。这说明七大奇迹对决远未被”解决”，仍有大量策略空间等待探索。

Fig. 2: ZeusAI 在各时代最常建造的卡牌

小结

ZeusAI 展示了现代强化学习技术在复杂桌游上的应用潜力。Transformer 架构对非结构化状态的处理能力、MCTS 对随机性的适配方案、以及通过自我对弈发现策略的能力，都值得在其他类似问题上借鉴。

从游戏设计的角度，ZeusAI 提供了一个量化分析游戏平衡性的工具。66.8% 的先手胜率确实偏高，而研究者提出的奇迹选择变体提供了可行的解决方案。期待这些变体能在社区中得到更多测试和讨论。

关于扩展包（Pantheon、Agora）的支持，研究者表示这些扩展引入了隐藏信息（尤其是 Agora），处理起来会复杂很多，目前没有明确计划。

参考资料

论文：Learning to Play 7 Wonders Duel Without Human Supervision
会议：IEEE Conference on Games 2024
直播回放：ZeusAI YouTube Playlist
BGA 统计：7WD in Numbers
BGG 讨论：ZeusAI Paper Discussion

LLM Engineering

This post is licensed under CC BY 4.0 by the author.