ISPE《GAMP AI Guide》：在 GxP 体系里验证 AI 系统

解读 ISPE GAMP AI Guide 的范围与关键概念，梳理 GxP 语境下 AI 验证的核心动作链、风险为本方法与数据/模型治理要求。

Posted Feb 8, 2026

By Alden Wang

views 39 min read

执行摘要

ISPE 于 2025 年 7 月发布《GAMP® Guide: Artificial Intelligence》（下称 GAMP AI Guide）。它填补的缺口很具体：当 AI/ML 进入 GxP 流程，验证对象不再只是“软件功能”，还包含数据集、训练过程、模型版本与运行监测。指南给出一套风险为本框架，用于开发、实施与监督 AI 赋能系统，使患者安全、产品质量与数据完整性保持在可审计的控制面内。

这份指南沿用 GAMP 5 的主线，也延展了数据完整性与质量风险管理（ICH Q9）的要求。它把 AI 的典型失控点拆成工程对象：数据偏倚会污染模型结论，模型漂移会削弱长期性能，供应商更新会引入不可见变更。相应地，它把验证动作从一次性测试扩展为生命周期机制：先定义使用情境（COU）并分级风险；再把训练数据、测试数据、提示词与输出当作受控记录；再用性能阈值与错误容限定义验收；再用模型特定测试证明达标；再用变更控制与持续监测守住长期可控；对外购 AI 服务，则以与关键供应商同等标准完成评估与质量协议。

在监管语境下，结论并不暧昧：AI 输出无论是数据、建议还是自动化动作，只要进入 GxP 决策链，就必须可追溯、可复现、可审计。Part 11、Annex 11 与 ALCOA+ 的要求不会因为 AI 新颖而变软；CSA 只是在提醒把验证投入按风险分配，而不是用文档堆叠替代控制。

引言

制药与生命科学行业正在把 AI 推进到更多关键流程里，从研发到制造，再到质量体系。行业里常见的现象是“试点能跑，落地难扩”。原因不神秘：AI 把可变因素带进了受监管链路，而传统验证习惯把可变因素当成异常。

规则型计算机化系统靠“逻辑固定”换取可重复。需求冻结后，系统通过 IQ/OQ/PQ 或同类活动证明按预期运行，之后在受控变更下重复产出。AI 系统不靠这条路。模型从数据中学习，输出通常呈现分布而不是单点结果；输入的微小扰动可能放大到输出差异；数据分布变化会触发性能漂移；模型更新又常常通过流水线完成。把这种系统强行套进以文档为中心的 CSV 叙事，会出现两种后果：要么验证证据跟不上变化，要么文档成本与风险不匹配。

监管基调正在把注意力从“写了多少材料”移回“控制是否有效”。这也是 GAMP AI Guide 出现的背景：它试图把 AI 的变动性拆成可治理对象，并把治理写成可执行的生命周期动作。

在美国，21 CFR Part 11 把电子记录与电子签名的可信性、可归属与可审计性写成硬约束。欧盟 Annex 11 则把计算机化系统验证、访问控制、审计追踪与数据完整性写进 GMP 语境。两套规则都不是为 AI 写的，但它们判断合规的方式一致：只要系统参与形成受监管记录，就必须能解释“谁在何时用哪个版本做了什么”，并且能让审计人员复盘决策链路。

与此同时，FDA 用 CSA 重新定义了“验证投入的分配方式”。验证不再以文档厚度作为替代指标，而是按风险把证据做在测试与过程控制上。ICH Q9 的质量风险管理给出同一条主线：风险评估必须对齐患者安全与产品质量。EMA 的反思文件反复强调透明性与人工监督，也在把 AI 拉回到既有法规框架之内。

ISO/IEC 42001 把 AI 管理体系做成可认证框架，欧盟 AI Act 把风险分级写成法律义务。它们共同释放一个信号：AI 治理会越来越像质量体系的一部分，而不是 IT 团队的私事。GAMP AI Guide 则把这个信号落回 GxP 现实：如何在现有法规下，让 AI 系统拿出可检查的证据，并在变更与漂移中保持受控。

GAMP AI Guide：范围、制定过程与核心概念

范围与制定过程

GAMP 系列长期承担“把监管目标翻译成工程动作”的角色。GAMP AI Guide 延续这条路线：它不是新法规，而是一份面向 GxP 的 AI 最佳实践框架。指南由 ISPE 社群牵头，组织行业与学术专家共同编制，吸收早期采用者的实战经验，专门回应一个反复出现的问题：当系统的核心行为来自数据与模型，而不是固定逻辑时，验证证据应该怎么做，怎么维护，怎么接受审计。

在方法上，指南没有推翻 GAMP 5，而是把 GAMP 5 的风险为本原则与 V 模型思路扩展到 AI：把数据、模型、训练与再训练、持续监测纳入生命周期受控范围。它也把数据完整性指南中的关键要求带入 AI 语境，并参考 ISO/IEC 42001 等新标准，强调治理必须可落地、可检查、可持续。

关键主题与核心概念

这份指南的核心信息可以压缩成一句话：验证必须围绕预期用途与风险，持续证明系统在变化中仍然可控。为了做到这一点，指南把工作重心从“系统功能清单”转向“控制面设计”，并把控制面拆成几个可落笔的对象。

第一类对象是风险。风险不靠抽象分级，而靠 COU 把系统嵌入流程：系统做什么、谁使用输出、输出影响哪一个质量决策点。随后风险评估把失败模式映射到患者安全、产品质量与数据完整性。

第二类对象是生命周期。系统从概念到退役都要留下证据，但证据重点会随风险强度而变化。高风险用例必须承受更严格审查，低风险用例可以采用更精简的控制与证据。

第三类对象是角色与责任。AI 项目会引入数据科学与工程角色，但质量责任不会外包给技术岗位。指南强调需要明确的数据责任人、模型责任人与质量单位的签批机制，并通过培训与知识管理补齐能力缺口。

第四类对象是数据与模型治理。数据必须可追溯、可版本化、可证明适用性；模型必须可复现、可版本化、可监测漂移；变更必须可评估影响并触发再验证。为支撑这些动作，指南提供了更细的附录，覆盖数据质量、模型测试、持续监测与 CAPA、网络安全以及基础设施资格确认等主题。

最后，指南把自己定位为“衔接器”：它不取代 Part 11、Annex 11、ALCOA+ 等规则，而是解释在 AI 语境下如何满足这些规则，并把合规要求落回到工程证据结构上。

药品质量规范总称（GxP）中 AI 的法规与标准格局

现行药品质量规范总称（GxP）法规与指南

在 GxP 里谈 AI，第一条结论很“无聊”但最重要：AI 不会带来豁免。系统只要参与形成受监管记录或影响受监管决策，就必须满足既有的验证、数据完整性与安全控制要求。变化不在于规则本身，而在于合规证据的载体从“静态软件”扩展到“数据与模型”。

在美国，21 CFR Part 11 把电子记录与电子签名的要求写成审计底线。AI 产出的数据、报告、建议一旦进入 GxP 流程，就会被当作记录对待；提示词、模型版本、再训练事件也会被追问。真正的落地动作是把 Part 11 的控制面延伸到 AI 资产：身份与权限、审计追踪、时间戳、记录留存与防篡改。

在欧盟，Annex 11 把计算机化系统验证、变更控制与安全要求固化为 GMP 语境的基本动作。它成文时没有把云与先进 AI 写进去，但原则仍然适用：系统必须证明按预期运行，变更必须受控，记录必须可追溯。未来 Annex 22（面向 AI/ML）的细化方向只会强化这类控制，而不是替代它。

在方法论层面，CSA 与 ICH Q9 把验证从“材料工程”拉回“风险工程”。验证投入需要对齐系统关键性，风险评估需要对齐患者安全与产品质量。对 AI 来说，这意味着不能用“系统很复杂”作为文档膨胀的理由，而要用 COU 把风险边界画清，再把证据做在高风险点的测试与运行控制上。

数据完整性（ALCOA+）是贯穿全链路的硬约束。对 AI 系统而言，输入数据、训练数据、数据转换、模型参数、提示词与输出都需要进入可追溯体系，才能回答“这个结果从哪里来、怎么变出来、谁批准过”。此外，ISO/IEC 17025、ISO 13485 等质量体系标准，以及欧盟 AI Act 这类风险分级法规，正在把“治理”这一层要求推向更明确的检查预期。

对 AI 验证的监管期望

监管机构不会因为“AI 很新”就改变审计逻辑。相反，AI 的新颖性会让检查员更主动地追问控制面是否闭合。追问通常围绕几个固定问题展开：系统在流程里承担什么角色，失败会影响什么质量决策点；数据从哪里来、怎么处理、怎么分区、怎么留存；模型性能用什么阈值验收，边界条件怎么覆盖；运行中如何记录交互与版本；模型与数据的变更如何触发影响评估与再验证；外购供应商提供什么证据、变更如何通知。

下表把常见标准与 AI 验证关注点对齐，便于把法规语言映射到工程证据结构。

表 1：关键标准与 AI 验证关注点

法规/标准	AI 场景下的关注点	备注
FDA 21 CFR Part 11	电子记录与电子签名的可信、可归属、可审计；将提示词、输出、模型版本与再训练事件纳入审计追踪与留存	适用于 AI 参与形成受监管记录的场景
FDA 计算机软件保证（CSA）	按风险调整验证强度；把证据放在测试与过程控制上，避免以文档数量替代控制	与 AI 的快速迭代节奏更匹配
EU GMP Annex 11	计算机化系统验证、变更控制、访问控制、审计追踪与数据完整性	在专门 AI 附录落地前，原则仍然适用
EU Annex 22（拟议）	针对 GMP 中 AI/ML 的专门控制要求（方向性）	仍处草案阶段，体现监管关注上升
ICH Q9	风险评估对齐患者安全与产品质量；风险驱动控制与验证活动	是风险为本验证的共同底座
数据完整性（ALCOA+）	输入、训练、转换、提示词与输出均纳入可追溯与留存；证明结果可复盘	会把“数据谱系”推到核心位置
EU AI Act（拟议）	按风险分级施加透明性、文档与监督义务；强调偏倚与性能约束	非 GxP 专属，但会影响治理预期
ISO 13485 / IEC 82304	医疗器械与医疗软件的质量体系、验证与风险管理	器械相关 AI 的适用性更强

这些总体要求，共同催生了对全新验证框架的迫切需求。接下来的章节将探讨 ISPE GAMP AI Guide 及相关思路如何回应这些需求。

验证 AI 赋能的计算机化系统所面临的挑战

AI 验证之所以更难，不是因为“AI 更强”，而是因为它把不确定性带进了受监管流程。传统验证擅长证明“固定逻辑按固定路径运行”，AI 验证需要证明“系统在变化中仍然可控”。

首先是可解释性问题。很多模型很难像规则系统那样输出清晰的决策路径，验证证据因此从“覆盖代码路径”转向“覆盖输入空间与场景空间”。一旦出现偏差，根因分析会更依赖数据与模型工件，而不是单纯的源代码回溯。

其次是非确定性输出。生成式模型尤其明显：同一问题可能给出多种等价表达。GxP 的要求不是逐字一致，而是在受控输入、受控版本与受控配置下，输出落入预先定义的可接受范围，并且偏差可定位、可复盘。没有阈值与错误容限，就没有可审计的“通过/不通过”。

第三是偏倚与数据漂移。训练数据带来的偏差会被模型放大，部署后的数据分布变化会拖累性能。漂移不是偶发事件，它更像系统属性；属性要么被监测并触发治理，要么在生产现场爆成偏差与 CAPA。

第四是数据管道与工具链复杂度。AI 系统往往由数据采集、清洗、特征工程、训练、评估、部署、监测等环节组成。每个环节都在产出工件，也在引入变更点。验证如果只盯应用界面，就等于只审计冰山尖。

最后是能力结构问题。质量团队如果不理解数据、模型与漂移，只能把控制写在纸上；工程团队如果不理解 Part 11、Annex 11 与 ALCOA+，就容易把风险留在系统里。指南把知识管理与培训写进框架，本质是在缓释组织能力带来的系统性风险。

药品质量规范总称（GxP）中 AI 验证的关键动作

GAMP AI Guide 并不把验证写成材料清单，它把验证写成动作链。动作链的顺序很重要：先定边界，再控输入，再证输出，最后控变化。下面按这个顺序展开。

1) 用 COU 定边界，用风险定强度

验证先回答“系统在流程里做什么”。COU 需要把输入、输出、使用者、决策点写清楚，并把失败模式映射到患者安全、产品质量与数据完整性。验证强度由这一步决定：越接近放行、处方、关键质量决策的用例，越需要更强的证据与更严的运行控制。

2) 把数据当作关键物料管理

在 AI 系统里，数据质量决定模型上限。训练集、验证集、测试集与推理输入必须有清晰溯源与版本管理；数据转换、清洗、增强必须可追溯、可复盘；分区策略必须固定并受控，避免训练/测试泄漏污染证据。对生成式系统，提示词模板与检索语料同样属于受控输入。

3) 用性能阈值定义“可接受失败”

AI 输出是概率性的，验收标准必须先于测试出现。阈值可以是准确率、召回率、特异性、误差上限或偏倚容忍度，但必须对齐风险：高风险场景更关注漏报与系统性偏差，低风险场景可以容忍更高的误报。没有阈值，验证就会退化成事后解释。

4) 用场景覆盖替代“路径覆盖”

AI 测试的核心不是跑通功能，而是覆盖输入空间与场景空间。典型的测试结构包含鲁棒性（噪声与异常输入）、偏倚（子人群与边界条件）、对抗/压力（敏感性与脆弱点）与端到端（把模型放进实际工作流验证闭环）。测试数据集本身也要受控并版本化。

5) 让训练与版本变成可复现记录

训练不是研发过程里的“黑箱”，它是验证证据的一部分。每次训练与评估需要记录代码版本、参数、环境与数据版本，使结果可复现。模型重新训练时需要生成新版本，并通过影响评估决定再验证范围。

6) 把 Part 11/Annex 11 的控制面落到系统里

访问控制、审计追踪、备份恢复与职责分离并不过时，它们只是需要覆盖新的资产：数据集、模型、配置与提示词。关键不在“有日志”，而在“日志能对上版本、能复盘每一次决策形成过程”。

7) 用变更控制与持续监测把验证延伸到运行期

AI 的变化是常态。再训练、数据源变化、漂移超阈、算法替换、基础设施变更都需要触发影响评估，并按影响决定部分或全面再验证。持续监测需要把性能指标、漂移告警、偏差处理与 CAPA 串成闭环。

8) 把供应商纳入质量体系，而不是采购流程

外购 AI 工具不会转移责任。受监管企业需要评估供应商的质量体系、数据来源与更新策略，并通过质量协议锁定变更通知、版本透明度与证据交付。供应商能提供的验证材料越少，使用方就需要补的控制越多。

表 2：面向 GxP 的 AI 风险为本验证动作链

步骤	动作	关键产物（示例）
1	定义 COU 并分级风险	COU 描述、风险评估、验证策略分级
2	数据治理与数据完整性	数据谱系、数据版本、转换记录、分区与留存策略
3	性能阈值与验收标准	URS/验收标准、错误容限与偏差处理规则
4	验证测试	测试计划、受控测试集、结果与偏差记录
5	模型训练与版本治理	训练记录、模型卡/版本记录、可复现性证据
6	运行期控制	访问控制、审计追踪、备份恢复、职责分离
7	变更控制与持续监测	再验证触发条件、漂移监测、告警与 CAPA 机制
8	供应商治理	供应商评估、质量协议、变更通知与证据交付

这条动作链把传统计算机化系统验证的骨架保留住，同时把 AI 的新变量（数据、模型、漂移、供应链）纳入同一条可审计链路。下一节用案例展示这些动作如何在不同用例中出现。

案例研究与示例

AI 在完全受监管的生产环境里仍属新生事物，但一些落地案例已经把控制面暴露得足够清楚。案例的价值不在“讲故事”，而在“让审计问题有答案”。

生成式 AI 辅助验证材料生产（PwC 示例）

生成式模型最稳妥的落点通常不是“直接签批的记录”，而是“受控的草稿产物”。在 PwC 的公开案例中，团队用基于 GPT 的能力生成验证脚本基线，随后由人工补齐导航路径与数据逻辑，并在 SME 审阅后进入受控文档流。公开报告提到测试开发时间缩短约 40%。这里的关键不是速度，而是责任分层：模型生成的是草稿，签批与使用前审阅才是记录形成动作。

临床数据平台支撑 AI/ML 分析（Ardigen 示例）

临床数据场景更容易暴露“证据链的本体”：不是模型，而是数据平台。示例方案把数据湖作为单一事实来源，使用严格访问控制与自动化处理流水线，把每一次转换记录为可审计事件，并在云基础设施上满足 Part 11 等合规约束。系统把“数据怎么来、怎么变、怎么用”固定成机制后，模型训练与报告生成才有了可复盘的底座。

质量体系（QMS）中的趋势分析与预警

把 AI 放进 CAPA、偏差或审计发现的分析流程时，风险常常被低估，因为输出看起来像“建议”。但建议会改变优先级与资源分配，进而影响质量决策链。更稳妥的落地方式是先把 COU 写清，把输出定位为决策支持，并把可解释性与人工复核嵌进流程；随后再用历史数据对照验证算法表现，确保输出可被质量人员复盘。

产线视觉检测（QC）用例

视觉检测往往直接影响放行与报废，是典型高风险用例。较常见的验证路径是并行对照：让 AI 与人工检验共同运行多个批次，用统计方法评估灵敏度、特异性与误差分布，再把阈值写进验收标准。上线后还需要把漂移监测与再训练治理做成触发机制，一旦产品外观、环境条件或设备参数变化，就进入影响评估与再验证流程。

药物警戒（Pharmacovigilance）中的辅助处理

药物警戒场景把“静态模型”和“动态模型”的差异放大了。静态模型可以通过版本冻结、回放已知病例集、维护版本记录来形成证据；持续学习模型则必须依赖持续监测、再训练治理与更强的审计追踪，才能避免模型在不知不觉中偏离已验证状态。

这些案例共同指向同一条规律：效率提升来自自动化，合规成立来自控制面。数据底座、阈值与测试、人工监督、持续监测与变更控制缺一不可。

影响与未来方向

GAMP AI Guide 带来的变化不在于“多了一本指南”，而在于验证与运行的工作重心发生了迁移：从一次性交付迁移到持续受控，从材料导向迁移到风险导向，从功能清单迁移到控制面设计。

验证方法会向 CSA 收敛

验证会继续摆脱“厚重 CSV”的惯性，更多采用 CSA 的风险证据策略：把验证强度压到高风险点，把证据放在自动化测试、过程控制与可复盘记录上。AI 本身也会被用于生成测试场景、扩大输入覆盖，但这些测试产物必须同样受控，否则等同于把不确定性从系统转移到证据里。

角色与能力会重组

AI 让质量与验证岗位的边界向数据与模型侧延伸。数据科学家与工程师需要理解 Part 11、Annex 11 与 ALCOA+ 的约束；质量团队需要理解数据分区、漂移与模型评估的基本逻辑。所谓“AI 素养”最终会变成质量体系的能力要求，而不是培训口号。

运行期治理会吞掉更多工作量

成熟组织会把 MLOps 纳入质量体系，把监测仪表板作为审计证据的一部分：性能趋势、漂移告警、偏差处理、CAPA 与版本变更在同一条链路上闭合。上线不再是终点，而是运行机制开始发挥作用的起点。

标准与法规会继续补细节

Annex 体系、FDA 对 AI 可信度的讨论、ISO/IEC 42001 等管理体系标准，会逐步把“治理”写得更明确。组织需要持续跟踪这些口径变化，并把数据隐私与访问控制纳入同一套治理框架，避免出现“模型合规、数据不合规”的割裂。

“可信”会从口号变成检查项

偏倚、可解释性与人工监督会越来越像质量风险的一部分，尤其在临床敏感用例中。治理结构上，组织会更频繁地把审查委员会与技术治理机制结合起来，用来处理“可用但不应当用”的边界问题。

总体来看，监管方要看到的不是“公司用了 AI”，而是“公司能控制 AI”。

结论

GAMP AI Guide 的价值不在于“给了更多术语”，而在于它把 AI 系统重新锚定在 GxP 的基本目标上：患者安全、产品质量与数据完整性。它把 AI 的变动性拆成可治理对象，把治理写成动作链，并要求组织把动作链做成可审计机制。

当 COU 清晰、风险分级落地，验证就有了边界；当数据与模型纳入受控，证据链就能闭合；当监测与变更控制形成闭环，系统就能在漂移与更新中维持已验证状态。组织需要付出的不是“多写文档”，而是把控制面做实，并把控制做成可持续运行的纪律。

外部来源

[1] https://ispe.org/publications/guidance-documents/gamp-guide-artificial-intelligence
[2] https://ispe.org/pharmaceutical-engineering/september-october-2025/new-gampr-guide-addresses-challenges-posed-ai
[3] https://www.bioprocessonline.com/doc/trust-but-verify-validating-ai-in-pharma-s-gxp-world-0001
[4] https://intuitionlabs.ai/articles/generative-ai-gxp-validation-part-11
[5] https://www.ey.com/en_ch/insights/life-sciences/gxp-and-ai-tools-compliance-validation-and-trust-in-pharma
[6] https://www.pwc.com/us/en/industries/health-industries/library/computer-system-validation.html
[7] https://ispe.org/news/ispe-announces-availability-ispe-gampr-guide-artificial-intelligence
[8] https://www.scribd.com/document/945601934/Gamp-Guide-Ai-Toc
[9] https://ardigen.com/transforming-clinical-trial-reporting-a-scalable-and-compliant-data-platform/
[10] https://www.overview.ai/industries/pharma-medical/
[11] https://pmc.ncbi.nlm.nih.gov/articles/PMC7892696/

GxP

This post is licensed under CC BY 4.0 by the author.