ISPE《GAMP AI Guide》:在 GxP 体系里验证 AI 系统
解读 ISPE GAMP AI Guide 的范围与关键概念,梳理 GxP 语境下 AI 验证的核心动作链、风险为本方法与数据/模型治理要求。
执行摘要
ISPE 于 2025 年 7 月发布《GAMP® Guide: Artificial Intelligence》(下称 GAMP AI Guide)。它填补的缺口很具体:当 AI/ML 进入 GxP 流程,验证对象不再只是“软件功能”,还包含数据集、训练过程、模型版本与运行监测。指南给出一套风险为本框架,用于开发、实施与监督 AI 赋能系统,使患者安全、产品质量与数据完整性保持在可审计的控制面内。
这份指南沿用 GAMP 5 的主线,也延展了数据完整性与质量风险管理(ICH Q9)的要求。它把 AI 的典型失控点拆成工程对象:数据偏倚会污染模型结论,模型漂移会削弱长期性能,供应商更新会引入不可见变更。相应地,它把验证动作从一次性测试扩展为生命周期机制:先定义使用情境(COU)并分级风险;再把训练数据、测试数据、提示词与输出当作受控记录;再用性能阈值与错误容限定义验收;再用模型特定测试证明达标;再用变更控制与持续监测守住长期可控;对外购 AI 服务,则以与关键供应商同等标准完成评估与质量协议。
在监管语境下,结论并不暧昧:AI 输出无论是数据、建议还是自动化动作,只要进入 GxP 决策链,就必须可追溯、可复现、可审计。Part 11、Annex 11 与 ALCOA+ 的要求不会因为 AI 新颖而变软;CSA 只是在提醒把验证投入按风险分配,而不是用文档堆叠替代控制。
引言
制药与生命科学行业正在把 AI 推进到更多关键流程里,从研发到制造,再到质量体系。行业里常见的现象是“试点能跑,落地难扩”。原因不神秘:AI 把可变因素带进了受监管链路,而传统验证习惯把可变因素当成异常。
规则型计算机化系统靠“逻辑固定”换取可重复。需求冻结后,系统通过 IQ/OQ/PQ 或同类活动证明按预期运行,之后在受控变更下重复产出。AI 系统不靠这条路。模型从数据中学习,输出通常呈现分布而不是单点结果;输入的微小扰动可能放大到输出差异;数据分布变化会触发性能漂移;模型更新又常常通过流水线完成。把这种系统强行套进以文档为中心的 CSV 叙事,会出现两种后果:要么验证证据跟不上变化,要么文档成本与风险不匹配。
监管基调正在把注意力从“写了多少材料”移回“控制是否有效”。这也是 GAMP AI Guide 出现的背景:它试图把 AI 的变动性拆成可治理对象,并把治理写成可执行的生命周期动作。
在美国,21 CFR Part 11 把电子记录与电子签名的可信性、可归属与可审计性写成硬约束。欧盟 Annex 11 则把计算机化系统验证、访问控制、审计追踪与数据完整性写进 GMP 语境。两套规则都不是为 AI 写的,但它们判断合规的方式一致:只要系统参与形成受监管记录,就必须能解释“谁在何时用哪个版本做了什么”,并且能让审计人员复盘决策链路。
与此同时,FDA 用 CSA 重新定义了“验证投入的分配方式”。验证不再以文档厚度作为替代指标,而是按风险把证据做在测试与过程控制上。ICH Q9 的质量风险管理给出同一条主线:风险评估必须对齐患者安全与产品质量。EMA 的反思文件反复强调透明性与人工监督,也在把 AI 拉回到既有法规框架之内。
ISO/IEC 42001 把 AI 管理体系做成可认证框架,欧盟 AI Act 把风险分级写成法律义务。它们共同释放一个信号:AI 治理会越来越像质量体系的一部分,而不是 IT 团队的私事。GAMP AI Guide 则把这个信号落回 GxP 现实:如何在现有法规下,让 AI 系统拿出可检查的证据,并在变更与漂移中保持受控。
GAMP AI Guide:范围、制定过程与核心概念
范围与制定过程
GAMP 系列长期承担“把监管目标翻译成工程动作”的角色。GAMP AI Guide 延续这条路线:它不是新法规,而是一份面向 GxP 的 AI 最佳实践框架。指南由 ISPE 社群牵头,组织行业与学术专家共同编制,吸收早期采用者的实战经验,专门回应一个反复出现的问题:当系统的核心行为来自数据与模型,而不是固定逻辑时,验证证据应该怎么做,怎么维护,怎么接受审计。
在方法上,指南没有推翻 GAMP 5,而是把 GAMP 5 的风险为本原则与 V 模型思路扩展到 AI:把数据、模型、训练与再训练、持续监测纳入生命周期受控范围。它也把数据完整性指南中的关键要求带入 AI 语境,并参考 ISO/IEC 42001 等新标准,强调治理必须可落地、可检查、可持续。
关键主题与核心概念
这份指南的核心信息可以压缩成一句话:验证必须围绕预期用途与风险,持续证明系统在变化中仍然可控。为了做到这一点,指南把工作重心从“系统功能清单”转向“控制面设计”,并把控制面拆成几个可落笔的对象。
第一类对象是风险。风险不靠抽象分级,而靠 COU 把系统嵌入流程:系统做什么、谁使用输出、输出影响哪一个质量决策点。随后风险评估把失败模式映射到患者安全、产品质量与数据完整性。
第二类对象是生命周期。系统从概念到退役都要留下证据,但证据重点会随风险强度而变化。高风险用例必须承受更严格审查,低风险用例可以采用更精简的控制与证据。
第三类对象是角色与责任。AI 项目会引入数据科学与工程角色,但质量责任不会外包给技术岗位。指南强调需要明确的数据责任人、模型责任人与质量单位的签批机制,并通过培训与知识管理补齐能力缺口。
第四类对象是数据与模型治理。数据必须可追溯、可版本化、可证明适用性;模型必须可复现、可版本化、可监测漂移;变更必须可评估影响并触发再验证。为支撑这些动作,指南提供了更细的附录,覆盖数据质量、模型测试、持续监测与 CAPA、网络安全以及基础设施资格确认等主题。
最后,指南把自己定位为“衔接器”:它不取代 Part 11、Annex 11、ALCOA+ 等规则,而是解释在 AI 语境下如何满足这些规则,并把合规要求落回到工程证据结构上。
药品质量规范总称(GxP)中 AI 的法规与标准格局
现行药品质量规范总称(GxP)法规与指南
在 GxP 里谈 AI,第一条结论很“无聊”但最重要:AI 不会带来豁免。系统只要参与形成受监管记录或影响受监管决策,就必须满足既有的验证、数据完整性与安全控制要求。变化不在于规则本身,而在于合规证据的载体从“静态软件”扩展到“数据与模型”。
在美国,21 CFR Part 11 把电子记录与电子签名的要求写成审计底线。AI 产出的数据、报告、建议一旦进入 GxP 流程,就会被当作记录对待;提示词、模型版本、再训练事件也会被追问。真正的落地动作是把 Part 11 的控制面延伸到 AI 资产:身份与权限、审计追踪、时间戳、记录留存与防篡改。
在欧盟,Annex 11 把计算机化系统验证、变更控制与安全要求固化为 GMP 语境的基本动作。它成文时没有把云与先进 AI 写进去,但原则仍然适用:系统必须证明按预期运行,变更必须受控,记录必须可追溯。未来 Annex 22(面向 AI/ML)的细化方向只会强化这类控制,而不是替代它。
在方法论层面,CSA 与 ICH Q9 把验证从“材料工程”拉回“风险工程”。验证投入需要对齐系统关键性,风险评估需要对齐患者安全与产品质量。对 AI 来说,这意味着不能用“系统很复杂”作为文档膨胀的理由,而要用 COU 把风险边界画清,再把证据做在高风险点的测试与运行控制上。
数据完整性(ALCOA+)是贯穿全链路的硬约束。对 AI 系统而言,输入数据、训练数据、数据转换、模型参数、提示词与输出都需要进入可追溯体系,才能回答“这个结果从哪里来、怎么变出来、谁批准过”。此外,ISO/IEC 17025、ISO 13485 等质量体系标准,以及欧盟 AI Act 这类风险分级法规,正在把“治理”这一层要求推向更明确的检查预期。
对 AI 验证的监管期望
监管机构不会因为“AI 很新”就改变审计逻辑。相反,AI 的新颖性会让检查员更主动地追问控制面是否闭合。追问通常围绕几个固定问题展开:系统在流程里承担什么角色,失败会影响什么质量决策点;数据从哪里来、怎么处理、怎么分区、怎么留存;模型性能用什么阈值验收,边界条件怎么覆盖;运行中如何记录交互与版本;模型与数据的变更如何触发影响评估与再验证;外购供应商提供什么证据、变更如何通知。
下表把常见标准与 AI 验证关注点对齐,便于把法规语言映射到工程证据结构。
表 1:关键标准与 AI 验证关注点
| 法规/标准 | AI 场景下的关注点 | 备注 |
|---|---|---|
| FDA 21 CFR Part 11 | 电子记录与电子签名的可信、可归属、可审计;将提示词、输出、模型版本与再训练事件纳入审计追踪与留存 | 适用于 AI 参与形成受监管记录的场景 |
| FDA 计算机软件保证(CSA) | 按风险调整验证强度;把证据放在测试与过程控制上,避免以文档数量替代控制 | 与 AI 的快速迭代节奏更匹配 |
| EU GMP Annex 11 | 计算机化系统验证、变更控制、访问控制、审计追踪与数据完整性 | 在专门 AI 附录落地前,原则仍然适用 |
| EU Annex 22(拟议) | 针对 GMP 中 AI/ML 的专门控制要求(方向性) | 仍处草案阶段,体现监管关注上升 |
| ICH Q9 | 风险评估对齐患者安全与产品质量;风险驱动控制与验证活动 | 是风险为本验证的共同底座 |
| 数据完整性(ALCOA+) | 输入、训练、转换、提示词与输出均纳入可追溯与留存;证明结果可复盘 | 会把“数据谱系”推到核心位置 |
| EU AI Act(拟议) | 按风险分级施加透明性、文档与监督义务;强调偏倚与性能约束 | 非 GxP 专属,但会影响治理预期 |
| ISO 13485 / IEC 82304 | 医疗器械与医疗软件的质量体系、验证与风险管理 | 器械相关 AI 的适用性更强 |
这些总体要求,共同催生了对全新验证框架的迫切需求。接下来的章节将探讨 ISPE GAMP AI Guide 及相关思路如何回应这些需求。
验证 AI 赋能的计算机化系统所面临的挑战
AI 验证之所以更难,不是因为“AI 更强”,而是因为它把不确定性带进了受监管流程。传统验证擅长证明“固定逻辑按固定路径运行”,AI 验证需要证明“系统在变化中仍然可控”。
首先是可解释性问题。很多模型很难像规则系统那样输出清晰的决策路径,验证证据因此从“覆盖代码路径”转向“覆盖输入空间与场景空间”。一旦出现偏差,根因分析会更依赖数据与模型工件,而不是单纯的源代码回溯。
其次是非确定性输出。生成式模型尤其明显:同一问题可能给出多种等价表达。GxP 的要求不是逐字一致,而是在受控输入、受控版本与受控配置下,输出落入预先定义的可接受范围,并且偏差可定位、可复盘。没有阈值与错误容限,就没有可审计的“通过/不通过”。
第三是偏倚与数据漂移。训练数据带来的偏差会被模型放大,部署后的数据分布变化会拖累性能。漂移不是偶发事件,它更像系统属性;属性要么被监测并触发治理,要么在生产现场爆成偏差与 CAPA。
第四是数据管道与工具链复杂度。AI 系统往往由数据采集、清洗、特征工程、训练、评估、部署、监测等环节组成。每个环节都在产出工件,也在引入变更点。验证如果只盯应用界面,就等于只审计冰山尖。
最后是能力结构问题。质量团队如果不理解数据、模型与漂移,只能把控制写在纸上;工程团队如果不理解 Part 11、Annex 11 与 ALCOA+,就容易把风险留在系统里。指南把知识管理与培训写进框架,本质是在缓释组织能力带来的系统性风险。
药品质量规范总称(GxP)中 AI 验证的关键动作
GAMP AI Guide 并不把验证写成材料清单,它把验证写成动作链。动作链的顺序很重要:先定边界,再控输入,再证输出,最后控变化。下面按这个顺序展开。
1) 用 COU 定边界,用风险定强度
验证先回答“系统在流程里做什么”。COU 需要把输入、输出、使用者、决策点写清楚,并把失败模式映射到患者安全、产品质量与数据完整性。验证强度由这一步决定:越接近放行、处方、关键质量决策的用例,越需要更强的证据与更严的运行控制。
2) 把数据当作关键物料管理
在 AI 系统里,数据质量决定模型上限。训练集、验证集、测试集与推理输入必须有清晰溯源与版本管理;数据转换、清洗、增强必须可追溯、可复盘;分区策略必须固定并受控,避免训练/测试泄漏污染证据。对生成式系统,提示词模板与检索语料同样属于受控输入。
3) 用性能阈值定义“可接受失败”
AI 输出是概率性的,验收标准必须先于测试出现。阈值可以是准确率、召回率、特异性、误差上限或偏倚容忍度,但必须对齐风险:高风险场景更关注漏报与系统性偏差,低风险场景可以容忍更高的误报。没有阈值,验证就会退化成事后解释。
4) 用场景覆盖替代“路径覆盖”
AI 测试的核心不是跑通功能,而是覆盖输入空间与场景空间。典型的测试结构包含鲁棒性(噪声与异常输入)、偏倚(子人群与边界条件)、对抗/压力(敏感性与脆弱点)与端到端(把模型放进实际工作流验证闭环)。测试数据集本身也要受控并版本化。
5) 让训练与版本变成可复现记录
训练不是研发过程里的“黑箱”,它是验证证据的一部分。每次训练与评估需要记录代码版本、参数、环境与数据版本,使结果可复现。模型重新训练时需要生成新版本,并通过影响评估决定再验证范围。
6) 把 Part 11/Annex 11 的控制面落到系统里
访问控制、审计追踪、备份恢复与职责分离并不过时,它们只是需要覆盖新的资产:数据集、模型、配置与提示词。关键不在“有日志”,而在“日志能对上版本、能复盘每一次决策形成过程”。
7) 用变更控制与持续监测把验证延伸到运行期
AI 的变化是常态。再训练、数据源变化、漂移超阈、算法替换、基础设施变更都需要触发影响评估,并按影响决定部分或全面再验证。持续监测需要把性能指标、漂移告警、偏差处理与 CAPA 串成闭环。
8) 把供应商纳入质量体系,而不是采购流程
外购 AI 工具不会转移责任。受监管企业需要评估供应商的质量体系、数据来源与更新策略,并通过质量协议锁定变更通知、版本透明度与证据交付。供应商能提供的验证材料越少,使用方就需要补的控制越多。
表 2:面向 GxP 的 AI 风险为本验证动作链
| 步骤 | 动作 | 关键产物(示例) |
|---|---|---|
| 1 | 定义 COU 并分级风险 | COU 描述、风险评估、验证策略分级 |
| 2 | 数据治理与数据完整性 | 数据谱系、数据版本、转换记录、分区与留存策略 |
| 3 | 性能阈值与验收标准 | URS/验收标准、错误容限与偏差处理规则 |
| 4 | 验证测试 | 测试计划、受控测试集、结果与偏差记录 |
| 5 | 模型训练与版本治理 | 训练记录、模型卡/版本记录、可复现性证据 |
| 6 | 运行期控制 | 访问控制、审计追踪、备份恢复、职责分离 |
| 7 | 变更控制与持续监测 | 再验证触发条件、漂移监测、告警与 CAPA 机制 |
| 8 | 供应商治理 | 供应商评估、质量协议、变更通知与证据交付 |
这条动作链把传统计算机化系统验证的骨架保留住,同时把 AI 的新变量(数据、模型、漂移、供应链)纳入同一条可审计链路。下一节用案例展示这些动作如何在不同用例中出现。
案例研究与示例
AI 在完全受监管的生产环境里仍属新生事物,但一些落地案例已经把控制面暴露得足够清楚。案例的价值不在“讲故事”,而在“让审计问题有答案”。
生成式 AI 辅助验证材料生产(PwC 示例)
生成式模型最稳妥的落点通常不是“直接签批的记录”,而是“受控的草稿产物”。在 PwC 的公开案例中,团队用基于 GPT 的能力生成验证脚本基线,随后由人工补齐导航路径与数据逻辑,并在 SME 审阅后进入受控文档流。公开报告提到测试开发时间缩短约 40%。这里的关键不是速度,而是责任分层:模型生成的是草稿,签批与使用前审阅才是记录形成动作。
临床数据平台支撑 AI/ML 分析(Ardigen 示例)
临床数据场景更容易暴露“证据链的本体”:不是模型,而是数据平台。示例方案把数据湖作为单一事实来源,使用严格访问控制与自动化处理流水线,把每一次转换记录为可审计事件,并在云基础设施上满足 Part 11 等合规约束。系统把“数据怎么来、怎么变、怎么用”固定成机制后,模型训练与报告生成才有了可复盘的底座。
质量体系(QMS)中的趋势分析与预警
把 AI 放进 CAPA、偏差或审计发现的分析流程时,风险常常被低估,因为输出看起来像“建议”。但建议会改变优先级与资源分配,进而影响质量决策链。更稳妥的落地方式是先把 COU 写清,把输出定位为决策支持,并把可解释性与人工复核嵌进流程;随后再用历史数据对照验证算法表现,确保输出可被质量人员复盘。
产线视觉检测(QC)用例
视觉检测往往直接影响放行与报废,是典型高风险用例。较常见的验证路径是并行对照:让 AI 与人工检验共同运行多个批次,用统计方法评估灵敏度、特异性与误差分布,再把阈值写进验收标准。上线后还需要把漂移监测与再训练治理做成触发机制,一旦产品外观、环境条件或设备参数变化,就进入影响评估与再验证流程。
药物警戒(Pharmacovigilance)中的辅助处理
药物警戒场景把“静态模型”和“动态模型”的差异放大了。静态模型可以通过版本冻结、回放已知病例集、维护版本记录来形成证据;持续学习模型则必须依赖持续监测、再训练治理与更强的审计追踪,才能避免模型在不知不觉中偏离已验证状态。
这些案例共同指向同一条规律:效率提升来自自动化,合规成立来自控制面。数据底座、阈值与测试、人工监督、持续监测与变更控制缺一不可。
影响与未来方向
GAMP AI Guide 带来的变化不在于“多了一本指南”,而在于验证与运行的工作重心发生了迁移:从一次性交付迁移到持续受控,从材料导向迁移到风险导向,从功能清单迁移到控制面设计。
验证方法会向 CSA 收敛
验证会继续摆脱“厚重 CSV”的惯性,更多采用 CSA 的风险证据策略:把验证强度压到高风险点,把证据放在自动化测试、过程控制与可复盘记录上。AI 本身也会被用于生成测试场景、扩大输入覆盖,但这些测试产物必须同样受控,否则等同于把不确定性从系统转移到证据里。
角色与能力会重组
AI 让质量与验证岗位的边界向数据与模型侧延伸。数据科学家与工程师需要理解 Part 11、Annex 11 与 ALCOA+ 的约束;质量团队需要理解数据分区、漂移与模型评估的基本逻辑。所谓“AI 素养”最终会变成质量体系的能力要求,而不是培训口号。
运行期治理会吞掉更多工作量
成熟组织会把 MLOps 纳入质量体系,把监测仪表板作为审计证据的一部分:性能趋势、漂移告警、偏差处理、CAPA 与版本变更在同一条链路上闭合。上线不再是终点,而是运行机制开始发挥作用的起点。
标准与法规会继续补细节
Annex 体系、FDA 对 AI 可信度的讨论、ISO/IEC 42001 等管理体系标准,会逐步把“治理”写得更明确。组织需要持续跟踪这些口径变化,并把数据隐私与访问控制纳入同一套治理框架,避免出现“模型合规、数据不合规”的割裂。
“可信”会从口号变成检查项
偏倚、可解释性与人工监督会越来越像质量风险的一部分,尤其在临床敏感用例中。治理结构上,组织会更频繁地把审查委员会与技术治理机制结合起来,用来处理“可用但不应当用”的边界问题。
总体来看,监管方要看到的不是“公司用了 AI”,而是“公司能控制 AI”。
结论
GAMP AI Guide 的价值不在于“给了更多术语”,而在于它把 AI 系统重新锚定在 GxP 的基本目标上:患者安全、产品质量与数据完整性。它把 AI 的变动性拆成可治理对象,把治理写成动作链,并要求组织把动作链做成可审计机制。
当 COU 清晰、风险分级落地,验证就有了边界;当数据与模型纳入受控,证据链就能闭合;当监测与变更控制形成闭环,系统就能在漂移与更新中维持已验证状态。组织需要付出的不是“多写文档”,而是把控制面做实,并把控制做成可持续运行的纪律。
外部来源
[1] https://ispe.org/publications/guidance-documents/gamp-guide-artificial-intelligence
[2] https://ispe.org/pharmaceutical-engineering/september-october-2025/new-gampr-guide-addresses-challenges-posed-ai
[3] https://www.bioprocessonline.com/doc/trust-but-verify-validating-ai-in-pharma-s-gxp-world-0001
[4] https://intuitionlabs.ai/articles/generative-ai-gxp-validation-part-11
[5] https://www.ey.com/en_ch/insights/life-sciences/gxp-and-ai-tools-compliance-validation-and-trust-in-pharma
[6] https://www.pwc.com/us/en/industries/health-industries/library/computer-system-validation.html
[7] https://ispe.org/news/ispe-announces-availability-ispe-gampr-guide-artificial-intelligence
[8] https://www.scribd.com/document/945601934/Gamp-Guide-Ai-Toc
[9] https://ardigen.com/transforming-clinical-trial-reporting-a-scalable-and-compliant-data-platform/
[10] https://www.overview.ai/industries/pharma-medical/
[11] https://pmc.ncbi.nlm.nih.gov/articles/PMC7892696/