GxP 场景的 AI/ML 验证：用 GAMP 5 建一条风险为本的闭环

将 GAMP 5 的风险为本理念落地到 AI/ML：从 COU 与指标设定、数据治理、验证测试到运行期监测与再训练闭环。

Posted Feb 2, 2026

By Alden Wang

views 24 min read

执行摘要

AI/ML 进入 GxP，并不会改写监管目标。它只改变达标路径。

传统 CSV 把系统当作“静态、确定、可枚举”的软件。测试脚本对照预期输出，跑完即冻结。AI/ML 走另一套机制：模型从数据里拟合规则，输出带概率，性能随数据分布漂移。系统一旦吸收新数据，就会把“变更”写进自身。

因此，验证必须换焦点。验证不再盯“每条分支是否覆盖”，而是盯三件事：

第一，定义预期用途，并把风险贴到用途上。安全关键用途需要强控制，低影响用途允许轻量证据。

第二，把数据当作受监管工件。训练集、标签、特征转换、提示词与输出日志，都要满足 ALCOA+。没有可追溯的数据谱系，就没有可审计的模型结论。

第三，把验证做成闭环。上线不是结束，监测才开始。漂移检测触发评审；再训练走变更控制；性能指标回到验收标准。

GAMP 5 第二版（2022）已经把 AI/ML 纳入框架，并通过 Appendix D11 把“数据与模型”拉进生命周期。FDA 的 CSA（2025）进一步把验证从“文档堆叠”推向“风险为本的保证”。欧盟侧 Annex 11 与 Part 11 仍然直接适用，AI Act 及拟议的 AI 相关附录将把高风险系统的文件化与审计要求推得更硬。

本文把这些要求收敛成一条工程化路径：从风险画像出发，穿过数据治理与模型开发，落到发布与持续监测，并把 CAPA、变更控制、供应商管理、培训纳入同一套质量体系。

引言：AI 把“验证对象”换了

GxP 系统过去验证的是软件行为。AI/ML 系统需要验证“软件 + 数据 + 模型 + 运行环境”的组合行为。

举一个最容易踩坑的场景：用视觉模型做片剂缺陷检测。规则引擎可以把阈值写进规格，再用样本逐条对照。ML 模型则先吞下成千上万张图，才“学出”缺陷边界。此时，验证无法靠“预期输出清单”收口，只能靠统计指标与失效模式分析收口。工厂引入新片剂、新包材、新光照条件，数据分布随即改变，模型性能必然波动。再训练就变成常态动作，变更控制也就变成常态流程。

AI 的麻烦不在“黑箱”三个字，而在“可复现”和“可解释”的证据链。监管并不要求每个权重都能讲清楚，但会追问三类问题：

系统为何作出某次决策，证据在哪里；系统在什么边界内可靠，边界如何画出；系统发生漂移时如何被发现，如何被纠正。

法规与标准：旧法不松口，新规只加码

Part 11 与 Annex 11：记录与可追溯性不因 AI 变软

在 Part 11 与 EU GMP Annex 11 的视角里，AI 的输入与输出都属于电子记录的一部分。提示词、训练数据、模型版本、推理结果、人工复核意见，只要参与质量决策，就必须进入审计追踪。系统必须固化身份认证、权限控制、时间戳、日志不可篡改等控制点。

Annex 11 还会把“持续按预期运行”的要求落到变更控制上。模型再训练不是研究动作，它是对计算机化系统的一次变更。变更没有审批与影响评估，就等于把不受控变量塞进 GMP。

ICH Q9：把 AI 特有危害写进风险评估

ICH Q9 关心的是质量风险。AI/ML 额外引入四类常见危害：偏倚、漂移、不可解释导致的不可控、以及数据完整性失真。风险评估需要把这些危害与具体后果绑定，而不是停留在“AI 有风险”的抽象句子。

GAMP 5（含 Appendix D11）：把模型生命周期纳入系统生命周期

GAMP 5 的核心仍然是“适用于预期用途”。Appendix D11 把 AI/ML 的关键动作明确出来：定义性能指标、制定训练与验证策略、建立持续监测与再训练治理。它的信号很直接：数据与模型不再是项目附件，它们是受控配置项。

FDA CSA（2025）：把验证从“穷尽测试”推向“风险保证”

CSA 把验证工作量与患者/产品风险直接绑定。高风险功能必须有强证据，低风险功能可以用更轻的方式证明合理性。对 AI/ML 来说，这种方向更贴近现实：与其把每个细节写成脚本，不如把关键证据写进自动化流水线，并保证证据可审计、可复现。

欧盟 AI Act 与拟议 AI 相关附录：高风险系统需要更硬的文档化

AI Act 把部分工业与健康相关场景定义为高风险，要求系统建立风险管理、数据治理、透明性与监督机制，并接受合规评估。这会把“技术文件”从加分项变成门槛项。GxP 企业需要提前把验证文档与技术文件对齐，而不是等法律生效再补写。

关键差异：传统系统验证 vs AI/ML 验证

传统系统把“代码”当主角。AI/ML 把“数据与指标”推到台前。

第一，验收从“对照预期输出”变成“对照指标阈值”。准确率、召回率、假阴性率、均方误差等指标成为验收门槛。指标必须在 URS 层面先定下来，后续才有可追溯的验收逻辑。

第二，版本管理从“代码与配置”扩展到“数据快照与模型产物”。没有训练数据快照，就无法复现模型；无法复现，就无法审计。

第三，运行期从“稳定运行”变成“持续监测”。漂移是常态，不是事故。系统需要把漂移检测做成日常机制，并把触发条件写进 SOP。

下面这张对照表只保留工程上需要的差别点。

维度	传统 GxP 系统	AI/ML 系统
验收对象	功能符合规格；输出可枚举	指标达标；失效模式可解释；边界清晰
核心工件	代码、配置、测试脚本	代码 + 数据快照 + 模型版本 + 指标报告 + 推理日志
变更触发	代码/配置变更	代码/配置变更 + 数据分布变化 + 再训练
运行控制	周期性评审	持续监测、漂移检测、阈值触发评审与再训练

风险为本验证生命周期：把“训练”与“上线”写进同一套质量体系

1）锁定预期用途，画出风险画像

先定义系统在流程里“做什么动作”。再定义动作失败会造成什么后果。缺陷检测漏检会放行不合格品，风险直接落在患者与产品质量上；库存预测误差可能只影响效率，风险落在运营。

风险画像确定验证强度。高风险用途需要更严的证据链、更强的监控与更硬的人工复核机制。低风险用途可以用较少的证据，但仍需保持可追溯与可审计。

2）把性能指标写成需求，把阈值写成验收

需求必须可测量。分类任务写清准确率、召回率、假阴性上限；回归任务写清误差上限与置信区间；生成式内容工具写清事实性校验方式与人工复核责任边界。

指标先行可以避免一件常见事故：模型上线后才发现“好坏标准”从未定义，验证只能靠口头共识收场。

3）把数据策略固化为受控流程

数据策略需要回答四个问题：

数据从哪里来；数据代表了什么业务边界；数据如何被清洗、标注、转换；数据如何被切分并隔离。

训练集、验证集、测试集必须彼此隔离。测试集在最终验收前必须保持只读。切分过程需要记录随机种子或规则，以保证可复现。所有转换脚本进入版本控制；所有数据快照进入留存策略；访问权限按最小授权配置。

4）迭代开发模型，但不允许迭代丢证据

模型开发允许迭代。证据链不允许断裂。

每次训练都需要记录：代码版本、参数、数据版本、训练环境、输出指标与日志。解释性分析也必须同时产出，例如特征重要性、局部解释或对关键失效样本的复盘结论。解释性不是“讲故事”，它服务于两件事：发现错误相关性，给出可审计的边界说明。

5）用测试集验证指标，用失效模式验证边界

指标达标只解决“平均意义上的好”。GxP 需要再问一次：系统在哪些场景会坏。

因此，验证必须把失效样本拉出来复盘，并把复盘结论写成控制措施。比如某类包材反光导致误判，就需要加采样、改光照、补训练数据，或加人工复核门槛。

6）发布时冻结版本，运行时记录推理

发布需要冻结：模型版本、数据快照、代码版本、运行环境配置、验收报告。冻结的目的不是阻止变更，而是为每次变更提供清晰的基线。

运行时必须记录：输入数据摘要、模型版本、输出结果、人工复核与处置记录。记录要满足 Part 11/Annex 11 的审计追踪要求。

7）持续监测，把漂移变成可控信号

持续监测需要两类指标：性能指标与数据分布指标。前者回答“模型还准不准”，后者回答“输入变没变”。

漂移检测触发评审。评审触发再训练或回退。再训练走变更控制，重新执行关键验证步骤，并形成新的受控版本。这里的关键不是“是否再训练”，而是“再训练是否受控、是否可复现、是否可审计”。

8）把 CAPA、变更控制、供应商管理、培训串起来

模型事故需要调查，调查需要证据。证据来自日志、数据谱系、版本记录。CAPA 需要把根因落到数据、流程或模型逻辑上，并把改进动作固化为制度与技术控制点。

供应商提供的模型与平台也要纳入资格确认与审计。培训需要让数据团队理解 GxP，让质量团队理解模型指标与漂移机制。

数据完整性：把数据当作“受控原料”

ALCOA+ 在 AI/ML 场景下不再是口号，它直接决定模型是否可验证。

数据完整性首先要求可追溯。每条关键数据需要明确来源、采集人或系统、采集时间、转换过程与存储位置。日志需要不可篡改或具备篡改检测机制。

数据完整性其次要求可复现。训练数据快照必须可恢复。特征工程与清洗脚本必须可重跑。训练环境需要记录关键依赖与运行参数。没有复现能力，就无法回答“为什么这次模型变了”。

数据完整性最后要求可用。审计时需要快速拿出证据链。证据链通常落在三类系统里：数据平台的谱系与权限记录、模型平台的实验与版本记录、业务系统的审计追踪与签批记录。

案例：价值来自闭环，不来自模型本身

数字孪生：把虚拟输出与真实过程对齐

数字孪生把工艺状态映射成可计算模型，再用实时数据驱动仿真与优化。验证的关键动作是对齐：把孪生体输出与实验室或过程测量对照，并把偏差控制在可接受范围内。对齐失败时，孪生体就不能进入决策链路，只能停留在研究或辅助层。

纯化水预测：用历史记录构建前置预警

水质预测项目的核心不是算法，而是记录系统的对齐。传感器日志与实验室结果需要先完成时间戳与样本窗口的映射，模型训练才有意义。验证则围绕“提前预警是否可靠”展开：用留出的测试期数据检验假警率与漏警率，并把处置流程写进监控与复核机制。

质量体系工具：把文本自动化，但不削弱审计性

NLP 工具可以加速文件审阅、趋势分析与 CAPA 归类。这里的验证逻辑与制造控制不同，但底线一致：输出必须可追溯，人工签批责任必须清晰。系统需要保存模型版本与输入文本摘要，并记录人工复核的决策与理由。

生成式工具：把“内容生成”降级为“草稿生成”

在受监管文档场景里，生成式模型不应直接产出可用结论。它可以产出草稿，但必须绑定三项控制：提示词与输出日志进入审计追踪；事实与引用需要校验；最终内容由具资质人员签批。系统把“生成”限制在可控边界内，合规才能成立。

现实挑战：四个问题不解决，验证只会变成形式主义

第一，可解释性不足会让控制点失效。解决办法不是强行解释权重，而是把失效模式、边界条件与人工复核机制写成控制策略，并用解释性工具辅助发现错误相关性。

第二，数据偏倚会把风险藏进统计平均值。解决办法是扩充覆盖面、做分层评估、把偏倚阈值写成验收标准，并在运行期持续监测分层指标。

第三，资源成本会把验证拖成慢项目。解决办法是把证据链自动化：用流水线自动记录训练与测试证据，用平台自动沉淀日志与版本，而不是靠手工补文档。

第四，漂移会让一次性验证失效。解决办法是把监测、阈值、再训练与回退写成闭环，并把闭环纳入变更控制与 CAPA。

未来方向：监管会更偏向“持续保证”，而不是“纸面完结”

监管趋势已经明显：检查员更愿意看到持续风险管理的证据，而不是一堆静态档案。AI/ML 会把这种趋势推得更快。

技术侧会继续自动化训练与部署，验证也会被迫自动化。组织需要提前建设“可审计的流水线”，把训练、测试、发布与监测统一纳入质量体系，并把证据链设计成系统输出，而不是事后手写。

结论：AI/ML 验证不是新增流程，它是质量体系的延伸

GxP 的底线没有变：系统必须适用于预期用途，必须保护患者与产品质量，必须保证数据完整性。

AI/ML 把验证对象从“静态软件”扩展为“数据驱动系统”。验证若继续沿用旧模板，就会在数据与模型这两个关键部位失控。把风险画像、数据治理、版本冻结、运行监测、再训练变更控制串成闭环，验证才会落地。

外部来源

https://www.mckinsey.com/industries/life-sciences/our-insights/generative-ai-in-the-pharmaceutical-industry-moving-from-hype-to-r
https://www.scribd.com/document/850790152/PE-SeptOct23-CompleteIssue-v2-LR-1
https://www.hoganlovells.com/en/publications/fda-finalizes-computer-software-assurance-guidance-for-production-and-quality-syst
https://academic.oup.com/bjr/article/96/1150/20220878/7499000
https://www.ey.com/en_ch/insights/life-sciences/gxp-and-ai-tools-compliance-validation-and-trust-in-pharma
https://www.mastercontrol.com/gxp-lifeline/gxp-compliance-approaches-data-infrastructure-ai/
https://www.aizon.ai/blog/gxp-ai-in-action-real-successes-from-pharmas-hidden-gem
https://www.pharmtech.com/view/gsk-pilots-digital-twin-for-vaccine-manufacturing
https://intuitionlabs.ai/articles/gamp-5-ai-validation-gxp
https://www.pharmoutsourcing.com/Featured-Articles/614774-Can-GenAI-Address-the-Soaring-Costs-of-Pharma-Medical-Writing/
https://www.auriacompliance.com/gmp-blog/data-integrity-and-ai-integration-key-considerations-for-compliance-in-gmp-pharmaceu
https://nttdata-solutions.com/es/blog/machine-learning-for-pharmaceuticals-blog-series-part-2/
https://quality.eleapsoftware.com/ai-in-the-pharmaceutical-industry-how-artificial-intelligence-is-transforming-quality-management-s

GxP

This post is licensed under CC BY 4.0 by the author.