制药企业的企业级 AI 治理:GxP 与合规
从 GxP 与合规视角拆解制药企业 AI 治理:风险分级、数据完整性、模型验证、透明性与组织机制,并结合监管趋势与案例给出实施路径。
执行摘要
AI 在制药行业的价值靠动作兑现:它压缩早研试错,优化试验设计,提前暴露生产偏差,细化药物警戒信号。风险也跟着动作扩散:模型把数据吞进去,再把判断吐出来。一旦判断进入受监管流程,审计就会追两条链:这条结论从哪里来;这条结论为什么可信。
企业级 AI 治理要解决的不是“能不能用 AI”,而是“用到哪一步、卡住哪条边界、出了问题谁负责”。做法通常有三层。
第一层,把 AI 纳入既有质量管理体系(GxP),而不是另起炉灶。GAMP 5 的风险为本验证思路可以扩展到 AI/ML 系统。21 CFR Part 11 仍是任何生成受监管记录的软件底线,不会因为模型更“智能”就变松。
第二层,用风险分级把控制强度拉齐。低风险用例可以走轻流程,高风险用例需要更严格的验证、更强的变更控制、更密的运行期监测。AstraZeneca 的实践提供了一个可复用切面:把 AI 风险评估嵌进传统质量流程,用低/中/高风险分层去配置控制,同时沿用熟悉的组织结构推进伦理与变更管理。
第三层,把数据完整性与患者隐私当成不可谈判约束。监管长期强调 ALCOA/ALCOA+:数据要可归属、可读、同步记录、原始、准确,并且完整、持久、可获取。AI 系统必须生成足够的日志与审计追踪,才能让结论回到证据链上。另一方面,HIPAA、GDPR 等隐私法规仍然完全适用,模型训练与推理必须在这些边界内运行。
监管信号在 2023–2025 年间明显加速。FDA 发布了药物开发中 AI/ML 使用的指南草案(2025),用风险为本框架评估申报中模型的可信度,并要求申办方清晰界定每个模型的“使用情境”(context of use)。医疗器械方向,FDA/Health Canada/MHRA 联合发布了面向 ML 医疗器械的透明性原则(2024),强调以人为中心、贯穿全生命周期的信息披露。EMA 在 2023 年发布了 AI 贯穿药品全生命周期的反思文件,并在 2025 年与 FDA 联合提出十项“良好 AI 实践”原则。与此同时,NIST、ISO、OECD、WHO 等标准体系也在推动“可信、可问责、可解释”的共同语言。
本文基于监管文件、行业框架与案例研究,对受监管制药企业的 AI 治理做系统拆解,覆盖数据与隐私、模型开发与验证、风险管理、透明性与可解释性、伦理与偏见、组织与文化、运行期监控与审计,以及生成式 AI 的新边界。文中保留两组关键事实:到 2020 年,约 90% 的大型药企已启动 AI/ML 项目;FDA 自 2016 年以来已审评超过 500 份包含 AI 组件的申报。IBM Watson for Oncology 的失控经历也作为反例出现,用来说明“缺治理”会如何放大错误。
引言与背景
制药行业正在把 AI 推进核心链路。机器学习与生成式 AI 先在研发端加速:AlphaFold2、ESMFold 之类深度学习模型把蛋白结构预测推到可用水平,早研阶段由此缩短试错周期。随后,AI 延伸到临床、生产与上市后:它分析真实世界数据,优化试验设计;它自动化文档流转,减少人工搬运;它识别安全信号,把风险前移;它做分层与预测,把治疗建议拆成更细粒度。
采用速度已经进入规模化阶段。行业统计显示,到 2020 年,约 90% 的大型药企已经启动 AI/ML 项目。行业分析也预计,到 2030 年,仅生成式 AI 就可能为生命科学带来每年数百亿美元的增量价值。大型药企(Merck、Novartis、Roche、AstraZeneca、Pfizer 等)持续加码投入,并通过自建与外部合作并行推进。
风险与监管复杂度也同步上升。制药属于监管最严格的行业之一,GxP 对质量、安全与数据完整性提出强约束。任何涉及患者数据、影响临床决策或进入受监管记录链路的 AI 系统,都必须在 21 CFR Part 210/211、Part 11、ICH 指南以及欧盟与各国相关规范下运行。问题在于,AI 的动态特性会挑战静态合规模型:持续学习会改变行为;黑箱结构会降低可解释性;漂移会在不知不觉中侵蚀性能。缺少治理时,流程会引入无法复盘的决策、隐私泄露或偏见输出,最终触发患者伤害或不合规事件。
数据完整性是制药的地基。监管强调 ALCOA/ALCOA+,要求数据可归属、可读、同步、原始、准确,并且完整、持久、可获取。AI 系统必须把这些要求翻译成可取证的日志与审计追踪。以患者数据训练模型为例,隐私保护要同时落在制度与技术上:权限、脱敏、留存、审计,都不能缺位。确实,AI 也能通过异常检测提升数据完整性,但它同时引入新的网络安全与验证挑战。把 AI 接入 GxP 域,本质上是在质量体系里引入一个动态子系统,必须配套治理层把输出变成可追溯、可验证、可审计的证据。
历史经验提示了一条更稳的路:每当新技术进入制药(计算机化系统、电子记录、生物信息学),行业都会把新能力嵌进既有治理框架,而不是重造一套平行体系。AI 也不例外。GAMP 5 的风险为本验证可以延展到 AI/ML。21 CFR Part 11 仍然是基线,不会因“AI”标签而改变。落到工程层面,需要把偏倚测试、模型监测、漂移处置等 AI 特有控制写进现有结构。
监管环境与指南
监管机构正在把 AI 治理从“建议”推向“要求”。各法域的路径不同,但共同主题相当清晰:按风险分级;强调透明性与可解释性;坚持数据完整性与隐私;要求全生命周期监控;明确问责与人工监督;强化审计就绪。
以美国为例,FDA 长期把 AI 纳入 SaMD 的监管视野。2024 年,FDA 与国际伙伴发布了《Transparency for ML-Enabled Medical Devices: Guiding Principles》,要求制造商用用户中心方式向医护人员与患者讲清用途、性能与局限。药物开发方向,FDA 在 2025 年 1 月发布草案《Considerations for the Use of AI/ML to Support Regulatory Decision-Making for Drugs and Biologics》,提出风险为本框架,用于评估申报中 AI 模型的可信度。草案要求申办方先界定每个模型的“使用情境”,再提交与风险匹配的证据(验证、测试计划)。同时,FDA 明确鼓励尽早沟通:在正式提交前很早就与审评团队对齐 AI 计划。FDA 文件也指出,自 2016 年以来,已有超过 500 份药物与生物制品申报包含 AI 组件,且增速仍在上升,这意味着“把规则说清”已经变成迫切需求。
以欧洲为例,EMA 在 2023 年 7 月发布反思文件草案,讨论 AI/ML 在药品全生命周期中的用例与挑战,并强调人类中心与法律/伦理合规。文件建议:凡是可能影响获益–风险特征的 AI,应尽早纳入资格确认或科学咨询。2025 年 3 月,EMA 与 FDA 联合提出十项“良好 AI 实践”原则,覆盖从发现到药物警戒的阶段,强调风险为本验证、数据质量保证与持续监测。欧盟拟议的 AI Act 也会进一步改变合规成本结构:医疗健康领域大量 AI 可能被归类为“高风险”,需要技术文档、风险管理与符合性评估,甚至引入第三方审核。
以英国为例,MHRA 在 2024 年发布 AI 监管战略,提出安全/安保、透明/可解释、公平/问责、可质疑/救济与公众信任五项原则,并明确医疗目的 AI 将被界定为医疗器械(AIaMD)。其监管措辞强调“风险相称”:高风险用重控制,低风险用轻流程,目标是在不牺牲安全的前提下保持创新速度。
放到全球视角,加拿大与美国在透明性原则上协作更紧。亚洲各法域节奏不同,但趋同方向已经出现:联合声明变多,对话机制变密,标准体系在推动共同语言。企业级治理不能只盯单一国家条款,需要用可迁移的控制模型把差异吸收掉。
表 1 汇总本文涉及的主要框架,便于检索与对照。
表 1:制药与医疗健康领域 AI 治理关键框架(节选)
| 地区/机构 | 框架/指南 | 范围/要点 |
|---|---|---|
| 美国(FDA) | 药物/生物制品 AI/ML 指南草案(2025) | 风险为本评估模型可信度;强调“使用情境”;要求与风险匹配的证据 |
| 美国(FDA/Health Canada/MHRA) | GMLP 指导原则(2021) | 面向 AI/ML 医疗器械的基础原则,强调质量与透明 |
| 美国(FDA/Health Canada/MHRA) | ML 医疗器械透明性原则(2024) | 用“谁/什么/哪里/何时/为何/如何”组织披露信息;强调人类中心与全生命周期沟通 |
| 美国(NIST) | AI 风险管理框架 RMF(2023)+ 生成式 AI 画像(2024) | 自愿性企业风控框架,把公平、可解释、安全等可信属性纳入生命周期 |
| 欧盟(EMA) | AI 贯穿药品全生命周期反思文件(2023 草案) | 讨论用例与挑战;强调人类中心、法律/伦理合规;建议尽早监管互动 |
| 欧盟(EMA/FDA) | 药物开发“良好 AI 实践”十项原则(2025) | 高层原则;覆盖全生命周期;强调风险为本验证、数据质量与持续监测 |
| 欧盟(欧委会) | 拟议 EU AI Act(预计 2026 落地节奏) | 高风险分类;风险管理、技术文档、符合性评估;可能引入第三方审核 |
| 英国(MHRA) | AI 监管战略(2024) | 五项原则;强调风险相称监管与创新并重;明确 AIaMD 边界 |
| 行业(ISPE) | GAMP 5 / Appendix D12(2023 草案) | 用风险为本方法把 CSV 扩展到 AI/ML 生命周期验证 |
| 国际(WHO) | 健康领域 AI 伦理与治理指南(2021) | 公平、隐私、人权等上层伦理框架 |
核心治理领域与实践
企业级 AI 治理不是单点制度,而是一张控制网。它要把数据流、模型流、决策流与责任链压在同一套机制里。下文按关键领域拆解。
1. 数据治理与完整性
数据既是 AI 燃料,也是监管资产。用于训练、推理与监测的数据,需要满足 ALCOA+ 这类完整性要求。AI 一旦进入 GMP 等流程,审计追踪就不能靠事后补写,必须在数据生成与使用时同步记录来源、时间、操作者与变更轨迹。
隐私与安全要压进系统边界。患者健康信息常出现在 EHR 挖掘、受试者招募与药物警戒分析中。治理需要把 HIPAA、GDPR 转换为可执行控制:明确允许使用的数据范围;约束模型运行位置(本地/云端);规范日志与审计追踪的保存方式。生成式 AI 把边界进一步拉宽:即便是“替代数据”(如分子结构)也可能属于商业秘密,政策需要明确公共模型与私有模型的使用边界,并限制受监管数据进入未批准的生成式工具。
质量与血缘决定模型上限。受监管语境里,“垃圾进垃圾出”会直接变成审计风险。治理要把数据血缘做成可核验链路:每个数据集的来源记录、清洗步骤与核验信息都要可追溯。以临床试验数据为例,训练应使用可审计的源数据与标准化数据集,而不是未经核实的拷贝;训练过程本身也应被当作需要资格确认的“过程”。
控制动作通常按顺序展开:先盘点并分级数据资产;再统一执行加密、访问日志与留存规则;然后把训练数据与模型更新纳入变更管理;必要时采用去标识化、合成数据与数据阀门等工具;最后用培训把边界讲到一线能执行。
2. 模型开发、验证与质量保证
AI/ML 系统本质上仍是软件。它需要遵循 SDLC,再叠加训练、评测、漂移管理等 ML 特有环节。验证的核心问题很工程化:模型解决什么问题;在什么使用情境中运行;用什么指标判定“够用”;证据链是否与风险相称。
GAMP 5 提供了可迁移底座:用风险为本方法把验证力度与影响范围对齐。监管侧也开始频繁引用 GMLP。落到工程动作,验证通常要做到四件事:写清使用情境;提前锁定性能指标与验收标准;用留出测试集或前瞻性验证证明准确性、敏感性/特异性等关键指标;把代码、训练日志与模型卡做成可审计文档并做版本管理。
高风险用例需要按“质量属性”对待模型输出。给药剂量建议、生产控制等场景,验证标准应接近新分析方法或新仪器的验证强度。FDA 药物方向草案强调“模型可信度”,对应的去风险动作包括对抗性测试、压力测试、边界案例测试,以及与传统方法的对照。发现缺陷时,需要记录并制定缓解措施。
上线之后仍需监控与再验证。模型会漂移,数据分布会变,场景也会变。治理需要要求跟踪 KPI,并设定触发条件决定再训练或再验证;每一次模型更新都要进入变更控制,保持可追溯性。
3. 风险管理
风险为本方法是治理的骨架。它把“控制强度”从口号变成可执行选择:低风险走轻流程,高风险走重控制。AstraZeneca 的低/中/高分层是一种可复用做法。低风险示例可以是文案格式整理(不触发临床判断);高风险示例可以是预测患者给药剂量的系统。
风险评估应当在用例启动时发生,并拉齐跨职能视角:质量、IT、安全、隐私与业务共同定边界。采购阶段要做尽职调查,查清供应商的数据处理方式、验证证据与责任边界。生成式 AI 场景下,开放式与封闭式模型服务的差异会直接影响数据复用风险,治理需要明确允许类型与检查要求。
开发过程中需要提前拆失效模式。可以用 FMEA 之类方法把偏倚、网络安全、错误输出等危害列出来,再用 ICH Q9(R1) 的质量风险管理框架分析后果并设计缓解:验证、偏倚审计、回退流程、人工复核与事件响应。
4. 透明性与可解释性
透明性不是要求“把模型完全摊开”。它更像证据工程:监管机构需要理解模型如何产生结论;医生与患者需要理解输出边界与局限。FDA 的透明性原则也把“逻辑”和“可解释性”当成透明性的一部分。
深度模型难以完全白盒,但可以用可解释 AI 的替代解释把关键决策讲清,例如特征重要性与基于示例的解释。治理要推动企业投入必要工具(如 SHAP、LIME),并把解释材料纳入审计包。申报材料也需要覆盖模型架构、训练数据特征、已知局限,以及与风险—获益考量相关的信息。
透明性存在边界。完全披露可能碰到知识产权或安全约束。治理需要把折中写成规则:哪些系统允许用;哪些数据允许输入;哪些场景必须人工复核;哪些输出必须留痕。
5. 伦理与偏见
在制药语境里,偏见会以风险形式落地:某一人群被系统性低估,后果可能是误治或漏治。治理需要把偏倚评估变成强制动作:部署前做差异影响测试(按年龄、性别、种族等维度);运行中做漂移监测;把评估结果写进验证报告。
伦理问题也不止偏见。生成式 AI 可能被误用来制造深伪内容或绕开合规边界。治理需要明确:AI 输出是建议而非强制;发生错误时必须有清晰升级路径;对高影响系统应开展算法影响评估,方式可以类比隐私领域的 DPIA。
6. 组织与文化
技术控制解决不了“谁负责”。角色不清本身就是治理风险。企业需要把 AI 风险归属写进职责矩阵:IT、合规与业务部门各自承担什么;质量部门在哪些节点签字放行;事件发生时谁启动应急。
常见做法是设立企业级治理机构或委员会,把 QA、研发、IT、隐私、法规事务与业务负责人放到一个决策面。委员会既能定公司级政策(可接受用例、采购规则、文档标准),也能处理跨部门共性问题(例如模型失效的快速响应)。必要时还会设立专门角色,如 AI Officer 或伦理委员会。
文化与培训决定制度能否落地。分析师、临床人员、质量人员与市场人员会在不同场景触碰 AI。治理需要把“何时质疑输出、何时禁止使用、何时必须复核”讲成可执行动作,否则制度会在一线消失。
7. 运行期验证、监控与审计
上线后的 AI 需要持续监管。技术层面要盯性能漂移与安全漏洞;流程层面要盯是否按 SOP 执行,例如是否跳过强制复核。AstraZeneca 的第三方伦理审计投入约 2000 人时,这个数字提醒了一件事:审计是硬成本,也是审计就绪的必要条件。
可操作做法通常分三段:用监控面板跟踪输入输出与异常;定期重跑验证集或做红队挑战;用清单做内审,把数据治理、文档、伦理签署与变更控制逐项核对。若外部认证与符合性评估即将成为硬要求(例如 EU AI Act),需要提前把审计包做成“随时可取证”的形态。
8. 生成式 AI:新能力带来新边界
生成式 AI 把“能写、能总结、能生成”带进制药场景:它能起草报告,能综述文献,也能提出分子结构假设。它也把“幻觉”带进流程:内容看起来像事实,但可能不成立。治理在这里要先卡工具,再卡数据,再卡输出。
以模型选择为例,开放式与封闭式服务对数据复用风险不同。以数据输入为例,患者数据、专有配方与受控临床试验信息不应进入未批准工具。以输出控制为例,凡是对外或对监管产生影响的生成内容,都需要人工复核与事实核查,并保留提示词与输出留痕,才能在审计里复盘。
治理域对照表(精简版)
表 2:核心治理域、关注点与常见控制动作
| 领域 | 关注点 | 常见控制动作 |
|---|---|---|
| 数据治理 | 分级、访问控制、血缘与质量、ALCOA+、隐私(HIPAA/GDPR) | 数据资产清单与分级;加密与访问日志;去标识化/合成数据;版本与留存;训练数据与模型更新纳入变更管理 |
| 模型开发与验证 | 使用情境、指标与验收、可复现、文档化、GAMP/GMLP 对齐 | 训练与验证计划;留出集/前瞻性验证;模型卡与训练日志;QA 签署门禁;持续监测与再验证触发 |
| 风险管理 | 分层、供应商尽调、失效模式、回退机制 | 用例启动风险评估;风险等级对应控制强度;供应商质量与责任条款;FMEA/ICH Q9(R1);回退与应急流程 |
| 透明性与可解释性 | 监管可理解、用户可理解、证据链 | 模型解释材料;自动化决策日志;可解释性工具;边界与局限说明 |
| 伦理与偏见 | 公平性、差异影响、误用风险、问责链 | 偏倚测试与漂移监测;伦理评审;算法影响评估;举报与升级通道 |
| 组织与文化 | 责任归属、跨职能协作、培训 | 治理委员会;职责矩阵;用例政策与工具白名单;培训与激励;内审纳入 AI 风险 |
| 运行与审计 | 漂移、安全、SOP 执行、审计就绪 | 监控告警;周期性验证;红队演练;内审清单;外部评估准备 |
| 法务与合规 | 法规对齐、合同、申报证据 | 供应商合同审查;法规跟踪;申报材料中对模型证据与边界的清晰描述 |
案例与现实切面
以 AstraZeneca 为例,研发场景可以用“嵌入式治理”跑通:通过自下而上的访谈与征询界定 AI 适用范围与伦理原则;按风险对项目分层;把评估嵌入既有质量流程。用于起草临床报告的 NLP 工具会走中等强度验证并加入人工复核;用于会议摘要的低风险用途则走轻流程。该公司还试点第三方伦理审计,投入约 2000 人时。这个投入换来的不是口号,而是模型卡、影响评估等治理工具能在同一套项目里协同运转。
IBM Watson for Oncology 是反例。调查指出该系统曾给出不安全且错误的癌症治疗建议,原因包括训练数据集过小且带偏倚。医生也报告其建议与标准指南冲突。这里暴露的不是某个算法细节,而是治理缺口:验证不足,临床监督不足。结论很直接:凡是输出会进入临床建议的 AI,都必须按金标准方案做严格验证,并把人工治理机制写进流程。
生成式 AI 的现实切面也很典型。假设某大型药企用内部训练的 LLM 自动生成患者沟通材料,治理评审把它定为中等风险,并要求每一封面向 HCP 的信函在发布前由法规事务专家审阅。这一步不复杂,但它把促销合规与隐私风险挡在发布前。
商业侧也会触发治理。某全球品牌在多个市场推进 AI 内容生成后发现,如果不做统一对齐,各国标准会分裂,品牌表达就会漂移。集中治理团队与统一 SOP 可以把漂移收敛到可控区间。
监管申报侧的变化更直观。审评人员指出,越来越多申报材料包含 AI 派生分析,例如预测哪些患者更可能响应。FDA 2025 草案试图消除的正是这种“证据边界不清”:模型训练与验证怎么写清;模型结论如何影响标签;这些信息如何被审评与复核。
影响与未来方向
治理压力会从“软约束”逐步变成“硬门槛”。欧盟 AI Act 与医疗器械法规更新会推动高风险 AI 的文档化风险管理与符合性评估,甚至引入第三方审核。企业需要提前为认证成本与流程准备资源。
全球趋同会同时制造阻力与机会。不同法域的差异会让全球项目更复杂;但 FDA–EMA 等合作也在推动共同语言与共同底座。企业若参与行业对话,有机会把可操作经验转化为更合理规则。
生成式 AI 的监管会更细。监管关注点正在转向生成内容的来源可追溯性与有害输出治理。董事会层面也需要把相关风险纳入企业风险视图,因为它会同时影响研发、合规、市场与品牌。
治理工具会跟着演进:用于监控其他 AI 的“审计算法”、用于来源标识的水印、标准化的模型注册库会更常见。ISO/IEC 42001 等框架也会进入更多企业制度体系。
组织能力会成为瓶颈。AI 扩散后,非技术人员会大量接触工具。治理不能只靠少数专家兜底,必须把风险意识与执行动作下沉到一线。
结论
受监管制药企业的企业级 AI 治理既复杂也不可回避。这里的错误不会停留在“产品体验差”,它会变成患者风险与法律风险。治理要做的事可以压成一条工程链:用风险分层决定控制强度;用数据完整性与隐私钉死输入边界;用验证与文档把输出可信度做成证据;用组织与审计把问责落到人。
监管机构已经给出方向,行业也出现可复用路径。差异只会出现在执行质量:有人把治理做成文件,有人把治理做成机制。前者在审计面前会崩,后者才能把 AI 推进受监管链路,并在变化中持续运行。
外部来源
[1] https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2022.1068361/full [2] https://www.auriacompliance.com/gmp-blog/data-integrity-and-ai-integration-key-considerations-for-compliance-in-gmp-pharmaceutical-manufacturing [3] https://pmc.ncbi.nlm.nih.gov/articles/PMC9152664/ [4] https://www.fda.gov/news-events/press-announcements/fda-proposes-framework-advance-credibility-ai-models-used-drug-and-biological-product-submissions [5] https://www.fda.gov/medical-devices/medical-devices-news-and-events/cdrh-issues-guiding-principles-transparency-machine-learning-enabled-medical-devices [6] https://www.fda.gov/medical-devices/software-medical-device-samd/transparency-machine-learning-enabled-medical-devices-guidance-principles [7] https://pmc.ncbi.nlm.nih.gov/articles/PMC7892696/ [8] https://goodlifesci.sidley.com/2023/08/31/five-governance-steps-to-consider-when-using-generative-ai-within-a-pharma-company/ [9] https://ispe.org/pharmaceutical-engineering/july-august-2022/ai-governance-and-qa-framework-ai-governance-process [10] https://www.fda.gov/science-research/science-and-research-special-topics/artificial-intelligence-and-machine-learning-aiml-drug-development [11] https://www.advisory.com/daily-briefing/2018/07/27/ibm [12] https://pharmaconsulting.ai/ai-governance-pharmaceutical-industry/ [13] https://www.mckinsey.com/industries/life-sciences/our-insights/generative-ai-in-the-pharmaceutical-industry-moving-from-hype-to-reality [14] https://talkingmedicines.com/2024/12/top-8-governance-considerations-for-ai-in-pharma/ [15] https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence [16] https://www.statnews.com/2025/01/06/artificial-intelligence-use-drug-development-fda-draft-guidance/ [17] https://www.scmp.com/business/china-business/article/3341432/china-could-approve-first-fully-ai-designed-drug-next-year-merckexecutive-says [18] https://wirelesslifesciences.org/2025/12/fda-in-2025-ai-samd-lifecycle-and-new-cybersecurity-expectations-what-to-change-in-the-roadmap/