金融服务中的 AI 治理已经不再是模糊愿望,而是运营要求。政策文件与已实现控制之间的空隙,正是审计发现问题的地方。
适用于 LLM 的模型风险
从风险管理角度看,语言模型也是模型。它们需要清单、预期用途、限制、负责人、独立验证、持续监控和重大变更记录。
挑战在于 LLM 输出文本。因此,每个应用都必须定义什么是性能,以及提示词、检索语料或模型版本的哪些变化属于重大变更。
评估门禁
当模型或提示词未达到标准时,评估门禁应阻止部署。在法律系统中,标准可以包括抽取准确率、越界输入拒答率、多次运行一致性和最大延迟。
阈值不是通用数字。它们应由风险、合规和业务团队根据错误后果共同确定。
可观测性
AI 系统需要基础设施、应用和治理三层指标。除了延迟和错误,还要监控提示词版本、模型、成本、缓存、fallback、结果分布和旧版本使用情况。
运营责任
真正的治理在事故前回答问题:谁批准部署、谁收到告警、何时暂停系统、override 如何记录、过去的决策如何复现。
未经压力测试的治理,在真正需要时可能失效。文档应简短、最新且可验证。