提示词治理,就是把提示词当作生产资产处理:有版本、有测试、有审计记录,也能追溯责任。在受监管环境中,这不是可选项。
为什么提示词是责任点
在金融或法律系统里,每个进入模型的提示词都是决策输入。监管方要求结果可解释、可复现。一个没有记录就被修改的提示词,如果今天产生不同答案,就是审计失败。
只加日志不够。日志记录已经发生的事,治理控制允许发生的事。
四层治理
注册表。 每个生产提示词都需要稳定 ID、版本、状态、负责人、内容哈希,以及批准或废弃时间。没有批准状态的提示词不应在生产中执行。
变更门禁。 从草稿到批准,需要差异审查、通过带阈值的评估,并记录批准人、时间和评估结果。
评估流水线。 每个提示词版本都需要输入输出测试集。正确性、拒答率、一致性和延迟应按提示词单独衡量。
运行时归因。 每次模型调用都应携带 prompt_id、prompt_version、caller_id 以及复现决策所需的数据,形成从决策到提示词版本再到评估状态的因果链。
它能避免什么
- 提示词静默漂移;
- 未批准变更进入生产;
- 无法知道哪个版本产生了回答;
- 事后无法复现决策。
最小起点很简单:用 Postgres 表做注册表,在 CI 中运行评估,并用中间件拒绝未批准的提示词。更成熟的系统会加入治理 API、评估仪表盘和自动废弃机制。