受监管 AI 环境中的提示词治理

在金融和法律系统中，对提示词进行版本化、审计和控制，因为每一次模型交互都可能成为运营责任。

提示词治理，就是把提示词当作生产资产处理：有版本、有测试、有审计记录，也能追溯责任。在受监管环境中，这不是可选项。

为什么提示词是责任点

在金融或法律系统里，每个进入模型的提示词都是决策输入。监管方要求结果可解释、可复现。一个没有记录就被修改的提示词，如果今天产生不同答案，就是审计失败。

只加日志不够。日志记录已经发生的事，治理控制允许发生的事。

注册表。 每个生产提示词都需要稳定 ID、版本、状态、负责人、内容哈希，以及批准或废弃时间。没有批准状态的提示词不应在生产中执行。

变更门禁。 从草稿到批准，需要差异审查、通过带阈值的评估，并记录批准人、时间和评估结果。

评估流水线。 每个提示词版本都需要输入输出测试集。正确性、拒答率、一致性和延迟应按提示词单独衡量。

运行时归因。 每次模型调用都应携带 prompt_id、prompt_version、caller_id 以及复现决策所需的数据，形成从决策到提示词版本再到评估状态的因果链。

最小起点很简单：用 Postgres 表做注册表，在 CI 中运行评估，并用中间件拒绝未批准的提示词。更成熟的系统会加入治理 API、评估仪表盘和自动废弃机制。