高可靠 ML 部署与普通 MLOps 的区别在于:坏模型进入生产的代价不只是体验下降,而是下游决策错误。
流水线架构
训练流水线本身就是生产系统。参数、数据集版本和预处理配置必须是显式输入。模型权重、预处理器、评估报告和数据快照都需要产物版本管理。执行必须可复现。
Kubeflow 提供编排层。每个步骤应在依赖固定的隔离容器中运行,中间产物应写入按内容寻址的存储,例如 S3 或 MinIO。
部署门禁
从已训练模型到已部署模型,不是简单晋级,而是门禁。它比较评估结果与阈值,和当前模型对比,审查 changelog,并记录基于评估运行的批准。
在 ArgoCD 与 GitOps 模式下,理想的提升流程是打开一个 PR 修改产物引用。merge 就是审批门禁,部署天然可审计。
回滚
模型回滚不是简单切回版本,而是在几分钟内恢复由哈希标识的精确旧产物,且不需要重新训练。这个流程必须定期测试。
监控
除了延迟和错误,还要监控预测分布、特征分布以及与业务指标的相关性。部署前,团队必须知道哪项指标会暴露静默失败、多久暴露、通知谁。