高可靠环境中的 MLOps · Leandro Damasio

使用 Kubeflow、ArgoCD 和 GitOps 构建 ML 流水线，适用于模型失败会产生下游后果的环境。

高可靠 ML 部署与普通 MLOps 的区别在于：坏模型进入生产的代价不只是体验下降，而是下游决策错误。

流水线架构

训练流水线本身就是生产系统。参数、数据集版本和预处理配置必须是显式输入。模型权重、预处理器、评估报告和数据快照都需要产物版本管理。执行必须可复现。

Kubeflow 提供编排层。每个步骤应在依赖固定的隔离容器中运行，中间产物应写入按内容寻址的存储，例如 S3 或 MinIO。

从已训练模型到已部署模型，不是简单晋级，而是门禁。它比较评估结果与阈值，和当前模型对比，审查 changelog，并记录基于评估运行的批准。

在 ArgoCD 与 GitOps 模式下，理想的提升流程是打开一个 PR 修改产物引用。merge 就是审批门禁，部署天然可审计。

模型回滚不是简单切回版本，而是在几分钟内恢复由哈希标识的精确旧产物，且不需要重新训练。这个流程必须定期测试。

除了延迟和错误，还要监控预测分布、特征分布以及与业务指标的相关性。部署前，团队必须知道哪项指标会暴露静默失败、多久暴露、通知谁。