笔记

2025年4月18日

·

AI · 基础设施

·

6 分钟

高可靠环境中的 MLOps

使用 Kubeflow、ArgoCD 和 GitOps 构建 ML 流水线,适用于模型失败会产生下游后果的环境。

高可靠 ML 部署与普通 MLOps 的区别在于:坏模型进入生产的代价不只是体验下降,而是下游决策错误。

流水线架构

训练流水线本身就是生产系统。参数、数据集版本和预处理配置必须是显式输入。模型权重、预处理器、评估报告和数据快照都需要产物版本管理。执行必须可复现。

Kubeflow 提供编排层。每个步骤应在依赖固定的隔离容器中运行,中间产物应写入按内容寻址的存储,例如 S3 或 MinIO。

部署门禁

从已训练模型到已部署模型,不是简单晋级,而是门禁。它比较评估结果与阈值,和当前模型对比,审查 changelog,并记录基于评估运行的批准。

在 ArgoCD 与 GitOps 模式下,理想的提升流程是打开一个 PR 修改产物引用。merge 就是审批门禁,部署天然可审计。

回滚

模型回滚不是简单切回版本,而是在几分钟内恢复由哈希标识的精确旧产物,且不需要重新训练。这个流程必须定期测试。

监控

除了延迟和错误,还要监控预测分布、特征分布以及与业务指标的相关性。部署前,团队必须知道哪项指标会暴露静默失败、多久暴露、通知谁。