MLOps 定义

机器学习运营 (MLOps) 是一组实践,可简化机器学习模型的开发、部署和持续维护。 MLOps 是人工智能 (AI) 的一个子领域,位于机器学习 (ML)开发运营 (DevOps) 和数据工程的交叉点。它将端到端的机器学习模型开发与机器学习系统部署和运营相结合。这种实践是数据科学家、DevOps 工程师和 IT 部门之间的协作努力,确保机器学习系统可靠、安全且可扩展。

机器学习系统现在在大多数技术实践中无处不在。它们能够实现预测分析、自动化决策制定,并通过在从可观测性网络安全和自定义等各个方面所起的作用,帮助推动跨行业的生产力和创新。部署机器学习模型需要一个强大的运营框架 — 而这正是 MLOps 的用武之地。

什么是机器学习?

机器学习是人工智能的一个分支,它依靠数据和算法使计算机无需显式编程即可学习和改进 — 类似于人类学习的方式。机器学习算法处理大量数据以发现模式。这可以训练它们在查询时做出准确的预测或决策。

机器学习算法用于各种应用,包括推荐引擎、警报自动化、欺诈检测、自然语言处理等。随着数据量的持续增长,机器学习系统可以帮助各种规模的公司自动化某些任务、处理数据、发展和创新。

什么是 MLOps 框架?

MLOps 框架允许在组织内开发和部署机器学习系统。MLOps 生命周期从数据准备开始。然后将此数据输入机器学习模型以对其进行训练和验证。然后,使用持续集成和部署 (CI/CD)、自动化测试、版本控制、模型监控和数据治理的 DevOps 原则来部署、监控和重新训练模型。 MLOps 的目标是使机器学习模型生命周期更加高效、可扩展和安全。

MLOps 在软件开发中的作用

在软件开发中,MLOps 帮助统一机器学习和软件应用程序的发布周期。MLOps 在将机器学习模型集成到生产系统中发挥着至关重要的作用。虽然传统的软件开发侧重于代码,但机器学习模型还需要仔细管理数据、算法和计算资源。通过为模型部署、监控和迭代提供结构化方法,MLOps 确保机器学习模型可以与传统软件一起部署,并具有一致的性能和最短的停机时间。

与可观测性、网络安全和自定义的交叉

MLOps 在两个方面与可观测性、网络安全和自定义交叉。可观测性、网络安全和自定义依赖机器学习功能来完成各种任务,包括警报自动化、预测分析、规划和优化。反之,MLOps 依赖可观测性、网络安全和自定义来为组织充分利用机器学习模型的优势。

  • 可观测性:应用于 MLOps,可观测性实践有助于检测数据漂移或模型退化等问题,这些问题可能会影响预测的准确性和可靠性。
  • 网络安全:像数字生态系统的任何方面一样,MLOps 管道也可能容易受到各种威胁。将网络安全实践融入 MLOps 生命周期意味着保护数据、验证数据完整性,并实施强大的访问控制以保护模型。
  • 定制化: 在 MLOps 中,定制化是指根据特定的业务问题或行业法规,对 ML 管道进行调整,包括数据选择和预处理、模型选择以及部署策略等。通过将定制化集成到 MLOps 工作流程中,组织可以确保其机器学习解决方案不仅满足自身需求,而且符合行业标准和最佳实践。

理解可观测性、网络安全、定制化和 MLOps 之间的交集,最终可以带来更好的结果:模型准确性、安全性和可靠性。


MLOps 的组成部分

MLOps 生命周期包括多个组件,这些组件有助于机器学习模型的成功迭代和部署。这些组件包括持续集成、数据准备、特征工程、模型训练和评估、部署、监控和治理。

持续集成

持续集成 (CI) 是一项核心 DevOps 实践,涉及自动化代码更改的集成并将它们合并到源代码中。在机器学习项目的上下文中,持续集成还包括对数据和模型的更改进行自动化集成。CI 的实践确保机器学习模型始终可以部署并可靠地工作。

数据准备和特征工程

第一个关键的 MLOps 组件是数据准备。它包括清理、转换和组织原始数据,使其成为适合机器学习模型目标的形式。数据准备还可以包括聚合和重复数据清理等过程。

特征工程是数据准备过程的扩展,涉及将原始数据转换为用于监督机器学习的特征,广泛地说,用于训练。特征是新的变量,可以帮助模型创建数据点之间的关系并最终生成预测。特征工程对机器学习模型的准确性有直接影响。

模型训练、调优和评估

模型训练是将数据输入算法的过程,以便算法可以映射数据中的关系或模式,并最终生成预测。训练可以是监督的、无监督的或半监督的。监督学习需要标记的数据集,而无监督学习模型则不需要。半监督学习依赖于标记和未标记的数据集来训练算法。

调整模型是通过调整模型的超参数来提高模型性能的过程。超参数是控制模型学习过程的“顶层”或封装值。

评估模型意味着在新数据上测试模型并验证其预期用例。它可以确保模型在部署之前按预期工作。

模型部署

一旦机器学习模型经过训练和验证,它就会被部署到生产环境中。在那里,它处理环境中的新数据以进行实时预测。部署过程的一部分包括持续监控,以确保模型在负载下按预期执行。

持续监控和可观测性

可观测性实践通过依赖诸如预测准确性、延迟和系统健康状况等指标来帮助监控模型的性能。可观测性还通过跟踪使用资源和技术债务,帮助更广泛地了解模型与生态系统的集成。反过来,这允许工程师调整模型以提高整体系统性能。

以数据为中心的管理和数据漂移

以数据为中心的管理是 MLOps 的一个重要组成部分,它专注于维护机器学习项目中使用的数据的质量和一致性。当输入数据的统计属性和特征发生变化时,模型的性能可能会下降。这就是数据漂移。监控数据漂移对于确保最佳模型性能以及确保数据完整性不受损害是必要的。

实验

一个业务问题可能有多种机器学习解决方案。了解哪个模型适合特定环境中的给定业务问题需要进行实验。就像在 DevOps 中一样,这是 MLOps 的一项基本原则——解决问题的方法是迭代的,并且寻求持续改进。

治理

有数据的地方就有治理。所有组织都受到政策和程序的约束,这些政策和程序确保符合法规要求和道德标准。监控 MLOps 管道包括跟踪实验和管理模型版本,以确保机器学习模型符合法规要求。


MLOps 的挑战

MLOps 虽然对机器学习项目的管理至关重要,但在成本、人员和资源方面可能具有挑战性。

初始设置成本

MLOps 的初始设置会带来巨大的成本:组织必须投资于正确的基础设施、工具和人员。一旦获得这些资源,组织还会面临与时间相关的成本挑战——初始数据准备可能是一个漫长而昂贵的过程。

工具选择

为机器学习项目找到合适的工具需要专业知识和时间。考虑到广泛的选择范围,请始终将可扩展性、集成能力和易用性放在首位。

技能要求

MLOps 是一个协作过程,依赖于数据科学家、工程师和 IT 专业人员的专业知识。构建和管理机器学习模型需要专业的技能组合,因此组织需要投资于广受欢迎的人员和培训。

维护和可扩展性

维护 MLOps 管道可能很复杂,尤其是在组织增加模型和数据源的数量时。扩展机器学习模型可能需要大量资源,包括员工和系统。找到合适的平台和工具集可能会带来很大的不同。


MLOps 的优势

MLOps 的优势可以解释为什么机器学习集成如此受欢迎。MLOps 为组织提供增强的可观测性、改进的网络安全性、更高的效率和更易于使用的模型。

增强的可观测性

MLOps 将监控集成到其流程中,这反过来又为可观测性工具提供了更多重要数据。它们监控性能和资源使用,使组织更清楚地了解其运营情况。

改进的网络安全

通过将安全实践集成到机器学习模型的开发周期中,MLOps 确保了整体网络安全性的提高。

提高效率

MLOps 为数据科学家、DevOps 工程师和 IT 团队提供了一个可靠的框架,用于部署和集成机器学习模型。这与自动化一起,可以提高效率:团队可以更快、更敏捷地工作。

易于使用

MLOps 实践简化了机器学习模型的管理,使组织可以更轻松地大规模部署和维护模型。因此,MLOps 减轻了数据科学家、DevOps 工程师和 IT 团队的负担,使他们能够专注于更具战略意义的计划。


MLOps 的最佳实践

遵循 MLOps 最佳实践对于有效地将机器学习模型实施到系统中至关重要。MLOps 的最佳实践包括自动化任务、实施持续训练和验证以及监控模型性能和数据质量。

实施策略

MLOps 的一个关键实施策略是自动化。通过尽可能自动化 MLOps 管道的各个部分(数据准备、模型训练、部署和监控),工程师可以减少手动错误、加快 MLOps 生命周期并专注于战略任务。

优化机会

在 MLOps 生命周期中,有很多优化机会,尤其是在模型性能和资源使用方面。通过持续监控机器学习模型,工程师可以识别优化机会并通过重新训练和验证来解决这些问题。性能监控有助于识别和解决诸如延迟或吞吐量瓶颈等问题。积极寻求优化还可以确保模型保持准确并产生相关的输出。

风险和合规性

在 MLOps 的上下文中,风险管理包括实施强大的安全协议、进行定期审计以及维护所有机器学习流程的全面文档。通过跟踪模型谱系和版本,组织可以确保它们符合法规要求,并且其机器学习系统是安全的。

可观测性要求

在 MLOps 中,可观测性对于维持最佳模型性能至关重要。可观测性工具应监控数据漂移、模型准确性、公平性和偏差,以及诸如延迟和吞吐量等系统级指标。可观测性实践还可以揭示 MLOps 生命周期如何与 DevOps 生命周期集成,以及它对业务成果的影响。


使用 Elastic 的 MLOps

Elastic 强大的可观测性工具、实时分析和强大的搜索功能集成了机器学习,使您能够识别响应时间缓慢的情况、发现异常行为并评估威胁、自定义异常检测以及增强您的团队和客户的搜索体验。

不知道如何开始使用您的数据?Elastic 的开放通用数据模型,Elastic 通用模式 (ECS),为您提供了收集、存储和可视化任何数据的灵活性,从而可以轻松地进行数据摄取。


MLOps 资源