数据帧分析概述

编辑

数据帧分析使您能够对数据执行不同的分析并使用结果对其进行注释。通过这样做,它提供了对数据的更多见解。 异常值检测 识别数据集中的异常数据点。 回归 在确定数据点之间某些关系后,对您的数据进行预测。 分类 预测数据集中给定数据点的类别或范畴。推理使您能够以连续的方式对传入数据使用经过训练的机器学习模型。

此过程会保持源索引不变,它会创建一个包含源数据副本和注释数据的新索引。您可以像使用任何其他数据集一样,对扩展结果的数据进行切片和切块。阅读 数据帧分析作业的工作原理 以获取更多信息。

您可以使用针对标记数据集的评估数据帧分析 API 来评估数据帧分析性能。它有助于您了解错误分布并识别数据帧分析模型表现良好或不太可靠的点。

查阅 监督学习简介 以了解有关如何使用监督学习进行预测的更多信息。

表 2. 数据帧分析概述表

数据帧分析类型 学习类型

异常值检测

无监督

回归

监督

分类

监督

监督学习简介

编辑

Elastic 监督学习使您能够根据您提供的训练示例训练机器学习模型。然后,您可以使用您的模型对新数据进行预测。此页面总结了训练、评估和部署模型的端到端工作流程。它概述了使用监督学习识别和实施解决方案所需的步骤。

监督学习的工作流程包括以下阶段

Supervised learning workflow

这些是迭代阶段,这意味着在评估每个步骤后,您可能需要进行调整才能继续。

定义问题

编辑

花点时间思考机器学习在哪里可以产生最大的影响非常重要。考虑您有哪些可用数据以及这些数据包含哪些价值。您对数据的了解越深入,您就越快能够创建能够生成有用见解的机器学习模型。您希望在数据中发现哪些类型的模式?您想预测哪种类型的价值:类别还是数值?答案将帮助您选择适合您的用例的分析类型。

确定问题后,请考虑哪些机器学习功能最有可能帮助您解决问题。监督学习需要一个包含模型可以对其进行训练的已知值的数据集。无监督学习(如异常检测或异常值检测)不需要此要求。

Elastic Stack 提供以下类型的监督学习

准备和转换数据

编辑

您已经定义了问题并选择了合适的分析类型。下一步是在 Elasticsearch 中生成一个高质量的数据集,该数据集与您的训练目标具有明确的关系。如果您的数据尚未在 Elasticsearch 中,则这是您开发数据管道的阶段。如果您想了解有关如何将数据导入 Elasticsearch 的更多信息,请参阅 摄取节点文档

回归和分类是监督机器学习技术,因此您必须提供一个带标签的数据集用于训练。这通常称为“基本事实”。训练过程使用此信息来识别数据各种特征与预测值之间的关系。它还在模型评估中发挥着至关重要的作用。

一个重要的要求是足够大的数据集来训练模型。例如,如果您想训练一个分类模型来判断电子邮件是否为垃圾邮件,则需要一个带标签的数据集,其中包含来自每个可能类别的足够数据点来训练模型。什么算作“足够”取决于各种因素,例如问题的复杂性或您选择的机器学习解决方案。没有一个确切的数字适合所有用例;决定多少数据是可以接受的更像是一个启发式过程,可能涉及迭代试验。

在训练模型之前,请考虑预处理数据。在实践中,预处理的类型取决于数据集的性质。预处理可以包括但不限于:减少冗余、减少偏差、应用标准和/或约定、数据规范化等。

回归和分类需要结构明确的源数据:二维表格数据结构。因此,您可能需要转换您的数据以创建数据帧,该数据帧可用作这些类型的数据帧分析的源。

训练、测试、迭代

编辑

数据准备就绪并转换为正确的格式后,就可以开始训练模型了。训练是一个迭代过程——每次迭代后都会进行评估以查看模型的性能。

第一步是定义特征(数据集中相关的字段),这些特征将用于训练模型。默认情况下,回归和分类会自动包含所有具有受支持类型的字段。但是,您可以选择性地从流程中排除不相关的字段。这样做可以使大型数据集更易于管理,从而减少训练所需的计算资源和时间。

接下来,您必须定义如何将数据拆分为训练集和测试集。测试集不会用于训练模型;它用于评估模型的性能。没有一个最佳百分比适合所有用例,它取决于数据量和您拥有的训练时间。对于大型数据集,您可能希望从较低的训练百分比开始,以便在短时间内完成端到端迭代。

在训练过程中,训练数据将通过学习算法馈送。模型会预测该值并将其与基本事实进行比较,然后微调模型以使预测更准确。

模型训练完成后,您可以使用模型泛化误差评估其预测以前未见过数据的准确程度。回归和分类分析还有其他评估类型,可以提供有关训练性能的指标。当您对结果满意时,就可以部署模型了。否则,您可能需要调整训练配置或考虑预处理和表示数据的替代方法。

部署模型

编辑

您已经训练了模型并对性能感到满意。最后一步是部署经过训练的模型并开始将其用于新数据。

名为推理的 Elastic 机器学习功能使您能够通过将其用作摄取管道中的处理器、连续转换或搜索时的聚合来对新数据进行预测。当新数据进入您的摄取管道或您使用推理聚合对数据运行搜索时,模型将用于对数据进行推理并在其上进行预测。

后续步骤

编辑