概述
Elastic Stack Serverless
数据框分析使您可以对数据执行不同的分析并使用结果对其进行注释。 这样做可以提供对数据的其他见解。异常值检测识别数据集中的异常数据点。回归在确定数据点之间的某些关系后,对数据进行预测。分类预测数据集给定数据点的类别。 推理使您能够针对传入数据以持续方式使用训练好的机器学习模型。
此过程保持源索引不变,它会创建一个新索引,其中包含源数据和注释数据的副本。 您可以像处理任何其他数据集一样,对扩展了结果的数据进行切片和切块。 阅读数据框分析作业的工作原理,以获得更多信息。
您可以通过使用评估数据框分析 API 针对标记的数据集来评估数据框分析的性能。 它可以帮助您了解错误分布,并识别数据框分析模型表现良好或不太可信的点。
请参阅监督学习简介,以了解有关如何使用监督学习进行预测的更多信息。
数据框分析类型 | 学习类型 |
---|---|
异常值检测 | 非监督 |
回归 | 监督 |
分类 | 监督 |
Elastic 监督学习使您能够根据您提供的训练示例来训练机器学习模型。 然后,您可以使用您的模型对新数据进行预测。 本页概述了训练、评估和部署模型的端到端工作流程。 它提供了使用监督学习识别和实施解决方案所需的步骤的高级概述。
监督学习的工作流程包括以下阶段

这些是迭代阶段,这意味着在评估每个步骤后,您可能需要进行调整才能进一步进行。
花点时间思考一下机器学习在哪里最有影响力非常重要。 考虑一下您有哪些类型的数据可用以及它们所拥有的价值。 您越了解数据,就越能快速创建生成有用见解的机器学习模型。 您想在数据中发现哪些类型的模式? 您想要预测哪种类型的值:类别还是数值? 答案可以帮助您选择适合您用例的分析类型。
在确定问题后,请考虑哪些机器学习功能最有可能帮助您解决该问题。 监督学习需要一个数据集,该数据集包含可以训练模型的已知值。 非监督学习(例如异常检测或异常值检测)没有此要求。
Elastic Stack 提供以下类型的监督学习
- 回归:预测**连续的数值**,例如 Web 请求的响应时间。
- 分类:预测**离散的、分类的值**,例如 DNS 请求是否来自恶意或良性域。
您已经定义了问题并选择了合适的分析类型。 下一步是在 Elasticsearch 中生成一个高质量的数据集,该数据集与您的训练目标有明确的关系。 如果您的数据尚未在 Elasticsearch 中,则这是您开发数据管道的阶段。 如果您想了解更多关于如何将数据摄取到 Elasticsearch 中的信息,请参阅Ingest 节点文档。
回归和分类是监督机器学习技术,因此您必须提供一个标记的数据集用于训练。 这通常被称为“真实情况”。 训练过程使用此信息来识别数据各种特征与预测值之间的关系。 它还在模型评估中起着关键作用。
一个重要的要求是数据集足够大,可以训练模型。 例如,如果您想训练一个分类模型来决定电子邮件是否为垃圾邮件,则需要一个标记的数据集,该数据集包含来自每个可能类别的足够数据点来训练模型。“足够”取决于各种因素,例如问题的复杂性或您选择的机器学习解决方案。 没有完全适合每个用例的确切数字; 确定多少数据可以接受更像是一个启发式过程,可能涉及迭代试验。
在训练模型之前,请考虑预处理数据。 在实践中,预处理的类型取决于数据集的性质。 预处理可以包括但不限于:减轻冗余、减少偏差、应用标准和/或约定、数据规范化等等。
回归和分类需要专门结构化的源数据:二维表格数据结构。 因此,您可能需要转换您的数据以创建一个可以用作这些类型的数据框分析的源的数据框。
在您的数据准备好并转换为正确的格式后,就可以训练模型了。 训练是一个迭代过程 - 每次迭代后都会进行评估以查看模型的效果如何。
第一步是定义特征 - 数据集中的相关字段 - 将用于训练模型。 默认情况下,回归和分类会自动包含所有具有受支持类型的字段。 但是,您可以选择从过程中排除不相关的字段。 这样做可以使大型数据集更易于管理,从而减少训练所需的计算资源和时间。
接下来,您必须定义如何将您的数据拆分为训练集和测试集。 测试集不会用于训练模型; 它用于评估模型的效果。 没有适合所有用例的最佳百分比,这取决于数据量和您进行训练的时间。 对于大型数据集,您可能希望从较低的训练百分比开始,以便在短时间内完成端到端迭代。
在训练过程中,训练数据通过学习算法馈送。 模型预测值并将其与真实情况进行比较,然后对模型进行微调以使预测更准确。
模型训练完成后,您可以使用模型泛化误差来评估模型预测先前未见过的数据的效果。 回归和分类分析还有其他评估类型,可以提供有关训练性能的指标。 当您对结果感到满意时,就可以部署模型了。 否则,您可能需要调整训练配置或考虑其他方法来预处理和表示您的数据。
您已经训练了模型并且对性能感到满意。 最后一步是部署您训练好的模型并开始将其用于新数据。
Elastic 机器学习功能称为推理,使您可以通过将其用作摄取管道中的处理器、在连续转换中或在搜索时的聚合来对新数据进行预测。 当新数据进入您的摄取管道或您使用推理聚合对数据运行搜索时,该模型用于对数据进行推理并对其进行预测。