数据帧分析作业的工作原理
编辑数据帧分析作业的工作原理
编辑数据帧分析作业本质上是一个持久的 Elasticsearch 任务。在其生命周期中,它会经历四个或五个主要阶段,具体取决于分析类型:
- 重新索引,
- 加载数据,
- 分析,
- 写入结果,
- 推理(仅限回归和分类)。
让我们逐一了解这些阶段。
重新索引
编辑在重新索引阶段,源索引或多个源索引中的文档会被复制到目标索引。如果您想要定义设置或映射,请在开始作业之前创建索引。否则,作业将使用默认设置创建索引。
目标索引构建完成后,数据帧分析作业任务将调用 Elasticsearch 的 重新索引 API 来启动重新索引任务。
加载数据
编辑重新索引完成后,作业将从目标索引中获取所需数据。它会将数据转换为分析过程期望的格式,然后将其发送到分析过程。
分析
编辑在此阶段,作业会生成一个用于分析数据的机器学习模型。分析的具体阶段会根据数据帧分析作业的类型而有所不同。
异常检测作业只有一个名为 computing_outliers
的分析阶段,在此阶段它们会识别数据中的异常值。
回归和分类作业有四个分析阶段:
-
feature_selection
:识别哪些提供的字段与预测因变量最相关。 -
coarse_parameter_search
:识别未定义超参数的初始值。 -
fine_tuning_parameters
:识别未定义超参数的最终值。请参阅 超参数优化。 -
final_training
:训练机器学习模型。
写入结果
编辑加载的数据分析完成后,分析过程会将结果发送回。只有分析计算出的额外字段会被写回,加载数据阶段加载的字段不会被写回。数据帧分析作业将结果与目标索引中的数据行匹配,将它们合并,然后将它们索引回目标索引。
推理
编辑此阶段仅存在于回归和分类作业中。在此阶段,作业会根据数据集的测试拆分验证训练好的模型。
最后,所有阶段完成后,任务将被标记为已完成,数据帧分析作业停止。您的数据已准备好进行评估。