数据框分析作业的工作原理
Elastic Stack Serverless
数据框分析作业本质上是一个持久的 Elasticsearch 任务。在其生命周期中,它会经历四个或五个主要阶段,具体取决于分析类型
- 重新索引,
- 加载数据,
- 分析,
- 写入结果,
- 推理(仅限回归和分类)。
让我们逐个看看这些阶段。
在重新索引阶段,文档从源索引复制到目标索引。如果要定义设置或映射,请在启动作业之前创建索引。否则,作业将使用默认设置创建它。
构建目标索引后,数据框分析作业任务会调用 Elasticsearch Reindex API 来启动重新索引任务。
重新索引完成后,作业会从目标索引中获取所需的数据。它将数据转换为分析过程期望的格式,然后将其发送到分析过程。
在此阶段,作业会生成一个机器学习模型来分析数据。分析的具体阶段因数据框分析作业的类型而异。
异常值检测作业具有一个名为 computing_outliers
的分析阶段,在该阶段中,它们识别数据中的异常值。
回归和分类作业有四个分析阶段
feature_selection
:识别哪些提供的字段与预测因变量最相关。coarse_parameter_search
:识别未定义超参数的初始值。fine_tuning_parameters
:识别未定义超参数的最终值。请参阅超参数优化。final_training
:训练机器学习模型。
分析加载的数据后,分析过程会返回结果。仅将分析计算的附加字段写回,加载数据阶段中加载的字段不会写回。数据框分析作业将结果与目标索引中的数据行匹配,合并它们,并将它们重新索引回目标索引。
此阶段仅适用于回归和分类作业。在此阶段,作业会针对数据集的测试拆分验证训练的模型。
最后,在完成所有阶段后,该任务标记为已完成,并且数据框分析作业停止。您的数据已准备好进行评估。