数据帧分析作业的工作原理

编辑

数据帧分析作业本质上是一个持久的 Elasticsearch 任务。在其生命周期中,它会根据分析类型经历四个或五个主要阶段:

  • 重新索引,
  • 加载数据,
  • 分析,
  • 写入结果,
  • 推理(仅限回归和分类)。

让我们逐一了解这些阶段。

重新索引

编辑

在重新索引阶段,源索引中的文档会被复制到目标索引。如果您想定义设置或映射,请在启动作业之前创建索引。否则,作业将使用默认设置创建它。

一旦目标索引构建完成,数据帧分析作业任务将调用 Elasticsearch Reindex API 来启动重新索引任务。

加载数据

编辑

重新索引完成后,作业会从目标索引中获取所需的数据。它将数据转换为分析过程期望的格式,然后将其发送到分析过程。

分析

编辑

在此阶段,作业会生成一个用于分析数据的机器学习模型。分析的具体阶段因数据帧分析作业的类型而异。

异常值检测作业有一个名为 computing_outliers 的单一分析阶段,该阶段用于识别数据中的异常值。

回归和分类作业有四个分析阶段:

  1. feature_selection:识别哪些提供的字段对于预测因变量最相关。
  2. coarse_parameter_search:为未定义的超参数识别初始值。
  3. fine_tuning_parameters:为未定义的超参数识别最终值。请参阅 超参数优化
  4. final_training:训练机器学习模型。

写入结果

编辑

加载的数据经过分析后,分析过程会返回结果。只会写回分析计算的附加字段,加载数据阶段加载的字段不会写回。数据帧分析作业将结果与目标索引中的数据行匹配,合并它们,然后将它们索引回目标索引。

推理

编辑

此阶段仅存在于回归和分类作业中。在此阶段,作业会根据数据集的测试拆分来验证训练好的模型。

最后,在所有阶段完成后,该任务被标记为已完成,数据帧分析作业停止。您的数据已准备好进行评估。