超参数优化

编辑

当您为分类或回归分析创建数据帧分析作业时,有一些高级配置选项称为超参数。理想的超参数值因数据集而异。因此,默认情况下,作业通过超参数优化过程计算最佳的值组合。

超参数优化涉及多轮分析。每一轮都涉及不同的超参数值组合,这些值通过随机搜索和贝叶斯优化技术的组合确定。如果您显式设置了超参数,则该值不会被优化,并且在每一轮中保持不变。为了确定哪一轮产生最佳结果,使用分层 K 折交叉验证方法来分割数据集、训练模型并计算其在验证数据上的性能。

您可以通过展开 Kibana 中的作业详细信息或使用 get trained models API 查看最终选择的超参数值。您还可以使用 get data frame analytics job stats API 查看用于比较每一轮优化的特定类型的验证损失(例如均方误差或二项交叉熵)。

不同的超参数可能会对模型性能产生不同程度的影响。为了估计优化的超参数的重要性,使用了方差分解分析。生成的 absolute importance 显示了超参数的变化对验证损失的变化的影响程度。此外,还计算了 relative importance,它给出了超参数相对于其余可调超参数的重要性。所有相对重要性的总和为 1。您可以在 get data frame analytics job stats API 的响应中查看这些结果。

除非您完全了解超参数的用途,否则强烈建议您保持未设置状态,并允许进行超参数优化。