回归分析的损失函数

编辑

损失函数衡量给定机器学习模型与特定数据集的拟合程度。它将模型的所有不同低估和高估都归结为一个单一数字,称为预测误差。预测值与真实值之间的差异越大,损失函数的值越高。在超参数优化和训练决策树的过程中,损失函数会自动在后台使用,以比较模型各个迭代的性能。

在 Elastic Stack 中,有三种不同的损失函数类型:

  • 均方误差 (mse):当没有关于数据集的其他信息时,它是默认选择。
  • 均方对数误差 (msle; mse 的变体):适用于目标值均为正数且具有长尾分布的情况(例如,价格或人口)。
  • 伪 Huber 损失 (huber):当您希望防止模型尝试拟合异常值而不是常规数据时使用。

各种类型的损失函数计算预测误差的方式不同。适合您用例的损失函数取决于您数据集中目标的分布、您想要建模的问题、数据中的异常值数量等等。

创建数据框分析作业时,您可以指定在回归分析中使用的损失函数。默认值为均方误差 (mse)。如果您选择 mslehuber,您还可以为损失函数设置参数。使用该参数,您可以进一步优化所选函数的行为。

请参阅 关于回归损失函数的 Jupyter Notebook 以了解更多信息。

默认的损失函数参数值在大多数情况下都能很好地工作。强烈建议使用默认值,除非您完全理解不同损失函数参数的影响。