回归分析的损失函数
Elastic Stack Serverless
损失函数衡量给定的机器学习模型与特定数据集的拟合程度。它将模型的所有不同低估和高估归结为一个数字,称为预测误差。预测与实际值之间的差异越大,损失函数的值就越高。损失函数在超参数优化期间以及训练决策树以比较模型各种迭代的性能时,在后台自动使用。
在 Elastic Stack 中,有三种不同类型的损失函数
- 均方误差 (
mse
):当没有关于数据集的额外信息时,它是默认选择。 - 均方对数误差 (
msle
;mse
的变体):适用于目标值为正且具有长尾分布的情况(例如,价格或人口)。 - Pseudo-Huber 损失 (
huber
):当您希望防止模型尝试拟合异常值而不是常规数据时,请使用它。
各种类型的损失函数以不同的方式计算预测误差。适合您用例的损失函数取决于数据集中的目标分布、您要建模的问题、数据中异常值的数量等等。
您可以在创建数据帧分析分析作业时指定在回归分析期间使用的损失函数。 默认值为均方误差 (mse
)。如果选择 msle
或 huber
,您还可以为损失函数设置一个参数。 使用该参数,您可以进一步改进所选函数的行为。
请参阅 关于回归损失函数的 Jupyter notebook 了解更多信息。
提示
默认损失函数参数值适用于大多数情况。强烈建议使用默认值,除非您完全了解不同损失函数参数的影响。