回归分析的损失函数

编辑

损失函数衡量给定的机器学习模型与特定数据集的拟合程度。它将模型的所有不同低估和高估归结为一个数字,称为预测误差。预测值与真实值之间的差异越大,损失函数的值就越高。在超参数优化和训练决策树以比较模型各种迭代的性能时,损失函数会在后台自动使用。

在 Elastic Stack 中,有三种不同类型的损失函数

  • 均方误差(mse:当没有关于数据集的额外信息时,它是默认选择。
  • 均方对数误差(mslemse 的变体):适用于目标值均为正值且具有长尾分布的情况(例如,价格或人口)。
  • 伪 Huber 损失(huber:当您想防止模型尝试拟合异常值而不是常规数据时使用它。

各种类型的损失函数以不同的方式计算预测误差。适用于您的用例的适当损失函数取决于数据集中目标分布、您想要建模的问题、数据中异常值的数量等等。

您可以在创建数据框分析作业时指定在回归分析期间要使用的损失函数。默认值为均方误差(mse)。如果您选择 mslehuber,您还可以为损失函数设置参数。通过该参数,您可以进一步细化所选函数的行为。

请参阅关于回归损失函数的 Jupyter 笔记本以了解更多信息。

默认的损失函数参数值在大多数情况下都可以正常工作。强烈建议使用默认值,除非您完全了解不同损失函数参数的影响。