特征编码

编辑

机器学习模型只能处理数值型数据。因此,需要将相关特征的分类值转换为数值型。这个过程称为特征编码

数据帧分析会自动执行特征编码。输入数据会使用以下编码技术进行预处理:

  • 独热编码:为每个类别分配向量。该向量表示相应的特征是否存在(1)或不存在(0)。
  • 目标均值编码:用目标变量的均值替换分类值。
  • 频率编码:考虑给定分类值相对于特征出现的次数。

当模型对新数据进行预测时,需要以与训练数据相同的方式处理数据。Elastic Stack 中的机器学习模型推理会自动执行此操作,因此在每次推理调用中都会使用自动应用的编码。请参阅有关分类回归的推理。

特征重要性是针对原始分类字段计算的,而不是针对自动编码的特征计算的。