特征编码

编辑

机器学习模型只能处理数值。因此,有必要将相关特征的类别值转换为数值。这个过程称为特征编码

数据框分析会自动执行特征编码。输入数据会使用以下编码技术进行预处理:

  • 独热编码:为每个类别分配向量。向量表示相应的特征是否存在(1)或不存在(0)。
  • 目标均值编码:用目标变量的平均值替换类别值。
  • 频率编码:考虑给定类别值与特征相关的出现次数。

当模型对新数据进行预测时,需要以与训练时相同的方式处理数据。Elastic Stack 中的机器学习模型推理会自动执行此操作,因此在每次推理调用中都会使用自动应用的编码。有关推理的更多信息,请参阅分类回归

特征重要性是针对原始类别字段计算的,而不是针对自动编码的特征。