正在加载

特征编码

Elastic Stack Serverless

机器学习模型只能处理数值。因此,需要将相关特征的分类值转换为数值。这个过程叫做特征编码

数据框分析会自动执行特征编码。输入数据会通过以下编码技术进行预处理

  • 独热编码:为每个类别分配向量。向量表示相应的特征是否存在 (1) 或不存在 (0)。
  • 目标均值编码:将分类值替换为目标变量的平均值。
  • 频率编码:考虑给定分类值与特征相关的出现次数。

当模型对新数据进行预测时,需要以与训练时相同的方式处理数据。Elastic Stack 中的机器学习模型推断会自动执行此操作,因此每次调用推断时都会使用自动应用的编码。有关推断的信息,请参阅分类回归

特征重要性是针对原始分类字段计算的,而不是针对自动编码的特征。

© . All rights reserved.