特征编码
Elastic Stack Serverless
机器学习模型只能处理数值。因此,需要将相关特征的分类值转换为数值。这个过程叫做特征编码。
数据框分析会自动执行特征编码。输入数据会通过以下编码技术进行预处理
- 独热编码:为每个类别分配向量。向量表示相应的特征是否存在 (1) 或不存在 (0)。
- 目标均值编码:将分类值替换为目标变量的平均值。
- 频率编码:考虑给定分类值与特征相关的出现次数。
当模型对新数据进行预测时,需要以与训练时相同的方式处理数据。Elastic Stack 中的机器学习模型推断会自动执行此操作,因此每次调用推断时都会使用自动应用的编码。有关推断的信息,请参阅分类和回归。
特征重要性是针对原始分类字段计算的,而不是针对自动编码的特征。