数据帧分析特征处理器

编辑

数据帧分析会自动包含一个特征编码阶段,该阶段会将分类特征转换为数值特征。但是,如果您想更好地控制用于特定字段的编码方法,则可以定义特征处理器。如果在处理器运行后仍有分类特征,则会在自动特征编码阶段处理这些特征。

您定义的特征处理器是分析过程的一部分,当数据通过聚合或管道时,处理器会对新数据运行。生成的特征是短暂的;它们不会存储在索引中。这提供了一种机制来创建可在搜索和摄取时使用的特征,并且不会占用索引中的空间。

请参阅创建数据帧分析作业 APIfeature_processors属性以了解更多信息。

可用的特征处理器

频率编码

编辑

频率编码考虑了给定分类特征相对于编码字段的值出现的次数。特征出现的频率越高,该特征在数据集中权重越大。使用这种编码技术,在编码完成后无法返回到分类值,因为不同的类别可能具有相同的频率。

Frequency encoding

该图显示了一个简单的频率编码示例。cat的Animal_freq值为0.5,因为该特征存在于相关值数量的一半中。dogcrocodile标签每个只出现一次。因此,这些标签的Animal_freq值为0.25。

多编码

编辑

多编码使您能够在同一个数据帧分析作业中使用多个处理器。您可以定义一个有序的处理器序列,其中一个处理器的输出可以作为输入转发到下一个处理器。例如,您可以定义一个n-gram特征处理器,该处理器创建一系列可以由链式独热编码处理器编码的n-gram。

N-gram编码

编辑

N-gram编码将字符串编码为配置长度的n-gram(n个项目的序列)集合。这种编码的输出是分类的。因此,将对生成的n-gram进行额外的自动处理。

n-gram encoding

该表显示了Animal字段的n-gram编码。它执行unigram和bigram编码(大小为1和2的n-gram)并达到字符串长度3。

独热编码

编辑

独热编码通过为每个类别分配向量将分类值转换为数值值。该向量表示相应的特征在给定值处是否存在(1)或不存在(0),因此编码方法将不同的分类特征映射到数值。

One hot encoding

独热编码将每个类别映射到相应的值。如果类别在给定值处存在,则分配的向量为1,如果不存在,则向量为0

目标均值编码

编辑

目标均值编码用目标变量的均值替换分类值,因为它与分类变量本身相关。

Target mean encoding

该图显示了一个简单的目标均值编码示例。cat标签在数据集中出现两次。其中一个对应的目标变量为0,另一个为1cat标签的Animal_target_mean值在使用目标均值编码处理器后为0.5,而dogcrocodile的值为1,因为它们的每次出现都对应一个目标变量1