数据帧分析特征处理器
编辑数据帧分析特征处理器
编辑数据帧分析会自动包含一个特征编码阶段,该阶段会将分类特征转换为数值特征。但是,如果您想更好地控制用于特定字段的编码方法,则可以定义特征处理器。如果在处理器运行后仍有分类特征,则会在自动特征编码阶段处理这些特征。
您定义的特征处理器是分析过程的一部分,当数据通过聚合或管道时,处理器会对新数据运行。生成的特征是短暂的;它们不会存储在索引中。这提供了一种机制来创建可在搜索和摄取时使用的特征,并且不会占用索引中的空间。
请参阅创建数据帧分析作业 API的feature_processors
属性以了解更多信息。
可用的特征处理器
频率编码
编辑频率编码考虑了给定分类特征相对于编码字段的值出现的次数。特征出现的频率越高,该特征在数据集中权重越大。使用这种编码技术,在编码完成后无法返回到分类值,因为不同的类别可能具有相同的频率。
该图显示了一个简单的频率编码示例。cat
的Animal_freq值为0.5,因为该特征存在于相关值数量的一半中。dog
和crocodile
标签每个只出现一次。因此,这些标签的Animal_freq值为0.25。
多编码
编辑多编码使您能够在同一个数据帧分析作业中使用多个处理器。您可以定义一个有序的处理器序列,其中一个处理器的输出可以作为输入转发到下一个处理器。例如,您可以定义一个n-gram特征处理器,该处理器创建一系列可以由链式独热编码处理器编码的n-gram。
N-gram编码
编辑N-gram编码将字符串编码为配置长度的n-gram(n个项目的序列)集合。这种编码的输出是分类的。因此,将对生成的n-gram进行额外的自动处理。
该表显示了Animal字段的n-gram编码。它执行unigram和bigram编码(大小为1和2的n-gram)并达到字符串长度3。
独热编码
编辑独热编码通过为每个类别分配向量将分类值转换为数值值。该向量表示相应的特征在给定值处是否存在(1)或不存在(0),因此编码方法将不同的分类特征映射到数值。
独热编码将每个类别映射到相应的值。如果类别在给定值处存在,则分配的向量为1
,如果不存在,则向量为0
。
目标均值编码
编辑目标均值编码用目标变量的均值替换分类值,因为它与分类变量本身相关。
该图显示了一个简单的目标均值编码示例。cat
标签在数据集中出现两次。其中一个对应的目标变量为0
,另一个为1
。cat
标签的Animal_target_mean
值在使用目标均值编码处理器后为0.5,而dog
和crocodile
的值为1,因为它们的每次出现都对应一个目标变量1
。