特征重要性

编辑

特征重要性值指示哪些字段对分类或回归分析生成的每个预测的影响最大。每个特征重要性值都有一个大小和一个方向(正或负),这表示每个字段(或数据点的特征)如何影响特定预测。

特征重要性的目的是帮助您确定预测是否合理。因变量和重要特征之间的关系是否得到您的领域知识的支持?您了解到的有关特定特征重要性的经验也可能会影响您在未来迭代的训练模型中是否包含这些特征的决定。

您可以在 Kibana 中或通过使用get trained model API查看所有训练数据中每个字段的特征重要性值的平均大小。例如,Kibana 在回归或二元分类分析结果中显示每个字段的总特征重要性,如下所示

Total feature importance values for a regression data frame analytics job in Kibana

如果分类分析涉及两个以上的类,则 Kibana 使用颜色来显示每个字段的影响如何因类而异。例如

Total feature importance values for a classification data frame analytics job in Kibana

您还可以检查每个单独预测的特征重要性值。在 Kibana 中,您可以在 JSON 对象或决策图中查看这些值。对于回归分析,每个决策图都从一个共享基线开始,该基线是训练数据集中所有数据点的预测值的平均值。当您将特定数据点的所有特征重要性值添加到该基线时,您将得到数值预测值。如果特征重要性值为负,则它会降低预测值。如果特征重要性值为正,则它会增加预测值。例如

Feature importance values for a regression data frame analytics job in Kibana

对于分类分析,特征重要性值的总和近似于每个数据点的预测对数几率。理解分类分析中特征重要性的最简单方法是查看 Kibana 中的决策图。对于每个数据点,都有一个图表显示每个特征对该类预测概率的相对影响。此信息可帮助您了解哪些特征会降低或增加预测概率。例如

A decision plot in Kibanafor a classification data frame analytics job

默认情况下,不会计算特征重要性值。要生成此信息,在创建数据帧分析作业时,必须指定 num_top_feature_importance_values 属性。例如,请参阅在示例航班数据集中执行回归分析在示例航班数据集中执行分类分析

特征重要性值存储在目标索引中每个文档的机器学习结果字段中。每个文档的特征重要性值数量可能小于 num_top_feature_importance_values 属性值。例如,它仅返回对预测产生正面或负面影响的特征。