图形故障排除和限制

编辑

图形故障排除和限制编辑

为什么结果丢失?编辑

图形 API 请求中的默认设置配置为使用以下策略来排除噪声结果

  • 仅查看查询中最相关文档的样本
  • 仅考虑与样本具有显著统计相关性的词语
  • 仅考虑至少有 3 个文档断言连接的词语对

这些是从噪声数据中获取“全局”信号的有用默认值,但它们可能会错过单个文档中的细节。如果您需要执行详细的法证分析,则可以调整以下设置以确保图形探索生成所有相关数据

  • sample_size 增加到更大的文档数量,以便在每个分片上分析更多数据。
  • use_significance 设置设置为 false 以检索词语,而不管与样本的任何统计相关性。
  • 将顶点的 min_doc_count 设置为 1,以确保只需要一个文档来断言关系。

我可以做些什么来提高性能?编辑

在将 use_significance 的默认设置设置为 true 的情况下,图形 API 会对其在探索过程中发现的词语执行后台频率检查。每个唯一词语都必须在索引中查找其频率,这至少需要一次磁盘查找。磁盘查找的成本很高。如果您不需要执行此噪声过滤,则将 use_significance 设置为 false 可以消除所有这些昂贵的检查(代价是不对词语执行任何质量过滤)。

如果您的数据有噪声,并且您需要根据显著性进行过滤,则可以通过以下方法减少频率检查的次数

  • 减少 sample_size。当匹配的质量变化很大时,考虑更少的文档实际上会更好。
  • 避免包含大量词语的噪声文档。您可以通过允许排名自然地偏向排名靠前的结果样本中的较短文档(请参阅启用规范)或通过使用种子和引导查询明确排除大型文档来做到这一点。
  • 提高频率阈值。许多词语出现的频率非常低,因此即使将频率阈值提高 1,也可以大大减少候选词语的数量,从而减少对其后台频率的检查。

请记住,所有这些选项都会缩小分析信息的范围,并可能增加错过可能是重要细节的可能性。但是,丢失的信息往往与频率较低的低质量文档相关,这可能是一种可以接受的折衷方案。

对多个索引的支持有限编辑

图形 API 可以在单个 API 请求中探索多个索引、类型或别名,但假设是它执行的每个“跳跃”都在查询同一组索引。目前,无法获取从一个索引的字段中找到的词语,并使用该值来探索另一个类型或索引中保存的*不同字段*中的连接。

一个很好的例子是,如果在名为“weblogs20160101”的索引的 remote_host 字段中找到了一个 IP 地址,您可能希望通过在名为“knownthreats”的索引的 ip_address 字段中查找相同的地址来跟进。

支持此行为需要额外的映射,以指示 weblogs 的 remote_host 字段包含在威胁索引的 ip_address 字段中具有流通性和意义的值。

由于我们目前不支持这种转换,因此您必须执行多次调用才能从 weblogs 索引响应中获取值,并将它们构建到对威胁索引的单独请求中。