› ›

图形故障排除和限制

编辑

图形故障排除和限制编辑

为什么结果丢失？编辑

图形 API 请求中的默认设置配置为使用以下策略来排除噪声结果

仅查看查询中最相关文档的样本
仅考虑与样本具有显著统计相关性的词语
仅考虑至少有 3 个文档断言连接的词语对

这些是从噪声数据中获取“全局”信号的有用默认值，但它们可能会错过单个文档中的细节。如果您需要执行详细的法证分析，则可以调整以下设置以确保图形探索生成所有相关数据

将 sample_size 增加到更大的文档数量，以便在每个分片上分析更多数据。
将 use_significance 设置设置为 false 以检索词语，而不管与样本的任何统计相关性。
将顶点的 min_doc_count 设置为 1，以确保只需要一个文档来断言关系。

我可以做些什么来提高性能？编辑

在将 use_significance 的默认设置设置为 true 的情况下，图形 API 会对其在探索过程中发现的词语执行后台频率检查。每个唯一词语都必须在索引中查找其频率，这至少需要一次磁盘查找。磁盘查找的成本很高。如果您不需要执行此噪声过滤，则将 use_significance 设置为 false 可以消除所有这些昂贵的检查（代价是不对词语执行任何质量过滤）。

如果您的数据有噪声，并且您需要根据显著性进行过滤，则可以通过以下方法减少频率检查的次数

减少 sample_size。当匹配的质量变化很大时，考虑更少的文档实际上会更好。
避免包含大量词语的噪声文档。您可以通过允许排名自然地偏向排名靠前的结果样本中的较短文档（请参阅启用规范）或通过使用种子和引导查询明确排除大型文档来做到这一点。
提高频率阈值。许多词语出现的频率非常低，因此即使将频率阈值提高 1，也可以大大减少候选词语的数量，从而减少对其后台频率的检查。

请记住，所有这些选项都会缩小分析信息的范围，并可能增加错过可能是重要细节的可能性。但是，丢失的信息往往与频率较低的低质量文档相关，这可能是一种可以接受的折衷方案。

对多个索引的支持有限编辑

图形 API 可以在单个 API 请求中探索多个索引、类型或别名，但假设是它执行的每个“跳跃”都在查询同一组索引。目前，无法获取从一个索引的字段中找到的词语，并使用该值来探索另一个类型或索引中保存的*不同字段*中的连接。

一个很好的例子是，如果在名为“weblogs20160101”的索引的 remote_host 字段中找到了一个 IP 地址，您可能希望通过在名为“knownthreats”的索引的 ip_address 字段中查找相同的地址来跟进。

支持此行为需要额外的映射，以指示 weblogs 的 remote_host 字段包含在威胁索引的 ip_address 字段中具有流通性和意义的值。

由于我们目前不支持这种转换，因此您必须执行多次调用才能从 weblogs 索引响应中获取值，并将它们构建到对威胁索引的单独请求中。

« 配置图形警报 »