汇总搜索限制编辑

已在 8.11.0 中弃用。

汇总将在未来版本中移除。请迁移降采样

虽然我们认为汇总功能非常灵活,但汇总数据的性质意味着会有一些限制。一旦实时数据被丢弃,您将永远失去一些灵活性。

本页重点介绍了主要限制,以便您了解它们。

每次搜索只能使用一个汇总索引编辑

使用汇总搜索端点时,index 参数接受一个或多个索引。这些索引可以是常规索引、非汇总索引和汇总索引的混合。但是,只能指定一个汇总索引。 index 参数的确切规则列表如下:

  • 必须至少指定一个索引/索引模式。这可以是汇总索引或非汇总索引。不允许省略索引参数或使用 _all
  • 可以指定多个非汇总索引。
  • 只能指定一个汇总索引。如果提供了多个索引,则会抛出异常。
  • 可以使用索引模式,但如果它们匹配多个汇总索引,则会抛出异常。

此限制是由决定哪些作业对任何给定查询“最佳”的逻辑驱动的。如果单个索引中存储了十个作业,这些作业以不同的完整程度和不同的时间间隔覆盖源数据,则查询需要确定实际搜索哪些作业集。错误的决策会导致不准确的聚合结果(例如,文档计数过多或指标错误)。毋庸置疑,这是一段技术上具有挑战性的代码。

为了帮助简化问题,我们将搜索限制为一次仅限一个汇总索引(其中可能包含多个作业)。将来,我们也许能够将其开放给多个汇总作业。

只能聚合已存储的内容编辑

也许这是一个显而易见的限制,但汇总只能对已存储在汇总中的数据进行聚合。如果您没有将汇总作业配置为存储有关 price 字段的指标,则您将无法在任何查询或聚合中使用 price 字段。

例如,以下查询中的 temperature 字段已存储在汇总作业中……但没有使用 avg 指标。这意味着此处不允许使用 avg

response = client.rollup.rollup_search(
  index: 'sensor_rollup',
  body: {
    size: 0,
    aggregations: {
      avg_temperature: {
        avg: {
          field: 'temperature'
        }
      }
    }
  }
)
puts response
GET sensor_rollup/_rollup_search
{
  "size": 0,
  "aggregations": {
    "avg_temperature": {
      "avg": {
        "field": "temperature"
      }
    }
  }
}

响应将告诉您该字段和聚合不可用,因为找不到包含它们的汇总作业。

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.",
        "stack_trace": ...
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.",
    "stack_trace": ...
  },
  "status": 400
}

时间间隔粒度编辑

汇总以一定的粒度存储,如配置中的 date_histogram 组所定义。这意味着您只能使用大于或等于已配置汇总间隔的时间间隔来搜索/聚合汇总数据。

例如,如果数据按小时间隔汇总,则汇总搜索 API 可以聚合任何小时或更长时间间隔。小于一小时的间隔将引发异常,因为根本不存在更精细粒度的数据。

因为 RollupSearch 端点可以“上采样”时间间隔,所以不需要配置具有多个时间间隔(每小时、每天等)的作业。建议仅使用所需最小粒度配置单个作业,并允许搜索端点根据需要进行上采样。

也就是说,如果单个汇总索引中存在多个具有不同时间间隔的作业,则搜索端点将识别并使用具有最大时间间隔的作业来满足搜索请求。

有限的查询组件编辑

汇总功能允许在搜索请求中使用 query,但组件子集有限。当前允许的查询是:

  • 词条查询
  • 词条查询
  • 范围查询
  • 匹配所有查询
  • 任何复合查询(布尔值、提升、常量分数等)

此外,这些查询只能使用在汇总作业中也保存为 group 的字段。如果您希望筛选关键字 hostname 字段,则该字段必须已在汇总作业的 terms 分组下配置。

如果您尝试使用不受支持的查询,或者查询引用了未在汇总作业中配置的字段,则会引发异常。我们预计随着时间的推移,随着更多查询的实现,支持的查询列表将会增加。

时区编辑

汇总文档存储在作业中 date_histogram 组配置的时区中。如果没有指定时区,则默认情况下以 UTC 时间汇总时间戳。