汇总搜索限制
编辑汇总搜索限制编辑
虽然我们认为汇总功能非常灵活,但汇总数据的性质意味着会有一些限制。一旦实时数据被丢弃,您将永远失去一些灵活性。
本页重点介绍了主要限制,以便您了解它们。
每次搜索只能使用一个汇总索引编辑
使用汇总搜索端点时,index
参数接受一个或多个索引。这些索引可以是常规索引、非汇总索引和汇总索引的混合。但是,只能指定一个汇总索引。 index
参数的确切规则列表如下:
- 必须至少指定一个索引/索引模式。这可以是汇总索引或非汇总索引。不允许省略索引参数或使用
_all
。 - 可以指定多个非汇总索引。
- 只能指定一个汇总索引。如果提供了多个索引,则会抛出异常。
- 可以使用索引模式,但如果它们匹配多个汇总索引,则会抛出异常。
此限制是由决定哪些作业对任何给定查询“最佳”的逻辑驱动的。如果单个索引中存储了十个作业,这些作业以不同的完整程度和不同的时间间隔覆盖源数据,则查询需要确定实际搜索哪些作业集。错误的决策会导致不准确的聚合结果(例如,文档计数过多或指标错误)。毋庸置疑,这是一段技术上具有挑战性的代码。
为了帮助简化问题,我们将搜索限制为一次仅限一个汇总索引(其中可能包含多个作业)。将来,我们也许能够将其开放给多个汇总作业。
只能聚合已存储的内容编辑
也许这是一个显而易见的限制,但汇总只能对已存储在汇总中的数据进行聚合。如果您没有将汇总作业配置为存储有关 price
字段的指标,则您将无法在任何查询或聚合中使用 price
字段。
例如,以下查询中的 temperature
字段已存储在汇总作业中……但没有使用 avg
指标。这意味着此处不允许使用 avg
。
response = client.rollup.rollup_search( index: 'sensor_rollup', body: { size: 0, aggregations: { avg_temperature: { avg: { field: 'temperature' } } } } ) puts response
GET sensor_rollup/_rollup_search { "size": 0, "aggregations": { "avg_temperature": { "avg": { "field": "temperature" } } } }
响应将告诉您该字段和聚合不可用,因为找不到包含它们的汇总作业。
{ "error": { "root_cause": [ { "type": "illegal_argument_exception", "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.", "stack_trace": ... } ], "type": "illegal_argument_exception", "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.", "stack_trace": ... }, "status": 400 }
时间间隔粒度编辑
汇总以一定的粒度存储,如配置中的 date_histogram
组所定义。这意味着您只能使用大于或等于已配置汇总间隔的时间间隔来搜索/聚合汇总数据。
例如,如果数据按小时间隔汇总,则汇总搜索 API 可以聚合任何小时或更长时间间隔。小于一小时的间隔将引发异常,因为根本不存在更精细粒度的数据。
因为 RollupSearch 端点可以“上采样”时间间隔,所以不需要配置具有多个时间间隔(每小时、每天等)的作业。建议仅使用所需最小粒度配置单个作业,并允许搜索端点根据需要进行上采样。
也就是说,如果单个汇总索引中存在多个具有不同时间间隔的作业,则搜索端点将识别并使用具有最大时间间隔的作业来满足搜索请求。
有限的查询组件编辑
汇总功能允许在搜索请求中使用 query
,但组件子集有限。当前允许的查询是:
- 词条查询
- 词条查询
- 范围查询
- 匹配所有查询
- 任何复合查询(布尔值、提升、常量分数等)
此外,这些查询只能使用在汇总作业中也保存为 group
的字段。如果您希望筛选关键字 hostname
字段,则该字段必须已在汇总作业的 terms
分组下配置。
如果您尝试使用不受支持的查询,或者查询引用了未在汇总作业中配置的字段,则会引发异常。我们预计随着时间的推移,随着更多查询的实现,支持的查询列表将会增加。
时区编辑
汇总文档存储在作业中 date_histogram
组配置的时区中。如果没有指定时区,则默认情况下以 UTC
时间汇总时间戳。