汇总搜索
编辑汇总搜索编辑
在 8.11.0 中已弃用。
汇总将在未来版本中移除。请使用 降采样 代替。
使用标准查询 DSL 搜索汇总数据。
请求编辑
GET <target>/_rollup_search
描述编辑
需要汇总搜索端点,因为在内部,汇总文档使用与原始数据不同的文档结构。汇总搜索端点将标准查询 DSL 重写为与汇总文档匹配的格式,然后获取响应并将其重写回客户端在给定原始查询的情况下所期望的格式。
路径参数编辑
-
<target>
-
(必需,字符串) 用于限制请求的数据流和索引的逗号分隔列表。支持通配符表达式 (
*
)。此目标可以包含汇总索引和非汇总索引。
<target>
参数的规则- 必须指定至少一个数据流、索引或通配符表达式。此目标可以包含汇总索引或非汇总索引。对于数据流,流的备份索引只能用作非汇总索引。不允许省略
<target>
参数或使用_all
。 - 可以指定多个非汇总索引。
- 只能指定一个汇总索引。如果提供多个,则会发生异常。
- 可以使用通配符表达式,但如果它们匹配多个汇总索引,则会发生异常。但是,您可以使用表达式匹配多个非汇总索引或数据流。
- 必须指定至少一个数据流、索引或通配符表达式。此目标可以包含汇总索引或非汇总索引。对于数据流,流的备份索引只能用作非汇总索引。不允许省略
请求主体编辑
请求主体支持常规搜索 API 中的一组功能。它支持
不可用的功能
-
size
:由于汇总处理预先聚合的数据,因此无法返回任何搜索命中,因此 size 必须设置为零或完全省略。 -
highlighter
、suggestors
、post_filter
、profile
、explain
:这些同样不允许。
示例编辑
仅历史记录搜索示例编辑
假设我们有一个名为 sensor-1
的索引,其中包含大量原始数据,并且我们创建了一个具有以下配置的汇总作业
PUT _rollup/job/sensor { "index_pattern": "sensor-*", "rollup_index": "sensor_rollup", "cron": "*/30 * * * * ?", "page_size": 1000, "groups": { "date_histogram": { "field": "timestamp", "fixed_interval": "1h", "delay": "7d" }, "terms": { "fields": [ "node" ] } }, "metrics": [ { "field": "temperature", "metrics": [ "min", "max", "sum" ] }, { "field": "voltage", "metrics": [ "avg" ] } ] }
这将汇总 sensor-*
模式并将结果存储在 sensor_rollup
中。要搜索此汇总数据,我们需要使用 _rollup_search
端点。但是,您会注意到我们可以使用常规查询 DSL 搜索汇总数据
response = client.rollup.rollup_search( index: 'sensor_rollup', body: { size: 0, aggregations: { max_temperature: { max: { field: 'temperature' } } } } ) puts response
GET /sensor_rollup/_rollup_search { "size": 0, "aggregations": { "max_temperature": { "max": { "field": "temperature" } } } }
查询针对 sensor_rollup
数据,因为该数据包含作业中配置的汇总数据。在 temperature
字段上使用了 max
聚合,产生了以下响应
{ "took" : 102, "timed_out" : false, "terminated_early" : false, "_shards" : ... , "hits" : { "total" : { "value": 0, "relation": "eq" }, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "max_temperature" : { "value" : 202.0 } } }
响应与您对常规查询 + 聚合的期望完全一致;它提供了一些有关请求的元数据 (took
、_shards
等)、搜索命中(对于汇总搜索始终为空)以及聚合响应。
汇总搜索仅限于汇总作业中配置的功能。例如,我们无法计算平均温度,因为 avg
不是 temperature
字段的配置指标之一。如果我们尝试执行该搜索
response = client.rollup.rollup_search( index: 'sensor_rollup', body: { size: 0, aggregations: { avg_temperature: { avg: { field: 'temperature' } } } } ) puts response
GET sensor_rollup/_rollup_search { "size": 0, "aggregations": { "avg_temperature": { "avg": { "field": "temperature" } } } }
{ "error": { "root_cause": [ { "type": "illegal_argument_exception", "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.", "stack_trace": ... } ], "type": "illegal_argument_exception", "reason": "There is not a rollup job that has a [avg] agg with name [avg_temperature] which also satisfies all requirements of query.", "stack_trace": ... }, "status": 400 }
搜索历史汇总数据和非汇总数据编辑
汇总搜索 API 能够跨“实时”非汇总数据和汇总的汇总数据进行搜索。这只需将实时索引添加到 URI 中即可完成
response = client.rollup.rollup_search( index: 'sensor-1,sensor_rollup', body: { size: 0, aggregations: { max_temperature: { max: { field: 'temperature' } } } } ) puts response
GET sensor-1,sensor_rollup/_rollup_search { "size": 0, "aggregations": { "max_temperature": { "max": { "field": "temperature" } } } }
执行搜索时,汇总搜索端点会执行两件事
- 原始请求将以不变的方式发送到非汇总索引。
- 原始请求的重写版本将发送到汇总索引。
收到两个响应后,端点会重写汇总响应并将两者合并。在合并过程中,如果两个响应之间的桶有任何重叠,则使用来自非汇总索引的桶。
对上述查询的响应看起来与预期一致,尽管它跨越了汇总索引和非汇总索引
{ "took" : 102, "timed_out" : false, "terminated_early" : false, "_shards" : ... , "hits" : { "total" : { "value": 0, "relation": "eq" }, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "max_temperature" : { "value" : 202.0 } } }