_doc_count 字段
Bucket 聚合始终返回一个名为 doc_count
的字段,其中显示了在每个 Bucket 中聚合和分区的文档数量。doc_count
值的计算非常简单。每个 Bucket 中收集到的每个文档都会使 doc_count
递增 1。
虽然这种简单方法在计算单个文档的聚合时是有效的,但它无法准确表示存储预聚合数据的文档(例如 histogram
或 aggregate_metric_double
字段),因为一个汇总字段可能代表多个文档。
为了在使用预聚合数据时正确计算文档数量,我们引入了一种名为 _doc_count
的元数据字段类型。_doc_count
必须始终是一个正整数,表示在单个汇总字段中聚合的文档数量。
将字段 _doc_count
添加到文档后,所有 Bucket 聚合都将尊重其值,并将 Bucket 的 doc_count
按该字段的值递增。如果文档不包含任何 _doc_count
字段,则默认隐含 _doc_count = 1
。
重要提示
_doc_count
字段每个文档只能存储一个正整数。不允许使用嵌套数组。- 如果文档不包含任何
_doc_count
字段,Aggregator 将递增 1,这是默认行为。
以下 create index API 请求创建了一个新索引,其字段映射如下:
my_histogram
,一个用于存储百分位数据的histogram
字段my_text
,一个用于存储直方图标题的keyword
字段
PUT my_index
{
"mappings" : {
"properties" : {
"my_histogram" : {
"type" : "histogram"
},
"my_text" : {
"type" : "keyword"
}
}
}
}
以下 index API 请求存储了两个直方图的预聚合数据:histogram_1
和 histogram_2
。
PUT my_index/_doc/1
{
"my_text" : "histogram_1",
"my_histogram" : {
"values" : [0.1, 0.2, 0.3, 0.4, 0.5],
"counts" : [3, 7, 23, 12, 6]
},
"_doc_count": 45
}
PUT my_index/_doc/2
{
"my_text" : "histogram_2",
"my_histogram" : {
"values" : [0.1, 0.25, 0.35, 0.4, 0.45, 0.5],
"counts" : [8, 17, 8, 7, 6, 2]
},
"_doc_count": 62
}
- 字段
_doc_count
必须是一个正整数,存储聚合生成每个直方图的文档数量。
如果在 my_index
上运行以下 terms aggregation
GET /_search
{
"aggs" : {
"histogram_titles" : {
"terms" : { "field" : "my_text" }
}
}
}
我们将获得以下响应
{
...
"aggregations" : {
"histogram_titles" : {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets" : [
{
"key" : "histogram_2",
"doc_count" : 62
},
{
"key" : "histogram_1",
"doc_count" : 45
}
]
}
}
}