› › ›

百分位数桶聚合

一个同级管道聚合，用于计算同级聚合中指定度量的所有桶的百分位数。指定的度量必须是数值型，并且同级聚合必须是多桶聚合。

语法

一个 percentiles_bucket 聚合单独看起来是这样的：

{
  "percentiles_bucket": {
    "buckets_path": "the_sum"
  }
}

表 78. percentiles_bucket 参数

参数名	描述	是否必需	默认值
`buckets_path`	我们希望找到百分位数的桶的路径（更多细节请参阅 `buckets_path` 语法）	是否必需
`gap_policy`	当在数据中发现间隙时应用的策略（更多细节请参阅处理数据中的间隙）	可选	`skip`
`format`	用于输出值的 DecimalFormat 模式。如果指定，格式化后的值将在聚合的 `value_as_string` 属性中返回	可选	`null`
`percents`	要计算的百分位数列表	可选	`[ 1, 5, 25, 50, 75, 95, 99 ]`
`keyed`	标志，它返回范围作为哈希而不是键值对数组	可选	`true`

以下代码片段计算每月总 sales 桶的百分位数

resp = client.search(
    index="sales",
    size=0,
    aggs={
        "sales_per_month": {
            "date_histogram": {
                "field": "date",
                "calendar_interval": "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                }
            }
        },
        "percentiles_monthly_sales": {
            "percentiles_bucket": {
                "buckets_path": "sales_per_month>sales",
                "percents": [
                    25,
                    50,
                    75
                ]
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'sales',
  body: {
    size: 0,
    aggregations: {
      sales_per_month: {
        date_histogram: {
          field: 'date',
          calendar_interval: 'month'
        },
        aggregations: {
          sales: {
            sum: {
              field: 'price'
            }
          }
        }
      },
      percentiles_monthly_sales: {
        percentiles_bucket: {
          buckets_path: 'sales_per_month>sales',
          percents: [
            25,
            50,
            75
          ]
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "sales",
  size: 0,
  aggs: {
    sales_per_month: {
      date_histogram: {
        field: "date",
        calendar_interval: "month",
      },
      aggs: {
        sales: {
          sum: {
            field: "price",
          },
        },
      },
    },
    percentiles_monthly_sales: {
      percentiles_bucket: {
        buckets_path: "sales_per_month>sales",
        percents: [25, 50, 75],
      },
    },
  },
});
console.log(response);

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "price"
          }
        }
      }
    },
    "percentiles_monthly_sales": {
      "percentiles_bucket": {
        "buckets_path": "sales_per_month>sales", 
        "percents": [ 25.0, 50.0, 75.0 ]         
      }
    }
  }
}

	`buckets_path` 指示此 percentiles_bucket 聚合，我们想要计算 `sales_per_month` 日期直方图中 `sales` 聚合的百分位数。
	`percents` 指定我们希望计算的百分位数，在本例中为第 25、50 和 75 百分位数。

以下可能是响应：

{
   "took": 11,
   "timed_out": false,
   "_shards": ...,
   "hits": ...,
   "aggregations": {
      "sales_per_month": {
         "buckets": [
            {
               "key_as_string": "2015/01/01 00:00:00",
               "key": 1420070400000,
               "doc_count": 3,
               "sales": {
                  "value": 550.0
               }
            },
            {
               "key_as_string": "2015/02/01 00:00:00",
               "key": 1422748800000,
               "doc_count": 2,
               "sales": {
                  "value": 60.0
               }
            },
            {
               "key_as_string": "2015/03/01 00:00:00",
               "key": 1425168000000,
               "doc_count": 2,
               "sales": {
                  "value": 375.0
               }
            }
         ]
      },
      "percentiles_monthly_sales": {
        "values" : {
            "25.0": 375.0,
            "50.0": 375.0,
            "75.0": 550.0
         }
      }
   }
}

Percentiles_bucket 实现

编辑

百分位数是精确计算的，而不是近似值（与百分位数度量不同）。这意味着实现会维护一个内存中的排序列表，用于计算百分位数，然后再丢弃数据。如果您尝试在单个 percentiles_bucket 中计算数百万个数据点的百分位数，则可能会遇到内存压力问题。

百分位数桶返回最接近请求的百分位数的输入数据点，将索引向正无穷大舍入；它不会在数据点之间进行插值。例如，如果有八个数据点，并且您请求 50% 百分位数，它将返回第 4 个项目，因为 ROUND_UP(.50 * (8-1)) 是 4。

« 规范化聚合序列差分聚合 »