中位数绝对偏差聚合编辑

single-value 聚合近似于其搜索结果的 中位数绝对偏差

中位数绝对偏差是变异性的度量。它是一个稳健的统计量,这意味着它对于描述可能存在异常值或可能不符合正态分布的数据很有用。对于此类数据,它可能比标准差更具描述性。

它被计算为每个数据点与其整个样本中位数的偏差的中位数。也就是说,对于随机变量 X,中位数绝对偏差是 median(|median(X) - Xi|)。

示例编辑

假设我们的数据代表了对产品的五星级评价。此类评价通常被总结为平均值,这很容易理解,但并不能描述评价的变异性。估计中位数绝对偏差可以洞察评价彼此之间的差异程度。

在这个例子中,我们有一个产品的平均评分为 3 星。让我们看看它的评分的中位数绝对偏差,以确定它们的变化程度

response = client.search(
  index: 'reviews',
  body: {
    size: 0,
    aggregations: {
      review_average: {
        avg: {
          field: 'rating'
        }
      },
      review_variability: {
        median_absolute_deviation: {
          field: 'rating'
        }
      }
    }
  }
)
puts response
GET reviews/_search
{
  "size": 0,
  "aggs": {
    "review_average": {
      "avg": {
        "field": "rating"
      }
    },
    "review_variability": {
      "median_absolute_deviation": {
        "field": "rating" 
      }
    }
  }
}

rating 必须是数字字段

结果中位数绝对偏差为 2,这告诉我们评分存在相当大的变异性。评论者对该产品一定有不同的意见。

{
  ...
  "aggregations": {
    "review_average": {
      "value": 3.0
    },
    "review_variability": {
      "value": 2.0
    }
  }
}

近似编辑

计算中位数绝对偏差的朴素实现将整个样本存储在内存中,因此此聚合改为计算近似值。它使用 TDigest 数据结构 来近似样本中位数和样本中位数的偏差中位数。有关 TDigest 近似特性的更多信息,请参见 百分位数通常是近似的

TDigest 的分位数近似值在资源使用和准确性之间的权衡,以及因此此聚合对中位数绝对偏差近似的准确性,由 compression 参数控制。较高的 compression 设置以更高的内存使用为代价提供更准确的近似值。有关 TDigest compression 参数特性的更多信息,请参见 压缩

response = client.search(
  index: 'reviews',
  body: {
    size: 0,
    aggregations: {
      review_variability: {
        median_absolute_deviation: {
          field: 'rating',
          compression: 100
        }
      }
    }
  }
)
puts response
GET reviews/_search
{
  "size": 0,
  "aggs": {
    "review_variability": {
      "median_absolute_deviation": {
        "field": "rating",
        "compression": 100
      }
    }
  }
}

此聚合的默认 compression 值为 1000。在此压缩级别下,此聚合通常在精确结果的 5% 以内,但观察到的性能将取决于样本数据。

脚本编辑

在上面的示例中,产品评价的范围是一到五。如果要将它们修改为一到十的范围,请使用 运行时字段

response = client.search(
  index: 'reviews',
  filter_path: 'aggregations',
  body: {
    size: 0,
    runtime_mappings: {
      'rating.out_of_ten' => {
        type: 'long',
        script: {
          source: "emit(doc['rating'].value * params.scaleFactor)",
          params: {
            "scaleFactor": 2
          }
        }
      }
    },
    aggregations: {
      review_average: {
        avg: {
          field: 'rating.out_of_ten'
        }
      },
      review_variability: {
        median_absolute_deviation: {
          field: 'rating.out_of_ten'
        }
      }
    }
  }
)
puts response
GET reviews/_search?filter_path=aggregations
{
  "size": 0,
  "runtime_mappings": {
    "rating.out_of_ten": {
      "type": "long",
      "script": {
        "source": "emit(doc['rating'].value * params.scaleFactor)",
        "params": {
          "scaleFactor": 2
        }
      }
    }
  },
  "aggs": {
    "review_average": {
      "avg": {
        "field": "rating.out_of_ten"
      }
    },
    "review_variability": {
      "median_absolute_deviation": {
        "field": "rating.out_of_ten"
      }
    }
  }
}

这将导致

{
  "aggregations": {
    "review_average": {
      "value": 6.0
    },
    "review_variability": {
      "value": 4.0
    }
  }
}

缺失值编辑

missing 参数定义了如何处理缺少值的文档。默认情况下,它们将被忽略,但也可以将它们视为具有值。

让我们乐观地假设一些评论者太喜欢该产品,以至于忘记了给它评分。我们将给他们五颗星

response = client.search(
  index: 'reviews',
  body: {
    size: 0,
    aggregations: {
      review_variability: {
        median_absolute_deviation: {
          field: 'rating',
          missing: 5
        }
      }
    }
  }
)
puts response
GET reviews/_search
{
  "size": 0,
  "aggs": {
    "review_variability": {
      "median_absolute_deviation": {
        "field": "rating",
        "missing": 5
      }
    }
  }
}