修复常见的集群问题

编辑

本指南介绍如何修复 Elasticsearch 集群中常见的错误和问题。

水位线错误
修复当数据节点磁盘空间严重不足并达到洪水期磁盘使用水位线时发生的错误。
断路器错误
Elasticsearch 使用断路器来防止节点耗尽 JVM 堆内存。如果 Elasticsearch 估计某个操作会超过断路器的限制,它会停止该操作并返回错误。
高 CPU 使用率
高 CPU 使用率的最常见原因及其解决方案。
高 JVM 内存压力
高 JVM 内存使用率会降低集群性能并触发断路器错误。
红色或黄色集群状态
红色或黄色集群状态表示一个或多个分片丢失或未分配。这些未分配的分片会增加数据丢失的风险,并可能降低集群性能。
拒绝的请求
当 Elasticsearch 拒绝请求时,它会停止操作并返回带有 429 响应代码的错误。
任务队列积压
任务队列积压可能会阻止任务完成,并使集群进入不健康状态。
诊断未分配的分片
分片可能未分配的原因有很多,从配置错误的分配设置到磁盘空间不足。
解决不稳定集群问题
节点意外离开的集群是不稳定的,可能会造成若干问题。
映射膨胀
索引或索引模式映射字段数量激增的集群,会导致 Elasticsearch 和 Kibana 的性能查找问题。
热点问题
当资源利用率在节点之间分布不均时,Elasticsearch 中可能会出现热点问题。