捕获诊断信息

编辑

Elasticsearch 的 支持诊断 工具捕获集群统计信息和大多数设置的某个时间点的快照。它适用于所有 Elasticsearch 版本。

此信息可用于对集群问题进行故障排除。有关可以使用支持诊断工具输出进行故障排除的问题示例,请参阅 Elastic 博客

在联系 Elastic 支持Elastic Discuss 之前,您可以使用此工具生成诊断信息,以最大程度地减少周转时间。

要求

编辑
  • Java 运行时环境或 Java 开发工具包 v1.8 或更高版本

访问工具

编辑

支持诊断工具作为子库包含在某些 Elastic 部署中

  • Elastic Cloud Enterprise:位于 Elastic Cloud Enterprise > 部署 > 操作 > 准备捆绑包 > Elasticsearch 下。
  • Elastic Cloud on Kubernetes:作为 eck-diagnostics 运行。

您还可以直接从 support-diagnostic 存储库 下载最新支持诊断版本的 diagnostics-X.X.X-dist.zip 文件。

捕获诊断信息

编辑

要捕获 Elasticsearch 诊断信息

  1. 在终端中,通过轮询集群的 健康状况 验证您的网络和用户权限是否足以连接到 Elasticsearch 集群。

    例如,使用参数 host:localhostport:9200username:elastic,您将使用以下 curl 请求

    curl -X GET -k -u elastic -p https://127.0.0.1:9200/_cluster/health

    如果您收到 HTTP 200 OK 响应,则可以继续执行下一步。如果您收到不同的响应代码,则在继续之前 诊断问题

  2. 使用相同的环境参数,运行诊断工具脚本。

    有关可以传递给工具的参数的信息,请参阅 诊断参数参考

    建议使用以下命令选项

    基于 Unix 的系统

    sudo ./diagnostics.sh --type local --host localhost --port 9200 -u elastic -p --bypassDiagVerify --ssl --noVerify

    Windows

    sudo .\diagnostics.bat --type local --host localhost --port 9200 -u elastic -p --bypassDiagVerify --ssl --noVerify

    脚本执行模式

    您可以以三种 模式 执行脚本

    • local(默认,推荐):轮询 Elasticsearch API,收集操作系统信息并捕获集群和 GC 日志。
    • remote:建立到适用目标服务器的 ssh 会话以提取与 local 相同的信息。
    • api:轮询 Elasticsearch API。所有其他数据必须手动收集。
  3. 脚本完成后,请验证 diagnostic.log 中是否未记录任何错误。如果日志文件包含错误,请参阅 诊断 diagnostic.log 中的错误
  4. 如果脚本在没有错误的情况下完成,则会在工作目录或您指定的输出目录中创建格式为 <诊断类型>-diagnostics-<DateTimeStamp>.zip 的存档。您可以根据需要查看或共享诊断存档。

诊断非 200 集群健康响应

编辑

轮询集群健康状况时,如果您收到除 200 0K 之外的任何响应,则诊断工具可能无法按预期工作。以下是可能的错误代码及其解决方案

HTTP 401 UNAUTHENTICATED
错误中的其他信息通常表明您的 username:password 对无效,或者您的 .security 索引不可用,并且您需要使用 role:superuser 设置临时 基于文件的领域 用户进行身份验证。
HTTP 403 UNAUTHORIZED
您的 username 已识别,但权限不足以运行诊断。请使用不同的用户名或提升用户的权限。
HTTP 429 TOO_MANY_REQUESTS(例如,circuit_breaking_exception
您的用户名已通过身份验证和授权,但集群承受的压力过大,无法响应 API 调用。这些响应通常是间歇性的。您可以继续运行诊断,但诊断结果可能不完整。
HTTP 504 BAD_GATEWAY
您的网络在连接到集群时遇到问题。您可能正在使用代理或防火墙。请考虑从其他位置运行诊断工具,确认您的端口或使用 IP 而不是 URL 域名。
HTTP 503 SERVICE_UNAVAILABLE(例如,master_not_discovered_exception
您的集群当前没有选出的主节点,这是其响应 API 所必需的。这在主节点轮换时可能是暂时的。如果问题仍然存在,请在继续之前 调查原因

诊断 diagnostic.log 中的错误

编辑

以下是在运行诊断工具时可能遇到的常见错误

  • 错误:找不到或加载主类 com.elastic.support.diagnostics.DiagnosticApp

    这表示您意外下载了源代码文件而不是发布页面上的 diagnostics-X.X.X-dist.zip

  • 由于系统或网络错误,无法检索 Elasticsearch 版本 - 无法继续。

    这表示诊断无法对集群运行命令。再次轮询集群的健康状况,并确保在运行诊断批处理或 shell 文件时使用相同的参数。

  • 包含 is unauthorized for usersecurity_exception

    提供的用户权限不足以运行诊断工具。使用其他用户或授予用户 role:superuser 权限。