正在加载

什么是 Elastic Observability?

可观测性提供了对环境中运行的应用程序行为的精细洞察和上下文。 它是您构建和想要监控的任何系统的重要组成部分。 能够在一个可观测的系统中快速检测和修复根本原因事件是任何分析师的最低要求。

Elastic Observability 提供了一个统一的堆栈来统一您的日志、基础设施指标、应用程序跟踪、用户体验数据、合成数据和通用分析。 将您的数据直接摄取到 Elasticsearch 中,您可以在其中进一步处理和增强数据,然后在 Kibana 中对其进行可视化并添加警报。

Elastic {{observability}} overview diagram

分析来自您的主机、服务、Kubernetes、Apache 和更多其他服务的日志数据。

Discover 中,您可以快速搜索和过滤您的日志数据,获取有关字段结构的信息,并在可视化中显示您的发现。

Discover showing log events

了解更多关于日志监控的信息 →

通过安装 APM 代理(如 Java、Go、.NET 和更多其他代理)来检测您的代码并在运行时收集性能数据和错误。 然后使用 Observability 来实时监控您的软件服务和应用程序

  • 可视化您的服务的详细性能信息。
  • 识别和分析错误。
  • 监控主机级别和 APM 代理特定的指标,如 JVM 和 Go 运行时指标。

服务 清单提供了所有检测服务的健康状况和总体性能的快速、高级概览。

Service inventory showing health and performance of instrumented services

了解更多关于应用程序性能监控 (APM) 的信息 →

监控来自您的服务器、Docker、Kubernetes、Prometheus 和其他服务和应用程序的系统和服务指标。

在 Observability 概述 页面上,主机 表显示了资源占用最多的顶部主机。 这些指标可帮助您评估主机效率并确定资源消耗是否影响最终用户。

Summary of Hosts on the {{observability}} overview page

然后,您可以通过单击 显示清单 来深入了解基础设施应用程序。 在这里,您可以按主机、Pod、容器或 EC2 实例监控和过滤您的数据,并创建自定义分组,例如可用区或命名空间。

了解更多关于基础设施监控的信息 →

使用用户体验数据(由 APM RUM 代理提供支持)量化和分析您的 Web 应用程序的感知性能。 与测试环境不同,用户体验数据反映了真实世界的用户体验。

在 Observability 概述 页面上,用户体验 图表提供了具有最多流量的服务的核心 Web 指标的快照。

Summary of {{user-experience}} metrics on the {{observability}} overview page

然后,您可以通过单击 显示仪表板 来深入了解用户体验仪表板,以查看按 URL、操作系统、浏览器和位置划分的数据。

了解更多关于用户体验的信息 →

在预定义的时间间隔和受控环境中模拟最终用户在您的网站上执行的操作和请求。 最终结果是丰富、一致且可重复的数据,您可以对其进行趋势分析和告警。

了解更多关于合成监控的信息 →

构建堆栈跟踪,以便在不更改或检测应用程序源代码的情况下查看您的系统。 使用火焰图来探索系统性能并识别成本最高的代码行,提高 CPU 资源效率,调试性能衰退,并减少云支出。

了解更多关于通用分析的信息 →

通过 Observability 的告警和操作功能(与日志监控和 APM 集成)随时了解您环境中的潜在问题。 它提供了一组内置操作和特定的阈值规则,并支持对所有规则进行集中管理。

告警 页面上,告警 表提供了在指定时间范围内发生的告警的快照。 该表包括告警状态、上次更新时间、告警原因等。

Summary of Alerts on the Observability overview page

了解更多关于告警的信息 →

根据可用性、响应时间、错误率和其他关键指标,为您的服务性能设置清晰、可衡量的目标。 然后实时监控和跟踪您的 SLO,使用详细的仪表板和告警来帮助您快速识别和解决问题。

从 SLO 概述列表中,您可以看到您的所有 SLO 以及每个 SLO 中发生的事件的快速摘要

Dashboard showing list of SLOs

了解更多关于 SLO 的信息 →

通过创建案例来收集和共享有关可观测性问题的信息。 案例允许您跟踪关键调查详细信息,向您的案例添加受让人和标签,设置其严重性和状态,并添加告警、评论和可视化。 您还可以将案例发送到第三方系统,例如 ServiceNow 和 Jira。

Screenshot showing list of cases

了解更多关于案例的信息 →

通过利用预测分析和机器学习,减少大规模检测、理解、调查和解决事件所需的时间和精力

  • 通过比较来自不同来源的实时和历史数据来查找异常,从而检测异常模式。
  • 查找并调查日志速率中异常峰值或下降的原因。
  • 检测时序数据指标中的分布变化、趋势变化和其他具有统计意义的更改点。
Log rate analysis page showing log rate spike

了解更多关于机器学习和 AIOps 的信息 →

© . All rights reserved.