DevOps 和 SRE 团队正在改变软件开发流程。DevOps 工程师专注于高效的软件应用程序和服务交付,而 SRE 团队是确保可靠性、可扩展性和性能的关键。这些团队必须依赖于全栈可观察性解决方案,使他们能够管理和监控系统,并确保在问题影响业务之前得到解决。
现代分布式应用程序的整个堆栈的可观察性需要数据收集、处理和关联,通常以仪表板的形式呈现。要接收所有系统数据,需要在堆栈、框架和提供商之间安装代理 — 对于必须处理版本更改、兼容性问题以及无法随着系统变化进行扩展的专有代码的团队来说,这一过程可能具有挑战性且耗时。
得益于 OpenTelemetry (OTel),DevOps 和 SRE 团队现在有了一种收集和发送数据的标准方法,该方法不依赖于专有代码,并拥有庞大的支持社区,从而减少了供应商锁定。
在之前的博客中,我们还回顾了如何使用 OpenTelemetry 演示并将其连接到 Elastic®,以及 Elastic 在 OpenTelemetry 和 Kubernetes 方面的一些功能。
在本博客中,我们将展示如何将 OpenTelemetry 的自动检测与我们 名为 Elastiflix 的应用程序的 Node.js 服务一起使用,这将有助于以简单的方式突出显示自动检测。
这样做的好处是不需要 otel-collector!此设置使您能够根据最适合您业务的时间表,缓慢而轻松地将应用程序迁移到使用 Elastic 的 OTel。
应用程序、先决条件和配置
我们在此博客中使用的应用程序名为 Elastiflix,这是一个电影流媒体应用程序。它由多个以 .NET、NodeJS、Go 和 Python 编写的微服务组成。
在我们检测示例应用程序之前,我们需要先了解 Elastic 如何接收遥测数据。
所有 Elastic Observability 的 APM 功能都可用于 OTel 数据。其中包括
- 服务地图
- 服务详细信息(延迟、吞吐量、失败的事务)
- 服务之间的依赖关系、分布式跟踪
- 事务(跟踪)
- 机器学习 (ML) 相关性
- 日志相关性
除了 Elastic 的 APM 和遥测数据的统一视图之外,您还可以使用 Elastic 强大的机器学习功能来减少分析和警报,从而帮助减少 MTTR。
先决条件
- 一个 Elastic Cloud 帐户 — 立即注册
- 一个 Elastiflix 演示应用程序的克隆,或您自己的 Node.js 应用程序
- Docker 的基本知识 — 可以安装 Docker Desktop
- Node.js 的基本知识
查看示例源代码
完整的源代码(包括此博客中使用的 Dockerfile)可以在 GitHub 上找到。该存储库还包含没有检测的相同应用程序。这允许您比较每个文件并查看差异。
以下步骤将向您展示如何检测此应用程序并在命令行或 Docker 中运行它。如果您对更完整的 OTel 示例感兴趣,请查看 此处的 docker-compose 文件,它将启动整个项目。
分步指南
步骤 0. 登录到您的 Elastic Cloud 帐户
此博客假定您拥有 Elastic Cloud 帐户 — 如果没有,请按照说明在 Elastic Cloud 上开始使用。
步骤 1. 配置 Node.js 服务的自动检测
我们将使用来自 Elastiflix 演示应用程序的 Node.js 服务的自动检测。
我们将使用 Elastiflix 的以下服务
Elastiflix/node-server-otel-manual
根据 OpenTelemetry JavaScript 文档和 @open-telemetry/auto-instrumentions-node 文档,您只需使用 npm 安装相应的 node 包即可。
npm install --save @opentelemetry/api
npm install --save @opentelemetry/auto-instrumentations-node
如果您在命令行上运行 Node.js 服务,则可以使用以下方法使用 Node.js 运行自动检测。
node --require '@opentelemetry/auto-instrumentations-node/register' app.js
对于我们的应用程序,我们将其作为 Dockerfile 的一部分来执行。
Dockerfile
FROM node:14
WORKDIR /app
COPY ["package.json", "./"]
RUN ls
RUN npm install --production
COPY . .
RUN npm install --save @opentelemetry/api
RUN npm install --save @opentelemetry/auto-instrumentations-node
EXPOSE 3001
CMD ["node", "--require", "@opentelemetry/auto-instrumentations-node/register", "index.js"]
步骤 2. 使用环境变量运行 Docker 映像
正如 OTEL 文档 中所指定的那样,我们将使用环境变量并传入配置值,使其能够与 Elastic Observability 的 APM 服务器连接。
由于 Elastic 原生接受 OTLP,我们只需要提供 OTEL Exporter 需要发送数据的端点和身份验证信息,以及其他一些环境变量。
获取 Elastic Cloud 变量
您可以从 Kibana® 的 /app/home#/tutorial/apm 路径下复制端点和令牌。
您需要复制以下环境变量
OTEL_EXPORTER_OTLP_ENDPOINT
OTEL_EXPORTER_OTLP_HEADERS
构建镜像
docker build -t node-otel-auto-image .
运行镜像
docker run \
-e OTEL_EXPORTER_OTLP_ENDPOINT="<REPLACE WITH OTEL_EXPORTER_OTLP_ENDPOINT>" \
-e OTEL_EXPORTER_OTLP_HEADERS="Authorization=Bearer <REPLACE WITH TOKEN>" \
-e OTEL_RESOURCE_ATTRIBUTES="service.version=1.0,deployment.environment=production" \
-e OTEL_SERVICE_NAME="node-server-otel-auto" \
-p 3001:3001 \
node-server-otel-auto
现在,您可以发出一些请求以生成跟踪数据。请注意,这些请求预计会返回错误,因为此服务依赖于您可能未在计算机上运行的一些下游服务。
curl localhost:3001/api/login
curl localhost:3001/api/favorites
# or alternatively issue a request every second
while true; do curl "localhost:3001/api/favorites"; sleep 1; done;
步骤 3:在 Elastic APM 中浏览跟踪、指标和日志
在 Elastic APM 中浏览“服务”部分,您将看到显示的 Node 服务。
点击 node-server-otel-auto 服务,您可以看到它正在使用 OpenTelemetry 接收遥测数据。
总结
在这篇博客中,我们讨论了以下内容
- 如何使用 OpenTelemetry 自动检测 Node.js
- 通过在 Dockerfile 中使用标准命令,可以高效地完成自动检测,而无需在多个位置添加代码,从而实现可管理性
由于 Elastic 可以支持混合使用多种方法来接收数据,无论是使用开源 OpenTelemetry 的自动检测还是使用其原生 APM 代理的手动检测,您都可以计划将 OTel 的迁移重点放在少数几个应用程序上,然后在后续过程中以最适合您业务需求的方式在所有应用程序中使用 OpenTelemetry。
开发者资源
- Elastiflix 应用程序,一个使用 OpenTelemetry 检测不同语言的指南
- Python:自动检测,手动检测
- Java:自动检测,手动检测
- Node.js:自动检测,手动检测
- .NET:自动检测,手动检测
- Go:手动检测
- 检测 OpenTelemetry 的最佳实践
通用配置和用例资源
- 在 Elastic 上使用 OpenTelemetry 的独立性
- 使用 Elastic 和 OpenTelemetry 在 Kubernetes 上实现现代可观测性和安全性
- 使用 OpenTelemetry 和 Elastic 进行日志记录的 3 种模型
- 将免费和开源的 Elastic APM 作为 Elastic Observability 部署的一部分添加
- 使用 Elastic 通过 OpenTelemetry API 在代码中捕获自定义指标
- 使用 OpenTelemetry 和 Elastic 为您的可观测性平台提供未来保障
- Elastic Observability:专为 Kubernetes、OpenTelemetry、Prometheus、Istio 等开放技术而构建
还没有 Elastic Cloud 账户?注册 Elastic Cloud 并试用我上面讨论的自动检测功能。我很想听听您在使用 Elastic 获取应用程序堆栈可见性方面的体验反馈。
本文中描述的任何功能或特性的发布和时间安排均由 Elastic 自行决定。任何当前不可用的功能或特性都可能无法按时交付或根本不交付。