大数据管理领域的革命:揭示 Amazon EMR 和 Elastic 集成的强大功能

Amazon EMR 使您能够轻松运行和扩展大数据工作负载。借助 Elastic 的原生集成,您将更有信心监控、分析和优化您的 EMR 集群,为您的数据驱动型计划开启令人兴奋的机会。

6 分钟阅读
Revolutionizing big data management: Unveiling the power of Amazon EMR and Elastic integration

在动态的数据处理领域,Amazon EMR 作为 AWS 提供的大数据服务占据中心地位,为运行 Apache Spark 和大量其他开源应用程序提供了经济高效的渠道。虽然 EMR 的功能令人印象深刻,但警惕的监控艺术是充分发挥其潜力的关键。这篇博文解释了监控 Amazon EMR 集群的关键作用,强调了与 Elastic® 的变革性集成。

Elastic 可以让组织更轻松地将数据转化为可操作的见解,并通过统一的环境可见性快速阻止威胁 — 这样,无论发生什么,关键任务应用程序都可以保持平稳运行。从免费试用和快速部署,到安全无障碍地将日志发送到 Elastic,您只需点击几下即可从您的 AWS 服务捕获、存储和搜索数据。

通过 Elastic 可观测性监控 EMR

在本文中,我们将深入探讨以下关键方面

  • 为 Elastic 集成启用 EMR 集群指标:了解配置 EMR 集群以发出 Elastic 可以有效提取的指标的复杂性,为深入分析铺平道路。
  • 利用 Kibana ® 仪表板进行 EMR 工作负载分析:探索利用 Kibana 仪表板来剖析与 EMR 工作负载相关的指标的潜力。通过更深入的了解,我们打开了优化机会的大门。

AWS EMR 集成的关键优势

  • 全面监控:实时监控 EMR 集群的健康状况和性能。跟踪与集群状态和利用率、节点状态、IO 以及许多其他指标相关的指标,使您能够识别瓶颈并优化数据处理。
  • 日志分析:轻松深入了解 EMR 日志。我们的集成使您能够收集和分析集群中的日志,帮助您排除问题并获得有价值的见解。
  • 成本优化:了解 EMR 集群的成本影响。通过监控资源利用率,您可以找到优化集群配置和降低成本的机会。
  • 警报和通知:根据 EMR 指标和日志设置自定义警报。当性能阈值被突破时收到通知,确保您可以及时采取行动。
  • 无缝集成:我们的集成旨在易于使用。入门很简单,您可以快速开始监控您的 EMR 集群。

伴随这些讨论的是一个说明性的解决方案架构图,提供了对所提出解决方案中的复杂性和交互的可视化表示。

如何开始

在可观测性中开始使用 AWS EMR 集成非常简单。以下是步骤的快速概述

先决条件和配置

如果您打算按照本博文中概述的步骤进行操作,则需要提前准备好一些先决条件和配置。

  1. 您需要在 Elastic Cloud 上拥有一个帐户,并且已部署堆栈和代理。有关在 AWS 上部署堆栈的说明,请参见 此处。这对于 AWS EMR 日志记录和分析是必需的。

  2. 您还需要一个具有从 AWS 中提取数据所需权限的 AWS 帐户。有关所需权限的详细信息,请参见我们的文档

  3. 最后,请确保在部署集群时为 EMR 集群启用 EMR 监控。

步骤 1:在 Elastic 创建一个帐户

按照提供的步骤在 Elastic Cloud 上创建一个帐户

步骤 2:添加集成

  1. 登录到您在 AWS 上的 Elastic Cloud 部署。

  1. 单击 添加集成。您将导航到支持的集成目录。

  1. 搜索并选择 Amazon EMR

步骤 3:配置集成

  1. 单击 添加 Amazon EMR 按钮并提供所需的详细信息。

  2. 提供所需的访问凭据以连接到您的 EMR 实例。

  3. 您可以选择通过 S3 收集 EMR 指标、EMR 日志或通过 Cloudwatch 收集 EMR 日志。

  4. 单击页面底部的 保存并继续 按钮。

步骤 4:分析和监控

使用该集成提供的开箱即用仪表板浏览数据。从 Elastic Cloud 顶层菜单中选择 发现

或者,创建自定义仪表板,设置警报,并深入了解您的 EMR 集群的性能。

此集成简化了重要指标和日志的收集,包括集群状态、节点状态、IO 和集群容量。收集的一些指标包括

  • IsIdle:表示集群不再执行工作,但仍然处于活动状态并产生费用
  • ContainerAllocated:ResourceManager 分配的资源容器数量
  • ContainerReserved:保留的容器数量
  • CoreNodesRunning:正在工作的核心节点数
  • CoreNodesPending:等待分配的核心节点数
  • MRActiveNodes:当前正在运行 MapReduce 任务或作业的节点数
  • MRLostNodes:分配给 MapReduce 的已被标记为 LOST 状态的节点数
  • HDFSUtilization:当前使用的 HDFS 存储百分比
  • HDFSBytesRead/Written:从 HDFS 读取/写入的字节数(此指标仅聚合 MapReduce 作业,不适用于 Amazon EMR 上的其他工作负载。)
  • TotalUnitsRequested/TotalNodesRequested/TotalVCPURequested:由托管扩展确定的集群中单位/节点/vCPU 的目标总数

结论

Elastic 致力于满足您的所有可观测性需求,提供轻松的体验。我们的集成旨在简化遥测数据的提取过程,让您可以方便地访问关键信息以进行监控、分析和可观测性。原生的 AWS EMR 集成突显了我们致力于为您的数据需求提供无缝解决方案的决心。通过此集成,您将更有信心监控、分析和优化您的 EMR 集群,为您的数据驱动型计划开启令人兴奋的机会。

立即开始免费试用

通过 AWS Marketplace 注册,开始您自己的7 天免费试用,并在几分钟内在世界各地 AWS 上的 Elastic Cloud 区域中启动部署。您在 AWS Marketplace 上购买的 Elastic 将包含在您的每月综合账单中,并将计入您在 AWS 中的承诺支出。

本帖中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。任何当前不可用的特性或功能可能不会按时交付,或者根本不会交付。

分享这篇文章