日志记录
编辑日志记录编辑
elasticsearch-hadoop 使用与 Hadoop 相同的 commons-logging 库作为其日志记录基础架构,因此它们共享相同的配置方式。开箱即用,无需任何配置 - 默认情况下,elasticsearch-hadoop 会以 INFO
级别记录有关作业进度的相关信息。通常,无论您使用哪种集成(Map/Reduce、Hive),每个作业都会在控制台中至少打印一条消息,指示所使用的 elasticsearch-hadoop 版本
16:13:01,946 INFO main util.Version - Elasticsearch Hadoop v2.0.0.BUILD-SNAPSHOT [f2c5c3e280]
配置 Hadoop(或 Hive)的日志记录超出了本文档的范围,但简而言之,在运行时,Hadoop 依赖于 log4j 1.2 作为实际的日志记录实现。实际上,这意味着将感兴趣的包名称及其级别记录添加到作业类路径中的 log4j.properties
文件中。elasticsearch-hadoop 提供以下重要软件包
软件包 | 用途 |
---|---|
|
Apache Hive 集成 |
|
Map/Reduce 功能 |
|
REST/传输基础架构 |
|
序列化包 |
|
Apache Spark 包 |
默认日志记录级别 (INFO
) 适用于日常使用;如果需要进行故障排除,请考虑切换到 DEBUG
,但要选择性地包含软件包。对于低级详细信息,请启用级别 TRACE
,但请记住,这将导致记录 大量 数据,这将 影响您的作业性能和环境。
总而言之,如果要对 Map/Reduce 包启用 DEBUG
日志记录,请对 log4j.properties
(由您的环境使用)进行更改
log4j.category.org.elasticsearch.hadoop.mr=DEBUG
有关更多信息,请参阅 log4j javadoc。
配置_执行_ JVM 日志记录,而不是客户端编辑
需要注意的一点是,在几乎所有情况下,都需要在_执行_ JVM(Map/Reduce 任务实际运行的地方)中配置日志记录,而不是在组装或监控作业的客户端上配置。根据您的库、平台和版本,可以通过一些专用设置来完成此操作。特别是像 Hive 这样的基于 Map/Reduce 的库可能难以配置,因为在运行时,它们会创建 Map/Reduce 任务来实际执行工作。因此,需要配置日志记录并将配置传递给 Map/Reduce 层以进行日志记录。在这两种情况下,都可以通过 SET
命令来实现。特别是当使用 Hadoop 2.6 时,可以将 mapreduce.job.log4j-properties-file
与适当的 container-log4j.properties
文件一起使用。