安装编辑

您可以通过以下两种方式获取 elasticsearch-hadoop 二进制文件:从 elastic.co 网站下载 ZIP 文件(包含项目 jar、源代码和文档),或者使用任何与 Maven 兼容的工具,并使用以下依赖项

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop</artifactId>
  <version>8.14.2</version>
</dependency>

上面的 jar 文件包含 elasticsearch-hadoop 的所有功能,并且在运行时不需要任何其他依赖项;换句话说,它可以按原样使用。

elasticsearch-hadoop 二进制文件适用于 Hadoop 2.x(也称为 YARN)环境。5.5 版本已弃用对 Hadoop 1.x 环境的支持,并且在 6.0 版本中将不再对其进行测试。

精简版二进制文件编辑

除了 uber jar 之外,elasticsearch-hadoop 还为每个集成提供了精简版 jar,专为仅使用一个模块的用户量身定制(在所有其他情况下,建议使用 uber jar);这些 jar 的体积更小,并使用专用的 pom,仅涵盖所需的依赖项。这些文件可在相同的 groupId 下找到,并使用模式为 elasticsearch-hadoop-{integration}artifactId

Map/Reduce。

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop-mr</artifactId> 
  <version>8.14.2</version>
</dependency>

mr 工件

Apache Hive。

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop-hive</artifactId> 
  <version>8.14.2</version>
</dependency>

hive 工件

Apache Spark。

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-spark-30_2.12</artifactId> 
  <version>8.14.2</version>
</dependency>

spark 工件。请注意后缀中的 -30 部分,它表示与该工件兼容的 Spark 版本。对于 Spark 3.0+,请使用 30;对于 Spark 2.0+,请使用 20;对于 Spark 1.3-1.6,请使用 13。请注意 _2.12 后缀,它表示与该工件兼容的 Scala 版本。目前,它与 Spark 本身使用的版本相同。

Spark 连接器框架对版本不兼容性最为敏感。为了方便起见,下面提供了一个版本兼容性矩阵

Spark 版本 Scala 版本 ES-Hadoop 工件 ID

1.0 - 2.x

2.10

<不支持>

1.0 - 1.6

2.11

<不支持>

2.x

2.11

elasticsearch-spark-20_2.11

2.x

2.12

elasticsearch-spark-20_2.12

3.0+

2.12

elasticsearch-spark-30_2.12

3.2+

2.13

elasticsearch-spark-30_2.13

开发构建编辑

开发(或夜间或快照)构建每天发布在 sonatype-oss 存储库中(见下文)。确保使用快照版本控制

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop</artifactId>
  <version>{version}-SNAPSHOT</version> 
</dependency>

请注意 BUILD-SNAPSHOT 后缀,它表示开发构建

还要启用专用的快照存储库

<repositories>
  <repository>
    <id>sonatype-oss</id>
    <url>http://oss.sonatype.org/content/repositories/snapshots</url> 
    <snapshots><enabled>true</enabled></snapshots> 
  </repository>
</repositories>

添加快照存储库

在存储库上启用 snapshots 功能,否则 Maven 将无法找到它们

升级您的堆栈编辑

Elasticsearch for Apache Hadoop 是 Elasticsearch 的客户端库,尽管它具有支持在 Hadoop/Spark 上进行操作的扩展功能。升级 Hadoop/Spark 版本时,最好检查新版本是否受连接器支持,并根据需要升级 elasticsearch-hadoop 版本。

Elasticsearch for Apache Hadoop 向后兼容 Elasticsearch 上一个主要版本的最新次要版本(5.X 支持回退到 2.4.X,6.X 支持回退到 5.6.X,等等)。升级 Elasticsearch 版本时,最好先将 elasticsearch-hadoop 升级到新版本(或更高版本)。新的 elasticsearch-hadoop 版本应该继续适用于您以前的 Elasticsearch 版本,允许您正常升级。

Elasticsearch for Apache Hadoop 不太支持滚动升级。在滚动升级期间,elasticsearch-hadoop 与之通信的节点将定期消失并重新上线。由于 elasticsearch-hadoop 在滚动升级期间会遇到持续的连接失败,因此您的作业很可能会失败。因此,建议您在滚动升级过程中禁用针对 Elasticsearch 的任何基于 elasticsearch-hadoop 的写入或读取作业。