需求
编辑需求编辑
在运行 elasticsearch-hadoop 之前,请查看以下需求。当在集群中部署 elasticsearch-hadoop 时,这一点尤其重要,因为某些机器上的软件可能略有不同步。虽然 elasticsearch-hadoop 会尽力回退并对其环境进行各种验证,但尤其是在升级期间进行快速健全性检查可以节省您很多麻烦。
在检查某个工件的版本时,请确保验证集群中的所有节点。
elasticsearch-hadoop 不会对 Hadoop(或构建在其之上的各种库,如 Hive)或 Elasticsearch 添加任何额外需求,但作为经验法则,请使用所述库的最新稳定版本(检查与 Hadoop 和 JDK 的兼容性,如果适用)。
JDK编辑
JDK 8 级(至少 u20 或更高)。Elasticsearch 的最新支持矩阵可在此处获得此处。请注意,JVM 版本对于稳定环境至关重要,因为错误的版本可能会损坏底层数据,如本博客文章中所述。
可以从命令行检查可用的 JDK 版本
$ java -version java version "1.8.0_45"
Elasticsearch编辑
我们强烈建议使用最新的 Elasticsearch(目前为 8.14.2)。虽然 elasticsearch-hadoop 保持与以前版本的 Elasticsearch 的向后兼容性,但我们强烈建议使用最新的稳定版本的 Elasticsearch。您可以在此处找到支持版本的矩阵此处。
Elasticsearch 版本显示在其文件夹名称中
$ ls elasticsearch-8.14.2
如果 Elasticsearch 正在运行(本地或远程),则可以通过 REST 找出其版本
$ curl -XGET https://127.0.0.1:9200 { "status" : 200, "name" : "Dazzler", "version" : { "number" : "8.14.2", ... }, "tagline" : "You Know, for Search" }
Hadoop编辑
elasticsearch-hadoop 与 Hadoop 2 和 Hadoop 3 兼容(理想情况下是最新稳定版本)。它每天都会针对 Apache Hadoop 进行测试,但任何与 Apache Hadoop 兼容的发行版都应该可以正常工作。
要检查 Hadoop 的版本,可以参考其文件夹或 jar(其中包含其名称中的版本)或从命令行参考
$ bin/hadoop version Hadoop 3.3.1
Apache Hive编辑
Apache Hive 0.10 或更高版本。我们建议使用 Hive 的最新版本(目前为 2.3.8)。
可以从其文件夹名称或命令行找出 Hive 版本
$ bin/hive --version Hive version 2.3.8
Apache Spark编辑
Spark 2.0 或更高版本。我们建议使用 Spark 的最新版本(目前为 3.2.0)。由于 elasticsearch-hadoop 提供了与 Apache Spark 的原生集成(推荐),因此使用哪个二进制文件并不重要。当使用 Hadoop 层来集成这两个层时,也是如此,因为 elasticsearch-hadoop 支持大多数 Hadoop 发行版。
通常可以通过查看其文件夹名称来发现 Spark 版本
$ pwd /libs/spark/spark-3.2.0-bin-XXXXX
或通过运行其 shell
$ bin/spark-shell ... Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.2.0 /_/ ...
Apache Spark SQL编辑
如果计划使用 Spark SQL,请确保将适当的 Spark SQL jar 添加为依赖项。虽然它是 Spark 发行版的一部分,但它不是 Spark 核心 jar 的一部分,而是有自己的 jar。因此,在构建类路径时,请确保包含spark-sql-<scala-version>.jar
或 Spark 程序集:spark-assembly-3.2.0-<distro>.jar
elasticsearch-hadoop 支持 Spark SQL 2.x 和 Spark SQL 3.x。elasticsearch-hadoop 通过其主 jar 支持 Scala 2.11 上的 Spark SQL 2.x。由于 Spark 2.x 和 3.x 彼此不兼容,并且 Scala 版本也不兼容,因此 elasticsearch-hadoop 提供了多个不同的工件。选择适合您的 Spark 和 Scala 版本的 jar。有关更多信息,请参见 Spark 章节。