映射和类型编辑

如前几节所述,elasticsearch-hadoop 与 Hadoop 生态系统紧密集成,并对类型信息进行深入检查,以便 Elasticsearch 和 Hadoop 之间的數據流尽可能透明。本节将更详细地介绍类型转换是如何发生的,以及数据如何在两个系统之间映射。

将数据转换为 Elasticsearch编辑

按照设计,elasticsearch-hadoop 本身不提供任何数据转换或映射层,因为它们没有必要:Hadoop 被设计用于执行 ETL,并且一些库(如 Pig 和 Hive)本身提供类型信息。此外,Elasticsearch 本身就对映射提供了丰富的支持,包括自动检测、动态/无模式映射、模板和完全手动控制。需要将字符串拆分为标记、进行数据验证或消除不需要的数据?在从 Elasticsearch 读取/写入数据之前,有很多方法可以在 Hadoop 中执行这些操作。需要控制数据在 Elasticsearch 中的存储方式?使用 Elasticsearch API 来定义映射,更新设置或添加通用元数据

时间/日期映射编辑

在处理日期时,Elasticsearch 始终使用ISO 8601 格式表示日期/时间。这是 Elasticsearch 的默认日期格式 - 如果需要自定义格式,请添加到默认选项中,而不是直接替换它。有关详细信息,请参阅 Elasticsearch 参考文档中的日期格式部分。请注意,在读取数据时,如果日期不是 ISO8601 格式,默认情况下 elasticsearch-hadoop 可能无法识别它,因为它不会复制 Elasticsearch 中复杂的日期解析。在这种情况下,可以简单地禁用日期转换,并将原始信息作为longString传递,通过es.mapping.date.rich属性

顺便说一下,elasticsearch-hadoop 会尝试检测运行时是否可以使用专门的日期解析库(特别是 Joda,Elasticsearch 也使用它),如果可以,它将使用它们。如果不能,它将默认使用 JDK 类进行解析,这些类没有那么丰富。展望未来,特别是随着 JDK 8 的出现,elasticsearch-hadoop 将尝试迁移到javax.time库,以便无论运行时可用的类路径如何,都具有相同的行为。

排序和映射编辑

重要的是要注意,JSON 对象(由{}分隔,通常与映射相关联)是无序的,换句话说,它们保持顺序。JSON 数组(通常与列表或序列相关联)是有序的,也就是说,它们确实保留初始插入顺序。这会影响从 Elasticsearch 读取对象的方式,因为可能会发现插入结构与提取结构不同。但是,很容易解决这个问题 - 由于 JSON 对象(映射)包含字段,因此使用字段名称(或键)而不是文档中的位置来可靠地获取它们的值(在 Java 术语中,可以将 JSON 对象视为HashMap而不是LinkedHashMap)。

地理类型编辑

对于地理位置,Elasticsearch 提供了两种专用类型,即geo_pointgeo_shape,它们在 elasticsearch-hadoop 集成的任何库中都没有直接等效项。此外,Elasticsearch 接受每种类型的多种格式(因为有多种表示数据的方式),实际上,geo_point有 4 种不同的表示,geo_shape有 9 种。为了解决这个问题,连接器会根据其各自类型使用的实际格式,将地理类型分解为基本类型。

对于强类型库(如 SparkSQL DataFrame),需要事先知道格式,因此,elasticsearch-hadoop 将采样数据,向 elasticsearch-hadoop 请求一个代表映射的随机文档,解析它,并根据找到的值识别使用的格式,并创建必要的模式。这会在启动时自动发生,无需用户干预。与往常一样,用户数据必须全部使用相同的格式(SparkSQL 的要求),否则读取不同的格式将触发异常。

请注意,通常,无论读取或写入数据,处理这些类型都不会给用户带来任何问题。

处理数组/多值字段编辑

Elasticsearch 对单值或多值字段的处理方式相同;实际上,映射没有提供有关此方面的任何信息。作为客户端,这意味着在实际读取之前,无法确定字段是单值还是多值。在大多数情况下,这不是问题,elasticsearch-hadoop 会自动创建必要的列表/数组。但是,在具有严格模式的环境(如 Spark SQL)中,不允许将字段的实际值从其声明的类型更改。更糟糕的是,即使在读取数据之前,也需要提供此信息。由于映射不够明确,elasticsearch-hadoop 允许用户通过字段信息指定额外信息,特别是es.read.field.as.array.includees.read.field.as.array.exclude

自动映射编辑

默认情况下,Elasticsearch 在将数据添加到之前未创建的索引下时提供自动索引和映射。换句话说,可以在没有事先定义索引和映射的情况下将数据添加到 Elasticsearch 中。这非常方便,因为 Elasticsearch 会自动适应传入的数据 - 此外,如果某些条目具有额外的字段,Elasticsearch 的无模式特性允许它们被索引而不会出现任何问题。

重要的是要记住,自动映射使用有效负载值来识别字段类型,使用第一个文档添加每个字段。elasticsearch-hadoop 通过 JSON 与 Elasticsearch 通信,JSON 不提供任何类型信息,只提供字段名称及其值。可以将其视为类型擦除或信息丢失;例如,JSON 不区分整数数字类型 - byteshortintlong都放在同一个long中。这可能会产生意想不到的副作用,因为类型信息是猜测的,例如

数字仅映射为long/double编辑

每当 Elasticsearch 遇到一个数字时,它都会为其分配最大的类型,因为它不知道该字段的确切数字类型。分配较小的类型(如byteintfloat)可能会导致问题,如果以后的文档更大,则 Elasticsearch 会使用安全的默认值。例如,文档

{
    "tweet" {
        "user" : "kimchy",
        "message" : "This is a tweet!",
        "postDate" : "2009-11-15T14:12:12",
        "priority" : 4,
        "rank" : 12.3
    }
}

触发以下映射

{ "test" : {
    "mappings" : {
      "index" : {
        "properties" : {
          "message" : {
            "type" : "string"
          },
          "postDate" : {
            "type" : "date",
            "format" : "dateOptionalTime"      
          },
          "priority" : {
            "type" : "long"                    
          },
          "rank" : {
            "type" : "double"                  
          },
          "user" : {
            "type" : "string"
          }
        }
      }
    }
  }
}

postDate 字段被识别为 ISO 8601 格式的日期 (dateOptionalTime)

integer 数字 (4) 被映射到最大的可用类型 (long)

fractional 数字 (12.3) 被映射到最大的可用类型 (double)

不正确的映射编辑

当字符串字段包含数字(例如1234)时,就会发生这种情况 - Elasticsearch 没有信息表明该数字实际上是一个字符串,因此它将该字段映射为数字,导致在遇到字符串时出现解析异常。例如,此文档

{ "array":[123, "string"] }

会导致自动映射出现异常

{"error":"MapperParsingException[failed to parse [array]]; nested: NumberFormatException[For input string: \"string\"]; ","status":400}

因为字段array最初被检测为数字(因为123),这会导致"string"触发解析异常,因为它显然不是数字。同样的问题也可能发生在字符串可能被解释为日期的情况下。

因此,如果需要覆盖默认值,或者如果遇到上述问题,可能是由于数据集多样性造成的,请考虑使用显式映射

禁用自动映射编辑

Elasticsearch 允许通过节点配置文件中的 action.auto_create_indexindex.mapper.dynamic 设置来禁用自动索引创建动态映射(用于文档中存在的额外字段)。作为安全网,elasticsearch-hadoop 提供了一个专门的配置 选项 es.index.auto.create,它允许 elasticsearch-hadoop 创建或不创建索引,而无需修改 Elasticsearch 集群选项。

显式映射edit

当需要覆盖默认值、数据检测不正确(如上所述)或在大多数情况下自定义索引分析时,应考虑显式或手动映射。请参考 Elasticsearch 创建索引映射 文档,了解如何定义索引及其类型 - 请注意,这些需要在数据上传到 Elasticsearch 之前存在(否则,如果启用,Elasticsearch 将使用自动映射)。

在大多数情况下,模板 非常方便,因为它们会自动应用于创建的与模式匹配的新索引;换句话说,与其为每个索引定义映射,不如只定义一次模板,然后将其应用于所有与模式匹配的索引。

限制edit

Elasticsearch 允许字段名称包含点 (.)。但 ES-Hadoop 不支持它们,在读取或写入包含点的字段时会失败。请参考 Elasticsearch 点扩展处理器,了解用于帮助替换字段名称中的点的工具。