Xml 过滤器插件

编辑
  • 插件版本: v4.2.1
  • 发布日期: 2024-10-29
  • 更新日志

有关其他版本,请参阅版本化插件文档

获取帮助

编辑

有关插件的问题,请在Discuss论坛中打开一个主题。有关错误或功能请求,请在Github中打开一个 issue。有关 Elastic 支持的插件列表,请参阅Elastic 支持矩阵

描述

编辑

XML 过滤器。获取包含 XML 的字段,并将其展开为实际的数据结构。

Xml 过滤器配置选项

编辑

此插件支持以下配置选项以及稍后描述的通用选项

另请参阅通用选项,其中列出了所有过滤器插件支持的选项。

 

force_array

编辑

默认情况下,过滤器将强制将单个元素作为数组处理。将其设置为 false 将阻止将单个元素存储在数组中。

force_content

编辑

默认情况下,过滤器将以不同的方式展开标签内的属性和内容。此选项允许您强制将文本内容和属性始终解析为哈希值。

namespaces

编辑
  • 值类型为哈希
  • 默认值为{}

默认情况下,仅考虑根元素上的命名空间声明。这允许配置所有命名空间声明以解析 XML 文档。

示例

filter {
  xml {
    namespaces => {
      "xsl" => "http://www.w3.org/1999/XSL/Transform"
      "xhtml" => "http://www.w3.org/1999/xhtml"
    }
  }
}

parse_options

编辑
  • 值类型为字符串
  • 此设置没有默认值。

设置 XML 解析选项可以更好地控制解析过程。默认情况下,解析器不是严格的,因此会接受一些无效的内容。当前支持的选项是

  • strict - 强制解析器尽早失败,而不是在内容不是有效的 xml 时累积错误。

不允许使用 ASCII 0x0 等控制字符,并且始终会导致 XML 无效。

当 XML 内容无效时,它将被标记为_xmlparsefailure

XML 规范

remove_namespaces

编辑

删除文档中所有节点的所有命名空间。当然,如果文档中具有相同名称但不同命名空间的节点,那么它们现在将是模糊的。

source

编辑
  • 这是一个必需的设置。
  • 值类型为字符串
  • 此设置没有默认值。

xml 到哈希的配置为

    source => source_field

例如,如果您在 message 字段中拥有整个 XML 文档

    filter {
      xml {
        source => "message"
      }
    }

上述操作将从 message 字段解析 XML。

store_xml

编辑

默认情况下,过滤器会将整个已解析的 XML 存储在如上所述的目标字段中。将其设置为 false 将阻止这种情况发生。

suppress_empty

编辑

默认情况下,如果元素为空,则不输出任何内容。如果设置为 false,则空元素将生成一个空的哈希对象。

target

编辑
  • 值类型为字符串
  • 此设置没有默认值。

定义放置数据的目标

例如,如果您希望将数据放入 doc 字段

    filter {
      xml {
        target => "doc"
      }
    }

源字段值中的 XML 将被展开为 target 字段中的数据结构。注意:如果 target 字段已经存在,它将被覆盖。如果 store_xml 为 true(这是默认值),则为必需。

xpath

编辑
  • 值类型为哈希
  • 默认值为{}

xpath 将额外从已解析的 XML(使用上述方法定义的每个源字段)中选择字符串值(非字符串将使用 Ruby 的 to_s 函数转换为字符串),并将这些值放置在目标字段中。配置

xpath => [ "xpath-syntax", "destination-field" ]

xpath-syntax 的 XPath 解析返回的值将放入目标字段中。返回的多个值将作为数组推送到目标字段上。因此,跨多个源字段的多个匹配项将在该字段中生成重复条目。

其他 XPath 资源
编辑

有关 XPath 的更多信息,请参阅 https://w3schools.org.cn/xml/xml_xpath.asp

XPath 函数特别强大。

通用选项

编辑

所有过滤器插件都支持这些配置选项

add_field

编辑
  • 值类型为 哈希
  • 默认值为{}

如果此过滤器成功,则向此事件添加任何任意字段。字段名称可以是动态的,并使用 %{field} 包括事件的部分。

示例

    filter {
      xml {
        add_field => { "foo_%{somefield}" => "Hello world, from %{host}" }
      }
    }
    # You can also add multiple fields at once:
    filter {
      xml {
        add_field => {
          "foo_%{somefield}" => "Hello world, from %{host}"
          "new_field" => "new_static_value"
        }
      }
    }

如果事件具有字段 "somefield" == "hello",则此过滤器在成功时会添加字段 foo_hello(如果存在),其值如上,并且 %{host} 部分被事件中的该值替换。第二个示例还将添加一个硬编码字段。

add_tag

编辑
  • 值类型为 数组
  • 默认值为 []

如果此过滤器成功,则向事件添加任意标记。标记可以是动态的,并使用 %{field} 语法包括事件的部分。

示例

    filter {
      xml {
        add_tag => [ "foo_%{somefield}" ]
      }
    }
    # You can also add multiple tags at once:
    filter {
      xml {
        add_tag => [ "foo_%{somefield}", "taggedy_tag"]
      }
    }

如果事件具有字段 "somefield" == "hello",则此过滤器在成功时会添加标记 foo_hello(第二个示例当然会添加一个 taggedy_tag 标记)。

enable_metric

编辑

禁用或启用此特定插件实例的指标日志记录。默认情况下,我们会记录所有可以记录的指标,但您可以禁用特定插件的指标收集。

  • 值类型为 字符串
  • 此设置没有默认值。

向插件配置添加唯一的 ID。如果未指定 ID,Logstash 将生成一个 ID。强烈建议在配置中设置此 ID。当您有两个或多个相同类型的插件时(例如,如果您有两个 xml 过滤器)这尤其有用。在这种情况下添加命名 ID 将有助于在使用监控 API 时监控 Logstash。

    filter {
      xml {
        id => "ABC"
      }
    }

id 字段中的变量替换仅支持环境变量,并且不支持使用密钥存储中的值。

periodic_flush

编辑

定期调用过滤器刷新方法。可选。

remove_field

编辑
  • 值类型为 数组
  • 默认值为 []

如果此过滤器成功,则从此事件中删除任意字段。字段名称可以是动态的,并使用 %{field} 包括事件的部分。示例

    filter {
      xml {
        remove_field => [ "foo_%{somefield}" ]
      }
    }
    # You can also remove multiple fields at once:
    filter {
      xml {
        remove_field => [ "foo_%{somefield}", "my_extraneous_field" ]
      }
    }

如果事件具有字段 "somefield" == "hello",则此过滤器在成功时会删除名称为 foo_hello 的字段(如果存在)。第二个示例将删除一个额外的、非动态的字段。

remove_tag

编辑
  • 值类型为 数组
  • 默认值为 []

如果此过滤器成功,则从此事件中删除任意标记。标记可以是动态的,并使用 %{field} 语法包括事件的部分。

示例

    filter {
      xml {
        remove_tag => [ "foo_%{somefield}" ]
      }
    }
    # You can also remove multiple tags at once:
    filter {
      xml {
        remove_tag => [ "foo_%{somefield}", "sad_unwanted_tag"]
      }
    }

如果事件具有字段 "somefield" == "hello",则此过滤器在成功时会删除标记 foo_hello(如果存在)。第二个示例也会删除一个悲伤、不需要的标记。