Grok 处理器编辑

从文档中的单个文本字段中提取结构化字段。您可以选择要从中提取匹配字段的字段,以及您期望匹配的 grok 模式。 grok 模式类似于支持可重复使用的别名表达式的正则表达式。

此处理器附带了许多可重复使用的模式

如果您需要帮助构建模式以匹配您的日志,您会发现Grok 调试器工具非常有用!Grok 构造器也是一个有用的工具。

在管道中使用 Grok 处理器编辑

表 23. Grok 选项

名称 必需 默认 描述

字段

-

用于 grok 表达式解析的字段

模式

-

一个有序的 grok 表达式列表,用于匹配和提取命名捕获。返回列表中第一个匹配的表达式。

pattern_definitions

-

模式名称和模式元组的映射,定义当前处理器要使用的自定义模式。匹配现有名称的模式将覆盖预先存在的定义。

ecs_compatibility

禁用

必须是 disabledv1。如果为 v1,则处理器使用带有Elastic Common Schema (ECS) 字段名称的模式。

trace_match

如果为 true,则 _ingest._grok_match_index 将插入到匹配文档的元数据中,并在 patterns 中找到匹配的模式的索引。

ignore_missing

如果为 truefield 不存在或为 null,则处理器将安静地退出,而不修改文档

描述

-

处理器的描述。用于描述处理器的用途或其配置。

如果

-

有条件地执行处理器。请参阅有条件地运行处理器

ignore_failure

忽略处理器的故障。请参阅处理管道故障

on_failure

-

处理处理器的故障。请参阅处理管道故障

标签

-

处理器的标识符。用于调试和指标。

以下是如何使用提供的模式从文档的字符串字段中提取和命名结构化字段的示例。

response = client.ingest.simulate(
  body: {
    pipeline: {
      description: '...',
      processors: [
        {
          grok: {
            field: 'message',
            patterns: [
              '%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes:int} %{NUMBER:duration:double}'
            ]
          }
        }
      ]
    },
    docs: [
      {
        _source: {
          message: '55.3.244.1 GET /index.html 15824 0.043'
        }
      }
    ]
  }
)
puts response
POST _ingest/pipeline/_simulate
{
  "pipeline": {
    "description" : "...",
    "processors": [
      {
        "grok": {
          "field": "message",
          "patterns": ["%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes:int} %{NUMBER:duration:double}"]
        }
      }
    ]
  },
  "docs":[
    {
      "_source": {
        "message": "55.3.244.1 GET /index.html 15824 0.043"
      }
    }
  ]
}

此管道将像这样将这些命名捕获作为新字段插入到文档中

{
  "docs": [
    {
      "doc": {
        "_index": "_index",
        "_id": "_id",
        "_version": "-3",
        "_source" : {
          "duration" : 0.043,
          "request" : "/index.html",
          "method" : "GET",
          "bytes" : 15824,
          "client" : "55.3.244.1",
          "message" : "55.3.244.1 GET /index.html 15824 0.043"
        },
        "_ingest": {
          "timestamp": "2016-11-08T19:43:03.850+0000"
        }
      }
    }
  ]
}

自定义模式编辑

Grok 处理器预先打包了一组基本模式。这些模式可能并不总是包含您要查找的内容。模式的格式非常基本。每个条目都有一个名称和模式本身。

您可以在 pattern_definitions 选项下的处理器定义中添加自己的模式。以下是一个指定自定义模式定义的管道示例

{
  "description" : "...",
  "processors": [
    {
      "grok": {
        "field": "message",
        "patterns": ["my %{FAVORITE_DOG:dog} is colored %{RGB:color}"],
        "pattern_definitions" : {
          "FAVORITE_DOG" : "beagle",
          "RGB" : "RED|GREEN|BLUE"
        }
      }
    }
  ]
}

提供多个匹配模式编辑

有时,一个模式不足以捕获字段的潜在结构。假设我们想匹配所有包含您最喜欢的猫或狗品种的消息。实现此目的的一种方法是提供两个可以匹配的不同模式,而不是一个非常复杂的表达式来捕获相同的 行为。

以下是在模拟 API 上执行的此类配置的示例

response = client.ingest.simulate(
  body: {
    pipeline: {
      description: 'parse multiple patterns',
      processors: [
        {
          grok: {
            field: 'message',
            patterns: [
              '%{FAVORITE_DOG:pet}',
              '%{FAVORITE_CAT:pet}'
            ],
            pattern_definitions: {
              "FAVORITE_DOG": 'beagle',
              "FAVORITE_CAT": 'burmese'
            }
          }
        }
      ]
    },
    docs: [
      {
        _source: {
          message: 'I love burmese cats!'
        }
      }
    ]
  }
)
puts response
POST _ingest/pipeline/_simulate
{
  "pipeline": {
  "description" : "parse multiple patterns",
  "processors": [
    {
      "grok": {
        "field": "message",
        "patterns": ["%{FAVORITE_DOG:pet}", "%{FAVORITE_CAT:pet}"],
        "pattern_definitions" : {
          "FAVORITE_DOG" : "beagle",
          "FAVORITE_CAT" : "burmese"
        }
      }
    }
  ]
},
"docs":[
  {
    "_source": {
      "message": "I love burmese cats!"
    }
  }
  ]
}

响应

{
  "docs": [
    {
      "doc": {
        "_index": "_index",
        "_id": "_id",
        "_version": "-3",
        "_source": {
          "message": "I love burmese cats!",
          "pet": "burmese"
        },
        "_ingest": {
          "timestamp": "2016-11-08T19:43:03.850+0000"
        }
      }
    }
  ]
}

两种模式都将使用适当的匹配项设置字段 pet,但是如果我们想跟踪哪个模式匹配并填充了我们的字段怎么办?我们可以使用 trace_match 参数来做到这一点。以下是同一个管道的输出,但配置了 "trace_match": true

{
  "docs": [
    {
      "doc": {
        "_index": "_index",
        "_id": "_id",
        "_version": "-3",
        "_source": {
          "message": "I love burmese cats!",
          "pet": "burmese"
        },
        "_ingest": {
          "_grok_match_index": "1",
          "timestamp": "2016-11-08T19:43:03.850+0000"
        }
      }
    }
  ]
}

在上面的响应中,您可以看到匹配的模式的索引是 "1"。也就是说,它是 patterns 中匹配的第二个(索引从零开始)模式。

此跟踪元数据支持调试哪个模式匹配。此信息存储在摄取元数据中,不会被编入索引。

从 REST 端点检索模式编辑

Grok 处理器自带 REST 端点,用于检索处理器附带的模式。

response = client.ingest.processor_grok
puts response
GET _ingest/processor/grok

上述请求将返回一个响应正文,其中包含内置模式字典的键值表示形式。

{
  "patterns" : {
    "BACULA_CAPACITY" : "%{INT}{1,3}(,%{INT}{3})*",
    "PATH" : "(?:%{UNIXPATH}|%{WINPATH})",
    ...
}

默认情况下,API 返回传统 Grok 模式列表。这些传统模式早于Elastic Common Schema (ECS),并且不使用 ECS 字段名称。要返回提取 ECS 字段名称的模式,请在可选的 ecs_compatibility 查询参数中指定 v1

response = client.ingest.processor_grok(
  ecs_compatibility: 'v1'
)
puts response
GET _ingest/processor/grok?ecs_compatibility=v1

默认情况下,API 会按照从磁盘读取模式的顺序返回模式。此排序顺序保留了相关模式的分组。例如,与解析 Linux 系统日志行相关的所有模式都保持在一起。

您可以使用可选的布尔值 s 查询参数来按键名对返回的模式进行排序。

response = client.ingest.processor_grok(
  s: true
)
puts response
GET _ingest/processor/grok?s

API 返回以下响应。

{
  "patterns" : {
    "BACULA_CAPACITY" : "%{INT}{1,3}(,%{INT}{3})*",
    "BACULA_DEVICE" : "%{USER}",
    "BACULA_DEVICEPATH" : "%{UNIXPATH}",
    ...
}

当内置模式在不同版本之间发生变化时,这将非常有用。

Grok 监视程序编辑

执行时间过长的 Grok 表达式将被中断,然后 grok 处理器将失败并抛出异常。 grok 处理器有一个监视程序线程,用于确定 grok 表达式的评估何时花费的时间过长,并由以下设置控制

表 24. Grok 监视程序设置

名称 默认 描述

ingest.grok.watchdog.interval

1 秒

检查 grok 评估是否花费的时间超过最大允许执行时间的频率。

ingest.grok.watchdog.max_execution_time

1 秒

grok 表达式评估的最大允许执行时间。

Grok 调试编辑

建议使用Grok 调试器来调试 grok 模式。在那里,您可以在 UI 中针对示例数据测试一个或多个模式。在幕后,它使用与摄取节点处理器相同的引擎。

此外,建议为 Grok 启用调试日志记录,以便在 Elasticsearch 服务器日志中也可以看到任何其他消息。

PUT _cluster/settings
{
  "persistent": {
    "logger.org.elasticsearch.ingest.common.GrokProcessor": "debug"
  }
}