数据基因：通过 Elastic 通用模式提高效率

Elastic 通用模式是简化和统一搜索体验的绝佳方法。通过将不同的数据源对齐到通用语言中，用户在解释感兴趣的事件、解决事件或搜索未知威胁时遇到的障碍更少。然而，采用 Elastic 通用模式还有潜在的基础设施原因。

在本博客中，您将了解 ECS 的可量化运营优势、如何通过任何数据摄取工具利用 ECS 以及要避免的陷阱。本博客中使用的数据源是从 Kaggle 获取的 3.3GB Nginx 日志文件。该数据集的表示分为三个类别：原始、自建和 ECS；其中原始数据零规范化，自建数据演示了我过去 5 年多与各种用户合作时观察到的常见错误，最后 ECS 采用最佳的数据清理方法。

这种清理是通过对摄取的数据进行解析、丰富和映射来实现的；类似于对 DNA 进行测序以表达遗传特征。通过理解数据的结构，并分配正确的映射，可以更彻底地表示、存储和搜索数据。

如果您想了解更多关于 ECS、本博客中使用的数据集或可用的 Elastic 集成的信息，请务必查看以下相关链接

数据集验证

在我们开始之前，让我们回顾一下存在多少文档以及我们需要摄取什么。我们的 Nginx 日志文件中有 10,365,152 个文档/事件

我们的目标最终状态是拥有 10,365,152 个文档

数据集摄取：原始和自建

为了实现原始和自建摄取技术，此示例利用 Logstash 来简化操作。对于原始数据摄取，使用简单的文件输入，没有其他修改或索引模板。


    input {
      file {
      id => "NGINX_FILE_INPUT"
      path => "/etc/logstash/raw/access.log"
      ecs_compatibility => disabled
      start_position => "beginning"
      mode => read
      }
    }
    filter {
    }
    output {
      elasticsearch {
        hosts => ["https://mycluster.es.us-east4.gcp.elastic-cloud.com:9243"]
          index => "nginx-raw"
          ilm_enabled => true
          manage_template => false
          user => "username"
          password => "password"
          ssl_verification_mode => none
          ecs_compatibility => disabled
          id => "NGINX-FILE_ES_Output"
      }
    }

对于自建摄取，创建了一个带有简单 Grok 过滤器的自定义 Logstash 管道，没有应用索引模板

    input {
      file {
        id => "NGINX_FILE_INPUT"
        path => "/etc/logstash/self/access.log"
        ecs_compatibility => disabled
        start_position => "beginning"
        mode => read
      }
    }
    filter {
      grok {
        match => { "message" => "%{IP:clientip} - (?:%{NOTSPACE:requestClient}|-) \[%{HTTPDATE:timestamp}\] \"(?:%{WORD:requestMethod} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" (?:-|%{NUMBER:response}) (?:-|%{NUMBER:bytes_in}) (-|%{QS:bytes_out}) %{QS:user_agent}" }
      }
    }
    output {
      elasticsearch {
        hosts => ["https://myscluster.es.us-east4.gcp.elastic-cloud.com:9243"]
        index => "nginx-self"
        ilm_enabled => true
        manage_template => false
        user => "username"
        password => "password"
        ssl_verification_mode => none
        ecs_compatibility => disabled
        id => "NGINX-FILE_ES_Output"
      }
    }

数据集摄取：ECS

Elastic 包含许多可用的集成，其中包含您确保数据尽可能高效摄取所需的一切。

对于我们的 Nginx 用例，我们将仅使用相关的集成资产。

安装的资产不仅仅是仪表板，还有摄取管道，这些管道不仅可以规范化数据，还可以丰富数据，同时通过组件模板将字段映射到正确的类型。我们所要做的就是确保数据传入时，它将遍历摄取管道并使用这些提供的映射。

创建您的索引模板，并选择从您的集成提供的组件模板。

将组件模板视为索引模板的构建块。这些允许重用核心设置，确保在您的数据中采用标准化。

对于我们的摄取方法，我们只需指向在索引模板创建期间指定的索引名称，在这种情况下，是

nginx-ecs

Elastic 将处理其余的事情！

    input {
      file {
      id => "NGINX_FILE_INPUT"
      path => "/etc/logstash/ecs/access.log"
      #ecs_compatibility => disabled
      start_position => "beginning"
      mode => read
      }
    }
    filter {
    }
    output {
      elasticsearch {
        hosts => ["https://mycluster.es.us-east4.gcp.elastic-cloud.com:9243"]
        index => "nginx-ecs"
        ilm_enabled => true
        manage_template => false
        user => "username"
        password => "password"
        ssl_verification_mode => none
        ecs_compatibility => disabled
        id => "NGINX-FILE_ES_Output"
      }
    }