Google Cloud Storage 输入插件

编辑

Google Cloud Storage 输入插件编辑

  • 插件版本:v0.15.0
  • 发布时间:2023-08-22
  • 更新日志

有关其他版本,请参阅版本化插件文档

安装编辑

对于默认情况下未捆绑的插件,可以通过运行 bin/logstash-plugin install logstash-input-google_cloud_storage轻松安装。有关更多详细信息,请参阅使用插件

获取帮助编辑

如果您对插件有任何疑问,请在论坛中打开一个主题。对于错误或功能请求,请在Github中打开一个问题。有关 Elastic 支持的插件列表,请参阅Elastic 支持矩阵

描述编辑

从 Google Cloud Storage 存储桶中的文件中提取事件。

用例示例

  • 将来自 Cloud Storage 存储桶的Stackdriver 日志读取到 Elastic 中。
  • 将来自冷存储的压缩日志读取到 Elastic 中。
  • 从 Elastic 转储还原数据。
  • 从 Cloud Storage 中提取数据,使用 Logstash 对其进行转换,并将其加载到 BigQuery 中。

注意:虽然此项目由 Google 部分维护,但这并不是官方的 Google 产品。

安装说明

尝试安装此插件可能会导致错误

Bundler::VersionConflict: Bundler could not find compatible versions for gem "mimemagic":
  In Gemfile:
    logstash-input-google_cloud_storage (= 0.11.0) was resolved to 0.11.0, which depends on
      mimemagic (>= 0.3.7)

Could not find gem 'mimemagic (>= 0.3.7)', which is required by gem 'logstash-input-google_cloud_storage (= 0.11.0)', in any of the sources or in gems cached in vendor/cache

如果发生此错误,您可以通过将“mimemagic”依赖项手动安装到 Logstash 的内部 Ruby Gems 缓存中来解决此问题,该缓存位于 vendor/bundle/jruby/<ruby_version>/gems/。这可以使用 Logstash 安装 bin/ 文件夹中捆绑的 Ruby gem 实例来完成。

要将“mimemagic”gem 手动安装到 Logstash,请使用

bin/ruby -S gem install mimemagic -v '>= 0.3.7'

mimemagic gem 还需要存在 shared-mime-info 包,可以使用 Debian/Ubuntu 上的 apt-get install shared-mime-info 或 Red Hat/RockyOS 发行版上的 yum install shared-mime-info 进行安装。

然后像往常一样使用以下命令安装插件

bin/logstash-plugin install logstash-input-google_cloud_storage

元数据属性编辑

该插件公开了有关正在读取的对象的多个元数据属性。您可以在管道后面的阶段访问这些属性,以扩充数据或执行条件逻辑。

类型 描述

[@metadata][gcs][bucket]

字符串

从中读取文件的存储桶的名称。

[@metadata][gcs][name]

字符串

对象的名称。

[@metadata][gcs][metadata]

对象

对象上的元数据映射。

[@metadata][gcs][md5]

字符串

数据的 MD5 哈希值。使用 base64 编码。

[@metadata][gcs][crc32c]

字符串

CRC32c 校验和,如 RFC 4960 中所述。使用大端字节顺序的 base64 编码。

[@metadata][gcs][generation]

长整数

对象的内容生成。用于对象版本控制

[@metadata][gcs][line]

长整数

事件在文件中的位置。从 1 开始索引。

[@metadata][gcs][line_id]

字符串

描述此行的确定性唯一 ID。这使您可以对 Elasticsearch 执行幂等插入。

有关对象元数据的更多信息,请参阅官方文档

示例配置编辑

基本编辑

每分钟从 my-logs-bucket 读取 JSON 日志的基本配置。例如,Stackdriver 日志

input {
  google_cloud_storage {
    interval => 60
    bucket_id => "my-logs-bucket"
    json_key_file => "/home/user/key.json"
    file_matches => ".*json"
    codec => "json_lines"
  }
}
output { stdout { codec => rubydebug } }

对 Elasticsearch 的幂等插入编辑

如果您的管道可能会多次插入同一个文件,您可以使用 line_id 元数据键作为确定性 ID。

ID 的格式为:gs://<bucket_id>/<object_id>:<line_num>@<generation>line_num 表示从文件中反序列化的第 n 个事件,从 1 开始。 generation 是 Cloud Storage 为对象生成的唯一 ID。当对象被覆盖时,它会获得一个新的生成。

input {
  google_cloud_storage {
    bucket_id => "batch-jobs-output"
  }
}

output {
  elasticsearch {
    document_id => "%{[@metadata][gcs][line_id]}"
  }
}

从 Cloud Storage 到 BigQuery编辑

从 Cloud Storage 中提取数据,使用 Logstash 对其进行转换,并将其加载到 BigQuery 中。

input {
  google_cloud_storage {
    interval => 60
    bucket_id => "batch-jobs-output"
    file_matches => "purchases.*.csv"
    json_key_file => "/home/user/key.json"
    codec => "plain"
  }
}

filter {
  csv {
    columns => ["transaction", "sku", "price"]
    convert => {
      "transaction" => "integer"
      "price" => "float"
    }
  }
}

output {
  google_bigquery {
    project_id => "my-project"
    dataset => "logs"
    csv_schema => "transaction:INTEGER,sku:INTEGER,price:FLOAT"
    json_key_file => "/path/to/key.json"
    error_directory => "/tmp/bigquery-errors"
    ignore_unknown_values => true
  }
}

Google Cloud Storage 输入配置选项编辑

此插件支持以下配置选项以及稍后描述的通用选项

另请参阅通用选项,以获取所有输入插件支持的选项列表。

bucket_id编辑

  • 值类型为字符串
  • 此设置没有默认值。

包含您的日志文件的存储桶。

json_key_file编辑

  • 值类型为路径
  • 此设置没有默认值。

用于验证您的用户对存储桶的访问权限的密钥的路径。此服务用户*应该*具有 storage.objects.update 权限,以便它可以在对象上创建元数据,防止它被多次扫描。

如果未提供密钥,插件将尝试使用默认应用程序凭据,如果它们不存在,则回退到未经身份验证的模式。

interval编辑

  • 值类型为数字
  • 默认值为:60

在您的存储桶中查找新文件之间的秒数。

file_matches编辑

  • 值类型为字符串
  • 默认值为:.*\.log(\.gz)?

用于过滤文件的正则表达式模式。只有名称与此匹配的文件才会被考虑。默认情况下,所有文件都匹配。

file_exclude编辑

与此正则表达式匹配的任何文件都将从处理中排除。默认情况下,不会排除任何文件。

metadata_key编辑

  • 值类型为字符串
  • 默认值为:x-goog-meta-ls-gcs-input

此键将在对象被插件处理后设置在对象上。这样,您可以停止插件,并且不会再次上传文件,或者通过手动设置字段来阻止文件被上传。

该键是一个标志,如果在 Logstash 退出之前文件被部分处理,则某些事件将被重新发送。

processed_db_path编辑

  • 值类型为路径
  • 默认值为:LOGSTASH_DATA/plugins/inputs/google_cloud_storage/db

如果设置,插件将在本地存储已处理文件的列表。这允许您为插件创建一个没有写入权限的服务帐号。但是,数据不会在多个正在运行的 Logstash 实例之间共享。

delete编辑

在更新日志文件的内容后是否应删除该文件?

unpack_gzip编辑

如果设置为 true,则以 .gz 结尾的文件将在被编解码器解析之前解压缩。如果文件具有后缀但无法作为 gzip 打开(例如,如果它具有错误的幻数),则该文件将被跳过。

通用选项编辑

所有输入插件均支持以下配置选项

设置 输入类型 必需

add_field

hash

codec

codec

enable_metric

布尔值

id

字符串

tags

array

type

字符串

详情编辑

 

add_field编辑

  • 值类型为 哈希
  • 默认值为 {}

向事件添加字段

codec编辑

用于输入数据的编解码器。输入编解码器是一种便捷的方法,用于在数据进入输入之前对其进行解码,而无需在 Logstash 管道中使用单独的过滤器。

enable_metric编辑

默认情况下,我们会记录所有可以记录的指标,但您可以禁用特定插件的指标收集,从而禁用或启用此特定插件实例的指标日志记录。

id编辑

  • 值类型为 字符串
  • 此设置没有默认值。

向插件配置添加唯一的 ID。如果未指定 ID,Logstash 将生成一个 ID。强烈建议您在配置中设置此 ID。当您有两个或多个相同类型的插件时,例如,如果您有两个 google_cloud_storage 输入,这将特别有用。在这种情况下,添加命名 ID 将有助于在使用监控 API 时监控 Logstash。

input {
  google_cloud_storage {
    id => "my_plugin_id"
  }
}

id 字段中的变量替换仅支持环境变量,不支持使用密钥存储库中的值。

tags编辑

  • 值类型为 数组
  • 此设置没有默认值。

向您的事件添加任意数量的任意标签。

这有助于以后的处理。

type编辑

  • 值类型为 字符串
  • 此设置没有默认值。

向此输入处理的所有事件添加 type 字段。

类型主要用于过滤器激活。

类型存储为事件本身的一部分,因此您也可以使用类型在 Kibana 中搜索它。

如果您尝试在已具有类型的事件上设置类型(例如,当您将事件从传送器发送到索引器时),则新输入不会覆盖现有类型。在传送器处设置的类型将始终与该事件保持一致,即使将其发送到另一个 Logstash 服务器也是如此。