Bundler::VersionConflict: Bundler could not find compatible versions for gem "mimemagic":
  In Gemfile:
    logstash-input-google_cloud_storage (= 0.11.0) was resolved to 0.11.0, which depends on
      mimemagic (>= 0.3.7)

Could not find gem 'mimemagic (>= 0.3.7)', which is required by gem 'logstash-input-google_cloud_storage (= 0.11.0)', in any of the sources or in gems cached in vendor/cache

如果发生此错误，您可以通过将“mimemagic”依赖项直接手动安装到 Logstash 的内部 Ruby Gems 缓存中来解决此问题，该缓存位于 vendor/bundle/jruby/<ruby_version>/gems/。可以使用 Logstash 安装 bin/ 文件夹内的捆绑 Ruby gem 实例来完成此操作。

要手动将“mimemagic”gem 安装到 Logstash 中，请使用

bin/ruby -S gem install mimemagic -v '>= 0.3.7'

mimemagic gem 还要求存在 shared-mime-info 包，可以使用 apt-get install shared-mime-info 在 Debian/Ubuntu 上或 yum install shared-mime-info 在 Red Hat/RockyOS 发行版上安装它。

然后像往常一样安装插件，使用

bin/logstash-plugin install logstash-input-google_cloud_storage

元数据属性

编辑

该插件公开了有关正在读取的对象的几个元数据属性。您可以在管道的后面访问这些属性，以增强数据或执行条件逻辑。

键	类型	描述
`[@metadata][gcs][bucket]`	`字符串`	从中读取文件的存储桶的名称。
`[@metadata][gcs][name]`	`字符串`	对象的名称。
`[@metadata][gcs][metadata]`	`对象`	对象上的元数据映射。
`[@metadata][gcs][md5]`	`字符串`	数据的 MD5 哈希值。使用 base64 编码。
`[@metadata][gcs][crc32c]`	`字符串`	CRC32c 校验和，如 RFC 4960 中所述。使用大端字节顺序以 base64 编码。
`[@metadata][gcs][generation]`	`长整型`	对象的内容生成。用于对象版本控制
`[@metadata][gcs][line]`	`长整型`	事件在文件中的位置。从 1 开始索引。
`[@metadata][gcs][line_id]`	`字符串`	描述此行的确定性唯一 ID。这允许您将幂等插入到 Elasticsearch 中。

有关对象元数据的更多信息，请参阅官方文档。

示例配置

编辑

基本

编辑

从 my-logs-bucket 每分钟读取 JSON 日志的基本配置。例如，Stackdriver 日志。

input {
  google_cloud_storage {
    interval => 60
    bucket_id => "my-logs-bucket"
    json_key_file => "/home/user/key.json"
    file_matches => ".*json"
    codec => "json_lines"
  }
}
output { stdout { codec => rubydebug } }

将幂等插入到 Elasticsearch 中

编辑

如果您的管道可能多次插入同一个文件，则可以使用 line_id 元数据键作为确定性 id。

ID 的格式为：gs://<bucket_id>/<object_id>:<line_num>@<generation>。line_num 表示从文件反序列化的第 n 个事件，从 1 开始。generation 是 Cloud Storage 为对象生成的唯一 ID。当一个对象被覆盖时，它会获得一个新的生成。

input {
  google_cloud_storage {
    bucket_id => "batch-jobs-output"
  }
}

output {
  elasticsearch {
    document_id => "%{[@metadata][gcs][line_id]}"
  }
}

从 Cloud Storage 到 BigQuery

编辑

从 Cloud Storage 提取数据，使用 Logstash 转换，并将其加载到 BigQuery 中。

input {
  google_cloud_storage {
    interval => 60
    bucket_id => "batch-jobs-output"
    file_matches => "purchases.*.csv"
    json_key_file => "/home/user/key.json"
    codec => "plain"
  }
}

filter {
  csv {
    columns => ["transaction", "sku", "price"]
    convert => {
      "transaction" => "integer"
      "price" => "float"
    }
  }
}

output {
  google_bigquery {
    project_id => "my-project"
    dataset => "logs"
    csv_schema => "transaction:INTEGER,sku:INTEGER,price:FLOAT"
    json_key_file => "/path/to/key.json"
    error_directory => "/tmp/bigquery-errors"
    ignore_unknown_values => true
  }
}

其他资源

编辑

Google Cloud Storage 输入配置选项

编辑

此插件支持以下配置选项以及稍后描述的通用选项。

设置	输入类型	必需
`bucket_id`	字符串	是
`json_key_file`	路径	否
`interval`	数字	否
`file_matches`	字符串	否
`file_exclude`	字符串	否
`metadata_key`	字符串	否
`processed_db_path`	路径	否
`delete`	布尔值	否
`unpack_gzip`	布尔值	否

另请参阅通用选项，获取所有输入插件支持的选项列表。

`bucket_id`

编辑

值类型为字符串
此设置没有默认值。

包含您的日志文件的存储桶。

`json_key_file`

编辑

值类型为路径
此设置没有默认值。

用于将用户验证到存储桶的密钥的路径。此服务用户应该具有 storage.objects.update 权限，以便可以在对象上创建元数据，从而防止它被多次扫描。

如果未提供密钥，该插件将尝试使用默认应用程序凭据，如果它们不存在，则回退到未经身份验证的模式。

`interval`

编辑

值类型为数字
默认值为：60

在您的存储桶中查找新文件的时间间隔（秒）。

`file_matches`

编辑

值类型为字符串
默认值为：.*\.log(\.gz)?

用于过滤文件的正则表达式模式。只考虑名称与此匹配的文件。默认情况下，所有文件都匹配。

`file_exclude`

编辑

值类型为字符串
默认值为：^$

任何与此正则表达式匹配的文件都将从处理中排除。默认情况下不排除任何文件。

`metadata_key`

编辑

值类型为字符串
默认值为：x-goog-meta-ls-gcs-input

此键将在对象被插件处理后设置。这样，您可以停止插件，并且不会再次上传文件，或者通过手动设置字段来防止它们被上传。

密钥是一个标志，如果文件在 Logstash 退出之前被部分处理，则会重新发送一些事件。

`processed_db_path`

编辑

值类型为路径
默认值为：LOGSTASH_DATA/plugins/inputs/google_cloud_storage/db。

如果设置，该插件将在本地存储已处理文件的列表。这允许您为插件创建一个没有写入权限的服务帐户。但是，数据不会在 Logstash 的多个运行实例之间共享。

`delete`

编辑

值类型为布尔值
默认值为：false

在更新日志文件内容后是否应将其删除？

`unpack_gzip`

编辑

值类型为布尔值
默认值为：true

如果设置为 true，则在编解码器解析以 .gz 结尾的文件之前将其解压缩。如果文件带有后缀，但无法作为 gzip 打开，例如，如果它具有错误的魔数，则将跳过该文件。

通用选项

编辑

所有输入插件都支持以下配置选项

设置	输入类型	必需
`add_field`	哈希	否
`codec`	codec	否
`enable_metric`	布尔值	否
`id`	字符串	否
`tags`	数组	否
`type`	字符串	否

`add_field`

编辑

值类型为哈希
默认值为 {}

向事件添加一个字段

`codec`

编辑

值类型为编解码器
默认值为 "plain"

用于输入数据的编解码器。输入编解码器是一种方便的方法，可以在数据进入输入之前解码数据，而无需在 Logstash 管道中使用单独的过滤器。

`enable_metric`

编辑

值类型为布尔值
默认值为 true

默认情况下，禁用或启用此特定插件实例的指标日志记录，我们会记录所有可以记录的指标，但是您可以禁用特定插件的指标收集。

`id`

编辑

值类型为字符串
此设置没有默认值。

向插件配置添加唯一的 ID。如果未指定 ID，Logstash 将生成一个 ID。强烈建议您在配置中设置此 ID。当您有两个或多个相同类型的插件时，这特别有用，例如，如果您有 2 个 google_cloud_storage 输入。在这种情况下，添加命名的 ID 将有助于在使用监控 API 时监控 Logstash。

input {
  google_cloud_storage {
    id => "my_plugin_id"
  }
}

id 字段中的变量替换仅支持环境变量，不支持使用来自秘密存储的值。

`tags`

编辑

值类型为数组
此设置没有默认值。

向您的事件添加任意数量的标签。

这有助于以后的处理。

`type`

编辑

值类型为字符串
此设置没有默认值。

向此输入处理的所有事件添加一个 type 字段。

类型主要用于过滤器激活。

该类型作为事件本身的一部分存储，因此您也可以使用该类型在 Kibana 中搜索它。

如果您尝试为一个已经有类型的事件设置类型（例如，当您将事件从发送器发送到索引器时），那么新的输入将不会覆盖现有的类型。在发送器上设置的类型会保留在事件的整个生命周期中，即使发送到另一个 Logstash 服务器也是如此。

« Github 输入插件 Google_pubsub 输入插件 »