Google Cloud Storage 输入插件
编辑Google Cloud Storage 输入插件编辑
- 插件版本:v0.15.0
- 发布时间:2023-08-22
- 更新日志
有关其他版本,请参阅版本化插件文档。
安装编辑
对于默认情况下未捆绑的插件,可以通过运行 bin/logstash-plugin install logstash-input-google_cloud_storage
轻松安装。有关更多详细信息,请参阅使用插件。
获取帮助编辑
如果您对插件有任何疑问,请在论坛中打开一个主题。对于错误或功能请求,请在Github中打开一个问题。有关 Elastic 支持的插件列表,请参阅Elastic 支持矩阵。
描述编辑
从 Google Cloud Storage 存储桶中的文件中提取事件。
用例示例
- 将来自 Cloud Storage 存储桶的Stackdriver 日志读取到 Elastic 中。
- 将来自冷存储的压缩日志读取到 Elastic 中。
- 从 Elastic 转储还原数据。
- 从 Cloud Storage 中提取数据,使用 Logstash 对其进行转换,并将其加载到 BigQuery 中。
注意:虽然此项目由 Google 部分维护,但这并不是官方的 Google 产品。
安装说明
尝试安装此插件可能会导致错误
Bundler::VersionConflict: Bundler could not find compatible versions for gem "mimemagic": In Gemfile: logstash-input-google_cloud_storage (= 0.11.0) was resolved to 0.11.0, which depends on mimemagic (>= 0.3.7) Could not find gem 'mimemagic (>= 0.3.7)', which is required by gem 'logstash-input-google_cloud_storage (= 0.11.0)', in any of the sources or in gems cached in vendor/cache
如果发生此错误,您可以通过将“mimemagic”依赖项手动安装到 Logstash 的内部 Ruby Gems 缓存中来解决此问题,该缓存位于 vendor/bundle/jruby/<ruby_version>/gems/
。这可以使用 Logstash 安装 bin/
文件夹中捆绑的 Ruby gem 实例来完成。
要将“mimemagic”gem 手动安装到 Logstash,请使用
bin/ruby -S gem install mimemagic -v '>= 0.3.7'
mimemagic gem 还需要存在 shared-mime-info
包,可以使用 Debian/Ubuntu 上的 apt-get install shared-mime-info
或 Red Hat/RockyOS 发行版上的 yum install shared-mime-info
进行安装。
然后像往常一样使用以下命令安装插件
bin/logstash-plugin install logstash-input-google_cloud_storage
元数据属性编辑
该插件公开了有关正在读取的对象的多个元数据属性。您可以在管道后面的阶段访问这些属性,以扩充数据或执行条件逻辑。
键 | 类型 | 描述 |
---|---|---|
|
|
从中读取文件的存储桶的名称。 |
|
|
对象的名称。 |
|
|
对象上的元数据映射。 |
|
|
数据的 MD5 哈希值。使用 base64 编码。 |
|
|
CRC32c 校验和,如 RFC 4960 中所述。使用大端字节顺序的 base64 编码。 |
|
|
对象的内容生成。用于对象版本控制 |
|
|
事件在文件中的位置。从 1 开始索引。 |
|
|
描述此行的确定性唯一 ID。这使您可以对 Elasticsearch 执行幂等插入。 |
有关对象元数据的更多信息,请参阅官方文档。
示例配置编辑
基本编辑
每分钟从 my-logs-bucket
读取 JSON 日志的基本配置。例如,Stackdriver 日志。
input { google_cloud_storage { interval => 60 bucket_id => "my-logs-bucket" json_key_file => "/home/user/key.json" file_matches => ".*json" codec => "json_lines" } } output { stdout { codec => rubydebug } }
对 Elasticsearch 的幂等插入编辑
如果您的管道可能会多次插入同一个文件,您可以使用 line_id
元数据键作为确定性 ID。
ID 的格式为:gs://<bucket_id>/<object_id>:<line_num>@<generation>
。 line_num
表示从文件中反序列化的第 n 个事件,从 1 开始。 generation
是 Cloud Storage 为对象生成的唯一 ID。当对象被覆盖时,它会获得一个新的生成。
input { google_cloud_storage { bucket_id => "batch-jobs-output" } } output { elasticsearch { document_id => "%{[@metadata][gcs][line_id]}" } }
从 Cloud Storage 到 BigQuery编辑
从 Cloud Storage 中提取数据,使用 Logstash 对其进行转换,并将其加载到 BigQuery 中。
input { google_cloud_storage { interval => 60 bucket_id => "batch-jobs-output" file_matches => "purchases.*.csv" json_key_file => "/home/user/key.json" codec => "plain" } } filter { csv { columns => ["transaction", "sku", "price"] convert => { "transaction" => "integer" "price" => "float" } } } output { google_bigquery { project_id => "my-project" dataset => "logs" csv_schema => "transaction:INTEGER,sku:INTEGER,price:FLOAT" json_key_file => "/path/to/key.json" error_directory => "/tmp/bigquery-errors" ignore_unknown_values => true } }
Google Cloud Storage 输入配置选项编辑
此插件支持以下配置选项以及稍后描述的通用选项。
设置 | 输入类型 | 必需 |
---|---|---|
是 |
||
否 |
||
否 |
||
否 |
||
否 |
||
否 |
||
否 |
||
否 |
||
否 |
另请参阅通用选项,以获取所有输入插件支持的选项列表。
json_key_file
编辑
- 值类型为路径
- 此设置没有默认值。
用于验证您的用户对存储桶的访问权限的密钥的路径。此服务用户*应该*具有 storage.objects.update
权限,以便它可以在对象上创建元数据,防止它被多次扫描。
如果未提供密钥,插件将尝试使用默认应用程序凭据,如果它们不存在,则回退到未经身份验证的模式。
metadata_key
编辑
- 值类型为字符串
- 默认值为:
x-goog-meta-ls-gcs-input
此键将在对象被插件处理后设置在对象上。这样,您可以停止插件,并且不会再次上传文件,或者通过手动设置字段来阻止文件被上传。
该键是一个标志,如果在 Logstash 退出之前文件被部分处理,则某些事件将被重新发送。
通用选项编辑
所有输入插件均支持以下配置选项
详情编辑
codec
编辑
- 值类型为 编解码器
- 默认值为
"plain"
用于输入数据的编解码器。输入编解码器是一种便捷的方法,用于在数据进入输入之前对其进行解码,而无需在 Logstash 管道中使用单独的过滤器。