output {
   google_bigquery {
     project_id => "folkloric-guru-278"                        (required)
     dataset => "logs"                                         (required)
     csv_schema => "path:STRING,status:INTEGER,score:FLOAT"    (required) 
     json_key_file => "/path/to/key.json"                      (optional) 
     error_directory => "/tmp/bigquery-errors"                 (required)
     date_pattern => "%Y-%m-%dT%H:00"                          (optional)
     flush_interval_secs => 30                                 (optional)
   }
}

	指定 csv_schema 或 json_schema。
	如果未使用密钥，则插件会尝试查找应用程序默认凭据

注意事项

编辑

使用流式 API 将数据插入 BigQuery 需要支付少量费用。
此插件在内存中缓冲事件，因此请确保刷新配置适合您的用例，并考虑使用 Logstash 持久队列。
当满足 batch_size、batch_size_bytes 或 flush_interval_secs 时（以先满足的为准），事件将被刷新。如果您发现处理延迟或吞吐量低，请尝试调整这些设置。

其他资源

编辑

Google BigQuery 输出配置选项

编辑

此插件支持以下配置选项以及稍后描述的常用选项。

设置	输入类型	必填
`batch_size`	数字	否
`batch_size_bytes`	数字	否
`csv_schema`	字符串	否
`dataset`	字符串	是
`date_pattern`	字符串	否
`deleter_interval_secs`	数字	已弃用
`error_directory`	字符串	是
`flush_interval_secs`	数字	否
`ignore_unknown_values`	布尔值	否
`json_key_file`	字符串	否
`json_schema`	哈希表	否
`key_password`	字符串	已弃用
`project_id`	字符串	是
`service_account`	字符串	已弃用
`skip_invalid_rows`	布尔值	否
`table_prefix`	字符串	否
`table_separator`	字符串	否
`temp_directory`	字符串	已弃用
`temp_file_prefix`	字符串	已弃用
`uploader_interval_secs`	数字	已弃用

另请参见常用选项，了解所有输出插件支持的选项列表。

`batch_size`

编辑

在 4.0.0 中添加。

值类型为数字
默认值为 128

一次上传的消息最大数量。此数字必须小于 10,000。批量处理可以在一定程度上提高性能和吞吐量，但代价是每个请求的延迟。每个请求的行数太少，每个请求的开销会使摄取效率低下。每个请求的行数太多，吞吐量可能会下降。BigQuery 建议每个请求使用大约 500 行，但是使用具有代表性的数据（模式和数据大小）进行实验将帮助您确定理想的批量大小。

`batch_size_bytes`

编辑

在 4.0.0 中添加。

值类型为数字
默认值为 1_000_000

作为批处理的一部分上传的大约字节数。此数字应小于 10MB，否则插入可能会失败。

`csv_schema`

编辑

值类型为字符串
默认值为 nil

日志数据的模式。它必须遵循格式 name1:type1(,name2:type2)*。例如，path:STRING,status:INTEGER,score:FLOAT。

`dataset`

编辑

这是一个必填设置。
值类型为字符串
此设置没有默认值。

将为事件添加表的 BigQuery 数据集。

`date_pattern`

编辑

值类型为字符串
默认值为 "%Y-%m-%dT%H:00"

BigQuery 表的时间模式，默认为每小时的表。必须使用 Time.strftime 模式：www.ruby-doc.org/core-2.0/Time.html#method-i-strftime

`deleter_interval_secs`

编辑

在 4.0.0 中已弃用。

事件会实时上传，不会存储到磁盘。

值类型为数字

`error_directory`

编辑

在 4.0.0 中添加。

这是一个必填设置。
值类型为字符串
默认值为 "/tmp/bigquery"。

存储由于错误而无法上传的事件的位置。默认情况下，如果插入中的任何消息无效，则所有消息都将失败。您可以使用 skip_invalid_rows 来允许部分插入。

考虑使用额外的 Logstash 输入将这些内容传输到警报平台，以便您可以手动修复事件。

或者使用 GCS FUSE 透明地上传到 GCS 存储桶。

文件名遵循模式 [表名]-[UNIX 时间戳].log

`flush_interval_secs`

编辑

值类型为数字
默认值为 5

即使未满足其他上传条件，也经常上传所有数据。

`ignore_unknown_values`

编辑

值类型为布尔值
默认值为 false

指示 BigQuery 是否应忽略表模式中未表示的值。如果为 true，则会丢弃额外值。如果为 false，BigQuery 将拒绝包含额外字段的记录，作业将失败。默认值为 false。

您可能希望添加一个类似于以下内容的 Logstash 过滤器来删除它添加的常用字段

mutate {
    remove_field => ["@version","@timestamp","path","host","type", "message"]
}

`json_key_file`

编辑

在 4.0.0 中添加。

替换 key_password 和 service_account。

值类型为字符串
默认值为 nil

如果 Logstash 在 Google Compute Engine 中运行，则插件可以使用 GCE 的应用程序默认凭据。在 GCE 之外，您需要指定服务帐户 JSON 密钥文件。

`json_schema`

编辑

值类型为哈希表
默认值为 nil

作为哈希表的日志数据的模式。这些可以包括嵌套记录、描述和模式。

示例

json_schema => {
  fields => [{
    name => "endpoint"
    type => "STRING"
    description => "Request route"
  }, {
    name => "status"
    type => "INTEGER"
    mode => "NULLABLE"
  }, {
    name => "params"
    type => "RECORD"
    mode => "REPEATED"
    fields => [{
      name => "key"
      type => "STRING"
     }, {
      name => "value"
      type => "STRING"
    }]
  }]
}

`key_password`

编辑

在 4.0.0 中已弃用。

被 json_key_file 或使用 ADC 替换。请参见 json_key_file

值类型为字符串

`project_id`

编辑

这是一个必填设置。
值类型为字符串
此设置没有默认值。

Google Cloud 项目 ID（数字，而不是项目名称！）。

`service_account`

编辑

在 4.0.0 中已弃用。

被 json_key_file 或使用 ADC 替换。请参见 json_key_file

值类型为字符串

`skip_invalid_rows`

编辑

在 4.1.0 中添加。

值类型为布尔值
默认值为 false

即使存在无效行，也要插入请求的所有有效行。默认值为 false，如果存在任何无效行，则会导致整个请求失败。

`table_prefix`

编辑

值类型为字符串
默认值为 "logstash"

创建日志数据的新表时要使用的 BigQuery 表 ID 前缀。表名为 <table_prefix><table_separator><date>

`table_separator`

编辑

值类型为字符串
默认值为 "_"

要在 table_prefix 和日期后缀之间添加的 BigQuery 表分隔符。

`temp_directory`

编辑

在 4.0.0 中已弃用。

事件会实时上传，不会存储到磁盘。

值类型为字符串

`temp_file_prefix`

编辑

在 4.0.0 中已弃用。

事件会实时上传，不会存储到磁盘

值类型为字符串

`uploader_interval_secs`

编辑

在 4.0.0 中已弃用。

此字段不再使用

值类型为数字
默认值为 60

将新文件上传到 BigQuery 时的上传程序间隔。根据您的时间模式调整时间（例如，对于每小时的文件，此间隔可以大约为一小时）。

常用选项

编辑

所有输出插件都支持这些配置选项

设置	输入类型	必填
`codec`	codec	否
`enable_metric`	布尔值	否
`id`	字符串	否

`codec`

编辑

值类型为 codec
默认值为 "plain"

用于输出数据的编解码器。输出编解码器是在数据离开输出之前对其进行编码的一种便捷方法，无需在 Logstash 管道中使用单独的过滤器。

`enable_metric`

编辑

值类型为布尔值
默认值为 true

禁用或启用此特定插件实例的指标日志记录。默认情况下，我们会记录所有可用的指标，但您可以为特定插件禁用指标收集。

`id`

编辑

值类型为字符串
此设置没有默认值。

在插件配置中添加唯一的ID。如果未指定 ID，Logstash 将生成一个。强烈建议在您的配置中设置此 ID。当您有两个或多个相同类型的插件时，这一点尤其有用。例如，如果您有两个 google_bigquery 输出。在这种情况下，添加命名 ID 将有助于在使用监控 API 时监控 Logstash。

output {
  google_bigquery {
    id => "my_plugin_id"
  }
}

id 字段中的变量替换仅支持环境变量，不支持使用密钥存储中的值。

« Gelf 输出插件 Google Cloud Storage 输出插件 »