Google Cloud Storage 连接器

编辑

Elastic Google Cloud Storage 连接器是用于 Google Cloud Storage 数据源的连接器

Elastic 托管连接器参考

编辑
查看Elastic 托管连接器参考
可用性和先决条件
编辑

此连接器自8.12.0起在 Elastic Cloud 中原生可用。要在 Elastic Cloud 中使用此连接器,请满足所有托管连接器要求

使用
编辑

Google Cloud Storage 服务帐户必须具有(至少)以下范围和角色

  • resourcemanager.projects.get
  • serviceusage.services.use
  • storage.buckets.list
  • storage.objects.list
  • storage.objects.get

Google Cloud Storage 服务帐户凭据存储在 JSON 文件中。

配置
编辑

需要以下配置字段来设置连接器

存储桶
要索引的存储桶列表。*将索引所有存储桶。
Google Cloud 服务帐户 JSON
从 Google Cloud Storage 生成的服务帐户凭据(JSON 字符串)。有关更多信息,请参阅Google Cloud 文档
文档和同步
编辑

连接器将提取服务帐户有权访问的所有存储桶和路径。

不会提取Owner字段,因为read_only范围不允许连接器提取 IAM 信息。

  • 不会提取大于 10 MB 的文件的内容。(自托管连接器可以使用自托管本地提取服务来处理更大的二进制文件。)
  • 权限不会同步。索引到 Elastic 部署的所有文档对于可以访问该 Elastic 部署的所有用户都是可见的。
同步类型
编辑

默认情况下,所有连接器都支持完全同步

此连接器还支持增量同步

同步规则
编辑

基本同步规则对于所有连接器都是相同的,并且默认可用。

此连接器的当前版本中不提供高级同步规则。目前,过滤由提取管道控制。

内容提取
编辑

请参阅内容提取

$ make ftest NAME=google_cloud_storage

为了更快地测试,请添加DATA_SIZE=small标志

make ftest NAME=google_cloud_storage DATA_SIZE=small
已知问题
编辑

此连接器目前没有已知问题。

故障排除
编辑

请参阅故障排除

安全性
编辑

请参阅安全性

框架和源代码
编辑

此连接器是使用Elastic 连接器框架构建的。

查看此连接器的源代码(分支8.17,与 Elastic 8.17 兼容)。

自托管连接器参考

编辑
查看自托管连接器参考
可用性和先决条件
编辑

此连接器可用作自托管的自托管连接器。此自托管连接器与 Elastic 版本 8.6.0+ 兼容。要使用此连接器,请满足所有自托管连接器要求

使用
编辑

Google Cloud Storage 服务帐户必须具有(至少)以下范围和角色

  • resourcemanager.projects.get
  • serviceusage.services.use
  • storage.buckets.list
  • storage.objects.list
  • storage.objects.get

Google Cloud Storage 服务帐户凭据存储在 JSON 文件中。

配置
编辑

当使用自托管连接器工作流程时,最初这些字段将使用连接器源代码中设置的默认配置。这些在get_default_configuration函数定义中设置。

这些可配置字段将使用它们各自的标签在 Kibana UI 中呈现。连接后,您将能够在 Kibana 中更新这些值。

需要以下配置字段来设置连接器

buckets
要索引的存储桶列表。*将索引所有存储桶。
service_account_credentials
从 Google Cloud Storage 生成的服务帐户凭据(JSON 字符串)。有关更多信息,请参阅Google Cloud 文档
retry_count
在对 Google Cloud Storage 的调用失败后重试的次数。默认值为 3
使用 Docker 部署
编辑

您可以使用 Docker 将 Google Cloud Storage 连接器部署为自托管连接器。请按照以下说明进行操作。

步骤 1:下载示例配置文件

下载示例配置文件。您可以手动下载它,也可以运行以下命令

curl https://raw.githubusercontent.com/elastic/connectors/main/config.yml.example --output ~/connectors-config/config.yml

如果您的目录名称不同,或者您想使用不同的配置文件名,请记住更新--output参数值。

步骤 2:更新自托管连接器的配置文件

使用以下设置更新配置文件以匹配您的环境

  • elasticsearch.host
  • elasticsearch.api_key
  • connectors

如果您针对 Docker 化的 Elasticsearch 和 Kibana 版本运行连接器服务,则您的配置文件将如下所示

# When connecting to your cloud deployment you should edit the host value
elasticsearch.host: http://host.docker.internal:9200
elasticsearch.api_key: <ELASTICSEARCH_API_KEY>

connectors:
  -
    connector_id: <CONNECTOR_ID_FROM_KIBANA>
    service_type: google_cloud_storage
    api_key: <CONNECTOR_API_KEY_FROM_KIBANA> # Optional. If not provided, the connector will use the elasticsearch.api_key instead

使用elasticsearch.api_key是推荐的身份验证方法。但是,您也可以使用elasticsearch.usernameelasticsearch.password来使用您的 Elasticsearch 实例进行身份验证。

注意:您可以通过简单地取消注释配置文件中的特定设置并修改它们的值来更改其他默认配置。

步骤 3:运行 Docker 镜像

使用以下命令运行带有连接器服务的 Docker 镜像

docker run \
-v ~/connectors-config:/config \
--network "elastic" \
--tty \
--rm \
docker.elastic.co/enterprise-search/elastic-connectors:8.17.0.0 \
/app/bin/elastic-ingest \
-c /config/config.yml

有关更多详细信息,请参阅elastic/connectors存储库中的DOCKER.md

官方注册表中查找所有可用的 Docker 镜像。

我们还提供使用 Docker Compose 的快速入门自托管选项,因此您可以一次启动所有必需的服务:Elasticsearch、Kibana 和连接器服务。有关更多信息,请参阅elastic/connectors存储库中的此 README

文档和同步
编辑

连接器将提取服务帐户有权访问的所有存储桶和路径。

不会提取Owner字段,因为read_only范围不允许连接器提取 IAM 信息。

  • 默认情况下,不会提取大于 10 MB 的文件的内容。您可以使用自托管本地提取服务来处理更大的二进制文件。
  • 权限不会同步。索引到 Elastic 部署的所有文档对于可以访问该 Elastic 部署的所有用户都是可见的。
同步类型
编辑

默认情况下,所有连接器都支持完全同步

此连接器还支持增量同步

同步规则
编辑

基本同步规则对于所有连接器都是相同的,并且默认可用。

此连接器的当前版本中不提供高级同步规则。目前,过滤由提取管道控制。

内容提取
编辑

请参阅内容提取

端到端测试
编辑

连接器框架使操作员能够针对真实数据源运行功能测试。有关更多详细信息,请参阅连接器测试

要对 Google Cloud Storage 连接器执行 E2E 测试,请运行以下命令

$ make ftest NAME=google_cloud_storage

为了更快地测试,请添加DATA_SIZE=small标志

make ftest NAME=google_cloud_storage DATA_SIZE=small
已知问题
编辑

此连接器目前没有已知问题。

故障排除
编辑

请参阅故障排除

安全性
编辑

请参阅安全性

框架和源代码
编辑

此连接器是使用Elastic 连接器框架构建的。

查看此连接器的源代码(分支8.17,与 Elastic 8.17 兼容)。