Elasticsearch 中的推理 API 设置

编辑

您无需配置任何设置即可使用推理 API。每个设置都有一个默认值。

推理 API 日志记录设置

编辑

当发生某些故障时,会发出日志消息。对于重复发生的故障,日志记录限制器会限制重复消息被记录。

xpack.inference.logging.reset_interval
(动态) 指定清理线程清除之前记录的消息的内部缓存的时间间隔。默认为一天 (1d)。
xpack.inference.logging.wait_duration
(动态) 指定在记录消息后等待多长时间才能再次记录该消息。默认为一小时 (1h)。

推理 API HTTP 设置

编辑
xpack.inference.http.max_response_size
(动态) 指定 HTTP 响应允许的最大大小(以字节为单位),默认为 50mb,最大可配置值为 100mb
xpack.inference.http.max_total_connections
(动态) 指定内部连接池可以租用的最大连接数。默认为 50
xpack.inference.http.max_route_connections
(动态) 指定单个路由可以从内部连接池租用的最大连接数。如果此设置的值等于或大于 xpack.inference.http.max_total_connections,则单个第三方服务可能会租用所有可用连接,而其他第三方服务将无法租用连接。默认为 20
xpack.inference.http.connection_eviction_interval
(动态) 指定一个清理线程运行以从内部连接池中删除过期和陈旧连接的时间间隔。如果多个第三方服务争用池中的可用连接,则减小此时间值可以帮助提高吞吐量。默认为一分钟 (1m)。
xpack.inference.http.connection_eviction_max_idle_time
(动态) 指定连接在被标记为空闲并可以关闭并从共享连接池中删除之前可以未使用的最长时间。默认为一分钟 (1m)。
xpack.inference.http.request_executor.queue_capacity
(动态) 指定等待发送的请求的内部队列的大小。如果队列已满,并且向推理 API 发送请求,则该请求将被拒绝。默认为 2000

推理 API HTTP 重试设置

编辑

当第三方服务返回瞬态故障代码(例如,429)时,推理 API 会重试该请求。这些设置控制重试行为。重试请求时,使用指数退避。

xpack.inference.http.retry.initial_delay
(动态) 指定重试请求之前的初始延迟。默认为一秒 (1s)。
xpack.inference.http.retry.max_delay_bound
(动态) 指定请求的最大延迟。默认为五秒 (5s)。
xpack.inference.http.retry.timeout
(动态) 指定可以重试请求的最大时间。一旦请求超过此时间,将不再重试该请求,并且将返回失败。默认为 30 秒 (30s)。

推理 API 输入文本

编辑

对于某些第三方服务集成,当服务返回错误指示请求输入过大时,将截断输入并重试请求。这些设置控制如何执行截断。

xpack.inference.truncator.reduction_percentage
(动态) 指定如果第三方服务响应的错误指示文本过长,则将输入文本减少的百分比。默认为 50% (0.5)。