获取已训练模型 API

编辑

检索已训练模型的配置信息。

请求

编辑

GET _ml/trained_models/

GET _ml/trained_models/<model_id>

GET _ml/trained_models/_all

GET _ml/trained_models/<model_id1>,<model_id2>

GET _ml/trained_models/<model_id_pattern*>

先决条件

编辑

需要 monitor_ml 集群权限。此权限包含在 machine_learning_user 内置角色中。

路径参数

编辑
<model_id>

(可选,字符串) 已训练模型的唯一标识符或模型别名。

您可以通过使用逗号分隔的模型 ID 列表或通配符表达式,在单个 API 请求中获取多个已训练模型的信息。

查询参数

编辑
allow_no_match

(可选,布尔值) 指定当请求发生以下情况时该如何处理:

  • 包含通配符表达式,但没有匹配的模型。
  • 包含 _all 字符串或没有标识符,但没有匹配项。
  • 包含通配符表达式,但只有部分匹配。

默认值为 true,表示当没有匹配项时返回空数组,当只有部分匹配时返回结果的子集。如果此参数为 false,则当没有匹配项或只有部分匹配项时,请求将返回 404 状态代码。

decompress_definition
(可选,布尔值) 指定是否应将包含的模型定义作为 JSON 映射 (true) 返回,还是以自定义压缩格式 (false) 返回。默认为 true
exclude_generated
(可选,布尔值) 指示在检索时是否应从配置中删除某些字段。这允许配置以可接受的格式检索,然后添加到另一个集群。默认为 false。
from
(可选,整数) 跳过指定数量的模型。默认值为 0
include

(可选,字符串) 要在响应正文中包含的可选字段的逗号分隔字符串。默认值为空,表示不包含任何可选字段。有效选项包括

  • definition:包含模型定义。
  • feature_importance_baseline:包含特征重要性值的基线。
  • hyperparameters:包含有关用于训练模型的超参数的信息。此信息包括值、超参数的绝对和相对重要性,以及指示该超参数是由用户指定还是在超参数优化期间调整的指示符。
  • total_feature_importance:包含训练数据集的总特征重要性。
  • definition_status:包含字段 fully_defined,指示是否存在完整的模型定义。基线和总特征重要性值在响应正文的 metadata 字段中返回。
size
(可选,整数) 指定要获取的最大模型数。默认值为 100
tags
(可选,字符串) 逗号分隔的标签字符串。一个已训练模型可以有多个标签,也可以没有。当提供时,仅返回包含所有提供的标签的已训练模型。

响应正文

编辑
trained_model_configs

(数组) 已训练模型资源数组,按 model_id 值升序排序。

已训练模型资源的属性
created_by
(字符串) 已训练模型的创建者。
create_time
(时间单位) 创建已训练模型的时间。
default_field_map

(对象) 一个字符串对象,包含在对模型进行推理时要使用的默认字段映射。例如,数据框分析可能会在特定的多字段 foo.keyword 上训练模型。然后,分析作业将为 "foo" : "foo.keyword" 提供默认的字段映射条目。

推理配置中描述的任何字段映射都优先。

description
(字符串) 已训练模型的自由文本描述。
model_size_bytes
(整数) 将已训练模型保留在内存中的估计模型大小(以字节为单位)。
estimated_operations
(整数) 使用已训练模型的估计操作数。
inference_config

(对象) 推理的默认配置。这可以是 regressionclassification 配置。它必须与基础 definition.trained_modeltarget_type 匹配。

inference_config 的属性
classification

(对象) 推理的分类配置。

分类推理的属性
num_top_classes
(整数) 指定要返回的顶部类预测数。默认为 0。
num_top_feature_importance_values
(整数) 指定每个文档的 特征重要性 值的最大数量。默认为 0,表示不进行特征重要性计算。
prediction_field_type
(字符串) 指定要写入的预测字段的类型。有效值为:stringnumberboolean。当提供 boolean 时,1.0 将转换为 true0.0 将转换为 false
results_field
(字符串) 添加到传入文档以包含推理预测的字段。默认为 predicted_value
top_classes_results_field
(字符串) 指定将顶部类写入到的字段。默认为 top_classes
fill_mask

(可选,对象) 用于填充掩码自然语言处理 (NLP) 任务的配置。填充掩码任务适用于为填充掩码操作优化的模型。例如,对于 BERT 模型,可以提供以下文本:“The capital of France is [MASK]”。响应指示最有可能替换 [MASK] 的值。在此实例中,最有可能的令牌是 paris

填充掩码推理的属性
mask_token
(可选,字符串) 将从传入文档中删除并替换为推理预测的字符串/令牌。在响应中,此字段包含指定模型/分词器的掩码令牌。每个模型和分词器都有一个预定义的掩码令牌,不能更改。因此,建议不要在请求中设置此值。但是,如果此字段出现在请求中,则其值必须与该模型/分词器的预定义值匹配,否则请求将失败。
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
ner

(可选,对象)配置命名实体识别 (NER) 任务。NER 是标记分类的一种特殊情况。序列中的每个标记都根据提供的分类标签进行分类。目前,NER 任务需要 classification_labels 内部-外部-开始 (IOB) 格式化的标签。仅支持人员、组织、位置和杂项。

ner 推理的属性
classification_labels
(可选,字符串)分类标签的数组。NER 仅支持内部-外部-开始标签 (IOB),并且仅支持人员、组织、位置和杂项。例如:["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引
pass_through

(可选,对象)配置 pass_through 任务。此任务对于调试很有用,因为不会对推理输出进行任何后处理,并且原始池化层结果会返回给调用方。

pass_through 推理的属性
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
regression

(对象)用于推理的回归配置。

回归推理的属性
num_top_feature_importance_values
(整数)指定每个文档的最大特征重要性值数量。默认情况下,它为零,并且不进行特征重要性计算。
results_field
(字符串) 添加到传入文档以包含推理预测的字段。默认为 predicted_value
text_classification

(可选,对象)文本分类任务。文本分类将提供的文本序列分类为先前已知的目标类别。一个具体的例子是情感分析,它返回可能的目标类别,表示文本情感,例如“悲伤”、“快乐”或“愤怒”。

文本分类推理的属性
classification_labels
(可选,字符串)分类标签的数组。
num_top_classes
(可选,整数)指定要返回的最高类别预测的数量。默认为所有类别 (-1)。
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
text_embedding

(对象,可选)文本嵌入将输入序列转换为数字向量。这些嵌入不仅捕获标记,还捕获语义含义和上下文。这些嵌入可以在密集向量字段中使用,以获得强大的见解。

文本嵌入推理的属性
embedding_size
(可选,整数)模型生成的嵌入向量中的维度数。
results_field
(可选,字符串)添加到传入文档以包含推理预测的字段。默认为 predicted_value
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
text_similarity

(对象,可选)文本相似度将输入序列与另一个输入序列进行比较。这通常称为交叉编码。此任务对于在将文档文本与另一个提供的文本输入进行比较时对文档文本进行排名非常有用。

文本相似度推理的属性
span_score_combination_function

(可选,字符串)标识在提供的文本段落长于 max_sequence_length 且必须自动分离以进行多次调用时如何组合生成的相似度分数。这仅适用于 truncatenonespan 为非负数的情况。默认值为 max。可用选项为

  • max:返回所有跨度的最大分数。
  • mean:返回所有跨度的平均分数。
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
span

(可选,整数)当 truncatenone 时,您可以为推理分区较长的文本序列。该值表示每个子序列之间重叠的标记数。

默认值为 -1,表示不进行窗口化或跨度处理。

当您的典型输入仅略大于 max_sequence_length 时,最好直接截断;第二个子序列中几乎没有信息。

truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
zero_shot_classification

(对象,可选)配置零样本分类任务。零样本分类允许在没有预先确定的标签的情况下进行文本分类。在推理时,可以调整要分类的标签。这使得此类型的模型和任务非常灵活。

如果始终对相同的标签进行分类,则最好使用微调的文本分类模型。

零样本分类推理的属性
classification_labels
(必需,数组)零样本分类期间使用的分类标签。分类标签不能为空或空,并且只能在模型创建时设置。它们必须全部为 ["entailment", "neutral", "contradiction"] 三者之一。

这与 labels 不同,后者是零样本尝试分类的值。

hypothesis_template

(可选,字符串)这是在对序列进行标记化以进行分类时使用的模板。

标签替换文本中的 {} 值。默认值为:This example is {}.

labels
(可选,数组)要分类的标签。可以在创建时设置默认标签,然后在推理期间更新。
multi_label
(可选,布尔值)指示给定输入是否可能存在多个 true 标签。这在标记可能与多个输入标签相关的文本时很有用。默认为 false
tokenization

(可选,对象) 指示要执行的分词化和所需的设置。默认分词化配置为 bert。有效的分词化值包括

  • bert:用于 BERT 风格的模型
  • deberta_v2:用于 DeBERTa v2 和 v3 风格的模型
  • mpnet:用于 MPNet 风格的模型
  • roberta:用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 xlm_roberta:用于 XLMRoBERTa 风格的模型
  • [预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 bert_ja:用于为日语训练的 BERT 风格模型。
分词化的属性
bert

(可选,对象) 要使用封闭的设置执行 BERT 风格的分词化。

bert 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。BERT 风格的分词化中通常包含的令牌是

  • [CLS]:要分类的序列的第一个令牌。
  • [SEP]:指示序列分隔。
roberta

(可选,对象) 要使用封闭的设置执行 RoBERTa 风格的分词化。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定分词化是否应在分词化模型的输入中添加前缀空格。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
mpnet

(可选,对象)使用所附设置执行 MPNet 风格的标记化。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值)使用特殊标记进行标记化。MPNet 风格标记化中通常包含的标记是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置执行 XLMRoBERTa 风格的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊令牌进行分词化。RoBERTa 风格的分词化中通常包含的令牌是

  • <s>:要分类的序列的第一个令牌。
  • </s>:指示序列分隔。
bert_ja

(可选,对象) [预览] 此功能为技术预览版,可能会在未来版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 约束。 将使用所附设置对日语文本执行 BERT 风格的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定分词化在构建令牌时是否将文本序列转换为小写。
max_sequence_length
(可选,整数) 指定分词器允许输出的最大令牌数。
truncate

(可选,字符串) 指示当令牌超出 max_sequence_length 时如何截断令牌。默认值为 first

  • none:不发生截断;推理请求收到错误。
  • first:仅截断第一个序列。
  • second:仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值)如果为 true,则使用特殊标记进行标记化。
vocabulary

(可选,对象)用于检索模型词汇表的配置。然后,在推理时使用该词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

vocabulary 的属性
index
(必需,字符串)存储词汇表的索引。
input

(对象)模型定义的输入字段名称。

input 的属性
field_names
(字符串)模型的输入字段名称数组。
fully_defined
(布尔值)如果存在完整的模型定义,则为 True。仅当在请求中指定了 include=definition_status 时,此字段才存在。
location

(可选,对象)模型定义位置。如果未提供 definitioncompressed_definition,则必须提供。

location 的属性
index
(必需,对象)指示模型定义存储在索引中。它必须为空,因为用于存储模型定义的索引是自动配置的。
license_level
(字符串)训练模型的许可证级别。
metadata

(对象)包含有关训练模型的元数据的对象。例如,由数据框分析创建的模型包含 analysis_configinput 对象。

metadata 的属性
feature_importance_baseline
(对象)包含特征重要性值基线的对象。对于回归分析,它是一个值。对于分类分析,每个类别都有一个值。
hyperparameters

(数组)在 fine_parameter_tuning 阶段优化以及由用户指定的可用超参数列表。

hyperparameters 的属性
absolute_importance
(双精度)一个正数,表示参数对 损失函数变化的影响程度。对于值不是由用户指定但在超参数优化期间调整的超参数。
max_trees
(整数)森林中决策树的最大数量。最大值为 2000。默认情况下,此值是在超参数优化期间计算的。
name
(字符串)超参数的名称。
relative_importance
(双精度)一个介于 0 和 1 之间的数字,表示在所有调整的超参数中对损失函数变化的影响比例。对于值不是由用户指定但在超参数优化期间调整的超参数。
supplied
(布尔值)指示超参数是由用户指定(true)还是优化(false)的。
value
(双精度)超参数的值,可以是优化值或由用户指定的值。
total_feature_importance

(数组)从训练数据集中使用的每个特征的总体特征重要性数组。如果数据框分析训练了模型并且请求在 include 请求参数中包含 total_feature_importance,则会返回此对象数组。

总体特征重要性的属性
feature_name
(字符串)计算此重要性的特征。
importance

(对象)与此特定特征的训练数据集相关的特征重要性统计信息集合。

特征重要性的属性
mean_magnitude
(双精度)此特征在所有训练数据中的平均幅度。此值是此特征重要性绝对值的平均值。
max
(整数)此特征在所有训练数据中的最大重要性值。
min
(整数)此特征在所有训练数据中的最小重要性值。
classes

(数组)如果训练的模型是分类模型,则会针对每个目标类别值收集特征重要性统计信息。

类别特征重要性的属性
class_name
(字符串)目标类别值。可以是字符串、布尔值或数字。
importance

(对象)与此特定特征的训练数据集相关的特征重要性统计信息集合。

特征重要性的属性
mean_magnitude
(双精度)此特征在所有训练数据中的平均幅度。此值是此特征重要性绝对值的平均值。
max
(整数)此特征在所有训练数据中的最大重要性值。
min
(整数)此特征在所有训练数据中的最小重要性值。
model_id
(字符串)训练模型的标识符。
model_type

(可选,字符串) 创建的模型类型。默认情况下,模型类型为 tree_ensemble。合适的类型有:

  • tree_ensemble:模型定义是决策树的集成模型。
  • lang_ident:一种特殊类型,保留用于语言识别模型。
  • pytorch:存储的定义是 PyTorch(特别是 TorchScript)模型。目前仅支持 NLP 模型。
tags
(字符串) 以逗号分隔的标签字符串。一个训练好的模型可以有多个标签,也可以没有标签。
版本
(字符串) 创建训练模型的机器学习配置版本号。

从 Elasticsearch 8.10.0 开始,使用新的版本号来跟踪机器学习插件中的配置和状态更改。这个新的版本号与产品版本解耦,并且将独立递增。version 值表示新的版本号。

响应代码

编辑
400
如果 include_model_definitiontrue,则此代码表示有多个模型与 ID 模式匹配。
404 (资源缺失)
如果 allow_no_matchfalse,则此代码表示没有资源与请求匹配,或者仅有部分匹配。

示例

编辑

以下示例获取所有训练模型的配置信息

resp = client.ml.get_trained_models()
print(resp)
response = client.ml.get_trained_models
puts response
const response = await client.ml.getTrainedModels();
console.log(response);
GET _ml/trained_models/