获取训练模型 API编辑

检索训练模型的配置信息。

请求编辑

GET _ml/trained_models/

GET _ml/trained_models/<model_id>

GET _ml/trained_models/_all

GET _ml/trained_models/<model_id1>,<model_id2>

GET _ml/trained_models/<model_id_pattern*>

先决条件编辑

需要 monitor_ml 集群权限。此权限包含在 machine_learning_user 内置角色中。

路径参数编辑

<model_id>

(可选,字符串) 训练模型的唯一标识符或模型别名。

您可以通过使用逗号分隔的模型 ID 列表或通配符表达式,在单个 API 请求中获取多个训练模型的信息。

查询参数编辑

allow_no_match

(可选,布尔值) 指定当请求

  • 包含通配符表达式,并且没有匹配的模型。
  • 包含 _all 字符串或没有标识符,并且没有匹配项。
  • 包含通配符表达式,并且只有部分匹配。

默认值为 true,当没有匹配项时返回空数组,当有部分匹配项时返回结果子集。如果此参数为 false,当没有匹配项或只有部分匹配项时,请求将返回 404 状态代码。

decompress_definition
(可选,布尔值) 指定是否应将包含的模型定义作为 JSON 映射 (true) 或自定义压缩格式 (false) 返回。默认为 true
exclude_generated
(可选,布尔值) 指示是否应从检索到的配置中删除某些字段。这允许配置处于可接受的格式,以便检索并添加到另一个集群。默认值为 false。
from
(可选,整数) 跳过指定数量的模型。默认值为 0
include

(可选,字符串) 逗号分隔的可选字段字符串,包含在响应主体中。默认值为为空,表示不包含任何可选字段。有效选项是

  • definition: 包含模型定义。
  • feature_importance_baseline: 包含特征重要性值的基线。
  • hyperparameters: 包含有关用于训练模型的超参数的信息。此信息包括值、超参数的绝对和相对重要性,以及指示它是用户指定的还是在超参数优化期间调整的。
  • total_feature_importance: 包含训练数据集的总特征重要性。
  • definition_status: 包含字段 fully_defined,指示是否存在完整的模型定义。基线和总特征重要性值在响应主体中的 metadata 字段中返回。
size
(可选,整数) 指定要获取的最大模型数量。默认值为 100
tags
(可选,字符串) 逗号分隔的标签字符串。训练模型可以有多个标签,也可以没有标签。当提供时,只返回包含所有提供标签的训练模型。

响应主体编辑

trained_model_configs

(数组) 训练模型资源的数组,按 model_id 值升序排序。

训练模型资源的属性
created_by
(字符串) 训练模型的创建者。
create_time
(时间单位) 创建训练模型的时间。
default_field_map

(对象) 包含用于对模型进行推断的默认字段映射的字符串对象。例如,数据帧分析可能会在特定的多字段 foo.keyword 上训练模型。然后,分析作业将为 "foo" : "foo.keyword" 提供默认字段映射条目。

推断配置中描述的任何字段映射优先。

description
(字符串) 训练模型的自由文本描述。
model_size_bytes
(整数) 估计的模型大小(以字节为单位),用于将训练模型保存在内存中。
estimated_operations
(整数) 估计的使用训练模型的操作次数。
inference_config

(对象) 推断的默认配置。这可以是 regressionclassification 配置。它必须与底层 definition.trained_modeltarget_type 匹配。

inference_config 的属性
classification

(对象) 推断的分类配置。

分类推断的属性
num_top_classes
(整数) 指定要返回的顶级类别预测数量。默认为 0。
num_top_feature_importance_values
(整数) 指定每个文档的 特征重要性 值的最大数量。默认为 0,表示不进行特征重要性计算。
prediction_field_type
(字符串) 指定要写入的预测字段的类型。有效值为:stringnumberboolean。当提供 boolean 时,1.0 将转换为 true0.0 将转换为 false
results_field
(字符串) 添加到传入文档中的字段,用于包含推断预测。默认为 predicted_value
top_classes_results_field
(字符串) 指定写入顶级类别的字段。默认为 top_classes
fill_mask

(可选,对象) 用于填充掩码自然语言处理 (NLP) 任务的配置。填充掩码任务适用于针对填充掩码操作优化的模型。例如,对于 BERT 模型,可以提供以下文本:“法国的首都是 [MASK]。”。响应指示最有可能替换 [MASK] 的值。在本例中,最可能的标记是 paris

填充掩码推断的属性
mask_token
(可选,字符串) 将从传入文档中删除并替换为推断预测的字符串/标记。在响应中,此字段包含指定模型/标记器的掩码标记。每个模型和标记器都有一个预定义的掩码标记,该标记无法更改。因此,建议不要在请求中设置此值。但是,如果请求中存在此字段,则其值必须与该模型/标记器的预定义值匹配,否则请求将失败。
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
ner

(可选,对象) 配置命名实体识别 (NER) 任务。NER 是令牌分类的特例。序列中的每个令牌都根据提供的分类标签进行分类。目前,NER 任务需要 classification_labels 内部-外部-开始 (IOB) 格式的标签。仅支持人、组织、地点和杂项。

ner 推理的属性
classification_labels
(可选,字符串) 分类标签数组。NER 仅支持内部-外部-开始标签 (IOB),并且仅支持人、组织、地点和杂项。例如:["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引
pass_through

(可选,对象) 配置 pass_through 任务。此任务对于调试很有用,因为不会对推理输出进行后处理,并且原始池化层结果将返回给调用方。

pass_through 推理的属性
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
回归

(对象) 推理的回归配置。

回归推理的属性
num_top_feature_importance_values
(整数) 指定每个文档的 特征重要性 值的最大数量。默认情况下,它为零,不会进行特征重要性计算。
results_field
(字符串) 添加到传入文档中的字段,用于包含推断预测。默认为 predicted_value
文本分类

(可选,对象) 文本分类任务。文本分类将提供的文本序列分类为先前已知的目标类别。一个具体的例子是情感分析,它返回指示文本情感的可能目标类别,例如“悲伤”、“快乐”或“愤怒”。

文本分类推理的属性
classification_labels
(可选,字符串) 分类标签数组。
num_top_classes
(可选,整数) 指定要返回的顶级类别预测的数量。默认为所有类别 (-1)。
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
文本嵌入

(对象,可选) 文本嵌入将输入序列转换为数字向量。这些嵌入不仅捕获令牌,还捕获语义含义和上下文。这些嵌入可以在 密集向量 字段中使用,以获得强大的见解。

文本嵌入推理的属性
embedding_size
(可选,整数) 模型生成的嵌入向量中的维度数。
results_field
(可选,字符串) 添加到传入文档以包含推理预测的字段。默认为 predicted_value
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
文本相似度

(对象,可选) 文本相似度将输入序列与另一个输入序列进行比较。这通常被称为交叉编码。此任务对于在将文档文本与另一个提供的文本输入进行比较时对其进行排名很有用。

文本相似度推理的属性
span_score_combination_function

(可选,字符串) 标识当提供的文本段落长于 max_sequence_length 并且必须自动分离以进行多次调用时如何组合结果相似度得分。这仅在 truncatenonespan 为非负数时适用。默认值为 max。可用选项为

  • max:返回所有跨度的最大得分。
  • mean:返回所有跨度的平均得分。
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
跨度

(可选,整数) 当 truncatenone 时,您可以为推理划分更长的文本序列。该值指示每个子序列之间有多少个令牌重叠。

默认值为 -1,表示不进行窗口化或跨度。

当您的典型输入略大于 max_sequence_length 时,最好简单地截断;第二个子序列中的信息将非常少。

truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
零样本分类

(对象,可选) 配置零样本分类任务。零样本分类允许在没有预先确定的标签的情况下进行文本分类。在推理时,可以调整标签进行分类。这使得这种类型的模型和任务非常灵活。

如果始终对相同的标签进行分类,最好使用微调的文本分类模型。

零样本分类推理的属性
classification_labels
(必需,数组) 零样本分类期间使用的分类标签。分类标签不能为空或为 null,并且仅在模型创建时设置。它们必须同时为 ["entailment", "neutral", "contradiction"]。

这与 labels 不同,labels 是零样本试图分类的值。

hypothesis_template

(可选,字符串) 这是在对序列进行标记化以进行分类时使用的模板。

标签替换文本中的 {} 值。默认值为:This example is {}.

labels
(可选,数组) 要分类的标签。可以在创建时设置默认标签,然后在推理期间更新。
multi_label
(可选,布尔值) 指示给定输入是否可能存在多个 true 标签。这在标记可能与多个输入标签相关的文本时很有用。默认为 false
tokenization

(可选,对象) 指示要执行的标记化以及所需的设置。默认标记化配置为 bert。有效的标记化值为

  • bert: 用于 BERT 风格的模型
  • mpnet: 用于 MPNet 风格的模型
  • roberta: 用于 RoBERTa 风格和 BART 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 xlm_roberta: 用于 XLMRoBERTa 风格的模型
  • [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于解决任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。 bert_ja: 用于针对日语训练的 BERT 风格的模型。
标记化的属性
bert

(可选,对象) BERT 风格的标记化将使用封闭的设置执行。

bert 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。BERT 风格的标记化中通常包含的标记是

  • [CLS]: 要分类的序列的第一个标记。
  • [SEP]: 表示序列分隔。
roberta

(可选,对象) RoBERTa 风格的标记化将使用封闭的设置执行。

roberta 的属性
add_prefix_space
(可选,布尔值) 指定标记化是否应在标记化的模型输入之前添加空格。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
mpnet

(可选,对象) MPNet 风格的标记化将使用封闭的设置执行。

mpnet 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。MPNet 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
xlm_roberta

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置执行 XLMRoBERTa 样式的标记化。

xlm_roberta 的属性
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens

(可选,布尔值) 使用特殊标记进行标记化。RoBERTa 风格的标记化中通常包含的标记是

  • <s>: 要分类的序列的第一个标记。
  • </s>: 表示序列分隔。
bert_ja

(可选,对象) [预览] 此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览中的功能不受官方 GA 功能支持 SLA 的约束。 将使用封闭的设置对日语文本执行 BERT 样式的标记化。

bert_ja 的属性
do_lower_case
(可选,布尔值) 指定在构建标记时,标记化是否将文本序列小写。
max_sequence_length
(可选,整数) 指定标记器允许输出的最大标记数量。
truncate

(可选,字符串) 指示当标记超过 max_sequence_length 时如何截断标记。默认值为 first

  • none: 不进行截断;推断请求收到错误。
  • first: 仅截断第一个序列。
  • second: 仅截断第二个序列。如果只有一个序列,则截断该序列。

对于 zero_shot_classification,假设序列始终是第二个序列。因此,在这种情况下不要使用 second

with_special_tokens
(可选,布尔值) 如果 true,则使用特殊标记进行标记化。
词汇表

(可选,对象) 用于检索模型词汇表的配置。然后在推理时使用词汇表。此信息通常通过将词汇表存储在已知的内部管理索引中自动提供。

词汇表的属性
索引
(必需,字符串) 存储词汇表的索引。
输入

(对象) 模型定义的输入字段名称。

input 的属性
field_names
(字符串) 模型的输入字段名称数组。
fully_defined
(布尔值) 如果存在完整的模型定义,则为真。此字段仅在请求中指定了 include=definition_status 时存在。
位置

(可选,对象) 模型定义位置。如果未提供 definitioncompressed_definition,则必须提供此位置。

location 的属性
索引
(必需,对象) 指示模型定义存储在索引中。它必须为空,因为存储模型定义的索引是自动配置的。
license_level
(字符串) 训练模型的许可级别。
元数据

(对象) 包含有关训练模型的元数据的对象。例如,由数据帧分析创建的模型包含 analysis_configinput 对象。

元数据的属性
feature_importance_baseline
(对象) 包含特征重要性值的基线的对象。对于回归分析,它是一个单一值。对于分类分析,每个类别都有一个值。
超参数

(数组) 在 fine_parameter_tuning 阶段优化的可用超参数列表,以及用户指定的超参数列表。

超参数的属性
absolute_importance
(双精度) 一个正数,表示参数对 损失函数 的变化影响程度。对于值未由用户指定但在超参数优化期间调整的超参数。
max_trees
(整数) 森林中决策树的最大数量。最大值为 2000。默认情况下,此值在超参数优化期间计算。
名称
(字符串) 超参数的名称。
relative_importance
(双精度) 一个介于 0 和 1 之间的数字,表示在所有调整的超参数中对损失函数变化的影响比例。对于值未由用户指定但在超参数优化期间调整的超参数。
supplied
(布尔值) 指示超参数是用户指定的 (true) 还是优化的 (false)。
(双精度) 超参数的值,无论是优化的还是用户指定的。
total_feature_importance

(数组) 从训练数据集使用的每个特征的总特征重要性的数组。如果数据帧分析训练了模型,并且请求在 include 请求参数中包含 total_feature_importance,则将返回此对象数组。

总特征重要性的属性
feature_name
(字符串) 为其计算此重要性的特征。
importance

(对象) 与训练数据集的此特定特征相关的特征重要性统计信息集合。

特征重要性的属性
mean_magnitude
(双精度) 此特征在所有训练数据中的平均幅度。此值是此特征重要性的绝对值的平均值。
max
(整数) 此特征在所有训练数据中的最大重要性值。
min
(整数) 此特征在所有训练数据中的最小重要性值。
类别

(数组) 如果训练模型是分类模型,则会针对每个目标类别值收集特征重要性统计信息。

类别特征重要性的属性
class_name
(字符串) 目标类别值。可以是字符串、布尔值或数字。
importance

(对象) 与训练数据集的此特定特征相关的特征重要性统计信息集合。

特征重要性的属性
mean_magnitude
(双精度) 此特征在所有训练数据中的平均幅度。此值是此特征重要性的绝对值的平均值。
max
(int) 此特征在所有训练数据中的最大重要性值。
min
(int) 此特征在所有训练数据中的最小重要性值。
model_id
(字符串) 训练模型的标识符。
model_type

(可选,字符串) 创建的模型类型。默认情况下,模型类型为 tree_ensemble。适当的类型为

  • tree_ensemble:模型定义是决策树的集成模型。
  • lang_ident:为语言识别模型保留的特殊类型。
  • pytorch:存储的定义是 PyTorch(特别是 TorchScript)模型。目前仅支持 NLP 模型。
tags
(字符串) 用逗号分隔的标签字符串。训练模型可以有多个标签,也可以没有标签。
版本
(字符串) 创建训练模型时的机器学习配置版本号。

从 Elasticsearch 8.10.0 开始,使用新的版本号来跟踪机器学习插件中的配置和状态更改。此新的版本号与产品版本分离,并将独立递增。 version 值表示新的版本号。

响应代码编辑

400
如果 include_model_definitiontrue,则此代码表示有多个模型与 ID 模式匹配。
404(缺少资源)
如果 allow_no_matchfalse,则此代码表示没有资源与请求匹配,或者请求仅部分匹配。

示例编辑

以下示例获取所有已训练模型的配置信息

resp = client.ml.get_trained_models()
print(resp)
response = client.ml.get_trained_models
puts response
GET _ml/trained_models/