文本分类

编辑

这些 NLP 任务使您能够识别文本的语言,并对非结构化输入文本进行分类或标记。

语言识别

编辑

语言识别模型在您的 Elasticsearch 集群中开箱即用。您可以在“内置模型”部分下的 语言识别 页面上找到该模型的文档。

文本分类

编辑

文本分类将输入文本分配给最能描述文本的多个类别之一。使用的类别取决于模型以及用于训练它的数据集。根据类别的数量,存在两种主要类型的分类:二元分类,其中类别的数量正好为两个;以及多类分类,其中类别的数量大于两个。

此任务可以帮助您分析文本中积极或消极情绪的标记,或将文本分类到各种主题中。例如,您可以使用经过训练的模型执行情感分析,并确定以下文本是“正面”还是“负面”。

{
    docs: [{"text_field": "This was the best movie I’ve seen in the last decade!"}]
}
...

同样,您可以使用经过训练的模型执行多类分类,并确定以下文本是否与“体育”、“商业”、“本地”或“娱乐”相关的新闻主题。

{
    docs: [{"text_field": "The Blue Jays played their final game in Toronto last night and came out with a win over the Yankees, highlighting just how far the team has come this season."}]
}
...

零样本文本分类

编辑

零样本分类任务能够在不针对特定类别训练模型的情况下对文本进行分类。相反,您在部署模型或推理时提供类别。它使用在大型数据集上训练的模型,该模型已经获得了通用的语言理解能力,并询问模型您提供的标签与您的文本的匹配程度。

即使您没有足够的训练数据来训练文本分类模型,此任务也能让您分析和分类输入文本。

例如,您可能希望执行多类分类并确定新闻主题是否与“体育”、“商业”、“本地”或“娱乐”相关。但是,在这种情况下,模型并非专门针对新闻分类进行训练;相反,可能的标签与输入文本一起在推理时提供。

{
    docs: [{"text_field": "The S&P 500 gained a meager 12 points in the day’s trading. Trade volumes remain consistent with those of the past week while investors await word from the Fed about possible rate increases."}],
    "inference_config": {
        "zero_shot_classification": {
            "labels": ["SPORTS", "BUSINESS", "LOCAL", "ENTERTAINMENT"]
        }
    }
}

该任务返回以下结果。

...
{
    "predicted_value": "BUSINESS"
    ...
}
...

您可以使用相同的模型对不同的类别执行推理,例如:

{
    docs: [{"text_field": "Hello support team. I’m writing to inquire about the possibility of sending my broadband router in for repairs. The internet is really slow and the router keeps rebooting! It’s a big problem because I’m in the middle of binge-watching The Mandalorian!"}]
    "inference_config": {
        "zero_shot_classification": {
            "labels": ["urgent", "internet", "phone", "cable", "mobile", "tv"]
        }
    }
}

该任务返回以下结果。

...
{
    "predicted_value": ["urgent", "internet", "tv"]
    ...
}
...

由于您可以在执行推理时调整标签,因此此类任务非常灵活。但是,如果您始终使用相同的标签,则最好使用微调的文本分类模型。