CN114756678B

CN114756678B - 一种未知意图文本的识别方法及装置

Info

Publication number: CN114756678B
Application number: CN202210307174.7A
Authority: CN
Inventors: 李健铨; 刘小康; 穆晶晶; 胡加明
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2024-05-14
Anticipated expiration: 2042-03-25
Also published as: CN114756678A

Abstract

本申请实施例提供了一种未知意图文本的识别方法及装置。其方案包括：获取每个训练样本对应的K个正样本和S个负样本，K和S均为大于或者等于1的正整数；使用分类器获取训练样本及其对应的正样本和负样本的句子表示，使同类别样本的句子表示相互聚拢，使不同类别的句子表示相互远离；根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界；判断待识别文本是否位于全部类别的决策边界之外；如果是，则确定待识别文本为未知意图文本。本申请实施例在训练分类器阶段引入了对比学习和分类学习，使同类别样本的句子表示相互聚拢，使不同类别的句子表示相互远离，使训练决策边界的时候效果更优，使分类器能够更准确地识别出未知意图的文本。

Description

一种未知意图文本的识别方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种未知意图文本的识别方法及装置。

背景技术

文本分类是自然语言处理技术领域的基本任务之一，其在现实生活中有着非常丰富的应用，例如基于自然语言处理技术的舆情监测、新闻分类、情感分类等应用都是通过文本分类任务实现的。

目前，文本分类任务通过几个固定类别的训练样本训练分类模型，使分类模型能够从未知文本中识别几个固定类别的文本，然而，对于不属于这几个固定类别的未知文本(即未知意图)，分类模型却无法进行分类。例如：在新闻分类场景中，如果训练样本包括体育、经济、娱乐这三个类别的标签，那么使用这三个类别的训练样本训练得到的分类模型仅能够对体育、经济、娱乐这三个类别的待识别文本进行分类，而生活类的待识别文本对于该分类模型来说就属于未知意图，然而该分类模型无法识别出这个未知意图。

另外，在一些场景中，文本类别可能有许多种，训练样本的类别标签可能仅覆盖部分类别，即训练样本的类别标签是不完备的。例如：在出行方式识别领域，训练样本的类别标签可能包括步行、乘公交车、骑自行车、开车，然而出行方式还可以包括乘网约车、乘火车、多种方式换乘等，对于分类模型来说，乘网约车、乘火车、多种方式换乘等都属于无法识别的未知意图。

发明内容

本申请实施例提供了一种未知意图文本的识别方法及装置，能够准确地从待识别的文本中识出未知意图的文本。

第一方面，本申请实施例提供了一种未知意图文本的识别方法，包括：获取每个训练样本对应的K个正样本和S个负样本，正样本是从训练样本的同类别样本中随机获取的，负样本是从训练样本的不同类别样本中随机获取的，K和S均为大于或者等于1的正整数；使用分类器获取训练样本及其对应的正样本和负样本的句子表示，分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离；根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界；获取待识别文本与各个类别的决策中心的相似度，以确定最大相似度对应的目标类别；判断待识别文本是否位于目标类别的决策边界之外；如果待识别文本位于目标类别的决策边界之外，确定待识别文本为未知意图文本；如果待识别文本位于目标类别的决策边界之内，确定待分类文本属于目标类别。

本申请实施例提供的方法，在训练分类器的阶段引入了对比学习和分类学习，使同类别样本的句子表示相互聚拢，使不同类别的句子表示相互远离，使训练决策边界的时候效果更优，使分类器能够更准确地从待识别的文本中识出未知意图的文本。

在一种实现方式中，对比学习损失函数是根据训练样本与其任意正样本之间的距离，以及，训练样本与其所有负样本之间的距离之和构造的。

在一种实现方式中，对比学习损失函数具体为以下Loss₁：

其中，N为正样本的数量，v_i表示训练样本的句子表示的归一化结果，v_j表示正样本的句子表示的归一化结果，v^-表示负样本的句子表示的归一化结果，V⁺表示所有正样本的集合，V^-表示所有负样本的集合，τ为超参数，exp(v_i·v_j/τ)表示训练样本与其任意正样本之间的距离，∑_v-∈V-[expv_i·v^-/τ)+expv_j·v^-/τ)]表示训练样本与其所有负样本之间的距离之和。

在一种实现方式中，分类学习损失函数是根据训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，以及，训练样本的句子表示与所有其他类别标签的表示之间的余弦距离之和构造的。

在一种实现方式中，分类学习损失函数具体为以下Loss₂：

其中，z_i表示训练样本的句子表示，θ_yi表示训练样本的真实标签的表示，θ_j表示其他类别标签的表示，cos(θ_yi,z_i)表示训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，cos(θ_j,z_i)表示训练样本的句子表示与其他类别标签的表示之间的余弦距离，m为一个预设的参数，s为一个预设倍数。

在一种实现方式中，学习每个类别的决策边界，包括：根据训练样本的句子表示与其类别对应的决策中心之间的余弦距离与决策半径的数值关系构造决策边界优化函数，数值关系包括训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于类别的决策边界，或者，训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于或等于类别的决策边界；根据决策边界优化函数学习每个类别簇的决策边界。

在一种实现方式中，决策边界优化函数具体为以下L_b：

其中，N为正样本的数量，Δ_yi表示类别的决策半径，c_yi表示类别的决策中心，z_i表示训练样本的句子表示，cos(c_yi,z_i)表示训练样本z_i与决策中心c_yi之间的余弦距离。

在一种实现方式中，分类器采用以下总损失函数LOSS：

LOSS＝Loss₁×a+(1-a)×Loss₂

其中，a为可调整的超参数。

在一种实现方式中，标签的表示，通过以下步骤得到：使用分类器获取标签的所有训练样本的句子表示；将标签的所有训练样本的句子表示的中心点作为标签的句子表示。

第二方面，本申请实施例提供了一种未知意图文本的识别装置，包括：处理器和存储器，存储器中包括程序指令，当程序指令被处理器执行时，使未知意图文本的识别装置执行以下方法步骤：获取每个训练样本对应的K个正样本和S个负样本，正样本是从训练样本的同类别样本中随机获取的，负样本是从训练样本的不同类别样本中随机获取的，K和S均为大于或者等于1的正整数；使用分类器获取训练样本及其对应的正样本和负样本的句子表示，分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离；根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界；获取待识别文本与各个类别的决策中心的相似度，以确定最大相似度对应的目标类别；判断待识别文本是否位于目标类别的决策边界之外；如果待识别文本位于目标类别的决策边界之外，确定待识别文本为未知意图文本；如果待识别文本位于目标类别的决策边界之内，确定待分类文本属于目标类别。

本申请实施例提供的装置，在训练分类器的阶段引入了对比学习和分类学习，使同类别样本的句子表示相互聚拢，使不同类别的句子表示相互远离，使训练决策边界的时候效果更优，使分类器能够更准确地从待识别的文本中识出未知意图的文本。

附图说明

图1是本申请实施例提供的分类器的结构示意图；

图2是本申请实施例提供的未知意图文本的识别方法的流程图；

图3是本申请实施例提供的学习每个类别的决策边界的流程图；

图4是本申请实施例提供的一种未知意图文本的识别装置的结构示意图；

图5是本申请实施例提供的另一种未知意图文本的识别装置的结构示意图。

具体实施方式

文本分类是自然语言处理技术领域的基本任务之一，其在现实生活中有着非常丰富的应用，例如基于自然语言处理技术实现的舆情监测、新闻分类、情感分类等应用都是通过文本分类任务实现的。

另外，在一些场景中，文本类别可能有许多种，训练样本的类别标签可能仅覆盖部分类别，即训练样本的类别标签是不完备的。例如：在出行方式识别领域，训练样本的类别标签可能包括步行、乘公交车、骑自行车、开车，然而出行方式还可以包括乘网约车、乘火车、多种方式换乘等，对于分类模型来说，乘网约车、乘火车、多种方式换乘等都属于未知意图，目前的分类模型无法识别出这个未知意图。

另外，目前的分类模型通常由深度学习模型训练得到，而深度学习模型只能在已训练过的类别中给出输入文本的类别判断。针对未训练过的类别的输入文本，深度学习模型也会给出所有已知分类中概率最高的类别，导致输入文本会被分类到错误的类别。

为了更准确地从待识别文本中识别出未知意图的文本，本申请实施例提供了一种未知意图文本的识别方法。该方法可通过训练一个基于深度学习算法的分类模型实现或者通过其他算法或方式实现。其中，分类模型的训练整体上可以包含两个阶段，第一个阶段是训练分类器，第二个阶段是训练决策边界。这里的决策边界可以理解为类别的边界，其可用于判断某个样本是否属于某个类别。例如：如果某个类别的样本位于某个类别的决策边界的内部，则说明该样本属于这个类别；如果某个类别的样本位于某个类别的决策边界的外部，则说明该样本不属于这个类别。

该分类模型可以采用BERT、roberta、GPT、UniLM等预训练语言模型作为特征提取器。另外，该分类模型也可以是任意结构的深度学习模型，例如：RNN、CNN、transformer搭建的深度学习模型。图1是本申请实施例示出的BERT模型的结构示意图。如图1所示，作为特征抽取器的BERT模型可以包括输入编码层Input Embedding、位置编码层PositionalEncoding和N个Transformer Block组成。在训练分类器阶段，输入编码层Input Embedding用于对训练样本进行Embedding编码，位置编码层Positional Encoding用于为训练样本的Embedding编码添加位置编码，N个Transformer Block用于提取训练样本的句子表示。

图2是本申请实施例提供的未知意图文本的识别方法的流程图。如图2所示，该方法可以包括以下步骤S101-步骤S105。其中，步骤S101和步骤S102对应训练分类器的阶段，步骤S103对应训练决策边界的阶段。

步骤S101，获取每个训练样本对应的K个正样本和S个负样本，正样本是从训练样本的同类别样本中随机获取的，负样本是从训练样本的不同类别样本中随机获取的，K和S均为大于或者等于1的正整数。

本申请实施例中，训练样本可以是已知类别的文本，例如：分词、短语、句子等。已知类别可以有多个，每个类别可以包含一个或者多个训练样本。对于任一训练样本来说，与其归属一个类别的其他样本可以作为其正样本，与其归属不同类别的样本可以作为其负样本。

为了训练分类器，本申请实施例对于每个训练样本，从与其所有同类别的样本中随机选取K个正样本，例如2个正样本、3个正样本等，并且从与其不同类别的样本中随机选取S 个负样本，例如2个负样本、3个负样本等，以构造特征提取器的输入。

步骤S102，使用分类器获取训练样本及其对应的正样本和负样本的句子表示，分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离。

与传统的仅通过分类学习损失函数使句子表示相互聚拢和远离的方式相比，本申请实施例在分类学习损失函数的基础上还引入了对比学习损失函数。其中，对比学习损失函数与分类学习损失函数分工不同，对比学习损失函数用于使同类别样本的句子表示相互聚拢，分类学习损失函数用于使不同类别的句子表示相互远离。由于对比学习能够更着重于学习同类别样本的共同特征，因此，本申请实施例的方法能够使得同类别样本的句子表示的聚拢效果更好，有利于提升后续学习决策中心和决策边界的准确性。

具体实现中，为了得到训练样本、正样本和负样本的句子表示，可以首先通过编码层 Embedding Layer获取训练样本、正样本和负样本的Embedding编码，然后将Embedding编码输入到特征提取器，以得到相应的句子表示。

以特征提取器为BERT或者Robert为例，样本的句子表示(包括训练样本、正样本和负样本的句子表示)可以是特征提取器对样本的输出向量的首字符或首个分词对应的向量，即 [CLS]位对应的向量。

例如：训练样本“***男子接力”的分词结果是“***/男子/接力”，因此该训练样本的句子表示是特征提取器输出的首个分词“***”对应的向量。

本申请实施例在特征提取器的输出端通过对比学习使同类样本的句子表示相互聚拢，通过分类学习使不同类别的句子表示相互远离。

在一种实现方式中，对比学习的目标可以通过对比学习损失函数Loss₁实现，该对比学习损失函数可以根据训练样本与其任意正样本之间的距离，以及，训练样本与其所有负样本之间的距离之和构造。

示例性的，对比学习损失函数Loss₁可以为以下形式：

其中，N为正样本的数量，v_i表示训练样本的句子表示的归一化结果，v_j表示正样本的句子表示的归一化结果，v^-表示负样本的句子表示的归一化结果，V⁺表示所有正样本的集合，V^-表示所有负样本的集合，τ为超参数，exp(v_i·v_j/τ)表示训练样本与其任意正样本之间的距离，∑_v-∈V-[exp(v_i·v^-/τ)+exp(v_j·v^-/τ)]表示训练样本与其所有负样本之间的距离之和。

在一种实现方式中，句子表示的归一化可以采用以下公式实现：

其中，X表示句子表示的归一化结果，表述句子表示向量，n为句子表示向量的维度， x_i表示句子表示向量中的第i个维度值。

在一种实现方式中，分类学习的目标可以通过分类学习损失函数Loss₂实现，该分类学习损失函数可以根据训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，以及，训练样本的句子表示与所有其他类别标签的表示之间的余弦距离之和构造。

示例性的，分类学习损失函数Loss₂可以为以下形式：

其中，z_i表示训练样本的句子表示，θ_yi表示训练样本的真实标签的表示，θ_j表示其他类别标签的表示，cos(θ_yi,z_i)表示训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，cos(θ_j,z_i)表示训练样本的句子表示与其他类别标签的表示之间的余弦距离，m为一个预设的参数，s为一个预设倍数，m和s均是可修改的参数。

示例性的，在分类学习损失函数Loss₂，s例如可以取值为10、15、20等，m例如可以取0.3～0.5之间的任意值，以使得训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离大于m。

这里需要补充说明的是，在本申请实施例中，类别标签的表示可以通过三种方式实现：

第一种实现方式是将类别标签的表示随机初始化，然后在分类器中学习。

第二种实现方式是为类别标签添加标签描述文本，将类别标签及其标签描述文本的 Embedding编码输入到特征提取器中，以特征提取器的输出向量的首字符或首个分词对应的向量，即[CLS]位对应的向量，作为类别标签的表示。

示例性的，对于类别标签“体育”，其标签描述文本可以是“是人类社会的一种身体教育活动和社会文化活动”，因此输入到特征提取器中的文本可以是“体育：是人类社会的一种身体教育活动和社会文化活动”。

第三种实现方式是通过特征提取器获取每个类别标签的所有训练样本的表示，然后取每个类别标签的所有训练样本的表示的中心点，作为每个类别标签的表示。

示例性的，类别标签的表示可以通过以下公式得到：

其中，c_k表示第k个类别的类别标签的表示，z_i为该类别中的第i个训练样本的句子表示，S_k表示第k个类别中的所有训练样本的集合，|S_k|表示第k个类别的中的训练样本的数量。

基于在训练分类器阶段引入的对比学习和分类学习这两个训练目标，训练分类器阶段的总损失函数LOSS可以为：

LOSS＝Loss₁×a+(1-a)×Loss₂

其中，Loss₁为对比学习的损失函数，Loss₂为边界学习的损失函数，a为可调整的超参数，用于调节对比学习和边界学习在训练分类器时所占的权重。

步骤S103，根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界。

其中，决策中心可以是该类别中所有训练样本在语义空间中的中心点。当采用上述第三种实现方式获得类别标签的表示时，类别标签的表示即可以作为决策中心。

图3是本申请实施例提供的学习每个类别的决策边界的流程图。

如图3所示，在一种实现方式中，各个类别的决策边界可以通过以下步骤得到：

步骤S301，根据训练样本的句子表示与其类别对应的决策中心之间的余弦距离与决策半径的数值关系构造决策边界优化函数。

其中，数值关系包括训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于类别的决策边界，或者，训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于或等于类别的决策边界。

步骤S302，根据决策边界优化函数学习每个类别簇的决策边界。

不同于传统的在决策边界学习中采用欧氏距离来衡量相似度的方法，本申请实施例采用了余弦距离来衡量训练样本与决策中心之间的相似度。这其中考虑的是：欧氏距离更注重衡量样本之间的绝对距离，而余弦距离更注重衡量两个样本在某一方向(例如某个一个意图) 上的差异，因此，采用余弦距离衡量训练样本与决策中心之间的相似度，更能够体现出训练样本与决策中心在意图上是否相近或相同。

示例性的，决策边界优化函数L_b可以为以下形式：

其中，N为正样本的数量，Δ_yi表示类别的决策半径，表示类别的决策中心，z_i表示训练样本的句子表示，/>表示训练样本z_i与决策中心/>之间的余弦距离,δ_i表示训练样本是否在决策边界内部。该优化函数以使L_b更小为优化目标。

其中：余弦距离越大，表示训练样本与决策中心之间的相似度越大，训练样本与决策中心之间的距离越近；余弦距离越小，表示训练样本与决策中心之间的相似度越小，训练样本与决策中心之间的距离越远。因此，上述公式以与决策半径Δ_yi进行比较； />越大，说明训练样本与决策中心之间的距离越远；/>越小，说明训练样本与决策中心之间的距离越近。

根据上述优化函数，决策边界学习的主要思路是：如果某个类别的训练样本在该类别的决策边界的内部，则将决策边界缩小以靠近该训练样本，如果某个类别的训练样本在该类别的决策边界外部，则将决策边界扩大到包含该训练样本。这样，各个类别的决策边界可以根据其类别的训练样本的位置进行自适应调节，使同一类别的尽可能多的训练样本位于该类别的决策边界内，又尽可能使该类别以外的训练样本不会位于该类别的决策边界内，使学习的决策边界更加准确。例如：当1与训练样本z_i与决策中心c_yi之间的余弦距离之差大于Δ_yi时， δ_i＝1，该优化函数的优化目标实际上是那么，为了使L_b更小，可以增大边界Δ_yi。

另外，如果以欧氏距离来衡量训练样本与决策中心之间的相似度，则决策边界优化函数 L_b可以为以下形式：

其中，N为正样本的数量，Δ_yi表示类别的决策半径，c_yi表示类别的决策中心，z_i表示训练样本的句子表示，表示训练样本z_i与决策中心c_yi之间的欧式距离,δ_i表示训练样本是否在决策边界内部。该优化函数以使L_b更小为优化目标。

其中：欧式距离越大，表示训练样本与决策中心之间的相似度越小，训练样本与决策中心之间的距离越远；欧式距离越小，表示训练样本与决策中心之间的相似度越大，训练样本与决策中心之间的距离越近。

步骤S104，获取待识别文本与各个类别的决策中心的相似度，以确定最大相似度对应的目标类别。

在步骤S104中，待识别文本被输入到分类器之后，分类器可以分别计算待识别文本与每个类别的决策中心的相似度，从而确定最大相似度的目标类别。

其中：

如果以余弦距离来表示相似度，那么待识别文本与决策中心的余弦距离越大，说明待识别文本与决策中心的相似度越大，反之，待识别文本与决策中心的余弦距离越小，说明待识别文本与决策中心的相似度越小。因此，余弦距离的最大值所对应的类别即为目标类别。

如果以欧式距离来表示相似度，那么待识别文本与决策中心的欧式距离越大，说明待识别文本与决策中心的相似度越小，反之，待识别文本与决策中心的欧式距离越小，说明待识别文本与决策中心的相似度越大。因此，欧式距离的最小值所对应的类别即为目标类别。

步骤S105，判断待识别文本是否位于目标类别的决策边界之外。

其中：

如果以余弦距离来表示相似度，那么待识别文本与目标类别的决策中心之间的距离可以表示为：1-余弦距离。那么，如果1-余弦距离大于目标类别的决策半径，则说明待识别文本位于目标类别的决策边界之外；如果1-余弦距离小于目标类别的决策半径，则说明待识别文本位于目标类别的决策边界之内。

如果以欧式距离来表示相似度，那么，如果欧式距离大于目标类别的决策半径，则说明待识别文本位于目标类别的决策边界之外；如果欧式距离小于目标类别的决策半径，则说明待识别文本位于目标类别的决策边界之内。

另外，对于1-余弦距离等于目标类别的决策半径的情况，以及欧式距离等于目标类别的决策半径的情况，既可以认为待识别文本位于目标类别的决策边界之外，也可以认为待识别文本位于目标类别的决策边界之内，本领技术人员在实施本方案时可以自行确定，本申请实施例对此不做限定。

步骤S106，如果待识别文本位于目标类别的决策边界之外，则确定待识别文本为未知意图文本。

步骤S107，如果待识别文本位于目标类别的决策边界之内，则确定待分类文本属于目标类别。

以上步骤S104-步骤S106可以在未知意图文本识别的测试阶段或者生产阶段实现。

上述各实施例对本申请提供的未知意图文本的识别方法的各方案进行了介绍。可以理解的是，各个设备或模块为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各硬件及方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图4是本申请实施例提供的一种未知意图文本的识别装置的结构示意图。如图4所示，该装置包括了用于实现本申请实施例提供的未知意图文本的识别方法的硬件模块，包括：处理器210和存储器220，存储器220中包括程序指令230，当程序指令230被处理器210执行时，使该未知意图文本的识别装置执行以下方法步骤：

获取每个训练样本对应的K个正样本和S个负样本，正样本是从训练样本的同类别样本中随机获取的，负样本是从训练样本的不同类别样本中随机获取的，K和S均为大于或者等于1的正整数；

使用分类器获取训练样本及其对应的正样本和负样本的句子表示，分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离；

根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界；

获取待识别文本与各个类别的决策中心的相似度，以确定最大相似度对应的目标类别；

判断待识别文本是否位于目标类别的决策边界之外；

如果待识别文本位于目标类别的决策边界之外，确定待识别文本为未知意图文本；

如果待识别文本位于目标类别的决策边界之内，确定待分类文本属于目标类别。

图5是本申请实施例提供的另一种未知意图文本的识别装置的结构示意图。如图5所示，该装置包括了用于实现本申请实施例提供的未知意图文本的识别方法的软件模块，包括：

样本获取模块310，用于获取每个训练样本对应的K个正样本和S个负样本，正样本是从训练样本的同类别样本中随机获取的，负样本是从训练样本的不同类别样本中随机获取的， K和S均为大于或者等于1的正整数；

第一训练模块320，用于使用分类器获取训练样本及其对应的正样本和负样本的句子表示，分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离；

第二训练模块330，用于根据句子表示确定每个类别的决策中心，并学习每个类别的决策边界；

预测模块340，用于获取待识别文本与各个类别的决策中心的相似度，以确定最大相似度对应的目标类别；

预测模块340，还用于判断待识别文本是否位于目标类别的决策边界之外；

预测模块340，还用于如果待识别文本位于目标类别的决策边界之外，确定待识别文本为未知意图文本；

预测模块340，还用于如果待识别文本位于目标类别的决策边界之内，确定待分类文本属于目标类别。

容易理解的是，本领域技术人员在本申请提供的几个实施例的基础上，可以对本申请的实施例进行结合、拆分、重组等得到其他实施例，这些实施例均没有超出本申请的保护范围。

以上的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种未知意图文本的识别方法，其特征在于，包括：

获取每个训练样本对应的K个正样本和S个负样本，所述正样本是从所述训练样本的同类别样本中随机获取的，所述负样本是从所述训练样本的不同类别样本中随机获取的，K和S均为大于或者等于1的正整数；

使用分类器获取所述训练样本及其对应的所述正样本和所述负样本的句子表示，所述分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢，通过分类学习损失函数使不同类别的句子表示相互远离；

根据所述句子表示确定每个类别的决策中心，并学习每个类别的决策边界；

判断所述待识别文本是否位于所述目标类别的决策边界之外；

如果所述待识别文本位于所述目标类别的决策边界之外，确定所述待识别文本为未知意图文本；

如果所述待识别文本位于所述目标类别的决策边界之内，确定所述待分类文本属于所述目标类别。

2.根据权利要求1所述的方法，其特征在于，所述对比学习损失函数是根据所述训练样本与其任意所述正样本之间的距离，以及，所述训练样本与其所有所述负样本之间的距离之和构造的。

3.根据权利要求2所述的方法，其特征在于，所述对比学习损失函数具体为以下Loss₁：

其中，N为正样本的数量，v_i表示训练样本的句子表示的归一化结果，v_j表示正样本的句子表示的归一化结果，v^-表示负样本的句子表示的归一化结果，V⁺表示所有正样本的集合，V^-表示所有负样本的集合，τ为超参数，exp(v_i·v_j/τ)表示所述训练样本与其任意所述正样本之间的距离，所述表示所述训练样本与其所有所述负样本之间的距离之和。

4.根据权利要求3所述的方法，其特征在于，所述分类学习损失函数是根据所述训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，以及，所述训练样本的句子表示与所有其他类别标签的表示之间的余弦距离之和构造的。

5.根据权利要求4所述的方法，其特征在于，所述分类学习损失函数具体为以下Loss₂：

其中，z_i表示训练样本的句子表示，θ_yi表示训练样本的真实标签的表示，θ_j表示其他类别标签的表示，cos(θ_yi,z_i)表示所述训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离，cos(θ_j,z_i)表示所述训练样本的句子表示与其他类别标签的表示之间的余弦距离，m为一个预设的参数，s为一个预设倍数。

6.根据权利要求1所述的方法，其特征在于，所述学习每个类别的决策边界，包括：

根据所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离与所述决策半径的数值关系构造决策边界优化函数，所述数值关系包括所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于类别的决策边界，或者，所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于或等于类别的决策边界；

根据所述决策边界优化函数学习每个所述类别簇的决策边界。

7.根据权利要求6所述的方法，其特征在于，所述决策边界优化函数具体为以下L_b：

8.根据权利要求5所述的方法，其特征在于，所述分类器采用以下总损失函数LOSS：

LOSS＝Loss₁×a+(1-a)×Loss₂

其中，a为可调整的超参数。

9.根据权利要求4所述的方法，其特征在于，所述标签的表示，通过以下步骤得到：

使用所述分类器获取所述标签的所有训练样本的句子表示；

将所述标签的所有训练样本的句子表示的中心点作为所述标签的句子表示。

10.一种未知意图文本的识别装置，其特征在于，包括：处理器和存储器，所述存储器中包括程序指令，当所述程序指令被所述处理器执行时，使所述未知意图文本的识别装置执行以下方法步骤：