CN114756678B - 一种未知意图文本的识别方法及装置 - Google Patents
一种未知意图文本的识别方法及装置 Download PDFInfo
- Publication number
- CN114756678B CN114756678B CN202210307174.7A CN202210307174A CN114756678B CN 114756678 B CN114756678 B CN 114756678B CN 202210307174 A CN202210307174 A CN 202210307174A CN 114756678 B CN114756678 B CN 114756678B
- Authority
- CN
- China
- Prior art keywords
- samples
- text
- decision
- sentence
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 166
- 230000006870 function Effects 0.000 claims description 56
- 238000005457 optimization Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 11
- 238000013145 classification model Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种未知意图文本的识别方法及装置。其方案包括:获取每个训练样本对应的K个正样本和S个负样本,K和S均为大于或者等于1的正整数;使用分类器获取训练样本及其对应的正样本和负样本的句子表示,使同类别样本的句子表示相互聚拢,使不同类别的句子表示相互远离;根据句子表示确定每个类别的决策中心,并学习每个类别的决策边界;判断待识别文本是否位于全部类别的决策边界之外;如果是,则确定待识别文本为未知意图文本。本申请实施例在训练分类器阶段引入了对比学习和分类学习,使同类别样本的句子表示相互聚拢,使不同类别的句子表示相互远离,使训练决策边界的时候效果更优,使分类器能够更准确地识别出未知意图的文本。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种未知意图文本的识别方法及装置。
背景技术
文本分类是自然语言处理技术领域的基本任务之一,其在现实生活中有着非常丰富的应 用,例如基于自然语言处理技术的舆情监测、新闻分类、情感分类等应用都是通过文本分类 任务实现的。
目前,文本分类任务通过几个固定类别的训练样本训练分类模型,使分类模型能够从未 知文本中识别几个固定类别的文本,然而,对于不属于这几个固定类别的未知文本(即未知 意图),分类模型却无法进行分类。例如:在新闻分类场景中,如果训练样本包括体育、经 济、娱乐这三个类别的标签,那么使用这三个类别的训练样本训练得到的分类模型仅能够对 体育、经济、娱乐这三个类别的待识别文本进行分类,而生活类的待识别文本对于该分类模 型来说就属于未知意图,然而该分类模型无法识别出这个未知意图。
另外,在一些场景中,文本类别可能有许多种,训练样本的类别标签可能仅覆盖部分类 别,即训练样本的类别标签是不完备的。例如:在出行方式识别领域,训练样本的类别标签 可能包括步行、乘公交车、骑自行车、开车,然而出行方式还可以包括乘网约车、乘火车、 多种方式换乘等,对于分类模型来说,乘网约车、乘火车、多种方式换乘等都属于无法识别 的未知意图。
发明内容
本申请实施例提供了一种未知意图文本的识别方法及装置,能够准确地从待识别的文本 中识出未知意图的文本。
第一方面,本申请实施例提供了一种未知意图文本的识别方法,包括:获取每个训练样 本对应的K个正样本和S个负样本,正样本是从训练样本的同类别样本中随机获取的,负样 本是从训练样本的不同类别样本中随机获取的,K和S均为大于或者等于1的正整数;使用 分类器获取训练样本及其对应的正样本和负样本的句子表示,分类器通过对比学习损失函数 使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不同类别的句子表示相互远离; 根据句子表示确定每个类别的决策中心,并学习每个类别的决策边界;获取待识别文本与各 个类别的决策中心的相似度,以确定最大相似度对应的目标类别;判断待识别文本是否位于 目标类别的决策边界之外;如果待识别文本位于目标类别的决策边界之外,确定待识别文本 为未知意图文本;如果待识别文本位于目标类别的决策边界之内,确定待分类文本属于目标 类别。
本申请实施例提供的方法,在训练分类器的阶段引入了对比学习和分类学习,使同类别 样本的句子表示相互聚拢,使不同类别的句子表示相互远离,使训练决策边界的时候效果更 优,使分类器能够更准确地从待识别的文本中识出未知意图的文本。
在一种实现方式中,对比学习损失函数是根据训练样本与其任意正样本之间的距离,以 及,训练样本与其所有负样本之间的距离之和构造的。
在一种实现方式中,对比学习损失函数具体为以下Loss1:
其中,N为正样本的数量,vi表示训练样本的句子表示的归一化结果,vj表示正样本的 句子表示的归一化结果,v-表示负样本的句子表示的归一化结果,V+表示所有正样本的集 合,V-表示所有负样本的集合,τ为超参数,exp(vi·vj/τ)表示训练样本与其任意正样本之 间的距离,∑v-∈V-[expvi·v-/τ)+expvj·v-/τ)]表示训练样本与其所有负样本之间的距离之和。
在一种实现方式中,分类学习损失函数是根据训练样本的句子表示与其类别对应的真实 标签的表示之间的余弦距离,以及,训练样本的句子表示与所有其他类别标签的表示之间的 余弦距离之和构造的。
在一种实现方式中,分类学习损失函数具体为以下Loss2:
其中,zi表示训练样本的句子表示,θyi表示训练样本的真实标签的表示,θj表示其他类 别标签的表示,cos(θyi,zi)表示训练样本的句子表示与其类别对应的真实标签的表示之间的 余弦距离,cos(θj,zi)表示训练样本的句子表示与其他类别标签的表示之间的余弦距离,m为 一个预设的参数,s为一个预设倍数。
在一种实现方式中,学习每个类别的决策边界,包括:根据训练样本的句子表示与其类 别对应的决策中心之间的余弦距离与决策半径的数值关系构造决策边界优化函数,数值关系 包括训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于类别的决策边界,或 者,训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于或等于类别的决策边 界;根据决策边界优化函数学习每个类别簇的决策边界。
在一种实现方式中,决策边界优化函数具体为以下Lb:
其中,N为正样本的数量,Δyi表示类别的决策半径,cyi表示类别的决策中心,zi表示训 练样本的句子表示,cos(cyi,zi)表示训练样本zi与决策中心cyi之间的余弦距离。
在一种实现方式中,分类器采用以下总损失函数LOSS:
LOSS=Loss1×a+(1-a)×Loss2
其中,a为可调整的超参数。
在一种实现方式中,标签的表示,通过以下步骤得到:使用分类器获取标签的所有训练 样本的句子表示;将标签的所有训练样本的句子表示的中心点作为标签的句子表示。
第二方面,本申请实施例提供了一种未知意图文本的识别装置,包括:处理器和存储器, 存储器中包括程序指令,当程序指令被处理器执行时,使未知意图文本的识别装置执行以下 方法步骤:获取每个训练样本对应的K个正样本和S个负样本,正样本是从训练样本的同类 别样本中随机获取的,负样本是从训练样本的不同类别样本中随机获取的,K和S均为大于 或者等于1的正整数;使用分类器获取训练样本及其对应的正样本和负样本的句子表示,分 类器通过对比学习损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不 同类别的句子表示相互远离;根据句子表示确定每个类别的决策中心,并学习每个类别的决 策边界;获取待识别文本与各个类别的决策中心的相似度,以确定最大相似度对应的目标类 别;判断待识别文本是否位于目标类别的决策边界之外;如果待识别文本位于目标类别的决 策边界之外,确定待识别文本为未知意图文本;如果待识别文本位于目标类别的决策边界之 内,确定待分类文本属于目标类别。
本申请实施例提供的装置,在训练分类器的阶段引入了对比学习和分类学习,使同类别 样本的句子表示相互聚拢,使不同类别的句子表示相互远离,使训练决策边界的时候效果更 优,使分类器能够更准确地从待识别的文本中识出未知意图的文本。
附图说明
图1是本申请实施例提供的分类器的结构示意图;
图2是本申请实施例提供的未知意图文本的识别方法的流程图;
图3是本申请实施例提供的学习每个类别的决策边界的流程图;
图4是本申请实施例提供的一种未知意图文本的识别装置的结构示意图;
图5是本申请实施例提供的另一种未知意图文本的识别装置的结构示意图。
具体实施方式
文本分类是自然语言处理技术领域的基本任务之一,其在现实生活中有着非常丰富的应 用,例如基于自然语言处理技术实现的舆情监测、新闻分类、情感分类等应用都是通过文本 分类任务实现的。
目前,文本分类任务通过几个固定类别的训练样本训练分类模型,使分类模型能够从未 知文本中识别几个固定类别的文本,然而,对于不属于这几个固定类别的未知文本(即未知 意图),分类模型却无法进行分类。例如:在新闻分类场景中,如果训练样本包括体育、经 济、娱乐这三个类别的标签,那么使用这三个类别的训练样本训练得到的分类模型仅能够对 体育、经济、娱乐这三个类别的待识别文本进行分类,而生活类的待识别文本对于该分类模 型来说就属于未知意图,然而该分类模型无法识别出这个未知意图。
另外,在一些场景中,文本类别可能有许多种,训练样本的类别标签可能仅覆盖部分类 别,即训练样本的类别标签是不完备的。例如:在出行方式识别领域,训练样本的类别标签 可能包括步行、乘公交车、骑自行车、开车,然而出行方式还可以包括乘网约车、乘火车、 多种方式换乘等,对于分类模型来说,乘网约车、乘火车、多种方式换乘等都属于未知意图, 目前的分类模型无法识别出这个未知意图。
另外,目前的分类模型通常由深度学习模型训练得到,而深度学习模型只能在已训练过 的类别中给出输入文本的类别判断。针对未训练过的类别的输入文本,深度学习模型也会给 出所有已知分类中概率最高的类别,导致输入文本会被分类到错误的类别。
为了更准确地从待识别文本中识别出未知意图的文本,本申请实施例提供了一种未知意 图文本的识别方法。该方法可通过训练一个基于深度学习算法的分类模型实现或者通过其他 算法或方式实现。其中,分类模型的训练整体上可以包含两个阶段,第一个阶段是训练分类 器,第二个阶段是训练决策边界。这里的决策边界可以理解为类别的边界,其可用于判断某 个样本是否属于某个类别。例如:如果某个类别的样本位于某个类别的决策边界的内部,则 说明该样本属于这个类别;如果某个类别的样本位于某个类别的决策边界的外部,则说明该 样本不属于这个类别。
该分类模型可以采用BERT、roberta、GPT、UniLM等预训练语言模型作为特征提取器。 另外,该分类模型也可以是任意结构的深度学习模型,例如:RNN、CNN、transformer搭建 的深度学习模型。图1是本申请实施例示出的BERT模型的结构示意图。如图1所示,作为特征抽取器的BERT模型可以包括输入编码层Input Embedding、位置编码层PositionalEncoding和N个Transformer Block组成。在训练分类器阶段,输入编码层Input Embedding用于对训练样本进行Embedding编码,位置编码层Positional Encoding用于为训练样本的Embedding编码添加位置编码,N个Transformer Block用于提取训练样本的句子表示。
图2是本申请实施例提供的未知意图文本的识别方法的流程图。如图2所示,该方法可 以包括以下步骤S101-步骤S105。其中,步骤S101和步骤S102对应训练分类器的阶段,步 骤S103对应训练决策边界的阶段。
步骤S101,获取每个训练样本对应的K个正样本和S个负样本,正样本是从训练样本 的同类别样本中随机获取的,负样本是从训练样本的不同类别样本中随机获取的,K和S均 为大于或者等于1的正整数。
本申请实施例中,训练样本可以是已知类别的文本,例如:分词、短语、句子等。已知 类别可以有多个,每个类别可以包含一个或者多个训练样本。对于任一训练样本来说,与其 归属一个类别的其他样本可以作为其正样本,与其归属不同类别的样本可以作为其负样本。
为了训练分类器,本申请实施例对于每个训练样本,从与其所有同类别的样本中随机选 取K个正样本,例如2个正样本、3个正样本等,并且从与其不同类别的样本中随机选取S 个负样本,例如2个负样本、3个负样本等,以构造特征提取器的输入。
步骤S102,使用分类器获取训练样本及其对应的正样本和负样本的句子表示,分类器 通过对比学习损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不同类 别的句子表示相互远离。
与传统的仅通过分类学习损失函数使句子表示相互聚拢和远离的方式相比,本申请实施 例在分类学习损失函数的基础上还引入了对比学习损失函数。其中,对比学习损失函数与分 类学习损失函数分工不同,对比学习损失函数用于使同类别样本的句子表示相互聚拢,分类 学习损失函数用于使不同类别的句子表示相互远离。由于对比学习能够更着重于学习同类别 样本的共同特征,因此,本申请实施例的方法能够使得同类别样本的句子表示的聚拢效果更 好,有利于提升后续学习决策中心和决策边界的准确性。
具体实现中,为了得到训练样本、正样本和负样本的句子表示,可以首先通过编码层 Embedding Layer获取训练样本、正样本和负样本的Embedding编码,然后将Embedding编 码输入到特征提取器,以得到相应的句子表示。
以特征提取器为BERT或者Robert为例,样本的句子表示(包括训练样本、正样本和负 样本的句子表示)可以是特征提取器对样本的输出向量的首字符或首个分词对应的向量,即 [CLS]位对应的向量。
例如:训练样本“***男子接力”的分词结果是“***/男子/接力”,因此该训练样 本的句子表示是特征提取器输出的首个分词“***”对应的向量。
本申请实施例在特征提取器的输出端通过对比学习使同类样本的句子表示相互聚拢,通 过分类学习使不同类别的句子表示相互远离。
在一种实现方式中,对比学习的目标可以通过对比学习损失函数Loss1实现,该对比学 习损失函数可以根据训练样本与其任意正样本之间的距离,以及,训练样本与其所有负样本 之间的距离之和构造。
示例性的,对比学习损失函数Loss1可以为以下形式:
其中,N为正样本的数量,vi表示训练样本的句子表示的归一化结果,vj表示正样本的 句子表示的归一化结果,v-表示负样本的句子表示的归一化结果,V+表示所有正样本的集 合,V-表示所有负样本的集合,τ为超参数,exp(vi·vj/τ)表示训练样本与其任意正样本之 间的距离,∑v-∈V-[exp(vi·v-/τ)+exp(vj·v-/τ)]表示训练样本与其所有负样本之间的距 离之和。
在一种实现方式中,句子表示的归一化可以采用以下公式实现:
其中,X表示句子表示的归一化结果,表述句子表示向量,n为句子表示向量的维度, xi表示句子表示向量中的第i个维度值。
在一种实现方式中,分类学习的目标可以通过分类学习损失函数Loss2实现,该分类学 习损失函数可以根据训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离, 以及,训练样本的句子表示与所有其他类别标签的表示之间的余弦距离之和构造。
示例性的,分类学习损失函数Loss2可以为以下形式:
其中,zi表示训练样本的句子表示,θyi表示训练样本的真实标签的表示,θj表示其他类 别标签的表示,cos(θyi,zi)表示训练样本的句子表示与其类别对应的真实标签的表示之间的 余弦距离,cos(θj,zi)表示训练样本的句子表示与其他类别标签的表示之间的余弦距离,m为 一个预设的参数,s为一个预设倍数,m和s均是可修改的参数。
示例性的,在分类学习损失函数Loss2,s例如可以取值为10、15、20等,m例如可以取0.3~0.5之间的任意值,以使得训练样本的句子表示与其类别对应的真实标签的表示之间 的余弦距离大于m。
这里需要补充说明的是,在本申请实施例中,类别标签的表示可以通过三种方式实现:
第一种实现方式是将类别标签的表示随机初始化,然后在分类器中学习。
第二种实现方式是为类别标签添加标签描述文本,将类别标签及其标签描述文本的 Embedding编码输入到特征提取器中,以特征提取器的输出向量的首字符或首个分词对应的 向量,即[CLS]位对应的向量,作为类别标签的表示。
示例性的,对于类别标签“体育”,其标签描述文本可以是“是人类社会的一种身体教 育活动和社会文化活动”,因此输入到特征提取器中的文本可以是“体育:是人类社会的一 种身体教育活动和社会文化活动”。
第三种实现方式是通过特征提取器获取每个类别标签的所有训练样本的表示,然后取每 个类别标签的所有训练样本的表示的中心点,作为每个类别标签的表示。
示例性的,类别标签的表示可以通过以下公式得到:
其中,ck表示第k个类别的类别标签的表示,zi为该类别中的第i个训练样本的句子表 示,Sk表示第k个类别中的所有训练样本的集合,|Sk|表示第k个类别的中的训练样本的数 量。
基于在训练分类器阶段引入的对比学习和分类学习这两个训练目标,训练分类器阶段的 总损失函数LOSS可以为:
LOSS=Loss1×a+(1-a)×Loss2
其中,Loss1为对比学习的损失函数,Loss2为边界学习的损失函数,a为可调整的超参 数,用于调节对比学习和边界学习在训练分类器时所占的权重。
步骤S103,根据句子表示确定每个类别的决策中心,并学习每个类别的决策边界。
其中,决策中心可以是该类别中所有训练样本在语义空间中的中心点。当采用上述第三 种实现方式获得类别标签的表示时,类别标签的表示即可以作为决策中心。
图3是本申请实施例提供的学习每个类别的决策边界的流程图。
如图3所示,在一种实现方式中,各个类别的决策边界可以通过以下步骤得到:
步骤S301,根据训练样本的句子表示与其类别对应的决策中心之间的余弦距离与决策 半径的数值关系构造决策边界优化函数。
其中,数值关系包括训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于 类别的决策边界,或者,训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于 或等于类别的决策边界。
步骤S302,根据决策边界优化函数学习每个类别簇的决策边界。
不同于传统的在决策边界学习中采用欧氏距离来衡量相似度的方法,本申请实施例采用 了余弦距离来衡量训练样本与决策中心之间的相似度。这其中考虑的是:欧氏距离更注重衡 量样本之间的绝对距离,而余弦距离更注重衡量两个样本在某一方向(例如某个一个意图) 上的差异,因此,采用余弦距离衡量训练样本与决策中心之间的相似度,更能够体现出训练 样本与决策中心在意图上是否相近或相同。
示例性的,决策边界优化函数Lb可以为以下形式:
其中,N为正样本的数量,Δyi表示类别的决策半径,表示类别的决策中心,zi表示训 练样本的句子表示,/>表示训练样本zi与决策中心/>之间的余弦距离,δi表示训练样 本是否在决策边界内部。该优化函数以使Lb更小为优化目标。
其中:余弦距离越大,表示训练样本与决策中心之间的相似度越大,训练样本与决策中 心之间的距离越近;余弦距离越小,表示训练样本与决策中心之间的相似度越小,训练样本 与决策中心之间的距离越远。因此,上述公式以与决策半径Δyi进行比较; />越大,说明训练样本与决策中心之间的距离越远;/>越小,说明 训练样本与决策中心之间的距离越近。
根据上述优化函数,决策边界学习的主要思路是:如果某个类别的训练样本在该类别的 决策边界的内部,则将决策边界缩小以靠近该训练样本,如果某个类别的训练样本在该类别 的决策边界外部,则将决策边界扩大到包含该训练样本。这样,各个类别的决策边界可以根 据其类别的训练样本的位置进行自适应调节,使同一类别的尽可能多的训练样本位于该类别 的决策边界内,又尽可能使该类别以外的训练样本不会位于该类别的决策边界内,使学习的 决策边界更加准确。例如:当1与训练样本zi与决策中心cyi之间的余弦距离之差大于Δyi时, δi=1,该优化函数的优化目标实际上是那么,为了使Lb更小, 可以增大边界Δyi。
另外,如果以欧氏距离来衡量训练样本与决策中心之间的相似度,则决策边界优化函数 Lb可以为以下形式:
其中,N为正样本的数量,Δyi表示类别的决策半径,cyi表示类别的决策中心,zi表示训 练样本的句子表示,表示训练样本zi与决策中心cyi之间的欧式距离,δi表示训练样 本是否在决策边界内部。该优化函数以使Lb更小为优化目标。
其中:欧式距离越大,表示训练样本与决策中心之间的相似度越小,训练样本与决策中 心之间的距离越远;欧式距离越小,表示训练样本与决策中心之间的相似度越大,训练样本 与决策中心之间的距离越近。
步骤S104,获取待识别文本与各个类别的决策中心的相似度,以确定最大相似度对应 的目标类别。
在步骤S104中,待识别文本被输入到分类器之后,分类器可以分别计算待识别文本与 每个类别的决策中心的相似度,从而确定最大相似度的目标类别。
其中:
如果以余弦距离来表示相似度,那么待识别文本与决策中心的余弦距离越大,说明待识 别文本与决策中心的相似度越大,反之,待识别文本与决策中心的余弦距离越小,说明待识 别文本与决策中心的相似度越小。因此,余弦距离的最大值所对应的类别即为目标类别。
如果以欧式距离来表示相似度,那么待识别文本与决策中心的欧式距离越大,说明待识 别文本与决策中心的相似度越小,反之,待识别文本与决策中心的欧式距离越小,说明待识 别文本与决策中心的相似度越大。因此,欧式距离的最小值所对应的类别即为目标类别。
步骤S105,判断待识别文本是否位于目标类别的决策边界之外。
其中:
如果以余弦距离来表示相似度,那么待识别文本与目标类别的决策中心之间的距离可以 表示为:1-余弦距离。那么,如果1-余弦距离大于目标类别的决策半径,则说明待识别文本 位于目标类别的决策边界之外;如果1-余弦距离小于目标类别的决策半径,则说明待识别文 本位于目标类别的决策边界之内。
如果以欧式距离来表示相似度,那么,如果欧式距离大于目标类别的决策半径,则说明 待识别文本位于目标类别的决策边界之外;如果欧式距离小于目标类别的决策半径,则说明 待识别文本位于目标类别的决策边界之内。
另外,对于1-余弦距离等于目标类别的决策半径的情况,以及欧式距离等于目标类别的 决策半径的情况,既可以认为待识别文本位于目标类别的决策边界之外,也可以认为待识别 文本位于目标类别的决策边界之内,本领技术人员在实施本方案时可以自行确定,本申请实 施例对此不做限定。
步骤S106,如果待识别文本位于目标类别的决策边界之外,则确定待识别文本为未知 意图文本。
步骤S107,如果待识别文本位于目标类别的决策边界之内,则确定待分类文本属于目 标类别。
以上步骤S104-步骤S106可以在未知意图文本识别的测试阶段或者生产阶段实现。
本申请实施例提供的方法,在训练分类器的阶段引入了对比学习和分类学习,使同类别 样本的句子表示相互聚拢,使不同类别的句子表示相互远离,使训练决策边界的时候效果更 优,使分类器能够更准确地从待识别的文本中识出未知意图的文本。
上述各实施例对本申请提供的未知意图文本的识别方法的各方案进行了介绍。可以理解 的是,各个设备或模块为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软 件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各硬件及方 法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还 是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技 术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为 超出本申请的范围。
图4是本申请实施例提供的一种未知意图文本的识别装置的结构示意图。如图4所示, 该装置包括了用于实现本申请实施例提供的未知意图文本的识别方法的硬件模块,包括:处 理器210和存储器220,存储器220中包括程序指令230,当程序指令230被处理器210执行 时,使该未知意图文本的识别装置执行以下方法步骤:
获取每个训练样本对应的K个正样本和S个负样本,正样本是从训练样本的同类别样本 中随机获取的,负样本是从训练样本的不同类别样本中随机获取的,K和S均为大于或者等 于1的正整数;
使用分类器获取训练样本及其对应的正样本和负样本的句子表示,分类器通过对比学习 损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不同类别的句子表示 相互远离;
根据句子表示确定每个类别的决策中心,并学习每个类别的决策边界;
获取待识别文本与各个类别的决策中心的相似度,以确定最大相似度对应的目标类别;
判断待识别文本是否位于目标类别的决策边界之外;
如果待识别文本位于目标类别的决策边界之外,确定待识别文本为未知意图文本;
如果待识别文本位于目标类别的决策边界之内,确定待分类文本属于目标类别。
图5是本申请实施例提供的另一种未知意图文本的识别装置的结构示意图。如图5所示, 该装置包括了用于实现本申请实施例提供的未知意图文本的识别方法的软件模块,包括:
样本获取模块310,用于获取每个训练样本对应的K个正样本和S个负样本,正样本是 从训练样本的同类别样本中随机获取的,负样本是从训练样本的不同类别样本中随机获取的, K和S均为大于或者等于1的正整数;
第一训练模块320,用于使用分类器获取训练样本及其对应的正样本和负样本的句子表 示,分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函 数使不同类别的句子表示相互远离;
第二训练模块330,用于根据句子表示确定每个类别的决策中心,并学习每个类别的决 策边界;
预测模块340,用于获取待识别文本与各个类别的决策中心的相似度,以确定最大相似 度对应的目标类别;
预测模块340,还用于判断待识别文本是否位于目标类别的决策边界之外;
预测模块340,还用于如果待识别文本位于目标类别的决策边界之外,确定待识别文本 为未知意图文本;
预测模块340,还用于如果待识别文本位于目标类别的决策边界之内,确定待分类文本 属于目标类别。
本申请实施例提供的装置,在训练分类器的阶段引入了对比学习和分类学习,使同类别 样本的句子表示相互聚拢,使不同类别的句子表示相互远离,使训练决策边界的时候效果更 优,使分类器能够更准确地从待识别的文本中识出未知意图的文本。
容易理解的是,本领域技术人员在本申请提供的几个实施例的基础上,可以对本申请的 实施例进行结合、拆分、重组等得到其他实施例,这些实施例均没有超出本申请的保护范围。
以上的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细 说明,所应理解的是,以上仅为本申请实施例的具体实施方式而已,并不用于限定本申请实 施例的保护范围,凡在本申请实施例的技术方案的基础之上,所做的任何修改、等同替换、 改进等,均应包括在本申请实施例的保护范围之内。
Claims (10)
1.一种未知意图文本的识别方法,其特征在于,包括:
获取每个训练样本对应的K个正样本和S个负样本,所述正样本是从所述训练样本的同类别样本中随机获取的,所述负样本是从所述训练样本的不同类别样本中随机获取的,K和S均为大于或者等于1的正整数;
使用分类器获取所述训练样本及其对应的所述正样本和所述负样本的句子表示,所述分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不同类别的句子表示相互远离;
根据所述句子表示确定每个类别的决策中心,并学习每个类别的决策边界;
获取待识别文本与各个类别的决策中心的相似度,以确定最大相似度对应的目标类别;
判断所述待识别文本是否位于所述目标类别的决策边界之外;
如果所述待识别文本位于所述目标类别的决策边界之外,确定所述待识别文本为未知意图文本;
如果所述待识别文本位于所述目标类别的决策边界之内,确定所述待分类文本属于所述目标类别。
2.根据权利要求1所述的方法,其特征在于,所述对比学习损失函数是根据所述训练样本与其任意所述正样本之间的距离,以及,所述训练样本与其所有所述负样本之间的距离之和构造的。
3.根据权利要求2所述的方法,其特征在于,所述对比学习损失函数具体为以下Loss1:
其中,N为正样本的数量,vi表示训练样本的句子表示的归一化结果,vj表示正样本的句子表示的归一化结果,v-表示负样本的句子表示的归一化结果,V+表示所有正样本的集合,V-表示所有负样本的集合,τ为超参数,exp(vi·vj/τ)表示所述训练样本与其任意所述正样本之间的距离,所述表示所述训练样本与其所有所述负样本之间的距离之和。
4.根据权利要求3所述的方法,其特征在于,所述分类学习损失函数是根据所述训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离,以及,所述训练样本的句子表示与所有其他类别标签的表示之间的余弦距离之和构造的。
5.根据权利要求4所述的方法,其特征在于,所述分类学习损失函数具体为以下Loss2:
其中,zi表示训练样本的句子表示,θyi表示训练样本的真实标签的表示,θj表示其他类别标签的表示,cos(θyi,zi)表示所述训练样本的句子表示与其类别对应的真实标签的表示之间的余弦距离,cos(θj,zi)表示所述训练样本的句子表示与其他类别标签的表示之间的余弦距离,m为一个预设的参数,s为一个预设倍数。
6.根据权利要求1所述的方法,其特征在于,所述学习每个类别的决策边界,包括:
根据所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离与所述决策半径的数值关系构造决策边界优化函数,所述数值关系包括所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离大于类别的决策边界,或者,所述训练样本的句子表示与其类别对应的决策中心之间的余弦距离小于或等于类别的决策边界;
根据所述决策边界优化函数学习每个所述类别簇的决策边界。
7.根据权利要求6所述的方法,其特征在于,所述决策边界优化函数具体为以下Lb:
其中,N为正样本的数量,Δyi表示类别的决策半径,cyi表示类别的决策中心,zi表示训练样本的句子表示,cos(cyi,zi)表示训练样本zi与决策中心cyi之间的余弦距离。
8.根据权利要求5所述的方法,其特征在于,所述分类器采用以下总损失函数LOSS:
LOSS=Loss1×a+(1-a)×Loss2
其中,a为可调整的超参数。
9.根据权利要求4所述的方法,其特征在于,所述标签的表示,通过以下步骤得到:
使用所述分类器获取所述标签的所有训练样本的句子表示;
将所述标签的所有训练样本的句子表示的中心点作为所述标签的句子表示。
10.一种未知意图文本的识别装置,其特征在于,包括:处理器和存储器,所述存储器中包括程序指令,当所述程序指令被所述处理器执行时,使所述未知意图文本的识别装置执行以下方法步骤:
获取每个训练样本对应的K个正样本和S个负样本,所述正样本是从所述训练样本的同类别样本中随机获取的,所述负样本是从所述训练样本的不同类别样本中随机获取的,K和S均为大于或者等于1的正整数;
使用分类器获取所述训练样本及其对应的所述正样本和所述负样本的句子表示,所述分类器通过对比学习损失函数使同类别样本的句子表示相互聚拢,通过分类学习损失函数使不同类别的句子表示相互远离;
根据所述句子表示确定每个类别的决策中心,并学习每个类别的决策边界;
获取待识别文本与各个类别的决策中心的相似度,以确定最大相似度对应的目标类别;
判断所述待识别文本是否位于所述目标类别的决策边界之外;
如果所述待识别文本位于所述目标类别的决策边界之外,确定所述待识别文本为未知意图文本;
如果所述待识别文本位于所述目标类别的决策边界之内,确定所述待分类文本属于所述目标类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210307174.7A CN114756678B (zh) | 2022-03-25 | 2022-03-25 | 一种未知意图文本的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210307174.7A CN114756678B (zh) | 2022-03-25 | 2022-03-25 | 一种未知意图文本的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114756678A CN114756678A (zh) | 2022-07-15 |
CN114756678B true CN114756678B (zh) | 2024-05-14 |
Family
ID=82326401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210307174.7A Active CN114756678B (zh) | 2022-03-25 | 2022-03-25 | 一种未知意图文本的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756678B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702048B (zh) * | 2023-08-09 | 2023-11-10 | 恒生电子股份有限公司 | 一种新增意图识别方法、模型训练方法、装置、电子设备 |
CN116796290B (zh) * | 2023-08-23 | 2024-03-29 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、***、计算机及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
CN113946670A (zh) * | 2021-10-19 | 2022-01-18 | 北京理工大学 | 一种面向对话情感识别的对比式上下文理解增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210374553A1 (en) * | 2020-06-02 | 2021-12-02 | Salesforce.Com, Inc. | Systems and methods for noise-robust contrastive learning |
-
2022
- 2022-03-25 CN CN202210307174.7A patent/CN114756678B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
WO2022022163A1 (zh) * | 2020-07-30 | 2022-02-03 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
CN113946670A (zh) * | 2021-10-19 | 2022-01-18 | 北京理工大学 | 一种面向对话情感识别的对比式上下文理解增强方法 |
Non-Patent Citations (1)
Title |
---|
基于CNN特征空间的微博多标签情感分类;孙松涛;何炎祥;;工程科学与技术;20170520(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114756678A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN114756678B (zh) | 一种未知意图文本的识别方法及装置 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN113849653B (zh) | 一种文本分类方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及*** | |
CN113361278A (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN112988970A (zh) | 一种服务于智能问答***的文本匹配算法 | |
CN116842194A (zh) | 一种电力语义知识图谱***及方法 | |
CN117789971B (zh) | 基于文本情感分析的心理健康智能评测***及方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
Hakimov et al. | Evaluating architectural choices for deep learning approaches for question answering over knowledge bases | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题*** | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
CN112434133B (zh) | 一种意图分类方法、装置、智能终端及存储介质 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN114462418A (zh) | 事件检测方法、***、智能终端及计算机可读存储介质 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
Nan et al. | Mirror distillation model with focal loss for Chinese machine reading comprehension | |
Arora et al. | A hybrid model for combining neural image caption and k-nearest neighbor approach for image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |