CN116702048A - 一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备 - Google Patents

一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备 Download PDF

Info

Publication number
CN116702048A
CN116702048A CN202310994200.2A CN202310994200A CN116702048A CN 116702048 A CN116702048 A CN 116702048A CN 202310994200 A CN202310994200 A CN 202310994200A CN 116702048 A CN116702048 A CN 116702048A
Authority
CN
China
Prior art keywords
intention
newly added
training data
classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310994200.2A
Other languages
English (en)
Other versions
CN116702048B (zh
Inventor
陈伟
李莉
倪守奇
林佳佳
周峰
林金曙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202310994200.2A priority Critical patent/CN116702048B/zh
Publication of CN116702048A publication Critical patent/CN116702048A/zh
Application granted granted Critical
Publication of CN116702048B publication Critical patent/CN116702048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备,首先,通过对标签训练数据构建类中心向量,进而利用标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整。使得范围调整后的分类决策边界能够对历史意图语料与新增意图语料进行有效区分,获得历史意图分类结果与新增意图分类数据集;进而针对该批次新增意图分类数据集,构建对应的分布外监测模型,进而通过该模型识别新增意图分类数据集,对应的分类结果,使得表征该分类决策边界的分布外监测模型,能够在新增意图的类别结果识别中,提高识别效率。

Description

一种新增意图识别方法、分布外监测模型的训练方法、装置、 电子设备
技术领域
本申请涉及机器学习与自然语言处理交叉领域,具体而言,涉及一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备。
背景技术
随着人工智能技术的不断发展,多轮对话***在人机交互领域得到了广泛应用。多轮对话***可以模拟自然语言交流,实现与用户的智能对话,为用户提供各种服务和信息。然而,现有多轮对话***,如何有效地处理语料中的新增意图成为了该领域的一个具有挑战性的问题。
现有技术的意图分类方法采用封闭世界的假设,即训练和测试数据都来自同一个已知的意图标签集合。导致如果出现新的意图标签,传统方法可能无法正确分类。在实际生产环境中随着企业业务的推进,新增意图类别会成批次出现。一个简单的解决思路是每次都在全量的数据上重新训练模型,但这种做法会消耗过多的时间和存储成本,无法适用于业务快速迭代的现实场景。
现有的解决方案包括在线学习、迁移学习和元学习等方法。在线学习的方法可以通过不断地训练模型来适应新的意图类别,但是也需要大量的时间和计算资源,并且可能会导致模型的过拟合。迁移学习的方法可以将模型从一个领域迁移到另一个领域,从而实现新意图类别的识别,但是也需要大量的训练数据和模型的调整。元学习的方法可以通过学习模型的学习能力来实现新意图类别的识别,但是也需要大量的训练数据和复杂的模型设计。
无论采用上述何种方式,均会大大提高了训练模型的时长、算力及数据存储的成本,降低了业务迭代的效率。
发明内容
本申请的目的在于提供一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备,其有效地降低全量数据训练模型以及模型设计所造成的大量资源开销,同时提高模型迭代效率,最终使用该思路构建的多轮对话***能够提供更加高效优质的意图识别服务。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种新增意图识别方法,包括:
将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN;所述嵌套式分布外监测模型OODmodelN-1包含在第N个识别周期之前的N-1个识别周期分别对应的分布外监测模型,每个所述分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
将所述新增意图分类数据集TN输入第WN识别周期对应的新增分布外监测模型OODmodelN,获得所述新增意图分类数据集TN对应的新增意图分类结果;所述新增分布外监测模型OODmodelN通过所述新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
可选地,所述将所述新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型,获得所述新增意图分类数据集TN对应的新增意图分类结果的步骤,表达式如下:
Tresult=OODmodelN(…OODmodel2(OODmodel1(TN)))
其中,Tresult表征所述新增意图分类数据集TN对应的新增意图分类结果,OODmodelN表征所述新增分布外监测模型。
可选地,所述将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果Wn与新增意图分类数据集Tn的步骤,满足如下公式:
其中,所述是所述历史意图数据分类/>的阈值,所述函数/>表示向量间的欧式距离;
当所述待识别意图数据集的样本与所述类中心向量/>的距离大于所述阈值/>时,将所述样本/>判定为所述新增意图分类数据集Tn的分类数据;
当所述待识别意图数据集的样本与所述类中心向量ck的距离小于所述阈值/>时,将所述样本/>分类到距离最小的历史意图分类结果上。
可选地,在所述将所述新增意图分类数据集Tn输入第N个识别周期对应的新增分布外监测模型的步骤,之前,还包括:
获得所述新增意图分类数据集Tn对应的新增标签训练数据;
对所述新增标签训练数据输入语言表征模型,获得所述标签训练数据对应的新增文本向量表示;
根据所述新增文本向量表示对所述语言表征模型进行调整,获得所述新增标签训练数据对应的新增特征提取器;
根据所述新增特征提取器计算所述新增标签训练数据对应的新增向量表示;
根据所述新增标签训练数据的标签与所述新增向量表示,计算所述新增标签训练数据的新增类中心向量;
根据所述新增标签训练数据与所述新增类中心向量,对所述新增标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与新增标签训练数据匹配时,获得所述新增分布外监测模型。
可选地,所述新增类中心向量的表达式如下:
其中,为新增意图分类/>的样本数量,所述/>为所述新增标签训练数据的样本,所述/>为所述新增标签训练数据的类别标签,所述/>为所述新增意图分类/>对应的新增类中心向量。
第二方面,本申请实施例提供一种分布外监测模型的训练方法,包括:
获得意图分类数据集对应的标签训练数据;
确定所述标签训练数据的类中心向量;
根据所述标签训练数据与所述类中心向量,对所述标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得所述分布外监测模型。
可选地,所述确定所述标签训练数据的类中心向量的步骤,包括:
对所述标签训练数据输入语言表征模型,获得所述标签训练数据对应的文本向量表示;
根据所述文本向量表示对所述语言表征模型进行调整,获得所述标签训练数据对应的特征提取器;
根据所述特征提取器计算所述标签训练数据对应的向量表示;
根据所述标签训练数据的标签与所述向量表示,计算所述标签训练数据的类中心向量。
第三方面,本申请实施例提供一种新增意图识别装置,包括:意图区分模块与意图识别模块;
所述意图区分模块,用于将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN;所述嵌套式分布外监测模型OODmodelN-1包含在第N个识别周期之前的N-1个识别周期分别对应的分布外监测模型,每个所述分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
所述意图识别模块,用于将所述新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型OODmodelN,获得所述新增意图分类数据集TN对应的新增意图分类结果;所述新增分布外监测模型OODmodelN通过所述新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
第四方面,本申请实施例提供一种分布外监测模型的训练装置,包括:获取模块、处理模块;
所述获取模块,用于获得意图分类数据集对应的标签训练数据;
所述处理模块,用于确定所述标签训练数据的类中心向量;根据所述标签训练数据与所述类中心向量,对所述标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得所述分布外监测模型。
第五方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如第一个方面或第一个方面任意一种可能的实现方式所述的方法;和/或,实现如第二个方面或第二个方面任意一种可能的实现方式所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一个方面或第一个方面任意一种可能的实现方式所述的方法;和/或,实现如第二个方面或第二个方面任意一种可能的实现方式所述的方法。
相对于现有技术,本申请实施例所提供的一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备,首先,通过对标签训练数据构建类中心向量,进而利用标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整。使得范围调整后的分类决策边界能够对历史意图语料与新增意图语料进行有效区分,获得历史意图分类结果与新增意图分类数据集;进而针对该批次新增意图分类数据集,构建对应的分布外监测模型,进而通过该模型识别新增意图分类数据集,对应的分类结果,使得表征该分类决策边界的分布外监测模型,能够在新增意图的类别结果识别中,提高识别效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本发明实施例提供的一种新增意图识别方法的框架示意图;
图2为本发明实施例提供的一种分布外监测模型的训练方法的流程示意图;
图3为本发明实施例提供的另一种分布外监测模型的训练方法的流程示意图;
图4为本发明实施例提供的一种新增意图识别方法的流程示意图;
图5为本发明实施例提供的一种分类决策边界调整机制示意图;
图6为本发明实施例提供的另一种新增意图识别方法的框架示意图;
图7为本发明实施例提供的一种分布外监测模型的训练装置的示意图;
图8为本发明实施例提供的一种新增意图识别装置的示意图;
图9为本发明实施例提供的另一种新增意图识别装置的示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现有技术中,为了应该对多轮对话***中自然语言的意图识别,尤其是对新增意图的识别,通常使用一个已知的意图标签集合进行模型的训练与测试。而在实际的意图识别环境中,新增意图往往随着业务的推进而批次产生。如果使用现有的思路对意图识别的模型进行训练和迭代,需要使用全量数据重新对相关模型进行训练。从而大大提高了训练模型的时长、算力及数据存储的成本,降低了业务迭代的效率。
为此,本申请引入分布外检测 (Out-of-Distribution,简称:OOD)的思路,通过已有的数据集训练出一个可以识别已知意图类别和未知意图类别的模型,从而可以有效地处理新增意图问题。当需要添加新的意图时,可以通过将新意图加入未知意图的集合,从而实现新意图的检测。同时,OOD方法还可以提高模型的鲁棒性和可解释性,从而减少深度学习模型的误判和不确定性。
其核心思路在于:将含有可识别的历史意图语料与新增意图语料的待识别意图数据集进行区分,获得历史意图分类结果与新增意图分类数据集;进而针对该批次新增意图分类数据集,构建对应的分布外监测模型,进而通过该模型识别新增意图分类数据集,获得对应的分类结果。
而该批次新增意图分类数据集对应的分布外监测模型,又可以嵌套至下一次识别周期的预料区分中,将下一次识别周期中的历史意图预料区分出来。
基于上述方法,可以有效地降低全量数据训练模型以及模型设计所造成的大量资源开销,同时提高模型迭代效率,最终使用该思路构建的多轮对话***能够提供更加高效优质的意图识别服务。
具体的,图1为本发明实施例提供的一种新增意图识别方法的框架示意图,参见图1,新增意图识别方法的步骤如下:
步骤10、通过历史意图训练数据对嵌套式分布外监测模型OODmodelN-1进行训练;
其中,嵌套式OODmodelN-1用于指代第N-1个识别周期所对应的OOD模型。需要说明的是,假设该嵌套式OODmodelN-1为初始周期的模型,则该历史意图训练数据为具有数据标签的历史意图语料,此时对于初始周期的模型可以进行全量训练;而对于后续识别周期来说,其历史意图训练数据则为上一个识别周期的新增标签训练数据,从而避免了全量训练。
步骤11、当完成OODmodelN-1训练后,进入第N个识别周期,此时业务场景获得的待识别意图数据集包含历史意图语料与新增意图语料,将该待识别意图数据集输入OODmodelN-1
步骤12、由于历史意图语料能够被经过历史意图训练数据训练的OODmodelN-1识别出其分类结果,而新增意图语料对于OODmodelN-1,其分类结果是未知的,因此,OODmodelN-1可以将历史意图分类结果与新增意图分类数据集区分开,但是并不能够识别出新增意图分类数据集区具体的分类结果;
步骤13,通过对新增意图语料添加数据标签,获得新增标签训练数据,进而通过该新增标签训练数据对OODmodelN-1进行训练,以获得嵌套式OODmodelN
具体的,该嵌套式OODmodelN即表征第N个识别周期OOD模型;
步骤14,将新增意图分类数据集输入OODmodelN,此时即可获得新增意图分类数据集对应的新增意图分类结果。
通过上述步骤10~步骤14,即可实现第N个识别周期的新增意图语料对应的意图分类结果识别。可想而知,该第N个识别周期的OODmodelN可以嵌套至第N+1个识别周期中进行下一个周期的意图分类识别。
进一步的,为了能够实现图1所示的一种新增意图识别方法的框架示意图,需要每个识别周期中的OOD模型,能够准确的区分历史意图分类结果与新增意图分类数据集区。因此,针对OOD模型的构建及训练方式,下面给出一可能的实现方式进行示例性说明。具体的,图2为本发明实施例提供的一种分布外监测模型的训练方法的流程示意图,参见图2,该方法包括:
步骤200、获得意图分类数据集对应的标签训练数据;
需要说明的是,对于步骤200的标签训练数据,对于初始识别周期来说,其可以被理解基于全量历史意图语料获得的具有标签的历史意图训练数据;对于其他识别周期,其可以为基于新增意图语料获得的具有标签的标签训练数据。
步骤201、确定标签训练数据的类中心向量;
具体的,该类中心向量用于表征某一意图的类别,以便后续根据新的样本与某一类别的类中心向量确定该样本与特定类别的相似度。
步骤202、根据标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得分布外监测模型。
本发明实施例提供的一种分布外监测模型的训练方法,通过对标签训练数据构建类中心向量,进而利用标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整。使得范围调整后的分类决策边界能够对历史意图语料与新增意图语料进行有效区分,使得表征该分类决策边界的分布外监测模型,能够在新增意图的类别结果识别中,提高识别效率。
可选地,由于该标签训练数据的类中心向量表征数据中各个类别所对应的中心,只有确定了各个类别的类中心向量,才能够准确识别样本与类别的关系。因此,针对如何获得类中心向量给出一种可能的实现方式进行示例性说明。具体的,在图2的基础上,图3为本发明实施例提供的另一种分布外监测模型的训练方法的流程示意图,参见图3,该方法中,步骤201具体包括:
步骤201-1、对标签训练数据输入语言表征模型,获得标签训练数据对应的文本向量表示;
可选地,该语言表征模型可以采用“基于转换器的双向编码表征(BidirectionalEncoder Representations from Transformers,简称:BERT)”技术,具体的:BERT预训练模型将输入的文本序列进行编码,并输出每个词的向量表示。这些向量包含了输入文本的语义信息,可以用于下游自然语言处理任务。对于给定的文本x,将其中每个字xi输入到BERT预训练模型中,公式(1)如下:
(1)
其中,[CLS]作为分类开始标记拼接到文本开头,[SEP]作为结束标记拼接到文本末尾,一起输入到BERT预训练模型中。文本为文本的总长度,mean-pooling表示对输出的语义向量求和并取平均,计算结果/>作为整句话的文本向量表示。
步骤201-2、根据文本向量表示对语言表征模型进行调整,获得标签训练数据对应的特征提取器;
可选地,可以使用Softmax交叉熵损失调整预训练模型,学习合适的意图表示,从而构建特征提取器。对于某一个识别周期的训练,其标签训练数据实际可以被理解为该识别周期新增意图语料对应的新增标签训练数据,因此,给定标签训练数据,Softmax交叉熵损失/>的公式(2)如下:
(2)
其中,为句子长度,/>为意图总体类别数,函数/>为单层的全连接层,将特征维度映射到意图类别数量上。最终训练得到具有区分度的特征提取器,并用于后续下游任务;/>第i个训练数据对应的意图类别标签;c为/>中的某一个特定类别。
步骤201-3、根据特征提取器计算标签训练数据对应的向量表示;
步骤201-4、根据标签训练数据的标签与向量表示,计算标签训练数据的类中心向量。
可选地,对于类中心向量的计算,一种可能的实现方式为:
给定提取好的特征向量,根据意图类别标签/>将向量求和并取平均值,计算得到的向量即为对应的类中心向量/>,公式(3)如下:
(3)
其中,为意图分类/>的样本数量,/>为标签训练数据的样本,/>为标签训练数据的类别标签,/>为意图分类/>对应的类中心向量。
基于上述示例构建OOD的方式,下面以特定识别周期为例,例如,第N-1个识别周期与第N个识别周期,对业务***应用该嵌套式OOD模型对新增意图分类结果进行识别的流程进行说明,具体的,图4为本发明实施例提供的一种新增意图识别方法的流程示意图,参见图4,该方法包括:
步骤300、将待识别意图数据集输入嵌套式OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN
其中,嵌套式OODmodelN-1嵌套在第N个识别周期之前的N-1个识别周期分别对应的各个分布外监测模型,每个分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
步骤301、将新增意图分类数据集TN输入第N个识别周期对应的新增OODmodelN,获得新增意图分类数据集TN对应的新增意图分类结果;
其中,该OODmodelN通过新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
需要说明的是,对于本示例中涉及的每个识别周期对应的分布外监测模型OOD,其均可以采用上文图1~图3所示的示例进行训练与构建。
本发明实施例提供的新增意图识别方法,将含有可识别的历史意图语料与新增意图语料的待识别意图数据集进行通过上一个识别周期的嵌套式分布外监测模型区分,获得历史意图分类结果与新增意图分类数据集;进而针对该批次新增意图分类数据集,构建对应的分布外监测模型,进而通过该模型识别新增意图分类数据集,对应的分类结果。
而该批次新增意图分类数据集对应的分布外监测模型,又可以嵌套至下一次识别周期的语料意图的区分中,将下一次识别周期中的历史意图预料区分出来。
基于上述方法,可以有效地降低全量数据训练模型以及模型设计所造成的大量资源开销,同时提高模型迭代效率,最终使用该思路构建的多轮对话***能够提供更加高效优质的意图识别服务。
可选地,对于分批到达的新增意图分类数据集,其中,/>为初次训练时大量的历史意图语料,/>为新增的小批量新意图语料。则对于第N个识别周期,对于步骤301,其嵌套式OOD的框架,表达式(4)可以为:
Tresult=OODmodelN(…OODmodel2(OODmodel1(TN))) (4)
其中,Tresult表征新增意图分类数据集TN对应的新增意图分类结果,OODmodelN表征新增分布外监测模型。
可选地,对于步骤301,满足如下公式(5):
(5)
其中,是历史意图数据分类/>的阈值,函数/>表示向量间的欧式距离;/>为全部的历史意图数据分类。/>表征分类结果
当待识别意图数据集的样本与类中心向量/>的距离大于对应的阈值/>时,将样本/>判定为新增意图分类数据集Tn的分类数据;
具体的,当与类中心向量/>的距离大于其阈值/>,意味着该/>的意图类别不属于类别/>,其应被划分至新增意图分类数据集Tn中。
当待识别意图数据集的样本与类中心向量ck的距离小于其阈值/>时,将样本/>分类到距离最小的历史意图分类结果上。
具体的,某一样本与每个类中心向量ck的距离对应的阈值/>;例如,其中有三个比较的结果都小于各自阈值,则将样本/>分类到距离最小的历史意图分类结果上。
下面结合具体的业务场景示例进行说明,如表1所示,每条意图文本都对应一个意图标签,即上文类别标签。不同识别周期的新增意图语料按批次给出,其中历史数据对应大批量的历史意图语料,新增意图语料随企业业务推进而产生的少量新意图类别。需要说明的是,在该示例中,按照60%训练集、20%验证集以及20%测试集的比例划分数据集。
表1
构建向量表示模型,将上述数据集的历史意图样本输入BERT预训练模型中,得到BERT预训练模型输出作为原句中第n个词的文本向量表示。
例如表1的一条意图文本,在文本开头加入一个表示文本开始的特殊字符[“CLS”],在文本末尾加入一个表示文本结束的特殊字符[“SEP”],经过数据预处理分词后得到结果[“CLS” ,“订”,“三”, “张”, “明”, “天”, “早”, “上”, “飞”, “成”,“都”,“的”, “机”, “票”, “SEP”] 。经过BERT预训练模型得到每个字词的向量表示,然后对整个句子的文本向量表示做平均池化操作得到整句话的高级语义特征表示,其可以采用上述示例中的公式(1)如下:
(1)
其中即为“订三张明天早上飞成都的机票”这句话的向量表示。将该向量表示输入到文本向量表示中,经过有监督训练得到交叉熵损失{0.89}。重复计算所有样本并多次迭代模型参数,最终得到调整后的模型,即上文所述特征提取器,用于计算得到文本有区分度的高维向量表示。
本发明使用一种自适应阈值的分布外检测方法来检测新增意图语料,并对历史意图语料进行分类。具体来说,方法首先计算每个类别的类中心向量,其可以采用上述示例所示公式(3)如下:
(3)
其中,为意图分类/>的样本数量。结合上述示例,对于“订三张明天早上飞成都的机票”这句话,其类别标签为“Travel-Query”。将该类别下的所有文本向量通过公式计算得到“Travel-Query”类别的中心向量/>。接着为每一个意图分类/>初始化自适应的阈值/>
可选地,图5为本发明实施例提供的一种分类决策边界调整机制示意图,对上文步骤202进行示例性说明,参见图5,其展示了两种示例(a)、(b),对于(a):在一种可能的实现方式中,获得全部或部分历史意图数据的文本向量与类中心向量的距离,对全部距离求均值后,将距离均值与阈值作比较,若小于阈值时,为防止阈值过大引入更多的新增意图样本,阈值需要向类中心的向量意图样本收缩以获得更紧凑的决策边界。
例如,图5中的(a),其中各个“样本”图例可以理解为历史意图样本对应的文本向量;当全部距离的均值小于阈值时,说明该初始分类决策边界a过大,此时,如果有“新增意图样本”的文本向量,其基于初始分类决策边界a会被误判为“历史意图数据的文本向量”。因此需要对该初始分类决策边界a进行收缩,以获得调整后的分类决策边界a1,从而在涵盖全部历史意图数据的文本向量同时,避免将新增意图样本的文本向量涵盖进来。
反之,对于(b):对全部或部分历史意图数据的文本向量与类中心C2向量的距离求均值,当该均值大于阈值时,此时,由于该历史意图数据的文本向量会被误认为“新增意图样本”的文本向量,因此,阈值需要扩大以防止将历史意图样本误判为新增意图样本。即从“初始分类决策边界b”扩大为“调整后的分类决策边界b1”。或者,当某一个历史意图数据的文本向量与类中心向量的距离大于阈值时,也可以对阈值进行扩大。
最终,基于上述计算得到的类中心向量与对应调整后的类别阈值/>,进行分布外检测,其可以采用上述示例公式(5)如下:
(5)
其中,函数用于计算两个向量间的欧氏距离。在真实检测中,当样本与类中心向量的距离大于阈值时,将其判定为新增意图样本。当样本与类中心向量的距离小于阈值时,将其分类到欧式距离最小的历史意图类别上去。
可选地,对于本发明实施例,在提供模型训练的基础上,还可以针对特定周期的OOD模型进行测试,下面给出一种可能的实现方式,具体的,在图1的基础上,图6为本发明实施例提供的另一种新增意图识别方法的框架示意图,参见图6,新增意图识别方法的步骤如下:
在第N个识别周期后,即通过OODmodelN完成第N个识别周期的新增意图语料的分类结果识别后,进入第N+1个识别周期。
在步骤15、将第N个识别周期的历史意图语料、新增意图语料即新增意图语料1,以及第N+1个识别周期的新增意图语料2输入OODmodelN-1
步骤16、获得历史意图分类结果、新增意图分类数据集1及新增意图分类数据集2;
此时,可以将新增意图分类数据集1及新增意图分类数据集2作为测试数据,即步骤17、将测试数据输入OODmodelN,获得新增意图分类结果1与新增意图分类数据集2,从而实现对与OODmodelN的测试。需要说明的是,该新增意图分类结果1与第N个周期的新增意图分类结果相同。
需要说明的是,对于某一个识别周期,步骤15~17的测试流程可以作为独立的流程,以便对模型结果的准确性进行测试。其也可以作为完整流程的一部分。此处不与限定。
进一步的,在一种可能的实现方式中,对于第N+1个识别周期,当OODmodelN识别出对应的历史意图分类结果,即图6所示的“新增分类结果1”,以及新增意图分类数据集2时,可通过新增意图分类数据集2获得该识别周期的“新增标签训练数据”;
步骤18、将第N+1个识别周期的“新增标签训练数据”作为训练数据输入OODmodelN,获得OODmodelN+1
进而,步骤19、将该新增意图分类数据集2输入OODmodelN+1获得第N+1个识别周期的新增分类结果。
进而按照识别周期迭代识别、测试的步骤,获得各批次新增意图分类数据集的分类结果,进而完成合并分类结果。
下面对于用于执行上述示例各个步骤的装置进行说明。
可选地,上述各个步骤,可以基于训练流程与使用流程被不同的装置执行。本发明实施例提供一种分布外监测模型的训练装置的实现方式,具体的,图7为本发明实施例提供的一种分布外监测模型的训练装置的示意图,该装置用于执行图2、图3各个步骤及实现对应的技术效果。参见图7,该装置40包括:获取模块400、处理模块401;
获取模块40,获得意图分类数据集对应的标签训练数据;
处理模块41,用于确定标签训练数据的类中心向量;根据标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得分布外监测模型。
可选地,本发明实施例提供一种新增意图识别装置的实现方式,具体的,图8为本发明实施例提供的一种新增意图识别装置的示意图,该装置用于执行图4各个步骤及实现对应的技术效果。参见图8,该装置50包括:意图区分模块500与意图识别模块501;
意图区分模块500,用于将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN;嵌套式分布外监测模型OODmodelN-1包含在第N个识别周期之前的N-1个识别周期分别对应的分布外监测模型,每个分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
意图识别模块501,用于将新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型OODmodelN,获得新增意图分类数据集TN对应的新增意图分类结果;新增分布外监测模型OODmodelN通过新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
在另一种可能的实现方式中,上文涉及训练的方案与使用的方案可以被一个装置执行实现,具体的,本发明实施例提供另一种新增意图识别装置的可能的实现方式,图9为本发明实施例提供的另一种新增意图识别装置的示意图,该装置用于执行方法示例各个步骤及实现对应的技术效果。参见图8,该装置60包括:表示学习模块600、分布外监测模块601、嵌套监测模块602;
该表示学习模块600,用于获得意图分类数据集对应的标签训练数据;确定标签训练数据的类中心向量;根据标签训练数据与类中心向量,对标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得分布外监测模型;
分布外监测模块601,用于根据该分布外监测模型监测每个识别周期对应的新增意图分类数据集,以及获得每个识别周期对应的历史意图分类结果;
嵌套监测模块602,嵌套每个周期对应的分布外监测模型,合并分类全部识别周期对应的历史意图分类结果,获得最终分类结果。
可选地,本发明实施例还提供一种电子设备,其可以具备相关模型学习、训练及使用的设备,可选地,该电子设备可以仅被用于训练、测试或使用,也可以在同一个电子设备上执行本发明实施例上述全部示例的步骤,以实现对应的技术效果。具体的,图10为本发明实施例提供的一种电子设备的结构示意图,参见图10,该电子设备70,包括:存储器700、处理器701;
存储器701,用于存储一个或多个程序;
处理器700;
当一个或多个程序被处理器执行时,当该电子设备70用于上述示例模型的训练及测试时,其可以实现如图2~图3所示的各个步骤及对应技术效果;或者,当该电子设备70用于上述示例模型的使用时,其可以实现如图4所示的各个步骤及对应技术效果;或者,当该电子设备70既进行模型训练、测试,又进行具体意图的识别,则该电子设备70可以实现如上述各个流程示例所示的各个步骤及对应技术效果。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (11)

1.一种新增意图识别方法,其特征在于,包括:
将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN;所述嵌套式分布外监测模型OODmodelN-1包含在第N个识别周期之前的N-1个识别周期分别对应的分布外监测模型,每个所述分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
将所述新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型OODmodelN,获得所述新增意图分类数据集TN对应的新增意图分类结果;所述新增分布外监测模型OODmodelN通过所述新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
2.根据权利要求1所述的方法,其特征在于,所述将所述新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型,获得所述新增意图分类数据集TN对应的新增意图分类结果的步骤,表达式如下:
Tresult=OODmodelN(…OODmodel2(OODmodel1(TN)))
其中,Tresult表征所述新增意图分类数据集TN对应的新增意图分类结果,OODmodelN表征所述新增分布外监测模型。
3.根据权利要求1所述的方法,其特征在于,所述将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果Wn与新增意图分类数据集Tn的步骤,满足如下公式:
其中,所述是所述历史意图数据分类/>的阈值,所述函数/>表示向量间的欧式距离;
当所述待识别意图数据集的样本与所述类中心向量/>的距离大于所述阈值/>时,将所述样本/>判定为所述新增意图分类数据集Tn的分类数据;
当所述待识别意图数据集的样本与所述类中心向量ck的距离小于所述阈值/>时,将所述样本/>分类到距离最小的历史意图分类结果上。
4.根据权利要求1所述的方法,其特征在于,在所述将所述新增意图分类数据集Tn输入第Wn识别周期对应的新增分布外监测模型的步骤,之前,还包括:
获得所述新增意图分类数据集Tn对应的新增标签训练数据;
对所述新增标签训练数据输入语言表征模型,获得所述标签训练数据对应的新增文本向量表示;
根据所述新增文本向量表示对所述语言表征模型进行调整,获得所述新增标签训练数据对应的新增特征提取器;
根据所述新增特征提取器计算所述新增标签训练数据对应的新增向量表示;
根据所述新增标签训练数据的标签与所述新增向量表示,计算所述新增标签训练数据的新增类中心向量;
根据所述新增标签训练数据与所述新增类中心向量,对所述新增标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与新增标签训练数据匹配时,获得所述新增分布外监测模型。
5.根据权利要求4所述的方法,其特征在于,所述新增类中心向量的表达式如下:
其中,为新增意图分类/>的样本数量,所述/>为所述新增标签训练数据的样本,所述为所述新增标签训练数据的类别标签,所述/>为所述新增意图分类/>对应的新增类中心向量。
6.一种分布外监测模型的训练方法,其特征在于,包括:
获得意图分类数据集对应的标签训练数据;
确定所述标签训练数据的类中心向量;
根据所述标签训练数据与所述类中心向量,对所述标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得所述分布外监测模型。
7.根据权利要求6所述的方法,其特征在于,所述确定所述标签训练数据的类中心向量的步骤,包括:
对所述标签训练数据输入语言表征模型,获得所述标签训练数据对应的文本向量表示;
根据所述文本向量表示对所述语言表征模型进行调整,获得所述标签训练数据对应的特征提取器;
根据所述特征提取器计算所述标签训练数据对应的向量表示;
根据所述标签训练数据的标签与所述向量表示,计算所述标签训练数据的类中心向量。
8.一种新增意图识别装置,其特征在于,包括:意图区分模块与意图识别模块;
所述意图区分模块,用于将待识别意图数据集输入嵌套式分布外监测模型OODmodelN-1,获得历史意图分类结果WN与新增意图分类数据集TN;所述嵌套式分布外监测模型OODmodelN-1包含在第N个识别周期之前的N-1个识别周期分别对应的分布外监测模型,每个所述分布外监测模型表征对应的意图数据的分类决策边界,N≥2;
所述意图识别模块,用于将所述新增意图分类数据集TN输入第N个识别周期对应的新增分布外监测模型OODmodelN,获得所述新增意图分类数据集TN对应的新增意图分类结果;所述新增分布外监测模型OODmodelN通过所述新增意图分类数据集TN对应的新增标签训练数据训练获得,用于表征新增意图分类数据集TN对应的意图数据的分类决策边界。
9.一种分布外监测模型的训练装置,其特征在于,包括:获取模块、处理模块;
所述获取模块,用于获得意图分类数据集对应的标签训练数据;
所述处理模块,用于确定所述标签训练数据的类中心向量;根据所述标签训练数据与所述类中心向量,对所述标签训练数据的初始分类决策边界进行范围调整,当范围调整后的分类决策边界与标签训练数据匹配时,获得所述分布外监测模型。
10.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-5中任一项所述的方法;和/或,实现如权利要求6-7中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法;和/或,实现如权利要求6-7中任一项所述的方法。
CN202310994200.2A 2023-08-09 2023-08-09 一种新增意图识别方法、模型训练方法、装置、电子设备 Active CN116702048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310994200.2A CN116702048B (zh) 2023-08-09 2023-08-09 一种新增意图识别方法、模型训练方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310994200.2A CN116702048B (zh) 2023-08-09 2023-08-09 一种新增意图识别方法、模型训练方法、装置、电子设备

Publications (2)

Publication Number Publication Date
CN116702048A true CN116702048A (zh) 2023-09-05
CN116702048B CN116702048B (zh) 2023-11-10

Family

ID=87832585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310994200.2A Active CN116702048B (zh) 2023-08-09 2023-08-09 一种新增意图识别方法、模型训练方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN116702048B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095576A1 (en) * 2012-09-28 2014-04-03 Avaya Inc. System and method for classification of media in voip sessions with rtp source profiling/tagging
CN113704429A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 基于半监督学习的意图识别方法、装置、设备及介质
CN114756678A (zh) * 2022-03-25 2022-07-15 鼎富智能科技有限公司 一种未知意图文本的识别方法及装置
CN116150399A (zh) * 2023-02-09 2023-05-23 马上消费金融股份有限公司 知识图谱问答方法、电子设备及存储介质
CN116313103A (zh) * 2022-12-05 2023-06-23 安徽科荣物联网科技有限公司 疼痛识别模型的训练方法、疼痛识别方法、装置和介质
WO2023137911A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于小样本语料的意图分类方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095576A1 (en) * 2012-09-28 2014-04-03 Avaya Inc. System and method for classification of media in voip sessions with rtp source profiling/tagging
CN113704429A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 基于半监督学习的意图识别方法、装置、设备及介质
WO2023137911A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于小样本语料的意图分类方法、装置及计算机设备
CN114756678A (zh) * 2022-03-25 2022-07-15 鼎富智能科技有限公司 一种未知意图文本的识别方法及装置
CN116313103A (zh) * 2022-12-05 2023-06-23 安徽科荣物联网科技有限公司 疼痛识别模型的训练方法、疼痛识别方法、装置和介质
CN116150399A (zh) * 2023-02-09 2023-05-23 马上消费金融股份有限公司 知识图谱问答方法、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AKBARI, M等: "A Hybrid Architecture for Out of Domain Intent Detection and Intent Discovery", ARXIV *
周权;陈永生;郭玉臣: "基于多特征融合的意图识别算法研究", 电脑知识与技术, no. 21 *
黄向阳;尹怡欣;曾广平;涂序彦: "一个基于情感的自主非玩家角色模型", 计算机工程, no. 19 *
黄沛杰等: "基于优化"未定义"类话语检测的话语领域分类", 中文信息学报, no. 04 *

Also Published As

Publication number Publication date
CN116702048B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
Lin et al. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier
CN111444342B (zh) 一种基于多重弱监督集成的短文本分类方法
CN107480688B (zh) 基于零样本学习的细粒度图像识别方法
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN112417132B (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113723083A (zh) 基于bert模型的带权消极监督文本情感分析方法
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN113095063B (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和***
CN116702048B (zh) 一种新增意图识别方法、模型训练方法、装置、电子设备
CN114036306B (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN115827871A (zh) 互联网企业分类的方法、装置和***
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN113626553B (zh) 一种基于预训练模型的级联二进制中文实体关系提取方法
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
CN110543560B (zh) 基于卷积神经网络的长文本分类识别方法、装置及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant