CN115687610A - 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 - Google Patents
文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115687610A CN115687610A CN202211096559.XA CN202211096559A CN115687610A CN 115687610 A CN115687610 A CN 115687610A CN 202211096559 A CN202211096559 A CN 202211096559A CN 115687610 A CN115687610 A CN 115687610A
- Authority
- CN
- China
- Prior art keywords
- label
- training
- text
- intention
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质,属于数据处理领域,训练方法包括:获得每个训练文本的词语组和每个训练文本的标注标签,获取到包括图神经网络和分类器的初始模型,从而将所有标注标签作为图神经网络的迭代输入,以使图神经网络学习所有意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型,从而使得训练出的分类模型能够适应数据分布变化的应用场景,极大地提高了分类模型的分类准确。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质。
背景技术
文本分类算法是自然语言处理中最基本且非常有必要的任务,广泛应用于多个领域,例如,情感分析、新闻分类、问答***等领域。意图识别是文本分类中重要的一个方向,主要应用在智能问答***中,通过识别用户咨询问题的意图,匹配对应答案供用户查看。
随着深度学习的发展,意图识别多采用基于深度学习的分类模型来预测意图。目前,有一种层级多标签文本分类方法,其将预先确定的不同意图标签之间的关联关系应用到分类模型训练,进而使用训练好的分类模型进行意图识别。然而,在实际应用中,由于数据分布随着生产环境中的数据积累的变化而变化,导致分类模型的分类偏差较大。
发明内容
有鉴于此,本发明的目的在于提供一种文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质,其能够改善目前用于意图识别的分类模型所存在的分类偏差大的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供一种文本意图分类模型训练方法,所述方法包括:
对训练语料进行处理得到语料数据;其中,所述语料数据包括每个训练文本的词语组和每个训练文本的标注标签;所述标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,所述每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;
获取初始模型,所述初始模型包括图神经网络和分类器;
将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练,训练出用于得到所述训练文本的标注标签的分类模型。
进一步地,所述将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练的步骤,包括:
将所有所述标注标签输入所述图神经网络,以使所述图神经网络对所述所有标注标签进行学习,输出关系向量,所述关系向量表征所有所述意图标签间的关联关系;
将一个训练文本的词语组和所述关系向量相乘,并将得到的乘积结果输入所述分类器,以使所述分类器根据所述乘积结果进行分类,得到所述分类器输出的所述训练文本的预测标签;
计算所述预测标签和所述训练文本的标注标签之间的损失值;
若所述损失值未达到结束条件,则返回所述将所有所述标注标签输入所述图神经网络,以使所述图神经网络对所述所有标注标签进行学习,输出关系向量,所述关系向量表征所有所述意图标签间的关联关系的步骤,以继续对所述初始模型进行迭代训练;
若所述损失值达到结束条件,则停止迭代,得到分类模型。
进一步地,所述初始模型还包括第一编码模型和第二编码模型,所述方法还包括:
将每个所述训练文本的词语组输入所述第一编码模型,得到所述词语组的词语向量;
将每个所述训练文本的标准标签输入所述第二编码模型,得到所述标注标签的标签向量,所述标签向量包括所述标注标签中每个意图标签的向量;
所述将所有所述标注标签输入所述图神经网络的步骤,包括:
将所有所述标注标签的标签向量输入所述图神经网络;
所述将一个训练文本的词语组和所述关系向量相乘的步骤,包括:
将一个训练文本的词语组的词语向量和所述关系向量相乘。
第二方面,本发明实施例提供一种文本意图识别方法,所述方法包括:
对待识别的目标文本进行分词,得到所述目标文本的目标词语组;
将所述目标词语组输入预先训练的分类模型中;其中,所述分类模型采用如第一方面所述的文本意图分类模型训练方法训练得到;
通过所述分类模型,得到所述目标文本所属的目标标签;其中,所述目标标签包括目标文本在各个标签层次下所属的意图标签。
进一步地,所述通过所述分类模型,得到所述目标文本所属的目标标签的步骤,包括:
通过所述分类模型对所述目标词语组进行处理,得到所述分类模型输出的预测数据;其中,所述预测数据包括每个标签层次下的每个意图标签的概率值;
基于标签层次间的上下层级关系,从所述预测数据中获取目标文本所属的目标标签。
进一步地,所述基于标签层次间的上下层级关系,从所述预测数据中获取目标文本所属的目标标签的步骤,包括:
在最上层的标签层次的多个意图标签中,将所述概率值最大的意图标签作为第一标签;
从所述第一标签的下一层的标签层次的多个层次标签中,选择所述概率值最大的意图标签作为第二标签,直至从最下层的标签层次中选择出所述概率值最大的意图标签作为末级标签,得到目标标签。
第三方面,本发明实施例提供一种文本意图分类模型训练装置,所述装置包括样本获取模块、模型获取模块和模型训练模块;
所述样本获取模块,用于对训练语料进行处理得到语料数据;其中,所述语料数据包括每个训练文本的词语组和每个训练文本的标注标签;所述标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,所述每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;
所述模型获取模块,用于获取初始模型,所述初始模型包括图神经网络和分类器;
所述模型训练模块,用于将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练,训练出用于得到所述训练文本的标注标签的分类模型。
第四方面,本发明实施例提供一种文本意图识别装置,所述装置包括分词模块和识别模块;
所述分词模块,用于对待识别的目标文本进行分词,得到所述目标文本的目标词语组;
所述识别模块,用于将所述目标词语组输入预先训练的分类模型中;其中,所述分类模型采用如第一方面所述的文本意图分类模型训练方法训练得到;
所述识别模块,还用于通过所述分类模型,得到所述目标文本所属的目标标签;其中,所述目标标签包括目标文本在各个标签层次下所属的意图标签。
第五方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机成都,所述处理器可执行所述计算机程序以实现如第一方面所述的文本意图分类模型训练方法,或如第二方面所述的文本意图识别方法。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本意图分类模型训练方法,或如第二方面所述的文本意图识别方法。
本发明实施例提供的文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质,对训练语料进行处理,得到每个训练文本的词语组和每个训练文本在每个标签层次下的标注标签,即层级标签,从而将所有标注标签作为初始模型中图神经网络的迭代输入,以使图神经网络学习所有意图标签的关联关系,并将学习出的关联关系和训练文本的词语组作为初始模型中分类器的迭代输入,对初始模型训练,以根据图神经网络不断优化的所有意图标签的关联关系来训练分类器对训练文本的标注标签的预测能力,从而使得训练出的分类模型能够适应数据分布变化的应用场景,极大地提高了分类模型的分类准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的文本意图分类模型训练***的方框示意图。
图2示出了本发明实施例提供的标注标签的结构示意图。
图3示出了本发明实施例提供的文本意图分类模型训练***的流程示意图之一。
图4示出了图3中步骤S15的部分子步骤的流程示意图之一。
图5示出了本发明实施例提供的初始模型的框架示意图。
图6示出了图3中步骤S15的部分子步骤流程示意图之二。
图7示出了本发明实施例提供的文本意图识别方法的流程示意图。
图8示出了图7中步骤S22的部分子步骤的流程示意图。
图9示出了本发明实施例提供的文本意图分类模型训练装置的方框示意图。
图10示出了本发明实施例提供的文本意图识别装置的方框示意图。
图11示出了本发明实施例提供的电子设备的方框示意图。
附图标记:100-文本意图分类模型训练***;110-服务器;120-终端设备;130-文本意图分类模型训练装置;140-样本获取模块;150-模型获取模块;160-模型训练模块;170-文本意图识别装置;180-分词模块;190-识别模块;200-电子设备。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在基于知识图谱的智能问答场景中,用户意图识别直接决定了对话***返回给用户的信息是否满足用户需求,基于错误的意图识别结果返回给用户的信息完全不能满足用户的需求,从而导致用户体验非常差。随着深度学习的发展,意图识别多采用基于深度学习的分类模型来预测意图。
在意图分类场景中,不同的意图类别标签之间存在层级关系。例如,在“开户”、“新股”、“开户材料”、“开户进度”、“新股上市时间”和“新股缴费时间”这几个意图中,“开户材料”和“开户进度”这两个意图从属于“开户”意图,“新股上市时间”和“新股缴费时间”这两个意图从属于“新股”这个意图。不同的意图标签之间存在蕴含、互斥等关联关系,类似于树状结构,将这种关联关系应用到模型训练中来得到分类模型的方法称为层级多标签文本分类方法。
但是,目前的层级多标签分类方法在进行模型训练时,将层级标签之间的关联关系用数据分布表示,即用训练数据中各个标签的数量占比表示,并将数据分布作为上下级标签之间的转移概率,以固定的转移概率使用在模型训练过程中。这种训练方式得到的分类模型仅对数据分布不发生变化的应用场景有效,不适用于生产环境中随着数据的不断积累而数据分布发生变化的场景,导致训练出的分类模型分类偏差较大。此外,只采用数据分布作为标签之间的关联关系,信息过于单一。
基于上述考虑,本发明实施例提供一种文本意图分类模型训练方法及文本意图识别方法,其训练出的分类模型既适用于数据分布会变化的场景,也适用于数据分布不变的场景,且能够减小分类模型的分类偏差,进而提高文本意图识别的准确度。以下,对上述方法进行介绍。
本发明提供的文本意图分类模型训练方法,可以应用于如图所示的文本意图分类模型训练***100中,该文本意图分类模型训练***100包括服务器110和终端设备120,服务器110和终端设备120间可以通过有线连接或无线连接的方式或者通过网络进行通信。
终端设备120,用于抓取训练语料,以及用于创建初始模型,并将训练语料和创建的初始模型输入至服务器110。
其中,初始模型包括图神经网络和分类器。
服务器110,用于对训练语料进行处理得到语料数据。
其中,语料数据包括每个训练文本的词语组和每个训练文本的标注标签。标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签。
服务器110,还用于将所有标注标签作为图神经网络的迭代输入,以使图神经网络学习所有意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型。
应当理解的是,也可以通过终端设备120对训练语料进行处理得到语料数据,并将语料数据传输至服务器110上。
在本实施方式中,标注标签可以形如图2中所示的树结构,“开户”和“新股”均为第一层标签层次下的意图标签,“田径”、“开户材料”、“开户进度”、“新股上市时间”和“新股缴费时间”为第二层标签层次下的意图标签,为第三层标签层次下的意图标签。其中,“开户材料”和“开户进度”从属于“开户”。“开户-开户材料”和“新股-新股上市时间”均分别构成一个标注标签。
基于上述内容,在一种实施方式中,参照图3,提供了一种文本意图分类模型训练方法,该文本意图分类模型训练方法可以应用于图1中的服务器110,包括以下步骤。
S11,对训练语料进行处理得到语料数据。
训练预料包括多个训练文本,语料数据包括每个训练文本的词语组和每个训练文本的标注标签。标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签。每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签。
标注标签可以形如“开户-开户材料”。
S13,获取初始模型。
其中,初始模型包括图神经网络和分类器。
S15,将所有标注标签作为图神经网络的迭代输入,以使图神经网络学习所有意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型。
在本实施例中,关联关系包括意图标签之间的层次关系,以及标签层次之间的转移概率矩阵。基于S11得到的预料数据,对初始模型进行迭代训练,得到分类模型。
示例性地,对训练预料进行处理后,得到的语料数据可以形如“(S,lk,lki),[[l1,…,ln],[l11,…,l1i],[l21,…,l2i]…]”。
其中,[[l1,…,ln],[l11,…,l1i],[l21,…,l2i]…]是由所有的意图标签所构成的树结构的标签层次结构,[l1,...,ln]表示第一层标签层次及其中的意图标签,[l11,...,l1i]表示第二层标签层次及其中的意图标签。k∈n,S代表训练文本,lk表示训练文本S在第一层标签层次下所属的意图标签,lki表示训练文本S在第k层标签层次下所属的意图标签。
每次对初始模型进行迭代时,将所有的标注标签一起输入图神经网络(GraphNeural Network,GNN),以使GNN网络学习所有意图标签之间的层次关系,以及标签层次间的转移概率矩阵,构造层级标签表示模型。且每次对初始模型进行迭代时,将一个训练文本的词语组,以及本次迭代中图神经网络学习到的关联关系输入分类器,分类器输出训练文本的预测标签。
通过不断迭代,图神经网络不断优化意图标签之间的层次关系,以及标签层次间的转移概率矩阵(即关联关系),并尽可能地学到最优的转移概率矩阵,从而能够根据不断优化的意图标签间的关联关系来训练分类器对训练文本的标注标签的预测能力,即分类器的分类准确度。
故而,上述文本意图分类模型训练方法与现有的层级多标签分类模型的训练方法相比,能够根据不断优化的意图标签间的关联关系(意图标签之间的层次关系,以及标签层次间的转移概率矩阵),来训练分类器对训练文本的标注标签的预测能力,从而使得训练出的分类模型能够适应数据分布变化的应用场景,极大地提高了分类模型的分类准确度。
此外,本发明实施例提供的文本意图分类模型训练方法中的意图标签间的关联关系包括意图标签之间的层次关系,以及标签层次间的转移概率矩阵,关联信息更为丰富,有助于提高分类模型的预测准确度。
进一步地,在一种可能的实施方式中,为了使训练出的分类模型的准确度达到需求的程度,因此,在模型训练中可以引入损失值,以根据损失值来判断模型成熟度。具体的,参照图4,上述步骤S15包括以下步骤。
S152,将所有标注标签输入图神经网络,以使图神经网络对所有标签向量进行学习,输出关系向量。
其中,关系向量表征所有意图标签间的关联关系。
S154,将一个训练文本的词语组和关系向量相乘,并将得到的乘积结果输入分类器,以使分类器根据乘积结果进行分类,得到分类器输出的训练文本的预测标签。
其中,训练文本的词语组为从所有训练文本的词语组中随机抽取得到。需要说明的是,这里的相乘指的是矩阵相乘。
S156,计算预测标签和训练文本的标注标签之间的损失值。
S158,判断损失值是否达到结束条件。若是,则停止迭代,得到分类模型。若否,则返回步骤S152,以继续对初始模型进行迭代训练。
应当理解的是,损失值达到结束条件后训练结束仅仅是训练结束的一种实施方式,在其他实施方式中,还可以是迭代次数达到预设次数就停止训练等。在本实施方式中,对训练结束的条件不作唯一限定。
为了使图神经网络在迭代中学习并建立所有意图标签之间的语义层次关系,以进一步扩大分类模型的适用范围和提高准确度。在一种实施方式中,本发明实施例提供的初始模型还包括第一编码模型和第二编码模型,并且第一编码模型和第二编码模型均可以为预训练的AlbertTiny模型,此时,初始模型的结构可以如图5所示。
为了进一步提高分类模型的分类精确度,因此在上述初始模型的基础上,在模型训练中引入训练文本和标注标签的语义信息(语言向量)。更为详细地,参照图6,步骤S15还包括以下子步骤。
S150,将每个训练文本的词语组输入第一编码模型,得到词语组的词语向量。
S151,将每个训练文本的标准标签输入第二编码模型,得到标注标签的标签向量。
其中,标签向量包括标注标签中每个意图标签的向量。
词语向量为训练文本的词语组的向量表示,标签向量为训练文本的标注标签的向量表示。
在其他实施方式中,第一编码模型和第二编码模型还可以为其他能够得到语义向量的模型。
示例性地,训练文本S=(w1,w2,...wi)输入第一编码模型AlbertTiny1之后,输出的词语向量为:(es1,es2,...esi)=AlbertTiny1(w1,w2,...wi)。其中,wi表示训练文本S分词后得到的一个词语,(w1,w2,...wi)表示训练文本S的词语组,es1表示词语w1的向量表示,(es1,es2,...esi)为词语组(w1,w2,...wi)的向量表示,即词语向量。
所有标注标签(l1,l2,...li)输入第二编码模型AlbertTiny2之后,输出的标签向量为:(el1,el2,...eli)=AlbertTiny2(l1,l2,...li)。其中,l1为一个标注标签,el1为标注标签l1的向量表示,即标签向量。
在此基础上,上述步骤S152中“将所有标注标签输入图神经网络”进一步实施为“将所有标注标签的标签向量输入图神经网络”。此时,S132,将所有标签向量输入图神经网络,以使图神经网络对所有标签向量进行学习,输出关系向量。
同理,上述步骤S154中“将一个训练文本的词语组和关系向量相乘”可以进一步实施为“将一个训练文本的词语组的词语向量和关系向量相乘”。此时,S154,将一个训练文本的词语组的词语向量和关系向量相乘,并将得到的乘积结果输入分类器,以使分类器根据乘积结果进行分类,得到分类器输出的训练文本的预测标签。
示例性地,将所有标签向量输入图神经网络(GNN),图神经网络对意图标签间的层级关系,以及标签层次间的转移概率矩阵进行学习之后,输出n维的关系向量Eln:Eln=GNN(el1,el2,...eli)。进而将训练文本S的词语向量(es1,es2,...esi)和关系向量Eln相乘(即矩阵相乘),将关系向量Eln作为意图分类的权重,通过分类器构造训练文本与标注标签间的关系,输出分类器Clssifier预测出的训练文本S的预测标签
在一种实施方式中,采用二元交叉熵损失函数(BCE函数),计算预测标签与训练文本S的标注标签之间的损失值loss。
损失值loss可以表示为:
在训练出分类模型之后,可以采用深度学习模型优化框架对模型进行训练,得到优化好的分类模型。
通过上述文本意图分类模型训练方法,最后得到的分类模型可以包括第一编码模型(AlbertTiny模型)、图神经网络和分类器。
本发明实施例提供的文本意图分类模型训练方法,通过将所有标注标签的标签向量输入图神经网络,实现将标注标签的向量化的标签向量(意图标签语义信息)引入到意图标签之间的关联关系的建立过程,通过意图标签语义信息从标签层次间的传播,使得意图标签之间的关联关系的建立更加精准。同时,通过图神经网络(GNN),意图标签之间的关联关系采用GNN自学习的方法获得,学习到标签层次间的转移概率矩阵和意图标签之间的层次关系,以得到最优的转移概率矩阵参数,进而学习到意图标签间最优的关联关系。
本发明实施例提供的文本意图分类模型训练方法在不断优化关联关系的同时,根据图神经网络不断优化的所有意图标签的关联关系来训练分类器对训练文本的标注标签的预测能力,从而使得训练出的分类模型能够适应数据分布变化的应用场景,极大地提高了分类模型的分类准确度。
在一种实施方式中,参照图7,本发明实施例还提供了一种文本意图识别方法,该文本意图识别方法可以应用于电子设备中,包括以下步骤。
S21,对待识别的目标文本进行分词,得到目标文本的目标词语组。
S22,将目标词语组输入预先训练的分类模型中。
其中,分类模型采用上述的文本意图分类模型训练方法训练得到。
服务器对初始模型采用上述文本意图分类模型训练方法达到训练结束条件后,可以保留最后一次迭代时的模型参数,并下发保留参数后的模型至电子设备。电子设备接收该模型,并以该模型作为分类模型。
S23,通过分类模型,得到目标文本所属的目标标签。
其中,目标标签包括目标文本在各个标签层次下所属的意图标签。
示例性地,目标词语组输入预先训练的分类模型之后,AlbertTiny模型对目标词语组进行编码,得到目标词语组的向量表示,其中包括每个词语的向量表示,进而将目标词语组的向量表示与图神经网络构造出的意图标签间的关联关系(此时的关联关系可以是层级标签表示模型)相乘,进而分类器根据目标词语组的向量表示与意图标签间的关联关系之间的乘积结果,进行分类识别,输出预测标签。进而对预测标签进行处理,得到目标文本所属的目标标签。
其中,最终得到的目标标签可以形如“开户-开户材料”等形式。
需要说明的是,当分类模型中包含AlbertTiny模型时,可直接采用AlbertTiny模型的分词功能对目标文本进行分词。此时,直接将目标文本输入分类模型即可。
通过上述步骤S21-S23,利用分类偏差小且适用于各类场景的分类模型对目标文本进行意图识别,得到得目标标签偏差小,且更为准确。同时,能够提高用户的使用体验。同时,目标标签包含了目标文本在各个标签层次下所属的意图标签,使得得到的目标标签更为精确。
进一步地,为了从预测数据中选择最优的意图标签组作为目标标签,因此在目标标签的获取过程中可以引入标签层次关系。参照图8,上述步骤S22可以包括以下子步骤。
S221,通过分类模型对目标词语组进行处理,得到分类模型输出的预测数据。
其中,预测数据包括每个标签层次下的每个意图标签的概率值。
S222,基于标签层次间的上下层级关系,从预测数据中获取目标文本所属的目标标签。
得到预测数据之后,可以从预测数据中最上层的标签层次进行处理得到目标标签。示例性地,在最上层的标签层次的多个意图标签中,将概率值最大的意图标签作为第一标签,接着,从第一标签的下一层的标签层次的多个层次标签中,选择概率值最大的意图标签作为第二标签,以相同的原理对剩下的预测数据进行处理,直至从最下层的标签层次中选择出概率值最大的意图标签作为末级标签,将选择的第一标签,第二标签,……,以及末级标签作为目标标签。
例如,预测数据为[[开户-0.9,新股-0.1,[开户材料-0.9,开户进度-0.1],则最终的目标标签为“开户-开户进度”。
基于上述文本意图分类模型训练方法的构思,在一种实施方式中,参照图9,提供一种文本意图分类模型训练装置130,包括样本获取模块140、模型获取模块150和模型训练模块160。
样本获取模块140,用于对训练语料进行处理得到语料数据。
其中,语料数据包括每个训练文本的词语组和每个训练文本的标注标签。标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签。
模型获取模块150,用于获取初始模型。
初始模型包括图神经网络和分类器。
模型训练模块160,用于将所有标注标签作为所述图神经网络的迭代输入,以使图神经网络学习所有所述意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型。
通过上述文本意图分类模型训练装置130,通过样本获取模块140和模型训练模块160的协同作用,以图神经网络不断优化的所有意图标签的关联关系,以及训练文本的词语组,来训练分类器对训练文本的标注标签的预测能力,从而使得训练出的分类模型能够适应数据分布变化的应用场景,极大地提高了分类模型的分类准确度。
关于文本意图分类模型训练装置130的具体限定可以参见上文中对于文本意图分类模型训练方法的限定,在此不再赘述。上述文本意图分类模型训练装置130中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立电子设备200中的处理器中,也可以以软件形式存储于电子设备200的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于上述文本意图识别方法的构思,在一种实施方式中,参照图10,提供一种文本意图识别装置170,包括分词模块180和识别模块190。
分词模块180,用于对待识别的目标文本进行分词,得到目标文本的目标词语组。
识别模块190,用于将目标词语组输入预先训练的分类模型中。
分类模型采用如上述的文本意图分类模型训练方法训练得到。
识别模块190,还用于通过分类模型,得到目标文本所属的目标标签。
目标标签包括目标文本在各个标签层次下所属的意图标签。
上述文本意图识别装置170中,通过分类模块和识别模块190的共同作用,利用分类偏差小且适用于各类场景的分类模型对目标文本进行意图识别,得到得目标标签偏差小,且更为准确。同时,能够提高用户的使用体验。同时,目标标签包含了目标文本在各个标签层次下所属的意图标签,使得得到的目标标签更为精确。
关于文本意图识别装置170的具体限定可以参见上文中对于文本意图识别方法的限定,在此不再赘述。上述文本意图识别装置170中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一种实施方式中,提供了一种电子设备200,该电子设备200可以是服务器110,其内部结构图可以如图11所示。该电子设备200包括通过***总线连接的处理器、存储器和网络接口。其中,该电子设备200的处理器用于提供计算和控制能力。该电子设备200的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、数据库和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备200的数据库用于存储文本意图分类模型训练数据或文本意图识别数据。该电子设备200的网络接口用于与外部的终端进行网络连接通信。该计算机程序被处理器执行时以实现文本意图分类模型训练方法,或实现文本意图识别方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备200的限定,具体的电子设备200可以包括比图11中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一种实施方式中,本发明提供的文本意图分类模型训练装置130可以实现为一种计算机程序的形式,计算机程序可在如图11所示的电子设备200上运行。电子设备200的存储器中可存储组成该文本意图分类模型训练装置130的各个程序模块,比如,图9所示的样本获取模块140、模型获取模块150和模型训练模块160。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的应用于文本意图分类模型训练方法中的步骤。
例如,图11所示的电子设备200可以通过如图9所示的文本意图分类模型训练装置130中的样本获取模块140执行步骤S11。电子设备200可以通过模型获取模块150执行步骤S13。电子设备200可以通过模型训练模块160执行步骤S15。
在一种实施方式中,提供了一种电子设备200,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:对训练语料进行处理得到语料数据;其中,语料数据包括每个训练文本的词语组和每个训练文本的标注标签;标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;获取初始模型,初始模型包括图神经网络和分类器;将所有标注标签作为所述图神经网络的迭代输入,以使图神经网络学习所有意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型。
在一种实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对训练语料进行处理得到语料数据;其中,语料数据包括每个训练文本的词语组和每个训练文本的标注标签;标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;获取初始模型,初始模型包括图神经网络和分类器;将所有标注标签作为所述图神经网络的迭代输入,以使图神经网络学习所有意图标签间的关联关系,并将训练文本的词语组和关联关系作为分类器的迭代输入,对初始模型进行训练,训练出用于得到训练文本的标注标签的分类模型。
在一种实施方式中,本发明提供的文本意图识别装置170可以实现为一种计算机程序的形式,计算机程序可在如图11所示的电子设备200上运行。电子设备200的存储器中可存储组成该文本意图分类模型训练装置130的各个程序模块,比如,图10所示的分词模块180和识别模块190。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的应用于文本意图识别方法中的步骤。
例如,图11所示的电子设备200可以通过如图10所示的文本意图识别装置170中的分词模块180执行步骤S21。电子设备200可以通过识别模块190执行步骤S22和步骤S23。
在一种实施方式中,提供了一种电子设备200,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:对待识别的目标文本进行分词,得到目标文本的目标词语组;将目标词语组输入预先训练的分类模型中;其中,分类模型采用如上述的文本意图分类模型训练方法训练得到;通过分类模型,得到目标文本所属的目标标签;其中,目标标签包括目标文本在各个标签层次下所属的意图标签。
在一种实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对待识别的目标文本进行分词,得到目标文本的目标词语组;将目标词语组输入预先训练的分类模型中;其中,分类模型采用如上述的文本意图分类模型训练方法训练得到;通过分类模型,得到目标文本所属的目标标签;其中,目标标签包括目标文本在各个标签层次下所属的意图标签。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本意图分类模型训练方法,其特征在于,所述方法包括:
对训练语料进行处理得到语料数据;其中,所述语料数据包括每个训练文本的词语组和每个训练文本的标注标签;所述标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,所述每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;
获取初始模型,所述初始模型包括图神经网络和分类器;
将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练,训练出用于得到所述训练文本的标注标签的分类模型。
2.根据权利要求1所述的文本意图分类模型训练方法,其特征在于,所述将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练的步骤,包括:
将所有所述标注标签输入所述图神经网络,以使所述图神经网络对所述所有标注标签进行学习,输出关系向量,所述关系向量表征所有所述意图标签间的关联关系;
将一个训练文本的词语组和所述关系向量相乘,并将得到的乘积结果输入所述分类器,以使所述分类器根据所述乘积结果进行分类,得到所述分类器输出的所述训练文本的预测标签;
计算所述预测标签和所述训练文本的标注标签之间的损失值;
若所述损失值未达到结束条件,则返回所述将所有所述标注标签输入所述图神经网络,以使所述图神经网络对所述所有标注标签进行学习,输出关系向量,所述关系向量表征所有所述意图标签间的关联关系的步骤,以继续对所述初始模型进行迭代训练;
若所述损失值达到结束条件,则停止迭代,得到分类模型。
3.根据权利要求2所述的文本意图分类模型训练方法,其特征在于,所述初始模型还包括第一编码模型和第二编码模型,所述方法还包括:
将每个所述训练文本的词语组输入所述第一编码模型,得到所述词语组的词语向量;
将每个所述训练文本的标准标签输入所述第二编码模型,得到所述标注标签的标签向量,所述标签向量包括所述标注标签中每个意图标签的向量;
所述将所有所述标注标签输入所述图神经网络的步骤,包括:
将所有所述标注标签的标签向量输入所述图神经网络;
所述将一个训练文本的词语组和所述关系向量相乘的步骤,包括:
将一个训练文本的词语组的词语向量和所述关系向量相乘。
4.一种文本意图识别方法,其特征在于,所述方法包括:
对待识别的目标文本进行分词,得到所述目标文本的目标词语组;
将所述目标词语组输入预先训练的分类模型中;其中,所述分类模型采用如权利要求1至3中任一项所述的文本意图分类模型训练方法训练得到;
通过所述分类模型,得到所述目标文本所属的目标标签;其中,所述目标标签包括目标文本在各个标签层次下所属的意图标签。
5.根据权利要求4所述的文本意图识别方法,其特征在于,所述通过所述分类模型,得到所述目标文本所属的目标标签的步骤,包括:
通过所述分类模型对所述目标词语组进行处理,得到所述分类模型输出的预测数据;其中,所述预测数据包括每个标签层次下的每个意图标签的概率值;
基于标签层次间的上下层级关系,从所述预测数据中获取目标文本所属的目标标签。
6.根据权利要求5所述的文本意图识别方法,其特征在于,所述基于标签层次间的上下层级关系,从所述预测数据中获取目标文本所属的目标标签的步骤,包括:
在最上层的标签层次的多个意图标签中,将所述概率值最大的意图标签作为第一标签;
从所述第一标签的下一层的标签层次的多个层次标签中,选择所述概率值最大的意图标签作为第二标签,直至从最下层的标签层次中选择出所述概率值最大的意图标签作为末级标签,得到目标标签。
7.一种文本意图分类模型训练装置,其特征在于,所述装置包括样本获取模块、模型获取模块和模型训练模块;
所述样本获取模块,用于对训练语料进行处理得到语料数据;其中,所述语料数据包括每个训练文本的词语组和每个训练文本的标注标签;所述标注标签包括多个具有上下层级关系的标签层次和每个标签层次下的意图标签,所述每个训练文本的标注标签包括训练文本在每个标签层次下所属的意图标签;
所述模型获取模块,用于获取初始模型,所述初始模型包括图神经网络和分类器;
所述模型训练模块,用于将所有所述标注标签作为所述图神经网络的迭代输入,以使所述图神经网络学习所有所述意图标签间的关联关系,并将所述训练文本的词语组和所述关联关系作为所述分类器的迭代输入,对所述初始模型进行训练,训练出用于得到所述训练文本的标注标签的分类模型。
8.一种文本意图识别装置,其特征在于,所述装置包括分词模块和识别模块;
所述分词模块,用于对待识别的目标文本进行分词,得到所述目标文本的目标词语组;
所述识别模块,用于将所述目标词语组输入预先训练的分类模型中;其中,所述分类模型采用如权利要求1至3中任一项所述的文本意图分类模型训练方法训练得到;
所述识别模块,还用于通过所述分类模型,得到所述目标文本所属的目标标签;其中,所述目标标签包括目标文本在各个标签层次下所属的意图标签。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机成都,所述处理器可执行所述计算机程序以实现如权利要求1至3中任一项所述的文本意图分类模型训练方法,或如权利要求4至6中任一项所述的文本意图识别方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本意图分类模型训练方法,或如权利要求4至6中任一项所述的文本意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096559.XA CN115687610A (zh) | 2022-09-08 | 2022-09-08 | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096559.XA CN115687610A (zh) | 2022-09-08 | 2022-09-08 | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687610A true CN115687610A (zh) | 2023-02-03 |
Family
ID=85062297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211096559.XA Pending CN115687610A (zh) | 2022-09-08 | 2022-09-08 | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687610A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028880A (zh) * | 2023-02-07 | 2023-04-28 | 支付宝(杭州)信息技术有限公司 | 训练行为意图识别模型的方法、行为意图识别方法及装置 |
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
-
2022
- 2022-09-08 CN CN202211096559.XA patent/CN115687610A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028880A (zh) * | 2023-02-07 | 2023-04-28 | 支付宝(杭州)信息技术有限公司 | 训练行为意图识别模型的方法、行为意图识别方法及装置 |
CN116028880B (zh) * | 2023-02-07 | 2023-07-04 | 支付宝(杭州)信息技术有限公司 | 训练行为意图识别模型的方法、行为意图识别方法及装置 |
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN116738343B (zh) * | 2023-08-08 | 2023-10-20 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN117496542B (zh) * | 2023-12-29 | 2024-03-15 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN109493166B (zh) | 一种针对电子商务导购场景任务型对话***的构建方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
US11494647B2 (en) | Slot filling with contextual information | |
CN110287481B (zh) | 命名实体语料标注训练*** | |
CN112699247B (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习方法 | |
CN110263325B (zh) | 中文分词*** | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN110599324A (zh) | 一种用于回款率预测的方法和装置 | |
WO2021052137A1 (zh) | 情绪向量的生成方法及装置 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN109710842B9 (zh) | 业务信息的推送方法、装置及可读存储介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及*** | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
US11941360B2 (en) | Acronym definition network | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN114898156B (zh) | 基于跨模态语义表征学习和融合的图像分类方法及*** | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN112836482B (zh) | 一种基于模板的序列生成模型生成问题的方法及装置 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |