CN114281991A - 文本分类方法、装置、电子设备及存储介质 - Google Patents

文本分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114281991A
CN114281991A CN202111565838.1A CN202111565838A CN114281991A CN 114281991 A CN114281991 A CN 114281991A CN 202111565838 A CN202111565838 A CN 202111565838A CN 114281991 A CN114281991 A CN 114281991A
Authority
CN
China
Prior art keywords
text
sample
vector
character
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111565838.1A
Other languages
English (en)
Inventor
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111565838.1A priority Critical patent/CN114281991A/zh
Publication of CN114281991A publication Critical patent/CN114281991A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,揭露一种文本分类方法,包括:对文本类别集及样本集执行编码处理,得到初始标签矩阵及样本集中每个样本的每个字符对应的第一向量;对第一向量及初始标签矩阵执行相关性分析,得到每个字符对应的第二向量,并确定样本集中每个样本对应的第三向量;对第三向量执行分类处理,得到每个样本在每个文本类别的预测概率值;将文本类别标签及对应预测概率值输入损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及训练好的文本分类模型;将待分类文本及目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。本发明还提供一种文本分类装置、电子设备及存储介质。本发明提高了文本分类准确度。

Description

文本分类方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
文本分类在生活中的应用较为广泛,例如,新闻分类、邮件分类及意图分类等,如何准确地进行文本分类是人们的关注要点。
当前,通常采用有监督训练得到的文本分类模型进行文本分类,其通常通过增加样本数量提高文本分类准确性,然而这种方式未考虑样本中的字符与标签的相关性(例如,文本中的“导弹”与其标签“军事”具有较强的相关性),从而文本分类准确性不高;且增加样本需要投入大量的人力标注成本。因此,亟需一种文本分类方法,以提高文本分类准确性,并节省人力成本。
发明内容
鉴于以上内容,有必要提供一种文本分类方法,旨在提高文本分类准确度。
本发明提供的文本分类方法,包括:
获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
可选的,所述对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,包括:
基于所述第一向量执行字符之间的相关性分析,得到每个所述字符对应的第四向量;
基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量;
加总所述第四向量及所述第五向量,得到每个所述字符对应的第二向量。
可选的,所述初始标签矩阵包括所述文本类别集中每个文本类别对应的初始标签向量,所述基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量,包括:
基于所述第一向量及所述初始标签向量计算每个所述字符与所述文本类别集中每个文本类别的相关值;
基于所述相关值及所述初始标签向量计算每个所述字符对应的第五向量。
可选的,所述相关值的计算公式为:
αni,j=cosin(hni,tj)
其中,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,hni为样本集中第n个样本的第i个字符对应的第一向量,tj为文本类别集中第j个文本类别对应的初始标签向量;
所述第五向量的计算公式为:
Figure BDA0003419894950000021
其中,h′ni为样本集中第n个样本的第i个字符对应的第五向量,k为文本类别集中文本类别的总数量,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,tj为文本类别集中第j个文本类别对应的初始标签向量。
可选的,所述相关性分析网络包括串联连接的多个注意力层,所述分类网络包括全连接层及激活层,所述编码网络包括串联连接的多个编码层。
可选的,所述损失函数为:
Figure BDA0003419894950000031
其中,
Figure BDA0003419894950000032
为损失值,
Figure BDA0003419894950000033
为样本集中第i个样本在文本类别集中第j个文本类别的标签值,
Figure BDA0003419894950000034
为样本集中第i个样本在文本类别集中第j个文本类别的预测概率值,N为样本集中样本的总数量,k为文本类别集中文本类别的总数量。
可选的,在所述基于所述结构参数得到训练好的文本分类模型之后,所述方法还包括:
每隔预设时间,抽取新样本集,基于新样本集更新所述目标标签矩阵及训练好的文本分类模型的结构参数,得到新目标标签矩阵及新训练好的文本分类模型。
为了解决上述问题,本发明还提供一种文本分类装置,所述装置包括:
获取模块,用于获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
编码模块,用于基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
分析模块,用于基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接模块,用于拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
预测模块,用于基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
训练模块,用于将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
分类模块,用于将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的文本分类程序,所述文本分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序可被一个或者多个处理器执行,以实现上述文本分类方法。
相较现有技术,本发明首先对文本类别集及样本集分别执行编码处理,得到初始标签矩阵及样本集中每个样本的每个字符对应的第一向量;接着,对第一向量及初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,并确定每个样本对应的第三向量;对第三向量执行分类处理,得到每个样本在每个文本类别的预测概率值;然后,将文本类别标签及对应预测概率值输入损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及训练好的文本分类模型;最后,将待分类文本及目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。本发明对第一向量及初始标签矩阵执行相关性分析,学习到了每个字符与每个文本类别的相关性,从而训练好的文本分类模型的文本分类准确性更高。因此,本发明提高了文本分类准确度。
附图说明
图1为本发明一实施例提供的文本分类方法的流程示意图;
图2为本发明一实施例提供的文本分类装置的模块示意图;
图3为本发明一实施例提供的实现文本分类方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种文本分类方法。参照图1所示,为本发明一实施例提供的文本分类方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,文本分类方法包括:
S1、获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集。
本实施例中,以对新闻文本分类为例进行说明,从新闻文本库中抽取预设数量的已标注文本类别标签的样本作为样本集,假设新闻文本的类别包括财经、体育、教育及娱乐,则样本集对应的文本类别集为{财经,体育,教育,娱乐}。
S2、基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量。
本实施例中,所述文本分类模型用于文本分类,其包括串联连接的编码网络、相关性分析网络及分类网络,编码网络用于对输入文本的每个字符进行编码,相关性分析网络用于分析输入的编码向量之间的相关性并赋予对应权重,得到每个字符加权后的向量,分类网络用于根据每个字符加权后的向量对输入文本进行分类。
所述编码网络包括串联连接的多个编码层(Transformer Encoder层),相关性分析网络包括串联连接的多个注意力层(Attention层),分类网络包括全连接层及激活层。
将样本集输入编码网络执行编码处理,可得到每个样本中每个字符对应的第一向量,假设编码后的维度为100,则第一向量为1*100的数组。
将文本类别集中的4个文本类别(即:财经,体育,教育,娱乐)分别输入编码网络执行编码处理,得到的初始标签矩阵为4*100的矩阵。
S3、基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量。
不同于现有技术中仅对输入文本的各个字符之间的相关性进行分析,本实施例中,还对每个字符与各个文本类别之间的相关性进行分析,从而,通过相关性分析得到的每个字符对应的第二向量与文本类别的关联强更强,进而可得到更准确的文本分类结果。
所述对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,包括:
A11、基于所述第一向量执行字符之间的相关性分析,得到每个所述字符对应的第四向量;
注意力层可学习输入文本的各个字符之间的关联关系,确定每个字符对应的第一向量的重要程度,并赋予对应的权重值,通过该权重值及其对应的第一向量,可确定每个字符对应的第四向量,该部分内容为现有技术,在此不再赘述。
A12、基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量;
所述初始标签矩阵包括所述文本类别集中每个文本类别对应的初始标签向量,本实施例中,通过将每个字符的第一向量与各个文本类别的初始标签向量进行相似度比对,以确定字符与文本类别之间的相关性分析结果,下述步骤B11-B12细化描述了字符与文本类别之间的相关性分析过程。
A13、加总所述第四向量及所述第五向量,得到每个所述字符对应的第二向量。
每个字符对应的第二向量融合了字符之间及字符与文本类别之间的相关性分析结果,从而第二向量表征的特征更为丰富。
所述基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量,包括:
B11、基于所述第一向量及所述初始标签向量计算每个所述字符与所述文本类别集中每个文本类别的相关值;
所述相关值的计算公式为:
αni,j=cosin(hni,tj)
其中,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,hni为样本集中第n个样本的第i个字符对应的第一向量,tj为文本类别集中第j个文本类别对应的初始标签向量;
B12、基于所述相关值及所述初始标签向量计算每个所述字符对应的第五向量。
所述第五向量的计算公式为:
Figure BDA0003419894950000071
其中,h′ni为样本集中第n个样本的第i个字符对应的第五向量,k为文本类别集中文本类别的总数量,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,tj为文本类别集中第j个文本类别对应的初始标签向量。
S4、拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量。
本实施例中,将各个样本中的每个字符的第二向量按照字符的位置顺序拼接,得到样本集中每个样本对应的第三向量。
S5、基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值。
将样本集中每个样本的第三向量输入至文本分类模型的分类网络,模型可输出每个样本在各个文本类别的预测概率值。
S6、将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型。
不同于现有技术中仅将模型的结构参数作为待优化参数,本实施例中,将标签矩阵也作为待优化参数,通过最小化损失函数可确定目标标签矩阵及模型的结构参数。
所述损失函数为:
Figure BDA0003419894950000072
其中,
Figure BDA0003419894950000073
为损失值,
Figure BDA0003419894950000074
为样本集中第i个样本在文本类别集中第j个文本类别的标签值,
Figure BDA0003419894950000075
为样本集中第i个样本在文本类别集中第j个文本类别的预测概率值,N为样本集中样本的总数量,k为文本类别集中文本类别的总数量。
S7、将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
模型训练完成后,当需要对待分类文本进行文本分类时,基于目标标签矩阵可将待分类文本中每个字符与各个文本类别关联起来,从而可得到更准确的特征向量,文本分类准确性也更高。
所述将所述待分类文本及所述目标标签矩阵输入所述训练好的文本分类模型,得到目标文本类别,包括:
将所述待分类文本输入所述训练好的文本分类模型的编码网络执行编码处理,得到所述待分类文本中每个字符对应的第六向量;将所述第六向量与所述目标标签矩阵输入所述训练好的文本分类模型执行字符之间的相关性分析及字符与文本类别之间的相关性分析,得到所述待分类文本中每个字符对应的第七向量;将所述第七向量输入所述训练好的文本分类模型的分类网络执行分类处理,得到目标文本类别。
在所述基于所述结构参数得到训练好的文本分类模型之后,所述方法还包括:
每隔预设时间,抽取新样本集,基于新样本集更新所述目标标签矩阵及训练好的文本分类模型的结构参数,得到新目标标签矩阵及新训练好的文本分类模型。
该操作保证了后续文本分类的准确性。
由上述实施例可知,本发明提出的文本分类方法,首先,对文本类别集及样本集分别执行编码处理,得到初始标签矩阵及样本集中每个样本的每个字符对应的第一向量;接着,对第一向量及初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,并确定每个样本对应的第三向量;对第三向量执行分类处理,得到每个样本在每个文本类别的预测概率值;然后,将文本类别标签及对应预测概率值输入损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及训练好的文本分类模型;最后,将待分类文本及目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。本发明对第一向量及初始标签矩阵执行相关性分析,学习到了每个字符与每个文本类别的相关性,从而训练好的文本分类模型的文本分类准确性更高。因此,本发明提高了文本分类准确度。
如图2所示,为本发明一实施例提供的文本分类装置的模块示意图。
本发明所述文本分类装置100可以安装于电子设备中。根据实现的功能,所述文本分类装置100可以包括获取模块110、编码模块120、分析模块130、拼接模块140、预测模块150、训练模块160及分类模块170。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集。
编码模块120,用于基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量。
所述编码网络包括串联连接的多个编码层(Transformer Encoder层),相关性分析网络包括串联连接的多个注意力层(Attention层),分类网络包括全连接层及激活层。
分析模块130,用于基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量。
所述对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,包括:
A21、基于所述第一向量执行字符之间的相关性分析,得到每个所述字符对应的第四向量;
A22、基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量;
A23、加总所述第四向量及所述第五向量,得到每个所述字符对应的第二向量。
所述初始标签矩阵包括所述文本类别集中每个文本类别对应的初始标签向量,所述基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量,包括:
B21、基于所述第一向量及所述初始标签向量计算每个所述字符与所述文本类别集中每个文本类别的相关值;
所述相关值的计算公式为:
αni,j=cosin(hni,tj)
其中,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,hni为样本集中第n个样本的第i个字符对应的第一向量,tj为文本类别集中第j个文本类别对应的初始标签向量;
B22、基于所述相关值及所述初始标签向量计算每个所述字符对应的第五向量。
所述第五向量的计算公式为:
Figure BDA0003419894950000101
其中,h′ni为样本集中第n个样本的第i个字符对应的第五向量,k为文本类别集中文本类别的总数量,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,tj为文本类别集中第j个文本类别对应的初始标签向量。
拼接模块140,用于拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量。
预测模块150,用于基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值。
训练模块160,用于将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型。
所述损失函数为:
Figure BDA0003419894950000102
其中,
Figure BDA0003419894950000103
为损失值,
Figure BDA0003419894950000104
为样本集中第i个样本在文本类别集中第j个文本类别的标签值,
Figure BDA0003419894950000105
为样本集中第i个样本在文本类别集中第j个文本类别的预测概率值,N为样本集中样本的总数量,k为文本类别集中文本类别的总数量。
分类模块170,用于将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
在所述基于所述结构参数得到训练好的文本分类模型之后,所述训练模块170还用于:
每隔预设时间,抽取新样本集,基于新样本集更新所述目标标签矩阵及训练好的文本分类模型的结构参数,得到新目标标签矩阵及新训练好的文本分类模型。
如图3所示,为本发明一实施例提供的实现文本分类方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过***总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有文本分类程序10,所述文本分类程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及文本分类程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作***和各类应用软件,例如存储本发明一实施例中的文本分类程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行文本分类程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的文本分类程序10是多个指令的组合,在所述处理器12中运行时,可以实现如下步骤:
获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
具体地,所述处理器12对上述文本分类程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有文本分类程序10,所述文本分类程序10可被一个或者多个处理器执行,以实现如下步骤:
获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,包括:
基于所述第一向量执行字符之间的相关性分析,得到每个所述字符对应的第四向量;
基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量;
加总所述第四向量及所述第五向量,得到每个所述字符对应的第二向量。
3.如权利要求2所述的文本分类方法,其特征在于,所述初始标签矩阵包括所述文本类别集中每个文本类别对应的初始标签向量,所述基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量,包括:
基于所述第一向量及所述初始标签向量计算每个所述字符与所述文本类别集中每个文本类别的相关值;
基于所述相关值及所述初始标签向量计算每个所述字符对应的第五向量。
4.如权利要求3所述的文本分类方法,其特征在于,所述相关值的计算公式为:
αni,j=cosin(hni,tj)
其中,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,hni为样本集中第n个样本的第i个字符对应的第一向量,tj为文本类别集中第j个文本类别对应的初始标签向量;
所述第五向量的计算公式为:
Figure FDA0003419894940000021
其中,h′ni为样本集中第n个样本的第i个字符对应的第五向量,k为文本类别集中文本类别的总数量,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,tj为文本类别集中第j个文本类别对应的初始标签向量。
5.如权利要求1所述的文本分类方法,其特征在于,所述相关性分析网络包括串联连接的多个注意力层,所述分类网络包括全连接层及激活层,所述编码网络包括串联连接的多个编码层。
6.如权利要求1所述的文本分类方法,其特征在于,所述损失函数为:
Figure FDA0003419894940000022
其中,
Figure FDA0003419894940000023
为损失值,
Figure FDA0003419894940000024
为样本集中第i个样本在文本类别集中第j个文本类别的标签值,
Figure FDA0003419894940000025
为样本集中第i个样本在文本类别集中第j个文本类别的预测概率值,N为样本集中样本的总数量,k为文本类别集中文本类别的总数量。
7.如权利要求1所述的文本分类方法,其特征在于,在所述基于所述结构参数得到训练好的文本分类模型之后,所述方法还包括:
每隔预设时间,抽取新样本集,基于新样本集更新所述目标标签矩阵及训练好的文本分类模型的结构参数,得到新目标标签矩阵及新训练好的文本分类模型。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;
编码模块,用于基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;
分析模块,用于基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;
拼接模块,用于拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;
预测模块,用于基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;
训练模块,用于将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;
分类模块,用于将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的文本分类程序,所述文本分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的文本分类方法。
CN202111565838.1A 2021-12-20 2021-12-20 文本分类方法、装置、电子设备及存储介质 Pending CN114281991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565838.1A CN114281991A (zh) 2021-12-20 2021-12-20 文本分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565838.1A CN114281991A (zh) 2021-12-20 2021-12-20 文本分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114281991A true CN114281991A (zh) 2022-04-05

Family

ID=80873257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565838.1A Pending CN114281991A (zh) 2021-12-20 2021-12-20 文本分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114281991A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150625A (zh) * 2023-03-08 2023-05-23 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN117786104A (zh) * 2023-11-17 2024-03-29 中信建投证券股份有限公司 一种模型训练方法、装置、电子设备以及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150625A (zh) * 2023-03-08 2023-05-23 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN116150625B (zh) * 2023-03-08 2024-03-29 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN117786104A (zh) * 2023-11-17 2024-03-29 中信建投证券股份有限公司 一种模型训练方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN114462412B (zh) 实体识别方法、装置、电子设备及存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN113157927A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113485889B (zh) 埋点数据校验方法、装置、电子设备及存储介质
CN112597135A (zh) 用户分类方法、装置、电子设备及可读存储介质
CN112800178A (zh) 答案生成方法、装置、电子设备及可读存储介质
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
CN114781832A (zh) 课程推荐方法、装置、电子设备及存储介质
CN113688239B (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN113342977B (zh) ***图像分类方法、装置、设备及存储介质
CN112395401B (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN113658002A (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113706252B (zh) 产品推荐方法、装置、电子设备及存储介质
CN114818685B (zh) 关键词提取方法、装置、电子设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113064984B (zh) 意图识别方法、装置、电子设备及可读存储介质
CN113312482B (zh) 问题分类方法、装置、电子设备及可读存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN114398877A (zh) 基于人工智能的主题提取方法、装置、电子设备及介质
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination