CN111506732A

CN111506732A - 一种文本多层次标签分类方法

Info

Publication number: CN111506732A
Application number: CN202010312275.4A
Authority: CN
Inventors: 潘永灿; 李小青; 邓彪; 周玉; 刘鹏
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-07
Anticipated expiration: 2040-04-20
Also published as: CN111506732B

Abstract

本发明涉及自然语言处理技术领域，公开了一种文本多层次标签分类方法，包括步骤：获取原文档；进行数据增广操作，获得数据增广操作后的样本数据集；对样本数据集的不同实体类型的数量进行统计，并进行均衡操作；建立文本多层次标签分类模型，进行多层级特征融合，获得文本多层次标签分类模型的输出；将文本多层次标签分类模型的输出作为文本多层次标签分类结果。本发明首先通过数据增广操作扩充样本数据，并平衡了各类型样本之间的数量，减小了样本不均衡造成的对模型准确率的负面影响；本发明利用了各层分类标签之间的相关信息，进行了多层级特征融合，相对于现有技术，本发明准确率更高，鲁棒性以及泛化性更好。

Description

一种文本多层次标签分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本多层次标签分类方法。

背景技术

随着互联网技术的普及，互联网上面的数据也在爆发式增长。互联网上存在大量的文本数据，利用和识别相关文本信息不仅能够充分利用现有数据，也能够发现更有价值的信息，对人们的生产生活都有重要意义。目前文本分类应用广泛，比如情感分析、垃圾邮件分类以及智能推荐等。文本分类技术大致分为两种，一种是基于规则的文本分类，另一种是一种基于机器学习的文本分类。

比如，国家专利公开文献CN107908635A，公开了“建立文本分类模型以及文本分类的方法、装置”，该发明建立方法包括：获取训练样本；基于实体词典对文本进行切词后获取对应的向量矩阵；利用文本的向量矩阵以及文本的分类，训练第一分类模型和第二分类模型；在训练过程中，利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对第一和第二分类模型调整参数，得到由第一和第二分类模型构成的文本分类模型。该发明采用独立的分类方法分别去预测各层的标签，输出独立的预测结果；在合并步骤中，将独立预测的结果进行组合，成为多层次标签；将合成的多层次标签输出并作为最终结果。

该发明预测各个分类方法比较独立，难以有效利用类别之间的相关信息，因此准确率也不太高，鲁棒性和泛化性不好。另外，相关标注数据少以及样本不均衡会极大的影响文本分类任务的准确性,而现有方法没有针对性的解决方案。

发明内容

本发明的目的在于提供一种文本多层次标签分类方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种文本多层次标签分类方法，包括步骤：

S1)获取原文档，原文档至少包含一个字符；

S2)进行数据增广操作，获得数据增广操作后的样本数据集；

S3)对样本数据集的不同实体类型的数量进行统计，并进行均衡操作；

S4)建立文本多层次标签分类模型，进行多层级特征融合，获得文本多层次标签分类模型的输出；

S5)将文本多层次标签分类模型的输出作为文本多层次标签分类结果。

进一步的，步骤S2)中进行数据增广操作，获得数据增广操作后的样本数据集，包括步骤：

S21)建立实体识别程序，通过实体识别程序对原文档进行识别，获得原文档中不同类型的实体；不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字；

S22)建立词料库，词料库包括若干实体类型库，将步骤S21)获得的实体分别加入到与实体类型相对应的实体类型库中，获得加入原文档实体后的词料库；

S23)对加入原文档实体后的词料库中的词进行预处理，预处理包括对词进行去重以及剔除识别错误的词，获得预处理后的词料库；

S24)从预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词，对实体进行替换，生成新的句子，将新的句子作为数据增广出的样本。

进一步的，步骤S3)中，对数据增广操作后的样本数据集的样本类型数量进行统计，对样本数据进行均衡操作，包括步骤：

S31)对数据增广操作后的样本数据集的样本类型数量进行统计，获得统计结果{y₁,y₂,...y_i,...,y_n}，1≤i≤n，y_i表示第i个样本类型的数量，n表示样本类型总数；

S32)获取统计结果中的最大值；

S33)获取不同类型的文本库，从与样本类型相同的的文本库中随机选取统计结果中的最大值与第i个样本类型的数量之差个样本；

S34)将随机选取的统计结果中的最大值与第i个样本类型的数量之差个样本依次添加到与实体类型相对应的实体类型库中。

进一步的，步骤S4)中，建立文本多层次标签分类模型，进行多层级特征融合，获得文本多层次标签分类模型的输出，包括步骤：

S41)获取文本，利用转化方法将文本转化为词向量；

S42)建立若干个分类模型；

S43)利用第一个分类模型对步骤S41)中的词向量进行分类，获得第一个分类模型的分类结果；

S44)设定第一阈值，判断第一个分类模型的分类结果是否小于第一阈值，若是，则将步骤S41)中的词向量作为第二个分类模型的输入；若否，则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合，获得第一融合向量，将第一融合向量作为第二个分类模型的输入；

S45)获得第二个分类模型的分类结果；

S46)设定第二阈值，判断所述第二个分类模型的分类结果是否小于第二阈值，若是，则将步骤S41)中的词向量作为第三个分类模型的输入；若否，则将步骤S41)中的词向量、第一个分类模型的分类结果和第二个分类模型的分类结果进行融合，获得第三融合向量，将第三融合向量作为第三个分类模型的输入；

S47)获得第三个分类模型的分类结果；依次遍历所有的分类模型，将最后一个分类模型的输出作为文本分类的最终结果。

进一步的，S41)中转化方法包括Bert(Bidirectional Encoder Representationfrom Transformers)方法或Word2vector方法。

进一步的，特征融合包括词向量相加或词向量拼接。

进一步的，若干个分类模型包括CNN、RNN、LSTM、KNN、SVM、Naive Bayes、决策树、GBDT和/或K-means。

进一步的，若干个分类模型分别连接有激活函数，激活函数为softmax函数、sigmoid函数或relu函数。

通过在分类模型后连接激活函数，使得分类模型的输出向量转化为概率向量，每一个维度的概率与每一种分别标签类别一一对应。

本发明的有益效果是：本发明首先通过数据增广操作扩充样本数据，增加样本数量；然后平衡了各类型样本之间的数量，减小样本不均衡造成的对模型准确率的负面影响；本发明利用了各层分类标签之间的相关信息，进行了多层级特征融合，综合预测多层次标签，相对于现有技术，本发明准确率更高，鲁棒性以及泛化性更好。

附图说明

图1是本实施例一整体流程示意图。

图2是本实施例一数据增广操作示意图。

图3是本实施例一进行均衡操作示意图。

图4是本实施例一进行多层级特征融合的流程示意图。

图5是本实施例一的现有多层次标签分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一，一种文本多层次标签分类方法，如图1所示，包括步骤：

S1)获取原文档，原文档至少包含一个字符；

S2)进行数据增广操作，如图2所示，包括步骤：

S21)建立实体识别程序，通过实体识别程序对原文档进行识别，获得原文档中不同类型的实体；图2中对原文档识别出4种类型的实体，分别为实体类型1、实体类型2、实体类型3和实体类型4。不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字。

S23)对加入原文档实体后的词料库中的词进行预处理，预处理包括对词进行去重以及剔除识别错误的词，获得预处理后的词料库；预处理后的词料库有各种不同类型词库，比如飞机专有名词词库(如孔探、左发、无线快速采集组件、乘务员休息室、56排左侧显示器、卡箍、燕尾、左翼等)；表示食品的词库(如橘子，饼干，烤鸭等)；表示机构类的词库(如***教科文组织、***政府、北京邮电大学等)；表示时间类的词库(如今晚、明日、2019年8月8日等)。图2中预处理后的词料库有四种，分别为实体类型1库、实体类型2库、实体类型3库和实体类型4库。

S24)从预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词，对实体进行替换，生成新的句子，将新的句子作为数据增广出的样本。获得数据增广操作后的样本数据集，数据增广操作后的样本数据集即数据增广操作后的词料库。

S3)对数据增广操作后的词料库的4种实体类型的数量进行统计，并进行均衡操作，如图3所示，包括步骤：

S31)对数据增广操作后的词料库的样本类型数量(即实体类型数量)进行统计，获得4种实体类型的统计结果{y₁,y₂,y₃,y₄}，y₄表示第4种实体类型的数量；

S32)获取统计结果中的最大值y_max；

S33)获取与步骤S31)中实体类型相同的的各个文本库，各个文本库分别为类型1文本库、类型2文本库、类型3文本库和类型4文本库，并从各个文本库中随机选取y_max-y₁、y_max-y₂、y_max-y₃和y_max-y₄个样本；

S34)将y_max-y₁、y_max-y₂、y_max-y₃和y_max-y₄个样本依次添加到数据增广操作后的词料库的与实体类型相对应的实体类型库中，获得已均衡词料库。

S4)建立文本多层次标签分类模型，进行多层级特征融合，如图4所示，包括步骤：

S41)获取文本，利用Bert方法或Word2vector方法将文本转化为词向量；

S42)建立两个分类模型，两个分类模型为CNN、RNN、LSTM、KNN、SVM、NaiveBayes、决策树、GBDT和K-means中的任意两个。两个分类模型分别连接有激活函数，激活函数为softmax函数。

S43)利用第一个分类模型对步骤S41)中的词向量进行分类，获得第一个分类模型的基于概率的分类结果；

S44)设定第一阈值，判断第一个分类模型的基于概率的分类结果是否小于第一阈值，若是，则将步骤S41)中的词向量作为第二个分类模型的输入；若否，则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合，获得第一融合向量，将第一融合向量作为第二个分类模型的输入；

S45)获得第二个分类模型的基于概率的分类结果；将第二个分类模型的基于概率的分类结果作为文本分类的最终结果，获得文本多层次标签分类模型的输出。

特征融合包括词向量相加或词向量拼接。

本实施例一还提供了一种设备，设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现文本多层次标签分类方法。

将本实施例一与现有多层次标签分类方法进行对比，现有多层次标签分类流程如图5所示。现有多层次标签分类方法首先获取原文档输入文本，原文档至少要包含一个字符；然后通过词向量生成方法生成数字化的词向量，生成的词向量供预测方法使用；现有多层次标签分类方法采用了多个独立的方法分别去预测各层的标签，输出独立的预测结果；在合并步骤中，将独立预测的结果进行组合，成为多层次标签；将合成的多层次标签输出并作为最终结果。现有方法将不同层级标签看作独立的任务，用独立的预测方法进行预测，最后将结果合并。

经过数据分析得知，发现词料库中最多的实体类型数量与最少的实体类型数量相差了50倍。而对文本标签识别准确率较低的恰好就是数量较少的。为了减小样本不均衡对准确率造成的负面影响，本发明设计出了数据增广与数据平衡的方法。与未使用数据增广与数据平衡相比，准确率得到了较大程度的提高，总准确率提高约3个百分点。另外，不同层级的标签其实是由某种包含与被包含关系的，通过对这种层级之间的关系进行数据分析，得到了层级与层级之间的关联关系。本发明利用层级与层级之间的关联关系，将不同预测标签方法进行特征融合。与无特征融合的方法相比，提高了约2个百分点。现有多层次标签分类方法没有考虑层级与层级之间的关联关系，本实施例一与现有多层次标签分类方法相比，整体准确率约提高了5个百分点。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种文本多层次标签分类方法，其特征在于，包括步骤：

S1)获取原文档，所述原文档至少包含一个字符；

S2)进行数据增广操作，获得数据增广操作后的样本数据集；

S3)对所述样本数据集的不同实体类型的数量进行统计，并进行均衡操作；

S5)将所述文本多层次标签分类模型的输出作为文本多层次标签分类结果。

2.根据权利要求1所述的文本多层次标签分类方法，其特征在于，步骤S2)中进行数据增广操作，获得数据增广操作后的样本数据集，包括步骤：

S21)建立实体识别程序，通过所述实体识别程序对所述原文档进行识别，获得所述原文档中不同类型的实体；所述不同类型包括人名、地名、机构名、时间、专有名词、种类范畴名词、钱和/或数字；

S22)建立词料库，所述词料库包括若干实体类型库，将步骤S21)获得的实体分别加入到与实体类型相对应的实体类型库中，获得加入原文档实体后的词料库；

S23)对所述加入原文档实体后的词料库中的词进行预处理，所述预处理包括对词进行去重以及剔除识别错误的词，获得预处理后的词料库；

S24)从所述预处理后的词料库中随机选取与步骤S21)中获得的实体的类型相同的词，对实体进行替换，生成新的句子，将所述新的句子作为数据增广出的样本。

3.根据权利要求1或2所述的文本多层次标签分类方法，其特征在于，步骤S3)中，对数据增广操作后的样本数据集的样本类型数量进行统计，对样本数据进行均衡操作，包括步骤：

S32)获取所述统计结果中的最大值；

4.根据权利要求1所述的文本多层次标签分类方法，其特征在于，步骤S4)中，建立文本多层次标签分类模型，进行多层级特征融合，获得文本多层次标签分类模型的输出，包括步骤：

S41)获取文本，利用转化方法将文本转化为词向量；

S42)建立若干个分类模型；

S44)设定第一阈值，判断所述第一个分类模型的分类结果是否小于第一阈值，若是，则将步骤S41)中的词向量作为第二个分类模型的输入；若否，则将步骤S41)中的词向量与第一个分类模型的分类结果进行融合，获得第一融合向量，将所述第一融合向量作为第二个分类模型的输入；

S45)获得第二个分类模型的分类结果；

S46)设定第二阈值，判断所述第二个分类模型的分类结果是否小于第二阈值，若是，则将步骤S41)中的词向量作为第三个分类模型的输入；若否，则将步骤S41)中的词向量、第一个分类模型的分类结果和第二个分类模型的分类结果进行融合，获得第三融合向量，将所述第三融合向量作为第三个分类模型的输入；

5.根据权利要求4所述的文本多层次标签分类方法，其特征在于，S41)中所述转化方法包括Bert方法或Word2vector方法。

6.根据权利要求4所述的文本多层次标签分类方法，其特征在于，特征融合包括词向量相加或词向量拼接。

7.根据权利要求4所述的文本多层次标签分类方法，其特征在于，所述若干个分类模型包括CNN、RNN、LSTM、KNN、SVM、Naive Bayes、决策树、GBDT和/或K-means。

8.根据权利要求4或7所述的文本多层次标签分类方法，其特征在于，所述若干个分类模型分别连接有激活函数，所述激活函数为softmax函数、sigmoid函数或relu函数。