CN108846120A

CN108846120A - 用于对文本集进行分类的方法、***及存储介质

Info

Publication number: CN108846120A
Application number: CN201810676963.1A
Authority: CN
Inventors: 余本功; 陈杨楠; 杨颖�; 曹雨蒙; 岳美; 许庆堂; 张培行; 张宏梅; 范招娣
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-20

Abstract

本发明提供一种用于对文本集进行分类的方法、***及存储介质，属于文本分类算法技术领域。方法包括：读取需要被分类的文本集并对所述文本集进行预处理；确定所述文本集的困惑度；在所述困惑度取最小值的情况下，确定所述文本集的主题数；根据所述主题数采用BTM模型生成所述文本集的主题向量；采用Doc2vec模型根据所述文本集生成特征向量；合并所述主题向量和所述特征向量以生成所述文本集的特征空间向量；将所述特征空间向量作为SVM分类器的原始输入空间向量输入SVM分类器以进行分类。用于对文本集进行分类的方法、***及存储介质，该方法、***及存储介质可以提高文本分类算法的效率。

Description

用于对文本集进行分类的方法、***及存储介质

技术领域

本发明涉及文本分类算法技术领域，具体地涉及一种用于对文本集进行分类的方法、***及存储介质。

背景技术

文本分类算法是计算机程序领域常用的算法之一，目前已有的文本分类算法主要包括两种。一种是基于机器学习方法的分类算法，例如基于概率统计的朴素贝叶斯分类方法、基于信息熵的决策树方法、k近邻算法、神经网络分类算法和SVM(Support VectorMachine，支持向量机)分类算法等；另一种是基于深度学习的分类算法，例如CNN(Convolution Neural Network，卷积神经网络)算法和RNN(Recurrent Neural Networks，循环神经网络)分类算法。

但是上述算法在实际的应用过程中因为文本内容以及分类要求的变化会经常出现分类效果不佳的问题。例如朴素贝叶斯分类方法受限于假设影响分类的属性之间相互独立不符合实际；决策树方法对于文本这种具有连续性特征的数据分类效果不佳；k紧邻算法在文本分类方面应用很少，对数据集的要求很高，普通的三层神经网络算法分类效果一般；SVM是经过实验证明的针对相同数据集进行文本分类准确率较高的分类器，但受制于数据集较大时，文本表示时特征空间维度过高，计算复杂度高，效率低。

自2012年深度学习进入人们视野以来，有很多研究者投入了巨大精力用于研究深度神经网络，深度神经网络在图片分类领域不断取得突破，但随着分类效果的不断提升，隐层网络层数不断增加，参数不断增加，计算复杂度不断增加，即使有人对参数个数加以控制，但若要取得较好的分类效果，参数仍将达到万级。而深度学习在文本分类这块的应用也在不断发展，但分类技术远不及图片分类技术成熟。

发明内容

本发明的目的是提供一种用于对文本集进行分类的方法、***及存储介质，该方法、***及存储介质可以提高文本分类算法的效率。

为了实现上述目的，本发明的一方面提供一种用于对文本集进行分类的方法，该方法可以包括：

读取需要被分类的文本集并对所述文本集进行预处理；

确定所述文本集的困惑度；

在所述困惑度取最小值的情况下，确定所述文本集的主题数；

根据所述主题数采用BTM模型生成所述文本集的主题向量；

采用Doc2vec模型根据所述文本集生成特征向量；

合并所述主题向量和所述特征向量以生成所述文本集的特征空间向量；

将所述特征空间向量作为SVM分类器的原始输入空间向量输入SVM分类器以进行分类。

可选地，所述根据所述主题数采用BTM模型生成所述文本集的主题向量包括：

采用PV-DM模型根据所述文本集生成第一特征向量。

采用PV-DBOW模型根据所述文本集生成第二特征向量。

采用PV-DM模型根据所述文本集生成第一特征向量；

采用PV-DBOW模型根据所述文本集生成第二特征向量；

合并所述第一特征向量和所述第二特征向量以生成特征向量。

可选地，所述读取需要被分类的文本集并对所述文本集进行预处理包括：

对所述文本集进行脱敏处理；

去除所述文本集中的停用词；

根据预设的自定义词典对所述文本集进行分词。

将所述文本集输入所述BTM模型中，以生成所述文本集的所述主题向量。

可选地，所述采用PV-DM模型根据所述文本集生成第一特征向量包括：

根据预设的第一滑动取词窗按照先后顺序从所述文本集的段落中选取包括至少一个单词的第一单词集；

根据所述第一单词集中的单词的向量和段落向量预测所述第一单词集后的单词以作为第一预测单词；

将所述第一预测单词的向量与所述文本集中的所述第一单词集后的第一实际单词的向量进行比对，确定所述第一预测单词的向量与所述第一实际单词的向量的差异的第一损失函数；

采用梯度下降法对所述第一损失函数进行优化以修正所述第一单词集中的单词的向量和所述段落向量直到所述第一损失函数收敛；

遍历所述文本集中的每个所述第一单词集以生成所述第一特征向量。

可选地，所述采用PV-DBOW模型根据所述文本集生成第二特征向量包括：

根据预设的第二滑动取词窗按照先后顺序从所述文本集的段落中选取包括至少三个单词的第二单词集；

根据所述段落的段落向量预测所述第二单词集中的一个随机的单词以作为第二预测单词。

将所述第二预测单词的向量与所述文本集中的被预测的第二实际单词的向量进行比对，确定所述第二预测单词与所述第二实际单词的差异的第二损失函数；

采用梯度下降法对所述第二损失函数进行优化以修正所述第二单词集中的单词的向量和所述段落向量直到所述第二损失函数收敛；

遍历所述文本集中的每个所述第二单词集以生成所述第二特征向量。

本发明的另一方面还提供一种用于对文本集进行分类的***，所述***包括：

文本读取模块，用于读取需要被分类的文本；

处理模块，与所述文本读取模块连接，用于通过所述文本读取模块接收所述文本并执行上述权利要求1至8任一所述的方法。

本发明的再一方面还提供一种存储介质，所述存储介质存储有控制指令，所述控制指令用于执行以使得计算机执行上述所述的方法。

通过上述技术方案，本发明提供的用于对文本集进行分类的方法、***及存储介质可以通过利用BTM(Biterm Topic Model，词对主题模型)模型和Doc2vec模型替代现有技术中的TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)，降低了文本-特征表示的维度，同时保留了文本的语义和语序信息。通过用BTM模型和Doc2vec模型生成的文本特征向量取代TF-IDF生成的文本特征向量，降低了特征空间的维度，使得SVM分类器在进行分类时计算复杂度降低，提高了分类效率。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明的一个实施方式的用于对文本集进行分类的方法的流程图；

图2是根据本发明的一个实施方式的用于对文本集进行分类的方法的流程图；

图3是根据本发明的一个实施方式的用于对文本集进行分类的方法的流程图；

图4是根据本发明的一个实施方式的用于对文本集进行分类的方法的流程图；以及

图5是根据本发明的一个实施方式的用于对文本集进行分类的***的结构框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示是根据本发明的一个实施方式的用于对文本集进行分类的方法的流程图。在图1中，该方法可以包括以下步骤：

在步骤S01中，读取需要被分类的文本集并对该文本集进行预处理。在该实施方式中，对该预处理可以是例如对该读取的文本集进行脱敏处理；去除文本集中的停用词；以及根据预设的自定义词典对文本集进行分词。在本发明的一个示例中，以文本集为

文本1：“我是合肥工业大学的学生，合肥工业大学是211高校”；和

文本2：“管理科学与工程是合工大的双一流学科”

为例，在对文本集进行脱敏处理(文本中没有敏感词，所以脱敏处理并未对该文本集造成影响)后，该文本集转换为

文本2：“管理科学与工程是合工大的双一流学科”；

去除文本集中的停用词后，该文本集被转换为

文本1：“我合肥工业大学学生合肥工业大学211高校”；和

文本2：“管理科学与工程合工大双一流学科”；

为了进一步使得该文本集的分词更加准确，可以预设自定义词典。在本发明的该示例中，该自定义词典可以包括：合肥工业大学、学生、211高校、管理科学与工程、合工大、双一流等单词。根据该自定义词典对文本集进行分词，从而使得该文本集被分成

文本1：“我合肥工业大学学生合肥工业大学211高校”；和

文本2：“管理科学与工程合工大双一流学科”。

上述给出的对文本集进行预处理的多个步骤的排列顺序仅限于解释本发明，并不对本发明的保护范围造成限制，在本发明的同一技术构思下，上述步骤的排列顺序的简单调整均属于本发明的保护范围。

在步骤S02中，确定文本集的困惑度。在该实施方式中，确定该文本集的困惑度的方法可以是本领域技术人员所知的方法。

在步骤S03中，在该文本集的困惑度取最小值的情况下，确定文本集的主题数。

在步骤S04中，根据上述确定出的主题数采用BTM模型生成文本集的主题向量。在该实施方式中，可以是例如将文本集输入BTM模型中，该BTM模型输出文本集的主题向量。

在步骤S05中，采用Doc2vec模型根据文本集中生成特征向量。在本发明的一个实施方式中，如图2所示，该步骤可以包括：采用Doc2vec模型中的PV-DM(Distributed MemoryModel of Paragraph Vectors，段落向量的分布式内存模型)模型根据文本集生成第一特征向量(特征向量)。在该实施方式中，可以是例如根据预设的第一滑动取词窗按照先后顺序从文本集(包括多个文本，每个文本可以包括一个段落)的段落中选取包括至少一个单词的第一单词集；根据第一单词集中的单词的向量和该段落的段落向量预测第一单词集后的单词以作为第一预测单词(预测出的单词)；将第一预测单词的向量与文本集中的第一单词集后的第一实际单词(文本集中实际存在的单词)的向量进行比对，确定第一预测单词的向量与第一实际单词的向量的差异的第一损失函数(该第一损失函数可以是用于对该差异进行定义的函数)；采用梯度下降法对该第一损失函数进行优化以修正该第一单词集中的单词的向量和该文本集的段落的段落向量直到该第一损失函数收敛；遍历该文本集中的每个第一单词集以生成第一特征向量(被修正后的段落向量)。在本发明的一个示例中，以该第一滑动取词窗的长度为3个单词的向量(此时第一单词集包括3个单词)，文本集为

文本1：“我合肥工业大学学生合肥工业大学211高校”；和

文本2：“管理科学与工程合工大双一流学科”为例，

以文本1和文本2分别为该文本集的一个段落，对于段落中的每个不同的单词在本发明的该示例中均可以采用一个P维向量表示，该文本1和文本2两个段落可以分别采用q维向量表示(P、q为自然数)。由于在Doc2vec模型中将该文本1和文本2转化成的向量(初始的单词的向量和段落向量)均为随机生成。那么，为了使得该随机生成的向量能够更好的表示该文本集，可以采用该PV-DM模型对该段落进行处理。在处理的过程中，第一滑动取词窗按照先后的顺序从文本集中选取第一单词集。从上述文本1中可知，第一次选出的第一单词集为“我、合肥工业大学、学生”。采用神经网络算法，根据该第一单词集中的单词的向量和该段落(文本1)的段落向量预测该第一单词集后的单词的向量(生成了一个新的单词，该单词可以称为第一预测单词)；再将文本1中的“合肥工业大学”(被预测的单词)的向量与该第一预测单词的向量进行比对，确定两者之间的差异的第一损失函数，采用梯度下降法对该第一损失函数进行优化以对该段落向量和第一单词集中的单词的向量进行修正直到该第一损失函数收敛。在该示例中，该第一特征向量的维度为P。

在本发明的另一个实施方式中，如图3所示，该步骤可以包括：采用Doc2vec模型中的PV-DBOW(Distributed Bag of Words version of Paragraph Vector，分布式字袋段落矢量)模型根据文本集生成第二特征向量(特征向量)。在该实施方式中，可以是例如根据预设的第二滑动取词窗按照先后顺序从文本集的段落中选取包括至少三个单词的第二单词集；根据该段落的段落向量预测第二单词集中的一个随机的单词以作为第二预测单词；将该第二预测单词的向量和文本集中的被预测的第二实际单词的向量进行比对，确定该第二预测单词与第二实际单词的差异的第二损失函数；采用梯度下降法对该第二损失函数进行优化以修正第二单词集中的单词的向量和段落向量直到该第二损失函数收敛；遍历该文本集中的每个第二单词集以生成第二特征向量(被修正后的段落向量)。在本发明的一个示例中，以该第二滑动取词窗的长度为3个单词的向量(此时第二词集包括3个单词)，文本集为

文本1：“我合肥工业大学学生合肥工业大学211高校”；和

文本2：“管理科学与工程合工大双一流学科”为例，

以文本1和文本2分别为该文本集的一个段落，对于段落中的每个不同的单词在本发明的该示例中均可以采用一个P维向量表示，该文本1和文本2两个段落可以分别采用q维向量表示(P、q为自然数)。由于在Doc2vec模型中将该文本1和文本2转化成的向量(初始的单词的向量和段落向量)均为随机生成，那么，为了使得该随机生成的向量能够更好的表示该文本集，可以采用该PV-DBOW模型对该段落进行处理。在处理的过程中，第二滑动取词窗按照先后的顺序从文本集中选取第二单词集。从上述文本1中可知，第一次选出的第二单词集为“我、合肥工业大学、学生”。采用神经网络算法，根据该段落(文本1)的段落向量预测该第二单词集中的一个随机的单词的向量(生成了一个新的单词，该单词可以称为第二预测单词)；再将文本1中的“合肥工业大学”(被预测的单词)的向量与该第二预测单词的向量进行比对，确定两者之间的差异的第二损失函数。采用梯度下降法对该第二损失函数进行优化以修正该文本集的单词的向量和段落向量直到该第二损失函数收敛。遍历该文本集中的每个第二单词集以生成第二特征向量。在该示例中，该第二特征向量的维度为P。

在本发明的再一个实施方式中，如图4所示，该步骤可以包括：

在步骤S35中，采用Doc2vec模型中的PV-DM(Distributed Memory Model ofParagraph Vectors，段落向量的分布式内存模型)模型根据文本集生成第一特征向量。该步骤的举例上述已经详述，此处不再赘述。

在步骤S36中，采用Doc2vec模型中的PV-DBOW(Distributed Bag of Wordsversion of Paragraph Vector，分布式字袋段落矢量)模型根据文本集生成第二特征向量。该步骤的举例上述已经详述，此处不再赘述。

在步骤S37中，合并第一特征向量和第二特征向量以生成特征向量。由于第一特征向量和第二特征向量的维度均为P，那么，该合并后的特征向量的维度为2P。

在步骤S08中，合并主题向量和特征向量以生成文本集的特征空间向量。在该实施方式中，以该主题向量的维度为K(K是自然数)、步骤S05包括步骤S35、步骤S36、步骤S37为例，该合并后的特征向量的维度为K+2P。此外，在步骤S05仅包括步骤S15或仅包括步骤S25的情况下，该合并后的特征向量的维度均为K+P。

在步骤S09中，将特征空间向量作为SVM分类器的原始输入空间向量输入SVM分类器以进行分类。

此外，在本发明的一个实施方式中，该BTM模型和Doc2vec模型可以是经过大量文本集训练得出。考虑到在实际的应用过程中，BTM模型和Doc2vec模型不可能经过所有的文本集进行训练得出。那么，在该实施方式中，可以是例如采用不同的文本分别训练不同的多个BTM模型和Doc2vec模型。在对同一文本集进行分类时，可以采用多个BTM模型和Doc2vec模型对该文本集进行处理(生成主题向量和特征向量)，并进一步将处理后的特征空间向量输入SVM分类器中，从而得出多个分类结果。最后，按照多数服从少数的原则从多个分类结果中获取较为准确分类结果作为实际的分类结果，从而进一步提高该方法的泛化能力和分类准确性。

如图5所示，本发明的另一方面还提供一种用于对文本集进行分类的***。在图5中，该***可以包括：文本读取模块01和处理模块02。

文本读取模块01可以是例如键盘等文本录入设备，也可以是例如计算机等文本读取设备，用于读取需要被分类的文本。

处理模块02可以与文本读取模块01连接，用于通过文本读取模块01接收文本并执行上述如图1至图3所示出的方法。

该处理模块02可以为通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机等。

本发明的在一方面还提供一种存储介质，存储介质存储有控制指令，控制指令用于执行以使得计算机执行上述的方法。

以某公司的投诉文本为例，由于文本来源广泛，包括短信渠道、电话渠道、邮件渠道和官微评论等，故文本的结构统一性极差。采用上述图3中示出的方法对该文本进行处理：

1、对文本集进行预处理的过程包括字数统计，无意义字符替换，脱敏处理，构建用户词典，分词；

2、将预处理后的每一个文本集通过BTM模型获得K维的主题向量；

3、将预处理后的每一个文本集通过Doc2vec(PV-DM和PV-DROW)获得2P维的特征向量(2，3步顺序可对调，两者相互独立)；

4、将K维主题向量和2P维特征向量拼接，从而使得每一个文本集都被表示K+2P维的特征向量；

5、将该K+2P维的特征向量输入SVM分类器。

经过上述过程，将分类结果和传统的SVM分类器分类结果进行对比，分类准确率优于普通SVM分类器，且分类过程所用时间远远小于普通SVM分类器。分类准确率随着类别的增加逐渐降低，分类效率比普通SVM分类器提高约为W/(K+2P)倍，W是字典词数，K为主题数，P为Doc2vec训练的文本向量维度。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明并不限于上述可选实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个(可以是单片机，芯片等)或处理器(Processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种用于对文本集进行分类的方法，其特征在于，所述方法包括：

读取需要被分类的文本集并对所述文本集进行预处理；

确定所述文本集的困惑度；

根据所述主题数采用BTM模型生成所述文本集的主题向量；

采用Doc2vec模型根据所述文本集生成特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述主题数采用BTM模型生成所述文本集的主题向量包括：

采用PV-DM模型根据所述文本集生成第一特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述主题数采用BTM模型生成所述文本集的主题向量包括：

采用PV-DBOW模型根据所述文本集生成第二特征向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述主题数采用BTM模型生成所述文本集的主题向量包括：

采用PV-DM模型根据所述文本集生成第一特征向量；

采用PV-DBOW模型根据所述文本集生成第二特征向量；

5.根据权利要求1所述的方法，其特征在于，所述读取需要被分类的文本集并对所述文本集进行预处理包括：

对所述文本集进行脱敏处理；

去除所述文本集中的停用词；

根据预设的自定义词典对所述文本集进行分词。

6.根据权利要求1所述的方法，其特征在于，所述根据所述主题数采用BTM模型生成所述文本集的主题向量包括：

7.根据权利要求2或4所述的方法，其特征在于，所述采用PV-DM模型根据所述文本集生成第一特征向量包括：

8.根据权利要求3或4所述的方法，其特征在于，所述采用PV-DBOW模型根据所述文本集生成第二特征向量包括：

9.一种用于对文本集进行分类的***，其特征在于，所述***包括：

文本读取模块，用于读取需要被分类的文本；

10.一种存储介质，其特征在于，所述存储介质存储有控制指令，所述控制指令用于执行以使得计算机执行上述权利要求1至8任一所述的方法。