CN108573047A

CN108573047A - 一种中文文本分类模型的训练方法及装置

Info

Publication number: CN108573047A
Application number: CN201810350019.7A
Authority: CN
Inventors: 刘怡俊; 林裕鹏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-09-25

Abstract

本发明提供了一种中文文本分类模型的训练方法及装置，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。其中方法，包括：S1、获取带标签的训练文本；S2、对所述训练文本进行预处理后，得到分词后的训练文本；S3、将所述分词后的训练文本输入至word2vec模型中，将所述分词后的训练文本转换为词向量集合；S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算所述卷积神经网络的loss值；S5、判断所述loss值是否低于预置阈值，若是，则确定所述卷积神经网络收敛，保存所述卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则返回步骤S1。

Description

一种中文文本分类模型的训练方法及装置

技术领域

本发明涉及文本分类技术领域，尤其涉及一种中文文本分类模型的训练方法及装置。

背景技术

上个世纪90年代以来，随着Internet的普及和网络技术的不断完善，Internet已经成为全球最庞大最丰富的信息资源库。根据最新CNNIC统计表明，截至2016年12月底，中国网页数量达到千亿个，网民规模突破6.88亿，互联网正成为人们日常生活基本资源。Internet的开放性使得各类信息都能在第一时间发布在Internet上，然而，Internet的这种开发性也导致了Internet上信息的杂乱性和冗余性。如何有效地组织和管理海量的非结构化的文本信息,并精准为用户实现信息定位是当前信息科学和技术领域面临的一大挑战,其中一个成功的范例就是根据信息的内容对信息进行自动分类。

自动分类技术在传统的信息手工分类基础上发展而来,作为一种有效的信息处理方式，将各类信息按照一定的分类体系进行整理，较大程度上解决了信息杂乱的问题。传统的手工信息分类技术虽已相当成熟，但显然不适于对时刻更新的Internet信息进行处理。80年代，“知识工程”(Knowledge Engineering)理论被用于指导文本分类，通过将专家知识人工的定义为一组规则，在给定类别的情况下根据这些规则进行分类。90年代后，“机器学习”(Machine Learning)逐渐发展成为文本分类的主流技术，其依靠一组提前人工标记好的分类文档，凭借一个诱导式的过程来学习感兴趣的类别特征，然后使用机器学习技术构造出文本自动分类器。中文是世界上使用人数最多的语言，随着信息时代的到来和知识经济的全球化，中文文本分类作用已经变得举足轻重。

近年来，深度学习模型在计算机视觉和语音识别方面取得了显著的成果，在自然语言处理领域，利用神经网络对自然语言文本信息进行特征学习和文本分类，也成为文本分类的前沿技术。现有的分类方法主要包括基于规则的分类模型，基于机器学习的分类模型，比较著名的文档分类方法有决策树(Decision Tree)、随机森林(Random Forest)、贝叶斯分类器(Bayes)、线性分类器(逻辑回归)、支持向量机(Support Vector Machine,SVM)、最大熵分类器等。它们都是始借助于机器学习方法，通过人工特征工程和浅层分类模型来进行文本分类。

文本分类(Text Classification)的任务是根据给定文档的内容或主题，自动分配预先定义的类别标签。对文档进行分类，一般需要经过文本表示和学习分类两个步骤。而如何把文档表示为算法能够处理的结构化数据，这无疑是文本分类的重要环节。对于文本的表示，传统的方法都是离散的表示，例如One-hot编码，也称之为独热编码，它意思是使用N位状态寄存器来对N个状态进行编码，每个状态都有他独立的寄存器位，在任何时候，其中只有一位有效。虽然这种表示使每一个词语有唯一的索引，但是这种编码会导致文本中每个词语在句子中的顺序没有关联性，而且随之建立的词典越大，这个编码的序列越长，数据也随之很稀疏。后来还有词袋模型(Bag of Words)，它就是将文档向量表示可以直接将各词的词向量表示加和；N-gram模型，它就是将n个上下相邻的词语搭配编码，这样考虑了词的顺序，但是导致词表维度随着语料库增长膨胀，词序列也随语料库膨胀更快，数据稀疏问题等。

传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。

发明内容

本发明提供了一种中文文本分类模型的训练方法及装置，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。

本发明提供了一种中文文本分类模型的训练方法，包括：

S1、获取带标签的训练文本；

S2、对所述训练文本进行预处理后，得到分词后的训练文本；

S3、将所述分词后的训练文本输入至word2vec模型中，将所述分词后的训练文本转换为词向量集合；

S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算所述卷积神经网络的loss值；

S5、判断所述loss值是否低于预置阈值，若是，则确定所述卷积神经网络收敛，保存所述卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则返回步骤S1。

可选地，所述步骤S2具体包括：

通过预置基于知识的分词模型对所述训练文本进行分词，得到分词后的训练文本。

可选地，所述步骤S2还包括：

通过词频-逆文档频率方法提取所述训练文本中的特征词，并去掉所述训练文本中无意义词；

计算所述特征词对应的特征权重。

可选地，所述步骤S3之后，所述步骤S4之前还包括：

根据所述特征词对应的特征权重，提高所述特征词对应的词向量占所述词向量集合的权重值。

本发明提供了一种中文文本分类模型的训练装置，包括：

获取单元，用于获取带标签的训练文本；

预处理单元，用于对所述训练文本进行预处理后，得到分词后的训练文本；

向量转化单元，用于将所述分词后的训练文本输入至word2vec模型中，将所述分词后的训练文本转换为词向量集合；

训练单元，用于将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算所述卷积神经网络的loss值；

判断单元，用于判断所述loss值是否低于预置阈值，若是，则确定所述卷积神经网络收敛，保存所述卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则跳转至获取单元。

可选地，所述预处理单元具体包括：

分词子单元，用于通过预置基于知识的分词模型对所述训练文本进行分词，得到分词后的训练文本。

可选地，所述预处理单元还包括：

特征提取子单元，用于通过词频-逆文档频率方法提取所述训练文本中的特征词，并去掉所述训练文本中无意义词；

特征权重计算子单元，用于计算所述特征词对应的特征权重。

可选地，本发明提供的中文文本分类模型的训练装置还包括：

权重提高单元，用于根据所述特征词对应的特征权重，提高所述特征词对应的词向量占所述词向量集合的权重值。

本发明提供了一种中文文本的分类方法，基于如上中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型，包括：

获取待分类的文本；

将所述待分类的文本输入至如上中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型中，得到所述待分类的文本的分类结果。

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上中任一项所述的方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种中文文本分类模型的训练方法，包括：S1、获取带标签的训练文本；S2、对所述训练文本进行预处理后，得到分词后的训练文本；S3、将所述分词后的训练文本输入至word2vec模型中，将所述分词后的训练文本转换为词向量集合；S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算所述卷积神经网络的loss值；S5、判断所述loss值是否低于预置阈值，若是，则确定所述卷积神经网络收敛，保存所述卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则返回步骤S1。

本发明通过利用word2vec模型，将训练文本转换为词向量集合，使得文本能够表示为类似图像和语音的连续、稠密的数据，然后利用卷积神经网络，以类似于处理图像的形式，通过卷积神经网络的卷积层、池化层和非线性转换成来训练网络参数，使得能够得到正确的分类，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种中文文本分类模型的训练方法的一个实施例的流程示意图；

图2为本发明提供的一种中文文本分类模型的训练方法的另一个实施例的流程示意图；

图3为本发明提供的一种中文文本分类模型的训练装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种中文文本分类模型的训练方法及装置，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种中文文本分类模型的训练方法的一个实施例，包括：

101、获取带标签的训练文本；

102、对训练文本进行预处理后，得到分词后的训练文本；

103、将分词后的训练文本输入至word2vec模型中，将分词后的训练文本转换为词向量集合；

104、将词向量集合以及训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算卷积神经网络的loss值；

105、判断loss值是否低于预置阈值，若是，则确定卷积神经网络收敛，保存卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则返回步骤101。

本发明实施例通过利用word2vec模型，将训练文本转换为词向量集合，使得文本能够表示为类似图像和语音的连续、稠密的数据，然后利用卷积神经网络，以类似于处理图像的形式，通过卷积神经网络的卷积层、池化层和非线性转换成来训练网络参数，使得能够得到正确的分类，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。

以上是对本发明提供的一种中文文本分类模型的训练方法的一个实施例进行的说明，以下将对本发明提供的一种中文文本分类模型的训练方法的另一个实施例进行说明。

请参阅图2，本发明提供了一种中文文本分类模型的训练方法的另一个实施例，包括：

201、获取带标签的训练文本；

需要说明的是，在训练之前，首先需要获取带标签的训练文本，即已知分类结果的训练文本。

202、通过词频-逆文档频率方法提取训练文本中的特征词，并去掉训练文本中无意义词；

需要说明的是，特征处理就是从训练文本中抽取出反映主题的特征词，并确定特征词的权重。它对应着特征词的提取和特征权重的计算。特征词的提取就是指根据某个评价指标独立的对原始特征词进行评分排序，从中选取得分最高的一些特征词，过滤掉其余的特征词。在这里我们采用TF-IDF(词频-逆文档频率)算法，其思想就是一个词的重要程度与在类别内的词频成正比，与所有类别出现的次数成反比，这样就可以过滤掉那些在每个文档出现频率很高，但是区别意义不大的词语，从而选择了重要的文本特征。

文本根据来源不同，一般还带有与内容无关的标记。这些标记可能是控制显示外观的记号；也可能是一些功能性符号，如标点符号等；还可能是一些其他媒体信息，如图像、声音、动画等；也有可能是一些乱码。他们无法对分类起到帮助作用，所以应该去除掉。

203、计算特征词对应的特征权重；

需要说明的是，特征权重的计算：主要思路是依据一个词的重要程度与类别内的词频成正比(代表性)，与所有类别中出现的次数成反比(区分度)。当选用数学方法进行特征提取时，决定文本特征提取效果的最主要因素是评估函数的质量。

204、通过预置基于知识的分词模型对训练文本进行分词，得到分词后的训练文本；

需要说明的是，在文本信息处理过程中，一般可以选择字、词或词组作为文本的特征项。词组虽然携带足够的信息量，但词组在文本中出现的机率不多，用词组作为特征项会导致特征向量稀少，损失很多重要信息。因此，为了提取中文词条，需要对中文文本进行较为复杂的分词。在这里我们采用基于知识的分词方法，这种方法将分词看作是知识推理的过程，需要进行句法、语义分析，因此它需要用大量的语言知识和信息来指导分类算法，使其可以通过上下文内容所提供的信息对词进行界定。一篇文本的内容主要通过名词、动词和形容词等实词来体现，虚词以及在各种文本里经常出现的部分高频词对分类并无意义，所以这些无意义的字或词就可以过滤掉。

205、将分词后的训练文本输入至word2vec模型中，将分词后的训练文本转换为词向量集合；

需要说明的是，采用word2vec这种模型的文本分布式表示方法，它是深度学习方法的重要基础。文本的分布式表示的基本思想是将每个词表示为n维稠密，连续的实数向量，其最大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。文本的表示通过这种词向量的表示方法，把文本数据从高纬度稀疏的神经网络难处理的方式，变成了类似图像、语言的连续稠密数据，这样我们就可以把深度学习的算法迁移到文本领域了。

206、根据特征词对应的特征权重，提高特征词对应的词向量占词向量集合的权重值；

需要说明的是，在确定了训练文本中的特征词，并计算得到了特征词对应的特征权重以后，在使用训练文本转换的词向量集合进行模型训练之前，将根据特征词对应的特征权重，提高词向量集合中特征词对应的词向量的权重值，以更加提高训练文本的分类准确度。

207、将词向量集合以及训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算卷积神经网络的loss值；

需要说明的是，在word2vec模型得到的词向量集合的基础上，训练卷积神经网络做最后的文本分类器，卷积神经网络文本分类模型的主要思想是，对词向量形式的文本输入进行卷积操作。CNN最初被用于处理图像数据，与图像处理中选取二维域进行卷积操作不同，面向文本的卷积操作是针对固定滑动窗口内的词项进行的。经过卷积层、池化层和非线性转换层后，CNN可以得到文本特征向量用于分类学习。CNN的优势在于在计算文本特征向量过程中有效保留有用的词序信息。它能够自动学习多层神经网络，将输入特征向量映射到对应的类别标签上。通过引入非线性激活层，该模型能够实现非线性的分类判别式。利用word2vec模型对文本的高质量的初始特征表示是实现有效分类模型的必要条件。

而通过卷积神经网络中预置代价函数计算每次训练得到的卷积神经网络的loss值。

208、判断loss值是否低于预置阈值，若是，则确定卷积神经网络收敛，保存卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则返回步骤201。

需要说明的是，每次得到训练后的卷积神经网络后，计算对应的loss值，并判断loss值是否低于预置阈值，若是，则代表卷积神经网络收敛，保存卷积神经网络的参数，即可生成中文文本分类模型，若否，则需要重新获取带标签的训练文本，重新进行训练。

本发明实施例通过利用word2vec模型，将训练文本转换为词向量集合，使得文本能够表示为类似图像和语音的连续、稠密的数据，然后利用卷积神经网络，以类似于处理图像的形式，通过卷积神经网络的卷积层、池化层和非线性转换成来训练网络参数，使得能够得到正确的分类，解决了传统的这些文本表示方法表示的特征项之间相互独立，而且数据稀疏，导致了计算量大的技术问题。进一步地，本发明实施例通过提取训练文本中的特征词，并根据特征词对应的特征权重来提高特征词对应的词向量在词向量集合中的权重值，提高对文本分类的准确度，缩小模型训练的时间。

以上是对本发明提供的一种中文文本分类模型的训练方法的另一个实施例进行的说明，以下将对本发明提供的一种中文文本分类模型的训练装置的一个实施例进行说明。

请参阅图3，本发明提供了一种中文文本分类模型的训练装置的一个实施例，包括：

获取单元301，用于获取带标签的训练文本；

预处理单元302，用于对训练文本进行预处理后，得到分词后的训练文本；

预处理单元302具体包括：

特征提取子单元3021，用于通过词频-逆文档频率方法提取训练文本中的特征词，并去掉训练文本中无意义词；

特征权重计算子单元3022，用于计算特征词对应的特征权重；

分词子单元3023，用于通过预置基于知识的分词模型对训练文本进行分词，得到分词后的训练文本；

向量转化单元303，用于将分词后的训练文本输入至word2vec模型中，将分词后的训练文本转换为词向量集合；

权重提高单元304，用于根据特征词对应的特征权重，提高特征词对应的词向量占词向量集合的权重值；

训练单元305，用于将词向量集合以及训练文本的标签输入至卷积神经网络中进行训练，并通过预置代价函数计算卷积神经网络的loss值；

判断单元306，用于判断loss值是否低于预置阈值，若是，则确定卷积神经网络收敛，保存卷积神经网络的参数，并生成训练后的中文文本分类模型，若否，则跳转至获取单元301。

以上是对本发明提供的一种中文文本分类模型的训练装置的一个实施例进行的说明，以下将对本发明提供的一种中文文本的分类方法的一个实施例进行说明。

本发明提供了一种中文文本的分类方法，基于如实施例一与实施例二中任意一项的中文文本分类模型的训练方法得到的中文文本分类模型，包括：

获取待分类的文本；

将待分类的文本输入至如实施例一与实施例二中任意一项的中文文本分类模型的训练方法得到的中文文本分类模型中，得到待分类的文本的分类结果。

以上是对本发明提供的一种中文文本的分类方法的一个实施例进行的说明，以下将对本发明提供的一种计算机可读存储介质的一个实施例进行说明。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如实施例一与实施例二中任一项的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文文本分类模型的训练方法，其特征在于，包括：

S1、获取带标签的训练文本；

2.根据权利要求1所述的中文文本分类模型的训练方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求2所述的中文文本分类模型的训练方法，其特征在于，所述步骤S2还包括：

计算所述特征词对应的特征权重。

4.根据权利要求3所述的中文文本分类模型的训练方法，其特征在于，所述步骤S3之后，所述步骤S4之前还包括：

5.一种中文文本分类模型的训练装置，其特征在于，包括：

获取单元，用于获取带标签的训练文本；

6.根据权利要求5所述的中文文本分类模型的训练装置，其特征在于，所述预处理单元具体包括：

7.根据权利要求6所述的中文文本分类模型的训练装置，其特征在于，所述预处理单元还包括：

8.根据权利要求7所述的中文文本分类模型的训练装置，其特征在于，还包括：

9.一种中文文本的分类方法，基于如权利要求1至4中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型，其特征在于，包括：

获取待分类的文本；

将所述待分类的文本输入至如权利要求1至4中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型中，得到所述待分类的文本的分类结果。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至4中任一项所述的方法。