CN109933670A

CN109933670A - 一种基于组合矩阵计算语义距离的文本分类方法

Info

Publication number: CN109933670A
Application number: CN201910209354.XA
Authority: CN
Inventors: 裘嵘; 杨俊杰; 张祖平; 罗律
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-25
Anticipated expiration: 2039-03-19
Also published as: CN109933670B

Abstract

本发明公开了一种基于组合矩阵计算语义距离的文本分类方法，包括步骤：S1、对中文文本进行处理，生成基于词袋模型的向量空间模型；S2、对于全部文本集合，使用生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量，并结合训练出来的词向量和文本向量，构成一个文本矩阵；S3、对文本矩阵进行交叉运算，得到文本之间的语义距离。本发明提出的文本向量的表示和语义距离的计算方法，既克服了传统的词袋模型的缺陷，也改善了TF‑IDF算法的不足，从而可以训练出更好的分类模型来提升文本分类的准确性。

Description

一种基于组合矩阵计算语义距离的文本分类方法

技术领域

本发明属于涉自然语言处理领域，特别是涉及一种基于组合矩阵计算语义距离的文本分类方法。

背景技术

随着互联网的逐步普及与通讯技术的迅速发展，如何对以指数级别增长的网络数据进行高效的组织管理已经成为棘手和迫切的研究课题。而在这些浩如烟海的文献、资料和数据中，很大以部分的内容都是以文本为表现形式，对这些文本进行自动分类的过程被称作文本分类，文本分类是模式识别与自然语言处理相结合的一种技术，旨在根据文本内容的属性或特征，将目标文本关联到一个或多个类别中。传统的文本分类技术以知识工程的方法为主，相关领域的专家根据目标文本的分类经验，人工地提取出一些分类的逻辑规则，以此作为文本分类的依据。而近年来，随着机器学习与深度学习相关技术与计算机运算速度的提升，基于统计机器学习的文本分类方法开始得到青睐并在分类结果的准确率与稳定性上取得显著的优势。

目前业界基于统计机器学习的文本分类的技术过程，通常有几个重要步骤：一、对自然语言文本进行数据化建模，即将真实文本表示为计算机能够高效处理的数据形式；二、根据上述建模方法，将所有目标文档都转换为特定的数据表达形式；三、规定不同文档的数据表达之间的运算关系；四、利用文本文档的数据表达形式和不同数据间的运算关系，设计文本分类的机器学习模型并进行训练；五、对给定的未知类别文档，将其转换为特定数据表达形式，并投入已经训练好的机器学习模型，得到该文档的类别预测结果。

在自然语言处理中，文本的数据化建模一般都是使用向量空间模型(VectorSpaceModel，VSM)，即将一个文本文档表示为n维向量空间的中的一个向量，向量中每个不同的位置代表一个特征项，不同位置的数值大小表示该位置在整个向量的权重，既重要性大小，由特征项的总和构成对文本的全部表达。在汉语里，词语是汉语语言中表达语义的最小单元，因此在中文自然语言处理过程中，通常都是选取文本中的词语作为文本向量的特征项，每个词语在特定文本向量中所在位置的权重大小表示该词语在文档中的重要性。

实际应用中一般采用词袋模型(BagofWord，bow)作为向量空间模型的初始表达，词袋模型将所有文本中的全部词语以一种位置固定、顺序随机的方式摆放，因为每个不同的词语都作为一个独一无二的特征项，所以这些固定摆放的词语全集构成了一个用于表达任意文本的向量空间。对于一篇具体的文本，它的文本向量里每个特征项的权重值为该特征项对应的词语在文本中出现的频率次数，即用词语在特定文本中出现的次数衡量其在该文本中的重要性。除了文本可以用向量空间模型表示，词语本身也可以用n维向量空间中的一个向量表示，对于词语全集中的一个具体的词，它的词向量用独热编码(One-hot)表示，该词语在向量空间中所在的固定位置对应的值为1，而表示其它词语的其余位置为0。所以，对于一篇具体的文本，由词袋模型生成的文本向量也可以看作构成该文本的所有词语的词向量的累加。

在词袋模型中，由于文本向量各位置的值仅仅由各个位置对应词语在文中的频次所决定，因此具有很大的局限性。除了用词频表示文本向量权重，工程应用上最常用于计算文本向量权重的方法是词频逆文档频率(TermFrequency-InverseDocumentFrequency，TF-IDF)算法，该算法思想为，特征项的权重大小与该特征项在文档中出现的频率成正比，与在整个语料集中包含该特征项的文档数量成反比，对于一篇具体的文档来说，某个词语在该文档中出现的次数越多，其重要性越高，但是某个词语如果在其他文档中出现的次数越多越说明其代表的一般性，该词语的权重也则越低。

对于任意两篇文档D_x和D_y之间的相似性度量,可以借助n维空间中的两个文档向量D_x和D_y的某种距离关系来计算，常用的方法是使用向量之间的内积来计算，向量的内积可以用于表征两个向量之间的夹角大小，或称余弦相似度。

然而，在现实生活中，中文常用词语有数万个，一篇文档中所包含的词却一般只有成百上千，由于产生的向量空间的维度也是几万维，向量中的非零项只有几千个，这样得到的文档向量和词向量都将是高维的稀疏向量，两个高维度的稀疏向量的内积得到的相似性结果不但不够准确，而且建模与计算过程完全没有考虑文本向量中的特征项与特征项之间，即词语与词语之间的语义距离。

近几年来，深度学习理论的发展和技术的更迭对自然语言处理起着深刻的影响，其中比较重要的是一种称为词嵌入(WordEmbedding)的分布式表示(DistributedRepresentation)技术，分布式表示基于分布假设理论，利用共生矩阵来获取词的语义表达，而词嵌入则实现了将词语映射到一个新的空间，并以多维的连续实数向量表示。词嵌入方法中，最有名的是谷歌提出的word2vec模型，其通过人工神经网络算法来训练语言模型，并在训练过程中得到词语所对应的低维向量。这种使用低维空间表示词向量的方法，不但解决了维数灾难问题，还挖掘出词语之间的关联属性，从而提高了词向量在语义表达上的准确度。

发明内容

本发明提出的表示文本的方法与计算文本间语义距离的方法不同于上述传统策略。

在文本的表示建模方法上，假定用于表达所有文本的词语全集个数为n个，则文本语言模型的向量空间维度即为n维，然后在规定需要训练的词向量维度为m维。对于一个具体的文本文档，首先采用TF-IDF算法计算文档中各个词的权重值，得到文本n维的权重向量，但并非直接使用此权重向量来表达文本，而是对于将权重向量中每个特征项的值，即词语的权重，乘以该特征项所在位置的词语的词向量，实现将每个词的m维词向量嵌入到各自词语的权重中，将数乘得到的一个新的m维加权词向量取代原来每个词对应的具***置的权重值，最终得到关于文本的n×m大小的矩阵表达，文本矩阵的每一行都是一个行向量，行向量的值等于词向量与该词语的权重的数乘。该行向量不仅携带某个词在文本中的权重大小，也携带了该个词的语法和语义特征，通过这种手段便将文本的向量空间表示从传统的向量扩充为矩阵，使其语义表达能力与携带的信息量更加丰富。

区别于传统的文本向量通过计算余弦相似度的方式度量文本语义距离的方式，本发明提出文本语义距离计算方法基于上述文本表示的建模方法。对于两个不同文本，其数据化表达形式为n×m的矩阵，文档矩阵1的每一个行向量不是只与文档矩阵2对应位置的行向量计算相似度，而是与文档矩阵2中的每一个行向量计算相似度，并将计算结果累加作为两个文档的语义相似性度量结果，该方法思想凭借词向量具有词间语义距离和语法关系的特性，能够更精准地计算出不同文本的不同的特征项之间语义距离和共现概率。

在机器学习分类模型的方法选取上，由于本发明所设计的领域是自然语言处理中的文本分类，而文本根据不同的划分标准可以分为多种类别，对此二元分类器的应用有限，因此任务中常采用多类别分类器。在多类别分类器中基于距离计算的分类算法要比支持向量机、多元逻辑回归等常用算法更适用与当前应用场景，因为分类任务最重要依据是基于文本间语义距离，而且前者有着更低的算法复杂度和运算量，能够加速模型的训练和预测。

本发明采用KNN分类算法，并结合K-Means聚类算法中迭代类别质心的思想。KNN算法的思路是，计算一个未知样本在特征空间中与其最临近K个(即在语言模型中语言距离最近)的已知样本，如果这K个样本中大多数属于某一个特定类别，则预测该未知样本同样属于这个特定类别。KNN算法需要计算未知样本与特征空间中所有样本的距离，如果特征样本为训练集的全集，那么一个分类任务的计算量将非常大，因此本发明采用“选代表”的方式来设置特征空间，即根据不同文本类别中的文本数量在全部文本中的比例大小，从每个类别中按照加权数量选取一些具有“代表性”的样本作为该类别在特征空间中部分样本。而对于“代表性”特征的选取，则吸取K-Means聚类方法中迭代计算质心(聚类中心)的方法，对于训练样本中的一个类别，每次从类别中随机选取若干个样本，并计算这些样本的质心，重复多次，从每个类别中选取随机样本计算的质心的个数取决于该类别中样本的数量，最终将所有类别计算出来的质心的集合作为分类模型的样本空间。

对于一个未知类别的文本文档，首先对使用模型其进行转换，生成上述方法中的文本矩阵，在将文本矩阵置于分类模型中，得到该未知文本的预测的类别。

本发明与现有技术相比，有效效果如下：

1、克服了传统的词袋模型的缺陷，例如对于具体的一篇文本来说，词袋模型中的词语是无序的，因此不能考虑文档中词语之间的上下文关系；

2、改善了TF-IDF算法仅根据计算出的词语权重并根据权重向量间的余弦相似度计算衡量文档间语义距离的不足；

3、计算文本间语义距离的思想虽然计算复杂度更高，但是可以更加精准地计算出文本间相似度度量结果，不但可以使得越相似的文本在向量空间中距离越近，而且还能让越不相似的文本在向量空间中距离越远，即使得不同类别的文本有着更清晰的分类边界，这种效果带来的提升还将体现在后续的机器学习分类模型的训练过程中，分类模型的训练数据集有更清晰的类别区分，从而可以训练出更好的分类模型来提升文本分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明对文本进行分类的技术流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明对文本进行分类的技术流程图，具体流程包括：对中文文本进行分词处理，过滤停用词等；统计词频，生成文本的词袋模型表示，即初始文本向量；使用TF-IDF算法更新词袋模型文本向量中各特征性的权重值；对于全部文本集合，使用上述步骤中生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量；结合训练出来的词向量和文本向量，构成一个文本矩阵；对文本矩阵进行交叉运算，得到文本之间的语义距离；训练出一个基于距离计算的文本分类器；将未知类别的文本转换为文本矩阵，将文本矩阵输入到分类模型，得到文本的所属类别的预测结果。具体实施如下：

对于文本分类任务，假定已有一组已经标注类别的文本数据集D_X＝{D_x1,D_x2,…,D_xk}，及其对应的类别标签L_X＝{L_x1,L_x2,…,L_xk}。

其中D_xi代表文档数据集中的一篇具体文本文档，其所属的类别为L_xi。

1.文档的空间模型表示

由于在中文文本的向量空间模型中，特征项最小单元是汉语词语，所以对于一篇语言连续候选文档D_xi，首先需要用汉语分词算法对连续文本进行自动分词处理，再过滤掉助词、语气词等不表示实意的词，最终将文本分割成一串连续的词语组合。

然后统计得到的连续的词语组合，根据统计结果生成文本的词袋模型[(t₁,f₁),(t₂,f₂),…,(t_n,f_n)]，词袋模型的每一项都是一个二元组，二元组中第一位元素t_i表示词语本身，第二位元素f_i是它在文本中的频率。值得注意的是，在对于所有文本文档的处理过程中，词袋模型的词语位置顺序(t₁,t₂,…,t_n)是固定不变的。

对每一个文本的词袋模型，词语t_i的权重为该词在文本中的出现频率f_i，为了更准确地评估某个特定词语t_i在具体文档文档D_xi中的重要性，需该根据进行TF-IDF计算公式更新每个词语的权重值w_i：

K(t_i,D_xi)即为计算后的新的权重值，其中tf(t_i,D_xi)为词语t_i在文档D_xi中的出现频次，idf(t_i)为词语t_i在全部文档集中出现的频次的倒数。

根据上述流程便可得到任意一篇文本文档D_i的向量空间模型表示

D_xi＝[(t₁,w₁),(t₂,w₂),…,(t_n,w_n)

由于词袋模型的词语位置顺序固定不变，因此每个词语都在模型向量中有一个固定的索引位置，因此可以将文本向量表示为：

D_xi＝[w₁,w₂,…,w_n]

至此为止，我们已经得到了文本的向量表达，自然语言文本转换成了可以在可以进行数学建模和数学计算的文本向量。

2.词向量的训练

词向量的训练的训练可以用谷歌的TensorFlow深度学习框架自行搭建循环神经网络进行训练，也可以利用其开源框架word2vec，因为word2vec算法的背后是一个浅层的人工神经网络，它可以更加便捷地训练得到需要的词向量模型，能够在百万数量级的词典和上亿的数据集上进行高效低训练，而且对后期投入新的语料也可以以前的模型上进行增量训练，优化模型的质量。

上述步骤中所生产的词袋模型可以直接作为词向量训练时所用的语料，这样既可以使训练出来的词向量所携带的语义信息更贴合实际任务，也能够保证文档集的所用词语都能够被词向量模型表示。

对于训练完的词向量模型，词语t_i的词向量表示形如：

其中词向量的向量维度m为训练时所预设的值，通常选取100-1000。

3.文档的矩阵模型表示

基于上述文档的向量模型和词向量模型，文档可以用基于词向量的TF-IDF加权组合表达，对于任意一篇文本文档D_xi＝[w₁,w₂,…,w_n]，将向量中的每个特征项t_i的权重w_i和该特征项的词向量数乘，得到一个新的向量用这个新的向量替换原来的权重值标量，便将一个文本向量扩展为n×m大小的文本矩阵：

因此，对于一个具体的文本文档，其文本矩阵的表现形式不但能够表达每个词在文本中的重要性程度，还将词语语法(即上下文关系)和其语义信息也包含进来，将文本的所携带信息的体量和质量提升到一个新的维度和层次。

4.文本文档的语义距离的计算

上述文本矩阵也可以表达为如下向量的向量形式：

其中表示文档D_xi中第j个位置所在的词语t_j的权重w_j与该词语词向量的数乘得到的向量。

对于两篇候选文档D_x和D_y:

其语义距离计算可以用如下公式计算：

其中sun()用于累加矩阵的所有元素，将D_x扩充到n维是为了计算D_x中任意第j个位置的向量与D_y中所有位置向量的点积和因此最终计算得到的两个文本的语义距离公式如下：

由计算过程也可以得知，该计算方法不但考虑文本中各词语的权重，还考量了各不同位置的词语的词向量运算所反映出的两篇文档中所有特征性之间的共现概率、语义相关性及上下文关系，打破了传统统计计算方法的固有限制，实现了从统计到语法的文档语义距离综合评估，能够更加准确可靠地计算文档间相似性结果。

5.分类器的训练

对于所有的有标记的训练文本集D_X＝{D_x1,D_x2,…,D_xk}，根据数据集的标签数据L_X＝{L_x1,L_x2,…,L_xk}统计各类别中文本数据数据个数，采用分层抽样的办法，根据不同文本类别中的文本数量在全部文本中的比例大小，从每个类别中按照加权数量选取一些具有“代表性”的样本作为该类别在特征空间中部分样本。对于训练样本中的一个类别，每次从类别中随机选取若干个样本，并计算这些样本的质心，重复多次，从每个类别中选取随机样本计算的质心的个数取决于该类别中样本的数量，最终将所有类别计算出来的质心的集合作为分类模型的样本空间。

6.预测未知类别的文本

对于一个未知样本，首先对先用上述步骤1、2、3，将文本文档转换为文档矩阵，生成上述方法中的文本矩阵，在将文本矩阵置于分类模型中，根据步骤4的文本间语义距离计算方法计算目标文档与特征空间中所有类别质心的语义距离，在特征空间中与其最临近K个(即在语言模型中语言距离最近)的已知样本，如果这K个样本中大多数属于某一个特定类别，则预测该未知样本同样属于这个特定类别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于组合矩阵计算语义距离的文本分类方法，其特征在于，包括步骤：

S1、对中文文本进行处理，生成基于词袋模型的向量空间模型；

S2、对于全部文本集合，使用生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量，并结合训练出来的词向量和文本向量，构成一个文本矩阵；

S3、对文本矩阵进行交叉运算，得到文本之间的语义距离。

2.根据权利要求1所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，所述步骤S1具体包括:

S1.1、用汉语分词算法对所述中文文本进行自动分词处理，同时过滤无实意词，将文本分割成一串连续的词语组合；

S1.2、统计词频，生成文本的词袋模型表示，即初始文本向量；

S1.3、使用TF-IDF算法更新所述词袋模型文本向量中各特征性的权重值，得到文本的向量表达。

3.根据权利要求2所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，根据统计结果生成文本的词袋模型[(t₁,f₁),(t₂,f₂),…,(t_n,f_n)]，所述词袋模型的每一项都是一个二元组，二元组中第一位元素t_i表示词语本身，第二位元素f_i是它在文本中的频率，并且在对于所有文本文档的处理过程中，词袋模型的词语位置顺序(t₁,t₂,…,t_n)是固定不变的；

为了更准确地评估某个特定词语t_i在具体文档D_xi中的重要性，需该根据进行TF-IDF计算公式更新每个词语的权重值w_i：

K(t_i,D_xi)即为计算后的新的权重值，其中tf(t_i,D_xi)为词语t_i在文档D_xi中的出现频次，idf(t_i)为词语t_i在全部文档集中出现的频次的倒数；

因此，可得到任意一篇文本文档Di的向量空间模型表示

D_xi＝[(t₁,w₁),(t₂,w₂),…,(t_n,w_n)

简化后可得

D_xi＝[w₁,w₂,…,w_n]。

4.根据权利要求3所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，所述步骤S2具体包括:对于任意一篇文本文档D_xi＝[w₁,w₂,…,w_n]，将向量中的每个特征项t_i的权重w_i和该特征项的词向量数乘，得到一个新的向量用这个新的向量替换原来的权重值标量，便将一个文本向量扩展为n×m大小的文本矩阵

简化后可得

其中t_j∈D_xi，表示文档D_xi中第j个位置所在的词语t_j的权重w_j与该词语词向量的数乘得到的向量。

5.根据权利要求4所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，所述步骤S3中，对于两篇候选文档D_x和D_y:

其语义距离计算可以用如下公式计算：

6.一种文本分类方法，其特征在于，包括步骤：

S3、对文本矩阵进行交叉运算，得到文本之间的语义距离；

S4、训练出一个基于距离计算的文本分类器；

S5、将未知类别的文本转换为文本矩阵，将文本矩阵输入到分类模型，得到文本的所属类别的预测结果。

7.根据权利要求6所述的文本分类方法，其特征在于，所述步骤S1具体包括:

8.根据权利要求6所述的文本分类方法，其特征在于，所述步骤S2具体包括:

对于任意一篇文本文档D_xi＝[w₁,w₂,…,w_n]，将向量中的每个特征项t_i的权重w_i和该特征项的词向量数乘，得到一个新的向量用这个新的向量替换原来的权重值标量，便将一个文本向量扩展为n×m大小的文本矩阵

简化后可得

9.根据权利要求6所述的文本分类方法，其特征在于，所述步骤S3中，对于两篇候选文档D_x和D_y:

其语义距离计算可以用如下公式计算：