CN107609121A

CN107609121A - 基于LDA和word2vec算法的新闻文本分类方法

Info

Publication number: CN107609121A
Application number: CN201710828232.XA
Authority: CN
Inventors: 赵阔; 王峰; 谢珍真; 孙小雅
Original assignee: Shenzhen City Mateng Technology Co Ltd
Current assignee: Jinan University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-19
Anticipated expiration: 2037-09-14
Also published as: CN107609121B

Abstract

本发明公开了一种基于LDA和word2vec算法的新闻文本分类方法，包括：通过word2vec获得语料库词向量；将训练样本集中的文本分词、去除停用词；通过LDA模型获得训练样本集的类别核心词；构造训练样本集的类别中心向量；对待分类文本进行预处理后，提取文本特征词，获得待分类文本的文本向量；对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算，对待分类文本进行分类；用KNN算法对待分类文本进行二次分类。本发明的有益效果：将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类，大大降低了计算量，当初次分类不足以明确划分类别时，用KNN算法进行二次分类，在新样本集中等量抽取类别样本，消除样本分布不均对分类准确率造成的影响。

Description

基于LDA和word2vec算法的新闻文本分类方法

技术领域

本发明涉及文件分类技术领域，具体而言，涉及一种基于LDA和word2vec算法的新闻文本分类方法。

背景技术

目前使用最广泛的文本表示方法都基于词袋法，词袋法将文档看成是词的集合，每个词的出现是相互独立的，不考虑词的顺序、语法和语义等信息。它将训练文本集中的特征项组织成向量空间模型，每篇文档表示成与该模型相同维度的向量，向量中每个位置的值即是该位置所代表的词在训练样本集中的权重。该方法存在的主要问题有：

(1)向量维度过高：

向量的维数与整个训练样本集中保留的特征项数目一样，可达到上万甚至几十万，造成“维度灾难”现象，并且这些文本向量会占用很大的存储空间；

(2)数据稀疏：

一篇文档向量仅在出现该文档中特征项的位置上有权重值，其余大多数位置上权重值均为0，降低文本分类任务中计算的效率，同时也浪费存储空间；

(3)无法较好地表示文档的语义信息：

词袋法假设文档中词语之间完全独立，忽略了词语间的语义关系，对于两个语义相近但不存在相同特征词的文档，采用词袋法表示的文本向量所计算的文本相似度为0。

KNN算法原理简单，易于实现，具有高稳定性和高准确性，是目前应用于文本分类的经典算法之一，该算法的不足主要有以下两点：

(1)当训练样本集较大时，KNN算法效率低下：

普通的KNN算法需要将待分类文本的特征向量与训练集中全部样本的特征向量进行相似度计算，选出K个最近邻的训练样本，将训练样本所属类别的数量进行统计，最后将待分类文本划分到数量最大的类别中，其中，将待分类文本的特征向量与整个训练样本集中文本的特征向量进行计算是KNN算法效率低下的关键因素；

(2)各属性的权重相同，影响分类结果的准确率：

当训练样本集中各类别的样本分布不均衡，如某一类的样本容量很大，而其他类样本容量很小时，有可能导致当输入待分类文本时，该文本的K个最近邻样本中大容量类别的样本占多数，由于KNN算法最终只考虑“最近的”邻居样本，如果某一类的样本数量较大，待分类文本可能本身并不接近于这类样本，却会被误分到该类别下，影响分类的准确率。

发明内容

为解决上述问题，本发明的目的在于提供一种基于LDA和word2vec算法的新闻文本分类方法，将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类，大大降低了计算量，当初次分类不足以明确划分类别时，用KNN算法进行二次分类，在裁剪后的新样本集中等量抽取类别样本，消除了样本分布不均对分类准确率造成的影响。

本发明提供了一种基于LDA和word2vec算法的新闻文本分类方法，包括：

步骤1，通过word2vec工具获得语料库的词向量：

将大规模的语料库进行分词处理，将分词后的文本输入word2vec工具，训练得到语料库中各个词的词向量；

步骤2，对训练样本集进行文本预处理：

将训练样本集中的文本进行分词、去除停用词；

步骤3，通过LDA主题模型，获得训练样本集的类别核心词：

在训练样本集的各个类别上分别训练LDA主题模型，训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布，根据LDA主题模型输出结果，将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词；

步骤4，通过类别核心词的词向量a_i，构造训练样本集的类别中心向量c_i；

步骤5，对待分类文本进行预处理后，提取文本特征词，获得待分类文本的文本向量d_j；

步骤6，对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算，并对相似度值降序排序，根据排序对待分类文本进行初次分类，当降序排序中前两个似度值之间的差值小于阈值ε时，进行步骤7；

步骤7，采用KNN算法对待分类文本进行二次分类。

作为本发明进一步的改进，步骤4具体包括：

步骤401，从步骤1的所有词向量中选出各个类别的核心词的词向量a_i；

步骤402，将LDA主题模型得到的主题-词的概率值β_i作为该词对于该类别的权重，将同一类别下各个加权后的词向量相加求平均值作为该类的类别中心向量c_i，表示为公式(1)；

作为本发明进一步的改进，步骤5具体包括：

步骤501，将待分类文本进行预处理，包括分词、去除停用词；

步骤502，采用TF-IDF算法提取文本特征词：

根据公式(2)计算TF-IDF提取的文本特征词，将TF-IDF值大于阈值θ的词作为待分类文本的特征词w；

式中，m为待分类文本中特征词w出现的次数，M为待分类文本的词语总数，N为训练样本集中总的文本数，n为训练样本集中包含特征词w的文本总数；

步骤503，将待分类文本中特征词输入word2vec工具，得到待分类文本中特征词的词向量，将所有特征词的词向量相加求平均值得到待分类文本的文本向量d_j。

作为本发明进一步的改进，步骤6具体包括：

步骤601，将待分类文本中的文本向量d_j与各个类别的类别中心向量c_i进行相似度计算，计算公式为式(3)；

式中，sim(c_i,d_j)为相似度值，T为待分类文本的文本向量和各个类别的类别中心向量的维度，w_ik为类别中心向量中每一维上的数值，w_jk为待分类文本的文本向量中每一维上的数值；

步骤602，将步骤601中计算出的相似度值进行降序排序；

步骤603，计算步骤602的降序排序中第一相似度值和第二相似度值之间的差值：

如果该差值大于ε，则将待分类文本分类到第一相似度值所对应的类别中；

如果该差值小于ε，则进行步骤7的二次分类。

作为本发明进一步的改进，步骤7具体包括：

步骤701，将步骤6中相似度值降序排序中前x个相邻数值之差小于ε所对应类别中的文本在训练文本集中提取出来；

步骤702，在各个类别中随机抽取z篇文本，组成新训练样本集；

步骤703，新训练样本集中的每篇文本重复进行步骤5，获得每篇文本的文本向量；

步骤704，使用KNN算法，将待分类文本的文本向量d_j与新训练样本集中所有文本的文本向量d_i做相似度计算，计算公式为式(4)，选出最相近的K篇文本；

式中，sim(d_j,d_i)为相似度值，T为待分类文本的文本向量和新训练样本集中文本向量的维度，w′_ik为新训练样本集的文本向量中每一维上的数值，w_jk为待分类文本的文本向量中每一维上的数值；

步骤705，对选出的K篇文本，依次计算每篇文本所属类别的权重，计算公式为式(5)；

式中，W(d_j,C_i)为待分类文本属于类别C_i的权重值，sim(d_j,d_i)为步骤704中计算的相似度值，y(d_i,C_i)为类别属性函数，在新训练样本集中已知各文本所属类别，对于选出的K篇文本，如果其属于类别C_i，则类别属性函数值为1，否则类别属性函数值为0；

步骤706，将待分类文本分类到步骤705中计算的权重值为最大值所对应的类别中。

本发明的有益效果为：

1、本发明采用word2vec工具训练得到的词向量表示文本信息，word2vec模型利用文本中词的上下文信息将词语转化为一个低维实数向量，通过向量间的距离得到词语语义上的相似度，在文本向量的构造上，采用关键词词向量相加求均值的方式代替向量拼接的方法，有效解决了向量高纬度的问题，同时，也去除了对于关键词数量选取的限制；

2、传统的对训练样本集提取特征的方法大多使用TFIDF算法，再构造向量空间模型，本发明提出了使用LDA模型与word2vec算法相结合的方法构造类别特征，并将主题-词的概率值作为特征词的权重，此方法加入了同一类别下不同词语对于类别的贡献程度以及同一词语对于不同类别的贡献程度，由于word2vec蕴含了词语间的语义关系，本发明将词向量相加求均值来表示文本，在保留文本间相似度信息的同时，控制了文本向量的维度不会过大，因此，将待分类文本的特征向量与类中心向量进行相似度计算时，大大降低了计算量；

3、在对文本进行分类的过程中，传统方法大多只考虑文本间的相似度，本发明提出了直接抽取类别特征，在文本和类别之间建立联系，当初次分类不足以明确划分类别时，再使用KNN算法进行二次分类，而此时对于与待分类文本距离较远的类别，则不需考虑，在裁剪后的新样本集中等量抽取类别样本，消除了样本分布不均对分类准确率造成的影响。

附图说明

图1为本发明实施例所述的一种基于LDA和word2vec算法的新闻文本分类方法的流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

如图1所示，本发明实施例所述的一种基于LDA和word2vec算法的新闻文本分类方法，包括：

步骤1，通过word2vec工具获得语料库的词向量：

将大规模的语料库进行分词处理，将分词后的文本输入word2vec工具，训练得到语料库中各个词的词向量。

步骤2，对训练样本集进行文本预处理：

将训练样本集中的文本进行分词、去除停用词。

步骤3，通过LDA主题模型，获得训练样本集的类别核心词：

在训练样本集的各个类别上分别训练LDA主题模型，训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布，根据LDA主题模型输出结果，将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词。

步骤4，通过类别核心词的词向量a_i，构造训练样本集的类别中心向量c_i：

步骤5，对待分类文本进行预处理后，提取文本特征词，获得待分类文本的文本向量d_j：

步骤502，采用TF-IDF算法提取文本特征词：

式中，m为待分类文本中特征词w出现的次数，M为待分类文本的词语总数，N为总的文本数，n为包含特征词w的文本总数；

步骤6，对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算，并对相似度值降序排序，根据排序中对待分类文本进行分类：

步骤602，将步骤601中计算出的相似度值进行降序排序；

如果该差值小于ε，则进行步骤7的二次分类。

步骤7，采用KNN算法对待分类文本进行二次分类：

本发明提出了直接抽取类别特征，在文本和类别之间建立联系，即步骤6，当仅依据类别向量无法明确划分时，再使用KNN算法进一步分类，而此时对于与待分类文本距离较远的类别，则不需考虑，即步骤7，实现了对样本集的裁剪，降低了计算量。同时，传统的对训练样本集提取特征的方法大多使用tfidf算法，再构造向量空间模型，而本发明提出了使用LDA模型与word2vec算法相结合的方法构造类别特征，并将主题-词的概率值作为特征词的权重，即步骤4，此方法加入了同一类别下不同词语对于类别的贡献程度以及同一词语对于不同类别的贡献程度，将词向量相加求均值来表示文本，在保留文本间相似度信息的同时，控制了文本向量的维度不会过大。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LDA和word2vec算法的新闻文本分类方法，其特征在于，包括：

步骤1，通过word2vec工具获得语料库的词向量：

步骤2，对训练样本集进行文本预处理：

将训练样本集中的文本进行分词、去除停用词；

步骤3，通过LDA主题模型，获得训练样本集的类别核心词：

步骤7，采用KNN算法对待分类文本进行二次分类。

2.根据权利要求1所述的新闻文本分类方法，其特征在于，步骤4具体包括：

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

3.根据权利要求1所述的新闻文本分类方法，其特征在于，步骤5具体包括：

步骤502，采用TF-IDF算法提取文本特征词：

<mrow> <mi>T</mi> <mi>F</mi> <mo>-</mo> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mi>m</mi> <mi>M</mi> </mfrac> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <mi>n</mi> </mfrac> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的新闻文本分类方法，其特征在于，步骤6具体包括：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

步骤602，将步骤601中计算出的相似度值进行降序排序；

如果该差值小于ε，则进行步骤7的二次分类。

5.根据权利要求1所述的新闻文本分类方法，其特征在于，步骤7具体包括：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>&times;</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mo>&prime;</mo> <mn>2</mn> </mrow> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式中，sim(d_j,d_i)为相似度值，T为待分类文本的文本向量和新训练样本集中文本向量的维度，w_i′_k为新训练样本集的文本向量中每一维上的数值，w_jk为待分类文本的文本向量中每一维上的数值；

<mrow> <mi>W</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>d</mi> <mi>y</mi> </msub> <mo>&Element;</mo> <mi>K</mi> <mi>N</mi> <mi>N</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>