CN107609121A - 基于LDA和word2vec算法的新闻文本分类方法 - Google Patents

基于LDA和word2vec算法的新闻文本分类方法 Download PDF

Info

Publication number
CN107609121A
CN107609121A CN201710828232.XA CN201710828232A CN107609121A CN 107609121 A CN107609121 A CN 107609121A CN 201710828232 A CN201710828232 A CN 201710828232A CN 107609121 A CN107609121 A CN 107609121A
Authority
CN
China
Prior art keywords
mrow
text
msub
vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710828232.XA
Other languages
English (en)
Other versions
CN107609121B (zh
Inventor
赵阔
王峰
谢珍真
孙小雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Shenzhen City Mateng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen City Mateng Technology Co Ltd filed Critical Shenzhen City Mateng Technology Co Ltd
Priority to CN201710828232.XA priority Critical patent/CN107609121B/zh
Publication of CN107609121A publication Critical patent/CN107609121A/zh
Application granted granted Critical
Publication of CN107609121B publication Critical patent/CN107609121B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LDA和word2vec算法的新闻文本分类方法,包括:通过word2vec获得语料库词向量;将训练样本集中的文本分词、去除停用词;通过LDA模型获得训练样本集的类别核心词;构造训练样本集的类别中心向量;对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量;对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,对待分类文本进行分类;用KNN算法对待分类文本进行二次分类。本发明的有益效果:将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类,大大降低了计算量,当初次分类不足以明确划分类别时,用KNN算法进行二次分类,在新样本集中等量抽取类别样本,消除样本分布不均对分类准确率造成的影响。

Description

基于LDA和word2vec算法的新闻文本分类方法
技术领域
本发明涉及文件分类技术领域,具体而言,涉及一种基于LDA和word2vec算法的新闻文本分类方法。
背景技术
目前使用最广泛的文本表示方法都基于词袋法,词袋法将文档看成是词的集合,每个词的出现是相互独立的,不考虑词的顺序、语法和语义等信息。它将训练文本集中的特征项组织成向量空间模型,每篇文档表示成与该模型相同维度的向量,向量中每个位置的值即是该位置所代表的词在训练样本集中的权重。该方法存在的主要问题有:
(1)向量维度过高:
向量的维数与整个训练样本集中保留的特征项数目一样,可达到上万甚至几十万,造成“维度灾难”现象,并且这些文本向量会占用很大的存储空间;
(2)数据稀疏:
一篇文档向量仅在出现该文档中特征项的位置上有权重值,其余大多数位置上权重值均为0,降低文本分类任务中计算的效率,同时也浪费存储空间;
(3)无法较好地表示文档的语义信息:
词袋法假设文档中词语之间完全独立,忽略了词语间的语义关系,对于两个语义相近但不存在相同特征词的文档,采用词袋法表示的文本向量所计算的文本相似度为0。
KNN算法原理简单,易于实现,具有高稳定性和高准确性,是目前应用于文本分类的经典算法之一,该算法的不足主要有以下两点:
(1)当训练样本集较大时,KNN算法效率低下:
普通的KNN算法需要将待分类文本的特征向量与训练集中全部样本的特征向量进行相似度计算,选出K个最近邻的训练样本,将训练样本所属类别的数量进行统计,最后将待分类文本划分到数量最大的类别中,其中,将待分类文本的特征向量与整个训练样本集中文本的特征向量进行计算是KNN算法效率低下的关键因素;
(2)各属性的权重相同,影响分类结果的准确率:
当训练样本集中各类别的样本分布不均衡,如某一类的样本容量很大,而其他类样本容量很小时,有可能导致当输入待分类文本时,该文本的K个最近邻样本中大容量类别的样本占多数,由于KNN算法最终只考虑“最近的”邻居样本,如果某一类的样本数量较大,待分类文本可能本身并不接近于这类样本,却会被误分到该类别下,影响分类的准确率。
发明内容
为解决上述问题,本发明的目的在于提供一种基于LDA和word2vec算法的新闻文本分类方法,将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类,大大降低了计算量,当初次分类不足以明确划分类别时,用KNN算法进行二次分类,在裁剪后的新样本集中等量抽取类别样本,消除了样本分布不均对分类准确率造成的影响。
本发明提供了一种基于LDA和word2vec算法的新闻文本分类方法,包括:
步骤1,通过word2vec工具获得语料库的词向量:
将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量;
步骤2,对训练样本集进行文本预处理:
将训练样本集中的文本进行分词、去除停用词;
步骤3,通过LDA主题模型,获得训练样本集的类别核心词:
在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词;
步骤4,通过类别核心词的词向量ai,构造训练样本集的类别中心向量ci
步骤5,对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量dj
步骤6,对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,并对相似度值降序排序,根据排序对待分类文本进行初次分类,当降序排序中前两个似度值之间的差值小于阈值ε时,进行步骤7;
步骤7,采用KNN算法对待分类文本进行二次分类。
作为本发明进一步的改进,步骤4具体包括:
步骤401,从步骤1的所有词向量中选出各个类别的核心词的词向量ai
步骤402,将LDA主题模型得到的主题-词的概率值βi作为该词对于该类别的权重,将同一类别下各个加权后的词向量相加求平均值作为该类的类别中心向量ci,表示为公式(1);
作为本发明进一步的改进,步骤5具体包括:
步骤501,将待分类文本进行预处理,包括分词、去除停用词;
步骤502,采用TF-IDF算法提取文本特征词:
根据公式(2)计算TF-IDF提取的文本特征词,将TF-IDF值大于阈值θ的词作为待分类文本的特征词w;
式中,m为待分类文本中特征词w出现的次数,M为待分类文本的词语总数,N为训练样本集中总的文本数,n为训练样本集中包含特征词w的文本总数;
步骤503,将待分类文本中特征词输入word2vec工具,得到待分类文本中特征词的词向量,将所有特征词的词向量相加求平均值得到待分类文本的文本向量dj
作为本发明进一步的改进,步骤6具体包括:
步骤601,将待分类文本中的文本向量dj与各个类别的类别中心向量ci进行相似度计算,计算公式为式(3);
式中,sim(ci,dj)为相似度值,T为待分类文本的文本向量和各个类别的类别中心向量的维度,wik为类别中心向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤602,将步骤601中计算出的相似度值进行降序排序;
步骤603,计算步骤602的降序排序中第一相似度值和第二相似度值之间的差值:
如果该差值大于ε,则将待分类文本分类到第一相似度值所对应的类别中;
如果该差值小于ε,则进行步骤7的二次分类。
作为本发明进一步的改进,步骤7具体包括:
步骤701,将步骤6中相似度值降序排序中前x个相邻数值之差小于ε所对应类别中的文本在训练文本集中提取出来;
步骤702,在各个类别中随机抽取z篇文本,组成新训练样本集;
步骤703,新训练样本集中的每篇文本重复进行步骤5,获得每篇文本的文本向量;
步骤704,使用KNN算法,将待分类文本的文本向量dj与新训练样本集中所有文本的文本向量di做相似度计算,计算公式为式(4),选出最相近的K篇文本;
式中,sim(dj,di)为相似度值,T为待分类文本的文本向量和新训练样本集中文本向量的维度,w′ik为新训练样本集的文本向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤705,对选出的K篇文本,依次计算每篇文本所属类别的权重,计算公式为式(5);
式中,W(dj,Ci)为待分类文本属于类别Ci的权重值,sim(dj,di)为步骤704中计算的相似度值,y(di,Ci)为类别属性函数,在新训练样本集中已知各文本所属类别,对于选出的K篇文本,如果其属于类别Ci,则类别属性函数值为1,否则类别属性函数值为0;
步骤706,将待分类文本分类到步骤705中计算的权重值为最大值所对应的类别中。
本发明的有益效果为:
1、本发明采用word2vec工具训练得到的词向量表示文本信息,word2vec模型利用文本中词的上下文信息将词语转化为一个低维实数向量,通过向量间的距离得到词语语义上的相似度,在文本向量的构造上,采用关键词词向量相加求均值的方式代替向量拼接的方法,有效解决了向量高纬度的问题,同时,也去除了对于关键词数量选取的限制;
2、传统的对训练样本集提取特征的方法大多使用TFIDF算法,再构造向量空间模型,本发明提出了使用LDA模型与word2vec算法相结合的方法构造类别特征,并将主题-词的概率值作为特征词的权重,此方法加入了同一类别下不同词语对于类别的贡献程度以及同一词语对于不同类别的贡献程度,由于word2vec蕴含了词语间的语义关系,本发明将词向量相加求均值来表示文本,在保留文本间相似度信息的同时,控制了文本向量的维度不会过大,因此,将待分类文本的特征向量与类中心向量进行相似度计算时,大大降低了计算量;
3、在对文本进行分类的过程中,传统方法大多只考虑文本间的相似度,本发明提出了直接抽取类别特征,在文本和类别之间建立联系,当初次分类不足以明确划分类别时,再使用KNN算法进行二次分类,而此时对于与待分类文本距离较远的类别,则不需考虑,在裁剪后的新样本集中等量抽取类别样本,消除了样本分布不均对分类准确率造成的影响。
附图说明
图1为本发明实施例所述的一种基于LDA和word2vec算法的新闻文本分类方法的流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种基于LDA和word2vec算法的新闻文本分类方法,包括:
步骤1,通过word2vec工具获得语料库的词向量:
将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量。
步骤2,对训练样本集进行文本预处理:
将训练样本集中的文本进行分词、去除停用词。
步骤3,通过LDA主题模型,获得训练样本集的类别核心词:
在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词。
步骤4,通过类别核心词的词向量ai,构造训练样本集的类别中心向量ci
步骤401,从步骤1的所有词向量中选出各个类别的核心词的词向量ai
步骤402,将LDA主题模型得到的主题-词的概率值βi作为该词对于该类别的权重,将同一类别下各个加权后的词向量相加求平均值作为该类的类别中心向量ci,表示为公式(1);
步骤5,对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量dj
步骤501,将待分类文本进行预处理,包括分词、去除停用词;
步骤502,采用TF-IDF算法提取文本特征词:
根据公式(2)计算TF-IDF提取的文本特征词,将TF-IDF值大于阈值θ的词作为待分类文本的特征词w;
式中,m为待分类文本中特征词w出现的次数,M为待分类文本的词语总数,N为总的文本数,n为包含特征词w的文本总数;
步骤503,将待分类文本中特征词输入word2vec工具,得到待分类文本中特征词的词向量,将所有特征词的词向量相加求平均值得到待分类文本的文本向量dj
步骤6,对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,并对相似度值降序排序,根据排序中对待分类文本进行分类:
步骤601,将待分类文本中的文本向量dj与各个类别的类别中心向量ci进行相似度计算,计算公式为式(3);
式中,sim(ci,dj)为相似度值,T为待分类文本的文本向量和各个类别的类别中心向量的维度,wik为类别中心向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤602,将步骤601中计算出的相似度值进行降序排序;
步骤603,计算步骤602的降序排序中第一相似度值和第二相似度值之间的差值:
如果该差值大于ε,则将待分类文本分类到第一相似度值所对应的类别中;
如果该差值小于ε,则进行步骤7的二次分类。
步骤7,采用KNN算法对待分类文本进行二次分类:
步骤701,将步骤6中相似度值降序排序中前x个相邻数值之差小于ε所对应类别中的文本在训练文本集中提取出来;
步骤702,在各个类别中随机抽取z篇文本,组成新训练样本集;
步骤703,新训练样本集中的每篇文本重复进行步骤5,获得每篇文本的文本向量;
步骤704,使用KNN算法,将待分类文本的文本向量dj与新训练样本集中所有文本的文本向量di做相似度计算,计算公式为式(4),选出最相近的K篇文本;
式中,sim(dj,di)为相似度值,T为待分类文本的文本向量和新训练样本集中文本向量的维度,w′ik为新训练样本集的文本向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤705,对选出的K篇文本,依次计算每篇文本所属类别的权重,计算公式为式(5);
式中,W(dj,Ci)为待分类文本属于类别Ci的权重值,sim(dj,di)为步骤704中计算的相似度值,y(di,Ci)为类别属性函数,在新训练样本集中已知各文本所属类别,对于选出的K篇文本,如果其属于类别Ci,则类别属性函数值为1,否则类别属性函数值为0;
步骤706,将待分类文本分类到步骤705中计算的权重值为最大值所对应的类别中。
本发明提出了直接抽取类别特征,在文本和类别之间建立联系,即步骤6,当仅依据类别向量无法明确划分时,再使用KNN算法进一步分类,而此时对于与待分类文本距离较远的类别,则不需考虑,即步骤7,实现了对样本集的裁剪,降低了计算量。同时,传统的对训练样本集提取特征的方法大多使用tfidf算法,再构造向量空间模型,而本发明提出了使用LDA模型与word2vec算法相结合的方法构造类别特征,并将主题-词的概率值作为特征词的权重,即步骤4,此方法加入了同一类别下不同词语对于类别的贡献程度以及同一词语对于不同类别的贡献程度,将词向量相加求均值来表示文本,在保留文本间相似度信息的同时,控制了文本向量的维度不会过大。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于LDA和word2vec算法的新闻文本分类方法,其特征在于,包括:
步骤1,通过word2vec工具获得语料库的词向量:
将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量;
步骤2,对训练样本集进行文本预处理:
将训练样本集中的文本进行分词、去除停用词;
步骤3,通过LDA主题模型,获得训练样本集的类别核心词:
在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本-主题和主题-词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词;
步骤4,通过类别核心词的词向量ai,构造训练样本集的类别中心向量ci
步骤5,对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量dj
步骤6,对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,并对相似度值降序排序,根据排序对待分类文本进行初次分类,当降序排序中前两个似度值之间的差值小于阈值ε时,进行步骤7;
步骤7,采用KNN算法对待分类文本进行二次分类。
2.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤4具体包括:
步骤401,从步骤1的所有词向量中选出各个类别的核心词的词向量ai
步骤402,将LDA主题模型得到的主题-词的概率值βi作为该词对于该类别的权重,将同一类别下各个加权后的词向量相加求平均值作为该类的类别中心向量ci,表示为公式(1);
<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&amp;beta;</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
3.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤5具体包括:
步骤501,将待分类文本进行预处理,包括分词、去除停用词;
步骤502,采用TF-IDF算法提取文本特征词:
根据公式(2)计算TF-IDF提取的文本特征词,将TF-IDF值大于阈值θ的词作为待分类文本的特征词w;
<mrow> <mi>T</mi> <mi>F</mi> <mo>-</mo> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mi>m</mi> <mi>M</mi> </mfrac> <mo>&amp;CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <mi>n</mi> </mfrac> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式中,m为待分类文本中特征词w出现的次数,M为待分类文本的词语总数,N为训练样本集中总的文本数,n为训练样本集中包含特征词w的文本总数;
步骤503,将待分类文本中特征词输入word2vec工具,得到待分类文本中特征词的词向量,将所有特征词的词向量相加求平均值得到待分类文本的文本向量dj
4.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤6具体包括:
步骤601,将待分类文本中的文本向量dj与各个类别的类别中心向量ci进行相似度计算,计算公式为式(3);
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
式中,sim(ci,dj)为相似度值,T为待分类文本的文本向量和各个类别的类别中心向量的维度,wik为类别中心向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤602,将步骤601中计算出的相似度值进行降序排序;
步骤603,计算步骤602的降序排序中第一相似度值和第二相似度值之间的差值:
如果该差值大于ε,则将待分类文本分类到第一相似度值所对应的类别中;
如果该差值小于ε,则进行步骤7的二次分类。
5.根据权利要求1所述的新闻文本分类方法,其特征在于,步骤7具体包括:
步骤701,将步骤6中相似度值降序排序中前x个相邻数值之差小于ε所对应类别中的文本在训练文本集中提取出来;
步骤702,在各个类别中随机抽取z篇文本,组成新训练样本集;
步骤703,新训练样本集中的每篇文本重复进行步骤5,获得每篇文本的文本向量;
步骤704,使用KNN算法,将待分类文本的文本向量dj与新训练样本集中所有文本的文本向量di做相似度计算,计算公式为式(4),选出最相近的K篇文本;
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>&amp;times;</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mo>&amp;prime;</mo> <mn>2</mn> </mrow> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式中,sim(dj,di)为相似度值,T为待分类文本的文本向量和新训练样本集中文本向量的维度,wik为新训练样本集的文本向量中每一维上的数值,wjk为待分类文本的文本向量中每一维上的数值;
步骤705,对选出的K篇文本,依次计算每篇文本所属类别的权重,计算公式为式(5);
<mrow> <mi>W</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>d</mi> <mi>y</mi> </msub> <mo>&amp;Element;</mo> <mi>K</mi> <mi>N</mi> <mi>N</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
式中,W(dj,Ci)为待分类文本属于类别Ci的权重值,sim(dj,di)为步骤704中计算的相似度值,y(di,Ci)为类别属性函数,在新训练样本集中已知各文本所属类别,对于选出的K篇文本,如果其属于类别Ci,则类别属性函数值为1,否则类别属性函数值为0;
步骤706,将待分类文本分类到步骤705中计算的权重值为最大值所对应的类别中。
CN201710828232.XA 2017-09-14 2017-09-14 基于LDA和word2vec算法的新闻文本分类方法 Expired - Fee Related CN107609121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710828232.XA CN107609121B (zh) 2017-09-14 2017-09-14 基于LDA和word2vec算法的新闻文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710828232.XA CN107609121B (zh) 2017-09-14 2017-09-14 基于LDA和word2vec算法的新闻文本分类方法

Publications (2)

Publication Number Publication Date
CN107609121A true CN107609121A (zh) 2018-01-19
CN107609121B CN107609121B (zh) 2021-03-30

Family

ID=61062711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710828232.XA Expired - Fee Related CN107609121B (zh) 2017-09-14 2017-09-14 基于LDA和word2vec算法的新闻文本分类方法

Country Status (1)

Country Link
CN (1) CN107609121B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类***及计算机装置
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN108804622A (zh) * 2018-08-20 2018-11-13 天津探数科技有限公司 一种考虑语义背景的短文本分类器构造方法
CN108829661A (zh) * 2018-05-09 2018-11-16 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN108846097A (zh) * 2018-06-15 2018-11-20 北京搜狐新媒体信息技术有限公司 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、***及存储介质
CN108932228A (zh) * 2018-06-06 2018-12-04 武汉斗鱼网络科技有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN109284379A (zh) * 2018-09-21 2019-01-29 福州大学 基于双向量模型的自适应微博话题追踪方法
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109522408A (zh) * 2018-10-30 2019-03-26 广东原昇信息科技有限公司 信息流素材创意文本的分类方法
CN109684444A (zh) * 2018-11-02 2019-04-26 厦门快商通信息技术有限公司 一种智能客服方法及***
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN109766410A (zh) * 2019-01-07 2019-05-17 东华大学 一种基于fastText算法的新闻文本自动分类***
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN109947939A (zh) * 2019-01-30 2019-06-28 中兴飞流信息科技有限公司 文本分类方法、电子设备和计算机可读存储介质
CN110046340A (zh) * 2018-12-28 2019-07-23 阿里巴巴集团控股有限公司 文本分类模型的训练方法和装置
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
CN110674239A (zh) * 2019-09-27 2020-01-10 中国航空无线电电子研究所 一种地理要素自动分类方法及装置
CN110704626A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种用于短文本的分类方法及装置
CN110781271A (zh) * 2019-09-02 2020-02-11 国网天津市电力公司电力科学研究院 一种基于层次注意力机制的半监督网络表示学习模型
CN110795564A (zh) * 2019-11-01 2020-02-14 南京稷图数据科技有限公司 一种缺少负例的文本分类方法
CN110969023A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 文本相似度的确定方法及装置
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN111723199A (zh) * 2019-03-19 2020-09-29 北京沃东天骏信息技术有限公司 文本的分类方法、装置和计算机可读存储介质
CN111753079A (zh) * 2019-03-11 2020-10-09 阿里巴巴集团控股有限公司 文本分类方法、装置、电子设备以及计算机可读存储介质
CN111859979A (zh) * 2020-06-16 2020-10-30 中国科学院自动化研究所 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN112052333A (zh) * 2020-08-20 2020-12-08 深圳市欢太科技有限公司 文本分类方法及装置、存储介质和电子设备
CN112069058A (zh) * 2020-08-11 2020-12-11 国网河北省电力有限公司保定供电分公司 一种基于专家库和自学习技术的缺陷处置方法
CN112287669A (zh) * 2020-12-28 2021-01-29 深圳追一科技有限公司 文本处理方法、装置、计算机设备和存储介质
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN112667806A (zh) * 2020-10-20 2021-04-16 上海金桥信息股份有限公司 一种使用lda的文本分类筛选方法
CN113255340A (zh) * 2021-07-09 2021-08-13 北京邮电大学 面向科技需求的主题提取方法、装置和存储介质
CN113268597A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113486176A (zh) * 2021-07-08 2021-10-08 桂林电子科技大学 一种基于二次特征放大的新闻分类方法
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和***
CN113920373A (zh) * 2021-10-29 2022-01-11 平安银行股份有限公司 一种对象分类方法、装置、终端设备及存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件***有限公司 一种获取训练数据的方法和装置、模型训练方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110343A1 (en) * 2014-10-21 2016-04-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110343A1 (en) * 2014-10-21 2016-04-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭茂: ""基于类中心向量的文本分类模型研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类***及计算机装置
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN108829661B (zh) * 2018-05-09 2020-03-27 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN108829661A (zh) * 2018-05-09 2018-11-16 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN108932228A (zh) * 2018-06-06 2018-12-04 武汉斗鱼网络科技有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN108932228B (zh) * 2018-06-06 2023-08-08 广东南方报业移动媒体有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN108846097A (zh) * 2018-06-15 2018-11-20 北京搜狐新媒体信息技术有限公司 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、***及存储介质
CN108804622A (zh) * 2018-08-20 2018-11-13 天津探数科技有限公司 一种考虑语义背景的短文本分类器构造方法
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN109284379A (zh) * 2018-09-21 2019-01-29 福州大学 基于双向量模型的自适应微博话题追踪方法
CN109284379B (zh) * 2018-09-21 2022-01-04 福州大学 基于双向量模型的自适应微博话题追踪方法
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN110969023B (zh) * 2018-09-29 2023-04-18 北京国双科技有限公司 文本相似度的确定方法及装置
CN110969023A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 文本相似度的确定方法及装置
CN109446324B (zh) * 2018-10-16 2020-12-15 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109522408A (zh) * 2018-10-30 2019-03-26 广东原昇信息科技有限公司 信息流素材创意文本的分类方法
CN109684444A (zh) * 2018-11-02 2019-04-26 厦门快商通信息技术有限公司 一种智能客服方法及***
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN110046340A (zh) * 2018-12-28 2019-07-23 阿里巴巴集团控股有限公司 文本分类模型的训练方法和装置
CN109766410A (zh) * 2019-01-07 2019-05-17 东华大学 一种基于fastText算法的新闻文本自动分类***
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN109947939A (zh) * 2019-01-30 2019-06-28 中兴飞流信息科技有限公司 文本分类方法、电子设备和计算机可读存储介质
CN111753079A (zh) * 2019-03-11 2020-10-09 阿里巴巴集团控股有限公司 文本分类方法、装置、电子设备以及计算机可读存储介质
CN111723199A (zh) * 2019-03-19 2020-09-29 北京沃东天骏信息技术有限公司 文本的分类方法、装置和计算机可读存储介质
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
CN110781271A (zh) * 2019-09-02 2020-02-11 国网天津市电力公司电力科学研究院 一种基于层次注意力机制的半监督网络表示学习模型
CN110674239B (zh) * 2019-09-27 2022-11-04 中国航空无线电电子研究所 一种地理要素自动分类方法及装置
CN110674239A (zh) * 2019-09-27 2020-01-10 中国航空无线电电子研究所 一种地理要素自动分类方法及装置
CN110704626B (zh) * 2019-09-30 2022-07-22 北京邮电大学 一种用于短文本的分类方法及装置
CN110704626A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种用于短文本的分类方法及装置
CN110795564A (zh) * 2019-11-01 2020-02-14 南京稷图数据科技有限公司 一种缺少负例的文本分类方法
CN110795564B (zh) * 2019-11-01 2022-02-22 南京稷图数据科技有限公司 一种缺少负例的文本分类方法
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件***有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN111859979A (zh) * 2020-06-16 2020-10-30 中国科学院自动化研究所 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN112069058A (zh) * 2020-08-11 2020-12-11 国网河北省电力有限公司保定供电分公司 一种基于专家库和自学习技术的缺陷处置方法
CN112052333B (zh) * 2020-08-20 2024-04-30 深圳市欢太科技有限公司 文本分类方法及装置、存储介质和电子设备
CN112052333A (zh) * 2020-08-20 2020-12-08 深圳市欢太科技有限公司 文本分类方法及装置、存储介质和电子设备
CN112667806A (zh) * 2020-10-20 2021-04-16 上海金桥信息股份有限公司 一种使用lda的文本分类筛选方法
CN112417153B (zh) * 2020-11-20 2023-07-04 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112632971B (zh) * 2020-12-18 2023-08-25 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN112287669A (zh) * 2020-12-28 2021-01-29 深圳追一科技有限公司 文本处理方法、装置、计算机设备和存储介质
CN113268597B (zh) * 2021-05-25 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113268597A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113486176A (zh) * 2021-07-08 2021-10-08 桂林电子科技大学 一种基于二次特征放大的新闻分类方法
CN113255340A (zh) * 2021-07-09 2021-08-13 北京邮电大学 面向科技需求的主题提取方法、装置和存储介质
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和***
CN113920373A (zh) * 2021-10-29 2022-01-11 平安银行股份有限公司 一种对象分类方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN107609121B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103631859B (zh) 一种面向科技项目的评审专家智能推荐方法
CN102411563B (zh) 一种识别目标词的方法、装置及***
CN107871144A (zh) ***商品名分类方法、***、设备及计算机可读存储介质
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN107180023A (zh) 一种文本分类方法及***
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN103034626A (zh) 情感分析***及方法
CN103324628A (zh) 一种针对发布文本的行业分类方法和***
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN108304509B (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及***
CN101540017A (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN104142960A (zh) 互联网数据分析***
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN106528768A (zh) 一种咨询热点分析方法及装置
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210223

Address after: No. 601, Huangpu Avenue West, Shenzhen, Guangdong 510632

Applicant after: Jinan University

Address before: 518057 room 503, block C, building 5, Shenzhen Bay ecological science and Technology Park, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN MATENG TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 510632 No. 601, Whampoa Avenue, Guangzhou, Guangdong

Applicant after: Jinan University

Address before: No. 601, Huangpu Avenue West, Shenzhen, Guangdong 510632

Applicant before: Jinan University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210330

Termination date: 20210914

CF01 Termination of patent right due to non-payment of annual fee