CN112667806A - 一种使用lda的文本分类筛选方法 - Google Patents

一种使用lda的文本分类筛选方法 Download PDF

Info

Publication number
CN112667806A
CN112667806A CN202011123125.5A CN202011123125A CN112667806A CN 112667806 A CN112667806 A CN 112667806A CN 202011123125 A CN202011123125 A CN 202011123125A CN 112667806 A CN112667806 A CN 112667806A
Authority
CN
China
Prior art keywords
text
sentences
topic
lda
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011123125.5A
Other languages
English (en)
Inventor
赵博
吕建文
周兴晖
陈力
薛柔月
金鑫
蒋尚秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Golden Bridge Info Tech Co ltd
Original Assignee
Shanghai Golden Bridge Info Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Golden Bridge Info Tech Co ltd filed Critical Shanghai Golden Bridge Info Tech Co ltd
Priority to CN202011123125.5A priority Critical patent/CN112667806A/zh
Publication of CN112667806A publication Critical patent/CN112667806A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种使用了LDA的文本分类筛选方法,包括:获取一个数据集,内容包括多个短句;使用自然语言处理方法,对数据进行预处理,以及进行清洗和整理;确定一个主题,人工选择若干符合主题的文本句子;用所述选择的文本句子,使用词袋模型建立对应文本向量矩阵;用所述向量矩阵去训练第一LDA模型;用所述第一LDA模型筛选文本中剩余的句子,计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性,并以此作为评价一个句子是否满足选定主题模型的阈值;加入通过话题相关性筛选的文本,再训练第二LDA模型;用所述第二LDA模型,对文本中剩余的句子再用余弦相似去判断和筛选;将所述总共三次筛选的句子作为符合筛选目标的文本数据。

Description

一种使用LDA的文本分类筛选方法
技术领域
本发明涉及自然语言处理领域,可以有效筛选符合选定主题的句子,为各类机器学习算法准备数据集,或者进行文本分类。
背景技术
目前机器学习在各个领域中都有了越来越广泛的应用。然而对于需要处理自然语言的模型而言,往往需要预设一个专门的主题来训练模型。训练模型需要有人工标记的数据集才能确保模型的质量。但是在许多情况下,在没有现成的有标记数据的情况下,如何为模型提供尽可能高质量的数据就成了一个备受关注的问题。
训练模型离不开数据,但是许多时候没有足够的数据(数据质量太低或者标注的金钱成本太大),因而工业界提出了所谓的无监督学习,但实际还是很少使用,更多时候还是增加更多的训练样本。
发明内容
本发明的技术解决问题:提出了一种使用LDA(隐狄利克雷分配模型)的文本分类筛选方法,面对文本数据的时候,利用少量人工去选择或者标记的数据,然后去提取其特征去训练一个分类模型,利用这个分类模型去筛选和分类数据,能以较低成本和较快速度对不同主题的文本数据进行分类。这种方法通过人工挑选少量符合主题要求的数据,然后利用LDA模型提取其特征从而去快速筛选数据。
本发明的技术解决方案为一种使用LDA的文本分类筛选方法,包括如下步骤:
(1)获取一个数据集,内容包括多个短句;
(2)使用自然语言处理方法,对数据进行预处理,以及进行清洗和整理;
(3)确定一个主题,人工选择若干符合主题的文本句子;
(4)用所述选择的文本句子,使用词袋模型建立对应文本向量矩阵;
(5)用所述向量矩阵去训练第一LDA模型;
(6)用所述LDA模型筛选文本中剩余的句子,计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性,并以此作为评价一个句子是否满足选定主题模型的阈值;
(7)加入通过话题相关性筛选的文本,再训练第二LDA模型;
(8)用所述第二LDA模型,对文本中剩余的句子再用余弦相似去判断和筛选;
(9)将人工筛选、主题相似筛选,余弦相似筛选总共三次筛选的句子作为符合筛选目标的文本数据。
进一步的,所述步骤2中,对于数据进行预处理包括:
选择大于10个单词的句子;去除标点符号,去除错误编码,去除非英语和数字的其他字符;修复语法问题,修复单词拼写错误,修复口语化词汇;修复空格和缩进问题;修复异常字符;所述的清洗和整理包括使用词袋模型进行粗清洗,选择主题权重高的文本句子。
进一步的,所述步骤3中,人工选择若干符合主题的文本句子包括:对于重复的句子应仅保留一项,对于描述同一件事物的句子,当句子的过半的单词是相同时,即认为是重复性的;
缩写和简略的内容应当被扩展,对于在使用口语进行表达时会给出某些缩写的表示,需要人工发现,并替换。
进一步的,所述步骤3中,对于准备好要筛选的数据集,每个文档单独一行,从中人工挑选800到1000条词句通顺,符合所选主题要求的文本;使用挑选出来的文本,对每一个单词建立字典及索引。
进一步的,所述步骤4中,将每一条文本利用词袋模型进行向量化处理,该模型将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,而后利用向量化数据,计算生成词频矩阵,即文档主题(DT)矩阵。
进一步的,所述步骤5中,设定文档要分类的主题数量,利用DT矩阵训练第一LDA模型:首先由狄立克雷分布得到话题分布的参数的分布,然后随机生成一个文本的话题分布,之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题;然后由狄利克雷分布得到单词分布的参数的分布,再得到话题的单词分布,在该位置依据该话题的单词分布随机生成一个单词,直到文本的最后一个位置,生成整个文本;最后重复以上过程,生成所有的文本。
进一步的,所述步骤6中,对于没有挑选的文本,使用训练好的第一LDA模型进行主题判断,模型会给出其属于某一主题的概率;如果某一对句子在LDA的判断下,属于某一主题的概率最高,并且这个值超过某一设定好的阈值,则将这一条文本挑选出来。
进一步的,所述步骤7中,利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集,重新训练第二LDA模型。
进一步的,所述步骤8中,对于剩下的所有文本,利用第二LDA模型和之前挑选的语料进行余弦相似度检测,如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值,则将这一条文本挑选出来。
进一步的,所述步骤9中,分别通过人工选择,LDA主题选择,余弦相似度选择,总共三次选择,从而按选定的分类标准筛选需要的文本数据。
有益效果:
本方法处理的文本数据可适用在数据量达到千万行以上时,可以快速对文本进行分类筛选。利用人工挑选数千条符合选定主题方向的句子,使用LDA进行主题相似度筛选,利用这个LDA主题模型去再去挑选一部分高度符合主题的评论对,这样就有一个足够大的样本去训练一个较为完善的LDA分类模型。最后,用剩余的句子去和训练好的LDA模型中的句子进行相似度检测,挑选合适的数据。通过这样三次筛选,一定程度上克服无监督机器学习的劣势,在保证速度的情况下,提高了筛选分类的准确度。具有如下优点:
(1)适用于筛选大规模的数据,可以节省人工标记的成本;
(2)可以有效区别不同文本之间的“主题”相似性;
(3)对于短文本,尤其是短评的分类效果优异;
(4)得到的文本适用于各类机器学习算法;
(5)这种筛选流程在保证筛选质量的同时,还能大大提高筛选速度。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明使用的核心技术模型为LDA主题分类模型,围绕这一模型设计了一系列步骤和策略进行数据筛选。LDA模型的主要原理为:
LDA模型是一种三层贝叶斯主题模型,通过无监督的学习方法发现文本中隐含的主题信息,目的是要以无指导学习的方法从文本中发现隐含的语义维度,即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎***得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集。
在使用LDA进行二分类的情况下:给定数据集
Figure BDA0002732703760000041
m是指向量空间Rn中的m个样本,其中xi为i号分类的n维向量,yi∈{0,1}。本发明定义Nj(j=0,1)为第j类样本的个数,Xj(j=0,1)为第j类样本的集合,而μj(j=0,1)为第j类样本的均值向量,定义∑j(j=0,1)为第j类样本的协方差矩阵。
μj和∑j的表达式分别为:
Figure BDA0002732703760000042
Figure BDA0002732703760000043
如果将数据投影到直线ω上,则两类样本的中心在直线上的投影分别为ωTμ0和ωTμ1,本发明希望同一种类别数据的投影点尽可能的接近,也就是要同类样本投影点的协方差ωT0ω和ωT1ω尽可能的小,所以本发明的优化目标为:
Figure BDA0002732703760000044
一般定义类内散度矩阵Sω为:
Figure BDA0002732703760000045
定义类间散度矩阵Sb为:
Sb=(μ01)(μ01)T
则优化目标可以重写为:
Figure BDA0002732703760000046
到此,利用拉格朗日乘子法,可以得到特征向量:
Figure BDA0002732703760000047
这就是广义瑞利商的形式,对于二分类样本,只要求出原始样本的均值和方差就能确定最佳的投影方向ω了。
LDA模型在多分类的情况下,如果是多类向低维投影,则此时投影到的低维空间就不是一条直线,而是一个超平面了。假设本发明投影到的低维空间的维度为d,对应的基向量为(ω1,ω2…ωd),基向量组成的矩阵为W,它是一个n×d的矩阵,此时本发明的优化目标应该可以写成为:
Figure BDA0002732703760000051
W为低维空间基向量组成的矩阵,W∈Rd×(N-1),其中N为样本类别数。
LDA文本分类筛选方法依赖于词向量理论。在词与向量的关联中,一般会认为一篇文章或者是多篇文章中的每个单词
Figure BDA0002732703760000052
服从一个概率分布
Figure BDA0002732703760000053
这个分布称为单词
Figure BDA0002732703760000054
的先验分布。例如“网络”一词的出现频率在相关文献中和“神经”一词的出现频率密切相关。因此对于每个单词,由该词汇产生语料库的概率为
Figure BDA0002732703760000055
其中W为语料库中每个单词都满足多项式分布的概率。故产生语料库的概率就是对每个词汇
Figure BDA0002732703760000056
产生语料库进行积分求和:
Figure BDA0002732703760000057
计算先验概率时,注意到
Figure BDA0002732703760000058
考虑到多项式分布和狄利克雷分布是共轭分布,因此可以采用狄利克雷分布代替:
Figure BDA0002732703760000059
此处
Figure BDA00027327037600000510
即为归一化因子
Figure BDA00027327037600000511
即:
Figure BDA00027327037600000512
由多项式分布和狄利克雷分布是共轭分布,可得:
Figure BDA00027327037600000513
根据上式,已知其后验分布,可继续使用后验分布的极大值点,或是参数在后验分布下的平均值作为
Figure BDA00027327037600000514
的估计值。对于一个语料库而言,结果中
Figure BDA00027327037600000515
较高的多个词汇可组成为一个“聚类中心”,即文本的主题,v为词汇的数量,k为其中某个词汇的序号。
根据本发明的一个实施例,使用本方法对文本进行分类筛选之前,需要对数据进行预处理。对于一般的网络文本数据而言,无用信息过多(如链接和表情符等),需要进行粗略的清洗。可以使用以下几个步骤:
1、选择大于10个单词的句子。
2、去除标点符号,去除错误编码,去除非英语和数字的其他字符。
3、修复语法问题,修复单词拼写错误,修复口语化词汇。
4、修复空格和缩进问题。
5、修复异常字符(如quote、amp、congratulate on explore等常见的无意义词汇)。
6、使用词袋模型进行粗清洗,选择主题权重高的文本句子。
在文本筛选过程中,应尽可能的保留短句子,而非长句子。由于长句子所包括的词汇更多,可能由于词汇数量而非所需主题权重的高,而导致整句的权重很高,但实际上与所需主题无关。同时,为了防止出现过短的词汇搭配利用率比较低,在进行筛选时也应该删除过短的词汇。
根据本发明的一个实施例,在处理数据时,需要额外注意网络语言的特点,并以此提出了一些人工筛选的技巧:
1、对于重复的句子应仅保留一项。网络语言中存在大量的重复性语言,对于描述同一件事物的句子,当句子的过半的单词是相同时,即认为是重复性的。
2、缩写和简略的内容应当被扩展。由于网络语言的简洁性,很多人在使用口语进行表达时会给出某些缩写的表示,如B&W(Black and White)和FAV(Favorite)等,需要人工发现,并替换。
根据本发明的一个实施例,本发明使用LDA进行筛选的数据的实现过程如下:
1、准备好要筛选的数据集,每个文档单独一行,方便进行遍历处理。
2、从中人工挑选800到1000条左右词句通顺,符合所选要求的文本。
3、使用挑选出来的文本,对每一个单词建立字典及索引。
4、将每一条文本利用词袋模型进行向量化处理,这种模型是信息检索领域常用的文档表示方法,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立选择的。而后利用向量化数据,计算生成词频矩阵,即文档主题(DT)矩阵。
5、设定文档要分类的主题数量,利用DT矩阵训练第一LDA模型:首先由狄立克雷分布得到话题分布的参数的分布,然后随机生成一个文本的话题分布,之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题;然后由狄利克雷分布得到单词分布的参数的分布,再得到话题的单词分布,在该位置依据该话题的单词分布随机生成一个单词,直到文本的最后一个位置,生成整个文本;最后重复以上过程,生成所有的文本。
6、对于没有挑选的文本,使用训练好的第一LDA模型进行主题判断,模型会给出其属于某一主题的概率。如果某一对句子在第一LDA的判断下,属于某一主题的概率最高,并且这个值超过某一设定好的阈值,则将这一条文本挑选出来。
7、利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集,重新训练第二LDA模型。
8、对于剩下的所有文本,利用第二LDA模型和之前挑选的语料进行余弦相似度检测,如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值,则将这一条文本挑选出来。
9、这样分别通过人工选择,第一LDA主题选择,余弦相似度选择,总共三次选择,从而按选定的分类标准筛选需要的文本数据。
根据本发明的一个实施例,本发明提出的方法的具体的代码处理逻辑如下:
本发明使用的编程语言为python,使用nltk和gensim模块实现主要的功能。
(1)将爬虫得到的json原始数据转换为列表,变成可以处理的数据结构。
(2)进行数据清洗,首先编制若干正则函数,去掉文本语句中的乱码,非英语词汇,缩写等。然后将常用的停用词表装入列表,对每条文本的每个词汇使用replace()函数遍历替代,最终得到较为干净的数据。
(3)确定要筛选的主题。
(4)从这个巨大的数据集中,人工选择800条符合主题要求的高质量的文本。
(5)这样就得到了适合使用LDA模型进行筛选的数据。首先将上述数据每一行视作一个文档字符串装入列表,组成一个巨大的文档列表。
(6)使用gensim模块的corpora.Dictionary()函数创建语料的词语字典,范围是所有在文档中出现的词汇,每个单独的词语都会被赋予一个索引。
(7)使用dictionary.doc2bow()遍历,将文档列表变成词向量矩阵,或者称为DT矩阵。
(8)使用gensim.models.ldamodel.LdaModel初始化LDA模型,赋值为DT矩阵,和要分成的主题类型数,优选的,所述的类型数量为7(实验结果发现7分类的区分效果最明显)。
(9)将800条人工筛选之外的文本数据,每条按同样的方法转换为词向量,使用ldamodel.get_document_topics(word-array)判断这一条文本属于各个主题的可能性是多少。其中最可能属于某一主题的概率如果达到了阈值,那么便选择这条数据。
(10)通过(9)中的步骤,可以得到了一个含有更多句子的数据集。使用这个数据集重新训练一个第二LDA模型。
(11)使用index=similarities.MatrixSimilarity()函数,将查询语料库转换到LDA向量空间并对其中的每个文档/语句建立索引。
(12)使用:
sims=index[lsi[任意词向量]]
result=[(DT矩阵[i[0]],i[1])for i in enumerate(sims)]
可以得到任意文本对应词向量与文档列表对应的DT矩阵中最相似词向量的余弦相似值,如果这个值大于阈值,那么就可以选择这条文本数据。
(13)概括起来,有三次筛选。第一次使用人工筛选,第二次使用第一LDA的主题筛选,第三次使用第二LDA向量空间的主题相似度检测筛选。这种层层递进的筛选方式,在保证筛选速度的情况下,又通过少量的人工筛选,利用LDA模型学习其特征提高了筛选质量。
本发明未详细描述的部分属于本领域公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (10)

1.一种使用LDA的文本分类筛选方法,其特征在于,包括如下步骤:
(1)获取一个数据集,内容包括多个短句;
(2)使用自然语言处理方法,对数据进行预处理,以及进行清洗和整理;
(3)确定一个主题,人工选择若干符合主题的文本句子;
(4)用所述选择的文本句子,使用词袋模型建立对应文本向量矩阵;
(5)用所述向量矩阵去训练第一LDA模型;
(6)用所述第一LDA模型筛选文本中剩余的句子,计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性,并以此作为评价一个句子是否满足选定主题模型的阈值;
(7)加入通过话题相关性筛选的文本,再训练第二LDA模型;
(8)用所述第二LDA模型,对文本中剩余的句子再用余弦相似去判断和筛选;
(9)将人工筛选、主题相似筛选,余弦相似筛选总共三次筛选的句子作为符合筛选目标的文本数据。
2.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤2中,对于数据进行预处理包括:
选择大于10个单词的句子;去除标点符号,去除错误编码,去除非英语和数字的其他字符;修复语法问题,修复单词拼写错误,修复口语化词汇;修复空格和缩进问题;修复异常字符;所述的清洗和整理包括使用词袋模型进行粗清洗,选择主题权重高的文本句子。
3.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤3中,人工选择若干符合主题的文本句子包括:
对于重复的句子应仅保留一项,对于描述同一件事物的句子,当句子的过半的单词是相同时,即认为是重复性的;
缩写和简略的内容应当被扩展,对于在使用口语进行表达时会给出某些缩写的表示,需要人工发现,并替换。
4.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤3中,对于准备好要筛选的数据集,每个文档单独一行,从中人工挑选800到1000条词句通顺,符合所选主题要求的文本;使用挑选出来的文本,对每一个单词建立字典及索引。
5.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤4中,将每一条文本利用词袋模型进行向量化处理,该模型将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,而后利用向量化数据,计算生成词频矩阵,即文档主题(DT)矩阵。
6.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤5中,设定文档要分类的主题数量,利用DT矩阵训练第一LDA模型:首先由狄立克雷分布得到话题分布的参数的分布,然后随机生成一个文本的话题分布,之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题;然后由狄利克雷分布得到单词分布的参数的分布,再得到话题的单词分布,在该位置依据该话题的单词分布随机生成一个单词,直到文本的最后一个位置,生成整个文本;最后重复以上过程,生成所有的文本。
7.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤6中,对于没有挑选的文本,使用训练好的第一LDA模型进行主题判断,模型会给出其属于某一主题的概率;如果某一对句子在LDA的判断下,属于某一主题的概率最高,并且这个值超过某一设定好的阈值,则将这一条文本挑选出来。
8.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤7中,利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集,重新训练第二LDA模型。
9.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤8中,对于剩下的所有文本,利用第二LDA模型和之前挑选的语料进行余弦相似度检测,如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值,则将这一条文本挑选出来。
10.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤9中,分别通过人工选择,LDA主题选择,余弦相似度选择,总共三次选择,从而按选定的分类标准筛选需要的文本数据。
CN202011123125.5A 2020-10-20 2020-10-20 一种使用lda的文本分类筛选方法 Pending CN112667806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011123125.5A CN112667806A (zh) 2020-10-20 2020-10-20 一种使用lda的文本分类筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011123125.5A CN112667806A (zh) 2020-10-20 2020-10-20 一种使用lda的文本分类筛选方法

Publications (1)

Publication Number Publication Date
CN112667806A true CN112667806A (zh) 2021-04-16

Family

ID=75403286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011123125.5A Pending CN112667806A (zh) 2020-10-20 2020-10-20 一种使用lda的文本分类筛选方法

Country Status (1)

Country Link
CN (1) CN112667806A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887584A (zh) * 2021-09-16 2022-01-04 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN115658866A (zh) * 2022-10-27 2023-01-31 国网山东省电力公司烟台供电公司 一种可自适应输入的文本续写方法、存储介质和装置
CN116307792A (zh) * 2022-10-12 2023-06-23 广州市阿尔法软件信息技术有限公司 一种面向城市体检主题场景的评估方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
US20180032600A1 (en) * 2016-08-01 2018-02-01 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (lda) classification
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
CN109376347A (zh) * 2018-10-16 2019-02-22 北京信息科技大学 一种基于主题模型的hsk作文生成方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032600A1 (en) * 2016-08-01 2018-02-01 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (lda) classification
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109376347A (zh) * 2018-10-16 2019-02-22 北京信息科技大学 一种基于主题模型的hsk作文生成方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIHA PAVLINEK ET AL.: "Text classification method based on self-training and LDA topic models", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 80, 8 March 2017 (2017-03-08), pages 83 - 93, XP029974861, DOI: 10.1016/j.eswa.2017.03.020 *
杨瑞欣: "面向微博评论的LDA短文本聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 8, 15 August 2020 (2020-08-15), pages 138 - 843 *
王胜 等: "基于SL-LDA的领域标签获取方法", 《计算机科学》, vol. 47, no. 11, 21 July 2020 (2020-07-21), pages 95 - 100 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887584A (zh) * 2021-09-16 2022-01-04 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN113887584B (zh) * 2021-09-16 2022-07-05 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN116307792A (zh) * 2022-10-12 2023-06-23 广州市阿尔法软件信息技术有限公司 一种面向城市体检主题场景的评估方法及装置
CN116307792B (zh) * 2022-10-12 2024-03-12 广州市阿尔法软件信息技术有限公司 一种面向城市体检主题场景的评估方法及装置
CN115658866A (zh) * 2022-10-27 2023-01-31 国网山东省电力公司烟台供电公司 一种可自适应输入的文本续写方法、存储介质和装置
CN115658866B (zh) * 2022-10-27 2024-03-12 国网山东省电力公司烟台供电公司 一种可自适应输入的文本续写方法、存储介质和装置

Similar Documents

Publication Publication Date Title
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN112667806A (zh) 一种使用lda的文本分类筛选方法
Jungiewicz et al. Towards textual data augmentation for neural networks: synonyms and maximum loss
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111859961A (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Wankhede et al. Data preprocessing for efficient sentimental analysis
Fauziah et al. Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review
Vīksna et al. Sentiment analysis in Latvian and Russian: A survey
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Ueno et al. A spoiler detection method for japanese-written reviews of stories
CN112990388B (zh) 基于概念词的文本聚类方法
Hidayat et al. Feature-Rich Classifiers for Recognizing Textual Entailment in Indonesian
CN112613318B (zh) 实体名称归一化***及其方法、计算机可读介质
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及***
CN115309899A (zh) 一种文本中特定内容识别存储方法及***
CN114579729A (zh) 一种融合多算法模型的faq问答匹配方法和***
CN114186560A (zh) 一种基于图卷积神经网络融合支持向量机的中文词义消歧方法
CN113780832A (zh) 舆情文本评分方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination