CN112667806A

CN112667806A - 一种使用lda的文本分类筛选方法

Info

Publication number: CN112667806A
Application number: CN202011123125.5A
Authority: CN
Inventors: 赵博; 吕建文; 周兴晖; 陈力; 薛柔月; 金鑫; 蒋尚秀
Original assignee: Shanghai Golden Bridge Info Tech Co ltd
Current assignee: Shanghai Golden Bridge Info Tech Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-04-16

Abstract

本发明提出了一种使用了LDA的文本分类筛选方法，包括：获取一个数据集，内容包括多个短句；使用自然语言处理方法，对数据进行预处理，以及进行清洗和整理；确定一个主题，人工选择若干符合主题的文本句子；用所述选择的文本句子，使用词袋模型建立对应文本向量矩阵；用所述向量矩阵去训练第一LDA模型；用所述第一LDA模型筛选文本中剩余的句子，计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性，并以此作为评价一个句子是否满足选定主题模型的阈值；加入通过话题相关性筛选的文本，再训练第二LDA模型；用所述第二LDA模型，对文本中剩余的句子再用余弦相似去判断和筛选；将所述总共三次筛选的句子作为符合筛选目标的文本数据。

Description

一种使用LDA的文本分类筛选方法

技术领域

本发明涉及自然语言处理领域，可以有效筛选符合选定主题的句子，为各类机器学习算法准备数据集,或者进行文本分类。

背景技术

目前机器学习在各个领域中都有了越来越广泛的应用。然而对于需要处理自然语言的模型而言，往往需要预设一个专门的主题来训练模型。训练模型需要有人工标记的数据集才能确保模型的质量。但是在许多情况下，在没有现成的有标记数据的情况下，如何为模型提供尽可能高质量的数据就成了一个备受关注的问题。

训练模型离不开数据，但是许多时候没有足够的数据(数据质量太低或者标注的金钱成本太大)，因而工业界提出了所谓的无监督学习，但实际还是很少使用，更多时候还是增加更多的训练样本。

发明内容

本发明的技术解决问题：提出了一种使用LDA(隐狄利克雷分配模型)的文本分类筛选方法，面对文本数据的时候，利用少量人工去选择或者标记的数据，然后去提取其特征去训练一个分类模型，利用这个分类模型去筛选和分类数据，能以较低成本和较快速度对不同主题的文本数据进行分类。这种方法通过人工挑选少量符合主题要求的数据，然后利用LDA模型提取其特征从而去快速筛选数据。

本发明的技术解决方案为一种使用LDA的文本分类筛选方法，包括如下步骤：

(1)获取一个数据集，内容包括多个短句；

(2)使用自然语言处理方法，对数据进行预处理，以及进行清洗和整理；

(3)确定一个主题，人工选择若干符合主题的文本句子；

(4)用所述选择的文本句子，使用词袋模型建立对应文本向量矩阵；

(5)用所述向量矩阵去训练第一LDA模型；

(6)用所述LDA模型筛选文本中剩余的句子，计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性，并以此作为评价一个句子是否满足选定主题模型的阈值；

(7)加入通过话题相关性筛选的文本，再训练第二LDA模型；

(8)用所述第二LDA模型，对文本中剩余的句子再用余弦相似去判断和筛选；

(9)将人工筛选、主题相似筛选，余弦相似筛选总共三次筛选的句子作为符合筛选目标的文本数据。

进一步的，所述步骤2中，对于数据进行预处理包括：

选择大于10个单词的句子；去除标点符号，去除错误编码，去除非英语和数字的其他字符；修复语法问题，修复单词拼写错误，修复口语化词汇；修复空格和缩进问题；修复异常字符；所述的清洗和整理包括使用词袋模型进行粗清洗，选择主题权重高的文本句子。

进一步的，所述步骤3中，人工选择若干符合主题的文本句子包括：对于重复的句子应仅保留一项，对于描述同一件事物的句子，当句子的过半的单词是相同时，即认为是重复性的；

缩写和简略的内容应当被扩展，对于在使用口语进行表达时会给出某些缩写的表示，需要人工发现，并替换。

进一步的，所述步骤3中，对于准备好要筛选的数据集，每个文档单独一行，从中人工挑选800到1000条词句通顺，符合所选主题要求的文本；使用挑选出来的文本，对每一个单词建立字典及索引。

进一步的，所述步骤4中，将每一条文本利用词袋模型进行向量化处理，该模型将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现，而后利用向量化数据，计算生成词频矩阵，即文档主题(DT)矩阵。

进一步的，所述步骤5中，设定文档要分类的主题数量，利用DT矩阵训练第一LDA模型：首先由狄立克雷分布得到话题分布的参数的分布，然后随机生成一个文本的话题分布，之后在该文本的每个位置，依据该文本的话题分布随机生成一个话题；然后由狄利克雷分布得到单词分布的参数的分布，再得到话题的单词分布，在该位置依据该话题的单词分布随机生成一个单词，直到文本的最后一个位置，生成整个文本；最后重复以上过程，生成所有的文本。

进一步的，所述步骤6中，对于没有挑选的文本，使用训练好的第一LDA模型进行主题判断，模型会给出其属于某一主题的概率；如果某一对句子在LDA的判断下，属于某一主题的概率最高，并且这个值超过某一设定好的阈值，则将这一条文本挑选出来。

进一步的，所述步骤7中，利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集，重新训练第二LDA模型。

进一步的，所述步骤8中，对于剩下的所有文本，利用第二LDA模型和之前挑选的语料进行余弦相似度检测，如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值，则将这一条文本挑选出来。

进一步的，所述步骤9中，分别通过人工选择，LDA主题选择，余弦相似度选择，总共三次选择，从而按选定的分类标准筛选需要的文本数据。

有益效果：

本方法处理的文本数据可适用在数据量达到千万行以上时，可以快速对文本进行分类筛选。利用人工挑选数千条符合选定主题方向的句子，使用LDA进行主题相似度筛选，利用这个LDA主题模型去再去挑选一部分高度符合主题的评论对，这样就有一个足够大的样本去训练一个较为完善的LDA分类模型。最后，用剩余的句子去和训练好的LDA模型中的句子进行相似度检测，挑选合适的数据。通过这样三次筛选，一定程度上克服无监督机器学习的劣势，在保证速度的情况下，提高了筛选分类的准确度。具有如下优点：

(1)适用于筛选大规模的数据，可以节省人工标记的成本；

(2)可以有效区别不同文本之间的“主题”相似性；

(3)对于短文本，尤其是短评的分类效果优异；

(4)得到的文本适用于各类机器学习算法；

(5)这种筛选流程在保证筛选质量的同时，还能大大提高筛选速度。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明使用的核心技术模型为LDA主题分类模型，围绕这一模型设计了一系列步骤和策略进行数据筛选。LDA模型的主要原理为：

LDA模型是一种三层贝叶斯主题模型，通过无监督的学习方法发现文本中隐含的主题信息，目的是要以无指导学习的方法从文本中发现隐含的语义维度，即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎***得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交集。

在使用LDA进行二分类的情况下：给定数据集

m是指向量空间Rⁿ中的m个样本，其中x_i为i号分类的n维向量，yi∈{0，1}。本发明定义N_j(j＝0,1)为第j类样本的个数，X_j(j＝0,1)为第j类样本的集合，而μ_j(j＝0,1)为第j类样本的均值向量，定义∑_j(j＝0,1)为第j类样本的协方差矩阵。

μ_j和∑_j的表达式分别为：

如果将数据投影到直线ω上，则两类样本的中心在直线上的投影分别为ω^Tμ₀和ω^Tμ₁，本发明希望同一种类别数据的投影点尽可能的接近，也就是要同类样本投影点的协方差ω^T∑₀ω和ω^T∑₁ω尽可能的小，所以本发明的优化目标为：

一般定义类内散度矩阵S_ω为：

定义类间散度矩阵S_b为：

S_b＝(μ₀-μ₁)(μ₀-μ₁)^T

则优化目标可以重写为：

到此，利用拉格朗日乘子法，可以得到特征向量：

这就是广义瑞利商的形式，对于二分类样本，只要求出原始样本的均值和方差就能确定最佳的投影方向ω了。

LDA模型在多分类的情况下，如果是多类向低维投影，则此时投影到的低维空间就不是一条直线，而是一个超平面了。假设本发明投影到的低维空间的维度为d，对应的基向量为(ω₁，ω₂…ω_d)，基向量组成的矩阵为W，它是一个n×d的矩阵，此时本发明的优化目标应该可以写成为：

W为低维空间基向量组成的矩阵，W∈R^d×(N-1)，其中N为样本类别数。

LDA文本分类筛选方法依赖于词向量理论。在词与向量的关联中，一般会认为一篇文章或者是多篇文章中的每个单词

服从一个概率分布

这个分布称为单词

的先验分布。例如“网络”一词的出现频率在相关文献中和“神经”一词的出现频率密切相关。因此对于每个单词，由该词汇产生语料库的概率为

其中W为语料库中每个单词都满足多项式分布的概率。故产生语料库的概率就是对每个词汇

产生语料库进行积分求和：

计算先验概率时，注意到

考虑到多项式分布和狄利克雷分布是共轭分布，因此可以采用狄利克雷分布代替：

此处

即为归一化因子

即：

由多项式分布和狄利克雷分布是共轭分布，可得：

根据上式，已知其后验分布，可继续使用后验分布的极大值点，或是参数在后验分布下的平均值作为

的估计值。对于一个语料库而言，结果中

较高的多个词汇可组成为一个“聚类中心”，即文本的主题，v为词汇的数量，k为其中某个词汇的序号。

根据本发明的一个实施例，使用本方法对文本进行分类筛选之前，需要对数据进行预处理。对于一般的网络文本数据而言，无用信息过多(如链接和表情符等)，需要进行粗略的清洗。可以使用以下几个步骤：

1、选择大于10个单词的句子。

2、去除标点符号，去除错误编码，去除非英语和数字的其他字符。

3、修复语法问题，修复单词拼写错误，修复口语化词汇。

4、修复空格和缩进问题。

5、修复异常字符(如quote、amp、congratulate on explore等常见的无意义词汇)。

6、使用词袋模型进行粗清洗，选择主题权重高的文本句子。

在文本筛选过程中，应尽可能的保留短句子，而非长句子。由于长句子所包括的词汇更多，可能由于词汇数量而非所需主题权重的高，而导致整句的权重很高，但实际上与所需主题无关。同时，为了防止出现过短的词汇搭配利用率比较低，在进行筛选时也应该删除过短的词汇。

根据本发明的一个实施例，在处理数据时，需要额外注意网络语言的特点，并以此提出了一些人工筛选的技巧：

1、对于重复的句子应仅保留一项。网络语言中存在大量的重复性语言，对于描述同一件事物的句子，当句子的过半的单词是相同时，即认为是重复性的。

2、缩写和简略的内容应当被扩展。由于网络语言的简洁性，很多人在使用口语进行表达时会给出某些缩写的表示，如B&W(Black and White)和FAV(Favorite)等，需要人工发现，并替换。

根据本发明的一个实施例，本发明使用LDA进行筛选的数据的实现过程如下：

1、准备好要筛选的数据集，每个文档单独一行，方便进行遍历处理。

2、从中人工挑选800到1000条左右词句通顺，符合所选要求的文本。

3、使用挑选出来的文本，对每一个单词建立字典及索引。

4、将每一条文本利用词袋模型进行向量化处理，这种模型是信息检索领域常用的文档表示方法，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受该文档语意影响而独立选择的。而后利用向量化数据，计算生成词频矩阵，即文档主题(DT)矩阵。

5、设定文档要分类的主题数量，利用DT矩阵训练第一LDA模型：首先由狄立克雷分布得到话题分布的参数的分布，然后随机生成一个文本的话题分布，之后在该文本的每个位置，依据该文本的话题分布随机生成一个话题；然后由狄利克雷分布得到单词分布的参数的分布，再得到话题的单词分布，在该位置依据该话题的单词分布随机生成一个单词，直到文本的最后一个位置，生成整个文本；最后重复以上过程，生成所有的文本。

6、对于没有挑选的文本，使用训练好的第一LDA模型进行主题判断，模型会给出其属于某一主题的概率。如果某一对句子在第一LDA的判断下，属于某一主题的概率最高，并且这个值超过某一设定好的阈值，则将这一条文本挑选出来。

7、利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集，重新训练第二LDA模型。

8、对于剩下的所有文本，利用第二LDA模型和之前挑选的语料进行余弦相似度检测，如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值，则将这一条文本挑选出来。

9、这样分别通过人工选择，第一LDA主题选择，余弦相似度选择，总共三次选择，从而按选定的分类标准筛选需要的文本数据。

根据本发明的一个实施例，本发明提出的方法的具体的代码处理逻辑如下：

本发明使用的编程语言为python，使用nltk和gensim模块实现主要的功能。

(1)将爬虫得到的json原始数据转换为列表，变成可以处理的数据结构。

(2)进行数据清洗，首先编制若干正则函数，去掉文本语句中的乱码，非英语词汇，缩写等。然后将常用的停用词表装入列表，对每条文本的每个词汇使用replace()函数遍历替代，最终得到较为干净的数据。

(3)确定要筛选的主题。

(4)从这个巨大的数据集中，人工选择800条符合主题要求的高质量的文本。

(5)这样就得到了适合使用LDA模型进行筛选的数据。首先将上述数据每一行视作一个文档字符串装入列表，组成一个巨大的文档列表。

(6)使用gensim模块的corpora.Dictionary()函数创建语料的词语字典，范围是所有在文档中出现的词汇，每个单独的词语都会被赋予一个索引。

(7)使用dictionary.doc2bow()遍历，将文档列表变成词向量矩阵，或者称为DT矩阵。

(8)使用gensim.models.ldamodel.LdaModel初始化LDA模型，赋值为DT矩阵，和要分成的主题类型数，优选的，所述的类型数量为7(实验结果发现7分类的区分效果最明显)。

(9)将800条人工筛选之外的文本数据，每条按同样的方法转换为词向量，使用ldamodel.get_document_topics(word-array)判断这一条文本属于各个主题的可能性是多少。其中最可能属于某一主题的概率如果达到了阈值，那么便选择这条数据。

(10)通过(9)中的步骤，可以得到了一个含有更多句子的数据集。使用这个数据集重新训练一个第二LDA模型。

(11)使用index＝similarities.MatrixSimilarity()函数，将查询语料库转换到LDA向量空间并对其中的每个文档/语句建立索引。

(12)使用：

sims＝index[lsi[任意词向量]]

result＝[(DT矩阵[i[0]],i[1])for i in enumerate(sims)]

可以得到任意文本对应词向量与文档列表对应的DT矩阵中最相似词向量的余弦相似值，如果这个值大于阈值，那么就可以选择这条文本数据。

(13)概括起来，有三次筛选。第一次使用人工筛选，第二次使用第一LDA的主题筛选，第三次使用第二LDA向量空间的主题相似度检测筛选。这种层层递进的筛选方式，在保证筛选速度的情况下，又通过少量的人工筛选，利用LDA模型学习其特征提高了筛选质量。

本发明未详细描述的部分属于本领域公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种使用LDA的文本分类筛选方法，其特征在于，包括如下步骤：

(1)获取一个数据集，内容包括多个短句；

(3)确定一个主题，人工选择若干符合主题的文本句子；

(5)用所述向量矩阵去训练第一LDA模型；

(6)用所述第一LDA模型筛选文本中剩余的句子，计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性，并以此作为评价一个句子是否满足选定主题模型的阈值；

(7)加入通过话题相关性筛选的文本，再训练第二LDA模型；

2.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤2中，对于数据进行预处理包括：

3.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤3中，人工选择若干符合主题的文本句子包括：

对于重复的句子应仅保留一项，对于描述同一件事物的句子，当句子的过半的单词是相同时，即认为是重复性的；

4.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤3中，对于准备好要筛选的数据集，每个文档单独一行，从中人工挑选800到1000条词句通顺，符合所选主题要求的文本；使用挑选出来的文本，对每一个单词建立字典及索引。

5.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤4中，将每一条文本利用词袋模型进行向量化处理，该模型将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现，而后利用向量化数据，计算生成词频矩阵，即文档主题(DT)矩阵。

6.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤5中，设定文档要分类的主题数量，利用DT矩阵训练第一LDA模型：首先由狄立克雷分布得到话题分布的参数的分布，然后随机生成一个文本的话题分布，之后在该文本的每个位置，依据该文本的话题分布随机生成一个话题；然后由狄利克雷分布得到单词分布的参数的分布，再得到话题的单词分布，在该位置依据该话题的单词分布随机生成一个单词，直到文本的最后一个位置，生成整个文本；最后重复以上过程，生成所有的文本。

7.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤6中，对于没有挑选的文本，使用训练好的第一LDA模型进行主题判断，模型会给出其属于某一主题的概率；如果某一对句子在LDA的判断下，属于某一主题的概率最高，并且这个值超过某一设定好的阈值，则将这一条文本挑选出来。

8.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤7中，利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集，重新训练第二LDA模型。

9.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤8中，对于剩下的所有文本，利用第二LDA模型和之前挑选的语料进行余弦相似度检测，如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值，则将这一条文本挑选出来。

10.根据权利要求1所述的一种使用LDA的文本分类筛选方法，其特征在于，所述步骤9中，分别通过人工选择，LDA主题选择，余弦相似度选择，总共三次选择，从而按选定的分类标准筛选需要的文本数据。