CN109165294B

CN109165294B - 一种基于贝叶斯分类的短文本分类方法

Info

Publication number: CN109165294B
Application number: CN201810951636.2A
Authority: CN
Inventors: 水新莹; 张宇光; 黄亚坤
Original assignee: Anhui Xunfei Intelligent Technology Co ltd
Current assignee: Anhui Xunfei Intelligent Technology Co ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2021-09-24
Anticipated expiration: 2038-08-21
Also published as: CN109165294A

Abstract

本发明公开了一种基于贝叶斯分类的短文本分类方法，涉及智慧城市和电子政务领域，该方法包括有以下步骤：(1)数据预处理与类别标注；(2)完成短文本数据的分词和增量特征向量提取，主要分为以下两个核心步骤；(3)建立基于贝叶斯的短文本分类模型；(4)对已处理的数据集合划分为训练集和测试集，进行分类模型训练，并根据训练集的结果进行模型的优化；(5)根据已训练好的模型，输入未知类别的短文本数据，输出为当前输入文本属于每个类别的概率，选取概率最大的类别作为最终分类类别的结果，该种基于贝叶斯分类的短文本分类方法能够高效、智能、自动的对短文本内容进行有效的分类。

Description

一种基于贝叶斯分类的短文本分类方法

技术领域

本发明涉及智慧城市和电子政务领域，具体涉及一种基于贝叶斯分类的短文本分类方法。

背景技术：

随着移动互联网和社交网络的发展，微博、微信等社交软件的兴起，公司及政府部门也逐渐利用社交软件建立联系、进行沟通。发布频率高、文本内容短小是移动社交媒体的特点，短文本内容的规模也在飞速增长。搜索引擎、智能客服和舆情监测领域中，短文本也是被研究的重点。面对如此庞大以及不断递增的网民数量，从各种各样的现象描述、私信、评论等不完整文本信息中，提取出有用的信息，对媒体、政府等决策者显得极为重要。人工处理庞大规模的短文本分类、提取等效率低下，通常无法有效完成任务，因此，如何高效、智能、自动的对短文本内容进行有效的分类对提升电子政务的建设的有着重要意义。

现有文本分类的技术主要从关键词的代表程度，即广泛性提出权重等类似的方法来进行核心分类算法的设计；例如，现有文献中《一种基于聚类词嵌入的文本分类方法》，主要是将k-均值算法应用到文档的单词向量上，获得固定大小的集群集合，每个集群的质心被解释为一个超词嵌入，文本集合中的每个嵌入词都被分配到最近的集群中心。每个集群的质心被解释为一个超词嵌入，文本集合中的每个嵌入词都被分配到最近的集群中心。每个文本被表示为一个超级单词嵌入包，计算每个超级单词嵌入在各自文本中的频率，即获得文本的类型。

分析上述短文本分类方法可知，关键词的选择影响了分类效果，需要考虑关键词的数量和特征的广泛性，而在短文本分类中，短文本特征关键词少，在实际分类过程中，关键词难以有效表达短文本的内在含义，容易产生一个文本存在多个分类类别的结果；此外，短文本中的语义信息也影响着分类的结果，而现有技术中在提取特征关键词方法对长文本的分类具有较好的效果，而短文本难以有效进行分类

如申请号为CN201710216502.1公开了一种获得用于自动标注语料的文本分类器方法及文本分类器，该方法包括确定概念集合，用每个概念对应的概念关键词集合中的概念关键词对未标注语料文本进行匹配并自动标注处理；对于每个概念，当该概念对应的标注语料文本集合中文本数量符合阈值条件时，则对该概念进行训练相对应的文本分类模型，得到对应的文本分类器，最终获得所有文本数量符合阈值条件的与该概念对应的文本分类器集合。该种算法结构，具有普适性，可灵活地改变分类体系，节约了计算时间和资源，并且本发明提供少量的初始语料文本即可，且自动标注，无需人工标注，进一步节约时间和成本，但是该种分类方法并未公开如何通过自主训练使其准确性更高的技术方案。

如申请号为CN201710882685.0公开了一种建立文本分类模型与文本分类的方法、装置，建立方法包括：获取训练样本；基于实体词典对文本进行切词后获取对应的向量矩阵；利用文本的向量矩阵以及文本的分类，训练第一分类模型和第二分类模型；在训练过程中，利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对第一和第二分类模型调整参数，得到由第一和第二分类模型构成的文本分类模型。文本分类的方法包括：获取待分类的文本；基于实体词典对文本进行切词后获取文本对应的向量矩阵；将向量矩阵输入文本分类模型，根据文本分类模型的输出，得到该文本的分类结果，但是该种分类方法并未公开如何通过自主训练使其准确性更高的技术方案。

发明内容

本发明的目的在于提供一种基于贝叶斯分类的短文本分类方法，以解决现有技术中导致的上述多项缺陷。

一种基于贝叶斯分类的短文本分类方法，其特征在于，该方法包括有以下步骤：

(1)数据预处理与类别标注：

步骤一：抽取上报的历史短文本数据，并对数据进行常规数据清洗，数据集成处理，提高数据质量；

步骤二：对完成初步清洗后的数据，历史已处理短文本已人工完成类别标注，对当前未处理的部分数据进行人工类别标注，完成数据预处理过程；

(2)完成短文本数据的分词和增量特征向量提取，包括以下两个核心步骤：

步骤一：基于Python的三方库Jieba分词对清洗后的短文本内容进行分词；

步骤二：提取增量特征向量，并结合TF-IDF进行关键词提取，若关键词过少，则直接使用全部分词词组作为最终的分类参数输入；

(3)建立基于贝叶斯的短文本分类模型；

(4)对已处理的数据集合划分为训练集和测试集，进行分类模型训练，并根据训练集的结果进行模型的优化；

(5)根据已训练好的模型，输入未知类别的短文本数据，输出为当前输入文本属于每个类别的概率，选取概率最大的类别作为最终分类类别的结果。

优选的，所述数据预处理包括有以下四个步骤：

步骤一：将原始数据进行清洗分类，利用Kettle将文本分成三个类别，分别是大类序号，小类序号，以及文本；

步骤二：将处理好的数据存入数据库；

步骤三：利用Jiaba分词对第三个字段的内容也就是纯文本进行分词；

步骤四：根据词性将分好的词每行留下三个词存入数据库。

优选的，所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤：

步骤一：记B＝(B₁,B₂,...,B_u)为从文本中提取的特征词组成的特征向量，将描述特征向量的特征词的词语概括为一个新的特征词B_u+1，给予命名，以此类推，当u＝5,6,...,m便得到增量特征向量B＝(B₁,B₂,...,B_m)；

步骤二：如果某个词或短语在一篇文章中出现频率的TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类，TF-IDF的特征提取函数为：f(w)＝TF(w)xIDF(w)，根据上述公式对短文本内容完成特征关键词提取，首先，将特征词w的TF值记为TF(w)，经常将特征项频率TF与反文档频率IDF结合起来使用；然后计算IDF(w)＝log[N/n(w)+1]，N为文本总数，n(w)为包含w的文本数。

优选的，对输入的短文本样本记录，B＝(B₁,B₂,...,B_m)为提取的特征向量，C₁,C₂,...,C_n为n个分类结果；P(C_i|B),i＝1,2,...,n表示待分类文本属于第i个分类结果的概率；P(B_j|C_i),j＝1,2,...,m,i＝1,2,...,n表示第j个特征词属于第i类的概率，在具体计算中，基于贝叶斯公式为下所示：

当分类新的文本时，只需要计算出n个类别中P(C_i|B)的值，将新的样本判定到概率值最大的类中，其中，概率P(B)是与类别无关的常数，再根据特征向量B＝(B₁,B₂,...,B_m)各个特征词之间独立性,上述计算公式可简化为：

优选的，根据建立的模型，计算出未知短文本信息的类别归属，若N为预测的样本总数，Cou(C_i)表示第i个分类在样本中的计数，则P(C_i)＝Cou(C_i)/N，Cou(B_ij)表示第i个分类中，第j个特征词的个数，则P(B_j|C_i)＝Cou(B_ij)/Cou(C_i)，最后，计算出待分类样本属于每个类别的概率，得出最大的概率

本发明的优点在于：该基于贝叶斯分类的短文本分类方法，根据用户上报的短文本内容分析后进行分类并分发至业务单位，对于核心的短文本分类过程，首先对源数据进行数据清洗、规整集成等处理，并抽取部分短文数据作为训练数据，根据分类的需求对抽取的数据进行分类标注；接着，基于Python的三方库Jieba分词对清洗后的短文本内容进行分词，并基于TF-IDF提取关键词，考虑到短文本内容少，因此，TF-IDF提取的关键词作为贝叶斯分类建模前的参考，若提取的关键词过少，则直接使用短文本分词后的词组进行分类建模，根据上述步骤，基于贝叶斯公式建立分类模型，并调整相关模型，直至分类测试的精度趋于稳定为止。

附图说明

图1为本发明的方法流程图。

图2为本发明中数据处理的流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1和图2所示，一种基于贝叶斯分类的短文本分类方法，其特征在于，该方法包括有以下步骤：

(1)数据预处理与类别标注：

步骤一：抽取上报的历史短文本数据，并对数据进行常规数据清洗，数据集成等处理，提高数据质量；

(2)完成短文本数据的分词和增量特征向量提取，主要分为以下两个核心步骤：

(3)建立基于贝叶斯的短文本分类模型；

值得注意的是，所述数据预处理包括有以下四个步骤：

步骤二：将处理好的数据存入数据库；

步骤四：根据词性将分好的词每行留下三个词存入数据库。

在本实施例中，所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤：

在本实施例中，对输入的短文本样本记录，B＝(B₁,B₂,...,B_m)为提取的特征向量，C₁,C₂,...,C_n为n个分类结果；P(C_i|B),i＝1,2,...,n表示待分类文本属于第i个分类结果的概率；P(B_j|C_i),j＝1,2,...,m,i＝1,2,...,n表示第j个特征词属于第i类的概率，在具体计算中，基于贝叶斯公式为下所示：

此外，根据建立的模型，计算出未知短文本信息的类别归属，若N为预测的样本总数，Cou(C_i)表示第i个分类在样本中的计数，则P(C_i)＝Cou(C_i)/N，Cou(B_ij)表示第i个分类中，第j个特征词的个数，则P(B_j|C_i)＝Cou(B_ij)/Cou(C_i)，最后，计算出待分类样本属于每个类别的概率，得出最大的概率

基于上述，该基于贝叶斯分类的短文本分类方法，该方法包括有以下步骤：(1)数据预处理与类别标注；(2)完成短文本数据的分词和增量特征向量提取，主要分为以下两个核心步骤；(3)建立基于贝叶斯的短文本分类模型；(4)对已处理的数据集合划分为训练集和测试集，进行分类模型训练，并根据训练集的结果进行模型的优化；(5)根据已训练好的模型，输入未知类别的短文本数据，输出为当前输入文本属于每个类别的概率，选取概率最大的类别作为最终分类类别的结果，根据用户上报的短文本内容分析后进行分类并分发至业务单位，对于核心的短文本分类过程，首先对源数据进行数据清洗、规整集成等处理，并抽取部分短文数据作为训练数据，根据分类的需求对抽取的数据进行分类标注；接着，基于Python的三方库Jieba分词对清洗后的短文本内容进行分词，并基于TF-IDF提取关键词，考虑到短文本内容少，因此，TF-IDF提取的关键词作为贝叶斯分类建模前的参考，若提取的关键词过少，则直接使用短文本分词后的词组进行分类建模，根据上述步骤，基于贝叶斯公式建立分类模型，并调整相关模型，直至分类测试的精度趋于稳定为止。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于贝叶斯分类的短文本分类方法，其特征在于，该方法包括有以下步骤：

(1)数据预处理与类别标注：

(3)建立基于贝叶斯的短文本分类模型；

(5)根据已训练好的模型，输入未知类别的短文本数据，输出为当前输入文本属于每个类别的概率，选取概率最大的类别作为最终分类类别的结果；

所述数据预处理包括有以下四个步骤：

步骤二：将处理好的数据存入数据库；

步骤四：根据词性将分好的词每行留下三个词存入数据库；

所述增量特征向量和TF-IDF特征词提取法进行特征关键词的提取包括以下两个步骤：

步骤二：如果某个词或短语在一篇文章中出现频率的TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类，TF-IDF的特征提取函数为：f(w)＝TF(w)x IDF(w)，根据上述公式对短文本内容完成特征关键词提取，首先，将特征词w的TF值记为TF(w)，将特征项频率TF与反文档频率IDF结合起来使用；然后计算IDF(w)＝log[N/n(w)+1]，N为文本总数，n(w)为包含w的文本数。

2.根据权利要求1 所述的一种基于贝叶斯分类的短文本分类方法，其特征在于：对输入的短文本样本记录，B＝(B₁,B₂,...,B_m)为提取的特征向量，C₁,C₂,...,C_n为n个分类结果；P(C_i|B),i＝1,2,...,n表示待分类文本属于第i个分类结果的概率；P(B_j|C_i),j＝1,2,...,m,i＝1,2,...,n表示第j个特征词属于第i类的概率，在具体计算中，基于贝叶斯公式为下所示：

3.根据权利要求1所述的一种基于贝叶斯分类的短文本分类方法，其特征在于：根据建立的模型，计算出未知短文本信息的类别归属，若N为预测的样本总数，Cou(C_i)表示第i个分类在样本中的计数，则P(C_i)＝Cou(C_i)/N，Cou(B_ij)表示第i个分类中，第j个特征词的个数，则P(B_j|C_i)＝Cou(B_ij)/Cou(C_i)，最后，计算出待分类样本属于每个类别的概率，得出最大的概率