CN110287328A

CN110287328A - 一种文本分类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110287328A
Application number: CN201910594623.9A
Authority: CN
Inventors: 谢宝钢; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-09-27
Anticipated expiration: 2039-07-03
Also published as: CN110287328B

Abstract

本发明公开了一种文本分类方法，包括：接收待分类文本，根据训练得到的特征项集合，将待分类文本映射为目标特征向量；特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的；计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离；根据各欧式距离选取待分类文本的各邻居文本；基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重；根据各权重确定待分类文本的文本类别。本发明较大地提高了对文本分类的准确率，缩短了分类时长，较大地降低了成本。本发明还公开了一种文本分类装置、设备及存储介质，具有相应技术效果。

Description

一种文本分类方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种文本分类方法、装置、设备及计算机可读存储介质。

背景技术

随着网络技术的快速发展，包括微博、微信、QQ等社交软件，文本信息成为了一个重要的存在形式，人们对快速、准确且全面的找到相关信息的要求越来越高。文本分类是自然语言处理中的基本任务之一，一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。

现有的文本分类方式主要有通过整合统计学习方法和深度学习方法的基于多维度特征选择的文本分类方法、基于快速文本分类模型和卷积神经网络模型的文本分类方法。首先，多维度特征选择的文本分类方法通过多个维度考虑特征词的选择，再通过神经网络分类器进行分类，这在一定程度上能够提升文本分类的准确性和稳定性。但该方法仍存在不足之处，该方法在前期处理的过程复杂，耗费时间长。其次，基于快速文本分类模型和卷积神经网络模型在文本分类的过程中，需要通过人工的方法去分词，这就需要花费很多时间在观察数据的训练上，不同的人对不同的特征词存在不同的理解，人工分词因人而异，易受主观因素的影响，最终分类的准确率也不高，计算成本过高，耗时过长。

综上所述，如何有效地解决现有的文本分类方法耗费时间长、人工成本高、分类准确率低等问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种文本分类方法，该方法较大地提高了对文本分类的准确率，较大地缩短了分类时长，较大地降低了成本；本发明的另一目的是提供一种文本分类装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种文本分类方法，包括：

接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将所述待分类文本映射为目标维度的目标特征向量；其中，所述特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对所述训练文本数据集进行训练得到的；

计算所述目标特征向量与所述训练文本数据集中各文本的特征向量的欧氏距离，并对各所述欧式距离进行大小排序；

选取排序中欧式距离小的一端的前第一预设数量个所述欧式距离对应的文本，作为所述待分类文本的各邻居文本；

基于各所述邻居文本利用K最近邻算法计算所述待分类文本对于文本类别集合中各类文本的权重；其中，所述文本类别集合为预先依据所述特征项集合对所述训练文本数据集中各所述文本进行分类得到的；

将权重最大值对应的文本类别确定为所述待分类文本的文本类别。

在本发明的一种具体实施方式中，对所述训练文本数据集进行训练得到所述特征项集合和所述文本类别集合的训练过程包括：

利用jieba分词算法分别对所述训练文本数据集中各文本进行分词，得到各所述文本的分词集合；

计算各所述分词集合中各词的词频和逆向文件频率，并计算各所述分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各所述分词集合中各词分别对应的特征权重；

根据所述特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各所述文本的初选特征词，并将各所述初选特征词合并得到所述训练文本数据集的初选特征词集合；

利用所述信息增益算法计算所述初选特征词集合中各所述初选特征词的信息增益值，对各所述信息增益值进行增益值排序；

从增益值排序中增益值大的一端选取第三预设数量的所述初选特征词作为终级特征词，得到由各所述终级特征词构成的特征项集合，并根据各所述终级特征词对所述训练文本数据集中各文本进行分类，得到所述文本类别集合。

在本发明的一种具体实施方式中，利用jieba分词算法分别对所述训练文本数据集中各文本进行分词，包括：

利用jieba分词算法的精确模式分别对所述训练文本数据集中各文本进行分词。

在本发明的一种具体实施方式中，在利用jieba分词算法分别对所述训练文本数据集中各文本进行分词之前，还包括：

去除所述训练文本数据集中各所述文本的非法格式字符。

在本发明的一种具体实施方式中，在得到各所述文本的分词集合之后，还包括：

去除各所述文本的分词集合中的停用词。

一种文本分类装置，包括：

特征向量映射模块，用于接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将所述待分类文本映射为目标维度的目标特征向量；其中，所述特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对所述训练文本数据集进行训练得到的；

距离排序模块，用于计算所述目标特征向量与所述训练文本数据集中各文本的特征向量的欧氏距离，并对各所述欧式距离进行大小排序；

邻居文本获得模块，用于选取排序中欧式距离小的一端的前第一预设数量个所述欧式距离对应的文本，作为所述待分类文本的各邻居文本；

权重计算模块，用于基于各所述邻居文本利用K最近邻算法计算所述待分类文本对于文本类别集合中各类文本的权重；其中，所述文本类别集合为预先依据所述特征项集合对所述训练文本数据集中各所述文本进行分类得到的；

文本类别确定模块，用于将权重最大值对应的文本类别确定为所述待分类文本的文本类别。

在本发明的一种具体实施方式中，该装置包括训练模块，所述训练模块包括：

分词特征词获得子模块，用于利用jieba分词算法分别对所述训练文本数据集中各文本进行分词，得到各所述文本的分词集合；

特征权重获得子模块，用于计算各所述分词集合中各词的词频和逆向文件频率，并计算各所述分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各所述分词集合中各词分别对应的特征权重；

特征词集合获得子模块，用于根据所述特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各所述文本的初选特征词，并将各所述初选特征词合并得到所述训练文本数据集的初选特征词集合；

增益值排序子模块，用于利用所述信息增益算法计算所述初选特征词集合中各所述初选特征词的信息增益值，对各所述信息增益值进行增益值排序；

特征项集合及文本类别集合子模块，用于从增益值排序中增益值大的一端选取第三预设数量的所述初选特征词作为终级特征词，得到由各所述终级特征词构成的特征项集合，并根据各所述终级特征词对所述训练文本数据集中各文本进行分类，得到所述文本类别集合。

在本发明的一种具体实施方式中，所述分词特征词获得子模块包括分词单元，

所述分词单元具体为利用jieba分词算法的精确模式分别对所述训练文本数据集中各文本进行分词的单元。

一种文本分类设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如前所述文本分类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述文本分类方法的步骤。

本申请提供了一种文本分类方法：接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量；其中，特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的；计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序；选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本；基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重；其中，文本类别集合为预先依据特征项集合对训练文本数据集进行分类得到的；将权重最大值对应的文本类别确定为待分类文本的文本类别。

通过上述技术方案可知，本申请结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行预先训练，得到由包含较多分类信息的特征词构成的特征项集合，保证了用于进行文本分类的特征项集合的有效性，较大地提高了对文本分类的准确率。通过直接利用得到的特征项集合将待分类文本映射为目标特征向量，再利用K最近邻算法对目标特征向量进行计算，从而对待分类文本进行分类。较大地缩短了分类时长，并且整个过程无需人员参与，较大地降低了成本。

相应的，本发明实施例还提供了与上述文本分类方法相对应的文本分类装置、设备和计算机可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中文本分类方法的一种实施流程图；

图2为本发明实施例中文本分类方法的另一种实施流程图；

图3为本发明实施例中文本分类方法的另一种实施流程图；

图4为本发明实施例中一种文本分类装置的结构框图；

图5为本发明实施例中一种文本分类设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，图1为本发明实施例中文本分类方法的一种实施流程图，该方法可以包括以下步骤：

S101：接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量；其中，特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的。

可以预先设定训练文本数据集，利用预设的分词算法对训练文本数据集中的各文本进行分词，再利用词频和逆向文件频率的乘积计算特征权重的计算算法计算各文本中各词的特征权重，再结合信息增益算法得到包含较多分类信息的特征词构成的特征项集合。当接收到待分类文本(如公交线路社区中线路说说之类的非结构化数据)时，可以根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量。

目标维度是根据待分类文本的自身特征进行计算得到的，对于自身特征不同的待分类文本会对应相应的维度数量。

S102：计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序。

在得到待分类文本对应的目标特征向量之后，可以计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序，从而得到排序结果。具体的可以是将各欧式距离从小到大进行排序，也可以是将各欧式距离从大到小进行排序，本发明实施例对此不做限定。

S103：选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本。

在通过对各欧式距离进行大小排序，得到排序结果之后，可以选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，将该第一预设数量个文本作为待分类文本的各邻居文本。

需要说明的是，第一预设数量可以根据实际情况进行设定和调整，本发明实施例对此不做限定。

S104：基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重。

其中，文本类别集合为预先依据特征项集合对训练文本数据集中各文本进行分类得到的。

在预先通过对训练文本数据集进行训练得到特征项集合之后，可以进一步根据特征项集合对训练文本数据集进行分类得到文本类别集合。在得到待分类文本的各邻居文本之后，可以基于各邻居文本利用K最近邻算法(K-Neighbor Nearest，简称，KNN)计算待分类文本对于文本类别集合中各类文本的权重。

假设文本类别集合为c＝{c₁,c₂,…,c_k}，待分类文本d对于文本类别集合中每一类文本的权重可以通过如下公式进行计算：

其中，w(d,c_i)表示待分类文本d与文本类别c_i的相似度，KNN(d)示欧氏距离最小的K个邻居文本的集合，sim(d,d_j)表示待分类文本d与KNN(d)中的某个邻居文本d_j的欧式距离，y(d_j,c_i)是一个布尔型变量，当邻居文本d_j属于文本类别c_i时其值为1，否则为0。

S105：将权重最大值对应的文本类别确定为待分类文本的文本类别。

在利用各邻居文本计算得到待分类文本对于文本类别集合中各类文本的权重之后，可以将权重最大值对应的文本类别确定为待分类文本的文本类别，从而快捷准确地得到待分类文本的文本类别。

需要说明的是，基于上述实施例一，本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在下文的改进实施例中不再一一赘述。

实施例二：

参见图2，图2为本发明实施例中文本分类方法的另一种实施流程图，该方法可以包括以下步骤：

S201：去除训练文本数据集中各文本的非法格式字符。

在对预先设定的训练文本数据集训练的过程中，可以首先去除训练文本数据集中各文本的非法格式字符，从而对训练文本数据集进行预处理。由于网页中获取的文本数据基本都是以HTML格式进行存储的，HTML文件中通常会带有许多表示格式信息的标记，这些标记统称为“非法格式字符”，因此需要先过滤掉这些“非法格式字符”。但非法格式字符不仅仅局限于这些标记，它也包括一些表情包和网址等，因此去除的“非法格式字符”越多，对分类的效果就越明显，避免这些“非法格式字符”对文本分类的干扰。

S202：利用jieba分词算法分别对训练文本数据集中各文本进行分词，得到各文本的分词集合。

在去除训练文本数据集中各文本的非法格式字符之后，可以利用jieba分词算法分别对训练文本数据集中各文本进行分词，得到各文本的分词集合，即对训练文本数据集中各文本进行切分，最终切成单个词语的集合，使其能够最大限度的表示原文本的意思。

S203：去除各文本的分词集合中的停用词。

在利用jieba分词算法分别对训练文本数据集中各文本进行分词，得到各文本的分词集合之后，各文本就切分成了单个词的集合，但是从自然语言处理NLP的角度看，文本主体是由动词、名词、形容词等表示，分词后集合中存在副词、标点等，我们把这些统称为停用词，可以去除各文本的分词集合中的停用词，有助于文本分类的准确性。

S204：计算各分词集合中各词的词频和逆向文件频率，并计算各分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各分词集合中各词分别对应的特征权重。

在去除各文本的分词集合中的停用词之后，可以计算各分词集合中各词的词频和逆向文件频率，并计算各分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各分词集合中各词分别对应的特征权重。

对于一个给定文本的词频(Term Frequency，TF)指的是某一个给定的词语在该文本中出现的频率。词频是对词数的归一化，以防止它偏向长的文本。可以用词频来表示文本中某一词语的对该文本的重要性，可以通过公式表示为：

其中，n_i,j表示某一特征词在文本中出现的频次，∑_kn_k,j表示文本所有词语出现的次数总和。

逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该特征词语的文本数目，再将得到的商取对数得到，具体可以通过以下公式进行表示：

其中，N是指文本数据集合的文本总数，n_k是指包含特征词语的文本数，为了防止包含特征词语的文本数为0导致无法计算逆向文件频率的情况，在计算时分母通常加上1。

因此，对于每一个词，其对应的特征权重可以通过如下公式表示：

本申请通过各分词特征词分别对应的词频和逆向文件频率的乘积计算各词分别对应的特征权重，提高了文本表示的准确性。

S205：根据特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各文本的初选特征词，并将各初选特征词合并得到训练文本数据集的初选特征词集合。

在得到分词集合中各词分别对应的特征权重之后，可以根据特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各文本的初选特征词，并将各初选特征词合并得到训练文本数据集的初选特征词集合。并且在得到各文本的初选特征词之后，可以利用空间向量模型对原始非结构化文本数据进行表示，将训练文本数据集中的每一个文本都被转化为向量空间中的一个n维的向量，该向量通常具有高维性和稀疏性，形式化表达如下：

doc_i＝(m₁,m₂,m₃,...,m_j,...,m_n)；

其中，doc_i表示训练文本数据集中的第i个文本，m_j表示对第i个文本数据进行文本表示时第j个特征的权重。

需要说明的是，第二预设数量可以根据实际情况进行设定和调整，本发明实施例对此不做限定。

S206：利用信息增益算法计算初选特征词集合中各初选特征词的信息增益值，对各信息增益值进行增益值排序。

经过上述几步处理后，为进一步减少特征词的数量，尽量选择出包含较多文本分类信息的初选特征词，可以利用信息增益算法(Information Gain，简称IG)计算初选特征词集合中各初选特征词的信息增益值，对各信息增益值进行增益值排序，从而进一步提高后续对文本分类的准确率和稳定性。信息增益算法是一种基于信息熵的特征选择算法，根据某种信息熵算法计算出某个初选特征词与未出现该初选特征词这两种情况下的训练文本数据集合的信息量，再计算这两种信息量的差值来说明这个特征词对文本分类的重要性。该差值越大就说明信息增益值越大，也就说明该初选特征词的分类能力越强；反之，说明该初选特征词的分类能力越弱。初选特征词t对于训练文本数据集合的信息增益值计算公式如下：

其中，m表示对训练文本数据集合中各文本根据初选特征词集合预分类之后的文本类别的数量，p(c_i)表示训练文本数据集合中文本类别为c_i的文本出现的概率，p(t)表示训练文本数据集合中出现初选特征词t的文本的概率，p(c_i|t)表示初选特征词t出现在c_i类文本中的条件概率，p(c_i|t′)表示初选特征词t未出现在c_i类文本中的条件概率。

对各信息增益值进行增益值排序，可以是将各信息增益值从小到大进行排序，也可以是将各信息增益值从大到小进行排序，本发明实施例对此不做限定。

S207：从增益值排序中增益值大的一端选取第三预设数量的初选特征词作为终级特征词，得到由各终级特征词构成的特征项集合，并根据各终级特征词对训练文本数据集中各文本进行分类，得到文本类别集合。

通过步骤S206得到所有初选特征词的信息增益值，该值越大说明该初选特征词包含分类信息也就越多，即该初选特征词有极大概率是训练文本数据集合中的某一文本类别的特征词。因此在得到对各信息增益值进行增益值排序的排序结果之后，从增益值排序中增益值大的一端选取第三预设数量的初选特征词作为终级特征词，得到由各终级特征词构成的特征项集合，并根据各终级特征词对训练文本数据集中各文本进行分类，得到文本类别集合。

需要说明的是，第三预设数量可以根据实际情况进行设定和调整，本发明实施例对此不做限定。

S208：接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量。

S209：计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序。

S210：选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本。

S211：基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重。

S212：将权重最大值对应的文本类别确定为待分类文本的文本类别。

参见图3，图3为本发明实施例中文本分类方法的另一种实施流程图，该方法可以包括以下步骤：

S301：去除训练文本数据集中各文本的非法格式字符。

S302：利用jieba分词算法的精确模式分别对所述训练文本数据集中各文本进行分词，得到各文本的分词集合。

在去除训练文本数据集中各文本的非法格式字符之后，可以利用jieba分词算法的精确模式分别对所述训练文本数据集中各文本进行分词，得到各文本的分词集合。由于jieba分词算法存在三种模式：(1)精确模式，试图将句子最精确地切开，适合文本分析；(2)全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；(3)搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。例如对“我来自自动化学院”进行划分，其结果如下，精确模式：我/来自/自动化学院。全模式：我/来自/自动化/学院/自动化学院。搜索引擎模式：我/来自/自动化/学院/自动/化学/学院。所以在这里，我们选择jieba分词算法的精确模式对文本数据进行分词，进一步提高后续文本分类的准确性。

S303：去除各文本的分词集合中的停用词。

S304：计算各分词集合中各词的词频和逆向文件频率，并计算各分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各分词集合中各词分别对应的特征权重。

S305：根据特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各文本的初选特征词，并将各初选特征词合并得到训练文本数据集的初选特征词集合。

S306：利用信息增益算法计算初选特征词集合中各初选特征词的信息增益值，对各信息增益值进行增益值排序。

S307：从增益值排序中增益值大的一端选取第三预设数量的初选特征词作为终级特征词，得到由各终级特征词构成的特征项集合，并根据各终级特征词对训练文本数据集中各文本进行分类，得到文本类别集合。

S308：接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量。

S309：计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序。

S310：选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本。

S311：基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重。

S312：将权重最大值对应的文本类别确定为待分类文本的文本类别。

相应于上面的方法实施例，本发明实施例还提供了一种文本分类装置，下文描述的文本分类装置与上文描述的文本分类方法可相互对应参照。

参见图4，图4为本发明实施例中一种文本分类装置的结构框图，该装置包括：

特征向量映射模块41，用于接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量；其中，特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的；

距离排序模块42，用于计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序；

邻居文本获得模块43，用于选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本；

权重计算模块44，用于基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重；其中，文本类别集合为预先依据特征项集合对训练文本数据集中各文本进行分类得到的；

文本类别确定模块45，用于将权重最大值对应的文本类别确定为待分类文本的文本类别。

在本发明的一种具体实施方式中，该装置包括训练模块，训练模块包括：

分词特征词获得子模块，用于利用jieba分词算法分别对训练文本数据集中各文本进行分词，得到各文本的分词集合；

特征权重获得子模块，用于计算各分词集合中各词的词频和逆向文件频率，并计算各分词集合中各词分别对应的词频和逆向文件频率的乘积，得到各分词集合中各词分别对应的特征权重；

特征词集合获得子模块，用于根据特征权重分别对每个文本对应的分词集合中各词进行权重排序，对每个文本从权重排序中权重大的一端选取前第二预设数量的词作为各文本的初选特征词，并将各初选特征词合并得到训练文本数据集的初选特征词集合；

增益值排序子模块，用于利用信息增益算法计算初选特征词集合中各初选特征词的信息增益值，对各信息增益值进行增益值排序；

特征项集合及文本类别集合子模块，用于从增益值排序中增益值大的一端选取第三预设数量的初选特征词作为终级特征词，得到由各终级特征词构成的特征项集合，并根据各终级特征词对训练文本数据集中各文本进行分类，得到文本类别集合。

在本发明的一种具体实施方式中，分词特征词获得子模块包括分词单元，

分词单元具体为利用jieba分词算法的精确模式分别对训练文本数据集中各文本进行分词的单元。

在本发明的一种具体实施方式中，训练模块还包括字符去除子模块，

字符去除子模块，用于在得到各文本的分词集合之后，去除训练文本数据集中各文本的非法格式字符。

在本发明的一种具体实施方式中，训练模块还包括停用词去除子模块，

停用词去除子模块，用于在得到各文本的分词集合之后，去除各文本的分词集合中的停用词。

相应于上面的方法实施例，参见图5，图5为本发明所提供的文本分类设备的示意图，该设备可以包括：

存储器51，用于存储计算机程序；

处理器52，用于执行上述存储器51存储的计算机程序时可实现如下步骤：

接收待分类文本，并根据通过对训练文本数据集中各文本预先训练得到的特征项集合，将待分类文本映射为目标维度的目标特征向量；其中，特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的；计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离，并对各欧式距离进行大小排序；选取排序中欧式距离小的一端的前第一预设数量个欧式距离对应的文本，作为待分类文本的各邻居文本；基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重；其中，文本类别集合为预先依据特征项集合对训练文本数据集中各文本进行分类得到的；将权重最大值对应的文本类别确定为待分类文本的文本类别。

对于本发明提供的设备的介绍请参照上述方法实施例，本发明在此不做赘述。

相应于上面的方法实施例，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下步骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的文本分类方法，其特征在于，对所述训练文本数据集进行训练得到所述特征项集合和所述文本类别集合的训练过程包括：

3.根据权利要求2所述的文本分类方法，其特征在于，利用jieba分词算法分别对所述训练文本数据集中各文本进行分词，包括：

4.根据权利要求2或3所述的文本分类方法，其特征在于，在利用jieba分词算法分别对所述训练文本数据集中各文本进行分词之前，还包括：

去除所述训练文本数据集中各所述文本的非法格式字符。

5.根据权利要求4所述的文本分类方法，其特征在于，在得到各所述文本的分词集合之后，还包括：

去除各所述文本的分词集合中的停用词。

6.一种文本分类装置，其特征在于，包括：

7.根据权利要求6所述的文本分类装置，其特征在于，包括训练模块，所述训练模块包括：

8.根据权利要求7所述的文本分类装置，其特征在于，所述分词特征词获得子模块包括分词单元，

9.一种文本分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述文本分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本分类方法的步骤。