CN109145116A

CN109145116A - 一种文本分类方法、装置、电子设备及存储介质

Info

Publication number: CN109145116A
Application number: CN201811018629.3A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-04

Abstract

本发明实施例公开了一种文本分类方法、装置、电子设备及存储介质，所述方法包括：获取待分类文本对应的文本向量；计算所述文本向量与训练集中各样本类别的中心向量之间的相似度；基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值；统计所述归属权重值中的最大值；将所述待分类文本分类至所述最大值对应的样本类别。通过采用上述技术方案，极大地减少了分类过程的计算量，提高了分类效率，解决了因训练集中各类别的样本数量不均衡导致分类错误的问题，从而提高了分类准确度。

Description

一种文本分类方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种文本分类方法、装置、电子设备及存储介质。

背景技术

随着互联网信息的发展，文本分类的速度和精度显得越来越重要。文本分类极大的解决了网上信息杂乱无章的问题，且通过文本分类能够使用户快速且准确定位到自己所需要的信息。文本分类是通过一种分类模型或者函数，利用带有大量标记的训练样本，将待分类文本映射到指定的样本类别。

目前，典型的文本分类算法有KNN(K-NearnestNeighbour，K最近邻)算法，KNN算法的分类原理为：通过查询已知类别的训练集文本信息，判断待分类的文本信息属于哪个类别，具体为：计算待分类文本信息的特征向量与训练集中每个样本的特征向量之间的相似度，依据相似度的大小选出K个最近邻的训练样本，然后对该K个最近邻的训练样本所属类别的数量进行统计，最后将待分类文本信息划分至统计数量最多的类别。

因此，可见，现有的KNN算法存在如下缺陷：一方面，由于需要计算待分类文本信息的特征向量与训练集中每个样本的特征向量之间的相似度，当训练集中的样本数量较多时，计算量会很大，导致KNN算法的分类效率较低；其次，当训练集中各类别的样本分布不均衡时，例如某一类别的样本容量很大，而其他类别的样本容量很小时，当对待分类文本信息进行分类时，很容易出现与所述待分类文本信息最近邻的K个训练样本所属的样本类别中样本容量很大的类别占多数，但是待分类文本信息可能并不属于所述占多数的类别，因此对待分类文本信息进行错误分类，导致分类的准确度降低。

发明内容

本发明实施例提供一种文本分类方法、装置、电子设备及存储介质，通过所述方法降低计算量，提高分类速度，且可提高分类准确度。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种文本分类方法，所述方法包括：

获取待分类文本对应的文本向量；

计算所述文本向量与训练集中各样本类别的中心向量之间的相似度；

基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值；

统计所述归属权重值中的最大值；

将所述待分类文本分类至所述最大值对应的样本类别。

进一步的，所述计算所述文本向量与训练集中各样本类别的中心向量之间的相似度之前，所述方法还包括：

计算训练集中各样本类别的中心向量。

进一步的，所述所述计算训练集中各样本类别的中心向量，包括：

按照如下公式计算训练集中各样本类别的中心向量：

其中，O_i表示训练集中样本类别i的中心向量，C_in表示样本类别i中的样本总数，w_i表示样本类别i中的第i个样本向量。

进一步的，所述计算所述文本向量与训练集中各样本类别的中心向量之间的相似度，包括：

按照如下公式计算所述文本向量与训练集中各样本类别的中心向量之间的相似度：

其中，Sim(d_j,O_i)表示文本向量d_j与训练集中样本类别i的中心向量O_i之间的相似度，V为所述文本向量以及训练集中各样本类别的中心向量的维度，w_ik为中心向量O_i在维度k上的数值，w_jk为文本向量d_j在维度k上的数值，j为文本向量的标识。

进一步的，所述基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，包括：

按照如下公式对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各类别的归属权重值：

其中，g(d,C_i)表示待分类文本d归属训练集中第i个样本类别C_i的归属权重值，Sim(d_j,O_i)表示待分类文本d的文本向量d_j与训练集中第i个样本类别C_i的中心向量O_i之间的相似度，C_in为训练集中第i个样本类别C_i中的样本总数。

进一步的，所述获取待分类文本对应的文本向量，包括：

通过word2vec对所述待分类文本进行处理，得到对应的文本向量。

进一步的，所述训练集中的各样本均为经过word2vec处理后的样本向量。

第二方面，本发明实施例提供了一种文本分类装置，所述装置包括：

获取模块，用于获取待分类文本对应的文本向量；

计算模块，用于计算所述文本向量与训练集中各样本类别的中心向量之间的相似度；

处理模块，用于基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值；

统计模块，用于统计所述归属权重值中的最大值；

分类模块，用于将所述待分类文本分类至所述最大值对应的样本类别。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的文本分类方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的文本分类方法。

本发明实施例提供的一种文本分类方法，通过仅计算待分类文本对应的文本向量与训练集中各样本类别的中心向量之间的相似度，极大地减少了分类过程的计算量，提高了分类效率，通过基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，最终将所述待分类文本分类至所述归属权重中的最大值对应的样本类别，解决了因训练集中各类别的样本数量不均衡导致分类错误的问题，从而提高了分类准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的一种文本分类方法流程示意图；

图2为本发明实施例二提供的一种文本分类装置结构示意图；

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种文本分类方法流程示意图。本实施例公开的文本分类方法是对现有的KNN分类算法进行的改进，旨在降低现有的KNN分类算法的计算复杂度以及提高其分类准确度。所述文本分类方法可以由文本分类装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在终端中，例如服务器等。具体参见图1所示，该方法包括如下步骤：

110、获取待分类文本对应的文本向量。

其中，所述待分类文本对应的文本向量指所述待分类文本的数字化表示。只有将自然语言中的字词转换为数字形式的向量才能被计算机识别，并对其进行分类操作。例如，按照一定的转换规则对文本中的字词进行数字转换，词语“杭州”对应的文本向量可能是[000001]的六维向量，词语“上海”对应的文本向量可能是[010000]的六维向量。

具体的，所述获取待分类文本对应的文本向量，包括：

其中，word2vec是一款用于词向量计算的工具，word2vec的实质是通过一个浅层神经网络对文本中的词进行计算，通过word2vec对所述待分类文本进行处理的实质是将自然语言中的词转换为词向量进行表示。通过word2vec得到的词向量，可以很好地度量词与词之间的相似性。

120、计算所述文本向量与训练集中各样本类别的中心向量之间的相似度。

其中，所述训练集中的各样本类别中的样本均为经过word2vec处理后的样本向量。每个样本类别包括一定数量的属于该类别的样本，例如所述样本类别可以包括：新闻、体育、娱乐以及财经，样本类别“新闻”包括一定数量的新闻相关的文本，样本类别“体育”包括一定数量的体育相关的文本等。通过对待分类文本与训练集中已知类别的样本基于一定规则进行相似性判断，最终将待分类文本分类至对应的类别中。

传统的分类方法中，需要计算待分类文本对应的文本向量与训练集中的每个样本向量之间的相似度，当训练集中的样本数量过多时，则计算量会很大，极大地降低了分类效率，本实施例针对此进行改进，在对待分类文本进行分类时，只需计算待分类文本对应的文本向量与训练集中每个样本类别的中心向量之间的相似度即可，极大地降低了计算复杂度。

计算训练集中各样本类别的中心向量。

具体的，按照如下公式计算训练集中各样本类别的中心向量：

其中，O_i表示训练集中样本类别i的中心向量，C_in表示样本类别i中的样本总数，wi表示样本类别i中的第i个样本向量。

在得到训练集中各样本类别的中心向量的基础上，按照如下公式计算所述文本向量与训练集中各样本类别的中心向量之间的相似度：

130、基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值。

示例性的，所述基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，包括：

其中，g_i(d,C_i)表示待分类文本d归属训练集中第i个样本类别C_i的归属权重值，Sim(d_j,O_i)表示待分类文本d的文本向量d_j与训练集中第i个样本类别C_i的中心向量O_i之间的相似度，C_in为训练集中第i个样本类别C_i中的样本总数。

对各所述相似度进行平滑处理的目的是为了降低因样本数量不均衡导致分类错误的概率。若训练集中某个样本类别的样本数量很多，而其他样本类别下的样本数量很少，则极易出现待分类文本向量与样本数量很多的样本类别的中心向量之间的相似度最大，如此则将待分类文本分类至所述样本数量很多的样本类别中，但是，很多情况下，待分类文本并不属于所述样本数量很多的样本类别，因此出现分类错误的问题。为了降低因样本不均衡导致分类错误出现的概率，本实施例将待分类文本向量与每个样本类别的中心向量之间的相似度乘以由log函数的函数特性可知，样本类别的样本总数C_in越大，则的值越小，但是的变化比较平缓，因此，可以抑制样本总数很大的样本类别与待分类文本之间相似度的膨胀，经多次试验发现，通过对各所述相似度进行平滑处理，可大大提高对待分类文本的分类准确度。

140、统计所述归属权重值中的最大值。

具体的，统计所述归属权重值中的最大值为：

其中，N表示训练集中样本类别的总数。

150、将所述待分类文本分类至所述最大值对应的样本类别。

例如，若所述最大值为待分类文本对应的文本向量与训练集中第三个样本类别的中心向量之间的相似度，所述训练集中第三个样本类别为“新闻”，则将所述待分类文本分类至“新闻”类中。

举例说明上述文本分类过程：

假设训练集中有两个样本类别，分别为样本类别A和样本类别B，样本类别A包括三个样本，分别为样本a1、a2和a3，样本类别B包括两个样本，分别为样本b1和b2；

待分类文本集合C包括两个待分类文本，分别为待分类文本c1和c2；

通过word2vec对上述样本a1、a2和a3，样本b1和b2，待分类文本c1和c2分别进行处理，得到样本向量和样本向量和待分类文本向量和

首先，分别计算样本类别A的中心向量O_A，以及样本类别B的中心向量O_B：

其次，计算待分类文本向量分别与中心向量O_A和O_B之间的相似度，待分类文本向量分别与中心向量O_A和O_B之间的相似度：

假设

最后，分别对所述相似度进行平滑处理，得到待分类文本c1和c2归属训练集中各样本类别的归属权重值：

将待分类文本分类至所述归属权重值中的最大值对应的样本类别，因此，将待分类文本c1分类至样本类别B，将待分类文本c2分类至样本类别A。

本实施例提供的一种文本分类方法，通过仅计算待分类文本对应的文本向量与训练集中各样本类别的中心向量之间的相似度，极大地减少了分类过程的计算量，提高了分类效率，通过基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，最终将所述待分类文本分类至所述归属权重中的最大值对应的样本类别，解决了因训练集中各类别的样本数量不均衡导致分类错误的问题，从而提高了分类准确度。

实施例二

图2为本发明实施例二提供的一种文本分类装置结构示意图。参见图2所示，所述装置包括：获取模块210、计算模块220、处理模块230、统计模块240和分类模块250；

其中，获取模块210，用于获取待分类文本对应的文本向量；

计算模块220，用于计算所述文本向量与训练集中各样本类别的中心向量之间的相似度；

处理模块230，用于基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值；

统计模块240，用于统计所述归属权重值中的最大值；

分类模块250，用于将所述待分类文本分类至所述最大值对应的样本类别。

进一步的，所述装置还包括：

中心向量计算模块，用于计算训练集中各样本类别的中心向量。

进一步的，中心向量计算模块具体用于：

按照如下公式计算训练集中各样本类别的中心向量：

进一步的，计算模块220具体用于：

其中，Sim(d_j,O_i)表示文本向量d_j与训练集中样本类别i的中心向量O_i之间的相似度，V为所述文本向量以及训练集中各样本类别的中心向量的维度，w_ik为中心向量O_i在维度k上的数值，w_jk为文本向量d_j在维度k上的数值。

进一步的，处理模块230具体用于：

进一步的，获取模块210具体用于：将所述待分类文本进行word2vec处理，得到对应的文本向量。

本实施例提供的文本分类装置，通过仅计算待分类文本对应的文本向量与训练集中各样本类别的中心向量之间的相似度，极大地减少了分类过程的计算量，提高了分类效率，通过基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，最终将所述待分类文本分类至所述归属权重中的最大值对应的样本类别，解决了因训练集中各类别的样本数量不均衡导致分类错误的问题，从而提高了分类准确度。

实施例三

图3为本发明实施例三提供的一种电子设备的结构示意图。如图3所示，该电子设备包括：处理器670、存储器671及存储在存储器671上并可在处理器670上运行的计算机程序；其中，处理器670的数量可以是一个或多个，图3中以一个处理器670为例；处理器670执行所述计算机程序时实现如上述实施例一中所述的文本分类方法。如图3所示，所述电子设备还可以包括输入装置672和输出装置673。处理器670、存储器671、输入装置672和输出装置673可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器671作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中文本分类装置/模块(例如，文本分类装置中的获取模块210、计算模块220、处理模块230、统计模块240和分类模块250等)。处理器670通过运行存储在存储器671中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的文本分类方法。

存储器671可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器671可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器671可进一步包括相对于处理器670远程设置的存储器，这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置672可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置673可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种文本分类方法，该方法包括：

获取待分类文本对应的文本向量；

统计所述归属权重值中的最大值；

将所述待分类文本分类至所述最大值对应的样本类别。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的文本分类相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，存储介质，或者网络设备等)执行本发明各个实施例所述的。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类文本对应的文本向量；

统计所述归属权重值中的最大值；

将所述待分类文本分类至所述最大值对应的样本类别。

2.根据权利要求1所述的方法，其特征在于，所述计算所述文本向量与训练集中各样本类别的中心向量之间的相似度之前，所述方法还包括：

计算训练集中各样本类别的中心向量。

3.根据权利要求2所述的方法，其特征在于，所述计算训练集中各样本类别的中心向量，包括：

按照如下公式计算训练集中各样本类别的中心向量：

4.根据权利要求1所述的方法，其特征在于，所述计算所述文本向量与训练集中各样本类别的中心向量之间的相似度，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于各样本类别的样本总数对各对应的所述相似度进行平滑处理，得到所述待分类文本归属训练集中各样本类别的归属权重值，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待分类文本对应的文本向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述训练集中的各样本均为经过word2vec处理后的样本向量。

8.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类文本对应的文本向量；

统计模块，用于统计所述归属权重值中的最大值；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的文本分类方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的文本分类方法。