CN109284382B

CN109284382B - 一种文本分类方法及计算装置

Info

Publication number: CN109284382B
Application number: CN201811158905.6A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-05-28
Anticipated expiration: 2038-09-30
Also published as: CN109284382A

Abstract

本申请实施例公开了一种文本分类方法及计算装置，用于解决不同类间样本不均衡的问题以及特征筛选的问题，可以显著提升模型的文本分类效果。本申请实施例方法包括：获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息；从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。

Description

一种文本分类方法及计算装置

技术领域

本申请涉及大数据领域，尤其涉及一种文本分类方法及计算装置。

背景技术

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林实际上是一种特殊的套袋(bagging)方法，它将决策树用作bagging中的模型。首先，用bootstrap方法生成m个训练集，然后，对于每个训练集，构造一颗决策树，在节点找特征进行***的时候，并不是对所有特征找到能使得指标(如信息增益)最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行***。随机森林的方法由于有了bagging，也就是集成的思想在，实际上相当于对于样本和特征都进行了采样。

但是，在做基于随机森林算法的做文本分类任务时，会有两个常见问题：1、类别间的样本不均衡会导致分类的结果偏向类别样本多的类别；2、特征的选取决定的算法的执行速度及最终效果。

发明内容

本申请实施例提供了一种文本分类方法及计算装置，用于解决不同类间样本不均衡的问题以及特征筛选的问题，可以显著提升模型的文本分类效果。

有鉴于此，本申请第一方面提供了一种文本分类方法，可以包括：

获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；

从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值；

从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；

根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。

可选的，在本申请的一些实施例中，所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前，所述方法还包括：

获取X1个颜值区的原文本信息；

当X1与M的差值的绝对值大于所述预置阈值时，从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息；

根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息；

确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。

可选的，在本申请的一些实施例中，所述根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息，包括：

根据所述X2个颜值区的文本信息和欧式距离，确定X3个颜值区的近邻文本信息；

根据所述X3个颜值区的近邻文本信息和所述样本采样公式，计算得到所述X3个颜值区的新文本信息。

获取Y1个游戏分区的原文本信息；

当Y1与M的差值的绝对值大于所述预置阈值时，从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息；

根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息；

确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。

可选的，在本申请的一些实施例中，所述根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息，包括：

根据所述Y2个游戏分区的文本信息和欧式距离，确定Y3个游戏分区的近邻文本信息；

根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式，计算得到所述Y3个游戏分区的新文本信息。

可选的，在本申请的一些实施例中，所述特征选择公式为：

其中，G(A)表示属性A的信息增益，Splitl(A)表示属性A的信息划分量，T(F)表示属性A与非属性A的关联度，F表示非属性A集合，

调整系数，取值在(0,1)之间。

可选的，在本申请的一些实施例中，所述样本采样公式为：

s_i＝x_i+τ*max(0.1,|x_ij-x_i|)，

其中，s_i表示第i个新样本，x_i表示任意一个少数类样本，x_ij表示x_i的第j个近邻样本，0≤j≤N，N表示随机选出N个样本数，τ调整系数，取值在(0,1)之间。

本申请第二方面提供了一种计算装置，可以包括：

第一获取模块，用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；

第一选择模块，用于从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值；

第二选择模块，用于从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；

生成模块，用于根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。

可选的，在本申请的一些实施例中，计算装置还可以包括：

第二获取模块，用于获取X1个颜值区的原文本信息；

第三选择模块，用于当X1与M的差值的绝对值大于所述预置阈值时，从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息；

计算模块，用于根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息；

确定模块，用于确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。

可选的，在本申请的一些实施例中，

所述计算模块，具体用于根据所述X2个颜值区的文本信息和欧式距离，确定X3个颜值区的近邻文本信息；根据所述X3个颜值区的近邻文本信息和所述样本采样公式，计算得到所述X3个颜值区的新文本信息。

可选的，在本申请的一些实施例中，

第二获取模块，用于获取Y1个游戏分区的原文本信息；

第三选择模块，用于当Y1与M的差值的绝对值大于所述预置阈值时，从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息；

计算模块，用于根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息；

确定模块，用于确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。

可选的，在本申请的一些实施例中，

所述计算模块，具体用于根据所述Y2个游戏分区的文本信息和欧式距离，确定Y3个游戏分区的近邻文本信息；根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式，计算得到所述Y3个游戏分区的新文本信息。

可选的，在本申请的一些实施例中，所述特征选择公式为：

调整系数，取值在(0,1)之间。

可选的，在本申请的一些实施例中，所述样本采样公式为：

s_i＝x_i+τ*max(0.1,|x_ij-x_i|)，

第三方面，本发明实施例提供了一种计算装置，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前述第一方面实施例中所述的文本分类方法的步骤。

第四方面，本发明实施例提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述第一方面实施例中所述的文本分类方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值；从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。用于解决不同类间样本不均衡的问题以及特征筛选的问题，可以显著提升模型的文本分类效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，还可以根据这些附图获得其它的附图。

图1为本申请实施例中文本分类方法的一个实施例示意图；

图2为本申请实施例中计算装置的一个实施例示意图；

图3为本申请实施例中计算装置的另一个实施例示意图；

图4为本申请实施例中计算装置的另一个实施例示意图；

图5为本申请实施例中计算机可读存储介质的另一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，都应当属于本申请保护的范围。

下面先对本申请中所涉及的术语做一个简单的说明，如下所示：

随机森林算法(Random Forest，RF)，在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

根据下列算法而建造每棵树：

(1)用N来表示训练用例(样本)的个数，M表示特征数目。

(2)输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

(3)从N个训练用例(样本)中以有放回抽样的方式，取样N次，形成一个训练集(即bootstrap取样)，并用未抽到的用例(样本)作预测，评估其误差。

(4)对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的***方式。

(5)每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用。

在做基于随机森林算法的做文本分类任务时，会有2个常见问题：1、类别间的样本不均衡会导致分类的结果偏向类别样本多的类别；2、特征的选取决定的算法的执行速度及最终效果。

因此本发明针对这两个问题进行改进，下面以实施例的方式对本申请技术方案做进一步的说明，如图1所示，为本申请实施例中文本分类方法的一个实施例示意图，可以包括：

101、获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值。

在本申请实施例中，所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前，该方法还可以包括：

(1)获取X1个颜值区的原文本信息；当X1与M的差值的绝对值大于所述预置阈值时，从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息；根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息；确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。

或者，

(2)获取Y1个游戏分区的原文本信息；当Y1与M的差值的绝对值大于所述预置阈值时，从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息；根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息；确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。

可选的，所述根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息，可以包括：

根据所述X2个颜值区的文本信息和欧式距离，确定X3个颜值区的近邻文本信息；根据所述X3个颜值区的近邻文本信息和所述样本采样公式，计算得到所述X3个颜值区的新文本信息。

可选的，所述根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息，可以包括：

根据所述Y2个游戏分区的文本信息和欧式距离，确定Y3个游戏分区的近邻文本信息；根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式，计算得到所述Y3个游戏分区的新文本信息。

示例性的，计算装置可以从直播等页面的弹幕库中抽取颜值、游戏分区的文本信息(也可以称为语料)，例如：颜值区：10万条，游戏分区：2万条。

首先可以对所有语料利用结巴进行分词，并进行停用词过滤，并映射到4维word2vec空间；接着对游戏分区的文本信息进行补充，随机取1万作为原始样本；针对每一条原始样本，在TFIDF向量空间中，利用欧式距离，求出5条该样本的近邻样本；再利用样本采样公式对这5个近邻样本做变换，可以生成5个新样本。

其中，所述样本采样公式为：

s_i＝x_i+τ*max(0.1,|x_ij-x_i|)(公式一)，

其中，s_i表示第i个新样本，x_i表示任意一个少数类样本，x_ij表示x_i的第j个近邻样本，0≤j≤N，N表示随机选出N个样本数，τ调整系数，取值在(0,1)之间。需要说明的是，公式一的含义在于类别较少样本的采样公式，目的是增加N个样本，使得类别间的样本平衡。

假设s1：我喜欢看小姐姐[0.212，0.356，0.254，0.684]；因此可以求出s1的5条近邻样本：

s11＝[0.102,0.254,0.102,0.631],…，s15；

再利用公式一，通过s11变换生成的新样本；

s’＝s1+0.6*|s11-s1|

＝[0.212,0.356,0.254,0.684]+0.6*([0.11,0.102,0.152,0.053])

＝[0.278,0.4172,0.356,0.3452,0.7158]

因此新样本s’通过word2vec映射为新文本：小姐姐身材很好看。

同理，计算装置也可以获取其他近邻样本的新样本，那么游戏分区的样本数量就扩充为7万条。即5万条新样本的数量加上2万条原样本的数量。

102、从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值。

示例性的，随机森林中的每棵决策树，都是随机有回放的从整个语料库中选取2万语料作为该棵决策树的训练集合。

每个样本有3个特征，

特征A：句子长度是否大于5；

特征B：句子中词语最大逆文本频率指数(Inverse Document Frequency，IDF)值是否大于200；

特征C：句子中词语最大词频(Term Frequency，TF)值是否大于30。

103、从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征。

示例性的，从中选择t(t<3)维特征作为该棵决策树的候选特征。

104、根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。

其中，所述特征选择公式为：

调整系数，取值在(0,1)之间。公式二的含义在于，是决策树在选择特征作为结点的标准，信息增益比率最大的特征可以本轮的结点。

示例性的，计算装置从候选特征中，利用公式二，选择信息增益最大的特征对决策树的节点进行***,随机森林的成长过程中t值保持不变。

假设t＝2,第一次选取的特征为A、B，总样本数N＝20000，

游戏分区Ng＝8000条，颜值区Nf＝12000条；

A+＝9000，其中6000条属于颜值区，3000条属于游戏区；

A-＝11000，其中6000条属于颜值区，5000条属于游戏区；

B+＝5000，其中3000条属于颜值区，2000条属于游戏区；

B-＝15000，其中9000条属于颜值区，6000条属于游戏区。

因此计算装置可以根据公式三求出信息增益。

信息增益G(A)：G(A)＝E(S)-E(S|A)(公式三)，

其中，E(S)表示集合S的熵，参考决策树的熵值公式，E(S|A)表示以特征A划分时的熵，参考决策树的条件熵公式。公式三的含义在于，为信息增益公式，参考随机森林，在此是为了对公式二的补充说明。

示例性的，公式三：G(A)＝E(N)-E(S|A)；

因此，信息增益：G(A)＝0.292-0.286＝0.006。

计算装置可以根据公式四求出信息量分隔。

信息量划分Splitl(A)：

其中，n为以特征A划分的总数；a_j为以特征A划分时，类别j的总数。公式四的含义在于，为信息量划分公式，参考随机森林，在此是为了对公式二的补充说明。

示例性的，公式四，信息量分隔Split(A)：

因此计算装置可以根据公式五求出属性关联度的值。

属性关联度公式T(F)：

其中，n为不包含属性A的属性总数，H(F_i)表示第i个属性的熵值。公式五的含义在于，为属性之间的关联度公式，即属性A与其他的属性关联度越小，则属性A的信息增益比率越大。

示例性的，因为H(A)＝E(S|A),并且假设H(B)＝E(S|B)＝0.203，

那么根据公式二计算得到：

Gen(B)＝0.107。

同理可以求出Gen(B)＝0.107,因此Gen(B)>Gen(A),那么本次决策树应选取B特征***节点。

需要说明的是，循环执行步骤102-104，保证随机深林中的每棵决策树都最大限度裂变，不需要剪枝，最终生成随机深林模型。

下面对本申请实施例中的计算装置进行说明，如图2所示，图2为本申请实施例中计算装置的一个实施例示意图，可以包括：

第一获取模块201，用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；

第一选择模块202，用于从N个颜值区的文本信息和M个游戏分区的文本信息中选择A个文本信息，其中，A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，第一特征包括句子长度,第二特征包括句子中词语最大逆文本频率指数值，第三特征包括句子中词语最大词频值；

第二选择模块203，用于从第一特征、第二特征和第三特征中选择至少两个特征作为候选特征；

生成模块204，用于根据候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行***，生成随机森林模型。

可选的，在本申请的一些实施例中，如图3所示，图3为本申请实施例中计算装置的一个实施例示意图，计算装置还可以包括：

第二获取模块205，用于获取X1个颜值区的原文本信息；

第三选择模块206，用于当X1与M的差值的绝对值大于预置阈值时，从X1个颜值区的原文本信息中选择X2个颜值区的文本信息；

计算模块207，用于根据X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息；

确定模块208，用于确定X3个颜值区的新文本信息与X1个颜值区的原文本信息的和为N个颜值区的文本信息。

可选的，在本申请的一些实施例中，

计算模块207，具体用于根据X2个颜值区的文本信息和欧式距离，确定X3个颜值区的近邻文本信息；根据X3个颜值区的近邻文本信息和样本采样公式，计算得到X3个颜值区的新文本信息。

可选的，在本申请的一些实施例中，

第二获取模块205，用于获取Y1个游戏分区的原文本信息；

第三选择模块206，用于当Y1与M的差值的绝对值大于预置阈值时，从Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息；

计算模块207，用于根据Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息；

确定模块208，用于确定Y3个游戏分区的新文本信息与Y1个游戏分区的原文本信息的和为M个游戏分区的文本信息。

可选的，在本申请的一些实施例中，

计算模块207，具体用于根据Y2个游戏分区的文本信息和欧式距离，确定Y3个游戏分区的近邻文本信息；根据Y3个游戏分区的近邻文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息。

可选的，在本申请的一些实施例中，特征选择公式为：

调整系数，取值在(0,1)之间。

可选的，在本申请的一些实施例中，样本采样公式为：

s_i＝x_i+τ*max(0.1,|x_ij-x_i|)，

如图4所示，本发明实施例提供了一种计算装置，包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411，处理器420执行计算机程序411时可以实现以下步骤：

可选的，在本申请的一些实施例中，处理器420执行计算机程序411时还可以实现以下步骤：

获取X1个颜值区的原文本信息；

获取Y1个游戏分区的原文本信息；

可选的，在本申请的一些实施例中，所述特征选择公式为：

调整系数，取值在(0,1)之间。

可选的，在本申请的一些实施例中，所述样本采样公式为：

s_i＝x_i+τ*max(0.1,|x_ij-x_i|)，

请参阅图5，图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图5所示，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序511，该计算机程序511被处理器执行时可以实现如下步骤：

可选的，在本申请的一些实施例中，该计算机程序511被处理器执行时还可以实现如下步骤：

获取X1个颜值区的原文本信息；

获取Y1个游戏分区的原文本信息；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。