CN109284382B - 一种文本分类方法及计算装置 - Google Patents

一种文本分类方法及计算装置 Download PDF

Info

Publication number
CN109284382B
CN109284382B CN201811158905.6A CN201811158905A CN109284382B CN 109284382 B CN109284382 B CN 109284382B CN 201811158905 A CN201811158905 A CN 201811158905A CN 109284382 B CN109284382 B CN 109284382B
Authority
CN
China
Prior art keywords
text information
feature
color value
game
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811158905.6A
Other languages
English (en)
Other versions
CN109284382A (zh
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811158905.6A priority Critical patent/CN109284382B/zh
Publication of CN109284382A publication Critical patent/CN109284382A/zh
Application granted granted Critical
Publication of CN109284382B publication Critical patent/CN109284382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本分类方法及计算装置,用于解决不同类间样本不均衡的问题以及特征筛选的问题,可以显著提升模型的文本分类效果。本申请实施例方法包括:获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息;从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。

Description

一种文本分类方法及计算装置
技术领域
本申请涉及大数据领域,尤其涉及一种文本分类方法及计算装置。
背景技术
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林实际上是一种特殊的套袋(bagging)方法,它将决策树用作bagging中的模型。首先,用bootstrap方法生成m个训练集,然后,对于每个训练集,构造一颗决策树,在节点找特征进行***的时候,并不是对所有特征找到能使得指标(如信息增益)最大的,而是在特征中随机抽取一部分特征,在抽到的特征中间找到最优解,应用于节点,进行***。随机森林的方法由于有了bagging,也就是集成的思想在,实际上相当于对于样本和特征都进行了采样。
但是,在做基于随机森林算法的做文本分类任务时,会有两个常见问题:1、类别间的样本不均衡会导致分类的结果偏向类别样本多的类别;2、特征的选取决定的算法的执行速度及最终效果。
发明内容
本申请实施例提供了一种文本分类方法及计算装置,用于解决不同类间样本不均衡的问题以及特征筛选的问题,可以显著提升模型的文本分类效果。
有鉴于此,本申请第一方面提供了一种文本分类方法,可以包括:
获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
可选的,在本申请的一些实施例中,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:
获取X1个颜值区的原文本信息;
当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
可选的,在本申请的一些实施例中,所述根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息,包括:
根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;
根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
可选的,在本申请的一些实施例中,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:
获取Y1个游戏分区的原文本信息;
当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
可选的,在本申请的一些实施例中,所述根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息,包括:
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;
根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
可选的,在本申请的一些实施例中,所述特征选择公式为:
Figure BDA0001819574390000031
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure BDA0001819574390000032
调整系数,取值在(0,1)之间。
可选的,在本申请的一些实施例中,所述样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。
本申请第二方面提供了一种计算装置,可以包括:
第一获取模块,用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
第一选择模块,用于从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
第二选择模块,用于从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
生成模块,用于根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
可选的,在本申请的一些实施例中,计算装置还可以包括:
第二获取模块,用于获取X1个颜值区的原文本信息;
第三选择模块,用于当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
计算模块,用于根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定模块,用于确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
可选的,在本申请的一些实施例中,
所述计算模块,具体用于根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
可选的,在本申请的一些实施例中,
第二获取模块,用于获取Y1个游戏分区的原文本信息;
第三选择模块,用于当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
计算模块,用于根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定模块,用于确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
可选的,在本申请的一些实施例中,
所述计算模块,具体用于根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
可选的,在本申请的一些实施例中,所述特征选择公式为:
Figure BDA0001819574390000041
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure BDA0001819574390000042
调整系数,取值在(0,1)之间。
可选的,在本申请的一些实施例中,所述样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。
第三方面,本发明实施例提供了一种计算装置,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前述第一方面实施例中所述的文本分类方法的步骤。
第四方面,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面实施例中所述的文本分类方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
在本申请实施例中,获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。用于解决不同类间样本不均衡的问题以及特征筛选的问题,可以显著提升模型的文本分类效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,还可以根据这些附图获得其它的附图。
图1为本申请实施例中文本分类方法的一个实施例示意图;
图2为本申请实施例中计算装置的一个实施例示意图;
图3为本申请实施例中计算装置的另一个实施例示意图;
图4为本申请实施例中计算装置的另一个实施例示意图;
图5为本申请实施例中计算机可读存储介质的另一个实施例示意图。
具体实施方式
本申请实施例提供了一种文本分类方法及计算装置,用于解决不同类间样本不均衡的问题以及特征筛选的问题,可以显著提升模型的文本分类效果。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,都应当属于本申请保护的范围。
下面先对本申请中所涉及的术语做一个简单的说明,如下所示:
随机森林算法(Random Forest,RF),在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
根据下列算法而建造每棵树:
(1)用N来表示训练用例(样本)的个数,M表示特征数目。
(2)输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。
(3)从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
(4)对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的***方式。
(5)每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。
在做基于随机森林算法的做文本分类任务时,会有2个常见问题:1、类别间的样本不均衡会导致分类的结果偏向类别样本多的类别;2、特征的选取决定的算法的执行速度及最终效果。
因此本发明针对这两个问题进行改进,下面以实施例的方式对本申请技术方案做进一步的说明,如图1所示,为本申请实施例中文本分类方法的一个实施例示意图,可以包括:
101、获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值。
在本申请实施例中,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,该方法还可以包括:
(1)获取X1个颜值区的原文本信息;当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
或者,
(2)获取Y1个游戏分区的原文本信息;当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
可选的,所述根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息,可以包括:
根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
可选的,所述根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息,可以包括:
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
示例性的,计算装置可以从直播等页面的弹幕库中抽取颜值、游戏分区的文本信息(也可以称为语料),例如:颜值区:10万条,游戏分区:2万条。
首先可以对所有语料利用结巴进行分词,并进行停用词过滤,并映射到4维word2vec空间;接着对游戏分区的文本信息进行补充,随机取1万作为原始样本;针对每一条原始样本,在TFIDF向量空间中,利用欧式距离,求出5条该样本的近邻样本;再利用样本采样公式对这5个近邻样本做变换,可以生成5个新样本。
其中,所述样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|)(公式一),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。需要说明的是,公式一的含义在于类别较少样本的采样公式,目的是增加N个样本,使得类别间的样本平衡。
假设s1:我喜欢看小姐姐[0.212,0.356,0.254,0.684];因此可以求出s1的5条近邻样本:
s11=[0.102,0.254,0.102,0.631],…,s15;
再利用公式一,通过s11变换生成的新样本;
s’=s1+0.6*|s11-s1|
=[0.212,0.356,0.254,0.684]+0.6*([0.11,0.102,0.152,0.053])
=[0.278,0.4172,0.356,0.3452,0.7158]
因此新样本s’通过word2vec映射为新文本:小姐姐身材很好看。
同理,计算装置也可以获取其他近邻样本的新样本,那么游戏分区的样本数量就扩充为7万条。即5万条新样本的数量加上2万条原样本的数量。
102、从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值。
示例性的,随机森林中的每棵决策树,都是随机有回放的从整个语料库中选取2万语料作为该棵决策树的训练集合。
每个样本有3个特征,
特征A:句子长度是否大于5;
特征B:句子中词语最大逆文本频率指数(Inverse Document Frequency,IDF)值是否大于200;
特征C:句子中词语最大词频(Term Frequency,TF)值是否大于30。
103、从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征。
示例性的,从中选择t(t<3)维特征作为该棵决策树的候选特征。
104、根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
其中,所述特征选择公式为:
Figure BDA0001819574390000091
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure BDA0001819574390000092
调整系数,取值在(0,1)之间。公式二的含义在于,是决策树在选择特征作为结点的标准,信息增益比率最大的特征可以本轮的结点。
示例性的,计算装置从候选特征中,利用公式二,选择信息增益最大的特征对决策树的节点进行***,随机森林的成长过程中t值保持不变。
假设t=2,第一次选取的特征为A、B,总样本数N=20000,
游戏分区Ng=8000条,颜值区Nf=12000条;
A+=9000,其中6000条属于颜值区,3000条属于游戏区;
A-=11000,其中6000条属于颜值区,5000条属于游戏区;
B+=5000,其中3000条属于颜值区,2000条属于游戏区;
B-=15000,其中9000条属于颜值区,6000条属于游戏区。
因此计算装置可以根据公式三求出信息增益。
信息增益G(A):G(A)=E(S)-E(S|A)(公式三),
其中,E(S)表示集合S的熵,参考决策树的熵值公式,E(S|A)表示以特征A划分时的熵,参考决策树的条件熵公式。公式三的含义在于,为信息增益公式,参考随机森林,在此是为了对公式二的补充说明。
示例性的,公式三:G(A)=E(N)-E(S|A);
Figure BDA0001819574390000101
Figure BDA0001819574390000102
因此,信息增益:G(A)=0.292-0.286=0.006。
计算装置可以根据公式四求出信息量分隔。
信息量划分Splitl(A):
Figure BDA0001819574390000103
其中,n为以特征A划分的总数;aj为以特征A划分时,类别j的总数。公式四的含义在于,为信息量划分公式,参考随机森林,在此是为了对公式二的补充说明。
示例性的,公式四,信息量分隔Split(A):
Figure BDA0001819574390000104
因此计算装置可以根据公式五求出属性关联度的值。
属性关联度公式T(F):
Figure BDA0001819574390000105
其中,n为不包含属性A的属性总数,H(Fi)表示第i个属性的熵值。公式五的含义在于,为属性之间的关联度公式,即属性A与其他的属性关联度越小,则属性A的信息增益比率越大。
示例性的,因为H(A)=E(S|A),并且假设H(B)=E(S|B)=0.203,
Figure BDA0001819574390000106
那么根据公式二计算得到:
Figure BDA0001819574390000111
Gen(B)=0.107。
同理可以求出Gen(B)=0.107,因此Gen(B)>Gen(A),那么本次决策树应选取B特征***节点。
需要说明的是,循环执行步骤102-104,保证随机深林中的每棵决策树都最大限度裂变,不需要剪枝,最终生成随机深林模型。
在本申请实施例中,获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。用于解决不同类间样本不均衡的问题以及特征筛选的问题,可以显著提升模型的文本分类效果。
下面对本申请实施例中的计算装置进行说明,如图2所示,图2为本申请实施例中计算装置的一个实施例示意图,可以包括:
第一获取模块201,用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
第一选择模块202,用于从N个颜值区的文本信息和M个游戏分区的文本信息中选择A个文本信息,其中,A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,第一特征包括句子长度,第二特征包括句子中词语最大逆文本频率指数值,第三特征包括句子中词语最大词频值;
第二选择模块203,用于从第一特征、第二特征和第三特征中选择至少两个特征作为候选特征;
生成模块204,用于根据候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
可选的,在本申请的一些实施例中,如图3所示,图3为本申请实施例中计算装置的一个实施例示意图,计算装置还可以包括:
第二获取模块205,用于获取X1个颜值区的原文本信息;
第三选择模块206,用于当X1与M的差值的绝对值大于预置阈值时,从X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
计算模块207,用于根据X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定模块208,用于确定X3个颜值区的新文本信息与X1个颜值区的原文本信息的和为N个颜值区的文本信息。
可选的,在本申请的一些实施例中,
计算模块207,具体用于根据X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;根据X3个颜值区的近邻文本信息和样本采样公式,计算得到X3个颜值区的新文本信息。
可选的,在本申请的一些实施例中,
第二获取模块205,用于获取Y1个游戏分区的原文本信息;
第三选择模块206,用于当Y1与M的差值的绝对值大于预置阈值时,从Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
计算模块207,用于根据Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定模块208,用于确定Y3个游戏分区的新文本信息与Y1个游戏分区的原文本信息的和为M个游戏分区的文本信息。
可选的,在本申请的一些实施例中,
计算模块207,具体用于根据Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;根据Y3个游戏分区的近邻文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息。
可选的,在本申请的一些实施例中,特征选择公式为:
Figure BDA0001819574390000121
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure BDA0001819574390000131
调整系数,取值在(0,1)之间。
可选的,在本申请的一些实施例中,样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。
如图4所示,本发明实施例提供了一种计算装置,包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时可以实现以下步骤:
获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
获取X1个颜值区的原文本信息;
当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;
根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
获取Y1个游戏分区的原文本信息;
当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;
根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
可选的,在本申请的一些实施例中,所述特征选择公式为:
Figure BDA0001819574390000141
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure BDA0001819574390000142
调整系数,取值在(0,1)之间。
可选的,在本申请的一些实施例中,所述样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。
请参阅图5,图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序511,该计算机程序511被处理器执行时可以实现如下步骤:
获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
获取X1个颜值区的原文本信息;
当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;
根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
获取Y1个游戏分区的原文本信息;
当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;
根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;
根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种文本分类方法,其特征在于,包括:
获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型;
所述特征选择公式为:
Figure FDA0002805708050000011
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure FDA0002805708050000012
调整系数,取值在(0,1)之间。
2.根据权利要求1所述的方法,其特征在于,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:
获取X1个颜值区的原文本信息;
当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;
根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;
确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息,包括:
根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;
根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。
4.根据权利要求1所述的方法,其特征在于,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:
获取Y1个游戏分区的原文本信息;
当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;
根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;
确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息,包括:
根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;
根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。
6.根据权利要求2-5中任一项所述的方法,其特征在于,所述样本采样公式为:
si=xi+τ*max(0.1,|xij-xi|),
其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。
7.一种计算装置,其特征在于,包括:
第一获取模块,用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;
第一选择模块,用于从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;
第二选择模块,用于从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;
生成模块,用于根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行***,生成随机森林模型;
所述特征选择公式为:
Figure FDA0002805708050000031
其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,
Figure FDA0002805708050000032
调整系数,取值在(0,1)之间。
8.一种计算装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一项所述的文本分类方法的步骤。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的文本分类方法的步骤。
CN201811158905.6A 2018-09-30 2018-09-30 一种文本分类方法及计算装置 Active CN109284382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811158905.6A CN109284382B (zh) 2018-09-30 2018-09-30 一种文本分类方法及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811158905.6A CN109284382B (zh) 2018-09-30 2018-09-30 一种文本分类方法及计算装置

Publications (2)

Publication Number Publication Date
CN109284382A CN109284382A (zh) 2019-01-29
CN109284382B true CN109284382B (zh) 2021-05-28

Family

ID=65182189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811158905.6A Active CN109284382B (zh) 2018-09-30 2018-09-30 一种文本分类方法及计算装置

Country Status (1)

Country Link
CN (1) CN109284382B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390400B (zh) * 2019-07-02 2023-07-14 北京三快在线科技有限公司 计算模型的特征生成方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473231A (zh) * 2012-06-06 2013-12-25 深圳先进技术研究院 分类器构建方法和***
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107357895A (zh) * 2017-01-05 2017-11-17 大连理工大学 一种基于词袋模型的文本表示的处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141978A (zh) * 2010-02-02 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473231A (zh) * 2012-06-06 2013-12-25 深圳先进技术研究院 分类器构建方法和***
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107357895A (zh) * 2017-01-05 2017-11-17 大连理工大学 一种基于词袋模型的文本表示的处理方法

Also Published As

Publication number Publication date
CN109284382A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN105335519B (zh) 模型生成方法及装置、推荐方法及装置
CN110110322A (zh) 网络新词发现方法、装置、电子设备及存储介质
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN111767403A (zh) 一种文本分类方法和装置
KR101623860B1 (ko) 문서 요소에 대한 유사도를 산출하는 방법
CN109918498B (zh) 一种问题入库方法和装置
KR101757900B1 (ko) 지식 베이스의 구축 방법 및 장치
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN113761105A (zh) 文本数据处理方法、装置、设备以及介质
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN115470344A (zh) 一种基于文本聚类的视频弹幕与评论主题融合的方法
CN109284382B (zh) 一种文本分类方法及计算装置
CN109299463B (zh) 一种情感得分的计算方法以及相关设备
US20210312333A1 (en) Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program
CN105354343B (zh) 基于远程对话的用户特征挖掘方法
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
JP6446987B2 (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
CN111556375B (zh) 视频弹幕的生成方法、装置、计算机设备及存储介质
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN112765329B (zh) 一种社交网络关键节点发现方法及***
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
WO2014117296A1 (en) Generating a hint for a query

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant