CN103886108A - 一种不均衡文本集的特征选择和权重计算方法 - Google Patents

一种不均衡文本集的特征选择和权重计算方法 Download PDF

Info

Publication number
CN103886108A
CN103886108A CN201410149441.8A CN201410149441A CN103886108A CN 103886108 A CN103886108 A CN 103886108A CN 201410149441 A CN201410149441 A CN 201410149441A CN 103886108 A CN103886108 A CN 103886108A
Authority
CN
China
Prior art keywords
feature
classification
text
chi
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410149441.8A
Other languages
English (en)
Other versions
CN103886108B (zh
Inventor
刘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goonie International Software (Beijing) Co.,Ltd.
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410149441.8A priority Critical patent/CN103886108B/zh
Publication of CN103886108A publication Critical patent/CN103886108A/zh
Application granted granted Critical
Publication of CN103886108B publication Critical patent/CN103886108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种不均衡文本集的特征选择和权重计算方法,属于文本信息处理领域,具体是涉及不均衡文本集的特征选择和权重计算方法。针对不均衡文本数据的分类问题,本发明提出一种特征选取和权重计算方法与***。本发明结合类别区分度和平均词频因素,通过改进卡方统计量方法进行特征选取,同时对常用的特征权重计算方法进行改进,并在其基础上提出了TF-IDF的权重计算方法,本发明提供的方法在处理不均衡数据集问题时效果要优于传统的特征选择方法,对于有效提高分类准确率是有效可行的。

Description

一种不均衡文本集的特征选择和权重计算方法
技术领域
本发明属于文本信息处理领域,具体是涉及不均衡文本集的特征选择和权重计算方法。
背景技术
随着信息技术的飞速发展和互联网的普及,文本信息资源出现了迅速的膨胀。这些信息资源在为丰富人们知识和提供了便利,但是这其中也含有大量的垃圾信息。作为信息检索技术的主要技术之一,文本分类技术在提高信息检索和过滤***性能等方面具有很高的应用价值。
通常情况下,文本的来源不仅包括网页、邮件,还包括短信、微博和论坛帖子等等。在文本分类过程中,如果将文本表示成向量形式,训练集中的特征可能数以万计。在大量的特征中,很多不相关和冗余的特征需要去除,干扰分类准确性的噪声特征也需要去除。庞大的特征空间维数会降低分类器的性能和泛化能力,同时处理高维向量需要极高的时间复杂度。特征选择作为文本分类技术的重要环节,通过对特征进行降维处理来提高分类器的效率和精度。由于类别信息是文本分类的重要组成部分,文本分类存在类别关系复杂、分布不均衡和类别不确定等问题,这些问题为特征选择研究提出了很多的挑战。
很多传统的机器学习方法都是基于数据集均衡情况下的,但是现实应用中,绝大多数据是不均衡的,传统机器学习方法对不均衡数据集的处理效果通常较差。如何有效对不均衡数据集进行处理是数据挖掘领域的一个研究热点。对于不均衡数据集的处理在医疗诊断、金融贷款管理和邮件过滤等领域中有着广阔的前景和实际意义。在对于不均衡问题的处理有两个层面,一是取样层面,二是算法层面。本发明给出了特征选取将集中基于不均衡数据集的特征选择方面。
发明人通过综合考虑不均衡数据集的特征选取方法,给出一种不均衡文本集的特征选择和权重计算方法,克服了传统分类方法面对不均衡数据集的局限性。
发明内容
本发明的目的在于针对不均衡文本数据的分类问题,提出一种特征选取和权重计算方法与***。本发明结合类别区分度和平均词频因素,通过改进卡方统计量方法进行特征选取。同时还对常用的特征权重计算方法进行改进,并在其基础上提出了TF-IDF的权重计算方法,实验表明,改进方法在处理不均衡数据集问题时效果要优于传统的特征选择方法,对于提高分类准确率是有效可行的。
本发明是采用以下技术手段实现的:
步骤1:对文本集进行文本预处理,提取语义信息,方法如下:
步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理。
步骤1.2:过滤掉分词处理后的停用词,包括:语气助词、介词、副词。
步骤2:进行文本集的特征选择计算,方法如下:
对每条预处理后的文本数据集进行如下处理
步骤2.1:计算特征t与类别c的CHI统计量
包含特征t且属于类别ci,记为A。
包含特征t且不属于类别
Figure BDA0000490324070000025
,记为B。
不包含特征
Figure BDA0000490324070000026
且属于类别ci,记为C。
不包含特征且不属于类别,记为D。
特征t与类别c的CHI统计量计算公式为:
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) , AD - BC > 0 0 , AD - BC ≤ 0 - - - ( 1 )
步骤2.2:计算倒转类别频率ICF
其中M是文本集类别的总数,mt是文档集中出现特征t的类别的数目。
ECF t , C = In M m t + 1 其中M>0,0≤mt≤M
步骤2.3:进行改进的卡方统计量计算
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) × ICF t , C × TC i T C i ‾ , AD - BC > 0 0 , AD - BC ≤ 0 - - - ( 2 )
其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大。这里χ2(t,c)取值范围为[0,+∞)之间。
步骤3:特征词权重计算,方法如下:
对每个文本中的特征词进行权重计算
步骤3.1:计算λ因子,方法如下:
λ ( t , c i ) = DF ( t , c i ) D ( c i ) - - - ( 3 )
其中,DF(t,ci)表示ci类中包含特征项t的文本数,D(ci)表示ci类中的文本总数,λ即为某一类别中包含特征词t的文本数占该类文本总数的比例,λ(t,ci)取值范围为[0,1]之间;
步骤3.2:计算TF-IDF*λIG数值
w ( t i , d j ) = tf ij * log ( N n i ) * λIG Σ i ∈ d j [ tf ij * log ( N n i ) * λIG ] 2 - - - ( 4 )
步骤3.3:计算TF-IDF*λCHI
w ( t i , d j ) = tf ij * log ( N n i + L ) * λCHI Σ i ∈ d j [ tf ij * log ( N n i + L ) * CHI ] 2 - - - ( 5 )
步骤3.2和步骤3.3中公式的参数t表示特征项,其中N是文本集中类别的总数,ni是文本集中出现特征t的类别的数目。tfij表示一个特征词ti在某个文本dj中出现的次数。W(ti,dj)取值范围为[0,1]之间。
步骤4:分类结果输出。
本发明与现有技术相比,具有以下明显的优势和有益效果:
发明方法综合考虑了特征在正负类别中的分布情况,能够综合的选择代表性和鉴别性比较强的特征,避免传统特征选择方法在不均衡数据集上的不适应性。基于特征结合模式的权重计算方法更好的解决了向量空间维数高和关联特征词的提取问题,提高了分类程序的效率和分类的精度。
附图说明
图1实现不均衡文本数据集特征选取和权重计算方法及***的流程图;
图2非平衡比下正类的F1值折线图;
图3卡方统计量特征选择下的改进后TF-IDF权重计算的实验结果;
图4信息增益特征选择下的改进后TF-IDF权重计算的对比结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。根据图1所示,本发明提出的方法是依次按以下步骤实现的:
步骤1:对不均衡文本集进行文本预处理,提取含有语义信息的词。
步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理。
实验分词处理采用汉语词法分析***ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)。
步骤1.2:过滤掉分词处理后的停用词。如语气助词、介词、副词等。
文本中如果大量存在停用词会对其有效信息造成噪音干扰。删除停用词后能够达到粗降维的效果,目的是为了提高分类程序的效率和分类的精度。
步骤2:进行文本集的特征选择计算
对每条预处理后的不均衡文本数据集进行如下处理:
步骤2.1:计算特征t与类别c的CHI统计量,这里
(t,ci):包含特征t且属于类别ci,记为A。
包含特征t且不属于类别
Figure BDA0000490324070000044
,记为B。
不包含特征
Figure BDA0000490324070000043
且属于类别ci,记为C。
Figure BDA0000490324070000051
不包含特征
Figure BDA0000490324070000052
且不属于类别
Figure BDA0000490324070000053
记为D。
A和D表现了特征t和类别ci的正依赖性,B和D表现了特征t和类别ci的负依赖性。CHI统计特征选择方法中特征t与类别c的CHI统计量计算公式为:
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) , AD - BC > 0 0 , AD - BC ≤ 0 - - - ( 1 )
步骤2.2:计算不均衡文本集合的倒转类别频率ICF;
由于不同的特征对类别的区分度存在着差异,显然正类中的特征具有较好的类别区分度。倒转类别频率ICF(Inverse Category Frequency)计算公式如下:
ICF t , C = In M m t + 1 - - - ( 2 )
其中M是文本集C中类别的总数,mi是C中出现特征t的类别的数目。加1是为了避免ICF为0,
步骤2.3:进行改进的卡方统计量计算
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) × ICF t , C × TC i T C i ‾ , AD - BC > 0 0 , AD - BC ≤ 0 - - - ( 3 )
其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频
Figure BDA0000490324070000057
的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大。
步骤3:进行不均衡文本集中特征词权重计算
计算特征词权重通过特征词在文本中出现的频率和数目来确定此特征词的权重。本发明使用TF‐IDF函数计算特征权重。
词频用TF表示,即一个特征词在文本中出现的次数。一个特征词的TF值越大表明其类别代表能力越强。反文本频率用IDF表示,其含义为:如果包含某个特征词的文本数越少,该特征词代表某类文本的能力越强,其权重也越大。
TF‐IDF公式是将词频与反文本频率相乘,标准化后的TF‐IDF函数公式为:
T F i * ID F j = tf i * log ( N n j + L ) Σ t ∈ d k [ tf j * log ( N n j + L ) ] 2 - - - ( 4 )
其中L为常数,根据实验确定。N为总文本数,nj为出现特征词tj的文本数。
发明人对每个文本中的特征词权重计算方法进行了改进。在基于TF‐IDF的改进过程中加入了特征词对文本类别判别的考虑。使用TF‐IDF表现特征项在文本中出现的频数,用特征选择函数表现特征项与文本类别之间的关系。
步骤3.1:计算λ因子
在数据不均衡情况下,即使“大类”包含特征词的文本数很少,也可能会大于“小类”中包含该特征词的文本数。通过引入λ因子进行调节,如下表示:
λ ( t , c i ) = DF ( t , c i ) D ( c i ) - - - ( 5 )
其中,DF(t,ci)表示ci类中包含特征项t的文本数,D(ci)表示ci类中的文本总数,λ即为某一类别中包含特征词t的文本数占该类文本总数的比例;
步骤3.2:加入信息增益,计算TF‐IDF*λIG数值
信息增益(Information Gain)衡量特征出现与否为分类提供的信息量。对于每个特征t,增益差值越大,该特征对分类作用越重要。特征t信息增益如下所示: IG ( t ) = - Σ i = 1 n P ( c i ) log P ( c i ) + P ( t ) Σ i = 1 n P ( c i | t ) log P ( c i | t ) log P ( c i | t ) + P ( t ‾ ) Σ i = 1 n P ( c i | t ‾ ) log P ( c i | t ‾ ) - - - ( 6 )
其中,P(ci)为文本属于类别ci的概率,P(t)为特征t出现在文本集中的概率,P(ci|t)表示包含特征t时,文本属于ci的概率,
Figure BDA0000490324070000064
表示文本集中不包含特征t的文本的概率,
Figure BDA0000490324070000065
表示文本不包含特征t是属于ci的概率,n为类别数。
首先用TF‐IDF选出在单个文本中出现的频率较高,但在其它文本中出现的频率较少的特征词。再通过信息增益找出未在样本中出现,但是可以表达该文本含义,且对判别文本类别有很大贡献的词。最后引入λ因子进行结合,改进公式为:
w ( t i , d j ) = tf ij * log ( N n i ) * λIG Σ i ∈ d j [ tf ij * log ( N n i ) * λIG ] 2 - - - ( 7 )
步骤3.3:引入改进的卡方统计量,计算TF-IDF*λCHI
CHI表现特征词与类别之间的关系,引入λ因子将其与TF-IDF进行结合,改进后算法偏重于出现频率较多且能含有大量类别信息的特征词。改进后公式为:
w ( t i , d j ) = tf ij * log ( N n i + L ) * λCHI Σ i ∈ d j [ tf ij * log ( N n i + L ) * CHI ] 2 - - - ( 8 )
步骤4:根据改进的特征选取和权重计算方法进行分类效果对比测试。
为了检验本发明的方法相对于传统方法有所改进,本发明进行了如下实验。
步骤4.1:不均衡数据集文本分类的特征选择实验
实验数据来源于科研数据共享平台网站上获取的复旦大学中文语料库,并采用开放性测试方法。复旦大学中文语料库包含20个类别,分为训练集和测试集两部分,两部分的样本数大致相等且没有重叠,全部文本为txt格式。训练集和测试集的类别分布情况如表1所示:
表1训练集和测试集的类别分布情况
Figure BDA0000490324070000072
对应类别名称对应如下:
C3‐艺术,C4‐文学,C5‐教育,C6‐哲学,C7‐历史,C11‐空间,C15‐能量,C16‐电子学,C17‐通信,C19‐计算机,C23‐采矿,C29‐运输,C31‐环境,C32‐农用,C34‐经济,C35‐法律,C36‐医学,C37‐军事,C38‐政治,C39‐体育。
在文本分类实验中,根据实际应用将两部分合并和选取样本。本文选取复旦大学中文语料库中样本数量相差较大C5和C34作为不均衡数据集进行实验,正类C5中随机选取60篇文本,负类C34根据特定比例随机选取6组。不均衡数据集的实验数据如表2所示:
表2不均衡数据集的实验数据
Figure BDA0000490324070000073
这里使用3倍交叉验证的方法(3‐fold cross validation),将上面选取的样本集等分为3组,其中2组作为训练集,1组作为测试集,并将此过程重复三次,最后取这三次实验结果的平均值。
实验分词处理采用汉语词法分析***ICTCLAS,选择的特征为1000维。分类算法采用支持向量机。性能评估方法采用查准率和查全率的综合指标F1值,其公式为:
F 1 = 2 precision * recall precision + recall - - - ( 9 )
下面是不同非平衡比下CHI、IG和改进后CHI特征选择方法的实验结果对比,该实验的加权方法采用TF‐IDF特征加权方法,实验结果如下:
表3TF‐IDF特征加权方法实验结果
Figure BDA0000490324070000082
由于更加关注不均衡数据集中正类的分类效果,同时为了便于实验数据的对比分析,将不同的不均衡比下正类F1值用折线图来表示,如图4所示。通过观察可以看出,随着正负两类非平衡比的不断增大,三种特征选择方法中,负类的F1值均呈现出小幅度的增长,而改进后CHI方法中负类的F1值要优于CHI和IG。
从正类F1值变化曲线可以发现,在不同特征选择方法下,正类F1值的变化相差较大。随着非平衡比的不断增大,改进后CHI方法中正类F1值取得了比其他方法更好的效果,并于1:10之后达到比较稳定的值,即改进后CHI方法在不降低负类分类效果同时,使正类样本得到了应有重视,取得了令人满意的效果。
改进后的CHI方法综合考虑了特征在正负类别中的分布情况,能够综合的选择代表性和鉴别性比较强的特征。同时从实验数据中可以看出,改进后的方法受数据集不均衡度的影响很小,在不同的不均衡比下,改进后的CHI方法在不降低负类分类性能的同时,其正类的分类性能可以保持在一个相对理想的状态。
综上所述,改进后的CHI方法很好的避免传统特征选择方法在不均衡数据集上的不适应性,并在不降低负类分类性能的同时,较大幅度提升了正类分类性能。
步骤4.2:不均衡数据集文本分类的权重计算实验
实验数据来源于科研数据共享平台网站上获取的复旦大学中文语料库,并采用开放性测试方法。复旦大学中文语料库包含20个类别,分为训练集和测试集两部分,两部分的样本数大致相等且没有重叠,全部文本为txt格式。从中选取10个类别,用于训练和测试的样本数分布情况如表4所示。
表4训练和测试的样本数分布
Figure BDA0000490324070000091
选取KNN分类算法进行模型训练,测试当特征选择函数相同时,权值计算公式分别选择TF‐IDF和TF‐IDF*λ特征选择函数时的分类效果。K取值为10。
(1)使用信息增益IG作为特征选择方法,特征权值计算方法分别为TF‐IDF和TF‐IDF‐λIG。实验结果见表5,总体的对比结果如图3所示。
表5信息增益特征选择下的改进后TF-IDF权重计算的实验结果
Figure BDA0000490324070000092
从中可以看出,改进后的TF‐IDF*λIG方法在宏平均召回率、准确率和微平均准确率三方面都有了比较显著的提升。从类别准确率角度看,改进后的方法在C7和C11两个类别有了较大的提升,其中C7为一个样本数相对较少的类别,在其余类别也有一定提升,但是幅度有限。
(2)使用卡方统计量CHI作为特征选择方法,特征权值计算方法分别为TF‐IDF,TF‐IDF‐λCHI。实验结果见表6,总体的对比结果如图4所示。
表6卡方统计量特征选择下的改进后TF-IDF权重计算的实验结果
从中可以看出,虽然改进后的TF‐IDF*λCHI方法在宏平均召回率上有小幅度的下降,但是在宏平均和微平均准确率上有了明显的提高。大部分类别的准确率都有一定提升,C39和C7提升幅度比较明显。
通过以上实施例,在使用KNN分类模型进行测试基于特征结合的权重方法改进中,改进后的TF‐IDF方法分类效果要明显的好于传统TF‐IDF方法,在个别类别中样本较小情况下也表现出了较好的分类效果。这种基于特征结合模式的权重计算方法能够更好的解决向量空间维数高和关联特征词的提取的问题。
实验结果表明,本发明提出的利用特征结合的权重改进方法相比于传统方法有明显改进。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种不均衡文本集的特征选择和权重计算方法及***,按以下步骤实现:
步骤1:对文本集进行文本预处理,提取语义信息,方法如下:
步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理;
步骤1.2:过滤掉分词处理后的停用词,语气助词、介词、副词;
步骤2:进行文本集的特征选择计算,方法如下:
对每条预处理后的文本数据集进行如下处理
步骤2.1:计算特征t与类别c的CHI统计量
包含特征t且属于类别ci,记为A;
包含特征t且不属于类别
Figure FDA0000490324060000014
,记为B;
不包含特征
Figure FDA0000490324060000015
且属于类别ci,记为C;
不包含特征
Figure FDA0000490324060000017
且不属于类别
Figure FDA0000490324060000016
,记为D;
特征t与类别c的CHI统计量计算公式为:
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) , AD - BC > 0 0 , AD - BC ≤ 0
步骤2.2:计算倒转类别频率ICF;
其中M是文本集C中类别的总数,mt是C中出现特征t的类别的数目;
ECF t , C = In M m t + 1
步骤2.3:进行改进的卡方统计量计算,方法如下:
χ 2 ( t , c ) = { N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) × ICF t , C × TC i T C i ‾ , AD - BC > 0 0 , AD - BC ≤ 0
其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频
Figure FDA0000490324060000018
的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大;
步骤3:特征词权重计算
对每个文本中的特征词进行权重计算
步骤3.1:计算λ因子,方法如下:
λ ( t , c i ) = DF ( t , c i ) D ( c i )
其中,DF(t,ci)表示ci类中包含特征项t的文本数,D(ci)表示ci类中的文本总数,λ即为某一类别中包含特征词t的文本数占该类文本总数的比例;
步骤3.2:计算TF-IDF*λIG数值,方法如下:
w ( t i , d j ) = tf ij * log ( N n i ) * λIG Σ i ∈ d j [ tf ij * log ( N n i ) * λIG ] 2
步骤3.3:计算TF-IDF*λCHI,方法如下:
w ( t i , d j ) = tf ij * log ( N n i + L ) * λCHI Σ i ∈ d j [ tf ij * log ( N n i + L ) * CHI ] 2
步骤4:分类结果输出。
CN201410149441.8A 2014-04-13 2014-04-13 一种不均衡文本集的特征选择和权重计算方法 Active CN103886108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410149441.8A CN103886108B (zh) 2014-04-13 2014-04-13 一种不均衡文本集的特征选择和权重计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410149441.8A CN103886108B (zh) 2014-04-13 2014-04-13 一种不均衡文本集的特征选择和权重计算方法

Publications (2)

Publication Number Publication Date
CN103886108A true CN103886108A (zh) 2014-06-25
CN103886108B CN103886108B (zh) 2017-09-01

Family

ID=50955000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410149441.8A Active CN103886108B (zh) 2014-04-13 2014-04-13 一种不均衡文本集的特征选择和权重计算方法

Country Status (1)

Country Link
CN (1) CN103886108B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105808718A (zh) * 2016-03-07 2016-07-27 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN108090088A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 特征提取方法及装置
CN108376130A (zh) * 2018-03-09 2018-08-07 长安大学 一种不良文本信息过滤用特征选择方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法
CN110019654A (zh) * 2017-07-20 2019-07-16 南方电网传媒有限公司 一种不平衡网络文本分类优化***
CN110347833A (zh) * 2019-07-09 2019-10-18 浙江工业大学 一种多轮对话的分类方法
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
CA2886603A1 (en) * 2012-09-28 2014-04-03 Alkis Papadopoullos A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN103049435B (zh) * 2013-01-04 2015-10-14 浙江工商大学 文本细粒度情感分析方法及装置
CN103218444B (zh) * 2013-04-22 2016-12-28 中央民族大学 基于语义的藏文网页文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊忠阳, 张鹏招, 张玉芳: "基于χ~2统计的文本分类特征选择方法的研究", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105512311B (zh) * 2015-12-14 2019-02-26 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105808718B (zh) * 2016-03-07 2019-02-01 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN105808718A (zh) * 2016-03-07 2016-07-27 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN108090088A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 特征提取方法及装置
CN110019654A (zh) * 2017-07-20 2019-07-16 南方电网传媒有限公司 一种不平衡网络文本分类优化***
CN108376130A (zh) * 2018-03-09 2018-08-07 长安大学 一种不良文本信息过滤用特征选择方法
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109471942B (zh) * 2018-11-07 2021-09-07 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法
CN110347833A (zh) * 2019-07-09 2019-10-18 浙江工业大学 一种多轮对话的分类方法
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法

Also Published As

Publication number Publication date
CN103886108B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
Jiang et al. Text Classification Using Novel Term Weighting Scheme‐Based Improved TF‐IDF for Internet Media Reports
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类***及方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104391835A (zh) 文本中特征词选择方法及装置
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN105912716A (zh) 一种短文本分类方法及装置
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN101944099A (zh) 一种使用本体进行文本文档自动分类的方法
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN104361059B (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN102629272A (zh) 一种基于聚类的考试***试题库优化方法
Man Feature extension for short text categorization using frequent term sets
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及***
CN105117466A (zh) 一种互联网信息筛选***及方法
Kotlerman et al. Clustering small-sized collections of short texts
CN102929977B (zh) 一种面向新闻网站的事件跟踪方法
Huang et al. Topic detection from microblog based on text clustering and topic model analysis
CN105224689A (zh) 一种东巴文献分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200813

Address after: A5, block D, Xisanqi cultural science and Technology Park, yard 27, xixiaokou Road, Haidian District, Beijing 100085

Patentee after: Goonie International Software (Beijing) Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology

TR01 Transfer of patent right