CN105975518B - 基于信息熵的期望交叉熵特征选择文本分类***及方法 - Google Patents
基于信息熵的期望交叉熵特征选择文本分类***及方法 Download PDFInfo
- Publication number
- CN105975518B CN105975518B CN201610278141.9A CN201610278141A CN105975518B CN 105975518 B CN105975518 B CN 105975518B CN 201610278141 A CN201610278141 A CN 201610278141A CN 105975518 B CN105975518 B CN 105975518B
- Authority
- CN
- China
- Prior art keywords
- text
- characteristic item
- feature
- indicate
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类***及方法。本发明***包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。本发明能够提高文本分类的精度,改善分类效果。
Description
技术领域
本发明属于计算机科学与技术领域,具体涉及一种基于信息熵的期望交叉熵特征选择文本分类***及方法。
背景技术
随着计算机技术和互联网技术的发展,互联网上的信息呈***式增长。文本自动分类已逐渐成为获取知识和信息的有效手段,因为它可以处理和组织大量的文本数据。目前,文本分类广泛应用于邮件分类、信息检索、网页查重、数字图书馆等。文本以向量空间模型形式进行结构化表示。在向量模型下,文本分类的主要问题是特征空间的高维性以及数据稀疏性问题。高维特征空间不仅会增加分类过程的开销,而且影响分类精度。因此,特征维度约减成为文本自动分类技术研究的核心问题,而特征选择是文本特征维度约减的一种主要模式。特征选择是从原始特征集中依据某种评估函数选择出对分类贡献较大的特征项,用这些特征项来组成文本特征子集,用于文本的表示。
目前,常用的特征选择方法有文档频率(DF)、信息增益(IG)、互信息(MI)、χ2统计、期望交叉熵(CEC)和文本证据权等过滤式特征选择算方法。该类算法不依赖具体的分类器,提供一个评估函数,通过比较特征项的函数值,将特征项按照函数值从高到低进行排序,从而选择出重要的特征项。在这些特征选择方法中,期望交叉熵具有较低复杂度和较好的降维效果,因此,该算法是目前应用比较广泛的特征选择算法。但是,该算法最明显的不足在于其只考虑了特征与类别之间的相关性,而忽略了特征项词频在类内和类别间分布情况。
发明内容
基于现有期望交叉熵方法只考虑了特征项的文档频率,并没有考虑特征项词频在类别中分布的差异性问题,本发明公开了一种基于信息熵的期望交叉熵文本分类特征选择方法,利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特征项在类内分布的均匀性考虑不足的缺陷。
为了达到上述发明目的,本发明提供如下技术方案:
基于信息熵的期望交叉熵特征选择文本分类***,包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;
数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;
特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;
特征权重计算单元,用于计算特征项的权重值;
分类单元,用于对语料文本进行分类;
分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。
本发明还公开了一种基于信息熵的期望交叉熵特征选择文本分类方法,按如下步骤:
(1)、收集不同类别文本,分析整理后按类别归入语料训练集。
(2)、对训练集进行预处理,包括中文分词、去停用词等来过滤噪声数据、改善文本数据质量等。
(3)、利用基于信息熵的期望交叉熵方法计算特征向量空间中特征项评估函数值,基于信息熵的期望交叉熵函数公式为:
其中,表示特征项tk在期望交叉熵评估函数中的得分值。p(tk)表示出现特征项tk的文档概率,p(ci)表示属于ci类的文本在整个文本集中出现的概率,p(ci|tk)表示文本包含特征项tk时属于类别ci的概率,n表示类别总数;
表示特征项tk在类别cj中的类内信息熵。fj(tk)表示特征项tk在类cj中出现的频率,m为类cj中的文本数目,fji(tk)表示特征项tk在类cj第i篇文本中出现的频率。
表示特征项tk的类间信息熵。fj(tk)表示特征项tk在类cj中出现的频率,n为文本类别个数,表示特征项tk在整个文本集中出现的频率。
计算特征向量空间每个特征项的评估函数值,并进行降序排列,选择出得分较大的前N个特征项。
(4)、使用特征向量权重TF-IDF算法来计算特征向量表中包含的特征向量词的权重。
特征权重计算
本发明采用最常用的TF-IDF权重计算方法,根据TF-IDF权重,候选特征项fi在文本d中的权重通过以下公式来计算:
其中,TF(fi,dj)表示候选特征项fi在文本dj中出现的频率,N表示训练文本集合的总文本数,ni表示候选特征项fi在文本集中出现的文本频率,这样,语料库中的文本集合表示为一个矩阵。
(5)、构造相应的文本分类器,利用分类器对测试语料进行计算,得到分类结果。
分类器
采用KNN分类器,KNN是指给定一个测试文档,计算测试文档和训练文本集中文档的相似度,从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用向量夹角余弦值等来进行计算。依据这K个训练文本的类别信息来判定测试文档应该属于哪个类别。KNN算法的决策规则为:
其中,KNN(d)表示K个最邻近训练文本的集合。当文档dj属于ci类时,y(dj,ci)的值等于1,当文档dj不属于ci类时,y(dj,ci)的值等于0。Sim(d,dj)表示测试文档d与训练文本dj的相似度值。
(6)、采用评价函数计算各种分类器的性能评价参数,依据分类器评价参数结果确定最优的特征向量集合。
评价函数
目前国际上比较流行的判别文本分类效果的评价函数主要包括查全率、查准率、F1测量值,其定义如下:
查准率:P=TP/(TP+FP) 查全率:R=TP/(TP+FN)
F1测量值:F1=2PR/(P+R)
TP表示属于某个类别且被判别为该类别的文本数;
FP表示实际不属于某个类别却被判别为该类别的文本数;
FN表示实际属于某个类别却被判别为其它类别的文本数。
对于不同数目的特征项向量,使得评价函数F1测度最优的那组数目,即是该分类方法在该语料下的最优的特征项数目。
与现有技术相比,本发明具有如下优点和有益效果:
本发明在现有的期望交叉熵方法中加入类内信息熵、类间信息熵,修正了现有期望交叉熵方法对特征项词频考虑不足的缺陷,使在文本集合中特征项类间分布集中性、类内分布均匀性的这一特性得到了充分体现。相对现有期望交叉熵方法,本发明能够提高文本分类的精度,改善分类效果。
本发明涉及一种基于信息熵的期望交叉熵特征选择文本分类方法(简称ECE_IE),该方法在期望交叉熵方法基础上通过引入特征项词频的类间信息熵、类内信息熵因子,弥补了特征项词频对类别考虑不足的缺陷,其中,利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特征项在类内分布的均匀性考虑不足的缺陷。本发明证明新方法的采用在文本分类的准确率有明显提高,充分证明了它的有效性。
附图说明
图1是本发明基于信息熵的期望交叉熵算法的文本分类方法的流程图。
图2是本发明基于信息熵的期望交叉熵算法的文本分类装置的单元构成图。
具体实施方式
下面结合附图和实施例,做进一步详细说明,应理解下述具体实施方法仅用于说明本发明而不用于限制本发明的范围。
如图1所示,该图为基于信息熵的期望交叉熵算法的文本分类方法的流程图,具体步骤如下:
步骤S101,从互联网上收集语料文本。例如:训练语料1812篇,测试语料906篇,训练语料与测试语料所占的比例为2:1。在训练语料中,包括政治(300)、经济(216)、体育(250)、军事(162)、艺术(168)、计算机(156)、教育(150)、环境(138)、医药(138)、交通(134)。测试语料各类别数量为训练语料的一半。
步骤S102,对训练语料进行预处理,对文本进行分词处理和停用词过滤。
步骤S103,根据基于信息熵的期望交叉熵特征选择方法(即ECE_IE)来计算每个特征向量的评估函数值,选定不同阈值,得到不同数目的特征向量表。
步骤S104,使用特征向量权重TF-IDF计算特征向量词权重。
步骤S105,构造相应的文本分类器。
步骤S106,对测试文本进行分类,得到不同数目特征向量下的分类结果。
步骤S107,计算分类器的性能评价参数。
步骤S108,根据评价函数的值判定该***最优的特征向量数目。
如图2所示,该图为基于信息熵的期望交叉熵算法的文本分类装置的单元构成图,所述装置包含:
语料收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。
下面详细说明本发明技术方案中所涉及到的各个细节问题:
1、特征选择:
期望交叉熵算法是信息增益的一种特例,与信息增益不同之处在于它仅仅考虑特征项在文档中发生的情况。它反映的是文档类别的概率分布与出现某个特征条件下文档类别的概率分布之间的距离,又称KL距。KL距离越大,说明了特征项在文本分类中的贡献程度越高,期望交叉熵记为ECE(tk)可计算为:
p(tk)代表特征项tk在文档中发生的概率,p(cj)代表在训练集中隶属于类别cj的文档发生的概率,p(cj|tk)代表训练集中含有特征项tk的文档隶属于类别cj的概率,n为类别总数。若特征项tk与类别关联性越大,则p(cj|tk)值越大。当p(cj|tk)越大且p(cj)值越小时,则相应特征项tk的ECE(tk)值就越大,当特征集合中的特征项tk的排名比较靠前时,特征项tk对文本分类影响较大。
本发明对期望交叉熵方法的改进方法主要体现在引入类间信息熵、类内信息熵参数因子,有效地利用特征项表征类别信息进行计算,用来调整特征选择的评估函数值。这是由于:现有期望交叉熵方法只考虑了特征项的文档频率,并没有考虑特征项词频在类别中分布的差异性问题。利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特征项在类内分布的均匀性考虑不足的缺陷。
本发明将类间信息熵描述为某个特征项词频在类间的概率分布情况。若存在特征项tk集中地分布在一个或几个类别中,而在其它类中分布的较少,则说明特征项tk所在类别可以很好的与其它类别进行区分,此时特征项tk的类间信息熵较小。相反,特征项tk的类间信息熵值较大。类内信息熵描述为某个特征项词频在类内的概率分布情况。若存在特征项tk在类别cj内所有文本中分布的比较均匀,则说明特征项tk能够较好地表征类别cj信息,可以有效地将该类别与其它类别进行区分,此时特征项tk的类内信息熵值较大。特征项tk的类内信息熵值较小。在进行特征选择时,我们将类内各文本中词频分布比较均匀的特征项进行保留,以提高文本分类效果。通过下式计算特征项的类间与类内信息熵:
其中,fj(tk)表示特征项tk在类cj中出现的频率,n为文本类别个数,表示特征项tk在整个文本集中出现的频率,m为类cj中的文本数目,fji(tk)表示特征项tk在类cj第i篇文本中出现的频率。
因此,本专利将基于信息熵的期望交叉熵的特征选择评估函数表示为:
基于信息熵的期望交叉熵的特征选择方法,既考虑了特征项在类内分布的均匀性,又考虑了特征项在类间分布的集中性。
2、特征权重计算
本发明采用最常用的TF-IDF权重计算方法,根据TF-IDF权重,候选特征项fi在文本d中的权重通过以下公式来计算:
其中,TF(fi,dj)表示候选特征项fi在文本dj中出现的频率,N表示训练文本集合的总文本数,ni表示候选特征项fi在文本集中出现的文本频率,这样,语料库中的文本集合表示为一个矩阵。
3、分类器
本发明采用KNN分类器,KNN是指给定一个测试文档,计算测试文档和训练文本集中文档的相似度,从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用向量夹角余弦值等来进行计算。依据这K个训练文本的类别信息来判定测试文档应该属于哪个类别。KNN算法的决策规则为:
其中,KNN(d)表示K个最邻近训练文本的集合。当文档dj属于ci类时,y(dj,ci)的值等于1,当文档dj不属于ci类时,y(dj,ci)的值等于0。Sim(d,dj)表示测试文档d与训练文本dj的相似度值。
4、评价函数
目前国际上比较流行的判别文本分类效果的评价函数主要包括查全率、查准率、F1测量值,其定义如下:
查准率:P=TP/(TP+FP) 查全率:R=TP/(TP+FN)
F1测量值:F1=2PR/(P+R)
TP表示属于某个类别且被判别为该类别的文本数;
FP表示实际不属于某个类别却被判别为该类别的文本数;
FN表示实际属于某个类别却被判别为其它类别的文本数。
对于不同数目的特征项向量,使得评价函数F1测度最优的那组数目,即是该分类方法在该语料下的最优的特征项数目。
5、实验结果
下表是本实验的结果:
从实验结果可以看出,在不同的特征数量情况下,基于信息熵的期望交叉熵方法优于现有期望交叉熵方法,证明了该方法的有效性。同时可以看出,采用基于信息熵的期望交叉熵特征选择方法时,在特征数目为3000时分类效果达到最佳。
以上所述仅为本发明的优选实施而已,并不用与限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.基于信息熵的期望交叉熵特征选择文本分类方法,其按如下步骤:
(1)、收集不同类别文本,分析整理后按类别归入语料训练集;
(2)、对语料训练集的文本进行预处理,包括分词和去停用词;
(3)、利用期望交叉熵特征评估函数进行特征值评估,基于信息熵的期望交叉熵函数公式为:
其中:
ECE_IE(tk)表示特征项tk评估函数值;
表示特征项tk在期望交叉熵评估函数中的得分值,其中,所述p(tk)表示出现特征项tk的文档概率,所述p(ci)表示属于ci类的文本在整个文本集中出现的概率,所述p(cj|tk)表示文本包含特征项tk时属于类别ci的概率,所述|c|表示类别总数;
表示特征项tk在类别cj中的类内信息熵,其中,所述fj(tk)表示特征项tk在类cj中出现的频率,所述m为类cj中的文本数目,所述fji(tk)表示特征项tk在类cj第i篇文本中出现的频率;
表示特征项tk的类间信息熵,其中,所述fj(tk)表示特征项tk在类cj中出现的频率,所述n为文本类别个数,所述表示特征项tk在整个文本集中出现的频率;
计算特征向量空间每个特征项的评估函数值,并进行降序排列,选择出得分最大的前N个特征项;
(4)、使用特征向量权重算法TF-IDF计算特征向量表包含的特征向量词的权重;
(5)、构造相应的文本分类器,利用分类器对测试语料进行计算,得到分类结果;
(6)、采用评价函数计算各种分类器的性能评价参数,根据分类器评价参数结果确定最优的特征向量集合。
2.根据权利要求1所述的基于信息熵的期望交叉熵特征选择文本分类方法,其特征在于,步骤(4)中,TF-IDF权重,候选特征词fi在文本d中的权重通过以下公式来计算:
其中,TF(fi,dj)表示候选特征词fi在文本dj中出现的频率,N表示训练文本集合的总文本数,ni表示候选特征词fi在文本集中出现的文本频率。
3.根据权利要求1所述的基于信息熵的期望交叉熵特征选择文本分类方法,其特征在于,步骤(5)中,分类器采用KNN最近邻算法构建分类器,计算待分类文本测试集所有文本的相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照这K篇文本的类别对待分类文本进行归类,其中K值根据实际情况设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610278141.9A CN105975518B (zh) | 2016-04-28 | 2016-04-28 | 基于信息熵的期望交叉熵特征选择文本分类***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610278141.9A CN105975518B (zh) | 2016-04-28 | 2016-04-28 | 基于信息熵的期望交叉熵特征选择文本分类***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105975518A CN105975518A (zh) | 2016-09-28 |
CN105975518B true CN105975518B (zh) | 2019-01-29 |
Family
ID=56993462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610278141.9A Active CN105975518B (zh) | 2016-04-28 | 2016-04-28 | 基于信息熵的期望交叉熵特征选择文本分类***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975518B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503146B (zh) * | 2016-10-21 | 2019-06-07 | 江苏理工学院 | 计算机文本的特征选择方法 |
CN108073567B (zh) * | 2016-11-16 | 2021-12-28 | 北京嘀嘀无限科技发展有限公司 | 一种特征词提取处理方法、***及服务器 |
CN107402945B (zh) * | 2017-03-15 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN107273295B (zh) * | 2017-06-23 | 2020-03-20 | 中国人民解放军国防科学技术大学 | 一种基于文本混乱度的软件问题报告分类方法 |
CN107562928B (zh) * | 2017-09-15 | 2019-11-15 | 南京大学 | 一种ccmi文本特征选择方法 |
CN110069630B (zh) * | 2019-03-20 | 2023-07-21 | 重庆信科设计有限公司 | 一种改进的互信息特征选择方法 |
CN110705307A (zh) * | 2019-08-30 | 2020-01-17 | 深圳壹账通智能科技有限公司 | 信息变更指标监控方法、装置、计算机设备和存储介质 |
CN111261196A (zh) * | 2020-01-17 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种年龄预估方法和装置以及设备 |
CN117435906B (zh) * | 2023-12-18 | 2024-03-12 | 湖南行必达网联科技有限公司 | 基于交叉熵的新能源汽车配置特征选择方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103678274A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于改进互信息和熵的文本分类特征提取方法 |
CN104731772A (zh) * | 2015-04-14 | 2015-06-24 | 辽宁大学 | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法 |
-
2016
- 2016-04-28 CN CN201610278141.9A patent/CN105975518B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103678274A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于改进互信息和熵的文本分类特征提取方法 |
CN104731772A (zh) * | 2015-04-14 | 2015-06-24 | 辽宁大学 | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法 |
Non-Patent Citations (2)
Title |
---|
"Improved Expected Cross Entropy Method For Text Feature Selection";Guohua WU、Liuyang WANG,etc.;《2015 International conference on computer Science and Mechanical Automation》;20151231;第17卷;论文第49-54页 |
"基于词频信息的改进信息增益文本特征选择算法";石慧、贾代平、苗培;《计算机应用》;20141110(第11期);论文第3279-3282页 |
Also Published As
Publication number | Publication date |
---|---|
CN105975518A (zh) | 2016-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类***及方法 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN104391835A (zh) | 文本中特征词选择方法及装置 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN108764366A (zh) | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN109271517B (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN102298646A (zh) | 一种主观文本和客观文本分类方法及装置 | |
CN106021578B (zh) | 一种基于聚类和隶属度融合的改进型文本分类算法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN108363810A (zh) | 一种文本分类方法及装置 | |
CN110442568A (zh) | 字段标签的获取方法及装置、存储介质、电子装置 | |
CN105045913B (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN106570164A (zh) | 一种基于深度学习的集成式食品安全文本分类方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及*** | |
CN105956083A (zh) | 应用软件分类***、应用软件分类方法及服务器 | |
CN101976270B (zh) | 基于不确定推理的文本层次分类方法与装置 | |
CN106960040A (zh) | 一种url的类别确定方法及装置 | |
CN106570076A (zh) | 一种计算机文本分类*** | |
CN108153899B (zh) | 一种智能化文本分类方法 | |
CN103324758A (zh) | 一种新闻分类方法和*** | |
CN109800790A (zh) | 一种面向高维数据的特征选择方法 | |
CN109933648A (zh) | 一种真实用户评论的区分方法和区分装置 | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |