CN106372117A - 一种基于词共现的文本分类方法及其装置 - Google Patents

一种基于词共现的文本分类方法及其装置 Download PDF

Info

Publication number
CN106372117A
CN106372117A CN201610709153.2A CN201610709153A CN106372117A CN 106372117 A CN106372117 A CN 106372117A CN 201610709153 A CN201610709153 A CN 201610709153A CN 106372117 A CN106372117 A CN 106372117A
Authority
CN
China
Prior art keywords
classification
text
occurrence
word set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610709153.2A
Other languages
English (en)
Other versions
CN106372117B (zh
Inventor
李科
谈佳丽
李扬帆
杨家富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610709153.2A priority Critical patent/CN106372117B/zh
Publication of CN106372117A publication Critical patent/CN106372117A/zh
Application granted granted Critical
Publication of CN106372117B publication Critical patent/CN106372117B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种基于词共现的文本分类方法及其装置。所述文本分类方法及其装置,不但应用主题词表和修饰词表两种词表的匹配来进行综合性分类考量,还从宏观词共现和微观词共现两种维度来分析文本词汇与主题词表的共现相关度,由此不但可简化算法,提高分类速度和效率,还可以提高文本分类的准确性,满足文本分类的高精确度要求,便于实际推广和应用。

Description

一种基于词共现的文本分类方法及其装置
技术领域
本发明涉及计算机技术领域,具体地,涉及一种基于词共现的文本分类方法及其装置。
背景技术
随着电子计算机应用技术的日益成熟和互联网的迅速发展,人类社会进入了一个信息***的时代。在这个信息***的时代,知识合理分类的期望与需求愈发迫切。如何在海量信息中快速有效地找到用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息,其作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。
为了对文本进行分类,传统方法为基于知识工程的分类方法,即由专业人员手工编写分类规则来指导分类。而现在,基于机器学习的文本分类方法虽然也有所发展,例如采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类,但是这种分类方式存在效率低下和精确度低的问题。
发明内容
针对前述现有技术的问题,本发明提供了一种基于词共现的文本分类方法及其装置,其不但应用主题词表和修饰词表两种词表的匹配来进行综合性分类考量,还从宏观词共现和微观词共现两种维度来分析文本词汇与主题词表的共现相关度,由此不但可简化算法,提高分类速度和效率,还可以提高文本分类的准确性,满足文本分类的高精确度要求,便于实际推广和应用。
本发明采用的技术方案,一方面提供了一种基于词共现的文本分类方法,包括步骤如下:S101.获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;S102.对待分类文本d进行预处理,获取文本特征词集;S103.针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d),最后根据如下线性公式得到所述待分类文本d与该 类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;S104.确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
优化的,所述待分类文本d包含有若干篇子集,则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d)的公式如下:
Sim 1 ( Q k T , d ) = Σ i = 1 , j = 1 I , J ( t f ( c i , t k , j ) * i t f ( c i , t k , j ) )
式中,ci为文本特征词集D中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集D中文本特征词总数,J为分类主题词集Qk T中主题词总数,tf(ci,tk,j)为在含有主题词tk,j的子集中文本特征词ci的词频,itf(ci,tk,j)为文本特征词ci相对于主题词tk,j的逆向词频。
进一步优化的,所述词频tf(ci,tk,j)的计算公式如下:
tf(ci,tk,j)=log(f(ci,tk,j)+1.0)
式中,f(ci,tk,j)为在含有主题词tk,j的子集中包含文本特征词ci的总数。
进一步优化的,所述逆向词频itf(ci,tk,j)的计算公式如下:
i t f ( c i , t k , j ) = l o g ( J n ( T ( c i ) ) + 1.0 )
式中,n(T(ci))为在含有主题词tk,j的子集中包含文本特征词ci的子集总数。
优化的,所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d)的计算公式如下:
Sim 2 ( Q k T , d ) = Σ i = 1 , j = 1 I , J sim 2 ( c i , t k , j )
式中,
ci为文本特征词集中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集中文本特征词总数,J为分类主题词集Qk T中主题词总数,f(citk,j)为文本特征词ci和主题词tk,j在所述待分类文本d中且同一个句子中的共同出现次数,f(ci)为文本特征词ci在所述待分类文本d中出现的次数,f(tk,j)为主题词tk,j在所述待分类文本d中出现的次数。
优化的,所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d)的计算公式如下:
Sim 3 ( Q k T , d ) = Σ n N log P ( f k , n | d )
式中,P(fk,n|d)为在所述待分类文本d中生成修饰词fk,n的概率,fk,n为在分类主题词集Qk F中第n个修饰词,N为分类修饰词集Qk T中修饰词的总数。
进一步优化的,所述概率P(fk,n|d)采用Dirichlet平滑方法来估计,其计算公式如下:
P ( f k , n | d ) = f ( f k , n , d ) + u f ( f k , n , D ) n ( D ) n ( d ) + u
式中,f(fk,n,d)为在所述文本特征词集中修饰词fk,n的数量,f(fk,n,D)为在文档集D的文本特征词集中修饰词fk,n的数量,n(D)为在文档集D的文本特征词集中特征词总数,n(d)为所述文本特征词集中特征词总数,u为介于100~200之间的系数,所述文档集D为本地所有已分类文档和所有待分类文档的集合。
优化的,在所述对待分类文本d进行预处理,获取文本特征词集的步骤中包含如下步骤:先采用汉语词法分析***ICTCLAS中的中文分词功能对所述待分类文本d进行分词处理,然后去除停用词,获取所述文本特征词集。
优化的,所述权重系数a介于0.55~0.65之间,所述权重系数b介于0.35~0.45之间。
本发明采用的技术方案,另一方面提供了一种实现前述基于词共现的文本分类方法的装置,包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元;所述词表获取单元,用于获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;所述文本预处理单元,用于获对待分类文本d进行预处理,获取文本特征词集;所述计算单元,用于针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d)最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;所述分类判定单元,用于确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
综上,采用本发明所提供的一种基于词共现的文本分类方法及其装置,具有如下有益效果:(1)本发明将文本分类分为两个部分:主题词表与文本内容的匹配和修饰词表与文本内容的匹配,并通过宏观词共现和微观词共现来分析词汇与主题词之间的相关度,由此不但可简化算法,提高分类速度和效率,还可以提高文本分类的准确性,满足文本分类的高精确度要求;(2)在分类处理过程中,由于加入了经典语言模型下的匹配,可进一步提高文本分类的准确性,便于实际推广和应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于词共现的文本分类方法的流程示意图。
图2是本发明提供的词共现图的举例示意图。
图3是本发明提供的实现基于词共现的文本分类方法的装置的结构示意图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明提供的基于词共现的文本分类方法及其装置。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例一
图1示出了本发明提供的基于词共现的文本分类方法的流程示意图,图2示出了本发明提供的词共现图的举例示意图。本实施例提供的所述基于词共现的文本分类方法,包括步骤如下。
S101.获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应。
在步骤S101中,所述获取主题词表和修饰词表的方式,可以是读取存储单元中已经构建好的主题词表和修饰词表,也可以是利用权威知识库来即时获取主题词表和修饰词表。以针对睡眠知识的文本分类为例,先通过如下两种措施中的任意一种构建主题词表:(1)利用***,即根据“睡眠”搜索词,在***进行搜索,然后参考对应的目录,把睡眠主题词表与分成几大类,抽取一级类目主题词,并根据目录对应内容,抽取下级类目主题词,从而构建起主题词表;(2)利用问答网页抽取主题词,即在专业主题词的基础上,添加用户非专业习惯用词,具体来说就是,选择现有权威的健康社区,如搜狐健康网,对用户提问及发表博客进行筛选、采集和分析,得到与各类证型共现的表证词,经由领域专家确认后作为有意义的词汇,再纳入到规范主题词的同义词中,实现专业描述词语用户语词的映射,从而构建起主题词表。然后利用已构建的主题词建立修饰词表,即选出与主题词表中主题词相配合使用的修饰词构建修饰词表,例如针对同一类别下的主题词“血压”,与“血压”相配合使用修饰词“高”、“低”和“波动”等即为对应类别下的修饰词。
S102.对待分类文本d进行预处理,获取文本特征词集。
在步骤S102中,可以但不限于通过网络爬虫的方式从网络上爬取有效文本资源作为所述待分类文本。同时优化的,在所述对待分类文本d进行预处理,获取文本特征词集的步骤中包含如下步骤:先采用汉语词法分析***ICTCLAS中 的中文分词功能对所述待分类文本d进行分词处理,然后去除停用词,获取所述文本特征词集。所述汉语词法分析***ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的一种汉语分词***,其主要功能包括中文分词、词性标注、命名实体识别及新词识别等,目前已经升级到了ICTCLAS3.0版本:ICTCLAS3.0版本的单机分词速度为996KB/s,分词精度为98.45%,API(Appl ication Programming Interface,应用程序编程接口)不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
S103.针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d),最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数。
在步骤S103中,所述待分类文本d包含有若干篇子集,则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d)的计算公式如下:
Sim 1 ( Q k T , d ) = Σ i = 1 , j = 1 I , J ( t f ( c i , t k , j ) * i t f ( c i , t k , j ) )
式中,ci为文本特征词集D中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集D中文本特征词总数,J为分类主题词集Qk T中主题词总数,tf(ci,tk,j)为在含有主题词tk,j的子集中文本特征词ci的词频,itf(ci,tk,j)为文本特征词ci相对于主题词tk,j的逆向词频。所述子集是指在所述待分类文本d中更细化的文本单元,例如章节或者在小说集中的单篇小说文章。所述第一共现相关度为宏观词共现(指通过词汇与主题词在整个文档集不同文档中 的共同表现情况来计算共现相关度)的估算结果。TF-IDF(termfrequency–inverse document frequency,词频-逆向文档频率)统计方法是一种用于信息检索与数据挖掘的常用加权技术,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,由此结合逆向文档频率IDF和词频TF概念,可以采用控制单一变量的方法来分析词汇、文档、主题词三者之间的关系,进而得到高准确性的词汇与主题词间的宏观相关关系——即所述第一共现相关度。其中,进一步优化的,所述词频tf(ci,tk,j)的计算公式如下:
tf(ci,tk,j)=log(f(ci,tk,j)+1.0)
式中,f(ci,tk,j)为在含有主题词tk,j的子集中包含文本特征词ci的总数。所述逆向词频itf(ci,tk,j)的计算公式如下:
i t f ( c i , t k , j ) = l o g ( J n ( T ( c i ) ) + 1.0 )
式中,n(T(ci))为在含有主题词tk,j的子集中包含文本特征词ci的子集总数。
在步骤S103中,所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d)的计算公式如下:
Sim 2 ( Q k T , d ) = Σ i = 1 , j = 1 I , J sim 2 ( c i , t k , j )
式中,
ci为文本特征词集中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集中文本特征词总数,J为分类主题词集Qk T中主题词总数,f(citk,j)为文本特征词ci和主题词tk,j在所述待分类文本d中且同一个句子中的共同出现次数,f(ci)为文本特征词ci在所述待分类文本d中出现的次数,f(tk,j)为主题词tk,j在所述待分类文本d中出现的次数。
如图2举例所示的词共现图,其描述了各组词汇对在文档中的关系:相 关或者不相关,其中相关的两个词汇肯定会出现在同一连通图中,并直接或间接的在词共现图中相连,以表示两者存在共现关系,例如图2中的词汇对(W1和W2),由于存在词对共现度v(1,2),因此词W1和W2相连,并用词对共现度v(1,2)作为两词汇间的无向边权重,该无向边权重的值越小,相应的两个词汇之间的共现度越弱;而对于不相关的两个词汇,则不会出现在同一连通图中,也不相连,例如图2中的词汇对(W6和W7)。由此可以利用构建词共现图时的词对共现度计算方法计算所述第二共现相关度。此外,词对(Wx,Wy)的词对共现度v(Wx,Wy)的定义公式如下:
v ( W x , W y ) = R ( W x | W y ) + R ( W y | W x ) 2
式中,R(Wx|Wy)为词Wx相对于词Wy的相对共现度,R(Wy|Wx)为词Wy相对于词Wx的相对共现度。
在步骤S103中,所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d)的计算公式如下:
Sim 3 ( Q k T , d ) = Σ n N log P ( f k , n | d )
式中,P(fk,n|d)为在所述待分类文本d中生成修饰词fk,n的概率,fk,n为在分类主题词集Qk F中第n个修饰词,N为分类修饰词集Qk T中修饰词的总数。所述语言模型可以但不限于为经典的MLE(Maximum Likelihood Estimation,最大似然估计)模型。进一步具体的,所述概率P(fk,n|d)采用Dirichlet平滑方法来估计,其计算公式如下:
P ( f k , n | d ) = f ( f k , n , d ) + u f ( f k , n , D ) n ( D ) n ( d ) + u
式中,f(fk,n,d)为在所述文本特征词集中修饰词fk,n的数量,f(fk,n,D)为在文档集D的文本特征词集中修饰词fk,n的数量,n(D)为在文档集D的文本特征词集中特征词总数,n(d)为所述文本特征词集中特征词总数,u为介于100~200之间的系数,所述文档集D为本地所有已分类文档和所有待分类文档的集合。作为优化的,在本实施例中,u取值为150。
此外,所述权重系数a和b的具体数值可以根据实验确定最佳值。在实 验过程中,将所述权重系数a和b分别设置成0.0、0.2、0.4、0.8和1.0,其中,当所述权重系数a取0.0时,表示只考虑微观词共现,不考虑宏观词共现的影响,当所述权重系数a取1.0时,表示只考虑宏观词共现,不考虑微观词共现的影响,当所述权重系数b取0.0时,表示只考虑对主题词表与文本内容的匹配,当所述权重系数b取1.0时,表示只考虑对修饰词表与文本内容的匹配,由此可以将多方面因素混合起来考量共现相关性。通过实验结果发现,当所述权重系数a介于0.55~0.65之间,且所述权重系数b介于0.35~0.45之间时,最终得到综合共现相关度的准确性较高,符合期望。作为举例的,在本实施例中,所述权重系数a采用0.6,且所述权重系数b采用0.4,可以使最终综合共现相关度的准确性最高。
S104.确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
综上,本实施例所提供的基于词共现的文本分类方法,具有如下技术效果:(1)本发明将文本分类分为两个部分:主题词表与文本内容的匹配和修饰词表与文本内容的匹配,并通过宏观词共现和微观词共现来分析词汇与主题词之间的相关度,由此不但可简化算法,提高分类速度和效率,还可以提高文本分类的准确性,满足文本分类的高精确度要求;(2)在分类处理过程中,由于加入了经典语言模型下的匹配,可进一步提高文本分类的准确性,便于实际推广和应用。
实施例二
图3示出了本发明提供的实现基于词共现的文本分类方法的装置的结构示意图。本实施例提供的所述装置为实现实施例一所述的基于词共现的文本分类方法的装置,包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元;所述词表获取单元,用于获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;所述文本预处理单元,用于获对待分类文本d进行预处理,获取文本特征词集;所述计算单元,用于针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d),最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;所述分类判定单元,用于确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
本实施例提供的所述装置的工作方式和技术效果,可以基于实施例一中所描述的内容得到,于此不再赘述。
如上所述,可较好地实现本发明。对于本领域的技术人员而言,根据本发明的教导,设计出不同形式的基于词共现的文本分类方法及其装置并不需要创造性的劳动。在不脱离本发明的原理和精神的情况下对这些实施例进行变化、修改、替换、整合和变型仍落入本发明的保护范围内。

Claims (10)

1.一种基于词共现的文本分类方法,其特征在于,包括步骤如下:
S101.获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;
S102.对待分类文本d进行预处理,获取文本特征词集;
S103.针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d),最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;
S104.确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
2.如权利要求1所述的一种基于词共现的文本分类方法,其特征在于,所述待分类文本d包含有若干篇子集,则所述利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d)的公式如下:
式中,ci为文本特征词集D中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集D中文本特征词总数,J为分类主题词集Qk T中主题词总数,tf(ci,tk,j)为在含有主题词tk,j的子集中文本特征词ci的词频,itf(ci,tk,j)为文本特征词ci相对于主题词tk,j的逆向词频。
3.如权利要求2所述的一种基于词共现的文本分类方法,其特征在于,所述词频tf(ci,tk,j)的计算公式如下:
tf(ci,tk,j)=log(f(ci,tk,j)+1.0)
式中,f(ci,tk,j)为在含有主题词tk,j的子集中包含文本特征词ci的总数。
4.如权利要求2所述的一种基于词共现的文本分类方法,其特征在于,所述逆向词频itf(ci,tk,j)的计算公式如下:
式中,n(T(ci))为在含有主题词tk,j的子集中包含文本特征词ci的子集总数。
5.如权利要求1所述的一种基于词共现的文本分类方法,其特征在于,所述利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d)的计算公式如下:
式中,
ci为文本特征词集中第i个文本特征词,tk,j为分类主题词集Qk T中第j个主题词,I为文本特征词集中文本特征词总数,J为分类主题词集Qk T中主题词总数,f(citk,j)为文本特征词ci和主题词tk,j在所述待分类文本d中且同一个句子中的共同出现次数,f(ci)为文本特征词ci在所述待分类文本d中出现的次数,f(tk,j)为主题词tk,j在所述待分类文本d中出现的次数。
6.如权利要求1所述的一种基于词共现的文本分类方法,其特征在于,所述利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d)的计算公式如下:
式中,P(fk,n|d)为在所述待分类文本d中生成修饰词fk,n的概率,fk,n为在分类主题词集Qk F中第n个修饰词,N为分类修饰词集Qk T中修饰词的总数。
7.如权利要求6所述的一种基于词共现的文本分类方法,其特征在于,所述概率P(fk,n|d)采用Dirichlet平滑方法来估计,其计算公式如下:
式中,f(fk,n,d)为在所述文本特征词集中修饰词fk,n的数量,f(fk,n,D)为在文档集D的文本特征词集中修饰词fk,n的数量,n(D)为在文档集D的文本特征词集中特征词总数,n(d)为所述文本特征词集中特征词总数,u为介于100~200之间的系数,所述文档集D为本地所有已分类文档和所有待分类文档的集合。
8.如权利要求1所述的一种基于词共现的文本分类方法,其特征在于,在所述对待分类文本d进行预处理,获取文本特征词集的步骤中包含如下步骤:
先采用汉语词法分析***ICTCLAS中的中文分词功能对所述待分类文本d进行分词处理,然后去除停用词,获取所述文本特征词集。
9.如权利要求1所述的一种基于词共现的文本分类方法,其特征在于,所述权重系数a介于0.55~0.65之间,所述权重系数b介于0.35~0.45之间。
10.一种实现如权利要求1至9任意一项所述的基于词共现的文本分类方法的装置,其特征在于,包括依次相连的词表获取单元、文本预处理单元、计算单元和分类判定单元;
所述词表获取单元,用于获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;
所述文本预处理单元,用于获对待分类文本d进行预处理,获取文本特征词集;
所述计算单元,用于针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF-IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(Qk T,d),同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(Qk T,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(Qk F,d),最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):
Sim(Qk,d)=b*(a*Sim1(Qk T,d)+(1-a)*Sim2(Qk T,d))+(1-b)*Sim3(Qk F,d)
式中,Qk为第k个类别,Qk T为第k个类别的分类主题词集,Qk F为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;
所述分类判定单元,用于确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
CN201610709153.2A 2016-08-23 2016-08-23 一种基于词共现的文本分类方法及其装置 Expired - Fee Related CN106372117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610709153.2A CN106372117B (zh) 2016-08-23 2016-08-23 一种基于词共现的文本分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610709153.2A CN106372117B (zh) 2016-08-23 2016-08-23 一种基于词共现的文本分类方法及其装置

Publications (2)

Publication Number Publication Date
CN106372117A true CN106372117A (zh) 2017-02-01
CN106372117B CN106372117B (zh) 2019-06-14

Family

ID=57878260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610709153.2A Expired - Fee Related CN106372117B (zh) 2016-08-23 2016-08-23 一种基于词共现的文本分类方法及其装置

Country Status (1)

Country Link
CN (1) CN106372117B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108170679A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 基于计算机可识别自然语言描述的语义匹配方法及***
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN110619067A (zh) * 2019-08-27 2019-12-27 深圳证券交易所 基于行业分类的检索方法、检索装置及可读存储介质
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN104978354A (zh) * 2014-04-10 2015-10-14 中电长城网际***应用有限公司 文本分类方法和装置
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO WANG等: "A Semantic Classification Approach for Online Product Reviews", 《PROCEEDINGS OF THE 2005 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE》 *
吴光远 等: "基于向量空间模型的词共现研究及其在文本分类中的应用", 《计算机应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108090178B (zh) * 2017-12-15 2020-08-25 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质
CN108170679A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 基于计算机可识别自然语言描述的语义匹配方法及***
CN111859898B (zh) * 2019-04-16 2024-01-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN111859898A (zh) * 2019-04-16 2020-10-30 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN110619067A (zh) * 2019-08-27 2019-12-27 深圳证券交易所 基于行业分类的检索方法、检索装置及可读存储介质
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN110750731B (zh) * 2019-09-27 2023-10-27 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN106372117B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN106372117B (zh) 一种基于词共现的文本分类方法及其装置
CN110442760B (zh) 一种问答检索***的同义词挖掘方法及装置
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及***
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
Rajman et al. Text mining: natural language techniques and text mining applications
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103207899B (zh) 文本文件推荐方法及***
CN101079026B (zh) 文本相似度、词义相似度计算方法和***及应用***
Ni et al. Short text clustering by finding core terms
Blacoe et al. A quantum-theoretic approach to distributional semantics
CN110175224B (zh) 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Anupriya et al. LDA based topic modeling of journal abstracts
CN105893485B (zh) 一种基于图书目录的专题自动生成方法
Zhang et al. Multiresolution graph attention networks for relevance matching
CN110309446A (zh) 文本内容快速去重方法、装置、计算机设备及存储介质
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
Gao et al. Sentiment classification for stock news
Croce et al. Verb classification using distributional similarity in syntactic and semantic structures
CN106708926A (zh) 一种支持海量长文本数据分类的分析模型的实现方法
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190614

Termination date: 20200823