CN111177386A - 一种提案分类方法及*** - Google Patents

一种提案分类方法及*** Download PDF

Info

Publication number
CN111177386A
CN111177386A CN201911382463.8A CN201911382463A CN111177386A CN 111177386 A CN111177386 A CN 111177386A CN 201911382463 A CN201911382463 A CN 201911382463A CN 111177386 A CN111177386 A CN 111177386A
Authority
CN
China
Prior art keywords
proposal
text
classified
sample set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911382463.8A
Other languages
English (en)
Other versions
CN111177386B (zh
Inventor
许建兵
李军
许凯
周沛
陶飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Suncn Pap Information Technology Co ltd
Original Assignee
Anhui Suncn Pap Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Suncn Pap Information Technology Co ltd filed Critical Anhui Suncn Pap Information Technology Co ltd
Priority to CN201911382463.8A priority Critical patent/CN111177386B/zh
Publication of CN111177386A publication Critical patent/CN111177386A/zh
Application granted granted Critical
Publication of CN111177386B publication Critical patent/CN111177386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于提案分类技术领域,特别涉及一种提案分类方法及***。所述分类方法包括:分类模型获取待分类提案文本,计算得到待分类提案文本的特征向量;根据所述特征向量,计算得到待分类提案文本与各提案类别的相似度;根据所述相似度,确定待分类提案文本的预测提案类别。本发明提出的分类***模拟人工分类方法,集成各种分类处理算法和模型,能够对提案文本进行自动分类,大大提高了工作效率和准确性。

Description

一种提案分类方法及***
技术领域
本发明属于提案分类技术领域,特别涉及一种提案分类方法及***。
背景技术
21世纪以前,在政务***中占主导地位的提案分类方法一直是:借助专业人员的帮助,对提案的全部内容进行逐字逐句的审核,然后凭审核人员的经验主观去判断该提案所属的类别。
上述方法具有明显的缺点:分类的质量严重依赖于专业人员的经验;同样一篇提案在不同人员的审核下会被区分为了不同的类别;同时在政协会议期间,政协委员集中提交,会有海量的提案需要处理,人工分类的工作效率低下,分类的准确性也得不到保障;造成了政务***内人力资源和资金资源的巨大浪费。
发明内容
针对上述问题,本发明提供了一种提案分类方法,所述分类方法包括:分类模型获取待分类提案文本,计算得到待分类提案文本的特征向量;根据所述特征向量,计算得到待分类提案文本与各提案类别的相似度;根据所述相似度,确定待分类提案文本的预测提案类别。
进一步地,所述分类方法还包括:
所述分类模型获取基础样本集合,计算得到所述基础样本集合中各已知类别提案文本的特征向量;其中,所述基础样本集合包括若干件已完成人工分类的已知类别提案文本。
进一步地,所述计算得到特征向量包括:
获取待分类提案文本和/或基础样本集合;
对所述待分类提案文本和/或基础样本集合进行预处理和数据清洗,得到待分类提案文本词串集合和/或基础样本集合的词袋;
根据所述待分类提案文本词串集合和/或基础样本集合的词袋,确定所述待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量。
进一步地,所述预处理和数据清洗包括:
利用平均值或中位数来填充或者替换有缺失的提案文本;
对提案文本进行分词处理;
对分词得到的词串集合进行筛分处理。
进一步地,所述特征向量包括提案文本的所有词串、所述词串对应的特征向量数值和所述词串对应的维度序号。
进一步地,所述词串的特征向量数值的计算方法包括:
计算所述词串在当前提案文本中词频;
计算所述词串在所述基础样本集合中的逆文本频率;
根据所述词频和逆文本频率,计算得到所述词串的特征向量数值。
进一步地,所述词串的特征向量数值的计算方法还包括:
对所述特征向量数值进行归一化计算处理;
对所述特征向量数值进行特征降维处理。
进一步地,所述待分类提案文本与各提案类别的相似度的计算方法包括:
获取并根据所述待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的权重;
计算所述待分类提案与各已知类别提案文本的距离值;
根据所述距离值,确定所述待分类提案在各提案类别下的频数;
根据所述权重和频数,计算所述待分类提案与各提案类别的相似度。
进一步地,所述所待分类提案在各提案类别下的权重的计算公式为:
Figure BDA0002342623140000021
其中,p(y|x)表示待分类提案X属于y提案类别的概率,Wy表示y提案类别在基础样本集合中的权重,Zc表示第c个提案类别在基础样本集合中的权重,基础样本集合中的提案类别数量为D,y提案类别属于基础样本集合中的一种提案类别。
进一步地,所述待分类提案与各已知类别提案文本的距离值的计算公式为:
Figure BDA0002342623140000031
其中,dist(X,Y)表示待分类提案文本X和已知类别提案文本Y的欧氏距离值,xi表示待分类提案文本X在第i维度上的特征向量数值,yi表示已知类别提案文本Y在第i维度上的特征向量数值。
进一步地,所述待分类提案与各提案类别的相似度的计算公式为:
S(Y|X)=p(Y|X)*F(Y)
其中,S(Y|X)表示待分类提案文本X与Y提案类别的相似度;p(Y|X)表示待分类提案文本X属于Y提案类别的概率;F(Y)表示待分类提案文本X在Y提案类别下出现的频数。
进一步地,所述待分类提案文本的预测提案类别的确定方法包括:
将所述待分类提案文本与基础样本集合中各提案类别的相似度进行排序;
将相似度值最高的提案类别作为待分类提案文本的提案类别。
进一步地,所述分类方法还包括:获取并通过训练样本集合,训练优化所述分类模型。
本发明还提供了一种提案分类***,所述分类***包括分类模型,所述分类模型包括:
特征向量模块,用于获取待分类提案文本和/或基础样本集合,确定待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量;
相似度计算模块,用于获取并根据所述待分类提案文本和已知类别提案文本的特征向量,计算得到待分类提案文本与各提案类别的相似度;
预测结果生成模块,用于根据所述相似度,确定待分类提案文本的预测提案类别。
进一步地,所述基础样本集合包括若干件已完成人工分类的已知类别提案文本。
进一步地,所述特征向量模块包括:
词袋构建单元,用于获取待分类提案文本和/或基础样本集合,对所述待分类提案文本和/或基础样本集合进行预处理、数据清洗,得到待分类提案文本词串集合和/或基础样本集合的词袋;
特征向量确定单元,用于根据所述待分类提案文本词串集合和/或基础样本集合的词袋,确定所述待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量。
进一步地,所述词袋构建单元包括:
预处理单元,用于对有缺失的提案文本进行处理,利用平均值或中位数来填充或者替换;
分词单元,用于获取并对提案文本进行分词处理,得到词串集合;
筛分单元,用于对所述词串集合进行筛分处理。
进一步地,所述特征向量包括提案文本的所有词串、所述词串对应的特征向量数值和所述词串对应的维度序号。
进一步地,所述特征向量确定单元包括:
特征向量数值计算单元,用于计算词串在当前提案文本中词频;计算所述词串在所述基础样本集合中的逆文本频率;根据所述词频和逆文本频率,计算得到所述词串的特征向量数值。
进一步地,所述特征向量确定单元还包括:
归一化计算单元,用于对所述词串的特征向量数值进行归一化计算处理;
特征降维处理单元,用于对所述词串的特征向量数值进行特征降维处理。
进一步地,所述相似度计算模块包括:
权重计算单元,用于获取并根据所述待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的权重;
频数计算单元,用于获取并计算所述待分类提案与各已知类别提案文本的距离值;根据所述距离值,确定所述待分类提案在各提案类别下的频数;
相似度计算单元,用于获取并根据所述权重和频数,计算出所述待分类提案与各提案类别的相似度。
进一步地,所述预测结果生成模块包括:
排序单元,用于获取并对所述待分类提案文本与基础样本集合中各提案类别的相似度进行排序;
输出单元,用于确定最高相似度值对应的提案类别,并将最高相似度值对应的提案类别作为待分类提案文本的提案类别。
进一步地,所述分类***还包括:
优化模块,用于获取并通过训练样本集合,对所述分类模型进行训练优化。
本发明提出的分类***模拟人工分类方法,集成各种分类处理算法和模型,能够对提案文本进行自动分类,大大提高了工作效率和准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的提案分类方法流程示意图;
图2示出了根据本发明实施例的提案分类***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种提案分类方法,示例性地,如图1所示,所述分类方法包括如下步骤:
步骤一:获取基础样本集合,确定所述基础样本集合中已知类别提案文本的特征向量。
具体的,所述确定特征向量包括:
获取基础样本集合;
对所述基础样本集合进行预处理、数据清洗,得到词袋;
根据所述词袋,确定已知类别提案文本的特征向量。
具体的,所述获取基础样本集合包括:获取已完成人工分类的提案文本,即已知类别提案文本,作为基础样本集合。
优选的,获取到已完成人工分类的提案文本后,对不同来源的已知类别提案文本数据进行汇总、格式转换,确保基础样本集合中各提案文本格式统一。
具体的,所述对所述基础样本集合进行预处理、数据清洗包括:
首先,针对基础样本集合中有缺失的提案文本进行处理,利用平均值或中位数来填充或者替换。
例如,设定甲提案文本必须包括A、B、C三个词串,并且需要统计三个词串在甲提案文本中的出现次数。若其中词串C的次数缺失,则可删除该甲提案文本,也可将其它提案文本中词串C的平均次数作为甲提案文本中词串C的次数,也可将其它提案文本中词串C的各次数的中位数作为甲提案文本中词串C的次数。
其次,对已知类别提案文本进行分词。所述分词处理采用但不限于Jieba分词工具,利用Jieba分词工具对所述提案文本进行分词处理。所述Jieba分词工具是基于n-Gram+条件随机场模型的中文分词工具。所述Jieba分词工具的分词速度达到每秒钟大约200万字左右,准确率达95%以上;能够实现中文分词、中文姓名识别、用户自定义词典和/或关键字提取等功能。
示例性地,利用Jieba分词工具对所述基础样本集合中的一句话“医保体系需要改革”进行分词,得到的分词结果是“医保”、“体系”、“需要”、“改革”。
最后,对分词得到的词串集合进行筛分处理。
示例性地,所述筛分处理包括删除词串集合中出现频度过高和/或过低的词语;删除词串集合中感叹词、形容词、副词、动词等词性的词;依据停用词库,对词串集合进行过滤,得到词袋。
具体的,所述确定已知类别提案文本的特征向量包括如下步骤:
1、计算每件已知类别提案文本中的各词串在词袋中的出现概率,得到各已知类别提案文本的特征向量数值。
本发明实施例采用但不限于TF-IDF算法计算各词串在对应已知类别提案文本下的出现概率,以实现词串向量化。
TF-IDF(Term Frequency-Inverse Document Frequency)算法,即“词频-逆文本频率”。该算法由两部分组成,TF算法和IDF算法。TF算法用于计算词串在对应已知类别提案文本下的出现频率。该词串以及该词串在对应已知类别提案文本下的出现频率,可作为该已知类别提案文本的特征数据。
具体的,所述词频的计算公式为:
TF(x)=m/M (1)
其中,TF(x)表示词串x在当前已知类别提案文本中出现的频率,m表示词串x在当前已知类别提案文本中出现的次数,M表示当前已知类别提案文本中总词串数量。
从公式(1)中可以看出,词串x在当前已知类别提案文本中出现的频率TF(x)与词串x在当前已知类别提案文本中出现的次数成正比。
IDF算法用于计算词串的逆文本频率,即在一个提案文本下,计算该提案文本中的词串,在整个基础样本集合中的出现的频率。逆文本频率可作为该词串的特征数据。
具体的,所述逆文本频率的计算公式为:
IDF(x)=log(K/N(x)) (2)
其中,IDF(x)表示词串x在当前已知类别提案文本下的逆文本概率,K表示当前基础样本集合中的提案文本总数,N(x)表示当前基础样本集合中包含词串x的提案文本数量。
从公式(2)中可以看出,词串x在当前已知类别提案文本下的逆文本频率,与当前基础样本集合中包含词串x的提案文本数量成反比。
需要说明的是,若词串y为生僻词,且在当前词串集合中不存在词串y,则此时N(y)的值为0,此时公式(2)无法满足计算。因此,可对公式(2)进行平滑处理,平滑后的公式为:
IDF(x)=log((K)/(N(x)+1)) (3)
其中,IDF(x)表示词串x在当前已知类别提案文本下的逆文本概率,K表示当前基础样本集合中的提案文本总数,N(x)表示当前基础样本集合中包含词串x的提案文本数量。
结合词频和逆文本频率,即可得到词串在对应已知类别提案文本下的特征向量数值,所述特征向量数值的计算公式为:
TF-IDF(x)=TF(x)*IDF(x) (4)
其中,TF-IDF(x)表示词串x在对应已知类别提案文本下的特征向量数值,可用于表示词串x和该已知类别提案文本的关联度;TF(x)表示词串x在当前已知类别提案文本中出现的频率;IDF(x)表示词串x在当前已知类别提案文本下的逆文本概率。
优选的,由于大多数提案文本内容较长,产生的词袋内容较多,导致每个提案文本对应的向量数量多、数值高,影响训练过程的计算速度,且需要消耗大量的计算性能,故需要对运算出来的TF-IDF数值进行归一化处理,缩小量值,保证TF-IDF值是在一个值范围内(如0~1)。
示例性地,归一化计算公式为:
y(a)*=(y(a)-ymin)/(ymax-ymin) (5)
其中,y(a)*表示词串y在a提案文本下的经过归一化处理后的特征向量数值;y(a)表示词串y在a提案文本下的归一化处理前的特征向量数值;ymin表示词串y在所有提案文本下的最小特征向量数值;ymax表示词串y在所有提案文本下的最大特征向量数值。
对所述特征向量数值进行归一化处理。具体的,归一化处理是处理数据挖掘的一项基本工作,原始数据经过数据归一化处理后,各指标处于同一数量级,可用于解决类别所对应特征集合过多、维度较大及类别之间差异度问题,有利于后期更好地进行类别预测工作。
将公式(4)的计算结果代入公式(5),即可得到对应词串在当前提案文本下的经过归一化处理的特征向量数值。
优选的,对所述特征向量数值进行特征降维处理。
由于各提案文本包含的词串数量较大,因此其对应的特征向量维度较大。这样会降低训练速度,而且容易导致过拟合。因此,可采用降维过滤算法来进行特征降维处理。
所述降维过滤算法包括但不限于以下方式:设定过滤阈值,去除低于所述过滤阈值的特征向量数值,保留大于或等于所述过滤阈值的特征向量数值,作为该已知类别提案文本的最终特征向量。
具体的,通过过滤算法去除低于所述过滤阈值的特征向量数值的同时,去除该特征向量数值对应的词串。仅保留大于或等于所述过滤阈值的特征向量数值对应的词串,用以表示当前已知类别提案文本的特征。
2、根据过滤后的特征向量数值,对词串进行排序,并赋予维度序号。
在同一提案文本中包含若干个词串,并且每个词串都对应一个特征向量数值。对该已知类别提案文本下的所有词串进行排序,并赋予序号。
例如,已知甲提案文本为公路建设类型,甲提案文本中包含a、b、c、d四个词串,且a、b、c、d四个词串在甲提案文本下的特征向量数值分别为0.7、0.8、0.5、0.9。
对甲提案文本中的词串进行排序并赋予序号,结果如表1所示:
表1甲提案文本中的词串排序表
Figure BDA0002342623140000101
对词串赋予序号,可以理解为给词串定义一个所属维度。例如,词串a属于第一维度,词串b属于第二维度,词串c属于第三维度,词串d属于第四维度。不同提案文本中的相同词串,定义为同一维度。
当前提案文本下的所有词串、词串对应的特征向量数值和维度序号,构成当前提案文本的特征向量。
步骤二:获取待分类提案文本,计算所述待分类提案文本与各提案类别的相似度。
具体的,基于Xg-boost文本分类算法构建分类模型,将所述已知类别提案文本的特征向量导入所述分类模型中。
Xg-boost(eXtreme Gradient Boosting),全名叫极端梯度提升,Xg-boost是集成学习方法的王牌,是Boosting算法的一种,其思想是将许多弱分类器集成在一起形成一个强分类器,因为Xg-boost是一种提升树模型,所以它是将许多模型树集成在一起,形成一个很强的分类器。
具体的,可将上述构建词袋、确定特征向量的处理过程封装在所述分类模型。所述分类模型能够自动对导入的提案文本进行分词、筛分、确定特征向量的处理。
具体的,将待分类提案文本导入分类模型中,所述分类模型执行下列步骤:
获取待分类提案,进行分词、筛分、确定特征向量的处理,得到所述待分类提案的特征向量,
根据所述待分类提案和已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的权重;
分别计算所述待分类提案与各已知类别提案文本的距离值,确定所述待分类提案在各提案类别下的频数;
根据所述权重和频数,计算所述待分类提案与各提案类别的相似度。
具体的,计算所述待分类提案在各提案类别下的概率的公式为:
Figure BDA0002342623140000111
其中,p(y|x)表示待分类提案文本x属于y提案类别的概率,Wy表示y提案类别在基础样本集合中的权重,Zc表示第c个提案类别在基础样本集合中的权重,D表示基础样本集合中的提案类别数量,y提案类别属于基础样本集合中的一种提案类别。
具体的,所述待分类提案文本在各提案类别下的权重,可以是统计后计算得到的预设值,也可以是通过分类模型实时计算得到的数值。
例如,将基础样本集合导入Xg-boost分类模型中,所述Xg-boost分类模型中是有若干棵决策树构成,每棵决策树T上设置有若干个树叶子节点,每个树叶子节点对应一个提案类别参数向量w,即Wy表示决策树T上,涉及y提案类别的参数向量w的线性或非线性组合。在Xg-boost分类模型中输入y提案类别,即可得到y提案类别在决策树T上的权重Wy
具体的,所述分类模型采用但不限于欧氏距离计算方法,对待分类提案进行类别预测。
欧氏距离(Euclid Distance)也称为欧几里得度量、欧几里得距离,是一种距离定义,可表示在多维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点间的直线段距离。
多维空间的欧氏距离公式为:
Figure BDA0002342623140000112
其中,dist(X,Y)表示点X和点Y的欧氏距离值,xi表示点X在第i维度上的坐标值,yi表示点Y在第i维度上的坐标值。
在多维空间中的欧氏距离是绝对距离,可以理解为两个点之间的真实距离,或者向量的自然长度。
具体的,可将一个已知类别提案文本作为一个多维空间中的点,该已知类别提案文本下的特征向量,表示该点在不同维度上的向量,各特征向量对应的特征向量数值,即为该点在不同维度上的坐标值。将上述确定完成的各已知类别提案文本的特征向量分别导入分类模型中。
若需要对一个待分类提案文本进行分类处理,则将该待分类提案文本导入分类模型中。分类模型调取构建词袋、确定特征向量对应的工具或算法模型,对该待分类提案文本进行分词、筛分、确定特征向量处理,得到该待分类提案文本的待分类提案文本词串集合和特征向量。
所述分类模型调取欧氏距离的计算公式,即公式(7),通过公式(7)分别计算所述待分类提案文本与各已知类别提案文本的欧氏距离值。
示例性地,待分类提案文本的词袋中包含a、b、c、d四个词串,且a、b、c、d四个词串在待分类提案文本下的特征向量数值分别为0.7、0.75、0.53、0.8。
对待分类提案文本的词袋中的词串进行排序并赋予序号,如表2所示:
表2待分类提案文本的词袋中的词串排序表
Figure BDA0002342623140000121
通过公式(7)计算所述待分类提案文本与甲提案文本的欧氏距离值:
dist(待分类,甲)
Figure BDA0002342623140000122
得到所述待分类提案文本与甲提案文本的欧氏距离值为0.116。
具体的,在当前词袋中,每个词串对应一个特征向量数值。例如,已知类别的甲提案文本,甲提案文本构建的词袋中有1000个不同的词串,则甲提案文本词袋中有1000个特征向量。若待分类提案文本构建的词袋中,没有甲提案文本词袋中的词串,例如,待分类提案文本的词袋中有500个不同的词串,则甲提案文本中至少有500个词串是待分类提案文本中未出现的。因此,在待分类提案文本中,上述未出现的词串的特征向量数值为0。在计算两个文本距离值时,正常代入公式(7)计算。同理,若未分类提案文本中存在甲提案文本中没有的词串,则该词串在甲提案文本中的特征向量数值为0。
具体的,所述欧氏距离值越小表示所述待分类提案文本词袋与对应的已知类别提案文本的提案类别相似度越高,即可表示所述待分类提案文本,属于最小欧氏距离值对应的提案类别。
进一步地,获取所述待分类提案文本与各已知类别提案文本之间的所有欧氏距离值,并将所有欧氏距离值按照数值从小到大进行排序,选出排列在前的若干组欧氏距离值。确定选出的若干组欧氏距离值对应的已知类别提案文本,并确定各已知类别提案文本的提案类别,作为计算样本。计算出计算样本中各提案类别的频数。
示例性地,基础样本集合中包括100件已知类别提案文本,4种提案类别分别为A、B、C、D。分别计算待分类提案文本与100件已知类别提案文本的欧氏距离,得到100个欧氏距离值,并将100个欧氏距离值从小到大排序。设定计算样本的数量为10,则从上述100个欧氏距离值选出排序在前的10个欧氏距离值。确定上述10个欧氏距离值分别对应的已知类别提案文本,其中,A提案类别的提案文本4件,B提案类别的提案文本3件,C提案类别的提案文本2件,D提案类别的提案文本1件。因此,所述待分类提案文本在计算样本中的A提案类别频数为4,B提案类别频数为3,C提案类别频数为2,D提案类别频数为1。
具体的,计算所述待分类提案与各提案类别的相似度的公式为:
S(y|x)=p(y|x)*F(y) (8)
其中,S(y|x)表示待分类提案文本x与y提案类别的相似度;p(y|x)表示待分类提案x属于y提案类别的概率,有公式(6)计算得到;F(y)表示在计算样本中,y提案类别的已知类别提案文本出现的频数。
步骤三:根据所述相似度,确定预测提案类别。
具体的,将待分类提案文本与基础样本集合中所有提案类别的相似度进行排序,相似度值最高的提案类别即为待分类提案文本的提案类别。
进一步地,所述提案分类方法还包括:获取并通过训练样本集合,训练优化所述分类模型。
具体的,获取已完成人工分类的提案文本,作为训练样本集合。具体的,所述训练样本集合中和上述基础样本集合中无相同提案文本。
将训练样本集合中的各训练提案文本导入所述分类模型,计算得到各训练提案文本的预测提案类别。判断预测提案类别与人工分类的结果是否一致。若有差别,则对分类模型进行优化调整,直至训练样本集合中的训练提案文本通过分类模型计算得到的预测提案类别与人工分类结果一致。
示例性的,所述对分类模型进行优化调整包括但不限于:调整上述降维过滤法的过滤阈值大小、上述计算样本的数量。
为实现上述分类方法,本发明还提供了一种提案分类***,示例性地,如图2所示,所述分类***包括分类模型。
具体的,所述分类***基于Xg-boost文本分类算法构建分类模型。
Xg-boost(eXtreme Gradient Boosting),全名叫极端梯度提升,Xg-boost是集成学习方法的王牌,是Boosting算法的一种,其思想是将许多弱分类器集成在一起形成一个强分类器,因为Xg-boost是一种提升树模型,所以它是将许多模型树集成在一起,形成一个很强的分类器。
进一步地,所述分类模型包括:
特征向量模块,用于获取基础样本集合和/或待分类提案文本,确定已知类别提案文本和/或待分类提案文本的特征向量;
相似度计算模块,用于获取已知类别提案文本和待分类提案文本的特征向量,计算待分类提案文本与各提案类别的相似度;
预测结果生成模块,用于根据所述相似度,确定预测提案类别。
具体的,所述特征向量模块包括:
词袋构建单元,用于获取基础样本集合和/或待分类提案文本,对所述基础样本集合和/或待分类提案文本进行预处理、数据清洗,得到词袋和/或待分类提案文本词串集合;
特征向量确定单元,用于根据所述词袋和/或待分类提案文本词串集合,确定已知类别提案文本和/或待分类提案文本的特征向量。
示例性的,所述词袋构建单元中封装有但不限于Jieba分词工具、词串集合筛分处理算法。具体的,所述筛分处理包括删除词串集合中出现频度过高和/或过低的词语;删除词串集合中感叹词、形容词、副词、动词等词性的词;依据停用词库,对词串集合进行过滤。
例如,所述词袋构建单元获取基础样本集合,通过Jieba分词工具对所述基础样本集合进行分词处理,得到词串集合;通过词串集合筛分处理算法对所述词串集合进行过滤,得到词袋。
示例性的,所述特征向量确定单元中封装有但不限于TF-IDF算法模型、归一化计算模型、降维过滤算法、赋予维度序号模型。
例如,所述特征向量确定单元获取基础样本集合生成的词袋,通过TF-IDF算法模型计算出基础样本集合中,各已知类别提案文本中各词串的特征向量数值;调用归一化计算模型对所述特征向量数值进行归一化计算;通过降维过滤算法对各已知类别提案文本进行特征降维处理;调用赋予维度序号模型为各已知类别提案文本中各词串赋予维度序号。
具体的,所述相似度计算模块包括:
概率计算单元,用于获取待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的概率;
距离计算单元,用于根据待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案文本与各已知类别提案文本的距离值;
类别频数确定单元,用于获取并根据所述待分类提案文本与各已知类别提案文本的距离值,确定所述待分类提案在各提案类别下的频数;
相似度计算单元,用于获取所述待分类提案在各提案类别下的概率和频数,计算得到所述待分类提案和各提案类别的相似度。
示例性的,所述概率计算单元中封装有但不限于上述公式(6)的概率计算模型;
所述距离计算单元中封装有但不限于欧氏距离计算模型;
所述相似度计算单元中封装有但不限于上述公式(8)的相似度计算模型。
例如,所述概率计算单元,用于获取待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,调用上述公式(6),计算得到所述待分类提案文本在各提案类别下的概率;距离计算单元获取待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,调用上述公式(7),计算得到所述待分类提案文本与各已知类别提案文本的距离值;类别频数确定单元,用于获取并根据所述待分类提案文本与各已知类别提案文本的距离值,筛选出计算样本,根据计算样本确定所述待分类提案在各提案类别下的频数;相似度计算单元,用于获取所述待分类提案在各提案类别下的概率和频数,调用上述公式(8),计算得到所述待分类提案和各提案类别的相似度。
具体的,可将上述特征向量模块、相似度计算模块和预测结果生成模块均封装在所述分类模型中。所述分类模型能够自动对导入的待分类提案文本进行确定特征向量、计算相似度的处理,并根据所述相似度,生成预测提案类别。
所述分类***还包括:优化模块,用于获取并通过训练样本集合,对分类模型进行训练优化。
具体的,获取已完成人工分类的提案文本,作为训练样本集合。具体的,所述训练样本集合中和上述基础样本集合中无相同提案文本。
将训练样本集合中的各训练提案文本导入所述分类模型,计算得到各训练提案文本的预测提案类别。判断预测提案类别与人工分类的结果是否一致。若有差别,则对分类模型进行优化调整,直至训练样本集合中的训练提案文本通过分类模型计算得到的预测提案类别与人工分类结果一致。
示例性的,所述对分类模型进行优化调整包括但不限于:调整上述特征向量确定单元中降维过滤算法的过滤阈值大小、上述类别频数确定单元中计算样本的数量。
本发明提出的分类***基于Xg-boost文本分类算法构建分类模型。可以将上述处理过程中,应用的工具和算法模型均封装在所述分类模型中。所述分类模型能够自动对导入的提案文本进行分词、筛分、确定特征向量处理、类别预测处理和预测提案类别输出处理。提高了提案分类工作的效率和准确性。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (23)

1.一种提案分类方法,其特征在于,所述分类方法包括:
分类模型获取待分类提案文本,计算得到待分类提案文本的特征向量;
根据所述特征向量,计算得到待分类提案文本与各提案类别的相似度;
根据所述相似度,确定待分类提案文本的预测提案类别。
2.根据权利要求1所述的提案分类方法,其特征在于,所述分类方法还包括:
所述分类模型获取基础样本集合,计算得到所述基础样本集合中各已知类别提案文本的特征向量;其中,所述基础样本集合包括若干件已完成人工分类的已知类别提案文本。
3.根据权利要求2所述的提案分类方法,其特征在于,所述计算得到特征向量包括:
获取待分类提案文本和/或基础样本集合;
对所述待分类提案文本和/或基础样本集合进行预处理和数据清洗,得到待分类提案文本词串集合和/或基础样本集合的词袋;
根据所述待分类提案文本词串集合和/或基础样本集合的词袋,确定所述待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量。
4.根据权利要求3所述的提案分类方法,其特征在于,
所述预处理和数据清洗包括:
利用平均值或中位数来填充或者替换有缺失的提案文本;
对提案文本进行分词处理;
对分词得到的词串集合进行筛分处理。
5.根据权利要求3中所述的提案分类方法,其特征在于,
所述特征向量包括提案文本的所有词串、所述词串对应的特征向量数值和所述词串对应的维度序号。
6.根据权利要求5所述的提案分类方法,其特征在于,
所述词串的特征向量数值的计算方法包括:
计算所述词串在当前提案文本中词频;
计算所述词串在所述基础样本集合中的逆文本频率;
根据所述词频和逆文本频率,计算得到所述词串的特征向量数值。
7.根据权利要求6所述的提案分类方法,其特征在于,
所述词串的特征向量数值的计算方法还包括:
对所述特征向量数值进行归一化计算处理;
对所述特征向量数值进行特征降维处理。
8.根据权利要求2所述的提案分类方法,其特征在于,
所述待分类提案文本与各提案类别的相似度的计算方法包括:
获取并根据所述待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的权重;
计算所述待分类提案与各已知类别提案文本的距离值;
根据所述距离值,确定所述待分类提案在各提案类别下的频数;
根据所述权重和频数,计算所述待分类提案与各提案类别的相似度。
9.根据权利要求8所述的提案分类方法,其特征在于,
所述所待分类提案在各提案类别下的权重的计算公式为:
Figure FDA0002342623130000021
其中,p(y|x)表示待分类提案x属于y提案类别的概率,Wy表示y提案类别在基础样本集合中的权重,Zc表示第c个提案类别在基础样本集合中的权重,基础样本集合中的提案类别数量为D,y提案类别属于基础样本集合中的一种提案类别。
10.根据权利要求9所述的提案分类方法,其特征在于,
所述待分类提案与各已知类别提案文本的距离值的计算公式为:
Figure FDA0002342623130000022
其中,dist(X,Y)表示待分类提案文本X和已知类别提案文本Y的欧氏距离值,xi表示待分类提案文本X在第i维度上的特征向量数值,yi表示已知类别提案文本Y在第i维度上的特征向量数值。
11.根据权利要求10所述的提案分类方法,其特征在于,
所述待分类提案与各提案类别的相似度的计算公式为:
S(Y|X)=p(Y|X)*F(Y)
其中,S(Y|X)表示待分类提案文本X与Y提案类别的相似度;p(Y|X)表示待分类提案文本X属于Y提案类别的概率;F(Y)表示待分类提案文本X在Y提案类别下出现的频数。
12.根据权利要求1或11所述的提案分类方法,其特征在于,
所述待分类提案文本的预测提案类别的确定方法包括:
将所述待分类提案文本与基础样本集合中各提案类别的相似度进行排序;
将相似度值最高的提案类别作为待分类提案文本的提案类别。
13.根据权利要求1所述的提案分类方法,其特征在于,所述分类方法还包括:获取并通过训练样本集合,训练优化所述分类模型。
14.一种提案分类***,其特征在于,所述分类***包括分类模型,所述分类模型包括:
特征向量模块,用于获取待分类提案文本和/或基础样本集合,确定待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量;
相似度计算模块,用于获取并根据所述待分类提案文本和已知类别提案文本的特征向量,计算得到待分类提案文本与各提案类别的相似度;
预测结果生成模块,用于根据所述相似度,确定待分类提案文本的预测提案类别。
15.根据权利要求14所述的提案分类***,其特征在于,
所述基础样本集合包括若干件已完成人工分类的已知类别提案文本。
16.根据权利要求14所述的提案分类***,其特征在于,
所述特征向量模块包括:
词袋构建单元,用于获取待分类提案文本和/或基础样本集合,对所述待分类提案文本和/或基础样本集合进行预处理、数据清洗,得到待分类提案文本词串集合和/或基础样本集合的词袋;
特征向量确定单元,用于根据所述待分类提案文本词串集合和/或基础样本集合的词袋,确定所述待分类提案文本和/或基础样本集合中各已知类别提案文本的特征向量。
17.根据权利要求16所述的提案分类***,其特征在于,
所述词袋构建单元包括:
预处理单元,用于对有缺失的提案文本进行处理,利用平均值或中位数来填充或者替换;
分词单元,用于获取并对提案文本进行分词处理,得到词串集合;
筛分单元,用于对所述词串集合进行筛分处理。
18.根据权利要求14或16所述的提案分类***,其特征在于,
所述特征向量包括提案文本的所有词串、所述词串对应的特征向量数值和所述词串对应的维度序号。
19.根据权利要求16所述的提案分类***,其特征在于,
所述特征向量确定单元包括:
特征向量数值计算单元,用于计算词串在当前提案文本中词频;计算所述词串在所述基础样本集合中的逆文本频率;根据所述词频和逆文本频率,计算得到所述词串的特征向量数值。
20.根据权利要求19所述的提案分类***,其特征在于,
所述特征向量确定单元还包括:
归一化计算单元,用于对所述词串的特征向量数值进行归一化计算处理;
特征降维处理单元,用于对所述词串的特征向量数值进行特征降维处理。
21.根据权利要求14所述的提案分类***,其特征在于,
所述相似度计算模块包括:
概率计算单元,用于获取并根据所述待分类提案文本和基础样本集合中各已知类别提案文本的特征向量,计算得到所述待分类提案在各提案类别下的概率;
频数计算单元,用于获取并计算所述待分类提案与各已知类别提案文本的距离值;根据所述距离值,确定所述待分类提案在各提案类别下的频数;
相似度计算单元,用于获取并根据所述概率和频数,计算出所述待分类提案与各提案类别的相似度。
22.根据权利要求14所述的提案分类***,其特征在于,
所述预测结果生成模块包括:
排序单元,用于获取并对所述待分类提案文本与基础样本集合中各提案类别的相似度进行排序;
输出单元,用于确定最高相似度值对应的提案类别,并将最高相似度值对应的提案类别作为待分类提案文本的提案类别。
23.根据权利要求14所述的提案分类***,其特征在于,
所述分类***还包括:
优化模块,用于获取并通过训练样本集合,对所述分类模型进行训练优化。
CN201911382463.8A 2019-12-27 2019-12-27 一种提案分类方法及*** Active CN111177386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911382463.8A CN111177386B (zh) 2019-12-27 2019-12-27 一种提案分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911382463.8A CN111177386B (zh) 2019-12-27 2019-12-27 一种提案分类方法及***

Publications (2)

Publication Number Publication Date
CN111177386A true CN111177386A (zh) 2020-05-19
CN111177386B CN111177386B (zh) 2021-05-14

Family

ID=70649009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911382463.8A Active CN111177386B (zh) 2019-12-27 2019-12-27 一种提案分类方法及***

Country Status (1)

Country Link
CN (1) CN111177386B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析***及方法
CN115827877A (zh) * 2023-02-07 2023-03-21 湖南正宇软件技术开发有限公司 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN117093716A (zh) * 2023-10-19 2023-11-21 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质
CN117932072A (zh) * 2024-03-20 2024-04-26 华南理工大学 一种基于特征向量稀疏性的文本分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286628A1 (en) * 2012-10-26 2015-10-08 Nec Corporation Information extraction system, information extraction method, and information extraction program
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备
JP2018147288A (ja) * 2017-03-07 2018-09-20 日本電信電話株式会社 対話破壊特徴量抽出装置、対話破壊モデル学習装置、対話破壊力推定装置、対話破壊特徴量抽出方法、プログラム
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286628A1 (en) * 2012-10-26 2015-10-08 Nec Corporation Information extraction system, information extraction method, and information extraction program
JP2018147288A (ja) * 2017-03-07 2018-09-20 日本電信電話株式会社 対話破壊特徴量抽出装置、対話破壊モデル学習装置、対話破壊力推定装置、対話破壊特徴量抽出方法、プログラム
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISHII, NAOHIRO, ET AL.: "Classification by weighting, similarity and kNN", 《INTERNATIONAL CONFERENCE ON INTELLIGENT DATA ENGINEERING AND AUTOMATED LEARNING》 *
钱新梅: "政协提案的机器学习查重方法研究", 《福建电脑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析***及方法
CN112434516B (zh) * 2020-12-18 2024-04-26 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析***及方法
CN115827877A (zh) * 2023-02-07 2023-03-21 湖南正宇软件技术开发有限公司 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN116992035B (zh) * 2023-09-27 2023-12-08 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN117093716A (zh) * 2023-10-19 2023-11-21 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质
CN117093716B (zh) * 2023-10-19 2023-12-26 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质
CN117932072A (zh) * 2024-03-20 2024-04-26 华南理工大学 一种基于特征向量稀疏性的文本分类方法
CN117932072B (zh) * 2024-03-20 2024-06-25 华南理工大学 一种基于特征向量稀疏性的文本分类方法

Also Published As

Publication number Publication date
CN111177386B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN111177386B (zh) 一种提案分类方法及***
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
KR20190080234A (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN111428028A (zh) 基于深度学习的信息分类方法及相关设备
CN111008274A (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN112529638A (zh) 基于用户分类和深度学习的服务需求动态预测方法及***
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其***
CN111460100A (zh) 一种刑事法律文书罪名的推荐方法和***
CN111489030A (zh) 一种基于文本分词的离职预测方法及***
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN114281983B (zh) 分层结构的文本分类方法、***、电子设备和存储介质
CN114333461B (zh) 主观题自动评分方法及***
CN114490925A (zh) 公共事件下的情绪挖掘方法及设备
CN113609297A (zh) 用于法院行业的舆情监控方法和装置
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN111651598A (zh) 一种通过中心向量相似度匹配的垃圾文本审核装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 501, building A4, phase I, innovation industrial park, No. 800, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province

Applicant after: ANHUI SUNCN PAP INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 501, building A4, phase I, innovation industrial park, No. 800, Wangjiang West Road, high tech Zone, Shushan District, Hefei City, Anhui Province

Applicant before: ANHUI SUNCN PAP INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant