CN111079425A - 一种地质文档词项分级方法及装置 - Google Patents

一种地质文档词项分级方法及装置 Download PDF

Info

Publication number
CN111079425A
CN111079425A CN201911322151.8A CN201911322151A CN111079425A CN 111079425 A CN111079425 A CN 111079425A CN 201911322151 A CN201911322151 A CN 201911322151A CN 111079425 A CN111079425 A CN 111079425A
Authority
CN
China
Prior art keywords
level
terms
term
target
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911322151.8A
Other languages
English (en)
Other versions
CN111079425B (zh
Inventor
邓吉秋
路馥毓
李晨菡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201911322151.8A priority Critical patent/CN111079425B/zh
Publication of CN111079425A publication Critical patent/CN111079425A/zh
Application granted granted Critical
Publication of CN111079425B publication Critical patent/CN111079425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种地质文档词项分级方法,包括:获取多个目标处理词项和所述目标处理词项的长度值;基于所述目标处理词项和预先设定的尾词,获取第一类目标处理词项和第二类目标处理词项;获取所述第二类目标处理词项的尾词的长度值;基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值,获取所述尾词所属的目标处理词项的前缀长度值;基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别,获取所述尾词所属的目标处理词项的目标级别;所述目标级别包括:第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。

Description

一种地质文档词项分级方法及装置
技术领域
本发明涉及语言处理领域,尤其涉及一种地质文档词项分级方法及装置。
背景技术
目前大多数中文文本分类***都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词。关于文本的表征有许多方法,最常用、效果比较好的方法是建立词项-文档矩阵。
词项-文档矩阵中的每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于该文档来说的重要程度。一个词对于一个文档是否重要,体现在两个方面:一个词项在一个文档中出现次数越多,则相对于文档的重要性就越大;若词项在整个语料库中出现的次数越多,那么对于该文档而言这个词就越没有意义,即越不重要。
文档中的同一词项所包含的实际语义在不同主题或类型文档中体现不同,另外地质文档中各种地质命名实体比一般非地质实体的词项对特定文档来说更能表征文档的主题特征,在表征文档的主题时应考虑词项在语义上对文档重要性的差异。而一般的词项-文档矩阵中,纯粹地采用词项的出现次数来表示词项对文档主题的表征,没对词项进行差异化处理。
发明内容
(一)要解决的技术问题
为了解决现有技术中纯粹的采用词项在文档中出现的次数来表示词项对文档主题的表征,没有对词项进行差异化区别的问题,本发明提供一种地质文档词项分级方法及装置。
(二)技术方案
为了达到上述目的,本发明提供一种地质文档词项分级方法,包括步骤:
A1、获取多个目标处理词项和所述目标处理词项的长度值;
A2、基于所述目标处理词项和预先设定的尾词,确定第一类目标处理词项和第二类目标处理词项;
所述第一类目标处理词项包括:不具有预先设定的尾词的多个目标处理词项;
所述第二类目标处理词项包括:具有预先设定的尾词的多个目标处理词项;
A3、获取所述第二类目标处理词项的尾词的长度值;
A4、基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值,获取所述尾词所属的目标处理词项的前缀长度值;
所述尾词所属的目标处理词项的前缀长度值为所述尾词所属的目标处理词项的长度值减去所述尾词的长度值;
A5、基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别,获取所述尾词所属的目标处理词项的目标级别;
所述目标级别包括:第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。
优选的,所述步骤A1之前还包括步骤:
B1、获取多个第一规则词项、多个第二规则词项以及多个第三规则词项;
B2、基于预先设定的与所述第一规则词项、第二规则词项、第三规则词项相应的第一级别、第三级别、第五级别,获取多个第一级别词项、多个第三级别词项以及多个第五级别词项;
所述多个第一级别词项包括:所述多个第一规则词项;
所述多个第三级别词项包括:所述多个第二规则词项;
所述多个第五级别词项包括:所述多个第三规则词项;
B3、判断所述多个第一级别词项中是否具有与第三级别词项或第五级别词项相同的第一级别词项;
若有,则对所述多个第一级别词项进行处理,获取处理后的多个第一级别词项;
所述处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项;和,
判断所述多个第三级别词项中是否具有与第五级别词项相同的第三级别词项;若有,则对所述多个第三级别词项进行处理,获取处理后的多个第三级别词项;
所述处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项;
B4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值;
相应的,所述步骤A1具体包括:
基于所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项和与所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值,获取多个目标处理词项;
所述多个目标处理词项包括:词项的长度值大于第一预设值的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。
优选的,所述方法还包括步骤:
A6、基于所述尾词所属的目标处理词项的目标级别,获取第三类目标处理词项;
所述第三类目标处理词项包括:所述第二类目标处理词项中的第二目标级别和第三目标级别和第四目标级别和第五目标级别和第六目标级别目标处理词项。
优选的,还包括步骤:
A7、基于所述第三类目标处理词项,获取多个第一规则词项、多个第二规则词项以及多个第三规则词项相应的级别;具体包括:
针对每一个第一规则词项或每一个第二规则词项或每一个第三规则词项,判断所述第一规则词项或第二规则词项或第三规则词项是否与第三类目标处理词项中的目标处理词项相同;
若不同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为预先设定的与所述第一规则词项或第二规则词项或第三规则词项相应的第一级别或第三级别或第五级别;
若相同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为与第三类目标处理词项中的相同的目标处理词项所对应的目标级别。
优选的,所述第一预设值为1。
一种地质文档词项分级装置,其特征在于,所述地质文档词项分级装置存储第一指令;
所述第一指令使所述地质文档词项分级装置执行上述任一项所述的地质文档词项分级方法。
(三)有益效果
本发明的有益效果是:在没有专业术语语料库或词典的情况下,通过预定义规则实现地质文档多来源词项的统一分级,从而突出不同级别词项对文档主题表征的差异性。
附图说明
图1为本发明中的词项分级方法流程图;
图2为本发明实施例一中的分级方法流程图;
图3为本发明实施例二中的分级方法示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
参见附图2,本实施例一中的词项分级方法,包括步骤:
C1、获取多个第一规则词项、多个第二规则词项以及多个第三规则词项。
C2、基于预先设定的与所述第一规则词项、第二规则词项、第三规则词项相应的第一级别、第三级别、第五级别,获取多个第一级别词项、多个第三级别词项以及多个第五级别词项。
所述多个第一级别词项包括:所述多个第一规则词项。
所述多个第三级别词项包括:所述多个第二规则词项。
所述多个第五级别词项包括:所述多个第三规则词项。
C3、判断所述多个第一级别词项中是否具有与第三级别词项或第五级别词项相同的第一级别词项。若有,则对所述多个第一级别词项进行处理,获取处理后的多个第一级别词项。
所述处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项。和,
判断所述多个第三级别词项中是否具有与第五级别词项相同的第三级别词项;若有,则对所述多个第三级别词项进行处理,获取处理后的多个第三级别词项。
所述处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项。
本实施例中,剔除重复的词项,减少了工作量。
C4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值。
C5、基于所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项和与所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值,获取多个目标处理词项。
所述多个目标处理词项包括:词项的长度值大于预设值为1的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。
本实施例中,通过词项的长度,剔除不满足预设值长度的词项,部分无意义词项,使分级效率更高。
C6、基于所述目标处理词项和预先设定的尾词,获取第一类目标处理词项和第二类目标处理词项。
所述第一类目标处理词项包括:不具有预先设定的尾词的多个目标处理词项。
所述第二类目标处理词项包括:具有预先设定的尾词的多个目标处理词项。
C7、获取所述第二类目标处理词项的尾词的长度值。
C8、基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值,获取所述尾词所属的目标处理词项的前缀长度值。
所述尾词所属的目标处理词项的前缀长度值为所述尾词所属的目标处理词项的长度值减去所述尾词的长度值。
C9、基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别,获取所述尾词所属的目标处理词项的目标级别。
所述目标级别包括:第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。
C10、基于所述尾词所属的目标处理词项的目标级别,获取第三类目标处理词项。
所述第三类目标处理词项包括:所述第二类目标处理词项中的第二目标级别和第三目标级别和第四目标级别和第五目标级别和第六目标级别目标处理词项。
C11、基于所述第三类目标处理词项,获取多个第一规则词项、多个第二规则词项以及多个第三规则词项相应的级别;具体包括:
针对每一个第一规则词项或每一个第二规则词项或每一个第三规则词项,判断所述第一规则词项或第二规则词项或第三规则词项是否与第三类目标处理词项中的目标处理词项相同;
若不同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为预先设定的与所述第一规则词项或第二规则词项或第三规则词项相应的第一级别或第三级别或第五级别;
若相同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为与第三类目标处理词项中的相同的目标处理词项所对应的目标级别。
本实施例中,对地质文档中不同类型级别的词项进行了定义,建立词项的尾词与级别综合判别规则。
能对多种提取方法所获得的词项进行统一分级,剔除重复与部分无意义词;该方法可扩展至基于尾词与长度规则的、具有特定尾词的其他类型命名实体的高效统一分级。
实施例二
本实施例中,根据地质文档中不同词项所表达的语义,将词项划分为多级,词项级别定义见表1。
表1词项级别定义
Figure BDA0002327420580000071
Figure BDA0002327420580000081
表1中所述“级别”,数字越大表示级别越高,对表征地质文档的作用越重要。
(2)词项级别定义
(2-1)初始级别
特定词项的初始级别根据词项来源确定,不同来源词项的初始级别定义如下:
本实施例中普通中文分词所得到的字、语词或词组作为第一规则词项,其初始级别为1。
本实施例中普通命名实体提取得到的词项作为第二规则词项,其初始级别为3。
本实施例中地质命名实体提取得到的词作为第三规则词项,其初始级别为5。
(2-2)级别调整规则
大部分地质类型词项、地质命名实体具有类似的结尾词(简称为尾词),由此定义不同的尾词及其分级规则用于区分基本地质词项、地质类型词项、地质命名实体,对其初始级别进行调整。尾词及对应级别规则见表2。
表2尾词与级别规则定义
Figure BDA0002327420580000091
表2中所述“尾词”,表示具有同样级别调整规则的尾词匹配规则,采用正则表达式书写;表中所述“级别”,表示对应同组尾词的级别调整规则,根据词项长度进行级别判别。如词项“走滑断层”对应尾词为“断层”,属于第4组,其级别规则为“24455”,词项长度减尾词长度得到前缀长度为2,则其级别为“24455”字符串位置序号(从左边开始0、1、2、3、4)为2的字符,即4(地质类型词项);如果词项为“断层”,则前缀长度为0、级别为2(基本地质词项)。
(3)词项分级处理过程
本实施例分级处理过程,如附图3所示。
针对输入的中文分词列表com_words、普通命名实体列表com_entities、地质命名实体列表geo_entities中的任一词项,先设定初始级别,然后合并三个列表为一个统一列表,重复词项只保留级别高的只剩下处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项,处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项,处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项,然后删除长度为1的字剩下多个目标处理词项,多个目标处理词项是:词项的长度值大于预设值为1的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。循环处理每一词项,如果其以某个预先设定尾词结尾,本实施例中预先设定的尾词参见表2,本实施例中第一类目标处理词项包括:不具有预先设定的尾词的多个目标处理词项,本实施例中第二类目标处理词项包括:具有预先设定的尾词的多个目标处理词项,然后则计算其长度、再根据长度获取其新级别;如果新级别为0则删除该词项,如果新级别与初始级别不相等则调整级别为新级别,由此实现词项分级。具体函数实现过程如下:
(3-1)进入***初始化,初始化输出参数:词项分级列表words为空列表;之后,进入3-2)。
(3-2)初始化列表添加函数list_add,列表添加函数list_add的输入参数为列表list、级别level、词项分级列表words,函数具体实现过程见3-2-1)~3-2-3);之后,进入3-3)。
(3-2-1)获取输入参数:列表list、级别level、词项分级列表words,读取列表list第一元素作为当前词项word,进入3-2-2)。
(3-2-2)计算词项分级列表words的长度len,如果长度len为0则进入3-2-3);如果长度len大于0,则表示词项分级列表words有一个以上的元素,列表words中的每一个元素是一个元组[text,level],元组中text是词项的文本、level为词项text的级别,在列表words中查找是否有元组的text等于当前词项word,具体步骤见3-2-2-1)~3-2-2-3),如没有则进入3-2-3),否则进入3-2-4)。
(3-2-2-1)获得词项分级列表words的第一元素,作为当前元素text_level,进入3-2-2-2)。
(3-2-2-2)判断当前元素text_level的text是否等于当前词项word,如果相等词项分级列表中有元组的text等于当前词项word,则查找过程结束;如果不相等则进入3-2-2-3)。
(3-2-2-3)判断当前元素text_level是否是词项分级列表words的最后一个元素,如果是词项分级列表words的最后一个元素,表示词项分级列表中没有元组的text等于当前词项word,查找过程结束;如果不是词项分级列表words的最后一个元素,则读取词项分级列表words的下一个元素、作为当前元素text_level,进入3-2-2-2)。
(3-2-3)将当前词项word与输入参数级别level组成一个元组[word,level],将元组[word,level]***至词项分级列表words的末尾,进入3-2-4)。
(3-2-4)判断当前词项是否是列表list的最后一个元素,如果不是列表list的最后一个元素则读取列表list的下一个元素,将下一个元素作为当前词项word,进入3-2-2);如果是列表list的最后一个元素,则结束函数。
(3-3)初始化级别修改函数level_modify,级别修改函数level_modify的输入参数为词项序号index、新级别new_level、词项分级列表words,函数具体实现过程见3-3-1)~3-3-2);之后,进入3-4)。
(3-3-1)获取输入参数:词项序号index、新级别new_level,进入3-3-2)。
(3-3-2)计算词项分级列表words的长度len,如果长度len小于词项序号index,则不做任何处理、函数退出;如果长度len大于等于词项序号index,则从词项分级列表words中读取位置序号等于词项序号index的元素text_level,将元素text_level的元组[text,level]中level修改为新级别new_level,之后函数退出。
(3-4)获取输入参数:地质命名实体列表geo_entities,将地质命名实体列表geo_entities、初始级别5、词项分级列表words作为输入参数调用列表添加函数list_add,实现将地质命名实体按初始级别5添加至词项分级列表words,进入3-5)。
(3-5)获取输入参数:普通命名实体列表com_entities,将普通命名实体列表com_entities、初始级别3、词项分级列表words作为输入参数调用列表添加函数list_add,实现将普通命名实体按初始级别3添加至词项分级列表words,进入3-6)。
(3-6)获取输入参数:中文分词列表com_words,将中文分词列表com_words、初始级别1、词项分级列表words作为输入参数调用列表添加函数list_add,实现将中文分词按初始级别1添加至词项分级列表words,进入3-7)。
(3-7)初始化词项尾词匹配函数re_text,词项尾词匹配函数re_text的输入参数为词项文本word、尾词级别列表levels,级别列表levels中每个元素end_level为元组[id,end_words,level]、具体内容见表2;函数re_text输出为级别规则word_level、尾词长度end_len,其中end_len大于0表示词项文本word包含尾词end_words中的一个尾词,end_len为0表示词项文本word不含包含尾词end_words中的任何尾词,end_len为所匹配尾词的长度,函数的实现过程见步骤3-7-1)~3-7-3);之后进入3-8)。
(3-7-1)获取输入参数:词项文本text、尾词级别列表levels,初始化输出参数word_level为空字符串、尾词长度为0,进入3-7-2)。
(3-7-2)读取尾词级别列表levels的第一元素,作为当前元素tend_level,进入3-7-3)。
(3-7-3)对词项文本text进行end_words正则表达式提取,提取后的字符串为尾词end_word,计算尾词end_word的长度end_len,若end_len大于0则将word_level赋值为当前元素text_level的level字符串,进入3-7-4);否则进入3-7-4)。
(3-7-4)判断当前元素end_level是否是尾词级别列表levels的最后一个元素,如果是,则将word_level、end_len作为返回值输出、函数执行结束;如果不是,则读取尾词级别列表levels的下一个元素,作为当前元素,进入3-7-3)。
(3-8)获得词项分级列表words的第一个元素,作为当前词项text_level,进入3-8-1)。
(3-8-1)将当前词项text_level中文本text、尾词级别列表levels作为输入参数,调用词项尾词匹配函数re_text,获得当前词项的文本text所匹配的级别规则word_level与尾词长度end_len,如果end_len等于0,则进入3-8-5),否则进入3-8-2)。
(3-8-2)计算当前词项text_level中文本text的字符串长度len,将text长度len减去尾词长度end_len,作为级别长度level_len;如果级别长度level_len大于4则level_len修改为4,如果小于等于4则不做处理,进入3-8-3)。
(3-8-3)从级别规则word_level中截取左数第level_len+1位置的字符C,将字符C转换成数字n,进入3-8-4)。
(3-8-4)如果数字n大于0,则将n赋值给当前词项text_level中级别level,如果数字n等于0则从词项分级列表words删除当前元素text_level,进入3-8-5)。
(3-8-5)判断当前词项text_level是否是词项分级列表words的最后一个元素,如果是,则进入3-9);如果不是,则读取词项分级列表words中下一个元素,作为当前词项text_level,进入3-8-1)。
(3-9)输出词项分级列表words。
本实施例中,在没有专业术语语料库或词典的情况下,通过预定义规则实现地质文档多来源词项的统一分级,从而突出不同级别词项对文档主题表征的差异性。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (7)

1.一种地质文档词项分级方法,其特征在于,包括步骤:
A1、获取多个目标处理词项和所述目标处理词项的长度值;
A2、基于所述目标处理词项和预先设定的尾词,确定第一类目标处理词项和第二类目标处理词项;
所述第一类目标处理词项包括:不具有预先设定的尾词的多个目标处理词项;
所述第二类目标处理词项包括:具有预先设定的尾词的多个目标处理词项;
A3、获取所述第二类目标处理词项的尾词的长度值;
A4、基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值,获取所述尾词所属的目标处理词项的前缀长度值;
所述尾词所属的目标处理词项的前缀长度值为所述尾词所属的目标处理词项的长度值减去所述尾词的长度值;
A5、基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别,获取所述尾词所属的目标处理词项的目标级别;
所述目标级别包括:第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。
2.根据权利要求1所述的方法,其特征在于,所述步骤A1之前还包括步骤:
B1、获取多个第一规则词项、多个第二规则词项以及多个第三规则词项;
B2、基于预先设定的与所述第一规则词项、第二规则词项、第三规则词项相应的第一级别、第三级别、第五级别,获取多个第一级别词项、多个第三级别词项以及多个第五级别词项;
所述多个第一级别词项包括:所述多个第一规则词项;
所述多个第三级别词项包括:所述多个第二规则词项;
所述多个第五级别词项包括:所述多个第三规则词项;
B3、判断所述多个第一级别词项中是否具有与第三级别词项或第五级别词项相同的第一级别词项;
若有,则对所述多个第一级别词项进行处理,获取处理后的多个第一级别词项;
所述处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项;和,
判断所述多个第三级别词项中是否具有与第五级别词项相同的第三级别词项;若有,则对所述多个第三级别词项进行处理,获取处理后的多个第三级别词项;
所述处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项;
B4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值。
3.根据权利要求2所述的方法,其特征在于,所述步骤A1具体包括:
基于所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项和与所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值,获取多个目标处理词项;
所述多个目标处理词项包括:词项的长度值大于第一预设值的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括步骤:
A6、基于所述尾词所属的目标处理词项的目标级别,获取第三类目标处理词项;
所述第三类目标处理词项包括:所述第二类目标处理词项中的第二目标级别和第三目标级别和第四目标级别和第五目标级别和第六目标级别目标处理词项。
5.根据权利要求4所述的方法,其特征在于,还包括步骤:
A7、基于所述第三类目标处理词项,获取多个第一规则词项、多个第二规则词项以及多个第三规则词项相应的级别;具体包括:
针对每一个第一规则词项或每一个第二规则词项或每一个第三规则词项,判断所述第一规则词项或第二规则词项或第三规则词项是否与第三类目标处理词项中的目标处理词项相同;
若不同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为预先设定的与所述第一规则词项或第二规则词项或第三规则词项相应的第一级别或第三级别或第五级别;
若相同,则确定所述第一规则词项或第二规则词项或第三规则词项的级别为与第三类目标处理词项中的相同的目标处理词项所对应的目标级别。
6.根据权利要求2所述的方法,其特征在于,所述第一预设值为1。
7.一种地质文档词项分级装置,其特征在于,所述地质文档词项分级装置存储第一指令;
所述第一指令使所述地质文档词项分级装置执行如权利要求1至6任一项所述的地质文档词项分级方法。
CN201911322151.8A 2019-12-20 2019-12-20 一种地质文档词项分级方法及装置 Active CN111079425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911322151.8A CN111079425B (zh) 2019-12-20 2019-12-20 一种地质文档词项分级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911322151.8A CN111079425B (zh) 2019-12-20 2019-12-20 一种地质文档词项分级方法及装置

Publications (2)

Publication Number Publication Date
CN111079425A true CN111079425A (zh) 2020-04-28
CN111079425B CN111079425B (zh) 2021-07-09

Family

ID=70316024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911322151.8A Active CN111079425B (zh) 2019-12-20 2019-12-20 一种地质文档词项分级方法及装置

Country Status (1)

Country Link
CN (1) CN111079425B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422061A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割结果合并标注方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JEFFREY E.F.FRIEDL: "《Mastering Regular Expressiongs》", 31 August 2006, O’REILLY *
JIN HE 等: ""Validation of query expression based on Regular Expression"", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND SERVICE SYSTEM (CSSS)》 *
徐帅、许海: ""正则表达式快速入门"", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422061A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割结果合并标注方法及装置
CN117422061B (zh) * 2023-12-19 2024-03-08 中南大学 一种文本词项多重分割结果合并标注方法及装置

Also Published As

Publication number Publication date
CN111079425B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN109543178B (zh) 一种司法文本标签体系构建方法及***
US9928234B2 (en) Natural language text classification based on semantic features
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
Sterckx et al. Topical word importance for fast keyphrase extraction
US9626358B2 (en) Creating ontologies by analyzing natural language texts
CN101872351B (zh) 识别同义词的方法、装置及利用其进行搜索的方法和装置
US20170293687A1 (en) Evaluating text classifier parameters based on semantic features
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
US8375033B2 (en) Information retrieval through identification of prominent notions
CA2574554A1 (en) A method for determining near duplicate data objects
US11144723B2 (en) Method, device, and program for text classification
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN103186612A (zh) 一种词汇分类的方法、***和实现方法
Awajan Keyword extraction from Arabic documents using term equivalence classes
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及***
Kotenko et al. Evaluation of text classification techniques for inappropriate web content blocking
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及***
CN111079425B (zh) 一种地质文档词项分级方法及装置
CN107577713B (zh) 基于电力词典的文本处理方法
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN112182332A (zh) 一种基于爬虫采集的情感分类方法及***
Wei et al. A mining-based category evolution approach to managing online document categories
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
CN109947942B (zh) 一种基于位置信息的贝叶斯文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Deng Jiqiu

Inventor after: Lu Biyu

Inventor after: Liu Wenyi

Inventor after: Li Chenhan

Inventor after: He Meixiang

Inventor before: Deng Jiqiu

Inventor before: Lu Biyu

Inventor before: Li Chenhan

GR01 Patent grant
GR01 Patent grant