CN111079425A

CN111079425A - 一种地质文档词项分级方法及装置

Info

Publication number: CN111079425A
Application number: CN201911322151.8A
Authority: CN
Inventors: 邓吉秋; 路馥毓; 李晨菡
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28
Anticipated expiration: 2039-12-20
Also published as: CN111079425B

Abstract

本发明涉及一种地质文档词项分级方法，包括：获取多个目标处理词项和所述目标处理词项的长度值；基于所述目标处理词项和预先设定的尾词，获取第一类目标处理词项和第二类目标处理词项；获取所述第二类目标处理词项的尾词的长度值；基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值，获取所述尾词所属的目标处理词项的前缀长度值；基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别，获取所述尾词所属的目标处理词项的目标级别；所述目标级别包括：第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。

Description

一种地质文档词项分级方法及装置

技术领域

本发明涉及语言处理领域，尤其涉及一种地质文档词项分级方法及装置。

背景技术

目前大多数中文文本分类***都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词。关于文本的表征有许多方法，最常用、效果比较好的方法是建立词项-文档矩阵。

词项-文档矩阵中的每个元素值代表了相应行上的词项对应于相应列上的文档的权重，即这个词对于该文档来说的重要程度。一个词对于一个文档是否重要，体现在两个方面：一个词项在一个文档中出现次数越多，则相对于文档的重要性就越大；若词项在整个语料库中出现的次数越多，那么对于该文档而言这个词就越没有意义，即越不重要。

文档中的同一词项所包含的实际语义在不同主题或类型文档中体现不同，另外地质文档中各种地质命名实体比一般非地质实体的词项对特定文档来说更能表征文档的主题特征，在表征文档的主题时应考虑词项在语义上对文档重要性的差异。而一般的词项-文档矩阵中，纯粹地采用词项的出现次数来表示词项对文档主题的表征，没对词项进行差异化处理。

发明内容

(一)要解决的技术问题

为了解决现有技术中纯粹的采用词项在文档中出现的次数来表示词项对文档主题的表征，没有对词项进行差异化区别的问题，本发明提供一种地质文档词项分级方法及装置。

(二)技术方案

为了达到上述目的，本发明提供一种地质文档词项分级方法，包括步骤：

A1、获取多个目标处理词项和所述目标处理词项的长度值；

A2、基于所述目标处理词项和预先设定的尾词，确定第一类目标处理词项和第二类目标处理词项；

所述第一类目标处理词项包括：不具有预先设定的尾词的多个目标处理词项；

所述第二类目标处理词项包括：具有预先设定的尾词的多个目标处理词项；

A3、获取所述第二类目标处理词项的尾词的长度值；

A4、基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值，获取所述尾词所属的目标处理词项的前缀长度值；

所述尾词所属的目标处理词项的前缀长度值为所述尾词所属的目标处理词项的长度值减去所述尾词的长度值；

A5、基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别，获取所述尾词所属的目标处理词项的目标级别；

所述目标级别包括：第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。

优选的，所述步骤A1之前还包括步骤：

B1、获取多个第一规则词项、多个第二规则词项以及多个第三规则词项；

B2、基于预先设定的与所述第一规则词项、第二规则词项、第三规则词项相应的第一级别、第三级别、第五级别，获取多个第一级别词项、多个第三级别词项以及多个第五级别词项；

所述多个第一级别词项包括：所述多个第一规则词项；

所述多个第三级别词项包括：所述多个第二规则词项；

所述多个第五级别词项包括：所述多个第三规则词项；

B3、判断所述多个第一级别词项中是否具有与第三级别词项或第五级别词项相同的第一级别词项；

若有，则对所述多个第一级别词项进行处理，获取处理后的多个第一级别词项；

所述处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项；和，

判断所述多个第三级别词项中是否具有与第五级别词项相同的第三级别词项；若有，则对所述多个第三级别词项进行处理，获取处理后的多个第三级别词项；

所述处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项；

B4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值；

相应的，所述步骤A1具体包括：

基于所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项和与所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值，获取多个目标处理词项；

所述多个目标处理词项包括：词项的长度值大于第一预设值的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。

优选的，所述方法还包括步骤：

A6、基于所述尾词所属的目标处理词项的目标级别，获取第三类目标处理词项；

所述第三类目标处理词项包括：所述第二类目标处理词项中的第二目标级别和第三目标级别和第四目标级别和第五目标级别和第六目标级别目标处理词项。

优选的，还包括步骤：

A7、基于所述第三类目标处理词项，获取多个第一规则词项、多个第二规则词项以及多个第三规则词项相应的级别；具体包括：

针对每一个第一规则词项或每一个第二规则词项或每一个第三规则词项，判断所述第一规则词项或第二规则词项或第三规则词项是否与第三类目标处理词项中的目标处理词项相同；

若不同，则确定所述第一规则词项或第二规则词项或第三规则词项的级别为预先设定的与所述第一规则词项或第二规则词项或第三规则词项相应的第一级别或第三级别或第五级别；

若相同，则确定所述第一规则词项或第二规则词项或第三规则词项的级别为与第三类目标处理词项中的相同的目标处理词项所对应的目标级别。

优选的，所述第一预设值为1。

一种地质文档词项分级装置，其特征在于，所述地质文档词项分级装置存储第一指令；

所述第一指令使所述地质文档词项分级装置执行上述任一项所述的地质文档词项分级方法。

(三)有益效果

本发明的有益效果是：在没有专业术语语料库或词典的情况下，通过预定义规则实现地质文档多来源词项的统一分级，从而突出不同级别词项对文档主题表征的差异性。

附图说明

图1为本发明中的词项分级方法流程图；

图2为本发明实施例一中的分级方法流程图；

图3为本发明实施例二中的分级方法示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

实施例一

参见附图2，本实施例一中的词项分级方法，包括步骤：

C1、获取多个第一规则词项、多个第二规则词项以及多个第三规则词项。

C2、基于预先设定的与所述第一规则词项、第二规则词项、第三规则词项相应的第一级别、第三级别、第五级别，获取多个第一级别词项、多个第三级别词项以及多个第五级别词项。

所述多个第一级别词项包括：所述多个第一规则词项。

所述多个第三级别词项包括：所述多个第二规则词项。

所述多个第五级别词项包括：所述多个第三规则词项。

C3、判断所述多个第一级别词项中是否具有与第三级别词项或第五级别词项相同的第一级别词项。若有，则对所述多个第一级别词项进行处理，获取处理后的多个第一级别词项。

所述处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项。和，

判断所述多个第三级别词项中是否具有与第五级别词项相同的第三级别词项；若有，则对所述多个第三级别词项进行处理，获取处理后的多个第三级别词项。

所述处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项。

本实施例中，剔除重复的词项，减少了工作量。

C4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值。

C5、基于所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项和与所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值，获取多个目标处理词项。

所述多个目标处理词项包括：词项的长度值大于预设值为1的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。

本实施例中，通过词项的长度，剔除不满足预设值长度的词项，部分无意义词项，使分级效率更高。

C6、基于所述目标处理词项和预先设定的尾词，获取第一类目标处理词项和第二类目标处理词项。

所述第一类目标处理词项包括：不具有预先设定的尾词的多个目标处理词项。

所述第二类目标处理词项包括：具有预先设定的尾词的多个目标处理词项。

C7、获取所述第二类目标处理词项的尾词的长度值。

C8、基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值，获取所述尾词所属的目标处理词项的前缀长度值。

所述尾词所属的目标处理词项的前缀长度值为所述尾词所属的目标处理词项的长度值减去所述尾词的长度值。

C9、基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别，获取所述尾词所属的目标处理词项的目标级别。

C10、基于所述尾词所属的目标处理词项的目标级别，获取第三类目标处理词项。

C11、基于所述第三类目标处理词项，获取多个第一规则词项、多个第二规则词项以及多个第三规则词项相应的级别；具体包括：

本实施例中，对地质文档中不同类型级别的词项进行了定义，建立词项的尾词与级别综合判别规则。

能对多种提取方法所获得的词项进行统一分级，剔除重复与部分无意义词；该方法可扩展至基于尾词与长度规则的、具有特定尾词的其他类型命名实体的高效统一分级。

实施例二

本实施例中，根据地质文档中不同词项所表达的语义，将词项划分为多级，词项级别定义见表1。

表1词项级别定义

表1中所述“级别”，数字越大表示级别越高，对表征地质文档的作用越重要。

(2)词项级别定义

(2-1)初始级别

特定词项的初始级别根据词项来源确定，不同来源词项的初始级别定义如下：

本实施例中普通中文分词所得到的字、语词或词组作为第一规则词项，其初始级别为1。

本实施例中普通命名实体提取得到的词项作为第二规则词项，其初始级别为3。

本实施例中地质命名实体提取得到的词作为第三规则词项，其初始级别为5。

(2-2)级别调整规则

大部分地质类型词项、地质命名实体具有类似的结尾词(简称为尾词)，由此定义不同的尾词及其分级规则用于区分基本地质词项、地质类型词项、地质命名实体，对其初始级别进行调整。尾词及对应级别规则见表2。

表2尾词与级别规则定义

表2中所述“尾词”，表示具有同样级别调整规则的尾词匹配规则，采用正则表达式书写；表中所述“级别”，表示对应同组尾词的级别调整规则，根据词项长度进行级别判别。如词项“走滑断层”对应尾词为“断层”，属于第4组，其级别规则为“24455”，词项长度减尾词长度得到前缀长度为2，则其级别为“24455”字符串位置序号(从左边开始0、1、2、3、4)为2的字符，即4(地质类型词项)；如果词项为“断层”，则前缀长度为0、级别为2(基本地质词项)。

(3)词项分级处理过程

本实施例分级处理过程，如附图3所示。

针对输入的中文分词列表com_words、普通命名实体列表com_entities、地质命名实体列表geo_entities中的任一词项，先设定初始级别，然后合并三个列表为一个统一列表，重复词项只保留级别高的只剩下处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项，处理后的多个第一级别词项中不包括第一级别词项中与第三级别词项或第五级别词项相同的第一级别词项，处理后的多个第三级别词项中不包括第三级别词项中与第五级别词项相同的第三级别词项，然后删除长度为1的字剩下多个目标处理词项，多个目标处理词项是：词项的长度值大于预设值为1的处理后的多个第一级别词项、词项的长度值大于预设值的处理后的多个第三级别词项以及词项的长度值大于预设值的多个第五级别词项。循环处理每一词项，如果其以某个预先设定尾词结尾，本实施例中预先设定的尾词参见表2，本实施例中第一类目标处理词项包括：不具有预先设定的尾词的多个目标处理词项，本实施例中第二类目标处理词项包括：具有预先设定的尾词的多个目标处理词项，然后则计算其长度、再根据长度获取其新级别；如果新级别为0则删除该词项，如果新级别与初始级别不相等则调整级别为新级别，由此实现词项分级。具体函数实现过程如下：

(3-1)进入***初始化，初始化输出参数：词项分级列表words为空列表；之后，进入3-2)。

(3-2)初始化列表添加函数list_add，列表添加函数list_add的输入参数为列表list、级别level、词项分级列表words，函数具体实现过程见3-2-1)～3-2-3)；之后，进入3-3)。

(3-2-1)获取输入参数：列表list、级别level、词项分级列表words，读取列表list第一元素作为当前词项word，进入3-2-2)。

(3-2-2)计算词项分级列表words的长度len，如果长度len为0则进入3-2-3)；如果长度len大于0，则表示词项分级列表words有一个以上的元素，列表words中的每一个元素是一个元组[text,level]，元组中text是词项的文本、level为词项text的级别，在列表words中查找是否有元组的text等于当前词项word，具体步骤见3-2-2-1)～3-2-2-3)，如没有则进入3-2-3)，否则进入3-2-4)。

(3-2-2-1)获得词项分级列表words的第一元素，作为当前元素text_level，进入3-2-2-2)。

(3-2-2-2)判断当前元素text_level的text是否等于当前词项word，如果相等词项分级列表中有元组的text等于当前词项word，则查找过程结束；如果不相等则进入3-2-2-3)。

(3-2-2-3)判断当前元素text_level是否是词项分级列表words的最后一个元素，如果是词项分级列表words的最后一个元素，表示词项分级列表中没有元组的text等于当前词项word，查找过程结束；如果不是词项分级列表words的最后一个元素，则读取词项分级列表words的下一个元素、作为当前元素text_level，进入3-2-2-2)。

(3-2-3)将当前词项word与输入参数级别level组成一个元组[word,level]，将元组[word,level]***至词项分级列表words的末尾，进入3-2-4)。

(3-2-4)判断当前词项是否是列表list的最后一个元素，如果不是列表list的最后一个元素则读取列表list的下一个元素，将下一个元素作为当前词项word，进入3-2-2)；如果是列表list的最后一个元素，则结束函数。

(3-3)初始化级别修改函数level_modify，级别修改函数level_modify的输入参数为词项序号index、新级别new_level、词项分级列表words，函数具体实现过程见3-3-1)～3-3-2)；之后，进入3-4)。

(3-3-1)获取输入参数：词项序号index、新级别new_level，进入3-3-2)。

(3-3-2)计算词项分级列表words的长度len，如果长度len小于词项序号index，则不做任何处理、函数退出；如果长度len大于等于词项序号index，则从词项分级列表words中读取位置序号等于词项序号index的元素text_level，将元素text_level的元组[text,level]中level修改为新级别new_level，之后函数退出。

(3-4)获取输入参数：地质命名实体列表geo_entities，将地质命名实体列表geo_entities、初始级别5、词项分级列表words作为输入参数调用列表添加函数list_add，实现将地质命名实体按初始级别5添加至词项分级列表words，进入3-5)。

(3-5)获取输入参数：普通命名实体列表com_entities，将普通命名实体列表com_entities、初始级别3、词项分级列表words作为输入参数调用列表添加函数list_add，实现将普通命名实体按初始级别3添加至词项分级列表words，进入3-6)。

(3-6)获取输入参数：中文分词列表com_words，将中文分词列表com_words、初始级别1、词项分级列表words作为输入参数调用列表添加函数list_add，实现将中文分词按初始级别1添加至词项分级列表words，进入3-7)。

(3-7)初始化词项尾词匹配函数re_text，词项尾词匹配函数re_text的输入参数为词项文本word、尾词级别列表levels，级别列表levels中每个元素end_level为元组[id,end_words,level]、具体内容见表2；函数re_text输出为级别规则word_level、尾词长度end_len，其中end_len大于0表示词项文本word包含尾词end_words中的一个尾词，end_len为0表示词项文本word不含包含尾词end_words中的任何尾词，end_len为所匹配尾词的长度，函数的实现过程见步骤3-7-1)～3-7-3)；之后进入3-8)。

(3-7-1)获取输入参数：词项文本text、尾词级别列表levels，初始化输出参数word_level为空字符串、尾词长度为0，进入3-7-2)。

(3-7-2)读取尾词级别列表levels的第一元素，作为当前元素tend_level，进入3-7-3)。

(3-7-3)对词项文本text进行end_words正则表达式提取，提取后的字符串为尾词end_word，计算尾词end_word的长度end_len，若end_len大于0则将word_level赋值为当前元素text_level的level字符串，进入3-7-4)；否则进入3-7-4)。

(3-7-4)判断当前元素end_level是否是尾词级别列表levels的最后一个元素，如果是，则将word_level、end_len作为返回值输出、函数执行结束；如果不是，则读取尾词级别列表levels的下一个元素，作为当前元素，进入3-7-3)。

(3-8)获得词项分级列表words的第一个元素，作为当前词项text_level，进入3-8-1)。

(3-8-1)将当前词项text_level中文本text、尾词级别列表levels作为输入参数，调用词项尾词匹配函数re_text，获得当前词项的文本text所匹配的级别规则word_level与尾词长度end_len，如果end_len等于0，则进入3-8-5)，否则进入3-8-2)。

(3-8-2)计算当前词项text_level中文本text的字符串长度len，将text长度len减去尾词长度end_len，作为级别长度level_len；如果级别长度level_len大于4则level_len修改为4，如果小于等于4则不做处理，进入3-8-3)。

(3-8-3)从级别规则word_level中截取左数第level_len+1位置的字符C，将字符C转换成数字n，进入3-8-4)。

(3-8-4)如果数字n大于0，则将n赋值给当前词项text_level中级别level，如果数字n等于0则从词项分级列表words删除当前元素text_level，进入3-8-5)。

(3-8-5)判断当前词项text_level是否是词项分级列表words的最后一个元素，如果是，则进入3-9)；如果不是，则读取词项分级列表words中下一个元素，作为当前词项text_level，进入3-8-1)。

(3-9)输出词项分级列表words。

本实施例中，在没有专业术语语料库或词典的情况下，通过预定义规则实现地质文档多来源词项的统一分级，从而突出不同级别词项对文档主题表征的差异性。

以上结合具体实施例描述了本发明的技术原理，这些描述只是为了解释本发明的原理，不能以任何方式解释为对本发明保护范围的限制。基于此处解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种地质文档词项分级方法，其特征在于，包括步骤：

A1、获取多个目标处理词项和所述目标处理词项的长度值；

A3、获取所述第二类目标处理词项的尾词的长度值；

2.根据权利要求1所述的方法，其特征在于，所述步骤A1之前还包括步骤：

所述多个第一级别词项包括：所述多个第一规则词项；

所述多个第三级别词项包括：所述多个第二规则词项；

所述多个第五级别词项包括：所述多个第三规则词项；

B4、获取所述处理后的多个第一级别词项、处理后的多个第三级别词项以及多个第五级别词项中的每一个词项的长度值。

3.根据权利要求2所述的方法，其特征在于，所述步骤A1具体包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括步骤：

5.根据权利要求4所述的方法，其特征在于，还包括步骤：

6.根据权利要求2所述的方法，其特征在于，所述第一预设值为1。

7.一种地质文档词项分级装置，其特征在于，所述地质文档词项分级装置存储第一指令；

所述第一指令使所述地质文档词项分级装置执行如权利要求1至6任一项所述的地质文档词项分级方法。