CN104102847B - 汉语叙词表构建*** - Google Patents
汉语叙词表构建*** Download PDFInfo
- Publication number
- CN104102847B CN104102847B CN201410359650.5A CN201410359650A CN104102847B CN 104102847 B CN104102847 B CN 104102847B CN 201410359650 A CN201410359650 A CN 201410359650A CN 104102847 B CN104102847 B CN 104102847B
- Authority
- CN
- China
- Prior art keywords
- descriptor
- processor
- word
- data file
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015654 memory Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000010276 construction Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 239000003607 modifier Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 5
- 241001269238 Data Species 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 3
- 238000012423 maintenance Methods 0.000 abstract description 3
- 239000000463 material Substances 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种汉语叙词表构建***,其包括输入设备、***处理器、存储器、输出设备。***处理器包括数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。存储器通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。输出设备通信连接于***处理器。由此,克服原有人工方法的缺点,节省人力物力,提高汉语叙词表构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护;能保证叙词构建的质量,可以支持所有领域的汉语叙词表的构建或信息提取;有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种汉语叙词表构建***。
背景技术
叙词表是一种显示叙词、叙词词间语义关系的规范化动态性词汇表,其中包含有特定许可领域的,在语义和层次关系上相关的许多词汇,从功能方面说,叙词表则是文献标引人员和检索人员之间的思维桥梁,是自然语言(文献所用语言)和***语言(检索***规范化语言)之间进行转换的一种术语控制工具,同时也是人与***之间进行交流的媒介。在科学技术飞速发展,网络信息化服务日益普及的今天,传统的人工构建叙词表的方法耗时且成本昂贵。人工构建叙词表的最大的缺点是无法解决制表专家们自身存在的“知识获取瓶颈”问题,也不利于叙词表的及时更新与维护。人工构建的叙词表应用到网络化、数字化的环境时,其自身存在的更新度不够造成词表内容在时效性、叙词术语规模和质量等方面的缺失,使其难以在数字网络化环境中各类用户中使用和推广,即已经无法满足图书情报与档案管理领域的专业人员、以及检索用户的需要,此外,图书情报与档案管理领域的数字化文献数据每年以海量规模的数据量递增,已有领域技术不断更新和发展增加的文献数据、新领域技术的出现产生的文献数据都导致新术语层出不穷的产生。因此,改造和更新已有叙词表,对新出现的技术领域或专业则需重新构建新的行业技术领域叙词表。目前构建叙词表是国内外图书情报与档案管理业界的共识,可参考文献,Robert M.Losee,叙词表构建与使用的判定方法研究,信息处理与管理,2007(4):958-968(Decisions in ThesaurusConstruction and Use.Information Processing&Management),2007(4):958-968.)。如何高效、快速的构建汉语叙词表是图书情报与档案管理领域亟待解决的实际需求。
从已公开的文献和实际应用中,还未见到汉语叙词表构建***装置的报道。目前,国内对于叙词表生成技术领域的研究缺乏,如:杜慧平,何琳,侯汉清,基于聚类分析的自然语言叙词表自动构建,国家图书馆学刊,2007,3:44-49;徐瑞芳,李晓雯,侯汉清,叙词表词间关系处理规则的比较研究,情报科学,2009(1):89-93;袁旭,常春,面向构建的叙词表相关关系获取途径研究,情报科学,2013,31(1):68-72;这些文献均是仅局限在对叙词表生成过程中某一阶段的局部研究,且没有完整意义上的***性开发工作;另一篇文献(刘华,沈玉兰,曾建勋,中国、美国和英国叙词表编制国家标准比较研究,图书情报工作,2009,53(22):72-75)的研究工作以追踪报道国外的叙词表研究编制情况为主;另两篇文献(刘伟,周杰,网络环境下叙词表编制***中的并发机制研究,图书情报工作,2011,55(22):11-14):赵建华,赵健国等,汉语叙词表微机编制管理***的开发,情报学报,1995:184-193)本质上均是计算机辅助人工录入、编制和维护叙词表的技术,即利用计算机的数据库技术辅助编制和处理词表,实现词表结构构建和基本的编辑功能,而并不是针对叙词表内容本身的构建技术的实现。国外关于叙词表构建技术的研究工作相对成熟,从上世纪70年代就已经开始相关研究工作,但是,由于语言之间固有的表述差异,使得完全复制国外的叙词表构建技术和方法是不可取的,因此,针对汉语叙词表的构建研究和开发工作是一项具有现实意义的工作。
发明内容
针对背景技术中存在的不足,本发明的目的在于提供一种汉语叙词表构建***,其能克服原有人工方法的缺点,节省人力物力,提高汉语叙词表的构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护。
本发明的另一目的在于提供一种汉语叙词表构建***,相比人工构建汉语叙词表的方法,其更能保证汉语叙词表构建的质量,可以支持所有基于数字化文献领域的汉语叙词表的构建或信息提取。
本发明的再一目的在于有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。
为了实现上述目的,本发明提供了一种汉语叙词表构建***,其包括输入设备、***处理器、存储器、以及输出设备。
输入设备输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出。
***处理器包括:数据处理器,通信连接于输入设备且接收由输入设备输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器处理的规范化的原始数据文件,则对该原始数据文件直接行进分词和词性标注并输出规范文本数据;叙词识别与抽取器,通信连接于数据处理器且接收数据处理器输出的分词和词性标注的规范文本数据,以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;叙词关系识别与抽取器,通信连接于数据处理器以及叙词识别与抽取器并接收数据处理器输出的规范文本数据和叙词识别与抽取器输出的选定叙词集合,以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词的叙词相关关系和属分关系输出;以及叙词表生成器,通信连接于叙词识别与抽取器以及叙词关系识别与抽取器,接收叙词识别与抽取器输出的选定叙词集合、接收叙词关系识别与抽取器输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表。
存储器通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器,存储数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器各自输出的结果。
输出设备通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器,并接收和输出数据处理器所输出的规范文本数据、叙词识别与抽取器所输出的选定叙词集合、叙词关系识别与抽取器所输出的叙词相关关系和属分关系、叙词表生成器所输出的叙词表。
本发明的有益效果如下:
通过本发明提供的汉语叙词表构建***,克服原有人工方法的缺点,节省人力物力,提高汉语叙词表的构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护。
通过本发明提供的汉语叙词表构建***,其能保证汉语叙词表的构建质量,可以支持所有领域的汉语叙词表的构建或信息提取。
通过本发明提供的汉语叙词表构建***,有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。
附图说明
图1是根据本发明的汉语叙词表构建***的组成方框图。
其中,附图标记说明如下:
1输入设备
2***处理器
21数据处理器
211***初始化处理器
212数据初始化处理器
213数据处理器存储器
22叙词识别与抽取器
221候选叙词判定与生成处理器
222叙词判定与生成处理器
223叙词结果存储器
23叙词关系识别与抽取器
231叙词相关关系识别与抽取处理器
232叙词属分关系识别与抽取处理器
233叙词关系结果存储器
24叙词表生成器
241叙词表生成处理器
242叙词表结果存储器
3存储器
4输出设备
5校验和修改器
具体实施方式
下面参照附图来详细说明根据本发明的汉语叙词表构建***。
参照图1,根据本发明的汉语叙词表构建***包括输入设备1、***处理器2、存储器3以及输出设备4。
输入设备1输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出。
***处理器2包括:数据处理器21,通信连接于输入设备1且接收由输入设备1输出的原始数据文件(原始数据文件的个数为至少一个),提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器21处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器21处理的规范化的原始数据文件,则对该原始数据文件直接行进分词和词性标注并输出规范文本数据;叙词识别与抽取器22,通信连接于数据处理器21且接收数据处理器21输出的分词和词性标注的规范文本数据,以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;叙词关系识别与抽取器23,通信连接于数据处理器21以及叙词识别与抽取器22并接收数据处理器21输出的规范文本数据和叙词识别与抽取器22输出的选定叙词集合,以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词的叙词相关关系和属分关系输出;以及叙词表生成器24,通信连接于叙词识别与抽取器22以及叙词关系识别与抽取器23,接收叙词识别与抽取器22输出的选定叙词集合、接收叙词关系识别与抽取器23输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表。
存储器3通信连接于***处理器2的数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24,存储数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24各自输出的结果。
输出设备4通信连接于***处理器2的数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24,并接收和输出数据处理器21所输出的规范文本数据、叙词识别与抽取器22所输出的选定叙词集合、叙词关系识别与抽取器23所输出的叙词相关关系和属分关系、叙词表生成器24所输出的叙词表。
在根据本发明所述的汉语叙词表构建***中,所述原始数据文件包括文本数据文件、XML文件、PDF文件,所述规范文本数据文件包括文本文件以及XML文件。
在数据处理器21的一实施例中,参照图1,数据处理器21包括:***初始化处理器211,通信连接于输入设备1且接收由输入设备1输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器21处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件并输出规范文本数据文件,如果所接收的原始数据文件属于符合数据处理器21处理的规范化的原始数据文件,则该原始数据文件直接作为规范文本数据文件输出;数据初始化处理器212,通信连接于***初始化处理器211,接收***初始化处理器211输出的规范文本数据文件,对规范文本数据文件进行分词和词性标注并将分词和词性标注后的规范文本数据输出;以及数据处理器存储器213,通信连接于数据初始化处理器212并接收和存储数据初始化处理器212输出的分词和词性标注后的规范文本数据文件。
在叙词识别与抽取器22的一实施例中,参照图1,叙词识别与抽取器22包括:候选叙词判定与生成处理器221,通信连接于数据处理器21的数据初始化处理器212,并接收数据处理器21的数据初始化处理器212输出的分词和词性标注后的规范文本数据文件,基于语言规则和互信息统计对所接收的经过分词和词性标注后的规范数据文件进行识别与抽取候选叙词,生成并输出候选叙词集合;叙词判定与生成处理器222,通信连接于候选叙词判定与生成处理器221,并接收候选叙词判定与生成处理器221输出的候选叙词集合,基于位置加权和词频统计,对所接收的候选叙词集合中的候选叙词进行叙词词语判定和抽取,以生成并输出选定叙词集合;以及叙词结果存储器223,通信连接于叙词判定与生成处理器222,并接收和存储叙词判定与生成处理器222输出的选定叙词集合。
数据初始化处理器212输出的规范文本数据文件,其内容是是经过分词和词性标注处理的词语数据,其由字串组成,候选叙词判定与生成处理器221,通过使用如下语言规则得到候选叙词集合。语言规则是:
候选叙词中至少含有一个动词、名词或名词性成分;
候选叙词最后一个词为动词、名词或名词性成分;
候选叙词第一个词不为介词、量词;
候选叙词中没有连词、代词和语气词;
抽取长度在2-8之间的字串元素来组成候选叙词;
抽取按分词的词性组成名词+名词、形容词+名词、动词+名词、名词+动词的候选叙词词组串,词组串的最大长度为8。
为提高候选叙词的生成质量,侯选叙词可认为是由多个侯选叙词组成,即候选叙词词组,则候选叙词判定与生成处理器221采用互信息统计计算方法得到选定候选叙词集合。互信息统计计算公式是:
公式1
其中,候选叙词T是词(ti,tj)的组合,词t由t1t2...tn组成,字串记为ti=t1t2...tn-r,tj=trtr+1...tn,probability(ti)表示词ti单独在数据初始化处理器212的所有规范文本数据文件中出现的概率;probability(tj)表示词tj单独在数据初始化处理器212的所有规范文本数据文件中出现的概率;probability(ti,tj)表示词ti和tj共同出现在数据初始化处理器212的同一规范文本数据文件中的概率;如果ti和tj结合得十分紧密,则probability(ti,tj)与probability(ti)或probability(tj)相差不大(具体差值可以由用户来确定),则该式计算的候选叙词T中的词串ti和tj的互信息值就较大,反之,probability(ti)和probability(tj)就会远大于probability(ti,tj),则计算出的ti和tj的互信息值就比较小,即Mutual-information(ti,tj)值越大,则词ti和tj组合成候选叙词的概率越大。
其中,叙词判定与生成处理器222采用基于位置加权和词频统计相结合的方法来作为叙词词语判定和抽取的方法基础。
权重函数值的构造情况如下:
对关键词的权重函数计算:
Weighti=a×TFIDFi 公式2
对非关键词叙词的计算(结合公式1):
Weighti=Mutual-information(T)×a×TFIDFi 公式3
在公式2和公式3中,
公式4
其中:fti指词ti在来自数据初始化处理器212的所有规范文本数据文件d中出现的频率;N是所有来自数据初始化处理器212的规范文本数据文件的数目;ni是包含词ti的规范文本数据数目;a是词ti所在位置(即词在规范文本数据文件中的标题、摘要、关键词、正文这四个位置中的哪个位置)的权重值。
在叙词关系识别与抽取器23的一实施例中,参照图1,叙词关系识别与抽取器23包括:叙词相关关系识别与抽取处理器231,通信连接于数据处理器21的数据初始化处理器212和叙词识别与抽取器22的叙词判定与生成处理器222,接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合,基于选定叙词集合中的叙词在分词和词性标注的规范文本数据文件中的共现概率统计值,识别并抽取该叙词的叙词相关关系,并输出所抽取的叙词相关关系;叙词属分关系识别与抽取处理器232,通信连接于数据处理器21的数据初始化处理器212和叙词识别与抽取器22的叙词判定与生成处理器222,接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合,基于选定叙词集合中的叙词在构成形态上具有包含关系和计算叙词之间相似度的度量值对叙词属分关系进行识别与抽取,并输出所抽取的叙词属分关系;以及叙词关系结果存储器233,通信连接于叙词相关关系识别与抽取处理器231以及叙词属分关系识别与抽取处理器232,以接收并存储叙词相关关系识别与抽取处理器231输出的叙词相关关系和叙词属分关系识别与抽取处理器232输出的叙词属分关系。
叙词相关关系自动识别与抽取处理器231接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合。使用基于联合概率分布的相似度计算方法进行相关关系的识别与抽取,计算公式如下:
公式5
其中:probability(A,B):表示在数据初始化处理器212生成的所有规范文本数据文件中,在相同窗口(指在每一个规范文本数据文件里的位置(标题、摘要、关键词、正文这四个位置)),选定叙词集合中的A词和B词同时出现的频率;表示在所有规范文本数据文件中,在相同窗口选定叙词集合中的A词出现,而选定叙词集合中的B词不出现的频率;表示在所有规范文本数据文件中,在相同窗口选定叙词集合中的B词出现,而选定叙词集合中的A词不出现的频率。
其中,叙词属分关系识别与抽取处理器232接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合。使用叙词之间相似性的度量计算公式得到叙词的属分关系,计算公式如下:
公式6
其中,sim_number表示选定叙词集合中的两个叙词(被包含叙词和待包含叙词)含有的、相同的字的总个数;sub_number表示选定叙词集合中的被包含叙词所含有的字的总个数;number表示选定叙词集合中的待包含叙词所含有的字的总个数;表示选定叙词集合中的两个叙词含有的、相同的字在被包含叙词中所处的位置(即该字在被包含叙词的词首,词中和词尾这三个位置中的哪个位置)权数之和;qsim_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字所处的位置权重;sim_number(i)表示选定叙词集合中的两个叙词含有的、相同的字集中,第i个字在字集中所处的位置数(即i值);q1表示字在被包含叙词中词首、词中和词尾这三个位置的权重系数;sub_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在被包含叙词中所处的位置数;表示选定叙词集合中的两个叙词含有的、相同的字在待包含叙词中所处的位置(即该字在待包含叙词的词首,词中和词尾这三个位置中的哪个位置)权数之和;q2表示字在待包含叙词中词首、词中和词尾这三个位置的权重系数;number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在待包含叙词中所处的位置数;dp表示位置系数,其值为选定叙词集合中的被包含叙词与选定叙词集合中的待包含叙词的总字数之比;i=1,2…,sim_number。
在叙词表生成器24的一实施例中,参照图1,叙词表生成器24包括:叙词表生成处理器241,通信连接于叙词识别与抽取器22的叙词判定与生成处理器222以及叙词关系识别与抽取器23的叙词相关关系识别与抽取处理器231和叙词属分关系识别与抽取处理器232,接收叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合,接收叙词关系识别与抽取器23的叙词相关关系识别与抽取处理器231和叙词属分关系识别与抽取处理器232分别输出的各个叙词的叙词相关关系和属分关系,基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表;以及叙词表结果存储器242,通信连接于叙词表生成处理器241,并接收和存储叙词表生成处理器241输出的叙词表。
在根据本发明所述的汉语叙词表构建***的一实施例中,参照图1,所述汉语叙词表构建***还可包括:校验和修改器5,通信连接于数据处理器存储器213、叙词结果存储器223、叙词关系结果存储器233、叙词表结果存储器242,以对数据处理器存储器213存储的规范文本数据文件、叙词结果存储器223存储的选定叙词集合、叙词关系结果存储器233存储的叙词相关关系和叙词属分关系、叙词表结果存储器242存储的叙词表进行人工校验、修改、删除。基于校验和修改器5,用户可以根据需要,随时打开需要查看、修改和删除的上述存储的内容,来进行相应的操作。
在存储器3的一实施例中,存储器3可选自硬盘、U盘、移动硬盘、存储卡。
在根据本发明所述的汉语叙词表构建***的一实施例中,所述汉语叙词表构建***还可包括:可视操作界面(未示出),通信连接于输入设备1、***处理器2、存储器3、输出设备4、以及校验和修改器5。通过可视操作界面,可便于用户实现整个叙词表自动构建处理过程。
以下为结合图1给出的全部技术特征对本发明的叙词及叙词关系识别和抽取的进一步验证。
采用本发明的该***装置对机械工程类专利中文文献数据2426篇,自然语言处理技术的中文期刊文献数据2783篇,进行叙词及叙词关系的识别与抽取,经过以上步骤的操作,得到试验结果如下:
表1 本发明的识别与抽取的候选叙词和选定叙词试验结果示例
表2 本发明的识别与抽取的叙词试验结果示例
表3 本发明的识别与抽取叙词相关关系的试验结果示例
表4 本发明的识别与抽取叙词属分关系的试验结果示例
Claims (5)
1.一种汉语叙词表构建***,其特征在于,包括:
输入设备(1),输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出,所述原始数据文件包括文本数据文件、XML文件、PDF文件;
***处理器(2),包括:
数据处理器(21),通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件,则对该原始数据文件直接进行分词和词性标注并输出规范文本数据,所述规范文本数据文件包括文本文件以及XML文件;叙词识别与抽取器(22),通信连接于数据处理器(21)且接收数据处理器(21)输出的分词和词性标注的规范文本数据,以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;
叙词关系识别与抽取器(23),通信连接于数据处理器(21)以及叙词识别与抽取器(22)并接收数据处理器(21)输出的规范文本数据和叙词识别与抽取器(22)输出的选定叙词集合,以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词的叙词相关关系和属分关系输出;以及
叙词表生成器(24),通信连接于叙词识别与抽取器(22)以及叙词关系识别与抽取器(23),接收叙词识别与抽取器(22)输出的选定叙词集合、接收叙词关系识别与抽取器(23)输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表;
存储器(3),通信连接于***处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),存储数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)各自输出的结果;以及
输出设备(4),通信连接于***处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),并接收和输出数据处理器(21)所输出的规范文本数据、叙词识别与抽取器(22)所输出的选定叙词集合、叙词关系识别与抽取器(23)所输出的叙词相关关系和属分关系、叙词表生成器(24)所输出的叙词表;
数据处理器(21)包括:
***初始化处理器(211),通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件并输出规范文本数据文件,如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件,则该原始数据文件直接作为规范文本数据文件输出;
数据初始化处理器(212),通信连接于***初始化处理器(211),接收***初始化处理器(211)输出的规范文本数据文件,对规范文本数据文件进行分词和词性标注并将分词和词性标注后的规范文本数据输出;以及
数据处理器存储器(213),通信连接于数据初始化处理器(212),并接收和存储数据初始化处理器(212)输出的分词和词性标注后的规范文本数据文件;
叙词识别与抽取器(22)包括:
候选叙词判定与生成处理器(221),通信连接于数据处理器(21)的数据初始化处理器(212)并接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注后的规范文本数据文件,基于语言规则和互信息统计计算对所接收的经过分词和词性标注后的规范数据文件进行识别与抽取候选叙词,生成并输出候选叙词集合;
叙词判定与生成处理器(222),通信连接于候选叙词判定与生成处理器(221),并接收候选叙词判定与生成处理器(221)输出的候选叙词集合,基于位置加权和词频统计,对所接收的候选叙词集合中的候选叙词进行叙词词语判定和抽取,以生成并输出选定叙词集合;以及
叙词结果存储器(223),通信连接于叙词判定与生成处理器(222),并接收和存储叙词判定与生成处理器(222)输出的选定叙词集合;
其中,数据初始化处理器(212)输出的规范文本数据文件的内容是经过分词和词性标注处理的词语数据,词语数据由字串组成,候选叙词判定与生成处理器(221)使用如下语言规则和互信息统计算得到候选叙词集合;
语言规则是:
候选叙词中至少含有一个动词、名词或名词性成分;
候选叙词最后一个词为动词、名词或名词性成分;
候选叙词第一个词不为介词、量词;
候选叙词中没有连词、代词和语气词;
抽取长度在2-8之间的字串元素来组成候选叙词;
抽取按分词的词性组成名词+名词、形容词+名词、动词+名词、名词+动词的候选叙词词组串,词组串的最大长度为8;
侯选叙词认为是由多个侯选叙词组成,即候选叙词词组,则候选叙词判定与生成处理器(221)采用的互信息统计计算的公式是:
其中,候选叙词T是词(ti,tj)的组合,词t由t1t2...tn组成,ti=t1t2...tn-r,tj=trtr+1...tn,probability(ti)表示词ti单独在数据初始化处理器(212)的所有规范文本数据文件中出现的概率;probability(tj)表示词tj单独在数据初始化处理器(212)的所有规范文本数据文件中出现的概率;probability(ti,tj)表示词ti和tj共同出现在数据初始化处理器(212)的同一规范文本数据文件中的概率;如果ti和tj结合得十分紧密,则probability(ti,tj)与probability(ti)或probability(tj)相差不大,具体差值由用户来确定,则该式计算的候选叙词T中的词ti和tj的互信息值就较大,反之,probability(ti)和probability(tj)就会远大于probability(ti,tj),则计算出的ti和tj的互信息值就比较小,即Mutual-information(ti,tj)值越大,则词ti和tj组合成候选叙词的概率越大;
叙词关系识别与抽取器(23)包括:
叙词相关关系识别与抽取处理器(231),通信连接于数据处理器(21)的数据初始化处理器(212)和叙词识别与抽取器(22)的叙词判定与生成处理器(222),接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合,基于选定叙词集合中的叙词在分词和词性标注的规范文本数据文件中的共现概率统计值,识别并抽取该叙词的叙词相关关系,并输出所抽取的叙词相关关系;
叙词属分关系识别与抽取处理器(232),通信连接于数据处理器(21)的数据初始化处理器(212)和叙词识别与抽取器(22)的叙词判定与生成处理器(222),接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注的规范文本数据和叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合,基于选定叙词集合中的叙词在构成形态上具有的包含关系和计算叙词之间相似度的度量值对叙词属分关系进行识别与抽取,并输出所抽取的叙词属分关系;以及
叙词关系结果存储器(233),通信连接于叙词相关关系识别与抽取处理器(231)以及叙词属分关系识别与抽取处理器(232),以接收并存储叙词相关关系识别与抽取处理器(231)输出的叙词相关关系和叙词属分关系识别与抽取处理器(232)输出的叙词属分关系;
其中:
叙词判定与生成处理器(222)采用基于位置加权和词频统计相结合的方法来作为叙词词语判定和抽取的方法基础,
权重函数值的构造情况如下:
对关键词的权重函数计算:
Weighti=a×TFIDFi 公式2
对非关键词叙词的计算,结合公式1:
Weighti=Mutual-information(T)×a×TFIDFi 公式3
在公式2和公式3中,
其中:fti指词ti在来自数据初始化处理器(212)的所有规范文本数据文件d中出现的频率;N是所有来自数据初始化处理器(212)的规范文本数据文件的数目;ni是包含词ti的规范文本数据数目;a是词ti所在位置的权重值,即词ti在规范文本数据文件中的标题、摘要、关键词、正文这四个位置中的哪个位置的权重值;
使用基于联合概率分布的相似度计算方法进行相关关系的识别与抽取,计算公式如下:
其中:probability(A,B):表示在数据初始化处理器(212)生成的所有规范文本数据文件中,在相同窗口选定叙词集合中的A词和B词同时出现的频率,其中窗口指在每一个规范文本数据文件里的位置,位置为标题、摘要、关键词、正文这四个位置;表示在所有规范文本数据文件中,在相同窗口选定叙词集合中的A词出现,而选定叙词集合中的B词不出现的频率;表示在所有规范文本数据文件中,在相同窗口选定叙词集合中的B词出现,而选定叙词集合中的A词不出现的频率;
使用叙词之间相似性的度量计算公式得到叙词的属分关系,计算公式如下:
其中,sim_number表示选定叙词集合中的两个叙词含有的、相同的字的总个数,这两个叙词指的是被包含叙词和待包含叙词;sub_number表示选定叙词集合中的被包含叙词所含有的字的总个数;number表示选定叙词集合中的待包含叙词所含有的字的总个数;表示选定叙词集合中的两个叙词含有的、相同的字在被包含叙词中所处的位置权数之和,其中相同的字在被包含叙词中所处的位置指的是该字在被包含叙词的词首、词中和词尾这三个位置中的哪个位置;qsim_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字所处的位置权重;sim_number(i)表示选定叙词集合中的两个叙词含有的、相同的字集中,第i个字在字集中所处的位置数,即i值;q1表示字在被包含叙词中词首、词中和词尾这三个位置的权重系数;sub_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在被包含叙词中所处的位置数;表示选定叙词集合中的两个叙词含有的、相同的字在待包含叙词中所处的位置权数之和,其中相同的字在待包含叙词中所处的位置指的是该字在待包含叙词的词首、词中和词尾这三个位置中的哪个位置;q2表示字在待包含叙词中词首、词中和词尾这三个位置的权重系数;number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在待包含叙词中所处的位置数;dp表示位置系数,其值为选定叙词集合中的被包含叙词与选定叙词集合中的待包含叙词的总字数之比;i=1,2…,sim_number。
2.根据权利要求1所述的汉语叙词表构建***,其特征在于,叙词表生成器(24)包括:
叙词表生成处理器(241),通信连接于叙词识别与抽取器(22)的叙词判定与生成处理器(222)以及叙词关系识别与抽取器(23)的叙词相关关系识别与抽取处理器(231)和叙词属分关系识别与抽取处理器(232),接收叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合,接收叙词关系识别与抽取器(23)的叙词相关关系识别与抽取处理器(231)和叙词属分关系识别与抽取处理器(232)分别输出的各个叙词的叙词相关关系和属分关系,基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表;以及
叙词表结果存储器(242),通信连接于叙词表生成处理器(241)并接收和存储叙词表生成处理器(241)输出的叙词表。
3.根据权利要求2所述的汉语叙词表构建***,其特征在于,所述汉语叙词表构建***还包括:
校验和修改器(5),通信连接于数据处理器存储器(213)、叙词结果存储器(223)、叙词关系结果存储器(233)、叙词表结果存储器(242),以对数据处理器存储器(213)存储的规范文本数据文件、叙词结果存储器(223)存储的选定叙词集合、叙词关系结果存储器(233)存储的叙词相关关系和叙词属分关系、叙词表结果存储器(242)存储的叙词表进行人工校验、修改、删除。
4.根据权利要求1所述的汉语叙词表构建***,其特征在于,存储器(3)选自硬盘、U盘以及存储卡中的一种或几种。
5.根据权利要求1所述的汉语叙词表构建***,其特征在于,所述汉语叙词表构建***还包括:
可视操作界面,通信连接于输入设备(1)、***处理器(2)、存储器(3)、输出设备(4)、以及校验和修改器(5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410359650.5A CN104102847B (zh) | 2014-07-25 | 2014-07-25 | 汉语叙词表构建*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410359650.5A CN104102847B (zh) | 2014-07-25 | 2014-07-25 | 汉语叙词表构建*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104102847A CN104102847A (zh) | 2014-10-15 |
CN104102847B true CN104102847B (zh) | 2017-11-10 |
Family
ID=51670992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410359650.5A Expired - Fee Related CN104102847B (zh) | 2014-07-25 | 2014-07-25 | 汉语叙词表构建*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104102847B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204620A (zh) * | 2021-05-12 | 2021-08-03 | 首都师范大学 | 一种叙词表自动构建的方法、***、设备以及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎*** |
CN102243649A (zh) * | 2011-06-07 | 2011-11-16 | 上海交通大学 | 本体半自动信息抽取处理装置 |
CN102930022A (zh) * | 2012-10-31 | 2013-02-13 | 中国运载火箭技术研究院 | 面向用户的信息搜索引擎***及方法 |
CN102982095A (zh) * | 2012-10-31 | 2013-03-20 | 中国运载火箭技术研究院 | 一种基于叙词表的本体自动生成***及其方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733223B2 (en) * | 2008-01-08 | 2020-08-04 | International Business Machines Corporation | Term-driven records file plan and thesaurus design |
CN103389979B (zh) * | 2012-05-08 | 2018-10-12 | 深圳市世纪光速信息技术有限公司 | 在输入法中推荐分类词库的***、装置及方法 |
-
2014
- 2014-07-25 CN CN201410359650.5A patent/CN104102847B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎*** |
CN102243649A (zh) * | 2011-06-07 | 2011-11-16 | 上海交通大学 | 本体半自动信息抽取处理装置 |
CN102930022A (zh) * | 2012-10-31 | 2013-02-13 | 中国运载火箭技术研究院 | 面向用户的信息搜索引擎***及方法 |
CN102982095A (zh) * | 2012-10-31 | 2013-03-20 | 中国运载火箭技术研究院 | 一种基于叙词表的本体自动生成***及其方法 |
Non-Patent Citations (1)
Title |
---|
网络化数字化时代主题词表自动构建技术的探究与实践;曾文等;《国家图书馆学刊》;20120831(第4期);第78-82页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104102847A (zh) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463658B (zh) | 文本分类方法及装置 | |
TWI554896B (zh) | Information Classification Method and Information Classification System Based on Product Identification | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及*** | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN103870447A (zh) | 一种基于隐含狄利克雷模型的关键词抽取方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN106383836A (zh) | 将可操作属性归于描述个人身份的数据 | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
CN110377901A (zh) | 一种针对配电线路跳闸填报案例的文本挖掘方法 | |
CN106909628A (zh) | 一种基于区间的文本相似搜索方法 | |
CN111274814A (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
CN108228566A (zh) | 多文档关键词自动抽取方法及***、计算机程序 | |
CN114491081A (zh) | 基于数据血缘关系图谱的电力数据溯源方法及*** | |
CN110032738A (zh) | 基于上下文图随机游走及音形码的微博文本规范化方法 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及*** | |
CN104102847B (zh) | 汉语叙词表构建*** | |
CN106372083A (zh) | 一种有争议性新闻线索自动发现的方法及*** | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171110 |