CN104102847B

CN104102847B - 汉语叙词表构建***

Info

Publication number: CN104102847B
Application number: CN201410359650.5A
Authority: CN
Inventors: 曾文; 乔晓东; 朱礼军; 张均胜
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2014-07-25
Filing date: 2014-07-25
Publication date: 2017-11-10
Anticipated expiration: 2034-07-25
Also published as: CN104102847A

Abstract

本发明提供了一种汉语叙词表构建***，其包括输入设备、***处理器、存储器、输出设备。***处理器包括数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。存储器通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。输出设备通信连接于***处理器。由此，克服原有人工方法的缺点，节省人力物力，提高汉语叙词表构建效率，能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护；能保证叙词构建的质量，可以支持所有领域的汉语叙词表的构建或信息提取；有益于图书情报与档案管理领域的信息组织和利用，并可以服务于数字图书馆。

Description

汉语叙词表构建***

技术领域

本发明涉及数据处理技术，尤其涉及一种汉语叙词表构建***。

背景技术

叙词表是一种显示叙词、叙词词间语义关系的规范化动态性词汇表，其中包含有特定许可领域的，在语义和层次关系上相关的许多词汇，从功能方面说，叙词表则是文献标引人员和检索人员之间的思维桥梁，是自然语言(文献所用语言)和***语言(检索***规范化语言)之间进行转换的一种术语控制工具，同时也是人与***之间进行交流的媒介。在科学技术飞速发展，网络信息化服务日益普及的今天，传统的人工构建叙词表的方法耗时且成本昂贵。人工构建叙词表的最大的缺点是无法解决制表专家们自身存在的“知识获取瓶颈”问题，也不利于叙词表的及时更新与维护。人工构建的叙词表应用到网络化、数字化的环境时，其自身存在的更新度不够造成词表内容在时效性、叙词术语规模和质量等方面的缺失，使其难以在数字网络化环境中各类用户中使用和推广，即已经无法满足图书情报与档案管理领域的专业人员、以及检索用户的需要，此外，图书情报与档案管理领域的数字化文献数据每年以海量规模的数据量递增，已有领域技术不断更新和发展增加的文献数据、新领域技术的出现产生的文献数据都导致新术语层出不穷的产生。因此，改造和更新已有叙词表，对新出现的技术领域或专业则需重新构建新的行业技术领域叙词表。目前构建叙词表是国内外图书情报与档案管理业界的共识，可参考文献，Robert M.Losee,叙词表构建与使用的判定方法研究,信息处理与管理,2007(4):958-968(Decisions in ThesaurusConstruction and Use.Information Processing&Management),2007(4):958-968.)。如何高效、快速的构建汉语叙词表是图书情报与档案管理领域亟待解决的实际需求。

从已公开的文献和实际应用中，还未见到汉语叙词表构建***装置的报道。目前，国内对于叙词表生成技术领域的研究缺乏，如：杜慧平，何琳，侯汉清，基于聚类分析的自然语言叙词表自动构建，国家图书馆学刊，2007,3:44-49；徐瑞芳，李晓雯，侯汉清，叙词表词间关系处理规则的比较研究，情报科学，2009(1):89-93；袁旭，常春，面向构建的叙词表相关关系获取途径研究，情报科学，2013,31(1)：68-72；这些文献均是仅局限在对叙词表生成过程中某一阶段的局部研究，且没有完整意义上的***性开发工作；另一篇文献(刘华，沈玉兰，曾建勋，中国、美国和英国叙词表编制国家标准比较研究，图书情报工作，2009,53(22):72-75)的研究工作以追踪报道国外的叙词表研究编制情况为主；另两篇文献(刘伟，周杰，网络环境下叙词表编制***中的并发机制研究，图书情报工作，2011，55(22)：11-14)：赵建华，赵健国等，汉语叙词表微机编制管理***的开发，情报学报，1995:184-193)本质上均是计算机辅助人工录入、编制和维护叙词表的技术，即利用计算机的数据库技术辅助编制和处理词表，实现词表结构构建和基本的编辑功能，而并不是针对叙词表内容本身的构建技术的实现。国外关于叙词表构建技术的研究工作相对成熟，从上世纪70年代就已经开始相关研究工作，但是，由于语言之间固有的表述差异，使得完全复制国外的叙词表构建技术和方法是不可取的，因此，针对汉语叙词表的构建研究和开发工作是一项具有现实意义的工作。

发明内容

针对背景技术中存在的不足，本发明的目的在于提供一种汉语叙词表构建***，其能克服原有人工方法的缺点，节省人力物力，提高汉语叙词表的构建效率，能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护。

本发明的另一目的在于提供一种汉语叙词表构建***，相比人工构建汉语叙词表的方法，其更能保证汉语叙词表构建的质量，可以支持所有基于数字化文献领域的汉语叙词表的构建或信息提取。

本发明的再一目的在于有益于图书情报与档案管理领域的信息组织和利用，并可以服务于数字图书馆。

为了实现上述目的，本发明提供了一种汉语叙词表构建***，其包括输入设备、***处理器、存储器、以及输出设备。

输入设备输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出。

***处理器包括：数据处理器，通信连接于输入设备且接收由输入设备输出的原始数据文件，提供原始数据文件的存储地址，对所接收的原始数据文件进行规范性判断，如果所接收的原始数据文件属于不符合数据处理器处理的非规范化的原始数据文件，则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据，如果所接收的原始数据文件属于符合数据处理器处理的规范化的原始数据文件，则对该原始数据文件直接行进分词和词性标注并输出规范文本数据；叙词识别与抽取器，通信连接于数据处理器且接收数据处理器输出的分词和词性标注的规范文本数据，以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词，抽取的叙词作为选定叙词集合；叙词关系识别与抽取器，通信连接于数据处理器以及叙词识别与抽取器并接收数据处理器输出的规范文本数据和叙词识别与抽取器输出的选定叙词集合，以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取，并将各个叙词的叙词相关关系和属分关系输出；以及叙词表生成器，通信连接于叙词识别与抽取器以及叙词关系识别与抽取器，接收叙词识别与抽取器输出的选定叙词集合、接收叙词关系识别与抽取器输出的各个叙词的叙词相关关系和属分关系，以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序，以生成并输出叙词表。

存储器通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器，存储数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器各自输出的结果。

输出设备通信连接于***处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器，并接收和输出数据处理器所输出的规范文本数据、叙词识别与抽取器所输出的选定叙词集合、叙词关系识别与抽取器所输出的叙词相关关系和属分关系、叙词表生成器所输出的叙词表。

本发明的有益效果如下：

通过本发明提供的汉语叙词表构建***，克服原有人工方法的缺点，节省人力物力，提高汉语叙词表的构建效率，能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护。

通过本发明提供的汉语叙词表构建***，其能保证汉语叙词表的构建质量，可以支持所有领域的汉语叙词表的构建或信息提取。

通过本发明提供的汉语叙词表构建***，有益于图书情报与档案管理领域的信息组织和利用，并可以服务于数字图书馆。

附图说明

图1是根据本发明的汉语叙词表构建***的组成方框图。

其中，附图标记说明如下：

1输入设备

2***处理器

21数据处理器

211***初始化处理器

212数据初始化处理器

213数据处理器存储器

22叙词识别与抽取器

221候选叙词判定与生成处理器

222叙词判定与生成处理器

223叙词结果存储器

23叙词关系识别与抽取器

231叙词相关关系识别与抽取处理器

232叙词属分关系识别与抽取处理器

233叙词关系结果存储器

24叙词表生成器

241叙词表生成处理器

242叙词表结果存储器

3存储器

4输出设备

5校验和修改器

具体实施方式

下面参照附图来详细说明根据本发明的汉语叙词表构建***。

参照图1，根据本发明的汉语叙词表构建***包括输入设备1、***处理器2、存储器3以及输出设备4。

输入设备1输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出。

***处理器2包括：数据处理器21，通信连接于输入设备1且接收由输入设备1输出的原始数据文件(原始数据文件的个数为至少一个)，提供原始数据文件的存储地址，对所接收的原始数据文件进行规范性判断，如果所接收的原始数据文件属于不符合数据处理器21处理的非规范化的原始数据文件，则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据，如果所接收的原始数据文件属于符合数据处理器21处理的规范化的原始数据文件，则对该原始数据文件直接行进分词和词性标注并输出规范文本数据；叙词识别与抽取器22，通信连接于数据处理器21且接收数据处理器21输出的分词和词性标注的规范文本数据，以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词，抽取的叙词作为选定叙词集合；叙词关系识别与抽取器23，通信连接于数据处理器21以及叙词识别与抽取器22并接收数据处理器21输出的规范文本数据和叙词识别与抽取器22输出的选定叙词集合，以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取，并将各个叙词的叙词相关关系和属分关系输出；以及叙词表生成器24，通信连接于叙词识别与抽取器22以及叙词关系识别与抽取器23，接收叙词识别与抽取器22输出的选定叙词集合、接收叙词关系识别与抽取器23输出的各个叙词的叙词相关关系和属分关系，以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序，以生成并输出叙词表。

存储器3通信连接于***处理器2的数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24，存储数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24各自输出的结果。

输出设备4通信连接于***处理器2的数据处理器21、叙词识别与抽取器22、叙词关系识别与抽取器23、叙词表生成器24，并接收和输出数据处理器21所输出的规范文本数据、叙词识别与抽取器22所输出的选定叙词集合、叙词关系识别与抽取器23所输出的叙词相关关系和属分关系、叙词表生成器24所输出的叙词表。

在根据本发明所述的汉语叙词表构建***中，所述原始数据文件包括文本数据文件、XML文件、PDF文件，所述规范文本数据文件包括文本文件以及XML文件。

在数据处理器21的一实施例中，参照图1，数据处理器21包括：***初始化处理器211，通信连接于输入设备1且接收由输入设备1输出的原始数据文件，提供原始数据文件的存储地址，对所接收的原始数据文件进行规范性判断，如果所接收的原始数据文件属于不符合数据处理器21处理的非规范化的原始数据文件，则将该原始数据文件进行转换以生成规范文本数据文件并输出规范文本数据文件，如果所接收的原始数据文件属于符合数据处理器21处理的规范化的原始数据文件，则该原始数据文件直接作为规范文本数据文件输出；数据初始化处理器212，通信连接于***初始化处理器211，接收***初始化处理器211输出的规范文本数据文件，对规范文本数据文件进行分词和词性标注并将分词和词性标注后的规范文本数据输出；以及数据处理器存储器213，通信连接于数据初始化处理器212并接收和存储数据初始化处理器212输出的分词和词性标注后的规范文本数据文件。

在叙词识别与抽取器22的一实施例中，参照图1，叙词识别与抽取器22包括：候选叙词判定与生成处理器221，通信连接于数据处理器21的数据初始化处理器212，并接收数据处理器21的数据初始化处理器212输出的分词和词性标注后的规范文本数据文件，基于语言规则和互信息统计对所接收的经过分词和词性标注后的规范数据文件进行识别与抽取候选叙词，生成并输出候选叙词集合；叙词判定与生成处理器222，通信连接于候选叙词判定与生成处理器221，并接收候选叙词判定与生成处理器221输出的候选叙词集合，基于位置加权和词频统计，对所接收的候选叙词集合中的候选叙词进行叙词词语判定和抽取，以生成并输出选定叙词集合；以及叙词结果存储器223，通信连接于叙词判定与生成处理器222，并接收和存储叙词判定与生成处理器222输出的选定叙词集合。

数据初始化处理器212输出的规范文本数据文件，其内容是是经过分词和词性标注处理的词语数据，其由字串组成，候选叙词判定与生成处理器221，通过使用如下语言规则得到候选叙词集合。语言规则是：

候选叙词中至少含有一个动词、名词或名词性成分；

候选叙词最后一个词为动词、名词或名词性成分；

候选叙词第一个词不为介词、量词；

候选叙词中没有连词、代词和语气词；

抽取长度在2-8之间的字串元素来组成候选叙词；

抽取按分词的词性组成名词+名词、形容词+名词、动词+名词、名词+动词的候选叙词词组串，词组串的最大长度为8。

为提高候选叙词的生成质量，侯选叙词可认为是由多个侯选叙词组成，即候选叙词词组，则候选叙词判定与生成处理器221采用互信息统计计算方法得到选定候选叙词集合。互信息统计计算公式是：

公式1

其中，候选叙词T是词(t_i,t_j)的组合，词t由t₁t₂...t_n组成，字串记为t_i＝t₁t₂...t_n-r，t_j＝t_rt_r+1...t_n,probability(t_i)表示词t_i单独在数据初始化处理器212的所有规范文本数据文件中出现的概率；probability(t_j)表示词t_j单独在数据初始化处理器212的所有规范文本数据文件中出现的概率；probability(t_i,t_j)表示词t_i和t_j共同出现在数据初始化处理器212的同一规范文本数据文件中的概率；如果t_i和t_j结合得十分紧密，则probability(t_i,t_j)与probability(t_i)或probability(t_j)相差不大(具体差值可以由用户来确定)，则该式计算的候选叙词T中的词串t_i和t_j的互信息值就较大，反之，probability(t_i)和probability(t_j)就会远大于probability(t_i,t_j)，则计算出的t_i和t_j的互信息值就比较小，即Mutual-information(t_i,t_j)值越大，则词t_i和t_j组合成候选叙词的概率越大。

其中，叙词判定与生成处理器222采用基于位置加权和词频统计相结合的方法来作为叙词词语判定和抽取的方法基础。

权重函数值的构造情况如下：

对关键词的权重函数计算：

Weight_i＝a×TFIDF_i 公式2

对非关键词叙词的计算(结合公式1)：

Weight_i＝Mutual-information(T)×a×TFIDF_i 公式3

在公式2和公式3中，

公式4

其中：ft_i指词t_i在来自数据初始化处理器212的所有规范文本数据文件d中出现的频率；N是所有来自数据初始化处理器212的规范文本数据文件的数目；n_i是包含词t_i的规范文本数据数目；a是词t_i所在位置(即词在规范文本数据文件中的标题、摘要、关键词、正文这四个位置中的哪个位置)的权重值。

在叙词关系识别与抽取器23的一实施例中，参照图1，叙词关系识别与抽取器23包括：叙词相关关系识别与抽取处理器231，通信连接于数据处理器21的数据初始化处理器212和叙词识别与抽取器22的叙词判定与生成处理器222，接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合，基于选定叙词集合中的叙词在分词和词性标注的规范文本数据文件中的共现概率统计值，识别并抽取该叙词的叙词相关关系，并输出所抽取的叙词相关关系；叙词属分关系识别与抽取处理器232，通信连接于数据处理器21的数据初始化处理器212和叙词识别与抽取器22的叙词判定与生成处理器222，接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合，基于选定叙词集合中的叙词在构成形态上具有包含关系和计算叙词之间相似度的度量值对叙词属分关系进行识别与抽取，并输出所抽取的叙词属分关系；以及叙词关系结果存储器233，通信连接于叙词相关关系识别与抽取处理器231以及叙词属分关系识别与抽取处理器232，以接收并存储叙词相关关系识别与抽取处理器231输出的叙词相关关系和叙词属分关系识别与抽取处理器232输出的叙词属分关系。

叙词相关关系自动识别与抽取处理器231接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合。使用基于联合概率分布的相似度计算方法进行相关关系的识别与抽取，计算公式如下：

公式5

其中：probability(A,B):表示在数据初始化处理器212生成的所有规范文本数据文件中，在相同窗口(指在每一个规范文本数据文件里的位置(标题、摘要、关键词、正文这四个位置))，选定叙词集合中的A词和B词同时出现的频率；表示在所有规范文本数据文件中，在相同窗口选定叙词集合中的A词出现，而选定叙词集合中的B词不出现的频率；表示在所有规范文本数据文件中，在相同窗口选定叙词集合中的B词出现，而选定叙词集合中的A词不出现的频率。

其中，叙词属分关系识别与抽取处理器232接收数据处理器21的数据初始化处理器212输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合。使用叙词之间相似性的度量计算公式得到叙词的属分关系，计算公式如下：

公式6

其中，sim_number表示选定叙词集合中的两个叙词(被包含叙词和待包含叙词)含有的、相同的字的总个数；sub_number表示选定叙词集合中的被包含叙词所含有的字的总个数；number表示选定叙词集合中的待包含叙词所含有的字的总个数；表示选定叙词集合中的两个叙词含有的、相同的字在被包含叙词中所处的位置(即该字在被包含叙词的词首，词中和词尾这三个位置中的哪个位置)权数之和；qsim_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字所处的位置权重；sim_number(i)表示选定叙词集合中的两个叙词含有的、相同的字集中，第i个字在字集中所处的位置数(即i值)；q₁表示字在被包含叙词中词首、词中和词尾这三个位置的权重系数；sub_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在被包含叙词中所处的位置数；表示选定叙词集合中的两个叙词含有的、相同的字在待包含叙词中所处的位置(即该字在待包含叙词的词首，词中和词尾这三个位置中的哪个位置)权数之和；q₂表示字在待包含叙词中词首、词中和词尾这三个位置的权重系数；number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在待包含叙词中所处的位置数；dp表示位置系数，其值为选定叙词集合中的被包含叙词与选定叙词集合中的待包含叙词的总字数之比；i＝1,2…,sim_number。

在叙词表生成器24的一实施例中，参照图1，叙词表生成器24包括：叙词表生成处理器241，通信连接于叙词识别与抽取器22的叙词判定与生成处理器222以及叙词关系识别与抽取器23的叙词相关关系识别与抽取处理器231和叙词属分关系识别与抽取处理器232，接收叙词识别与抽取器22的叙词判定与生成处理器222输出的选定叙词集合，接收叙词关系识别与抽取器23的叙词相关关系识别与抽取处理器231和叙词属分关系识别与抽取处理器232分别输出的各个叙词的叙词相关关系和属分关系，基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序，以生成并输出叙词表；以及叙词表结果存储器242，通信连接于叙词表生成处理器241，并接收和存储叙词表生成处理器241输出的叙词表。

在根据本发明所述的汉语叙词表构建***的一实施例中，参照图1，所述汉语叙词表构建***还可包括：校验和修改器5，通信连接于数据处理器存储器213、叙词结果存储器223、叙词关系结果存储器233、叙词表结果存储器242，以对数据处理器存储器213存储的规范文本数据文件、叙词结果存储器223存储的选定叙词集合、叙词关系结果存储器233存储的叙词相关关系和叙词属分关系、叙词表结果存储器242存储的叙词表进行人工校验、修改、删除。基于校验和修改器5，用户可以根据需要，随时打开需要查看、修改和删除的上述存储的内容，来进行相应的操作。

在存储器3的一实施例中，存储器3可选自硬盘、U盘、移动硬盘、存储卡。

在根据本发明所述的汉语叙词表构建***的一实施例中，所述汉语叙词表构建***还可包括：可视操作界面(未示出)，通信连接于输入设备1、***处理器2、存储器3、输出设备4、以及校验和修改器5。通过可视操作界面，可便于用户实现整个叙词表自动构建处理过程。

以下为结合图1给出的全部技术特征对本发明的叙词及叙词关系识别和抽取的进一步验证。

采用本发明的该***装置对机械工程类专利中文文献数据2426篇，自然语言处理技术的中文期刊文献数据2783篇，进行叙词及叙词关系的识别与抽取，经过以上步骤的操作，得到试验结果如下：

表1 本发明的识别与抽取的候选叙词和选定叙词试验结果示例

表2 本发明的识别与抽取的叙词试验结果示例

表3 本发明的识别与抽取叙词相关关系的试验结果示例

表4 本发明的识别与抽取叙词属分关系的试验结果示例

Claims

1.一种汉语叙词表构建***，其特征在于，包括：

输入设备(1)，输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出，所述原始数据文件包括文本数据文件、XML文件、PDF文件；

***处理器(2)，包括：

数据处理器(21)，通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件，提供原始数据文件的存储地址，对所接收的原始数据文件进行规范性判断，如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件，则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据，如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件，则对该原始数据文件直接进行分词和词性标注并输出规范文本数据，所述规范文本数据文件包括文本文件以及XML文件；叙词识别与抽取器(22)，通信连接于数据处理器(21)且接收数据处理器(21)输出的分词和词性标注的规范文本数据，以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词，抽取的叙词作为选定叙词集合；

叙词关系识别与抽取器(23)，通信连接于数据处理器(21)以及叙词识别与抽取器(22)并接收数据处理器(21)输出的规范文本数据和叙词识别与抽取器(22)输出的选定叙词集合，以基于国家标准GB13190-91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取，并将各个叙词的叙词相关关系和属分关系输出；以及

叙词表生成器(24)，通信连接于叙词识别与抽取器(22)以及叙词关系识别与抽取器(23)，接收叙词识别与抽取器(22)输出的选定叙词集合、接收叙词关系识别与抽取器(23)输出的各个叙词的叙词相关关系和属分关系，以基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序，以生成并输出叙词表；

存储器(3)，通信连接于***处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)，存储数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)各自输出的结果；以及

输出设备(4)，通信连接于***处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)，并接收和输出数据处理器(21)所输出的规范文本数据、叙词识别与抽取器(22)所输出的选定叙词集合、叙词关系识别与抽取器(23)所输出的叙词相关关系和属分关系、叙词表生成器(24)所输出的叙词表；

数据处理器(21)包括：

***初始化处理器(211)，通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件，提供原始数据文件的存储地址，对所接收的原始数据文件进行规范性判断，如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件，则将该原始数据文件进行转换以生成规范文本数据文件并输出规范文本数据文件，如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件，则该原始数据文件直接作为规范文本数据文件输出；

数据初始化处理器(212)，通信连接于***初始化处理器(211)，接收***初始化处理器(211)输出的规范文本数据文件，对规范文本数据文件进行分词和词性标注并将分词和词性标注后的规范文本数据输出；以及

数据处理器存储器(213)，通信连接于数据初始化处理器(212)，并接收和存储数据初始化处理器(212)输出的分词和词性标注后的规范文本数据文件；

叙词识别与抽取器(22)包括：

候选叙词判定与生成处理器(221)，通信连接于数据处理器(21)的数据初始化处理器(212)并接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注后的规范文本数据文件，基于语言规则和互信息统计计算对所接收的经过分词和词性标注后的规范数据文件进行识别与抽取候选叙词，生成并输出候选叙词集合；

叙词判定与生成处理器(222)，通信连接于候选叙词判定与生成处理器(221)，并接收候选叙词判定与生成处理器(221)输出的候选叙词集合，基于位置加权和词频统计，对所接收的候选叙词集合中的候选叙词进行叙词词语判定和抽取，以生成并输出选定叙词集合；以及

叙词结果存储器(223)，通信连接于叙词判定与生成处理器(222)，并接收和存储叙词判定与生成处理器(222)输出的选定叙词集合；

其中，数据初始化处理器(212)输出的规范文本数据文件的内容是经过分词和词性标注处理的词语数据，词语数据由字串组成，候选叙词判定与生成处理器(221)使用如下语言规则和互信息统计算得到候选叙词集合；

语言规则是：

候选叙词中至少含有一个动词、名词或名词性成分；

候选叙词最后一个词为动词、名词或名词性成分；

候选叙词第一个词不为介词、量词；

候选叙词中没有连词、代词和语气词；

抽取长度在2-8之间的字串元素来组成候选叙词；

抽取按分词的词性组成名词+名词、形容词+名词、动词+名词、名词+动词的候选叙词词组串，词组串的最大长度为8；

侯选叙词认为是由多个侯选叙词组成，即候选叙词词组，则候选叙词判定与生成处理器(221)采用的互信息统计计算的公式是：

其中，候选叙词T是词(t_i,t_j)的组合，词t由t₁t₂...t_n组成，t_i＝t₁t₂...t_n-r，t_j＝t_rt_r+1...t_n,probability(t_i)表示词t_i单独在数据初始化处理器(212)的所有规范文本数据文件中出现的概率；probability(t_j)表示词t_j单独在数据初始化处理器(212)的所有规范文本数据文件中出现的概率；probability(t_i,t_j)表示词t_i和t_j共同出现在数据初始化处理器(212)的同一规范文本数据文件中的概率；如果t_i和t_j结合得十分紧密，则probability(t_i,t_j)与probability(t_i)或probability(t_j)相差不大，具体差值由用户来确定，则该式计算的候选叙词T中的词t_i和t_j的互信息值就较大，反之，probability(t_i)和probability(t_j)就会远大于probability(t_i,t_j)，则计算出的t_i和t_j的互信息值就比较小，即Mutual-information(t_i,t_j)值越大，则词t_i和t_j组合成候选叙词的概率越大；

叙词关系识别与抽取器(23)包括：

叙词相关关系识别与抽取处理器(231)，通信连接于数据处理器(21)的数据初始化处理器(212)和叙词识别与抽取器(22)的叙词判定与生成处理器(222)，接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注的规范文本数据文件和叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合，基于选定叙词集合中的叙词在分词和词性标注的规范文本数据文件中的共现概率统计值，识别并抽取该叙词的叙词相关关系，并输出所抽取的叙词相关关系；

叙词属分关系识别与抽取处理器(232)，通信连接于数据处理器(21)的数据初始化处理器(212)和叙词识别与抽取器(22)的叙词判定与生成处理器(222)，接收数据处理器(21)的数据初始化处理器(212)输出的分词和词性标注的规范文本数据和叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合，基于选定叙词集合中的叙词在构成形态上具有的包含关系和计算叙词之间相似度的度量值对叙词属分关系进行识别与抽取，并输出所抽取的叙词属分关系；以及

叙词关系结果存储器(233)，通信连接于叙词相关关系识别与抽取处理器(231)以及叙词属分关系识别与抽取处理器(232)，以接收并存储叙词相关关系识别与抽取处理器(231)输出的叙词相关关系和叙词属分关系识别与抽取处理器(232)输出的叙词属分关系；

其中：

叙词判定与生成处理器(222)采用基于位置加权和词频统计相结合的方法来作为叙词词语判定和抽取的方法基础，

权重函数值的构造情况如下：

对关键词的权重函数计算：

Weight_i＝a×TFIDF_i 公式2

对非关键词叙词的计算，结合公式1：

Weight_i＝Mutual-information(T)×a×TFIDF_i 公式3

在公式2和公式3中，

其中：ft_i指词t_i在来自数据初始化处理器(212)的所有规范文本数据文件d中出现的频率；N是所有来自数据初始化处理器(212)的规范文本数据文件的数目；n_i是包含词t_i的规范文本数据数目；a是词t_i所在位置的权重值，即词t_i在规范文本数据文件中的标题、摘要、关键词、正文这四个位置中的哪个位置的权重值；

使用基于联合概率分布的相似度计算方法进行相关关系的识别与抽取，计算公式如下：

其中：probability(A,B)：表示在数据初始化处理器(212)生成的所有规范文本数据文件中，在相同窗口选定叙词集合中的A词和B词同时出现的频率，其中窗口指在每一个规范文本数据文件里的位置，位置为标题、摘要、关键词、正文这四个位置；表示在所有规范文本数据文件中，在相同窗口选定叙词集合中的A词出现，而选定叙词集合中的B词不出现的频率；表示在所有规范文本数据文件中，在相同窗口选定叙词集合中的B词出现，而选定叙词集合中的A词不出现的频率；

使用叙词之间相似性的度量计算公式得到叙词的属分关系，计算公式如下：

其中，sim_number表示选定叙词集合中的两个叙词含有的、相同的字的总个数，这两个叙词指的是被包含叙词和待包含叙词；sub_number表示选定叙词集合中的被包含叙词所含有的字的总个数；number表示选定叙词集合中的待包含叙词所含有的字的总个数；表示选定叙词集合中的两个叙词含有的、相同的字在被包含叙词中所处的位置权数之和，其中相同的字在被包含叙词中所处的位置指的是该字在被包含叙词的词首、词中和词尾这三个位置中的哪个位置；qsim_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字所处的位置权重；sim_number(i)表示选定叙词集合中的两个叙词含有的、相同的字集中，第i个字在字集中所处的位置数，即i值；q₁表示字在被包含叙词中词首、词中和词尾这三个位置的权重系数；sub_number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在被包含叙词中所处的位置数；表示选定叙词集合中的两个叙词含有的、相同的字在待包含叙词中所处的位置权数之和，其中相同的字在待包含叙词中所处的位置指的是该字在待包含叙词的词首、词中和词尾这三个位置中的哪个位置；q₂表示字在待包含叙词中词首、词中和词尾这三个位置的权重系数；number(i)表示选定叙词集合中的两个叙词含有的、相同的第i个字在待包含叙词中所处的位置数；dp表示位置系数，其值为选定叙词集合中的被包含叙词与选定叙词集合中的待包含叙词的总字数之比；i＝1,2…,sim_number。

2.根据权利要求1所述的汉语叙词表构建***，其特征在于，叙词表生成器(24)包括：

叙词表生成处理器(241)，通信连接于叙词识别与抽取器(22)的叙词判定与生成处理器(222)以及叙词关系识别与抽取器(23)的叙词相关关系识别与抽取处理器(231)和叙词属分关系识别与抽取处理器(232)，接收叙词识别与抽取器(22)的叙词判定与生成处理器(222)输出的选定叙词集合，接收叙词关系识别与抽取器(23)的叙词相关关系识别与抽取处理器(231)和叙词属分关系识别与抽取处理器(232)分别输出的各个叙词的叙词相关关系和属分关系，基于国家标准GB13190-91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序，以生成并输出叙词表；以及

叙词表结果存储器(242)，通信连接于叙词表生成处理器(241)并接收和存储叙词表生成处理器(241)输出的叙词表。

3.根据权利要求2所述的汉语叙词表构建***，其特征在于，所述汉语叙词表构建***还包括：

校验和修改器(5)，通信连接于数据处理器存储器(213)、叙词结果存储器(223)、叙词关系结果存储器(233)、叙词表结果存储器(242)，以对数据处理器存储器(213)存储的规范文本数据文件、叙词结果存储器(223)存储的选定叙词集合、叙词关系结果存储器(233)存储的叙词相关关系和叙词属分关系、叙词表结果存储器(242)存储的叙词表进行人工校验、修改、删除。

4.根据权利要求1所述的汉语叙词表构建***，其特征在于，存储器(3)选自硬盘、U盘以及存储卡中的一种或几种。

5.根据权利要求1所述的汉语叙词表构建***，其特征在于，所述汉语叙词表构建***还包括：

可视操作界面，通信连接于输入设备(1)、***处理器(2)、存储器(3)、输出设备(4)、以及校验和修改器(5)。