CN104572628B

CN104572628B - 一种基于句法特征的学术定义自动抽取***及方法

Info

Publication number: CN104572628B
Application number: CN201510059166.5A
Authority: CN
Inventors: 赵纪元; 罗霄; 杜玉锋; 郑萍
Original assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd; TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Current assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd; TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2017-08-08
Anticipated expiration: 2035-02-05
Also published as: CN104572628A

Abstract

本发明公开了一种基于句法特征的学术定义自动抽取***及方法，所述***包括：所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；定义术语抽取模块，将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；输出模块，用于输出定义术语。本发明将文献中表示定义的句子和对应的术语词抽取出来，并呈现给用户，方便用户快速、准确的理解检索出的内容。

Description

一种基于句法特征的学术定义自动抽取***及方法

技术领域

本发明属于信息技术领域，尤其涉及一种基于句法特征的学术定义自动抽取***及方法。

背景技术

对于学术文献，用户希望能够快速、准确地检索出自己所要查找的内容并迅速理解。但由于学术文献自身的特点，专业术语和新词术语的大量出现，导致用户需要随检索出的文献进行研究分析，找出该关键词所出现的句子进行认真研究、理解。而这个过程是十分低效的。

现有对句子定义自动抽取的研究工作，最近几年才开始活跃起来。其中，多采用基于规则的方法。即通过总结出定义常用的几种模式构造模板进行句子匹配的方法。但由于模板覆盖度问题，导致召回率很低。另外，也有采用基于统计的方法，即利用统计学中的模型、算法进行计算，找出符合统计规律的定义句子。但这种方法没有从句法层面进行分析，导致准确率较低。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于句法特征的学术定义自动抽取***及方法。

本发明的目的通过以下的技术方案来实现：

一种基于句法特征的学术定义自动抽取***，该***包括：

预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述

预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；

定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；

定义术语抽取模块，将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；

输出模块，用于输出定义术语。

一种基于句法特征的学术定义自动抽取方法，该方法包括：

对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；

采用规则和统计法判断所述单句是否为定义句；

将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；

输出定义术语。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明将文献中表示定义的句子和对应的术语词抽取出来，并呈现给用户，方便用户快速、准确的理解检索出的内容。且本申请文件提出了在规则模板的基础上，基于句法特征的学术定义自动抽取方法。该方法综合了基于规则和统计方法的优点，并从句法结构的层面上对学术文献句子进行研究。

附图说明

图1是基于句法特征的学术定义自动抽取***结构图；

图2是基于规则的定义句抽取方法流程图；

图3是基于统计法的定义句抽取流程图；

图4是定义术语抽取流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于句法特征的学术定义自动抽取***结构，包括：所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述

预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；利用分词工具和句法分析工具进行分词、词性标注、句法分析等工作。

定义术语抽取模块，将判断为定义的单句进行预处理，将其中有分割作用的字符串进行标记，比如“所谓”、“称为”、“定义为”、“称之为”等，其次，根据术语词抽取模板，将特定位置上的词串抽取出来作为候选定义术语，最后，利用通过统计高频术语得到的前邻词和后邻词表，将候选定义术语中不是术语词的组成部分去除，得到定义术语(如图4所示)；上述对判断为定义的单句进行预处理包括：对输入的学术文献进行摘要和全文的抽取，并对获取的整段语料进行分句；上述特定位置的词串是指表3模板中第一个(.*？)和表4模板中第二个(.*？)匹配的词串抽取出来作为术语词；

输出模块，用于输出定义术语。

上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配，如表1为定义句子肯定模板；表2为定义句子否定模板。

表1

1^(.？)所谓(.？)$
	2^(.？)(称作\|称做\|叫做\|叫作)(.？)$
3^(.？)(定义为)(.？)$
	4^(.？)(是指)(.？)$
5^(.？)(指的是)(.？)$
	6^(.？)(称之为)(.？)$
7^(.？)(被\|把)(.？)(定义为)(.*？)$
	8^(.？)(又称\|又叫\|也称\|也叫\|亦叫\|亦称\|俗称\|故称\|统称\|通称)(.？)$
9^(.？)(称为)(.？)$

11^(.？)(统称是\|统称为\|通称为\|通称是\|命名为)(.？)$
	13^(.？)的(概念\|定义)(.？)(：\|:\|是\|为)(.*？)$
14^(.？)(一般指\|指的是)(.？)$
	15^(.？)(是一种\|是一门\|是一类)(.？)$
12^(.？)(是)(.？)(的一种\|的一门\|是一类)(.*？)$

表2

^(.？)(名称为\|声称为\|号称为\|被称为)(.？)$
	^(.？)(称得上)(.？)$
^(.？)(分别被称为)(.？)$
	^(.？)(的所谓\|所谓的\|无所谓\|正所谓)(.？)$
^(.？)(是指定\|是指代\|但是指\|不是指\|是指数\|是指导\|是指正)(.？)$
	^(\[[0-9]+\])(.*？)$
^(.？)(这\|应\|也)是一(.？)$
	^(.？)(这是)(.？)(的一)(.*？)$
^(.？)(证明\|标明\|认为)(.？)(是一)(.*？)$

以上每个模板第一个(.*？)位置匹配的内容即为术语词(如表3，为术语词模板一)。

表3

^(.*？)(的概念|的定义)(.*？)(是|为|：|:|\$\$)(.*？)$

^(.？)(一般主要是指)(.？)$
	^(.？)(通常是指)(.？)$
^(.？)(的概念\|的定义)(.？)(是\|为\|：\|:\|\$\$)(.*？)$
	^(.？)(指的是)(.？)$
^(.？)(的概念\|的定义)(.？)(是\|为\|：\|:\|\$\$)(.*？)$
	^(.？)(被定义为\|其定义为)(.？)$

以上每个模板第二个(.*？)位置匹配的内容即为术语词(如表4，为术语词模板二)。

表4

^(.？)(所谓)(.？)(主要是指)(.*？)$
	^(.？)(所谓)(.？)(就是\|是指\|即)(.*？)$
^(.？)(所谓)(.？)(\$\$)(.*？)$
	^(.？)(即所谓的)(.？)(\$\$)(.*？)$
^(.？)(称为)(.？)(\$\$)$
	^(.？)(称作\|称做)(.？)(\$\$)$
^(.？)(定义为)(.？)(\$\$)$
	^(.？)(称之为)(.？)(\$\$)$
^(.？)(又称\|又叫\|也称\|也叫\|亦叫\|亦称\|故称)(.？)(\$\$)$

^(.*？)(统称是|统称为|通称为|通称是)(.*？)(\$\$)$

上述统计法是对每个单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征和句法特征的概率，根据所述概率定义判断函数。并进行是定义句子的打分值weightYes_total和非定义句子的打分值weightNo_total比较，若weightYes_total>weightNo_total，则认为是定义句子的打分值。

上述N元句子特征包括一元特征和二元特征；

上述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置；

所述二元特征为所述一元特征与联项词特征的组合。

所述句法特征包括一元句法特征和二元句法特征；

所述一元句法特征包括：句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语；

所述二元句法特征包括：句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合以及最后一个动词和最后一个动词后短语的组合。

所述定义判断函数是将N元特征和句法特征分为两类统计，得到N元特征是定义的概率weightYes1和不是定义的概率weightNo1以及句法特征是定义的概率weightYes_sen和不是定义的概率weightNo_sen；设F1和F2分别为两类特征的概率值所占的权重，需满足F1+F2＝1。两类特征结合后的概率weightYes_total和weightNo_total计算方法为：

weightYes_total＝F1*weightYes1+F2*weightYes_sen

weightNo_total＝F1*weightNo1+F2*weightNo_sen

其中，F1＝0.5，F2＝0.5。

定义判断函数中N元特征权重的确定。由于训练语料中定义句和非定义句的比例不是1:1，而是约1:10的比例。因此加入一元特征和二元特征后，需对训练结果中各特征是定义的概率和不是定义的概率进行调整，具体做法是对各特征不是定义的概率除以一个常数进行缩小。其中C1为一元特征不是定义的概率缩小倍数，C2为二元特征不是定义的概率缩小倍数。最终确定C1＝10，C2＝2作为参数。

本实施例还提供了一种基于句法特征的学术定义自动抽取方法，该方法包括：

采用规则和统计法判断所述单句是否为定义句；

将判断为定义的单句进行预处理，并根据术语词抽取模板，将特定位置上的词串抽取出来作为术语词，并通过前后邻的词串修正，得到定义术语；

输出定义术语。

上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配；

若肯定模板匹配成功，则进行否定规则模板匹配；

若否定规则模板匹配失败，则认为是定义句，并输出(如图2所示)。

对上述预处理后的单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征概率和句法特征概率，根据所述概率定义判断函数，函数是否判断成功，成功，则输出定义句(如图3所示)。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于句法特征的学术定义自动抽取***，其特征在于，所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，其中

定义句抽取模块，采用规则法和统计法判断所述单句是否为定义句；

输出模块，用于输出定义术语；

所述统计法是对每个单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征和句法特征的概率，根据所述概率定义判断函数；

所述N元句子特征包括一元特征和二元特征；

所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置；

所述二元特征为所述一元特征与联项词特征的组合。

2.如权利要求1所述的基于句法特征的学术定义自动抽取***，其特征在于，所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配。

3.如权利要求1所述的基于句法特征的学术定义自动抽取***，其特征在于，所述句法特征包括一元句法特征和二元句法特征；

4.如权利要求1所述的基于句法特征的学术定义自动抽取***，其特征在于，所述定义判断函数是将N元特征和句法特征分为两类统计，得到句子特征是定义的概率和不是定义的概率以及句法特征是定义的概率和不是定义的概率；及

确定定义判断函数中N元特征权重。

5.一种基于句法特征的学术定义自动抽取方法，其特征在于，所述方法包括：

采用规则法和统计法判断所述单句是否为定义句；

输出定义术语；

采用统计法判断单句是否为定义句的方法包括：对单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征概率和句法特征概率，根据所述概率定义判断函数，判断函数是否成功，若成功，则输出定义句，否则，不输出定义句。

6.如权利要求5所述的基于句法特征的学术定义自动抽取方法，其特征在于，所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配；

若肯定模板匹配不成功，则认为不是定义句；

若肯定模板匹配成功，则进行否定模板匹配；

若否定模板匹配失败，则认为是定义句，并输出。

7.如权利要求5所述的基于句法特征的学术定义自动抽取方法，其特征在于，

所述N元句子特征包括一元特征和二元特征；

所述二元特征为所述一元特征与联项词特征的组合；

所述句法特征包括一元句法特征和二元句法特征；