CN104572628B - 一种基于句法特征的学术定义自动抽取***及方法 - Google Patents
一种基于句法特征的学术定义自动抽取***及方法 Download PDFInfo
- Publication number
- CN104572628B CN104572628B CN201510059166.5A CN201510059166A CN104572628B CN 104572628 B CN104572628 B CN 104572628B CN 201510059166 A CN201510059166 A CN 201510059166A CN 104572628 B CN104572628 B CN 104572628B
- Authority
- CN
- China
- Prior art keywords
- sentence
- feature
- word
- verb
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于句法特征的学术定义自动抽取***及方法,所述***包括:所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;输出模块,用于输出定义术语。本发明将文献中表示定义的句子和对应的术语词抽取出来,并呈现给用户,方便用户快速、准确的理解检索出的内容。
Description
技术领域
本发明属于信息技术领域,尤其涉及一种基于句法特征的学术定义自动抽取***及方法。
背景技术
对于学术文献,用户希望能够快速、准确地检索出自己所要查找的内容并迅速理解。但由于学术文献自身的特点,专业术语和新词术语的大量出现,导致用户需要随检索出的文献进行研究分析,找出该关键词所出现的句子进行认真研究、理解。而这个过程是十分低效的。
现有对句子定义自动抽取的研究工作,最近几年才开始活跃起来。其中,多采用基于规则的方法。即通过总结出定义常用的几种模式构造模板进行句子匹配的方法。但由于模板覆盖度问题,导致召回率很低。另外,也有采用基于统计的方法,即利用统计学中的模型、算法进行计算,找出符合统计规律的定义句子。但这种方法没有从句法层面进行分析,导致准确率较低。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于句法特征的学术定义自动抽取***及方法。
本发明的目的通过以下的技术方案来实现:
一种基于句法特征的学术定义自动抽取***,该***包括:
预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述
预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;
定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;
定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;
输出模块,用于输出定义术语。
一种基于句法特征的学术定义自动抽取方法,该方法包括:
对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;
采用规则和统计法判断所述单句是否为定义句;
将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;
输出定义术语。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明将文献中表示定义的句子和对应的术语词抽取出来,并呈现给用户,方便用户快速、准确的理解检索出的内容。且本申请文件提出了在规则模板的基础上,基于句法特征的学术定义自动抽取方法。该方法综合了基于规则和统计方法的优点,并从句法结构的层面上对学术文献句子进行研究。
附图说明
图1是基于句法特征的学术定义自动抽取***结构图;
图2是基于规则的定义句抽取方法流程图;
图3是基于统计法的定义句抽取流程图;
图4是定义术语抽取流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于句法特征的学术定义自动抽取***结构,包括:所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述
预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;利用分词工具和句法分析工具进行分词、词性标注、句法分析等工作。
定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;
定义术语抽取模块,将判断为定义的单句进行预处理,将其中有分割作用的字符串进行标记,比如“所谓”、“称为”、“定义为”、“称之为”等,其次,根据术语词抽取模板,将特定位置上的词串抽取出来作为候选定义术语,最后,利用通过统计高频术语得到的前邻词和后邻词表,将候选定义术语中不是术语词的组成部分去除,得到定义术语(如图4所示);上述对判断为定义的单句进行预处理包括:对输入的学术文献进行摘要和全文的抽取,并对获取的整段语料进行分句;上述特定位置的词串是指表3模板中第一个(.*?)和表4模板中第二个(.*?)匹配的词串抽取出来作为术语词;
输出模块,用于输出定义术语。
上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配,如表1为定义句子肯定模板;表2为定义句子否定模板。
表1
1^(.*?)所谓(.*?)$ |
2^(.*?)(称作|称做|叫做|叫作)(.*?)$ |
3^(.*?)(定义为)(.*?)$ |
4^(.*?)(是指)(.*?)$ |
5^(.*?)(指的是)(.*?)$ |
6^(.*?)(称之为)(.*?)$ |
7^(.*?)(被|把)(.*?)(定义为)(.*?)$ |
8^(.*?)(又称|又叫|也称|也叫|亦叫|亦称|俗称|故称|统称|通称)(.*?)$ |
9^(.*?)(称为)(.*?)$ |
11^(.*?)(统称是|统称为|通称为|通称是|命名为)(.*?)$ |
13^(.*?)的(概念|定义)(.*?)(:|:|是|为)(.*?)$ |
14^(.*?)(一般指|指的是)(.*?)$ |
15^(.*?)(是一种|是一门|是一类)(.*?)$ |
12^(.*?)(是)(.*?)(的一种|的一门|是一类)(.*?)$ |
表2
^(.*?)(名称为|声称为|号称为|被称为)(.*?)$ |
^(.*?)(称得上)(.*?)$ |
^(.*?)(分别被称为)(.*?)$ |
^(.*?)(的所谓|所谓的|无所谓|正所谓)(.*?)$ |
^(.*?)(是指定|是指代|但是指|不是指|是指数|是指导|是指正)(.*?)$ |
^(\[[0-9]+\])(.*?)$ |
^(.*?)(这|应|也)是一(.*?)$ |
^(.*?)(这是)(.*?)(的一)(.*?)$ |
^(.*?)(证明|标明|认为)(.*?)(是一)(.*?)$ |
以上每个模板第一个(.*?)位置匹配的内容即为术语词(如表3,为术语词模板一)。
表3
^(.*?)(的概念|的定义)(.*?)(是|为|:|:|\$\$)(.*?)$ |
^(.*?)(一般主要是指)(.*?)$ |
^(.*?)(通常是指)(.*?)$ |
^(.*?)(的概念|的定义)(.*?)(是|为|:|:|\$\$)(.*?)$ |
^(.*?)(指的是)(.*?)$ |
^(.*?)(的概念|的定义)(.*?)(是|为|:|:|\$\$)(.*?)$ |
^(.*?)(被定义为|其定义为)(.*?)$ |
以上每个模板第二个(.*?)位置匹配的内容即为术语词(如表4,为术语词模板二)。
表4
^(.*?)(所谓)(.*?)(主要是指)(.*?)$ |
^(.*?)(所谓)(.*?)(就是|是指|即)(.*?)$ |
^(.*?)(所谓)(.*?)(\$\$)(.*?)$ |
^(.*?)(即所谓的)(.*?)(\$\$)(.*?)$ |
^(.*?)(称为)(.*?)(\$\$)$ |
^(.*?)(称作|称做)(.*?)(\$\$)$ |
^(.*?)(定义为)(.*?)(\$\$)$ |
^(.*?)(称之为)(.*?)(\$\$)$ |
^(.*?)(又称|又叫|也称|也叫|亦叫|亦称|故称)(.*?)(\$\$)$ |
^(.*?)(统称是|统称为|通称为|通称是)(.*?)(\$\$)$ |
上述统计法是对每个单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征和句法特征的概率,根据所述概率定义判断函数。并进行是定义句子的打分值weightYes_total和非定义句子的打分值weightNo_total比较,若weightYes_total>weightNo_total,则认为是定义句子的打分值。
上述N元句子特征包括一元特征和二元特征;
上述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置;
所述二元特征为所述一元特征与联项词特征的组合。
所述句法特征包括一元句法特征和二元句法特征;
所述一元句法特征包括:句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语;
所述二元句法特征包括:句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合以及最后一个动词和最后一个动词后短语的组合。
所述定义判断函数是将N元特征和句法特征分为两类统计,得到N元特征是定义的概率weightYes1和不是定义的概率weightNo1以及句法特征是定义的概率weightYes_sen和不是定义的概率weightNo_sen;设F1和F2分别为两类特征的概率值所占的权重,需满足F1+F2=1。两类特征结合后的概率weightYes_total和weightNo_total计算方法为:
weightYes_total=F1*weightYes1+F2*weightYes_sen
weightNo_total=F1*weightNo1+F2*weightNo_sen
其中,F1=0.5,F2=0.5。
定义判断函数中N元特征权重的确定。由于训练语料中定义句和非定义句的比例不是1:1,而是约1:10的比例。因此加入一元特征和二元特征后,需对训练结果中各特征是定义的概率和不是定义的概率进行调整,具体做法是对各特征不是定义的概率除以一个常数进行缩小。其中C1为一元特征不是定义的概率缩小倍数,C2为二元特征不是定义的概率缩小倍数。最终确定C1=10,C2=2作为参数。
本实施例还提供了一种基于句法特征的学术定义自动抽取方法,该方法包括:
采用规则和统计法判断所述单句是否为定义句;
将判断为定义的单句进行预处理,并根据术语词抽取模板,将特定位置上的词串抽取出来作为术语词,并通过前后邻的词串修正,得到定义术语;
输出定义术语。
上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配;
若肯定模板匹配成功,则进行否定规则模板匹配;
若否定规则模板匹配失败,则认为是定义句,并输出(如图2所示)。
对上述预处理后的单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征概率和句法特征概率,根据所述概率定义判断函数,函数是否判断成功,成功,则输出定义句(如图3所示)。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (7)
1.一种基于句法特征的学术定义自动抽取***,其特征在于,所述***包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,其中
预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;
定义句抽取模块,采用规则法和统计法判断所述单句是否为定义句;
定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;
输出模块,用于输出定义术语;
所述统计法是对每个单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征和句法特征的概率,根据所述概率定义判断函数;
所述N元句子特征包括一元特征和二元特征;
所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置;
所述二元特征为所述一元特征与联项词特征的组合。
2.如权利要求1所述的基于句法特征的学术定义自动抽取***,其特征在于,所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配。
3.如权利要求1所述的基于句法特征的学术定义自动抽取***,其特征在于,所述句法特征包括一元句法特征和二元句法特征;
所述一元句法特征包括:句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语;
所述二元句法特征包括:句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合以及最后一个动词和最后一个动词后短语的组合。
4.如权利要求1所述的基于句法特征的学术定义自动抽取***,其特征在于,所述定义判断函数是将N元特征和句法特征分为两类统计,得到句子特征是定义的概率和不是定义的概率以及句法特征是定义的概率和不是定义的概率;及
确定定义判断函数中N元特征权重。
5.一种基于句法特征的学术定义自动抽取方法,其特征在于,所述方法包括:
对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;
采用规则法和统计法判断所述单句是否为定义句;
将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;
输出定义术语;
采用统计法判断单句是否为定义句的方法包括:对单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征概率和句法特征概率,根据所述概率定义判断函数,判断函数是否成功,若成功,则输出定义句,否则,不输出定义句。
6.如权利要求5所述的基于句法特征的学术定义自动抽取方法,其特征在于,所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配;
若肯定模板匹配不成功,则认为不是定义句;
若肯定模板匹配成功,则进行否定模板匹配;
若否定模板匹配失败,则认为是定义句,并输出。
7.如权利要求5所述的基于句法特征的学术定义自动抽取方法,其特征在于,
所述N元句子特征包括一元特征和二元特征;
所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置;
所述二元特征为所述一元特征与联项词特征的组合;
所述句法特征包括一元句法特征和二元句法特征;
所述一元句法特征包括:句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语;
所述二元句法特征包括:句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合以及最后一个动词和最后一个动词后短语的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510059166.5A CN104572628B (zh) | 2015-02-05 | 2015-02-05 | 一种基于句法特征的学术定义自动抽取***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510059166.5A CN104572628B (zh) | 2015-02-05 | 2015-02-05 | 一种基于句法特征的学术定义自动抽取***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572628A CN104572628A (zh) | 2015-04-29 |
CN104572628B true CN104572628B (zh) | 2017-08-08 |
Family
ID=53088732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510059166.5A Active CN104572628B (zh) | 2015-02-05 | 2015-02-05 | 一种基于句法特征的学术定义自动抽取***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572628B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960041A (zh) * | 2017-03-28 | 2017-07-18 | 山西同方知网数字出版技术有限公司 | 一种基于非平衡数据的知识结构化方法 |
CN108573025B (zh) * | 2018-03-12 | 2021-07-02 | 云知声智能科技股份有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108647194B (zh) * | 2018-04-28 | 2022-04-19 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101233484A (zh) * | 2005-08-01 | 2008-07-30 | 微软公司 | 定义提取 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建***及方法 |
-
2015
- 2015-02-05 CN CN201510059166.5A patent/CN104572628B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101233484A (zh) * | 2005-08-01 | 2008-07-30 | 微软公司 | 定义提取 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建***及方法 |
Non-Patent Citations (2)
Title |
---|
一种软/硬模板相结合的定义抽取算法;钱菲 等;《计算机技术与发展》;20120930;第22卷(第9期);第32-36页 * |
术语定义抽取、聚类与术语识别研究;张榕;《中国优秀博硕士学位论文全文数据库(博士) 哲学与人文科学辑》;20061115(第11期);第F084-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572628A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN105095195B (zh) | 基于知识图谱的人机问答方法和*** | |
CN103106287B (zh) | 一种用户检索语句的处理方法及*** | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN105808526A (zh) | 商品短文本核心词提取方法和装置 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN105787134B (zh) | 智能问答方法、装置及*** | |
CN106599054A (zh) | 一种题目分类及推送的方法及*** | |
CN112052324A (zh) | 智能问答的方法、装置和计算机设备 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和*** | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN105760359B (zh) | 问句处理***及其方法 | |
CN106933972A (zh) | 利用自然语言处理技术定义数据元素的方法以及装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN101556596A (zh) | 一种输入法***及智能组词的方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及*** | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhao Jiyuan Inventor after: Luo Xiao Inventor after: Du Yufeng Inventor after: Zheng Ping Inventor before: Zhao Jiyuan Inventor before: Luo Xiao Inventor before: Du Yufeng |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |