CN104216934A - 一种知识抽取方法及*** - Google Patents

一种知识抽取方法及*** Download PDF

Info

Publication number
CN104216934A
CN104216934A CN201310456958.7A CN201310456958A CN104216934A CN 104216934 A CN104216934 A CN 104216934A CN 201310456958 A CN201310456958 A CN 201310456958A CN 104216934 A CN104216934 A CN 104216934A
Authority
CN
China
Prior art keywords
sentence
initial
sentence group
group
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310456958.7A
Other languages
English (en)
Other versions
CN104216934B (zh
Inventor
叶茂
金立峰
雷超
王元龙
汤帜
徐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201310456958.7A priority Critical patent/CN104216934B/zh
Priority to JP2016518163A priority patent/JP6321787B2/ja
Priority to US15/025,566 priority patent/US20160217376A1/en
Priority to EP13894286.7A priority patent/EP3057000A4/en
Priority to PCT/CN2013/088777 priority patent/WO2015043076A1/zh
Publication of CN104216934A publication Critical patent/CN104216934A/zh
Application granted granted Critical
Publication of CN104216934B publication Critical patent/CN104216934B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明所述的知识抽取方法及***,通过获取包括一个或一个以上句子的初始句群,之后将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句群是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,通过对初始句群进行扩展获取得到的最终句群相应的在逻辑上也会具备很好的连贯性。因此本发明克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。

Description

一种知识抽取方法及***
技术领域
本发明涉及一种知识抽取方法及***,具体是一种基于句群的知识抽取方法及***,涉及电数字数据处理技术领域。
背景技术
知识抽取是当前自然语言处理、语义Web、机器学习、知识工程、知识发现、知识管理、文本挖掘等相关领域共同关注的重点研究之一,是一个新的研究热点,主要是指从文本信息中抽取知识,通过对文献进行内容分析和处理,将文献中蕴含的知识逐条抽取出来。知识抽取是知识获取的一种方式,也是信息抽取的升华与深化。目前,以数字出版资源形式存在的知识资源已经非常丰富,但是以句段为组织单位的知识资源还很匮乏。句群是在意义和结构上有密切联系的前后连贯的句子组成的言语交际单位,是知识的一种有效表达方式。句群抽取自书籍的篇章信息(篇章是传统的知识组织方式),通过基于句群的知识抽取,可将文献处理的颗粒度从篇章层次细分到句段层次,从而彻底改变传统的知识组织和管理方式。
但是在知识抽取的过程中,现有技术中通常采用如下方法:针对单个句子进行知识抽取,知识抽取完成后,将抽取得到的单个句子组合后输出。这种方法没有考虑前后句子的连贯性,导致抽取的知识信息缺少逻辑上的连贯性,不利于理解。
发明内容
本发明所要解决的技术问题是现有技术中抽取的知识信息缺少逻辑上的连贯性,不利于理解,从而提供一种能够使抽取的知识信息在逻辑上具备很好的连贯性的知识抽取方法及***。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供了一种知识抽取方法,包括如下步骤:
获取初始句群,初始句群中包括一个或一个以上句子;
扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群;
知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
本发明所述知识抽取方法,所述扩展初始句群的步骤包括:
设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值;
句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
本发明所述知识抽取方法,所述设置权重阈值的步骤进一步包括:
确定比较结果F:确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值);
确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
本发明所述知识抽取方法,所述确定权重阈值的步骤中:
F大于或等于1时,权重阈值=(K/F)/G;
F小于1时,权重阈值=(K/F)*G;
其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
本发明所述知识抽取方法,所述阈值调整因子G的范围为:5≤G≤30。
本发明所述知识抽取方法,还包括:
确定属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N;
获取属性权重密度,利用公式K=∑Vi/N得到属性权重密度K。
本发明所述知识抽取方法,所述句群扩展的步骤进一步包括:
选取初始句群,选取一个初始句群进行扩展;
获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展;
得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧句子权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得到最终句群;
循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初始句群进行扩展,得到所有的最终句群。
本发明所述知识抽取方法,所述确定比较结果F的步骤中:
初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半;
初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
本发明所述知识抽取方法,所述句群扩展的步骤还包括:
设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为L,向右扩展句子数量阈值为R;
所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中,当初始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左扩展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不再向右扩展。
本发明所述知识抽取方法,所述设定向左和/或向右扩展句子数量阈值的步骤中,若所述初始句群向左和向右扩展时,所述向左扩展句子数量阈值L设定为6,所述向右扩展句子数量阈值R设定为6;若所述初始句群只向左扩展时,所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
本发明所述知识抽取方法,所述获取左侧句子权重和/或右侧句子权重的步骤中:
权重WL为与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi的加和;
权重WR为与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi的加和。
本发明所述知识抽取方法,所述获取初始句群的步骤包括:
对文本文档进行分句;
取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
本发明所述知识抽取方法,所述I=3。
本发明所述知识抽取方法,还包括如下步骤:
获取最终句群权重,根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和;
获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
本发明所述知识抽取方法,所述知识抽取的步骤还包括:
去重输出最终句群,将所述最终句群进行去重操作后输出。
本发明所述知识抽取方法,所述知识抽取的步骤还包括
删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述最小长度的最终句群去除。
本发明所述知识抽取方法,所述知识抽取的步骤还包括:
排序输出最终句群,根据每一所述最终句群的权重密度K’的大小对最终句群进行排序后输出。
本发明还提供了一个知识抽取***,包括:
初始句群获取模块,用于获取初始句群,且所述初始句群中包括一个或一个以上句子;
初始句群扩展模块,用于将从所述初始句群获取模块获取的初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群;
知识抽取模块,用于将从所述初始句群扩展模块获取的扩展后得到的最终句群输出,完成知识抽取。
本发明所述知识抽取***,所述初始句群扩展模块包括:
权重阈值设置单元,用于根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值;
句群扩展单元,用于在扩展初始句群时,将带扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
本发明所述知识抽取***,所述权重阈值设置单元包括:
比较结果确定子单元,用于确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值);
权重阈值确定子单元,用于确定F大于或等于1时的权重阈值小于F小于1时的权重阈值。
本发明所述知识抽取***,所述权重阈值确定子单元包括:
阈值调整因子设定器,用于设定阈值调整因子G并输出,G为大于1的数;
属性权重密度获取器,用于获取属性权重密度K并输出;
权重阈值获取器,用于根据所述阈值调整因子设定器、所述属性权重密度获取器和所述比较结果确定子单元的输出结果,获取权重阈值并输出;在F大于或等于1时,权重阈值=(K/F)/G;在F小于1时,权重阈值=(K/F)*G,其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
本发明所述知识抽取***,所述阈值调整因子设定器,设定所述阈值调整因子G的范围为:5≤G≤30。
本发明所述知识抽取***,还包括:
属性集模块,用于存储属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N;
所述属性权重密度获取器,利用公式K=∑Vi/N得到属性权重密度K。
本发明所述知识抽取***,所述句群扩展单元包括:
初始句群选取子单元,用于从所述初始句群获取模块选取一个初始句群进行扩展;
句子权重获取子单元,用于根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
比较子单元,用于将与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR与所述权重阈值进行比较;
新句群获取子单元,用于在与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块;
循环扩展子单元,用于在所述新句群获取子单元得到最终句群后控制所述初始句群获取子单元从所述初始句群获取模块选取另一个初始句群进行扩展。
本发明所述知识抽取***,所述比较结果确定子单元包括:
冗余值设定器,用于设定所述冗余值;初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半;
初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
本发明所述知识抽取***,所述句群扩展单元还包括:
阈值设定子单元,用于设定初始句群向左扩展句子数量阈值为L和/或设定初始句群向右扩展句子数量阈值为R;
第一计数子单元,用于统计初始句群向左扩展的句子数量并输出;
第二计数子单元,用于统计初始句群向右扩展的句子数量并输出;
所述比较子单元,还用于将获取的初始句群向左扩展的句子数量与初始句群向左扩展的句子数量阈值L做比较;将初始句群向右扩展的句子数量与初始句群向右扩展的句子数量阈值R做比较;
所述新句群获取子单元,还用于在初始句群向左扩展的句子数量小于或者等于L和/或初始句群向右扩展的句子数量小于或者等于R,并且与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值时,将所述左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块。
本发明所述知识抽取***,所述阈值设定子单元,若所述初始句群向左和向右扩展时,设定所述向左扩展句子数量阈值L为6,所述向右扩展句子数量阈值R为6;若所述初始句群只向左扩展时,设定所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,设定所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
本发明所述知识抽取***,所述句子权重获取子单元包括:
第一权重获取器,用于将与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该左侧句子的权重WL
第二权重获取器,用于将与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该右侧句子的权重WR
本发明所述知识抽取***,所述初始句群获取模块包括:
分句单元,用于对文本文档进行分句;
提取单元,用于取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
本发明所述知识抽取***,所述提取单元取所有前后连贯的3个句子形成初始句群。
本发明所述知识抽取***,所述句群扩展单元还包括:
句群权重获取子单元,用于根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;且最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和;
句群长度获取子单元,用于获取最终句群长度;
权重密度获取子单元,用于根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
本发明所述知识抽取***,所述知识抽取模块包括:
去重输出最终句群单元,用于将所述最终句群进行去重操作后输出。
本发明所述知识抽取***,所述知识抽取模块还包括:
删减输出最终句群单元,用于设置最终句群的最小长度,并将所述最终句群中,长度小于所述最小长度的最终句群去除后输出。
本发明所述知识抽取***,所述知识抽取模块还包括:
排序输出最终句群单元,用于根据每一所述最终句群的权重密度K’的大小将最终句群进行排序后输出。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明所述的知识抽取方法及***,通过获取包括一个或一个以上句子的初始句群,之后将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句群是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,通过对初始句群进行扩展获取得到的最终句群相应的在逻辑上也会具备很好的连贯性。因此本发明克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。
(2)本发明所述的知识抽取方法及***,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值,并确定比较结果F=期望长度/(初始句群长度+冗余值),将权重阈值设置为关于所述比较结果F的函数,所述比较结果F越小,即初始句群长度越接近期望长度或超过期望长度,所述权重阈值越大;并将其与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR进行比较,只有当所述左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,才会将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。因此,所述权重阈值会根据待扩展的初始句群的实际情况进行动态的调整。比如初始句群长度远小于期望长度时,所述权重阈值会变的很小,所述左侧句子的权重WL以及右侧句子的权重WR很容易大于所述权重阈值,因此很容易将该左侧句子和/或该右侧句子扩展至初始句群;反之,所述权重阈值会变的很大,所述左侧句子的权重WL以及右侧句子的权重WR必须很大,也即该左侧句子和/或该右侧句子必须包含很多的属性参数ai的情况下才能被扩展至初始句群。通过此种方式,能够在初始句群扩展时有效控制其长度,得到趋向于期望长度的最终句群。
(3)本发明所述的知识抽取方法及***,在初始句群向左扩展时,所述冗余值选择与初始句群相邻的左侧句子的长度的一半;在初始句群向右扩展时,所述冗余值选择与初始句群相邻的右侧句子的长度的一半。通过此种方式,依据统计规律,可以使得到的最终句群的长度更趋向于期望长度。
(4)本发明所述的知识抽取方法及***,通过对初始句群进行向左和/或向右扩展得到最终句群,因此抽取得到的最终句群具有很好的逻辑上的连贯性,不会使人感觉突兀。同时,通过向左和/或向右扩展初始句群,可以避免遗漏待抽取的句子,使得抽取的知识信息能够包含比较全面的信息量。
(5)本发明所述的知识抽取方法及***,通过对初始句群向左和/或向右扩展的句子数量进行限定,使得初始句群的向左和/或向右的扩展能够控制在一个比较合理的范围内,使得抽取的知识信息更便于查阅和理解。
(6)本发明所述的知识抽取方法及***,通过对得到的所有的最终句群进行去重操作,避免了输出重复的知识信息,避免了用户阅读重复内容造成的时间上的浪费;通过设置最终句群的最小长度,将长度小于所述最小长度的最终句群去除,可以使得输出的所有的最终句群所包含的知识信息都不会太少,进而满足用户的查阅的需求;通过根据每一最终句群的权重密度K’的大小对最终句群进行排序后输出,用户可以有选择的读取抽取的所述最终句群。比如,根据所述权重密度K’,按照从大到小的顺序对所有的最终句群排序后输出,用户有可能只需要读取前面几个所述最终句群,即可获取到想要的知识信息,节省了用户查询的时间。
附图说明
为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详细的说明,其中,
图1是本发明所述知识抽取方法的步骤框图;
图2是本发明所述对初始句群向左扩展的一个具体实施方式的流程图;
图3是本发明所述知识抽取***的结构框图;
图4是本发明一个优选实施方式所述知识抽取***的结构框图。
1-初始句群提取模块,2-初始句群扩展模块,3-知识抽取模块,4-属性集模块,11-分句单元,12-提取单元,21-权重阈值设置单元,22-句群扩展单元,31-去重输出最终句群单元,32-删减输出最终句群单元,33-排序输出最终句群单元,211-比较结果确定子单元,211a-冗余值设定器,212-权重阈值确定子单元单元,212a-阈值调整因子设定器,212b-属性权重密度获取器,212c-权重阈值获取器,221-初始句群选取子单元,222-句子权重获取子单元,222a-第一权重获取器,222b-第二权重获取器,223-比较子单元,224-新句群获取子单元,225-循环扩展子单元,226-阈值设定子单元,227a-第一计数子单元,227b-第二计数子单元,228a-句群权重获取子单元,228b-句群长度获取子单元,228c-权重密度获取子单元。
具体实施方式
实施例1
本实施例所述的一种知识抽取方法,如图1所示,包括如下步骤:
获取初始句群,初始句群中包括一个或一个以上句子。
扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群。
知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
本实施例通过获取包括一个或一个以上句子的初始句群,之后将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句群本身就是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,相应的通过对初始句群进行扩展获取得到的最终句群在逻辑上也会具备很好的连贯性。因此本实施例克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。
作为一种优选的实施方式,本实施例所述知识抽取方法,所述获取初始句群的步骤包括:
对文本文档进行分句。
取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
作为一种优选的方式,所述I=3。
本实施例通过对文本文档进行分句,取所有前后连贯的3个句子形成初始句群。本实施例中设定I=3能够取得较好的输出结果,可以确保提取出的所有最终句群都至少包括三个句子。本实施例中在文本中取前后连贯的3个句子形成初始句群,初始句群本身就具备很好的逻辑关系,又是通过对初始句群进行扩展得到的最终句群,因此抽取得到的最终句群具有很好的逻辑性,不会使人感觉突兀。
本实施例所述知识抽取方法,所述扩展初始句群的步骤包括:
设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值。
句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
作为另一种可选的实施方式,本实施例所述知识抽取的方法,所述扩展初始句群的步骤可以为:
比较初始句群长度与期望长度,若初始句群长度还未达到期望长度,则对初始句群进行扩展;若初始句群长度已经达到或者超过初始句群的长度,则停止扩展。
本实施例中,不论哪一种扩展初始句群的方式,都考虑到了初始句群长度与期望长度的关系,使得抽取的最终句群的长度更趋近于期望长度。
本实施例所述期望长度为本领域技术人员所熟知的。例如,在专利文献中说明书摘要的长度要求不超过300字,如果要从某一文本中抽取出相关的句子形成说明摘要,则期望长度为300字。如果对期望长度没有特殊要求时,可以根据实际应用来选定。
本实施例以及后续实施例中所说的期望长度、初始句群长度以及句子的长度等,均是以字符数来计算的。
实施例2
在实施例1的基础上,本实施例所述知识抽取方法,如图2所示,所述设置权重阈值的步骤进一步包括:
确定比较结果F:确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值)。
确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
本实施例所述的知识抽取方法,所述确定权重阈值的步骤中:
F大于或等于1时,权重阈值=(K/F)/G。
F小于1时,权重阈值=(K/F)*G。
其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
本实施例中,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值,其中所述比较结果F=期望长度/(初始句群长度+冗余值),且F大于或等于1时,权重阈值=(K/F)/G。F小于1时,权重阈值=(K/F)*G。因此,初始句群长度与期望长度的比较结果F越小,即初始句群长度越接近或者超过期望长度,所述权重阈值越大,即所述权重阈值能够根据初始句群长度与期望长度的比较结果进行动态调整,相较于现有技术中,固定不便的判断标准,本实施例提供了一种能够根据实际情况进行动态调整的判断标准,以保证抽取的知识信息更趋近于期望长度。
作为一种优选的实施方式,所述阈值调整因子G的范围为:5≤G≤30。
经过试验验证,在此范围内设定阈值调整因子G,知识抽取的效果最好。
作为一种可选的实施方式,本实施例所述的知识抽取方法,还包括如下步骤:
确定属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N。
获取属性权重密度,利用公式K=∑Vi/N得到属性权重密度K。
所述属性参数ai为属性名称,是根据要抽取的知识信息事先确定好的关键词,且用该属性名称对应的字符串来表述。判断句子中是否包含所述属性参数ai,即判断该句子中是否包含表述所述属性参数ai的字符串。与属性参数ai所对应的权重Vi可以根据属性参数ai的重要程度来确定,属性参数ai越重要,赋予其对应的权重Vi的数值就越大,反之,越小。
所述属性权重密度K除了利用公式K=∑Vi/N获取外,还可以由用户根据实际需求自行设定获取。
实施例3
在实施例1或实施例2的基础上,本实施例所述知识抽取方法,如图2所示,所述句群扩展的步骤进一步包括:
选取初始句群,选取一个初始句群进行扩展。
获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。
得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧句子权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得到最终句群。
循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初始句群进行扩展,得到所有的最终句群。
本实施例中,初始句群的扩展分为向左扩展、向右扩展或者向左和向右扩展,其中:
只向左扩展初始句群时,只需得到与初始句群相邻的左侧句子的权重WL即可;若与初始句群相邻的左侧句子的权重WL大于或等于权重阈值,则将该左侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。
只向右扩展初始句群时,只需得到与初始句群相邻的右侧句子的权重WR即可;若与初始句群相邻的右侧句子的权重WR大于或等于权重阈值,则将该右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。
既向左扩展又向右扩展初始句群时,则需得到与初始句群相邻的左侧句子的权重WL和与初始句群相邻的右侧句子的权重WR。若与初始句群相邻的左侧句子的权重WL大于权重阈值,则将该左侧句子扩展至初始句群,若与初始句群相邻的右侧句子的权重WR大于权重阈值,则将该右侧句子扩展至初始句群,通过对初始句群向左扩展和向右扩展得到新句群,若与初始句群相邻的左侧句子的权重WL和与初始句群相邻的右侧句子的权重WR都小于权重阈值,则初始句群不再进行扩展。此处所述的向左扩展和向右扩展,可以是先进行向左扩展然后再进行向右扩展,也可以是先进行向右扩展再进行向左扩展,还可以是向左扩展和向右扩展交替进行。
本实施例所述的知识抽取方法,所述获取左侧句子权重和/或右侧句子权重的步骤中:
权重WL为与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi的加和。
权重WR为与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi的加和。
该左侧和/或右侧句子经过上述判断,比如,判定所述左侧句子包含属性参数a1和a2,则该左侧句子的权重WL=V1+V2;判定所述右侧句子包含属性参数a3和a4,则该右侧句子的权重WR=V3+V4。此处,当同一个属性ai出现多次时,其对应的权重Vi可以只加一次也可以多次累加,一般情况下,为了使得到的结果更能够满足用户的需求,属性ai出现几次,其对应的权重Vi就累加几次。
作为可替换的方案,句子权重计算的可替换方案为∑βivi,其中βivi为句子中出现属性ai所产生的贡献值,βi为属性ai的领域特征权重。属性ai的领域特征权重可以通过领域文档训练得到。当βi都取1时,就是目前实施例中使用的方案。本实施例只是提供了一种获取左侧句子权重WL和/或右侧句子权重WR的方法,现有技术中还有其他计算句子权重的方法,无论选择何种方法,只要保证在计算句子权重时选相同的方法即可。
本实施例所述的知识抽取方法,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值,并确定比较结果F=期望长度/(初始句群长度+冗余值),将权重阈值设置为关于所述比较结果F的函数,所述比较结果F越小,即初始句群长度越接近期望长度或超过期望长度,所述权重阈值越大;并将其与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR进行比较,只有当所述左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,才会将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。因此,所述权重阈值会根据待扩展的初始句群的实际情况进行动态的调整。比如初始句群长度远小于期望长度时,所述权重阈值会变的很小,所述左侧句子的权重WL以及右侧句子的权重WR很容易大于所述权重阈值,因此很容易将该左侧句子和/或该右侧句子扩展至初始句群;反之,所述权重阈值会变的很大,所述左侧句子的权重WL以及右侧句子的权重WR必须很大,也即该左侧句子和/或该右侧句子必须包含很多的属性参数ai的情况下才能被扩展至初始句群。通过此种方式,能够在初始句群扩展时有效控制其长度,得到趋向于期望长度的最终句群。
本实施例所述的知识抽取方法,所述确定比较结果F的步骤中:
初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半。
初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
在实际的应用时,向左扩展时,所述冗余值可以选择与当前句群相邻的左侧句子的长度的m倍;向右扩展时,所述冗余值可以选择与当前句群相邻的右侧句子的长度的m倍;m最好能取小于1的数值,当m取0.5时,即为本实施例中的方案。采用本实施例中的冗余值,依据统计规律可知,得到的最终句群会更加接近于期望长度值。
实施例4
在实施例1至实施例3任一所述实施例的基础上,如图2所示,本实施例所述知识抽取方法,所述句群扩展的步骤还包括:
设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为L,向右扩展句子数量阈值为R。
所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中,当初始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左扩展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不再向右扩展。
图2只是本发明初始句群向左扩展的一种具体实施方式的流程图,但本发明初始句群向左扩展中的一些步骤的先后顺序不受图2的限定。一些参数获取和设置的步骤比如确定属性集、确定属性权重密度、设置阈值调整因子G、确定初始句群长度与期望长度的比较结果F等步骤,可以在循环之前进行执行,也可以在循环过程中在初始句群扩展之前执行,。
本实施例通过对初始句群向左和/或向右扩展的句子数量进行限定,进一步使得初始句群的向左和/或向右的扩展能够控制在一个比较合理的范围内,使得抽取的最终句群更便于查阅和理解。
作为一种优选的实施方式,本实施例所述知识抽取方法,所述设定向左和/或向右扩展句子数量阈值的步骤中,若所述初始句群向左和向右扩展时,所述向左扩展句子数量阈值L设定为6,所述向右扩展句子数量阈值R设定为6;若所述初始句群只向左扩展时,所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
通过实验验证,将所述向左和/或向右扩展句子数量阈值设定为上述数值,获取的知识抽取的结果无论是从句子的连贯性,包含的信息量,还是最终句群的长度控制方面,都能达到很好的效果。
实施例5
在实施例1至实施例4任一所述实施例的基础上,本实施例所述知识抽取方法,还包括如下步骤:
获取最终句群权重,根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和。
获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
需要说明的是,当计算最终句群权重密度K’时,还可以选择采用最终句群权重除以最终句群中的句子数的方式,只要保证对于每一个最终句群在计算权重密度K’时均采用相同的标准即可。
最终句群经过上述判断,比如,判断最终句群包含属性参数a1、a3和a5,则将所述属性参数a1、a3和a5分别对应的权重V1、V3和V5相加,即可得到所述最终句群的权重=V1+V3+V5,若获取最终句群长度为300字符,则所述最终句群的权重密度K’=(V1+V3+V5)/300。如果在最终句群中的某一句子或者不同句子中包含着多个某一属性ai,其对应的权重可以只加一次也可以多次累加,一般情况下,为了使得到的结果更能满足用户的需求,属性ai出现几次,其对应的权重Vi就累加几次。
作为可替换的方案,句群权重计算的可替换方案为∑βivi,其中βivi为句群包含的句子中出现属性ai所产生的贡献值,βi为属性ai的领域特征权重。属性ai的领域特征权重可以通过领域文档训练得到。当βi都取1时,就是目前实施例中使用的方案。本实施例只是提供了一种判断最终句群权重的方法,现有技术中还有其他计算句子权重的方法,无论选择何种方法,只要保证在计算句群权重和句子权重时选相同的方法即可。
本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
去重输出最终句群,将所述最终句群进行去重操作后输出。
本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述最小长度的最终句群去除。
本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
排序输出最终句群,根据每一所述最终句群的权重密度K’的大小对最终句群进行排序后输出。
本实施例所述的知识抽取方法,通过对得到的所有的最终句群进行去重操作,避免了输出重复的知识信息,避免了用户阅读重复内容造成的时间上的浪费;通过设置最终句群的最小长度,将长度小于所述最小长度的最终句群去除,可以使得输出的所有的最终句群所包含的知识信息都不会太少,进而满足用户的查阅的需求;通过根据每一最终句群的权重密度K’的大小对最终句群进行排序后输出,用户可以有选择的读取抽取的所述最终句群。比如,根据所述权重密度K’,按照从大到小的顺序对所有的最终句群排序后输出,用户有可能只需要读取前面几个所述最终句群,即可获取到想要的知识信息,节省了用户查询的时间。
本实施例还提供了一个知识抽取时的具体的案例,文本如下:
中国统一的秦王朝的开国皇帝(J1)。名政,秦庄襄王之子,十三岁即王位,三十九岁称帝,在位共三十七年(J2)。(见彩图)秦始皇像陕西临潼秦始皇陵战国末年,从诸侯割据向全国统一的趋势已日益明显(J3)。当时,秦国实力最强,已具备统一东方六国的条件(J4)。秦王政初即位时,国政为相国吕不韦和宦官嫪毐所把持(J5)。公元前238年,他亲理国事,平定嫪毐的叛乱,免除吕不韦的相职,令其徙处蜀郡;并任用尉缭,李斯等人,部署统一全国的战略和策略(J6)。自公元前230年至前221年,先后灭韩、魏、楚、燕、赵、齐六国,终于建立了中国历史上第一个统一的、多民族的、专制主义中央集权制国家秦朝(J7)。秦王政为炫耀自已统一天下的功德,确立至高无上的权威,创立了“皇帝”的尊号,自称始皇帝,宣布子孙称二世、三世,以至万世,代代承袭(J8)。随后,他在政治、经济和文化思想方面推行了一系列巩固统一的中央集权国家的措施(J9)。他在全国范围内废除分封制,代以郡县制;在皇帝的直接控制下,建立自中央直至郡县的一整套官僚机构;以秦国原有的法律令为基础,吸收六国法律的某些条文,制定和颁行统一的法律(见云梦秦律)(J10)。所有的律令都定期向御史核对,不容许错乱和篡改(J11)。将原六国贵族豪富迁至关中、巴蜀,以防止他们的***复辟活动,仅迁至咸阳者即达十二万户(J12)。又明令禁止民间收藏武器,销毁没收得来的武器,铸造十二个金人,陈列在宫殿之前(J13)。在经济上,大力推行重农抑商政策,扶植封建土地私有制的发展(J14)。始皇三十一年(前216)下令“使黔首自实田”,即占有土地的地主和自耕农只要向政府申报土地数额,交纳赋税,其土地所有权就得到政府的承认和保护,并以商鞅所制定的度量衡为标准统一全国的度量衡制度(J15)。废止战国时代的各国货币,统一全国币制(J16)。为发展全国水陆交通,又实行“车同轨”,堕毁旧东方各国的城郭,修建由咸阳通向燕齐和吴楚地区的驰道,以及由咸阳经云阳(今陕西淳化西北)直达九原(今内蒙古包头西)的直道;在西南地区修筑了“五尺道”,开凿沟通湘江和漓江的灵渠(J17)。在文化思想方面,以秦国通行的文字为基础制定小篆,作为标准文字,颁行全国(J18)。并利用战国阴阳家的五德终始说,为秦朝的专制主义统治制造神学根据(J19)。以秦得水德,水色黑,终数六,因而规定衣服旄旌节旗皆尚黑,符传、法冠、舆乘等制度都以六为数(J20)。水主阴,阴代表刑杀,于是以此为依据加重严刑酷法的实施(J21)。始皇三十四年,又采纳丞相李斯的建议,下令销毁民间所藏《诗》、《书》、百家语,禁止私学(J22)。随后因求仙药的侯生、卢生逃亡,牵连儒生、方士四百余人,而将其全部坑杀于咸阳(J23)。秦始皇即位后,派蒙恬率兵出击匈奴,收复河南地,迫使其退往阴山以北;为防其进一步侵扰,还把战国时秦、赵、燕三国北边的长城连结起来,修筑西起临洮(今甘肃岷县)东至辽东的万里长城(J24)。在征服百越地区后,设置桂林、象郡、南海等郡(J25)。始皇末年,秦郡数由统一之初的三十六郡增至四十余郡,其版图“东至海暨朝鲜,西至临洮、羌中,南至北向户,北据河为塞,并阴山至辽东”(J26)。秦始皇是很有作为的政治家,他每天亲自处理大量的奏章文书,不完成规定的数量,决不休息(J27)。但因刚愎自用,以刑杀为威,大臣多怕获罪,不敢指陈他的过失(J28)。在统一六国之后,他修建豪华的阿房宫和骊山墓,先后进行五次大规模的巡游,在名山胜地刻石纪功,炫耀声威(J29)。为求长生不老之药,又派方士徐市(即徐福)率童男女数千人至东海求神仙等等,耗费了巨大的财力和人力,加深了人民的苦难(J30)。以秦始皇为首的统治阶级对广大人民所实行的政治压迫和经济剥削,引起了人民的反抗(J31)。六国贵族的残余势力也乘机进行反秦活动(J32)。秦始皇于二十九年东游,途经博浪沙(今河南中牟西北)时遭刺客狙击(J33)。三十六年,陨石堕于东郡,有人刻“始皇帝死而地分”于石(J34)。次年,秦始皇巡游返至平原津得病(J35)。他自知病将不起,于是作书命在上郡监蒙恬军的长子扶苏速归咸阳送葬,并继嗣帝位(J36)。行至沙丘(今河北广宗西北),秦始皇病死(J37)。中车府令赵高勾结始皇少子胡亥和丞相李斯,伪造遗诏立胡亥为太子,并赐扶苏死(J38)。秦二世胡亥即位后,对人民的剥削和压迫变本加厉,社会矛盾激化,终于在二世三年(前209)激起陈胜、吴广领导的农民大起义(见陈胜、吴广起义)(J39)。不久,秦朝灭亡(J40)。
属性集T:
秦国 0.04502143878037160 李斯 0.02501191043353970 中央集权 0.02096236303001420
蒙毅 0.00595521676989042 春秋 0.01310147689375890 阿房宫 0.01214864221057640
儒生 0.01262505955216770 赵高 0.02191519771319670 割据 0.01643639828489750
本纪 0.01429252024773700 刘邦 0.01405431157694140 荆轲 0.01119580752739390
王绾 0.00714626012386850 残暴 0.01071939018580270 即位 0.00976655550262029
博士 0.01024297284421150 焚书坑儒 0.01905669366364930 221 0.00976655550262029
秦王 0.02763220581229150 秦朝 0.02215340638399230 沙丘 0.00595521676989042
孟姜女 0.02382086707956160 三十七 0.00643163411148165 方士 0.01453072891853260
统一 0.11505478799428300 群臣 0.00643163411148165 皇帝 0.06955693187232010
泰山 0.00690805145307289 诏书 0.00643163411148165 史记 0.02215340638399230
郡县制 0.01024297284421150 一六 0.01405431157694140 黄河 0.00714626012386850
丞相 0.02739399714149590 修筑 0.01214864221057640 临洮 0.00666984278227727
平定 0.00643163411148165 渭水 0.01024297284421150 秦汉 0.01357789423535010
范喜良 0.00666984278227727 世系 0.00666984278227727 万里长城 0.00881372081943782
商鞅 0.00595521676989042 西南 0.00643163411148165 秦二世 0.00786088613625536
度量衡 0.01119580752739390 13 0.00809909480705097 张良 0.00690805145307289
司马迁 0.00762267746545974 法律 0.01572177227251070 匈奴 0.02525011910433540
西汉 0.01191043353978080 内蒙古 0.00714626012386850 秦代 0.01214864221057640
官吏 0.00619342544068604 项羽 0.00690805145307289 封建社会 0.00952834683182467
犯禁 0.00643163411148165 汉武帝 0.00619342544068604 秦律 0.00762267746545974
分封 0.02000952834683180 吕不韦 0.00666984278227727 五帝 0.00762267746545974
出巡 0.01310147689375890 蒙恬 0.02286803239637920 阴山 0.00714626012386850
陵墓 0.01048118151500710 造反 0.00643163411148165
上述属性集中,共有68个属性,且每个属性所对应的权重相加后为1,因此得到属性权重密度:K=1/68=0.1470588。
以句号、问号、感叹号等表征一个句子的完整性的标点符号对上述文本进行句子的分解,分解完成后得到上述文本中共包括40个句子。为了在后续的描述中较为简洁,为每一个句子提供一个编号,本实施例中给出的四十个编号为J1——J40。这些编号是为了辅助理解技术方案而设定的,在实际***运行过程中,在文本中并没有这些编号。
以任意连贯的三个句子作为初始句群,可以得到初始句群如下表中所示:
J1-J3 J2-J4 J3-J5 J4-J6 J5-J7
J6-J8 J7-J9 J8-J10 J9-J11 J10-J12
J11-J13 J12-J14 J13-J15 …… J38-J40
在得到上述初始句群后,针对每一个初始句群进行扩展。下面以J5-J7这三句话作为一个初始句群为例,说明在知识抽取过程中,是如何进行句群扩展的。
设定在句群扩展的过程中设定期望句群长度为300,当句群向左扩展时,设定冗余值为相邻左侧句子长度的二分之一,且L=6;当句群向右扩展时,设定冗余值为相邻右侧句子长度的二分之一,且R=6。句群在扩展时既向左扩展也向右扩展,本实施例中按照先向左扩展后向右扩展的顺序介绍,作为其他的可替换的方式,还可以采用先向右扩展后向左扩展,以及向左扩展和向右扩展同时交替进行等均可。
得到句群及与该句群相邻的左侧句子的参数:
J5-J7这个句群的长度:155,以句群中包含的字符数(不计空格)来衡量,本实施例中计算字符数时均按照这一标准。与之相邻的左侧句子为J4,长度为23,句子中包含属性:“秦国”和“统一”,因此J4的权重为“秦国”对应的权重0.045021438780371605加上“统一”对应的权重0.115054787994283,为0.160076226774654605。
得到权重阈值:
设定阈值调整因子G为20;
根据初始句群的长度及期望长度得到F=300/(155+23/2)=1.801;
因此F>1,则选择权重阈值=(K/F)/G=0.004069142;
此时J4的权重大于权重阈值,且向左扩展并未达到6个句子,因此J4可以被扩展到该句群中,形成新的句群J4-J7。
以新的句群J4-J7作为初始句群,继续向左扩展,新的句群的长度为155+23=178;与之相邻的左侧句子为J3,长度为:41,包含属性“割据”和“统一”,因此权重为这两个属性所对应的权重的加和,即0.01643639828489757+0.115054787994283=0.13149118627918057;
得到F=300/(178+41/2)=1.51133501;
因此F>1,则选择权重阈值=(K/F)/G=0.0048774502;
J3的权重大于权重阈值,且向左扩展的句子数并未达到6个,因此将J3扩展至初始句群中形成新的句群J3-J7。
采用上述步骤依次对J2和J1进行判断,由于步骤相似,在此不再详细描述,经过判断之后,J2和J1均满足被扩展至句群中的要求。但是由于J1已经是左侧的第一个句子,因此当向左扩展到J1后,自动停止句群的向左扩展,向左扩展完成后可以得到新的初始句群为J1-J7。
以J1-J7为初始句群向右进行扩展。初始句群的长度为:267,与之相邻的右侧句子为J8,长度为:64,包含属性“秦王”、“统一”和“皇帝”,其中皇帝出现了两次,因此J8的权重应该为:“秦王”的权重,“统一”的权重,以及“皇帝”的权重的二倍的加和,即0.02763220581229150+0.11505478799428300+0.06955693187232010*2=0.2818008575512147。
计算F=300/(267+64/2)=1.0033444816。
因此F>1,则选择权重阈值=(K/F)/G=0.0073284302。
J8的权重大于权重阈值,且向右扩展的句子数小于6,因此将J8扩展至初始句群中形成新的句群J1-J8。
以句群J1-J8作为新的初始句群,继续向右扩展。
初始句群的长度为331,与之相邻的右侧句子为J9,J9的长度为38,其中包含属性:“统一”和“中央集权”,因此其权重为:0.11505478799428300+0.02096236303001420=0.1360171510242972。
计算得到F=300/(329+38/2)=0.857142857。
F<1,选择权重阈值=(K/F)*G=3.431372。
虽然向右扩展的句子数不足6个,但此时J9的权重小于权重阈值,因此J9不可以被扩展到该句群中,停止句群的扩展。可见,一旦句群的长度超过了期望长度值,那么权重阈值就会变得非常大,一般的句子的权重很难满足被扩展进来的要求。
因此则以J5-J7为初始句群进行扩展后得到的最终句群为J1-J8,共有329个字符,该句群中共有8个句子。
以其他的初始句群为基础进行扩展的方法同上,本领域技术人员可以根据上述记载的过程,对整个文本中所有的初始句群进行扩展,在此不再过多描述。
在得到所有的最终句群之后,将重复的句群删除,并且根据句群的权重密度进行排序。权重密度K’=最终句群权重/最终句群长度,所述最终句群长度为最终句群中包含的字符数,计算最终句群的权重就是将最终句群中每一个句子的权重相加,而每一个句子的权重的计算方式同上,即将该句子中出现的所有的属性的权重相加。
最终针对上述输入文本,得到20个最终句群,并且根据权重密度进行排序后的输入结果如下:
J1-J8;J3-J9;J6-J10;J7-J11;J2-J8;J7-J12;J8-J13;J22-J26;J26-J30;J15-J19;J14-J18;J22-J27;J15-J20;J29-J34;J34-J40;J13-J17;J33-J40;J16-J22;J12-J17;J17-J22。
实施例6
本实施例提供了一种知识抽取***,如图3所示,包括:
初始句群获取模块1,用于获取初始句群,且所述初始句群中包括一个或一个以上句子。
初始句群扩展模块2,用于将从所述初始句群获取模块1获取的初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群。
知识抽取模块3,用于将从所述初始句群扩展模块2获取的扩展后得到的最终句群输出,完成知识抽取。
本实施例通过初始句群获取模块1获取包括一个或一个以上句子的初始句群,之后通过初始句群扩展模块2将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句群本身就是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,通过对初始句群进行扩展获取得到的最终句群相应的在逻辑上也会具备很好的连贯性。因此本发明克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。
作为一种优选的实施方式,本实施例所述知识抽取***,如图4所示,所述初始句群获取模块1包括:
分句单元11,用于对文本文档进行分句。
提取单元12,用于取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
作为一种优选的方式,所述提取单元12取所有前后连贯的3个句子形成初始句群。
本实施例通过分句单元11对文本文档进行分句,通过提取单元12取所有前后连贯的3个句子形成初始句群。本实施例中设定I=3能够取得较好的输出结果,可以确保提取出的所有最终句群都至少包括三个句子。通过在文本中取前后连贯的3个句子形成初始句群,文本中前后连贯的句子本身就具备很好的逻辑关系,又是通过对初始句群进行扩展得到的最终句群,因此抽取得到的最终句群具有很好的逻辑性,不会使人感觉突兀。
本实施例所述知识抽取***,所述初始句群扩展模块2包括:
权重阈值设置单元21,用于根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值。
句群扩展单元22,用于在扩展初始句群时,将带扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
本实施例考虑到了初始句群长度与期望长度的关系,使得抽取的最终句群的长度更趋近于期望长度。
本实施例所述期望长度为本领域技术人员所熟知的。例如,在专利文献中说明书摘要的长度要求不超过300字,如果要从某一文本中抽取出相关的句子形成说明摘要,则期望长度为300字。如果对期望长度没有特殊要求时,可以根据实际应用来选定。
本实施例以及后续实施例中所说的期望长度、初始句群长度以及句子的长度等,均是以字符数来计算的。
实施例7
在实施例6的基础上,本实施例所述知识抽取***,如图4所示,所述权重阈值设置单元21包括:
比较结果确定子单元211,用于确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值)。
权重阈值确定子单元212,用于确定F大于或等于1时的权重阈值小于F小于1时的权重阈值。
本实施例所述的知识抽取***,所述权重阈值确定子单元212包括:
阈值调整因子设定器212a,用于设定阈值调整因子G并输出,G为大于1的数。
属性权重密度获取器212b,用于获取属性权重密度K并输出。
权重阈值获取器212c,用于根据所述阈值调整因子设定器212a、所述属性权重密度获取器212b和所述比较结果确定子单元211的输出结果,获取权重阈值并输出;在F大于或等于1时,权重阈值=(K/F)/G;在F小于1时,权重阈值=(K/F)*G,其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
本实施例中,通过权重阈值设置单元21,根据初始句群长度与期望长度的比较结果设置权重阈值,通过比较结果确定子单元211确定所述比较结果F=期望长度/(初始句群长度+冗余值),通过权重阈值获取器212c,在F大于或等于1时,确定权重阈值=(K/F)/G。在F小于1时,确定权重阈值=(K/F)*G。因此,初始句群长度与期望长度的比较结果F越小,即初始句群长度越接近或者超过期望长度,所述权重阈值越大,因此,所述权重阈值能够根据初始句群长度与期望长度的比较结果进行动态调整,相较于现有技术中,固定不便的判断标准,本实施例提供了一种能够根据实际情况进行动态调整的判断标准,保证抽取的知识信息更趋近于期望长度。
作为一种优选的实施方式,本实施例所述知识抽取***,所述阈值调整因子设定器212a,设定所述阈值调整因子G的范围为:5≤G≤30。
经过试验验证,在此范围内设定阈值调整因子G,知识抽取的效果最好。
作为一种可选的实施方式,本实施例所述的知识抽取***,还包括:
属性集模块4,用于存储属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N。
所述属性权重密度获取器212b,利用公式K=∑Vi/N得到属性权重密度K。
所述属性参数ai为属性名称,是根据要抽取的知识信息事先确定好的关键词,且用该属性名称对应的字符串来表述。判断句子中是否包含所述属性参数ai,即判断该句子中是否包含表述所述属性参数ai的字符串。与属性参数ai所对应的权重可以根据属性参数ai的重要程度来确定,属性参数ai越重要,赋予其对应的权重Vi的数值就越大,反之,越小。
所述属性权重密度K除了利用公式K=∑Vi/N获取外,还可以由用户根据实际需求自行设定获取。
实施例8
在实施例6或实施例7的基础上,本实施例所述知识抽取***,如图4所示,所述句群扩展单元22包括:
初始句群选取子单元221,用于从所述初始句群获取模块1选取一个初始句群进行扩展。
句子权重获取子单元222,用于根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
比较子单元223,用于将与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR与所述权重阈值进行比较。
新句群获取子单元224,用于在与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元222作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块3。
循环扩展子单元225,用于在所述新句群获取子单元224得到最终句群后控制所述初始句群获取子单元221从所述初始句群获取模块1选取另一个初始句群进行扩展。
本实施例中,若初始句群只向左扩展,所述新句群获取子单元224在与初始句群相邻的左侧句子的权重值WL大于权重阈值时,将该左侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元222作为初始句群,直至初始句群不再扩展得到最终句群后,将所述最终句群输入至知识抽取模块3。
若初始句群只向右扩展,所述新句群获取子单元224,在与初始句群相邻的右侧句子的权重值WR大于权重阈值时,将该右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元222作为初始句群,直至初始句群不再扩展得到最终句群后,将所述最终句群输入至知识抽取模块3。
若初始句群既向左扩展又向右扩展,所述新句群获取子单元224在与初始句群相邻的左侧句子的权重值WL和右侧句子的权重值WR大于权重阈值时,将该左侧和右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元222作为初始句群,直至初始句群不再扩展得到最终句群后,将所述最终句群输入至知识抽取模块3。
本实施例所述的知识抽取***,所述句子权重获取子单元222包括:
第一权重获取器222a,用于将与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该左侧句子的权重WL
第二权重获取器222b,用于将与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该右侧句子的权重WR
所述左侧和/或右侧句子经过上述判断,比如,判定所述左侧句子包含属性参数a1和a2,则该左侧句子的权重WL=V1+V2;判定所述右侧句子包含属性参数a3和a4,则该右侧句子的权重WR=V3+V4。此处,当同一个属性ai出现多次时,其对应的权重Vi可以只加一次也可以多次累加,一般情况下,为了使得到的结果更能够满足用户的需求,属性ai出现几次,其对应的权重Vi就累加几次。
作为可替换的方案,句子权重计算的可替换方案为∑βivi,其中βivi为句子中出现属性ai所产生的贡献值,βi为属性ai的领域特征权重。属性ai的领域特征权重可以通过领域文档训练得到。当βi都取1时,就是目前实施例中使用的方案。本实施例只是提供了一种获取左侧句子权重WL和/或右侧句子权重WR的方法,现有技术中还有其他计算句子权重的方法,无论选择何种方法,只要保证在计算句子权重时选相同的方法即可。
本实施例所述的知识抽取***,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值,并确定比较结果F=期望长度/(初始句群长度+冗余值),将权重阈值设置为关于所述比较结果F的函数,所述比较结果F越小,即初始句群长度越接近期望长度或超过期望长度,所述权重阈值越大;并将其与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR进行比较,只有当所述左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,才会将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展。因此,所述权重阈值会根据待扩展的初始句群的实际情况进行动态的调整。比如初始句群长度远小于期望长度时,所述权重阈值会变的很小,所述左侧句子的权重WL以及右侧句子的权重WR很容易大于所述权重阈值,因此很容易将该左侧句子和/或该右侧句子扩展至初始句群;反之,所述权重阈值会变的很大,所述左侧句子的权重WL以及右侧句子的权重WR必须很大,也即该左侧句子和/或该右侧句子必须包含很多的属性参数ai的情况下才能被扩展至初始句群。通过此种方式,能够在初始句群扩展时有效控制其长度,得到趋向于期望长度的最终句群。
本实施例所述知识抽取***,所述比较结果确定子单元211包括:
冗余值设定器211a,用于设定所述冗余值;初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半。初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
在实际的应用时,向左扩展时,所述冗余值可以选择与当前句群相邻的左侧句子的长度的m倍;向右扩展时,所述冗余值可以选择与当前句群相邻的右侧句子的长度的m倍;m最好取小于1的数值,当m取0.5时,即为本实施例中的方案。采用本实施例中的冗余值,依据统计规律可知,得到的最终句群会更加接近于期望长度值。
实施例9
在实施例6至实施例8任一所述实施例的基础上,如图4所示,本实施例所述知识产权抽取***,所述句群扩展单元22还包括:
阈值设定子单元226,用于设定初始句群向左扩展句子数量阈值为L和/或设定初始句群向右扩展句子数量阈值为R。
第一计数子单元227a,用于统计初始句群向左扩展的句子数量并输出。
第二计数子单元227b,用于统计初始句群向右扩展的句子数量并输出。
所述比较子单元223,还用于将获取的初始句群向左扩展的句子数量与初始句群向左扩展的句子数量阈值L做比较;将初始句群向右扩展的句子数量与初始句群向右扩展的句子数量阈值R做比较。
所述新句群获取子单元224,还用于在初始句群向左扩展的句子数量小于或者等于L和/或初始句群向右扩展的句子数量小于或者等于R,并且与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值时,将所述左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元222作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块3。
本实施例通过对初始句群向左和/或向右扩展的句子数量进行限定,使得初始句群的向左和/或向右的扩展能够控制在一个比较合理的范围内,使得抽取的最终句群更便于查阅和理解。
作为一种优选的实施方式,本实施例所述知识抽取***中:
所述阈值设定子单元226,若所述初始句群向左和向右扩展时,设定所述向左扩展句子数量阈值L为6,所述向右扩展句子数量阈值R为6;若所述初始句群只向左扩展时,设定所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,设定所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
通过实验验证,将所述向左和/或向右扩展句子数量阈值设定为上述数值,获取的知识抽取的结果无论是从句子的连贯性,包含的信息量,还是最终句群的长度控制方面,都能达到很好的效果。
实施例10
在实施例6至实施例9任一所述实施例的基础上,如图4所示,本实施例所述知识抽取***,所述句群扩展单元22还包括:
句群权重获取子单元228a,用于根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;且最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和。
句群长度获取子单元228b,用于获取最终句群长度。
权重密度获取子单元228c,用于根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
需要说明的是,计算最终句群权重密度K’时,还可以选择采用最终句群权重除以最终句群中的句子数的方式,只要保证对于每一个最终句群在计算权重密度K’时均采用相同的标准即可。
最终句群经过上述判断,比如,判断最终句群包含属性参数a1、a3和a5,则将所述属性参数a1、a3和a5分别对应的权重V1、V3和V5相加,即可得到所述最终句群的权重=V1+V3+V5,若获取最终句群长度为300字符,则所述最终句群的权重密度K’=(V1+V3+V5)/300。如果在最终句群中的某一句子或者不同句子中包含着多个某一属性ai,其对应的权重可以只加一次也可以多次累加,一般情况下,为了使得到的结果更能满足用户的需求,属性ai出现几次,其对应的权重Vi就累加几次。
作为可替换的方案,句群权重计算的可替换方案为∑βivi,其中βivi为句群包含的句子中出现属性ai所产生的贡献值,βi为属性ai的领域特征权重。属性ai的领域特征权重可以通过领域文档训练得到。当βi都取1时,就是目前实施例中使用的方案。本实施例只是提供了一种判断最终句群权重的方法,现有技术中还有其他计算句子权重的方法,无论选择何种方法,只要保证在计算句群权重和句子权重时选相同的方法即可。
本实施例所述知识抽取***,所述知识抽取模块3包括:
去重输出最终句群单元31,用于将所述最终句群进行去重操作后输出。
本实施例所述知识抽取***,所述知识抽取模块3还包括:
删减输出最终句群单元32,用于设置最终句群的最小长度,并将所述最终句群中,长度小于所述最小长度的最终句群去除后输出。
本实施例所述的知识抽取***,所述知识抽取模块3还包括:
排序输出最终句群单元33,用于根据每一所述最终句群的权重密度K’的大小将最终句群进行排序后输出。
本实施例所述的知识抽取***,通过去重输出最终句群单元31对得到的所有的最终句群进行去重操作,避免了输出重复的知识信息,避免了用户阅读重复内容造成的时间上的浪费;通过删减输出最终句群单元32设置最终句群的最小长度,将长度小于所述最小长度的最终句群去除,可以使得输出的所有的最终句群所包含的知识信息都不会太少,进而满足用户的查阅的需求;通过排序输出最终句群单元33根据每一最终句群的权重密度K’的大小对最终句群进行排序后输出,用户可以有选择的读取抽取的所述最终句群。比如,根据所述权重密度K’,按照从大到小的顺序对所有的最终句群排序后输出,用户有可能只需要读取前面几个所述最终句群,即可获取到想要的知识信息,节省了用户查询的时间。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (34)

1.一种知识抽取方法,其特征在于,包括如下步骤:
获取初始句群,初始句群中包括一个或一个以上句子;
扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群;
知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
2.根据权利要求1所述的知识抽取方法,其特征在于:
所述扩展初始句群的步骤包括:
设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值;
句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
3.根据权利要求2所述的知识抽取方法,其特征在于:
所述设置权重阈值的步骤进一步包括:
确定比较结果F:确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值);
确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
4.根据权利要求3所述的知识抽取方法,其特征在于:
所述确定权重阈值的步骤中:
F大于或等于1时,权重阈值=(K/F)/G;
F小于1时,权重阈值=(K/F)*G;
其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
5.根据权利要求4所述的知识抽取方法,其特征在于:
所述阈值调整因子G的范围为:5≤G≤30。
6.根据权利要求1-5任一所述的知识抽取方法,其特征在于,还包括:
确定属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N;
获取属性权重密度,利用公式K=∑Vi/N得到属性权重密度K。
7.根据权利要求2-6任一所述的知识抽取方法,其特征在于:
所述句群扩展的步骤进一步包括:
选取初始句群,选取一个初始句群进行扩展;
获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群,否则初始句群不再进行扩展;
得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧句子权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得到最终句群;
循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初始句群进行扩展,得到所有的最终句群。
8.根据权利要求3-7任一所述的知识抽取方法,其特征在于:
所述确定比较结果F的步骤中:
初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半;
初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
9.根据权利要求7或8所述的知识抽取方法,其特征在于:
所述句群扩展的步骤还包括:
设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为L,向右扩展句子数量阈值为R;
所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中,当初始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左扩展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不再向右扩展。
10.根据权利要求9所述的知识抽取方法,其特征在于:
所述设定向左和/或向右扩展句子数量阈值的步骤中,若所述初始句群向左和向右扩展时,所述向左扩展句子数量阈值L设定为6,所述向右扩展句子数量阈值R设定为6;若所述初始句群只向左扩展时,所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
11.根据权利要求7-10任一所述的知识抽取方法,其特征在于:
所述获取左侧句子权重和/或右侧句子权重的步骤中:
权重WL为与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi的加和;
权重WR为与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi的加和。
12.根据权利要求1-11任一所述的知识抽取方法,其特征在于:
所述获取初始句群的步骤包括:
对文本文档进行分句;
取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
13.根据权利要求12所述的知识抽取方法,其特征在于:
所述I=3。
14.根据权利要求1-13任一所述的知识抽取方法,其特征在于,还包括:
获取最终句群权重,根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和;
获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
15.根据权利要求1-14任一所述的知识抽取方法,其特征在于:
所述知识抽取的步骤还包括:
去重输出最终句群,将所述最终句群进行去重操作后输出。
16.根据权利要求1-15任一所述的知识抽取方法,其特征在于:
所述知识抽取的步骤还包括
删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述最小长度的最终句群去除。
17.根据权利要求1-16任一所述的知识抽取方法,其特征在于:
所述知识抽取的步骤还包括:
排序输出最终句群,根据每一所述最终句群的权重密度K’的大小对最终句群进行排序后输出。
18.一种知识抽取***,其特征在于,包括:
初始句群获取模块(1),用于获取初始句群,且所述初始句群中包括一个或一个以上句子;
初始句群扩展模块(2),用于将从所述初始句群获取模块(1)获取的初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群;
知识抽取模块(3),用于将从所述初始句群扩展模块(2)获取的扩展后得到的最终句群输出,完成知识抽取。
19.根据权利要求18所述的知识抽取***,其特征在于:
所述初始句群扩展模块(2)包括:
权重阈值设置单元(21),用于根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈值;
句群扩展单元(22),用于在扩展初始句群时,将带扩展句子的权重与权重阈值进行比较,根据比较结果对初始句群进行扩展。
20.根据权利要求19所述的知识抽取***,其特征在于:
所述权重阈值设置单元(21)包括:
比较结果确定子单元(211),用于确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群长度+冗余值);
权重阈值确定子单元(212),用于确定F大于或等于1时的权重阈值小于F小于1时的权重阈值。
21.根据权利要求20所述的知识抽取***,其特征在于:
所述权重阈值确定子单元(212)包括:
阈值调整因子设定器(212a),用于设定阈值调整因子G并输出,G为大于1的数;
属性权重密度获取器(212b),用于获取属性权重密度K并输出;
权重阈值获取器(212c),用于根据所述阈值调整因子设定器(212a)、所述属性权重密度获取器(212b)和所述比较结果确定子单元(211)的输出结果,获取权重阈值并输出;在F大于或等于1时,权重阈值=(K/F)/G;在F小于1时,权重阈值=(K/F)*G,其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
22.根据权利要求21所述的知识抽取***,其特征在于:
所述阈值调整因子设定器(212a),设定所述阈值调整因子G的范围为:
5≤G≤30。
23.根据权利要求18-22任一所述的知识抽取***,其特征在于,还包括:
属性集模块(4),用于存储属性集,所述属性集中包括N个属性参数ai,以及所述属性参数ai对应的权重Vi,其中N为正整数,i为整数且1≤i≤N;
所述属性权重密度获取器(212b),利用公式K=∑Vi/N得到属性权重密度K。
24.根据权利要求19-23任一所述的知识抽取***,其特征在于:
所述句群扩展单元(22)包括:
初始句群选取子单元(221),用于从所述初始句群获取模块(1)选取一个初始句群进行扩展;
句子权重获取子单元(222),用于根据与初始句群相邻的左侧和/或右侧句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR
比较子单元(223),用于将与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR与所述权重阈值进行比较;
新句群获取子单元(224),用于在与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元(222)作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块(3);
循环扩展子单元(225),用于在所述新句群获取子单元(224)得到最终句群后控制所述初始句群获取子单元(221)从所述初始句群获取模块(1)选取另一个初始句群进行扩展。
25.根据权利要求20-24任一所述的知识抽取***,其特征在于:
所述比较结果确定子单元(211)包括:
冗余值设定器(211a),用于设定所述冗余值;初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半;
初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
26.根据权利要求24或25所述的知识抽取***,其特征在于:
所述句群扩展单元(22)还包括:
阈值设定子单元(226),用于设定初始句群向左扩展句子数量阈值为L和/或设定初始句群向右扩展句子数量阈值为R;
第一计数子单元(227a),用于统计初始句群向左扩展的句子数量并输出;
第二计数子单元(227b),用于统计初始句群向右扩展的句子数量并输出;
所述比较子单元(223),还用于将获取的初始句群向左扩展的句子数量与初始句群向左扩展的句子数量阈值L做比较;将初始句群向右扩展的句子数量与初始句群向右扩展的句子数量阈值R做比较;
所述新句群获取子单元(224),还用于在初始句群向左扩展的句子数量小于或者等于L和/或初始句群向右扩展的句子数量小于或者等于R,并且与初始句群相邻的左侧句子的权重WL和/或右侧句子的权重WR大于或者等于权重阈值时,将所述左侧和/或右侧句子扩展至初始句群形成新句群后输入至所述句子权重获取子单元(222)作为初始句群,直至初始句群不再扩展得到最终句群并输出至所述知识抽取模块(3)。
27.根据权利要求26所述的知识抽取***,其特征在于:
所述阈值设定子单元(226),若所述初始句群向左和向右扩展时,设定所述向左扩展句子数量阈值L为6,所述向右扩展句子数量阈值R为6;若所述初始句群只向左扩展时,设定所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0;若所述初始句群只向右扩展时,设定所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
28.根据权利要求24-27任一所述的知识抽取***,其特征在于:
所述句子权重获取子单元(222)包括:
第一权重获取器(222a),用于将与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该左侧句子的权重WL
第二权重获取器(222b),用于将与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi加和,得到该右侧句子的权重WR
29.根据权利要求18-28任一所述的知识抽取***,其特征在于:
所述初始句群获取模块(1)包括:
分句单元(11),用于对文本文档进行分句;
提取单元(12),用于取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
30.根据权利要求29所述的知识抽取***,其特征在于:
所述提取单元(12)取所有前后连贯的3个句子形成初始句群。
31.根据权利要求24-30任一所述的知识抽取***,其特征在于:
所述句群扩展单元(22)还包括:
句群权重获取子单元(228a),用于根据最终句群中包含的属性参数ai及对应的权重Vi得到最终句群权重;且最终句群权重为最终句群中每一句子所包含的所有属性参数ai所对应的权重Vi的加和;
句群长度获取子单元(228b),用于获取最终句群长度;
权重密度获取子单元(228c),用于根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。
32.根据权利要求18-31任一所述的知识抽取***,其特征在于:
所述知识抽取模块(3)包括:
去重输出最终句群单元(31),用于将所述最终句群进行去重操作后输出。
33.根据权利要求18-32任一所述的知识抽取***,其特征在于:
所述知识抽取模块(3)还包括:
删减输出最终句群单元(32),用于设置最终句群的最小长度,并将所述最终句群中,长度小于所述最小长度的最终句群去除后输出。
34.根据权利要求18-33任一所述的知识抽取***,其特征在于:
所述知识抽取模块(3)还包括:
排序输出最终句群单元(33),用于根据每一所述最终句群的权重密度K’的大小将最终句群进行排序后输出。
CN201310456958.7A 2013-09-29 2013-09-29 一种知识抽取方法及*** Expired - Fee Related CN104216934B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310456958.7A CN104216934B (zh) 2013-09-29 2013-09-29 一种知识抽取方法及***
JP2016518163A JP6321787B2 (ja) 2013-09-29 2013-12-06 知識抽出方法及びシステム
US15/025,566 US20160217376A1 (en) 2013-09-29 2013-12-06 Knowledge extraction method and system
EP13894286.7A EP3057000A4 (en) 2013-09-29 2013-12-06 Knowledge extraction method and system
PCT/CN2013/088777 WO2015043076A1 (zh) 2013-09-29 2013-12-06 一种知识抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310456958.7A CN104216934B (zh) 2013-09-29 2013-09-29 一种知识抽取方法及***

Publications (2)

Publication Number Publication Date
CN104216934A true CN104216934A (zh) 2014-12-17
CN104216934B CN104216934B (zh) 2018-02-13

Family

ID=52098429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310456958.7A Expired - Fee Related CN104216934B (zh) 2013-09-29 2013-09-29 一种知识抽取方法及***

Country Status (5)

Country Link
US (1) US20160217376A1 (zh)
EP (1) EP3057000A4 (zh)
JP (1) JP6321787B2 (zh)
CN (1) CN104216934B (zh)
WO (1) WO2015043076A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512238A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种基于目标知识点的句群抽取方法及装置
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取***及方法
CN109189848A (zh) * 2018-09-19 2019-01-11 平安科技(深圳)有限公司 知识数据的抽取方法、***、计算机设备和存储介质
CN109523127A (zh) * 2018-10-17 2019-03-26 平安科技(深圳)有限公司 基于大数据分析的员工培训评测方法及相关设备
CN111581363A (zh) * 2020-04-30 2020-08-25 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1560762A (zh) * 2004-02-26 2005-01-05 上海交通大学 基于字同现频率的主题抽取方法
CN101201841A (zh) * 2007-02-15 2008-06-18 刘二中 电子文本处理与检索的便捷方法和***
US20080275694A1 (en) * 2007-05-04 2008-11-06 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3594701B2 (ja) * 1995-07-19 2004-12-02 株式会社リコー キーセンテンス抽出装置
JP3775239B2 (ja) * 2001-05-16 2006-05-17 日本電信電話株式会社 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
US20070078670A1 (en) * 2005-09-30 2007-04-05 Dave Kushal B Selecting high quality reviews for display
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
JP4810469B2 (ja) * 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
JP4873738B2 (ja) * 2007-07-09 2012-02-08 日本電信電話株式会社 テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP4931958B2 (ja) * 2009-05-08 2012-05-16 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
JP5235918B2 (ja) * 2010-01-21 2013-07-10 日本電信電話株式会社 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US9183288B2 (en) * 2010-01-27 2015-11-10 Kinetx, Inc. System and method of structuring data for search using latent semantic analysis techniques
US20110225259A1 (en) * 2010-03-12 2011-09-15 GM Global Technology Operations LLC System and method for communicating software applications to a motor vehicle
JP5538185B2 (ja) * 2010-11-12 2014-07-02 日本電信電話株式会社 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
KR101522837B1 (ko) * 2010-12-16 2015-05-26 한국전자통신연구원 대화 방법 및 이를 위한 시스템
JP5043209B2 (ja) * 2011-03-04 2012-10-10 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
KR101609184B1 (ko) * 2014-05-27 2016-04-06 네이버 주식회사 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템
US9886422B2 (en) * 2014-08-06 2018-02-06 International Business Machines Corporation Dynamic highlighting of repetitions in electronic documents
US10438219B2 (en) * 2017-06-30 2019-10-08 Dual Stream Technology, Inc. From sentiment to participation
US10127323B1 (en) * 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
US20190073602A1 (en) * 2017-09-06 2019-03-07 Dual Stream Technology, Inc. Dual consex warning system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1560762A (zh) * 2004-02-26 2005-01-05 上海交通大学 基于字同现频率的主题抽取方法
CN101201841A (zh) * 2007-02-15 2008-06-18 刘二中 电子文本处理与检索的便捷方法和***
US20080275694A1 (en) * 2007-05-04 2008-11-06 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜吉发: "自由文本的信息抽取模式获取的研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
张艳 等: "基于长度的扩展方法的汉英句子对齐", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512238A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种基于目标知识点的句群抽取方法及装置
CN105512238B (zh) * 2015-11-30 2019-06-04 北大方正集团有限公司 一种基于目标知识点的句群抽取方法及装置
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取***及方法
CN106156286B (zh) * 2016-06-24 2019-09-17 广东工业大学 面向专业文献知识实体的类型抽取***及方法
CN109189848A (zh) * 2018-09-19 2019-01-11 平安科技(深圳)有限公司 知识数据的抽取方法、***、计算机设备和存储介质
CN109523127A (zh) * 2018-10-17 2019-03-26 平安科技(深圳)有限公司 基于大数据分析的员工培训评测方法及相关设备
CN111581363A (zh) * 2020-04-30 2020-08-25 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质
CN111581363B (zh) * 2020-04-30 2023-08-29 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104216934B (zh) 2018-02-13
EP3057000A4 (en) 2017-04-05
JP2016538616A (ja) 2016-12-08
US20160217376A1 (en) 2016-07-28
JP6321787B2 (ja) 2018-05-09
WO2015043076A1 (zh) 2015-04-02
EP3057000A1 (en) 2016-08-17

Similar Documents

Publication Publication Date Title
Marr The modern history of Iraq
Crystal Kuwait: The transformation of an oil state
Cannon The geography of contemporary China: the impact of Deng Xiaoping's decade
CN104216934A (zh) 一种知识抽取方法及***
CN103218517B (zh) 基于gis的区域网格化人口密度空间化计算方法
Ozyavuz Landscape planning
CN103440308B (zh) 一种基于形式概念分析的数字论文检索方法
Ahmed The 18th amendment: historical developments and Debates in Pakistan
Baldwin et al. Diverse stakeholders and their interests matter to the US Forest Service: a network of action situations analysis of how stakeholders affect forest plan outcomes
Guo et al. Urban Road Network and Taxi Network Modeling Based on Complex Network Theory.
Li et al. Measuring tourism spillover effects among cities: Improvement of the gap model and a case study of the Yangtze River Delta
Stokstad A voice for the river
Xue et al. The historical process of the masonry city walls construction in China during 1st to 17th centuries AD
Briggs Science, local knowledge and exclusionary practices: Lessons from the Alta Dam case
Mornya et al. Identification of landfill sites by using GIS and multi-criteria method in Batam, Indonesia
Martias et al. Sustainable healthy settlement on a small island as a cultural heritage area
Baiocchi et al. Development of a geographic database of a district area in open source environment
Heinke The challenge of urban growth and sustainable development for Asian cities in the 21st century
CN104217064B (zh) 一种农村生活类面源负荷的空间展布方法及装置
Major The invention of a new scale–The paradox of size and configuration in American cities
Mohammadi et al. Measurement of urban resilience against the risk of earthquake incidence Case study: Ardebil City
Jashari Kajtazi et al. Harmonious architecture and adaptive reuse: Urban gastro-lounge in Prishtina
Đerčan et al. Urban hierarchy in Serbia
Zhang The Ecological Environment Art Design of Urban Wetland Park: Taking the Landscape Design of Muye Lake Park in Xinxiang City as an Example
Wang Spatial analysis of the Great Wall Ji Town military settlements in the Ming Dynasty: Research and conservation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180213

CF01 Termination of patent right due to non-payment of annual fee