CN109783651B - 提取实体相关信息的方法、装置、电子设备和存储介质 - Google Patents
提取实体相关信息的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN109783651B CN109783651B CN201910087401.8A CN201910087401A CN109783651B CN 109783651 B CN109783651 B CN 109783651B CN 201910087401 A CN201910087401 A CN 201910087401A CN 109783651 B CN109783651 B CN 109783651B
- Authority
- CN
- China
- Prior art keywords
- attribute
- entity
- predetermined
- candidate
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例提供了一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。在该方法中,计算设备获得与预定实体和预定属性相关联的多个候选文本。此外,计算设备基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。进一步地,计算设备基于至少一个目标文本,确定预定实体的预定属性的属性值。本公开的实施例可以在提取实体相关信息时改进时效性并减少人工成本。
Description
技术领域
本公开的实施例一般地涉及信息处理技术领域,并且更特别地,涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。
背景技术
传统地,存在两种提取实体相关信息的方式。一种方式是纯开放的提取,其主要包括针对自由文本和半结构网页的开放提取。也即,在互联网的自由文本和半结构网页中,开放性地挖掘实体和实体之间的相关语义关系,其中半结构化网页是指具有一定结构性的网页,这种结构性的表现基于超文本标记语言(HTML)。例如,在文本“姚明,1980年9月12日出生于上海市徐汇区”中直接挖掘出(姚明,出生日期,1980年9月12日)以及(姚明,出生地,上海市徐汇区)这样的三元组。另一种方式是结构化的提取,其主要指通过人工来配置映射关系以提取实体相关信息。也即,针对固定垂类的固定网站,人工地对每个网站配置多个映射关系模板,例如,人工地定义网页正则模板、可扩展标记语言路径(xPath)等,来对网页中固定结构的数据进行定向提取。
然而,这些提取实体相关信息的传统方案还存在各种问题和不足,在许多场合无法满足对于提取实体相关信息的性能要求,从而在实体推荐等应用中导致了不良的用户体验。
发明内容
本公开的实施例涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。
在本公开的第一方面,提供了一种提取实体相关信息的方法。该方法包括:获得与预定实体和预定属性相关联的多个候选文本。该方法还包括:基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。该方法进一步包括:基于至少一个目标文本,确定预定实体的预定属性的属性值。
在本公开的第二方面,提供了一种提取实体相关信息的装置。该装置包括:候选文本获得模块,被配置为获得与预定实体和预定属性相关联的多个候选文本。该装置还包括:目标文本确定模块,被配置为基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。该装置进一步包括:属性值确定模块,被配置为基于至少一个目标文本,确定预定实体的预定属性的属性值。
在本公开的第三方面,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:
图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的提取实体相关信息的方法的示意性流程图;
图3示出了根据本公开的实施例的提取实体相关信息的装置的示意性框图;
图4示出了根据本公开的实施例的提取实体属性的属性值的一种通用技术框架的示意性框图;以及
图5示出了一种可以被用来实施本公开的实施例的设备的示意性框图。
贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。
具体实施方式
下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。
如上文提到的,传统的实体关系提取方式主要包括纯开放的提取方式和结构化的提取方式。然而,这两种传统的提取方式均存在一些问题和不足。例如,纯开放的提取方式主要用来处理知识的批量提取,但是对于新实体和新增知识的提取时延性较大,更新时间长,因此不能解决时效性的知识更新问题。另一方面,结构化的提取方式主要的缺点是人工成本较大,需要人工根据网页结构来配置提取模板,并且只能实现一定程度的定向提取。通过配置目标类目的模板,可以实现类目粒度的定向,但是还无法实现“实体+属性”粒度的定向。
鉴于传统方案中存在的上述问题以及潜在的其他问题,本公开的实施例提出了一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质,以在提取实体相关信息时改进时效性并减少人工成本。具体地,本公开的实施例提出了一种定向知识提取技术,主要用于在给定“实体-属性”二元组的情况下,具有针对性地提取其对应的属性值。所提出的定向提取技术旨在从文本库(例如,海量的互联网文本)中通过信息提取技术定向提取出高置信度的实体关系数据。
从知识图谱构建的角度上看,所提出的定向提取技术可以提取实体缺失的关系属性值,可以用于提升知识图谱的连通度,高效提升知识图谱的知识丰富度与完备性。从产品应用的角度来看,补充的实体关系数据可以直接满足用户对于实体关联的需求,也可以有效提高人们检索和浏览实体的效率,提升用户体验,典型的应用可以包括实体问答、实体推荐等。
相较于传统的实体信息提取方案,本公开的实施例一方面解决了时效性问题。如果有新实体或者短时间内高热度实体的出现,由于更新时间短,各实施例可以快速地提取新实体或高热度实体的缺失的属性值,补充实体属性,提高知识图谱对于时效性“实体-属性-属性值”的覆盖。另一方面,本公开的实施例减少了人工成本,其例如使用深度学习模型对于所有“实体-属性-属性值”关***一建模,因此不需要对领域知识有深入理解,也不需要设计复杂的高级特征,从而易于维护与扩展。下面结合附图来描述本公开的若干实施例。
图1示出了本公开的一些实施例能够在其中实现的示例环境(或***)100的示意图。如图1所示,在示例环境100中,预定实体105和预定属性110可以输入到计算设备120中,以便由计算设备120例如从文本库(未示出)的文本中获得预定实体105的预定属性110的属性值160。在一些实施例中,文本库可以包括从互联网中获得的文本集合。在其他实施例中,文本库可以包括描述任何实体的任何属性的任何适当的文本集合,包括但不限于各种用途和来源的文本汇集。
在本公开的上下文中,术语“实体”是指具有可区别性且独立存在的某种事物,诸如某一个人、某一个城市、某一种植物、某一种商品,等等。世界万物由具体事物组成,均可以称为实体。例如,“中国”、“美国”、“日本”等。术语“属性”是指实体的某种性质或者实体与另一实体之间的关系。例如,属性可以是指某个人的身高、性别、出生地,等等。此外,属性还可以是指某个实体与另一实体的关系。例如,丈夫、父亲、朋友,等等。术语“属性值”是指实体属性的具体内容或者与实体具有某种关系的另一实体。例如,某个人的属性“性别”的属性值可以是“男”。又例如,与某个实体(例如,姚明)具有某种关系属性(例如,妻子)的属性值可以是另一个实体(例如,叶莉)。应当理解,上文关于各种术语的定义仅是示例性的以用于帮助理解本公开,无意以任何方式限制本公开的范围。在其他实施例中,本文使用的各种术语将符合由本领域的技术人员通常所理解的技术含义。
继续参考图1,计算设备120可以基于输入的预定实体105和预定属性110,从文本库中获得与预定实体105和预定属性110相关联的多个候选文本140-1至140-N(下文可以统称为多个候选文本140)。因为多个候选文本140与预定实体105和预定属性110有关,所以计算设备120有可能从多个候选文本140中提取出属性值160。此外,为了提高***100的性能和鲁棒性,计算设备120可以对多个候选文本140进行过滤。为此,计算设备120可以基于预定实体105和预定属性110组成的实体属性对的语义,从多个候选文本140中确定至少一个目标文本150-1至150-M(下文可以统称为多个目标文本150),以用于提取属性值160,其中M和N均为正整数且M可以小于等于N。然后,计算设备120可以基于所确定的至少一个目标文本150来确定预定实体105的预定属性110的属性值160。
将理解,计算设备120可以是任意类型的移动终端、固定终端或便携式终端,包括移动电话、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还预见到的是,计算设备120能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。下面结合图2来描述根据本公开的实施例的用于提取实体相关信息的示例操作。
图2示出了根据本公开的实施例的提取实体相关信息的方法200的示意性流程图。在一些实施例中,方法200可以由图1的计算设备120来实现,例如可以由计算设备120的处理器或处理单元来实现。在其他实施例中,方法200的全部或部分也可以由独立于计算设备***120的计算设备来实现,或者可以由示例环境100中的其他单元来实现。为便于讨论,将结合图1来描述方法200。
在210处,计算设备120获得与预定实体105和预定属性110相关联的多个候选文本140。应当明白,计算设备120可以使用任何适当的方式来获得多个候选文本140,只要多个候选文本140与预定实体105和预定属性110相关联,本公开的实施例在这个方面不受限制。例如,关于某些特定实体的特定属性,可能已经存在介绍或说明该特定实体的该特定属性的文本集合。在这种情况下,计算设备120可以通过导入该文本集合来获得多个候选文本140。
更一般地,在一些实施例中,计算设备120可以通过在文本库中进行检索来获得多个候选文本140。例如,计算设备120可以确定与预定实体105相对应的实体检索词和与预定属性110相对应的属性检索词。然后,计算设备120可以利用所确定的实体检索词和属性检索词,从文本库中检索出多个候选文本140。通过这样的方式,计算设备120可以在文本库中找出与预定实体105和预定属性110有关的文本。如上文指出的,用于检索的文本库可以包括从互联网中获得的文本集合。另外地或替换地,用于检索的文本库可以包括描述任何实体的任何属性的任何适当的文本集合,包括但不限于各种用途和来源的文本汇集。
在一些实施例中,计算设备120使用的实体检索词可以包括预定实体105的名称、别名、其他可以指代预定实体105的关键词等、以及它们的任何组合。类似地,计算设备120使用的属性检索词可以包括预定属性110的名称、别名、引导词、其他与预定属性110有关的关键词等、以及它们的任何组合。如本文中使用的,属性的引导词可以用于引导出实体的某个属性。例如,引导词“结婚”可以用于引导出实体的属性“配偶”。通过这样的方式,计算设备120可以避免在检索中遗漏与预定实体105和预定属性110有关的文本。
在一些实施例中,为了有针对性地提取热门实体或新实体的相关信息,计算设备120可以确定新出现的实体或搜索频率高于阈值的实体作为预定实体105。作为热门实体的一种示例,假设当前存在一位社会关注度较高的人物(诸如,某位明星),该人物在搜索平台上具有较高的搜索频率,这体现了该人物是短时间内具有高热度的实体。在这种情况下,计算设备120可以将该人物作为预定实体105。为此,计算设备120可以通过将实体的搜索频率与预定阈值进行比较,来确定实体是否具有较高的搜索频率。将明白,这里的阈值可以根据具体的***环境和设计要求来合理选择。另外,作为新实体的示例,如果最近某个新建成的游乐场即将对公众开放,则该游乐场将会是新近出现的新实体。在这种情况下,计算设备120可以将该游乐场作为预定实体105。
在确定了预定实体105之后,计算设备120可以基于预定实体105来确定预定属性110。例如,在某位明星被确定作为预定实体105的情况下,计算设备120可以相应地将预定属性110确定为与该明星有关的属性,诸如身高、体重、出生地、毕业学校、男女朋友,等等。又例如,在新游乐场被确定作为预定实体105的情况下,计算设备120可以相应地将预定属性110确定为与该游乐场有关的属性,诸如具体地址、占地面积、营业时间、游乐设施,等等。
在220处,计算设备120基于由预定实体105和预定属性110形成的实体属性对的语义,从多个候选文本140中确定至少一个目标文本150。将理解,尽管多个候选文本140是与预定实体105和预定属性110相关联的,但是这并不意味着多个候选文本140在语义上必然与预定实体105和预定属性110组成的实体属性对的语义相关。例如,某个文本可能包括实体“姚明”和属性“身高”,但该文本的语义不一定与“姚明的身高”相关,其可能只是提到了姚明并且描述了另一人的身高。因此,通过基于预定实体105和预定属性110的实体属性对的语义来选择至少一个目标文本150,计算设备120可以对获得的所有候选文本140进行过滤,从而减少用于提取属性值160的文本量,只保留与预定实体105和预定属性110形成的实体属性对的语义相关,并且能抽出属性值160的文本,从而提高***100的性能和鲁棒性。
在一些实施例中,针对多个候选文本140中的给定候选文本140-1,计算设备120可以处理候选文本140-1,以确定候选文本140-1的语义。例如,计算设备120可以通过词性识别工具来获取候选文本140-1的分词和词性识别结果,通过依存分析工具来获取候选文本140-1的句子的依存识别结果,以及通过子图关联工具来获取候选文本140-1的实体识别和上位概念识别结果。应当明白,计算设备120也可以通过任何其他的语义分析方法来确定候选文本140-1的语义。
接着,计算设备120可以确定候选文本140-1的语义与预定实体105和预定属性110的实体属性对的语义之间的相似度。例如,计算设备120可以调用语义相关的文本有效性分类模型(或称为算子)来进行该语义相关性的计算,并且调用分类算法来判别候选文本140-1的语义是否与预定实体105和预定属性110组成的实体属性对的语义相关,进而从候选文本140中过滤掉与该语义无关的文本。应当明白,计算设备120也可以通过任何其他的确定语义相似度方法来确定上述语义相关性。然后,如果所确定的语义相似度高于阈值,计算设备120可以选择候选文本140-1作为至少一个目标文本150之一。将明白,这里的阈值可以根据具体的***环境和设计要求来合理选择。
此外,在一些实施例中,在确定多个候选文本140的语义之前,计算设备120还可以对多个候选文本140执行初过滤,过滤掉与预定实体105和预定属性110的实体属性对的语义无关的候选文本140。例如,计算设备120可以通过确定候选文本140中是否包含预定实体105的名称(包括实体的名字和别名等)、预定属性110的名称(包括属性的名字、别名、引导词等)、文本长度是否处于预定义的长度区间内、文本的中文字符比例等特征来进行对多个候选文本140的初步过滤,从而排除明显与预定实体105和预定属性110的实体属性对的语义无关的候选文本140。
在230处,计算设备120基于至少一个目标文本150,确定预定实体105的预定属性110的属性值160。应当理解,计算设备120可以使用任何已有的提取方法或未来开发的提取方法从至少一个目标文本150中提取属性值160,本公开的实施例在该方面不受限制。例如,计算设备120可以使用基于深度学习的提取模型从至少一个目标文本150中提取属性值160。另外地或替换地,计算设备120也可以使用其他类型的提取模型从至少一个目标文本150中提取属性值160。
在一些实施例中,为了提高属性值160的提取准确性,计算设备120可以使用具有不同模型结构的多个不同的提取模型,基于预定实体105和预定属性110,从至少一个目标文本150中提取多个候选属性值。将理解,多个不同的提取模型可以包括能够根据预定实体和预定属性从给定文本中提取属性值的任何模型,例如,具有不同神经网络结构的多个基于神经网络的提取模型。
通过示例的方式,计算设备120可以使用三种不同的提取模型。第一种提取模型可以是槽填充(Slot Filling)模型,其是一种基于深度学***台)的深度学习模型,其针对槽填充任务(已知实体和属性提取属性值)所完成的属性值提取模型。另外两种提取模型可以是两种不同结构的阅读理解模型,它们是基于阅读理解任务所完成的属性值提取模型。两种阅读理解模型可以将实体和属性转成查询,并以查询和文本作为模型输入,从而标注出属性值在文本中的起始位置与结束位置。将理解,这里给出的具体模型和模型数目仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,计算设备120可以使用任何数目的任何不同的模型来提取属性160。
在使用具有不同模型结构的提取了多个候选属性值之后,计算设备120可以确定该多个候选属性值的各自的置信度。作为一种示例,假设预定实体105是“姚明”而预定属性110是“出生地”,则多个不同的模型从至少一个目标文本150中提取的多个候选属性值可能是中国、美国、北京、上海。在这种情况下,计算设备120可以确定这四个候选属性值各自的置信度,也即它们为正确的姚明出生地的概率。
将理解,计算设备120可以用任何适当的方式来确定候选属性值的置信度,包括但不限于通过属性值提取模型来获得、通过其他的资料库进行验证、通过确定与预定实体的其他属性的相关度,等等。例如,在上面关于姚明出生地的示例中,计算设备120可以确定中国、美国、北京、上海各自的置信度为0.7、0.3、0.5、0.8。
然后,计算设备120可以从多个候选属性值中选择置信度高于阈值的属性值。作为一种示例,这里的阈值可以设置为0.7,因此计算设备120可以选择“上海”作为预定实体“姚明”的预定属性“出生地”的属性值。应当明白,这里给出的具体数值和地名仅为示例,无意以任何方式限制本公开的范围。此外,这里的阈值可以根据具体的***环境和设计要求来合理选择。作为一种从多个候选属性值中选择属性值的替换方式,计算设备120也可以从多个候选属性值中选择置信度最高的属性值。
在一些实施例中,至少一个目标文本150可以包括多个目标文本150-1至150-M。在这种情况下,不同的提取模型可能从不同的目标文本中提取出相同的候选属性值。因此,为了确定多个候选属性值中的每个候选属性值的相应置信度,计算设备120可以针对多个候选属性值中的给定候选属性值,确定提取出给定候选属性值的提取模型与目标文本的多个配对。
继续上文使用的示例,不失一般性,假定候选属性值“上海”由第一提取模型从第一目标文本150-1中提取出,也由第一提取模型从第二目标文本150-2中提取出,也由第二提取模型从第二目标文本150-2中提取出,也由第二提取模型从第四目标文本150-4中提取出,还由第三提取模型从第三目标文本150-3中提取出。在这种情况下,针对候选属性值“上海”,计算设备120可以确定提取出属性值“上海”的如下的多个配对:第一提取模型与第一目标文本150-1、第一提取模型与第二目标文本150-2、第二提取模型与第二目标文本150-2、第二提取模型与第四目标文本150-4、以及第三提取模型与第三目标文本150-3。
接着,计算设备120可以获得候选属性值的多个置信度得分,该多个置信度得分分别与多个配对相关联。例如,继续上面的示例,针对候选属性值“上海”,第一提取模型关于第一目标文本150-1给出置信度得分0.6、第一提取模型关于第二目标文本150-2给出置信度得分0.5、第二提取模型关于第二目标文本150-2给出置信度得分0.8、第二提取模型关于第四目标文本150-4给出置信度得分0.7、并且第三提取模型关于第三目标文本150-3给出置信度得分0.6。在这种情况下,计算设备120可以获得候选属性值“上海”的多个置信度得分为0.6、0.5、0.8、0.7、0.6。
然后,计算设备120可以将候选属性值的多个置信度得分相加,以得到候选属性值的置信度。在上面的示例中,计算设备120可以将属性值“上海”的多个置信度得分0.6、0.5、0.8、0.7、0.6相加,从而确定出候选属性值“上海”的置信度为3.2。通过这样的方式,计算设备120可以以量化的方式来综合地评估出某个候选属性值的置信水平。类似地,计算设备120可以计算出其他候选属性值(诸如,中国、美国和北京)的置信度,而最后选择置信度高于阈值的属性值。
图3示出了根据本公开的实施例的提取实体相关信息的装置300的示意性框图。在一些实施例中,装置300可以被包括在图1的计算设备120中或者被实现为计算设备120。
如图3所示,装置300包括候选文本获得模块310、目标文本确定模块320和属性值确定模块330。候选文本获得模块310被配置为获得与预定实体和预定属性相关联的多个候选文本。目标文本确定模块320被配置为基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。属性值确定模块330被配置为基于至少一个目标文本,确定预定实体的预定属性的属性值。
在一些实施例中,候选文本获得模块310包括:检索词确定模块,被配置为确定与预定实体相对应的实体检索词和与预定属性相对应的属性检索词;以及检索模块,被配置为利用实体检索词和属性检索词,从文本库中检索多个候选文本。
在一些实施例中,实体检索词包括预定实体的名称和别名中的至少一个,并且属性检索词包括预定属性的名称、别名和引导词中的至少一个,引导词用于引导出预定实体的预定属性。
在一些实施例中,装置300进一步包括:预定实体确定模块,被配置为确定新出现的实体或搜索频率高于阈值的实体作为预定实体;以及预定属性确定模块,被配置为基于预定实体来确定预定属性。
在一些实施例中,针对多个候选文本中的给定候选文本,目标文本确定模块320包括:处理模块,被配置为处理给定候选文本以确定给定候选文本的语义;相似度确定模块,被配置为确定给定候选文本的语义与实体属性对的语义之间的相似度;以及目标文本选择模块,被配置为响应于相似度高于阈值,选择给定候选文本作为至少一个目标文本之一。
在一些实施例中,属性值确定模块330包括:属性值提取模块,被配置为使用具有不同模型结构的多个不同的提取模型,基于预定实体和预定属性,从至少一个目标文本中提取多个候选属性值;置信度确定模块,被配置为确定多个候选属性值的置信度;以及属性值选择模块,被配置为从多个候选属性值中选择置信度高于阈值的属性值。
在一些实施例中,至少一个目标文本包括多个目标文本,并且针对多个候选属性值中的给定候选属性值,置信度确定模块包括:配对确定模块,被配置为确定提取出给定候选属性值的提取模型与目标文本的多个配对;得分获得模块,被配置为获得候选属性值的分别与多个配对相关联的多个置信度得分;以及加和模块,被配置为将多个置信度得分相加,以得到给定候选属性值的置信度。
图4示出了根据本公开的实施例的提取实体属性的属性值的一种通用技术框架400的示意性框图。如图4所示,通用技术框架400可以包括属性值提取工具401和外部工具403。在一些实施例中,属性值提取工具401可以利用外部工具403来实现本公开的实施例,诸如关于图2描述的方法200。例如,属性值提取工具401可以在输入预定实体属性对405之后,从文本库中定向提取预定实体和预定属性所对应的属性值407信息。
属性值提取工具401包括文本检索模块410、文本有效性分类模块420、属性值提取模型430和多源融合模块440。属性值提取工具401的各个模块可以利用外部工具403的检索接口450、扫库工具460、依存分析和词性识别模块470、子图关联模块480和深度学习框架490来实现对属性值407的提取,具体描述如下。
文本检索模块410的主要功能可以包括根据输入的预定实体属性对405,例如通过检索接口450和扫库工具460(诸如seeksign扫库工具)来获取用于属性值提取的语料文本。文本检索模块410支持从多个文本检索模型来源获取预定实体属性对相关的文本信息,并且易于添加扩展其他模型。
另外,考虑到实体经常存在同名现象,文本检索模块410可以包括实体粒度和文本粒度两种相结合的文本获取方式,其中实体粒度是指不考虑其他同名实体,仅提取输入实体对应文本信息,而文本粒度是指同时考虑所有与同名的所有实体对应的文本信息。在一些实施例中,文本检索模块410的文本检索模型可以包括百科文本、实体页面、问答文本库和大搜检索结果四类以获取相关的网页结果,其中,前两种可以是实体粒度的,而后两种可以是文本粒度的。
文本有效性分类模块420的主要功能可以包括对文本检索模块410得到的所有文本进行过滤和分类,以减少发送到后续模块的文本量,只保留与预定实体属性对语义相关,并且能抽出属性值的文本,从而提高***的性能和鲁棒性。在一些实施例中,文本有效性分类模块420可以实现例如语义无关初过滤功能、语义信息获取功能和语义相关分类功能等。
语义无关初过滤功能例如可以通过文本中是否包含实体的名称(包括实体的名字和别名)、属性的名称(包括属性的名字、别名、引导词)、文本长度、文本中文字符比例等特征来进行初步过滤。语义信息获取功能例如可以通过词性识别工具获取分词和词性识别结果,通过依存分析工具获取句子的依存识别结果,通过子图关联工具获取实体识别和上位概念识别结果。语义相关分类功能例如可以调用语义相关的文本有效性分类模型来进行语义相关的特征计算,并调用分类算法来判别文本是否是和预定实体和预定属性语义相关的,进而过滤掉与语义无关文本。
属性值提取模型430的主要功能可以包括在给定的预定实体、预定属性和用于提取属性值的文本的情况下,在文本中提取与实体属性对相对应的属性值。属性值提取模型430支持添加多个提取模型,即通过多个提取模型分别获取结果,且易于扩展模型。
多源融合模块440的输入可以是实体-属性-文本-属性值,输出可以是实体-属性-属性值,其主要功能可以包括针对每一实体属性对,来调用知识融合模型对多个属性值提取模型从多个目标文本中产出的属性值进行多源融合择优,最终输出属性值407。在多源融合模块440中,可以容易地将属性值提取模型430中的多个提取模型的提取结果扩展到参与择优的候选属性值中。
图5示意性地示出了一种可以被用来实施本公开的实施例的设备500的框图。如图5中所示出的,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储设备(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储设备(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200可由处理单元501来执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM503并由CPU 501执行时,可以执行上文描述的方法200的一个或多个步骤。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查明等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
应当注意,本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
此外,尽管在附图中以特定顺序描述了本公开的方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤组合为一个步骤执行,和/或将一个步骤分解为多个步骤执行。还应当注意,根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。
Claims (16)
1.一种提取实体相关信息的方法,包括:
获得与预定实体和预定属性相关联的多个候选文本,所述预定实体、所述预定属性以及待 确定的相应属性值构成知识图谱的组;
基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;
基于所述至少一个目标文本,确定所述预定实体的所述预定属性的所述属性值;以及
基于所述属性值更新所述知识图谱的组。
2.根据权利要求1所述的方法,其中获得所述多个候选文本包括:
确定与所述预定实体相对应的实体检索词和与所述预定属性相对应的属性检索词;以及
利用所述实体检索词和所述属性检索词,从文本库中检索所述多个候选文本。
3.根据权利要求2所述的方法,其中所述实体检索词包括所述预定实体的名称和别名中的至少一个,并且所述属性检索词包括所述预定属性的名称、别名和引导词中的至少一个,所述引导词用于引导出所述预定实体的所述预定属性。
4.根据权利要求1所述的方法,进一步包括:
确定新出现的实体或搜索频率高于阈值的实体作为所述预定实体;以及
基于所述预定实体来确定所述预定属性。
5.根据权利要求1所述的方法,其中确定所述至少一个目标文本包括:针对所述多个候选文本中的给定候选文本,
处理所述给定候选文本以确定所述给定候选文本的语义;
确定所述给定候选文本的语义与所述实体属性对的语义之间的相似度;以及
响应于所述相似度高于阈值,选择所述给定候选文本作为所述至少一个目标文本之一。
6.根据权利要求1所述的方法,其中确定所述属性值包括:
使用具有不同模型结构的多个不同的提取模型,基于所述预定实体和所述预定属性,从所述至少一个目标文本中提取多个候选属性值;
确定所述多个候选属性值的置信度;以及
从所述多个候选属性值中选择置信度高于阈值的属性值。
7.根据权利要求6所述的方法,其中所述至少一个目标文本包括多个目标文本,并且其中确定所述多个候选属性值的置信度包括:针对所述多个候选属性值中的给定候选属性值,
确定提取出所述给定候选属性值的提取模型与目标文本的多个配对;
获得所述候选属性值的分别与所述多个配对相关联的多个置信度得分;以及
将所述多个置信度得分相加,以得到所述给定候选属性值的置信度。
8.一种提取实体相关信息的装置,包括:
候选文本获得模块,被配置为获得与预定实体和预定属性相关联的多个候选文本,所述预定实体、所述预定属性以及待 确定的相应属性值构成知识图谱的组;
目标文本确定模块,被配置为基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及
属性值确定模块,被配置为基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值,所述属性值用于更新所述知识图谱的组。
9.根据权利要求8所述的装置,其中所述候选文本获得模块包括:
检索词确定模块,被配置为确定与所述预定实体相对应的实体检索词和与所述预定属性相对应的属性检索词;以及
检索模块,被配置为利用所述实体检索词和所述属性检索词,从文本库中检索所述多个候选文本。
10.根据权利要求9所述的装置,其中所述实体检索词包括所述预定实体的名称和别名中的至少一个,并且所述属性检索词包括所述预定属性的名称、别名和引导词中的至少一个,所述引导词用于引导出所述预定实体的所述预定属性。
11.根据权利要求8所述的装置,进一步包括:
预定实体确定模块,被配置为确定新出现的实体或搜索频率高于阈值的实体作为所述预定实体;以及
预定属性确定模块,被配置为基于所述预定实体来确定所述预定属性。
12.根据权利要求8所述的装置,其中针对所述多个候选文本中的给定候选文本,所述目标文本确定模块包括:
处理模块,被配置为处理所述给定候选文本以确定所述给定候选文本的语义;
相似度确定模块,被配置为确定所述给定候选文本的语义与所述实体属性对的语义之间的相似度;以及
目标文本选择模块,被配置为响应于所述相似度高于阈值,选择所述给定候选文本作为所述至少一个目标文本之一。
13.根据权利要求8所述的装置,其中所述属性值确定模块包括:
属性值提取模块,被配置为使用具有不同模型结构的多个不同的提取模型,基于所述预定实体和所述预定属性,从所述至少一个目标文本中提取多个候选属性值;
置信度确定模块,被配置为确定所述多个候选属性值的置信度;以及
属性值选择模块,被配置为从所述多个候选属性值中选择置信度高于阈值的属性值。
14.根据权利要求13所述的装置,其中所述至少一个目标文本包括多个目标文本,并且其中针对所述多个候选属性值中的给定候选属性值,所述置信度确定模块包括:
配对确定模块,被配置为确定提取出所述给定候选属性值的提取模型与目标文本的多个配对;
得分获得模块,被配置为获得所述候选属性值的分别与所述多个配对相关联的多个置信度得分;以及
加和模块,被配置为将所述多个置信度得分相加,以得到所述给定候选属性值的置信度。
15.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087401.8A CN109783651B (zh) | 2019-01-29 | 2019-01-29 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087401.8A CN109783651B (zh) | 2019-01-29 | 2019-01-29 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783651A CN109783651A (zh) | 2019-05-21 |
CN109783651B true CN109783651B (zh) | 2022-03-04 |
Family
ID=66503607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910087401.8A Active CN109783651B (zh) | 2019-01-29 | 2019-01-29 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783651B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210038B (zh) * | 2019-06-13 | 2023-01-10 | 北京百度网讯科技有限公司 | 核心实体确定方法及其***、服务器和计算机可读介质 |
CN110263342A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 实体的上下位关系的挖掘方法和装置、电子设备 |
CN110263340B (zh) * | 2019-06-20 | 2023-05-23 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110287302B (zh) * | 2019-06-28 | 2021-03-30 | 中国船舶工业综合技术经济研究院 | 一种国防科技领域开源信息置信度确定方法及*** |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
CN112434530A (zh) * | 2019-08-06 | 2021-03-02 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN110674637B (zh) * | 2019-09-06 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN110795525B (zh) * | 2019-09-17 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 文本结构化方法、装置、电子设备及计算机可读存储介质 |
CN111026937B (zh) | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 提取poi名称的方法、装置、设备和计算机存储介质 |
CN111143384B (zh) * | 2019-12-23 | 2024-02-02 | 深圳市中农网有限公司 | 实体属性的更新方法、装置、设备及可读介质 |
CN111476033B (zh) * | 2020-04-07 | 2023-09-19 | 武汉元光科技有限公司 | 一种公交站点名称生成方法及装置 |
CN111640511B (zh) * | 2020-05-29 | 2023-08-04 | 北京百度网讯科技有限公司 | 医疗事实验证的方法、装置、电子设备及存储介质 |
CN112507702B (zh) * | 2020-12-03 | 2023-08-22 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备及存储介质 |
CN112651220A (zh) * | 2021-01-28 | 2021-04-13 | 宁夏智诚安环科技发展股份有限公司四川分公司 | 一种环境影响评价报告生成方法及其*** |
CN113051926B (zh) * | 2021-03-01 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113223729B (zh) * | 2021-05-26 | 2021-11-02 | 广州天鹏计算机科技有限公司 | 一种医疗数据的数据处理方法 |
CN113361283A (zh) * | 2021-06-28 | 2021-09-07 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和*** |
EP3168791A1 (en) * | 2015-11-10 | 2017-05-17 | Fujitsu Limited | Method and system for data validation in knowledge extraction apparatus |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
EP3398137A1 (en) * | 2016-02-04 | 2018-11-07 | Siemens Aktiengesellschaft | Strategic improvisation design for adaptive resilience |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661484A (zh) * | 2008-08-29 | 2010-03-03 | 株式会社理光 | 一种查询方法及*** |
CN102200983A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 属性提取装置和方法 |
US10776375B2 (en) * | 2013-07-15 | 2020-09-15 | Microsoft Technology Licensing, Llc | Retrieval of attribute values based upon identified entities |
CN107944025A (zh) * | 2017-12-12 | 2018-04-20 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
-
2019
- 2019-01-29 CN CN201910087401.8A patent/CN109783651B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和*** |
EP3168791A1 (en) * | 2015-11-10 | 2017-05-17 | Fujitsu Limited | Method and system for data validation in knowledge extraction apparatus |
EP3398137A1 (en) * | 2016-02-04 | 2018-11-07 | Siemens Aktiengesellschaft | Strategic improvisation design for adaptive resilience |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
Non-Patent Citations (1)
Title |
---|
基于实体关联性和语义信息的槽填充方法研究;徐增壮;《中国优秀硕士学位论文全文数据库》;20190115;第41页第4.1节到第52页第4.4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN109783651A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783651B (zh) | 提取实体相关信息的方法、装置、电子设备和存储介质 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US11314823B2 (en) | Method and apparatus for expanding query | |
CN107220352B (zh) | 基于人工智能构建评论图谱的方法和装置 | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
US11822890B2 (en) | Method, system, and computer program for artificial intelligence answer | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
US20160041986A1 (en) | Smart Search Engine | |
CN103377239B (zh) | 计算文本间相似度的方法和装置 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
US20150309988A1 (en) | Evaluating Crowd Sourced Information Using Crowd Sourced Metadata | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN112632285A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
KR20220123187A (ko) | 다중 시스템 기반 지능형 질의 응답 방법, 장치와 기기 | |
CN111339784B (zh) | 一种新话题的自动挖掘方法和*** | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
US20120284224A1 (en) | Build of website knowledge tables | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
CN108614821B (zh) | 地质资料互联互查*** | |
US9530094B2 (en) | Jabba-type contextual tagger | |
Juan et al. | Numerical Analysis and Optimization of English Reading Corpus for Feature Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |