CN112214584A

CN112214584A - 使用知识图利用实体关系来发现答案

Info

Publication number: CN112214584A
Application number: CN202010657148.8A
Authority: CN
Inventors: K·克洛特瓦特尔; 张哲�; 张乐; V·维尔马
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-07-10
Filing date: 2020-07-09
Publication date: 2021-01-12
Anticipated expiration: 2040-07-09
Also published as: US11521078B2; US20210012217A1; CN112214584B

Abstract

本公开涉及使用知识图利用实体关系来发现答案。提供一种在问题‑回答(QA)***处接收问题的方法。识别与接收到的问题相关的多个段落。生成与问题对应的问题知识图，并且还生成一组段落知识图，其中每个段落知识图与识别出的段落之一对应。将段落知识图中的每个段落知识图与问题知识图进行比较，所述比较产生一组知识图候选答案(kgCA)。由QA计算一组候选答案(CA)，其中所述CA中的至少一个CA基于所述kgCA之一。

Description

使用知识图利用实体关系来发现答案

技术领域

本发明总体上涉及计算机领域，具体地涉及问答领域。

背景技术

问题回答(QA)是信息检索和自然语言处理(NLP)领域中的计算机科学学科，它涉及构建以自然语言回答人类提出的问题的***。QA实现(通常是计算机程序)可以通过查询结构化的知识或信息数据库(通常是知识库或“语料库”)来构造其答案。QA***可以从非结构化的自然语言文档(例如，在互联网上找到的文档)的集合中摄取数据。数据以某种格式被摄取到QA***的语料库中，该格式使得数据比必须搜索非结构化文档更容易提供给QA***。QA***可能摄取和使用的自然语言文档集合的示例可以包括参考文本、组织文档和网页、新闻专线报告、在线百科全书页以及在互联网上找到的其它数据页。

QA研究试图处理各种各样的问题类型，包括：事实、列表、定义、如何、为什么、假设性、语义约束的和跨语言的问题。封闭域QA***旨在处理特定领域下的问题，诸如医药、计算机技术、汽车维修等。封闭域QA***利用本体(ontology)中经常形式化的特定于领域的知识。作为对照，开放域QA***处理关于几乎任何事情的问题，并且依赖于一般本体和世界知识。由于其广泛性，开放域QA***在其语料库中通常具有比其封闭域对应***更多的可从中提取答案的数据。

QA***在摄取和理解文档以及理解用户提出的问题方面都严重依赖自然语言处理(NLP)。NLP使用多种方法确定在文本中找到的实体。例如，给定句子“Paris is thecapital of France(巴黎是法国的首都)”，NLP处理确定“Paris”是指巴黎这个城市而不是名叫“Paris”的名人或任何其它可以被称为“Paris”的实体。

实体链接使用包含可将实体提及链接到的实体的知识库。在开放域文本上的实体链接的常见选择是基于在线百科全书的知识库，其中每个页面都被视为命名实体。知识库也可以从训练文本中引入，或者可以被手动建立。命名实体提及可能是非常有歧义的；任何实体链接方法都必须解决这种固有的歧义。迄今为止，已经尝试了各种解决该问题的方法。这些方法包括使用在线百科全书实体的锚文本作为训练数据采用的监督学习、收集基于无歧义的同义词的训练数据、以及利用局部一致的文档引用属于强相关类型的实体的共同性质。

当前的方法分析实体之间的关系以提供支持特征，并生成由QA***提供的候选答案，该QA***通常严重依赖于实体歧义消除，其包括基于正在使用的QA***的类型的PERSON、GPE、ORGANIZATION等。在传统方法中，实体本身不被视为知识图中发现的数据的一部分。虽然实体数据和实体之间的关系提供了有价值的信息，但是传统方法无法正确利用这种信息。例如，如果向QA***提出诸如“what U.S.president visited England andsigned an environment treaty？(哪个美国总统访问了英格兰并签署了环境条约？)”的问题，那么传统方法在文档文本中搜索并找到该总统的姓名。但是，使用传统方法，如果在满足问题中引用的事件的属性的同一段落中不存在这样的总统姓名，那么就没有找到正确的答案。

发明内容

提供了一种在问题回答***处接收问题的方法。识别与接收到的问题相关的多个段落。生成与该问题对应的问题知识图，并且还生成一组段落知识图，每个段落知识图与识别出的段落之一对应。将段落知识图中的每个段落知识图与问题知识图进行比较，其中该比较产生一组知识图候选答案(kgCA)。由QA计算一组候选答案(CA)，其中CA中的至少一个基于kgCA之一。

前述内容是概述，并且因此必然地包含简化、概括和细节的省略；因此，本领域技术人员将认识到，本概述仅仅是说明性的，而不是意图以任何方式进行限制。在下面阐述的非限制性详细描述中，本发明的其它方面、发明特征和优点将是显而易见的。

附图说明

通过参考附图，可以更好地理解本发明，并且使本发明的许多目的、特征和优点对本领域技术人员显而易见，其中：

图1描绘了网络环境，该网络环境包括利用知识库的知识管理器；

图2是诸如图1中所示的信息处理***的组件和处理器的框图；

图3是示出了***中包括的各种组件的组件图，该***使用知识图利用实体关系来发现答案；

图4是流程图的描绘，该流程图示出了用于使用知识图利用实体关系来发现答案的逻辑；

图5是流程图的描绘，该流程图示出了用于使用来自外部源的数据来扩展知识图的逻辑；

图6是流程图的描绘，该流程图示出了用于计算知识图之间的相似度的逻辑；以及

图7是流程图的描绘，该流程图示出了用于对候选答案(CA)进行评分的逻辑，所述候选***括通过利用知识图中找到的实体关系而生成的CA。

具体实施方式

图1-7描述了一种方法，该方法利用来自知识图(KG)的实体关系数据并计算相似度分数来找到实体的缺失信息，并且还提高候选答案的分数，以便更好地对正确答案进行排名(针对合理/可信的答案)。该方法采用知识图推理，该推理专注于知识图的分析并找出图中实体的出现。该方法通过使用阈值来匹配KG实体，并计算候选答案(CA)分数以提高问题回答***中的CA。

在一个实施例中，该方法包括两个阶段：(1)候选答案生成器阶段，以及(2)候选答案评分器阶段。在候选答案生成器阶段，该方法通过知识图数据库处理问题和来自现有QA管道的段落。该处理通过使用共有关系将邻居添加到现有实体来扩展图，其中邻居是从用于扩展图的外部数据(诸如在线百科全书)添加的。然后，该方法使用预定义的阈值来计算向量空间相似度分数，以判定外部数据是否引用相同的活动实体，并且然后生成候选答案列表。

在候选答案评分器阶段期间，对于从前一阶段生成的每个候选答案，连同指示该候选答案是否已经存在于由传统QA管道生成的现有候选答案列表的KG-布尔值一起存储为知识图(KG)分数(KG-分数)。在一个实施例中，通过组合KG-分数和KG-布尔值来生成最终结果。该处理产生包括传统QA管道未生成的新的候选答案，并且提高了由传统QA管道生成的也通过本文所述的KG分析找到的候选答案的分数。通过使用来自传统QA管道的候选答案以及从KG图分析得出的附加数据两者，该方法产生了改进的QA***，该***更可能找到提交给QA***的问题的正确答案。

更详细地，候选答案生成器阶段首先根据语料库(诸如在线百科全书或其它外部知识库)创建知识图数据库。在创建的知识图数据库中，每个节点表示实体，并且节点之间的边表示两个节点/实体之间的关系。当问题被提交时，该方法从问题文本提取实体和关系，并创建KG之类的数据结构，该数据结构包括问题中缺失的实体或关系。例如，如果提交的问题是：“What president visited England who signed environment treaty？(哪个签署环境条约的总统访问过英格兰？)”，那么缺失的实体将是总统的姓名。

该方法通过知识图数据库来运行该KG数据，该知识图数据库是先前用具有通过使用共有关系添加邻居实体来扩展该知识图的能力的方法创建的。问题还通过传统的QA，其中它生成段落列表(之后从该段落列表中生成候选答案)。这些段落中的每个段落均遵循上述相同步骤，并生成扩展图。然后，该方法将从每个段落生成的扩展图与问题的扩展图进行比较，以使用向量空间模型基于图的属性来计算相似度分数。匹配问题中的缺失实体的段落中的实体被提取为候选答案。在一个实施例中，当实体的相似度分数高于预定义的阈值(表明这些图显著相似)时，它们被添加到候选答案列表。

更详细地，候选答案评分器处理将每个候选答案的相似度分数存储为新特征/评分器：(KG-分数)。然后将生成的候选答案列表与传统QA管道生成的候选答案列表进行比较。该处理填充称为“KG-布尔值”的另一个特征的值，该特征指示是否通过传统的QA管道以及本文公开的KG图分析处理都找到了给定的候选答案。在匹配的情况下，该方法将KG-布尔值设置为TRUE，否则将KG-布尔值设置为FALSE。

这两个特征的添加导致根据知识图数据库分析向候选答案列表添加了另外的新候选答案，并且提高了由传统QA管道方法以及知识图数据库分析方法都找到的候选答案的分数。包括新的候选答案和提高分数产生用于对候选答案列表进行排名的一组改进的分数。然后，QA管道继续其用于选择一个或多个候选答案作为提交给QA***的问题的最可能答案的剩余步骤。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及传统过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

图1描绘了计算机网络102中的问题/答案创建(QA)***100的一个说明性实施例的示意图。QA***100可以包括将QA***100连接到计算机网络102的知识管理器计算设备104(包括一个或多个处理器和一个或多个存储器，以及潜在的本领域中一般已知的任何其它计算设备元件，包括总线、存储设备、通信接口等)。网络102可以包括经由一个或多个有线和/或无线数据通信链路彼此以及与其它设备或组件通信的多个计算设备104，其中每个通信链路可以包括电线、路由器、交换机、发射器和接收器等中的一个或多个。QA***100和网络102可以为一个或多个内容用户启用问题/答案(QA)生成功能。QA***100的其它实施例可以与除本文所描绘的组件、***、子***和/或设备之外的组件、***、子***和/或设备一起使用。

QA***100可以被配置为从各种源接收输入。例如，QA***100可以从网络102、电子文档107或其它数据的语料库、内容创建者、内容用户以及其它可能的输入源接收输入。在一个实施例中，可以通过网络102来路由到QA***100的一些或全部输入。网络102上的各种计算设备可以包括用于内容创建者和内容用户的接入点。一些计算设备可以包括用于存储数据的语料库的数据库的设备。在各种实施例中，网络102可以包括本地网络连接和远程连接，使得知识管理器100可以在包括本地和全球(例如，互联网)的任何尺寸的环境中操作。此外，知识管理器100用作前端***，该前端***可以使从文档、网络可访问源和/或结构化数据源中提取或表示的各种知识可用。以这种方式，一些处理填充知识管理器，该知识管理器还包括用于接收知识请求并相应地做出响应的输入接口。

在一个实施例中，内容创建者在电子文档107中创建内容，以用作针对QA***100的数据的语料库的一部分。电子文档107可以包括用于在QA***100中使用的任何文件、文本、文章或数据源。内容用户可以经由到网络102的网络连接或互联网连接访问QA***100，并且可以向QA***100输入可以由数据语料库中的内容回答的问题。如下面进一步描述的，当处理针对语义内容来评估文档的给定部分时，该处理可以使用各种约定以从知识管理器中查询它。一种约定是发送良好格式的问题。语义内容是基于能指(signifier)(诸如词语、短语、标志和符号)之间的关系以及它们所代表的东西、它们的表示或含义的内容。换句话说，语义内容是诸如通过使用自然语言(NL)处理来对表达进行解释的内容。语义数据108被存储为知识库106的一部分。在一个实施例中，该处理将良好格式的问题(例如，自然语言问题等)发送给知识管理器。QA***100可以解释问题并且向内容用户提供包含该问题的一个或多个答案的响应。在一些实施例中，QA***100可以在排名的答案列表中向用户提供响应。

在一些说明性实施例中，QA***100可以是可从纽约Armonk的国际商业机器公司获得的IBM Watson^TM QA***，其利用下文描述的说明性实施例的机制被增强。IBMWatson^TM知识管理器***可以接收输入问题，然后对其进行解析以提取该问题的主要特征，然后继而将其用于制定应用于数据语料库的查询。基于向数据语料库应用查询，通过在数据语料库中查找数据语料库的可能包含对输入问题的有价值响应的部分来生成一组假设或输入问题的候选答案。

然后，IBM Watson^TM QA***使用各种推理算法对输入问题的语言以及在应用查询期间发现的数据语料库的每个部分中使用的语言进行深度分析。可能应用了数百甚至数千个推理算法，每个算法都执行不同的分析(例如，比较)并生成分数。例如，一些推理算法可能查看输入问题的语言内的术语和同义词与数据语料库中找到的部分的匹配情况。其它推理算法可以查看语言中的时间或空间特征，而其它推理算法可以评估数据语料库的部分的源并评估其真实性。

从各种推理算法获得的分数指示基于该推理算法的特定关注区域，输入问题推断潜在响应的程度。然后，针对统计模型对每个结果分数进行加权。统计模型捕获在IBMWatson^TM QA***的训练时段期间在特定领域的两个相似段落之间建立推断时推理算法被执行得如何。然后可以使用统计模型来总结IBM Watson^TM QA***具有的关于由问题推断出潜在响应(即，候选答案)的证据的置信度。可以对每个候选答案重复此处理，直到IBMWatson^TM QA***识别出表面上比其它候选答案明显更强的候选答案为止，从而为输入问题生成最终答案或经排名的一组答案。

可以利用QA***100的信息处理***的类型范围从小的手持式设备(诸如手持式计算机/移动电话110)到大的大型机***，诸如大型计算机170。手持式计算机110的示例包括个人数字助理(PDA)、个人娱乐设备，诸如MP3播放器、便携式电视和光盘播放器。信息处理***的其它示例包括笔或平板电脑、计算机120、膝上型电脑、或笔记本、计算机130、个人计算机***150和服务器160。如图所示，可以使用计算机网络102将各种信息处理***联网在一起。可以用于互连各种信息处理***的计算机网络102的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其它无线网络以及任何可以用于互连信息处理***的其它网络拓扑。许多信息处理***包括非易失性数据存储，诸如硬盘驱动器和/或非易失性存储器。图1所示的一些信息处理***描绘了单独的非易失性数据存储(服务器160利用非易失性数据存储165，并且大型计算机170利用非易失性数据存储175。非易失性数据存储可以是各种信息处理***外部的组件或者可以在信息处理***之一内部。图2中示出了信息处理***的说明性示例，该示例示出了示例性处理器和该处理器共同访问的各种组件。

图2图示了信息处理***200，更具体地，图示了处理器和常见组件，这是能够执行本文所述的计算操作的计算机***的简化示例。信息处理***200包括耦合到处理器接口总线212的一个或多个处理器210。处理器接口总线212将处理器210连接到北桥215，北桥215也被称为存储器控制器集线器(MCH)。北桥215连接到***存储器220，并提供用于处理器210访问***存储器的手段。图形控制器225也连接到北桥215。在一个实施例中，PCIExpress总线218将北桥215连接到图形控制器225。图形控制器225连接到显示设备230，诸如计算机监视器。

北桥215和南桥235使用总线219相互连接。在一个实施例中，总线是直接媒体接口(DMI)总线，该总线在北桥215和南桥235之间在每个方向上高速传输数据。在另一个实施例中，***组件互连(PCI)总线连接北桥和南桥。南桥235(也称为I/O控制器集线器(ICH))是一个芯片，其通常实现以比由北桥提供的能力慢的速度操作的能力。南桥235通常提供用于连接各种组件的各种总线。这些总线包括，例如PCI和PCI Express总线、ISA总线、***管理总线(SMBus或SMB)和/或低引脚数(LPC)总线。LPC总线通常连接低带宽设备，诸如引导ROM296和“遗留”I/O设备(使用“超级I/O”芯片)。“遗留”I/O设备(298)可以包括例如串行和并行端口、键盘、鼠标和/或软盘控制器。LPC总线还将南桥235连接到可信平台模块(TPM)295。南桥235中通常包括的其它组件包括直接存储器访问(DMA)控制器、可编程中断控制器(PIC)和使用总线284将南桥235连接到非易失性存储设备285(诸如硬盘驱动器)的存储设备控制器。

ExpressCard 255是将可热插拔设备连接到信息处理***的插槽。ExpressCard255在使用通用串行总线(USB)和PCI Express总线两者连接到南桥235时，支持PCIExpress和USB连接两者。南桥235包括USB控制器240，该USB控制器240为连接到USB的设备提供USB连接。这些设备包括网络摄像头(相机)250、红外(IR)接收器248、键盘和触控板244、以及提供无线个人域网(PAN)的蓝牙设备246。USB控制器240还向其它各种USB连接设备242(诸如鼠标、可移动非易失性存储设备245、调制解调器、网卡、ISDN连接器、传真机、打印机、USB集线器和许多其它类型的USB连接设备)提供USB连接。虽然可移动非易失性存储设备245被示出为USB连接的设备，但是可移动非易失性存储设备245可以使用不同的接口(诸如火线接口等)来连接。

无线局域网(LAN)设备275经由PCI或PCI Express总线272连接到南桥235。LAN设备275通常实现空中调制技术的IEEE802.11标准之一，这些技术全部使用相同的协议在信息处理***200和另一个计算机***或设备之间进行无线通信。光学存储设备290使用串行ATA(SATA)总线288连接到南桥235。串行ATA适配器和设备在高速串行链路上通信。串行ATA总线还将南桥235连接到其它形式的存储设备，诸如硬盘驱动器。音频电路***260(诸如声卡)经由总线258连接到南桥235。音频电路***260还提供诸如端口中的音频线路输入和光学数字音频输入262、光学数字输出和耳机插孔264、内部扬声器266和内部麦克风268的功能。以太网控制器270使用诸如PCI或PCI Express总线的总线连接到南桥235。以太网控制器270将信息处理***200连接到计算机网络，诸如局域网(LAN)、互联网以及其它公共和专用计算机网络。

虽然图2示出了一个信息处理***，但是信息处理***可以采取多种形式，其中一些形式如图1所示。例如，信息处理***可以采取台式机、服务器、便携式计算机、膝上型计算机、笔记本或其它形式因子计算机或数据处理***的形式。另外，信息处理***可以采取其它形式因子，诸如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或包括处理器和存储器的其它设备。

图3是示出***中包括的各种组件的组件图，该***使用知识图利用实体关系来发现答案。由请求者(诸如用户)输入的问题300被显示为正在输入到***。在该图的顶部，问题的处理由传统的QA管道340绘出，该QA管道340使用传统的方法来识别候选答案和与此类候选答案相关的元数据(例如，分数等)，这些候选答案和元数据被示出为存储在存储器区域345中。另外，传统的QA管道识别与问题相关的文本段落，这些段落被存储在存储器区域350中。

示出了在处理310处开始的利用知识图数据来发现候选答案，该处理310建立问题300的知识图。通过知识图分析发现的候选答案中的一个或多个候选答案可以与通过传统的QA管道方法发现的候选答案相同，其中这种候选答案的评分被提高。此外，通过知识图的分析发现的一些候选答案可能是新的，或者可能不同于传统QA方法发现的候选答案，在这种情况下，这种候选答案被添加到可能候选答案的列表。处理310的结果是问题知识图320。图320中所示的示例示出了由问题提供的两个“已知”问题实体(QE₁和QE₂)以及作为该问题寻求答案的缺失实体的“缺失”问题实体(QE_m)。还示出了各种实体之间的关系。虽然可以基于知识图分析初始问题知识图(320)和初始段落知识图(360)并将其用于识别候选答案，但是在一个实施例中，使用已知的可靠数据(诸如被描绘为从外部数据存储330中检索的在线百科全书)来“扩展”知识图。扩展的知识图被用于识别在问题和段落数据中可能不容易找到的附加实体和关系。如果正在使用知识图扩展，那么使用处理325来扩展问题知识图(320)以形成扩展的问题知识图335。

关于段落，处理355被用于为由传统QA管道识别出的每个段落建立知识图。处理355从而形成段落知识图360。再一次，如果正在利用图扩展，那么执行处理(处理365)以扩展每个段落知识图360来创建扩展的段落知识图370。

处理375计算问题知识图(图320、或者如果使用扩展，那么为图335)与每个段落知识图(图360、或者如果使用扩展，那么为图370)之间的相似度。该处理尝试识别分析所指示的段落知识图中的实体与问题知识图中的“缺失”实体对应。使用所示示例，在问题知识图中找到的“缺失”实体(QE_m)看起来基于其它实体和关系与所示段落知识图中的PE₃对应。虽然为了图简化起见，在未扩展知识图和扩展知识图中都描绘了PE₃，但是扩展知识图中的不同实体可能与缺失实体(例如，新实体“QE₅”，未显示，等等)很好地对应。通过处理375对附加的候选答案的识别还计算相似度分数，在一个实施例中，该相似度分数指示从中找到候选答案的段落知识图与问题知识图的相似度，使得高度相似的图比较不相似的图评分更高。识别出的候选答案及其对应的分数被存储在存储器区域380中。

处理385将通过传统QA管道处理识别出的候选答案与通过上述知识图的分析识别出的候选答案相结合。在一个实施例中，由传统的QA管道处理和知识图分析处理都识别出的候选答案的分数被“提高”。在一个实施例中，对在存储器区域345中找到的候选答案的传统分数的提高量基于候选答案的分数，该候选答案的分数基于存储在存储器区域380中的知识图相似度。候选答案及其“提高的”分数被存储在存储器区域390中。在一个实施例中，如果仅在存储器区域380中找到候选答案(指示该候选答案是通过知识图分析处理而不是通过传统的QA管道处理发现的)，那么该候选答案被添加到存储器区域390中的可能候选答案的列表中，其分数基于存储在存储器区域380中的知识图相似度分数。示出传统的QA管道处理在395处继续，管道处理使用存储在存储器区域390中的候选答案和分数，其中这些候选答案和分数中的一些受上述知识图分析的影响。继续的QA处理最终导致一个或多个候选答案被选择为初始输入到***的问题(问题300)的(一个或多个)最可能的答案。

图4是流程图的描绘，该流程图示出了用于使用知识图利用实体关系来发现答案的逻辑。图4的处理开始于400，并且示出了使用知识图数据利用实体关系来发现答案的处理所采取的步骤。在步骤410处，对提交的问题300执行传统的问题-答案(QA)管道处理。传统的QA管道使用存储在存储器区域345中的评分元数据生成候选答案。另外，传统的QA管道处理还识别用于生成候选答案的相关段落，其中这些相关段落被存储在存储器区域350中。

在步骤420处，该处理使用传统的知识图生成器处理创建提交的问题300的知识图(KG)。所创建的问题KG被存储在存储器区域320中。在步骤430处，该处理从存储器区域350中选择由传统的QA管道处理识别出的第一段落。在步骤440处，该处理使用传统的知识图生成器创建所选择的段落的知识图(KG)。所创建的段落KG被存储在存储器区域360中，其中为每个段落KG分配一个存储器区域。该处理确定是否还有更多的段落要处理并创建段落知识图(判定450)。如果有更多的段落，那么判定450分支到“是”分支，其循环回到步骤430以选择下一个段落并创建其知识图。该循环继续进行，直到所有段落都已被处理，这时判定450分支到退出循环的“否”分支。

该处理使用图5所示的新颖技术确定是否要“扩展”所生成的知识图(判定460)。知识图扩展使用一组已知数据，诸如在线百科全书，以向该组创建的知识图添加附加的实体和关系。附加候选答案的发现可以在不进行知识图扩展的情况下执行。但是，在一些环境中，知识图的扩展可以提供从原始知识图中不明显的附加候选答案。在一个实施例中，知识图扩展是可选项，诸如可以由操作员或请求者选择的配置设置或运行时选项。如果正在使用知识图扩展，那么判定460分支到“是”分支，于是，在预定义的处理470处，该处理执行扩展KG例程(关于处理细节，参见图5和对应的文本)。另一方面，没有使用知识图扩展，那么判定460分支到“否”分支绕过预定义的处理470。

在预定义的处理480处，该处理执行“计算图相似度”例程(关于处理细节，参见图6和对应的文本)。该例程使用扩展的知识图(如果使用了预定义的处理)或原始知识图，并计算问题KG和段落KG之间的图相似度，以识别附加候选答案。

在预定义的处理490，该处理执行“分数候选答案(CA)”例程(关于处理细节，参见图7和对应的文本)。该例程对通过计算图相似度识别的候选答案进行评分。在一个实施例中，该例程提高了通过本文所述的图相似度处理以及传统的QA管道处理都找到的候选答案的分数。此后，图4的处理在495处结束。

图5是流程图的描绘，该流程图示出了用于使用来自外部源的数据来扩展知识图的逻辑。图5的处理开始于500，并且示出了使用一个或多个外部数据源来扩展知识图(KG)的处理所采取的步骤。在步骤510处，该处理检索外部数据源，诸如在线百科全书等。在一个实施例中，选择与所提交的问题的主题和所得到的段落相关的外部数据源。例如，如果问题与医学领域有关，那么可以代替通用在线百科全书或作为其补充来检索医学外部数据源。

在步骤520处，该处理从一组可用知识图525中选择第一知识图。该组可用知识图包括原始问题KG 320以及通过图4中所示的处理生成的一组原始段落KG 360。在步骤530处，该处理使用所选择的知识图初始化扩展知识图，其中该组扩展知识图被存储在存储器区域540中，并且该组扩展知识图包括扩展问题知识图335和一组扩展段落知识图370。在一个实施例中，扩展知识图的初始化包括将原始知识图复制到扩展知识图，使得扩展知识图以原始知识图为基础开始，并且扩展将实体和关系添加到原始知识图数据。在步骤550处，该处理从所选择的知识图中选择第一实体。接下来，该处理确定是否在外部数据源中找到所选择的实体(判定560)。如果在外部数据源中找到所选择的实体，那么判定560分支到“是”分支以执行步骤565至580。另一方面，如果在外部数据源中未找到所选择的实体，那么判定560分支到“否”分支，绕过步骤565到580。

在步骤565处，该处理选择在外部数据源中找到的从该实体引用另一个实体的第一关系。该处理确定在所选择的知识图中是否也找到了所选择的关系(判定570)。如果在所选择的知识图中也找到所选择的关系，那么判定570分支到“是”分支，从而跳过该关系。另一方面，如果在所选择的知识图中未找到所选择的关系，意味着在外部数据源中发现了新的关系，那么判定570分支到“否”分支，于是，在步骤575处，该处理将新找到的关系添加到扩展知识图，并且还添加该关系连接到原始知识图中的现有关系的新实体，从而将原始知识图中未找到的新关系和新实体添加到扩展知识图。该新关系和新实体被添加到存储器区域540(如果正在处理原始问题KG，那么为扩展问题KG 335，或者如果正在处理原始段落KG之一，那么为扩展段落KG 370之一)。

该处理确定在外部数据中是否有与所选择的实体相关的更多关系要处理(判定580)。如果还有更多的关系要处理，那么判定580分支到“是”分支，该分支循环回到步骤565以如上所述选择和处理下一个关系。该循环继续，直到与所选择的实体的所有关系都已被处理，这时判定580分支到退出循环的“否”分支。

接下来，该处理确定在所选择的知识图中是否还有更多实体要处理(判定585)。如果还有更多的实体要处理，那么判定585分支到“是”分支，该分支循环回到步骤550以如上所述选择和处理下一个实体。该循环继续，直到所选择的知识图中找到的所有实体都已被处理，这时判定585分支到退出循环的“否”分支。最终，该处理确定是否还有更多的原始知识图存储在存储器区域525中要处理(判定590)。如果还有更多的原始知识图要处理，那么判定590分支到“是”分支，该分支循环回到步骤520以如上所述选择和处理下一个原始知识图。该循环继续，直到所有原始知识图都已被处理，这时判定590分支到退出循环的“否”分支。此后，图5的处理返回到595处的调用例程(参见图4)。

图6是流程图的描绘，该流程图示出了用于计算知识图(KG)之间的相似度的逻辑。图6的处理开始于600，并且示出了由计算问题知识图和各种段落知识图之间的相似度的处理所采取的步骤。在步骤610处，该处理选择第一段落知识图。段落知识图可以是原始段落知识图360，或者如果利用了图扩展，那么选择扩展的段落知识图370。

在步骤620处，该处理从问题知识图中选择第一实体。类似于段落知识图，问题知识图可以是原始问题知识图320，或者如果利用了图扩展，那么选择扩展的问题知识图335。该处理确定在所选择的段落知识图中是否也找到所选择的实体(判定625)。如果在所选择的段落知识图中也找到所选择的实体，那么判定625分支到“是”分支，于是，在步骤630处，该处理增加该段落知识图的分数以反映该段落知识图与问题知识图的相似度。段落知识图的分数被存储在存储器区域640中。另一方面，如果在所选择的段落知识图中未找到从问题知识图中选择的实体，那么判定625分支到绕过步骤630的“否”分支。

该处理确定在问题知识图中是否有更多实体要在段落知识图中进行搜索(判定650)。如果有更多实体要在段落知识图中进行搜索，那么判定650分支到“是”分支，该分支循环回到步骤620以从问题知识图中选择下一个实体。该循环继续，直到问题知识图中的所有实体都已被处理，这时判定650分支到退出循环的“否”分支。

步骤655至675以与处理实体相似度的步骤620至650相似的方式处理实体关系的相似度。在步骤655处，处理从问题知识图(原始问题KG 320或者扩展的问题KG 335)中选择第一关系。该处理确定是否在所选择的段落知识图中也找到所选择的关系(判定660)。如果在所选择的段落知识图中也找到所选择的关系，那么判定660分支到“是”分支，于是，在步骤670处，该处理增加该段落知识图的分数以反映该段落知识图与问题知识图的相似度。段落知识图的分数被存储在存储器区域640中。另一方面，如果在所选择的段落知识图中未找到问题知识图中所选择的缺失实体，那么判定660分支到绕过步骤670的“否”分支。

该处理确定在问题知识图中是否存在更多关系要在段落知识图中进行搜索(判定650)。如果有更多的关系要在段落知识图中进行搜索，那么判定675分支到“是”分支，该分支循环回到步骤655以如上所述从问题知识图中选择下一个关系。该循环继续，直到问题知识图中的所有关系都已被处理，这时判定675分支到退出循环的“否”分支。

该处理确定是否还有更多的段落知识图要处理以如上所述计算它们与问题知识图的相似度(判定680)。如果还有更多的段落知识图要处理，那么判定680分支到“是”分支，该分支循环回到步骤610以如上所述选择并处理下一个段落知识图(原始知识图360或者扩展知识图370)。该循环继续，直到所有段落知识图都已被处理，这时判定680分支到退出循环的“否”分支。

在步骤690处，该处理将在任何段落知识图中找到的与在问题知识图中找到的缺失(Qm)实体基本相似的任何实体添加到该组知识图候选答案，其中在段落知识图中找到的这些实体被用作可能的候选答案。在一个实施例中，段落知识图的分数(先前存储在存储器区域640中)被用于计算候选答案的分数，其中从知识图比较中找到的候选答案被存储在存储器区域380中。不使用(丢弃)不具有与问题知识图中的缺失实体基本相似的实体的段落知识图。此后，图6的处理返回到695处的调用例程(参见图4)。

图7是流程图的图示，该流程图示出了用于对候选答案(CA)进行评分的逻辑，所述候选***括通过利用知识图中找到的实体关系而生成的候选答案。图7的处理开始于700，并且示出了使用从在图6中示出的知识图比较得出的信息对候选答案(CA)进行评分的处理所采用的步骤。在步骤710处，该处理应用阈值(例如，用于该实现的最小段落知识图(KG)分数，等等)。

在步骤725中，该处理选择通过图6中所示的知识图比较而生成的第一候选答案。从存储器区域380中检索该知识图候选答案，并且如果应用了阈值，那么从存储器区域380中检索的候选答案是具有满足阈值的分数的候选答案。在步骤730处，该处理在由传统QA管道处理生成的候选答案列表中搜索所选择的知识图候选答案，其中来自传统QA管道处理的候选答案是从存储器区域345中检索的。

接下来，该处理确定由知识图比较处理生成的所选择的候选答案是否生成了也由传统QA管道处理生成的候选答案(判定740)。如果在两个列表(由知识图比较处理和传统QA管道处理生成)中都找到了所选择的候选答案，那么判定740分支到“是”分支，于是，执行步骤745。在一个实施例中，当在两个列表中都找到候选答案时，候选答案的分数被增加(“提高”)以反映使用两个处理都发现了该答案。

另一方面，如果仅在知识图候选答案列表(存储器区域380)中找到候选答案，并且该候选答案不是由传统QA管道处理生成的，那么判定740分支到“否”分支，于是，在步骤750处，将由知识图比较处理找到的新候选答案添加到潜在候选答案的列表中。候选答案及其相应分数存储在存储器区域755中。在一个实施例中，仅通过候选答案比较处理找到的候选答案的分数基于图6中计算出的反映从中找到候选答案的段落知识图与问题知识图之间的相似度的分数。

接下来，处理确定由图6中所示的知识图比较处理生成的列表380中是否存在更多的候选答案(判定760)。如果存在更多的候选答案要处理，那么判定760分支到“是”分支，该分支循环回到步骤725以如上所述选择并处理列表380中的下一个候选答案。该循环继续，直到列表380中的所有候选答案都已被处理，这时判定760分支到退出该循环的“否”分支。

在步骤765处，该处理添加不在知识图候选答案列表(380)中而是仅由传统QA管道处理发现的(存储在存储器区域345中而不是存储在存储器区域380中)的任何候选答案。这些附加的候选答案及其分数被复制到存储器区域755，而不增强(“提高”)其分数。在步骤770处，该处理将增强的候选答案分数从最高(最佳)分数到最低(最差)分数进行排序。这些排序的增强候选答案及其相应的分数被存储在存储器区域775中。在步骤780处，该处理从现在存储在存储器区域775中的经排序的增强候选答案列表中返回一个或多个“最佳”答案。所选择的“最佳”答案被存储在存储器区域785中，并且被返回给请求者790，其中请求者是处理或用户。此后，图7的处理返回到795处的调用例程(参见图4)。

虽然已经示出和描述了本发明的特定实施例，但是对于本领域技术人员而言显而易见的是，基于本文的教导，可以在不脱离本发明及其更广泛的方面的情况下进行改变和修改。因此，所附权利要求书将包含如在本发明的真实精神和范围内的所有这些改变和修改。本领域技术人员将理解，如果旨在引入特定数量的权利要求要素，那么将在权利要求中明确地陈述这种意图，并且在没有这种叙述的情况下，不存在这种限制。作为非限制性示例，为了帮助理解，以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”来引入权利要求要素。但是，此类短语的使用不应被解释为暗示不定冠词“一(a)”或“一个(an)”对权利要求要素的引入将包含该引入的权利要求要素的任何特定权利要求限制为仅包含一个该要素的发明，即时在同一权利要求包括介绍性短语“一个或多个”或“至少一个”以及诸如“一(a)”或“一个(an)”之类的不定冠词时也是这样；在定冠词的权利要求中的使用也是如此。

Claims

1.一种由信息处理***实现的方法，所述信息处理***包括处理器和所述处理器可访问的存储器，所述方法包括：

在问题-回答(QA)***处接收问题；

识别与接收到的问题相关的多个段落；

生成与接收到的问题对应的问题知识图和多个段落知识图，其中所述段落知识图中的每个段落知识图对应于识别出的段落中的一个；

将所述段落知识图中的每个段落知识图与所述问题知识图进行比较，其中所述比较产生一组一个或多个知识图候选答案(kgCA)；以及

由所述QA***计算一组一个或多个候选答案(CA)，其中所述CA中的至少一个CA基于所述kgCA中的一个。

2.如权利要求1所述的方法，还包括：

在所述问题知识图中定位缺失的实体，其中所述缺失的实体包括在所述缺失的实体与也在所述问题知识图中找到的一个或多个问题实体之间的第一组一个或多个关系；

识别与所述缺失的实体对应的段落实体，其中所述识别还包括：

将所述第一组关系与识别出的段落实体和一个或多个其它段落实体之间的第二组关系进行匹配；以及

将识别出的段落实体添加到所述一组kgCA。

3.如权利要求1所述的方法，还包括：

选择在没有知识图分析的情况下由QA***管道产生的传统候选答案，其中所述传统候选答案与选择的候选答案分数对应；以及

响应于确定所选择的传统候选答案被包含在所述一组kgCA中：

增强所选择的候选答案分数；以及

将所选择的候选***括在所述一组CA中。

4.如权利要求1所述的方法，还包括：

生成在没有知识图分析的情况下由QA***管道产生的一组传统候选答案，其中所述传统候选答案中的每个传统候选答案与一候选答案分数相关联；

响应于确定所述一组传统候选答案中缺少所述一组kgCA中的一个选择的kgCA：

将所选择的kgCA包括在所述一组CA中；以及

将所选择的kgCA与所选择的候选答案分数相关联，所述候选答案分数基于与所选择的kgCA对应的段落知识图与所述问题知识图的比较。

5.如权利要求4所述的方法，还包括：

选择段落知识图；

将在所选择的段落知识图中找到的一组段落实体和一组段落关系与在所述问题知识图中找到的一组问题实体和一组问题关系进行比较，所述比较产生与所选择的段落知识图对应的段落知识图分数；

对于所述多个知识图的每个知识图重复所述选择和比较；以及

计算与所述kgCA中的每个kgCA对应的分数，其中与所述kgCA中的每个kgCA相关联的计算出的分数基于与在其中找到相应kgCA的段落知识图对应的段落知识图分数。

6.如权利要求1所述的方法，还包括：

基于接收到的问题生成初始问题知识图；

使用至少一组外部数据对所述初始问题知识图进行第一扩展，其中所述问题知识图是第一扩展的结果；

生成多个初始段落知识图，其中所述初始段落知识图中的每个初始段落知识图基于识别出的段落中的一个；以及

使用所述一组外部数据对所述初始段落知识图中的每个初始段落知识图进行第二扩展，其中所述多个段落知识图是第二扩展的结果。

7.如权利要求1所述的方法，其中所述一组外部数据中的一个外部数据是从在线百科全书中检索的。

8.一种信息处理***，包括：

一个或多个处理器；

存储器，耦合到所述处理器中的至少一个处理器；以及

一组计算机程序指令，存储在所述存储器中并由所述处理器中的至少一个处理器执行，以执行根据权利要求1-7中的任一方法的动作。

9.一种计算机程序产品，包括计算机可读存储介质，所述计算机可读存储介质具有与其一起实施的程序指令，所述程序指令可由处理器执行以使所述处理器执行根据权利要求1-7中的任一方法的操作。

10.一种计算机***，包括用于执行根据权利要求1至7中的任一方法的步骤的模块。