CN103250129A

CN103250129A - 使用具有受限结构的文本提供具有延迟类型评估的问答

Info

Publication number: CN103250129A
Application number: CN2011800564475A
Authority: CN
Inventors: P·A·度布; J·J·范; D·A·弗鲁茨; J·W·默多克; C·A·韦尔蒂; W·W·扎德罗兹尼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-24
Filing date: 2011-09-21
Publication date: 2013-08-14
Also published as: EP2616926A1; US20120330934A1; WO2012040673A1; US10482115B2; EP2616926A4; US9830381B2; US10223441B2; US20120078902A1; US20120329032A1; WO2012040356A1; US20120089622A1; US20180046705A1; US9798800B2

Abstract

一种用于根据任何数据语料库进行具有延迟类型评估的问答的***、方法和计算机程序产品。所述方法包括处理查询，其中包括进行等待直到确定“类型”（即，描述符）并提供候选答案。然后，进行搜索以查找（搜索）所述候选答案具有所需词法答案类型（例如，由可以利用解析器、语义解释器和/或简单模式匹配器的匹配功能确定）的证据。在候选答案评估之前或期间，提供用于提取和存储来自半结构化文本文档的实体-类型对集合的过程。在QA处理和候选答案评分期间，实现一种过程以便将查询LAT与提供的每个候选答案的词法类型相匹配，并生成判断匹配度的得分。

Description

使用具有受限结构的文本提供具有延迟类型评估的问答

相关申请的交叉引用

本发明涉及并要求2010年9月24日提交的共同拥有、共同未决的第61/386,017号美国临时专利申请的提交日期的优先权，此临时专利申请的所有公开内容在此全部引入作为参考。

技术领域

本发明一般地涉及信息检索***，更具体地说，本发明涉及一种新颖的开域查询/回答***和方法，其使用具有受限结构的文本实现候选答案的延迟类型评估。

背景技术

有关问答（QA）的当前问题和方法的介绍可以在基于Web的参考http://en.wikipedia.org/wiki/Question_answering中找到。一般而言，QA是一种类型的信息检索。如果给出文档集合（例如万维网或本地集合），则***应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索（例如文档检索）需要更复杂的自然语言处理（NLP）技术，并且有时被视为超越搜索引擎的后续步骤。

QA研究尝试处理各种问题类型，包括：事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同，从小型本地文档集合到内部组织文档，到编译后的新闻专线报道，再到万维网。

闭域QA在特定领域（例如，医学或汽车维修）下处理问题，并且可以被视为更容易的任务，因为NLP***可以利用通常以本体形式化的领域特定的知识。开域QA处理有关几乎任何事物的问题，并且只能依赖通用本体和世界知识。另一方面，这些***通常具有可从其中提取答案的更多数据。

备选地，闭域QA可能指这样一种情况：其中仅接受受限类型的问题，例如询问描述性信息而不是过程信息的问题。

对信息的访问目前由两种范式控制。第一，数据库查询，其回答有关结构化记录集合中的内容的问题。第二，搜索，其响应于针对非结构化数据（例如，文本或html）集合的查询而提供文档链接集合。

这种信息查询范式的一个未解决的主要问题是：没有能够根据包括在文档集合（可以是结构化、非结构化或这两者）中的信息准确回答实际问题的计算机程序。这种实际问题可以是宽泛的（例如“what are the risks ofvitamin K deficiency?（维生素K缺乏的危害是什么？）”），或者是狭窄的（例如“when and where was Hillary Clinton’s father born?（希拉里·***的父亲出生在何时何地？）”）。

面临的挑战是理解查询，查找可能包含答案的适当文档，以及提取正确答案以提供给用户。需要更高级的方法以回答开域问题。

发明内容

本发明通过提供一种使用具有受限结构的文本进行具有延迟类型评估的问答的动态基础架构和方法，解决了上述需要。

本发明的一个方面提供了一种***，所述***采用处理步骤实现机器处理以回答问题，其中从知识源和数据库源提取半结构化信息（例如具有受限结构的信息）并以适合于机器处理的形式重新表示所述信息。

具体地说，提供了一种***和方法，以便从具有受限结构的源提取答案分型信息（answer-typing information），并使用该提取的类型信息对候选答案进行评分。

因此，在一个方面，提供了一种用于为自动QA***使用的数据库提供内容的***和方法。所述方法包括：自动标识来自数据源的半结构化文本数据；从所述半结构化文本数据自动标识一个或多个实体-类型关系，所述实体-类型关系包括与类型关联的一个或多个实体；自动提取所标识的实体-类型关系；以及将所提取的实体-类型关系作为实体-类型数据结构存储在所述数据库中，其中处理设备被配置为执行半结构化文本和实体-类型关系的所述自动标识、所述提取和所述存储。

进一步就此方面而言，所述半结构化文本包括项目分隔标记，所述自动标识半结构化文本数据包括解析所述数据源的内容以标识所述项目分隔标记，所述项目分隔标记指定形成实体-类型数据结构的类型信息和实体。

进一步，所述项目分隔标记包括指定类型实体的“列表”一词的标题、头、详述、圆点（bullet）标记、圆括号、超文本链接、统一资源定位符或所述数据源中的表。

在另一方面，提供了用于自动生成问题答案的计算机实现的***和方法，所述方法包括以下步骤：确定与输入查询关联的词法答案类型（LAT）；使用具有半结构化内容的数据源获得所述输入查询的一个或多个候选答案；确定来自所述半结构化内容的一个或多个获得的候选答案中的每个候选答案的词法类型（LT）；比较查询LAT与候选答案LT；以及生成表示所比较的查询LAT与所述候选答案LT之间的匹配度的得分，所述得分指示所获得的候选答案的质量，其中处理设备自动执行所述确定查询LAT、计算候选答案、确定LT、比较以及生成步骤中的一个或多个。

在此方面，所述计算机实现的方法还包括：在所述半结构化内容中标识一个或多个实体和关联的词法类型信息；以及在与QA***通信的数据存储设备中存储实体-类型结构，每个实体-类型结构表示所述一个或多个实体和关联的词法类型信息，其中所述确定词法类型（LT）包括访问所存储的实体-类型结构，以便从与存储在所述实体-类型数据结构中的所述一个或多个实体关联的类型来标识词法类型（LT）。

在此方面，所述比较包括解析每个相应的查询LAT和候选答案LT，以便获得每个查询LAT和候选答案LT的相应术语或词组；所述比较进一步包括以下操作中的一个或多个：匹配相应查询LAT和候选答案LT的个体术语，或匹配每个相应查询LAT和候选答案LT的完整词组。

提供了一种用于执行操作的计算机程序产品。所述计算机程序产品包括存储介质，所述存储介质可由处理电路读取并存储由所述处理电路运行以执行方法（多个）的指令。所述方法（多个）与上面列出的相同。

附图说明

在下面给出的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解具体实施方式，所述附图形成本公开的重要部分，其中：

图1示出了其中可以采用本发明的问/答方法的高级逻辑架构10；

图2是用于在QA***中进行具有延迟类型评估的问答的方法的流程图；

图3是示出在图2的流程图的步骤132处执行的得分产生的流程图；

图4示出了用于自动标识包括可以在图3的步骤132b处实现的受限结构（“半结构化”）的文本的页、文档和其它内容的方法；

图5示出了应用可以在图3的步骤132c处实现的词组和术语匹配功能的LATTE过程300；

图6示出了图5的词组和术语处理功能345的框图；

图7示出了图6中所示组件之间的LATTE过程和得分产生的控制500的实例流程；

图8示出了图5-6的LATTE过程的实例流程控制；

图9示出了用于提供处理CAS数据结构的一种类型的分析引擎的UIMA框架实现的一个方面；以及

图10示出了用于在一个实施例中运行图2-8中描述的方法步骤的示例性硬件配置。

具体实施方式

共同拥有、共同未决的标题为“SYSTEM AND METHOD FORPROVIDING QUESTION AND ANSWERS WITH DEFERRED TYPEEVALUATION”（用于提供具有延迟类型评估的问答的***和方法）（在此引入作为参考）的第12/126,642号美国专利申请描述了一种QA***和方法，其中自动生成问题的答案。更具体地说，它涉及比较从问题确定的词法类型与从搜索获得的每个候选答案所关联的词法类型。问题请求的词法答案类型在此称为“词法答案类型”或“LAT”。与每个候选答案关联的词法类型在此称为词法类型或“LT”。

所述QA***使用下面针对图1描述的***和方法。证据收集和答案评分功能50是编程的处理组件，其接收（1）“词法答案类型”（LAT），例如描述某一概念的文本字符串，以及（2）“候选答案”输入（多个），例如描述某一实体的文本字符串。所述编程的处理组件生成输出，所述输出包括表示所述实体在多大程度上是所述概念的实例的判断（例如，得分）。如下面的图2和3中所述，这用作答案评分功能（例如，基于计算的候选答案词法类型（LT））的一部分。

如下面针对图3所述，在处理输入查询以确定LAT以及搜索并获得一个或多个候选答案之后，针对接收的每个候选答案执行以下步骤：将所述候选答案与数据库中的实例（包括匹配的实例132a）匹配，这导致生成输出数据结构；查找（搜索）所述候选答案具有所需LAT的证据，并检索与知识库（KB）132b中的这些实例关联的LT（多个）；以及尝试将LAT（多个）与LT（多个）匹配（例如，由使用解析器、语义解释器和/或简单模式匹配器的匹配功能确定），并产生表示匹配度的得分132c。更具体地说，将候选答案LT和查询LAT（多个）表示为词法字符串。得分（称为“TyCor”（类型强制）得分）的产生包括三个步骤：（1）候选答案与实例匹配，（2）实例与类型关联提取，以及（3）LAT与类型匹配。得分反映可以将候选答案“强制”为LAT的程度，其中较高的得分指示较好的强制。

在一个实施例中，如在此针对图4描述的那样，本公开通过自动提供将“实体”（例如，问题的候选答案）与词法类型关联的信息源，扩展并补充了在共同未决的第12/126,642号美国专利申请中描述的***和方法的效用。编程组件构建或填充信息库，例如数据库或知识库（KB），它们可以用于通过促进在针对图3中的步骤132b描述的知识库中自动检索与答案实例关联的“类型”（答案分型（typing）），完成针对每个候选答案计算一个或多个词法类型（LT）的任务。即，如果给出实例（例如，诸如名词之类的单词），则所述方法自动评估指定的LT，其中答案分型数据以具有有限数量的显式结构（即，半结构化）的形式存在。在一个方面，所述***和方法产生在匹配中使用的实例和类型的知识库。

此外，如在此针对图5-7描述的那样，提供了一种***和方法，它们可以用于例如在图1的QA***中执行答案评分功能（可以在图3中的步骤132c实现）时，自动执行将查询LAT与候选答案LT“匹配”的任务。为了候选答案与实例匹配，将候选答案与知识资源（例如，数据库或KB或网页）中的一个或多个实例相匹配，其中实例采取的形式取决于知识资源，并且从知识库（KB）检索与这些实例关联的词法类型（LT）。

现在描述用于提取和使用来自具有受限结构的源的分型信息，以及使用该提取的类型信息以回答问题的***和方法。实际上，所述方法通常在构建KB期间作为脱机过程执行；但是，可以在实时运行QA调用期间执行，例如在第12/126,642号美国专利申请中描述的。

所述***和方法利用机器处理以回答问题，所述机器处理采用特殊的处理步骤，其中从各种数据源和数据库自动提取具有受限结构的信息并以适合于机器（自动）处理的形式重新表示。然后可以在问答中使用结果，如在共同拥有、共同未决的第12/126,642号美国专利申请中指定的那样，因此如果给出输入查询LAT，则输出是判断，例如通过评估事物（例如，名词或单词或实体）是否属于或具有指定的词法答案类型，判断实体是否是概念实例。

现在针对图4描述用于从半结构化文本中提取实体-类型对集合的过程的一个实施例。如图4中所示，计算机实现的方法在202包括自动标识可以从数据源或数据库等存储、访问或获得的具有受限结构（即，“半结构化”）的页（例如，文档、列表和其它数据内容）。所述数据源例如可以包括但不限于公用或专用数据库或知识库、内联网、因特网、网页，可以例如使用搜索引擎、基于Web的爬取器或其它搜索工具对它们进行搜索和/或爬取以获得内容。其他源可以包括存储设备，诸如包括例如知识库的内容的硬盘驱动器，可以对其进行搜索和遍历以标识存储的半结构化内容以便处理。

用于从半结构化文本提取实体-类型对集合的过程可以作为预处理步骤执行，或者在接收问题作为到***的输入时按需执行。

所述计算机实现的方法标识的一种受限结构是显式标记为具有列表（即，标记的元素列表）的页或文档。例如，标题为“List of（列表）”后跟名词词组的

（Wikimedia Foundation,Inc.的注册服务商标）页。列表指具有指定“类型”的实例列表。例如，http://en.wikipedia.org/wiki/List_of_poets提供诗人列表；在该列表中具有用于Robert Frost的表项，这暗示Robert Frost是诗人。

另一种受限结构是标签（例如中的类别）或统一资源定位符（URL）（例如社会化书签（例如，来自http://delicious.com/））。例如，Robert Frost的Wikipedia页具有显式Wikipedia类别“English-language poets（英语诗人）”，其是“Poets by language（按语言分类的诗人）”的子类别，“Poets by language（按语言分类的诗人）”是“Poets（诗人）”的子类别。因此可以断定Robert Frost是诗人。这种文档通常旨在便于人类读者理解，这与设计用于机器处理的完全结构化文本源不同。

接下来，如图4中所示，所述计算机实现的方法在205包括自动标识项目分隔标记。即，列表（输入）具有例如可以使用解析功能发现的标记，例如包括但不限于“列表”一词的标题、头或详述、圆点标记、圆括号、可以是表列/行处的列表的指示符的超文本链接，或者任何可以标识的标记。

例如在QA处理期间（在一个实施例中）或者在QA处理之前作为预处理步骤（在另一个实施例中），所标识的列表元素（内容）可以在知识库或存储器中加标记、加标志或以其它方式标识（例如在磁盘、易失性或非易失性存储装置中），以便随后访问所标识的内容。这包括区分什么可能不是所需的列表内容（即，不是列表表项的一部分）。例如，在US Poets（美国诗人）的列表中，如果列表是诗人列表，则包括年份（例如，1852）的内容不是相关内容，因此可不被输出或加标志。

图4中所示的下一个自动步骤210包括提取实体词法-类型对。即，除了标识具有分隔项目（例如，带圆点的内容列表）的页或文档之外，所述标识步骤还包括标识分隔项目的词法类型，所述词法类型可以从内容获得，例如列表项目前面的标题或头。在一个实施例中，例如在关系数据库管理***或更专用的数组和/或链接列表结构组合中，然后将每个词法类型和对应标识的项目（多个）配对，并使用知识库的用于存储对的内部机制，将所述对存储在知识库中。将图4的处理的输出存储在图1的KB21中。

在步骤202标识的这种列表页的一个公共可用的实例212是http://en.wikipedia.org/wiki/List_of_poets_from_the_United_States。该页（到2010年7月为止）在其带圆点列表213中包括诗人名字以及他们的生卒年份（在圆括号中）。该列表页可以由搜索引擎或爬取器经由Web或因特网搜索来标识，或者在本地联网或连接的硬盘驱动器（提供具有包含半结构化文本的文档的信息库）处搜索。

因此，在该实例中，如在图4中的212处所示，可以将页标识为具有诸如标题“List of Poets from the United States（美国诗人列表）”218之类的内容。进一步，所标识的列表页可以包括可搜索和标识的分隔标记215，例如圆点，如在列表213中的每个项目（实体）前面所示。在该实例中，如图4中所示，在215，以斜体文本标记这些可以识别为列表213的项目的实体。在该实例中，例如从“list of”标题218中为候选答案LT指定“poets from the United States（美国诗人）”。

在图4中的220处，实现的功能执行标识和提取实体及其词法类型对，它们从以下事实中推断：列表中的实例是从列表的标题获得的词法表达的“类型”的实例。在这种情况下，实例包括“Robert Frost”和其它人，并且词法表达的类型是“poets from the United States”。在一个实施例中，可以在“类型”字段中存储或标记LT，并将与类型或内容相关的标识和提取的候选答案实例（实体或项目）作为链接结构存储在“实体”字段中。这些字段被编码在知识库中，所述知识库可以使用关系数据库管理***或更专用的数组和/或链接列表结构组合来实现。因此，所述知识库存储标识、提取的实体-类型关系，包括与作为可搜索内容结构220的一个或多个候选答案实体关联的词法类型。

在某些情况下，准确提取词法类型需要区分词法类型与组织信息。例如，“List of novels by point of view（按观点分类的小说列表）”提供词法类型为“novel（小说）”的元素，并且按观点组织这些元素。相比之下，“List of novels by Henry James（Henry James小说列表）”将提供词法类型为“novel by Henry James（Henry James小说）”的元素，并且不提供有关列表组织的任何信息。另一方面，可能没有必要进行这种准确判断，具体取决于使用的特定LAT与类型匹配（LATTE）配置；例如，“中心词”段落匹配器（参见下文），其在两种情况下将“novel”识别为中心词。

因此，由存储在非瞬时性存储介质（例如，存储设备）中的编程方法实现以便处理“list of”页的实例处理元素包括用于以下操作的功能：1.标识枚举列表的“类型”；2.标识列表的元素（实体）（使用列表元素的文本、有关元素的超链接、这些超链接指向的文档的标题等）；以及3.推断每个元素（以2标识）属于该类型（以1标识）。

在图4中，在一个实施例中，自动提取实体/词法-类型对方法的第一步骤实施一种搜索工具，以便例如从百科全书数据库源简单地搜索“Listof…（...列表）”文档之后的所有文本。即，上面的步骤202是在资源中标识列表承载页，该过程可以包括过滤其标题以“List of”开始的页，或者可以涉及自动分类器。在一个实施例中，使用统计机器学习训练所述分类器：为学习过程提供一组列表承载页实例和非列表承载页实例，以及一个或多个生成特性的算法，并且所述分类器标识建议页是或不是列表承载页的这些特性的某一组合。可用于该目的的特性包括结构元素（例如，表或带圆点的列表）和词法元素（例如，页上存在“列表”一词）。

在一个实施例中，更准确的提取需要其它逻辑。例如，许多列表名称都提供有关列表组织的其它信息。

在一个实施例中，图4中的步骤205是将包含在原始页中的标记抽象成两个与提取任务相关的元素：头和圆点。头指章节标记，而“圆点”例如指定一组标记元素，它们在页中用于分隔列表元素。其它分隔符包括但不限于：圆点、表行等。

第二步骤进一步专注于可以在半结构化文本（列表、表等）中指示列表成员的许多不同方式。例如，许多列表不仅包括元素，而且还包括有关元素的上下文和注释，以及为了将元素与其它文本分离而实现的功能。此外，将提取的元素与固定知识库中的实例相关联并非易事。在某些情况下，半结构化内容显式提供该信息（例如，

“List of”页中的表项通常是超链接，并且可以将它们链接到的URL解释为知识库实例的唯一标识符）。在其它情况下，可能需要显式实例查找步骤，该步骤使用实现图3中的步骤132a的相同机制。该步骤应用于候选答案，并且还应用于从列表提取的元素。

在另一实施例中，可能不需要显式查找，因为***可以将实例名称映射到词法类型。所述过程进一步解决其中列表名称包括连接词的情况。例如，“List of cities and towns along the Ohio River（俄亥俄河流经的城市和城镇列表）”的任意元素是在俄亥俄河附近的城市或城镇。在一个实施例中，将其中结合词法类型的列表标题分成两个不同的词法类型，针对每个类型添加知识库中的一个不同表项。在另一个实施例中，包括连接词的整个词法类型可以包括在知识库中，并且将在词组匹配（如在下文针对图8描述的那样，在350处理）时采用特殊逻辑以处理连接词。

在图4中，步骤210是提取实际实体/词法-类型对。所述词法类型提取自页标题（例如，通过删除标题开头的“List of”（如果有））。通过在上一步骤添加的抽象圆点标记的帮助，提取每个实体。对于每个圆点，搜索更靠近该圆点的超链接实例，并且如果在该圆点和下一个圆点之间没有超链接，则不针对该圆点提取实体。该超链接的目标将是所提取的实体/词法-类型对的实体。如果缺少超链接，则扩展该技术以便在圆点文本中提取作为最显著词组（通常为主题）的实体，如自动显著性注释器确定的那样。

图4中所示的用于处理“list of”页的三步骤过程是用于从具有受限结构的源提取实体-类型对的更常见过程的一种特殊化：

将更常见的形式应用于可能不包括“list of”页的源。在这种情况下采用的过程步骤将包括：1.标识受限结构暗示为类型的文本；2.标识受限结构暗示为实体的文本；3.推断实体（以2标识）是类型（以1标识）的实例。例如，可以通过在文本之前存在字符串“[[Category:”并在文本之后存在字符串“]]”，在Wikipedia文档中标识类别；该类别可能是有用的词法类型，或者可能需要规范化或推断以产生词法类型。对于类别，具有类型的实体是页讲述内容的实体；实体的名称是页标题。因此，在步骤2从页中提取标题，并在步骤3通过将标题和提取的词法类型添加到知识库中，将标题与类型关联。例如，标题为“Robert Frost”的

页在其源中具有以下文本：“[[Category:Sonneteers]]”。在步骤1，使用上述模式提取单词“Sonneteers（十四行诗人）”作为词法类型。在步骤2，从文档标题提取字符串“Robert Frost”。在步骤3，将对（“Sonneteers”、“Robert Frost”）添加到知识库中。

所述提取过程的结果可以还包括对应于实体和类型的字符串对。这种对可以用于回答使用延迟类型评估的问题。延迟类型评估的一个步骤是将词法答案类型（LAT）与某一候选答案的已知类型匹配。如果候选答案是完全结构化知识库中的实体，则该步骤变得相对容易，因为知识库表项（按照定义）具有其关系已知的正式、明确的类型。

在一个实施例中，将LAT与某一候选答案的类型匹配考虑了直接从文本获得实体和类型的情况。例如，如果给出询问某人的问题，以及在诗人列表上显示的候选答案，则在可以确定所有诗人都是人的情况下，可以仅断定该候选答案具有有效类型。这可以使用某一字典或词典资源实现，如果消除LAT和已知类型的歧义使其具有特定词义，则会更可靠。用于使用诸如字典或词典之类的资源确定某人和诗人等术语是否相互一致的逻辑被编码在下面描述的原始（primitive）术语匹配器中。

在另一方面，现在结合过程300（结合图5描述）描述用于匹配（可以在图3中的132c处实现）的功能或过程。

在一个方面，对QA***10的证据收集和答案评分模块50进行编程，以便接收包括问题LAT302（从查询处理中获得）的输入以及包括候选答案词法类型312（例如，从知识库中获得）的输入。如图5中所示，在一个实施例中，调用文本处理功能325，并且在一个实施例中，可以执行用于“LAT与类型匹配”的一个或多个计算机实现的过程，包括：1.匹配个体术语（例如，将“country（国家）”与“nation（国家）”匹配）；以及2.匹配完整词组（例如，将“country with a national currency（具有本国货币的国家）”与“nation with its own currency（具有它自己货币的国际）”匹配）。后者（词组匹配器）包括前者（术语匹配器）加上控制逻辑组成，实现所述控制逻辑以便确定要尝试匹配哪些术语以及如何将术语匹配得分组合成词组匹配得分。

如图5中所示，在一个实施例中，该文本处理325可以由包括如下功能的现成文本处理器实现：将接收的问题LAT302和候选答案词法类型312词组分解成标记，并确定标记化后的单词或词组之间的语法关系或其间的语法角色。

更具体地说，文本处理组件325将每个输入分成不同的术语（例如，通过标记化过程）。在一个实施例中，所述组件进一步根据词组匹配器或术语匹配器的需要，使用既定的最新自然语言处理技术应用句法和/或语义分析；例如，它可以使用解析器标识其输入的中心词，以供中心词段落匹配器使用。例如，分解词组将在语法上留下一个根词和一个或多个单词，它们修改或涉及单词（包括中心词（名词）的名词词组的修饰语（例如，形容词））。

在一个方面，如在此提到并在图5中所示的那样，应用该文本处理以产生问题LAT结果330和处理后的候选答案词法类型（LT）结果340。可以在数据库中将这些结果330、340组织为链接节点，这些链接节点然后可以用于一个或多个匹配组件（体现为图5中的编程词组和术语匹配器组件345）。这些组件生成指示匹配度的匹配得分346。

图6示出了实例词组和术语匹配方法345的框图。这些功能体现为（1）词组匹配和（2）术语匹配器。计算机编程的词组匹配器组件350实现处理，以便接收输入词组对（每个对包括一个或多个术语）并产生有关两个词组之间的匹配度的判断作为输出。术语匹配器355采取术语对作为输入，并产生有关两个术语之间的匹配度的判断作为输出。

在一个方面，词组匹配组件350提供这样的功能：确定要使用术语匹配器355比较哪些术语对以及如何将术语匹配器的结论组合成有关词组的匹配度的结论。术语匹配器是词组匹配器的“代表”。术语“代表”指两个功能单元之间的关系，其中一个单元调用另一个单元以实现其某些功能。

由图6看来，词组匹配器350的一个实例是中心词词组匹配器351，其将每个词组视为一个中心词加上修饰语集合，并尝试将中心词与中心词匹配，将修饰语与修饰语匹配。即，中心词词组匹配器351组件将其指定的术语匹配器应用于LAT的语法中心词和候选答案词法类型的语法中心词。例如，这种配置有“字符串相等”术语匹配器的匹配器将为“Europeannation（欧洲国家）”和“nation on Earth（地球上的国家）”提供高匹配得分，因为这两个词组具有中心词“nation”。

在一个实施例中，如图6中所示，实现术语匹配组件的两个广泛子类：1.原始术语匹配器355a采用单一、特定的匹配策略，并根据匹配度提供得分；以及2.聚合术语匹配器355b组合多个匹配器（可以是原始的或聚合的）。

原始术语匹配器355a采用策略以确定输入术语对（多个）的相互匹配程度。原始术语匹配器的一个简单实例是“文本相等”原始术语匹配器356，其将具有相同文本的一对术语视为匹配，将任何其它术语对视为不匹配。例如，文本相等原始术语匹配器356为相同的字符串提供1.0的得分，为不相同的字符串提供0.0的得分。原始术语匹配器的一个更复杂的实例是“地理政治”术语匹配器366，其仅应用于均为地理政治实体的术语对，并且当术语等价（例如，“U.S.（美国）”和“America（美国）”）和/或密切相关（例如，“U.S.”和“Texas（德克萨斯州）”）时，提供高得分。原始术语匹配器355a的一个更复杂的实例是“词典同义词”术语匹配器（未示出），其为属于已知词典中的同义词的术语提供高得分；如果这种匹配器使用周围上下文消除术语歧义，则其可能更准确。原始术语匹配器355a的另一个实例是“字符串编辑距离”术语匹配器（未示出），其为具有大致相同字母的术语（例如，elephant～=elephand）提供高得分，其在微小拼写错误很常见的上下文中可以非常有用。

在图6中，聚合术语匹配器355b采用一个或多个“代表”术语匹配器，每个匹配器可以是原始355a或聚合355b。如果代表术语匹配器是聚合的，则它也具有代表，这些代表也是原始或聚合的。每个聚合术语匹配器根据其控制逻辑调用一个或多个代表。聚合术语匹配器实现用于根据其组合逻辑组合这些代表的得分的功能。每个原始术语匹配器采用内部逻辑以计算得分并返回所述得分。

在一个实施例中，由单个聚合术语匹配器355b组合在一起的匹配器是该匹配器的代表。每个代表术语匹配器在其代表之间实现如图7中描述的控制流，并实现某种策略以便将代表的结果组合成单一得分。

聚合术语匹配器组合功能包括其代表之间的流控制，并实现策略以便将应用代表术语匹配器的结果组合成有关术语对之间的匹配度的最终结论。在一个实施例中，所述代表的组合结果将生成单一得分。例如，聚合术语匹配器355b运行其所有代表，然后返回所有代表的所有得分的总和。聚合术语匹配器355b的一个实例是最大得分聚合术语匹配器367，其获得输入术语对，将其每个代表应用于该术语对，并返回跨所有代表的最大得分。在另一个实施例中，聚合术语匹配器355b包括得分聚合术语匹配器368（其获得输入术语对）的乘积，将其每个代表应用于该术语对，并将所有代表的所有得分相乘。在一个实施例中，聚合术语匹配器可以使用从机器学习获得的统计模型，以便将代表的得分组合成所述聚合的得分。在一个实施例中，逻辑回归是执行如下操作的机器学习方法：获得具有数值特性的标记训练实例，并产生可以用于对具有数值特性的实例进行分类的统计模型；它通过为每个特性指定数值权重来执行此操作，然后通过将数值特性得分与权重相乘来计算得分。

图7示出了图6中所示组件之间的LATTE过程和得分产生的控制500的实例流程。在505，在接收表示要被匹配的词组的文本字符串作为输入之后，词组匹配器350a1在510实现逻辑以选择术语对，每个术语来自两个输入词组中的每一个，所述词组包括：要匹配的问题术语和段落术语。在510，在词组匹配器350a1确定要调用哪些术语之后，并且如果任何术语都是代表术语，则确定代表术语是否是聚合的（即，包括多个术语）。在510，如果代表术语是聚合的，则词组匹配器调用其代表术语聚合匹配器实现功能355a1；否则，将调用原始术语匹配器355b。在512，聚合术语匹配器功能355a1选择其代表之一以便与该术语对相匹配；该代表是原始355b或较低级聚合匹配器实现功能355a1。

在514，原始术语匹配器355b使用其单个原子术语匹配逻辑计算指示术语对匹配程度的得分。在一个实施例中，原子算法可以确定术语对是否表示相同的事物（例如，使用包含同义词的字典）。将结果返回到调用它的任何一个组件；该组件包括较高级聚合匹配器功能355a2或词组匹配器功能350a2。

在516，聚合术语匹配器功能355a2进行检查以查看它是否具有任何其它要尝试应用于给定术语对的代表术语匹配器，在此情况下，它返回到较低级聚合匹配器功能355a1或较高级聚合匹配器功能355a3。

在518，如果没有更多要应用的代表术语匹配器，则聚合术语匹配器功能355a3通过组合来自其所有代表的结果，计算术语对的最终匹配得分。将该结果返回到调用聚合术语匹配器的任何一个组件，或者返回较高级聚合功能355a2，或者返回词组匹配器功能350a2。

在520，词组匹配器功能350a2进行检查以查看是否具有任何其它需要匹配的术语对，以便确定词组匹配度。因此，词组匹配器350a2调用词组匹配器功能350a1；否则，将调用其它词组匹配器功能350a3。即，在525，如果没有更多要匹配的术语对，则词组匹配器功能350a3通过组合来自对其代表术语匹配器的每个调用的结果，计算两个输入词组的最终得分。返回该结果，作为在530结束的词组匹配过程的最终输出。

使用如图7中描述的匹配过程，图8示出了图5-6的LATTE过程的实例流程控制，其应用于初始查询或问题的非限制性实例“What Americanpoet published his first book in1913while living in England?（哪位美国诗人在1913年居住英国时出版了他的第一本书？）”。根据通用QA***处理（例如在第12/126,642号美国专利申请中描述），问题分析组件在该问题中标识“American poet（美国诗人）”作为LAT。所述问答***的候选答案生成组件针对该实例标识搜索候选答案：例如，Robert Frost。在一个实施例中，所述方法使用半结构化资源（例如实时获得，或者以上面针对图4描述的脱机方式获得），确定该候选答案是否是LAT的实例（即，“Robert Frost”是否是“American poet”）。

在应用于该非限制性实例的图7的实例匹配过程的流程控制中，当LATTE过程（LAT与词法类型匹配过程）自动作为QA***过程的一部分运行时，提供特定的问题LAT302和特定的候选答案词法类型312。在该实例中，提取的问题LAT是“American poet”368。实例候选答案是“Robert Frost”。在图4中提取的对包括将“Robert Frost”与词法类型“poets from the United States”（其是候选答案词法类型369）相关的对。在针对图6的处理描述的实例实施例中，接收问题LAT302“Americanpoet”368和候选答案词法类型312“poets from the United States”369作为到文本处理组件325的输入。

在图8中，文本处理器的文本处理325提供输出（例如，分成标记、使用语法角色标记），其中包括接收的问题LAT330和候选答案词法类型340的版本。词组匹配器350然后将接收这些输入并将它们相互比较。它通过将其指定的术语匹配器应用于从其输入中选择的术语来执行此操作。用于选择术语的算法特定于词组匹配器的任何特定实例化；例如，中心词词组匹配器选择每个词组的中心词以便匹配，并且还尝试将第一输入词组内的中心词的每个修饰语与第二词组的每个修饰语相匹配。

在此非限制性实例中，文本处理325包括执行分析，以便标识中心词并为术语和这些术语之间的语法关系提供词元（lemma）形式；自然语言解析器提供所有这些信息。对于图6的实例处理，处理实例问题LAT的结果330例如包括标识的实例问题LAT中心词—根或词元化的中心词“Poet”370（例如，将“poets”词元化为中心词“poet”），并且进一步检测“American”371用作修饰名词的形容词，如标记“nadj”的连接符373所指示的那样，该连接符指示术语之间的语法关系（例如，修饰名词“poet”的形容词）。同样，候选答案词法类型312的文本处理结果340包括：词元化的结果中心词“Poet”342（例如，将“poets”词元化为中心词“poet”）。所述处理进一步包括自动检测介词词组“from the UnitedStates（来自美国）”347，其中确定介词“from”、介词的宾语“UnitedStates”，并确定处理的候选答案词法类型312的“the”（通常，该信息将由自然语言解析器提供）。所述根或中心词以及所有语法关系可以在软件程序中表示为节点，这些节点由标记的连接符互连，例如，标记有“prep”的连接符343a，其将中心词342指向介词“from”；标记有“obj”的连接符343b将介词“from”指向宾语“United States”；以及标记有“det”的连接符343c将宾语“United States”指向限定词“the”，该限定词指示词组术语之间的语法关系，包括限定词“the”344。

词组匹配器350然后自动应用指定的术语匹配器，以便将问题的词法答案类型302中的处理结果（术语）330与候选答案的词法类型312中的结果（术语）340相比较。

首先，词组匹配器350确定问题的词法答案类型中的哪些术语要尝试与候选答案的词法类型中的术语相匹配。例如，词组匹配器确定中心词（即，每个图中的根节点，在这两种情况下都标记有“poet”）处于相同的逻辑位置；该图源自自然语言解析器的输出。词组匹配器350还确定名词-形容词修饰语371（例如，“American”）所担当的角色堪比处理的候选答案词法类型340中的介词宾语345（例如“United States”）。聚合术语匹配器355则负责确定这些术语是否实际匹配。在该实例中，使用两个代表原始术语匹配器355：“文本相等”术语匹配器356，其接收输入并实现这样的功能：确定并断定来自问题LAT的“poet”370和来自候选答案词法类型的“poet”342完全相等；以及专用的地理政治匹配器366，其从输入确定“American”371与“United States”345相互一致。

更具体地说，为编程处理***配置中心词词组匹配器351，为匹配器351配置术语匹配器（例如，最大得分聚合术语匹配器355a）。为最大得分聚合术语匹配器355a配置两个代表术语匹配器：文本相等原始匹配器356和地理政治术语匹配器366。该词组匹配器351接收两个词组作为输入：“American poet”368和“poet from the United States”369。在执行所述词组匹配器之前，运行文本分析，其将“poet”标识为这些词组中的每一个的中心词342、370。它还指示术语之间的语法关系，例如，在第一词组中，“American”修饰poet，在第二词组中，“United States”修饰poet。所述词组匹配器从每个结果330、340获得术语对，并使用文本分析的结果确定将第一词组中的“poet”与第二词组中的“poet”相比较（因为它们均是其词组的中心词）。因此，它针对该术语对调用聚合术语匹配器355b。聚合术语匹配器355b然后调用文本相等原始术语匹配器，其观察到字符串相同并为术语对提供高得分。所述聚合术语匹配器还调用地理政治原始术语匹配器，其不提供观点，因为它仅应用于地理政治实体。聚合术语匹配器355b然后计算这些结果的最大值，其是来自文本相等原始术语匹配器的高得分。因此，它针对该对（“poet”、“poet”）具有高得分。接下来，词组匹配器351确定将“American”与“United States”相比较，因为它们都是中心词的修饰语。它通过调用聚合术语匹配器355b来执行此操作。所述聚合术语匹配器调用文本相等原始术语匹配器356，其观察到字符串不相同并为术语对提供0得分。所述聚合术语匹配器还调用地理政治原始术语匹配器366，其使用地理政治实体的知识库，该知识库断言“American”和“United States”指相同的地方；地理政治原始术语匹配器366因此针对该术语对返回高得分。所述聚合术语匹配器获得这两个结果（来自文本相等匹配器的0得分，以及来自地理政治匹配器的高得分），并获得它们之中的最大值，其为高得分。

它将该高得分返回到所述词组匹配器，该匹配器现在针对第一词组中的中心词（“poet”）和修饰语（“American”）（它们与第二词组中的对应术语匹配）具有高得分。它组合这些得分，并返回指示两个词组匹配非常好的结论。

发现问题LAT与候选答案词法类型匹配之后，所述***断定候选答案“Robert Frost”满足该问题的类型要求。

因此，在QA***中使用时，以下两个组件紧密集成并相互补充，而且还进一步用于完全不同的设备：用于从图4的半结构化文本提取实体-类型对集合的过程；以及用于图5-7中的匹配的过程。

图1示出了在第12/126,642号美国专利申请中描述的***图，其示出高级逻辑架构10和方法，其中在一个实施例中采用使用具有受限结构的文本进行延迟类型评估的***和方法。

一般而言，如图1中所示，高级逻辑架构10包括查询分析模块20，其实现接收和分析用户查询或问题的功能。术语“用户”可以指与***交互的一个或多个人员，或者指通过机械手段生成查询的计算机***22，其中术语“用户查询”指这种以机械方式生成的查询和上下文19’。提供候选答案生成模块30，以便通过遍历包含在主源模块11和答案源知识库（KB）模块21（包含从主源提取的关系和列表集合）中的结构化、半结构化和非结构化源，实现对候选答案的搜索。所有信息源可以存储在本地，或者分布在包括因特网的网络上。

架构10的候选答案生成模块30根据对检索的数据的分析，生成多个包含候选答案的输出数据结构。在图1中，证据收集和答案评分模块50与主源11和知识库21对接，以便在一个实施例中，同时根据具有候选答案的段落来分析证据并对每个候选答案进行评分，以作为并行处理操作。在一个实施例中，可以采用使用通用分析***（CAS）候选答案结构的架构，如在共同拥有、已公告的第7,139,752号美国专利（其所有公开内容在此全部引入作为参考）中所描述的那样。

如图1中所示，证据收集和答案评分模块50包括候选答案评分模块40，以便分析检索的段落并对所检索的段落的每个候选答案进行评分。答案源知识库（KB）21可以包括一个或多个包含关系集合（例如，类型化列表）的结构化或半结构化源（预先计算或以其它方式）数据库。在一个实例实施方式中，答案源知识库可以包括存储在存储***（例如，硬盘驱动器）中的数据库。

答案排序模块60提供功能以便对候选答案进行排序并确定响应99，响应99经由用户的计算机显示接口（未示出）或计算机***22返回给用户，其中所述响应可以是响应于问题的答案，或先前答案的详细描述，或澄清的请求—当未找到高质量的问题答案时。还提供机器学习实施方式，其中“答案排序”模块60包括训练后的模型组件（未示出），其使用机器学习技术从先前数据中产生。

图1中所示的处理可以在本地、在服务器或服务器群集上、在企业中，或者备选地，可以是分布式或整体式，或以其它方式与公用或私用搜索引擎结合运行，以便以所描述的方式增强问答功能。因此，所述方法可以作为计算机程序产品（包括可由处理设备执行的指令）提供，或者作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎（例如，文档检索***）作为候选答案生成模块30的一部分，所述搜索引擎可以专用于搜索因特网、公用数据库、网站（例如，IMDB.com）或私用数据库。数据库可以存储在任何存储***、非易失性存储***（例如，硬盘驱动器或闪存）中，并且可以通过网络分发或不分发。

如上所述，图1的***和方法利用通用分析***（CAS），其为非结构化信息管理架构（UIMA）的子***，可处理各种UIMA组件（例如分析引擎和非结构化信息管理应用）之间的数据交换。CAS通过独立于程序设计语言的类型***支持数据建模，通过强大的索引机制提供数据访问，并支持针对文本数据创建注释，例如在http://www.research.ibm.com/journal/sj/433/gotz.html中描述的（在此引入作为参考）。应当指出，CAS允许针对文档及其注释之间的链接进行多个定义，因为对分析图像、视频或其它非文本形式有用（如在此引入的参考—第7,139,752号美国专利中教导的那样）。

在一个实施例中，UIMA可以作为中间件提供，以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA***、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎，所述文本分析引擎包括多个耦合的注释器以便标记文档数据以及标识并注释特定类型的语义内容。因此，它可以用于分析问题，并从文档集合提取实体作为问题的可能答案。

如在图1的架构图中更详细地示出的那样，“查询分析”模块20接收输入，所述输入包括例如用户经由其基于Web的浏览器设备输入的查询19。输入查询19可以包括文本字符串。查询分析方框20还包括词法答案类型（LAT）方框200，其实现功能和编程接口，以便提供有关答案类型（LAT）的附加约束。方框20中的计算包括但不限于词法答案类型。LAT方框200包括某些功能/子功能（未示出）以确定LAT。

如上所述，问题/查询的LAT是实体的指示对象的类型（即，描述符），所述实体是问题的有效答案。实际上，LAT是自然语言理解模块（包括模式集合和/或具有语义解释器的解析器）检测到的答案的描述符。参考词法答案类型（LAT）方框200，在图1的查询分析模块20中，LAT表示标识正确答案的语义类型的问题术语。在一个实施例中，如所公知的那样，可以通过模式LAT检测规则在问题中检测LAT。将实施这些规则，并可以手动对其进行编码，或者机器通过关联规则学习自动学习它们。在这种情况下，所述自然语言理解模型可以限于实施所述规则。

图2是用于在一个实施例中进行具有延迟类型评估的问答的计算机编程方法的流程图（如在12/126,642中描述）。一般而言，在图2中所示的“延迟类型评估”方法中，第一处理步骤112表示以下步骤：在处理设备处接收输入查询，并生成数据结构（例如，CAS结构），其包括问题字符串和上下文，以便输入到词法答案类型（LAT）处理单元方框200（图1），如在步骤115指示的那样，在方框200分析所述查询并计算词法答案类型（LAT）。作为在LAT处理组件中的处理结果，如在步骤115运行的那样，生成输出数据结构（例如，CAS结构），其包括所计算的LAT，并可能包括来自原始问题的其它术语。

作为在LAT方框200中的处理结果，然后如在步骤120表示的那样，生成输出数据结构（例如，CAS结构），其包括所计算的原始查询（术语、权重）（如在共同未决的第12/152,441号美国专利申请中描述的，此申请的所有公开内容在此全部引入作为参考）。

返回图2，在处理步骤122，执行以下步骤：搜索候选答案文档，并返回结果。

作为在候选答案生成模块中的处理结果，如在步骤122表示的那样，生成输出数据结构（例如，CAS结构），其包括从数据语料库（例如，主源和知识库）发现的所有文档。

在图2中的步骤128，示出了以下步骤：使用LAT（词法答案类型）分析每个文档以获得候选答案，以便产生一组候选答案，这些候选答案可以作为CAS结构输出。

对于在此讨论的实例问题，作为在候选答案生成模块30中的处理结果，如在图2的步骤132表示的那样，对照查询LAT要求检查在文档中发现的这些候选答案，并在步骤133将这些候选答案作为答案（多个）返回（根据候选答案的得分）。

在上文描述的图3是示出在图2的流程图的步骤132处执行的得分产生的流程图。

具体地说，如图3中所示，步骤132实现以下步骤：对于接收的每个候选答案，执行将所述候选答案与数据库中的实例匹配（步骤132a），这将导致生成输出数据结构（例如，CAS结构），其包括匹配的实例；在知识库（KB）中检索与这些实例关联的词法类型（LT）（步骤132b）；以及在步骤132c，尝试将LAT（多个）与词法类型（LT）匹配，从而产生表示匹配度的得分。

更具体地说，将候选答案LT和查询LAT（多个）表示为词法字符串。所述得分（在此称为“TyCor”（类型强制）得分）的产生包括三个步骤：候选答案与实例匹配，实例与类型关联提取，以及LAT与类型匹配。所述得分反映可以将候选答案“强制”为LAT的程度，其中较高的得分指示较好的强制。

在候选答案与实例匹配中，将候选答案与知识资源中的一个或多个实例匹配，其中所述实例采取的形式取决于知识资源。对于结构化知识库，实例可以是实体，具有百科全书源，例如Wikipedia实例可以是百科全书中的表项，具有诸如词法数据库（the Trustees of PrincetonUniversity的商标）之类的词法源；实例可以是同义词集合表项（同义词集合），并具有非结构化文档（或网页）集合；实例可以是在文本中出现的任何术语或词组。如果发现多个实例，则采用使用聚合功能的汇总，以组合来自所有候选答案的得分。如果没有发现适合的实例，则返回0得分。

接下来，从所述资源中提取实例关联信息。该信息将每个实例与类型或类型集合关联。取决于所述资源，这可以采取不同的形式；在知识库中，这对应于将实例与类型相关的特定感兴趣关系；对于百科全书源，这可以是为实体指定词法类型的词法类别信息；对于诸如之类的词法资源，这是一组词法关系，例如同义词集合中的下义关系（例如，“artist”is a“person”（“艺术家”是“人”））；以及对于非结构化文档集合，这可以是其它表示类型的术语和词组的共现或接近。

然后，尝试将每个LAT与每个类型相匹配。将使用类型的词法表现。例如，对于百科全书，这可以是表示类别的字符串；对于诸如

之类的词法资源，这可以是包含在同义词集合中的字符串集合。通过以下方式执行匹配：使用字符串匹配或其它词法资源（例如

）以便检查LAT和类型之间的同义关系或下义关系。可以针对感兴趣的类型实现特殊逻辑；例如可以激活person匹配器逻辑，该逻辑不需要严格的匹配、同义词或下义词关系，而是LAT和类型是术语“person（人）”的下义词。通过这种方式，例如将为“he（他）”和“painter（画家）”提供正得分，即使它们不是严格的同义词或下义词。最后，可以经由聚合功能，将对匹配度进行评分的得分对集合解析为单个最终得分。

因此，在图3的步骤132a-132c中给出的实施方式中，对于在此描述的实例问题，自动对照LAT要求检查文档中的每个候选答案类型（LT）。这可以由图1中所示的候选答案评分方框40执行，作为证据收集和答案评分模块50的一部分，具体地说，作为候选答案类型分析模块400的一部分，模块400例如基于其中出现候选答案的文档的语法和语义分析，产生候选答案是正确类型的概率度量。在一个实施例中，该处理需要使用比较候选答案词法类型（LT）与查询LAT的自动评分功能，并需要针对每个候选答案产生得分。可以将评分功能表示为不同分型得分的加权组合，并且在一个实施例中，它可以表示为

TyCorScore=0.2＊TyCorWordNet+0.5＊ＴyCorKB+0.4＊TyCorDoc

这表示以下各项的首选项：更有组织的源（例如知识库（KB）），然后是所检索的文档中的类型匹配，以及同义词是优先程度最低的类型匹配方式。

可能具有其它得分组合，并且可以了解最佳评分功能，如在2008年5月14提交的共同未决的标题为“SYSTEM AND METHOD FORPROVIDING ANSWERS TO QUESTIONS”（用于提供问题答案的***和方法）的第12/152,411号美国专利申请（所有公开内容在此全部引入作为参考）中描述的。

所述评分功能本身是数学表达式，在一个实施例中，它可以基于逻辑回归函数（线性表达式与指数函数的组合），并且可以应用于更大数量的分型得分。

“候选答案评分”模块40的输出是CAS结构，其具有答案列表，这些答案的得分由答案评分模块中的处理模块给出，所述答案评分模块包括在证据收集和答案评分模块50的候选答案评分方框40中。在一个实施例中，为这些候选***TyCor匹配得分，如在上文描述的那样。

最后，返回到图2，在步骤133，返回顶层候选答案（根据其TyCor得分）。

在一个实施例中，可以将图1、4、5-7的上述模块表示为UIMA中的功能组件，UIMA优选地实现为硬件和软件的组合，用于开发如下应用：集成针对结构化和非结构化信息组合的搜索和分析。采用UIMA组件以实现最终用户能力的软件程序通常被称为应用、应用程序或软件应用。

UIMA高级架构（图1中示出了它的一个实施例）定义了协作实施UIM应用的大粒度组件的角色、接口和通信。其中包括能够执行以下操作的组件：分析非结构化源制品（例如包含文本数据和/或图像数据的文档），集成和访问结构化源，并基于发现的语义内容对制品进行存储、索引和搜索。

尽管未示出，但UIMA高级架构的一个非限制性实施例包括语义搜索引擎、文档存储、至少一个文本分析引擎（TAE）、至少一个结构化知识源适配器、集合处理管理器、至少一个集合分析引擎，它们全部与应用逻辑通过接口连接。在一个实例实施例中，UIMA运行以访问结构化信息和非结构化信息，以便以在此讨论的方式生成候选答案和答案。非结构化信息可以被视为文档集合，并可以采取文本、图形、静态和动态图像、音频和它们的各种组合的形式。

图7中进一步示出了UIMA的各方面，其中示出了分析引擎（AE）600，其可以是文本分析引擎（TAE）的组件。AE600中包括通用分析***（CAS）610、注释器620和控制器630。TAE的第二实施例（未示出）包括聚合分析引擎（包含两个或更多个组件分析引擎以及CAS），并实现与AE600相同的外部接口。

通用分析***610

通用分析***（CAS）610作为通用工具提供，所有注释器620均使用它访问和修改分析结构。因此，CAS610在注释器620之间实现协作，并促进在不同应用和不同类型架构（例如，松散与紧密耦合）中重用注释器620。CAS610可以被视为约束各注释器的操作。

提供CAS610主要用于数据建模、数据创建和数据检索功能。数据建模优选地定义（数据）类型的树层次结构，如下面提供的实例表1中所示。所述类型具有属性或性质（被称为特性）。在各优选实施例中，存在少量的内置（预定义）类型，例如整数（int）、浮点（float）和字符串；UIMA还包括预定义的数据类型“注释”。数据模型在注释器描述符中定义，并与其它注释器共享所述数据模型。在表1中，被视为从现有技术非结构化信息管理应用扩展以适合本发明的优选实施例中的问答的一些“类型”包括：

表1

在表1中，例如所有问答类型（在左边列中列出）都是新类型并扩展另一个新类型或现有类型（在右边列中示出）。例如，“查询”和“查询上下文”的种类都是“查询记录”（新类型）；而“候选答案记录”扩展UIMA类型“注释”，但添加了属于“浮点”的新特性CandidateAnswerScore。此外，表1将查询LAT描述为具有UIMA“注释”类型；CandidateAnswerLT也是“注释”，但具有附加的类型为“浮点”的特性TyCorScore。

CAS610数据结构可以被称为“特性结构”。为了创建特性结构，必须指定类型（参见表1）。注释（和特性结构）被存储在索引中。

CAS610可以被视为方法集合（例如在Java或C++中实现为类），该集合将基于对象的表达性数据结构实现为抽象数据类型。优选地，CAS610设计主要基于TAE特性-属性结构，该结构提供用户定义的对象、属性和值以实现灵活性，提供静态类型层次结构以实现效率，并提供方法以便通过使用一个或多个迭代器来访问存储的数据。

通过CAS610实现的抽象数据模型除了其它特性之外，还为UIMA100提供：平台无关性（即，以声明方式独立于程序设计语言定义类型***）；性能优势（例如，当通过通用数据模型耦合以不同程序设计语言编写的注释器620时）；通过注释器620的输入/输出规范组成流程（其包括允许类型检查和错误检测的声明式规范，以及对注释器（TAE）作为服务模型的支持）；以及通过语义索引、搜索和检索支持第三代搜索过程（即，语义类型是声明式的，而非基于关键字的）。

CAS610为注释器620提供用于高效构建和搜索分析结构的工具。所述分析结构是数据结构，其主要包括描述原始文档的文本子序列的元数据。分析结构中的一种示例性元数据类型是注释。注释是用于对文本序列进行注释的对象（具有它自己的属性）。存在任意数量的注释类型。例如，注释可以根据其在文档结构中的角色（例如，单词、句子、段落等）标记文本序列，或者根据其语法角色（例如，名词、名词词组、动词、形容词等）描述文本序列。注释的数量或应用基本上没有限制。其它实例包括对文本段进行注释以将它们标识为正确的名称、位置、军事目标、时间、事件、设备、条件、时间条件、关系、生物关系、家庭关系或其它有意义或感兴趣的项目。

通常，注释器620的功能是分析文本以及现有分析结构以发现它旨在识别的新注释集合实例，然后将这些注释添加到分析结构以便由其它注释器620进一步处理。

除了注释之外，图7的CAS610还可以存储原始文档文本以及可能由注释器620产生的相关文档（例如，原始文档的翻译和/或概要）。优选地，CAS610包括扩展，这些扩展便于以既定格式（例如XML）导出分析结构的不同方面（例如，一组注释）。

更具体地说，CAS610是TAE中定义和存储文本注释的部分。应用和注释器620使用CAS API创建和访问注释。CAS API优选地包括至少三个不同的接口。类型***控制新类型的创建，并提供有关类型（继承）之间以及类型和特性之间的关系的信息。表1中提供了类型定义的一个非限制性实例。结构访问接口处理新结构的创建以及值的访问和设置。结构查询接口处理现有结构的检索。

类型***提供***已知的实体的分类，类似于面向对象的编程中的类层次结构。类型对应于类，特性对应于成员变量。优选地，类型***接口提供以下功能：添加新类型，方式为：为新类型提供名称并在层次结构中指定应附加新类型的位置；添加新特性，方式为：为新特性提供名称并给出该特性应附加到的类型，以及值类型；以及查询现有类型和特性以及它们之间的关系，例如“哪个（哪些）类型继承自该类型”。

优选地，类型***提供少量内置类型。如上所述，基本类型是整数、浮点和字符串。在Java实施方式中，这些类型分别对应于Java整数、浮点和字符串类型。还支持注释和基本数据类型数组。内置类型在结构访问接口中具有特殊的API支持。

结构访问接口允许创建新结构，以及访问和设置现有结构的值。优选地，提供该接口以便创建给定类型的新结构；针对给定结构获得和设置特性的值；以及访问用于内置类型的方法。为域提供特性定义，每个特性具有一个范围。

在一种备选环境中，可以将图1、2的模块表示为GATE（文本工程通用架构）中的功能组件（参见：http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.html）。Gate采用如下组件：属于可重用软件块并具有定义明确的接口，这些接口在概念上独立于GATE本身。所有组件集都是用户可扩展的，并统称为CREOLE—语言工程可重用对象集合。GATE框架是其中***CREOLE组件的底板。用户为***提供URL列表以便在它启动时进行搜索，并且***加载这些位置处的组件。在一个实施例中，仅加载它们的配置数据以便开始；当用户请求资源实例化时加载实际类。GATE组件是三种专用JavaBeans中的一种：1）Resource：顶级接口，其描述所有组件。所有组件的共有点是它们可以在运行时加载，并且组件集可由客户扩展。它们具有特性，这些特性以诸如RDF、纯XML或Java属性之类的格式在外部向***表示为“元数据”。在一个实施例中，资源可以全部是Java Beans。2）ProcessingResource：是可运行的资源，可以（经由RMI）远程调用并存在于类文件中。为了加载PR（处理资源），***应知道在何处查找类文件或jar文件（它们也包括元数据）；3）LanguageResource：是由数据组成的资源，通过Java抽象层访问。它们存在于关系数据库中；以及VisualResource：是可视Java Beans、GUI组件，包括主要GATE gui。与PR相同，这些组件存在于.class或.jar文件中。

在描述GATE处理模型时，其主要特性为算法特性的任何资源（例如解析器、生成器等）均被建模为处理资源。PR是实现Java可运行接口的资源。GATE可视化模型实现如下资源：其任务是显示和编辑被建模为可视资源的其它资源。GATE中的语料库模型是Java集合，其成员是文档。语料库和文档都是语言资源（LR）的类型，其中所有LR都具有与其关联的特性图（Java图），该图存储有关所述资源的属性/值信息。FeatureMap还用于经由注释模型将任意信息与文档范围（例如，文本块）关联。文档具有DocumentContent和一个或多个AnnotationSet，DocumentContent目前是文本（未来版本可能添加对视听内容的支持），AnnotationSet是Java集合。

作为UIMA，GATE可以用作基础以便实现自然语言对话***和多模式对话***（具有所公开的问答***作为主要子模块之一）。上面的参考资料（第6,829,603、6,983,252和7,136,909号美国专利，在此引入作为参考）使得本领域技术人员能够构建这种实施方式。

图10示出了其中可以采用本***和方法的计算***400的示例性硬件配置。所述硬件配置优选地具有至少一个处理器或中央处理单元（CPU）411。CPU411通过***总线412与以下各项互连：随机存取存储器（RAM）414、只读存储器（ROM）416、输入/输出（I/O）适配器418（用于将诸如磁盘机421和磁带驱动器440之类的***设备连接到总线412）、用户接口适配器422（用于将键盘424、鼠标426、扬声器428、麦克风432和/或其它用户接口设备连接到总线412）、通信适配器434（用于将***400连接到数据处理网络、因特网、内联网、局域网（LAN）等），以及显示适配器436（用于将总线412连接到显示设备438和/或打印机439（例如，数字打印机等））。

所属技术领域的技术人员知道，本发明的各个方面可以实现为***、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面参照根据本发明实施例的方法、装置（***）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的***、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

上面描述的实施例是示例性实例，不应当解释为将本发明限于这些特定的实施例。因此，所属技术领域的技术人员可以实现各种更改和修改，而不偏离在所附权利要求中限定的本发明的精神或范围。

Claims

1.一种用于自动生成问题答案的计算机实现的方法，所述方法包括以下步骤：

确定与输入查询关联的词法答案类型（LAT）；

使用具有半结构化内容的数据源获得所述输入查询的一个或多个候选答案；

确定来自所述半结构化内容的一个或多个获得的候选答案中的每个候选答案的词法类型（LT）；

比较查询LAT与候选答案LT；以及

生成表示所比较的查询LAT与所述候选答案LT之间的匹配度的得分，所述得分指示所获得的候选答案的质量，

其中处理设备自动执行所述确定查询LAT、计算候选答案、确定LT、比较以及生成步骤中的一个或多个。

2.根据权利要求1的计算机实现的方法，还包括：

在所述半结构化内容中标识一个或多个实体和关联的词法类型信息；以及

在与QA***通信的数据存储设备中存储实体-类型结构，每个实体-类型结构表示所述一个或多个实体和关联的词法类型信息，其中所述确定词法类型（LT）包括访问所存储的实体-类型结构，以便从与存储在所述实体-类型数据结构中的所述一个或多个实体关联的类型来标识词法类型（LT）。

3.根据权利要求2的计算机实现的方法，其中作为预处理步骤而脱机执行所述标识和存储。

4.根据权利要求2的计算机实现的方法，其中由QA***在接收所述输入查询时按需执行所述标识和存储。

5.根据权利要求1的计算机实现的方法，其中所述比较包括解析每个相应的查询LAT和候选答案LT，以便获得每个查询LAT和候选答案LT的相应术语或词组。

6.根据权利要求1的计算机实现的方法，其中所述比较包括匹配相应查询LAT和候选答案LT的个体术语，或匹配每个相应查询LAT和候选答案LT的完整词组。

7.根据权利要求6的计算机实现的方法，其中所述比较进一步包括：

确定相应的查询LAT和候选答案LT的哪些术语要用于术语匹配；

根据相应的查询LAT和候选答案LT的术语之间的匹配度，获得个体得分；

由所述处理设备组合所获得的针对词组匹配确定的所述匹配的得分。

8.根据权利要求6的计算机实现的方法，其中术语匹配是以下之一：聚合术语匹配或原始术语匹配。

9.一种用于为自动问答（QA）***使用的数据库提供内容的方法，所述方法包括：

自动标识来自数据源的半结构化文本数据；

从所述半结构化文本数据自动标识一个或多个实体-类型关系，所述实体-类型关系包括与类型关联的一个或多个实体；

自动提取所标识的实体-类型关系；以及

将所提取的实体-类型关系作为实体-类型数据结构存储在所述数据库中，

其中处理设备被配置为执行半结构化文本和实体-类型关系的所述自动标识、所述提取和所述存储。

10.根据权利要求9的方法，其中所述半结构化文本包括项目分隔标记，半结构化文本数据的所述自动标识包括：

解析所述数据源的内容以标识所述项目分隔标记，所述项目分隔标记指定形成实体-类型数据结构的类型信息和实体。

11.根据权利要求10的方法，其中所述项目分隔标记包括指定类型实体的“列表”一词的标题、头、详述、圆点标记、圆括号、超文本链接、统一资源定位符、所述数据源中的表。

12.根据权利要求10的方法，其中所述项目分隔标记包括表示包含指定类型实体的类别或子类别的标签。

13.根据权利要求10的方法，其中由所述处理设备作为脱机过程而执行半结构化文本和实体-类型关系的所述自动标识、所述提取和所述存储。

14.根据权利要求10的方法，还包括：

由所述处理设备实时使用所存储的实体-类型数据结构，以用于确定响应于到所述QA***的查询输入而计算的候选答案的质量。

15.根据权利要求14的方法，其中使用所存储的实体-类型数据结构包括：访问所存储的实体-类型数据结构，以便从与存储在所述实体-类型数据结构中的一个或多个候选答案实体关联的类型获得词法类型（LT），所述方法还包括：

在所述处理设备处接收由所述QA***接收的输入查询的词法答案类型（LAT）；

在所述处理设备处接收与从所存储的实体-类型数据结构获得的候选答案关联的词法类型（LT）；

由所述处理设备比较输入查询LAT与候选答案LT；以及

产生表示所述输入查询LAT和所述候选答案LT之间的匹配度的得分，所述得分指示所述候选答案的质量。

16.一种用于生成问题答案的***，所述***包括：

存储设备；

一个或多个处理设备，每个处理设备在操作上连接到所述存储设备并被配置为执行一种方法，所述方法包括：

确定与在自动问答（QA）***处接收的输入查询关联的词法答案类型（LAT）；

在所述一个或多个处理设备处比较查询LAT与候选答案LT；以及

生成表示所述查询LAT与所述候选答案LT之间的匹配度的得分，所述得分指示所获得的候选答案的质量。

17.根据权利要求16的***，其中所述处理器设备被进一步配置为：

在与所述QA***通信的数据存储设备中存储实体-类型结构，每个实体-类型结构表示所述一个或多个实体和关联的词法类型信息，其中所述确定词法类型（LT）包括访问所存储的实体-类型结构，以便从与存储在所述实体-类型数据结构中的所述一个或多个实体关联的类型来标识词法类型（LT）。

18.根据权利要求17的***，其中作为预处理步骤而脱机执行所述标识和存储。

19.根据权利要求17的***，其中由QA***在接收所述输入查询时按需执行所述标识和存储。

20.根据权利要求17的***，其中所述处理器设备被配置为解析每个相应的查询LAT和候选答案LT，以便获得每个查询LAT和候选答案LT的相应术语或词组。

21.根据权利要求16的***，其中所述比较包括匹配相应查询LAT和候选答案LT的个体术语，或匹配每个相应查询LAT和候选答案LT的完整词组。

22.根据权利要求20的***，其中所述处理设备被进一步配置为：

组合所获得的针对词组匹配确定的所述匹配的得分。

23.一种用于为自动问答（QA）***使用的数据库提供内容的***，所述***包括：

存储设备；

一个或多个处理设备，每个处理设备在操作上连接到所述存储设备并被配置为执行一种方法，以便：

自动标识来自数据源的半结构化文本数据；

自动提取所标识的实体-类型关系；以及

24.根据权利要求23的***，其中所述半结构化文本包括项目分隔标记，半结构化文本数据的所述自动标识包括：

25.根据权利要求24的***，其中所述项目分隔标记包括指定类型实体的“列表”一词的标题、头、详述、圆点标记、圆括号、超文本链接、统一资源定位符、所述数据源中的表。

26.一种生成问题答案的计算机实现的方法，所述方法包括：

接收输入查询；

执行自动查询分析，包括确定一个或多个查询词法答案类型（LAT）；

使用数据语料库自动获得所述输入查询的候选答案；

确定每个候选答案的一个或多个词法类型（LT）；

将一个或多个候选答案LT与一个或多个查询LAT相比较；以及

针对所比较的每个候选答案产生得分，所述确定每个候选答案的一个或多个词法类型包括：

自动标识来自数据源的半结构化文本数据；

自动提取所标识的实体-类型关系；以及

将所提取的实体-类型关系存储为实体-类型数据结构；以及其中所述比较包括：

将所述候选答案与所述实体-类型数据结构中的实体相匹配；

从与所述实体-类型数据结构中的这些实体关联的类型检索候选答案LT；以及

以下操作之一：匹配相应查询LAT和候选答案LT的个体术语，或匹配每个相应LAT和LT的完整词组，其中所述词组匹配包括一个或多个术语匹配；以及

根据所产生的得分返回一个或多个候选答案以便传送给用户。