CN103488671A

CN103488671A - 用于查询和集成结构化和非结构化数据的方法和***

Info

Publication number: CN103488671A
Application number: CN201310231310.XA
Authority: CN
Inventors: M·A·伯尼亚; S·段; J·J·范; A·福库-恩库彻; A·M·格里欧佐; A·卡雅恩普尔; A·凯门西斯迪斯; K·斯里尼瓦斯; M·J·沃德
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-06-11
Filing date: 2013-06-09
Publication date: 2014-01-01
Anticipated expiration: 2033-06-09
Also published as: US9037615B2; CN103488671B; DE102013209868B4; US20130332478A1; DE102013209868A1

Abstract

本发明涉及一种用于查询和集成结构化和非结构化数据的方法和***。所述方法包括：接收使用开域信息提取***从第一非结构化数据集合提取的实体信息，其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息；根据所述关系信息识别模式并根据所述模式创建所述第一非结构化数据集合的架构；以及如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度，则将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联。

Description

用于查询和集成结构化和非结构化数据的方法和***

相关申请的交叉引用

本申请涉及2010年5月14日提交的序号为12/780,663、代理人案号为SVL920100007US1、标题为“MAPPING OF RELATIONSHIPENTITIES BETWEEN ONTOLOGIES（本体之间的关系实体映射）”的美国专利申请，以及2010年10月21日提交的序号为12/909,264、代理人案号为YOR920100523US1、标题为“PERFORMING MAPPINGSACROSS MULTIPLE MODELS OR ONTOLOGIES（跨多个模型或本体执行映射）”的美国专利申请，这两个申请转让给同一受让人并且它们的全部内容在此纳入作为参考。

技术领域

本发明一般地涉及用于信息和数据管理的方法和***。更具体地说，本发明涉及用于集成和查询结构化和非结构化数据的方法和***。

背景技术

在许多应用中，无缝访问含有结构化和非结构化数据（例如，文本）的源中的信息变得更为重要。现有访问结构化和非结构化数据的方法一般分为两类。

第一类涉及使用通用查询接口，例如关键字查询或结构化查询。但是，单独查询每种源类型，即，针对结构化数据源和非结构化数据源执行独立查询。

尽管此类别中的多数技术可以根据结构化数据执行对关键字查询（当前盛行的非结构化文本查询接口）的评估，但是例如在Liu等人于2007年7月23日发表于WebDB的文献“Answering Structured Queries onUnstructured Data（回答关于非结构化数据的结构化查询）”中提出了一种使用结构化查询（例如，SPARQL）同时访问结构化和非结构化数据的技术。作者提出在无需根据结构化源做出任何转换的情况下发出结构化查询。根据Liu的理论，在首先转换为关键字查询之后，还使用标准的信息检索技术根据非结构化数据评估结构化查询。

第一类技术在用户接口层提供便利的集成，即，包含单个查询范例。但是，这些技术仅在数据层提供浅层次的集成；也就是说，没有跨结构化和非结构化源建立相关实体之间的连接。因此，在证据或支持数据分散于结构化和非结构化源中的情况下，不太可能检索完整的回答。

第二类涉及使用信息提取技术从非结构化数据提取结构化数据。因此，简化了同时无缝访问结构化和非结构化数据的问题，以便只访问结构化数据。

在根据公知的预定义架构（schema）执行信息提取阶段的情况下，第二类技术可以解决第一类技术的缺点。换言之，该信息提取阶段将包括从文本数据提取一组预定义的关键类型。尽管可以根据此类技术执行预定义架构与其它结构化架构之间的映射，但是，如果信息提取阶段未提供对固定关系类型集合的限制，则从非结构化数据产生的结构化数据将处于与其它可用结构化数据分离的状态。

发明内容

根据本发明的一方面，提供一种查询和集成结构化和非结构化数据的计算机实现的方法。所述方法包括：接收使用开域信息提取***从第一非结构化数据集合提取的实体信息，其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息；根据所述关系信息识别模式（pattern）并根据所述模式创建所述第一非结构化数据集合的架构（schema）；以及如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度，则将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联，从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接（link）。

根据本发明的另一方面，提供一种用于查询和集成结构化和非结构化数据的计算机实现的***。所述***包括：接收设备，其被配置为接收使用开域信息提取***从第一非结构化数据集合提取的实体信息，其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息；模式识别设备，其被配置为根据所述关系信息识别模式并根据所述模式创建所述第一非结构化数据集合的架构；以及元素关联设备，其被配置为在所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度的情况下，将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联，从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接。

根据本发明的又一方面，一种制品有形地包含计算机可读指令，所述计算机可读指令当被实现时，可导致计算机执行查询和集成结构化和非结构化数据的计算机实现的方法的各步骤。

附图说明

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。这些附图是：

图1是示出根据本发明的一个实施例的用于查询和集成结构化和非结构化数据的计算机实现的***的框图，其中所述***包括接收设备、模式识别设备和元素关联设备；

图2是示出使用开域信息提取***从第一非结构化数据集合提取的实体信息的框图；

图3A是示出根据本发明的一个实施例的模式识别设备如何根据已识别的模式创建架构的框图；

图3B是示出根据本发明的一个实施例的模式识别设备如何根据已识别的模式创建架构的一个实例的框图；

图4A是示出根据本发明的一个实施例的元素关联设备如何将所创建架构的元素与第二非结构化数据集合的实体相关联以产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体之间的链接的框图；

图4B是示出根据本发明的一个实施例的元素关联设备如何将所创建架构的元素与第二非结构化数据集合的实体相关联以产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体之间的链接的一个实例的框图；

图4C是示出根据本发明的一个实施例的实例级链接的一个实例的框图；

图4D是示出根据本发明的一个实施例的由查询设备构造的查询的框图；

图5是示出根据本发明的一个实施例的通过接收设备和作为元素关联设备一部分的映射设备接收映射规则的框图；

图6是示出根据本发明的一个实施例的通过接收设备接收阈值以及通过映射设备测量和分析特定相似度值以产生相似元素-实体之间的链接以及要检查的元素群集的框图；

图7是示出根据本发明的一个实施例的通过接收设备接收并通过映射设备结合反馈以产生改进后的映射规则集合的框图；

图8是示出根据本发明的一个实施例的包括用于查询和集成结构化和非结构化数据的***的一种计算机实现的***的框图；

图9是示出根据本发明的一个实施例的一种查询和集成结构化和非结构化数据的计算机实现的方法的流程图；以及

图10是根据本发明的一个实施例的用于执行所述方法的各步骤的计算机程序产品的图示。

具体实施方式

将容易理解，此处概括描述并在附图中示出的本发明的实施例可以以所述描述的当前优选实施例以外的各种不同配置排列和设计。因此，下面对附图中表示的本发明实施例的详细描述并非旨在限制所要求保护的本发明的范围，而是仅作为选定的本发明当前优选实施例的代表。下面的描述旨在举例，并且只是示出此处所要求保护的本发明的某些选定的当前优选实施例。

现在参考图1，框图示出根据本发明的一个实施例的一种用于查询和集成结构化和非结构化数据的计算机实现的***400。***400包括：接收设备405、模式识别设备410、元素关联设备415和查询设备430。

接收设备405被配置为接收使用开域信息提取***200从第一非结构数据集合100提取的实体信息300。实体信息300包括第一非结构化数据集合100的第一实体105-a与第二实体105-b之间的关系信息305。

现在参考图2，示出了使用开域信息提取***200从第一非结构数据集合100提取的实体信息300的框图。

非结构化数据是不具有预定样式的数据（例如，自然语言文本）。使用开域信息提取***提取非结构化数据是本领域中的现有技术。诸如TextRunner和Prismatic之类的开域信息提取***能够在不将提取过程限于一组预定义的关系类型的情况下，提供提取结果。因此，本发明的各实施例利用开域信息提取***的能力提供结构化和非结构化数据之间更紧密的数据集成。

在图2所示的实例中，第一非结构化数据集合100包括有关AlbertEinstein105-1、Richard Feynman105-2、Scientist105-3和Nobel Prize inPhysics105-5的文本信息。该第一非结构化数据集合100被输入开域信息提取***200。开域信息提取***200分析并整理该输入，然后输出实体信息300，此信息识别实体以及实体间的关系。由于开域信息提取***的技术并非本领域的新技术，因此将省略有关***如何分析和整理非结构化数据的描述。在图2中，实体信息输出实例为：<Albert Einstein><is aninstance of the type of><Scientist>（参见方框305-1）。在该实例中，<AlbertEinstein>和<Scientist>为实体，<is an instance of the type of>为这两个已识别的实体之间的关系。

返回参考图1，模式识别设备410被配置为根据关系信息305识别模式，并根据已识别的模式创建第一非结构化数据集合100的架构。

参考图3A，框图示出根据本发明的一个实施例的模式识别设备410如何根据已识别的模式500创建架构600。模式识别设备410接收实体信息300（包括关系信息305）作为输入以根据关系信息305创建模式500。模式识别设备410然后使用模式500创建包含一个或多个元素605的架构600。

根据图2所示的实例，参考图3B，模式实例500可以是“a scientist winsthe nobel prize in physics”（方框500-1）。该模式的架构实例600可以是“<Scientist><wins><Nobel Prize in Physics>”（方框605-1）。在该场景下，模式500包含两种情况，具体地说，<Albert Einstein><wins><Nobel Prizein Physics>（方框305-2）和<Richard Feynman><wins><Nobel Prize inPhysics>（方框305-4）。

使用链接和集成的全局架构帮助用户构造跨多个数据源的查询。当用户并不十分熟悉可用结构化和非结构化数据源中的可用信息时，此帮助尤其有用。此外，架构间链接在架构级建立各种数据源之间的连接并帮助在实例级识别可能的候选链接。在查询时使用链接和集成的全局架构以专注于实例级链接搜索，这使发现不同源中的实例数据之间的链接更加可伸缩。

参考图4A，元素关联设备415被配置为将所创建架构600的元素605与（i）第二非结构化数据集合700的实体705或（ii）现有结构化数据集合（未示出）的架构元素相关联。在图4A中，仅示出第二非结构化数据集合作为实例。作为关联的结果，产生所创建架构600与第二非结构化数据实体800之间的链接。

图4B示出根据本发明的一个实施例的元素关联设备415如何将所创建架构600的元素605-1与第二非结构化数据集合700的实体705-1、705-2、705-3、705-4、705-5、705-6、705-7相关联以产生所创建架构的元素605-1与第二非结构化数据集合的实体705-1、705-2、705-3、705-4、705-5、705-6、705-7之间的链接800的一个实例。

如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据的架构元素之间具有足够的整体相似度，则元素关联设备415执行关联。如果关联成功，在所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间产生链接。图4B所示的链接实例800示出三个元素“Albert Einstein”、“Richard Feynman”和“MarieCurie”。这些元素被视为类型“Researcher”的实例，而“Researcher”被视为类型“Scientist”的实例。实例级搜索可以在查询评估时执行，并且可以由查询设备430执行。

针对所有“Researcher”的实例级搜索将返回“Albert Einstein”、“Richard Feynman”和“Marie Curie”，尽管非结构化数据中显式地已知只有Curie为“Researcher”（Einstein和Feynman显式地已知为“Scientist”）。另一实例级搜索实例认识到“Maria Salomea Sklodowska”和“Marie Sklodowska-Curie”也应作为答案返回并指示“Maria SalomeaSklodowska”、“Marie Sklodowska-Curie”以及“Mrie Curie”实为同一人。参考图4C，其中示出下面的实例级链接实例：“MarieSklodowska-Curie”<->“Maria Salomea Sklodowska”<->“Mrie Curie”。

根据本发明的一个实施例的发现类型之间连接和相似度（例如，“Researcher”与“Scientist”之间的等价性）的技术缩小了实例级链接候选者的范围。例如，可建立“Maria Salomea Sklodowska”与“Mrie Curie”之间的实例级链接，因为它们之间具有很高的词汇和类型相似度。但是，不能在“Marie Curie High School”与“Marie Curie”之间建立实例级链接，因为它们的已知类型（即，“High School”与“Scientist”）之间的相似度相对较低，尽管这两个实例之间存在某种词汇相似度。

参考图4D，框图示出由查询设备430构造的查询432。查询432可被发送到下列数据库中的一个或多个：第一非结构化数据集合100、第二非结构化数据集合700、第三非结构化数据集合720、现有结构化数据集合730（图中的“第一现有结构化数据”），以及其它现有结构化数据集合740（图中的“第二现有结构化数据”）。

在图4C和图4D所示的实例中，查询设备430接收所创建的架构600和所创建的链接800作为输入。

参考图5，框图示出根据本发明的一个实施例的通过接收设备405和作为元素关联设备415一部分的映射设备420接收映射规则集合900。映射设备420被配置为根据映射规则集合900，将所创建架构的元素605映射到第二非结构化数据实体705或现有结构化数据集合（未示出）的架构元素。作为映射的结果，产生链接800。可以使用现有的映射技术将所创建架构的元素605映射到第二非结构化数据实体705或现有结构化数据集合的架构元素。

参考图6，框图示出根据本发明的一个实施例的也通过接收设备405接收的阈值910。通过映射设备420测量和分析特定“相似度值”950、955、960、965以产生相似元素-实体972与要检查的元素群集974之间的链接800。这些相似度值包括词汇相似度950、文档相似度955、语义相似度960和结构相似度965。

词汇相似度950是两个待比较架构元素的名称之间的相似度的度量。为此，可使用基于文本的标准相似度度量，例如，编辑距离或n元词的杰卡德（Jaccard）相似度。

文档相似度955是两个待比较架构元素的文档之间的相似度的度量。为此，使用关于tf-idf词向量的标准信息检索余弦测量。

当词语（例如，词网）的分层组织可用时，可计算两个词之间的语义相似度960作为它们在层次结构中的相互接近程度的度量。

结构相似度965测量两个待比较架构元素的内部结构之间的相似度。

将相似度值950、955、960、965与阈值910进行比较以判定是否具有足够的整体相似度970。阈值初始可以指定为映射模型的输入，并且可以在***经用户反馈了解特定域中的最佳阈值之后而随时间自动调整。

如果具有足够的整体相似度970，则将所创建架构的元素605与第二非结构化数据实体（705）或现有结构化数据集合（未示出）的架构元素组合成包含相似元素或元素-实体组合的组972。但是，如果没有足够的整体相似度，则将所创建架构的元素605与第二非结构化数据实体（705）或现有结构化数据集合（未示出）的架构元素聚集为需要进一步检查的组。进一步的检查可以涉及用户反馈以评估包含元素或元素-实体组合的组为何没有足够的相似度。

参考图7，框图示出根据本发明的一个实施例的通过接收设备405接收并通过映射设备420结合以产生改进后的映射规则集合902的反馈980。可通过使用学习算法（例如，逻辑回归）结合用户反馈改进映射。学习算法根据用户反馈计算出不同相似度测量值的最佳权重。可在用户显式拒绝或接受***产生的映射时获取用户反馈。

参考图8，框图示出根据本发明的一个实施例的包括用于查询和集成结构化和非结构化数据400的***的一种计算机实现的***1000。

将理解，计算***1000可以包括计算设备，其中包括—但不限于—桌面计算机、膝上型计算机、服务器、便携式手持设备或其它任何电子设备。为简化说明，本发明的一个实施例将在计算机1010的上下文中进行描述。

计算机1010被示为包括处理器1020、与存储控制器1060耦合的存储器1040、一个或多个输入和/或输出（I/O）设备、通过本地输入/输出控制器1120通信耦合的***设备1080、1100，以及与显示器1160耦合的显示控制器1140。在一个示例性实施例中，***1000可以还包括用于耦合到网络1200的网络接口1180。网络1200在计算机1010与外部***之间发送和接收数据。在一个示例性实施例中，传统的键盘1220和鼠标1240可与输入/输出控制器1120耦合。

在各种实施例中，存储器1040存储可被处理器1020执行的指令。存储器1040中存储的指令可以包括一个或多个单独的程序，每个程序包括用于实现逻辑功能的一系列有序的可执行指令。在图8的实例中，存储器1040中存储的指令包括至少一个适当的操作***（OS）1260以及查询和集成***400。操作***1260基本控制其它计算机程序的执行并提供调度、输入-输出控制、文件和数据管理、内存管理、通信控制以及相关服务。

当计算机1010执行操作时，处理器1020被配置为执行存储器1040中存储的指令，将数据发送到存储器1040以及从存储器1040接收数据，根据指令总体上控制计算机1010的操作。处理器1020可以是任何定制的或商用处理器、中央处理单元（CPU）、与计算机1010关联的多个处理器之间的辅助处理器、基于半导体的微处理器（采取微芯片或芯片组的形式）、宏处理器，或者总体上包括任何执行指令的设备。

处理器1020执行根据本发明的一个实施例的查询和集成***400的指令。在各种实施例中，本发明的查询和集成***400存储在存储器1040（未示出）中，通过便携式存储设备（例如，CD-ROM、软盘、闪存盘等）（未示出）执行，以及/或者从远端位置（例如通过中央服务器（未示出））运行。查询和集成***400可以是执行过程的软件应用，如下面参考图9描述的。在本发明的某些实施例中，存储器1040还存储诸如结构化和非结构化数据之类的数据。

参考图9，流程图示出根据本发明的一个实施例的一种查询和集成结构化和非结构化数据的计算实现的方法2000。

在步骤2005，所述方法执行接收使用开域信息提取***从第一非结构化数据集合提取的实体信息的步骤。如上文参考本发明的其它实施例说明的，实体信息包括第一非结构化数据集合的第一实体与第二实体之间的关系信息。

在步骤2010，所述方法执行根据关系信息识别模式并根据模式创建第一非结构化数据集合的架构的步骤。

在步骤2015，所述方法执行以下步骤：如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度，则将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联，从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接。

所述关联步骤2015可以包括以下步骤：接收映射规则集合（2020），以及根据该映射规则集合，将所创建架构的所述元素映射到（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素以产生所述链接（2025）。

所述映射步骤（2025）可以包括以下步骤：测量所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素之间的词汇相似度、文档相似度、语义相似度和结构相似度，以根据给定阈值判定是否存在足够的整体相似度（2040）。

如果具有足够的整体相似度，所述方法执行以下步骤：将所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素组合成包括相似元素或元素-实体组合的组，从而产生所述链接（2050）。

如果没有足够的整体相似度，所述方法执行以下步骤：将所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素聚集成待检查的组（2055）。

所述测量（2040）、组合（2050）和聚集（2055）步骤基于所接收的映射规则。

所述关联步骤（2015）可以进一步包括以下步骤：接收有关所述映射的结果的反馈（2030）并根据所述反馈改进所述映射规则以产生改进后的映射规则（2035）。

方法2000可以进一步包括以下步骤：构造要发送到一个或多个数据库的查询，所述数据库可以包括所述第一非结构化数据集合、所述第二非结构化数据集合、第三非结构化数据集合、所述现有结构化数据集合和/或另一现有结构化数据集合。

方法2000还可以包括在查询评估时搜索实例级链接的步骤2065。

所属技术领域的技术人员知道，本发明的各方面可以实现为***（如上所述）、方法或计算机程序产品。因此，本发明的各方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。此外，本发明的各方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

图10示出根据本发明的各实施例的用于执行方法2000的各步骤的计算机程序产品3000。计算机程序产品3000包括用于执行上述这些方法的步骤的计算机程序指令3200。如图所示，计算机程序指令3200存储在如下所述的计算机可读存储介质3100中。

可以采用一个或多个计算机可读介质的组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括以下项：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

Claims

1.一种查询和集成结构化和非结构化数据的计算机实现的方法，所述方法包括：

接收使用开域信息提取***从第一非结构化数据集合提取的实体信息，其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息；

根据所述关系信息识别模式并根据所述模式创建所述第一非结构化数据集合的架构；以及

如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度，则将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联，从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接。

2.根据权利要求1的方法，其中关联步骤包括：

接收映射规则集合；以及

根据所述映射规则集合，将所创建架构的所述元素映射到（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素以产生所述链接。

3.根据权利要求2的方法，其中映射步骤包括：

测量所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素之间的词汇相似度、文档相似度、语义相似度和结构相似度，以根据给定阈值判定是否存在所述足够的整体相似度；

如果存在所述足够的整体相似度，则将所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素组合成包括相似元素或元素-实体组合的组，从而产生所述链接；以及

如果没有足够的整体相似度，则将所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素聚集成待检查的组，

其中测量、组合和聚集步骤基于所述映射规则。

4.根据权利要求2的方法，其中关联步骤进一步包括：

接收有关所述映射的结果的反馈；以及

根据所述反馈改进所述映射规则集合以产生改进后的映射规则集合。

5.根据权利要求1的方法，还包括构造要发送到数据库的查询，所述数据库选自包括以下项的组：

所述第一非结构化数据集合，

所述第二非结构化数据集合，

第三非结构化数据集合，

所述现有结构化数据集合，以及

另一现有结构化数据集合。

6.根据权利要求1的方法，还包括在查询评估时搜索实例级链接。

7.一种用于查询和集成结构化和非结构化数据的计算机实现的***，所述***包括：

接收设备，其被配置为接收使用开域信息提取***从第一非结构化数据集合提取的实体信息，其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息；

模式识别设备，其被配置为根据所述关系信息识别模式并根据所述模式创建所述第一非结构化数据集合的架构；以及

元素关联设备，其被配置为在所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度的情况下，将所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素相关联，从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接。

8.根据权利要求7的计算机实现的***，其中：

所述接收设备被进一步配置为接收映射规则集合；以及

所述元素关联设备包括映射设备，所述映射设备被配置为根据所述映射规则集合，将所创建架构的所述元素映射到（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素以产生所述链接。

9.根据权利要求8的计算机实现的***，其中：

所述接收设备被进一步配置为接收用于确定架构元素之间的整体相似度的阈值；以及

根据所述映射规则，所述映射设备被进一步配置为：

测量所创建架构的所述元素与（i）所述第二非结构化数据集合的所述实体或（ii）所述现有结构化数据集合的所述架构元素之间的词汇相似度、文档相似度、语义相似度和结构相似度，以根据所述阈值判定是否存在所述足够的整体相似度；

如果没有足够的整体相似度，则将所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素聚集成待检查的组。

10.根据权利要求7的计算机实现的***，还包括查询设备，其被配置为构造要发送到数据库的查询，所述数据库选自包括以下项的组：

所述第一非结构化数据集合，

所述第二非结构化数据集合，

第三非结构化数据集合，

所述现有结构化数据集合，以及

另一现有结构化数据集合。

11.根据权利要求10的计算机实现的***，其中所述查询设备被进一步配置为在查询评估时搜索实例级链接。

12.根据权利要求9的计算机实现的***，其中所述映射设备包括逻辑设备，所述逻辑设备被配置为判定在所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间具有所述足够的整体相似度还是没有足够的整体相似度。

13.根据权利要求8的计算机实现的***，其中

所述接收设备被进一步配置为接收有关所述映射的结果的反馈；以及

所述映射设备被进一步配置为将有关所述映射的反馈结合到所述映射规则集合中以及产生改进后的映射规则集合。