CN105723366A

CN105723366A - 用于准备用于搜索数据库的的方法以及用于执行向所连接的数据源的查询的和方法

Info

Publication number: CN105723366A
Application number: CN201480063570.3A
Authority: CN
Inventors: O.赫格
Original assignee: Agfa HealthCare NV
Current assignee: Agfa HealthCare NV
Priority date: 2013-11-22
Filing date: 2014-11-10
Publication date: 2016-06-29
Anticipated expiration: 2034-11-10
Also published as: WO2015074906A1; US20160292358A1; CN105723366B; EP3072064A1

Abstract

一种用于执行向以RDF兼容格式并且使用预设第一概念存储信息的所连接的数据源（120）的查询的***（特别地是医学信息***）包括：-用于从用户接收语义查询（300）的输入构件（130），其中语义查询（300）包括特定用户术语的预限定第二概念；-处理构件（110），其包括用于将从输入构件（130）所接收的语义查询（300）转换成使用适于RDF兼容格式的查询语言并且包括第一概念的数据库查询的转换器模块（114），并且通过执行数据库查询来搜索所连接的数据源（120）；以及-输出构件（140），其用于输出由处理构件（110）从所连接的数据源（120）检索的搜索结果（380）。借助于本发明，有可能以减少的处理能力和时间基于使用特定用户术语的语义查询来执行高效的数据库搜索。

Description

用于准备用于搜索数据库的***的方法以及用于执行向所连接的数据源的查询的***和方法

本发明涉及用于准备用于搜索数据库的***的方法、用于执行向所连接的数据源的查询的***、以及用于执行向所连接的数据源的查询的方法，每一个特别地处于保健环境中。

在过去，在医院中使用的信息***习惯于主要是开账单驱动的。不过，在患者治疗期间，在这些***中收集并且存储大量医学数据。然而，在最近几年，已经存在从仅用于管理目的的医院信息***朝向更专用的临床信息***的转变以支持临床工作流和决策制定。特别地，已经存在使所存储的数据可用于临床评估并且在医学工作人员的日常工作处支持医学工作人员的趋势。

现代临床***争取为其用户提供临床决策支持。例如，它们可以提供针对适当治疗的建议，基于规则在后台中分析变得可用于患者的新数据（例如实验室值）并且报告异常，针对似真性（plausibility）检查用户输入，支持用户输入具有合理默认值的新数据或者***已经知晓的数据等等。另外，医学数据不仅存储在医院中而且在全科医生的医业（practice）、私人专家的医业以及其它保健环境处，例如老年人家里。许多新数据库必须集成以改进数据质量或者提供特定信息。

对于所有那些高级应用而言，对患者的临床数据的可靠访问是关键的。而且，变得越来越急需的是连接不同数据库，不仅在单独患者等级上而且在群体等级上，以执行例如流行病学研究来支持策略制定。然而，不同信息***中的数据结构可能彼此非常不同并且可能具有非常复杂的数据结构或模型。因而，实现的复杂性涉及可以从由相应信息***所使用的数据库访问信息的方式。实现的复杂性继而对信息***的所要求的处理能力和时间具有影响。

本发明的目的是提供用于以减少的处理能力和时间执行向所连接的数据源的查询的改进概念。

该目的通过根据独立权利要求的方法和***而实现。

根据本发明的用于准备用于搜索数据库的***的方法包括以下步骤：

-分析要搜索的包含信息的数据库的数据结构；

-创建以RDF兼容格式并且使用第一概念存储数据库中所包含的信息的数据源；

-分析和/或考虑包括第二概念的特定用户术语（terminology）；

-创建针对每一个第二概念与至少一个第一概念的相关性；以及

-将所创建的相关性作为注释（annotation）数据存储在存储器中。

根据本发明的用于执行向以RDF兼容格式并且使用预设第一概念存储信息的所连接的数据源的查询的***包括：

-用于从用户接收语义查询的输入构件，其中语义查询包括特定用户术语的预限定第二概念；

-处理构件，其包括用于将从输入构件所接收的语义查询转换成使用适于RDF兼容格式的查询语言并且包括第一概念的数据库查询的转换器模块，并且通过执行数据库查询来搜索所连接的数据源；以及

-输出构件，其用于输出由处理构件从所连接的数据源检索的搜索结果。

根据本发明的用于执行向以RDF兼容格式并且使用预设第一概念存储信息的所连接的数据源的查询的方法包括以下步骤：

-从用户接收语义查询，其中语义查询包括特定用户术语的预限定第二概念；

-将所接收的语义查询自动转换成使用适于RDF兼容格式的查询语言并且包括第一概念的数据库查询；

-通过执行数据库查询来搜索所连接的数据源；以及

-输出从所连接的数据源检索的搜索结果。

本发明基于以下方案：创建使一方面具有数据结构的特定用户术语的概念和另一方面要搜索的包含信息的数据库的概念相关的注释数据和规则。为了以高效方式实现本发明的该概念，存在注释的两个步骤。第一，数据源必须被准备成使用RDF兼容格式和预设第一概念存储包含在一个或多个数据库中的信息。第二，包括预限定第二概念的特定用户术语必须被分析和/或考虑以用于创建针对每一个第二概念与至少一个第一概念的相关性来使得能够将由用户所输入的语义查询自动转换成在所准备的数据源处要执行的数据库查询。

作为总结，呈现了搜索数据库的高效方式而不需要用户知晓要搜索的数据库的特定术语和特定数据结构。基于预先执行的两个步骤注释过程，信息***可以以非常快速且高效的方式执行用户的语义查询。作为结果，可以减少所要求的处理能力和时间，从而节省能量和时间。

本发明的方法和***可以优选地使用在保健环境中，比如医院信息***（HIS）。

结合本发明，使用以下简写：“RDF”涉及资源描述框架，并且“SPARQL”涉及SPARQL协议和RDF查询语言。

要搜索的包含信息的数据库可以是使用任意数据结构、数据模型和概念的任何种类的数据库。在数据库中，数据可以以RDF兼容格式存储或者并非如此。例如，在保健环境中，数据库可以是命名为的Agfa保健的临床信息管理***的部分。

基于要搜索的包含信息的数据库所创建的数据源可以是物理数据源（诸如存储在信息管理***、存储器盘、存储器棒等中的数据库），或者是虚拟数据源（诸如存储在web（网络）服务器（例如SPARQL端点）等上的数据库）。在数据源中，包含在数据库中的信息使用第一概念（或者专门名词（term）或术语）以RDF兼容格式或RDF格式存储。RDF兼容格式适于由使用RDF兼容语言的数据库查询来搜索。

特定用户术语是由特定信息***的用户所使用的任何预限定的术语。用户术语使用第二概念（或专门名词）。特定用户术语适于确定（formulate）语义查询。例如，在保健环境中，用户术语可以是完善建立的标准SNOMEDCT、LOINC（逻辑观察标识符名称和代码）或ICD（疾病和相关健康问题的国际统计学分类）中的一些。用户可以是专业工作人员（例如临床管理人员、受教育的护士、医生和药剂师）或者消费者（例如患者）。

特定用户术语的每一个预限定的第二概念可以与数据源的一个或多个预设第一概念相关。

输入构件可以是键盘、鼠标、触摸屏等，优选地是用户终端的部分。输出构件可以是监视器、打印机、扬声器等，优选地是用户终端的部分。

根据本发明的优选实施例，针对每一个第二概念与包括至少一个第一概念的至少一个查询模板的相关性被创建并且作为注释规则存储在存储器中。该实施例基于将特殊（特别地SPARQL）查询模板用于从术语向信息***的数据模型元素分配概念的方案。作为结果，当针对特定概念查询时，查询服务检索与讨论中的概念相关联的SPARQL模板，填入当前参数，并且在由***所提供的SPARQL端点上执行它们（这样的SPARQL端点的可用性是优选的前提）。这提供用于存储使得在底层数据结构上直接生成查询的注释数据的高效方式。

根据本发明的另一优选实施例，分析要搜索的包括信息的至少两个数据库的数据结构，并且数据源被创建成以RDF兼容格式并且使用第一概念存储至少两个数据库的信息。作为结果，甚至存在用于执行向基于两个或更多数据库的所连接数据源的查询的处理能力和时间方面的减少。

根据本发明的另一优选实施例，分析和/或考虑包括第二概念的至少两个不同的特定用户术语。以此方式，可以借助于两个或者更多不同的用户特定术语而高效地搜索数据库。

根据本发明的又另一优选实施例，处理构件包括用于存储使每一个第二概念与至少一个第一概念相关的预限定注释数据的存储器和/或用于存储使每一个第二概念与包括至少一个第一概念的至少一个查询模板相关的预限定注释规则的存储器。以此方式，转换步骤可以优选地使用使每一个第二概念与至少一个第一概念相关的预限定注释数据和/或使每一个第二概念与包括至少一个第一概念的至少一个查询模板相关的注释规则。

根据本发明的又另一优选实施例，处理构件包括转换器模块，其用于将从所连接的数据源检索的包括第一概念的搜索结果转换成包括第二概念的搜索结果格式。通过该构件，搜索结果优选地通过使用第二概念即使用特定用户术语而输出。

优选地，***包括用户终端，其包括输入构件和处理构件。

另外，优选的是，适于RDF兼容格式的查询语言是SPARQL或SPARQL兼容语言。

本发明的另外的优点、特征和示例将参照附图根据以下描述而显而易见。在附图中：

图1示出用于执行向所连接的数据源的查询的***的示例性实施例的框图；

图2示出用于图示根据本发明的注释数据和规则的创建的示意图；

图3示出用于图示根据本发明的搜索数据库的过程的示意图；

图4示出要搜索的包含信息的数据库的数据结构的示例性实施例的示意图；

图5示出使用的概念查询服务的高级架构；以及

图6示出用于存储注释数据的图示。

图1示出根据本发明的用于搜索数据库的***的示例。

用于搜索数据库的***包括用户终端100，其包括诸如计算机之类的处理构件110、诸如键盘之类的输入构件140、以及诸如监视器和/或打印机之类的输出构件140。处理构件110连接到数据源120，例如SPARQL端点，其以RDF兼容格式存储信息并且基于数据库（例如）而创建。

用户可以在输入构件130处输入语义查询300。语义查询300被转发给处理构件110的通信模块116。由处理构件100生成的搜索结果380从通信模块116转发给输出构件140。

另外，处理构件110包括与数据源120通信的搜索模块112、适于将所接收的语义查询300转换成数据库查询的转换器模块114、以及用于存储要由转换器模块114使用的注释数据和注释规则的存储器118。

参照图2，更详细地解释这样的***的准备。首先，分析要搜索的包含信息的数据库125的数据结构200。然后，通过以RDF兼容格式（其可以通过SPARQL或SPARQL兼容语言来搜索）并且使用第一概念210存储数据库125中所包含的信息来创建数据源120。为了创建数据源120，执行注释过程220，其使数据库125的数据结构200与数据源120的第一概念210和RDF格式相关。

由于SPARQL的固有结构，在类和性质方面描述数据。用于实现数据源120的注释过程220必须提供从数据库125的数据结构200的元素向数据源120的数据结构中的类和性质的映射。这可以是1:1映射或者更复杂的映射。

而且，可以分析两个或更多数据库125。在该情况下，注释过程220提供所有数据库125的数据结构200向数据源120的数据结构中的类和性质的映射。

另一方面，利用注释过程，分析和/或考虑包括第二概念235的特定用户术语230。针对用户术语230的每一个第二概念235与数据源120的至少一个第一概念210而创建对应相关性，并且将其存储在存储器118中（注释过程240）。在更复杂的***中，针对用户术语230的每一个第二概念235与包括数据源120的至少一个第一概念210的至少一个查询模板而创建相关性，并且将其作为注释规则存储在存储器118中。

注释过程220、240可以手动地执行，或者自动地执行——如果数据库125的数据结构200具有某一或已知结构的话。在数据库125的情况下，自动注释过程220、240是可能的，因为医学数据主要存储在分级结构中。

如图4中所图示的，在分级的顶部处，存在例如患者类。此处使用的数据源120的第一概念210是“患者”。数据库125的数据结构200例如包括数据元素202“姓”和“名”，每一个包括对应参数值204。每一个患者可以具有任意数目的医学类。医学类可以包含针对临床决策支持相关的数据，诸如诊断、手续（procedure）、手术信息、实验室数据以及任何更多的数据。

通过从根部向要注释的性质导航该分级，可以以简单的方式生成SPARQL查询。在查询不应当返回在数据源中所找到的所有值的数据而是应当返回例如仅属于特定患者或医学案例的值的数据的情况下，生成对应过滤器。此处再次，的分级结构使得有可能自动地生成这些过滤器。

参照图1和3，现在更详细地解释执行查询。

首先，用户在输入构件130处输入语义查询300，其包括特定用户术语230的预限定第二概念230。该语义查询300经由通信模块116而转发给处理构件110的转换器模块114。转换器模块114自动地将所接收的语义查询300转换成使用SPARQL并且包括数据源120的第一概念210的数据库查询340。当这样做时，转换器模块114针对存储在存储器118中的注释数据和注释规则320进行恢复（revert）。

特别地，用户可以在语义查询300中输入期望的患者和/或医学案例作为参数。转换器模块114将这些参数值输入到从存储器118所获取的对应SPARQL查询模板中。

数据库查询340然后被转发给处理构件110的搜索模块112，其然后基于经转换的数据库查询340而搜索所连接的数据源120。搜索模块112从所连接的数据源120检索对应的搜索结果。

该搜索结果被转发回到处理构件110的转换器模块114。转换器模块114自动地将搜索结果转换成使用包括第二概念235的特定用户术语230的搜索结果380。当这样做时，转换器模块114再次针对存储在存储器118中的注释数据和注释规则320进行恢复。经转换的搜索结果380然后经由通信模块116转发给输出构件140。

尽管数据库125可以具有复杂的数据结构200和/或数据模型，但是***使得用户能够使用特定用户术语230输入语义查询300并且虑及使用特定用户术语230向用户输出搜索结果380。特别地，用户不需要知晓要搜索的包含信息的数据库125的复杂数据结构200。用户甚至不需要具有关于在数据源120中所使用的第一概念210和SPARQL的知识。作为结果，基于预先执行的两个步骤注释过程，信息***可以以非常快速且高效的方式执行用户的语义查询，使得可以减少所要求的处理能力和时间，从而节省能量和时间。

在下文阐明本发明的附加或可替换的方面和优点。

本发明优选地涉及从复杂临床信息***查询医学数据。然而，其也适用于其它领域。

在过去，在医院中使用的信息***习惯于主要是开账单驱动的。不过，在患者治疗期间，在这些***中收集并且存储大量医学数据。最近，存在使该数据可用于临床评估并且在医学工作人员的日常工作处支持医学工作人员的趋势。现代临床信息***争取为其用户提供临床决策支持，例如它们可以

-提供针对适当治疗的建议，

-基于规则在后台中分析变得可用于患者的新数据（例如实验室值）并且报告异常，

-针对似真性检查用户输入，和/或

-支持用户输入具有合理默认值的新数据或***已经知晓的数据。

对于所有这些高级应用而言，对患者的临床数据的可靠访问是关键的。因此，实现的复杂性与可以从由临床信息***所使用的数据结构访问数据的方式相关。然而，出于各种理由，临床信息***趋向于具有非常复杂的数据模型。例如，***已经在较长的时间段之上开发，因而其数据模型已经有机地增长。另外，已经由不同开发团队使用其自身的特定惯例开发了不同模块。而且，多个技术在使用中。此外，为了在高程度上支持其顾客的过程，***必须是可定制的。这可能引起甚至允许用户限定其自身的数据结构那么远。因为这样的结构不处于***的控制之下，所以其具体语义含义本身未知。

为了允许基于其语义含义处理复杂数据，本发明优选地使用被称为语义web的技术方案。该技术的部分是SPARQL，用于语义数据的标准化查询语言。通过SPARQL端点暴露其数据的***可以以通用方式被查询。然而，这仅是解决方案的部分，因为查询必须根据由***所使用的数据模型来确定；因此为了查询数据，仍旧必须知晓讨论中的***的（复杂）底层数据模型。

为了解决该特定问题，本发明提出一种与其具体存储结构独立地但是基于其语义含义查询数据的方式。为此目的，使用语义web技术集的另一部分：术语。术语列出在特定领域内使用的专门名词（还命名为“概念”）并且向它们分配含义。通过使临床信息***的数据模型的元素与来自术语的专门名词相关联——被称为注释的过程——，其可以被分配含义。对于医学领域，已经存在可以被用于该目的多个术语，比如SNOMEDCT、LOINC或ICD。

作为结果，经注释的数据可以容易地由应用访问，从而提供临床决策支持。假设查询服务就位，则那些应用不必知晓它们要求的数据存储在哪里以及如何存储，但是可以仅针对特定术语概念进行查询。这有效地“隐藏”底层数据模型的复杂性。

为了使得能够实现该方案，提出一种维持用于信息***的数据结构的注释数据的机制。优选地，所谓的知识工程师限定***的数据模型元素的含义并且创建注释数据。查询服务访问以该方式创建的注释数据并且将其翻译成实际物理数据结构上的查询。

作为总结，本发明优选地涉及一种用于向复杂数据模型的元素分配语义含义的方案。分配方法针对语义查询的执行而优化。在相符的方法或***中：

-语义概念与数据模型的特定实体相关联，

-针对语义概念的查询直接被翻译成SPARQL查询，并且

-SPARQL查询然后在要查询的信息***所提供的SPARQL端点上执行。

优选地，本发明限定一种用于存储使得在底层数据结构上直接生成查询的注释数据的高效方式。优选的基本想法是将特殊SPARQL查询模板用于将概念从术语分配给信息***的数据模型元素。当针对特定概念查询时，查询服务检索与讨论中的概念相关联的SPARQL模板，填入当前参数，并且在由***所提供的SPARQL端点上执行它们（这样的SPARQL端点的可用性是优选的前提）。这在下文更详细地描述。

本发明优选地假定要查询的***提供暴露感兴趣的所有数据的SPARQL端点。SPARQL端点构建在其上的数据模型可以是任意复杂的；然而，由于SPARQL的固有结构，在类和性质方面描述数据。SPARQL端点的实现已经必须提供从***的数据模型的元素到端点的模型中的类或性质的映射——这可以是1:1映射或者更复杂的映射。

有可能以结果集合包含仅来自特定类的数据或者甚至仅特定类的特定性质值的方式确定SPARQL查询。这基本上意味着查询选择数据模型的单个元素。通过使这样的SPARQL查询与来自术语的概念相关联，对应数据模型元素的注释被有效地建立。以该方式维持的注释数据不仅输送某一数据模型具有特定语义含义的信息，而且同时还提供用于查询针对该元素所存储的数据而必要的信息。

因此，本发明的基本方案涉及使用SPARQL来引用要注释的数据模型元素以及充当针对查询服务的输入以用于执行语义查询。

引用特定数据模型元素的SPARQL查询可以手动地创建或者自动地生成——如果要查询的***的数据模型具有某一结构的话。对于（本发明优选地实现在其中的***），自动SPARQL查询生成是可能的。此处，医学数据主要存储在分级结构中。在分级的顶部处是患者类。每一个患者具有任意数目的医学案例。医学案例包含针对临床决策支持相关的数据，诸如诊断、手续、手术信息、实验室数据以及许多更多的数据。

通过从根部向要注释的性质导航该分级，可以生成以下通用结构（以伪代码）的SPARQL查询——此处使用实验室值的代码作为示例：

。

因为查询不应当返回在数据库中所找到的所有值的数据而是应当返回仅属于特定患者或医学案例的值的数据，所以生成对应过滤器。此处再次，数据模型的分级结构使得有可能自动地生成这些过滤器。在查询执行时间，期望的患者和/或医学案例的ID被调用者提供为参数。查询服务可以在所生成的过滤器条件中输入这些值。因此，用于限定注释数据的SPARQL实际上是模板而不是有效SPARQL查询；其通过***参数值而变为可执行查询。

优选地，语义查询服务的实现如下那样工作：

-服务预期其数据要被检索的语义概念的唯一标识符作为输入。（有可能支持多个术语；在该情况下，可以使用术语代码和概念标识符的组合）。此外，可以传入（passin）另外的过滤器参数，比如患者ID或医学案例ID。

-服务咨询其注释信息以检索与要查询的概念相关联的（多个）SPARQL模板。

-在SPARQL中，参数被由调用者所传递的当前值替换。

-结果所得的SPARQL查询被发送到***的SPARQL端点。

-结果被返回给调用者。

图5的图示出了使用作为具体示例的这样的概念查询服务的高级架构。该图还示出了负责维持注释数据的概念映射服务；其还可以由注释编辑器工具所访问。SPARQL端点可以在数据库上执行SPARQL查询。

基于该描述，注释数据可以存储在以下结构中，例如在关系数据库中，如图6中所图示的。

必须指出的是，存在概念与SPARQL查询之间的1：n关系。这是由于以下事实：要查询的***的数据模型可以在其数据结构中具有某种冗余度，即，其在不同物理存储结构中包含具有相同语义含义的多个元素。在该情况下，必须检索所有这些元素的数据。这可以通过逐个地执行针对当前概念所获取的所有SPARQL查询并且组合所产生的结果集合来完成。

与现有技术相区分，在不知晓用于使来自外部术语的概念与数据模型的元素相关联的标准方式或格式的情况下，本发明限定这可以如何实现的实用方法并且其还简化用于查询分配给这些概念的数据的服务的实现。本发明可以应用于提供用于数据访问的SPARQL端点的所有***，从而给出***在语义含义上操作的模型的元素。

Claims

1.一种用于准备用于搜索数据库的***的方法，所述***特别地是医学信息***，所述方法包括以下步骤：

-分析要搜索的包含信息的数据库（125）的数据结构（200）；

-创建以RDF兼容格式并且使用第一概念（210）存储数据库（125）中所包含的信息的数据源（120）；

-分析包括第二概念（235）的特定用户术语（230）；

-创建针对每一个第二概念（235）与至少一个第一概念（210）的相关性；以及

-将所创建的相关性作为注释数据（240）存储在存储器（118）中。

2.根据权利要求1的方法，还包括以下步骤：

-创建针对每一个第二概念（235）与包括至少一个第一概念（210）的至少一个查询模板的相关性；以及

-将所创建的相关性作为注释规则（320）存储在存储器（118）中。

3.根据权利要求1的方法，其中

分析要搜索的包括信息的至少两个数据库（125）的数据结构（200）；并且

数据源（120）被创建成以RDF兼容格式并且使用第一概念（210）存储至少两个数据库（125）的信息。

4.根据权利要求1的方法，其中分析包括第二概念（235）的至少两个不同的特定用户术语（230）。

5.一种用于执行向以RDF兼容格式并且使用预设第一概念（210）存储信息的所连接的数据源（120）的查询的***，所述***特别地是医学信息***，所述***包括：

-用于从用户接收语义查询（300）的输入构件（130），其中语义查询（300）包括特定用户术语（230）的预限定第二概念（235）；

-处理构件（110），其包括用于将从输入构件（130）所接收的语义查询（300）转换成使用适于RDF兼容格式的查询语言并且包括第一概念（210）的数据库查询（340）的转换器模块（114），并且通过执行数据库查询（340）来搜索所连接的数据源（120）；以及

-输出构件（140），其用于输出由处理构件（110）从所连接的数据源（120）检索的搜索结果（380）。

6.根据权利要求5的***，其中处理构件（110）还包括用于存储使每一个第二概念（235）与至少一个第一概念（210）相关的预限定注释数据（320）的存储器（118）。

7.根据权利要求5的***，其中处理构件（110）还包括用于存储使每一个第二概念（235）与包括至少一个第一概念（210）的至少一个查询模板相关的预限定注释规则（320）的存储器（118）。

8.根据权利要求5的***，其中处理构件（110）包括转换器模块（114），其用于将从所连接的数据源（120）检索的包括第一概念（210）的搜索结果（380）转换成包括第二概念（235）的搜索结果格式。

9.一种用于执行向以RDF兼容格式并且使用预设第一概念（210）存储信息的所连接的数据源（120）的查询的方法，包括以下步骤：

-从用户接收语义查询（300），其中语义查询（300）包括特定用户术语（230）的预限定第二概念（235）；

-将所接收的语义查询（300）自动地转换成使用适于RDF兼容格式的查询语言并且包括第一概念（210）的数据库查询（340）；

-通过执行数据库查询（340）来搜索所连接的数据源（120）；以及

-输出从所连接的数据源（120）检索的搜索结果（380）。