WO2011153708A1

WO2011153708A1 - 一种基于领域概念的信息搜索方法

Info

Publication number: WO2011153708A1
Application number: PCT/CN2010/073814
Authority: WO
Inventors: 朱学文
Original assignee: 上海坦瑞信息技术有限公司
Priority date: 2010-06-11
Filing date: 2010-06-11
Publication date: 2011-12-15

Description

一种基于领域概念的信息搜索方法

技术领域

计算机软件、数据搜索、关系数据库的数据查询、企业数据搜索。

背景技术

随着信息技术在各行业的说深入应用，产生了大量的电子数据，这些数据有的存在关系数据库中，有些是以文本形式存在于企业的个人计算机上，还有一些如通知、新闻存在于具体企业的内部网站或邮件中。如何简单的查找和使用这些数据，计算机工业的专家发明了很多查询技术和方法。书本专利是基于以下背景技术下的发明。

1、关系数据库的数据查询技术

关系数据库提供了数据查询技术，目前大多关系数据库都使用标准的 SQL 语句进行数据查询，为提高数据查找的速度，由关系数据库提供索引技术。但其局限性在于，跨异构数据库之间的数据查询存在较大困难；查询某个数据表中的一列的部分数据，在数据量较大时并没办法索引时，查询会得非常慢；用户自行使用的

" select "语句查询，其返回结果（值），往往很难被用户理解。另外，对结构化程度不高的字符串的查找性能下降很多，在数据量大的情况下，几乎无法使用。比如，有症状列，是一段文字描述： "头痛、发热" ，要找出所有含有 "发热"症状数据行在数据库中效率极差，几乎无法进行。

所以，基于关系数据的查询，基本上是面向单一数据库，由程序员编写查询界面，给用户查找常用的数据。用户只能一定程度上，在有限的范围内查找部分数据。任意查找在关系数据库中的数据，需要查找者会写 SQL语句，并且要了解关系数据库的数据结构。

关系数据的搜索技术不能查找数据库以外的文本等其他非结构化信息。即使像 EXCEL这样的文件，也要转找成数据库的格式才可能被数据库查找。 2、文本搜索引擎

文本搜索引擎是近年较热门的技术，像 windows提供的搜索功能一样，可以查找文件名、文件内容。但这类引擎不能查找关系数据库内的内容。被查找的数据的安全机制也很难建立。

3、互联网的网页搜索引擎

面向来自互联网网页的单一数据源，通过一定算法，对网页进行索引。不能查找关系数据库，也不能查找本地计算机的文本信息。

4、元数据类型（MDT) 技术

前三项是现有的查询搜索技术。元数据类型（MDT) 技术是另外一个方向，它可以实现数据与模型的分离，支持后建模和自然语言建模。可供领域专家直接使用。可以解决异构的数据的一体化整合难题。这一技术，由模型引擎实现，有较好的数据安全机制。发明内容

1 . 要解决的技术问题

如背景技术 1中所述，基于关系数据库的查询技术面临较大的局限。

A、实现跨异构关系数据库的数据直接查询方式。

传统技术下，跨越多个关系数据库***查询是难以实现的。如果要实现跨系统查询，大部分方式是先建立数据仓库，把异构数据放到单一的数据库中，再进行面向主题的统计分析，时效性差，成本高。

B、实现关系数据的模糊查询，并规避全表扫描的技术难题。

查询关系数据库某列中部分数据，可以使用 like 语句模糊查找，但是，如果数据量较大，由于无法使用索引，速度会非常慢，达到用户难以接受的程度。影响数据库其他在线使用的用户。本发明可以解决这类问题。

C、真正实现自定义查询和返回结果的可读性。关系数据库技术下，没有专业技术人员帮助用户编写个性化的查询界面，用户无法自定义查询，或者出现的查询结果只显示了各列的数据和列名，大部分用户无法看懂其内容。比如，在某健康管理***中，从用户身份表中直接使用 select语句查找，用户 "年龄" 、 "身高" 、并从体态特征表中查找 "腰围" ，可能会出现 " 75 、 120、 75" "23、 90、 35"这两组数据，如果不是事先清楚排列顺序，这组数据很容量混淆，外行甚至不知其所云。

D、解决单一搜索引擎查找全部结构化与非结构化的企业级数据的难题。当关系数据库与其他类型数据混合存在情况下如存在非结构化数据如文本文件、网页、关系数据库数据共存时，单一查询方式不能实现数据查找。

E、实现搜索结果自动过滤功能。

企业搜索的结果需要与用户权限关联，不是所有的数据都像互联网数据一样，可以给任何查询者查到。大多企业数据如政府机密、个人隐私（如医疗的 HIV 感染、银行账户）等，需要一定的权限并得到授权才能查找和使用，关系数据库的查找可以通过用户权限实现，但文本搜索引擎等并没有这个功能。本发明利用 MDT 技术下的模型引擎解决了这个问题。

2. 发明解决问题的要点

本发明提出一种机制，能够将繁杂的信息以领域概念模型加以描述，而搜索则在经过抽象的领域概念***上进行，结果以可以理解的领域概念显示出来，这样就有效地将信息的存储方式以及其它无关的信息加以分离。

这里的领域概念是指一个概念，如 "工作人员" ，这个概念在一个特定的企业组织中有其相对固定的意义，如宾馆的工作人员包括清洁工和厨师，而国家机关的工作人员包括干部和职工。

以下是关于本发明的具体描述。首先把分散在各个数据库和文件里的数据映射到概念模型上，再为概念模型加索引，存储到搜索引擎的索引文件中。

搜索时用户输入接近自然语言的查询条件；处理用户输入，使其符合查询格式；搜索引擎搜索；用搜索引擎得到的 key到模型引擎查询，模型引擎将接近自然语言的查询结果返回给搜索引擎，搜索引擎将结果返回给用户。该方法的框架如图所示。

1 ) 把分散在各个数据库和文件里的数据映射到概念模型上

如 "工作人员" ，可能存在一个数据库表 "worker"之中，数据库表的列为 "name, sex, birthday, address " 。领域概念模型为：工作人员（姓名、性别、出生年月、家庭地址）。本发明利用一种软件，能够将数据库的结构映射成领域概念模型。（真的要有 MDT对表结构建模）而用户可以使用这个软件对领域概念模型进行操作，而此软件将此操作翻译成对原始信息***的操作，如：查询 "姓名为张三的工作人员" ，此软件将此操作翻译成 SQL语句 " select

* from worker where name=' 张三， "，将结果转换成领域概念的形式。这种软件已经在前一个发明中得到了阐述。

如图 3所示，将多个数据库映射到 DOP数据中心的原理图。对多个关系数据库逐一做映射，抽取其概念模型。用 MDT表达的概念模型存放在 D0P数据中心里。映射时对源数据库的每条记录生成 KEY, 存储在模型引擎中。模型引擎可以用该 KEY到源数据库查询到该记录。

利用映射技术可以实现跨异构关系数据库的数据直接查询。因为将多个关系数据库映射到 D0P数据中心后可对 D0P数据中心加索引，利用搜索引擎对其搜索。而模型引擎又能用该 KEY到源数据库查询到该记录，由此可以实现查询。

如前所述因为 MDT直接表达领域概念，用 MDT映射关系数据库，把原来的概念模型提取出来，并由可视化工具展示出来。这样，一次完成对原数据库的分析工作，并以概念模型的形式展示。避免了直接向关系数据库添加修改索引时每次都需要重新分析数据库的重复操作。

2 ) 加索引

将映射后的信息推到一个通用的文本搜索引擎（通用的文本搜索引擎有很多，如 Lucene是一个开源的文本搜索器）之中进行分类，在这一步中，需要分类（index)的内容以领域概念***的形式推入文本搜索器之中。

D0P数据中心加索引。如前所述因为 MDT直接表达领域概念，用 MDT映射关系数据库，把原来的概念模型提取出来，并由可视化工具展示出来。这样，一次完成对原数据库的分析工作，并以概念模型的形式展示。避免了直接向关系数据库添加修改索弓 I时每次都需要重新分析数据库的重复操作。

内容搜索引擎搜索的基本单位是词元，图 4是词元的结构图。内容搜索引擎收集数据时分析数据源，将数据源分割成词元。词元记录内容，在原文中的位置等信息。存储在 Documents ^

3)搜索

在利用领域概念来进行搜索时，搜索引擎返回领域概念的结果，而领域概念服务器再经过原来的信息机制取得整个信息结果，并以用户可以理解的领域概念的形式返回给用户。查询时首先分析查询语句得到词元，再用该词元到 documents查询，搜索引擎会返回有匹配率的结果。选定匹配率范围，从该范围内到 documents读取词元。因为在 D0P数据中心添加索引时生成的词元中 "在原文中的位置"被替换为某一个 KEYo 查询的结果为该 KEY, 将其传入模型引擎。

搜索引擎可以规避全表扫描的技术难题。这是因为搜索引擎第一次检索完成后，并没有把所有 documents中的具体内容都读取出来，而只是返回满足匹配率范围内的词元。而数据库检索则把所有记录内容都取得以后再开始返回给应用结果集的。同时，由于搜索引擎本身提供模糊查询功能，模糊查询的难题也可以直接解决。

模型引擎可以利用该 KEY找到他在源数据库里的值，模型引擎用该 key到原数据集里查询需要的数据。模型引擎把查询到的结果包装成 MDT的格式，并将结果返回给搜索引擎。搜索引擎把结果返回给用户。

本发明利用 MDT技术下的模型引擎解决了这个问题。模型引擎采用 ACL是面向对象（Object ) 的安全机制，和 MDT—体化数据模型相结合，使得数据水平的安全机制变得清晰而简捷。元数据水平的细粒度数据安全机制可以为用户或用户组对任何一个 MDT, 甚至 MDT中的一个属性设置访问权限。

3. 本发明的优点：

扩大了搜索的范围，利用单一搜索引擎实现跨关系数据库、非结构化文本数据、网页、甚至医学图像的搜索和查询。

简化了企业搜索的难度。

搜索内容可以由最终用户自定义，并且可以返回用户容易识别的领域概念。这种搜索方式，在面向同样数量数据的前提下，模糊查找的搜索效率和性能远远超过关系数据库。附图说明

图 1是一种基于领域概念的信息搜索方法的架构图。

图 2是为分散在各个数据库和文件里的数据加索引的流程图。

图 3是将多个数据库映射到 DOP数据中心的原理图。

图 4是词元的结构图。

图 5是处理用户搜索流程图。具体实施方式

具体实施过程分为两步，首先如图 2所示，为分散在各个数据库和文件里的数据加索引，具体步骤如 1~3。其次如图 5所示，处理用户搜索过程，具体步骤如 4~6所示。

1. 建立领域概念模型

DOP技术支持的 MDT建模工具建立领域概念模型，如在健康领域建立 "发热" 的概念模型。

模型名：发热

属性：

测量部位：腋下；

数值： >37.5

单位：摄氏度；

2. 建立模型与数据的映射这一部可以用已有的软件工具实现。

例如：如需建立一个 "病人" 的概念，我们先建立 "病人"概念的抽象数据模型，即 "病人"包含以下树形： "年龄" 、 "性别" 、 "出生日期" 、 "地址" 、 "病历号" ，等等。

若现有***已有了 "病人" 的数据存放于关系数据库中，其中 "病人"表中含有 "年龄" 、 "性别"等信息，当然这些列名称通常是五花八门，我们只要建立

MDT抽象数据概念， "病人" 中的 "年龄"对应于物理数据中的 "年龄"列， "性别"对应于物理数据中的 "姓名"列，等等。

3. 模型引擎将映射好的数据传给通用的搜索引擎，如 Lucene.

搜索引擎按自己的算法将信息进行分类和索引。

4. 用户搜索

用户输入接近自然语言的查询条件，例如 "病人姓名王妍检验结果" 。引擎处理信息，传给领域概念模型。

5. 返回结果领域概念模型将信息组合成用户可以识别的格式，返回给用户作为查询结果。王妍的检验结果：

WBC白细胞总数 3. 84

参考值 4. 0-10. 0 10— 9/L

检验时间 2009-11-07

6、分类检索

当用户已搜索的领域时，可以事先分类，提高速度，如诊断信息、检查结果等。

Claims

权利要求书

1. 一种把分散在各个数据库和文件里的数据映射到概念模型上的解决方案，从而可以实现跨异构关系数据库的数据直接查询。该方案由如下几步组成：对多个关系数据库逐一做映射，提取其概念模型，以概念模型的形式展示；映射时对源数据库的每条记录生成键值

(key) , 并对键值集中存储；

2. 如权利要求 1 所述的把分散在各个数据库和文件里的数据映射到概念模型上的解决方案, 其特征在于一次完成对原数据库的分析工作，并以概念模型的形式展示。避免了直接向关系数据库添加或修改索引时每次都需要重新分析数据库的重复操作。

3. 如权利要求 1 所述的把分散在各个数据库和文件里的数据映射到概念模型上的解决方案, 其特征在于实现跨多个异构关系数据库的数据直接查询。因为将多个关系数据库映射到数据中心后可对数据中心的数据加索引，再利用搜索引擎对其搜索。而模型引擎又能用该键值到源数据库取得该记录，由此可以实现查询。