CN102622354B

CN102622354B - 一种基于特征向量的聚合数据快速查找方法

Info

Publication number: CN102622354B
Application number: CN201110029247.2A
Authority: CN
Inventors: 徐贵水
Original assignee: BEIJINGDUXIU TECHNOLOGY Co Ltd
Current assignee: BEIJINGDUXIU TECHNOLOGY Co Ltd
Priority date: 2011-01-27
Filing date: 2011-01-27
Publication date: 2014-08-13
Anticipated expiration: 2031-01-27
Also published as: CN102622354A

Abstract

本发明提供了一种基于特征向量的聚合数据快速查找方法，包括的步骤为：将目标数据的聚合数据进行格式化处理，得到结构化数据；将结构化数据的具有指向性属性的属性因子作为特征向量，并建立特征向量指向的结构化数据的聚合属性集合，聚合属性集合包含结构化数据对应的属性；将目标数据的元数据进行处理，得到包括特征向量的元数据索引；以及存储特征向量及其指向的聚合属性集合，以待调用；根据查找条件，提取对应的特征向量；以及获取特征向量指向的聚合属性集合。通过本发明的方法可实现聚合数据的快速查找及维护。

Description

一种基于特征向量的聚合数据快速查找方法

技术领域

本发明涉及数据查找领域，特别涉及一种基于特征向量在海量数据搜索与传统关系型数据库中相应关系数据之间进行数据快速查找的方法。

背景技术

当前应用开源搜索引擎搭建的搜索服务已经得到了广泛的应用，但是目前的搜索服务一般仅限于对元数据(即描述目标数据及其环境的数据)本身的搜索，对于由于业务所产生的传统数据库里的百倍千倍于元数据数量的关联关系(即聚合数据)无法做到与搜索性能相匹配的同步显示和对其关联关系的快速维护。

对于拥有海量数据的知识搜索引擎而言，元数据的维护工作是一个需要相当长的周期和耗费大量的资源的工作，而当元数据的规模达到一定数量的时候，元数据的维护将不再是主要的工作内容，日常的工作重心将转变为资源的整合，也就是说，需要对来自于各个单位的不同数据来源的元数据信息经过查重、分类整理以及资源整合后的数据信息呈现给用户，使用户能够籍此获得丰富的聚合信息和良好的使用体验，但由此也给知识搜索引擎带来了一定的困难，主要体现在如何在最短的时间内处理远远超过元数据数量的关联关系，将特定的聚合数据及其所对应的元数据输出给特定的用户。

发明内容

本发明克服了现有搜索引擎的不足，提供了一种基于特征向量的聚合数据快速查找方法，包括以下步骤：

步骤a：将目标数据的聚合数据进行格式化处理，得到结构化数据；所述的目标数据包括元数据与聚合数据，所述的聚合数据包括与其对应的元数据的相关联数据；

步骤b：将所述的结构化数据的具有指向性属性的属性因子作为特征向量，并建立所述的特征向量指向的所述的结构化数据的聚合属性集合，所述的聚合属性集合包含所述的结构化数据对应的属性；

步骤c：将所述的元数据进行处理，得到包括所述的特征向量的元数据索引；以及

步骤d：存储所述的特征向量及其指向的聚合属性集合，以待调用；

步骤e：根据查找条件，提取对应的特征向量；以及

步骤f：获取所述的特征向量指向的聚合属性集合。

实施时，本发明还包括：

步骤g：根据聚合条件对所述的聚合属性集合进行处理，得到符合所述的聚合条件的聚合属性集合，所述的聚合条件是聚合属性对应的聚合数据的查找条件；以及

步骤h：将上述符合聚合条件的特征向量和聚合属性集合根据用户需求进行处理，得到符合用户需求的聚合属性集合，并显示。

实施时，本发明还包括：

步骤i：判断所述的聚合数据是否有更新；所述的步骤i在所述的步骤d之后执行；

若有更新，则执行步骤e～步骤f，再执行步骤j；

若没有更新，则结束；

步骤j：将所述的特征向量指向的聚合属性集合部分或全部属性进行维护处理；以及

执行步骤b～步骤d。

其中，所述的特征向量是用来标识所述的元数据及与其关联的聚合数据之间的匹配关系。

其中，所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性。

其中，对待维护的聚合数据的处理包括对所述的聚合数据中属性的字符、字节或者位元的替换、追加与删除。

其中，所述的聚合条件是聚合属性对应的聚合数据的查找条件。

通过本发明的方法，实现了对聚合数据的快速查找及维护，又解决了传统数据库与搜索引擎关联操作时的巨大性能瓶颈。

附图说明

图1为本发明的基于特征向量的聚合数据快速查找方法的流程图；

图2为本发明的基于特征向量的聚合数据快速查找方法的一实施例的流程图；

图3为本发明的基于特征向量的聚合数据快速查找方法的另一实施例的流程图；

图4为本发明在使用时的一实施例的示意图；

图5为本发明在使用时的另一实施例的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1，本发明的基于特征向量的聚合数据快速查找方法包括以下步骤：

步骤a：将目标数据的聚合数据进行格式化处理，得到结构化数据；所述的目标数据包括元数据与聚合数据，所述的聚合数据包括与其对应的元数据的相关联数据；以图书为例，元数据库包括文献元数据，例如图书的书名、作者、主题词、ISBN、简介等，文献全文数据；聚合数据包括目标数据提供者及目标数据使用者等；

其中，格式化处理是指将各种渠道来源的聚合数据进行处理后形成特定结构的结构化数据；由于整理前的聚合数据来自不同的网站，字段内容混杂，通过本步骤的信息格式化处理可将聚合数据处理成符合要求的结构化数据。以图书为例，这里所说的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性；

本步骤将从步骤a生成的数据结构中抽取出具有特征规则的属性因子作为特征向量及其聚合属性集合；这里所说的特征向量是用来标识该条聚合数据与元数据存在的匹配关系，而特征向量指向的聚合属性集合即是该条聚合数据体现的对应聚合数据的原子属性或元组属性及其实例，其中，原子属性是指最基本的属性信息，元组属性是指由属于同一类型或同一组的原子属性组成的集合；这里所说的特征规则是指指向性属性和聚合属性集合的特征；而具有特征规则是指所抽取的数据拥有指向性属性和聚合属性集合的特征；

步骤c：将所述的元数据进行处理，得到包括所述的特征向量的元数据索引；

步骤d：存储所述的特征向量及其指向的聚合属性集合，以待调用；以及

步骤e：根据查找条件，提取对应的特征向量；

步骤f：获取所述的特征向量指向的聚合属性集合。

其中，所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性；以图书为例，所述的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性。

本发明的实施中，可将步骤e中获取的特征向量和聚合属性集合进行聚合处理，等待搜索服务调用，由于搜索服务在元数据索引里内建了同样的特征向量，因此可以在搜索服务中快速的匹配到需要的聚合数据，完成聚合应用。例如，以期刊为例，对期刊的检索过程中需要将检索结果依据期刊的刊种和数据商进行计数，这就需要将与检索结果相匹配的特征向量的聚合数据进行叠加计算，以等待显示。

请参阅图2，用户使用本发明的基于特征向量的聚合数据快速查找方法搜索所需数据时的一实施例，包括以下步骤：

步骤e：根据用户的查找条件，提取对应的元数据索引的特征向量；

步骤f：获取所述的特征向量指向的聚合属性集合；

其中，所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性；以图书为例，结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性。

请参阅图3，数据管理员使用本发明的基于特征向量的聚合数据快速查找方法对聚合数据进行维护时的一实施例，包括以下步骤：

其中，格式化处理是指将各种渠道来源的聚合数据进行处理后形成特定结构的结构化数据；由于整理前的聚合数据来自不同的网站，字段内容混杂，通过本步骤的信息格式化处理可将聚合数据处理成符合要求的结构化数据。以图说为例，这里所说的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性；

若有更新，则执行步骤e；

若没有更新，则结束；

步骤e：根据管理员的查找条件，提取对应的聚合数据的特征向量；

步骤f：获取所述的特征向量指向的聚合属性集合；

重复执行步骤b～步骤d。

请参阅图4，本发明实施例在实施时，可以将目标数据的元数据及聚合数据分别存储于一元数据库及一聚合数据库，抽取聚合数据的特征向量及其指向的聚合属性集合，建立元数据对应的包括所述的特征向量的元数据索引并将其存储于一索引库，需要进行查找时，用户输入查找条件，然后从索引库中提取索引数据及其特征向量，进行特征向量分析，提取该特征向量所指向的聚合属性集合，并予以显示。

请参阅图5，本发明的实施例在实施时，还可以设立元数据服务器、聚合数据服务器、特征向量寄存器及搜索服务器；且搜索服务器分别与元数据服务器、聚合数据服务器及特征向量服务器连接；

其中，聚合数据服务器用于对聚合数据进行处理及存储；元数据服务器用于对元数据进行处理及存储；特征向量寄存器用于存储所述的特征向量及其指向的聚合属性集合；搜索服务器调用元数据服务器中的特征向量，并进行搜索服务，得到所述的特征向量指向的聚合属性集合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其进行限制；本领域的普通技术人员可以对发明的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种基于特征向量的聚合数据快速查找方法，其特征在于，包括以下步骤：

所述的特征向量用以标识所述的聚合数据与所述的元数据存在的匹配关系；步骤c：将所述的元数据进行处理，得到包括所述的特征向量的元数据索引；以及

步骤e：根据查找条件，提取对应的特征向量；以及

步骤f：获取所述的特征向量指向的聚合属性集合。

2.根据权利要求1所述的基于特征向量的聚合数据快速查找方法，其特征在于，还包括以下步骤：

3.根据权利要求1所述的基于特征向量的聚合数据快速查找方法，其特征在于，还包括以下步骤：

步骤i：判断所述的聚合数据是否有更新；所述的步骤i在所述的步骤d之后执行；若有更新，则执行步骤e～步骤f，再执行步骤j；

若没有更新，则结束；

执行步骤b～步骤d。

4.根据权利要求1中所述的基于特征向量的聚合数据快速查找方法，其特征在于，所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性。

5.根据权利要求3中所述的基于特征向量的聚合数据快速查找方法，其特征在于，对待维护聚合数据的处理包括对所述的聚合数据中属性的字符、字节或者位元的替换、追加与删除。