CN102622354B - 一种基于特征向量的聚合数据快速查找方法 - Google Patents

一种基于特征向量的聚合数据快速查找方法 Download PDF

Info

Publication number
CN102622354B
CN102622354B CN201110029247.2A CN201110029247A CN102622354B CN 102622354 B CN102622354 B CN 102622354B CN 201110029247 A CN201110029247 A CN 201110029247A CN 102622354 B CN102622354 B CN 102622354B
Authority
CN
China
Prior art keywords
data
aggregated data
proper vector
attribute set
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110029247.2A
Other languages
English (en)
Other versions
CN102622354A (zh
Inventor
徐贵水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJINGDUXIU TECHNOLOGY Co Ltd
Original Assignee
BEIJINGDUXIU TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJINGDUXIU TECHNOLOGY Co Ltd filed Critical BEIJINGDUXIU TECHNOLOGY Co Ltd
Priority to CN201110029247.2A priority Critical patent/CN102622354B/zh
Publication of CN102622354A publication Critical patent/CN102622354A/zh
Application granted granted Critical
Publication of CN102622354B publication Critical patent/CN102622354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于特征向量的聚合数据快速查找方法,包括的步骤为:将目标数据的聚合数据进行格式化处理,得到结构化数据;将结构化数据的具有指向性属性的属性因子作为特征向量,并建立特征向量指向的结构化数据的聚合属性集合,聚合属性集合包含结构化数据对应的属性;将目标数据的元数据进行处理,得到包括特征向量的元数据索引;以及存储特征向量及其指向的聚合属性集合,以待调用;根据查找条件,提取对应的特征向量;以及获取特征向量指向的聚合属性集合。通过本发明的方法可实现聚合数据的快速查找及维护。

Description

一种基于特征向量的聚合数据快速查找方法
技术领域
本发明涉及数据查找领域,特别涉及一种基于特征向量在海量数据搜索与传统关系型数据库中相应关系数据之间进行数据快速查找的方法。
背景技术
当前应用开源搜索引擎搭建的搜索服务已经得到了广泛的应用,但是目前的搜索服务一般仅限于对元数据(即描述目标数据及其环境的数据)本身的搜索,对于由于业务所产生的传统数据库里的百倍千倍于元数据数量的关联关系(即聚合数据)无法做到与搜索性能相匹配的同步显示和对其关联关系的快速维护。
对于拥有海量数据的知识搜索引擎而言,元数据的维护工作是一个需要相当长的周期和耗费大量的资源的工作,而当元数据的规模达到一定数量的时候,元数据的维护将不再是主要的工作内容,日常的工作重心将转变为资源的整合,也就是说,需要对来自于各个单位的不同数据来源的元数据信息经过查重、分类整理以及资源整合后的数据信息呈现给用户,使用户能够籍此获得丰富的聚合信息和良好的使用体验,但由此也给知识搜索引擎带来了一定的困难,主要体现在如何在最短的时间内处理远远超过元数据数量的关联关系,将特定的聚合数据及其所对应的元数据输出给特定的用户。
发明内容
本发明克服了现有搜索引擎的不足,提供了一种基于特征向量的聚合数据快速查找方法,包括以下步骤:
步骤a:将目标数据的聚合数据进行格式化处理,得到结构化数据;所述的目标数据包括元数据与聚合数据,所述的聚合数据包括与其对应的元数据的相关联数据;
步骤b:将所述的结构化数据的具有指向性属性的属性因子作为特征向量,并建立所述的特征向量指向的所述的结构化数据的聚合属性集合,所述的聚合属性集合包含所述的结构化数据对应的属性;
步骤c:将所述的元数据进行处理,得到包括所述的特征向量的元数据索引;以及
步骤d:存储所述的特征向量及其指向的聚合属性集合,以待调用;
步骤e:根据查找条件,提取对应的特征向量;以及
步骤f:获取所述的特征向量指向的聚合属性集合。
实施时,本发明还包括:
步骤g:根据聚合条件对所述的聚合属性集合进行处理,得到符合所述的聚合条件的聚合属性集合,所述的聚合条件是聚合属性对应的聚合数据的查找条件;以及
步骤h:将上述符合聚合条件的特征向量和聚合属性集合根据用户需求进行处理,得到符合用户需求的聚合属性集合,并显示。
实施时,本发明还包括:
步骤i:判断所述的聚合数据是否有更新;所述的步骤i在所述的步骤d之后执行;
若有更新,则执行步骤e~步骤f,再执行步骤j;
若没有更新,则结束;
步骤j:将所述的特征向量指向的聚合属性集合部分或全部属性进行维护处理;以及
执行步骤b~步骤d。
其中,所述的特征向量是用来标识所述的元数据及与其关联的聚合数据之间的匹配关系。
其中,所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性。
其中,对待维护的聚合数据的处理包括对所述的聚合数据中属性的字符、字节或者位元的替换、追加与删除。
其中,所述的聚合条件是聚合属性对应的聚合数据的查找条件。
通过本发明的方法,实现了对聚合数据的快速查找及维护,又解决了传统数据库与搜索引擎关联操作时的巨大性能瓶颈。
附图说明
图1为本发明的基于特征向量的聚合数据快速查找方法的流程图;
图2为本发明的基于特征向量的聚合数据快速查找方法的一实施例的流程图;
图3为本发明的基于特征向量的聚合数据快速查找方法的另一实施例的流程图;
图4为本发明在使用时的一实施例的示意图;
图5为本发明在使用时的另一实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1,本发明的基于特征向量的聚合数据快速查找方法包括以下步骤:
步骤a:将目标数据的聚合数据进行格式化处理,得到结构化数据;所述的目标数据包括元数据与聚合数据,所述的聚合数据包括与其对应的元数据的相关联数据;以图书为例,元数据库包括文献元数据,例如图书的书名、作者、主题词、ISBN、简介等,文献全文数据;聚合数据包括目标数据提供者及目标数据使用者等;
其中,格式化处理是指将各种渠道来源的聚合数据进行处理后形成特定结构的结构化数据;由于整理前的聚合数据来自不同的网站,字段内容混杂,通过本步骤的信息格式化处理可将聚合数据处理成符合要求的结构化数据。以图书为例,这里所说的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性;
步骤b:将所述的结构化数据的具有指向性属性的属性因子作为特征向量,并建立所述的特征向量指向的所述的结构化数据的聚合属性集合,所述的聚合属性集合包含所述的结构化数据对应的属性;
本步骤将从步骤a生成的数据结构中抽取出具有特征规则的属性因子作为特征向量及其聚合属性集合;这里所说的特征向量是用来标识该条聚合数据与元数据存在的匹配关系,而特征向量指向的聚合属性集合即是该条聚合数据体现的对应聚合数据的原子属性或元组属性及其实例,其中,原子属性是指最基本的属性信息,元组属性是指由属于同一类型或同一组的原子属性组成的集合;这里所说的特征规则是指指向性属性和聚合属性集合的特征;而具有特征规则是指所抽取的数据拥有指向性属性和聚合属性集合的特征;
步骤c:将所述的元数据进行处理,得到包括所述的特征向量的元数据索引;
步骤d:存储所述的特征向量及其指向的聚合属性集合,以待调用;以及
步骤e:根据查找条件,提取对应的特征向量;
步骤f:获取所述的特征向量指向的聚合属性集合。
其中,所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性;以图书为例,所述的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性。
本发明的实施中,可将步骤e中获取的特征向量和聚合属性集合进行聚合处理,等待搜索服务调用,由于搜索服务在元数据索引里内建了同样的特征向量,因此可以在搜索服务中快速的匹配到需要的聚合数据,完成聚合应用。例如,以期刊为例,对期刊的检索过程中需要将检索结果依据期刊的刊种和数据商进行计数,这就需要将与检索结果相匹配的特征向量的聚合数据进行叠加计算,以等待显示。
请参阅图2,用户使用本发明的基于特征向量的聚合数据快速查找方法搜索所需数据时的一实施例,包括以下步骤:
步骤a:将目标数据的聚合数据进行格式化处理,得到结构化数据;所述的目标数据包括元数据与聚合数据,所述的聚合数据包括与其对应的元数据的相关联数据;以图书为例,元数据库包括文献元数据,例如图书的书名、作者、主题词、ISBN、简介等,文献全文数据;聚合数据包括目标数据提供者及目标数据使用者等;
其中,格式化处理是指将各种渠道来源的聚合数据进行处理后形成特定结构的结构化数据;由于整理前的聚合数据来自不同的网站,字段内容混杂,通过本步骤的信息格式化处理可将聚合数据处理成符合要求的结构化数据。以图书为例,这里所说的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性;
步骤b:将所述的结构化数据的具有指向性属性的属性因子作为特征向量,并建立所述的特征向量指向的所述的结构化数据的聚合属性集合,所述的聚合属性集合包含所述的结构化数据对应的属性;
本步骤将从步骤a生成的数据结构中抽取出具有特征规则的属性因子作为特征向量及其聚合属性集合;这里所说的特征向量是用来标识该条聚合数据与元数据存在的匹配关系,而特征向量指向的聚合属性集合即是该条聚合数据体现的对应聚合数据的原子属性或元组属性及其实例,其中,原子属性是指最基本的属性信息,元组属性是指由属于同一类型或同一组的原子属性组成的集合;这里所说的特征规则是指指向性属性和聚合属性集合的特征;而具有特征规则是指所抽取的数据拥有指向性属性和聚合属性集合的特征;
步骤c:将所述的元数据进行处理,得到包括所述的特征向量的元数据索引;
步骤d:存储所述的特征向量及其指向的聚合属性集合,以待调用;以及
步骤e:根据用户的查找条件,提取对应的元数据索引的特征向量;
步骤f:获取所述的特征向量指向的聚合属性集合;
步骤g:根据聚合条件对所述的聚合属性集合进行处理,得到符合所述的聚合条件的聚合属性集合,所述的聚合条件是聚合属性对应的聚合数据的查找条件;以及
步骤h:将上述符合聚合条件的特征向量和聚合属性集合根据用户需求进行处理,得到符合用户需求的聚合属性集合,并显示。
其中,所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性;以图书为例,结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性。
请参阅图3,数据管理员使用本发明的基于特征向量的聚合数据快速查找方法对聚合数据进行维护时的一实施例,包括以下步骤:
步骤a:将目标数据的聚合数据进行格式化处理,得到结构化数据;所述的目标数据包括元数据与聚合数据,所述的聚合数据包括与其对应的元数据的相关联数据;以图书为例,元数据库包括文献元数据,例如图书的书名、作者、主题词、ISBN、简介等,文献全文数据;聚合数据包括目标数据提供者及目标数据使用者等;
其中,格式化处理是指将各种渠道来源的聚合数据进行处理后形成特定结构的结构化数据;由于整理前的聚合数据来自不同的网站,字段内容混杂,通过本步骤的信息格式化处理可将聚合数据处理成符合要求的结构化数据。以图说为例,这里所说的结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性;
步骤b:将所述的结构化数据的具有指向性属性的属性因子作为特征向量,并建立所述的特征向量指向的所述的结构化数据的聚合属性集合,所述的聚合属性集合包含所述的结构化数据对应的属性;
本步骤将从步骤a生成的数据结构中抽取出具有特征规则的属性因子作为特征向量及其聚合属性集合;这里所说的特征向量是用来标识该条聚合数据与元数据存在的匹配关系,而特征向量指向的聚合属性集合即是该条聚合数据体现的对应聚合数据的原子属性或元组属性及其实例,其中,原子属性是指最基本的属性信息,元组属性是指由属于同一类型或同一组的原子属性组成的集合;这里所说的特征规则是指指向性属性和聚合属性集合的特征;而具有特征规则是指所抽取的数据拥有指向性属性和聚合属性集合的特征;
步骤c:将所述的元数据进行处理,得到包括所述的特征向量的元数据索引;
步骤d:存储所述的特征向量及其指向的聚合属性集合,以待调用;以及
步骤i:判断所述的聚合数据是否有更新;所述的步骤i在所述的步骤d之后执行;
若有更新,则执行步骤e;
若没有更新,则结束;
步骤e:根据管理员的查找条件,提取对应的聚合数据的特征向量;
步骤f:获取所述的特征向量指向的聚合属性集合;
步骤j:将所述的特征向量指向的聚合属性集合部分或全部属性进行维护处理;以及
重复执行步骤b~步骤d。
其中,所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性;以图书为例,结构化数据可以包含来源网站、来源数据商、来源地址、数据类型等标记属性。
其中,对待维护的聚合数据的处理包括对所述的聚合数据中属性的字符、字节或者位元的替换、追加与删除。
请参阅图4,本发明实施例在实施时,可以将目标数据的元数据及聚合数据分别存储于一元数据库及一聚合数据库,抽取聚合数据的特征向量及其指向的聚合属性集合,建立元数据对应的包括所述的特征向量的元数据索引并将其存储于一索引库,需要进行查找时,用户输入查找条件,然后从索引库中提取索引数据及其特征向量,进行特征向量分析,提取该特征向量所指向的聚合属性集合,并予以显示。
请参阅图5,本发明的实施例在实施时,还可以设立元数据服务器、聚合数据服务器、特征向量寄存器及搜索服务器;且搜索服务器分别与元数据服务器、聚合数据服务器及特征向量服务器连接;
其中,聚合数据服务器用于对聚合数据进行处理及存储;元数据服务器用于对元数据进行处理及存储;特征向量寄存器用于存储所述的特征向量及其指向的聚合属性集合;搜索服务器调用元数据服务器中的特征向量,并进行搜索服务,得到所述的特征向量指向的聚合属性集合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其进行限制;本领域的普通技术人员可以对发明的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (5)

1.一种基于特征向量的聚合数据快速查找方法,其特征在于,包括以下步骤:
步骤a:将目标数据的聚合数据进行格式化处理,得到结构化数据;所述的目标数据包括元数据与聚合数据,所述的聚合数据包括与其对应的元数据的相关联数据;
步骤b:将所述的结构化数据的具有指向性属性的属性因子作为特征向量,并建立所述的特征向量指向的所述的结构化数据的聚合属性集合,所述的聚合属性集合包含所述的结构化数据对应的属性;
所述的特征向量用以标识所述的聚合数据与所述的元数据存在的匹配关系;步骤c:将所述的元数据进行处理,得到包括所述的特征向量的元数据索引;以及
步骤d:存储所述的特征向量及其指向的聚合属性集合,以待调用;
步骤e:根据查找条件,提取对应的特征向量;以及
步骤f:获取所述的特征向量指向的聚合属性集合。
2.根据权利要求1所述的基于特征向量的聚合数据快速查找方法,其特征在于,还包括以下步骤:
步骤g:根据聚合条件对所述的聚合属性集合进行处理,得到符合所述的聚合条件的聚合属性集合,所述的聚合条件是聚合属性对应的聚合数据的查找条件;以及
步骤h:将上述符合聚合条件的特征向量和聚合属性集合根据用户需求进行处理,得到符合用户需求的聚合属性集合,并显示。
3.根据权利要求1所述的基于特征向量的聚合数据快速查找方法,其特征在于,还包括以下步骤:
步骤i:判断所述的聚合数据是否有更新;所述的步骤i在所述的步骤d之后执行;若有更新,则执行步骤e~步骤f,再执行步骤j;
若没有更新,则结束;
步骤j:将所述的特征向量指向的聚合属性集合部分或全部属性进行维护处理;以及
执行步骤b~步骤d。
4.根据权利要求1中所述的基于特征向量的聚合数据快速查找方法,其特征在于,所述的结构化数据包括多个用于标记不同的所述的聚合数据的标记属性。
5.根据权利要求3中所述的基于特征向量的聚合数据快速查找方法,其特征在于,对待维护聚合数据的处理包括对所述的聚合数据中属性的字符、字节或者位元的替换、追加与删除。
CN201110029247.2A 2011-01-27 2011-01-27 一种基于特征向量的聚合数据快速查找方法 Active CN102622354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110029247.2A CN102622354B (zh) 2011-01-27 2011-01-27 一种基于特征向量的聚合数据快速查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110029247.2A CN102622354B (zh) 2011-01-27 2011-01-27 一种基于特征向量的聚合数据快速查找方法

Publications (2)

Publication Number Publication Date
CN102622354A CN102622354A (zh) 2012-08-01
CN102622354B true CN102622354B (zh) 2014-08-13

Family

ID=46562277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110029247.2A Active CN102622354B (zh) 2011-01-27 2011-01-27 一种基于特征向量的聚合数据快速查找方法

Country Status (1)

Country Link
CN (1) CN102622354B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484433B (zh) * 2014-12-19 2017-06-30 东南大学 一种基于机器学习的图书本体匹配方法
CN110442417A (zh) * 2016-01-08 2019-11-12 第四范式(北京)技术有限公司 特征抽取方法、机器学习方法及其装置
CN111488340B (zh) * 2019-01-29 2023-09-12 菜鸟智能物流控股有限公司 数据处理方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101208696A (zh) * 2005-06-27 2008-06-25 起元软件有限公司 利用综合操作的聚合数据

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101208696A (zh) * 2005-06-27 2008-06-25 起元软件有限公司 利用综合操作的聚合数据

Also Published As

Publication number Publication date
CN102622354A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
CN104123346A (zh) 一种结构化数据搜索方法
EP3285178A1 (en) Data query method in crossing-partition database, and crossing-partition query device
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
Zhou et al. A survey on the management of uncertain data
CN105574054B (zh) 一种分布式缓存范围查询方法、装置及***
WO2015010566A1 (zh) 综合信息精准搜索方法
CN109299215B (zh) 倒排索引查询的资源分配方法、装置及存储介质、服务器
US10402383B2 (en) DBMS-supported score assignment
CN110162522A (zh) 一种分布式数据搜索***及方法
US9734178B2 (en) Searching entity-key associations using in-memory objects
US20140019454A1 (en) Systems and Methods for Caching Data Object Identifiers
Dehdouh et al. Columnar NoSQL CUBE: Agregation operator for columnar NoSQL data warehouse
CN103440249A (zh) 一种非结构化数据快速检索的***及方法
CN101957860B (zh) 一种发布、搜索信息的方法及装置
CN102169491A (zh) 一种多数据集中重复记录动态检测方法
CN112925954A (zh) 用于在图数据库中查询数据的方法和装置
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN102622354B (zh) 一种基于特征向量的聚合数据快速查找方法
CN105610881B9 (zh) 一种分布式缓存范围查询方法、装置及***
CN113722600B (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN106919607B (zh) 一种数据访问方法、装置及***
CN107291951B (zh) 数据处理方法、装置、存储介质和处理器
CN115982205A (zh) 一种海量多元数据智能归集***及归集方法
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100085 2 floor 1, four street, Haidian District, Beijing.

Patentee after: BeijingDuxiu Technology Co., Ltd.

Address before: 100085 C-710, Jiahua building, nine, Shang di San Jie, Haidian District, Beijing.

Patentee before: BeijingDuxiu Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A fast search method of aggregate data based on Eigenvector

Effective date of registration: 20220506

Granted publication date: 20140813

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: Beijing Shiji Duxiu Technology Co.,Ltd.

Registration number: Y2022990000258