CN107239571B - 基于多维化数据空间技术的索引构建方法 - Google Patents

基于多维化数据空间技术的索引构建方法 Download PDF

Info

Publication number
CN107239571B
CN107239571B CN201710506059.1A CN201710506059A CN107239571B CN 107239571 B CN107239571 B CN 107239571B CN 201710506059 A CN201710506059 A CN 201710506059A CN 107239571 B CN107239571 B CN 107239571B
Authority
CN
China
Prior art keywords
index
file
dimension
multidimensional
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710506059.1A
Other languages
English (en)
Other versions
CN107239571A (zh
Inventor
孙成通
董毅
付宪瑞
王玉奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Financial Information Technology Co Ltd
Original Assignee
Inspur Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Financial Information Technology Co Ltd filed Critical Inspur Financial Information Technology Co Ltd
Priority to CN201710506059.1A priority Critical patent/CN107239571B/zh
Publication of CN107239571A publication Critical patent/CN107239571A/zh
Application granted granted Critical
Publication of CN107239571B publication Critical patent/CN107239571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于多维化数据空间技术的索引构建方法,包括初始化多维度数据检索***和载入需要建立索引的数据文件,还包括设定多维化文件索引项,所述多维化文件索引项至少包括文件类型索引维度、文件属性索引维度、文件特征索引维度以及文件内容索引维度。本方法正是基于这样的差异化特征,一步一步通过多维度索引的方式快速缩小检索范围,从而达到提高检索速度的目的。本发明可以为图片、音频、视频、压缩、加密等各种类型的文件创建索引数据,从而大幅提升这些类型文件内容的检索速度,在诸如指纹对比、人脸识别等领域都有重要的应用价值,比传统方法效率更高、准确率更佳。

Description

基于多维化数据空间技术的索引构建方法
技术领域
本发明涉及一种基于多维化数据空间技术的索引构建方法,属于软件技术领域。
背景技术
随着金融、安全、政务等各种传统行业信息化建设的完善与普及,越来越多的用户数据需要被存储和检索。特别是在一些诸如银行等涉及到群体性用户的大型***中,其所承载的相关资料数据往往数以亿计,如何才能快速而准确的定位有效数据已经成为了这些行业中的重要难题。传统方式创建索引时,索引的建立往往要基于可读字符进行创建,方才能够保证最大化的性能。而由程序自行创建的索引往往并不能锁定该数据的主要特征,只是把索引当作一种无意义的简单标识,这就使得索引并不能有效定位数据的属性特征,导致检索性能的提升并不明显。
以指纹数据的检索为例,传统的指纹检索技术在用户数据大规模增长的今天已经显得非常落伍,单纯依靠硬件性能的提升已经不足以应对如此庞大的信息检索量。一方面是因为指纹等图像类型数据的检索过程较为复杂,另一方面是因为传统的数据检索方式已经不适用于多媒体类型数据的检索需要。如何提高大量非可读性数据的检索效率已经成为适应市场快速发展急需解决的技术问题。
发明内容
本发明所要解决的技术问题是,克服现有技术的缺点,提供一种基于多维化数据空间技术、索引效率高、具有唯一性和群体隔离性等索引特征的索引构建方法。
为了解决以上技术问题,本发明提供一种基于多维化数据空间技术的索引构建方法,包括初始化多维度数据检索***和载入需要建立索引的数据文件,其特征在于还包括以下步骤:
步骤一、设定多维化文件索引项,所述多维化文件索引项至少包括文件类型索引维度、文件属性索引维度、文件特征索引维度以及文件内容索引维度;
步骤二、将步骤一中构建的各维度特征索引相结合在数据空间创建多维索引结构;
步骤三、将多维索引结构载入到当前检索数据空间中并与当前索引内容相融合形成多维数据空间搜索树;
步骤四、完成多维化索引构建。
本发明进一步限定的技术特征为:所述步骤一的多维化文件索引项还包括空间文理索引。
进一步的,所述文件类型索引维度的构建是根据文件类型建立对应的数据空间维度。
进一步的,所述文件类型包括基于文件名后缀判定的文件类型、基于文件头判断的文件类型以及具备自己编码特征的文件类型。
进一步的,所述文件特征索引维度包括唯一性索引、以辅助手段获取文件特征码的索引以及空间几何特征索引。
进一步的,所述空间几何特征包括音频特征和图形纹理特征。
进一步的,所述文件内容索引维度包括可见字符的索引和非可见字符的索引。
进一步的,所述非可见字符通过文件共性特征内容进行关联。
进一步的,所述数据空间包含空间坐标、空间几何体结构以及几何体结构之间的交互。
进一步的,在将需要建立索引的数据文件载入数据空间时,将二进制数据转为三维数据后再创建索引维度并指向空间几何体中的特定坐标。
本发明的有益效果是:多维化的快速检索技术与传统搜索技术的主要差异点就表现在索引创建的多维化上。各种类型不同的数据在混合检索的过程中,由于文件类型的不同、数据内容的不同、数据特征的不同等多方面的因素,导致了它们彼此之间的索引方式具有很大的差异性。本方法正是基于这样的差异化特征,一步一步通过多维度索引的方式快速缩小检索范围,从而达到提高检索速度的目的。本发明可以为图片、音频、视频、压缩、加密等各种类型的文件创建索引数据,从而大幅提升这些类型文件内容的检索速度,在诸如指纹对比、人脸识别等领域都有重要的应用价值,比传统方法效率更高、准确率更佳。
附图说明
图1为本发明的索引构建流程图。
具体实施方式
实施例1
本实施例提供的基于多维化数据空间技术的索引构建方法,如图1所示:包括初始化多维度数据检索***和载入需要建立索引的数据文件,其特征在于还包括以下步骤:
步骤一、根据所载入文件类别和内容的不同,为该文件设定其所属的索引维度,包括:
1)文件类型索引维度
根据文件类型特征创建索引,主要包括:基于文件名后缀判定的文件类型、基于文件头判断的文件类型,以及特定于某些文件类型的内容特征等。以指纹图像文件为例,基于文件名后缀或者文件头定义可以快速分类文件类型,但是png或jpg格式的文件具有自己的编码特征,需要在此过程中识别这些特殊的格式,以便在后续的过程中选择恰当的内容识别方法
2)文件属性索引维度
包括文件的创建时间、创建者、文件大小等基本文件属性
3)文件特征索引维度
特征索引包括传统的唯一性索引,也包括以辅助手段获取文件特征码的索引方法等多种特征识别与索引方式。而多维数据的特征则多出了空间几何特征的认定,不同的数据类型在数据空间中所抽象的几何特征都是不同的,比如图像文件具有时间维度上的平面特征,而视频文件和音频文件则在时间维度上具有立体特征等
4)文件内容索引维度
根据文件的内容所建立的索引包括可见字符的索引和非可见字符的索引,其中可见字符的索引可以通过人为分类在不同的文件之间创建关联关系,而非可见字符则需要通过共性内容进行关联,比如同一厂家的文件具有相同的文件签名等。
5)空间纹理索引维度
当文件内容索引不足以满足需求时,则使用空间纹理索引进一步缩小检索范围。以指纹数据为例,指纹的大小、特征结构等都可以作为空间纹理索引的创建依据,而在音视频文件中,角色的面部特征、音纹特征等也可以通过该方法创建索引。
步骤二、创建多维化文件索引
将步骤一中所创建的各维度特征索引相结合,在数据空间创建多维索引结构。
步骤三、载入多维数据空间
将多维索引结构载入到当前检索所使用的数据空间中。
步骤四、配置文件索引
将该文件的索引与既有的索引内容相融合,形成多维数据空间搜索树
步骤五、完成多维化索引创建。
本方法借助多维数据空间的概念,将数据的索引属性予以多维化的归纳,每一种数据类型之间根据相似性的多少进行逐一索引。比如在检索指纹类数据时,首先根据指纹的大小特征予以索引,将不同尺寸的指纹数据归类为几个级别,再在同级别下的指纹数据间根据几何特征等特殊属性分别创建特征索引,由此便形成了一种数据空间内的层次结构。除此之外,以指纹数据为主的图片文件与其他内容的图片文件之间也会存在一些共性,这些共性信息就是处理图片类型索引的重要特征,而以图片文件为维度进行索引的话,诸如图片大小、色深、创建时间等就成为了可以创建索引的有效内容。
因此,本方法是基于多维数据空间技术为二进制数据文件创建索引,而索引建立的原理便在于同种类文件的共性特征,这种特征必须符合该类型数据的唯一性原则,如此才能快速排除掉其他类型的数据,从而以最快的速度缩小数据的检索范围。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (5)

1.基于多维化数据空间技术的索引构建方法,包括初始化多维度数据检索***和载入需要建立索引的数据文件,其特征在于还包括以下步骤:
步骤一、设定多维化文件索引项,所述多维化文件索引项至少包括文件类型索引维度、文件属性索引维度、文件特征索引维度以及文件内容索引维度和空间纹理索引维度,所述文件类型索引维度的构建是根据文件类型建立对应的数据空间维度,所述文件类型包括基于文件名后缀判定的文件类型、基于文件头判断的文件类型以及具备自己编码特征的文件类型;所述文件特征索引维度包括唯一性索引、以辅助手段获取文件特征码的索引以及空间几何特征索引;
步骤二、将步骤一中构建的各维度特征索引相结合在数据空间创建多维索引结构,所述数据空间包含空间坐标、空间几何体结构以及几何体结构之间的交互;
步骤三、将多维索引结构载入到当前检索数据空间中并与当前索引内容相融合形成多维数据空间搜索树;
步骤四、完成多维化索引构建。
2.根据权利要求1所述的基于多维化数据空间技术的索引构建方法,其特征在于:所述空间几何特征包括音频特征和图形纹理特征。
3.根据权利要求1所述的基于多维化数据空间技术的索引构建方法,其特征在于:所述文件内容索引维度包括可见字符的索引和非可见字符的索引。
4.根据权利要求3所述的基于多维化数据空间技术的索引构建方法,其特征在于:所述非可见字符通过文件共性特征内容进行关联。
5.根据权利要求1-4任一项所述的基于多维化数据空间技术的索引构建方法,其特征在于:在将需要建立索引的数据文件载入数据空间时,将二进制数据转为三维数据后再创建索引维度并指向空间几何体中的特定坐标。
CN201710506059.1A 2017-06-28 2017-06-28 基于多维化数据空间技术的索引构建方法 Active CN107239571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710506059.1A CN107239571B (zh) 2017-06-28 2017-06-28 基于多维化数据空间技术的索引构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710506059.1A CN107239571B (zh) 2017-06-28 2017-06-28 基于多维化数据空间技术的索引构建方法

Publications (2)

Publication Number Publication Date
CN107239571A CN107239571A (zh) 2017-10-10
CN107239571B true CN107239571B (zh) 2021-04-09

Family

ID=59989989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710506059.1A Active CN107239571B (zh) 2017-06-28 2017-06-28 基于多维化数据空间技术的索引构建方法

Country Status (1)

Country Link
CN (1) CN107239571B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154024B (zh) * 2017-12-20 2020-07-28 北京奇艺世纪科技有限公司 一种数据检索方法、装置及电子设备
CN109144962A (zh) * 2018-08-31 2019-01-04 北京诚志重科海图科技有限公司 一种数据存储方法、查询方法、存储装置及查询装置
CN110162645A (zh) * 2019-05-28 2019-08-23 广东三维家信息科技有限公司 基于索引的图像检索方法、装置及电子设备
CN115756552B (zh) * 2023-01-06 2023-04-28 山东矩阵软件工程股份有限公司 一种应用***功能自配置方法、***及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN102708148A (zh) * 2012-03-31 2012-10-03 深圳祥云信息科技有限公司 一种基于多维点阵数据空间模型的去重方法
CN103377237A (zh) * 2012-04-27 2013-10-30 常州市图佳网络科技有限公司 高维数据的近邻搜索方法以及快速近似图像搜索方法
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置
CN105574212A (zh) * 2016-02-24 2016-05-11 北京大学 一种多索引磁盘哈希结构的图像检索方法
CN106095951A (zh) * 2016-06-13 2016-11-09 哈尔滨工程大学 基于负载均衡和查询日志的数据空间多维索引方法
CN106503092A (zh) * 2016-10-13 2017-03-15 浪潮(苏州)金融技术服务有限公司 一种使用多维化技术构建空间多维度搜索树的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130112A1 (en) * 2005-06-30 2007-06-07 Intelligentek Corp. Multimedia conceptual search system and associated search method
CN102270201B (zh) * 2010-06-01 2013-07-17 富士通株式会社 用于网络文件的多维索引的方法和设备
KR101764615B1 (ko) * 2015-04-13 2017-08-03 숭실대학교산학협력단 공간 지식 추출기 및 추출 방법
CN105808747A (zh) * 2016-03-14 2016-07-27 浪潮(苏州)金融技术服务有限公司 一种使用多维化技术进行快速指纹数据查询和对比的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN102708148A (zh) * 2012-03-31 2012-10-03 深圳祥云信息科技有限公司 一种基于多维点阵数据空间模型的去重方法
CN103377237A (zh) * 2012-04-27 2013-10-30 常州市图佳网络科技有限公司 高维数据的近邻搜索方法以及快速近似图像搜索方法
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置
CN105574212A (zh) * 2016-02-24 2016-05-11 北京大学 一种多索引磁盘哈希结构的图像检索方法
CN106095951A (zh) * 2016-06-13 2016-11-09 哈尔滨工程大学 基于负载均衡和查询日志的数据空间多维索引方法
CN106503092A (zh) * 2016-10-13 2017-03-15 浪潮(苏州)金融技术服务有限公司 一种使用多维化技术构建空间多维度搜索树的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Multimedia medical case retrieval using decision trees》;Gwenole Quellec等;《2007 29th Annual International Conference of the IEEE Engineering in Medicine and Biology Society》;20071022;全文 *

Also Published As

Publication number Publication date
CN107239571A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239571B (zh) 基于多维化数据空间技术的索引构建方法
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US7245762B2 (en) Color image processing method
CN205721777U (zh) 视觉搜索设备和***
US7469257B2 (en) Generating and monitoring a multimedia database
CN113515656A (zh) 一种基于增量学习的多视角目标识别与检索方法、及装置
Fonseca et al. Towards content-based retrieval of technical drawings through high-dimensional indexing
CN110968723B (zh) 一种图像特征值的搜索方法、装置及电子设备
Mahmoudi et al. A probabilistic approach for 3D shape retrieval by characteristic views
Shao et al. Remote sensing image retrieval with combined features of salient region
Valle et al. Indexing personal image collections: a flexible, scalable solution
Munarko et al. HII: Histogram Inverted Index for Fast Images Retrieval.
Pant Performance comparison of spatial indexing structures for different query types
US10372731B1 (en) Method of generating a data object identifier and system thereof
WO2010089403A4 (en) Two-valued logic database management system with support for missing information
CN111667394A (zh) 一种基于特征描述的地图缩放比例推断方法
CN110888870A (zh) 数据存储表的查询方法、分区服务器及电子设备
CN111949839B (zh) 数据关联方法、电子设备及介质
Aiger et al. Yes, we CANN: Constrained Approximate Nearest Neighbors for local feature-based visual localization
Wu et al. A novel image retrieval approach with Bag-of-Word model and Gabor feature
Deniziak et al. Content Based Image Retrieval Using Modified Scalable Distributed Two-Layer Data Structure.
Zhou et al. 3d model retrieval based on distance classification histogram
Varish et al. Integration of statistical parameters-based colour-texture descriptors for radar remote sensing image retrieval applications
Saini et al. Comprehensive Study of Indexing Techniques Used for Extracting CNN Features
CN115017224A (zh) 一种基于计算机环境的用户身份画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant