CN114722139A - 可自适应动态伸缩的时空多属性索引方法及其检索方法 - Google Patents

可自适应动态伸缩的时空多属性索引方法及其检索方法 Download PDF

Info

Publication number
CN114722139A
CN114722139A CN202210241696.1A CN202210241696A CN114722139A CN 114722139 A CN114722139 A CN 114722139A CN 202210241696 A CN202210241696 A CN 202210241696A CN 114722139 A CN114722139 A CN 114722139A
Authority
CN
China
Prior art keywords
time
attribute
sub
node
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210241696.1A
Other languages
English (en)
Inventor
张翀
葛斌
赵翔
何春辉
肖卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210241696.1A priority Critical patent/CN114722139A/zh
Publication of CN114722139A publication Critical patent/CN114722139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种可自适应动态伸缩的时空多属性索引方法及其检索方法。所述方法包括:构建待索引文档集,构建待索引文档集的树状数据结构,树状数据结构包括:根节点和叶子节点;根节点向下展开包括多级时间多属性节点,时间多属性节点向下展开包括多级空间多属性节点,根节点通过根节点链表进行表示,时间多属性节点通过时间多属性节点链表进行表示,空间多属性节点通过空间多属性节点链表进行表示,叶子节点通过元素结构进行表示,将待索引文档集中的每一篇文档存储至树状数据结构。采用本方法能够实现多层索引结构,从而为后续的索引自适应调节提供了机制。

Description

可自适应动态伸缩的时空多属性索引方法及其检索方法
技术领域
本申请涉及数据处理技术领域,特别是涉及一种可自适应动态伸缩的时空多属性索引方法及其检索方法。
背景技术
时空多属性索引是指可以同时索引时间信息、空间信息和其他多种属性信息的索引,即最后建立的索引只有1套,而不是针对每个维度单独建立1套索引。含有时间、空间和多属性的数据被时空多属性索引结构进行索引后,用户可以只针对这1套索引进行时间、空间和其他属性的同时检索。相比而言,传统概念的索引构建方式是针对时间、空间和众多属性一一建立索引,用户在检索时***需要将查询条件投递到各个索引去检索,最后再进行汇总过滤。可见时空多属性索引无疑从节约存储空间和检索效率上来说都是较优的技术。
然而,目前的时空检索方法,由于时空多属性索引结构要涵盖的数据项较多(时间、空间以及其他众多索引),因此一般时空多属性索引比单一维度的索引所占用的存储空间要大。上述所涉及的技术未考虑在资源有限(如存储受限)的环境下如何能够自适应调节时空多属性索引的存储开销。另外,索引的构建效率是衡量索引的性能指标之一,为了追求更高的查询效率,索引在划分搜索空间时往往会划分得很细,这可以在利用索引检索时进行大量剪枝从而加快查找效率,但这在构建索引时会需要大量的时间,如何平衡构建效率和查询效率是时空多属性索引需要考虑的问题之一。上述技术均未考虑该问题,不能够使索引的构建效率动态自适应伸缩。
发明内容
基于此,有必要针对上述技术问题,提供一种可自适应动态伸缩的时空多属性索引方法及其检索方法。
一种可自适应动态伸缩的时空多属性索引方法,所述方法包括:
构建待索引文档集;所述待索引文档集中每篇文档包括:时间信息、空间信息以及词列表;
构建所述待索引文档集的树状数据结构;所述树状数据结构包括:根节点和叶子节点;所述根节点向下展开包括多级时间多属性节点,所述时间多属性节点向下展开包括多级空间多属性节点,所述根节点通过根节点链表进行表示,所述时间多属性节点通过时间多属性节点链表进行表示,所述空间多属性节点通过空间多属性节点链表进行表示,所述根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,所述多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,所述空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针所述叶子节点通过元素结构进行表示,所述元素结构包括:空间信息、时间信息、词列表以及URL地址;
将所述待索引文档集中的每一篇文档存储至所述树状数据结构。
在其中一个实施例中,还包括:提取所述待索引文档集中的每一篇文档的时间信息、空间信息以及词列表;
将所述词列表利用位图索引进行映射,得到位图元素;
根据所述时间信息,查询所述根节点链表,使得所述时间信息包含在所述根节点链表的时间值中,得到时间值元素;
当包含时间多属性节点链表时,查询所述时间多属性节点链表,使得时间信息包含在所述时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表;
根据所述待索引文档集中的每一篇文档的空间信息,利用R树***算法,将每一篇文档***至所述时间多属性节点链表的下一级空间多属性节点链表中,直至***所述叶子节点。
在其中一个实施例中,还包括:根据时间信息D.t,查询所述根节点链表,确定时间值value包含D.t的元素rln,构建命中关系为:
rln.bmi=rln.bmi|blw
其中,bmi为位图索引,blw为位图元素;
若未查询到元素rln,则创建一个根节点链表元素rln,并***到根节点中,并使得rln.bmi=rln.bmi|blw。
在其中一个实施例中,还包括:当包含时间多属性节点链表时,查询根节点链表元素rln的下一级时间多属性节点中value包含D.t的元素rln1,构建命中关系为:
rln1.bmi=rln1.bmi|blw
若未查询到rln1,则创建一个时间多属性节点,并将该时间多属性节点***到父节点并关联元素rln1,rln1.bmi=rln1.bmi|blw,直至元素rln1没有下一级时间多属性节点链表。
在其中一个实施例中,还包括从设置的初始比例M%开始,以步长δ为l%,按照(M%+δ)的规模比例构建所述待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;
对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词全部提取形成词列表lw;
针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建所述树状数据结构的索引,其中,对DS_subi,将时间多属性节点的层级从1增长到m级,构建m种不同的树状数据结构的索引;
当|DS_sub|=n时,得到n×m个树状数据结构的索引,将n×m个树状数据结构的索引的存储量stor进行记录;
对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量vsubi
将DS_subi利用时间层级为j层级的索引构建算法所得存储量设置为stori,j
建立映射<v_subi,stori,j>→j;
利用自回归模型对所有的映射进行训练,得到时空多属性索引存储机制的机器学习模型stor_m。
在其中一个实施例中,还包括:读取扫描所给定的存储空间stor;
针对待索引文档集DS,对其中的每一篇文档D,提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据全部的空间信息s,时间信息t和lw构建向量v;
根据机器学习模型stor_m,计算<u,stor>→j;
将j作为时间多属性节点的层级参数执行时空多属性索引构建步骤。
一种可自适应动态伸缩的时空多属性检索方法,所述方法包括:
获取检索条件;所述检索条件中包括:空间查询范围、时间查询范围以及查询关键词列表;
将所述查询关键词列表映射为bqw;
将所述时间查询条件与权利要求1至6中任一项所述的可自适应动态伸缩的时空多属性索引方法中的树状数据结构的根节点链表的各个元素的时间值value做交运算,得到元素集合为r_set;
将bqw与r_set中每个元素的位图索引bmi做交运算,得到元素集合为r_set′;
针对r_set′中每个元素,利用所述时间查询范围与元素子节点元素中value相交且bqw与bmi相交,直到递归到空间多属性节点;
针对空间多属性节点的每个元素,利用空间查询条件与元素中最小限定矩阵MBR相交且bqw与bmi相交,直到递归到叶节点;
当所述叶节点中的空间信息、时间信息、词列表满足所述检索条件时,输出检索结果。
在其中一个实施例中,还包括:给定待索引文档集DS;
从N%开始,以步长δ为l%,按照(N%+δ)的规模比例构建待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;
对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词提取形成词列表lw;
针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建树状数据结构的索引;其中,对DS_subi,将多级时间多属性节点的时间层级从1增长到m级,构建m种不同的树状数据结构的索引;
记录每种树状数据结构的索引的构建时间,得到构建时间集合为
Figure BDA0003542396000000051
Figure BDA0003542396000000052
其中,
Figure BDA0003542396000000053
表示针对文档集DS_subi的第j种树状数据结构的索引的构建时间;
针对文档集DS_subi的每种树状数据结构的索引,采用随机生成空间范围、时间范围以及随机挑选若干查询关键字组成查询条件,进行检索,计算平均检索响应时间,形成检索时间集合
Figure BDA0003542396000000054
表示针对文档集DS_subi的第j种树状数据结构的索引的统计平均检索时间;
计算
Figure BDA0003542396000000055
的算术平均数
Figure BDA0003542396000000056
的算术平均数
Figure BDA0003542396000000057
计算
Figure BDA0003542396000000058
得到能够使
Figure BDA0003542396000000059
最小的那个树状数据结构的索引的时间层级数pi
对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量v_subi
建立映射v_subi→pi
利用自回归模型对所有的映射进行训练,得到时空多属性索引构建与检索效率平衡机制的机器学习模型brbal_m。
在其中一个实施例中,还包括:针对给定的待索引文档集DS,对其中的每一篇文档D,从中提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据所述空间信息s,时间信息t和lw构建向量v;
根据机器学习模型brbal_m,计算v→p;
将p作为时间多属性节点的层级参数执行时空多属性索引的构建过程。
上述可自适应动态伸缩的时空多属性索引方法及其检索方法,提出时空多属性索引的树状数据结构,在该结构中,树状数据结构包括:根节点和叶子节点根节点向下展开包括多级时间多属性节点,时间多属性节点向下展开包括多级空间多属性节点,根节点通过根节点链表进行表示,时间多属性节点通过时间多属性节点链表进行表示,空间多属性节点通过空间多属性节点链表进行表示,根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针;叶子节点通过元素结构进行表示,所述元素结构包括:空间信息、时间信息、词列表以及URL地址。该结构主要分为时间多属性结构和空间多属性结构,不管时间结构还是空间结构都考虑了带有关键词过滤的功能,这在检索时都可以利用关键词进行快速剪枝。除此以外,还利用了时间本身的分层特性(如年-月-日)设计了多层级的时间多属性索引结构,这为后续的索引自适应调节提供了机制,另外,该构建过程中位图索引将会加快构建效率,位图索引的并操作都是位操作,速度较快,再结合***过程中树状的查找机制,这都加快了索引的一般构建过程。
附图说明
图1为一个实施例中可自适应动态伸缩的时空多属性索引方法的流程示意图;
图2为一个实施例中树状数据结构的示意图;
图3为另一个实施例中可自适应动态伸缩的时空多属性检索方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种可自适应动态伸缩的时空多属性索引方法,包括以下步骤:
步骤102,构建待索引文档集。
待索引文档集中每篇文档包括:时间信息、空间信息以及词列表。
步骤104,构建待索引文档集的树状数据结构。
树状数据结构包括:根节点和叶子节点;根节点向下展开包括多级时间多属性节点,时间多属性节点向下展开包括多级空间多属性节点,根节点通过根节点链表进行表示,时间多属性节点通过时间多属性节点链表进行表示,空间多属性节点通过空间多属性节点链表进行表示,根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针;叶子节点通过元素结构进行表示,元素结构包括:空间信息、时间信息、词列表以及URL地址。
步骤106,将待索引文档集中的每一篇文档存储至树状数据结构。
建立好的树状数据结构如图2所示。
上述可自适应动态伸缩的时空多属性索引方法中,提出时空多属性索引的树状数据结构,在该结构中,树状数据结构包括:根节点和叶子节点;根节点向下展开包括多级时间多属性节点,时间多属性节点向下展开包括多级空间多属性节点,根节点通过根节点链表进行表示,时间多属性节点通过时间多属性节点链表进行表示,空间多属性节点通过空间多属性节点链表进行表示,根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针;叶子节点通过元素结构进行表示,所述元素结构包括:空间信息、时间信息、词列表以及URL地址。该结构主要分为时间多属性结构和空间多属性结构,不管时间结构还是空间结构都考虑了带有关键词过滤的功能,这在检索时都可以利用关键词进行快速剪枝。除此以外,还利用了时间本身的分层特性(如年-月-日)设计了多层级的时间多属性索引结构,这为后续的索引自适应调节提供了机制,另外,该构建过程中位图索引将会加快构建效率,位图索引的并操作都是位操作,速度较快,再结合***过程中树状的查找机制,这都加快了索引的一般构建过程。
在其中一个实施例中,提取待索引文档集中的每一篇文档的时间信息、空间信息以及词列表;将所述词列表利用位图索引进行映射,得到位图元素;根据时间信息,查询根节点链表,使得时间信息包含在根节点链表的时间值中,得到时间值元素;当包含时间多属性节点链表时,查询时间多属性节点链表,使得时间信息包含在时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表;根据待索引文档集中的每一篇文档的空间信息,利用R树***算法,将每一篇文档***至时间多属性节点链表的下一级空间多属性节点链表中,直至***叶子节点。
在其中一个实施例中,根据时间信息D.t,查询根节点链表,确定时间值value包含D.t的元素rln,构建命中关系为:
rln.bmi=rln.bmi|blw
其中,bmi为位图索引,blw为位图元素;
若未查询到元素rln,则创建一个根节点链表元素rln,并***到根节点中,并使得rln.bmi=rln.bmi|blw。
在其中一个实施例中,当包含时间多属性节点链表时,查询根节点链表元素rln的下一级时间多属性节点中value包含D.t的元素rln1,构建命中关系为:
rln1.bmi=rln1.bmi|blw
若未查询到rln1,则创建一个时间多属性节点,并将该时间多属性节点***到父节点并关联元素rln1,rln1.bmi=rln1.bmi|blw,直至元素rln1没有下一级时间多属性节点链表。
在其中一个实施例中,解决在多大的待索引数据量和多大的限定存储空间下,采用多少层级的时间索引结构是最优的。提取了时间、空间、关键词和存储空间作为映射的特征进行训练,这既体现了优化的关键特性也减少了训练数据量。
具体的,从设置的初始比例M%开始,以步长δ为l%,按照(M%+δ)的规模比例构建所述待索引文档集DS不同大小的子集:其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;M可以取10。
对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词全部提取形成词列表lw;
针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建所述树状数据结构的索引,其中,对DS_subi,将时间多属性节点的层级从1增长到m级,构建m种不同的树状数据结构的索引;
当|DS_sub|=n时,得到n×m个树状数据结构的索引,将n×m个树状数据结构的索引的存储量stor进行记录;
对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量v_subi
将DS_subi利用时间层级为j层级的索引构建算法所得存储量设置为stori,j
建立映射<v_subi,stori,j>→j;
利用自回归模型对所有的映射进行训练,得到时空多属性索引存储机制的机器学习模型stor_m。
在其中一个实施例中,读取扫描所给定的存储空间stor;
针对待索引文档集DS,对其中的每一篇文档D,提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据全部的空间信息s,时间信息t和lw构建向量v;
根据机器学习模型stor_m,计算<v,stor>→j;
将j作为时间多属性节点的层级参数执行时空多属性索引构建步骤。
上述方法中,利用训练好的存储优化模型,可以随着给索引预设的存储空间大小而构建不同时间层级的索引,这在实际中会使得索引具有智能的伸缩性,特别适合云上透明化调节应用。
在其中一个实施例中,如图3所示,提供一种可自适应动态伸缩的时空多属性检索方法,包括:
步骤302,获取检索条件。
检索条件中包括:空间查询范围、时间查询范围以及查询关键词列表。
步骤304,将所述查询关键词列表映射为bqw。
步骤306,将时间查询条件与上述可自适应动态伸缩的时空多属性索引方法中的树状数据结构的根节点链表的各个元素的时间值value做交运算,得到元素集合为r_set。
步骤308,将bqw与r_set中每个元素的位图索引bmi做交运算,得到元素集合为r_set′。
步骤310,针对r_set′中每个元素,利用时间查询范围与元素子节点元素中value相交且bqw与bmi相交,直到递归到空间多属性节点。
步骤312,针对空间多属性节点的每个元素,利用空间查询条件与元素中最小限定矩阵MBR相交且bqw与bmi相交,直到递归到叶节点。
步骤314,当叶节点中的空间信息、时间信息、词列表满足检索条件时,输出检索结果。
上述可自适应动态伸缩的时空多属性检索方法中,充分利用时间多属性结构、空间多属性结构对时间-关键词和空间-关键词的快速过滤实现高效的检索。
在其中一个实施例中,提供一种检索效率平衡优化的机器学习训练过程,具体如下:
1、给定待索引文档集DS;
2、从N%开始,以步长δ为l%,按照(N%+δ)的规模比例构建待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;
3、对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词提取形成词列表lw;
4、针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建树状数据结构的索引;其中,对DS_subi,将多级时间多属性节点的时间层级从1增长到m级,构建m种不同的树状数据结构的索引;
5、记录每种树状数据结构的索引的构建时间,得到构建时间集合为
Figure BDA0003542396000000111
Figure BDA0003542396000000112
其中,
Figure BDA0003542396000000113
表示针对文档集DS_subi的第j种树状数据结构的索引的构建时间;
6、针对文档集DS_subi的每种树状数据结构的索引,采用随机生成空间范围、时间范围以及随机挑选若干查询关键字组成查询条件,进行检索,计算平均检索响应时间,形成检索时间集合
Figure BDA0003542396000000114
表示针对文档集DS_subi的第j种树状数据结构的索引的统计平均检索时间;
7、计算
Figure BDA0003542396000000115
的算术平均数
Figure BDA0003542396000000116
的算术平均数
Figure BDA0003542396000000117
8、计算
Figure BDA0003542396000000118
得到能够使
Figure BDA0003542396000000119
最小的那个树状数据结构的索引的时间层级数pi
9、对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量v_subi
10、建立映射v_subi→pi
11、利用自回归模型对所有的映射进行训练,得到时空多属性索引构建与检索效率平衡机制的机器学习模型brbal_m。
本实施例中,针对索引构建的层级多,查询效率会提高,但构建效率会降低反之索引构建的层级少,构建效率高,但查询效率低,因此要找到平衡点。本发明点主要解决在多大的待索引数据量下,采用多少层级的时间结构才能使得查询效率和构建效率平衡。
在其中一个实施例中,针对给定的待索引文档集DS,对其中的每一篇文档D,从中提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据所述空间信息s,时间信息t和lw构建向量v;
根据机器学习模型brbal_m,计算v→p;
将p作为时间多属性节点的层级参数执行时空多属性索引的构建过程。
本实施例中,可以在构建索引时,针对不同的待索引数据量自动调节时间结构的层级数量,从而实现构建和查询的效率平衡。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种可自适应动态伸缩的时空多属性索引方法,其特征在于,所述方法包括:
构建待索引文档集;所述待索引文档集中每篇文档包括:时间信息、空间信息以及词列表;
构建所述待索引文档集的树状数据结构;所述树状数据结构包括:根节点和叶子节点;所述根节点向下展开包括多级时间多属性节点,所述时间多属性节点向下展开包括多级空间多属性节点,所述根节点通过根节点链表进行表示,所述时间多属性节点通过时间多属性节点链表进行表示,所述空间多属性节点通过空间多属性节点链表进行表示,所述根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,所述多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,所述空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针;所述叶子节点通过元素结构进行表示,所述元素结构包括:空间信息、时间信息、词列表以及URL地址;
将所述待索引文档集中的每一篇文档存储至所述树状数据结构。
2.根据权利要求1所述的方法,其特征在于,将所述待索引文档集中的每一篇文档存储至所述树状数据结构,包括:
提取所述待索引文档集中的每一篇文档的时间信息、空间信息以及词列表;
将所述词列表利用位图索引进行映射,得到位图元素;
根据所述时间信息,查询所述根节点链表,使得所述时间信息包含在所述根节点链表的时间值中,得到时间值元素;
当包含时间多属性节点链表时,查询所述时间多属性节点链表,使得时间信息包含在所述时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表;
根据所述待索引文档集中的每一篇文档的空间信息,利用R树***算法,将每一篇文档***至所述时间多属性节点链表的下一级空间多属性节点链表中,直至***所述叶子节点。
3.根据权利要求2所述的方法,其特征在于,根据所述时间信息,查询所述根节点链表,使得所述时间信息包含在所述根节点链表的时间值中,得到时间值元素,包括:
根据时间信息D.t,查询所述根节点链表,确定时间值value包含D.t的元素rln,构建命中关系为:
rln.bmi=rln.bmi|blw
其中,bmi为位图索引,blw为位图元素;
若未查询到元素rln,则创建一个根节点链表元素rln,并***到根节点中,并使得rln.bmi=rln.bmi|blw。
4.根据权利要求3所述的方法,其特征在于,当包含时间多属性节点链表时,查询所述时间多属性节点链表,使得时间信息包含在所述时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表,包括:
当包含时间多属性节点链表时,查询根节点链表元素rln的下一级时间多属性节点中value包含D.t的元素rln1,构建命中关系为:
rln1.bmi=rln1.bmi|blw
若未查询到rln1,则创建一个时间多属性节点,并将该时间多属性节点***到父节点并关联元素rln1,rln1.bmi=rln1.bmi|blw,直至元素rln1没有下一级时间多属性节点链表。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
从设置的初始比例M%开始,以步长δ为l%,按照(M%+δ)的规模比例构建所述待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;
对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词全部提取形成词列表lw;
针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建所述树状数据结构的索引,其中,对DS_subi,将时间多属性节点的层级从1增长到m级,构建m种不同的树状数据结构的索引;
当|DS_sub|=n时,得到n×m个树状数据结构的索引,将n×m个树状数据结构的索引的存储量stor进行记录;
对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量v_subi
将DS_subi利用时间层级为j层级的索引构建算法所得存储量设置为stori,j
建立映射<v_subi,stori,j>→j;
利用自回归模型对所有的映射进行训练,得到时空多属性索引存储机制的机器学习模型stor_m。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
读取扫描所给定的存储空间stor;
针对待索引文档集DS,对其中的每一篇文档D,提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据全部的空间信息s,时间信息t和lw构建向量v;
根据机器学习模型stor_m,计算<v,stor>→j;
将j作为时间多属性节点的层级参数执行时空多属性索引构建步骤。
7.一种可自适应动态伸缩的时空多属性检索方法,其特征在于,所述方法包括:
获取检索条件;所述检索条件中包括:空间查询范围、时间查询范围以及查询关键词列表;
将所述查询关键词列表映射为bqw;
将所述时间查询条件与权利要求1至6中任一项所述的可自适应动态伸缩的时空多属性索引方法中的树状数据结构的根节点链表的各个元素的时间值value做交运算,得到元素集合为r_set;
将bqw与r_set中每个元素的位图索引bmi做交运算,得到元素集合为r_set′;
针对r_set′中每个元素,利用所述时间查询范围与元素子节点元素中value相交且bqw与bmi相交,直到递归到空间多属性节点;
针对空间多属性节点的每个元素,利用空间查询条件与元素中最小限定矩阵MBR相交且bqw与bmi相交,直到递归到叶节点;
当所述叶节点中的空间信息、时间信息、词列表满足所述检索条件时,输出检索结果。
8.根据权利要求7所述的检索方法,其特征在于,所述方法还包括:
给定待索引文档集DS;
从N%开始,以步长δ为l%,按照(N%+δ)的规模比例构建待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;
对DS_sub中的每个文档集DS_subi中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词提取形成词列表lw;
针对每个DS_sub中的每个文档集DS_subi,变换不同的时间层级数构建树状数据结构的索引;其中,对DS_subi,将多级时间多属性节点的时间层级从1增长到m级,构建m种不同的树状数据结构的索引;
记录每种树状数据结构的索引的构建时间,得到构建时间集合为
Figure FDA0003542395990000041
Figure FDA0003542395990000042
其中,
Figure FDA0003542395990000043
表示针对文档集DS_subi的第j种树状数据结构的索引的构建时间;
针对文档集DS_subi的每种树状数据结构的索引,采用随机生成空间范围、时间范围以及随机挑选若干查询关键字组成查询条件,进行检索,计算平均检索响应时间,形成检索时间集合
Figure FDA0003542395990000044
Figure FDA0003542395990000045
表示针对文档集DS_subi的第j种树状数据结构的索引的统计平均检索时间;
计算
Figure FDA0003542395990000046
的算术平均数
Figure FDA0003542395990000047
Figure FDA0003542395990000048
的算术平均数
Figure FDA0003542395990000049
计算
Figure FDA00035423959900000410
得到能够使
Figure FDA00035423959900000411
最小的那个树状数据结构的索引的时间层级数pi
对每个DS_subi中的全部空间信息s,时间信息t和lw构建向量v_subi
建立映射v_subi→pi
利用自回归模型对所有的映射进行训练,得到时空多属性索引构建与检索效率平衡机制的机器学习模型brbal_m。
9.根据权利要求8所述的检索方法,其特征在于,所述方法还包括:
针对给定的待索引文档集DS,对其中的每一篇文档D,从中提取空间信息s,时间信息t,并利用分词组件将文档中的词全部提取形成词列表lw;
根据所述空间信息s,时间信息t和lw构建向量v;
根据机器学习模型brbal_m,计算v→p;
将p作为时间多属性节点的层级参数执行时空多属性索引的构建过程。
CN202210241696.1A 2022-03-11 2022-03-11 可自适应动态伸缩的时空多属性索引方法及其检索方法 Pending CN114722139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210241696.1A CN114722139A (zh) 2022-03-11 2022-03-11 可自适应动态伸缩的时空多属性索引方法及其检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210241696.1A CN114722139A (zh) 2022-03-11 2022-03-11 可自适应动态伸缩的时空多属性索引方法及其检索方法

Publications (1)

Publication Number Publication Date
CN114722139A true CN114722139A (zh) 2022-07-08

Family

ID=82238124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210241696.1A Pending CN114722139A (zh) 2022-03-11 2022-03-11 可自适应动态伸缩的时空多属性索引方法及其检索方法

Country Status (1)

Country Link
CN (1) CN114722139A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809360A (zh) * 2023-02-08 2023-03-17 深圳大学 一种大规模时空流数据实时空间连接查询方法及相关设备
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809360A (zh) * 2023-02-08 2023-03-17 深圳大学 一种大规模时空流数据实时空间连接查询方法及相关设备
CN115809360B (zh) * 2023-02-08 2023-05-05 深圳大学 一种大规模时空流数据实时空间连接查询方法及相关设备
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质
CN117389954B (zh) * 2023-12-13 2024-03-29 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20220261427A1 (en) Methods and system for semantic search in large databases
JP5858432B2 (ja) 分散連想メモリベースを提供する方法、システム、及びコンピュータプログラム製品
US11347741B2 (en) Efficient use of TRIE data structure in databases
CN114722139A (zh) 可自适应动态伸缩的时空多属性索引方法及其检索方法
CN111868710B (zh) 搜索大规模非结构化数据的随机提取森林索引结构
US20100106713A1 (en) Method for performing efficient similarity search
CN111581215B (zh) 数组树数据储存方法、快速查找方法及可读储存介质
CN108304409B (zh) 一种基于进位的Sketch数据结构的数据频度估计方法
CN108399213B (zh) 一种面向用户个人文件的聚类方法及***
CN106557777A (zh) 一种基于SimHash改进的Kmeans聚类方法
Skopal et al. Nearest Neighbours Search using the PM-tree
CN116738988A (zh) 文本检测方法、计算机设备和存储介质
Günnemann et al. Subspace clustering for indexing high dimensional data: a main memory index based on local reductions and individual multi-representations
CN113722274A (zh) 一种高效的R-tree索引遥感数据存储模型
CN113297266B (zh) 数据处理方法、装置、设备及计算机存储介质
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
CN113688702B (zh) 基于融合多特征的街景图像处理方法及***
CN110955827B (zh) 采用AI3解决SKQwhy-not问题的方法及***
Terry et al. Indexing method for multidimensional vector data
CN116680367B (zh) 数据匹配方法、数据匹配装置及计算机可读存储介质
JP2002073390A (ja) 多次元空間データ構造を記録した記録媒体、多次元空間データ更新方法、多次元空間データ探索方法および前記方法を実施するプログラムを記録した記録媒体
Terry et al. Variable granularity space filling curve for indexing multidimensional data
CN116910337A (zh) 实体对象的圈选方法、查询方法、装置、服务器及介质
CN118133044A (zh) 问题扩展方法、装置、计算机设备、存储介质和产品
CN116136958A (zh) 文档处理方法、装置、计算机程序产品和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination