CN112347104A - 一种基于深度强化学习的列存储布局优化方法 - Google Patents

一种基于深度强化学习的列存储布局优化方法 Download PDF

Info

Publication number
CN112347104A
CN112347104A CN202011228158.6A CN202011228158A CN112347104A CN 112347104 A CN112347104 A CN 112347104A CN 202011228158 A CN202011228158 A CN 202011228158A CN 112347104 A CN112347104 A CN 112347104A
Authority
CN
China
Prior art keywords
columns
column
sequence
query
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011228158.6A
Other languages
English (en)
Other versions
CN112347104B (zh
Inventor
覃雄派
陈跃国
杜小勇
赵丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202011228158.6A priority Critical patent/CN112347104B/zh
Publication of CN112347104A publication Critical patent/CN112347104A/zh
Application granted granted Critical
Publication of CN112347104B publication Critical patent/CN112347104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度强化学习的列存储布局优化方法,该方法包括:接收查询负载;对查询负载进行解析,以生成查询特征;根据查询特征获取数据列的特征数据;基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;对所述输出顺序进行量化评价,所述量化评价策略基于***的奖赏进行调整;根据量化评价结果调整列的输出顺序的策略。通过本发明,能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数,让神经网络根据列的特征数据自动学习最优列排序,并能够实现增量训练,而且不用在每次优化时重新计算列排序,从而大大降低计算代价。

Description

一种基于深度强化学习的列存储布局优化方法
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度强化学习的列存储布局优化方法,主要是对大数据的列存储进行布局优化,从而提升数据读取性能。
背景技术
面向关系型数据的OLAP(Online Line Analytic Processing)分析在很多分析和决策支持类应用中发挥着至关重要的作用。在大数据时代,很多大数据分析***,如Hive、Spark SQL等,将HDFS(Hadoop Distributed File System)作为底层的存储,大量的数据不断地积累并存储在HDFS上,而数据分析的实时性要求越来越高。作为分布式大数据低成本数据存储与处理的事实标准,HDFS为大数据分析***提供了容错的、可移植、可扩展、高读写吞吐量的统一数据存储。HDFS上的大数据分析***通常被用于支持海量数据上批量的和交互式的查询分析。
在这些***中,数据表通常采用如RCFile、ORC、Parquet、CarbonData等列存储格式,采用列存储的数据存储提供灵活有效的数据编码和压缩功能并且能够只读取必要的数据列,从而避免了不必要的I/O,但我们发现HDFS上数据的查询分析性能可以通过存储布局的优化而进一步提高。当查询访问HDFS数据块中的一个水平分片中的数据列时,需要进行多次的磁盘跳读,一个最优的列顺序可以提供最小的磁盘跳读代价。其中,列排序问题已经被学术论文证明为NP-Hard。如何在给定的查询负载下,设计有效的列排序算法来找到一个近似最优的列顺序是一个难题。而现有的启发式搜索的优化随机性强,容易陷入次优中,同时每次优化都需要重新计算列排序,计算代价较高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案。因此,本发明的一个方面,提供了一种基于深度强化学习的列存储布局优化方法,该方法包括:
接收查询负载;
对查询负载进行解析,以生成查询特征;
根据查询特征获取数据列的特征数据;
基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;
对所述输出顺序进行量化评价,所述量化评价策略基于***的奖赏进行调整;
根据量化评价结果调整列的输出顺序的策略。
可选的,根据磁盘跳读时间对所述输出顺序进行量化评价。
可选的,采用Actor-Critic算法实现深度强化学习列的输出顺序的策略,基于***的奖赏调整量化评价策略,包括根据***给出的奖赏调整critic神经网络中的参数。
可选的,采用Pointer Net的神经网络进行输出顺序的决策,包括从一个序列到另一个序列进行映射。
可选的,基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序,包括:
利用注意力机制得到输出序列某一个位置的元素与输入序列每个位置关联的权重;
将输入序列与该权重进行组合以计算当前输出与输入序列关系最大的元素,并将该输入序列的元素作为输出元素。
可选的,该方法还包括:对输入查询负载进行统一编码,具体包括:
将输入查询负载中的每一个查询初始化为一集合;
确定每一个查询的对应列访问特征;
根据列访问特征将该查询对应的所述集合中的元素进行二值编码。
本申请提供的技术方案,至少具有如下技术效果或优点:本发明实现了一种基于深度强化学习的列存储布局优化方法,并与现有的启发式列排序算法进行实验对比,进一步降低磁盘跳读代价,能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数,让神经网络根据列的特征数据自动学习最优列排序,并能够实现增量训练,将最新的查询负载直接输入到模型中,不用在每次优化时重新计算列排序,从而大大降低计算代价。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述技术方案和其目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明提出的基于深度强化学习的列存储布局优化方法的流程图;
图2示出了一种基于宽表的列存储布局优化方案中磁盘的跳读代价模型图;
图3示出了本发明提出的基于深度强化学习的列存储布局优化的总体框架图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
在大数据分析***中,I/O往往是主要的性能瓶颈,存储***的设计和优化对于大数据分析性能的提升至关重要。在数据组织方面,列存储(如ORC、Parquet)提供灵活有效的数据编码和压缩功能并且能够只需读取必要的数据列,从而避免了不必要的I/O。在列存储布局下,如何调整物理数据存储布局以适合不断变化的查询负载和***环境是亟待解决的问题。本发明的目的是在Hadoop环境下,设计并实现一种基于深度强化学习的列存储布局优化方法DRL-COA(Deep Reinforcement Learning based Column Ordering Algorithm),应用于自适应的列存储布局优化中,其与现有的启发式列排序算法比较,进一步降低了磁盘跳读代价。
在本发明提出的DRL-COA中,使用Actor-Critic算法模型进行强化学习,并在Actor神经网络中应用Pointer Net的网络结构,主要是用于根据最开始的输入,不断输出新的动作(列顺序),Critic神经网络根据动作之后的“收益”用于对该动作进行评价,从而不断选择新的动作。在做动作选择时,由于是一个列顺序,因此每个位置的列的选择也很重要,这里通过注意力机制得到某一个位置的元素与输入序列每个位置关联的权重,从而进行选择。
本发明的一个方面,提供了一种基于深度强化学习的列存储布局优化方法,该方法利用深度强化学习技术来解决列的顺序决策问题,通过训练模型来优化存储布局,具体地,如图1所示,该方法包括:
接收查询负载;
对查询负载进行解析,以生成查询特征;
根据查询特征获取数据列的特征数据;
基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;
对所述输出顺序进行量化评价,所述量化评价策略基于***的奖赏进行调整;
根据量化评价结果调整列的输出顺序的策略。
作为一种优选实施方式,采用Actor-Critic算法实现深度强化学习列的输出顺序的策略,基于***的奖赏调整量化评价策略,包括根据***给出的奖赏调整critic神经网络中的参数。
下面具体描述Actor-Critic算法实现的具体过程。方案中DRL-COA网络模型的输入可以表示为矩阵[1*n]:
Figure BDA0002764276500000051
ci代表每个数据列在该查询中是否存在(其中,1代表存在,0代表不存在),n表示查询个数,输入即为查询负载Q的数学表示。Actor-Critic模型的输出为数据列的顺序,可以表示为O(Order)。同时,使用磁盘跳读时间来对模型每次迭代的输出结果进行评价。其流程主要如下:
(1)根据目前的state,Actor做出一个列排序输出的action;
(2)根据state(状态)和action,Critic对actor刚才的表现打一个分数;
(3)依据critic的打分,Actor调整目前的策略(即actor神经网络中的参数),执行下一个动作;
(4)根据***给出的reward(收益),Critic也来调整目前的打分策略(即critic神经网络中的参数);
(5)最初,Actor随机表演,Critic随机打分。但由于reward的存在,Critic打分越来越准,Actor也表现越来越好。
在该方法中,优选根据磁盘跳读时间对所述输出顺序进行量化评价。本方案的网络模型随机策略pθ(o|c)可以表示为:当输入为c(column),输出为o(order)时,模型评价SC(o│c)为相应的磁盘跳读时间。研究模型训练的目标为:当模型评价SC(o|c)值愈小,则输出o会以较大的概率被选中。其中,训练时将磁盘跳读时间来对模型每次迭代的输出结果进行评价,这样设计可以保证在训练过程中模型参数是在磁盘跳读时间减少的期望方向上不断调整。
图2示出了一种基于宽表的列存储布局优化方案中磁盘的跳读代价模型图。在基于宽表的列存储布局优化方案中,针对传统磁盘上数据访问的特征设计了基于磁盘的跳读时间代价模型,在一系列的HDFS文件中执行多次距离相等的跳读操作,取此跳读距离d上的平均跳读时间作为d对应的统计意义上的跳读代价。得到不同跳读距离下的跳读代价后,采用线性拟合来构建一个分段的跳读代价函数。图2示出了采用此方法在三种不同型号磁盘上得到的跳读代价函数。
在本专利中,采用Actor-Critic算法实现了深度强化学习,从而在处理游戏数据上能既可以处理离散值又可以实现单步更新,相比较,现有技术中基于值函数的算法仅能对离散值进行处理,在游戏的每一步都进行更新,基于策略的算法虽可以处理离散值和连续值,但是必须等到每一回合游戏结束才可以进行处理。但在本申请中采用Actor-Critic深度学习算法后则能够实现既可以处理离散值又可以单步更新。
图3为本发明提出的基于深度强化学习的列存储布局优化的总体框架图。图中展示了DRL-COA模型的几大组件,从查询负载的收集、解析到模型的特征输入与训练,智能体(深度学习体)通过与环境的不断交互学习,学习列的特征数据,Critic神经网络根据跳读估计器组件来对Actor神经网络模型每次迭代的输出结果进行评价,使得模型参数能在磁盘跳读时间减少的期望方向上不断调整,相比于启发式搜索的随机性优化,更具有方向性,不易陷入次优中;同时,作为深度强化学习模型,不用在每次优化时重新计算列排序,通过增量训练的方式大大降低了计算代价。
在本专利中,基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序,可包括:
利用注意力机制得到输出序列某一个位置的元素与输入序列每个位置关联的权重;
将输入序列与该权重进行组合以计算当前输出与输入序列关系最大的元素,并将该输入序列的元素作为输出元素。
优选的,采用Pointer Net的神经网络进行输出顺序的决策,包括从一个序列到另一个序列进行映射。
本方案在考虑列排序的问题上,将其类比为一种组合优化的相关问题,即需要进行序列之间的决策,来调整列顺序。DRL-COA模型,采用Pointer Net的神经网络来求解列排序中的序列决策问题,解决从一个序列到另一个序列的映射问题。同时,在计算输出序列时,利用注意力机制得到该输出序列某一个位置的元素与输入序列每一个位置关联的权重,然后将输入序列与该权重以一定的方式组合来影响输出。由此,可以计算出当前输出与输入序列关系最大的元素,就将输入序列的元素作为该输出元素,每一个输出元素都像有一个指针一样指向输入元素。这样设计可以控制每个输入元素只能被一个输出元素所指,这样就避免了输入元素的重复出现。
在本发明中,在模型训练前会先进行输入查询负载样本的编码。这是因为每个查询访问的列可能只是部分列,而输出的是所有列的集合,通过输入编码可以达到PointerNet网络结构的要求,输出序列的内容与输入序列的内容完全一致,只是序列的顺序发生了改变。在图3中,C1,C2,C3,C4,C5为编码器输入的数据列,而<g>,C4,C5,C1,C2为解码器输出的数据列。
假设负载Q中的查询个数为N,访问的数据列集合长度为n,我们将每一个查询q初始化为
Figure BDA0002764276500000071
ci=0的集合N’。
因此对输入查询负载进行统一编码,具体可包括:
将输入查询负载中的每一个查询初始化为一集合;
确定每一个查询的对应列访问特征;具体地,对于负载Q中的每一个查询q(只涉及m个数据列),其列访问特征为Cq={cq,1,cq,2,...,cq,m}。
根据列访问特征将该查询对应的所述集合中的元素进行二值编码,具体地,可以将该查询q在N’中对应的{1,2,...,m}等数据列的下标位置设置为1,其他位置仍然为0(表示查询q不曾访问该列)。由此,负载统一编码成{1,0,...,1}的模式。
本专利申请通过Actor-Critic深度强化学习算法、Pointer Net神经网络、注意力机制以及磁盘跳读代价模拟等技术,对输入负载样本进行有效编码,以列顺序作为输出,磁盘跳读代价作为对模型每次迭代的输出结果进行评价,从而使得模型参数能在磁盘跳读时间减少的期望方向上不断调整。在此实现方案下,让神经网络根据列的特征数据自动学习最优列排序,且可以实现DRL-COA模型的增量训练,将最新的查询负载直接输入到模型中,不用在每次优化时重新计算列排序,从而大大降低计算代价。
本申请提供的技术方案,至少具有如下技术效果或优点:本发明实现了一种基于深度强化学习的列存储布局优化方法,并与现有的启发式列排序算法进行实验对比,进一步降低磁盘跳读代价,能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数,让神经网络根据列的特征数据自动学习最优列排序,并能够实现增量训练,将最新的查询负载直接输入到模型中,不用在每次优化时重新计算列排序,从而大大降低计算代价。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。

Claims (6)

1.一种基于深度强化学习的列存储布局优化方法,其特征在于,该方法包括:
接收查询负载;
对查询负载进行解析,以生成查询特征;
根据查询特征获取数据列的特征数据;
基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;
对所述输出顺序进行量化评价,所述量化评价策略基于***的奖赏进行调整;
根据量化评价结果调整列的输出顺序的策略。
2.根据权利要求1所述的列存储布局优化方法,其特征还在于,根据磁盘跳读时间对所述输出顺序进行量化评价。
3.根据权利要求1所述的列存储布局优化方法,其特征还在于,采用Actor-Critic算法实现深度强化学习列的输出顺序的策略,基于***的奖赏调整量化评价策略包括根据***给出的奖赏调整critic神经网络中的参数。
4.根据权利要求1所述的列存储布局优化方法,其特征还在于,采用Pointer Net的神经网络进行输出顺序的决策,包括从一个序列到另一个序列进行映射。
5.根据权利要求1所述的列存储布局优化方法,其特征还在于,基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序,包括:
利用注意力机制得到输出序列某一个位置的元素与输入序列每个位置关联的权重;
将输入序列与该权重进行组合以计算当前输出与输入序列关系最大的元素,并将该输入序列的元素作为输出元素。
6.根据权利要求4所述的列存储布局优化方法,其特征还在于,基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序,包括:对输入查询负载进行统一编码,具体为:将输入查询负载中的每一个查询初始化为一集合;确定每一个查询的对应列访问特征;根据列访问特征将该查询对应的所述集合中的元素进行二值编码。
CN202011228158.6A 2020-11-06 2020-11-06 一种基于深度强化学习的列存储布局优化方法 Active CN112347104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011228158.6A CN112347104B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的列存储布局优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228158.6A CN112347104B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的列存储布局优化方法

Publications (2)

Publication Number Publication Date
CN112347104A true CN112347104A (zh) 2021-02-09
CN112347104B CN112347104B (zh) 2023-09-29

Family

ID=74429231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011228158.6A Active CN112347104B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的列存储布局优化方法

Country Status (1)

Country Link
CN (1) CN112347104B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332229A (zh) * 2023-09-27 2024-01-02 天津大学 面向故障诊断的星间交互信息优选方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143913A1 (en) * 2010-12-03 2012-06-07 International Business Machines Corporation Encoding Data Stored in a Column-Oriented Manner
CN102609493A (zh) * 2012-01-20 2012-07-25 东华大学 一种基于列存储模型的连接顺序查询优化方法
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法
CN103324765A (zh) * 2013-07-19 2013-09-25 西安电子科技大学 一种基于列存储的多核并行数据查询优化方法
CN106528737A (zh) * 2016-10-27 2017-03-22 中企动力科技股份有限公司 一种展示网站导航方法和***
US20180107696A1 (en) * 2015-06-04 2018-04-19 Microsoft Technology Licensing, Llc Column ordering for input/output optimization in tabular data
CN108197275A (zh) * 2018-01-08 2018-06-22 中国人民大学 一种分布式文件列存储索引方法
CN108804473A (zh) * 2017-05-04 2018-11-13 华为技术有限公司 数据查询的方法、装置和数据库***
CN110032604A (zh) * 2019-02-02 2019-07-19 阿里巴巴集团控股有限公司 数据存储装置、转译装置及数据库访问方法
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN110192206A (zh) * 2017-05-23 2019-08-30 谷歌有限责任公司 基于注意力的序列转换神经网络
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置
US20200311585A1 (en) * 2019-03-31 2020-10-01 Palo Alto Networks Multi-model based account/product sequence recommender
CN111797860A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143913A1 (en) * 2010-12-03 2012-06-07 International Business Machines Corporation Encoding Data Stored in a Column-Oriented Manner
CN102609493A (zh) * 2012-01-20 2012-07-25 东华大学 一种基于列存储模型的连接顺序查询优化方法
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法
CN103324765A (zh) * 2013-07-19 2013-09-25 西安电子科技大学 一种基于列存储的多核并行数据查询优化方法
US20180107696A1 (en) * 2015-06-04 2018-04-19 Microsoft Technology Licensing, Llc Column ordering for input/output optimization in tabular data
CN106528737A (zh) * 2016-10-27 2017-03-22 中企动力科技股份有限公司 一种展示网站导航方法和***
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN108804473A (zh) * 2017-05-04 2018-11-13 华为技术有限公司 数据查询的方法、装置和数据库***
CN110192206A (zh) * 2017-05-23 2019-08-30 谷歌有限责任公司 基于注意力的序列转换神经网络
CN108197275A (zh) * 2018-01-08 2018-06-22 中国人民大学 一种分布式文件列存储索引方法
CN110032604A (zh) * 2019-02-02 2019-07-19 阿里巴巴集团控股有限公司 数据存储装置、转译装置及数据库访问方法
US20200311585A1 (en) * 2019-03-31 2020-10-01 Palo Alto Networks Multi-model based account/product sequence recommender
CN111797860A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAOQIONG BIAN等: "Wide Table Layout Optimization based on Column Ordering and Duplication", ACM INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, pages 299 - 314 *
金国栋等: "HDFS存储和优化技术研究综述", 软件学报, vol. 31, no. 1, pages 137 - 161 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332229A (zh) * 2023-09-27 2024-01-02 天津大学 面向故障诊断的星间交互信息优选方法
CN117332229B (zh) * 2023-09-27 2024-05-10 天津大学 面向故障诊断的星间交互信息优选方法

Also Published As

Publication number Publication date
CN112347104B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US9665572B2 (en) Optimal data representation and auxiliary structures for in-memory database query processing
CN112417381B (zh) 应用于图像版权保护的快速定位侵权图像的方法及装置
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和***
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN110297885B (zh) 实时事件摘要的生成方法、装置、设备及存储介质
CN114117153A (zh) 一种基于相似度重学习的在线跨模态检索方法及***
CN114186084A (zh) 在线多模态哈希检索方法、***、存储介质及设备
CN112347104A (zh) 一种基于深度强化学习的列存储布局优化方法
CN115511071A (zh) 模型训练方法、装置及可读存储介质
CN113191445A (zh) 基于自监督对抗哈希算法的大规模图像检索方法
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
CN113449182B (zh) 一种知识信息个性化推荐方法及***
CN116306321B (zh) 基于粒子群的吸附水处理方案优化方法、装置及设备
CN113611354A (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN113377991A (zh) 一种基于最难正负样本的图像检索方法
CN112836794A (zh) 一种图像神经架构的确定方法、装置、设备及存储介质
CN1045343C (zh) 无序处理机
CN116483337A (zh) 一种基于提示学习和数据增强的api补全方法
CN115309929A (zh) 一种非线性语义保持跨模态哈希检索方法及***
CN114663765A (zh) 一种基于弱监督细粒度的植物叶片识别***及方法
CN114020948A (zh) 基于排序聚类序列辨别选择的草图图像检索方法及***
CN116737607B (zh) 样本数据缓存方法、***、计算机设备和存储介质
CN116821171B (zh) 一种生成新虚拟视图加速计算任务的方法
CN117972438B (zh) 一种数据处理方法、***、设备及存储介质
Fontoura Analyzing the performance of top-k retrieval algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant