CN106446039A - 聚合式大数据查询方法及装置 - Google Patents
聚合式大数据查询方法及装置 Download PDFInfo
- Publication number
- CN106446039A CN106446039A CN201610786249.9A CN201610786249A CN106446039A CN 106446039 A CN106446039 A CN 106446039A CN 201610786249 A CN201610786249 A CN 201610786249A CN 106446039 A CN106446039 A CN 106446039A
- Authority
- CN
- China
- Prior art keywords
- data
- query task
- node
- group
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24545—Selectivity estimation or determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种聚合式大数据查询方法及装置,所述方法包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。本发明提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,可以减小聚合式大数据查询过程中数据传输的网络开销。
Description
技术领域
本发明涉及数据查询领域,尤其涉及一种聚合式大数据查询方法及装置。
背景技术
二十一世纪以来,随着电子商务、科学计算及社交网络等新一代大规模网络应用的迅猛发展,互联网数据量大幅增加。云计算的发展和大数据时代的到来使得基于单台主机的传统关系数据库***在扩展能力和处理能力等方面都捉襟见肘,越来越无法满足管理海量数据的需求。
在大数据时代,基于大数据的数据分析处理需求得到了越来越多的重视。为了应对大数据带来的困难和挑战,以Google、Facebook、Linkedin、Microsoft等为代表的互联网企业和学术界近几年推出了各种不同类型的大数据处理***。借助于新型的处理***,深度学***扩展来提升自身这方面的性能。水平扩展不仅仅是物理机器的扩展还蕴含着对存储的数据进行分区操作,即同一个数据大表的数据分割放置于不同的物理节点上。这种方式对于扩展集群的并发访问能力有着显著的提升。
但是,现有技术中的大数据处理***,基于数据的操作及数据传送会带来网络开销。在***面临聚合式数据查询,如Join,Aggregation,Group by等聚合式数据查询操作时,往往涉及到两个或多个数据表,数据表的元组数量巨大,而且数据跨越多个节点,因此会导致巨大的网络通信开销,影响整个***的性能。
发明内容
本发明实施例提供一种聚合式大数据查询方法及装置,用于解决现有技术中的聚合式大数据查询方法及装置导致巨大的网络通信开销,从而影响***性能的问题。
第一方面,本发明实施例提供一种聚合式大数据查询方法,包括:
获取聚合式大数据查询请求;
根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;
获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述方法还包括:根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
第二方面,本发明实施例还提供一种聚合式大数据查询装置,包括:
获取模块,用于获取聚合式大数据查询请求;
所述获取模块,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块,还用于获取每个数据组的大小,
确定模块,用于确定所述n个查询任务中具有相同键值的数据组中数据量数据量最大的数据组;
所述确定模块,还用于确定所述数据量数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块,用于通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,所述查询处理模块,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述装置还包括:
备份模块,用于根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述获取模块,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
本发明提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,由于所述查询任务执行节点本地存储的数据组的数据量最大,执行所述聚合式大数据查询任务时,所述查询任务执行节点可以直接使用本地的数据组,从而减小所述查询任务执行节点通过网络从其他数据处理节点中获取的数据组的数据量,减小聚合式大数据查询过程中数据传输的网络开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例聚合式大数据查询***的框架结构示意图;
图2为本发明实施例聚合式大数据查询方法的流程示意图;
图3为本发明实施例聚合式大数据查询操作的过程示意图;
图4为本发明实施例聚合式大数据查询操作的另一过程示意图;
图5为本发明实施例聚合式大数据查询装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种可以节省数据查询网络开销的聚合式大数据查询方法及装置。
图1为本发明实施例聚合式大数据查询***的框架结构示意图。
请参阅图1,本发明实施例聚合式大数据查询***包括客户端10、聚合式大数据查询装置20及多个数据处理节点30。所述聚合式大数据查询装置20包括查询请求处理模块21、查询类型判断模块22、数据备份管理模块23、数据分区管理模块24、及数据传送模块25。所述查询请求处理模块21用于从所述客户端10获取数据查询请求。所述查询类型判断模块22用于判断所述数据查询请求的类型。所述数据备份管理模块23用于对所述数据处理节点30中存储的数据进行备份管理。所述数据传送模块25用于从所述数据处理节点30中获取待查询数据,并从所述数据处理节点30中获取数据查询结果。所述聚合式大数据查询装置20通过所述客户端请求处理模块21获取到所述客户端10发送的聚合式大数据查询请求,并通过所述查询类型判断模块22判断所述数据处理请求是否为聚合式大数据处理请求,如果是,则所述数据分区管理模块24对所述查询任务进行分区,并从所述多个数据处理节点30中确定出执行聚合式大数据查询任务的查询任务执行节点,通过所述查询任务执行节点执行聚合式大数据查询任务。
图2为本发明实施例聚合式大数据查询方法的流程示意图。
请参阅图2,本发明实施例提供的聚合式大数据查询方法由图1中的聚合式大数据查询装置执行,所述方法包括:
S201:获取聚合式大数据查询请求;
具体地,所述聚合式大数据查询装置通过所述客户端请求处理模块从所述客户端获取所述聚合式大数据查询请求。
S202:根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
具体地,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
具体地,所述聚合式大数据查询装置通过所述数据传输模块从所述n个数据处理节点中获取与所述聚合式大数据处理请求相关的数据。所述查询任务执行节点通过所述数据传输模块将最终得到的聚合式大数据查询结果发送给所述聚合式大数据查询装置。所述聚合式大数据查询装置将所述查询结果返回给客户端。
所述聚合式大数据查询装置采用开源集群计算环境Spark,在Spark中,一个聚合式查询操作会分为3个阶段。
图3为本发明实施例聚合式大数据查询操作的过程示意图。
请参阅图3,第一阶段及第二阶段分别处理的是所述聚合式查询操作所涉及到的所述第一数据表及所述第二数据据表的数据,然后第三阶段对这些数据进行实际的聚合。Spark中每个阶段中都包含了许多具有相同工作的任务,只是他们所处理的数据不同。所述第一阶段及所述第二阶段输出所述n个查询任务,每个所述查询任务通过一个数据处理节点执行。
S203:将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述步骤由所述聚合式大数据查询装置的数据分区管理模块执行。
图4为本发明实施例聚合式大数据查询操作的另一过程示意图。
具体地,请参阅图4,所述查询任务的数量为n。通过执行所述查询任务,每个查询任务输出m个数据组,所述m个数据组分别具有不同的键值。每个数据组由具有相同键值的数据相结合形成。所述n个查询任务中具有相同键值的数据组通过合并任务进行聚合。
S204:获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
具体地,由于每个查询任务被分解为m个数据组,一个合并任务用于处理具有同一个键值的所有数据组,即每个合并任务处理n个具有同一键值的数据组。实际处理过程中,其中的部分数据组中的数据可以为空。为了保证对所述查询任务中所有具有相同键值的数据组执行聚合,所述n个查询任务需要通过m个合并任务完成合并。
具体地,通过遍历每个合并任务所处理的数据组的数据量,并对所述每个合并任务所处理的数据组的数据量进行比较,确定出每个合并任务所处理的数据量最大的数据组,并记录所述数据量最大的数据组所对应的查询任务所在的数据处理节点。
S205:确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
为了保证在执行聚合式大数据查询任务的过程中读取数据时尽量减小数据的网络传输开销,所述聚合式大数据查询装置通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点。
S206:通过所述查询任务执行节点执行聚合式大数据查询任务。
具体地,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
本发明实施例提供的聚合式大数据查询方法,通过获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。执行聚合式大数据查询任务时,需要从所述n个数据处理节点中分别获取具有相同键值的数据组进行合并。采用本发明实施例提供的聚合式大数据查询方法,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,由于所述查询任务执行节点本地存储的数据组的数据量最大,执行所述聚合式大数据查询任务时,所述查询任务执行节点可以直接使用本地的数据组,从而减小所述查询任务执行节点通过网络从其他数据处理节点中获取的数据组的数据量,减小聚合式大数据查询过程中数据传输的网络开销。
进一步地,在上述实施例的基础上,所述方法还包括:根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
通过选取热点数据在相邻的数据处理节点中进行备份,使得所述查询任务执行节点中也可以对相邻的数据处理节点中的热点数据进行备份,则所述查询任务执行节点在执行数据组的数据合并的过程中,如果确定所述相邻的数据处理节点中存在需要合并的数据组,即可以从所述查询任务执行节点本地获取到相邻的数据处理节点中的数据组的数据,无需通过网络访问所述相邻数据处理节点,减小了网络开销。
图5为本发明实施例聚合式大数据查询装置的结构示意图。请参阅图5,本发明实施例提供一种聚合式大数据查询装置,包括:
获取模块510,用于获取聚合式大数据查询请求;
所述获取模块510,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块520,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块510,还用于获取每个数据组的大小,
确定模块530,用于确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
所述确定模块530,还用于确定所述数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块540,用于通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,在上述实施例的基础上,所述查询处理模块540,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,在上述实施例的基础上,所述装置还包括:
备份模块550,用于根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块540,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,在上述实施例的基础上,所述获取模块510,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
本发明实施例提供的聚合式大数据查询装置,用于执行上述方法实施例提供的方法,其具体实现原理及技术效果与上述方法实施例类似,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种聚合式大数据查询方法,其特征在于,包括:
获取聚合式大数据查询请求;
根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;
获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
通过所述查询任务执行节点执行聚合式大数据查询任务。
2.根据权利要求1所述的方法,其特征在于,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
3.根据权利要求2所述的方法,其特征在于,还包括:根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
5.一种聚合式大数据查询装置,其特征在于,包括:
获取模块,用于获取聚合式大数据查询请求;
所述获取模块,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块,还用于获取每个数据组的大小,
确定模块,用于确定所述n个查询任务中具有相同键值的数据组中数据量数据量最大的数据组;
所述确定模块,还用于确定所述数据量数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块,用于通过所述查询任务执行节点执行聚合式大数据查询任务。
6.根据权利要求5所述的装置,其特征在于,所述查询处理模块,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
7.根据权利要求6所述的装置,其特征在于,还包括:
备份模块,用于根据所述聚合式大数据处理请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取所述获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述获取模块,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据处理请求相关的数据,生成所述n个查询任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610786249.9A CN106446039B (zh) | 2016-08-30 | 2016-08-30 | 聚合式大数据查询方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610786249.9A CN106446039B (zh) | 2016-08-30 | 2016-08-30 | 聚合式大数据查询方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446039A true CN106446039A (zh) | 2017-02-22 |
CN106446039B CN106446039B (zh) | 2020-07-21 |
Family
ID=58091488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610786249.9A Active CN106446039B (zh) | 2016-08-30 | 2016-08-30 | 聚合式大数据查询方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446039B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344169A (zh) * | 2018-09-20 | 2019-02-15 | 新华三大数据技术有限公司 | 数据处理方法及装置 |
CN110019341A (zh) * | 2017-12-08 | 2019-07-16 | 杭州海康威视数字技术股份有限公司 | 一种数据查询方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467570A (zh) * | 2010-11-17 | 2012-05-23 | 日电(中国)有限公司 | 用于分布式数据仓库的连接查询***和方法 |
CN103593436A (zh) * | 2013-11-12 | 2014-02-19 | 华为技术有限公司 | 文件合并方法和装置 |
US20150302063A1 (en) * | 2014-04-21 | 2015-10-22 | Linkedln Corporation | System and method for searching a distributed node-sharded graph |
CN105045871A (zh) * | 2015-07-15 | 2015-11-11 | 国家超级计算深圳中心(深圳云计算中心) | 数据聚合查询方法及装置 |
CN105204920A (zh) * | 2014-06-18 | 2015-12-30 | 阿里巴巴集团控股有限公司 | 一种基于映射聚合的分布式计算作业的实现方法及装置 |
-
2016
- 2016-08-30 CN CN201610786249.9A patent/CN106446039B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467570A (zh) * | 2010-11-17 | 2012-05-23 | 日电(中国)有限公司 | 用于分布式数据仓库的连接查询***和方法 |
CN103593436A (zh) * | 2013-11-12 | 2014-02-19 | 华为技术有限公司 | 文件合并方法和装置 |
US20150302063A1 (en) * | 2014-04-21 | 2015-10-22 | Linkedln Corporation | System and method for searching a distributed node-sharded graph |
CN105204920A (zh) * | 2014-06-18 | 2015-12-30 | 阿里巴巴集团控股有限公司 | 一种基于映射聚合的分布式计算作业的实现方法及装置 |
CN105045871A (zh) * | 2015-07-15 | 2015-11-11 | 国家超级计算深圳中心(深圳云计算中心) | 数据聚合查询方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019341A (zh) * | 2017-12-08 | 2019-07-16 | 杭州海康威视数字技术股份有限公司 | 一种数据查询方法及装置 |
CN110019341B (zh) * | 2017-12-08 | 2021-07-23 | 杭州海康威视数字技术股份有限公司 | 一种数据查询方法及装置 |
CN109344169A (zh) * | 2018-09-20 | 2019-02-15 | 新华三大数据技术有限公司 | 数据处理方法及装置 |
CN109344169B (zh) * | 2018-09-20 | 2021-02-09 | 新华三大数据技术有限公司 | 数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106446039B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598631B (zh) | 分布式数据处理平台 | |
CN110134714B (zh) | 适用于大数据迭代计算的分布式计算框架缓存索引方法 | |
CN107515878B (zh) | 一种数据索引的管理方法及装置 | |
CN104809130A (zh) | 数据查询的方法、设备及*** | |
CN107220376B (zh) | 一种数据查询方法和装置 | |
US9355166B2 (en) | Clustering signifiers in a semantics graph | |
JP6553816B2 (ja) | ユーザデータ共有方法及び装置 | |
CN105550332A (zh) | 一种基于双层索引结构的起源图查询方法 | |
CN106776787A (zh) | 一种对互联网数据进行采集的方法 | |
US10162830B2 (en) | Systems and methods for dynamic partitioning in distributed environments | |
CN106599190A (zh) | 基于云计算的动态Skyline查询方法 | |
CN106156319A (zh) | 可伸缩的分布式的资源描述框架数据存储方法及装置 | |
CN107798106A (zh) | 一种分布式爬虫***中的url去重方法 | |
Li et al. | Losha: A general framework for scalable locality sensitive hashing | |
Li et al. | Signed clique search in signed networks: Concepts and algorithms | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
CN106446039A (zh) | 聚合式大数据查询方法及装置 | |
CN107679097A (zh) | 一种分布式数据处理方法、***和存储介质 | |
Aslam et al. | Pre‐filtering based summarization for data partitioning in distributed stream processing | |
US11442792B2 (en) | Systems and methods for dynamic partitioning in distributed environments | |
CN112711588B (zh) | 多表连接的方法和装置 | |
CN109992630B (zh) | 数据模型匹配方法和装置 | |
CN115563103B (zh) | 一种多维度聚合方法、***、电子设备及存储介质 | |
CN105243063A (zh) | 信息推荐的方法和装置 | |
Fang et al. | Parallelized user clicks recognition from massive HTTP data based on dependency graph model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220125 Address after: 215488 No. 301, building 11, phase II, Taicang University Science Park, No. 27, Zigang Road, science and education new town, Taicang City, Suzhou City, Jiangsu Province Patentee after: Tianhang Changying (Jiangsu) Technology Co.,Ltd. Address before: 100191 g506, new main building of Beijing University of Aeronautics and Astronautics, 37 Xueyuan Road, Haidian District, Beijing Patentee before: BEIHANG University |
|
TR01 | Transfer of patent right |