CN108446383A - 一种基于地理分布式数据查询的数据任务重分配方法 - Google Patents

一种基于地理分布式数据查询的数据任务重分配方法 Download PDF

Info

Publication number
CN108446383A
CN108446383A CN201810233064.4A CN201810233064A CN108446383A CN 108446383 A CN108446383 A CN 108446383A CN 201810233064 A CN201810233064 A CN 201810233064A CN 108446383 A CN108446383 A CN 108446383A
Authority
CN
China
Prior art keywords
data
task
data center
query
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810233064.4A
Other languages
English (en)
Other versions
CN108446383B (zh
Inventor
黄晶
黄蛟
高尚
杨博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201810233064.4A priority Critical patent/CN108446383B/zh
Publication of CN108446383A publication Critical patent/CN108446383A/zh
Application granted granted Critical
Publication of CN108446383B publication Critical patent/CN108446383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地理分布式数据查询的数据任务重分配方法,利用MFHC算法对分布式***的任务和数据进行重新分配,对不同数据中心的数据进行重新安排以及对执行查询任务的数据中心进行重新安排,将一个任务在不同的数据中心中执行。以达到减少分析式查询过程消耗的总成本的目的,并解决部分数据因隐私或者其他限制无法传输到其他数据中心的问题。减少了查询的总成本,解决了部分数据因隐私或者其他限制无法传输到其他数据中心的问题,提高了任务的查询速度,节省了成本。

Description

一种基于地理分布式数据查询的数据任务重分配方法
技术领域
本发明涉及通讯技术领域,尤其涉及一种基于地理分布式数据查询的数据任务重分配方法。
背景技术
随着网络的发展,大数据时代中,数据信息已经十分普遍,在进行数据查询过程中,为了提高用户访问服务器的速度以及减少数据传输占用的带宽,很多公司都在全球建立他们的数据中心。比如微软和亚马逊,在全球建立了几十个数据中心。这些在不同区域的数据中心不断产生大量的数据,比如用户活动日志,服务器管理日志以及性能日志等。分析这些分布在不同区域的数据中心中的数据是一个很重要的工作。比如说,分析用户查询日志可以做广告决定,分析网络日志可以检测dos攻击,分析***日志可以建立预测模型等。但是,对分布在不同数据中心的数据进行分析是需要成本的,这一成本主要包括数据移动的链接成本以及数据中心进行任务计算的成本。对于公司企业来说,最小化这一成本是很有必要的。
现有技术的主要采用了集中式方法,即将要分析的数据从不同区域的数据中心传输到一个数据中心,然后在这一数据中心进行数据分析。这种方法的缺点有:1)对于现在针对大规模数据的应用,集中式方法需要传输大量的数据,造成严重的带宽浪费,并且耗费的时间也很长。2)有一些数据中心保存的数据涉及到隐私问题,无法随意传输到其他数据中心。
发明内容
针对上述缺陷或不足,本发明的目的在于提供一种基于地理分布式数据查询的数据任务重分配方法,通过对不同数据中心的数据进行重新安排以及对执行查询任务的数据中心进行重新安排,将一个任务在不同的数据中心中执行,减少分析式查询过程消耗的总成本。
为达到以上目的,本发明的技术方案为:
一种基于地理分布式数据查询的数据任务重分配方法,包括:
1)、获取多个查询任务;
2)、根据查询任务的状态以及当前时刻的数据,用统计学方法对未来的信息进行预测,并且使用固定时域控制算法,对未来一段时间内的成本进行最小化处理,获取未来时刻的数据处理中心;
3)、通过MFHC算法,进行任务分配,根据任务分配对数据的存储位置进行移动,移动到数据处理中心;
4)、根据任务分配对数据进行SQL操作,以使得下一刻操作时将数据进行移动处理;
5)、重复执行步骤1)-4),直到完成所有查询任务。
所述步骤2)具体包括:
2.1、获取交换原始数据占用的带宽Cor,运行任务的计算成本Ccom,以及对执行任务的数据中心进行重分配所带来的交换成本Csw:
其中,所述D为数据中心集合,每个数据中心有若干个区域;P为区域集合;G为任务集合,每个任务g属于一个分析式查询,每个分析式查询都可以表示成一个DAG图;Op为区域p原始数据的数据量;lDC(p),d为区域p所在的数据中心到数据中心d的连接成本;ck,g为任务g在数据中心k的单位计算成本;bk,g为任务g在数据中心k要运行的数据总量;Ii,g为任务g在数据中心i要运行的中间数据的数据量;xp,d为二值变量,若区域p的原始数据要传输到数据中心d,其值为1,否则为0;yd,g为二值变量,若任务g要在数据中心d中执行,其值为1,否则为0;
2.2、计算总成本:
2.3、通过FHC算法对总成本进行最小化处理:
subject to:for t=τ..τ+ω
其中涉及的两个符号X与Y定义为:
其中,fp为区域p数据的最小备份数量;
FHC算法通过对[t,t+w]时间段内的总成本进行最小化,从而求出y,根据y的值求出x。
所述步骤3)具体包括:
3.1、在t时刻,将mfhc算法结合(w+1)个fhc算法的结果,采用多数投票算法得到最终的y值,再根据y的值确定x的值;
3.2、根据求得的x值,对数据进行重新分配,将数据传输到指定的数据中心,再根据求得的y值,以使得通过对数据进行SQL操作执行数据中心的任务。
与现有技术比较,本发明的有益效果为:
本发明提供了一种基于地理分布式数据查询的数据任务重分配方法,利用MFHC算法对分布式***的任务和数据进行重新分配,对不同数据中心的数据进行重新安排以及对执行查询任务的数据中心进行重新安排,将一个任务在不同的数据中心中执行。以达到减少分析式查询过程消耗的总成本的目的,并解决部分数据因隐私或者其他限制无法传输到其他数据中心的问题。减少了查询的总成本,解决了部分数据因隐私或者其他限制无法传输到其他数据中心的问题,提高了任务的查询速度,节省了成本。
附图说明
图1是本发明的基于地理分布式数据查询的数据任务重分配方法流程图;
图2是本发明的控制流程框图;
图3是本发明的MFHC算法流程图。
具体实施方式
下面将结合附图对本发明做详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明提供了一种基于地理分布式数据查询的数据任务重分配方法:
1)、获取多个查询任务;
2)、根据查询任务的状态以及当前时刻的数据,用统计学方法对未来的信息进行预测,并且使用固定时域控制算法(fixed horizon control,FHC)对未来一段时间内的成本进行最小化处理,获取未来时刻的数据处理中心;
所述步骤2)具体包括:
2.1、获取交换原始数据占用的带宽Cor,运行任务的计算成本Ccom,以及对执行任务的数据中心进行重分配所带来的交换成本Csw:
所述D为数据中心集合,每个数据中心有若干个区域;P为区域集合;G为任务集合,每个任务g属于一个分析式查询,每个分析式查询都可以表示成一个DAG图;Op为区域p原始数据的数据量;lDC(p),d为区域p所在的数据中心到数据中心d的连接成本;ck,g为任务g在数据中心k的单位计算成本;bk,g为任务g在数据中心k要运行的数据总量;Ii,g为任务g在数据中心i要运行的中间数据的数据量;xp,d为二值变量,若区域p的原始数据要传输到数据中心d,其值为1,否则为0;yd,g为二值变量,若任务g要在数据中心d中执行,其值为1,否则为0;
2.2、计算总成本:
2.3、通过FHC算法对总成本进行最小化处理:
subject to:for t=τ....τ+ω
其中涉及的两个符号X与Y定义为:
其中,fp为区域p数据的最小备份数量;
FHC算法通过对[t,t+w]时间段内的总成本进行最小化,从而求出y,根据y的值求出x。
3)、通过MFHC算法,进行任务分配,根据任务分配对数据的存储位置进行移动,移动到数据处理中心;
如图3所示,所述步骤3)具体包括:
3.1、在t时刻,将mfhc算法结合(w+1)个fhc算法的结果,采用多数投票算法得到最终的y值,再根据y的值确定x的值;
3.2、根据求得的x值,对数据进行重新分配,将数据传输到指定的数据中心,再根据求得的y值,以使得通过对数据进行SQL操作执行数据中心的任务。
示例性的,如图2所示,A代表数据中心执行任务,A的外圈代表数据中心进行了数据转移。初始时,算法决定在数据中心A执行任务,结束后下一时刻决定在D与E执行任务,所以将数据中心A产生的中间数据传输到数据中心D和数据中心E,这两个数据中心任务执行结束后,再在数据中心D执行最后的任务,所以将数据中心E的中间结果传输到数据中心D,最后再在数据中心D执行任务。
4)、根据任务分配对数据进行SQL操作,以使得下一刻操作时将数据进行移动处理;
本发明中,初始时,数据分布在不同的数据中心,此时有多个查询任务要求执行;***针对每个任务以及数据分布情况,以***总体成本最小为目标,决定某一个时间段内任务在哪一些数据中心上执行,以及被执行的数据应该拷贝到哪些数据中心中。在下一时间段,重复该过程。
本发明利用FHC算法对分布式***的任务和数据进行重新分配。
5)、重复执行步骤1)-4),直到完成所有查询任务。
需要说明的是,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA,Field-Programmable Gate Array)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
对于本领域技术人员而言,显然能了解到上述具体事实例只是本发明的优选方案,因此本领域的技术人员对本发明中的某些部分所可能作出的改进、变动,体现的仍是本发明的原理,实现的仍是本发明的目的,均属于本发明所保护的范围。

Claims (3)

1.一种基于地理分布式数据查询的数据任务重分配方法,其特征在于,包括:
1)、获取多个查询任务;
2)、根据查询任务的状态以及当前时刻的数据,用统计学方法对未来的信息进行预测,并且使用固定时域控制算法,对未来一段时间内的成本进行最小化处理,获取未来时刻的数据处理中心;
3)、通过MFHC算法,进行任务分配,根据任务分配对数据的存储位置进行移动,移动到数据处理中心;
4)、根据任务分配对数据进行SQL操作,以使得下一刻操作时将数据进行移动处理;
5)、重复执行步骤1)-4),直到完成所有查询任务。
2.根据权利要求1所述的基于地理分布式数据查询的数据任务重分配方法,其特征在于,所述步骤2)具体包括:
2.1、获取交换原始数据占用的带宽Cor,运行任务的计算成本Ccom,以及对执行任务的数据中心进行重分配所带来的交换成本Csw:
其中,所述D为数据中心集合,每个数据中心有若干个区域;P为区域集合;G为任务集合,每个任务g属于一个分析式查询,每个分析式查询都可以表示成一个DAG图;Op为区域p原始数据的数据量;lDC(p),d为区域p所在的数据中心到数据中心d的连接成本;ck,g为任务g在数据中心k的单位计算成本;bk,g为任务g在数据中心k要运行的数据总量;Ii,g为任务g在数据中心i要运行的中间数据的数据量;xp,d为二值变量,若区域p的原始数据要传输到数据中心d,其值为1,否则为0;yd,g为二值变量,若任务g要在数据中心d中执行,其值为1,否则为0;
2.2、计算总成本:
2.3、通过FHC算法对总成本进行最小化处理:
subject to:for t=τ,...τ+ω
其中涉及的两个符号X与Y定义为:
其中,fp为区域p数据的最小备份数量;
FHC算法通过对[t,t+w]时间段内的总成本进行最小化,从而求出y,根据y的值求出x。
3.根据权利要求2所述的基于地理分布式数据查询的数据任务重分配方法,其特征在于,所述步骤3)具体包括:
3.1、在t时刻,将mfhc算法结合(w+1)个fhc算法的结果,采用多数投票算法得到最终的y值,再根据y的值确定x的值;
3.2、根据求得的x值,对数据进行重新分配,将数据传输到指定的数据中心,再根据求得的y值,以使得通过对数据进行SQL操作执行数据中心的任务。
CN201810233064.4A 2018-03-21 2018-03-21 一种基于地理分布式数据查询的数据任务重分配方法 Active CN108446383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233064.4A CN108446383B (zh) 2018-03-21 2018-03-21 一种基于地理分布式数据查询的数据任务重分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233064.4A CN108446383B (zh) 2018-03-21 2018-03-21 一种基于地理分布式数据查询的数据任务重分配方法

Publications (2)

Publication Number Publication Date
CN108446383A true CN108446383A (zh) 2018-08-24
CN108446383B CN108446383B (zh) 2021-12-10

Family

ID=63195914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233064.4A Active CN108446383B (zh) 2018-03-21 2018-03-21 一种基于地理分布式数据查询的数据任务重分配方法

Country Status (1)

Country Link
CN (1) CN108446383B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256720A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 数据成本计算方法、***、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083098A1 (en) * 2007-09-24 2009-03-26 Yahoo! Inc. System and method for an online auction with optimal reserve price
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法
CN107273184A (zh) * 2017-06-14 2017-10-20 沈阳师范大学 一种基于云端大数据迁移和处理成本的优化算法
CN107341820A (zh) * 2017-07-03 2017-11-10 郑州轻工业学院 一种融合Cuckoo搜索和KCF的突变运动目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083098A1 (en) * 2007-09-24 2009-03-26 Yahoo! Inc. System and method for an online auction with optimal reserve price
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法
CN107273184A (zh) * 2017-06-14 2017-10-20 沈阳师范大学 一种基于云端大数据迁移和处理成本的优化算法
CN107341820A (zh) * 2017-07-03 2017-11-10 郑州轻工业学院 一种融合Cuckoo搜索和KCF的突变运动目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王春凯等: "分布式数据流关系查询技术研究", 《计算机学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256720A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 数据成本计算方法、***、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108446383B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
Xu et al. Asynchronous federated learning on heterogeneous devices: A survey
Liu et al. From distributed machine learning to federated learning: A survey
Ma et al. On safeguarding privacy and security in the framework of federated learning
Xia et al. A survey of federated learning for edge computing: Research problems and solutions
Luo et al. QoE-driven computation offloading for edge computing
CN101359333A (zh) 一种基于隐含狄利克雷分配模型的并行数据处理方法
Jiang et al. Federated learning algorithm based on knowledge distillation
Zhang et al. DiGA: Population diversity handling genetic algorithm for QoS-aware web services selection
Mishra et al. Nature-inspired cost optimisation for enterprise cloud systems using joint allocation of resources
Li et al. An intelligent collaborative inference approach of service partitioning and task offloading for deep learning based service in mobile edge computing networks
Bhowmik et al. Distributed control plane for software-defined networks: A case study using event-based middleware
Wu et al. An ensemble of random decision trees with local differential privacy in edge computing
Consul et al. FLBCPS: federated learning based secured computation offloading in blockchain-assisted cyber-physical systems
Dong et al. Joint optimization of energy and QoE with fairness in cooperative fog computing system
CN115481441A (zh) 面向联邦学习的差分隐私保护方法及装置
CN113014649B (zh) 一种基于深度学习的云物联负载均衡方法、装置及设备
CN108446383A (zh) 一种基于地理分布式数据查询的数据任务重分配方法
CN110012021B (zh) 一种移动边缘计算下的自适应计算迁移方法
Mora et al. Serverless computing at the edge for aiot applications
CN106209978B (zh) 一种联盟关系服务组合选择***及选择方法
Wang A dynamic resource management in mobile agent by artificial neural network
Parra-Ullauri et al. Federated Analytics for 6G Networks: Applications, Challenges, and Opportunities
Sultana et al. Elastic optimized edge federated learning
CN106844385A (zh) 一种结合Spark技术构建灵活业务模型的方法
Suresh et al. Divisible load scheduling in distributed system with buffer constraints: Genetic algorithm and linear programming approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant