WO2018177107A1

WO2018177107A1 - 数据迁移方法、迁移服务器及存储介质

Info

Publication number: WO2018177107A1
Application number: PCT/CN2018/078398
Authority: WO
Inventors: 刘军; 方锦亮; 赵重庆; 温伟飞; 李良必
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-29
Filing date: 2018-03-08
Publication date: 2018-10-04
Also published as: CN108664496B; CN108664496A

Abstract

一种数据迁移方法、迁移服务器及存储介质，属于网络技术领域。该方法包括：根据原服务集群的计算任务日志，获取多个关系链，计算任务日志用于记录原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；以关系链为单位，将多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；在基于任一个关系链进行迁移时，正常运行多个关系链中未进行迁移的关系链所指示的计算任务。通过将具有关联关系的业务数据和计算任务采用一个关系链表示，使得在进行数据迁移的过程中，仍可以正常运行未进行迁移的关系链所指示的计算任务，从而不会影响未进行迁移的关系链所指示业务的正常使用。

Description

数据迁移方法、迁移服务器及存储介质

本申请要求于2017年3月29日提交中国国家知识产权局、申请号为201710197702.7、发明名称为“数据迁移方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及网络技术领域，特别涉及一种数据迁移方法、迁移服务器及存储介质。

背景技术

随着网络技术发展，各种业务的业务数据量在不断地迅猛增长，能够达到PB(Petabyte，拍字节)级甚至以上的数量级，使得互联网和信息行业进入了大数据时代。在大数据时代，通常采用由大量服务器组成的服务集群来进行业务数据存储、业务处理和业务管理。在实际应用中，服务集群通常会部署在同一个IDC(Internet Data Center，数据中心)机房中。然而，随着业务数据的不断增长，服务集群的规模也在不断扩大，而IDC机房的规模是有限的，其可能存放不下该服务集群的所有服务器，从而限制了服务集群的规模，此时，为了满足业务数据增长的需求，可以将服务集群中的数据迁移到规模更大的新服务集群中。

现有技术中，服务集群在进行业务处理时，会为业务创建相应的计算任务并为该计算任务分配相应的计算资源，通过运行该计算任务来执行业务数据的处理过程。由于各种业务之间通常是相互关联的，为了避免在迁移一个业务的业务数据时对相关联的其他业务造成影响，通常会将服务集群的数据进行整体迁移，在整体迁移时，需要先停止所有的计算任务(即停止向所有业务提供服务)后，将所有业务数据迁移到新服务集群，然后，在新服务集群重新配置计算任务并分配相应的计算资源，之后启动重新配置的计算任务，从而为所有业务重新提供服务，从而完成数据迁移。

在实现本发明实施例的过程中，发明人发现相关技术至少存在以下问题：

由于服务集群中业务数据的数据量巨大，迁移过程通常需要花费几天、几个月或者更长的时间，如果这个时间内停止对所有业务提供服务，会导致所有业务都不能正常使用。

发明内容

本发明实施例提供了一种数据迁移方法、迁移服务器及存储介质，可以解决相关技术的问题。所述技术方案如下：

一方面，提供了一种数据迁移方法，所述方法包括：

根据原服务集群的计算任务日志，获取多个关系链，所述计算任务日志用于记录所述原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；

以关系链为单位，将所述多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；

其中，在基于任一个关系链进行迁移时，正常运行所述多个关系链中未进行迁移的关系链所指示的计算任务。

另一方面，提供了一种数据迁移装置，所述装置包括：

第一获取单元，用于根据原服务集群的计算任务日志，获取多个关系链，所述计算任务日志用于记录所述原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；

迁移单元，用于以关系链为单位，将所述多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；

再一方面，提供了一种迁移服务器，所述迁移服务器包括：处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如下操作：

再一方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如迁移服务器所执行的方法中所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

通过根据原服务集群中的计算任务日志，将具有关联关系的业务数据和计算任务采用一个关系链表示，使得在以关系链为单位进行数据迁移的过程中，正在迁移的关系链不会对其他关系链产生影响，仍可以正常运行未进行迁移的关系链所指示的计算任务，从而不会影响未进行迁移的关系链所指示业务的正常使用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例提供的一种实施场景示意图；

图1B是本发明实施例提供的一种迁移服务器的架构图；

图2A是本发明实施例提供的一种数据迁移方法的流程图；

图2B是本发明实施例提供的一种关系链示意图；

图2C是本发明实施例提供的一种关系链拆分示意图；

图2D是本发明实施例提供的一种关系链拆分示意图；

图2E是本发明实施例提供的一种关系链拆分示意图；

图2F是本发明实施例提供的一种经过拆分得到的关系链对关键业务数据访问的示意图；

图2G是本发明实施例提供的一种双写表机制涉及流程的示意图；

图2H是本发明实施例提供的一种关系链迁移过程中的迁移状态示意图；

图3是本发明实施例提供的一种数据迁移装置的框图；

图4是本发明实施例提供的一种数据迁移装置的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1A是本发明实施例提供的数据迁移的实施场景示意图，参见图1A，该实施场景中包括原服务集群、目标服务集群和迁移服务器。

其中，原服务集群为需要迁移业务数据的服务集群，目标服务集群为业务数据迁移到的服务集群。服务集群可以包括多个存储集群和多个计算集群，存储集群用于存储业务数据，计算集群用于运行计算任务以及存储计算任务的相关数据，比如计算任务的计算资源大小以及计算资源的位置等。其中，存储集群和计算集群可以分别部署在不同的服务器上，也可以部署在相同的服务器上，本实施例对此不作限定。

需要说明的是，服务集群在进行业务处理时，会为业务创建相应的计算任务并为该计算任务分配相应的计算资源，通过运行该计算任务来执行一个或多个业务处理过程，比如，从服务集群中读取某个业务数据，对该业务数据进行处理后将输出的另一个业务数据写入服务集群等。其中，计算任务具有一定的运行周期性，其运行周期可以为几小时、几天、几周或者几个月等，例如运行周期为1小时的计算任务，每隔一小时运行一次。其中，不同计算任务的运行周期可以相同也可以不同，由计算任务的类型和业务数据的处理速度有关，本实施例对此不作限定。

此外，服务集群中还维护有数据路径映射表，该数据路径映射表用于业务数据标识和业务数据的存储路径之间的对应关系。计算任务可以通过服务集群中的数据路径映射表，确定读取或写入的业务数据的存储路径，从而根据获取的存储路径完成业务数据的读取或写入过程。其中，一个计算任务读取的业务数据可以是由其他计算任务写入的，而一个计算任务写入的业务数据又可以被其他计算任务读取，这样，计算任务和业务数据之间便具有了一定输入输出关系。

其中，迁移服务器用于对服务集群的数据进行迁移，并对数据迁移过程进行管理，该迁移服务器可以部署在原服务集群中，也可以部署在目标服务集群中，当然，也可以部署在原服务集群和目标服务集群以外的能够与二者进行通信的其他服务器上。本实施例中，迁移服务器需要将原服务集群中的数据迁移到目标服务集群，迁移的数据涉及原服务集群中的业务数据以及计算任务。

具体地，该迁移服务器可以包括多个模块，在数据迁移过程中每个模块起到不同的作用。图1B为迁移服务器的架构图，该迁移服务器包括多个功能模块，下面对各个功能模块的作用进行介绍：

其中，分析模块用于执行下述步骤201至203所指示的根据计算任务日志获取多个关系链的过程；拆分模块用于执行下述步骤204所指示的关系链拆分的过程；校验模块用于执行下述步骤206中对迁移子任务和关系链的一致性校验的过程。

其中，迁移模块用于执行下述步骤205至208中涉及业务数据迁移和计算任务迁移的过程，其中，在将关系链所指示的业务数据完成迁移后，迁移模块执行数据路径映射表的存储路径切换过程，该过程对应步骤207。其中，计算任务的迁移过程是指对计算任务配置信息的切换过程，计算任务的配置信息可以从配置库中获取，该过程对应步骤208。其中，如果迁移的关系链为经过拆分得到的关系链则需要对关键业务数据进行同步，该过程对应步骤206下的步骤a。

其中，数据路径映射表同步是指将迁移至目标服务集群中的业务数据的目标存储路径添加到路径映射表中。

其中，迁移服务器前台可以用于对关系链的迁移过程进行管理，比如可以展示关系链的各种信息，关系链中各节点的连接关系、关系链在迁移过程中所处的迁移状态、关系链中的节点信息以及计算任务的运行状态信息等，其中关系链的节点信息包括关系链中所有数据节点所指示的存储路径和任务节点所指示的计算任务标识，其中数据节点和任务节点的相关解释参见步骤203所示的内容。用户可以通过该迁移服务器前台启动或暂停对关系链的迁移过程。

其中，配置库用于存储计算任务的计算资源的配置信息，比如计算资源的大小以及位置信息，该配置库中还可以存储业务数据在原服务集群的原存储路径以及目标服务集群的目标存储路径。任务关系链库用于存储由分析模块生成的多个关系链。迁移任务库用于存储迁移子任务的信息，比如迁移子任务的编号、所指示业务数据、业务数据的原存储路径和目标存储路径、业务数据的数据量大小等信息。

本实施例应用于业务数据迁移的场景下，例如原服务集群的所有者将业务数据开放给新所有者，导致业务数据需要迁移至新所有者的目标服务集群中，或者原服务集群的规模已不能满足业务需要，但由于原服务集群受到所在机房面积的限制而无法再扩展规模，需要在更大面积的机房内部署目标服务集群，将业务数据迁移至目标服务集群中。

在一种实施方式中，原服务集群可以均放置在IDC1机房中，目标服务集群可以均放置在IDC2机房中，IDC1机房和IDC2机房所在的地理位置不同。其中目标服务集群的规模大于原服务集群的规模，相应的IDC2机房可容纳服务器的数目大于IDC1机房可容纳服务器的数目。当然，在另一实施方式中，原服务集群或目标服务集群均可以放置在不同的IDC机房中，本实施例对此不作限定。

图2A是本发明实施例提供的一种数据迁移方法的流程图，参见图2A，本发明实施例提供的方法流程包括：

201、获取原服务集群的计算任务日志。

原服务集群的计算任务在运行的过程中，均会生成计算任务日志，该计算任务日志用于记录原服务集群中计算任务与业务数据的关联关系。例如，该计算任务日志包括计算任务的任务标识、业务数据的存储路径、计算任务与业务数据的输入输出关系以及其他信息，该计算任务与业务数据的输入输出关系用来指示计算任务的输入业务数据和输出业务数据，该其他信息可以包括计算任务所属的业务信息，比如业务标识、业务所属的用户信息等。其中，业务数据的存储路径可以用来指示业务数据，相同的存储路径用于指示相同的业务数据，计算任务通过业务数据的存储路径来访问该业务数据。

迁移服务器可以从原服务集群获取该计算任务日志，并从该计算任务日志中提取出多条输入输出记录。其中，输入输出记录用于指示计算任务的任务标识、业务数据的存储路径以及计算任务和业务数据的输入输出关系，如表1所示为一种输入输出记录表。

表1

本实施例中，迁移服务器可以对从计算任务日志中提取出的多条输入输出记录进行分析，以获取用于指示计算任务和业务数据关联关系的多个关系链，该获取多个关系链的过程详见下述步骤202至204。

202、根据计算任务日志所记录的多条输入输出记录，为具有关联关系的输入输出记录添加相同的关系链标识，为不具有关联关系的输入输出记录添加不同的关系链标识。

本实施例中，迁移服务器为具有关联关系的输入输出记录添加相同的关系链标识，为不具有关联关系的输入输出记录添加不同的关系链标识的过程可以为：对多条输入输出记录中的每条输入输出记录进行遍历，对于当前遍历的第一输入输出记录，如果已遍历的输入输出记录中包括与第一输入输出记录之间具有关联关系的第二输入输出记录，则为第一输入输出记录添加与第二输入输出记录相同的关系链标识；如果已遍历的输入输出记录中不包括与第一输入输出记录之间具有关联关系的第二输入输出记录，则为第一输入输出记录添加与已遍历的输入输出记录不同的关系链标识。

其中，第一输入输出记录与第二输入输出记录之间具有关联关系是指，第一输入输出记录所指示的计算任务与第二输入输出记录所指示的业务数据具有输入输出关系，或者，第一输入输出记录所指示的业务数据与第二输入输出记录所指示的计算任务具有输入输出关系。

例如，以表1为例，对表1的每一条输入输出记录进行遍历，当遍历第一条输入输出记录时，为该输入输出记录添加一个关系链标识1001，假设当前遍历的输入输出记录为第二条输入输出记录“任务2，IN，存储路径1”，则由于任务2和已遍历的第一条输入输出记录中“存储路径1”具有输入关系，则确定已遍历的输入输出记录中包括与当前遍历的输入输出记录具有关联关系的输入输出记录，则为该第二条输入输出记录添加与第一条输入输出记录相同的关系链标识1001。假设当前遍历的输入输出记录为表1中最后一条输入输出记录“任务5，IN，存储路径5”，由于“任务5”和已遍历的所有输入输出记录所指示业务数据之间并没有输入输出关系，而且“存储路径5”和已遍历的所有输入输出记录所指示计算任务之间并没有输入输出关系，因此，已遍历的输入输出记录中不包括第二输入输出记录，因此，为该当前遍历的最后一条输入输出记录添加与已遍历输入输出记录不同的关系链标识，例如该不同的关系链标识可以1002等。在为所有输入输出记录添加关系链标识后，可以得到如表2所示的关系链表。

表2

203、按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个第一关系链。

在本实施例中，迁移服务器可以将具有相同关系链标识的输入输出记录，抽象成一个第一关系链，第一关系链中包括用于指示计算任务的任务节点、用于指示业务数据的数据节点以及任务节点与数据节点之间的输入输出关系。其中，在第一关系链中任务节点包括计算任务的任务标识，数据节点包括业务数据的存储路径。

以表2为例，根据具有相同关系链标识1001的输入输出记录，生成的第一关系链如图2B，图2B中示出了关系链标识1001对应输入输出记录所指示的业务数据和计算任务之间的关联关系，该第一关系链包括任务1至4所对应的任务节点1-4、存储路径1至4所对应的数据节点1-4以及业务节点与数据节点之间的输入输出关系。其中，由任务节点1指向数据节点1的连线用于指示计算任务1向存储路径1写入业务数据，即该业务数据为计算任务1的输出数据。由数据节点1指向任务节点2的连线用于指示计算任务2从存储路径2读取业务数据，即该业务数据为计算任务2的输入数据。

本实施例中，任一第一关系链所指示的业务数据或计算任务，与其他第一关系链所指示的计算任务或业务数据之间不具有关联关系。因此，可以以第一关系链为单位，对原服务集群中的业务数据和计算任务进行迁移，在对一个关系链所指示的业务数据和计算任务进行迁移时，不会影响其他第一关系链所指示计算任务的正常运行。

考虑到数据迁移的时间会受到迁移的数据量和网络带宽的双重约束，而通常网络带宽是有限的，为了保证能够在较短时间内完成一个关系链所指示数据的迁移，从而进一步降低迁移过程对业务正常使用的影响，本实施例可以进一步地将对应数据量较大的第一关系链进行拆分，详细过程参见步骤204。

204、如果多个第一关系链中包括第二关系链，则将第二关系链拆分为多个第三关系链，第二关系链为所指示业务数据的数据量超过第一阈值的第一关系链。

其中，第一阈值可以由迁移服务器根据关系链的预设迁移时间和网络带宽设定，例如，假设网络带宽为2GB/s(吉字节每秒)，预设迁移时间为2分钟，则第一阈值最大为120GB，当然第一阈值也可以小于该120GB，以避免由于网络环境不稳定对网络带宽造成影响。其中，预设迁移时间可以由迁移服务器进行预先设定，或者根据用户的业务需求进行设定等，本实施例对此不作限定。

对于该多个第一关系链中的每个第一关系链，迁移服务器可以根据该第一关系链中数据节点所指示的存储路径，获取该第一关系链所指示业务数据的数据量。如果该第一关系链所指示业务数据超过该第一阈值，则确定该第一关系链为第二关系链，并确定需要对该第二关系链进行拆分，该拆分的过程可以包括以下步骤204a至204c：

步骤204a、获取第二关系链中多个数据节点的权值。

其中，每个数据节点的权值用于指示数据节点在第二关系链中的关联程度，权值越高，数据节点的被关联程度越高。

该多个数据节点的权值的获取过程可以为：对于多个数据节点中的每个数据节点，将与数据节点相关联的任务节点的数目和数据节点所指示业务数据的数据量的乘积，确定为数据节点的权值。

以图2B所示的第一关系链为例，其中，与数据节点1相关联的任务节点包括任务节点1至4，任务节点的数目为4，假设该数据节点1所指示业务数据的数据量为100GB，则该数据节点1的权值为4*100等于400。

需要说明的是，由于第一关系链拆分的目的是将数据量较大的关系链拆分为数据量较小的关系链，而对于关系链中的任一数据节点，如果与该数据节点相关联的任务节点越多，则表明基于该数据节点能够拆分得到的关系链的数目越多，这样便使得拆分得到的每个关系链所指示业务数据的数据量比较均衡，不会导致某个关系链的数据量过大，因此，在确定数据节点的权值时需要考虑与数据节点相关联任务节点的数目和数据节点所指示业务数据的数据量这两个因素。

步骤204b、按照权值从高到低的顺序和多个数据节点在第二关系链上的位置，从多个数据节点中获取关键数据节点，该关键数据节点为顺序中第一个能够将第二关系链拆分为至少两个第三关系链的数据节点。

在本实施例中，为了提高关系链拆分的效率和成功率，迁移服务器按照权值从高到低的顺序，对每个数据节点进行分析，比如，迁移服务器基于该数据节点对第二关系链进行预拆分，确定能够将第二关系链拆分得到的第三关系链的数目，如果拆分得到的第三关系链的数目小于2，则按照权值从高到低的排列顺序，对下一个数据节点执行预拆分的过程；如果拆分得到的第三关系链的数目不小于2，则将该数据节点确定为关键数据节点，基于该关键数据节点对第二关系链进行拆分。当从多个数据节点中获取到关键数据节点后，迁移服务器不再对上述排列顺序中该关键数据节点之后的数据节点执行预拆分的过程。

其中，在根据数据节点对第二关系链进行预拆分时，确定能够拆分得到的第三关系链的数目的方法可以为：断开该数据节点和与该数据节点相关联的任务节点之间的关联关系，之后，确定第二关系链中除该数据节点之外的节点(包括任务节点和数据节点)之间的连通性，如果除该数据节点之外的节点之间是连通的，则确定能够拆分得到的第三关系链的数目为1(即小于2)，否则，确定能够拆分得到的第三关系链的数目不小于2。

其中，确定第二关系链中除该数据节点之外的节点之间的连通性的过程可以为：对除该数据节点之外的节点进行遍历，例如可以任选一个节点为起点进行遍历，如果每个节点都能遍历到，则确定除该数据节点之外的节点是连通的，否则，确定除该数据节点之外的节点是不连通的。

需要说明的是，上述对第二关系链进行预拆分的过程不是对第二关系链进行实际拆分的过程，而是迁移服务器假设基于相应数据节点能够将第二关系链拆分成多少个第三关系链的分析过程。

步骤204c、基于该关键数据节点，将第二关系链中与该关键数据节点相关联的多个任务节点拆分至多个第三关系链中。

本实施例中，迁移服务器基于该关键数据节点，将第二关系链拆分为多个第三关系链的过程可以分为以下三种情况：

第一种情况、对于与该关键数据节点直接关联的多个任务节点中的每个任务节点，将该关键数据节点、该任务节点以及该关键数据节点与该任务节点断开连接关系时与该任务节点具有关联关系的节点确定为第三关系链。

在该种情况下，每一个第三关系链中均包括该关键数据节点。仍假设图2B所示的关系链中关键数据节点为数据节点1，如图2C所示为该种情况下基于数据节点1，对图2B所示的关系链进行拆分得到的多个第三关系链的示意图。

第二种情况、将该关键数据节点确定为一个第三关系链，对于与该关键数据节点相关联的多个任务节点中的每个任务节点，将除该关键数据节点之外的且与该任务节点具有关联关系的节点作为一个第三关系链。

该种情况下，关键数据节点单独作为一个第三关系链。例如，首先将该关键数据节点从该第二关系链中拆分出来，作为一个第三关系链。在剩余的节点中，对于与关键数据节点相关联的多个任务节点中每个任务节点，以该任务节点为起点进行遍历，将能够遍历到的所有节点确定为与该任务节点具有关联关系的节点。假设图2B所示的关系链中关键数据节点为数据节点1，如图2D所示为该种情况下基于数据节点1，对图2B所示的关系链进行拆分得到多个第三关系链的示意图。需要说明的是，图2B仅作为示例示出，并不代表实际的拆分结果，比如，在实际拆分过程中除了关键数据节点之外的第三关系链中应当包括多个节点，而不会只包括一个任务节点。

第三种情况、将该关键数据节点、与该关键数据节点直接关联的至少一个任务节点以及与该至少一个任务节点具有关联关系的节点拆分为一个第三关系链，将除已拆分的第三关系链之外的任务节点和数据节点拆分为至少一个第三关系链。

其中，与该关键数据节点直接关联的任务节点是指作为该关键业务数据的子节点或父节点的任务节点。该种情况下，关键数据节点与其直接关联的至少一个任务节点拆分为一个第三关系链。其中，将除已拆分的第三关系链之外的任务节点和数据节点拆分为至少一个第三关系链的过程，与第二种情况下将除该关键数据节点之外的且与该任务节点具有关联关系的节点作为一个第三关系链的过程同理，在此不做赘述。例如，仍假设图2B所示的关系链中关键数据节点为数据节点1，如图2E所示为该种情况下基于数据节点1，对图2B所示的关系链进行拆分得到的多个第三关系链的示意图。

第一种情况，可以在迁移第三关系链时，如果检测到该关系链中包括关键数据节点，则将该关键数据节点的目标存储路径写入数据路径映射表。第二种情况和第三种情况：可以在拆分之后，先将关键业务数据复制到目标服务集群。

需要说明的是，在将第二关系链拆分为多个第三关系链的过程中，迁移服务器会为该多个第三关系链添加不同的关系链标识。上述三种情况将第二关系链在形式上拆分为多个第三关系链，为了将由拆分得到的第三关系链与没有进行拆分的第一关系链进行区分，可以为该第三关系链添加拆分标识，该拆分标识可以体现在关系链标识中，比如将关系链标识中的前两位作为拆分标识。例如，关系链标识的格式可以为xx_yyyy，其中xx用于表示拆分标识，比如00表示未拆分的第一关系链，01表示由拆分得到的第三关系链。其中，yyyy用于表示关系链的编号。

本实施例中，以关系链进行数据迁移的过程中，计算任务仍可以运行，在运行的过程中会产生新业务数据，由于受到网络带宽的限制，当关系链过大时，很可能导致产生的新业务数据的速度大于业务数据的迁移速度，这样会导致该关系链会永远无法迁移完成，因此将大关系链拆分为小关系链可以保证正常运行计算任务的情况下实现对关系链所指示业务数据的迁移。

上述步骤203和步骤204是按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个关系链的过程，每个关系链包括用于指示计算任务的任务节点、用于指示业务数据的数据节点以及任务节点和数据节点之间的关联关系。

上述步骤202至204为根据原服务集群的计算任务日志，获取多个关系链的步骤。其中，每个关系链用于指示具有关联关系的一组计算任务和业务数据。

在本实施例中，迁移服务器能够以关系链为单位，将多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群。其中，依次迁移是指可以一次性仅针对一个关系链进行数据迁移，也可以针对几个关系链进行并行迁移。在基于任一个关系链进行迁移时，正常运行多个关系链中未进行迁移的关系链所指示的计算任务。其中，一个关系链的迁移过程包括下述步骤205至208。

205、对于多个关系链中的每个关系链，根据该关系链所指示的多个业务数据，生成多个迁移子任务。

本实施例中，在针对一个关系链进行数据迁移的过程中，可以根据该关系链所指示的多个业务数据，生成多个迁移子任务，该生成多个迁移子任务的过程可以为：对于关系链所指示的多个业务数据中的每个业务数据，执行以下过程：判断业务数据的数据量是否小于第二阈值；如果业务数据的数据量小于第二阈值，则对应业务数据生成一个迁移子任务；如果业务数据的数据量不小于第二阈值，则根据第二阈值，按照数据产生的时间顺序将业务数据划分为多个子业务数据，对应每个子业务数据生成一个迁移子任务。其中，每个子业务数据的数据量小于第二阈值。其中，第二阈值可以由迁移服务器进行预先设置或更改，本实施例对此不作限定。业务数据在存储至服务集群时，服务集群会对应记录该业务数据的存储时间，迁移服务器可以根据记录的存储时间确定该业务数据的产生时间。其中，迁移服务器可以为每个迁移子任务添加配置信息，该配置信息可以包括相应业务数据的原存储路径和目标存储路径。

需要说明的是，本实施例所示的一个业务数据是指一个存储路径下所存储的业务数据，当业务数据的数据量小于第二阈值时，对应该业务数据生成的迁移子任务便用于对一个存储路径下所存储的业务数据进行迁移。

206、根据多个迁移子任务，将该关系链所指示的业务数据迁移到目标服务集群。

迁移服务器可以根据该原存储路径和该目标存储路径将该业务数据迁移至目标服务集群。一个关系链所对应的多个子任务可以顺序执行也可以并行执行，本实施例对此不作限定。

通过将关系链所指示的业务数据采用不同的迁移子任务进行迁移，降低了数据迁移的粒度，而且该多个迁移子任务可以并行运行，提高了该关系链所指示业务数据的迁移效率。

需要说明的是，在对关系链所指示的业务数据进行迁移的过程中，该关系链所指示的计算任务还可以继续运行，因此，该关系链中存储路径下所存储的业务数据可能会发生更新。对于一个存储路径下所存储的业务数据，本实施例将生成关系链之前所存储的业务数据称为历史业务数据，将生成关系链之后更新的业务数据称之为新业务数据。考虑到用户对历史业务数据修改的可能性小于对新业务数据修改的可能性，因此，在执行每个迁移子任务时，可以按照业务数据生成时间从先到后的顺序对某个存储路径下的业务数据进行迁移，也即是优先对历史业务数据进行迁移，以避免由于用户对业务数据进行更改时需要对业务数据进行重传，从而降低迁移效率的问题。

此外，本实施例还提供了对迁移子任务的数据校验机制，该数据校验过程可以为：对于多个迁移子任务中的每个迁移子任务，在该迁移子任务对应的业务数据全部迁移到目标服务集群之后，对目标服务集群和原服务集群中与该迁移子任务对应的业务数据进行一致性校验；如果一致性校验成功，则确定该迁移子任务对应的业务数据迁移成功；如果一致性校验失败，则确定该迁移子任务对应的业务数据迁移失败，重新执行该迁移子任务。需要说明的是，每个迁移子任务的配置信息还可以包括相应业务数据的数据量大小，当执行该迁移子任务时，迁移服务器如果检测到迁移至目标服务集群的业务数据的数据量达到迁移子任务所指示的数据量大小时，确定该迁移子任务对应的业务数据已经全部迁移至目标服务集群。

其中，对迁移子任务对应的业务数据进行一致性校验的范围包括：对业务数据的数据量的校验、对业务数据包含的文件数的校验以及对业务数据的数据内容的校验。迁移服务器可以采用预设算法对该迁移子任务对应的业务数据进行一致性校验，该预设算法可以进行预先设置，比如，该预设算法可以为CRC(Cyclic Redundancy Check，循环冗余校验码)校验算法。当该业务数据在原服务集群和目标服务集群中的数据量、包含的文件数目以及数据内容均一致时，确定对该业务数据的一致性校验成功。

其中，重新执行该迁移子任务的时机可以为在确定对相应业务数据一致性校验失败后立即执行，也可以在确定相应业务数据一致性校验失败后预设时间段后执行，还可以在该关系链对应的其他迁移子任务完成之后重新执行迁移失败的迁移子任务，本实施例对此不作限定。

通过针对迁移子任务进行数据校验，实现了业务数据的细粒度校验，使得当业务数据迁移出错时，可以在迁移子任务的粒度上进行数据的重新迁移，相比于现有技术中当业务数据迁移出错时需要对所有业务数据重新进行迁移的情况，降低了迁移过程中数据出错的代价，提高了数据迁移的效率。

为了在最大程度上降低数据迁移对正常使用业务的影响，本实施例中，对于正在迁移的关系链，并不是在迁移该关系链的整个过程中停止运行相关的计算任务，而是在业务数据迁移到一定进度之后，在计算任务停止运行的周期内对计算任务进行迁移，以最大程度上缩小计算任务停止运行的时间。在迁移该关系链所指示的业务数据的过程中，还可以执行下述步骤206a至步骤206d。

步骤206a、在迁移该关系链所指示的业务数据的过程中，获取该关系链所指示的业务数据的迁移进度。

迁移服务器可以根据该关系链所指示的业务数据的总数据量和该关系链业务数据的已迁移数据量，获取该关系链所指示业务数据的迁移进度。该迁移进度可以以已迁移数据量与总数据量之间的比例来表示，例如，该关系链所指示业务数据的总数据量为100GB，已迁移数据量为60GB，则可以确定该关系链所指示业务数据的迁移进度为60％。

步骤206b、当业务数据的迁移进度超过预设进度时，对于该关系链所指示的每个计算任务，判断该计算任务是否处于停止运行状态，如果该计算任务处于停止运行状态，执行步骤206c，如果该计算任务处于运行状态，执行步骤206d。

其中，预设进度可以由迁移服务器进行预先设置或修改，当然该预设进度还可以由迁移服务器根据网络带宽进行动态调整，例如，当迁移服务器检测到网络带宽降低时，可以适当增大该预设进度的数值，以最大可能的降低迁移计算任务所话费的时间。

步骤206c、如果该计算任务处于停止运行状态，则在该关系链完成迁移之前维持该计算任务的停止运行状态。

步骤206d、如果计算任务处于运行状态，则等待计算任务停止运行后、该关系链完成迁移之前维持该计算任务的停止运行状态。

需要说明的是，步骤206c和步骤206d中维持计算任务的停止运行状态过程可以称为冻结计算任务过程。为了避免由于冻结计算任务对企业用户的业务造成影响，在冻结计算任务之前可以通过迁移服务器向企业用户显示冻结计算任务的消息，由企业用户确认冻结之后，再执行冻结计算任务的过程。

在数据迁移过程中，由于计算任务仍然在运行，因此，在一个迁移子任务所对应的业务数据迁移完成之后，该业务数据还有可能发生更改，例如发生修改，或者被删除等。因此，为了保证业务数据的完整性，在关系链所指示的业务数据迁移完成之后，迁移服务器还可以以关系链为单位，对该关系链所指示的业务数据进行一致性校验，该过程可以为：对目标服务集群和原服务集群中该关系链所指示的业务数据进行一致性校验；如果一致性校验成功，则执行后续步骤207和步骤208；如果一致性校验失败，则根据一致性校验结果，确定该关系链所指示的迁移失败的业务数据，对迁移失败的业务数据重新进行迁移。其中，对关系链所指示的业务数据进行一致性校验时，可以是针对每个迁移子任务一一进行业务数据的一致性校验，也可以是针对关系链中每个存储路径一一进行业务数据的一致性校验，而对于一致性校验失败的迁移子任务或者存储路径，则确定该迁移子任务或者存储路径所对应的业务数据为迁移失败的业务数据。迁移服务器可以采用对应的原迁移子任务或重新建立迁移子任务，以对该迁移失败的业务数据重新进行迁移，具体迁移过程与上述根据迁移子任务进行数据迁移的过程同理，在此不做赘述。

需要说明的是，上述步骤205至206以一个关系链为例介绍了迁移关系链所指示业务数据的过程。在以关系链进行数据迁移的过程中，迁移服务器可以根据关系链标识来区分所迁移的关系链是未经过拆分的第一关系链，还是经过拆分得到的第三关系链。或者，对于步骤204c中关系链拆分的一种情况，由于拆分得到的每个第三关系链均包括关键数据节点，迁移服务器可以对每个第三关系链中的关键数据节点添加指定标识，通过该指定标识来识别迁移的关系链中是否包括关键数据节点，从而确定迁移的关系链是否为第三关系链。

需要说明的是，由于经过拆分得到的多个第三关系链仍然共享关键数据节点所指示的业务数据，为了在根据第三关系链进行数据迁移的过程中，能够保证该多个第三关系链共享的关键数据节点所指示的关键业务数据同步，本实施例采用了双写表机制，在数据路径映射表中存储该关键业务数据的两个存储路径，一个是在目标服务集群的目标存储路径，另一个是在原服务集群的原存储路径，该过程可以为：获取关键业务数据在目标服务集群中的目标存储路径，关键业务数据为关键数据节点所指示的业务数据；在数据路径映射表中添加该目标存储路径，且保留关键业务数据在原服务集群中的原存储路径。其中，向数据路径映射表中添加目标存储路径的过程可以在关系链拆分之后执行，也可以在该多个第三关系链迁移之前执行，本实施例对此不作限定。

在以关系链为单位进行数据迁移的过程中，如果迁移的关系链为经过拆分得到的第三关系链，则基于双写表机制，对该第三关系链迁移的过程中还包括以下步骤a至步骤c：

步骤a、根据目标存储路径和原存储路径，在目标服务集群和原服务集群中同步关键业务数据。

迁移服务器在检测到原服务集群或者目标服务集群的关键业务数据发生更新时，根据该目标存储路径和原存储路径，在目标服务集群和原服务集群中对该关键业务数据进行同步。

步骤b、如果该第三关系链所指示的业务数据和计算任务已全部迁移至目标服务集群，则在运行第三关系链所指示的计算任务时，根据数据路径映射表记录的目标存储路径访问关键业务数据。

步骤c、如果该第三关系链指示的业务数据和计算任务未全部迁移至目标服务集群，则在运行第三关系链所指示的计算任务时，根据数据路径映射表记录的原存储路径访问关键业务数据。

本实施例中，可以根据第三关系链所指示的数据所在服务集群的标识，从数据路径映射表中获取关键业务数据在相应服务集群的存储路径。例如，如果第三关系链所指示的数据在原服务集群中，也即是，该第三关系链所指示的数据还未成功迁移至目标服务集群，则运行该第三关系链所指示的计算任务时，从数据路径映射表中获取关键业务数据的原存储路径，通过该原存储路径访问该关键业务数据。如果第三关系链所指示的数据在目标服务集群中，也即是，该第三关系链所指示的数据已成功迁移至目标服务集群，则运行该第三关系链所指示的计算任务时，从数据路径映射表中获取关键业务数据的目标存储路径，通过该目标存储路径访问该关键业务数据。如图2F为基于图2B所示关系链进行拆分之后，在对拆分得到的第三关系链进行迁移过程中，关键业务数据的访问示意图，其中，数据节点1对应关键业务数据，任务节点1所在第三关系链已迁移至目标服务集群，任务节点2至4所在第三关系链还未迁移至目标服务集群中。任务节点1所指示的计算任务通过关键业务数据的目标存储路径访问该关键业务数据，任务节点2至4通过关键业务数据的原存储路径访问该关键业务数据。

结合上述采用双写表机制对拆分得到的第三关系链的迁移过程，下面对双写表机制所涉及的流程进行介绍，参见图2G，双写表机制涉及的流程包括下述过程(1)至(4)：

(1)获取关键数据节点。

该过程对应在第二关系链中获取关键数据节点的过程。

(2)关键业务数据同步。

在原服务集群和目标服务集群中对关键业务数据进行同步。该过程基于在数据路径映射表中存储的关键业务数据的原存储路径和目标存储路径。

(3)关键业务数据存储路径的智能路由。

根据第三关系链所处的服务集群的位置，从数据路径映射表中获取关键业务数据在相应服务集群中的存储路径。对应上述步骤b和步骤c。

(4)逐渐解除第三关系链对关键业务数据的原存储路径的依赖关系。

当第三关系链所指示的业务数据迁移至目标服务集群后，该第三关系链所指示的计算任务便可以在目标服务集群访问关键业务数据，也即是，解除了该第三关系链与关键业务数据的原存储路径的依赖关系。

在本实施例中，在对关系链所指示的数据的迁移还包括对业务的源头数据的迁移，该源头数据包括用户在用户终端输入的数据，以及用户终端实时产生还未同步到原服务集群的数据。在实际应用中，该源头数据一般由计算任务使用。具体地，针对一个关系链，可以通过指定接口从实时数据处理服务器获取该源头数据，并将该源头数据和关系链所指示的业务数据一起迁移到目标服务集群中，以便不影响计算任务的正常运行。

207、在数据路径映射表中，将该关系链所指示的业务数据在原服务集群中的原存储路径切换为在目标服务集群中的目标存储路径。

在本实施例中，在对关系链进行迁移的过程中，迁移服务器可以记录该关系链所指示的每个业务数据的目标存储路径，待该关系链所指示的业务数据全部迁移至目标服务集群时，对于每个业务数据，迁移服务器可以在数据路径映射表中，将该业务数据的原存储路径替换为该业务数据的目标存储路径。

需要说明的是，如果该业务数据为关键业务数据，迁移服务器在确定与该关键业务数据相关的所有第三关系链所对应的业务数据均迁移至目标服务集群时，从该数据路径映射表中删除该关键业务数据的原存储路径，保留该关键业务数据的目标存储路径。

208、将关系链所指示的计算任务迁移至目标服务集群。

本实施例中，将关系链所指示的计算任务迁移至目标服务集群的过程可以为：获取计算任务的第一计算资源信息和第二计算资源信息，将计算任务的第一计算资源信息替换为第二计算资源信息。其中，第一计算资源信息为在原服务集群中为计算任务配置的计算资源信息，第二计算资源信息为在目标服务集群中为计算任务配置的计算资源信息。

需要说明的是，在将关系链所指示的计算任务迁移至目标服务集群之后，迁移服务器启动运行该关系链所指示的所有计算任务，从而完成对该关系链的迁移。

此外，本实施例在进行数据迁移的过程中，还可以实现数据的增量迁移，该增量迁移包括以下两个层面：

第一个层面、对迁移过程中新增的数据进行迁移。

在以关系链为单位进行数据迁移的过程中，原服务集群中的大量计算任务仍然在运行，使得原服务集群在生成多个关系链之后，会产生大量的新业务数据，或者是原服务集群中新增了计算任务，这些新增的数据都可以通过计算任务日志中新增输入输出记录体现。迁移服务器可以在根据计算任务日志，获取多个关系链之后，记录该计算任务日志中产生时间最晚的输入输出记录的时间标签。迁移服务器可以根据该记录的时间标签，从原服务集群计算任务日志中获取该时间标签之后产生的新增输入输出记录。

迁移服务器可以根据该新增的输入输出记录，对未进行迁移的关系链进行更新，该过程可以为：对于任一条新增输入输出记录，如果未进行迁移的关系链中包括与该新增输入输出记录相关联的第四关系链，则根据该新增输入输出记录对该第四关系链进行更新；如果未进行迁移的关系链中不包括该第四关系链，则根据该新增输入输出记录与其他新增输入输出记录之间的关联关系，生成新的关系链，该生成新关系链的过程与上述生成多个关系链的过程同理，在此不做赘述。其中，与该新增输入输出记录相关联的第四关系链是指，该第四关系链所指示的业务数据与该新增输入输出记录所指示的计算任务具有关联关系，或者为该第四关系链所指示的计算任务与该新增输入输出记录所指示的业务数据具有关联关系。

需要说明的是，迁移服务器根据该新增的输入输出记录，对未进行迁移的关系链进行更新的步骤可以在关系链正在迁移的过程中执行，也可以某个关系链迁移完成之后执行，本实施例对此不作限定。迁移服务器可以周期性的获取计算任务日志中的新增输入输出记录，以周期性地对未进行迁移的关系链进行更新。

本实施例中，在迁移关系链所指示数据的过程中，原服务集群中产生的新计算任务可能与该迁移的关系链所指示业务数据之间具有关联关系，因此，当该关系链所指示的数据迁移至目标服务集群后，该新计算任务则需要从目标服务集群中对相关联的业务数据进行读写，而由于目标服务集群与原服务集群不在同一个IDC机房内，该种业务数据的读写将会占用较大的网络带宽，因此，在该第一个层面中迁移服务器可以及时根据计算任务日志，对未进行迁移的关系链进行更新，使得关系链能够增加全面的指示原服务集群中最新的业务数据和计算任务，以最大程度上避免原服务集群的计算任务读写目标服务集群的业务数据的情况，从而提高业务处理效率以及网络资源的利用率。此外，为了进一步避免原服务集群的计算任务读写目标服务集群的业务数据的情况，迁移服务器还可以对原服务集群中所有计算任务的网络带宽占用量进行监控，对于网络带宽占用量高于预设带宽的计算任务，迁移服务器优先将该计算任务所在的关系链迁移至目标服务集群。

另一个层面、当迁移中断时，基于中断时的数据迁移状态进行断点续传。

该断点续传的过程可以为：在基于任一个关系链进行迁移时，当检测到对关系链的迁移中断操作时，记录未完成迁移的迁移子任务，停止对关系链的迁移过程；当检测到对关系链的继续迁移操作时，根据未完成迁移的迁移子任务，将关系链所指示的业务数据和计算任务迁移至目标服务集群。

需要说明的是，在以关系链进行数据迁移的过程中，很可能会发生突发情况而导致该关系链的迁移过程中断，比如，发生网络故障或者有更高优先级的业务数据需要立即迁移等。在根据多个迁移子任务对关系链进行迁移的过程中，迁移服务器可以记录对该多个迁移子任务进行编号，并按照编号的顺序依次进行迁移。针对不同的迁移子任务，迁移服务器可以记录该迁移子任务的状态，比如该状态可以为未完成迁移、正在迁移和迁移完成。当迁移服务器检测到某个关系链的迁移中断操作时，可以记录未完成迁移的迁移子任务的编号。当检测到对该关系链的继续迁移操作时，仅执行未完成迁移的迁移子任务，以将该关系链中断时未迁移的业务数据和计算任务迁移至目标服务集群。

在本实施例中，在以关系链进行数据迁移的过程中，迁移服务器还可以采用不同的迁移状态来对迁移过程进行控制，通过采用状态机的方式管理迁移过程，避免了迁移状态丢失，保证关系链的迁移过程可任意中断后再进行断点续传。图2H示出了关系链在迁移过程中涉及的迁移状态示意图。下面以一个关系链的迁移过程为例，对各个迁移状态进行介绍：

启动迁移：开始迁移该关系链所指示的数据。

获取源头数据：在确定关系链的迁移过程启动之后，便可进入该种迁移状态，在该种迁移状态下，迁移服务器通过指定接口从实时数据处理服务器上获取该源头数据。

等待用户确认：在业务数据迁移进度达到预设进度时，冻结计算任务之前，向用户展示计算任务确认冻结界面，由用户确认后，转移至冻结计算任务的状态。需要说明的是，如果迁移的关系链为拆分得到的第三关系链，则迁移服务器在确定第三关系链所指示的关键业务数据的原存储路径和目标存储路径均包含在数据路径映射表中时，才进入该等待用户确认的迁移状态。

冻结计算任务：该种迁移状态下，迁移服务器执行上述步骤206b和206c，在所有计算任务都处于停止运行状态时，进入下一个迁移状态。

等待业务数据一致：在冻结计算任务之后，关系链所指示业务数据未完全迁移至目标服务集群之前均处于该种迁移状态。

业务数据一致性校验：在关系链所指示业务数据全部迁移至目标服务集群后，进入该种迁移状态。

业务数据存储路径切换：在对关系链的一致性校验成功后，进入该种迁移状态，执行对业务数据存储路径切换的过程。

计算任务迁移：当业务数据存储路径全部由原服务集群切换至目标服务集群后，进入该种迁移状态，执行对计算任务迁移的过程。

解冻计算任务：计算任务迁移完成之后，执行运行所有计算任务的过程，当所有计算任务都正常运行时，进入迁移完成状态，从而完成该关系链所指示业务数据和计算任务的迁移。

需要说明的是，为了便于管理迁移过程，迁移服务器可以在前台提供管理界面，具有管理权限的终端可以访问迁移服务器前台，从而展示该管理界面，由管理人员通过查看该管理界面，获知迁移过程的各项信息。

例如，任一终端可以采用管理人员的用户名和密码登录迁移服务器，从而获得管理权限，基于获得的管理权限访问迁移服务器前台。或者，部署在目标服务集群所在机房、与目标服务集群相连接的终端可以获得管理权限，基于获得的管理权限访问迁移服务器前台。

例如，该管理界面中可以包括关系链中各个节点的连接关系、各个节点的迁移状态信息、计算任务的运行状态信息、开始迁移时间、预计停止迁移时间、关系链的迁移状态以及关系链的迁移进度等。另外，该管理界面还可以包括一个或多个管理选项，用于对迁移过程进行管理。例如，该管理界面可以包括停止迁移选项和继续迁移选项，当管理人员触发该停止迁移选项时，迁移服务器接收到停止迁移指令，则暂停当前的迁移过程，直至后续管理人员触发继续迁移选项时，迁移服务器接收到继续迁移指令，则继续进行迁移。

本实施例提供的方法，通过根据原服务集群中的计算任务日志，将具有关联关系的业务数据和计算任务采用一个关系链表示，使得在以关系链为单位进行数据迁移的过程中，正在迁移的关系链不会对其他关系链产生影响，仍可以正常运行未进行迁移的关系链所指示的计算任务，从而不会影响未进行迁移的关系链所指示业务的正常使用。另外，在关系链中将计算任务和业务数据均作为节点来进行迁移，使得计算任务不会受到业务数据所在地理位置的影响。

另外，通过对数据量较大的大关系链进行关键数据节点获取，且将关键数据节点所对应的关键业务数据设置成在原服务集群和目标服务集群均能够访问的业务数据，使得能够将大关系链拆分成多个小关系链后，小关系链不论属于原服务集群还是目标服务集群，均可以灵活访问该关键业务数据，实现了对相互关联的业务之间的解耦，并且实现了通过多个小关系链将复杂业务进行逐步迁移。

另外，在对关系链所指示的数据进行迁移的过程中，先迁移关系链所指示的业务数据，当业务数据迁移进度达到预设进度时，可以在计算任务停止运行的间隙，对计算任务进行迁移，大大降低了数据迁移对业务正常使用的影响，而且由于业务数据达到迁移进度时，剩余的业务数据量通常可以在很短的时间内完成迁移，该时间可以小于计算任务的运行周期，这样数据迁移的过程完全不会影响业务的正常使用，实现了用户无感知的数据迁移。

另外，通过将关系链所指示的业务数据采用不同的迁移子任务进行迁移，降低了数据迁移的粒度，而且该多个迁移子任务可以并行运行，提高了该关系链所指示业务数据的迁移效率。而且，当迁移发生错误时，只需要对迁移子任务进行重新迁移即可，无需对整个服务集群的业务数据重新迁移，降低了迁移过程中数据出错的代价，提高了数据迁移的效率。

另外，通过化整为零的方式，将原服务集群中的业务数据和计算任务以多个关系链为单位逐渐迁移至目标服务集群，在迁移过程中，原服务集群中的业务数据和计算任务在不断减少，使得原服务集群中空余出来的服务器便可以拆卸搬迁到目标IDC机房中，使得服务器设备资源可以重复利用，降低了数据迁移的成本。

图3是本发明实施例提供的一种数据迁移装置的框图。参照图3，该装置包括第一获取单元301和迁移单元302。

其中，第一获取单元301与迁移单元302连接，用于根据原服务集群的计算任务日志，获取多个关系链，该计算任务日志用于记录该原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；迁移单元302，用于以关系链为单位，将该多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；其中，在基于任一个关系链进行迁移时，正常运行该多个关系链中未进行迁移的关系链所指示的计算任务。

在一种可能的实现方式中，该第一获取单元301用于根据该计算任务日志所记录的多条输入输出记录，为具有关联关系的输入输出记录添加相同的关系链标识，为不具有关联关系的输入输出记录添加不同的关系链标识；按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个关系链，每个关系链包括用于指示计算任务的任务节点、用于指示业务数据的数据节点以及任务节点和数据节点之间的关联关系。

在一种可能的实现方式中，该第一获取单元301包括：

生成子单元，用于按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个第一关系链；

拆分子单元，用于如果该多个第一关系链中包括第二关系链，则将该第二关系链拆分为多个第三关系链，该第二关系链为所指示业务数据的数据量超过第一阈值的第一关系链。

在一种可能的实现方式中，该拆分子单元用于获取该第二关系链中多个数据节点的权值，每个数据节点的权值用于指示该数据节点在该第二关系链中的关联程度，权值越高被关联程度越高；按照权值从高到低的顺序和该多个数据节点在该第二关系链上的位置，从该多个数据节点中获取关键数据节点，该关键数据节点为该顺序中第一个能够将该第二关系链拆分为至少两个第三关系链的数据节点；基于该关键数据节点，将该第二关系链中与该关键数据节点相关联的多个任务节点拆分至多个第三关系链中。

在一种可能的实现方式中，该拆分子单元用于：

对于与该关键数据节点直接关联的多个任务节点中的每个任务节点，将该关键数据节点、该任务节点以及该关键数据节点与该任务节点断开连接关系时与该任务节点具有关联关系的节点确定为第三关系链；或，

将该关键数据节点确定为一个第三关系链，对于与该关键数据节点直接关联的多个任务节点中的每个业务节点，将除该关键数据节点之外的、与该任务节点具有关联关系的节点确定为第三关系链；或，

将该关键数据节点、与该关键数据节点直接关联的至少一个任务节点以及与该至少一个任务节点具有关联关系的节点拆分为一个第三关系链，将除了已拆分的第三关系链之外的任务节点和数据节点拆分为至少一个第三关系链。

在一种可能的实现方式中，该拆分子单元用于对于该多个数据节点中的每个数据节点，将与该数据节点相关联的任务节点的数目和该数据节点所指示业务数据的数据量的乘积，确定为该数据节点的权值。

在一种可能的实现方式中，该装置还包括：

第二获取单元，用于获取关键业务数据在该目标服务集群中的目标存储路径，该关键业务数据为该关键数据节点所指示的业务数据；

添加单元，用于在数据路径映射表中添加该目标存储路径，且保留该关键业务数据在该原服务集群中的原存储路径。

在一种可能的实现方式中，该迁移单元302用于：

在迁移该多个第三关系链的过程中，根据该目标存储路径和该原存储路径，在该目标服务集群和该原服务集群中同步该关键业务数据；

对于该多个第三关系链中的任一个第三关系链，执行以下过程：

如果该第三关系链所指示的业务数据和计算任务已全部迁移至该目标服务集群，则在运行该第三关系链所指示的计算任务时，根据该数据路径映射表记录的该目标存储路径访问该关键业务数据；

如果该第三关系链该指示的业务数据和计算任务未全部迁移至该目标服务集群，则在运行该第三关系链所指示的计算任务时，根据该数据路径映射表记录的该原存储路径访问该关键业务数据。

在一种可能的实现方式中，该迁移单元302包括：

生成子单元，用于对于该多个关系链中的每个关系链，根据该关系链所指示的多个业务数据，生成多个迁移子任务，每个迁移子任务用于指示相应业务数据的原存储路径和目标存储路径；

第一迁移子单元，用于根据该多个迁移子任务，将该关系链所指示的业务数据迁移到该目标服务集群；

第二迁移子单元，用于将该关系链所指示的计算任务迁移至该目标服务集群；

其中，在迁移该关系链所指示的计算任务时，该关系链所指示的计算任务处于停止运行状态。

在一种可能的实现方式中，该第一迁移子单元用于：

对于该关系链所指示的多个业务数据中的每个业务数据，执行以下过程：

判断该业务数据的数据量是否小于第二阈值；

如果该业务数据的数据量小于该第二阈值，则对应该业务数据生成一个迁移子任务；

如果该业务数据的数据量不小于该第二阈值，则根据该第二阈值，按照数据产生的时间顺序将该业务数据划分为多个子业务数据，对应每个子业务数据生成一个迁移子任务，该每个子业务数据的数据量小于该第二阈值。

在一种可能的实现方式中，该第一迁移子单元还用于：

在迁移该关系链所指示的业务数据的过程中，获取该关系链所指示的业务数据的迁移进度；

当该业务数据的迁移进度超过预设进度时，对于该关系链所指示的每个计算任务，执行以下过程：

判断该计算任务是否处于停止运行状态；

如果该计算任务处于停止运行状态，则在该关系链完成迁移之前维持该计算任务的停止运行状态；

如果该计算任务处于运行状态，则等待该计算任务停止运行后、该关系链完成迁移之前维持该计算任务的停止运行状态。

在一种可能的实现方式中，该装置还包括：

第一校验单元，用于对于该多个迁移子任务中的每个迁移子任务，在该迁移子任务对应的业务数据全部迁移到该目标服务集群之后，对该目标服务集群和该原服务集群中与该迁移子任务对应的业务数据进行一致性校验；如果一致性校验成功，则确定该迁移子任务对应的业务数据迁移成功；如果一致性校验失败，则确定该迁移子任务对应的业务数据迁移失败，重新执行该迁移子任务。

在一种可能的实现方式中，该装置还包括：

第二校验单元，用于对该目标服务集群和该原服务集群中该关系链所指示的业务数据进行一致性校验；如果一致性校验成功，则执行将该关系链所指示的计算任务迁移到该目标服务集群的步骤；如果一致性校验失败，则根据一致性校验结果，确定迁移失败的业务数据，对该迁移失败的业务数据重新进行迁移。

在一种可能的实现方式中，该第二迁移子单元用于获取该计算任务的第一计算资源信息和第二计算资源信息，该第一计算资源信息为在该原服务集群中为该计算任务配置的计算资源信息，该第二计算资源信息为在该目标服务集群中为该计算任务配置的计算资源信息；将该计算任务的第一计算资源信息替换为该第二计算资源信息。

在一种可能的实现方式中，该装置还包括：

切换单元，用于在数据路径映射表中，将该业务数据在该原服务集群中的原存储路径切换为在该目标服务集群中的目标存储路径。

在一种可能的实现方式中，该迁移单元302还用于在基于任一个关系链进行迁移时，当检测到对该关系链的迁移中断操作时，记录未完成迁移的迁移子任务，停止对该关系链的迁移过程；当检测到对该关系链的继续迁移操作时，根据该未完成迁移的迁移子任务，将该关系链所指示的业务数据和计算任务迁移至该目标服务集群。

在一种可能的实现方式中，该装置还包括：

关系链更新单元，用于获取更新的计算任务日志；根据该更新的计算任务日志，对未进行迁移的关系链进行更新。

本实施例提供的装置，通过根据原服务集群中的计算任务日志，将具有关联关系的业务数据和计算任务采用一个关系链表示，使得在以关系链为单位进行数据迁移的过程中，正在迁移的关系链不会对其他关系链产生影响，仍可以正常运行未进行迁移的关系链所指示的计算任务，从而不会影响未进行迁移的关系链所指示业务的正常使用。

需要说明的是：上述实施例提供的数据迁移装置在迁移数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将迁移服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据迁移装置与数据迁移方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种数据迁移装置的框图。例如，装置400可以被提供为一服务器。参照图4，装置400包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理部件422的执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述数据迁移方法实施例中迁移服务器所执行的方法。

装置400还可以包括一个电源组件426被配置为执行装置400的电源管理，一个有线或无线网络接口450被配置为将装置400连接到网络，和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作***，例如Windows Server ^TM，Mac OS X ^TM，Unix ^TM，Linux ^TM，FreeBSD ^TM或类似。

该数据迁移装置可以用于执行上述实施例中迁移服务器所执行的操作。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的数据迁移方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该指令由处理器加载并执行以实现上述实施例的方法中迁移服务器所执行的操作。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的可选实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

一种数据迁移方法，其特征在于，应用于迁移服务器，所述方法包括：

根据原服务集群的计算任务日志，获取多个关系链，所述计算任务日志用于记录所述原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；

以关系链为单位，将所述多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；

其中，在基于任一个关系链进行迁移时，正常运行所述多个关系链中未进行迁移的关系链所指示的计算任务。
根据权利要求1所述的方法，其特征在于，所述根据原服务集群的计算任务日志，获取多个关系链包括：

根据所述计算任务日志所记录的多条输入输出记录，为具有关联关系的输入输出记录添加相同的关系链标识，为不具有关联关系的输入输出记录添加不同的关系链标识；

按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个关系链，每个关系链包括用于指示计算任务的任务节点、用于指示业务数据的数据节点以及任务节点和数据节点之间的关联关系。
根据权利要求2所述的方法，其特征在于，所述按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个关系链包括：

按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个第一关系链；

如果所述多个第一关系链中包括第二关系链，则将所述第二关系链拆分为多个第三关系链，所述第二关系链为所指示业务数据的数据量超过第一阈值的第一关系链。
根据权利要求3所述的方法，其特征在于，所述将所述第二关系链拆分为多个第三关系链包括：

获取所述第二关系链中多个数据节点的权值，每个数据节点的权值用于指示所述数据节点在所述第二关系链中的关联程度，权值越高被关联程度越高；

按照权值从高到低的顺序和所述多个数据节点在所述第二关系链上的位置，从所述多个数据节点中获取关键数据节点，所述关键数据节点为所述顺序中第一个能够将所述第二关系链拆分为至少两个第三关系链的数据节点；

基于所述关键数据节点，将所述第二关系链中与所述关键数据节点相关联的多个任务节点拆分至多个第三关系链中。
根据权利要求4所述的方法，其特征在于，所述基于所述关键数据节点，将所述第二关系链中与所述关键数据节点相关联的多个任务节点拆分至多个第三关系链中包括：

对于与所述关键数据节点直接关联的多个任务节点中的每个任务节点，将所述关键数据节点、所述任务节点以及所述关键数据节点与所述任务节点断开连接关系时与所述任务节点具有关联关系的节点确定为第三关系链；或，

将所述关键数据节点确定为一个第三关系链，对于与所述关键数据节点直接关联的多个任务节点中的每个任务节点，将除所述关键数据节点之外的、与所述任务节点具有关联关系的节点确定为第三关系链；或，

将所述关键数据节点、与所述关键数据节点直接关联的至少一个任务节点以及与所述至少一个任务节点具有关联关系的节点拆分为一个第三关系链，将除了已拆分的第三关系链之外的任务节点和数据节点拆分为至少一个第三关系链。
根据权利要求4所述的方法，其特征在于，所述将所述第二关系链拆分为多个第三关系链之后，所述方法还包括：

获取关键业务数据在所述目标服务集群中的目标存储路径，所述关键业务数据为所述关键数据节点所指示的业务数据；

在数据路径映射表中添加所述目标存储路径，且保留所述关键业务数据在所述原服务集群中的原存储路径。
根据权利要求1所述的方法，其特征在于，所述以关系链为单位，将所述多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群包括：

对于所述多个关系链中的每个关系链，根据所述关系链所指示的多个业务数据，生成多个迁移子任务，每个迁移子任务用于指示相应业务数据的原存储路径和目标存储路径；

根据所述多个迁移子任务，将所述关系链所指示的业务数据迁移到所述目标服务集群；

将所述关系链所指示的计算任务迁移至所述目标服务集群；

其中，在迁移所述关系链所指示的计算任务时，所述关系链所指示的计算任务处于停止运行状态。
根据权利要求7所述的方法，其特征在于，所述将所述关系链所指示的业务数据迁移到所述目标服务集群包括：

在迁移所述关系链所指示的业务数据的过程中，获取所述关系链所指示的业务数据的迁移进度；

当所述业务数据的迁移进度超过预设进度时，对于所述关系链所指示的每个计算任务，执行以下过程：

判断所述计算任务是否处于停止运行状态；

如果所述计算任务处于停止运行状态，则在所述关系链完成迁移之前维持所述计算任务的停止运行状态；

如果所述计算任务处于运行状态，则等待所述计算任务停止运行后、所述关系链完成迁移之前维持所述计算任务的停止运行状态。
根据权利要求7所述的方法，其特征在于，所述将所述关系链所指示的计算任务迁移至所述目标服务集群包括：

获取所述计算任务的第一计算资源信息和第二计算资源信息，所述第一计算资源信息为在所述原服务集群中为所述计算任务配置的计算资源信息，所述第二计算资源信息为在所述目标服务集群中为所述计算任务配置的计算资源信息；

将所述计算任务的第一计算资源信息替换为所述第二计算资源信息。
根据权利要求7所述的方法，其特征在于，所述将所述关系链所指示的业务数据迁移到所述目标服务集群之后，所述方法还包括：

在数据路径映射表中，将所述业务数据在所述原服务集群中的原存储路径切换为在所述目标服务集群中的目标存储路径。
一种迁移服务器，其特征在于，所述迁移服务器包括：处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如下操作：

根据原服务集群的计算任务日志，获取多个关系链，所述计算任务日志用于记录所述原服务集群中计算任务与业务数据的关联关系，每个关系链用于指示具有关联关系的一组计算任务和业务数据；

以关系链为单位，将所述多个关系链所指示的业务数据和计算任务依次迁移至目标服务集群；

其中，在基于任一个关系链进行迁移时，正常运行所述多个关系链中未进行迁移的关系链所指示的计算任务。
根据权利要求11所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

根据所述计算任务日志所记录的多条输入输出记录，为具有关联关系的输入输出记录添加相同的关系链标识，为不具有关联关系的输入输出记录添加不同的关系链标识；

按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个关系链，每个关系链包括用于指示计算任务的任务节点、用于指示业务数据的数据节点以及任务节点和数据节点之间的关联关系。
根据权利要求12所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

按照相同关系链标识的输入输出记录所指示的计算任务和业务数据之间的关联关系，生成多个第一关系链；

如果所述多个第一关系链中包括第二关系链，则将所述第二关系链拆分为多个第三关系链，所述第二关系链为所指示业务数据的数据量超过第一阈值的第一关系链。
根据权利要求13所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

获取所述第二关系链中多个数据节点的权值，每个数据节点的权值用于指示所述数据节点在所述第二关系链中的关联程度，权值越高被关联程度越高；

按照权值从高到低的顺序和所述多个数据节点在所述第二关系链上的位置，从所述多个数据节点中获取关键数据节点，所述关键数据节点为所述顺序中第一个能够将所述第二关系链拆分为至少两个第三关系链的数据节点；

基于所述关键数据节点，将所述第二关系链中与所述关键数据节点相关联的多个任务节点拆分至多个第三关系链中。
根据权利要求14所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

对于与所述关键数据节点直接关联的多个任务节点中的每个任务节点，将所述关键数据节点、所述任务节点以及所述关键数据节点与所述任务节点断开连接关系时与所述任务节点具有关联关系的节点确定为第三关系链；或，

将所述关键数据节点确定为一个第三关系链，对于与所述关键数据节点直接关联的多个任务节点中的每个任务节点，将除所述关键数据节点之外的、与所述任务节点具有关联关系的节点确定为第三关系链；或，

将所述关键数据节点、与所述关键数据节点直接关联的至少一个任务节点以及与所述至少一个任务节点具有关联关系的节点拆分为一个第三关系链，将除了已拆分的第三关系链之外的任务节点和数据节点拆分为至少一个第三关系链。
根据权利要求14所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

获取关键业务数据在所述目标服务集群中的目标存储路径，所述关键业务数据为所述关键数据节点所指示的业务数据；

在数据路径映射表中添加所述目标存储路径，且保留所述关键业务数据在所述原服务集群中的原存储路径。
根据权利要求11所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

对于所述多个关系链中的每个关系链，根据所述关系链所指示的多个业务数据，生成多个迁移子任务，每个迁移子任务用于指示相应业务数据的原存储路径和目标存储路径；

根据所述多个迁移子任务，将所述关系链所指示的业务数据迁移到所述目标服务集群；

将所述关系链所指示的计算任务迁移至所述目标服务集群；

其中，在迁移所述关系链所指示的计算任务时，所述关系链所指示的计算任务处于停止运行状态。
根据权利要求11所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

在迁移所述关系链所指示的业务数据的过程中，获取所述关系链所指示的业务数据的迁移进度；

当所述业务数据的迁移进度超过预设进度时，对于所述关系链所指示的每个计算任务，执行以下过程：

判断所述计算任务是否处于停止运行状态；

如果所述计算任务处于停止运行状态，则在所述关系链完成迁移之前维持所述计算任务的停止运行状态；

如果所述计算任务处于运行状态，则等待所述计算任务停止运行后、所述关系链完成迁移之前维持所述计算任务的停止运行状态。
根据权利要求17所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

获取所述计算任务的第一计算资源信息和第二计算资源信息，所述第一计算资源信息为在所述原服务集群中为所述计算任务配置的计算资源信息，所述第二计算资源信息为在所述目标服务集群中为所述计算任务配置的计算资源信息；

将所述计算任务的第一计算资源信息替换为所述第二计算资源信息。
根据权利要求17所述的迁移服务器，其特征在于，所述指令由所述处理器加载并执行以实现如下操作：

在数据路径映射表中，将所述业务数据在所述原服务集群中的原存储路径切换为在所述目标服务集群中的目标存储路径。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至10任一项所述的方法中所执行的操作。