CN104699771B

CN104699771B - 数据同步方法和集群节点

Info

Publication number: CN104699771B
Application number: CN201510092950.6A
Authority: CN
Inventors: 唐文奎
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2019-09-20
Anticipated expiration: 2035-03-02
Also published as: WO2016138859A1; CN104699771A

Abstract

本发明公开了一种数据同步方法和集群节点，该方法包括：在生成源数据的集群节点生成源数据的集群节点上对所述源数据的完整性进行验证；若验证所述源数据为完整的，则获取所述源数据；根据所述源数据对数据表进行更新；其中所述源数据为完整的表示所述生成源数据的集群节点生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。在该实施例中，通过在生成源数据的集群节点上来实现源数据完整性的验证，在源数据完整的情况下，实现数据同步。因此，无需通过Hive手工以文件方式导入源数据再完成数据完整性和有效性的判断，从而降低了人力成本，并且提高数据同步的效率。

Description

数据同步方法和集群节点

技术领域

本发明实施例涉及计算机技术领域，并且更具体地，涉及一种数据同步方法和集群节点。

背景技术

Impala作为分布式***基础架构(如Hadoop)的新型查询***，提供SQL(Structured Query Language，结构化查询语言)语义。相较于使用MapReduce编程模型的Hive(基于Hadoop的一个数据仓库工具)，Impala能够以低延时查询存储在Hadoop的HDFS(Hadoop Distributed File System，分布式文件***)中的PB级大数据，为依托于数据分析的决策提供了更高效的支撑。

但是，在现有的数据同步过程中，分布式***Hadoop采用Hive手工以文件方式导入数据，再对数据的有效性或完整性进行判断，因此，不仅人力成本大且效率低下。

发明内容

本发明实施例提供一种数据同步方法和集群节点，能够有效地降低人力成本，并且提高数据同步的效率。

第一方面，提供了一种数据同步方法，该方法包括：在生成源数据的集群节点生成源数据的集群节点上对所述源数据的完整性进行验证；若验证所述源数据为完整的，则获取所述源数据；根据所述源数据对数据表进行更新；其中所述源数据为完整的表示所述生成源数据的集群节点生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。

结合第一方面，在一种可能的实现方式中，所述在源数据所在集群节点上对所述源数据的完整性进行验证，包括：当通过对所述生成源数据的集群节点生成源数据的集群节点进行轮询，获取到完整标记时，验证所述源数据为完整的；或者当接收到所述生成源数据的集群节点生成源数据的集群节点提交的完整标记时，验证所述源数据为完整的；其中所述完整标记是由所述生成源数据的集群节点生成源数据的集群节点在所述源数据生成完成之后产生的。

结合第一方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述在源数据所在集群节点上对所述源数据的完整性进行验证，包括：当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的。

进一步地，所述当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的，包括：多次检测所述源数据的大小，每次间隔一定的时间，所述预定的时间范围是指首次与最后一次检测所述源数据的大小的时间间隔；如果多次检测到的所述源数据的大小都是一致的，则表示所述源数据的大小在预定的时间范围内没有改变，验证所述源数据为完整的。

结合第一方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，在所述根据所述源数据对数据表进行更新之前，所述方法还包括：对所述源数据进行过滤，以过滤掉无效数据。

结合第一方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，在所述获取所述源数据之后，所述方法还包括：分区创建所述源数据的表结构，所述表结构记录了从所述生成源数据的集群节点生成源数据的集群节点到目标集群节点上的存储位置的映射关系，所述目标集群节点指的是获取所述源数据的集群节点。

结合第一方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述数据表采用全量表，时间分区表或拉链表的形式。

第二方面，提供了一种数据同步方法，该方法包括：生成源数据；

在目标集群节点验证所述源数据为完整的之后，向所述目标集群节点上传所述源数据，以便所述目标集群节点根据所述源数据对数据表进行更新；其中所述源数据为完整的表示所述生成源数据的集群节点生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。

结合第二方面，在一种可能的实现方式中，在所述向所述目标集群节点上传所述源数据之前，所述方法还包括：在源数据生成完成之后，生成完整标记，所述完整标记用于指示所述源数据为完整的；向所述目标集群节点提交所述完整标记。

第三方面，提供了一种数据同步的集群节点，该集群节点包括：验证模块，用于在生成源数据的集群节点上对所述源数据的完整性进行验证；获取模块，用于若所述验证模块验证所述源数据为完整的，则获取所述源数据；更新模块，用于根据所述获取模块获取的所述源数据对数据表进行更新；其中所述源数据为完整的表示所述生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。

结合第三方面，在一种可能的实现方式中，所述验证模块具体用于：当通过对所述生成源数据的集群节点进行轮询，获取到完整标记时，验证所述源数据为完整的；或者所述验证模块具体用于：当接收到所述生成源数据的集群节点提交的完整标记时，验证所述源数据为完整的；其中所述完整标记是由所述生成源数据的集群节点在所述源数据生成完成之后产生的。

结合第三方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述验证模块具体用于：当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的。

结合第三方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述验证模块具体用于：多次检测所述源数据的大小，每次间隔一定的时间，如果多次检测到的所述源数据的大小都是一致的，则表示所述源数据的大小在预定的时间范围内没有改变，验证所述源数据为完整的，其中所述预定的时间范围是指首次与最后一次检测所述源数据的大小的时间间隔。

结合第三方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述更新模块还用于：对所述源数据进行过滤，以过滤掉无效数据。

结合第三方面或其上述实现方式中的任一种实现方式，在另一种可能的实现方式中，所述集群节点还包括：创建模块，用于分区创建所述源数据的表结构，所述表结构记录了从所述生成源数据的集群节点到目标集群节点上的存储位置的映射关系，所述目标集群节点指的是获取所述源数据的集群节点。

第四方面，提供了一种生成源数据的集群节点，该集群节点包括：生成模块，用于生成源数据；上传模块，用于在目标集群节点验证所述源数据为完整的之后，向所述目标集群节点上传所述生成模块生成的所述源数据，以便所述目标集群节点根据所述源数据对数据表进行更新；其中所述源数据为完整的表示所述生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。

结合第四方面，在一种可能的实现方式中，所述生成模块还用于：在源数据生成完成之后，生成完整标记，所述完整标记用于指示所述源数据为完整的；所述上传模块还用于：向所述目标集群节点提交所述生成模块生成的所述完整标记。

在本发明实施例中，通过在生成源数据的集群节点上来实现源数据完整性的验证，在源数据完整的情况下，从生成源数据的集群节点上直接获取该源数据，并相应地对记录数据元信息的数据表进行更新，从而实现数据同步。因此，无需通过Hive手工以文件方式导入源数据再完成数据完整性和有效性的判断，从而降低了人力成本，并且提高数据同步的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的数据同步方法的过程的示意性流程图。

图2是本发明一个实施例的数据同步方法的过程的示意性流程图。

图3是本发明一个数据同步的集群节点的示意性结构图。

图4是本发明一个生成源数据的集群节点的示意性结构图。

图5是本发明另一个数据同步的集群节点的示意性结构图。

图6是本发明另一个生成源数据的集群节点的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是本发明一个实施例的数据同步方法的过程的示意性流程图。图1的方法可以由数据同步的集群节点执行，包括：

步骤101，在生成源数据的集群节点上对源数据的完整性进行验证。

其中验证源数据的完整性即是验证生成源数据的集群节点是否已完成生成所述源数据的过程，或者可以认为是对源数据是否缺失的一种判断。

步骤102，若验证源数据为完整的，则获取源数据。

其中源数据为完整的可表示生成源数据的集群节点已完成生成源数据的过程。

步骤103，根据源数据对数据表进行更新。

其中数据表用于记录源数据的元信息(也可以称为“元数据”，表示描述源数据的数据)。

可选地，作为一个实施例，在步骤101中，在一种可能的实现方式中，生成源数据的集群节点在完成源数据生成的过程后可以生成完整标记，该完整标记用来指示源数据是完整的，可以通过对生成源数据的集群节点进行轮询，当轮询到该完整标记时，则验证源数据为完整的，主动执行数据获取功能。

在另一种可能的实现方式中，可以通过源数据的大小在预定的时间范围内是否有改变来验证源数据的完整性。具体地，当源数据生成者(即生成源数据的集群节点)因环境或权限等原因不能主动提交完整标记时，获取源数据的集群节点(即目标集群节点)可以多次(两次或两次以上)检测源数据的大小，每次检测间隔一定的时间，此处预定的时间范围可以表示为首次与最后一次检测源数据的大小的时间间隔。如果多次检测到的所述源数据的大小都是一致的，则表示源数据的大小在预定的时间范围内没有改变，验证源数据为完整的，可以执行数据获取功能。

应理解，本发明实施例对于源数据完整性的验证方式并不限定。

可选地，作为另一个实施例，在步骤103之前，可以在生成源数据的集群节点上对源数据进行有效性的验证，当然也可以在获取源数据之后验证源数据的有效性。可选地，可以根据压缩格式对源数据进行过滤，以过滤掉无效数据。例如，校验源数据(数据文件)，排除不符合指定压缩格式的文件，如任务调度产生的log(日志文件)等非数据的文件。

可选地，作为另一个实施例，在步骤102中，可以通过JDBC(Java Data BaseConnectivity，Java数据库连接)连接到目标集群的Hive，实现源数据的获取(如采用HDFS的数据拷贝功能)。进一步地，还可以分区创建源数据的表结构(如Hive表结构)，表结构记录了本地(即生成源数据的集群节点)到目标集群的节点(本发明中的获取源数据的集群节点，如执行图1方法的集群节点)上的存储位置的映射关系。

可选地，作为另一个实施例，在步骤103中，数据表采用全量表，时间分区表或拉链表的形式。当数据表采用全量表的形式时，可以对数据表记录的所有数据进行更新，即全量生成一遍；当数据表为时间分区表示，可以按照预定的规则(如以天、周或月等为单元)来更新数据表；当数据表为拉链表的形式(记录了数据的历史，即数据的开始一直到当前的状态)时，可以对数据表进行全量更新或者对数据表中的部分数据进行更新(如覆盖或追加方式)。应理解，本发明实施例对数据表的形式及其更新方式不做限制。

还需要说明的是，本发明数据同步方法中可以有效针对Impala数据，当然，也可以应用到其它场景，本发明对此并不限定。

图2是本发明一个实施例的数据同步方法的过程的示意性流程图。图2的方法可以由集群节点(也称为源数据生成者)执行，并与图1的方法相对应，因此将适当省略与图1的实施例重复的描述。该方法包括：

步骤201，生成源数据。

步骤202，在目标集群节点验证源数据为完整的之后，向目标集群节点上传源数据，以便目标集群节点根据所述源数据对数据表进行更新。

其中源数据为完整的表示生成源数据的集群节点生成源数据的集群节点已完成生成源数据的过程，数据表用于记录源数据的元信息。

在本发明实施例中，在目标集群节点验证源数据完整的情况下，将生成的源数据上传给目标集群节点，目标集群节点对记录数据元信息的数据表进行更新，实现了数据同步。因此，无需通过Hive手工以文件方式导入源数据再完成数据完整性和有效性的判断，从而降低了人力成本，并且提高数据同步的效率。

可选地，作为一个实施例，在步骤202之前，可以在源数据生成完成之后，生成完整标记，该完整标记用于指示源数据为完整的；向目标集群节点提交完整标记。目标集群节点通过完整标记可以获知源数据完整，可以主动地从生成源数据的集群节点上获取该源数据(可以使用HDFS的数据拷贝功能)。

图3是本发明一个数据同步的集群节点的示意性结构图。数据同步的集群节点300包括验证模块301，获取模块302和更新模块303。

验证模块301，用于在生成源数据的集群节点上对源数据的完整性进行验证；

获取模块302，用于若验证模块301验证源数据为完整的，则获取源数据；

更新模块303，用于根据获取模块302获取的源数据对数据表进行更新；

其中源数据为完整的表示生成源数据的集群节点已完成生成源数据的过程，数据表用于记录源数据的元信息。

数据同步的集群节点300可实现上述实施例中涉及该集群节点的操作，因此为避免重复，不再详细描述。

可选地，作为一个实施例，验证模块301可以具体用于：当通过对生成源数据的集群节点进行轮询，获取到完整标记时，验证源数据为完整的；或者验证模块301可以具体用于：当接收到生成源数据的集群节点提交的完整标记时，验证源数据为完整的；其中完整标记是由生成源数据的集群节点在源数据生成完成之后产生的。

可选地，作为另一个实施例，验证模块301可以具体用于：当源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的。

进一步地，验证模块301可以具体用于：多次检测源数据的大小，每次间隔一定的时间，如果多次检测到的源数据的大小都是一致的，则表示源数据的大小在预定的时间范围内没有改变，验证源数据为完整的，其中预定的时间范围是指首次与最后一次检测所述源数据的大小的时间间隔。

可选地，作为另一个实施例，更新模块303还可以用于：对源数据进行过滤，以过滤掉无效数据。

可选地，作为另一个实施例，集群节点300还可以包括创建模块304。创建模块304，用于分区创建源数据的表结构，表结构记录了从生成源数据的集群节点到目标集群节点上的存储位置的映射关系，目标集群节点指的是获取源数据的集群节点。

图4是本发明一个生成源数据的集群节点的示意性结构图。生成源数据的集群节点400包括生成模块401和上传模块402。

生成模块401，用于生成源数据。

上传模块402，用于在目标集群节点验证源数据为完整的之后，向目标集群节点上传生成模块401生成的源数据，以便目标集群节点根据源数据对数据表进行更新；

生成源数据的集群节点400可实现上述实施例中涉及该集群节点的操作，因此为避免重复，不再详细描述。

可选地，作为一个实施例，生成模块401还可以用于：在源数据生成完成之后，生成完整标记，该完整标记用于指示源数据为完整的；上传模块402还可以用于：向目标集群节点提交完整标记。目标集群节点通过完整标记可以获知源数据完整，可以主动地从生成源数据的集群节点上获取该源数据(可以使用HDFS的数据拷贝功能)。

上述本发明实施例中图1的方法可以应用图5所示的数据同步的集群节点来实现。节点500包括处理器501，存储器502和收发器503。处理器501控制设备500的操作。存储器502可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失行随机存取存储器(NVRAM)。处理器501，存储器502，收发器503通过总线***510耦合在一起，其中总线***510除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线***510。

其中，处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。处理器501可以是通用处理器，包括CPU(中央处理器，Central Processing Unit)、NP(网络处理器，Network Processor)等；还可以是DSP(数字信号处理器，Digital SignalProcessing)、ASIC(专用集成电路，Application Specific Integrated Circuit)、FPGA(现成可编程门阵列，Field Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

类似地，图2的方法可以应用图6所示的生成源数据的集群节点来实现。节点600包括处理器601，存储器602和收发器603。处理器601控制设备600的操作。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。对于图6所示的设备功能可以参考图5的描述，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元/模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元/模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

另外，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一个单元/模块中。

所述功能如果以软件功能的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据同步方法，其特征在于，所述方法应用于涉及PB级大数据的分布式***的数据同步的目标集群节点中，包括：

所述目标集群节点在生成源数据的集群节点上对所述源数据的完整性进行验证；当通过对所述生成源数据的集群节点进行轮询，获取到完整标记时，验证所述源数据为完整的，所述完整标记是由所述生成源数据的集群节点在所述源数据生成完成之后产生的；

若验证所述源数据为完整的，则所述目标集群节点获取所述源数据；

所述目标集群节点根据所述源数据对数据表进行更新；

根据所述源数据对数据表进行更新之前，所述方法还包括对所述源数据进行过滤，以过滤掉无效数据；具体包括对源数据进行校验，排除不符合指定压缩格式的文件；

其中所述源数据为完整的表示所述生成源数据的集群节点已完成生成所述源数据的过程，所述数据表用于记录所述源数据的元信息。

2.根据权利要求1所述的方法，其特征在于，所述在生成源数据的集群节点上对所述源数据的完整性进行验证，包括：

当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的。

3.根据权利要求2所述的方法，其特征在于，所述当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的，包括：

多次检测所述源数据的大小，每次间隔一定的时间，所述预定的时间范围是指首次与最后一次检测所述源数据的大小的时间间隔；

如果多次检测到的所述源数据的大小都是一致的，则表示所述源数据的大小在预定的时间范围内没有改变，验证所述源数据为完整的。

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述获取所述源数据之后，所述方法还包括：

分区创建所述源数据的表结构，所述表结构记录了从所述生成源数据的集群节点到目标集群节点上的存储位置的映射关系，所述目标集群节点指的是获取所述源数据的集群节点。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述数据表采用全量表，时间分区表或拉链表的形式。

6.一种数据同步的目标集群节点，其特征在于，所述目标集群节点为涉及PB级大数据的分布式***中的节点，包括：

验证模块，用于在生成源数据的集群节点上对所述源数据的完整性进行验证；当通过对所述生成源数据的集群节点进行轮询，获取到完整标记时，验证所述源数据为完整的，所述完整标记是由所述生成源数据的集群节点在所述源数据生成完成之后产生的；

获取模块，用于若所述验证模块验证所述源数据为完整的，则获取所述源数据；

更新模块，用于根据所述获取模块获取的所述源数据对数据表进行更新；所述更新模块还用于：对所述源数据进行过滤，以过滤掉无效数据；具体包括对源数据进行校验，排除不符合指定压缩格式的文件；

7.根据权利要求6所述的目标集群节点，其特征在于，

所述验证模块具体用于：当所述源数据的大小在预定的时间范围内没有改变时，验证所述源数据为完整的。

8.根据权利要求7所述的目标集群节点，其特征在于，

所述验证模块具体用于：多次检测所述源数据的大小，每次间隔一定的时间，如果多次检测到的所述源数据的大小都是一致的，则表示所述源数据的大小在预定的时间范围内没有改变，验证所述源数据为完整的，其中所述预定的时间范围是指首次与最后一次检测所述源数据的大小的时间间隔。

9.根据权利要求6-8任一项所述的目标集群节点，其特征在于，所述集群节点还包括：

创建模块，用于分区创建所述源数据的表结构，所述表结构记录了从所述生成源数据的集群节点到目标集群节点上的存储位置的映射关系，所述目标集群节点指的是获取所述源数据的集群节点。

10.一种计算机可读存储介质，所述存储介质中存储有指令信息，计算机读取所述指令信息后可执行权利要求1-5任一项所述的数据同步方法。

11.一种电子设备，包括至少一个处理器和至少一个存储器，至少一个所述存储器中存储有指令信息，至少一个所述处理器读取所述指令信息后可执行权利要求1-5任一项所述的数据同步方法。