CN113468187B

CN113468187B - 多方数据整合方法、装置、计算机设备和存储介质

Info

Publication number: CN113468187B
Application number: CN202111025298.8A
Authority: CN
Inventors: 潘玉婷; 姚兴泉
Original assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Current assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-23
Anticipated expiration: 2041-09-02
Also published as: CN113468187A

Abstract

本申请涉及一种多方数据整合方法、装置、计算机设备和存储介质。所述方法包括：获取多方数据；识别所述多方数据的更新时间和存储位置；根据所述存储位置确定分区索引号以及分区数；根据所述分区数以及所述分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；根据所述更新时间和所述初始标识生成每一分区内的每一条记录的序列号。采用本方法能够保证整合后数据准确性。

Description

多方数据整合方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种多方数据整合方法、装置、计算机设备和存储介质。

背景技术

在企业信息化中，企业发展到一定阶段，出现多个事业部，每个事业部都有各自数据，事业部之间的数据往往都各自存储，各自定义。每个事业部的数据就像一个个孤岛一样无法（或者极其困难）和企业内部的其他数据进行连接互动，就会造成“数据孤岛”。

传统技术中，简单地使用用户单一信息，如数据中的cookie或者身份证号等个人信息，在全域范围识别出同一用户数据，给其唯一ID。

然而，无法识别到部分信息缺失的客户数据，也无法排除部分信息不真实数据，从而导致整合后的数据存在错误。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证整合后数据准确性的多方数据整合方法、装置、计算机设备和存储介质。

一种多方数据整合方法，所述方法包括：

获取多方数据；

识别所述多方数据的更新时间和存储位置；

根据所述存储位置确定分区索引号以及分区数；

根据所述分区数以及所述分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；

根据所述更新时间和所述初始标识生成每一分区内的每一条记录的序列号。

在其中一个实施例中，所述获取多方数据之后，还包括：

获取至少一个预设字段；

将所述多方数据中所述预设字段的字段值进行比较，得到所述预设字段的字段值相同的记录；

将所述预设字段的字段值相同的记录进行合并。

在其中一个实施例中，所述获取多方数据之后，还包括：

对所述多方数据中的各个字段进行字段校验，以删除校验失败的记录。

在其中一个实施例中，所述方法还包括：

获取新增记录以及所述新增记录的更新时间和存储位置；

根据所述存储位置确定对应分区的最后一条记录的序列号的初始标识；

根据所述最后一条记录的序列号的初始标识计算得到所述新增记录的初始标识；

根据所述更新时间和所述新增记录的初始标识计算得到新增记录的序列号。

在其中一个实施例中，所述方法还包括：

获取更新记录；

根据所述更新记录对应的主键确定对应的原始记录；

获取所述更新记录的更新时间和存储位置，并生成更新序列号，通过所述更新序列号替换所述原始记录的原始序列号。

在其中一个实施例中，所述根据所述更新时间和所述初始标识生成每一分区内的每一条记录的序列号之后，包括：

通过至少一条规则对所述记录进行匹配；

获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号。

在其中一个实施例中，所述获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号，包括：

获取执行完当前规则后序列号发生变化的待处理记录；

根据上一规则执行完成后所得到的序列号对所述待处理记录进行聚合得到目标关联关系；

将所述目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配；

若匹配成功，则根据匹配成功的上一规则执行完成后的序列号与聚合后的当前序列号更新所述目标关联关系，并继续将更新后的所述目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配，直至所述目标关联关系中不存在匹配的上一规则执行完成后的序列号与聚合后的当前序列号；

通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理。

在其中一个实施例中，所述根据上一规则执行完成后所得到的序列号对所述待处理记录进行聚合得到目标关联关系，包括：

获取上一规则执行完成后所得到的序列号相同的记录，获取所获取的记录的对应的当前规则执行完后的序列号的最小值；

将所获取的记录进行聚合，且聚合后的序列号为所述最小值。

在其中一个实施例中，所述通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理，包括：

将执行完当前规则后的各条记录的序列号与所述目标关联关系中的上一规则执行完成后所得到的序列号进行匹配；

当匹配成功时，则获取所述目标关联关系中的匹配成功的上一规则执行完成后所得到的序列号对应的聚合后的当前序列号，通过所述聚合后的当前序列号更新匹配成功的执行完当前规则后的记录的序列号。

一种多方数据整合装置，所述装置包括：

数据获取模块，用于获取多方数据；

识别模块，用于识别所述多方数据的更新时间和存储位置；

确定模块，用于根据所述存储位置确定分区索引号以及分区数；

初始标识生成模块，用于根据所述分区数以及所述分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；

序列号生成模块，用于根据所述更新时间和所述初始标识生成每一分区内的每一条记录的序列号。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述多方数据整合方法、装置、计算机设备和存储介质，即使多方数据中存在重复的数据，其也是单独的序列号，并不会导致数据混乱，很大程度解决了利用单一信息打通数据存在的不全面和不可靠问题，有效数据打通的质量，且缓解了数据录入错误和不严格的问题；克服了利用第三方组件生成唯一序列号的弊端，大大提高了运行效率，且合理解决了增量序列号生成问题。

附图说明

图1为一个实施例中多方数据整合方法的应用环境图；

图2为一个实施例中多方数据整合方法的流程示意图；

图3为一个实施例中的每一条记录的序列号的示意图；

图4为一个实施例中规则一处理后的示意图；

图5为一个实施例中规则二处理后的示意图；

图6为一个实施例中的序列号修正的流程示意图；

图7为一个实施例中序列号发生变化的示意图；

图8为一个实施例中序列号变化的演变图；

图9为一个实施例中聚合后的序列号的示意图；

图10为一个实施例中修正后的序列号的示意图；

图11为另一个实施例中多方数据整合方法的流程示意图；

图12为一个实施例中多方数据整合装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的多方数据整合方法，可以应用于如图1所示的应用环境中。其中，数据库102通过网络与服务器104进行通信，服务器104从数据库102中获取多方数据，并识别多方数据的更新时间和存储位置；从而服务器104可以根据存储位置确定分区索引号以及分区数；根据分区数以及分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；根据更新时间和初始标识生成每一分区内的每一条记录的序列号，这样即使多方数据中存在重复的数据，其也是单独的序列号，并不会导致数据混乱，很大程度解决了利用单一信息打通数据存在的不全面和不可靠问题，有效数据打通的质量，且缓解了数据录入错误和不严格的问题；克服了利用第三方组件生成唯一序列号的弊端，大大提高了运行效率，且合理解决了增量序列号生成问题。

其中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种多方数据整合方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取多方数据。

具体地，多方数据是指不同的来源的数据，例如不同事业部/不同***之间的数据，其中，服务器先从数据库中获取到多方数据，并将多方数据提取到一张表中，以客户信息为例，服务器将不同***不同表的客户信息（姓名，身份证号，手机号，银行***，微信号，合同号，表编号，表主键）提取整合到同一张表中。表结构字段如下：

S204：识别多方数据的更新时间和存储位置。

具体地，更新时间是指多方数据存储时间，存储位置是指多方数据所对应的不同事业部/不同***，其中不同事业部/不同***在数据表中存储在不同的分区，每个分区都有各自的索引号。从而获取到存储位置也即获取到对应的多方数据的分区的索引号。

S206：根据存储位置确定分区索引号以及分区数。

具体地，分区索引号可以是指不同的分区的标识，例如可以是1、2、3...，分区内的每条记录也有在分区中唯一识别的1、2、3...。分区数即所有的分区的数量，该分区数用于形成等差数列，以保证后续生成的序列号的唯一性。

S208：根据分区数以及分区索引号按照等差数列生成每一分区内的每一条记录的初始标识。

S210：根据更新时间和初始标识生成每一分区内的每一条记录的序列号。

具体地，为多方数据打上全局唯一的初始化序列号，初始序列号的规则结构：时间前缀-位置后缀。时间前缀为多方数据处理时的日期yyyymmdd，如20210101，也可用时间戳；在分布式环境中，数据存放在不同分区上，每个分区都有唯一的索引号：1、2、3...，分区内的每条数据也有在分区中唯一识别的1、2、3...。

后缀生成算法则是，每个分区中第一个元素的唯一ID值为：该分区索引号，每个分区中第N个元素的唯一ID值为：（前一个元素的唯一ID值）+（该RDD总的分区数）。

例如，假设总分区数为2，则第一个分区第一个元素ID为0，第二个分区第一个元素ID为1。第一个分区第二个元素ID为0+2=2，第一个分区第三个元素ID为2+2=4。第二个分区第二个元素ID为1+2=3，第二个分区第三个元素ID为3+2=5。

具体地可以参见图3所示，图3为一个实施例中的每一条记录的序列号的示意图，但需要说明的是在实际应用中记录的数量更多，本实施例中仅以该7条数据为例进行说明。这样利用等差数列特性，根据时间和数据在分布式环境中的位置快速生成海量唯一序列号，并解决唯一序列号增长问题唯一序列号可分为两部分，以处理时间作为序列号前缀，作为生成序列号的批次，在分布式环境中，数据在不同分区中，利用分区索引号和数据在该分区中的索引号，构成唯一序列号的后缀。可实现在分布式环境中的并发处理，效率非常高。

上述实施例中，即使多方数据中存在重复的数据，其也是单独的序列号，并不会导致数据混乱，很大程度解决了利用单一信息打通数据存在的不全面和不可靠问题，有效数据打通的质量，且缓解了数据录入错误和不严格的问题；克服了利用第三方组件生成唯一序列号的弊端，大大提高了运行效率，且合理解决了增量序列号生成问题。

在其中一个实施例中，获取多方数据之后，还包括：获取至少一个预设字段；将多方数据中预设字段的字段值进行比较，得到预设字段的字段值相同的记录；将预设字段的字段值相同的记录进行合并。

在该实施例中，为了减少数据的规模，利用数据信息内容一致特性，减小需处理的数据规模。例如当数据的姓名、身份证号、手机号、银行***以及微信号相同，则将该些记录合并为一条，并将其他数据聚合成一个字段，可有效降低需处理的数据规模，明显提高数据处理效率，同时，在后续分配全局唯一序列号时，亦可缩短数据量和时间。

需要说明的是在该实施例中预设字段设置为姓名、身份证号、手机号、银行***以及微信号，在其他的实施例中，服务器可以根据需要来设置预设字段，通过预设字段来对记录进行合并，以减少数据处理量。其中预设字段可以是需要用户重点关注的字段。

在其中一个实施例中，获取多方数据之后，还包括：对多方数据中的各个字段进行字段校验，以删除校验失败的记录。

具体地，在该实施例中为了提高数据的质量，可以对对应的字段进行校验，其中校验的规则可以是用户预先设置的，例如对姓名，身份证号，手机号，银行***进行数据清洗可以是根据身份证编码和验证规则对身份证号字段进行校验，不符合规则的假数据置空；剔除姓名中的数字。

上述实施例中，预先对数据进行清洗，保证了数据的质量。

在其中一个实施例中，上述多方数据整合方法还包括：获取新增记录以及新增记录的更新时间和存储位置；根据存储位置确定对应分区的最后一条记录的序列号的初始标识；根据最后一条记录的序列号的初始标识计算得到新增记录的初始标识；根据更新时间和新增记录的初始标识计算得到新增记录的序列号。

具体地，本实施例是针对新增记录的处理，服务器通过向最小序列号靠近的方法，保持已处理数据的序列号不变。每条数据，即记录都会有个唯一初始序列号，在规则匹配成功时，在判定为同一用户的所有初始序列号中，取最小序列号，作为这些数据的新序列号。同时，因为新增数据唯一序列号始终大于旧数据序列号，所以，和旧数据匹配上的新增数据会获得旧数据的序列号，由此保证了已处理数据的序列号不变。也就是说针对新增数据先按照更新时间和新增记录的初始标识计算得到新增记录的序列号，然后与旧数据进行合并，以保证已处理数据的序列号不变。

在其中一个实施例中，上述多方数据整合方法还包括：获取更新记录；根据更新记录对应的主键确定对应的原始记录；获取更新记录的更新时间和存储位置，并生成更新序列号，通过更新序列号替换原始记录的原始序列号。

具体地，在该实施例中，通过数据主键解决数据更新问题。在实际中，数据并非一成不变的，会有需要的更新，这就需要解决数据更新后，原先判定不正确的问题。利用主键判断进行数据匹配，当匹配到时，判断数据是否发生更新，如为更新数据，则将原先判定的序列号改为新的初始化序列号，重新进行序列号判定。也就是说在本实施例中，当更新数据匹配上了原始数据后，则计算得到更新数据的序列号，然后再进行序列号合并，关于序列号合并的具体操作可以参见下文。

在其中一个实施例中，根据更新时间和初始标识生成每一分区内的每一条记录的序列号之后，包括：通过至少一条规则对记录进行匹配；获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号。

具体地，规则是为了将相同的数据进行合并，各个规则可以是用户预先设定的，仍以上述客户信息为例进行说明，其可以包括如下规则：姓名前两位和身份证号，姓名和手机号，身份证号和手机号，姓名和银行***，姓名和微信号，手机号和银行***以及手机号和微信号。

服务器可以按照规则的顺序依次进行规则的匹配和序列号的判定，并在判定是相同的记录后，选取最小序列号作为新的序列号，例如假设有两条序列号判定规则，规则1：姓名和身份证号相同的数据，认定为同一用户数据，规则2：身份证号和手机号相同的数据，认定为同一用户数据。具体说明如下：规则匹配环节会按照指定顺序进行规则的匹配，如先进行规则1匹配，再进行规则2匹配；在进行一条规则匹配时，在判定为同一用户的所有初始序列号中，取最小序列号，作为这些数据的新序列号。

具体地，结合图4和图5所示，其中仍以图3中所示的数据为初始数据，先进行规则1匹配，在姓名和身份证号相同的所有数据的初始序列号中，取最小序列号，作为这些数据的新序列号。结合图4，其中初始序列号：20210101-1和初始序列号：20210101-4的姓名和身份证号相同，取（20210101-1，20210101-4）中最小的序列号即20210101-1，作为这些数据的新序列号。同理对于初始序列号：20210101-3和初始序列号：20210101-6。其他数据并不符合规则1，故序列号为初始序列号。

然后服务器执行规则2，即进行规则2匹配，在身份证号和手机号相同的所有数据的初始序列号中，取最小序列号，作为这些数据的新序列号，具体可以参见图5，其中身份证号和手机号相同的初始ID为（20210101-0，20210101-3，20210101-4）和（20210101-2，20210101-5），分别取其中最小的序列号为新序列号，即20210101-0和0210101-2。

上述实施例中，使用多种信息作为认定规则识别同一个用户要求数据中的两个指定信息相同，才认定为同一用户。如要求两条数据中的证件号和手机号信息相同为认定规则，如符合判定规则，才判定这两条数据属于同一用户，打上相同的唯一序列号。此外还使用多条判定规则识别同一用户通过不同规则判定是否为同一用户，只要符合多条规则中的一条，即判定为同一用户。如有两条认定规则：规则1：身份证号+手机号，规则2：姓名+证件号，有三条数据01:（张三，身份证号1，手机号1），02:（身份证号1，手机号1），03:（张三，身份证号1），因为数据01和02符合规则1，数据01和03符合规则2，所以判定这三条数据为同一用户，打上相同的唯一序列号。

在其中一个实施例中，但由该阶段结果可以发现，初始序列号：20210101-1的数据并没有获得正确的序列号，即0210101-0，而是保持了原来的初始序列号，这样产生多条规则匹配时的序列号不一致问题。故需要通过序列号修正，解决该问题。因此，在其中一个实施例中，获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号，包括：

S602：获取执行完当前规则后序列号发生变化的待处理记录。

具体地，序列号发生变化的待处理记录是指当前规则执行完成后，原来的序列号和新的序列号不相同，仍以上述例子进行说明，参见图7，其中部分记录在规则2处理后，序列号发生了变化。

理论上的期望结果是只要符合任意一条规则，即将这些数据判定为同一用户，并使用同一序列号作为标识，但经过两条规则后发现，存在部分符合规则1的数据没有进行如期望的序列号变动，如上例子中，原本根据规则1已经将初始ID为20210101-3和20210101-6判定为同一用户，但经过规则2，仅将初始ID为20210101-0，20210101-3，20210101-4判定为同一用户。因此需要对序列号进行修正，其中根据假言三段论，已知A等于B，B等于C，则A也等于C。

目标期望是所有符合规则的数据都判定为同一个人，即所有涉及到的初始序列号都应归属于同一序列号，即初始序列号为20210101-6和20210101-1的最新序列号都应该判定为20210101-0。

根据上述的初始序列号对应最新序列号的演变过程，用图8表示序列号变化过程，所有数据的初始化序列号最终都是指向了同一个序列号和期望目标一致，所以目标既是这个单向连通图的根结点。为了为每个节点均寻找到根节点，下文详细说明算法实现。

S604：根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系。

具体地，此处的聚合是根据上一规则执行完成后所得到的序列号进行聚合。在其中一个实施例中，根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系，包括：获取上一规则执行完成后所得到的序列号相同的记录，获取所获取的记录的对应的当前规则执行完后的序列号的最小值；将所获取的记录进行聚合，且聚合后的序列号为最小值。也就是说，在上一规则序列号相同时，取出对应的最小序列号，因为序列号选取规则是取最小的，然后获取到最小的序列号后再去重。经过这步，数据会处理成一对一的关系。

其中在实际应用中，可以通过代码调用的方式实现，代码的输入为上一规则执行完成后所得到的序列号以及当前序列号，通过代码处理以根据上一规则执行完成后所得到的序列号进行聚合，并获取聚合的记录中当前序列号最小值，这样，输出一对一的关系，也即上一规则执行完成后所得到的序列号和对应的最小值，具体地可以参见图9所示，图9为聚合后所得到的记录。

S606：将目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配。

S608：若匹配成功，则根据匹配成功的上一规则执行完成后的序列号与聚合后的当前序列号更新目标关联关系，并继续将更新后的目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配，直至目标关联关系中不存在匹配的上一规则执行完成后的序列号与聚合后的当前序列号。

具体地，将聚合后所得到的记录称为

表，判断表中是否存在

字段和上一规则序列号字段相同的值，若是存在，则需要继续进行聚合，以使得最后所得到的每条记录都指向根节点。其中在实际应用中，可以通过代码调用的方式实现，输入为：

表，记

表；

表，记

表；代码处理

，当

的上一规则ID时，取

的上一规则序列号和

的

；反之，取

上一规则序列号和

的

；最后输出：

表，表结构（上一规则序列号，

）。服务器在处理完成后，判断

表是否还可以下探，即判断

表是否存在

字段和上一规则序列号字段相同的值。如果可以，则用

表重复上述步骤；不可以，则进行下一步；修序列号让每条数据都指向根结点，其中可以参见图9所示，在该实施例中，修正后的序列号与图9相同，这是由于这个例子中的上一规则序列号都相同。

S610：通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理。

在其中一个实施例中，通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理，包括：将执行完当前规则后的各条记录的序列号与目标关联关系中的上一规则执行完成后所得到的序列号进行匹配；当匹配成功时，则获取目标关联关系中的匹配成功的上一规则执行完成后所得到的序列号对应的聚合后的当前序列号，通过聚合后的当前序列号更新匹配成功的执行完当前规则后的记录的序列号。

其中，该实施例中主要是对执行完当前规则后的各条记录的序列号进行修正，修正，则上述处理的映射关系，

表，对规则2的结果表（暂称t2表）进行修正，用t2的序列号关联

表的上一规则序列号，当t2的序列号字段和

表的上一规则序列号字段的值相等，则取

表的

值替换t2表对应数据的序列号，具体可以结合图10所示。

上述实施例中，利用单向连通图思想，解决规则解决匹配过程中的序列号变化导致的序列号不一致问题，多规则匹配时，会按顺序根据规则进行匹配，因为信息的不同，在规则一中原本打上同一序列号的某一条数据会因为匹配上规则二而变为另一个序列号，这则需要借用图的思想，这些数据的序列号变化轨迹实际上是个单向连通图，将图中涉及到的数据都打上同一个序列号，即可解决序列号不一致问题。

具体地结合图11所示，本申请中的多方数据整合方法中，首先对多方数据进行处理，包括上述的校验以及合并，然后再进行规则匹配，若是匹配过程中记录的序列号发生了变化，则进行序列号修正，并在修正完成后继续获取下一条规则进行处理，直至所有的规则都遍历完成，则对多方数据整合完成。

应该理解的是，虽然图2和图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种多方数据整合装置，包括：数据获取模块1201、识别模块1202、确定模块1203、初始标识生成模块1204和序列号生成模块1205，其中：

数据获取模块1201，用于获取多方数据；

识别模块1202，用于识别多方数据的更新时间和存储位置；

确定模块1203，用于根据存储位置确定分区索引号以及分区数；

初始标识生成模块1204，用于根据分区数以及分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；

序列号生成模块1205，用于根据更新时间和初始标识生成每一分区内的每一条记录的序列号。

在其中一个实施例中，上述多方数据整合装置还包括：

字段获取模块，用于获取至少一个预设字段；

比较模块，用于将多方数据中预设字段的字段值进行比较，得到预设字段的字段值相同的记录；

合并模块，用于将预设字段的字段值相同的记录进行合并。

在其中一个实施例中，上述多方数据整合装置还包括：

校验模块，用于对多方数据中的各个字段进行字段校验，以删除校验失败的记录。

在其中一个实施例中，上述多方数据整合装置还包括：

新增记录获取模块，用于获取新增记录以及新增记录的更新时间和存储位置；

初始标识计算模块还用于根据存储位置确定对应分区的最后一条记录的序列号的初始标识；根据最后一条记录的序列号的初始标识计算得到新增记录的初始标识；

序列号生成模块1205还用于根据更新时间和新增记录的初始标识计算得到新增记录的序列号。

在其中一个实施例中，上述多方数据整合装置还包括：

更新记录获取模块，用于获取更新记录；

原始记录获取模块，用于根据更新记录对应的主键确定对应的原始记录；

第一更新模块，用于获取更新记录的更新时间和存储位置，并生成更新序列号，通过更新序列号替换原始记录的原始序列号。

在其中一个实施例中，上述多方数据整合装置还包括：

匹配模块，用于通过至少一条规则对记录进行匹配；

第二更新模块，用于获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号。

在其中一个实施例中，上述更新模块包括：

待处理记录获取单元，用于获取执行完当前规则后序列号发生变化的待处理记录；

聚合单元，用于根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系；

匹配单元，用于将目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配；

更新单元，用于若匹配成功，则根据匹配成功的上一规则执行完成后的序列号与聚合后的当前序列号更新目标关联关系，并继续将更新后的目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配，直至目标关联关系中不存在匹配的上一规则执行完成后的序列号与聚合后的当前序列号；

序列号处理单元，用于通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理。

在其中一个实施例中，上述聚合单元包括：

数据获取子单元，用于获取上一规则执行完成后所得到的序列号相同的记录，获取所获取的记录的对应的当前规则执行完后的序列号的最小值；

聚合子单元，用于将所获取的记录进行聚合，且聚合后的序列号为最小值。

在其中一个实施例中，上述序列号处理单元包括：

匹配子单元，用于将执行完当前规则后的各条记录的序列号与目标关联关系中的上一规则执行完成后所得到的序列号进行匹配；

更新子单元，用于当匹配成功时，则获取目标关联关系中的匹配成功的上一规则执行完成后所得到的序列号对应的聚合后的当前序列号，通过聚合后的当前序列号更新匹配成功的执行完当前规则后的记录的序列号。

关于多方数据整合装置的具体限定可以参见上文中对于多方数据整合方法的限定，在此不再赘述。上述多方数据整合装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储多方数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多方数据整合方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取多方数据；识别多方数据的更新时间和存储位置；根据存储位置确定分区索引号以及分区数；根据分区数以及分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；根据更新时间和初始标识生成每一分区内的每一条记录的序列号。

在一个实施例中，处理器执行计算机程序时所实现的获取多方数据之后，还包括：获取至少一个预设字段；将多方数据中预设字段的字段值进行比较，得到预设字段的字段值相同的记录；将预设字段的字段值相同的记录进行合并。

在一个实施例中，处理器执行计算机程序时所实现的获取多方数据之后，还包括：对多方数据中的各个字段进行字段校验，以删除校验失败的记录。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取新增记录以及新增记录的更新时间和存储位置；根据存储位置确定对应分区的最后一条记录的序列号的初始标识；根据最后一条记录的序列号的初始标识计算得到新增记录的初始标识；根据更新时间和新增记录的初始标识计算得到新增记录的序列号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取更新记录；根据更新记录对应的主键确定对应的原始记录；获取更新记录的更新时间和存储位置，并生成更新序列号，通过更新序列号替换原始记录的原始序列号。

在一个实施例中，处理器执行计算机程序时所实现的根据更新时间和初始标识生成每一分区内的每一条记录的序列号之后，包括：通过至少一条规则对记录进行匹配；获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号。

在一个实施例中，处理器执行计算机程序时所实现的获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号，包括：获取执行完当前规则后序列号发生变化的待处理记录；根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系；将目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配；若匹配成功，则根据匹配成功的上一规则执行完成后的序列号与聚合后的当前序列号更新目标关联关系，并继续将更新后的目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配，直至目标关联关系中不存在匹配的上一规则执行完成后的序列号与聚合后的当前序列号；通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理。

在一个实施例中，处理器执行计算机程序时所实现的根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系，包括：获取上一规则执行完成后所得到的序列号相同的记录，获取所获取的记录的对应的当前规则执行完后的序列号的最小值；将所获取的记录进行聚合，且聚合后的序列号为最小值。

在一个实施例中，处理器执行计算机程序时所实现的通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理，包括：将执行完当前规则后的各条记录的序列号与目标关联关系中的上一规则执行完成后所得到的序列号进行匹配；当匹配成功时，则获取目标关联关系中的匹配成功的上一规则执行完成后所得到的序列号对应的聚合后的当前序列号，通过聚合后的当前序列号更新匹配成功的执行完当前规则后的记录的序列号。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取多方数据；识别多方数据的更新时间和存储位置；根据存储位置确定分区索引号以及分区数；根据分区数以及分区索引号按照等差数列生成每一分区内的每一条记录的初始标识；根据更新时间和初始标识生成每一分区内的每一条记录的序列号。

在一个实施例中，计算机程序被处理器执行时所实现的获取多方数据之后，还包括：获取至少一个预设字段；将多方数据中预设字段的字段值进行比较，得到预设字段的字段值相同的记录；将预设字段的字段值相同的记录进行合并。

在一个实施例中，计算机程序被处理器执行时所实现的获取多方数据之后，还包括：对多方数据中的各个字段进行字段校验，以删除校验失败的记录。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取新增记录以及新增记录的更新时间和存储位置；根据存储位置确定对应分区的最后一条记录的序列号的初始标识；根据最后一条记录的序列号的初始标识计算得到新增记录的初始标识；根据更新时间和新增记录的初始标识计算得到新增记录的序列号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取更新记录；根据更新记录对应的主键确定对应的原始记录；获取更新记录的更新时间和存储位置，并生成更新序列号，通过更新序列号替换原始记录的原始序列号。

在一个实施例中，计算机程序被处理器执行时所实现的根据更新时间和初始标识生成每一分区内的每一条记录的序列号之后，包括：通过至少一条规则对记录进行匹配；获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号。

在一个实施例中，计算机程序被处理器执行时所实现的获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号，包括：获取执行完当前规则后序列号发生变化的待处理记录；根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系；将目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配；若匹配成功，则根据匹配成功的上一规则执行完成后的序列号与聚合后的当前序列号更新目标关联关系，并继续将更新后的目标关联关系中的上一规则执行完成后的序列号与聚合后的当前序列号进行匹配，直至目标关联关系中不存在匹配的上一规则执行完成后的序列号与聚合后的当前序列号；通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理。

在一个实施例中，计算机程序被处理器执行时所实现的根据上一规则执行完成后所得到的序列号对待处理记录进行聚合得到目标关联关系，包括：获取上一规则执行完成后所得到的序列号相同的记录，获取所获取的记录的对应的当前规则执行完后的序列号的最小值；将所获取的记录进行聚合，且聚合后的序列号为最小值。

在一个实施例中，计算机程序被处理器执行时所实现的通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理，包括：将执行完当前规则后的各条记录的序列号与目标关联关系中的上一规则执行完成后所得到的序列号进行匹配；当匹配成功时，则获取目标关联关系中的匹配成功的上一规则执行完成后所得到的序列号对应的聚合后的当前序列号，通过聚合后的当前序列号更新匹配成功的执行完当前规则后的记录的序列号。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多方数据整合方法，其特征在于，所述方法包括：

获取多方数据，将多方数据提取到一张表中；

识别所述多方数据的更新时间和存储位置；

根据所述存储位置确定分区索引号以及分区数；

2.根据权利要求1所述的方法，其特征在于，所述获取多方数据之后，还包括：

获取至少一个预设字段；

将所述预设字段的字段值相同的记录进行合并。

3.根据权利要求2所述的方法，其特征在于，所述获取多方数据之后，还包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

获取新增记录以及所述新增记录的更新时间和存储位置；

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

获取更新记录；

根据所述更新记录对应的主键确定对应的原始记录；

6.根据权利要求1至3任意一项所述的方法，其特征在于，所述根据所述更新时间和所述初始标识生成每一分区内的每一条记录的序列号之后，包括：

通过至少一条规则对所述记录进行匹配；

7.根据权利要求6所述的方法，其特征在于，所述获取匹配成功的记录所对应的最小序列号，作为匹配成功的记录的新的序列号，包括：

获取执行完当前规则后序列号发生变化的待处理记录；

8.根据权利要求7所述的方法，其特征在于，所述根据上一规则执行完成后所得到的序列号对所述待处理记录进行聚合得到目标关联关系，包括：

9.根据权利要求7所述的方法，其特征在于，所述通过更新后的目标关联关系对执行完当前规则后的各条记录的序列号进行处理，包括：

10.一种多方数据整合装置，其特征在于，所述装置包括：

数据获取模块，用于获取多方数据，将多方数据提取到一张表中；

识别模块，用于识别所述多方数据的更新时间和存储位置；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。