CN107577787B

CN107577787B - 关联数据信息入库的方法及***

Info

Publication number: CN107577787B
Application number: CN201710833443.2A
Authority: CN
Inventors: 陈炳标
Original assignee: Guangdong Infinite Information Technology Co Ltd
Current assignee: Guangdong Infinite Information Technology Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2020-02-07
Anticipated expiration: 2037-09-15
Also published as: CN107577787A

Abstract

本发明涉及关联数据信息入库的方法及***。所述方法包括：获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；其中，所述ID表、类型表均为预先建立的key‑value表。本发明能够解决关联数据信息入库的效率低的问题。

Description

关联数据信息入库的方法及***

技术领域

本发明涉及数据库技术领域，特别是涉及关联数据信息入库的方法、***、存储介质及计算机设备。

背景技术

在数据库中，当存在多个关联标识信息时，例如个人存在多种身份关联的时候，需要处理连通图。传统的数据库在保存连通图的时候，需要做大量的多表关联操作，导致关联数据信息入库的效率低下。

发明内容

基于此，本发明提供了关联数据信息入库的方法及***，能够解决关联数据信息入库的效率低的问题。

本发明方案包括：

一种关联数据信息入库的方法，包括：

获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；

遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；

根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；

其中，所述ID表、类型表均为预先建立的key-value表；所述ID表全局唯一，用于保存各用户以及每个用户关联的所有数据信息；所述类型表与ID表包含的数据类型一一对应。

一种关联数据信息入库的***，包括：

数据识别模块，用于获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；

查询模块，用于遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；

数据入库模块，用于根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述方法的步骤.

上述技术方案，获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；其中，所述ID表、类型表均为预先建立的key-value表；所述ID表全局唯一，用于保存各用户以及每个用户关联的所有数据信息；所述类型表与ID表包含的数据类型一一对应。

附图说明

图1为一实施例的关联数据信息入库的方法的示意性流程图；

图2为一实施例的关联数据信息入库的方法的应用场景图；

图3为另一实施例的关联数据信息入库的方法的应用场景图；

图4为一实施例的关联数据信息入库的***的示意性结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。

图1为一实施例的关联数据信息入库的方法的示意性流程图。如图1所示，所述关联数据信息入库的方法包括步骤：

S11，获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；

其中，所述多个数据信息指的是需要关联到同一用户的数据信息。可选地，待入库的多个数据信息的数据类型包括：邮箱、电话号码、社交账号中的至少一种。

S12，遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；

S13，根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；

其中，所述ID表、类型表均为预先建立的key-value表；所述ID表全局唯一(即在所在的数据库中唯一)，用于保存各用户以及每个用户关联的所有数据信息；所述类型表与ID表包含的数据类型一一对应，即一种类型的数据信息对应一个类型表，例如，邮箱类型的数据信息对应一个类型表，电话号码类型的数据信息对应另一个类型表。

在key-value表中，最基本的单位是列(column)，一列或者多列组成一行(row)，并且由唯一的行键(row key)来确定存储。一个key-value表中有很多行，每一列可能有多个版本，在每一个单元格(Cell)中存储了不同的值；行键是唯一的，在一个key-value表里只出现一次，否则就是在更新同一行。

一行由若干列组成，其中的某些列又可以构成一个列族(column family)，一个列族的所有列存储在同一个底层的存储文件里。列族需要在创建表的时候就定义好，数量也不宜过多。列族名由可打印字符组成，创建表的时候不需要定义好列。同一个列族里qualifier(即列名)的名称应该唯一，否则就是在更新同一列，列的数量没有限制。列值也没有类型和长度限定。

需要说明的是，上述实施例的入库所针对的数据库为key-value类型的数据库，例如HBase、Cassandra、Dynamic等。

在一实施例中，在所述ID表中的，Rowkey为用户ID，列簇包括数据信息和权重。在所述类型表中的，Rowkey为数据信息，列簇包括用户ID和权重。

在一具体情形下，在用户身份标识信息的数据库中，ID表全局只存在一个，保存一个用户的所有身份标识，表名可为icid，类型表存在多个，一种类型的身份标识信息就会有一个表记录相关信息，表名可为：icid_email(email可以为其他身份标识)，保存身份标识对应的用户ID。对应地，所述ID表、类型表可分别参见表1、表2所示：

表1：

表2：

进一步地，在根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户之后，还包括：获取所述ID表和类型表的更新信息，将所述更新信息写入对应的更改历史表。其中，所述更改历史表为预先建立的key-value表，所述更改历史表与ID表包含的数据类型一一对应，即数据库中，更改历史表的数量与类型表的数量一致。

在一实施例中，所述更改历史表中，Rowkey为第一数据信息，列簇包括与所述第一数据信息关联的第二数据信息和权重。在上述具体情形下，通过更改历史表用于记录下用户身份信息的关联修改历史，一种身份标识类型就有一个更改历史表，表名可为：icid_email_his(email可以为其他身份标识)，例如表3所示。

表3：

在一实施例中，若所述数据信息包括第一数据信息和第二数据信息，且第一数据信息、第二数据信息分别对应第一类型表、第二类型表；则上述步骤S13中，根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户，具体实现方式可包括：

若第一类型表中包含有第一数据信息的记录，第二类型表中包含有第二数据信息的记录，则识别第一类型表中对应记录的第一用户ID，识别第二类型表中对应记录的第二用户ID，检测所述第一用户ID、第二用户ID是否一致，若不一致，将所述ID表中第二用户ID对应的列数据存储到第一用户ID对应的列中，删除ID表中原第二用户ID对应的记录，以及将所述第二类型表中第二用户ID更改为第一用户ID；

若第一类型表中包含有第一数据信息的记录，第二类型表中不包含有第二数据信息的记录，则识别第一类型表中对应记录的第一用户ID，将所述第二数据信息存储到所述ID表中第一用户ID对应的列，以及在所述第二类型表中增加所述第二数据信息以及第一用户ID关联关系的记录；

若第一类型表中不包含有第一数据信息的记录，第二类型表中包含有第二数据信息的记录，则识别第二类型表中对应记录的第二用户ID，将所述第一数据信息存储到所述ID表中第二用户ID对应的列，以及在所述第一类型表中增加所述第一数据信息以及第二用户ID关联关系的记录；

若第一类型表中不包含有第一数据信息的记录，第二类型表中也不包含有第二数据信息的记录，则在所述ID表中增加一个新用户ID的记录，将所述第一数据信息和第二数据信息存储到新用户ID对应的列中，以及在所述第一类型表中增加所述第一数据信息以及所述新用户ID关联关系的记录，以及在所述第二类型表中增加所述第二数据信息以及所述新用户ID关联关系的记录。

参考图2所示，当用户需要的关联入库的数据信息包括邮箱信息[email protected]和手机号码信息139****0101，所述邮箱信息、手机号码信息分别对应邮箱表、手机表；并且所述邮箱信息[email protected]和手机号码信息139****0101均需要被关联到的用户ID为X。那么，根据所述邮箱信息和手机号码信息遍历邮箱表、手机表，

若邮箱表中包含有[email protected]的记录，手机表中包含有139****0101的记录，识别邮箱表中对应记录的第一用户ID，识别手机表中对应记录的第二用户ID，检测所述第一用户ID、第二用户ID是否一致，若第一用户ID为X，第二用户ID不为X，为Y，将所述ID表中Y对应的列数据存储到X对应的列中，删除ID表中原Y对应的记录，以及将所述手机表中的Y更改为X；

若邮箱表中包含有[email protected]的记录，手机表中没有139****0101的记录，识别邮箱表中对应记录的第一用户ID，若为X，则将所述139****0101存储到所述ID表中X对应的列，以及在所述手机表中增加139****0101以及X关联关系的记录；若第一用户ID不为X(例如为Z)，则需更改用户ID，将邮箱表中的Z更改为X，并将ID表中的Z更改为X，并在X对应的列中增加所述139****0101信息。此外，还可在更改历史表中增加一行，记录[email protected]与139****0101关联信息，以及关联信息建立的时间戳。

若邮箱表中没有[email protected]的记录，手机表中包含有139****0101的记录，识别手机表中对应记录的第二用户ID，若为X，将[email protected]存储到所述ID表中X对应的列，以及在所述邮箱表中增加[email protected]以及X关联关系的记录；若第二用户ID不为X(例如为Y)，则需更改用户ID，将手机表中的Y更改为X，并将ID表中的Y更改为X，并在X对应的列中增加所述[email protected]信息。此外，还可在更改历史表中增加一行，记录139****0101与[email protected]关联信息，以及关联信息建立的时间戳。

若邮箱表中没有[email protected]的记录，手机表中也没有139****0101的记录，则在所述ID表中增加一个新用户ID(即X)的记录，将所述[email protected]和139****0101存储到新用户ID对应的列中，以及在所述邮箱表中增加[email protected]与X关联关系的记录，以及在所述手机表中增加139****0101与X关联关系的记录。此外，还可在更改历史表中增加一行，记录139****0101与[email protected]关联信息，以及关联信息建立的时间戳。

如图2流程可以达到快速将关联数据入库的目的，在测试环境中，1秒可以入库260条匹配关系。进一步的，还可将上述流程加于优化，采用批处理方式，降低通讯成本，流程优化中，在遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录之后，还包括：创建第一队列、第二队列以及更改队列，将存储查询到的第一数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第一队列；将查询到的第二数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第二队列；将待更改的用户ID信息批量存储到预先建立的更改队列；通过所述第一队列、第二队列和/或更改队列更新所述ID表和类型表。具体优化流程可参考图3所示，包括步骤：

批量获取待入库的邮箱信息及对应的Uuid，批量获取待入库的手机信息对应的Uuid；创建第一队列、第二队列以及更改队列；将邮箱信息及对应的Uuid缓存到第一队列，将手机信息对应的Uuid缓存到第二队列；按照图2所示的流程遍历邮箱表和手机表；确定是否需要用户ID变更？若否，根据所述第一队列、第二队列对邮箱表、手机表以及ID表进行更新；若是，将需要变更的用户ID信息缓存到更改队列，根据所述第一队列、第二队列以及更改队列对邮箱表、手机表以及ID表进行更新。

优化后，同样的环境中，1秒可以入库5000条匹配关系，提高效率近20倍。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

通过上述实施例中的关联数据信息入库的方法，使用key-value方式来存放连通图的方法，改进了关联数据信息入库的速度，使速度得到了几十倍，并且可以提供历史操作查询。

基于与上述实施例中的关联数据信息入库的方法相同的思想，本发明还提供关联数据信息入库的***，该***可用于执行上述关联数据信息入库的方法。为了便于说明，关联数据信息入库的***实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

图4为本发明一实施例的关联数据信息入库的***的示意性结构图。如图4所示，所述关联数据信息入库的***包括：

数据识别模块410，用于获取待关联到同一用户的多个数据信息，识别各数据信息的数据类型，确定各数据类型对应的类型表；所述多个数据信息关联同一用户；

查询模块420，用于遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录；

数据入库模块430，用于根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户；

在一实施例中，在所述类型表中的，Rowkey为数据信息，列簇包括用户ID和权重；在更改历史表中的，Rowkey为第一数据信息，列簇包括与所述第一数据信息关联的第二数据信息和权重。

在一实施例中，所述关联数据信息入库的***还包括：

更改记录模块，用于获取所述ID表和类型表的更新信息，将所述更新信息写入对应的更改历史表；

其中，所述更改历史表为预先建立的key-value表，所述更改历史表与ID表包含的数据类型一一对应。在所述ID表中的，Rowkey为用户ID，列簇包括数据信息和权重；

在一实施例中，若所述数据信息包括第一数据信息和第二数据信息，且第一数据信息、第二数据信息分别对应第一类型表、第二类型表；则数据入库模块430，用于：若第一类型表中包含有第一数据信息的记录，第二类型表中包含有第二数据信息的记录，则识别第一类型表中对应记录的第一用户ID，识别第二类型表中对应记录的第二用户ID，检测所述第一用户ID、第二用户ID是否一致，若不一致，将所述ID表中第二用户ID对应的列数据存储到第一用户ID对应的列中，删除ID表中原第二用户ID对应的记录，以及将所述第二类型表中第二用户ID更改为第一用户ID；

在一实施例中，数据入库模块430包括队列管理单元，用于将存储查询到的第一数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第一队列；将查询到的第二数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第二队列；将待更改的用户ID信息批量存储到预先建立的更改队列；所述数据入库模块430通过所述第一队列、第二队列和/或更改队列更新所述ID表和类型表。

需要说明的是，上述示例的关联数据信息入库的***的实施方式中，各模块/单元之间的信息交互、执行过程等内容，由于与本发明前述方法实施例基于同一构思，其带来的技术效果与本发明前述方法实施例相同，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

此外，上述示例的关联数据信息入库的***的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述关联数据信息入库的***的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，作为独立的产品销售或使用。所述程序在执行时，可执行如上述各方法的实施例的全部或部分步骤。此外，所述存储介质还可设置于一种计算机设备中，所述计算机设备中还包括处理器，所述处理器执行所述存储介质中的程序时，能够实现上述各方法的实施例的全部或部分步骤。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。可以理解，其中所使用的术语“第一”、“第二”等在本文中用于区分对象，但这些对象不受这些术语限制。

以上所述实施例仅表达了本发明的几种实施方式，不能理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种关联数据信息入库的方法，其特征在于，包括：

获取所述ID表和类型表的更新信息，将所述更新信息写入对应的更改历史表；

其中，所述ID表、类型表均为预先建立的key-value表；所述ID表全局唯一，用于保存各用户以及每个用户关联的所有数据信息；所述类型表与ID表包含的数据类型一一对应；

其中，所述更改历史表为预先建立的key-value表，所述更改历史表与ID表包含的数据类型一一对应；在更改历史表中，Rowkey为第一数据信息，列簇包括与所述第一数据信息关联的第二数据信息和权重。

2.根据权利要求1所述的关联数据信息入库的方法，其特征在于，

在所述ID表中的，Rowkey为用户ID，列簇包括数据信息和权重；

在所述类型表中的，Rowkey为数据信息，列簇包括用户ID和权重。

3.根据权利要求1或2所述的关联数据信息入库的方法，其特征在于，若所述数据信息包括第一数据信息和第二数据信息，且第一数据信息、第二数据信息的数据类型分别对应第一类型表、第二类型表；

所述根据查询结果更新预设的ID表和类型表，使得更新后的ID表和类型表中，所述多个数据信息关联到所述同一用户，包括：

若第一类型表中包含有第一数据信息的记录，第二类型表中包含有第二数据信息的记录；识别第一类型表中对应记录的第一用户ID，识别第二类型表中对应记录的第二用户ID；若第一用户ID、第二用户ID不一致，将所述ID表中第二用户ID对应的列数据存储到第一用户ID对应的列中，删除ID表中原第二用户ID对应的记录，以及将所述第二类型表中第二用户ID更改为第一用户ID；

若第一类型表中包含有第一数据信息的记录，第二类型表中不包含第二数据信息的记录，识别第一类型表中对应记录的第一用户ID；将所述第二数据信息存储到所述ID表中第一用户ID对应的列，以及在所述第二类型表中增加所述第二数据信息与第一用户ID关联关系的记录；

若第一类型表中不包含第一数据信息的记录，第二类型表中包含有第二数据信息的记录，识别第二类型表中对应记录的第二用户ID，将所述第一数据信息存储到所述ID表中第二用户ID对应的列，以及在所述第一类型表中增加所述第一数据信息与第二用户ID关联关系的记录；

若第一类型表中不包含第一数据信息的记录，第二类型表中也不包含第二数据信息的记录，在所述ID表中增加一个新用户ID的记录，将所述第一数据信息和第二数据信息存储到新用户ID对应的列中，以及在所述第一类型表中增加所述第一数据信息与所述新用户ID关联关系的记录，以及在所述第二类型表中增加所述第二数据信息与所述新用户ID关联关系的记录。

4.根据权利要求3所述的关联数据信息入库的方法，其特征在于，遍历对应的类型表，查询各类型表中是否包含有对应类型的待关联的数据信息的记录之后，还包括：

将存储查询到的第一数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第一队列；

将查询到的第二数据类型的数据信息及其关联的用户ID信息批量存储到预先建立的第二队列；

将待更改的用户ID信息批量存储到预先建立的更改队列；

通过所述第一队列、第二队列和/或更改队列更新所述ID表和类型表。

5.根据权利要求1所述的关联数据信息入库的方法，其特征在于，待入库的多个数据信息的数据类型包括：邮箱、电话号码、社交账号中的至少一种。

6.一种关联数据信息入库的***，其特征在于，包括：

其中，所述更改历史表为预先建立的key-value表，所述更改历史表与ID表包含的数据类型一一对应；

所述更改历史表为预先建立的key-value表，所述更改历史表与ID表包含的数据类型一一对应；在更改历史表中的，Rowkey为第一数据信息，列簇包括与所述第一数据信息关联的第二数据信息和权重。

7.根据权利要求6所述的关联数据信息入库的***，其特征在于，还包括：

在所述ID表中的，Rowkey为用户ID，列簇包括数据信息和权重；

8.根据权利要求6所述的关联数据信息入库的***，其特征在于，若所述数据信息包括第一数据信息和第二数据信息，且第一数据信息、第二数据信息的数据类型分别对应第一类型表、第二类型表；

所述数据入库模块具体用于：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任一所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一所述方法的步骤。