CN113760907A

CN113760907A - 一种数据库中数据唯一性标识方法

Info

Publication number: CN113760907A
Application number: CN202110883879.9A
Authority: CN
Inventors: 王锦胤; 刘海涛; 史延莹
Original assignee: Zijincheng Credit Investigation Co ltd
Current assignee: Zijincheng Credit Investigation Co ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-12-07

Abstract

本申请公开了一种数据库中数据唯一性标识方法。该方法包括定义数据标识列，包括原始数据字段选取、数据标识字段定义，选取需要判断唯一性的相关列，并新增一个数据标识列；生成数据唯一标识，将选取的列生成数据唯一性标识，并将生成结果存储于新增的标识列中备用；判断数据唯一性，通过生成的唯一性标识列与库中已存在数据的唯一性标识列进行对，存在相同唯一性标识则认为存在相同数据，不存在则认为没有相同数据；存在相同数据时，根据业务场景需要，对重复数据进行相关处理；不存在相同数据时，则将新数据入库并添加数据初始版本标识。本申请解决了只能保持数据记录本身的唯一性，无法有效识别所记录数据内容的唯一性的技术问题。

Description

一种数据库中数据唯一性标识方法

技术领域

本申请涉及前端开发领域，具体而言，涉及一种数据库中数据唯一性标识方法。

背景技术

当前数据唯一性标识的方式主要有：数字序号、通用唯一识别码(UUID，Universally Unique Identifier)、全局唯一标识符(GUID，Globally UniqueIdentifier)、时间戳等方式。

目前，市场上现有技术的缺点：

只能保持数据记录本身的唯一性，无法有效识别所记录数据内容的唯一性。

针对相关技术中无法有效识别所记录数据内容的唯一性的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种数据库中数据唯一性标识方法，以解决上述问题。

为了实现上述目的，根据本申请的一个方面，提供了一种数据库中数据唯一性标识方法。

根据本申请的数据库中数据唯一性标识方法包括：

定义数据标识列，需要选取需要判断唯一性的相关列，并新增一个数据标识列；

生成数据唯一性标识，并将生成结果存储于新增的标识列中备用；

判断数据唯一性，通过唯一性标识列与库中已存在数据的唯一性标识列进行对比；

判断为存在相同唯一性标识时，根据业务场景需要，对重复数据进行相关处理；

判断为不存在相同唯一性标识时，则将新数据入库并添加数据初始版本标识。

进一步的，所述定义数据标识列，具体包括：

原始数据字段选取；

数据标识字段定义。

进一步的，所述原始数据字段选取为选取需要区分数据唯一性的数据列，根据具体业务场景不同可以选取一个字段、多个字段、或全部字段。

进一步的，所述数据标识字段定义，用于存储数据标识计算结果。

进一步的，所述生成数据唯一标识的具体步骤包括：

将选取的各字段序列化为字符串；

根据字段名对选取的各字进行排序；

按排序结果，将序列化字符串进行拼接组合；

对生成的排序结果进行哈希计算，计算结果做为数据唯一标识。

进一步的，所述判断数据唯一性，存在相同唯一性标识则认为存在相同数据，不存在则认为没有相同数据。

进一步的，所述判断为存在相同唯一性标识时，根据业务场景需要，对重复数据进行相关处理，具体包括：

需要保留时，根据需要入库并更新数据版本标识；

不需要保留时，则舍弃数据。

在本申请实施例中，采用定义数据标识列的方式，通过生成数据唯一标识，并将生成结果存储于新增的标识列中备用，与库中已存在数据的唯一性标识列进行对比，判断为存在相同唯一性标识时，根据业务场景需要，对重复数据进行相关处理，反之则将新数据入库并添加数据初始版本标识，实现了与现有数据库数据标识(ID)技术完成兼容，应用场景广泛，高效且节省资源的技术效果，进而解决了现有技术不能有效识别所记录数据内容的唯一性的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的数据库中数据唯一性标识方法的流程图；

图2是根据本申请实施例的生成数据唯一性标识的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，如图1所示，提供了一种数据库中数据唯一性标识方法，该方法包括如下的步骤：

定义数据标识列，需要选取需要判断唯一性的相关列，并新增一个数据标识列，具体包括：

原始数据字段选取，选取需要区分数据唯一性的数据列(数据字段)，根据具体业务场景不同可以选取一个字段、多个字段、或全部字段；

数据标识字段定义，用于存储数据标识计算结果。

生成数据唯一标识，并将生成结果存储于新增的标识列中，如图2所示，将选取的列生成数据唯一性标识的具体步骤包括：

将选取的各字段序列化为字符串；

根据字段名对选取的各字进行排序；

按排序结果，将序列化字符串进行拼接组合；

对生成排序结果进行Hash(哈希)计算，计算结果做为数据唯一标识。

判断数据唯一性，通过上面步骤中生成的唯一性标识列与库中已存在数据的唯一性标识列进行对比，存在相同唯一性标识则认为存在相同数据；不存在则认为没有相同数据。

判断为存在相同数据时，根据业务场景需要，对重复数据进行相关处理，具体包括：

需要保留时，根据需要入库并更新数据版本标识；

不需要保留时，则舍弃数据。

判断为不存在相同数据时，则将新数据入库并添加数据初始版本标识。

从以上的描述中，可以看出，本发明实现了如下技术效果：

在本申请实施例中，与现有数据库数据标识(ID)技术完成兼容，即可做为替代现有数据库技术中的数据标识，也可做为新增字段，做为现有数据标识的辅助列；

应用场景广泛，可用于关系型数据库、文档型数据库、分布式数据等数据库应用中；还可用于数据清洗、数据去重等大数据应用场景中；

高效且节省资源，仅需新增一个32位～256位的标识列，而不用对全部所需要字段进行判断。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据库中数据唯一性标识方法，其特征在于，包括：

2.根据权利要求1所述的一种数据库中数据唯一性标识方法，其特征在于，所述定义数据标识列，具体包括：

原始数据字段选取；

数据标识字段定义。

3.根据权利要求2所述的数据库中数据唯一性标识方法，其特征在于，所述原始数据字段选取为选取需要区分数据唯一性的数据列，根据具体业务场景不同可以选取一个字段、多个字段、或全部字段。

4.根据权利要求2所述的数据库中数据唯一性标识方法，其特征在于，所述数据标识字段定义，用于存储数据标识计算结果。

5.根据权利要求1所述的数据库中数据唯一性标识方法，其特征在于，所述生成数据唯一标识的具体步骤包括：

将选取的各字段序列化为字符串；

根据字段名对选取的各字进行排序；

按排序结果，将序列化字符串进行拼接组合；

6.根据权利要求1所述的数据库中数据唯一性标识方法，其特征在于，所述判断数据唯一性，存在相同唯一性标识则认为存在相同数据，不存在则认为没有相同数据。

7.根据权利要求1所述的数据库中数据唯一性标识方法，其特征在于，所述判断为存在相同唯一性标识时，根据业务场景需要，对重复数据进行相关处理，具体包括：

需要保留时，根据需要入库并更新数据版本标识；

不需要保留时，则舍弃数据。