CN113760907A - 一种数据库中数据唯一性标识方法 - Google Patents

一种数据库中数据唯一性标识方法 Download PDF

Info

Publication number
CN113760907A
CN113760907A CN202110883879.9A CN202110883879A CN113760907A CN 113760907 A CN113760907 A CN 113760907A CN 202110883879 A CN202110883879 A CN 202110883879A CN 113760907 A CN113760907 A CN 113760907A
Authority
CN
China
Prior art keywords
data
uniqueness
column
identification
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110883879.9A
Other languages
English (en)
Inventor
王锦胤
刘海涛
史延莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zijincheng Credit Investigation Co ltd
Original Assignee
Zijincheng Credit Investigation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zijincheng Credit Investigation Co ltd filed Critical Zijincheng Credit Investigation Co ltd
Priority to CN202110883879.9A priority Critical patent/CN113760907A/zh
Publication of CN113760907A publication Critical patent/CN113760907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据库中数据唯一性标识方法。该方法包括定义数据标识列,包括原始数据字段选取、数据标识字段定义,选取需要判断唯一性的相关列,并新增一个数据标识列;生成数据唯一标识,将选取的列生成数据唯一性标识,并将生成结果存储于新增的标识列中备用;判断数据唯一性,通过生成的唯一性标识列与库中已存在数据的唯一性标识列进行对,存在相同唯一性标识则认为存在相同数据,不存在则认为没有相同数据;存在相同数据时,根据业务场景需要,对重复数据进行相关处理;不存在相同数据时,则将新数据入库并添加数据初始版本标识。本申请解决了只能保持数据记录本身的唯一性,无法有效识别所记录数据内容的唯一性的技术问题。

Description

一种数据库中数据唯一性标识方法
技术领域
本申请涉及前端开发领域,具体而言,涉及一种数据库中数据唯一性标识方法。
背景技术
当前数据唯一性标识的方式主要有:数字序号、通用唯一识别码(UUID,Universally Unique Identifier)、全局唯一标识符(GUID,Globally UniqueIdentifier)、时间戳等方式。
目前,市场上现有技术的缺点:
只能保持数据记录本身的唯一性,无法有效识别所记录数据内容的唯一性。
针对相关技术中无法有效识别所记录数据内容的唯一性的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据库中数据唯一性标识方法,以解决上述问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据库中数据唯一性标识方法。
根据本申请的数据库中数据唯一性标识方法包括:
定义数据标识列,需要选取需要判断唯一性的相关列,并新增一个数据标识列;
生成数据唯一性标识,并将生成结果存储于新增的标识列中备用;
判断数据唯一性,通过唯一性标识列与库中已存在数据的唯一性标识列进行对比;
判断为存在相同唯一性标识时,根据业务场景需要,对重复数据进行相关处理;
判断为不存在相同唯一性标识时,则将新数据入库并添加数据初始版本标识。
进一步的,所述定义数据标识列,具体包括:
原始数据字段选取;
数据标识字段定义。
进一步的,所述原始数据字段选取为选取需要区分数据唯一性的数据列,根据具体业务场景不同可以选取一个字段、多个字段、或全部字段。
进一步的,所述数据标识字段定义,用于存储数据标识计算结果。
进一步的,所述生成数据唯一标识的具体步骤包括:
将选取的各字段序列化为字符串;
根据字段名对选取的各字进行排序;
按排序结果,将序列化字符串进行拼接组合;
对生成的排序结果进行哈希计算,计算结果做为数据唯一标识。
进一步的,所述判断数据唯一性,存在相同唯一性标识则认为存在相同数据,不存在则认为没有相同数据。
进一步的,所述判断为存在相同唯一性标识时,根据业务场景需要,对重复数据进行相关处理,具体包括:
需要保留时,根据需要入库并更新数据版本标识;
不需要保留时,则舍弃数据。
在本申请实施例中,采用定义数据标识列的方式,通过生成数据唯一标识,并将生成结果存储于新增的标识列中备用,与库中已存在数据的唯一性标识列进行对比,判断为存在相同唯一性标识时,根据业务场景需要,对重复数据进行相关处理,反之则将新数据入库并添加数据初始版本标识,实现了与现有数据库数据标识(ID)技术完成兼容,应用场景广泛,高效且节省资源的技术效果,进而解决了现有技术不能有效识别所记录数据内容的唯一性的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据库中数据唯一性标识方法的流程图;
图2是根据本申请实施例的生成数据唯一性标识的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,如图1所示,提供了一种数据库中数据唯一性标识方法,该方法包括如下的步骤:
定义数据标识列,需要选取需要判断唯一性的相关列,并新增一个数据标识列,具体包括:
原始数据字段选取,选取需要区分数据唯一性的数据列(数据字段),根据具体业务场景不同可以选取一个字段、多个字段、或全部字段;
数据标识字段定义,用于存储数据标识计算结果。
生成数据唯一标识,并将生成结果存储于新增的标识列中,如图2所示,将选取的列生成数据唯一性标识的具体步骤包括:
将选取的各字段序列化为字符串;
根据字段名对选取的各字进行排序;
按排序结果,将序列化字符串进行拼接组合;
对生成排序结果进行Hash(哈希)计算,计算结果做为数据唯一标识。
判断数据唯一性,通过上面步骤中生成的唯一性标识列与库中已存在数据的唯一性标识列进行对比,存在相同唯一性标识则认为存在相同数据;不存在则认为没有相同数据。
判断为存在相同数据时,根据业务场景需要,对重复数据进行相关处理,具体包括:
需要保留时,根据需要入库并更新数据版本标识;
不需要保留时,则舍弃数据。
判断为不存在相同数据时,则将新数据入库并添加数据初始版本标识。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,与现有数据库数据标识(ID)技术完成兼容,即可做为替代现有数据库技术中的数据标识,也可做为新增字段,做为现有数据标识的辅助列;
应用场景广泛,可用于关系型数据库、文档型数据库、分布式数据等数据库应用中;还可用于数据清洗、数据去重等大数据应用场景中;
高效且节省资源,仅需新增一个32位~256位的标识列,而不用对全部所需要字段进行判断。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种数据库中数据唯一性标识方法,其特征在于,包括:
定义数据标识列,需要选取需要判断唯一性的相关列,并新增一个数据标识列;
生成数据唯一性标识,并将生成结果存储于新增的标识列中备用;
判断数据唯一性,通过唯一性标识列与库中已存在数据的唯一性标识列进行对比;
判断为存在相同唯一性标识时,根据业务场景需要,对重复数据进行相关处理;
判断为不存在相同唯一性标识时,则将新数据入库并添加数据初始版本标识。
2.根据权利要求1所述的一种数据库中数据唯一性标识方法,其特征在于,所述定义数据标识列,具体包括:
原始数据字段选取;
数据标识字段定义。
3.根据权利要求2所述的数据库中数据唯一性标识方法,其特征在于,所述原始数据字段选取为选取需要区分数据唯一性的数据列,根据具体业务场景不同可以选取一个字段、多个字段、或全部字段。
4.根据权利要求2所述的数据库中数据唯一性标识方法,其特征在于,所述数据标识字段定义,用于存储数据标识计算结果。
5.根据权利要求1所述的数据库中数据唯一性标识方法,其特征在于,所述生成数据唯一标识的具体步骤包括:
将选取的各字段序列化为字符串;
根据字段名对选取的各字进行排序;
按排序结果,将序列化字符串进行拼接组合;
对生成的排序结果进行哈希计算,计算结果做为数据唯一标识。
6.根据权利要求1所述的数据库中数据唯一性标识方法,其特征在于,所述判断数据唯一性,存在相同唯一性标识则认为存在相同数据,不存在则认为没有相同数据。
7.根据权利要求1所述的数据库中数据唯一性标识方法,其特征在于,所述判断为存在相同唯一性标识时,根据业务场景需要,对重复数据进行相关处理,具体包括:
需要保留时,根据需要入库并更新数据版本标识;
不需要保留时,则舍弃数据。
CN202110883879.9A 2021-08-02 2021-08-02 一种数据库中数据唯一性标识方法 Pending CN113760907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110883879.9A CN113760907A (zh) 2021-08-02 2021-08-02 一种数据库中数据唯一性标识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110883879.9A CN113760907A (zh) 2021-08-02 2021-08-02 一种数据库中数据唯一性标识方法

Publications (1)

Publication Number Publication Date
CN113760907A true CN113760907A (zh) 2021-12-07

Family

ID=78788344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110883879.9A Pending CN113760907A (zh) 2021-08-02 2021-08-02 一种数据库中数据唯一性标识方法

Country Status (1)

Country Link
CN (1) CN113760907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385157A (zh) * 2023-06-05 2023-07-04 紫金诚征信有限公司 用于征信信用主体识别的数据处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035571A (zh) * 2020-08-19 2020-12-04 深圳乐信软件技术有限公司 一种数据同步方法、装置、设备和存储介质
US20210073196A1 (en) * 2019-09-09 2021-03-11 Sap Se Semantic, single-column identifiers for data entries
CN112579623A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 存储数据的方法、装置、存储介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073196A1 (en) * 2019-09-09 2021-03-11 Sap Se Semantic, single-column identifiers for data entries
CN112579623A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 存储数据的方法、装置、存储介质及设备
CN112035571A (zh) * 2020-08-19 2020-12-04 深圳乐信软件技术有限公司 一种数据同步方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385157A (zh) * 2023-06-05 2023-07-04 紫金诚征信有限公司 用于征信信用主体识别的数据处理方法和装置
CN116385157B (zh) * 2023-06-05 2023-08-15 紫金诚征信有限公司 用于征信信用主体识别的数据处理方法和装置

Similar Documents

Publication Publication Date Title
CN111459985B (zh) 标识信息处理方法及装置
EP2924594A1 (en) Data encoding and corresponding data structure in a column-store database
CN104794123A (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN107092686B (zh) 一种基于云存储平台的文件管理方法及装置
CN106874281B (zh) 实现数据库读写分离的方法和装置
CN110490761B (zh) 一种电网配网设备台账数据模型建模方法
CN113326264A (zh) 数据处理方法、服务器及存储介质
CN109672608B (zh) 根据时间发送消息的方法
CN114936269A (zh) 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN116521956A (zh) 一种图数据库查询方法、装置、电子设备及存储介质
CN113760907A (zh) 一种数据库中数据唯一性标识方法
CN112307318A (zh) 一种内容发布方法、***及装置
CN110018845A (zh) 元数据版本对比方法及装置
CN107291938A (zh) 订单查询***及方法
CN111666278B (zh) 数据存储、检索方法、电子设备及存储介质
CN111897837B (zh) 数据查询方法、装置、设备和介质
CN117493333A (zh) 数据归档方法、装置、电子设备及存储介质
CN105740251B (zh) 一种总线式整合不同内容源的方法和***
CN113934742B (zh) 数据更新方法、节点信息存储方法、电子设备及介质
CN110659393A (zh) 一种xml代码生成方法和***
CN111563123B (zh) 一种hive仓库元数据实时同步方法
CN111352917B (zh) 信息录入方法、装置、电子设备及存储介质
CN107888415B (zh) 一种网管***数据维护方法
CN111258955A (zh) 一种文件读取方法和***、存储介质、计算机设备
CN111782886A (zh) 元数据管理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination