CN104462527A - 一种数据去重的方法及装置 - Google Patents

一种数据去重的方法及装置 Download PDF

Info

Publication number
CN104462527A
CN104462527A CN201410811756.4A CN201410811756A CN104462527A CN 104462527 A CN104462527 A CN 104462527A CN 201410811756 A CN201410811756 A CN 201410811756A CN 104462527 A CN104462527 A CN 104462527A
Authority
CN
China
Prior art keywords
identifying code
data
code
generates
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410811756.4A
Other languages
English (en)
Inventor
马欣
顾喜德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Faith Data (beijing) Co Ltd
Original Assignee
Dragon Faith Data (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Faith Data (beijing) Co Ltd filed Critical Dragon Faith Data (beijing) Co Ltd
Priority to CN201410811756.4A priority Critical patent/CN104462527A/zh
Publication of CN104462527A publication Critical patent/CN104462527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据去重的方法及装置,该方法包括:获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;将所述业务主键转换为统一的预设格式,生成匹配码;按预设的顺序对所述生成的匹配码进行排序,生成验证码;查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。

Description

一种数据去重的方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据去重的方法及装置。
背景技术
目前基于数据融合***的数据去重方法是将待去重的一列或是一行数据进行排序,并对重复的数据用区分码(1,2)进行标识,删除标识为“2”的数据。现有的数据去重方法在对多行或多列数据进行去重时效率较低。
发明内容
本发明的目的是提供一种数据去重的方法及装置,其目的在于解决现有技术中对多行或多列数据进行去重时效率低的问题。
为解决上述技术问题,本发明提供一种数据去重的方法,包括:
获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
将所述业务主键转换为统一的预设格式,生成匹配码;
按预设的顺序对所述生成的匹配码进行排序,生成验证码;
查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
删除所述验证码中标记为第二区分码的数据。
可选地,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
可选地,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
可选地,所述按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
可选地,在生成所述验证码之后,还包括:
将所述生成的验证码存储在特定的临时表中。
可选地,所述查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
可选地,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
统计所述删除数据的数量,生成数据去重统计报告。
本发明还提供了一种数据去重的装置,包括:
获取模块,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
转换模块,用于将所述业务主键转换为统一的预设格式,生成匹配码;
排序模块,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
查找模块,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
去重模块,用于删除所述验证码中标记为第二区分码的数据。
可选地,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
所述转换模块具体用于,将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
可选地,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
所述转换模块具体用于,采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
可选地,所述排序模块用于按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
所述排序模块具体用于,将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
可选地,在生成所述验证码之后,还包括:
存储模块,用于将所述生成的验证码存储在特定的临时表中。
可选地,所述查找模块用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
所述查找模块具体用于,按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
可选地,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
统计模块,用于统计所述删除数据的数量,生成数据去重统计报告。
本发明所提供的数据去重的方法及装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
附图说明
图1为本发明所提供的数据去重的方法的一种具体实施方式的流程图;
图2为本发明所提供的数据去重的方法的另一种具体实施方式的流程图;
图3为本发明所提供的数据去重的装置的一种具体实施方式的结构框图;
图4为本发明所提供的数据去重的装置的另一种具体实施方式的结构框图。
具体实施方式
本发明的核心是提供一种数据去重的方法及装置,可以用于在数据融合***中,能够对数据规模在千万级以上的数据进行去重。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的数据去重的方法的一种具体实施方式如图1所示,该方法包括:
步骤101:获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
步骤102:将所述业务主键转换为统一的预设格式,生成匹配码;
步骤103:按预设的顺序对所述生成的匹配码进行排序,生成验证码;
步骤104:查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
步骤105:删除所述验证码中标记为第二区分码的数据。
本发明所提供的数据去重的方法,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
本发明所提供的数据去重的方法的另一种具体实施方式可具体用于,数据融合***中对于数据规模在千万级以上的数据进行去重的处理,如图2所示,该方法包括:
步骤201:根据业务需求所需要进行去重处理的数据,获取所需要处理的数据的业务主键;
所述业务主键为代表数据唯一性的字段,可以为单个字段或者为多个字段的联合。
步骤202:采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
在本具体实施方式中,根据业务的规则要求,可具体采用信息-摘要算法5(MD5)的算法函数对所述业务主键进行转码,生成标准统一的匹配码。
步骤203:将所述生成的匹配码按照由小到大的顺序进行排序,排序后生成验证码;
步骤204:将所述生成的验证码存储在特定的临时表中;
步骤205:按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
在本具体实施方式中,对临时表中的验证码进行重复数据查找,对于其中重复的数据用区分码(1,2)进行标识。例如将未重复出现过的数据的区分码标识记为“1”,将重复出现的数据的区分码标识记为“2”。
步骤206:删除所述验证码中标记为第二区分码的数据;
如删除上述步骤205中区分码标识为“2”的数据。
步骤207:统计所述删除数据的数量,生成数据去重统计报告。
本发明所提供的数据去重的方法,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。由于本发明提供的数据去重的方法首先对所述待处理的数据进行了预处理,使得不同列不同行的数据生成统一预设格式的匹配码,只需要对该统一格式的匹配码进行比对,删除其中重复的数据即可,因此在数据融合***中,能够实现对于数据规模在千万级以上的数据中的多行或者多列同时进行去重处理,去重效率高。并且配置简单,使用方便,可操作性高。另外,在生成匹配码以及查找重复数据的过程中均可以使用分布式模式进行并行处理,也能够节省大量的处理时间,提高去重的效率。
本发明还提供了一种数据去重的装置,图3为本发明所提供的数据去重的装置的一种具体实施方式的结构框图,如图3所示,该装置包括:
获取模块100,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
转换模块200,用于将所述业务主键转换为统一的预设格式,生成匹配码;
排序模块300,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
查找模块400,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
去重模块500,用于删除所述验证码中标记为第二区分码的数据。
本发明所提供的数据去重的装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
本发明所提供的数据去重的装置的另一种具体实施方式的结构框图如图4所示,与上一种具体实施方式相比,该具体实施方式中增加了存储模块600以及统计模块700的部分,该装置包括:
获取模块100,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
转换模块200,用于将所述业务主键转换为统一的预设格式,生成匹配码;
排序模块300,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
存储模块600,用于将所述生成的验证码存储在特定的临时表中;
查找模块400,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
去重模块500,用于删除所述验证码中标记为第二区分码的数据;
统计模块700,用于统计所述删除数据的数量,生成数据去重统计报告。
本发明所提供的数据去重的装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。由于本发明提供的数据去重的装置首先对所述待处理的数据进行了预处理,使得不同列不同行的数据生成统一预设格式的匹配码,只需要对该统一格式的匹配码进行比对,删除其中重复的数据即可,因此能够实现对于多行或者多列数据同时进行去重的操作处理,去重效率高。此外,统计模块还能够对其删除数据的数量进行统计,并且生成数据去重统计报告,可以简单清楚地说明数据处理后的结果,方便用户的使用。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种数据去重的方法,其特征在于,包括:
获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
将所述业务主键转换为统一的预设格式,生成匹配码;
按预设的顺序对所述生成的匹配码进行排序,生成验证码;
查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
删除所述验证码中标记为第二区分码的数据。
2.如权利要求1所述的数据去重的方法,其特征在于,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
3.如权利要求2所述的数据去重的方法,其特征在于,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
4.如权利要求1所述的数据去重的方法,其特征在于,所述按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
5.如权利要求4所述的数据去重的方法,其特征在于,在生成所述验证码之后,还包括:
将所述生成的验证码存储在特定的临时表中。
6.如权利要求5所述的数据去重的方法,其特征在于,所述查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
7.如权利要求6所述的数据去重的方法,其特征在于,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
统计所述删除数据的数量,生成数据去重统计报告。
8.一种数据去重的装置,其特征在于,包括:
获取模块,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
转换模块,用于将所述业务主键转换为统一的预设格式,生成匹配码;
排序模块,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
查找模块,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
去重模块,用于删除所述验证码中标记为第二区分码的数据。
9.如权利要求8所述的数据去重的装置,其特征在于,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
所述转换模块具体用于,将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
10.如权利要求9所述的数据去重的装置,其特征在于,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
所述转换模块具体用于,采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
11.如权利要求8所述的数据去重的装置,其特征在于,所述排序模块用于按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
所述排序模块具体用于,将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
12.如权利要求11所述的数据去重的装置,其特征在于,在生成所述验证码之后,还包括:
存储模块,用于将所述生成的验证码存储在特定的临时表中。
13.如权利要求12所述的数据去重的装置,其特征在于,所述查找模块用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
所述查找模块具体用于,按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
14.如权利要求13所述的数据去重的装置,其特征在于,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
统计模块,用于统计所述删除数据的数量,生成数据去重统计报告。
CN201410811756.4A 2014-12-22 2014-12-22 一种数据去重的方法及装置 Pending CN104462527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410811756.4A CN104462527A (zh) 2014-12-22 2014-12-22 一种数据去重的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410811756.4A CN104462527A (zh) 2014-12-22 2014-12-22 一种数据去重的方法及装置

Publications (1)

Publication Number Publication Date
CN104462527A true CN104462527A (zh) 2015-03-25

Family

ID=52908562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410811756.4A Pending CN104462527A (zh) 2014-12-22 2014-12-22 一种数据去重的方法及装置

Country Status (1)

Country Link
CN (1) CN104462527A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654259A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 大批量代理人运价搜索压缩方法
CN105721256A (zh) * 2016-04-25 2016-06-29 北京威努特技术有限公司 一种分布式部署审计平台的审计数据去重方法
CN106055963A (zh) * 2016-06-30 2016-10-26 珠海市魅族科技有限公司 一种验证方法及装置
CN106682004A (zh) * 2015-11-06 2017-05-17 网宿科技股份有限公司 一种Redis Key管理方法及***
CN107229694A (zh) * 2017-05-22 2017-10-03 北京红马传媒文化发展有限公司 一种基于大数据的数据信息一致性处理方法、***及装置
CN107679173A (zh) * 2017-09-29 2018-02-09 苏宁云商集团股份有限公司 一种实时数据处理方法及装置
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及***
CN107944866A (zh) * 2017-10-17 2018-04-20 厦门市美亚柏科信息股份有限公司 交易记录排重方法及计算机可读存储介质
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN113821503A (zh) * 2021-09-23 2021-12-21 北京金山云网络技术有限公司 医疗数据的处理方法、装置及边缘服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609466A (zh) * 2009-07-01 2009-12-23 中兴通讯股份有限公司 海量数据查重的方法和***
CN102591855A (zh) * 2012-01-13 2012-07-18 广州从兴电子开发有限公司 一种数据标识方法及***
CN102609419A (zh) * 2011-01-21 2012-07-25 北京世纪读秀技术有限公司 相似数据排重方法
US8315985B1 (en) * 2008-12-18 2012-11-20 Symantec Corporation Optimizing the de-duplication rate for a backup stream
US20120317126A1 (en) * 2008-04-30 2012-12-13 Msc Intellectual Properties B.V. System and method for near and exact de-duplication of documents
CN103714137A (zh) * 2013-12-19 2014-04-09 大唐移动通信设备有限公司 一种数据文件的删除方法和***
CN104021132A (zh) * 2013-12-08 2014-09-03 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120317126A1 (en) * 2008-04-30 2012-12-13 Msc Intellectual Properties B.V. System and method for near and exact de-duplication of documents
US8315985B1 (en) * 2008-12-18 2012-11-20 Symantec Corporation Optimizing the de-duplication rate for a backup stream
CN101609466A (zh) * 2009-07-01 2009-12-23 中兴通讯股份有限公司 海量数据查重的方法和***
CN102609419A (zh) * 2011-01-21 2012-07-25 北京世纪读秀技术有限公司 相似数据排重方法
CN102591855A (zh) * 2012-01-13 2012-07-18 广州从兴电子开发有限公司 一种数据标识方法及***
CN104021132A (zh) * 2013-12-08 2014-09-03 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其***
CN103714137A (zh) * 2013-12-19 2014-04-09 大唐移动通信设备有限公司 一种数据文件的删除方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
-: ""js数组去重的三种常用方法总结"", 《脚本之家-WWW.JB51.NET/ARTICLE/46154.HTM》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682004A (zh) * 2015-11-06 2017-05-17 网宿科技股份有限公司 一种Redis Key管理方法及***
CN105654259A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 大批量代理人运价搜索压缩方法
CN105654259B (zh) * 2015-12-25 2021-07-06 中国民航信息网络股份有限公司 大批量代理人运价搜索压缩方法
CN105721256A (zh) * 2016-04-25 2016-06-29 北京威努特技术有限公司 一种分布式部署审计平台的审计数据去重方法
CN105721256B (zh) * 2016-04-25 2019-05-03 北京威努特技术有限公司 一种分布式部署审计平台的审计数据去重方法
CN106055963B (zh) * 2016-06-30 2019-10-01 珠海市魅族科技有限公司 一种验证方法及装置
CN106055963A (zh) * 2016-06-30 2016-10-26 珠海市魅族科技有限公司 一种验证方法及装置
CN107229694A (zh) * 2017-05-22 2017-10-03 北京红马传媒文化发展有限公司 一种基于大数据的数据信息一致性处理方法、***及装置
CN107679173A (zh) * 2017-09-29 2018-02-09 苏宁云商集团股份有限公司 一种实时数据处理方法及装置
CN107944866A (zh) * 2017-10-17 2018-04-20 厦门市美亚柏科信息股份有限公司 交易记录排重方法及计算机可读存储介质
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及***
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN109828968B (zh) * 2019-02-19 2021-12-21 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN113821503A (zh) * 2021-09-23 2021-12-21 北京金山云网络技术有限公司 医疗数据的处理方法、装置及边缘服务器

Similar Documents

Publication Publication Date Title
CN104462527A (zh) 一种数据去重的方法及装置
JP5267670B2 (ja) 情報検索システム、情報管理装置、情報検索方法、情報管理方法、及び、記録媒体
CN108647276B (zh) 一种搜索方法
CN102782643A (zh) 使用布隆过滤器的索引搜索
CN102566945B (zh) 一种实现图书自动组稿按需印刷的方法和***
JP2013167990A (ja) ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置
CN103246549B (zh) 一种数据转存的方法及***
CN103345496A (zh) 多媒体信息检索方法和***
CN104077385A (zh) 一种文件的分类及检索方法
CN105740264A (zh) 一种分布式xml数据库的排序方法及装置
CN104268298A (zh) 一种创建数据库索引及其查询的方法
CN104778210A (zh) 一种微博转发树和转发森林构建方法
CN102521364A (zh) 一种图上两点间最短路径查询方法
CN101369278A (zh) 一种近似匹配方法和装置
CN102169491A (zh) 一种多数据集中重复记录动态检测方法
CN105354283A (zh) 一种资源的搜索方法和装置
CN105224663A (zh) 一种基于多个数据源的数据访问任务管理方法及装置
CN107870935A (zh) 一种搜索方法及装置
CN108182209A (zh) 一种数据索引方法、及设备
CN104216980A (zh) 一种文件***序列化操作的分类方法
CN107122412A (zh) 一种海量电话号码快速匹配检索方法
CN105447142A (zh) 一种双模式农业科技成果分类方法及***
CN103544275A (zh) 一种处理数据的方法及装置
CN105159946A (zh) 一种基于jQuery的表格排序方法及***
CN105786916B (zh) 一种基于大容量表的分层目录的存储方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325

WD01 Invention patent application deemed withdrawn after publication