CN106649646A - 一种数据去重的方法及装置 - Google Patents
一种数据去重的方法及装置 Download PDFInfo
- Publication number
- CN106649646A CN106649646A CN201611129751.9A CN201611129751A CN106649646A CN 106649646 A CN106649646 A CN 106649646A CN 201611129751 A CN201611129751 A CN 201611129751A CN 106649646 A CN106649646 A CN 106649646A
- Authority
- CN
- China
- Prior art keywords
- data
- values
- key
- pending data
- value pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据去重的方法及装置。该方法包括:获取待处理数据的MD5值和对应的数据标识;将MD5值和数据标识组成待处理数据的键值对;比对待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;如果待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除待处理数据,并确定与待处理数据重复的已有数据的数据标识。本发明实施例通过将待处理数据的MD5值和数据标识组成键值对,并比对待处理数据的MD5值和已有数据的MD5值,将与已有数据的MD5值相同的待处理数据删除,解决了海量数据中存在重复数据的问题,达到了在入库之前对数据进行去重的效果,减少硬盘使用率,降低成本。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种数据去重的方法及装置。
背景技术
在当今的大数据时代,随着信息化的发展,用数据说话是很多企业经营者的理念。企业要处理的数据量激增,大数据带来便利的同时,也给技术人员增加了一些负担,在海量的数据中,存在大量的重复数据,造成***的负载越来越大,数据入库和查询性能随之下降,如何实现对大量重复垃圾数据的删除,减少硬盘的使用率,成为大数据时代亟待解决的难题。
发明内容
本发明提供一种数据去重的方法及装置,以实现对大规模数据的去重,减少硬盘的使用率。
第一方面,本发明实施例提供了一种数据去重的方法,该方法包括:
获取待处理数据的MD5值和对应的数据标识;
将所述MD5值和所述数据标识组成所述待处理数据的键值对;
比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
进一步地,在删除所述待处理数据之后,还包括:
将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
进一步地,还包括:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
进一步地,获取待处理数据的MD5值和对应的数据标识包括:
按行读取待处理数据;
计算所述待处理数据的MD5值;
根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
进一步地,计算所述待处理数据的MD5值包括:
如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;
计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
第二方面,本发明实施例还提供了一种数据去重的装置,该装置包括:
数据标识获取模块,用于获取待处理数据的MD5值和对应的数据标识;
键值对组成模块,用于将所述MD5值和所述数据标识组成所述待处理数据的键值对;
MD5值比对模块,用于比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
重复数据确定模块,用于如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
进一步地,还包括键值对保存模块,用于在删除所述待处理数据之后,将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
进一步地,还包括数据存储模块,具体用于:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
进一步地,数据标识获取模块包括:
数据读取单元,用于按行读取待处理数据;
MD5值计算单元,用于计算所述待处理数据的MD5值;
数据标识生成单元,用于根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
进一步地,MD5值计算单元具体用于:
如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;
计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
本实施例的技术方案,通过将待处理数据的MD5值和数据标识组成键值对,并比对待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值,将与已有数据的MD5值相同的待处理数据删除,解决了海量数据中存在重复数据的问题,达到了在入库之前对数据进行去重的效果,减少硬盘的使用率,降低成本。
附图说明
图1为本发明实施例一提供的一种数据去重的方法的流程图;
图2是本发明实施例二提供的一种数据去重的方法的流程图;
图3为本发明实施例提供的一种数据去重方法中的数据处理***的整体框架图;
图4是本发明实施例三提供的一种数据去重的方法的流程图;
图5是本发明实施例四提供的一种数据去重的方法的流程图;
图6是本发明实施例五提供的一种数据去重的装置示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据去重的方法的流程图,本实施例可适用于对海量数据进行有效去重的情况,该方法可以由数据去重的装置来执行,该方法具体包括如下步骤:
S110、获取待处理数据的MD5值和对应的数据标识。
其中,MD5(Message-Digest Algorithm 5,信息-摘要算法5),用于确保信息传输完整一致,是计算机广泛使用的杂凑算法之一,具有压缩性、容易计算、抗修改性以及强抗碰撞等特点。待处理数据的类型可以是文本类型,可以按行或按列等方式读取数据并计算数据对应的MD5值,数据标识可以作为每条数据的标记,用于区分每条数据。
S120、将所述MD5值和所述数据标识组成所述待处理数据的键值对。
其中,可将MD5值存放在redis集群上,采用redis集群的好处是redis数据库上存储的数据一般都是键值对的方式,可以实现高效率的比对操作。可以将MD5值和数据标识组成键值对,存储在redis集群数据库中。一般重复处理数据都是利用一种分布式***基础架构Hadoop的分布式文件***(Hadoop Distributed File System,HDFS),这样可以有效地实现海量数据存储,同时有效防止单点故障,避免不必要的损失。但是,在HDFS上进行数据去重时,数据就会提前存入硬盘中,导致数据已经入库,浪费硬盘资源,增加硬件成本,消耗大量的时间,在redis数据库中进行去重可以实现在数据入库之前就有效地把大量重复垃圾数据删除,减少硬盘的使用率,降低成本。
S130、比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值。
其中,已有数据可以是已经进行存储的数据。
将待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值进行对比,判断待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值是否相同。通过不断比对操作,删除垃圾重复数据。
S140、如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
如果待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则可以认为两条数据互相重复,因此将待处理数据进行删除,同时确定与待处理数据重复的已有数据的数据标识,以确定与待处理数据重复的已有数据。
上述步骤即S110、S120、S130和S140可以由一个硬件设备执行,也可以由不同的硬件设备分别执行,具体执行的设备这里不做限定。
本实施例的技术方案,通过将待处理数据的MD5值和数据标识组成键值对,并比对待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值,将与已有数据的MD5值相同的待处理数据删除,解决了海量数据中存在重复数据的问题,达到了在入库之前对数据进行去重的效果,减少硬盘的使用率,降低成本。
在上述技术方案的基础上,在删除所述待处理数据之后,还优选包括:
将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
其中,将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中,可以利用保存的信息计算出相同MD5值的数据的数据重复量,数据重复量可作为考虑业务需求时的参考因素。
在上述实施例的基础上,还优选包括:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
其中,如果待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则可以确认待处理数据与已有数据之间不存在重复,则将所述待处理数据和对应的数据标识存入数据库即可。同时将待处理数据的键值对保存,作为以后比对的参考依据。将不重复的数据进行存储,保证数据的完整性。
实施例二
图2是本发明实施例二提供的一种数据去重的方法的流程图,本实施例在上述实施例的基础上进行了进一步的优化,将“获取待处理数据的MD5值和对应的数据标识”进一步细化为“按行读取待处理数据;计算所述待处理数据的MD5值;根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。”该方法具体包括以下步骤:
S210、按行读取待处理数据。
其中,数据在预处理之前可以是数据接入环节,可以通过搬运工具将数据搬运到预处理的服务器当中,等待数据的处理。在预处理服务器中,程序按行读取数据。一般使用的搬运程序都是通过网络传输的,一般采用传输控制协议(Transmission ControlProtocol,TCP)通信或者文件传输协议(File Transfer Protocol,FTP)传输。利用预处理程序实现数据的实时接入,提高数据的处理效率。图3为本发明实施例提供的一种数据去重方法中的数据处理***的整体框架图。如图3所示,数据搬运服务器集群由服务器1-服务器N构成,数据搬运服务器集群310利用搬运程序将数据搬运至预处理服务器集群320中,预处理服务器集群由服务器1'-服务器N'构成,其中预处理程序可以在一台或者多台服务器安装,从而安装了预处理程序的一台或多台服务器组成预处理服务器集群320,计算数据的MD5值并在redis服务器集群330上与已有数据的MD5值进行比对。本发明实施例中的redis服务器集群330由服务器1”-服务器N”等通过快速通信链路连接起来组成的,将不存在重复的数据存入数据库340中,其中数据库340可以是Hbase或Oracle数据库。
S220、计算所述待处理数据的MD5值。
其中,将读取到的每行的待处理数据依次计算MD5值。
S230、根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
其中,为待处理数据生成唯一的数据标识,即数据ID。ID可以由待处理数据的读取时间或读取待处理数据时的线程号中的至少一个组成,在由预处理集群读取待处理数据时,ID也可以是预处理集群中的预处理服务器设备号。由于预处理服务器可能是多台,所以为了区分服务器为每一台服务器设置唯一编号,即预处理服务器设备号。
S240、将所述MD5值和所述数据标识组成所述待处理数据的键值对;
S250、比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
S260、如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
本实施例的技术方案,通过按行读取待处理数据,并计算每行数据的MD5值,生成数据标识,将行数据的MD5值与已有数据的MD5值进行比对,当相同时删除待处理数据,解决了海量数据中具有重复数据的问题,达到了在入库之前对海量数据中的重复数据进行去重的效果,减少硬盘的使用率,降低成本。采用将待处理数据按行读取为行数据,利用判断各行数据是否存在重复,将存在重复情况的行数据删除,达到去重操作更加具体化的效果,并且通过按行读取使得数据处理更加快速。
实施例三
图4是本发明实施例三提供的一种数据去重的方法的流程图,本实施例在上述实施例的基础上进行了进一步的优化,将“计算所述待处理数据的MD5值”进一步细化为“如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。”该方法具体包括以下步骤:
S410、按行读取待处理数据。
S420、如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据。
其中,在读取待处理数据之前,可以根据实际的需求,将某些数据内容设置为预设忽略数据,例如可以是数据的端口号或者某些不必要的时间信息等,这些都是操作***随机产生的,对数据本身没有价值可言,因此可以将预设忽略数据相同而其余数据不同的待处理数据认为同一条处理,将其中的一条数据入库,其他进行删除处理,即可实现数据的去重,在计算数据的MD5值之前,去除预设忽略数据,可以起到提高数据去重效果的目的,节省了一部分工作量,节省数据去重时间。
S430、计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
其中,在将预设忽略数据去除后,再计算待处理数据的MD5值。
S440、根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
S450、将所述MD5值和所述数据标识组成所述待处理数据的键值对;
S460、比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
S470、如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
本实施例的技术方案,通过在计算数据的MD5值之前增加了忽略数据预判断环节,去除***随机产生的无效数据部分,达到节省工作量的效果,节省了数据去重时间。
实施例四
图5是本发明实施例四提供的一种数据去重的方法的流程图,本实施例是在上述实施例的基础上的一个优选实例,本方法具体包括以下步骤:
S510、数据搬运服务器集群将待处理数据搬运到预处理服务器。
S520、预处理服务器集群计算待处理数据的MD5值,并获取待处理数据的数据标识,组成键值对,将键值对发送至redis集群。
S530、redis集群将所述键值对中的MD5值与redis数据库已存放的键值对中的MD5值比较,判断是否相同。若相同,则执行S540,否则执行S550。
S540、将重复数据删除。
其中,若待处理数据的MD5值与redis数据库存放的MD5值相同,则说明待处理数据与已有数据重复,则将待处理数据确认为重复数据,将其删除。
S550、确定待处理数据为唯一数据。
其中,若待处理数据的MD5值与redis数据库存放的MD5值不同,则可以认为对于当前待处理数据而言,不存在数据重复的问题,则将待处理数据确定为唯一数据。
S560、将待处理数据入库到HBase或Oracle等数据存储设备,并将待处理数据的键值对存入redis数据库中。
本发明实施例的技术方案,通过多个集群的处理,将待处理数据的MD5值与redis数据库存放的MD5值进行比较,判断数据是否重复,并将重复数据删除,达到了对海量数据的有效去重,提高去重效率。
实施例五
图6是本发明实施例五提供的一种数据去重的装置示意图,该装置包括:
数据标识获取模块610,用于获取待处理数据的MD5值和对应的数据标识;
键值对组成模块620,用于将所述MD5值和所述数据标识组成所述待处理数据的键值对;
MD5值比对模块630,用于比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
重复数据确定模块640,用于如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
进一步地,还包括;
键值对保存模块620,用于在删除所述待处理数据之后,将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
进一步地,还包括数据存储模块,具体用于:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
进一步地,数据标识获取模块610包括:
数据读取单元,用于按行读取待处理数据;
MD5值计算单元,用于计算所述待处理数据的MD5值;
数据标识生成单元,用于根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
进一步地,MD5值计算单元具体用于:
如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;
计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
上述数据去重的装置可执行本发明任意实施例所提供的数据去重的方法,具备执行数据去重的方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据去重的方法,其特征在于,包括:
获取待处理数据的信息-摘要算法MD5值和对应的数据标识;
将所述MD5值和所述数据标识组成所述待处理数据的键值对;
比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
2.根据权利要求1所述的方法,其特征在于,在删除所述待处理数据之后,还包括:
将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
3.根据权利要求1所述的方法,其特征在于,还包括:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
4.根据权利要求1-3任一所述的方法,其特征在于,获取待处理数据的MD5值和对应的数据标识包括:
按行读取待处理数据;
计算所述待处理数据的MD5值;
根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
5.根据权利要求4所述的方法,其特征在于,计算所述待处理数据的MD5值包括:
如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;
计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
6.一种数据去重的装置,其特征在于,包括:
数据标识获取模块,用于获取待处理数据的MD5值和对应的数据标识;
键值对组成模块,用于将所述MD5值和所述数据标识组成所述待处理数据的键值对;
MD5值比对模块,用于比对所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值;
重复数据确定模块,用于如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值相同,则删除所述待处理数据,并确定与所述待处理数据重复的已有数据的数据标识。
7.根据权利要求6所述的装置,其特征在于,还包括:
键值对保存模块,用于在删除所述待处理数据之后,将待处理数据的键值对与所述待处理数据重复的已有数据的键值对保存在重复统计库中。
8.根据权利要求6所述的装置,其特征在于,还包括数据存储模块,具体用于:
如果所述待处理数据的键值对中的MD5值和已有数据的键值对中的MD5值不同,则将所述待处理数据和对应的数据标识存入数据库;
保存所述待处理数据的键值对到已有数据的键值对中。
9.根据权利要求6-8任一所述的装置,其特征在于,数据标识获取模块包括:
数据读取单元,用于按行读取待处理数据;
MD5值计算单元,用于计算所述待处理数据的MD5值;
数据标识生成单元,用于根据读取时间和/或读取待处理数据时的线程号,生成所述待处理数据的数据标识。
10.根据权利要求9所述的装置,其特征在于,MD5值计算单元具体用于:
如果所述待处理数据中包含预设忽略数据,则将所述待处理数据去除所述预设忽略数据;
计算去除所述预设忽略数据后的待处理数据的MD5值,作为所述待处理数据的MD5值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611129751.9A CN106649646A (zh) | 2016-12-09 | 2016-12-09 | 一种数据去重的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611129751.9A CN106649646A (zh) | 2016-12-09 | 2016-12-09 | 一种数据去重的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649646A true CN106649646A (zh) | 2017-05-10 |
Family
ID=58824828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611129751.9A Pending CN106649646A (zh) | 2016-12-09 | 2016-12-09 | 一种数据去重的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649646A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562555A (zh) * | 2017-08-02 | 2018-01-09 | 网宿科技股份有限公司 | 重复数据的清洗方法及服务器 |
CN108376171A (zh) * | 2018-02-27 | 2018-08-07 | 平安科技(深圳)有限公司 | 大数据快速导入的方法、装置、终端设备及存储介质 |
CN109039803A (zh) * | 2018-07-10 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种处理回调通知消息的方法、***及计算机设备 |
CN109522305A (zh) * | 2018-12-06 | 2019-03-26 | 北京千方科技股份有限公司 | 一种大数据去重方法及装置 |
CN110765756A (zh) * | 2019-10-29 | 2020-02-07 | 北京齐尔布莱特科技有限公司 | 一种文本处理方法、装置、计算设备及介质 |
CN111258966A (zh) * | 2020-01-14 | 2020-06-09 | 软通动力信息技术有限公司 | 一种数据去重方法、装置、设备及存储介质 |
CN112422707A (zh) * | 2020-10-22 | 2021-02-26 | 北京安博通科技股份有限公司 | 域名数据挖掘方法、装置及Redis服务器 |
CN112800004A (zh) * | 2019-10-28 | 2021-05-14 | 浙江宇视科技有限公司 | 一种车牌算法库的控制方法、装置、设备和介质 |
CN113449505A (zh) * | 2021-07-01 | 2021-09-28 | 浪潮天元通信信息***有限公司 | 一种文件比对方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882141A (zh) * | 2009-05-08 | 2010-11-10 | 北京众志和达信息技术有限公司 | 一种实现重复数据数据删除的方法和*** |
CN104636477A (zh) * | 2015-02-15 | 2015-05-20 | 山东卓创资讯集团有限公司 | 一种信息推送前推送列表的去重方法 |
CN106130966A (zh) * | 2016-06-20 | 2016-11-16 | 北京奇虎科技有限公司 | 一种漏洞挖掘检测方法、服务器、装置和*** |
-
2016
- 2016-12-09 CN CN201611129751.9A patent/CN106649646A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882141A (zh) * | 2009-05-08 | 2010-11-10 | 北京众志和达信息技术有限公司 | 一种实现重复数据数据删除的方法和*** |
CN104636477A (zh) * | 2015-02-15 | 2015-05-20 | 山东卓创资讯集团有限公司 | 一种信息推送前推送列表的去重方法 |
CN106130966A (zh) * | 2016-06-20 | 2016-11-16 | 北京奇虎科技有限公司 | 一种漏洞挖掘检测方法、服务器、装置和*** |
Non-Patent Citations (1)
Title |
---|
李凌轩: "《Excel/Access在数据与资料管理中的应用 第1版》", 31 January 2006, 北京:中国青年出版社 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562555A (zh) * | 2017-08-02 | 2018-01-09 | 网宿科技股份有限公司 | 重复数据的清洗方法及服务器 |
CN108376171A (zh) * | 2018-02-27 | 2018-08-07 | 平安科技(深圳)有限公司 | 大数据快速导入的方法、装置、终端设备及存储介质 |
CN108376171B (zh) * | 2018-02-27 | 2020-04-03 | 平安科技(深圳)有限公司 | 大数据快速导入的方法、装置、终端设备及存储介质 |
CN109039803A (zh) * | 2018-07-10 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种处理回调通知消息的方法、***及计算机设备 |
CN109522305A (zh) * | 2018-12-06 | 2019-03-26 | 北京千方科技股份有限公司 | 一种大数据去重方法及装置 |
CN112800004A (zh) * | 2019-10-28 | 2021-05-14 | 浙江宇视科技有限公司 | 一种车牌算法库的控制方法、装置、设备和介质 |
CN112800004B (zh) * | 2019-10-28 | 2023-06-16 | 浙江宇视科技有限公司 | 一种车牌算法库的控制方法、装置、设备和介质 |
CN110765756A (zh) * | 2019-10-29 | 2020-02-07 | 北京齐尔布莱特科技有限公司 | 一种文本处理方法、装置、计算设备及介质 |
CN110765756B (zh) * | 2019-10-29 | 2023-12-01 | 北京齐尔布莱特科技有限公司 | 一种文本处理方法、装置、计算设备及介质 |
CN111258966A (zh) * | 2020-01-14 | 2020-06-09 | 软通动力信息技术有限公司 | 一种数据去重方法、装置、设备及存储介质 |
CN112422707A (zh) * | 2020-10-22 | 2021-02-26 | 北京安博通科技股份有限公司 | 域名数据挖掘方法、装置及Redis服务器 |
CN113449505A (zh) * | 2021-07-01 | 2021-09-28 | 浪潮天元通信信息***有限公司 | 一种文件比对方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649646A (zh) | 一种数据去重的方法及装置 | |
CN105512129B (zh) | 一种海量数据检索方法及装置、海量数据存储方法及*** | |
CN107294801B (zh) | 基于海量实时互联网dpi数据的流式处理方法及*** | |
CN104331435B (zh) | 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法 | |
Vaquero et al. | xDGP: A dynamic graph processing system with adaptive partitioning | |
CN102185841A (zh) | 一种分类数据传输方法及*** | |
CN111858760B (zh) | 一种异构数据库的数据处理方法及装置 | |
CN103888501A (zh) | 虚拟机迁移方法和装置 | |
CN104361031A (zh) | 一种政务大数据预处理***及处理方法 | |
US9405801B2 (en) | Processing a data stream | |
CN103810203A (zh) | 一种数据库管理***连接复用方法及装置 | |
CN103744880B (zh) | 一种基于云计算的dna数据管理方法及*** | |
CN103473271A (zh) | 一种针对大量数据的优化储存方法 | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN204906437U (zh) | 大数据存储应用网络架构 | |
Hurst et al. | Social streams blog crawler | |
de Souza Ramos et al. | Watershed: A high performance distributed stream processing system | |
CN112115123B (zh) | 用于分布式数据库的性能优化的方法和装置 | |
CN110941836A (zh) | 一种分布式垂直爬虫方法及终端设备 | |
CN113806071B (zh) | 一种边缘计算应用的数据同步方法与*** | |
CN107092529B (zh) | Olap服务方法、装置及*** | |
CN115630122A (zh) | 一种数据同步方法、装置、存储介质和计算机设备 | |
CN115510139A (zh) | 数据查询方法和装置 | |
CA2425048C (en) | Method and system for resource access | |
CN113656469B (zh) | 大数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |