CN110427391B - 确定重复数据的方法、设备和计算机程序产品 - Google Patents

确定重复数据的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN110427391B
CN110427391B CN201810398251.8A CN201810398251A CN110427391B CN 110427391 B CN110427391 B CN 110427391B CN 201810398251 A CN201810398251 A CN 201810398251A CN 110427391 B CN110427391 B CN 110427391B
Authority
CN
China
Prior art keywords
data
determining
input data
input
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810398251.8A
Other languages
English (en)
Other versions
CN110427391A (zh
Inventor
张明
宫晨
吕烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201810398251.8A priority Critical patent/CN110427391B/zh
Priority to US16/359,445 priority patent/US11226935B2/en
Publication of CN110427391A publication Critical patent/CN110427391A/zh
Application granted granted Critical
Publication of CN110427391B publication Critical patent/CN110427391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本公开涉及一种确定重复数据的方法、设备和计算机程序产品。该方法包括:响应于确定输入数据中的、在第一位置处的数据与预定数据相同,确定该输入数据的选定部分的特征值;确定该特征值是否与重复数据模式列表中预先存储的重复数据的模式相匹配;以及响应于确定该特征值与该重复数据的模式相匹配,确定该输入数据与匹配的该模式相关联的参考数据的关联性。

Description

确定重复数据的方法、设备和计算机程序产品
技术领域
本公开涉及预定模式数据的识别与确定。更具体地,本公开涉及确定重复数据的方法、设备及计算机程序产品。
背景技术
当前互联网上充斥着大量的重复数据,对这些重复的网页数据的处理与收录会造成存储和计算资源的浪费。因此有必要识别这些重复数据。
传统的重复数据的识别或确定方法主要是通过将带识别的输入数据直接与已有模式的重复数据的参考数据进行逐缓冲行的比较,以便确定二者是否相同。由于传统的确定重复数据的方法需要将每个输入数据与数据库中对应已有模式的多个参考数据逐缓冲行地进行比较,因此传统的重复数据确定方法存在识别效率较低,并且消耗大量CPU资源的不足之处。
发明内容
本公开提供一种确定重复数据的方法、设备和计算机程序产品,能够有效地减少存储与计算资源的消耗,提高识别重复数据的效率。
根据本公开的第一方面,提供了一种确定重复数据的方法。该方法包括:响应于确定输入数据中的、在第一位置处的数据与预定数据相同,确定该输入数据的选定部分的特征值;确定该特征值是否与重复数据模式列表中预先存储的重复数据的模式相匹配;以及响应于确定该特征值与该重复数据的模式相匹配,确定该输入数据与匹配的该模式相关联的参考数据的关联性。
根据本发明的第二方面,还提供一种确定重复数据的设备。该设备包括:存储器,被配置为存储一个或多个程序;处理单元,耦合至该存储器并且被配置为执行该一个或多个程序使该管理***执行多个动作,该动作包括:响应于确定输入数据中的、在第一位置处的数据与预定数据相同,确定该输入数据的选定部分的特征值;确定该特征值是否与重复数据模式列表中预先存储的重复数据的模式相匹配;以及响应于确定该特征值与该重复数据的模式相匹配,确定该输入数据与匹配的该模式相关联的参考数据的关联性。
根据本公开的第三方面,还提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,该机器可执行指令在被执行时使机器执行根据第一方面的方法的步骤。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的确定重复数据方法的***100的架构图;
图2示出了根据本公开的实施例的确定重复数据的方法200的流程图
图3示出了根据本公开的实施例的第一位置处的数据与预定数据比较方法300的示意图;
图4示出了根据本公开的实施例的第一位置处与第二位置处数据比较方法400的示意图;
图5示出了根据本公开的实施例的第一数据部分与第二数据部分比较方法500的示意图;以及
图6示意性示出了适于用来实现本公开实施例的电子设备600的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上文所描述的,传统的确定重复数据的方法例如是通过将所获取的输入数据与数据库中已有模式所对应的参考数据进行逐缓冲行的比较,直到确定该输入数据是否是已有模式的重复数据。由于上述传统的确定重复数据的方法直接将待识别的每一条输入数据都依次与数据库中多个参考数据中的每条进行逐缓冲行的比较,其计算量是相当可观的,同时无法快速地识别重复数据。尤其是对于处理海量信息的应用场景,例如对于互联网信息的大型搜索引擎,利用传统的重复数据确定方法来识别海量的网页数据将消耗惊人的计算资源,这将导致***性能被明显拖累。
综上,传统的确定重复数据的方法中所存在的不足至少包括:识别重复数据的效率较低,消耗较多的存储与计算资源,以及不适于用于对海量数据的识别。为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种确定重复数据的方案。在该方案中,首先比较输入数据中的、在第一位置处的数据与预定数据是否相同;然后将确定相同的输入数据的选定部分的特征值与重复数据模式列表中已有重复数据的模式相匹配;当特征值与重复数据的模式相匹配时,确定该输入数据与匹配的模式所关联的参考数据的关联性。由于在该方案中,首先通过确定输入数据第一位置处的数据是否与预定数据相同来快速地过滤掉相当比例的明显不是已有模式重复数据的输入数据,然后通过确定输入数据的选定部分的特征值是否与已有重复数据的模式相匹配来高效率地选出与已有模式特征匹配的输入数据,之后再通过将该特征匹配的输入数据与对应的参考数据进行比较,以便准确地确定待识别输入数据与参考数据的关联性。换言之,本公开的方案通过针对输入数据主要位置数据的比较来快速过滤明显不是重复数据的输入数据,然后通过针对输入数据选定区域特征值的比较迅速过滤与已有模式不匹配的输入数据,然后针对有限的匹配的输入数据与对应参考数据的比较来精确确定相关性。显然,在本公开的方案中,通过前两层的比较已经高效率地过滤了明显不是重复数据的输入数据,进入第三层的候选输入数据与对应参考数据的比较仅需针对部分与已有模式匹配的输入数据进行,而且比较比较对象是已经根据匹配关系确定的关联样本数据。由于不需要针对每一条输入数据与数据库中每一个样本数据进行两两相比较。因而,本公开的方案能够有效地减少计算资源的消耗。
图1示出了根据本公开的实施例的确定重复数据方法的***100的架构图。应当理解,如图1所示的***100的结构和功能仅用于示例的目的,而不暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。
如图1所示,***100中包括多个服务器,例如以110、120示例。***100还包括确定重复数据的设备150,上述服务器和确定重复数据的设备150通过网络140相连。其中,确定重复数据的设备150用于通过其上运行的确定重复数据的软件识别输入数据中的重复数据。在一些实施例中,输入数据来自于网络,例如是网页数据。确定重复数据的设备150例如用于识别网络爬虫所获取的网页数据中的重复数据,以便节约针对网页数据的存储与计算资源。
关于确定重复数据的设备150,如图1所示,其进一步包括数据输入模块152、确定重复数据模块154、数据存储模块162。其中,数据输入模块152用于接收输入数据,并将其进一步输入到确定重复数据模块154。确定重复数据模块154用于识别输入数据是否是已有模式的重复数据。数据存储模块162用于基于经由确定重复数据模块154的识别结果进行数据的存储。
确定重复数据模块154进一步包括位置过滤模块156、特征值匹配模块158和缓存行比较模块160。其中位置过滤模块156用于根据输入数据中的、在第一位置处的数据与预定数据的比较,来滤除不是重复数据的输入数据。在一些实施例中,位置过滤模块156可以包括一级过滤比较手段,例如,输入数据中的第一位置处数据与预定数据的过滤比较。在一些实施例中,位置过滤模块156可以包括两级过滤比较手段。例如,首先进行输入数据中的第一位置处和第二位置处数据的过滤比较;然后,针对未被滤除的输入数据,进行第一位置处数据与预定数据的过滤比较。
特征值匹配模块158用于根据输入数据的选定部分的特征值是否与已有重复数据的模式相匹配,来选取候选的输入数据。
缓存行比较模块160用于确定候选输入数据与匹配的模式相关联的参考数据的关联性。
在本公开的实施例中,经由位置过滤模块156的过滤和特征值匹配模块158的匹配,已经高效率地过滤了大部分明显不是重复数据的输入数据,使得缓存行比较模块160仅需针对少量的候选输入数据与匹配的关联参考数据进行比较。而不需要针对每一条输入数据与数据库中每一个参考数据两两进行比较。因而能够有效地减少计算资源的消耗,提高重复数据的识别效率。
图2示出了根据本公开的实施例的一种确定重复数据的方法200的流程图。在图2所示的实施例中,各个动作例如由处理器器执行。方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在框202,响应于确定输入数据中的、在第一位置处的数据与预定数据相同,确定输入数据的选定部分的特征值。在一些实施例中,如果待识别的输入数据中的起始部分的数据与预定数据相同,则确定该输入数据的选定部分(例如起始部分的8个字节数据)的特征值。在一些实施例中,该特征值例如而不限于是基于输入数据的起始部分的8个字节数据所计算的散列值。优选输入数据的起始部分的8个字来计算其散列值的原因例如是,有些***通常仅支持8个字节的重复数据的识别与确定。
关于预定数据,在一些实施例中,基于输入数据的多个质数位置处的数据来确定该预定数据。之所以基于质数位置来确定预定数据,主要是考虑数据生成过程中,所计算的数据位置通常不是质数,因此,如果基于多个质数位置而确定的预定数据与第一位置的数据相同,则表明该输入是重复数据的概率比较高。通过此种确定预定数据的方式,能够非常高效地过滤不是重复数据的输入数据。在一些实施例中,该多个质数位置是基于与输入数据的起始部分与结尾部分之间的多个等分位置分别相临近的质数位置而确定。例如,输入数据长度是10K,例如选取与2k、4k、6k、8k这些等分位置分别相邻的4个质数的位置确定为上述的多个质数位置。选取临近等分位置的质数位置主要基于大量重复数据的统计规律与概率分布特点方面的考虑而确定的。在一些实施例中,质数位置的个数可以根据实际情况确定,例如确定为小于8个,注入2个、4个等等。
图3示出了根据本公开的实施例的第一位置处的数据与预定数据比较方法300的示意图。在图3所示的实施例中,在输入数据302中的起始部分304与结尾部分306之间选择4个质数位置,即310、312、314和316,并从每个质数位置获取2个字节的数据,然后将这8个字节组合成一个8字节的预定数据320。之后,确定输入数据302中的起始部分304的数据与预定数据320是否相同,如322所示。如果相同,则基于该起始部分304的8个字节数据计算散列值。
在一些实施例中,响应于第一位置处的数据与输入数据中的第二位置处的数据相同,确定第一位置处的数据是否与预定数据相同。即在确定第一位置处的数据是否与预定数据相同之前,还会先比较输入数据中的第一位置处的数据与第二位置处的数据是否相同,如果二者相同,再进一步确定第一位置处的数据是否与预定数据相同。采用上述手段的目的是在采用与预定数据比较的过滤方式之前先利用输入数据的第一位置与第二位置处的数据比较的过滤方式快速滤去相当部分的明显不是重复数据的输入数据。这主要是因为经统计与研究发现,重复数据通常在多个位置处重复出现相同数据。换言之,通过设置两级的比较能够更加有效率地滤除不是重复数据的输入数据。上述手段可以理解为对布隆过滤器(Bloom filter)原理在重复数据确定方法这一具体应用场景下的实例化和优化。
图4示出了根据本公开的实施例的第一位置处与第二位置处比较方法400的示意图。在一些实施例中,第一位置处的数据是输入数据的起始部分,第二位置处的数据是输入数据的结尾部分。通过研究发现:重复数据的起始部分与结尾部分通常是相同的,因此通过比较输入数据自身的起始部分与结尾部分是否相同能够迅速过滤明显不重复的输入数据,进而提高识别重复数据的效率。如图4所示,在输入数据402中的起始部分404和结尾部分406,分别选取8个字节的数据,并比较所选取的这两个8个字节的数据是否相同,如408指示。如果二者相同,则表明输入数据有可能是重复数据;需要进一步比较比较其起始部分404与预定数据是否相同。该与预定数据的比较例如如图3所示。在上述是实例中,通过首先确定输入数据中的起始部分与结尾部分的数据是否相同,来滤除一部分非重复的输入数据,如果相同,则进一步通过确定由多个质数位置数据组合而成的预定数据与起始部分是否相同,来进一步滤除另一部分非重复的输入数据,使得进入后续识别或确定步骤的仅是部分可能是潜在的重复数据的输入数据。实际测试数据表明,通过采用上述两级过滤比较,可以滤除超过90%的非重复的输入数据,因此仅有少量的(例如不足10%)的潜在的重复数据进入后续识别步骤。因此,在本公开的方案中的两级过滤比较手段能够更加有效提高识别重复数据的效率,减少了对计算资源的消耗。在框204,确定特征值是否与重复数据模式列表中预先存储的重复数据的模式相匹配。在一些实施例中,重复数据模式列表是由散列表构造的,其中预先设置了许多已有的重复数据的模式。这些已有的重复数据的模式例如由客户提供。每个已有的重复数据的模式都有其相关联的参考数据。例如,选取对应于已有重复数据的模式的参考数据作为自变量,通过一定的函数关系(即哈希函数),将计算出的值作为该参考数据在散列表中的存储地址。该散列表形式的重复数据模式列表足够大,能够有效避免基于不同的参考数据所计算出的值对应到散列表中同一个存储位置的冲突现象。在一些实施例中,在构造好的散列表形式的重复数据模式列表中查询是否存在与候选输入数据的散列值相匹配的已有重复数据的模式。通过采用上述确定手段,能够迅速过滤与已有重复数据模式不相匹配的输入数据,进而快速选取与已有重复数据模式相匹配的候选输入数据。
在框206,响应于确定特征值与重复数据的模式相匹配,确定输入数据与匹配的模式相关联的参考数据的关联性。在一些实施例中,其中确定输入数据与所述参考数据的关联性包括:从输入数据中确定具有预定长度的多个第一数据部分;基于所述参考数据,确定具有预定长度的多个第二数据部分;基于多个第一数据部分和多个第二数据部分的比较,来确定输入数据与所述参考数据的关联性。在本公开的方案中,经由框202、框204处的先后两层比较,已经高效率地过滤了明显不是重复数据的输入数据,使得框206处的输入数据与对应参考数据的比较仅需针对少量的输入数据与匹配的关联参考数据进行比较。而不需要针对每一条输入数据与数据库中每一个参考数据两两进行比较。实际测试数据表明,经由框202、框204处的先后两层比较,进入框206处与对应参考数据进行比较的输入数据仅仅占到所有输入数据的4%。经由输入数据与匹配的模式相关联的参考数据的比较,约2%的数据被确定为与参考数据相关联,2%的数据被确定为与参考数据不相关联。因而,本公开的方案能够有效地减少计算资源的消耗。
图5示出了根据本公开的实施例的第一数据部分与第二数据部分比较方法500的示意图。在图5所示的实施例中,例如从输入数据中选出具有预定长度的多个第一数据部分,例如从输入数据中选出64字节,将其分成两个32字节的数据502和504。基于与相匹配的重复数据模式相关联的参考数据,确定具有预定长度的多个第二数据部分,例如基于参考数据确定两个32字节的数据512和514。然后将数据502和数据512进行逐位的比较,生成第一比较结果522,同时将数据504和数据514进行逐位的比较,生成第二比较结果524。例如在数据502和数据512进行逐位的比较的过程中,字节8的数据506和516在一位上存在差异,则第一比较结果522的字节8的数据528中则指示出该位的不相同。然后,将第一比较结果522与第二比较结果524相与,如526指示,然后经由movemask指令操作,如530指示,来精确确定该候选的输入数据与参考数据的关联性,生成的相关性比较结果532。该相关性比较结果530用于指示该被比较的输入数据与参考数据之间的相关性。在一些实施例中,上述两组32字节的逐位比较可以采用英特尔公司的向量指令‘cmpeq’来实现。由于本公开的重复数据确定方法采用了两组32字节的逐位比较的方式,因此相对于传统的8字节逐位比较的重复数据确定方案而言,能够进一步提高识别重复数据的效率和速度。
在一些实施例中,方法200还可以包括:响应于关联性指示所述输入数据与所述参考数据不相关联,存储所述输入数据。在一些实施例中,当确定输入数据与参考数据相关联,不对所述输入数据进行实际的写入,而是将该输入数据指向数据库中已有的参考数据;当确定输入数据与参考数据不相关联,则将该输入数据写入。通过采用上述手段,可以有效避免与数据库存有的已有模式相同的重复数据被反复写入,进而有效地节约了存储资源和数据写入速度。
图6示意性示出了适于用来实现本公开实施例的电子设备600的框图。设备600可以用于实现执行图1所示的确定重复数据的方法200的***。如图6所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元601执行上文所描述的各个方法和处理,例如执行用于重复数据确定方法200。例如,在一些实施例中,方法100可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU601执行时,可以执行上文描述的方法100的一个或多个操作。备选地,在其他实施例中,CPU601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100的一个或多个动作。
需要进一步说明的是,本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上该仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种确定重复数据的方法,包括:
在第一层比较中,确定输入数据的第一数据部分与来自所述输入数据的多个预定位置的数据相同;
响应于确定所述输入数据的所述第一数据部分与来自所述输入数据的所述多个预定位置的所述数据相同,确定所述输入数据的所述第一数据部分的特征值;
在第二层比较中,确定所述输入数据的所述第一数据部分的所述特征值与重复数据模式列表中预先存储的重复数据模式相匹配;
响应于确定所述输入数据的所述第一数据部分的所述特征值与所述重复数据模式列表中所述预先存储的重复数据模式相匹配,确定所述第一数据部分与关联于所述预先存储的重复数据模式的对应参考数据的关联性;
在第三层比较中,确定所述关联性指示所述第一数据部分与所述对应参考数据不关联;以及
响应于确定所述关联性指示所述第一数据部分与所述对应参考数据不关联,存储所述输入数据。
2.根据权利要求1所述的方法,其中所述多个预定位置与所述输入数据的起始部分与结尾部分之间的多个等分位置分别相临近。
3.根据权利要求1所述的方法,其中来自所述多个预定位置的所述数据基于组合在所述输入数据的第一数目个所述多个预定位置中的每个预定位置处的第二数目个字节中的数据。
4.根据权利要求1所述的方法,其中确定所述第一数据部分与所述对应参考数据的关联性包括:
从所述第一数据部分中确定具有预定长度的多个第一数据部分;
基于所述对应参考数据,确定具有所述预定长度的多个第二数据部分;以及
基于对从所述第一数据部分确定的所述多个第一数据部分和基于所述对应参考数据确定的所述多个第二数据部分的比较,来确定所述关联性。
5.一种确定重复数据的设备,包括:
存储器,被配置为存储一个或多个程序;
处理单元,耦合至所述存储器并且被配置为执行所述一个或多个程序使所述设备执行多个动作,所述动作包括:
在第一层比较中,确定输入数据中第一数据部分与来自所述输入数据的多个预定位置的数据相同;
响应于确定所述输入数据的所述第一数据部分与来自所述输入数据的所述多个预定位置的所述数据相同,确定所述输入数据的所述第一数据部分的特征值;
在第二层比较中,确定所述输入数据的所述第一数据部分的所述特征值与重复数据模式列表中预先存储的重复数据模式相匹配;
响应于确定所述输入数据的所述第一数据部分的所述特征值与所述重复数据模式列表中所述预先存储的重复数据模式相匹配,确定所述第一数据部分与关联于所述预先存储的重复数据模式的对应参考数据的关联性;
在第三层比较中,确定所述关联性指示所述第一数据部分与所述对应参考数据不关联;以及
响应于确定所述关联性指示所述第一数据部分与所述对应参考数据不关联,存储所述输入数据。
6.根据权利要求5所述的设备,其中所述多个预定位置与所述输入数据的起始部分与结尾部分之间的多个等分位置分别相临近。
7.根据权利要求5所述的设备,其中来自所述多个预定位置的所述数据基于组合在所述输入数据的第一数目个所述多个预定位置中的每个预定位置处的第二数目个字节中的数据。
8.根据权利要求5所述的设备,其中确定所述第一数据部分与所述对应参考数据的关联性包括:
从所述第一数据部分中确定具有预定长度的多个第一数据部分;
基于所述对应参考数据,确定具有所述预定长度的多个第二数据部分;以及
基于对从所述第一数据部分确定的所述多个第一数据部分和基于所述对应参考数据确定的所述多个第二数据部分的比较,来确定所述关联性。
9.一种非瞬态计算机可读介质,其上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1-4中任一项所述的方法的步骤。
CN201810398251.8A 2018-04-28 2018-04-28 确定重复数据的方法、设备和计算机程序产品 Active CN110427391B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810398251.8A CN110427391B (zh) 2018-04-28 2018-04-28 确定重复数据的方法、设备和计算机程序产品
US16/359,445 US11226935B2 (en) 2018-04-28 2019-03-20 Method, device and computer program product for determining duplicated data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810398251.8A CN110427391B (zh) 2018-04-28 2018-04-28 确定重复数据的方法、设备和计算机程序产品

Publications (2)

Publication Number Publication Date
CN110427391A CN110427391A (zh) 2019-11-08
CN110427391B true CN110427391B (zh) 2023-07-28

Family

ID=68292561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810398251.8A Active CN110427391B (zh) 2018-04-28 2018-04-28 确定重复数据的方法、设备和计算机程序产品

Country Status (2)

Country Link
US (1) US11226935B2 (zh)
CN (1) CN110427391B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
CN102567218A (zh) * 2010-12-17 2012-07-11 微软公司 用于数据去重复块存储的垃圾收集和热点释放
CN104050098A (zh) * 2013-03-13 2014-09-17 国际商业机器公司 优化的数据去重复的动态高速缓存模块选择的方法和***
CN104205066A (zh) * 2012-04-05 2014-12-10 国际商业机器公司 增加的联机去重复效率
CN104484402A (zh) * 2014-12-15 2015-04-01 杭州华三通信技术有限公司 一种删除重复数据的方法及装置
CN105706041A (zh) * 2013-10-16 2016-06-22 网络装置公司 用于在具有最小协作的数据中心之间进行全局去重的技术
CN105719185A (zh) * 2016-01-22 2016-06-29 杭州复杂美科技有限公司 区块链的数据对比及共识方法
CN106441270A (zh) * 2016-08-31 2017-02-22 乐视控股(北京)有限公司 一种导航方法及导航装置
WO2017100660A1 (en) * 2015-12-09 2017-06-15 Indevr, Inc. Automated agglutination analyzer with contour comparison

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6961721B2 (en) * 2002-06-28 2005-11-01 Microsoft Corporation Detecting duplicate records in database
US7523098B2 (en) * 2004-09-15 2009-04-21 International Business Machines Corporation Systems and methods for efficient data searching, storage and reduction
US8140505B1 (en) * 2005-03-31 2012-03-20 Google Inc. Near-duplicate document detection for web crawling
US8429137B2 (en) * 2010-09-02 2013-04-23 Federal Express Corporation Enterprise data duplication identification
US8554918B1 (en) 2011-06-08 2013-10-08 Emc Corporation Data migration with load balancing and optimization
US9436292B1 (en) 2011-06-08 2016-09-06 Emc Corporation Method for replicating data in a backup storage system using a cost function
US8756249B1 (en) 2011-08-23 2014-06-17 Emc Corporation Method and apparatus for efficiently searching data in a storage system
US8825626B1 (en) * 2011-08-23 2014-09-02 Emc Corporation Method and system for detecting unwanted content of files
US9638537B2 (en) * 2012-06-21 2017-05-02 Cellepathy Inc. Interface selection in navigation guidance systems
US9141554B1 (en) * 2013-01-18 2015-09-22 Cisco Technology, Inc. Methods and apparatus for data processing using data compression, linked lists and de-duplication techniques
US10650066B2 (en) * 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US20170279957A1 (en) * 2013-08-23 2017-09-28 Cellepathy Inc. Transportation-related mobile device context inferences
US10169358B2 (en) * 2015-10-08 2019-01-01 International Business Machines Corporation Data deduplication using a small hash table
US10496322B2 (en) 2016-03-29 2019-12-03 EMC IP Holding Company LLC Backup server selection based on data commonality
US10318387B1 (en) 2017-07-14 2019-06-11 EMC IP Holding Company LLC Automated charge backup modelling

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
CN102567218A (zh) * 2010-12-17 2012-07-11 微软公司 用于数据去重复块存储的垃圾收集和热点释放
CN104205066A (zh) * 2012-04-05 2014-12-10 国际商业机器公司 增加的联机去重复效率
CN104050098A (zh) * 2013-03-13 2014-09-17 国际商业机器公司 优化的数据去重复的动态高速缓存模块选择的方法和***
CN105706041A (zh) * 2013-10-16 2016-06-22 网络装置公司 用于在具有最小协作的数据中心之间进行全局去重的技术
CN104484402A (zh) * 2014-12-15 2015-04-01 杭州华三通信技术有限公司 一种删除重复数据的方法及装置
WO2017100660A1 (en) * 2015-12-09 2017-06-15 Indevr, Inc. Automated agglutination analyzer with contour comparison
CN105719185A (zh) * 2016-01-22 2016-06-29 杭州复杂美科技有限公司 区块链的数据对比及共识方法
CN106441270A (zh) * 2016-08-31 2017-02-22 乐视控股(北京)有限公司 一种导航方法及导航装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用改进粒子群算法的关联规则挖掘;许栋浩等;测绘科学;168-172+139 *

Also Published As

Publication number Publication date
US11226935B2 (en) 2022-01-18
CN110427391A (zh) 2019-11-08
US20190332583A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
CN108255958B (zh) 数据查询方法、装置和存储介质
KR20190136053A (ko) 서비스 데이터를 블록체인 시스템에 기입하기 위한 방법 및 디바이스
CN110609796B (zh) 用于存储***中预取的方法、设备和计算机程序产品
CN107704202B (zh) 一种数据快速读写的方法和装置
US10963298B2 (en) Method, device and computer-readable for managing virtual machines
CN113961510B (zh) 一种文件处理方法、装置、设备及存储介质
CN107357794B (zh) 优化键值数据库的数据存储结构的方法和装置
CN114817651B (zh) 数据存储方法、数据查询方法、装置和设备
CN109213691B (zh) 用于缓存管理的方法和设备
CN117369731A (zh) 一种数据的缩减处理方法、装置、设备及介质
US9934327B2 (en) Mining relevant approximate subgraphs from multigraphs
US10761940B2 (en) Method, device and program product for reducing data recovery time of storage system
CN110427391B (zh) 确定重复数据的方法、设备和计算机程序产品
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
US9286348B2 (en) Dynamic search system
CN112003819B (zh) 识别爬虫的方法、装置、设备和计算机存储介质
CN111143232B (zh) 用于存储元数据的方法、设备和计算机可读介质
CN110413215B (zh) 用于获取访问权限的方法、设备和计算机程序产品
CN110046180B (zh) 一种用于定位相似实例的方法、装置和电子设备
CN110968649B (zh) 用于管理数据集的方法、设备和计算机程序产品
US11822803B2 (en) Method, electronic device and computer program product for managing data blocks
CN115883508B (zh) 一种号码处理方法、装置、电子设备及存储介质
CN113268987B (zh) 一种实体名称识别方法、装置、电子设备和存储介质
US20240028519A1 (en) Data processing method, electronic device and computer program product
CN111831620B (zh) 用于存储管理的方法、设备和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant