CN110908966B - 一种重删率计算方法、装置、设备及可读存储介质 - Google Patents

一种重删率计算方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110908966B
CN110908966B CN201911122474.2A CN201911122474A CN110908966B CN 110908966 B CN110908966 B CN 110908966B CN 201911122474 A CN201911122474 A CN 201911122474A CN 110908966 B CN110908966 B CN 110908966B
Authority
CN
China
Prior art keywords
file
log information
log
operation request
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911122474.2A
Other languages
English (en)
Other versions
CN110908966A (zh
Inventor
李治鹏
胡永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201911122474.2A priority Critical patent/CN110908966B/zh
Publication of CN110908966A publication Critical patent/CN110908966A/zh
Application granted granted Critical
Publication of CN110908966B publication Critical patent/CN110908966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种重删率计算方法,包括:获取文件操作请求,利用在线重删方法执行文件操作请求并生成对应的日志信息,将日志信息添加到日志中;读取日志,计算存储***的理论占用值;获取存储***的实际占用值,利用理论占用值和实际占用值计算重删率;该方法在获取执行文件操作请求之后利用在线重删方法执行请求,生成对应的日志信息,在计算重删率时利用日志计算存储***的理论占用值,利用理论占用值和实际占用值计算存储***的重删率,无需停止接收业务操作,并且可以准确计算出当前时刻存储***的重删率,提高了重删率计算的准确性;此外,本发明还提供了一种重删率计算装置、设备及计算机可读存储介质,同样具有上述有益效果。

Description

一种重删率计算方法、装置、设备及可读存储介质
技术领域
本发明涉及文件重删技术领域,特别涉及一种重删率计算方法、重删率计算装置、重删率计算设备及计算机可读存储介质。
背景技术
存储空间是一种有限的资源,同一用户上传的不同文件,例如不同时间的日志,或者不同用户上传的文件,例如同一公司的不同人上传的文件,这些被上传的文件中会存在大量内容相同的文件或切分后内容相同的对象。为了节省存储空间,可以对存储集群进行数据重删。在开启重复数据删除功能后,统计重删率,用来衡量、比较不同重删算法、算法优化配置参数以及算法实现细节的效率与性能,变得非常重要。现有重删率计算方法重为离线重删方法(即后台重删方法),即在文件上传完成后,获取集群的容量,停止接收业务操作并启动文件重删功能,在利用重删逻辑删除内容重复文件后,获取重删后的集群存储的容量,利用重删前后的容量计算重删率。但是这样仅能计算一段时间内的平均重删率,计算的重删率不够准确。
因此,如何解决现有重删率计算方法计算的重删率不够准确的问题,是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种重删率计算方法、重删率计算装置、重删率计算设备及计算机可读存储介质,解决了现有重删率计算方法计算的重删率不够准确的问题。
为解决上述技术问题,本发明提供了一种重删率计算方法,包括:
获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,将所述日志信息添加到日志中;
读取所述日志,计算存储***的理论占用值;
获取所述存储***的实际占用值,利用所述理论占用值和所述实际占用值计算重删率。
可选的,所述读取所述日志,计算存储***的理论占用值,包括:
读取所述日志中的各个所述日志信息,确定各个所述日志信息中的文件体积和与所述文件体积对应的状态;其中,所述状态为加状态或减状态;
将所有具有所述加状态的所述文件体积相加,得到第一占用值,将所有具有所述减状态的所述文件体积相加,得到第二占用值;
利用所述第一占用值减去所述第二占用值,得到所述理论占用值。
可选的,当所述文件操作请求为文件上传操作请求时,所述获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,包括:
获取文件上传操作请求和第一文件,对所述第一文件进行条带化切片,得到多个第一对象;
计算各个所述第一对象的第一指纹信息,利用各个所述第一指纹信息依次与指纹信息库进行匹配;
当匹配成功时,将所述第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在所述存储***中;
当匹配不成功时,将所述第一指纹信息对应的第一对象存入所述存储***中;
获取所述第一文件的第一文件体积,利用所述第一文件体积生成上传日志信息,将所述上传日志信息确定为所述日志信息。
可选的,当所述文件操作请求为文件更新操作请求时,所述获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,包括:
获取文件更新操作请求和第二文件,确定所述文件更新操作请求指定的更新文件;
获取所述更新文件的更新文件体积,利用所述更新文件体积生成删除日志信息;
将所述第二文件存入所述存储***中,并获取所述第二文件的第二文件体积,利用所述第二文件体积生成第一日志信息;其中,第一日志信息为上传日志信息;
利用所述第一日志信息和所述删除日志信息构成所述日志信息。
本发明还提供了一种重删率计算装置,包括:
日志更新模块,用于获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,将所述日志信息添加到日志中;
第一计算模块,用于读取所述日志,计算存储***的理论占用值;
第二计算模块,用于获取所述存储***的实际占用值,利用所述理论占用值和所述实际占用值计算重删率。
可选的,所述第一计算模块,包括:
确定单元,用于读取所述日志中的各个所述日志信息,确定各个所述日志信息中的文件体积和与所述文件体积对应的状态;其中,所述状态为加状态或减状态;
第一计算单元,用于将所有具有所述加状态的所述文件体积相加,得到第一占用值,将所有具有所述减状态的所述文件体积相加,得到第二占用值;
第二计算单元,用于利用所述第一占用值减去所述第二占用值,得到所述理论占用值。
可选的,所述日志更新模块,包括:
第一对象获取单元,用于获取文件上传操作请求和第一文件,对所述第一文件进行条带化切片,得到多个第一对象;
匹配单元,用于计算各个所述第一对象的第一指纹信息,利用各个所述第一指纹信息依次与指纹信息库进行匹配;
计数修改单元,用于当匹配成功时,将所述第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在所述存储***中;
存储单元,用于当匹配不成功时,将所述第一指纹信息对应的第一对象存入所述存储***中;
日志生成单元,用于获取所述第一文件的第一文件体积,利用所述第一文件体积生成上传日志信息,将所述上传日志信息确定为所述日志信息。
可选的,所述日志更新模块,包括:
确定单元,用于获取文件更新操作请求和第二文件,确定所述文件更新操作请求指定的更新文件;
第一生成单元,用于获取所述更新文件的更新文件体积,利用所述更新文件体积生成删除日志信息;
第二生成单元,用于将所述第二文件存入所述存储***中,并获取所述第二文件的第二文件体积,利用所述第二文件体积生成第一日志信息;其中,第一日志信息为上传日志信息;
生成单元,用于利用所述第一日志信息和所述删除日志信息构成所述日志信息。
本发明还提供了一种重删率计算设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的重删率计算方法。
本发明还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的重删率计算方法。
本发明提供的重删率计算方法,获取文件操作请求,利用在线重删方法执行文件操作请求并生成对应的日志信息,将日志信息添加到日志中。读取日志,计算存储***的理论占用值。获取存储***的实际占用值,利用理论占用值和实际占用值计算重删率。
可见,该方法在获取执行文件操作请求之后利用在线重删方法执行请求,生成对应的日志信息并将日志信息添加到日志中,在计算重删率时利用日志计算存储***的理论占用值,并检测此时存储***的实际占用值,利用理论占用值和实际占用值计算存储***的重删率。该方法无需停止接收业务操作,可以准确计算出当前时刻存储***的重删率,提高了重删率计算的准确性,解决了现有重删率计算方法计算的重删率不够准确的问题,对重删算法配置参数的优化以及算法实现过程中效率和性能的提高具有重要意义。
此外,本发明还提供了一种重删率计算装置、重删率计算设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种重删率计算方法流程图;
图2为本发明实施例提供的一种理论值计算流程图;
图3为本发明实施例提供的一种文件操作请求处理流程图;
图4为本发明实施例提供的另一种文件操作请求处理流程图;
图5为本发明实施例提供的一种重删率计算装置的结构示意图;
图6为本发明实施例提供的一种重删率计算设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的一种重删率计算方法流程图。该方法包括:
S101:获取文件操作请求,利用在线重删方法执行文件操作请求并生成对应的日志信息,将日志信息添加到日志中。
文件操作请求用于对存储***中的文件或对象进行操作,具体操作可以包括下载、删除、拷贝、更新等,也可以用于向存储***中添加新文件或新对象。一个文件操作请求可以仅包括一个请求,或者可以包括多个请求;当包括多个请求时,各个请求的种类和针对的文件或对象可相同也可以不同。文件操作请求可以包括桶名和文件名等信息,用于对***作的文件或对象进行定位。
在线重删也可以称为实时重删,是指在向存储***中添加新文件时,先利用文件或对象的指纹信息判断文件或对象是否已经被存储,若是,则不将文件或对象进行存储,仅添加相应的信息;若否,则将文件或对象存入存储***中。具体的。这种重删方法可以减少重复数据的落盘,重复数据的删除是实时的。在利用在线重删方法执行文件操作请求后,需要生成对应的日志信息。由于在线重删时重复数据被实时删除,因此无法得知不进行重删时存储***的占用值,因此需要生成相应的日志信息,日志信息记录了本次操作对应的文件或对象的大小,用于记录执行文件操作请求后存储***的理论变化。在生成日志信息后将其添加到存储***的日志中。
S102:读取日志,计算存储***的理论占用值。
在需要计算重删率时,可以读取日志,计算存储***的理论占用值。需要说明的是,本发明实施例并不限定读取日志的时机,例如可以当检测到计算重删率指令时执行读取日志的操作,计算重删率指令可以由操作人员手动输入,也可以当检测到特定指令时自动生成计算重删率指令;或者可以按照预设周期计算重删率,即按照预设周期执行读取日志的操作;或者可以实时计算重删率,即当上一次重删率计算结束后立即执行下一次读取日志的操作。在读取日志时,可以计算存储***的理论占用值,即不进行数据重删操作时,存储***理论上的空间占用值。
S103:获取存储***的实际占用值,利用理论占用值和实际占用值计算重删率。
实际占用值为存储***在执行数据重删操作之后的空间占用值,在获取理论占用值和实际占用值之后,利用理论占用值与实际占用值相除,即可得到重删率。具体的,可以利用X:1的形式表示重删率。
应用本发明实施例提供的重删率计算方法,在获取执行文件操作请求之后利用在线重删方法执行请求,生成对应的日志信息并将日志信息添加到日志中,在计算重删率时利用日志计算存储***的理论占用值,并检测此时存储***的实际占用值,利用理论占用值和实际占用值计算存储***的重删率。该方法无需停止接收业务操作,并且可以准确计算出当前时刻存储***的重删率,提高了重删率计算的准确性,解决了现有重删率计算方法计算的重删率不够准确的问题,对重删算法配置参数的优化以及算法实现过程中效率和性能的提高具有重要意义。
基于上述发明实施例,本发明实施例将说明一种具体的理论占用值计算流程。请参考图2,图2为本发明实施例提供的一种理论值计算流程图,包括:
S201:读取日志中的各个日志信息,确定各个日志信息中的文件体积和与文件体积对应的状态;其中,状态为加状态或减状态。
在本发明实施例中,日志信息中包括文件体积和文件体积对应的状态,每个日志信息中可以包括一个文件体积和一个对应的状态,还可以包括多个文件体积和多个对应的状态。其中,状态为加状态或减状态,加状态用于表示理论占用值增大,减状态用于表示理论占用值减少。不同的文件操作请求在被执行后生成的日志信息中的状态也不同,每种文件操作请求对应的状态可以相同也可以不同,例如当文件操作请求为文件上传操作请求时,生成的日志信息中的状态为加状态;或者当文件操作请求为文件删除请求时,生成的日志信息中的状态为减状态。因此,在计算理论占用值时,需要读取日志中各个日志信息并确定各个日志信息中的文件体积和与文件体积对应的状态。
S202:将所有具有加状态的文件体积相加,得到第一占用值,将所有具有减状态的文件体积相加,得到第二占用值。
在确定文件体积以及对应的状态之后,将所有具有加状态的文件体积相加,即可得到第一占用值。具体的,可以在检测到一个具有加状态的文件体积时将其与之前读取到的加状态文件体积相加,直至将所有具有加状态的文件体积相加,得到第一占用值;或者可以在读取到具有加状态的文件体积时将其进行记录,并在记录完所有具有加状态的文件体积后将所有的加状态文件体积进行相加,得到第一占用值。将所有具有减状态的文件体积进行相加,得到第二占用值,第二占用值的具体计算过程可以与第一占用值计算过程相同,也可以与第一占用值计算过程不同,本实施例对此不做限定。
S203:利用第一占用值减去第二占用值,得到理论占用值。
在得到第一占用值和第二占用值后,利用第一占用值减去第二占用值,即可得到存储***的理论占用值,即存储***不执行数据重删操作时的空间占用值。
基于上述发明实施例,文件操作请求可以为文件上传操作请求,本发明实施例将说明文件上传操作请求的处理过程,请参考图3,图3为本发明实施例提供的一种文件操作请求处理流程图,包括:
S301:获取文件上传操作请求和第一文件,对第一文件进行条带化切片,得到多个第一对象。
由于文件操作请求为文件上传操作请求,因此在获取文件上传操作请求后,还应获取对应的第一文件,即被上传的文件。在获取第一文件后,对第一文件进行条带化切片处理,得到多个第一对象,本实施例并不限定对条带化切片的具体规则和过程,可以参考相关技术,在此不再赘述。需要说明的是,第一对象也可以为一个,例如当第一文件的大小小于切片阈值无法进行切片时,可以将第一文件直接作为第一对象。
S302:计算各个第一对象的第一指纹信息,利用各个第一指纹信息依次与指纹信息库进行匹配。
指纹信息用于表示文件或对象的身份,可以利用散列算法即哈希算法计算得到,例如利用MD5算法计算得到;或者利用SHA1算法计算得到。在得到各个第一对象对应的第一指纹信息时,将各个第一指纹信息一次与存储***对应的指纹信息库进行匹配。判断第一指纹信息是否被存储在指纹信息库中。
S303:当匹配成功时,将第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在存储***中。
当匹配成功时,说明该第一指纹信息对应的第一对象已经被存储在存储***中,在存储***中与该第一对象相对应的对象为第一目标对象。因此在匹配成功时,将第一指纹信息对应的第一目标对象的引用计数加一。
S304:当匹配不成功时,将第一指纹信息对应的第一对象存入存储***中。
当匹配不成功时,说明该第一指纹信息对应的第一对象没有被存储在存储***中,因此将该洗衣指纹信息对应的第一对象存入存储***中。在将第一对象存入存储***之后,还可以执行其他操作,例如将该第一对象的引用计数设置为1,并将对应的第一指纹信息存入指纹信息库中。
S305:获取第一文件的第一文件体积,利用第一文件体积生成上传日志信息,将上传日志信息确定为日志信息。
在对所有第一对象进行处理之后,获取第一文件的第一文件体积,利用第一文件体积生成上传日志信息,并将上传日志信息确定为日志信息。具体的,上传日志信息可以包括第一文件体积对应的状态,即加状态,可以用于计算理论占用值;或者可以将第一文件体积标记为正数,可以用于后续计算理论占用值。
基于上述发明实施例,文件操作请求可以为文件更新操作请求,本发明实施例将说明文件更新操作请求的处理过程,请参考图4,图4为本发明实施例提供的另一种文件操作请求处理流程图,包括:
S401:获取文件更新操作请求和第二文件,确定文件更新操作请求指定的更新文件。
由于文件更新操作请求需要对存储***中的更新文件进行更新,因此在获取文件更新操作请求后,还需要获取对应的第二文件。文件更新操作请求中应记录更新文件的信息,例如可以为更新文件对应的桶名和文件名,或者可以为其他信息。利用文件更新操作请求,可以确定其指定的更新文件。
S402:获取更新文件的更新文件体积,利用更新文件体积生成删除日志信息。
在获取更新文件体积之后,利用更新文件体积生成删除日志信息,具体的,删除日志信息可以包括更新文件体积对应的状态,即减状态,可以用于计算理论占用值;或者可以将更新文件体积标记为负数,可以用于后续计算理论占用值。
S403:将第二文件存入存储***中,并获取第二文件的第二文件体积,利用第二文件体积生成第一日志信息。
需要说明的是,第一日志信息即为上传日志信息。具体的上传日志信息构建方法可以参考S304步骤,在此不再赘述。需要说明的是,第一日志信息和删除日志信息的状态或标记不同。
S404:利用第一日志信息和删除日志信息构成日志信息。
利用第一日志信息和删除日志信息构成文件更新操作请求对应的日志信息,在构成日志信息后,将日志信息添加到日志中。在计算理论占用值时,可以将该日志信息进行解析,得到第一日志信息和删除日志信息,利用第一日志信息和删除日志信息计算理论占用值,具体的,可以先利用第一日志信息和删除日志信息计算整个日志信息的文件体积以及文件体积对应的状态或标记,再利用该文件体积和状态或标记计算理论占用值;或者可以将日志信息解析为两条日志信息,即第一日志信息和删除日志信息,分别利用第二文件体积和对应的状态或标记以及更新文件体积和对应的状态或标记计算理论占用值。
下面对本发明实施例提供的重删率计算装置进行介绍,下文描述的重删率计算装置与上文描述的重删率计算方法可相互对应参照。
请参考图5,图5为本发明实施例提供的一种重删率计算装置的结构示意图,包括:
日志更新模块510,用于获取文件操作请求,利用在线重删方法执行文件操作请求并生成对应的日志信息,将日志信息添加到日志中;
第一计算模块520,用于读取日志,计算存储***的理论占用值;
第二计算模块530,用于获取存储***的实际占用值,利用理论占用值和实际占用值计算重删率。
可选的,第一计算模块520,包括:
确定单元,用于读取日志中的各个日志信息,确定各个日志信息中的文件体积和与文件体积对应的状态;其中,状态为加状态或减状态;
第一计算单元,用于将所有具有加状态的文件体积相加,得到第一占用值,将所有具有减状态的文件体积相加,得到第二占用值;
第二计算单元,用于利用第一占用值减去第二占用值,得到理论占用值。
可选的,日志更新模块510,包括:
第一对象获取单元,用于获取文件上传操作请求和第一文件,对第一文件进行条带化切片,得到多个第一对象;
匹配单元,用于计算各个第一对象的第一指纹信息,利用各个第一指纹信息依次与指纹信息库进行匹配;
计数修改单元,用于当匹配成功时,将第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在存储***中;
存储单元,用于当匹配不成功时,将第一指纹信息对应的第一对象存入存储***中;
日志生成单元,用于获取第一文件的第一文件体积,利用第一文件体积生成上传日志信息,将上传日志信息确定为日志信息。
可选的,日志更新模块510,包括:
确定单元,用于获取文件更新操作请求和第二文件,确定文件更新操作请求指定的更新文件;
第一生成单元,用于获取更新文件的更新文件体积,利用更新文件体积生成删除日志信息;
第二生成单元,用于将第二文件存入存储***中,并获取第二文件的第二文件体积,利用第二文件体积生成第一日志信息;其中,第一日志信息为上传日志信息;
生成单元,用于利用第一日志信息和删除日志信息构成日志信息。
下面对本发明实施例提供的重删率计算设备进行介绍,下文描述的重删率计算设备与上文描述的重删率计算方法可相互对应参照。
请参考图6,图6为本发明实施例提供的一种重删率计算设备的结构示意图,该重删率计算设备包括存储器、处理器,其中:
存储器610,用于保存计算机程序;
处理器620,用于执行计算机程序,以实现上述的重删率计算方法。
下面对本发明实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的重删率计算方法可相互对应参照。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的重删率计算方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上对本发明所提供的一种重删率计算方法、重删率计算装置、重删率计算设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文件重删率计算方法,其特征在于,包括:
获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,将所述日志信息添加到日志中;
读取所述日志,计算存储***的理论占用值;
获取所述存储***的实际占用值,利用所述理论占用值和所述实际占用值计算重删率;
所述读取所述日志,计算存储***的理论占用值,包括:
读取所述日志中的各个所述日志信息,确定各个所述日志信息中的文件体积和与所述文件体积对应的状态;其中,所述状态为加状态或减状态;加状态用于表示理论占用值增大,减状态用于表示理论占用值减少;
将所有具有所述加状态的所述文件体积相加,得到第一占用值,将所有具有所述减状态的所述文件体积相加,得到第二占用值;
利用所述第一占用值减去所述第二占用值,得到所述理论占用值。
2.根据权利要求1所述的重删率计算方法,其特征在于,当所述文件操作请求为文件上传操作请求时,所述获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,包括:
获取文件上传操作请求和第一文件,对所述第一文件进行条带化切片,得到多个第一对象;
计算各个所述第一对象的第一指纹信息,利用各个所述第一指纹信息依次与指纹信息库进行匹配;
当匹配成功时,将所述第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在所述存储***中;
当匹配不成功时,将所述第一指纹信息对应的第一对象存入所述存储***中;
获取所述第一文件的第一文件体积,利用所述第一文件体积生成上传日志信息,将所述上传日志信息确定为所述日志信息。
3.根据权利要求1所述的重删率计算方法,其特征在于,当所述文件操作请求为文件更新操作请求时,所述获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,包括:
获取文件更新操作请求和第二文件,确定所述文件更新操作请求指定的更新文件;
获取所述更新文件的更新文件体积,利用所述更新文件体积生成删除日志信息;
将所述第二文件存入所述存储***中,并获取所述第二文件的第二文件体积,利用所述第二文件体积生成第一日志信息;其中,第一日志信息为上传日志信息;
利用所述第一日志信息和所述删除日志信息构成所述日志信息。
4.一种文件重删率计算装置,其特征在于,包括:
日志更新模块,用于获取文件操作请求,利用在线重删方法执行所述文件操作请求并生成对应的日志信息,将所述日志信息添加到日志中;
第一计算模块,用于读取所述日志,计算存储***的理论占用值;
第二计算模块,用于获取所述存储***的实际占用值,利用所述理论占用值和所述实际占用值计算重删率;
所述第一计算模块,包括:
确定单元,用于读取所述日志中的各个所述日志信息,确定各个所述日志信息中的文件体积和与所述文件体积对应的状态;其中,所述状态为加状态或减状态;加状态用于表示理论占用值增大,减状态用于表示理论占用值减少;
第一计算单元,用于将所有具有所述加状态的所述文件体积相加,得到第一占用值,将所有具有所述减状态的所述文件体积相加,得到第二占用值;
第二计算单元,用于利用所述第一占用值减去所述第二占用值,得到所述理论占用值。
5.根据权利要求4所述的重删率计算装置,其特征在于,所述日志更新模块,包括:
第一对象获取单元,用于获取文件上传操作请求和第一文件,对所述第一文件进行条带化切片,得到多个第一对象;
匹配单元,用于计算各个所述第一对象的第一指纹信息,利用各个所述第一指纹信息依次与指纹信息库进行匹配;
计数修改单元,用于当匹配成功时,将所述第一指纹信息对应的第一目标对象的引用计数加一;其中,第一目标对象被存储在所述存储***中;
存储单元,用于当匹配不成功时,将所述第一指纹信息对应的第一对象存入所述存储***中;
日志生成单元,用于获取所述第一文件的第一文件体积,利用所述第一文件体积生成上传日志信息,将所述上传日志信息确定为所述日志信息。
6.根据权利要求4所述的重删率计算装置,其特征在于,所述日志更新模块,包括:
确定单元,用于获取文件更新操作请求和第二文件,确定所述文件更新操作请求指定的更新文件;
第一生成单元,用于获取所述更新文件的更新文件体积,利用所述更新文件体积生成删除日志信息;
第二生成单元,用于将所述第二文件存入所述存储***中,并获取所述第二文件的第二文件体积,利用所述第二文件体积生成第一日志信息;其中,第一日志信息为上传日志信息;
生成单元,用于利用所述第一日志信息和所述删除日志信息构成所述日志信息。
7.一种文件重删率计算设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至3任一项所述的文件重删率计算方法。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的文件重删率计算方法。
CN201911122474.2A 2019-11-15 2019-11-15 一种重删率计算方法、装置、设备及可读存储介质 Active CN110908966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911122474.2A CN110908966B (zh) 2019-11-15 2019-11-15 一种重删率计算方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911122474.2A CN110908966B (zh) 2019-11-15 2019-11-15 一种重删率计算方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110908966A CN110908966A (zh) 2020-03-24
CN110908966B true CN110908966B (zh) 2022-06-10

Family

ID=69817582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911122474.2A Active CN110908966B (zh) 2019-11-15 2019-11-15 一种重删率计算方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110908966B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744783A (zh) * 2014-01-03 2014-04-23 华为技术有限公司 重复数据删除性能测试方法和装置
CN107391774A (zh) * 2017-09-15 2017-11-24 厦门大学 基于重复数据删除的日志文件***的垃圾回收方法
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储***中重复数据删除方法、存储***及控制器
CN110399348A (zh) * 2019-07-19 2019-11-01 苏州浪潮智能科技有限公司 文件重删方法、装置、***及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738668B2 (en) * 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
WO2015145661A1 (ja) * 2014-03-27 2015-10-01 株式会社日立製作所 ストレージシステム及び重複データ排除方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744783A (zh) * 2014-01-03 2014-04-23 华为技术有限公司 重复数据删除性能测试方法和装置
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储***中重复数据删除方法、存储***及控制器
CN107391774A (zh) * 2017-09-15 2017-11-24 厦门大学 基于重复数据删除的日志文件***的垃圾回收方法
CN110399348A (zh) * 2019-07-19 2019-11-01 苏州浪潮智能科技有限公司 文件重删方法、装置、***及计算机可读存储介质

Also Published As

Publication number Publication date
CN110908966A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN108009016B (zh) 一种资源负载均衡控制方法及集群调度器
CN109271321B (zh) 一种贡献代码数统计方法及装置
CN108363657B (zh) 监控app客户端埋点数据采集完整性的方法、设备以及介质
CN111090620B (zh) 一种文件存储方法、装置、设备及可读存储介质
US20140325151A1 (en) Method and system for dynamically managing big data in hierarchical cloud storage classes to improve data storing and processing cost efficiency
US20150040219A1 (en) User evaluation
CN109284220B (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
CN107885859B (zh) 一种文件个数配额的方法、装置和计算机可读存储介质
CN114564446B (zh) 一种文件存储的方法、装置、***及存储介质
EP3722945B1 (en) Program operation system and program operation method
CN116882520A (zh) 针对预定预测问题的预测方法及***
CN111382031A (zh) 测试方法及装置
CN114281648A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN110908966B (zh) 一种重删率计算方法、装置、设备及可读存储介质
CN111427543B (zh) 一种软件产品开发的处理方法及装置
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN111158594A (zh) 元数据落盘方法、装置、设备及存储介质
CN111209159A (zh) 一种信息处理方法、装置、设备及存储介质
CN112416417A (zh) 一种代码量统计方法、装置、电子设备及存储介质
CN109150571B (zh) 网格映射方法和装置
CN113326408B (zh) 基于时间聚合和位置聚合的数据处理***
CN117472918B (zh) 数据处理方法、***、电子设备及存储介质
CN113282304B (zh) 基于app安装列表识别虚拟机的***
CN117808602B (zh) 基于子账户扩展的热点账户记账方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant