CN112333291B - 一种文件防重传方法 - Google Patents
一种文件防重传方法 Download PDFInfo
- Publication number
- CN112333291B CN112333291B CN202110010157.2A CN202110010157A CN112333291B CN 112333291 B CN112333291 B CN 112333291B CN 202110010157 A CN202110010157 A CN 202110010157A CN 112333291 B CN112333291 B CN 112333291B
- Authority
- CN
- China
- Prior art keywords
- file
- uploaded
- storage information
- files
- uploading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002265 prevention Effects 0.000 title description 5
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 3
- 239000002699 waste material Substances 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000010606 normalization Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229940088594 vitamin Drugs 0.000 description 2
- 229930003231 vitamin Natural products 0.000 description 2
- 235000013343 vitamin Nutrition 0.000 description 2
- 239000011782 vitamin Substances 0.000 description 2
- 150000003722 vitamin derivatives Chemical group 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Power Engineering (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文件防重传方法,包括:获取待上传文件,确定所述待上传文件的存储信息;根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征;将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件;若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件。本发明能够降低重复文件上传率,提高文件上传准确率,避免了存储资源的浪费。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种文件防重传方法。
背景技术
目前,随着网络信息时代的来临,人们对文件资源的需求量也是日益上升,人们可以在网络中获取自己需要的文件资源,最为人所知的是网盘和云盘,网盘服务器端能够接收网盘客户端上传的任意文件,为用户提供文件的存储、访问、备份、共享等文件管理功能,但由于网络存储的大量数据中会出现重复的文件,出现重复文件的原因是用户将重复的文件多次上传,这样随着时间的推移,会造成巨大的资源浪费,还会给网络存储服务器造成压力。
因此,如何准确的判断文件是否重复上传是一个亟待解决的问题。
发明内容
本发明提供一种文件防重传方法,以解决计算机文件重复上传的问题。
本发明为实现上述目的所采用的技术方案是:
一种文件防重传方法,包括:
获取待上传文件,确定所述待上传文件的存储信息;
根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征;
将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件;
若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件。
作为本发明的一种实施例:所述获取待上传文件,确定所述待上传文件的存储信息,包括:
获取待上传文件的预设上传时限,并将所述待上传文件传输到虚拟目标服务器,确定实际上传时间;
根据所述待上传文件的预设上传时限和实际上传时间,判断所述待上传文件的实际上传时间是否超过所述预设上传时限;
当所述待上传文件的实际上传时间超过所述预设上传时限,则重新上传所述待上传文件至虚拟目标服务器;
当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件;其中,
所述校验文件包括所述待上传文件的内容参数、格式参数、类型参数和占用空间参数;
根据所述校验文件,确定存储信息。
作为本发明的一种实施例:所述当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件,包括以下步骤:
步骤1:若成功上传所述待上传文件时,则上传所述待上传文件到预设的数据库;
步骤2:通过所述预设的数据库计算出所述待上传文件的MD5值;
步骤3:将所述待上传文件与所述待上传文件的MD5值相匹配,判断所述待上传文件是否出错;
步骤4:并在所述待上传文件没有出错时,提取所述待上传文件的内容参数,生成校验文件。
作为本发明的一种实施例:所述根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征,包括以下步骤:
步骤S1:对所述待上传文件的存储信息进行识别,确定待上传文件字节信息;
步骤S2:根据所述待上传文件字节信息,确定所述待上传文件字节信息的数值;
步骤S3:将所述待上传文件字节信息的数值作为第一倾向性特征;
步骤S4:将所述待上传文件中的词语按照词性进行分类,并将分类后的词语以词性分组,确定分组词语;
步骤S5:根据所述分组词语,统计分组后词语的词频,并根据所述词频确定第二倾向性特征;
步骤S6:提取所述待上传文件中的关键字,根据所述关键字确定语义,根据所述语义确定第三倾向性特征。
步骤S7:根据所述第一倾向性特征、第二倾向性特征和第三倾向性特征的相关度,确定所述待上传文件的倾向性特征。
作为本发明的一种实施例:所述若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件,包括:
对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件;
在存在内容相同的文件时,不上传所述待上传文件;
在不存在内容相同的文件时,上传所述待上传文件至所述目标数据库。
作为本发明的一种实施例:所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,还包括:
将所述相同存储信息的文件进行切块处理,生成多个相同存储信息的文件数据块;
将多个所述相同存储信息的文件数据块进行MD5值计算,确定多个所述相同存储信息的文件数据块的MD5值;
将所述待上传文件进行切块处理,生成多个待上传文件数据块;
将多个所述待上传文件数据块进行MD5值计算,确定多个所述待上传文件数据块的MD5值;
将多个所述相同存储信息的文件数据块的MD5值分别与多个所述待上传文件数据块的MD5值进行比较,判断MD5值是否一致,生成判断结果;
根据所述判断结果,确定所述待上传文件与所述相同存储信息的文件是否内容相同。
作为本发明的一种实施例:所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,包括:
获取多个所述相同存储信息的文件数据块,并确定MD5值;
将所述MD5值通过基于指纹算法的投影激励网络通过不同维度的特征通道投影至全连接映射的多维实值序列:
其中,表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;
其中,n表示文件数据块的总数量;
根据所述离散指纹码,对所述相同存储信息的文件数据块进行筛选,确定内容相同的文件。
作为本发明的一种实施例:所述获取待上传文件,还包括:
对所述待上传文件进行上传延时测试,根据延时测试结果确定网络上传节点。
作为本发明的一种实施例:所述对所述待上传文件进行上传延时测试,根据所述延时测试结果确定网络上传节点,包括:
根据上传所述待上传文件的网络进行网速测试,确定网络延时数值;
将所述网络延时数值与预设的网络延时阈值进行比较,判断是否超过预设的网络延时阈值;
若超过所述预设的网络延时阈值,则进行网络上传节点切换后再上传所述待上传文件;
若未超过所述预设的网络延时阈值,则上传所述待上传文件。
作为本发明的一种实施例:所述将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件,还包括以下步骤:
步骤1:构建目标数据库中文件的内容函数:
其中,表示目标数据库中文件的内容函数;表示目标数据库中第个文
件的内容特征;表示目标数据库中第个文件的权重系数;表示配置常数;表示目标数
据库中第个文件的格式特征;表示目标数据库中第个文件的容量特征;;表示目标数据库共有个文件;表示目标数据库中第个文件
的位置特征;
步骤2:将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件:
步骤3:当有相同文件时,通过构建同类模型,确定相同储存信息:
本发明的有益效果在于:本发明通过上传文件的大小字节数值与数据库中文件的大小字节数值进行比较,从而判断是否有重复上传文件,通过此方法能够快速的进行判断数据库中已经有了用户需要上传的文件,从而达到防止重复上传文件的功能,通过用户终端设备网络延迟测试可以增加文件上传的效率,通过设置上传文件时间期限能够增加文件上传的成功率,通过上传待上传文件相关的校验码文件对待上传文件上传过到数据库过程中检测待上传文件是否出错,能够降低上传文件的出错率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种文件防重传方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如附图1所示,一种文件防重传方法,包括:
步骤S100:获取待上传文件,确定所述待上传文件的存储信息;
步骤S101:根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征;
步骤S102:将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件;
步骤S103:若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件。
上述技术方案的原理在于:本发明在进行文件上传的时候,会首先对待上传的文件内容进行分析,确定文件内容中具体的存储信息,存储信息包括数据存储的类型、格式、内容、容量和存储的方式。然后根据待上传的文件计算待上传文件的倾向性特征,这个倾向性特征包括内容、格式、数据容量等数据综合计算得到,因为两个相同的文件必定是内容相同、格式相同和数据量相同。因为文件传输的目的地是目标数据库(目标数据库可以是终端设备的内存空间或者云空间)。因为本发明最终的目的是判断文件有没有重复,因此本发明采用对比法,判断是否有相同存储信息的文件,根据存储信息判断,也保证了判断的精确性和有效性,最终根据判断结构对待上传数据进行处理。
在一个实施例中:本发明还会通过用户终端设备如计算机或手机等设备进行上传文件,用户首先会把一个需要上传的文件通过计算机设备上的网盘客户端进行文件上传,在进行上传的时候还会对所述计算机设备的网络延迟进行测试,通过网速的测试确定网络延时数值,再把测试出来的网络延时数值与预先设置好的网络延时阈值进行比较,判断是否超过预设的网络延时阈值,如果超过所述预设的网络延时阈值,那么会进行网络上传节点切换,在节点切换之后再上传所述待上传文件,如果未超过所述预设的网络延时阈值,那么就直接上传待上传文件,网盘客户端还会设置一个上传文件的上传时间期限,通过上传时间期限与用户使用所述网盘客户端上传的待上传文件时间进行比较,判断所述待上传文件耗费的时间是否超过所述预设的上传时间期限,如果所述待上传文件耗费的时间超过所述预设的上传时间期限,那么所述网盘客户端将会重新上传所述待上传文件,如果所述待上传文件耗费的时间没有超过所述预设的上传时间期限,那么所述网盘客户端会生成一个与所述待上传文件相关的校验码文件,此校验文件也会通过所述网盘客户端上传到数据库当中,所述数据库会把所述网盘客户端上传的待上传文件进行一次MD5值计算,再把计算出来的MD5值与接收到的所述校验码文件进行比对,看是否一致,如果比对得出的结果是一致的,那么证明所述待上传文件通过所述网盘客户端上传的过程中没有出错,如果对比结果不一致,那么证明所述待上传文件通过所述网盘客户端上传的过程中出现了错误,此时所述网盘客户端将会重新上传所述待上传文件,然后再次进行所述校验码和MD5值的对比,确定所述待传文件到达所述数据库中是否出错,再上传所述待传文件之前,所述计算机设备会先对此待上传文件进行大小的计算,得出所述待上传文件的大小字节,把所述待上传文件的大小字节数值作为所述待上传文件的特征标记,即倾向性特征,通过所述倾向性特征待上传文件与数据库中同样大小字节数值的文件进行对比,找出所述数据库中是否有同样大小直接数值的文件,即相同大小的文件,当所述数据库中不存在相同大小的文件时,则计算机设备就上传所述待上传文件,当所述数据库中存在相同大小的文件一个或一个以上的时候,把相同大小的文件和所述倾向性特征待上传文件进行内容比较,此时有两种情况,第一种是如果内容也相同那么计算机设备就不进行上传所述待上传文件,第二种是如果内容不同那么计算机设备就上传所述待上传文件。
本发明是通过倾向性特征将待上传文件与数据库中同样大小字节数值的文件进行对比,找出所述数据库中是否有同样大小直接数值的文件,即相同大小的文件,当所述数据库中不存在相同大小的文件时,则计算机设备就上传所述待上传文件,当所述数据库中存在相同大小的文件一个或一个以上的时候,把相同大小的文件和所述倾向性特征待上传文件进行内容比较,在内容相同时,计算机设备就不进行上传所述待上传文件,在内容不相同时,计算机设备就上传所述待上传文件。
上述技术方案的有益效果在于:本发明通过上传文件的大小字节数值与数据库中文件的大小字节数值进行比较,从而判断是否有重复上传文件,通过此方法能够快速的进行判断数据库中已经有了用户需要上传的文件,从而达到防止重复上传文件的功能,通过用户终端设备网络延迟测试可以增加文件上传的效率,通过设置上传文件时间期限能够增加文件上传的成功率,通过上传待上传文件相关的校验码文件对待上传文件上传过到数据库过程中检测待上传文件是否出错,能够降低上传文件的出错率。
实施例2:
作为本发明的一种实施例:所述获取待上传文件,确定所述待上传文件的存储信息,包括:
获取待上传文件的预设上传时限,并将所述待上传文件传输到虚拟目标服务器,确定实际上传时间;
根据所述待上传文件的预设上传时限和实际上传时间,判断所述待上传文件的实际上传时间是否超过所述预设上传时限;
当所述待上传文件的实际上传时间超过所述预设上传时限,则重新上传所述待上传文件至虚拟目标服务器;
当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件;其中,
所述校验文件包括所述待上传文件的内容参数、格式参数、类型参数和占用空间参数;
根据所述校验文件,确定存储信息。
上述技术方案的原理为:本发明通过计算机设备上传所述待上传文件时设置一个上传文件的时间期限,当计算机设备上传待传文件的耗费时间超过设置的上传文件的时间期限,那么计算机设备就会重新进行上传待上传文件,如果还是超时,表示文件异常;当计算机设备上传待上传文件耗费时间没有超过设置的上传文件的时间期限,那么计算机设备就会生成一个与所述待上传文件相关的校验码的文件,所述校验码的文件是用来保证所述待上传文件上传过程中的文件不会出错,而且能够突出文件的属性。
上述技术方案的有益效果在于:本发明通过设置一个上传文件的时间期限来判断计算机设备是否成功的把待上传文件上传到数据库中,能够保证文件上传到数据库中,提高文件上传成功率;效验码的设置,不仅可以验证上传后的文件是否正确,还可以转化为存储信息。
实施例3:
作为本发明的一种实施例:所述当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件,包括以下步骤:
步骤1:若成功上传所述待上传文件时,则上传所述待上传文件到预设的数据库;
步骤2:通过所述预设的数据库计算出所述待上传文件的MD5值;
步骤3:将所述待上传文件与所述待上传文件的MD5值相匹配,判断所述待上传文件是否出错;
步骤4:并在所述待上传文件没有出错时,提取所述待上传文件的内容参数,生成校验文件。
上述技术方案的原理为:当待上传文件能成功上传,表示文件符合上传标准,预设数据库接收到上传文件时,预设的数据库会计算出所述待上传文件的MD5值,MD5值就是待上传文件的信息摘要。再通过待上传文件与计算出来的MD5值进行匹配,能够确定计算机设备上传的待上传文件是否出错,当所述待上传文件出错,那么计算机设备将会重新上传所述待上传文件,然后再次将待上传文件与所述MD5值的比较,确认所述待上传文件的上传过程中是否出错,没有出错时,通过待上传文件的内容参数,生成对应的校验参数。
上述技术方案的有益效果在于:本发明通过计算所述待上传文件的MD5值与计算机设备上传的与所述待上传文件进行匹配,从而确认所述待上传文件是否出错,能够提高计算机设备上传文件的准确性,尽力的保证了上传的文件是没有错误的文件,也保证了校验文件时标准没有错误的。
实施例4:
作为本发明的一种实施例:所述根据所述待上传文件的存储信息作为倾向性特征,确定倾向性特征待上传文件,包括以下步骤:
步骤1:对所述待上传文件的存储信息进行识别,确定待上传文件字节信息;
步骤2:根据所述待上传文件字节信息,确定所述待上传文件字节信息的数值;
步骤3:将所述待上传文件字节信息的数值作为第一倾向性特征;
步骤4:将所述待上传文件中的词语按照词性进行分类,并将分类后的词语以词性分组,确定分组词语;
步骤5:根据所述分组词语,统计分组后词语的词频,并根据所述词频确定第二倾向性特征;
步骤6:提取所述待上传文件中的关键字,根据所述关键字确定语义,根据所述语义确定第三倾向性特征。
步骤7:根据所述第一倾向性特征、第二倾向性特征和第三倾向性特征的相关度,确定所述待上传文件的倾向性特征。
上述技术方案的原理为:本发明通过计算机设备去计算所述待上传文件的大小,然后确定所述待上传文件的字节大小,把所述待上传文件的字节大小数值作为倾向性特征,即作为一个文件的标记,能判断数据字数的倾向性。通过词语的词频,表述每个词与出现的次数,通过这个次数确定文件的第二倾向性特征,即每个词语出现的频率的倾向性。最后通过关键字确定语义,基于语义确定文件的第三倾向性。这三个倾向性表示了文件的字节属性,词频属性和语义属性,以此来判段上传的最终目的地是否已经有相同的文件,从而判断是否重复上传文件。
上述技术方案的有益效果在于:本发明通过把所述待上传文件的字节大小数值、词与的词频和语义来得到待上传文件的倾向性,进而可以通过倾向性来通过相关性计算,得到最终的文件倾向性。
实施例5:
作为本发明的一种实施例:所述若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件,包括:
对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件;
在存在内容相同的文件时,不上传所述待上传文件;
在不存在内容相同的文件时,上传所述待上传文件至所述目标数据库。
上述技术方案的原理为:当所述数据库把相同大小的文件和所述倾向性特征待上传文件进行内容比较,此时有两种情况,第一种是如果内容也相同那么计算机设备就不进行上传所述待上传文件,第二种是如果内容不同那么计算机设备就上传所述待上传文件。
上述技术方案的有益效果在于:本发明是基于倾向性特征的比较后,而内容比较时,包括对所述待上传文件的大小数值与所述数据库中的相同大小数值进行比较,当两者数值大小相同时,两者再次进行内容的第二次比较,得出是否内容一致,当内容一致就不上传所述待上传文件,当内容不一致就上传所述待上传文件,通过两次比较,能够更准确的得知文件是否需要上传,降低了文件重复上传概率。
实施例6:
作为本发明的一种实施例:所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,还包括:
将所述相同存储信息的文件进行切块处理,生成多个相同存储信息的文件数据块;
将多个所述相同存储信息的文件数据块进行MD5值计算,确定多个所述相同存储信息的文件数据块的MD5值;
将所述待上传文件进行切块处理,生成多个待上传文件数据块;
将多个所述待上传文件数据块进行MD5值计算,确定多个所述待上传文件数据块的MD5值;
将多个所述相同存储信息的文件数据块的MD5值分别与多个所述待上传文件数据块的MD5值进行比较,判断MD5值是否一致,生成判断结果;
根据所述判断结果,确定所述待上传文件与所述相同存储信息的文件是否内容相同。
上述技术方案的原理:本发明先是通过把相同存储信息的文件进行一个切块处理,进行切块处理之后会生成多个相同存储信息的文件数据块,再把多个所述相同存储信息的文件数据块进行MD5值计算,最终确定多个所述相同存储信息的文件数据块的MD5值,同样的,再把倾向性特征对应的待上传文件进行切块处理,进行切块处理之后会生成多个所述倾向性特征待上传文件数据块,再把多个所述倾向性特征待上传文件数据块进行MD5值计算,最终确定多个所述待上传文件数据块的MD5值,然后将多个所述相同存储信息的文件数据块的MD5值分别与多个所述待上传文件数据块的MD5值进行比较,能够确定各个对应的数据块的MD5值是否一致,如果对比的结果是各个对应的数据块的MD5值是一致时,那么所述待上传文件与所述相同存储信息的文件内容相同,此待上传文件在所述目标数据库中存在,也就表示此待传文件是一个重复的文件,不需要上传,如果对比的结果是各个对应的数据块的MD5值是不一致时,那么所述待上传文件与所述相同存储信息的文件内容不相同,此待上传文件就表明所述目标数据库中不存在,也就表示此待传文件不是一个重复的文件,则需要上传这个文件。
上述技术方案的有益效果为:把所述待上传文件切块为多个所述待上传文件,把所述相同大小的文件切块为多个所述相同大小的文件数据块,再计算出相同大小的文件数据块MD5值与所述待上传文件的数据块MD5值,把两者MD5值进行比较,从而确定内容是否一致,能够更加精准的确认是否上传重复文件。
实施例7:
作为本发明的一种实施例:所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,还包括:
获取多个所述相同存储信息的文件数据块,并确定MD5值;
将所述MD5值通过基于指纹算法的投影激励网络通过不同维度的特征通道投影至全连接映射的多维实值序列:
其中,表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;表示第个文件数据块的MD5值在维度上的投影值;表示MD5值在维度
上的固定常数;
其中,n表示文件数据块的总数量;
根据所述离散指纹码,对所述相同存储信息的文件数据块进行筛选,确定是否存在内容相同的文件。
上述技术方案的原理在:本发明通过结合基于指纹算法的投影映射算法结合本发明MD5算法,判断相同的文件。首先通过MD5算法去计算每个文件数据块的值,然后基于投影映射的方式将MD5的值在三维空间网络中进行多维投影生成多维度的序列,然后基于三维空间网络中的多维度序列进行归一化计算,归一化计算后的值是一个范围,因此,通过这个范围能够对相同存储信息的文件数据进行筛选,因为在文件传输中,范围值已经精确到了{0~1}之间,对于归一化值在这个范围内的数据值,才可能会存在相同文件,属于先行筛选,而在这个范围内,数值相同的文件,才能是相同的文件,属于从精确性上进行精确筛选,进而实现数据的精确筛选。
实施例8:
作为本发明的一种实施例:获取待上传文件,还包括:
对所述待上传文件进行上传延时测试,根据延时测试结果确定网络上传节点。
上述技术方案的原理和有益效果为:本发明在获取待上传文件时,计算机设备还进行了一个上传延时测试,通过所述延时测试的结果来确定网络上传节点,选择网络延迟低的节点能够提高计算机上传文件的效率,还能确保文件上传成功率。
实施例9:
作为本发明的一种实施例:所述对所述待上传文件进行上传延时测试,根据延时测试结果确定网络上传节点,包括:
根据上传所述待上传文件的网络进行网速测试,确定网络延时数值;
将所述网络延时数值与预设的网络延时阈值进行比较,判断是否超过预设的网络延时阈值;
若超过所述预设的网络延时阈值,则进行网络上传节点切换后再上传所述待上传文件;
若未超过所述预设的网络延时阈值,则上传待上传文件。
上述技术方案的原理为:本发明通过对计算机设备网络的测速,从而确定网络的延时数据,在通过与预先设定好的网速阈值进行比较,从而得知此时上传文件的网速是否达到上传文件的要求,如果没有达到上传文件的网速,那么将会切换网络上传节点,从而更好的进行上传文件。
上述技术方案的有益效果在于:本发明通过对计算机设备网络的延时测试结果从而进行上传节点的替换,通过优化网速能够提高上传文件的效率,进而提高重复上传文件的检测效率。
实施例10:
进一步地:所述将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件,还包括以下步骤:
步骤1:构建目标数据库中文件的内容函数:
其中,表示目标数据库中文件的内容函数;表示目标数据库中第个文
件的内容特征;表示目标数据库中第个文件的权重系数;表示配置常数;表示目标数
据库中第个文件的格式特征;表示目标数据库中第个文件的容量特征;;表示目标数据库共有个文件;表示目标数据库中第个文件
的位置特征;
步骤2:将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件:
步骤3:当有相同文件时,通过构建同类模型,确定相同储存信息:
上述技术方案的原理和有益效果在于:本发明首先通过对目标数据库中的文件进行基于特征的函数计算,确定内容函数,然后将已有的倾向性特征和数据库文件中的文件特征(深度特征)进行比较,通过比较来判断是否存在相同储存信息。在存在储存相同信息的情况下构建同类模型,然后计算求得同类的存储信息,有益于节约了文件处理的时间,还划分清楚了储存信息。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种文件防重传方法,其特征在于,包括:
获取待上传文件,确定所述待上传文件的存储信息;
根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征;
将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件;
若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件;
其中,所述将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件,还包括以下步骤:
步骤1:构建目标数据库中文件的内容函数:
其中,H(i)表示目标数据库中文件的内容函数;ai表示目标数据库中第i个文件的内容特征;bi表示目标数据库中第i个文件的权重系数;μ表示配置常数;xi表示目标数据库中第i个文件的格式特征;ki表示目标数据库中第i个文件的容量特征;i=1,2,3,……n;n表示目标数据库共有n个文件;qi表示目标数据库中第i个文件的位置特征;
步骤2:将所述倾向性特征与目标数据库中文件的文件特征进行比较,确定是否有相同存储信息的文件:
其中,所述E表示倾向性特征与目标数据库中文件的文件特征的欧氏距离;yi表示倾向性特征中第j个特征内容的特征参数;当所述P≥1,表示有相同文件;当所述P<1,表示没有相同文件;j=1,2,3,……m;m表示倾向性特征共有m个特征内容;
步骤3:当有相同文件时,通过构建同类模型,确定相同储存信息:
其中,K表示相同存储信息;j=1,2,3,……m;m表示倾向性特征共有m个特征内容。
2.根据权利要求1所述的一种文件防重传方法,其特征在于,所述获取待上传文件,确定所述待上传文件的存储信息,包括:
获取待上传文件的预设上传时限,并将所述待上传文件传输到虚拟目标服务器,确定实际上传时间;
根据所述待上传文件的预设上传时限和实际上传时间,判断所述待上传文件的实际上传时间是否超过所述预设上传时限;
当所述待上传文件的实际上传时间超过所述预设上传时限,则重新上传所述待上传文件至虚拟目标服务器;
当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件;其中,
所述校验文件包括所述待上传文件的内容参数、格式参数、类型参数和占用空间参数;
根据所述校验文件,确定存储信息。
3.根据权利要求2所述的一种文件防重传方法,其特征在于,所述当所述待上传文件的实际上传时间未超过所述预设上传时限,则生成与所述待上传文件相关的校验文件,包括以下步骤:
步骤1:若成功上传所述待上传文件时,则上传所述待上传文件到预设的数据库;
步骤2:通过所述预设的数据库计算出所述待上传文件的MD5值;
步骤3:将所述待上传文件与所述待上传文件的MD5值相匹配,判断所述待上传文件是否出错;
步骤4:并在所述待上传文件没有出错时,提取所述待上传文件的内容参数,生成校验文件。
4.根据权利要求1所述的一种文件防重传方法,其特征在于,所述根据所述待上传文件的存储信息,确定所述待上传文件的倾向性特征,包括以下步骤:
步骤S1:对所述待上传文件的存储信息进行识别,确定待上传文件字节信息;
步骤S2:根据所述待上传文件字节信息,确定所述待上传文件字节信息的数值;
步骤S3:将所述待上传文件字节信息的数值作为第一倾向性特征;
步骤S4:将所述待上传文件中的词语按照词性进行分类,并将分类后的词语以词性分组,确定分组词语;
步骤S5:根据所述分组词语,统计分组后词语的词频,并根据所述词频确定第二倾向性特征;
步骤S6:提取所述待上传文件中的关键字,根据所述关键字确定语义,根据所述语义确定第三倾向性特征;
步骤S7:根据所述第一倾向性特征、第二倾向性特征和第三倾向性特征的相关度,确定所述待上传文件的倾向性特征。
5.根据权利要求1所述的一种文件防重传方法,其特征在于,所述若所述目标数据库不存在相同存储信息的文件,则上传所述待上传文件至所述目标数据库,若所述目标数据库存在相同存储信息的文件,则不上传所述待上传文件,包括:
对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件;
在存在内容相同的文件时,不上传所述待上传文件;
在不存在内容相同的文件时,上传所述待上传文件至所述目标数据库。
6.根据权利要求5所述的一种文件防重传方法,其特征在于,所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,还包括:
将所述相同存储信息的文件进行切块处理,生成多个相同存储信息的文件数据块;
将多个所述相同存储信息的文件数据块进行MD5值计算,确定多个所述相同存储信息的文件数据块的MD5值;
将所述待上传文件进行切块处理,生成多个待上传文件数据块;
将多个所述待上传文件数据块进行MD5值计算,确定多个所述待上传文件数据块的MD5值;
将多个所述相同存储信息的文件数据块的MD5值分别与多个所述待上传文件数据块的MD5值进行比较,判断MD5值是否一致,生成判断结果;
根据所述判断结果,确定所述待上传文件与所述相同存储信息的文件是否内容相同。
7.根据权利要求5所述的一种文件防重传方法,其特征在于,所述若所述目标数据库中有一个或一个以上的相同存储信息的文件,通过对所述待上传文件与所述相同存储信息的文件进行内容对比,判断是否存在内容相同的文件,包括:
获取多个所述相同存储信息的文件数据块,并确定MD5值;
将所述MD5值通过基于指纹算法的投影激励网络通过不同维度的特征通道投影至全连接映射的多维实值序列:
x维序列:
y维序列:
z维序列:
其中,xi表示第i个文件数据块的MD5值在x维度上的投影值;∝表示MD5值在x维度上的固定常数;yi表示第i个文件数据块的MD5值在y维度上的投影值;ρ表示MD5值在y维度上的固定常数;zi表示第i个文件数据块的MD5值在z维度上的投影值;μ表示MD5值在z维度上的固定常数;
将所述x维序列、y维序列和z维序列进行归一化处理,确定离散指纹码:
其中,n表示文件数据块的总数量;
根据所述离散指纹码,对所述相同存储信息的文件数据块进行筛选,确定内容相同的文件。
8.根据权利要求1所述的一种文件防重传方法,其特征在于,所述获取待上传文件,还包括:
对所述待上传文件进行上传延时测试,根据延时测试结果确定网络上传节点。
9.根据权利要求8所述的一种文件防重传方法,其特征在于,所述对所述待上传文件进行上传延时测试,根据延时测试结果确定网络上传节点,包括:
根据上传所述待上传文件的网络进行网速测试,确定网络延时数值;
将所述网络延时数值与预设的网络延时阈值进行比较,判断是否超过预设的网络延时阈值;
若超过所述预设的网络延时阈值,则进行网络上传节点切换后再上传所述待上传文件;
若未超过所述预设的网络延时阈值,则上传所述待上传文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010157.2A CN112333291B (zh) | 2021-01-06 | 2021-01-06 | 一种文件防重传方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010157.2A CN112333291B (zh) | 2021-01-06 | 2021-01-06 | 一种文件防重传方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112333291A CN112333291A (zh) | 2021-02-05 |
CN112333291B true CN112333291B (zh) | 2021-04-30 |
Family
ID=74302325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110010157.2A Active CN112333291B (zh) | 2021-01-06 | 2021-01-06 | 一种文件防重传方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112333291B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064869B (zh) * | 2021-03-23 | 2023-06-13 | 网易(杭州)网络有限公司 | 日志处理方法、装置、发送端、接收端设备及存储介质 |
CN113347451B (zh) * | 2021-06-04 | 2023-02-03 | 平安证券股份有限公司 | 视频上传方法、装置、电子设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407462A (zh) * | 2016-10-10 | 2017-02-15 | 北京恒华伟业科技股份有限公司 | 一种文件处理方法及*** |
EP3349394A1 (en) * | 2017-01-16 | 2018-07-18 | Remote Media, LLC | System, method, and application for exchanging content in a social network environment |
-
2021
- 2021-01-06 CN CN202110010157.2A patent/CN112333291B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407462A (zh) * | 2016-10-10 | 2017-02-15 | 北京恒华伟业科技股份有限公司 | 一种文件处理方法及*** |
EP3349394A1 (en) * | 2017-01-16 | 2018-07-18 | Remote Media, LLC | System, method, and application for exchanging content in a social network environment |
Also Published As
Publication number | Publication date |
---|---|
CN112333291A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112333291B (zh) | 一种文件防重传方法 | |
CN112084383A (zh) | 基于知识图谱的信息推荐方法、装置、设备及存储介质 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
WO2021068563A1 (zh) | 样本数据处理方法、装置、计算机设备及存储介质 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110458296B (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及*** | |
WO2019119635A1 (zh) | 种子用户拓展方法、电子设备及计算机可读存储介质 | |
CN110619535A (zh) | 一种数据处理方法及其装置 | |
CN113420067B (zh) | 目标地点的位置可信度评估方法和装置 | |
CN111107079A (zh) | 一种上传文件检测方法及装置 | |
CN114090393A (zh) | 一种告警级别的确定方法、装置及设备 | |
CN110019193B (zh) | 相似帐号识别方法、装置、设备、***及可读介质 | |
CN113326064A (zh) | 划分业务逻辑模块的方法、电子设备及存储介质 | |
US11308212B1 (en) | Adjudicating files by classifying directories based on collected telemetry data | |
KR101798377B1 (ko) | 개인정보의 비식별화 방법 및 장치 | |
CN112532645A (zh) | 一种物联网设备运行数据监测方法、***及电子设备 | |
CN115348190A (zh) | 一种物联网设备检测方法、***和设备 | |
CN114400071A (zh) | 饮食数据管理方法、相关设备及介质 | |
CN109635057B (zh) | 用电业务处理方法、装置、计算机设备和存储介质 | |
CN116189706A (zh) | 数据传输方法、装置、电子设备和计算机可读存储介质 | |
CN111984812A (zh) | 一种特征提取模型生成方法、图像检索方法、装置及设备 | |
CN111240652A (zh) | 数据处理方法及装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |