CN110096483B

CN110096483B - 一种重复文件检测方法、终端和服务器

Info

Publication number: CN110096483B
Application number: CN201910380465.7A
Authority: CN
Inventors: 李春平; 杨鹏飞
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2021-04-30
Anticipated expiration: 2039-05-08
Also published as: CN110096483A

Abstract

本发明实施例提供了一种重复文件检测方法、终端和服务器，方法包括：在向服务器发送用户需要上传至服务器的待处理文件时，终端获取待处理文件的大小，检测待处理文件的大小所属的目标数值区间，按照目标数值区间对应的文件hash值计算方式，计算待处理文件的hash值，并向服务器发送包含待处理文件的hash值的发送信息，服务器根据发送信息，确定待处文件是否为重复文件，并向终端发送响应结果，响应结果包含待处理文件为重复文件的信息或者待处理文件为非重复文件的信息。基于上述处理，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

Description

一种重复文件检测方法、终端和服务器

技术领域

本发明涉及计算机网络技术领域，特别是涉及一种重复文件检测方法、终端和服务器。

背景技术

随着计算机网络技术的快速发展，用户不但可以很方便的通过视频终端在线观看自己喜欢的视频，还可以将自己拍摄或通过其他途径获取到的视频上传到视频服务器，以便将自己上传的视频分享给其他用户观看。随着服务器接收到越来越多用户上传的视频等文件，这些文件难免会重复。为了避免存储重复的文件，服务器需要对用户上传的文件进行逐一校验，以确定是否为重复的文件。

因此，为避免存储重复文件，现有技术在文件上传完成后，通过计算已上传文件的hash(哈希)值，并将该hash值与已存储文件的hash值进行比较，来判断该上传文件是否为重复文件。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：现有技术通过计算已上传文件的hash值来判断其是否为重复文件的过程，不能及时检测用户上传的文件是否为重复文件。

发明内容

本发明实施例的目的在于提供一种重复文件检测方法、终端和服务器，能及时检测用户上传的文件是否为重复文件。具体技术方案如下：

第一方面，为了达到上述目的，本发明实施例公开了一种重复文件检测方法，所述方法包括：

终端获取用户需要上传至服务器的待处理文件；

所述终端在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；

所述终端检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；

所述终端按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

所述终端向所述服务器发送包含所述待处理文件的hash值的发送信息；

所述终端接收所述服务器针对所述发送信息的响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述终端按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值，包括：

所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值；

计算包含所述待选hash值和所述待处理文件的大小的数据的hash值，将计算得到的hash值作为所述待处理文件的hash值。

可选的，所述目标数值区间为(0，A)；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

所述终端计算所述待处理文件的全量hash值，并将所述全量hash值作为待选hash值。

可选的，所述目标数值区间为[A，B)，其中，B>A；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

所述终端计算包含所述待处理文件预设头部和预设尾部的数据的hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述目标数值区间为[B，+∞)；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

所述终端计算包含所述待处理文件预设头部、预设尾部和预设中部的数据hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述发送信息还包括所述待处理文件的大小。

第二方面，为了达到上述目的，本发明实施例公开了一种重复文件检测方法，所述方法包括：

服务器接收终端发送的包含待处理文件的hash值的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；

所述服务器根据所述发送信息，确定所述待处文件是否为重复文件；

所述服务器向所述终端发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述服务器根据所述发送信息，确定所述待处文件是否为重复文件，包括：

所述服务器检测本地的各存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；

如果本地的各存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；

如果本地的各存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

可选的，所述发送信息还包括所述待处理文件的大小；

所述服务器根据所述发送信息，确定所述待处文件是否为重复文件，包括：

所述服务器根据所述待处理文件的大小确定所述待处理文件所属的目标数值区间；

所述服务器检测所述目标数值区间对应的各个存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；

如果所述目标数值区间对应的各个存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；

如果所述目标数值区间对应的各个存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

第三方面，为了达到上述目的，本发明实施例公开了一种终端，所述终端包括：收发器和处理器；

所述收发器，用于获取用户需要上传至服务器的待处理文件；在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；

所述处理器，用于检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

所述收发器，还用于向所述服务器发送包含所述待处理文件的hash值的发送信息；接收所述服务器针对所述发送信息的响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述处理器，具体用于按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值；计算包含所述待选hash值和所述待处理文件的大小的数据的hash值，将计算得到的hash值作为所述待处理文件的hash值。

可选的，所述目标数值区间为(0，A)；

所述处理器，具体用于计算所述待处理文件的全量hash值，并将所述全量hash值作为待选hash值。

可选的，所述目标数值区间为[A，B)，其中，B>A；

所述处理器，具体用于计算包含所述待处理文件预设头部和预设尾部的数据的hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述目标数值区间为[B，+∞)；

所述处理器，具体用于计算包含所述待处理文件预设头部、预设尾部和预设中部的数据hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述发送信息还包括所述待处理文件的大小。

第四方面，为了达到上述目的，本发明实施例公开了一种服务器，所述服务器包括：收发器和处理器；

所述收发器，用于接收终端发送的包含待处理文件的hash值的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；

所述处理器，用于根据所述发送信息，确定所述待处文件是否为重复文件；

所述收发器，还用于向所述终端发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述处理器，具体用于检测本地的各存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；如果本地的各存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；如果本地的各存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

可选的，所述发送信息还包括所述待处理文件的大小；

所述处理器，具体用于根据所述待处理文件的大小确定所述待处理文件所属的目标数值区间；检测所述目标数值区间对应的各个存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；如果所述目标数值区间对应的各个存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；如果所述目标数值区间对应的各个存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

在本发明实施的又一方面，还提供了一种重复文件检测***，所述***包括终端和服务器；

所述终端，用于获取用户需要上传至服务器的待处理文件；在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；向所述服务器发送包含所述待处理文件的hash值的发送信息；

所述服务器，用于接收所述终端发送的包含待处理文件的hash值的发送信息；根据所述发送信息，确定所述待处文件是否为重复文件；向所述终端发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

所述终端，还用于接收所述服务器针对所述发送信息的响应结果。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一重复文件检测方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第二方面所述的任一重复文件检测方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一重复文件检测方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面所述的任一重复文件检测方法。

本发明实施例提供了一种重复文件检测方法，在向服务器发送用户需要上传至服务器的待处理文件时，终端可以获取待处理文件的大小，检测待处理文件的大小所属的目标数值区间，按照目标数值区间对应的文件hash值计算方式，计算待处理文件的hash值，并向服务器发送包含待处理文件的hash值的发送信息，服务器根据发送信息，确定待处文件是否为重复文件，并向终端发送响应结果，响应结果包含待处理文件为重复文件的信息或者待处理文件为非重复文件的信息。基于上述处理，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种重复文件检测方法的流程图；

图2为本发明实施例提供的一种重复文件检测方法的流程图；

图3为本发明实施例提供的一种终端的结构图；

图4为本发明实施例提供的一种服务器的结构图；

图5为本发明实施例提供的一种重复文件检测***的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术通过计算已上传文件的hash值来判断其是否为重复文件的过程，不能及时检测用户上传的文件是否为重复文件。

为了解决上述问题，本发明提供一种重复文件检测方法，该方法可以分别应用于终端和服务器，终端与服务器网络互通，终端可以为浏览器或其他终端。

终端可以获取用户需要上传至服务器的待处理文件，并向服务器发送待处理文件。在终端向服务器发送待处理文件时，终端还可以获取待处理文件的大小，并检测待处理文件的大小所属的目标数值区间，然后，终端可以按照目标数值区间对应的文件hash值计算方式，计算待处理文件的hash值，并向服务器发送包含待处理文件的hash值的发送信息。

服务器则可以接收终端发送的包含待处理文件的hash值的发送信息，并根据发送信息，确定待处文件是否为重复文件，然后，服务器可以向终端发送响应结果，其中，响应结果包含待处理文件为重复文件的信息或者待处理文件为非重复文件的信息。

基于上述处理，在向服务器发送待处理文件时，终端还可以向服务器发送待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

下面以具体实施例对本发明进行详细介绍。

参见图1，图1为本发明实施例提供的一种重复文件检测方法的流程图，该方法可以应用于终端，该方法可以包括以下步骤：

S101：终端获取用户需要上传至服务器的待处理文件。

其中，待处理文件可以是任意格式的网络资源，例如，待处理文件可以为视频文件，也可以为音频文件，还可以为应用程序的安装包等文件。待处理文件可以是一个，也可以是多个。如果待处理文件是多个，则终端可以根据本发明的重复文件检测方法，依次对每一待处理文件进行处理。

终端可以获取用户需要上传至服务器的文件(即待处理文件)，以对待处理文件进行上传。

一种实现方式中，如果终端为浏览器，终端的显示界面中可以设置有“上传”按钮，当用户点击该“上传”按钮时，终端可以显示待上传文件的列表，该列表中的文件为终端本地的文件，用户可以从终端本地的文件中选择待处理文件，相应的，终端可以获取该待处理文件。

S102：终端在向服务器发送待处理文件时，获取待处理文件的大小。

其中，待处理文件的大小为待处理文件所占的存储空间的大小，例如，待处理文件的大小可以为556MB，或者，待处理文件的大小也可以1000MB。

在终端向服务器发送待处理文件时，终端还可以获取待处理文件的大小，以根据待处理文件的大小的不同数值，进行相应的处理。

S103：终端检测待处理文件的大小所属的目标数值区间。

其中，不同的数值区间分别对应不同的文件hash(哈希)值计算方式。

不同的数值区间的划分方式可以由技术人员根据经验进行设置。例如，可以将大于0且小于第一阈值的文件大小划分为一个数值区间；将大于等于第一阈值，且小于第二阈值的文件大小划分为另一数值区间，第二阈值大于第一阈值；将大于等于第三阈值的文件大小划分为一个数值区间，第三阈值大于第二阈值。第一阈值、第二阈值和第三阈值均为正数。

在终端确定待处理文件的大小后，终端可以确定待处理文件的大小所属的数值区间(即目标数值区间)，进而，可以根据目标数值区间对应文件hash值计算方式，对待处理文件进行处理。

S104：终端按照目标数值区间对应的文件hash值计算方式，计算待处理文件的hash值。

其中，终端可以根据预设算法计算待处理文件的hash值，预设算法可以为sha1(Secure Hash Algorithm，安全哈希算法)或其他算法。

一种实现方式中，终端可以按照目标数值区间对应的文件hash值计算方式，对待处理文件包含的数据进行处理，将处理结果作为待处理文件的hash值。

另一种方式中，为了使计算出的待处理文件的hash值能够更有效地体现待处理文件的唯一性，终端计算待处理文件的hash值的方法可以包括以下步骤：

步骤一，按照目标数值区间对应的文件hash值计算方式，对待处理文件包含的数据进行处理，得到待选hash值。

根据待处理文件的大小，终端计算待选hash值的方法可以包括以下情况：

情况一，当目标数值区间为(0，A)时，终端计算待处理文件的全量hash值，并将全量hash值作为待选hash值。

其中，A的数值可以由技术人员根据经验进行设置，例如，A可以为40M。

一种实现方式中，在终端确定待处理文件的大小属于(0，40M)的情况下，由于待处理文件较小，因此，终端可以对待处理文件包含的所有数据进行哈希运算，即，终端可以计算待处理文件的全量hash值，并将全量hash值作为待选hash值。

情况二，当目标数值区间为[A，B)，其中，B>A时，终端计算包含待处理文件预设头部和预设尾部的数据的hash值，并将计算得到的hash值作为待选hash值。

其中，B的数值、预设头部和预设尾部的大小可以由技术人员根据经验进行设置，例如，B可以为128M，预设头部和预设尾部可以均为20M。

一种实现方式中，在终端确定待处理文件的大小属于[40M，128M)的情况下，如果终端计算待处理文件的全量hash值，则会消耗较多的计算资源，且浪费较多的计算时长。

因此，终端可以对待处理文件进行采样处理，即，终端可以获取待处理文件预设头部的数据和预设尾部的数据，然后，终端可以对预设头部和预设尾部的数据进行拼接，并对拼接后的数据进行哈希运算，将运算的结果作为待选hash值。

情况三，当目标数值区间为[B，+∞)时，终端计算包含待处理文件预设头部、预设尾部和预设中部的数据hash值，并将计算得到的hash值作为待选hash值。

一种实现方式中，在终端确定待处理文件的大小属于[128M，+∞)的情况下，由于待处理文件较大，如果终端计算待处理文件的全量hash值，则会消耗较多的计算资源，且浪费较多的计算时长。

另外，如果终端仅对待处理文件预设头部和预设尾部的数据进行处理，则得到的待选hash值的有效性较低。

因此，终端可以获取待处理文件预设头部的数据、预设尾部的数据，以及预设中部的数据，然后，终端可以对预设头部、预设尾部和预设中部的数据进行拼接，并对拼接后的数据进行哈希运算，将运算的结果作为待选hash值。

可见，上述情况一至情况三中，针对不同大小的待处理文件，终端可以对待处理文件进行不同方式的处理，得到不同的采样数据块，进而，根据采样数据块得到待处理文件的hash值。

一种实现方式中，终端中可以存储有文件大小与采样数目的对应关系，终端可以根据该对应关系，确定待处理文件的大小对应的目标采样数目，然后，终端可以从待处理文件中获取目标采样数目个数据块，对目标采样数目个数据块进行哈希运算，得到待选hash值。

文件大小与采样数目的对应关系可以参考表(1)。

表(1)

文件大小(D)	采样数目(S)
		D＜40M	1
40M≤D＜128M	2
		128M≤D＜512M	3
512M≤D＜1G	4
		1G≤D＜4G	5
4G≤D	6

由表(1)可见，当待处理文件小于40M时，采样数目为1，此时，终端可以不对待处理文件进行采样，采样数据块即待处理文件本身，终端可以直接对待处理文件包含的所有数据进行哈希运算，将运算结果作为待选hash值。

当待处理文件大于等于40M，且小于128M时，采样数目为2，即，终端可以获取待处理文件包含的数据中获取2个预设大小的数据块，作为采样数据块。

当待处理文件大于等于128M，且小于512M时，采样数目为3，即，终端可以从待处理文件包含的数据中获取3个预设大小的数据块，作为采样数据块。

当待处理文件大于等于512M，且小于1G时，采样数目为4，即，终端可以从待处理文件包含的数据中获取4个预设大小的数据块，作为采样数据块。

当待处理文件大于等于1G，且小于4G时，采样数目为5，即，终端可以从待处理文件包含的数据中获取5个预设大小的数据块，作为采样数据块。

当待处理文件大于等于4G时，采样数目为6，即，终端可以从待处理文件包含的数据中获取6个预设大小的数据块，作为采样数据块。

上述预设大小可以为20M，当采样数据块的数目大于等于2时，采样数据块可以包括待处理文件的预设头部和预设尾部的数据。

针对不同格式的两个文件，该两个文件的头部数据的区别较大，该两个文件的尾部数据的区别较大，因此，终端在对待处理文件进行采样时，如果目标采样数目大于等于2，则终端获取的采样数据块可以包括待处理文件预设头部和预设尾部的数据，进而使得采样数据块能够更准确地体现待处理文件的唯一性。

另外，除去待处理文件的预设头部和预设尾部的数据，终端还可以按照预设规则，确定其他采样数据块(即预设中部的数据块，可以称为中部采样数据块)。

一种实现方式中，如果目标采样数目为奇数，且目标采样数目大于2，则终端可以获取待处理文件包含的数据中点处预设大小的数据块(可以称为中点采样数据块)，其余的中部采样数据块则根据预设间隔均匀分布在待处理文件包含的数据中点处的两侧。

如果目标采样数目为偶数，且目标采样数目大于2，则待处理文件包含的数据中点处不进行采样，中部采样数据块根据预设间隔均匀分布在待处理文件包含的数据中点处的两侧。

例如，如果待处理文件大于等于128M，且小于512M，中部采样数据块为1个，则在待处理文件包含的数据中点处获取中点采样数据块，作为中部采样数据块。

如果待处理文件大于等于512M，且小于1G，预设间隔可以为128M，中部采样数据块为2个，该两个中部采样数据块与待处理文件包含的数据中点处之间的距离均为128M。

如果待处理文件大于等于1G，且小于4G，预设间隔可以为256M，中部采样数据块为3个，其中一个中部采样数据块为待处理文件包含的数据中点处的中点采样数据块，其余两个中部采样数据块在待处理文件包含的数据中点处的两侧，且与待处理文件包含的数据中点处的距离均为256M。

如果待处理文件大于等于4G，预设间隔可以为512M，中部采样数据块为4个，分别位于待处理文件包含的数据中点处的两侧，且与待处理文件包含的数据中点处的距离分别为512M和1024M。

步骤二，计算包含待选hash值和待处理文件的大小的数据的hash值，将计算得到的hash值作为待处理文件的hash值。

在得到待选hash值后，终端可以对待选hash值和待处理文件的大小进行拼接，然后，终端可以对拼接后的数据进行哈希运算，将运算的结果作为待处理文件的hash值。

可见，通过本实施例的方法得到的待处理文件的hash值，不仅能够体现待处理文件包含的数据，也能够体现待处理文件的大小，能够有效地体现待处理文件的唯一性。

S105：终端向服务器发送包含待处理文件的hash值的发送信息。

在终端得到待处理文件的hash值后，终端可以向服务器发送包含待处理文件的hash值的发送信息。

相应的，在服务器接收该发送信息后，服务器可以根据该发送信息确定待处理文件是否为重复文件，并向终端返回针对该发送信息的响应结果，响应结果包含待处理文件为重复文件的信息或者待处理文件为非重复文件的信息。服务器的处理步骤将在后续实施例中详细介绍。

进而，终端可以获取服务器发送的响应结果。

一种实现方式中，如果终端为浏览器，终端中的主进程可以用于上传待处理文件，主进程通过file(文件)对象和XMLHttpRequest(Extensible Marku p Language HyperText Transfer Protocol Request，可扩展标记语言超文本传输协议请求)，对待处理文件进行切片，并通过异步上传的方式，将切片后的待处理文件发送至服务器。

同时，终端还可以通过web worker(劳动者)独立线程向服务器发送包含待处理文件的hash值的发送信息。

可见，基于本发明实施例的重复文件检测方法，在向服务器发送待处理文件时，终端还可以向服务器发送待处理文件的hash值，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。另外，基于本发明实施例的重复文件检测方法，可以由终端负责计算待处理文件的hash值，进而可以减轻服务器的计算压力。

可选的，发送信息还可以包括待处理文件的大小，即，在终端在向服务器发送待处理文件的hash值时，终端还可以向服务器发送待处理文件的大小。

相应的，服务器可以结合待处理文件的hash值和待处理文件的大小，确定待处理文件是否为重复文件，能够提高重复文件检测方法的效率。

参见图2，图2为本发明实施例提供的一种重复文件检测方法的流程图，该方法可以应用于服务器，该方法可以包括以下步骤：

S201：服务器接收终端发送的包含待处理文件的hash值的发送信息。

其中，发送信息可以为终端在向服务器发送待处理文件时向服务器发送的。待处理文件可以是任意格式的网络资源，例如，待处理文件可以为视频文件，也可以为音频文件，还可以为应用程序的安装包等文件。

终端可以获取用户需要上传至服务器的文件(即待处理文件)，然后，终端可以向服务器发送待处理文件。

在向服务器发送待处理文件时，终端还可以获取待处理文件的大小，检测待处理文件的大小所属的目标数值区间，按照目标数值区间对应的文件hash值计算方式，计算待处理文件的hash值，并向服务器发送包含待处理文件的hash值的发送信息。终端的处理方法可以参见上述实施例的详细介绍。

相应的，服务器则可以接收到包含待处理文件的hash值的发送信息。

S202：服务器根据发送信息，确定待处文件是否为重复文件。

在服务器获取发送信息后，服务器可以提取待处理文件的hash值，相应的，S202可以包括以下步骤：

服务器检测本地的各存储文件的hash值中，是否存在与待处理文件的hash值相同的hash值，如果存在，确定待处文件为重复文件，如果不存在，确定待处文件为非重复文件。

一种实现方式中，在服务器得到待处理文件的hash值后，服务器可以在本地存储的所有文件的hash值中进行查询，判断是否存在与待处理文件的hash值相同的hash值，如果存在，服务器可以判定已存储与待处理文件相同的文件，即，待处理文件为重复文件，如果不存在，服务器可以判定未存储与待处理文件相同的文件，即，待处理文件为非重复文件。

可见，基于本发明实施例的重复文件检测方法，在向服务器发送待处理文件时，终端还可以向服务器发送待处理文件的hash值，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

S203：服务器向终端发送响应结果。

其中，响应结果包含待处理文件为重复文件的信息或者待处理文件为非重复文件的信息。

在确定出待处理文件是否为重复文件后，服务器则可以向终端发送响应结果，以通告终端待处理文件是否为重复文件。

另外，为了提高重复文件检测方法的效率，发送信息还可以包括待处理文件的大小，相应的，S202可以包括以下步骤：

服务器根据待处理文件的大小确定待处理文件所属的目标数值区间，检测目标数值区间对应的各个存储文件的hash值中，是否存在与待处理文件的hash值相同的hash值，如果存在，确定待处文件为重复文件，如果不存在，确定待处文件为非重复文件。

一种实现方式中，在服务器提取到待处理文件的大小和hash值后，服务器可以确定待处理文件的大小所属的数值区间(即目标数值区间)。关于数值区间，可以参考上述实施例中的详细介绍。

然后，服务器可以在目标数值区间对应的各个存储文件的hash值中进行查询，判断是否存在与待处理文件的hash值相同的hash值，如果存在，服务器可以判定已存储与待处理文件相同的文件，即，待处理文件为重复文件，如果不存在，服务器可以判定未存储与待处理文件相同的文件，即，待处理文件为非重复文件。

基于上述处理，服务器只需在目标数值区间对应的各个存储文件的hash值中进行查询，而不需要在本地存储的所有文件的hash值中查询，进而，能够节省查询时间，提高重复文件检测方法的效率。

另外，当服务器判定待处理文件为非重复文件时，服务器还可以存储待处理文件，并记录待处理文件和待处理文件的hash值的对应关系，进而，当终端再次上传同一文件时，服务器可以确定终端上传的文件为重复文件。

与图1的方法实施例相对应，参见图3，图3为本发明实施例提供的一种终端的结构图，该终端可以包括：收发器301和处理器302；

所述收发器301，用于获取用户需要上传至服务器的待处理文件；在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；

所述处理器302，用于检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

所述收发器301，还用于向所述服务器发送包含所述待处理文件的hash值的发送信息；接收所述服务器针对所述发送信息的响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述处理器302，具体用于按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值；计算包含所述待选hash值和所述待处理文件的大小的数据的hash值，将计算得到的hash值作为所述待处理文件的hash值。

可选的，所述目标数值区间为(0，A)；

所述处理器302，具体用于计算所述待处理文件的全量hash值，并将所述全量hash值作为待选hash值。

可选的，所述目标数值区间为[A，B)，其中，B>A；

所述处理器302，具体用于计算包含所述待处理文件预设头部和预设尾部的数据的hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述目标数值区间为[B，+∞)；

所述处理器302，具体用于计算包含所述待处理文件预设头部、预设尾部和预设中部的数据hash值，并将计算得到的hash值作为所述待选hash值。

可选的，所述发送信息还包括所述待处理文件的大小。

与图2的方法实施例相对应，参见图4，图4为本发明实施例提供的一种服务器的结构图，该服务器可以包括：收发器401和处理器402；

所述收发器401，用于接收终端发送的包含待处理文件的hash值的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；

所述处理器402，用于根据所述发送信息，确定所述待处文件是否为重复文件；

所述收发器401，还用于向所述终端发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

可选的，所述处理器402，具体用于检测本地的各存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；如果本地的各存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；如果本地的各存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

可选的，所述发送信息还包括所述待处理文件的大小；

所述处理器402，具体用于根据所述待处理文件的大小确定所述待处理文件所属的目标数值区间；检测所述目标数值区间对应的各个存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；如果所述目标数值区间对应的各个存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；如果所述目标数值区间对应的各个存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

参见图5，图5为本发明实施例提供的一种重复文件检测***的结构图，该***可以包括终端501和服务器502；

所述终端501，用于获取用户需要上传至服务器502的待处理文件；在向所述服务器502发送所述待处理文件时，获取所述待处理文件的大小；检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件hash值计算方式；按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；向所述服务器502发送包含所述待处理文件的hash值的发送信息；

所述服务器502，用于接收所述终端501发送的包含待处理文件的hash值的发送信息；根据所述发送信息，确定所述待处文件是否为重复文件；向所述终端501发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

所述终端501，还用于接收所述服务器502针对所述发送信息的响应结果。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本发明实施例提供的重复文件检测方法。

具体的，上述重复文件检测方法，包括：

获取用户需要上传至服务器的待处理文件；

在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；

检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；

按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

向所述服务器发送包含所述待处理文件的hash值的发送信息；

接收所述服务器针对所述发送信息的响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

需要说明的是，上述重复文件检测方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

通过运行本发明实施例提供的计算机可读存储介质中存储的指令，在向服务器发送待处理文件时，还可以向服务器发送待处理文件的hash值，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

具体的，上述重复文件检测方法，包括：

接收终端发送的包含待处理文件的hash值的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；

根据所述发送信息，确定所述待处文件是否为重复文件；

向所述终端发送响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

通过运行本发明实施例提供的计算机可读存储介质中存储的指令，不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，能够较早地确定待处理文件是否为重复文件。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本发明实施例提供的重复文件检测方法。

具体的，上述重复文件检测方法，包括：

获取用户需要上传至服务器的待处理文件；

向所述服务器发送包含所述待处理文件的hash值的发送信息；

通过运行本发明实施例提供的计算机程序产品，在向服务器发送待处理文件时，还可以向服务器发送待处理文件的hash值，服务器不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，服务器能够较早地确定待处理文件是否为重复文件。

具体的，上述重复文件检测方法，包括：

根据所述发送信息，确定所述待处文件是否为重复文件；

通过运行本发明实施例提供的计算机程序产品，不需要等待待处理文件全部传送结束，就可以得到待处理文件的hash值，进而，能够较早地确定待处理文件是否为重复文件。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于终端、服务器、***、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种重复文件检测方法，其特征在于，所述方法包括：

终端获取用户需要上传至服务器的待处理文件；

所述终端向所述服务器发送包含所述待处理文件的hash值和待处理文件的大小的发送信息；

2.根据权利要求1所述的方法，其特征在于，所述终端按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标数值区间为(0，A)；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述目标数值区间为[A，B)，其中，B>A；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标数值区间为[B，+∞)；所述终端按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值，包括：

6.根据权利要求1所述的方法，其特征在于，所述发送信息还包括所述待处理文件的大小。

7.一种重复文件检查方法，其特征在于，所述方法包括：

服务器接收终端发送的包含待处理文件的hash值和待处理文件的大小的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；所述hash值是按照以下步骤得到的：终端获取用户需要上传至服务器的待处理文件；所述终端在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；所述终端检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；所述终端按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

所述服务器根据所述发送信息，确定所述待处理文件是否为重复文件；

8.根据权利要求7所述的方法，其特征在于，所述服务器根据所述发送信息，确定所述待处文件是否为重复文件，包括：

9.根据权利要求7所述的方法，其特征在于，所述发送信息还包括所述待处理文件的大小；

10.一种终端，其特征在于，所述终端包括：收发器和处理器；

所述收发器，还用于向所述服务器发送包含所述待处理文件的hash值和待处理文件的大小的发送信息；接收所述服务器针对所述发送信息的响应结果，其中，所述响应结果包含所述待处理文件为重复文件的信息或者所述待处理文件为非重复文件的信息。

11.根据权利要求10所述的终端，其特征在于，所述处理器，具体用于按照所述目标数值区间对应的文件hash值计算方式，对所述待处理文件包含的数据进行处理，得到待选hash值；计算包含所述待选hash值和所述待处理文件的大小的数据的hash值，将计算得到的hash值作为所述待处理文件的hash值。

12.根据权利要求11所述的终端，其特征在于，所述目标数值区间为(0，A)；

13.根据权利要求11或12所述的终端，其特征在于，所述目标数值区间为[A，B)，其中，B>A；

14.根据权利要求13所述的终端，其特征在于，所述目标数值区间为[B，+∞)；

15.根据权利要求10所述的终端，其特征在于，所述发送信息还包括所述待处理文件的大小。

16.一种服务器，其特征在于，所述服务器包括：收发器和处理器；

所述收发器，用于接收终端发送的包含待处理文件的hash值和待处理文件的大小的发送信息，其中，所述发送信息为所述终端在向所述服务器发送所述待处理文件时，向所述服务器发送的；所述hash值是按照以下步骤得到的：终端获取用户需要上传至服务器的待处理文件；所述终端在向所述服务器发送所述待处理文件时，获取所述待处理文件的大小；所述终端检测所述待处理文件的大小所属的目标数值区间，其中，不同的数值区间分别对应不同的文件哈希hash值计算方式；所述终端按照所述目标数值区间对应的文件hash值计算方式，计算所述待处理文件的hash值；

所述处理器，用于根据所述发送信息，确定所述待处理文件是否为重复文件；

17.根据权利要求16所述的服务器，其特征在于，所述处理器，具体用于检测本地的各存储文件的hash值中，是否存在与所述待处理文件的hash值相同的hash值；如果本地的各存储文件的hash值中，存在与所述待处理文件的hash值相同的hash值，确定所述待处文件为重复文件；如果本地的各存储文件的hash值中，不存在与所述待处理文件的hash值相同的hash值，确定所述待处理文件为非重复文件。

18.根据权利要求16所述的服务器，其特征在于，所述发送信息还包括所述待处理文件的大小；