CN107529071A

CN107529071A - 一种视频数据处理方法以及装置

Info

Publication number: CN107529071A
Application number: CN201610458362.4A
Authority: CN
Inventors: 徐敘遠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2017-12-29
Anticipated expiration: 2036-06-22
Also published as: CN107529071B

Abstract

本发明实施例公开了一种视频数据处理方法以及装置，其中方法包括：对源视频数据进行帧率变化，得到目标视频数据，并获取目标视频数据中每一帧数据分别对应的SIFT特征；对SIFT特征进行冗余合并处理和二维转换处理，得到目标视频数据对应的视频指纹特征向量；根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。采用本发明，可提高视频指纹的抗噪能力。

Description

一种视频数据处理方法以及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种视频数据处理的方法以及装置。

背景技术

随着互联网的发展，在互联网中存在越来越多的网络视频，而对一些原创视频进行版权保护也变得越来越重要。目前通常是利用基于内容的版权检测对视频的版权进行保护，如基于空间颜色的视频指纹的版权检测。基于空间颜色的视频指纹基本上是利用图片在某个时间段的特定区域的直方图所生成的，而由于颜色的特征会根据视频的不同格式而改变，所以会导致基于空间颜色的视频指纹不具有高的抗噪能力，且基于空间颜色的视频指纹对添加商标、黑边等变化也不具备足够的抗噪能力。

发明内容

本发明实施例提供一种视频数据处理方法以及装置，可提高视频指纹的抗噪能力。

本发明实施例提供了一种视频数据处理方法，包括：

对源视频数据进行帧率变化，得到目标视频数据，并获取所述目标视频数据中每一帧数据分别对应的尺度不变特征转换SIFT特征；

按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量；

根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。

相应地，本发明实施例还提供一种视频数据处理装置，包括：

特征获取模块，用于对源视频数据进行帧率变化，得到目标视频数据，并获取所述目标视频数据中每一帧数据分别对应的尺度不变特征转换SIFT特征；

合并转换模块，用于按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量；

匹配查找模块，用于根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。

本发明实施例通过提取视频中的SIFT特征，并对SIFT特征进行冗余合并处理和二维转换处理，可以减少基于SIFT特征的视频指纹的匹配计算量，即可提升视频指纹的匹配效率，而且SIFT特征本身具有较高的抗噪能力，所以也提高了视频指纹的抗噪能力，因此，基于SIFT特征的视频指纹可以高效、准确地对一些原创视频实现版权保护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频数据处理方法的流程示意图；

图2是本发明实施例提供的另一种视频数据处理方法的流程示意图；

图2a是本发明实施例提供的一种视频时域划分的示意图；

图2b是本发明实施例提供的一种帧数据中的特征匹配点的分布示意图；

图3是本发明实施例提供的一种视频数据处理装置的结构示意图；

图4是本发明实施例提供的一种合并转换模块的结构示意图；

图5是本发明实施例提供的一种冗余合并单元的结构示意图；

图6是本发明实施例提供的一种匹配查找模块的结构示意图；

图7是本发明实施例提供的一种视频指纹选择单元的结构示意图；

图8是本发明实施例提供的一种匹配分析筛选单元的结构示意图；

图9是本发明实施例提供的另一种视频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种视频数据处理的方法的流程示意图，所述方法可以包括：

S101，对源视频数据进行帧率变化，得到目标视频数据，并获取所述目标视频数据中每一帧数据分别对应的尺度不变特征转换SIFT特征；

具体的，服务器通过互联网获取到源视频数据，并对源视频数据进行帧率变化，并将帧率变化后的源视频数据确定为目标视频数据。如获取到的源视频数据的帧率为25帧/秒，然后对源视频数据进行帧率变化，帧率变化后的源视频数据的帧率变为5帧/秒。所述服务器进一步获取所述目标视频数据中每一帧数据分别对应的SIFT(Scale-invariant feature transform，尺度不变特征转换)特征，其中，每一帧数据可以对应有一个或多个SIFT特征。由于SIFT特征对图像缩放、黑边添加、旋转等变化具有较高的抗噪能力，所以基于SIFT特征的视频指纹特征向量对图像缩放、黑边添加、旋转等变化也具有较高的抗噪能力，但是由于SIFT特征量过大，会增加计算复杂度，所以本发明还对提出了缩小SIFT特征量的方法，其中，缩小SIFT特征量的方法具体参见下面的S102步骤。

S102，按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量；

具体的，所述服务器按照预设时长阈值对所述目标视频数据进行时域划分，并分别将每段时域内的帧数据对应的SIFT特征作为时域特征集。例如，若所述预设时长阈值为1秒，则对所述目标视频数据进行时域划分后所得到的每段时域都为1秒，如所述目标视频数据中的0至1秒的视频数据为第一段时域的视频数据，1至2秒的视频数据为第二段时域的视频数据，然后所述服务器分别将每段时域(即每1秒时长)内的所有帧数据对应的SIFT特征作为时域特征集，如1秒内有10帧数据，则可以将这1秒内的10帧数据分别对应的SIFT特征作为这1秒的时域特征集，即用该时域特征集代表这1秒的唯一性。通过将一段时域内的所有SIFT特征组合起来，以作为一段时域的唯一性，能够实现视频指纹的时域性特性，并且能够提高视频指纹的召回率(如某段时域中的某一帧数据丢失了，依然可以根据该段时域的其它帧数据确定出该段时域对应的视频指纹，即提高了视频指纹的召回率)。

所述服务器获得每段时域分别对应的时域特征集后，可以对每段时域内所有帧数据对应的图像进行相似过滤，以减少每个时域特征集中的SIFT特征数量，以便于在后续可以提高视频指纹的匹配速度，同时维持准确率不变。其中，对每段时域内所有帧数据对应的图像进行相似过滤的具体过程可以为：分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并。

进一步的，所述服务器可以根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，以分别作为对应的目标时域特征集合。以其中一个冗余合并后的时域特征集为例，所述服务器可以对该冗余合并后的时域特征集中的各个帧数据所对应的图像进行图像边缘强弱的检测，再以其中一个帧数据为例，所述服务器进一步根据该帧数据中的各SIFT特征分别对应的图像边缘强度参数，按照图像边缘强度参数从强到弱的顺序对该帧数据中的各SIFT特征进行排序，并筛选出排在前N个SIFT特征，对于该冗余合并后的时域特征集中的其它帧数据也是基于同样的方式分别筛选出N个SIFT特征，假设该冗余合并后的时域特征集共有5个帧数据，则可以从该冗余合并后的时域特征集中筛选出5N个SIFT特征，并将这5N个SIFT特征作为该冗余合并后的时域特征集对应的目标时域特征集合。

进一步的，所述服务器再分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的所有二维特征值作为所述目标视频数据对应的视频指纹特征向量。其中，将各SIFT特征进行二维转换处理的目的在于将128字节的SIFT特征降维到128比特，而降维的目的是减少视频指纹的匹配计算量。其中，可以基于median cut算法进行二维转换处理，该二维转换处理的过程可以为：根据SIFT特征，找出其中值，并利用中值作为区分条件，以对所有SIFT特征进行二维转变，如某个二维转变后的SIFT特征为：010100011100……。

S103，根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据；

具体的，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值。所述服务器可以根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量；对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据；当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据，即确定所述源视频数据对匹配度最高的预存储视频数据造成版权侵犯，从而可实现对原创视频的版权保护。

进一步的，获取所述至少一个待匹配视频指纹特征向量的具体过程可以为：分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的预设二维特征值，确定为匹配二维特征值，其中，所述匹配条件可以为所述汉明距离小于E的条件，即在所述视频指纹特征匹配库中选择出所有对应汉明距离小于E的预设二维特征值；所述服务器再根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，以作为至少一个待匹配视频指纹特征向量。其中，所述特征个数条件可以指某预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数在所有预设视频指纹特征向量中排在前H(按照个数从多到少排序)的条件，即所述至少一个待匹配视频指纹特征向量包括所述视频指纹特征匹配库中被确定为所述匹配二维特征值的预设二维特征值个数排在前H的H个预设视频指纹特征向量。

再请参见图2，是本发明实施例提供的另一种视频数据处理方法的流程示意图，所述方法可以包括：

S201，输入源视频数据，并对源视频数据进行帧率变化；

具体的，服务器通过互联网获取到源视频数据，并对源视频数据进行帧率变化，并将帧率变化后的源视频数据确定为目标视频数据。如获取到的源视频数据的帧率为25帧/秒，然后对源视频数据进行帧率变化，帧率变化后的源视频数据的帧率变为5帧/秒。

S202，SIFT特征提取；

具体的，所述服务器进一步获取所述目标视频数据中每一帧数据分别对应的SIFT特征；其中，每一帧数据可以对应有一个或多个SIFT特征。由于SIFT特征对图像缩放、黑边添加、旋转等变化具有较高的抗噪能力，所以基于SIFT特征的视频指纹特征向量对图像缩放、黑边添加、旋转等变化也具有较高的抗噪能力，但是由于SIFT特征量过大，会增加计算复杂度，所以本发明还对提出了缩小SIFT特征量的方法，其中，缩小SIFT特征量的方法具体参见下面的S203-S204步骤。

S203，特征时域组合；

具体的，所述服务器可以按照预设时长阈值对所述目标视频数据进行时域划分，并分别将每段时域内的帧数据对应的SIFT特征组合为时域特征集。例如，若所述预设时长阈值为1秒，则对所述目标视频数据进行时域划分后所得到的每段时域都为1秒，如所述目标视频数据中的0至1秒的视频数据为第一段时域的视频数据，1至2秒的视频数据为第二段时域的视频数据，然后所述服务器分别将每段时域(即每1秒时长)内的所有帧数据对应的多个SIFT特征组合为时域特征集，如1秒内有10帧数据，则可以将这1秒内的10帧数据分别对应的多个SIFT特征组合为这1秒的时域特征集，即用该时域特征集代表这1秒的唯一性。通过将一段时域内的所有SIFT特征组合起来，以作为一段时域的唯一性，能够实现视频指纹的时域性特性，并且能够提高视频指纹的召回率(如某段时域中的某一帧数据丢失了，依然可以根据该段时域的其它帧数据确定出该段时域对应的视频指纹，即提高了视频指纹的召回率)。

进一步的，请一并参见图2a，是本发明实施例提供的一种视频时域划分的示意图，图2a中，每个0.04秒就有一帧数据，图2a中的所述预设时长阈值为1秒，即每隔1秒划分一次时域，因此，图2a中的1.0秒到1.96秒即为被划分出来的一段时域，并将这1.0秒到1.96秒内的所有帧数据分别对应的SIFT特征组合为这1秒的时域特征集。

S204，时域冗余合并；

具体的，所述服务器获得每段时域分别对应的时域特征集后，可以对每段时域内所有帧数据对应的图像进行相似过滤，以减少每个时域特征集中的SIFT特征数量，以便于在后续可以提高视频指纹的匹配速度，同时维持准确率不变。其中，对每段时域内所有帧数据对应的图像进行相似过滤的具体过程可以为：分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并。

进一步的，对每相邻两个帧数据进行对比分析和对SIFT特征进行冗余合并的具体过程可以为：基于预设的匹配算法分别对每个时域特征集中的每相邻两个帧数据对应的SIFT特征进行特征对比，以查找出每相邻两个帧数据之间的特征匹配点；根据所述特征匹配点在对应帧数据中的位置信息，估算每相邻两个帧数据之间的第一homograph(透视投影)映射信息，根据所述第一homograph映射信息判断每相邻两个帧数据之间的对比分析结果；将所述对比分析结果为相似结果的相邻两个帧数据进行时间点融合和多个SIFT特征冗余合并。其中，所述预设的匹配算法可以为RANSAC(RANdom Sample Consensus，随机抽样一致)匹配算法，即所述服务器可以基于RANSAC匹配算法对相邻两个帧数据对应的SIFT特征进行128维的特征对比。其中，所述相邻两个帧数据之间的特征匹配点可以指相邻两个帧数据所对应的图像中完全一样的点，因此，根据所述特征匹配点在相邻两个帧数据所对应的图像中的位置信息，即可估算相邻两个帧数据之间的第一homograph映射信息，并根据第一homograph映射信息判定相邻两个帧数据所对应的图像的相似性，如无法估算出第一homograph映射信息或第一homograph映射信息的变形过大时，可以确定相邻两个帧数据所对应的图像不相似(即相邻两个帧数据之间的对比分析结果为不相似结果)。其中，对相邻两个帧数据进行时间点融合即是指将相邻两个帧数据所对应的图像进行融合(即将相同部分合并，不同部分均保留)，使得两个帧数据变成在一个时间点(该时间点可以为靠后的帧数据的时间点，或者可以是两个帧数据的时间点的平均值)上的融合后的帧数据；其中，对相邻两个帧数据进行多个SIFT特征冗余合并是指将相邻两个帧数据中每对互相匹配的SIFT特征合并为一个SIFT特征，并保留不匹配的SIFT特征。例如，目标视频数据中的其中一段时域包含5个帧数据，则可以分别判定该段时域对应的时域特征集中的第一个帧数据和第二个帧数据、第二个帧数据和第三个帧数据、第三个帧数据和第四个帧数据、第四个帧数据和第五个帧数据之间的相似性，若检测出第一个帧数据和第二个帧数据为一对相似图像，第二个帧数据和第三个帧数据为一对相似图像，其余的均为不相似，则可以将第一个帧数据、第二个帧数据和第三个帧数据进行融合，以得到融合帧数据，并将第一个帧数据、第二个帧数据和第三个帧数据分别对应的多个SIFT特征进行冗余合并，因此，该段时域对应的时域特征集将包括融合帧数据、第四个帧数据、第五个帧数据分别对应的多个SIFT特征，从而实现了缩小时域特征集中的SIFT特征量。

请一并参见图2b，是本发明实施例提供的一种帧数据中的特征匹配点的分布示意图，图2b中的帧数据A和帧数据B为一对相邻的帧数据，帧数据A和帧数据B之间的每一条连线的两个端点均为一对特征匹配点，帧数据A和帧数据B中的所有特征匹配点是根据帧数据A中的所有SIFT特征、帧数据B中的所有SIFT特征以及RANSAC匹配算法所查找出来的，再根据这些特征匹配点在帧数据A和帧数据B中的位置即可估算出帧数据A和帧数据B之间的homograph映射信息，进而根据homograph映射信息判定帧数据A和帧数据B之间的相似性。

可选的，在执行S205之前，所述服务器可以根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，以分别作为对应的目标时域特征集合。以其中一个冗余合并后的时域特征集为例，所述服务器可以对该冗余合并后的时域特征集中的各个帧数据所对应的图像进行图像边缘强弱的检测，再以其中一个帧数据为例，所述服务器进一步根据该帧数据中的各SIFT特征分别对应的图像边缘强度参数，按照图像边缘强度参数从强到弱的顺序对该帧数据中的各SIFT特征进行排序，并筛选出排在前N个SIFT特征，对于该冗余合并后的时域特征集中的其它帧数据也是基于同样的方式分别筛选出N个SIFT特征，假设该冗余合并后的时域特征集共有5个帧数据，则可以从该冗余合并后的时域特征集中筛选出5N个SIFT特征，并将这5N个SIFT特征作为该冗余合并后的时域特征集对应的目标时域特征集合。

S205，特征二维化；

具体的，所述服务器再分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的二维特征值作为所述目标视频数据对应的视频指纹特征向量。其中，将各SIFT特征进行二维转换处理的目的在于将128字节的SIFT特征降维到128比特，而降维的目的是减少视频指纹的匹配计算量。其中，可以基于median cut算法进行二维转换处理，该二维转换处理的过程可以为：根据SIFT特征，找出其中值，并利用中值作为区分条件，以对所有SIFT特征进行二维转变，如某个二维转变后的SIFT特征为：010100011100……。

S206，在预设的视频指纹特征匹配库中进行匹配；

具体的，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值。所述服务器获取到所述目标视频数据对应的视频指纹特征向量后，可以分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的多个预设二维特征值，以确定为多个匹配二维特征值，其中，所述匹配条件可以为所述汉明距离小于E的条件，即在所述视频指纹特征匹配库中选择出所有对应汉明距离小于E的预设二维特征值；所述服务器再根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，以作为至少一个待匹配视频指纹特征向量。其中，所述特征个数条件可以指某预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数在所有预设视频指纹特征向量中排在前H(按照个数从多到少排序)的条件，即所述至少一个待匹配视频指纹特征向量包括所述视频指纹特征匹配库中被确定为所述匹配二维特征值的预设二维特征值个数排在前H的H个预设视频指纹特征向量。

S207，空域匹配分析；

具体的，所述服务器将所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据确定为至少一个待匹配预存储视频数据(若所述视频指纹特征匹配库中不存在满足匹配条件的预设二维特征值，则也就不存在与所述目标视频数据对应的至少一个待匹配预存储视频数据，且此时可以确定所述源视频数据没有对所述视频指纹特征匹配库中的各预存储视频数据造成版权侵犯)，并将每个待匹配视频指纹特征向量中每个匹配二维特征值对应的时间点确定为所述每个待匹配视频指纹特征向量分别对应的至少一个匹配时间点。所述服务器再分别计算所述每个待匹配预存储视频数据中各匹配时间点上的数据帧与所述目标视频数据中满足所述匹配条件的对应时间点上的数据帧之间的第二homograph映射信息，根据所述第二homograph映射信息查找所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧，以获得所述至少一对满足相似条件的数据帧对应的时间信息，即空域匹配分析的目的在于分析出已满足所述匹配条件的时间点中有哪些时间点对应的数据帧之间具有相似性。例如，所述目标视频数据中的2.0秒的帧数据中的二维特征值与某待匹配预存储视频数据中的4.0秒的帧数据中的多个预设二维特征值满足所述匹配条件，则可以确定该待匹配预存储视频数据中的4.0秒为匹配时间点，并根据该待匹配预存储视频数据中的4.0秒的帧数据中的各特征匹配点(此处的特征匹配点即为满足所述匹配条件的预设二维特征值对应的特征点)的位置信息和所述目标视频数据中的2.0秒的帧数据中的各特征匹配点(此处的特征匹配点即为满足所述匹配条件的二维特征值对应的特征点)的位置信息，估算该待匹配预存储视频数据中的4.0秒的帧数据与所述目标视频数据中的2.0秒的帧数据之间的第二homograph映射信息，并根据所述第二homograph映射信息确定这两个帧数据是否满足相似条件，对于该待匹配预存储视频数据中的其它数据帧也可以通过同样的方式确定出与所述目标视频数据中对应的帧数据是否满足相似条件。

S208，时域匹配分析；

具体的，所述服务器再根据所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧的时间信息，分别计算所述每个待匹配预存储视频数据与所述目标视频数据之间的时间点映射关系，并根据所述时间点映射关系估算所述每个待匹配预存储视频数据与所述目标视频数据之间的匹配时长；例如，若所述目标视频数据中的1.0秒的帧数据与某待匹配预存储视频数据中的1.0秒的帧数据满足所述相似条件，所述目标视频数据中的2.0秒的帧数据与该待匹配预存储视频数据中的4.0秒的帧数据满足所述相似条件，所述目标视频数据中的3.0秒的帧数据与该待匹配预存储视频数据中的7.0秒的帧数据满足所述相似条件，则存在3对满足相似条件的数据帧的时间信息，分别为(1.0，1.0)、(2.0，4.0)、(3.0，7.0)，然后将根据3对满足相似条件的数据帧的时间信息计算该待匹配预存储视频数据与所述目标视频数据之间的时间点映射关系，所述时间点映射关系包括时间偏移映射关系和时间缩放映射关系，所述时间偏移映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间偏移参数，所述时间缩放映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间缩放参数。所述时间点映射关系可以为方程：at₁+bt₂＝c(t₁是指所述目标视频数据的时间点，t₂是指该该待匹配预存储视频数据的时间点，如t₁＝2时，则t₂＝4)，通过构造此方程可以允许视频指纹在时域上进行缩放或偏移，之后再根据计算好的方程并利用最小平方法估计该匹配预存储视频数据的时域变形信息(时域变形信息即为所述时间偏移参数和/或所述时间缩放参数)，从而确定出该匹配预存储视频数据的匹配时长，如若确定出该匹配预存储视频数据在1.0秒到4.0秒与所述目标视频数据相匹配，且6.0秒到7.0秒也与所述目标视频数据相匹配，从而可以得知该匹配预存储视频数据在1.0秒到7.0秒内的匹配时长为4秒。

S209，输出匹配结果；

具体的，所述服务器进一步根据所述匹配时长在所述至少一个待匹配预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据，其中，所述匹配度可以为待匹配预存储视频数据的匹配时长百分比，即一个待匹配预存储视频数据的匹配时长百分比＝该待匹配预存储视频数据的匹配时长/该待匹配预存储视频数据的总时长，因此，可以将所述至少一个待匹配预存储视频数据中具有最大匹配时长百分比的待匹配预存储视频数据确定为匹配度最高的预存储视频数据。所述服务器在找出匹配度最高的预存储视频数据后，即可进一步判定所述目标视频数据是否对匹配度最高的预存储视频数据造成版权侵犯，即当所查找出的匹配度最高的预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据，从而可以实现对原创视频的版权保护。

请参见图3，是本发明实施例提供的一种视频数据处理装置1的结构示意图，所述视频数据处理装置1可以应用于服务器中，所述视频数据处理装置1可以包括：特征获取模块10、合并转换模块20、匹配查找模块30；

所述特征获取模块10，用于对源视频数据进行帧率变化，得到目标视频数据，并获取所述目标视频数据中每一帧数据分别对应的尺度不变特征转换SIFT特征；

具体的，所述特征获取模块10通过互联网获取到源视频数据，并对源视频数据进行帧率变化，并将帧率变化后的源视频数据确定为目标视频数据。如获取到的源视频数据的帧率为25帧/秒，然后所述特征获取模块10对源视频数据进行帧率变化，帧率变化后的源视频数据的帧率变为5帧/秒。所述特征获取模块10进一步获取所述目标视频数据中每一帧数据分别对应的SIFT特征。由于SIFT特征对图像缩放、黑边添加、旋转等变化具有较高的抗噪能力，所以基于SIFT特征的视频指纹特征向量对图像缩放、黑边添加、旋转等变化也具有较高的抗噪能力。

所述合并转换模块20，用于按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量；

具体的，所述合并转换模块20按照预设时长阈值对所述目标视频数据进行时域划分，并分别将每段时域内的帧数据对应的SIFT特征作为时域特征集。例如，若所述预设时长阈值为1秒，则对所述目标视频数据进行时域划分后所得到的每段时域都为1秒，如所述目标视频数据中的0至1秒的视频数据为第一段时域的视频数据，1至2秒的视频数据为第二段时域的视频数据，然后所述合并转换模块20分别将每段时域(即每1秒时长)内的所有帧数据对应的多个SIFT特征作为时域特征集，如1秒内有10帧数据，则可以将这1秒内的10帧数据分别对应的多个SIFT特征作为这1秒的时域特征集，即用该时域特征集代表这1秒的唯一性。通过将一段时域内的所有SIFT特征组合起来，以作为一段时域的唯一性，能够实现视频指纹的时域性特性，并且能够提高视频指纹的召回率(如某段时域中的某一帧数据丢失了，依然可以根据该段时域的其它帧数据确定出该段时域对应的视频指纹，即提高了视频指纹的召回率)。

所述合并转换模块20获得每段时域分别对应的时域特征集后，可以对每段时域内所有帧数据对应的图像进行相似过滤，以减少每个时域特征集中的SIFT特征数量，以便于在后续可以提高视频指纹的匹配速度，同时维持准确率不变。其中，对每段时域内所有帧数据对应的图像进行相似过滤的具体过程可以为：分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并。

进一步的，所述合并转换模块20还可以根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，以分别作为对应的目标时域特征集合。

进一步的，所述合并转换模块20再分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的所有二维特征值作为所述目标视频数据对应的视频指纹特征向量。其中，将各SIFT特征进行二维转换处理的目的在于将128字节的SIFT特征降维到128比特，而降维的目的是减少视频指纹的匹配计算量。其中，可以基于median cut算法进行二维转换处理，该二维转换处理的过程可以为：根据SIFT特征，找出其中值，并利用中值作为区分条件，以对所有SIFT特征进行二维转变，如某个二维转变后的SIFT特征为：010100011100……。

所述匹配查找模块30，用于根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据；

具体的，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值。所述匹配查找模块30可以根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量；再对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据；当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据，即确定所述源视频数据对匹配度最高的预存储视频数据造成版权侵犯，从而可实现对原创视频的版权保护。

进一步的，所述匹配查找模块30获取所述至少一个待匹配视频指纹特征向量的具体过程可以为：分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的预设二维特征值，确定为匹配二维特征值，其中，所述匹配条件可以为所述汉明距离小于E的条件，即在所述视频指纹特征匹配库中选择出所有对应汉明距离小于E的预设二维特征值；所述服务器再根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，以作为至少一个待匹配视频指纹特征向量。其中，所述特征个数条件可以指某预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数在所有预设视频指纹特征向量中排在前H(按照个数从多到少排序)的条件，即所述至少一个待匹配视频指纹特征向量包括所述视频指纹特征匹配库中被确定为所述匹配二维特征值的预设二维特征值个数排在前H的H个预设视频指纹特征向量。

进一步的，请一并参见图4，是本发明实施例提供的一种合并转换模块20的结构示意图，所述合并转换模块20可以包括：时域划分单元201、冗余合并单元202、特征筛选单元203、二维转换单元204；

所述时域划分单元201，用于按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集；每段时域的时长相等；一段时域对应一个时域特征集；

其中，所述时域划分单元201的实现方式可以参见上述图2对应实施例中的S203所描述的内容，这里不再进行赘述。

所述冗余合并单元202，用于分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并；

所述特征筛选单元203，用于根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，分别作为对应的目标时域特征集合；

具体的，所述特征筛选单元203可以根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，以分别作为对应的目标时域特征集合。以其中一个冗余合并后的时域特征集为例，所述特征筛选单元203可以对该冗余合并后的时域特征集中的各个帧数据所对应的图像进行图像边缘强弱的检测，再以其中一个帧数据为例，所述特征筛选单元203进一步根据该帧数据中的各SIFT特征分别对应的图像边缘强度参数，按照图像边缘强度参数从强到弱的顺序对该帧数据中的各SIFT特征进行排序，并筛选出排在前N个SIFT特征，对于该冗余合并后的时域特征集中的其它帧数据也是基于同样的方式分别筛选出N个SIFT特征，假设该冗余合并后的时域特征集共有5个帧数据，则可以从该冗余合并后的时域特征集中筛选出5N个SIFT特征，并将这5N个SIFT特征作为该冗余合并后的时域特征集对应的目标时域特征集合。

所述二维转换单元204，用于分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的二维特征值作为所述目标视频数据对应的视频指纹特征向量；

其中，所述时域划分单元201的实现方式可以参见上述图2对应实施例中的S205所描述的内容，这里不再进行赘述。

进一步的，再请一并参见图5，是本发明实施例提供的一种冗余合并单元202的结构示意图，所述冗余合并单元202可以包括：特征对比子单元2021、结果分析子单元2022、融合合并子单元2023；

所述特征对比子单元2021，用于基于预设的匹配算法分别对每个时域特征集中的每相邻两个帧数据对应的SIFT特征进行特征对比，查找出每相邻两个帧数据之间的特征匹配点；

所述结果分析子单元2022，用于根据所述特征匹配点在对应帧数据中的位置信息，估算每相邻两个帧数据之间的第一homograph映射信息，根据所述第一homograph映射信息判断每相邻两个帧数据之间的对比分析结果；

所述融合合并子单元2023，用于将所述对比分析结果为相似结果的相邻两个帧数据进行时间点融合和SIFT特征冗余合并；

其中，所述特征对比子单元2021、所述结果分析子单元2022以及所述融合合并子单元2023的具体实现方式可以参见上述图2对应实施例中的S204所描述的内容。

进一步的，再请一并参见图6，是本发明实施例提供的一种匹配查找模块30的结构示意图，所述匹配查找模块30可以包括：视频指纹选择单元301、匹配分析筛选单元302、非法确定单元303；

所述视频指纹选择单元301，用于根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量；

所述匹配分析筛选单元302，用于对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据；

所述非法确定单元303，用于当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。

进一步的，再请一并参见图7，是本发明实施例提供的一种视频指纹选择单元301的结构示意图，所述视频指纹选择单元301可以包括：匹汉明距离匹配子单元3011、视频指纹选择子单元3012；

所述匹汉明距离匹配子单元3011，用于分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的预设二维特征值，确定为匹配二维特征值；

所述视频指纹选择子单元3012，用于根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量。

其中，所述匹汉明距离匹配子单元3011和所述视频指纹选择子单元3012的具体实现方式可以参见上述图2对应实施例中的S206，这里不再进行赘述。

进一步的，再请参见图8，是本发明实施例提供的一种匹配分析筛选单元302的结构示意图，所述匹配分析筛选单元302可以包括：时间点确定子单元3021、空域匹配分析子单元3022、时域匹配分析子单元3023、匹配度筛选子单元3024；

所述时间点确定子单元3021，用于将所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据确定为至少一个待匹配预存储视频数据，并将每个待匹配视频指纹特征向量中每个匹配二维特征值对应的时间点确定为所述每个待匹配视频指纹特征向量分别对应的至少一个匹配时间点；

所述空域匹配分析子单元3022，用于分别计算所述每个待匹配预存储视频数据中各匹配时间点上的数据帧与所述目标视频数据中满足所述匹配条件的对应时间点上的数据帧之间的第二homograph映射信息，根据所述第二homograph映射信息查找所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧；

所述时域匹配分析子单元3023，用于根据所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧的时间信息，分别计算所述每个待匹配预存储视频数据与所述目标视频数据之间的时间点映射关系，并根据所述时间点映射关系估算所述每个待匹配预存储视频数据与所述目标视频数据之间的匹配时长；

所述匹配度筛选子单元3024，用于根据所述匹配时长在所述至少一个待匹配预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据。

其中，所述时间点确定子单元3021和所述空域匹配分析子单元3022的具体实现方式可以参见上述图2对应实施例中的S207，这里不再进行赘述。所述时域匹配分析子单元3023的具体实现方式可以参见上述图2对应实施例中的S208，这里不再进行赘述。所述匹配度筛选子单元3024的具体实现方式可以参见上述图2对应实施例中的S209，这里不再进行赘述

再请参见图9，是本发明实施例提供的另一种视频数据处理装置的结构示意图。如图9所示，所述视频数据处理装置1000可以应用于服务器中，所述视频数据处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的视频数据处理装置1000中，网络接口1004主要用于获取源视频数据；而用户接口1003主要用于为用户提供输入的接口，获取用户输出的数据；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，并具体执行以下步骤：

在一个实施例中，所述处理器1001在执行按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量时，具体执行以下步骤：

按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集；每段时域的时长相等；一段时域对应一个时域特征集；

分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并；

根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，分别作为对应的目标时域特征集合；

分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的二维特征值作为所述目标视频数据对应的视频指纹特征向量。

在一个实施例中，所述处理器1001在执行分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并时，具体执行以下步骤：

基于预设的匹配算法分别对每个时域特征集中的每相邻两个帧数据对应的SIFT特征进行特征对比，查找出每相邻两个帧数据之间的特征匹配点；

根据所述特征匹配点在对应帧数据中的位置信息，估算每相邻两个帧数据之间的第一homograph映射信息，根据所述第一homograph映射信息判断每相邻两个帧数据之间的对比分析结果；

将所述对比分析结果为相似结果的相邻两个帧数据进行时间点融合和SIFT特征冗余合并。

在一个实施例中，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值；

所述处理器1001在执行根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据时，具体执行以下步骤：

根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量；

对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据；

当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。

在一个实施例中，所述处理器1001在执行根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量时，具体执行以下步骤：

分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的预设二维特征值，确定为匹配二维特征值；

根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量。

在一个实施例中，所述处理器1001在执行对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据时，具体执行以下步骤：

将所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据确定为至少一个待匹配预存储视频数据，并将每个待匹配视频指纹特征向量中每个匹配二维特征值对应的时间点确定为所述每个待匹配视频指纹特征向量分别对应的至少一个匹配时间点；

分别计算所述每个待匹配预存储视频数据中各匹配时间点上的数据帧与所述目标视频数据中满足所述匹配条件的对应时间点上的数据帧之间的第二homograph映射信息，根据所述第二homograph映射信息查找所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧；

根据所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧的时间信息，分别计算所述每个待匹配预存储视频数据与所述目标视频数据之间的时间点映射关系，并根据所述时间点映射关系估算所述每个待匹配预存储视频数据与所述目标视频数据之间的匹配时长；

根据所述匹配时长在所述至少一个待匹配预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据。

在一个实施例中，所述时间点映射关系包括时间偏移映射关系和时间缩放映射关系，所述时间偏移映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间偏移参数，所述时间缩放映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间缩放参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集，并对每段时域分别对应的时域特征集中的SIFT特征进行冗余合并处理和二维转换处理，得到所述目标视频数据对应的视频指纹特征向量，包括：

3.如权利要求2所述的方法，其特征在于，所述分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并，包括：

4.如权利要求2所述的方法，其特征在于，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值；

所述根据所述目标视频数据对应的视频指纹特征向量，在预设的视频指纹特征匹配库中查找与所述目标视频数据的匹配度最高的预存储视频数据，并当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量，包括：

6.如权利要求5所述的方法，其特征在于，所述对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据，包括：

7.如权利要求6所述的方法，其特征在于，所述时间点映射关系包括时间偏移映射关系和时间缩放映射关系，所述时间偏移映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间偏移参数，所述时间缩放映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间缩放参数。

8.一种视频数据处理装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述合并转换模块包括：

时域划分单元，用于按照预设时长阈值对所述目标视频数据进行时域划分，分别将每段时域内的帧数据对应的SIFT特征作为时域特征集；每段时域的时长相等；一段时域对应一个时域特征集；

冗余合并单元，用于分别对每个时域特征集中的每相邻两个帧数据进行对比分析，并对对比分析结果为相似结果的相邻两个帧数据对应的SIFT特征进行冗余合并；

特征筛选单元，用于根据图像边缘强度参数，分别在每个冗余合并后的时域特征集中选择出预设数量的SIFT特征，分别作为对应的目标时域特征集合；

二维转换单元，用于分别对每个目标时域特征集合中的各SIFT特征进行二维转换处理，并将二维转换处理后所得到的二维特征值作为所述目标视频数据对应的视频指纹特征向量。

10.如权利要求9所述的装置，其特征在于，所述冗余合并单元包括：

特征对比子单元，用于基于预设的匹配算法分别对每个时域特征集中的每相邻两个帧数据对应的SIFT特征进行特征对比，查找出每相邻两个帧数据之间的特征匹配点；

结果分析子单元，用于根据所述特征匹配点在对应帧数据中的位置信息，估算每相邻两个帧数据之间的第一homograph映射信息，根据所述第一homograph映射信息判断每相邻两个帧数据之间的对比分析结果；

融合合并子单元，用于将所述对比分析结果为相似结果的相邻两个帧数据进行时间点融合和SIFT特征冗余合并。

11.如权利要求9所述的装置，其特征在于，所述预设的视频指纹特征匹配库包括多个预存储视频数据分别对应的预设视频指纹特征向量，每个预设视频指纹特征向量均包括预设二维特征值；

所述匹配查找模块包括：

视频指纹选择单元，用于根据所述目标视频数据对应的视频指纹特征向量中的二维特征值与所述视频指纹特征匹配库中的预设二维特征值，在所述视频指纹特征匹配库中选择出至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量；

匹配分析筛选单元，用于对所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据与所述目标视频数据进行空域匹配分析和时域匹配分析，并根据匹配分析结果在所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据；

非法确定单元，用于当所查找出的所述预存储视频数据与所述目标视频数据之间的匹配度超过预设匹配度阈值时，确定所述源视频数据为非法视频数据。

12.如权利要求11所述的装置，其特征在于，所述视频指纹选择单元包括：

汉明距离匹配子单元，用于分别计算所述目标视频数据对应的视频指纹特征向量中的各二维特征值与所述视频指纹特征匹配库中各预设二维特征值之间的汉明距离，并根据所述汉明距离在所述视频指纹特征匹配库中选择出满足匹配条件的预设二维特征值，确定为匹配二维特征值；

视频指纹选择子单元，用于根据每个预设视频指纹特征向量中被确定为所述匹配二维特征值的预设二维特征值个数，在所述视频指纹特征匹配库中选择出满足特征个数条件的至少一个预设视频指纹特征向量，作为至少一个待匹配视频指纹特征向量。

13.如权利要求12所述的装置，其特征在于，所述匹配分析筛选单元包括：

时间点确定子单元，用于将所述至少一个待匹配视频指纹特征向量分别对应的预存储视频数据确定为至少一个待匹配预存储视频数据，并将每个待匹配视频指纹特征向量中每个匹配二维特征值对应的时间点确定为所述每个待匹配视频指纹特征向量分别对应的至少一个匹配时间点；

空域匹配分析子单元，用于分别计算所述每个待匹配预存储视频数据中各匹配时间点上的数据帧与所述目标视频数据中满足所述匹配条件的对应时间点上的数据帧之间的第二homograph映射信息，根据所述第二homograph映射信息查找所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧；

时域匹配分析子单元，用于根据所述每个待匹配预存储视频数据与所述目标视频数据之间的至少一对满足相似条件的数据帧的时间信息，分别计算所述每个待匹配预存储视频数据与所述目标视频数据之间的时间点映射关系，并根据所述时间点映射关系估算所述每个待匹配预存储视频数据与所述目标视频数据之间的匹配时长；

匹配度筛选子单元，用于根据所述匹配时长在所述至少一个待匹配预存储视频数据中查找与所述目标视频数据的匹配度最高的预存储视频数据。

14.如权利要求13所述的装置，其特征在于，所述时间点映射关系包括时间偏移映射关系和时间缩放映射关系，所述时间偏移映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间偏移参数，所述时间缩放映射关系包括所述目标视频数据相对于所述待匹配预存储视频数的时间缩放参数。