CN104504307B - 基于拷贝单元的音视频拷贝检测方法和装置 - Google Patents

基于拷贝单元的音视频拷贝检测方法和装置 Download PDF

Info

Publication number
CN104504307B
CN104504307B CN201510010193.3A CN201510010193A CN104504307B CN 104504307 B CN104504307 B CN 104504307B CN 201510010193 A CN201510010193 A CN 201510010193A CN 104504307 B CN104504307 B CN 104504307B
Authority
CN
China
Prior art keywords
video
audio frequency
copy
copy cell
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510010193.3A
Other languages
English (en)
Other versions
CN104504307A (zh
Inventor
田永鸿
杨媛媛
钱梦仁
黄铁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201510010193.3A priority Critical patent/CN104504307B/zh
Publication of CN104504307A publication Critical patent/CN104504307A/zh
Application granted granted Critical
Publication of CN104504307B publication Critical patent/CN104504307B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于拷贝单元的音视频拷贝检测方法和装置。该方法主要包括:提取查询音视频和参考音视频中的关键帧;计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝。本发明实施例可以准确、快速地鉴定查询音视频是否是给定参考音视频库的拷贝,并在此基础上进行查询音视频的重复性判别或侵权判定。本发明实施例不需要改变音视频制作的工序,不会导致音视频的质量下降。

Description

基于拷贝单元的音视频拷贝检测方法和装置
技术领域
本发明实施例涉及音视频处理技术领域,尤其涉及一种基于拷贝单元的音视频拷贝检测方法和装置。
背景技术
随着社会经济文化水平的不断发展,全球影视行业的规模也在迅速扩大。一方面,传统的影视行业(如:电影、电视)的规模依旧保持稳定的增长,比如,2011年中国内地的电影票房总额为131.15亿元,而到了2013年,这一数值已经达到了217.69亿元(年均增长28.8%);另一方面,在线影视行业(如:在线视频网站、移动视频)的规模相比传统影视行业而言则有着更大幅度的增长,比如,2011年第一季度中国在线视频行业规模为10亿元,而到了2013年第一季度,这一数值已经达到了24.2亿元(年均增长55.6%)。
随着数字化的不断深入,目前的影视内容的载体已经更多地从传统的胶片转向了更容易存储和分发的数字格式。然而,伴随着数字化进程的发展和影视行业的扩大,影视内容相关的盗版问题也愈发严重,而且也愈发难以有效监管。据统计,全球互联网的全部带宽中,有23.8%的带宽是用来传输盗版数据,该盗版数据包括:BT、ED2K和在线视频等。这些盗版数据极大损害了版权方的合法权益,造成了巨大的经济损失。
除电影、电视等视频外,网络环境下音乐等音频资源的盗版现象也同样非常猖獗。传统的音视频分发是基于媒介的分发,比如胶卷、DVD,盗版成本稍大,传播速度较慢;而现在到了互联网时代,视频可以通过互联网进行快速的拷贝和分发,盗版成本基本为0,而传播速度非常快。
传统的音视频版权保护的方法是基于音视频媒介的保护,比如,打击贩卖盗版光盘的小商贩、打击制作盗版光盘的店铺等,需要很长时间的调查和跟踪,并且处罚的力度也很有限。而到了今天的互联网时代,媒介变成了互联网,音视频版权保护的方法主要是举证相关的侵权音视频,并要求停止播放并赔偿损失。这点看上去容易,实际上却是很困难的。比如YouTube在2013年的时候,平均每分钟用户上传的视频数量达到了100小时,要从中判断哪些是盗版视频是一件非常困难的事情。因此,这里就需要大规模的使用音视频拷贝的检测和侵权判定技术。
目前,现有技术中的一种音视频拷贝的检测方法为:基于数字水印的拷贝判定技术。数字水印技术是指向数字内容中嵌入特定的信号,该特定的信号一般是不容易被人察觉,但是容易通过软件或硬件进行检测和提取。从而根据上述特定的信号对一个音视频进行检测和判定,判定音视频是否为盗版音视频。
上述现有技术中的一种音视频拷贝的检测方法的缺点为:这种方法有相当大的局限性:第一,数字水印需要在制作音视频的时候进行嵌入,从而增加了音视频制作的工序;第二,嵌入水印会导致音视频的质量部分下降;第三,数字水印很难抵御重编码攻击,特别是进行编码压缩;第四,数字水印不具备排他性,即:任何人都可以在音视频中嵌入数字水印,从而无法确定版权所有人;第五,数字水印无法抵抗模拟陷阱,即通过摄像的方式翻录视频,或通过磁带机重新翻录音乐。
发明内容
本发明实施例的实施例提供了一种基于拷贝单元的音视频拷贝检测方法和装置,以实现对音视频进行有效的拷贝检测
根据本发明的一方面,提供了一种基于拷贝单元的音视频拷贝检测方法,包括:
提取查询音视频和参考音视频中的关键帧;
计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;
根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝。
优选地,所述的计算查询音视频的关键帧与参考音视频的关键帧之间的相似度,包括:
提取所述查询音视频和参考音视频中的每个关键帧的特征,采取所述特征的类型对应的帧间相似度计算方法,计算出所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度。
优选地,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将所述查询音视频的任意一个片段与所述参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,所述拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
优选地,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,构建所述查询音视频与所述参考音视频的帧间相似度矩阵,在所述帧间相似度矩阵中,搜索所有具有所述拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,将所述那条斜线对应的所述查询音视频与所述参考音视频之间的一个拷贝单元确定为所述最相似拷贝单元,所述拷贝单元长度根据所述拷贝单元中包括的帧数得到。
优选地,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,计算出所述查询音视频与所述参考音视频之间的累加相似度矩阵;
遍历所述累加相似度矩阵,搜索所有具有所述拷贝单元长度的斜线,计算出每条斜线的两个端点值的差;
选取端点值差为最大的斜线所对应的拷贝单元作为所述最相似拷贝单元。
优选地,所述的根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝,包括:
计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+l}和{Rn+1,…,Rn+l}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,|q,r},L指的是预定义的拷贝单元中包含的帧数;
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,|q,r}的相似度,有:
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝。
优选地,所述的方法还包括:
对查询音视频与参考音视频库中的任意一个参考音视频,搜索它们之间的最相似拷贝单元,并计算该最相似拷贝单元的相似度,将所述最相似拷贝单元存储在拷贝单元集合中;
从所述拷贝单元集合中,选取具有最大相似度值的拷贝单元,将该拷贝单元作为所述查询音视频与参考音视频库间的最相似拷贝单元。
优选地,所述的方法还包括:
以所述最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
优选地,所述的通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置,包括:
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最左边的拷贝单元,确定所述查询音视频和所述参考音视频中拷贝片段的起始位置;
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在所述查询音视频和所述参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至所述拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最右边的拷贝单元,确定拷贝单元查询音视频和参考音视频中拷贝片段的终止位置。
根据本发明的另一方面,提供了一种基于拷贝单元的音视频拷贝检测装置,包括:
关键帧提取模块,用于提取查询音视频和参考音视频中的关键帧;
最相似拷贝单元搜寻模块,用于计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;
拷贝判定模块,用于根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝。
优选地,所述的最相似拷贝单元搜寻模块包括:
帧间相似度计算模块,用于提取所述查询音视频和参考音视频中的每个关键帧的特征,采取所述特征的类型对应的帧间相似度计算方法,计算出所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度;
最相似拷贝单元确定模块,用于根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将所述查询音视频的任意一个片段与所述参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,所述拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
优选地,所述的最相似拷贝单元确定模块,用于根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,构建所述查询音视频与所述参考音视频的帧间相似度矩阵,在所述帧间相似度矩阵中,搜索所有具有所述拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,将所述那条斜线对应的所述查询音视频与所述参考音视频之间的一个拷贝单元确定为所述最相似拷贝单元,所述拷贝单元长度根据所述拷贝单元中包括的帧数得到;
或者,
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,计算出所述查询音视频与所述参考音视频之间的累加相似度矩阵;遍历所述累加相似度矩阵,搜索所有具有所述拷贝单元长度的斜线,计算出每条斜线的两个端点值的差;选取端点值差为最大的斜线所对应的拷贝单元作为所述最相似拷贝单元。
优选地,所述的拷贝判定模块,用于计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+l}和{Rn+1,…,Rn+l}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,nL|q,r},L指的是预定义的拷贝单元中包含的帧数;
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,L|q,r}的相似度,有:
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝。
优选地,所述的装置还包括:
拷贝定位模块,用于以所述最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
优选地,所述的拷贝定位模块,用于以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最左边的拷贝单元,确定所述查询音视频和所述参考音视频中拷贝片段的起始位置;
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在所述查询音视频和所述参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至所述拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最右边的拷贝单元,确定拷贝单元查询音视频和参考音视频中拷贝片段的终止位置。
由上述本发明实施例的实施例提供的技术方案可以看出,本发明实施例通过基于帧间相似度搜索查询音视频与参考音视频中的最相似拷贝单元,根据最相似拷贝单元的相似度来判定查询音视频与参考音视频中是否存在拷贝,从而可以准确、快速地鉴定查询音视频是否是给定参考音视频库的拷贝,并在此基础上进行查询音视频的重复性判别或侵权判定。本发明实施例不需要改变音视频制作的工序,不会导致音视频的质量下降,克服了现有嵌入数字水印方法的不能抵御重编码攻击、不具备排他性,无法抵抗模拟陷阱等缺点。
本发明实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明实施例的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于拷贝单元的音视频拷贝检测及侵权判定方法的处理流程图;
图2为本发明实施例二提供的一种拷贝单元、疑似拷贝单元、最相似拷贝单元的示意图;
图3为本发明实施例二提供的一种基于拷贝单元的音视频拷贝检测和侵权判定方法流程图;
图4为本发明实施例二提供的一种最相似拷贝单元搜索示意图;
图5为本发明实施例二提供的一种基于拷贝单元的音视频拷贝定位方法流程图;
图6为本发明实施例二提供的一种基于拷贝单元的视频拷贝定位原理示意图;
图7为本发明实施例三提供的一种基于拷贝单元的音视频拷贝检测装置的具体实现结构图,图中,关键帧提取模块71,最相似拷贝单元搜寻模块72,拷贝判定模块73,帧间相似度计算模块721,最相似拷贝单元确定模块722,拷贝定位模块74。
具体实施方式
下面详细描述本发明实施例的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明实施例,而不能解释为对本发明实施例的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明实施例的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
本发明实施例提出一种基于拷贝单元的音视频拷贝(或近似拷贝)判定和侵权判定方法,具体来说,就是寻找查询音视频与参考音视频中最相似的一个小片段,该小片段称为CU(Copy Unit,拷贝单元),具有预定义时间长度(如3秒),包含设定数量的帧,通过该拷贝单元的相似度而非两个音视频间的相似度来判断两个音视频是否构成拷贝。
在法律上,通常只有当两段视频(或音频)的相似或雷同内容长度超过一定阈值(如3秒、5秒、10秒或1分钟)时,才能认定这两段视频(或音频)存在拷贝或近似拷贝。这一事实告诉我们,判断两段音视频是否存在拷贝,不应该看这两段音视频的整体内容相似度,或它们中某个部分的相似度,而应根据它们中最相似的拷贝单元的相似度来进行判断。这一结论即为本发明实施例的出发点。据我们所知,目前没有任何技术或方法提出这一个拷贝单元的概念,更没有提出基于类似拷贝单元的思想来进行视频或音频的近似拷贝检测、侵权判断。
本发明实施例提供的一种基于拷贝单元的音视频拷贝检测及侵权判定方法的处理流程如图1所示,其包括如下步骤:
步骤S110、提取查询音视频和参考视频中的关键帧。
该步骤为预处理步骤,本发明实施例针对视频和音频分别采用不同的关键帧提取方法。其中,视频关键帧的提取分两种方法,第一种方法是按照镜头分割的方法,在查询视频和参考视频中的每一个镜头中提取有代表性的帧,将所述有代表性的帧作为所述查询视频和参考视频中的每一个镜头的关键帧;另一种方法是,按照等时间间隔的方法对查询视频和参考视频进行采样,从而得到查询视频和参考视频中的等间隔的关键帧;
音频关键帧采用高交叠因子的定长滑动窗提取方法,在查询音频和参考音频中每隔一段时间提取一个固定长度的音频帧,并且相邻的两个音频帧之间的交叠因子大于设定的阈值,将所述固定长度的音频帧作为所述查询音频和参考音频中的关键帧。
步骤S120、提取查询音视频和参考音视频中的关键帧,计算查询音视频的关键帧与所有参考音视频的关键帧之间的相似度。
本发明实施例针对视频关键帧和音频关键帧分别采用不同的特征提取方法,并为每类特征设计不同的帧间相似度计算方法。
本发明实施例中,为每个视频关键帧所能提取的图像特征包括:1)全局图像特征,包括基于图像亮度的特征(如亮度序)、基于图像颜色的特征(如颜色直方图)、基于图像能量的特征(如离散余弦变换DCT)。2)图像局部特征,包括SIFT(Scale-invariant featuretransform,尺度不变特征转换)特征、SURF(Speed Up Robust Features,加速稳健特征)特征、GLOH(Gradient Location and Orientation Histogram,请提供中文)特征等。针对不同的特征,本发明实施例采取不同的帧间相似度计算方法:对二进制表示的特征,如DCT,多采用汉明距来计算两帧间的距离或相似度;对非二进制表示的特征,如颜色直方图,多采用欧拉距离或余弦相似度来计算两帧间的距离或相似度;而对于点特征,如SIFT、SURF,则多采用匹配的点数在总点数中的比例来计算相似度。
本发明实施例中,为每个音频关键帧所能提取的音频特征包括音频子带能量差、梅尔频率倒谱系数(MFCC)、以及MPEG-7所规定的一些音频描述子如音频波形特征(AWF)、音频能量(AP)、音频频谱包络(ASE)、音频频谱质心(ASC)、音频频谱延展(ASS)、音频频谱平滑度(ASF)。针对不同的特征,本发明实施例采取不同的帧间相似度计算方法:对二进制表示的特征,如音频子带能量差,多采用汉明距来计算两帧间的距离或相似度;对非二进制表示的特征,如MFCC,多采用欧拉距离或余弦相似度来计算两帧间的距离或相似度。
步骤S130、基于查询音视频的关键帧与所有参考音视频的关键帧之间的相似度,搜索查询音视频与所有参考音视频中的最相似拷贝单元。
本发明实施例中最相似拷贝单元搜索步骤可以进一步分为两个处理过程:
1)对查询音视频与参考音视频库中的任意一个参考音视频,搜索它们之间具有最大拷贝单元相似度值的拷贝单元(即最相似拷贝单元),将该最相似拷贝单元加入到拷贝单元集合;
根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将查询音视频的任意一个片段与参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
2)从上述拷贝单元集合中,选取具有最大拷贝单元相似度值的拷贝单元,作为该查询视频与参考音视频库间的最相似拷贝单元。
本发明实施例采用两种方法来搜索查询音视频与参考音视频间的最相似拷贝单元:第一种方法是穷举搜索,首先,根据查询音视频的关键帧与任意一个参考音视频的关键帧之间的帧间相似度,构建查询音视频与该参考音视频的帧间相似度矩阵,在上述帧间相似度矩阵中,搜索所有具有预定义拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,上述预定义拷贝单元长度根据预定义的拷贝单元的时间长度或包含的帧数来确定。
假设查询视频q一共有Lq帧,分别用Q1,Q2,……,QLq表示。假设参考视频r一共有Lr帧,分别用R1,R2,……,RLr表示。假定预定义的拷贝单元中包含的帧数记为L。则q与r之间的一个拷贝单元定义为CU{i,j,L|q,r},表示分别从视频q的第i帧开始、视频r的第j帧开始的长度为L的两个片段对,具体为:{Qi,Qi+1,…,Qi+L-1}和{Rj,Rj+1,…,Rj+L-1},用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,S(Qi,Rj)为上述帧间相似度矩阵中的元素值。
第二种方法是快速搜索方法,包括如下处理过程:
根据查询音视频的关键帧与任意一个参考音视频的关键帧之间的帧间相似度,计算查询音视频与该参考音视频之间的累加相似度矩阵,这里累加相似度矩阵是根据上述帧间相似度矩阵计算得到,即对第一行或第一列,累加相似度矩阵的元素值即等于相应位置的帧间相似度矩阵的元素值,否则累加相似度矩阵的元素值即等于相应位置的帧间相似度矩阵的元素值再加上行列值均减一的位置上的累加相似度矩阵的元素值。
遍历累加相似度矩阵,搜索所有具有预定义拷贝单元长度的斜线,计算每条斜线的两个端点值的差,上述预定义拷贝单元长度根据预定义的拷贝单元的时间长度或包含的帧数来确定。
选取端点值差为最大的斜线所对应的拷贝单元作为最相似拷贝单元。
步骤S140、根据最相似拷贝单元的相似度来判定查询音视频与参考音视频是否存在拷贝。
计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+L}和{Rn+1,…,Rn+L}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},L指的是预定义的拷贝单元中包含的帧数。
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,L|q,r}的相似度,有:
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝;进一步检查该查询视频是否已经授权,若查询视频属于非授权,则构成对该参考视频的内容侵权。
当所述P(i,j,L)小于或者等于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间不存在拷贝。
步骤S150、以最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
对已经确认为构成拷贝的查询音视频和参考音视频,需要执行拷贝定位步骤,即以最相似拷贝单元为中心,通过正反向扫描来定位查询视频与该参考音视频中拷贝片段的起止位置。
本发明实施例中正反向扫描均采用变步长滑动窗口的方式来分别向查询音视频和参考音视频的头部(即向左)或尾部(即向右)滑动,提取相应的拷贝单元,并计算查询音视频和参考音视频中对应的拷贝单元之间的相似度,直至该相似度小于预定义的拷贝判定阈值。然后,根据相似度大于等于预定义的阈值的最左边的拷贝单元和最右边的拷贝单元,确定查询音视频和参考音视频中拷贝片段的起止位置。
本发明实施例的拷贝定位步骤包括如下处理过程:
反向扫描:以最相似拷贝单元为中心,采用与预定义拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该相似度小于预定义的拷贝判定阈值,根据相似度大于等于预定义的拷贝判定阈值的最左边的拷贝单元,确定查询音视频和参考音视频中拷贝片段的起始位置。
正向扫描:以最相似拷贝单元为中心,采用与预定义拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该相似度小于预定义的拷贝判定阈值,根据相似度大于等于预定义的拷贝判定阈值的最右边的拷贝单元,确定查询音视频和参考音视频中拷贝片段的终止位置。
本发明实施例所提供的反向扫描方法,包括如下子步骤:
11)对查询音视频和参考音视频对应的最相似拷贝单元的位置用滑动窗口标出,作为该滑动窗口左移的起始点。
12)按照固定步长对查询音视频的滑动窗口进行左移操作;按照三种以上不同的步长对参考音视频的滑动窗口进行左移操作。
13)分别计算出查询音视频的滑动窗口选定的拷贝单元和三种不同步长的滑动窗口选定的参考音视频拷贝单元之间的拷贝单元相似度。
14)选取相似度最大的拷贝单元进行判定。如果该拷贝单元的相似度小于预定义的拷贝判定阈值,则停止扫描;如果该拷贝单元的相似度大于或等于预定义的拷贝判定阈值,则以该拷贝单元的位置为初始位置,重复步骤12、13。
15)将滑动窗口向左扫描的操作结束时对应的查询音视频滑动窗口的起始位置作为查询音视频中拷贝片段的起始位置;滑动窗口向左扫描的操作结束时对应的参考音视频滑动窗口的起始位置就作为参考音视频中拷贝片段的起始位置。
本发明实施例所提供的正向扫描方法,包括如下子步骤:
21)对查询音视频和参考音视频对应的最相似拷贝单元的位置用滑动窗口标出,作为该滑动窗口右移的起始点。
22)按照固定步长对查询音视频的滑动窗口进行右移操作;按照三种以上不同的步长对参考音视频的滑动窗口进行右移操作。
23)分别计算出查询音视频的滑动窗口选定的拷贝单元和三种不同步长的滑动窗口选定的参考音视频拷贝单元之间的拷贝单元相似度。
24)选取相似度最大的拷贝单元进行判定。如果该拷贝单元的相似度小于预定义的阈值,则停止扫描;如果该拷贝单元的相似度大于或等于预定义的阈值,则以该拷贝单元的位置为初始位置,重复步骤22、23。
25)滑动窗口向右扫描的操作结束时对应的查询音视频滑动窗口的终止位置就作为查询音视频中拷贝片段的终止位置;滑动窗口向右扫描的操作结束时对应的参考音视频滑动窗口的终止位置就作为参考音视频中拷贝片段的终止位置。
实施例二
本发明实施例以视频为例来说明发明内容。查询视频q与参考视频r间拷贝单元的形式化描述为:
假设查询视频q一共有Lq帧,分别用Q1,Q2,……,QLq表示。假设参考视频r一共有Lr帧,分别用R1,R2,……,RLr表示。假定预定义的拷贝单元中包含的帧数记为L(对应于上述预定义拷贝单元长度),并且保证L≤Lq,L≤Lr(如果L大于Lq或者Lr,则认为需要匹配的序列过短,不进行搜索)。则q与r之间的一个拷贝单元定义为CU{i,j,L|q,r},表示分别从视频q的第i帧开始、视频r的第j帧开始的长度为L的两个片段对,具体为:{Qi,Qi+1,…,Qi+L-1}和{Rj,Rj+1,…,Rj+L-1}。根据定义,对于长度为Lq的视频q和长度为Lr的视频r,一共有:(Lq-L+1)×(Lr-L+1)个拷贝单元。
基于拷贝单元的视频拷贝检测的任务是:找到1≤i≤Lq,1≤j≤Lr,使得该拷贝单元的相似度最大,该拷贝单元即为查询视频q和参考视频r之间的最相似拷贝单元。另外,本发明实施例也定义了疑似拷贝单元,即:满足单元相似度大于一定阈值的拷贝单元。从定义中可知,对于任意两个视频,他们之间一定存在一个或多个最相似拷贝单元,但是不一定存在疑似拷贝单元(特别是当两个视频实质不构成拷贝时)。
该实施例提供的一种拷贝单元、疑似拷贝单元、最相似拷贝单元的示意图如图2所示:图中的灰度块表示查询视频q和参考视频r的帧间相似度矩阵,其中灰度越浅表示相应两帧间的相似度越高,而灰度越深表示相似度越低。图中不同的斜线,如粗实线、细实线、细虚线表示的斜线,都表示拷贝单元。在这些拷贝单元中,细实线、细虚线表示的斜线是疑似拷贝单元。而粗实线表示的斜线因为是查询视频q与参考视频r中相似程度最高的拷贝单元,所以也是最相似拷贝单元。
假定所有参考视频都已经以离线方式抽取了关键帧,并为每个关键帧提取了表征其内容的一种或多种特征(关键帧抽取和特征抽取方法同如下预处理步骤)。因此,对给定的查询视频,基于拷贝单元的视频拷贝检测和侵权判定方法的处理流程图如图3所示,包括如下步骤:
(1)预处理步骤:提取查询视频的关键帧,并计算它们与所有参考视频的关键帧之间的相似度。
本实施例中视频关键帧的提取分两种方法:第一种方法是按照镜头分割的方法,在每一个镜头中提取有代表性的几帧,并用这几帧代表这个镜头;另一种方法是按照等间隔(如每秒3帧)的方法对视频进行采样,从而得到等间隔的视频关键帧。
为每个视频帧所能提取的图像特征包括:1)全局图像特征:图像的全局特征描述了整个图像的视觉特性,如图像整体的颜色分布、场景分布等。本实施例中可采用的图像全局特征包括基于图像亮度的特征(如亮度序)、基于图像颜色的特征(如颜色直方图)、基于图像能量的特征(如离散余弦变换DCT)。2)图像局部特征:图像的局部特征更加关注于图像的局部细节,并通过对细节的描述来表征整个图像的内容。本发明实施例中可采用的图像局部特征包括:SIFT特征、SURF特征、GLOH特征等。
针对不同的特征,一般有不同的帧间相似度计算方法:对二进制表示的特征,如DCT,多采用汉明距(Hamming distance)来计算两帧间的距离或相似度;对非二进制表示的特征,如颜色直方图,多采用欧拉距离(Euclidean Distance)或余弦相似度来计算两帧间的距离或相似度;而对于点特征,如SIFT、SURF,则多采用匹配的点数在总点数中的比例来计算相似度。
上述特征的详细描述及其提取方法、帧间相似度计算方法属于本领域的公知常识,可以在任何相关文献中找到,在本说明书中不再一一赘述。
(2)最相似拷贝单元搜索步骤:基于帧间相似度,搜索查询视频与所有参考视频中相似度最高的拷贝单元,记录对应的参考视频。
假设任意两帧的相似度用S表示,用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,则使用P(i,j,L)来表示查询视频q与参考视频r中拷贝单元CU{i,j,L|q,r}的拷贝单元相似度,有:
其中,L指的是预定义的拷贝单元中包含的帧数。
因此查询视频q与所有参考视频中最相似拷贝单元的搜索可以分解为两个子步骤:1)对查询视频q与任意一个参考视频r,搜索它们之间具有最大P(i,j,L)值的拷贝单元CU{i,j,L|q,r},并放入集合C;2)在集合C中,具有最大P(i,j,L)值的拷贝单元,即为查询视频q与所有参考视频中最相似拷贝单元。其中第二个子步骤为简单的相似度比较过程。下面,本实施例详细描述第一个子步骤的实现方式。
该实施例提供的一种查询视频q与参考视频r中最相似拷贝单元的搜索示意图如图4所示,由图4可见,搜索最相似拷贝单元就相当于在查询音视频与该参考音视频的帧间相似度矩阵中,寻找所有长度为L的斜线中具有最大拷贝单元相似度的那条斜线。显然,这样的斜线一共有(Lq+L+1)(Lr+L+1)条,因此若穷举搜索共需要O(LLqLr)次加法。
本发明提出一种仅需要O(2LqLr)次加法的最相似拷贝单元搜索方法,包括如下步骤:
a)基于查询视频q与参考视频r间的帧间相似度,计算查询视频q与参考视频r之间的累加相似度矩阵E。令E(i,j)表示第i行第j列的累加相似度矩阵元素值,则
其中,i=1,…,Lq,j=1,…,Lr.
b)遍历累加相似度矩阵E,找到一个值(m,n),使得E(m+L,n+L)-E(m,n)的值为最大,则{Qm+1,…,Qm+L}和{Rn+1,…,Rn+L}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},该最相似拷贝单元CU{m,n,L|q,r}的相似度值P(m,n,l)=L*[E(m+L,n+L)-E(m,n)]。这一过程相当于遍历累加相似度矩阵,搜索所有具有预定义拷贝单元长度的斜线,计算该斜线的两个端点值的差;然后选取端点值差为最大的斜线所对应的拷贝单元作为最相似拷贝单元。
(3)拷贝判定步骤:根据最相似拷贝单元的相似度来判定查询视频与参考视频是否存在拷贝,并进一步检查是否构成侵权。
若最相似拷贝单元的相似度P(m,n,L)大于预定义的拷贝判定阈值θ,则判定查询视频p与该参考视频r间存在拷贝;进一步检查该查询视频p是否已经授权。若该查询视频p属于非授权,则其构成对参考视频r的内容侵权。
在某些应用中,需要进一步精确确定查询视频与参考视频中拷贝的起止位置。在这种情况下,需要基于拷贝单元来进行拷贝定位。
(4)(可选步骤)拷贝定位步骤:以最相似拷贝单元为中心,通过正反向扫描来定位查询视频与该参考视频中拷贝片段的起止位置。
本发明实施例中正反向扫描均采用变步长滑动窗口的方式来分别向查询视频和参考视频的头部或尾部滑动,提取相应的拷贝单元并计算其相似度,直至该相似度小于预定义的拷贝判定阈值θ,从而可以得到在查询视频和参考视频中拷贝片段的起止位置。图6描述了本发明实施例所提出的基于拷贝单元的视频拷贝定位原理示意图。其中,基于变步长滑动窗口的正反向扫描过程如下:
a)反向扫描:为了定位拷贝片段的起始位置,对于查询视频,从拷贝单元的起始位置开始采用滑动窗口按照步长Δt(Δt的取值为一个正整数)进行反向扫描;而对于参考视频从拷贝单元的起始位置开始采用滑动窗口按照三种不同的步长(即0、Δt、2Δt)进行反向扫描,这里滑动窗口的大小与预定义的拷贝单元大小一致(即为L)。计算滑动窗口选定的查询视频片段和三种不同步长滑动窗口选定的对应参考视频片段之间的相似度,选取相似度最大值对应的滑动窗口位置作为下一次迭代的起始位置。当滑动窗口选定的查询视频片段和参考视频片段之间的相似度小于拷贝判定阈值θ时,停止迭代。迭代停止时对应的查询视频滑动窗口的起始位置就作为查询视频近似拷贝片段的起始位置,对应的参考视频滑动窗口的起始位置就作为参考视频近似拷贝片段的起始位置。
图6所示的视频拷贝定位方法可以有效处理查询视频经受快进、慢放等变形情况下的拷贝定位问题。
b)正向扫描:为了定位拷贝片段的终止位置,对于查询视频,从拷贝单元的终止位置开始采用滑动窗口按照步长Δt进行正向扫描;对于参考视频从拷贝单元的起始位置开始采用滑动窗口按照三种不同的步长(即0、Δt、2Δt)进行正向扫描。计算滑动窗口选定的查询视频片段和三种不同步长滑动窗口选定的对应参考视频片段之间的相似度,选取视频片段相似度最大值对应的滑动窗口位置作为下一次迭代的起始位置。当滑动窗口选定的查询视频片段和参考视频片段之间的相似度小于阈值θ时,停止迭代。迭代停止时对应的查询视频滑动窗口的终止位置就作为查询视频近似拷贝片段的终止位置,对应的参考视频滑动窗口的终止位置就作为参考视频近似拷贝片段的终止位置。
实施例二:
本实施例以音频为例来说明发明内容。基于拷贝单元的音频拷贝检测和侵权判定方法在问题与任务描述、拷贝单元定义、处理流程等均完全相同。因此其流程图同样可以用图1来描述,而相应的音频拷贝定位方法流程图也同样可以用图5来描述。与实施例1中视频拷贝检测和侵权判定方法唯一不同之处在于,音频拷贝检测和侵权判定方法的预处理步骤中提取关键帧的方法、音频特征的描述及其提取方法、帧间相似度计算方法略有不同。下面描述本实施例中音频预处理步骤。
音频拷贝检测和侵权判定方法中的预处理步骤:提取查询音的关键帧,并计算它们与所有参考音频的关键帧之间的相似度。
本实施例中音频关键帧采用高交叠因子(overlap factor,即相邻两个音频帧信号重叠的比例)的定长滑动窗提取方法,具体如下:从音频信号序列中每隔11.6毫秒提取一个长度为0.37秒的音频帧。相邻两个音频帧的交叠因子为31/32,因此对一个3分钟长的音频片段(如歌曲或音乐),一共可以抽取256个音频帧。
为每个音频帧所能提取的音频特征根据这些音频的波纹和相应的时序关系来表征该音频固有的属性。本实施例中可采用的音频局部特征包括音频子带能量差、梅尔频率倒谱系数(MFCC)、以及MPEG-7所规定的一些音频描述子如音频波形特征(Audio Waveform,AWF)、音频能量(Audio Power,AP)、音频频谱包络(Audio Spectrum Envelope,ASE)、音频频谱质心(Audio Spectrum Centroid,ASC)、音频频谱延展(Audio Spectrum Spread,ASS)、音频频谱平滑度(Audio Spectrum Flatness,ASF)。
针对不同的特征,一般有不同的帧间相似度计算方法:对二进制表示的特征,如音频子带能量差,多采用汉明距(Hamming distance)来计算两帧间的距离或相似度;对非二进制表示的特征,如MFCC,多采用欧拉距离(Euclidean Distance)或余弦相似度来计算两帧间的距离或相似度。
上述特征的详细描述及其提取方法、帧间相似度计算方法属于本领域的公知常识,可以在任何相关文献中找到,在本说明书中不再一一赘述。
实施例三
该实施例提供了一种基于拷贝单元的音视频拷贝检测装置,其具体实现结构如图7所示,具体可以包括如下的模块:
关键帧提取模块71,用于提取查询音视频和参考音视频中的关键帧;
最相似拷贝单元搜寻模块72,用于计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;
拷贝判定模块73,用于根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝。
进一步地,所述的关键帧提取模块71,用于按照镜头分割的方法,在查询视频和参考视频中的每一个镜头中提取有代表性的帧,将所述有代表性的帧作为所述查询视频和参考视频中的每一个镜头的关键帧;或者,按照等时间间隔的方法对查询视频和参考视频进行采样,从而得到查询视频和参考视频中的等间隔的关键帧;
在查询音频和参考音频中每隔一段时间提取一个固定长度的音频帧,并且相邻的两个音频帧之间的交叠因子大于设定的阈值,将所述固定长度的音频帧作为所述查询音频和参考音频中的关键帧。
进一步地,所述的最相似拷贝单元搜寻模块72包括:
帧间相似度计算模块721,用于提取所述查询音视频和参考音视频中的每个关键帧的特征,采取所述特征的类型对应的帧间相似度计算方法,计算出所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度;
最相似拷贝单元确定模块722,用于根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将所述查询音视频的任意一个片段与所述参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,所述拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
进一步地,所述的最相似拷贝单元确定模块722,用于根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,构建所述查询音视频与所述参考音视频的帧间相似度矩阵,在所述帧间相似度矩阵中,搜索所有具有所述拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,将所述那条斜线对应的所述查询音视频与所述参考音视频之间的一个拷贝单元确定为所述最相似拷贝单元,所述拷贝单元长度根据所述拷贝单元中包括的帧数得到;
或者,
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,计算出所述查询音视频与所述参考音视频之间的累加相似度矩阵;遍历所述累加相似度矩阵,搜索所有具有所述拷贝单元长度的斜线,计算出每条斜线的两个端点值的差;选取端点值差为最大的斜线所对应的拷贝单元作为所述最相似拷贝单元。
假设查询视频q一共有Lq帧,分别用Q1,Q2,……,QLq表示,参考视频r一共有Lr帧,分别用R1,R2,……,RLr表示,所述拷贝单元中包括的帧数记为L,则查询视频q与参考视频r之间的一个拷贝单元定义为CU{i,j,L|q,r},表示分别从查询视频q的第i帧开始、参考视频r的第j帧开始的长度为L的两个片段对,具体为:{Qi,Qi+1,…,Qi+L-1}和{Rj,Rj+1,…,Rj+L-1},用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度;
所述查询音视频与所述参考音视频之间的累加相似度矩阵为E,令E(i,j)表示第i行第j列的累加相似度矩阵元素值,则
其中,i=1,...,Lq,j=1,...,Lr.
遍历所述累加相似度矩阵E,找到一个值(m,n),使得E(m+L,n+L)-E(m,n)的值为最大,则{Qm+1,…,Qm+l}和{Rn+1,…,Rn+l}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},所述最相似拷贝单元的相似度值P(m,n,L)=L*[E(m+L,n+L)-E(m,n)]。
进一步地,所述的拷贝判定模块723,用于计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+L}和{Rn+1,…,Rn+L}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},L指的是预定义的拷贝单元中包含的帧数;
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,L|q,r}的相似度,有:
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝。
进一步地,所述的装置还包括:
拷贝定位模块74,用于以所述最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最左边的拷贝单元,确定所述查询音视频和所述参考音视频中拷贝片段的起始位置;
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在所述查询音视频和所述参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至所述拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最右边的拷贝单元,确定拷贝单元查询音视频和参考音视频中拷贝片段的终止位置。
用本发明实施例的装置进行基于拷贝单元的音视频拷贝检测的具体过程与前述方法实施例类似,此处不再赘述。
综上所述,本发明实施例通过基于帧间相似度搜索查询音视频与参考音视频中的最相似拷贝单元,根据最相似拷贝单元的相似度来判定查询音视频与参考音视频中是否存在拷贝,从而可以准确、快速地鉴定查询音视频是否是给定参考音视频库的拷贝,并在此基础上进行查询音视频的重复性判别或侵权判定。本发明实施例不需要改变音视频制作的工序,不会导致音视频的质量下降,克服了现有嵌入数字水印方法的不能抵御重编码攻击、不具备排他性,无法抵抗模拟陷阱等缺点。
本发明实施例还可以根据最相似拷贝单元的位置信息和基于滑动窗的搜索策略,来最终判定查询音视频中拷贝片段的起止位置。本发明实施例在音视频数字版权管理、KTV歌曲点唱统计、广告跟踪、音视频内容过滤等领域都有重要的应用。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明实施例所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明实施例较佳的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种基于拷贝单元的音视频拷贝检测方法,其特征在于,包括:
提取查询音视频和参考音视频中的关键帧;
计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;
根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝,具体包括:
计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+l}和{Rn+1,…,Rn+l}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},L指的是预定义的拷贝单元中包含的帧数;
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,L|q,r}的相似度,有:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>K</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>j</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝。
2.根据权利要求1所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的计算查询音视频的关键帧与参考音视频的关键帧之间的相似度,包括:
提取所述查询音视频和参考音视频中的每个关键帧的特征,采取所述特征的类型对应的帧间相似度计算方法,计算出所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度。
3.根据权利要求2所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将所述查询音视频的任意一个片段与所述参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,所述拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
4.根据权利要求3所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,构建所述查询音视频与所述参考音视频的帧间相似度矩阵,在所述帧间相似度矩阵中,搜索所有具有所述拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,将所述那条斜线对应的所述查询音视频与所述参考音视频之间的一个拷贝单元确定为所述最相似拷贝单元,所述拷贝单元长度根据所述拷贝单元中包括的帧数得到。
5.根据权利要求3所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的基于所述相似度搜索查询音视频与参考音视频中的最相似拷贝单元,包括:
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,计算出所述查询音视频与所述参考音视频之间的累加相似度矩阵;
遍历所述累加相似度矩阵,搜索所有具有所述拷贝单元长度的斜线,计算出每条斜线的两个端点值的差;
选取端点值差为最大的斜线所对应的拷贝单元作为所述最相似拷贝单元。
6.根据权利要求1所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的方法还包括:
对查询音视频与参考音视频库中的任意一个参考音视频,搜索它们之间的最相似拷贝单元,并计算该最相似拷贝单元的相似度,将所述最相似拷贝单元存储在拷贝单元集合中;
从所述拷贝单元集合中,选取具有最大相似度值的拷贝单元,将该拷贝单元作为所述查询音视频与参考音视频库间的最相似拷贝单元。
7.根据权利要求1所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的方法还包括:
以所述最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
8.根据权利要求7所述的基于拷贝单元的音视频拷贝检测方法,其特征在于,所述的通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置,包括:
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最左边的拷贝单元,确定所述查询音视频和所述参考音视频中拷贝片段的起始位置;
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在所述查询音视频和所述参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至所述拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最右边的拷贝单元,确定拷贝单元查询音视频和参考音视频中拷贝片段的终止位置。
9.一种基于拷贝单元的音视频拷贝检测装置,其特征在于,包括:
关键帧提取模块,用于提取查询音视频和参考音视频中的关键帧;
最相似拷贝单元搜寻模块,用于计算所述查询音视频的关键帧与所述参考音视频的关键帧之间的相似度,基于所述相似度搜索查询所述音视频与所述参考音视频中的最相似拷贝单元;
拷贝判定模块,用于根据所述查询音视频与参考音视频中的最相似拷贝单元的相似度来判定所述查询音视频与参考音视频中是否存在拷贝,具体包括
计算出所述查询音视频与参考音视频中的最相似拷贝单元的相似度,设{Qm+1,…,Qm+l}和{Rn+1,…,Rn+l}为所求的查询视频q与参考视频r之间的最相似拷贝单元CU{m,n,L|q,r},L指的是预定义的拷贝单元中包含的帧数;
用S(Qi,Rj)表示Qi帧和Rj帧之间的相似度,用P(i,j,L)表示所述最相似拷贝单元CU{m,n,L|q,r}的相似度,有:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>K</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>j</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
当所述P(i,j,L)大于预定义的拷贝判定阈值,则判定所述查询音视频与参考音视频之间存在拷贝。
10.根据权利要求9所述的基于拷贝单元的音视频拷贝检测装置,其特征在于,所述的最相似拷贝单元搜寻模块包括:
帧间相似度计算模块,用于提取所述查询音视频和参考音视频中的每个关键帧的特征,采取所述特征的类型对应的帧间相似度计算方法,计算出所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度;
最相似拷贝单元确定模块,用于根据预先设定的拷贝单元中包含的帧数,将所述查询音视频的所有关键帧划分为多个片段对,将所述参考音视频的所有关键帧划分为多个片段对,将所述查询音视频的任意一个片段与所述参考音视频的任意一个片段组成一个拷贝单元,计算出每个拷贝单元对应的拷贝单元相似度,所述拷贝单元相似度根据所述查询音视频的片段和所述参考音视频的片段中所有对应的关键帧之间的帧间相似度之和得到,将具有最大拷贝单元相似度的拷贝单元确定为所述最相似拷贝单元。
11.根据权利要求10所述的基于拷贝单元的音视频拷贝检测装置,其特征在于:
所述的最相似拷贝单元确定模块,用于根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,构建所述查询音视频与所述参考音视频的帧间相似度矩阵,在所述帧间相似度矩阵中,搜索所有具有所述拷贝单元长度的斜线中具有最大拷贝单元相似度的那条斜线,将所述那条斜线对应的所述查询音视频与所述参考音视频之间的一个拷贝单元确定为所述最相似拷贝单元,所述拷贝单元长度根据所述拷贝单元中包括的帧数得到;
或者,
根据所述查询音视频中的任意一个关键帧与所述参考音视频中的任意一个关键帧之间的帧间相似度,计算出所述查询音视频与所述参考音视频之间的累加相似度矩阵;遍历所述累加相似度矩阵,搜索所有具有所述拷贝单元长度的斜线,计算出每条斜线的两个端点值的差;选取端点值差为最大的斜线所对应的拷贝单元作为所述最相似拷贝单元。
12.根据权利要求9所述的基于拷贝单元的音视频拷贝检测装置,其特征在于,所述的装置还包括:
拷贝定位模块,用于以所述最相似拷贝单元为中心,通过正反向扫描来定位所述查询音视频与所述参考音视频中拷贝片段的起止位置。
13.根据权利要求12所述的基于拷贝单元的音视频拷贝检测装置,其特征在于:
所述的拷贝定位模块,用于以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在查询音视频和参考音视频上向左进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至该拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最左边的拷贝单元,确定所述查询音视频和所述参考音视频中拷贝片段的起始位置;
以所述最相似拷贝单元为中心,采用与所述拷贝单元相等大小的滑动窗口分别在所述查询音视频和所述参考音视频上向右进行多种步长滑动,计算滑动窗口选定的查询音视频片段和参考音视频片段间的拷贝单元相似度,直至所述拷贝单元相似度小于预定义的阈值,根据相似度大于等于预定义的阈值的最右边的拷贝单元,确定拷贝单元查询音视频和参考音视频中拷贝片段的终止位置。
CN201510010193.3A 2015-01-08 2015-01-08 基于拷贝单元的音视频拷贝检测方法和装置 Expired - Fee Related CN104504307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510010193.3A CN104504307B (zh) 2015-01-08 2015-01-08 基于拷贝单元的音视频拷贝检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510010193.3A CN104504307B (zh) 2015-01-08 2015-01-08 基于拷贝单元的音视频拷贝检测方法和装置

Publications (2)

Publication Number Publication Date
CN104504307A CN104504307A (zh) 2015-04-08
CN104504307B true CN104504307B (zh) 2017-09-29

Family

ID=52945704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510010193.3A Expired - Fee Related CN104504307B (zh) 2015-01-08 2015-01-08 基于拷贝单元的音视频拷贝检测方法和装置

Country Status (1)

Country Link
CN (1) CN104504307B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2649793C2 (ru) 2016-08-03 2018-04-04 ООО "Группа АйБи" Способ и система выявления удаленного подключения при работе на страницах веб-ресурса
RU2634209C1 (ru) 2016-09-19 2017-10-24 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ автогенерации решающих правил для систем обнаружения вторжений с обратной связью
RU2637477C1 (ru) 2016-12-29 2017-12-04 Общество с ограниченной ответственностью "Траст" Система и способ обнаружения фишинговых веб-страниц
RU2671991C2 (ru) 2016-12-29 2018-11-08 Общество с ограниченной ответственностью "Траст" Система и способ сбора информации для обнаружения фишинга
CN107832384A (zh) * 2017-10-28 2018-03-23 北京安妮全版权科技发展有限公司 侵权检测方法、装置、存储介质和电子设备
RU2689816C2 (ru) 2017-11-21 2019-05-29 ООО "Группа АйБи" Способ для классифицирования последовательности действий пользователя (варианты)
RU2677368C1 (ru) 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система для автоматического определения нечетких дубликатов видеоконтента
RU2668710C1 (ru) 2018-01-17 2018-10-02 Общество с ограниченной ответственностью "Группа АйБи ТДС" Вычислительное устройство и способ для обнаружения вредоносных доменных имен в сетевом трафике
RU2676247C1 (ru) 2018-01-17 2018-12-26 Общество С Ограниченной Ответственностью "Группа Айби" Способ и компьютерное устройство для кластеризации веб-ресурсов
RU2677361C1 (ru) 2018-01-17 2019-01-16 Общество с ограниченной ответственностью "Траст" Способ и система децентрализованной идентификации вредоносных программ
RU2680736C1 (ru) 2018-01-17 2019-02-26 Общество с ограниченной ответственностью "Группа АйБи ТДС" Сервер и способ для определения вредоносных файлов в сетевом трафике
RU2681699C1 (ru) 2018-02-13 2019-03-12 Общество с ограниченной ответственностью "Траст" Способ и сервер для поиска связанных сетевых ресурсов
CN111145769A (zh) * 2018-11-02 2020-05-12 北京微播视界科技有限公司 音频处理方法和装置
RU2708508C1 (ru) 2018-12-17 2019-12-09 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для выявления подозрительных пользователей в системах обмена сообщениями
RU2701040C1 (ru) 2018-12-28 2019-09-24 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
CN109936762B (zh) * 2019-01-12 2021-06-25 河南图灵实验室信息技术有限公司 相似音频或视频文件同步播放的方法以及电子设备
CN109829265B (zh) * 2019-01-30 2020-12-18 杭州拾贝知识产权服务有限公司 一种音频作品的侵权取证方法和***
WO2020176005A1 (ru) 2019-02-27 2020-09-03 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система идентификации пользователя по клавиатурному почерку
CN110321958B (zh) * 2019-07-08 2022-03-08 北京字节跳动网络技术有限公司 神经网络模型的训练方法、视频相似度确定方法
CN110321454B (zh) * 2019-08-06 2023-03-24 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备及计算机可读存储介质
RU2728497C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его машинному коду
RU2728498C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его исходному коду
RU2743974C1 (ru) 2019-12-19 2021-03-01 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ сканирования защищенности элементов сетевой архитектуры
CN113051984A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 视频拷贝检测方法和装置、存储介质和电子装置
SG10202001963TA (en) 2020-03-04 2021-10-28 Group Ib Global Private Ltd System and method for brand protection based on the search results
CN113450825B (zh) * 2020-03-27 2022-06-28 百度在线网络技术(北京)有限公司 一种音频检测方法、装置、设备和介质
CN111914926B (zh) * 2020-07-29 2023-11-21 深圳神目信息技术有限公司 基于滑窗的视频抄袭检测方法、装置、设备和介质
RU2743619C1 (ru) 2020-08-06 2021-02-20 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система генерации списка индикаторов компрометации
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
NL2030861B1 (en) 2021-06-01 2023-03-14 Trust Ltd System and method for external monitoring a cyberattack surface

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394522A (zh) * 2007-09-19 2009-03-25 中国科学院计算技术研究所 一种视频拷贝的检测方法和***
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394522A (zh) * 2007-09-19 2009-03-25 中国科学院计算技术研究所 一种视频拷贝的检测方法和***
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于内容的视频拷贝检测研究;靳延安;《计算机应用》;20080831;第28卷(第8期);第2021-2023页 *
基于局部排序的视频拷贝检测;赵玉鑫 等;《计算机辅助设计与图形学学报》;20090930;第21卷(第9期);第1339-1343页 *

Also Published As

Publication number Publication date
CN104504307A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104504307B (zh) 基于拷贝单元的音视频拷贝检测方法和装置
US9087125B2 (en) Robust video retrieval utilizing video data
US9177209B2 (en) Temporal segment based extraction and robust matching of video fingerprints
US8295611B2 (en) Robust video retrieval utilizing audio and video data
Zhang et al. Efficient video frame insertion and deletion detection based on inconsistency of correlations between local binary pattern coded frames
CN101635843B (zh) 一种基于帧间变化特征的视纹提取、查找比对方法及***
Wei et al. Frame fusion for video copy detection
US8175392B2 (en) Time segment representative feature vector generation device
GB2464123A (en) Event-based temporal video fingerprinting
CN104954807B (zh) 抗几何攻击的视频复制篡改检测方法
Fadl et al. Frame duplication and shuffling forgery detection technique in surveillance videos based on temporal average and gray level co-occurrence matrix
Lian et al. Content-based video copy detection–a survey
US20130006951A1 (en) Video dna (vdna) method and system for multi-dimensional content matching
Roopalakshmi et al. A novel spatio-temporal registration framework for video copy localization based on multimodal features
US20110123117A1 (en) Searching and Extracting Digital Images From Digital Video Files
Chenot et al. A large-scale audio and video fingerprints-generated database of tv repeated contents
Vega et al. A robust video identification framework using perceptual image hashing
Jung et al. Player information extraction for semantic annotation in golf videos
Hou et al. Audio‐Visual‐Based Query by Example Video Retrieval
Harun et al. Video structure extraction using shot boundary detection for authentication detection
Raj et al. Detection of Object-Based Forgery in Surveillance Videos Utilizing Motion Residual and Deep Learning
Zhang et al. A novel framework for content-based video copy detection
Wu et al. A hierarchical scheme for rapid video copy detection
Maharana Application of Digital Fingerprinting: Duplicate Image Detection
Min et al. Near-duplicate video detection using temporal patterns of semantic concepts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170929

Termination date: 20210108

CF01 Termination of patent right due to non-payment of annual fee