CN102216952A

CN102216952A - 通过矩不变量的投影可靠地与媒体内容对应的媒体指纹

Info

Publication number: CN102216952A
Application number: CN2009801453792A
Authority: CN
Inventors: R·拉达克里希南; C·鲍尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-11-17
Filing date: 2009-11-17
Publication date: 2011-10-12
Anticipated expiration: 2029-11-17
Also published as: US20110216937A1; WO2010057171A1; EP2366170B1; US8891813B2; EP2366170A1; CN102216952B

Abstract

媒体内容的一部分被访问。来自媒体内容的第一空间区域和各随后的空间区域的成分被采样。各空间区域具有未分割区。各随后的空间区域在其面积内包含作为其元素的那些区域，或者，空间区域可部分重叠。该区域可与区域之间的任何层级关系无关地重叠。从空间区域中的每一个的成分导出媒体指纹，该媒体指纹例如对于诸如旋转的几何攻击可靠地与媒体内容部分对应。

Description

通过矩不变量的投影可靠地与媒体内容对应的媒体指纹

相关申请的交叉引用

本申请要求在2008年11月17日提交的美国专利临时申请No.61/115442的优先权，在此引入其全部内容作为参考。

技术领域

本发明总体上涉及媒体。更具体而言，本发明的实施例涉及例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹。

背景技术

媒体内容是通过至少一种媒介被体现、存储、传送、接收、处理和使用的信息。例如，音频信息内容与音频媒体相关联，并且，视频信息内容与视频媒体相关联。视频媒体可具有相关联的音频信息内容以及视频信息内容，并由此至少有时可被视为音频/视觉(AV)媒体或所谓的多媒体、混合媒体、组合媒体等的例子。如文中使用的，术语“媒体内容”、“信息内容”和“内容”可以互换地使用。

媒体内容可与相应的表现(representation)相关联。媒体内容的一些表现可被从媒体内容的一部分内的信息或包含媒体内容的一部分的信息导出(例如，计算、提取)。媒体指纹体现或捕获相应媒体的信息内容的实质，并且可通过其被唯一地识别。有时称为媒体签名或媒体签名流的媒体指纹是媒体内容表现的一个例子。视频指纹是可从视频媒体内容导出的媒体指纹。音频(声学)指纹是可从音频媒体内容(包含在视频媒体内的音频媒体内容)导出的媒体指纹。如文中使用，术语媒体指纹可指的是可与它们相关联的或由其导出它们的媒体内容的低比特率表现。

在本部分中描述的方法是可寻求的方法，但未必是先前已被构想或寻求的方法。因此，除非另外指示，否则，不应当假定在本部分中描述的方法中的任一种仅由于被包含于本部分中而作为现有技术。类似地，除非另外指示，否则，关于一个或更多个方法被标识的事项不应基于本部分而被假定为在任何现有技术中被表示。

附图说明

在附图中作为例子而不是作为限制地示出本发明，并且在这些附图中，类似的附图标记指的是类似的元件，并且其中，

图1示出根据本发明的实施例的第一示例性过程；

图2A示出根据本发明的实施例的经剪裁(cropped)的帧的例子；

图2B示出根据本发明的实施例的示例性的经区域化(regionalized)的帧；

图2C示出根据本发明的实施例的另一示例性的经区域化的帧；

图3示出根据本发明的实施例的示例性矩阵矢量空间的基；

图4示出根据本发明的实施例的另一示例性过程；以及

图5示出可实现本发明的实施例的示例性计算机***平台。

具体实施方式

这里描述了与例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹有关的示例性实施例。在以下的描述中，出于解释的目的，阐述了大量的特定细节以便提供对于本发明的彻底理解。但是，很显然，可以在没有这些特定的细节的情况下实施本发明。在其它的情况下，为了避免不必要地使本发明变得模糊、混乱或不清楚，没有详尽无遗地描述公知的结构和器件。

描述了本发明的与例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹有关的示例性实施例。这里参照包含视频、图形和视听和其它多媒体的一种或多种示例性媒体来描述媒体指纹。可出于简洁的目的在本说明书中对示例性媒体进行选择，并且，除非相反地明确陈述，否则，不应将这种选择解释为将实施例限于特定的媒体。本发明的实施例很好地适于作用于视频、视听和其它多媒体、图形和其它媒体。而且，本发明的实施例很好地适于作用于可在两个或三个空间维度上被定向的显示视频和图形信息的视频媒体。

示例性实施例的概要

本概要给出本发明的实施例的一些方面的基本描述。应当注意，本概要不是实施例的各方面的广延或详尽的总结。并且，应当注意，本概要不应被理解为标识了实施例的任何特别重要的方面或要素，也不应被理解为特别地对于实施例的任何范围或总体上对于本发明进行划界。本概要仅以简洁的格式给出与示例性实施例有关的一些概念，并且仅应被理解为以下的对示例性实施例的更详细的描述的概念性序言。

媒体内容的一部分被访问。来自媒体内容的第一空间区域和各随后的空间区域的成分被采样。各空间区域具有未分割区。各随后的空间区域在其面积内包含作为其元素的那些区域，或者，空间区域可部分重叠。该区域可与可另外地或可构想地存在于空间区域之间的任何层级关系无关地重叠。从空间区域中的每一个的成分导出媒体指纹，该媒体指纹例如对于诸如旋转的几何攻击可靠地与媒体内容部分对应。

对于媒体内容序列中的内容部分的时间有关的组的媒体内容的一部分的初始表现，对于内容元素访问量化的能量值。在初始表现被划分成的区域的矩阵上访问量化的能量值。初始表现可被下采样到较低的分辨率并且可被从媒体内容部分剪裁。

根据本发明的实施例被计算(导出、提取)的媒体签名可靠地与由其导出它们的媒体内容部分对应。媒体指纹可由此被视为对于媒体内容的各种信号处理操作有适应力(resilient)的强健(robust)的内容部分标识符。根据实施例计算的媒体签名是可经受各种信号处理操作的媒体内容的基本上强健的标识符。一些这种信号处理操作可构成如媒体盗版中那样的可能被执行以在没有权利或授权的情况下访问内容的对媒体内容的攻击。信号处理也可以或者替代性地起因于各种合法的应用(例如，从其供工作室使用的视频片断制作电影预告以便推销电影)。信号处理功能可以一种或更多种方式改变媒体内容。

例如，媒体内容可通过经受诸如伸展、剪裁或旋转的几何畸变或干扰或诸如压缩、亮度缩放、空间缩放和诸如帧速率转换或慢速播出和/或再记录的时间操作的各种其它的信号处理操作。如文中使用的，术语媒体签名可指的是代表诸如视频或音频信号的时间离散分段(例如，组块(chunk))的内容部分的位流。示例性分段视频片断的实例可以各种状态存在。第一视频片断实例可相对于其原版实例具有天然的、基本上相同的、自然的或未处理的状态，并且可由此相对于它以基本上未压缩的格式存在。作为补充或者替代性地，相同的视频片断的第二实例可以相对于其原版实例为压缩状态，诸如来自基本与H.264/AVC-MPEG4或MPEG3编解码器相容的编码器的比特流。虽然表现内容和相关联的底层信号的实际比特流可对于未压缩和压缩的格式不同，但是，出于许多实际的目的，它们的相应的视频内容可被自然的、具有基本正常的精神视觉技能的人觉察为基本上相同。许多现代的音频编解码器也感知地起作用。

实施例用于从自身共享显著的类似性的相同媒体内容的未压缩的和压缩的格式或版本中的每一个计算(导出、提取)签名。由此计算的媒体签名可靠地捕获与它们对应的媒体内容的实质，并且对于可在内容数据上执行的各种信号处理操作基本上强健，这样从而保持和与它们相关联的内容的连续、强健的相关性。此外，根据实施例计算的签名对于诸如旋转和/或剪裁的几何攻击非常强健。

实施例可由此被使用以识别例如取得版权的视频片断的修改版本。例如，假定原版的取得版权的内容可能已被诸如压缩、亮度缩放、帧速率转换、几何畸变等的各种信号处理操作修改。但是，由其计算的签名和指纹在这样的处理操作中是强健的，因此，在其存在的情况下或者至少部分地响应它，强健地抵抗与从中导出该签名和指纹的内容的解相关。因此，实施例可以可靠地允许精确或准确地识别即使受到对于其的信号处理修改的原版的取得版权的内容。

例如，根据实施例导出、计算、提取或产生等的视频签名可用于可识别取得版权的视频片断的修改的版本的应用。取得版权的或另外被保护或保管的视频内容的原版实例可能已被诸如压缩、亮度缩放、帧速率转换、诸如旋转或剪裁的几何攻击等修改。根据实施例导出的签名对于在视频内容上执行的这种处理操作基本上强健。因此，即使在这种处理有关的修改之后，实施例仍允许可靠地识别原版的取得版权的内容。

示例性实施例通过将视频信号划分成可能重叠或可能不重叠的时间较小的组块对于输入视频信号起作用。对于视频数据组块中的每一个，特征被从其的底层内容导出并且代表其的底层内容。由其形成例如内容的相对低维度的比特流表现的签名。如文中使用的，与诸如视频组块的媒体内容部分有关的术语签名可指的是视频数据的组块的比特流表现。如文中使用的，术语视频指纹可指的是视频文件或其它内容部分的所有组块的所有签名的集合，并由此可相对于基本上整个输入视频信号应用。视频组块中的每一个的签名保持基本相似，即使可分别导出它们的内容部分实例经受到各种信号处理操作。因此，实施例至少部分地基于这样的相似性起作用，该相似性存在于从给定的媒体内容的各种实例导出(采样、提取、计算)的签名特征之间，而不管未压缩或被压缩。

常规的视频签名包含视频特征的提取以及由其的签名位的创建。初始地，单个视频帧典型地被分成诸如参照规格网格设置的矩形区域的区域。然后在各区域中的像素上计算统计量。但是，在原版视频帧和修改的视频帧之间可能存在例如对准偏移或其它变化的配准差异。配准偏移或变化可导致原版帧的区域内的内容和修改的帧的相应区域内的内容之间的差异。并且，从原版帧和修改的帧的各区域提取的特征可对于在表面上相应的区域中包含像素或从中排除像素敏感。

但是，本发明的实施例从诸如基本上同心的圆、椭圆或其它椭圆体区域的至少部分地重叠的帧区域提取诸如矩不变量的统计量。从中提取矩不变量或其它统计量的重叠帧区域提供了抵抗可在内容上或者针对内容执行的诸如旋转或剪裁的几何操作的强健性。例如，根据本发明的实施例导出的签名基本上捕获或表征跨越各帧区域或者在各帧区域上(例如从内部区域前进到外部区域(或者相反))诸如矩不变量的统计量如何改变。

命名、术语和示例性平台

如这里使用的那样，术语“媒体”(复数：“多个媒体”)可指的是用于数据和其它信息的存储或传送容器。如文中使用的，术语“多媒体”可以包含多种形式的信息的媒体。多媒体信息文件可例如包含音频、视频、图像、图形、文本、动画和/或其它信息以及它们的各种组合。如文中使用的，术语“关联信息”可指的是以一些方式与信息媒体内容相关的信息。关联信息可包含例如辅助内容。

如这里使用的那样，术语“导出”、“被导出”和“导出”等可指的是对媒体内容的信号成分采样和/或从采样计算其的独特的、相应的签名或指纹。诸如“提取”签名或指纹的术语因此也可指的是导出媒体指纹。

如文中使用的，术语“媒体指纹”可指的是媒体内容文件的表现，其是被从该媒体内容文件的特性成分导出的。媒体指纹被从与它们对应的媒体内容导出(例如，计算、提取、产生等)。如文中使用的，术语“视频指纹”可指的是以一定程度的特殊性与视频媒体相关联的媒体指纹(但是，视频指纹也可与其它的媒体相关联)。这里，在实施例中使用的媒体指纹可与视频、图像、图形、文本、动画视听和/或其它多媒体、其它媒体信息内容和/或它们的各种组合对应，并且，除了可以一定程度的特殊性与它们相关联的媒体以外，媒体指纹可涉及其它的媒体。媒体指纹也可与音频内容对应。如文中使用的，术语“音频指纹”或“听觉指纹”可指的是被从音频媒体内容的成分或特性导出的媒体指纹。

视频指纹可包含独特的数字视频文件，其成分被从视频内容的特性成分导出(例如，计算、产生、写、提取和/或压缩。可被压缩以形成与其对应的视频指纹的视频内容的被导出的特性成分可包含但不限于辉度或照度值、色度或色品值、运动估计、预测和补偿值等。

因此，虽然这里描述的媒体指纹表示从中导出该媒体指纹的媒体内容，但是，它们不包含可与媒体内容相关联的(例如，被添加的或者所具有的)元数据或其它的标签，并且(例如，出于这里的描述的目的并且在其上下文中)不与它们混淆。可以用比从中导出媒体指纹的媒体内容低的比特速率来传送媒体指纹。重要的是，如文中使用的，类似于“导出”、“产生”、“写”、“提取”和/或“压缩”的术语以及基本类似于“计算指纹”的短语因此可涉及从媒体内容部分获得媒体指纹，并且在本上下文中可被同义或互换地使用。

这些以及类似的术语因此可涉及媒体指纹与该媒体指纹的或和该媒体指纹相关联的源媒体内容的关系。在一个实施例中，媒体内容部分是媒体指纹的源，并且，媒体指纹基本上包含媒体内容的独特成分。例如，视频指纹可被从与视频内容的帧中的色度和/或辉度有关的值导出(例如，至少部分地包含该值)。视频指纹也可(或替代性地)包含诸如运动矢量和类似的运动相关描述符的与视频帧中的运动估计、预测或补偿有关的值。媒体指纹可由此用于唯一地表示、识别、参照或引用从中导出该媒体指纹的媒体内容部分。伴随地，文中的这些和类似的术语可被理解为强调媒体指纹与可出于标注或描述目的而被添加到内容中并且随后被从中提取的元数据、标签或其它描述符明显不同。在涉及衍生媒体内容的上下文中，术语“衍生”或“导出”可进一步涉及可表示可包含除媒体内容的原版实例以外的内容的媒体内容。

这里可关于示例性视频或其它图像相关媒体内容和与其相关联的视频指纹来描述示例性实施例。但是，本发明的实施例很好地适于作用于音频媒体和包含音频成分的多媒体以及与其相关联的音频(“声学”)指纹。音频指纹可被从音频媒体和包含音频的多媒体内容的成分或特性(诸如可与音频或多媒体内容相关联的音频谱)导出。涉及媒体和指纹识别的领域中的技术人员应理解，这里的描述虽然明确地陈述视频或其它的图像内容，但也适用于说明音频媒体和包含音频的多媒体。并且，媒体相关领域中的技术人员应清楚，这里与从视频帧成分导出媒体指纹有关的描述也适用于说明从音频媒体或包含音频的多媒体内容的音频谱或其它的成分或特性导出音频指纹。

示例性的媒体指纹的导出

本发明的实施例从诸如基本上同心的圆、椭圆或其它的椭圆体区域的至少部分地重叠的帧区域提取诸如矩不变量的统计量。从中提取矩不变量或其它的统计量的重叠帧区域提供了抵抗可在内容上或者针对内容执行的诸如旋转或剪裁的几何操作的强健性。例如，根据本发明的实施例导出的签名基本上捕获或表征跨越各种帧区域或者在各种帧区域上(例如，从内部区域前进到外部区域(或者相反))诸如矩不变量的统计量如何改变。

媒体序列内的内容可包含多个内容元素。视频媒体例如可包含多个视频帧。通过使用例如视频媒体，图1示出根据本发明的一个实施例的用于从媒体数据流提取内容特征的示例性过程100。在步骤101中，视频序列的帧随时间T流送，该时间T可被分成间隔T_int。一个或更多个间隔T_int可包含持续视频序列的一部分的持续时间的时间块T_chunk。各间隔T_int与包含运行间隔T_int的持续时间的视频内容的一部分的一组视频帧相关联。间隔T_int可例如从第一时刻j运行到第二时刻j+1。时刻j-1可在时刻j之前。因此，从时刻j-1到时刻j的间隔T_int可在从j到j+1的间隔T_int之前。

在步骤102中，在时间间隔T_int中的每一个上导出(例如，计算、提取)媒体指纹。可从最小帧速率转换因子导出间隔T_int，对于该最小帧速率转换因子媒体签名可期望可靠地与从中提取它们的原版媒体内容的帧对应。例如，在原视频序列的速率为30帧每秒(fps)并且其视频指纹期望对于下降到12fps的帧速率转换可靠地与原帧内容对应的情况下，视频指纹可每十二分之一秒被提取；因此，T_int＝1/12秒。应当理解，实施例可基本无限制地作用于任何给定的媒体元素速率(例如，视频帧速率)或其范围。视频帧Fj表示对于时间步j最接近的视频帧。由此基于来自帧Fj(例如，其成分)的特征导出(计算、提取)时间步j的签名。

在步骤103中，帧Fj被下采样到基准空间分辨率。例如，帧Fj可被下采样到120＊160的基准空间分辨率。下采样到基准空间分辨率用于允许实施例有效地处理可与视频内容的实例相关联的空间分辨率中的变化。在保持纵横比的情况下，原版视频和经空间缩放的视频的配准也被保持。

在步骤104中，执行输入帧Fj的信盒(letterbox)检测和去除，从中剪裁子图像。信盒检测可包含搜索帧以寻找相对强的水平边缘，以及帧的顶部(底部)中的具有大致或基本上恒定的强度(例如，照度，辉度)的帧区域。检测到的信盒被去除。剩余的帧的有效区域(例如，在信盒被去除之后)被上采样到选择的基准空间分辨率(例如，120＊160)。并且，从被下采样的帧Fj图像剪裁出子图像。

图2A示出根据本发明的实施例的被从视频媒体内容的帧剪裁出的区域200的例子。剪裁出的子图像区域可被选择，以允许诸如文本的特征覆盖在原版图片的一部分中和/或图形、标识或符号置于帧的特定区域中(诸如接近帧的拐角部)。在选择的区域不包含新的图形内容的情况下，经处理的视频的指纹可靠性未受到显著影响。经处理的内容的帧被表示为F^c _j。在步骤104中剪裁的区域200可实际上符合任何形状。在一个实施例中剪裁的区域可符合基本为椭圆体的或卵形的形状，例如圆形区域(或者例如椭圆形或卵形区域)，以支持对于基于旋转的和/或其它的几何攻击的强健性。

在步骤105中，对帧F^c _j的内容执行低通滤波操作。对帧F^c _j低通滤波用于提高从中导出(提取、计算)的签名特征的强健性。对帧F^c _j低通滤波的程度可使与签名相关联的强健性与处理和其它的计算成本以及与对内容的敏感性平衡。经低通滤波的图像帧由F^L _j表示。例如可通过使用当前(例如基准)像素的3＊3(或大致类似尺寸或配置的)邻居的平均值实现相对简单的低通滤波。作为替代地或者附加地，可基于输入帧的分析选择低通滤波的程度。例如，可以使用少量的低通滤波，以在例如具有大量详细的、信息丰富的特征的明显复杂的帧中保留敏感性。相反，可以对于具有较不复杂或者较不详细的信息的帧使用较高程度的低通滤波。并且，参照步骤105描述的低通滤波可以是任选的或者在实施例中被省略。

经低通滤波的图像F^L _j捕获像素的空间配置(例如，当前视频帧中的图像对象或特征)。在步骤106中，可通过差值实例(例如差值图像D_j)捕获涉及与视频帧内容中的图像对象或特征相关联的运动有关的信息。可根据下式1计算差值图像D_j：

D_{j} (k, l) = Q_{j} (k, l) - F_{j}^{L} (k, l)

k＝1，2...H；l＝1，2...W；

(式1)

在上式1中，W表示经低通滤波的帧FLj的宽度并且H表示高度。在示例性(120＊160)空间分辨率中，分别地，W与值160对应，H与值120对应。项Qj表示时间平均图像，该时间平均图像被从例如时间T到目前(例如，当前)时刻j的先前解码的帧的时间窗口进行平均，在步骤108中通过像素值计算出，该帧可在步骤107中被存储于帧缓冲器中。

可根据下式2计算与时间平均图像Qj对应的值。

Q_{j} (k, l) = \frac{1}{T} Σ_{i = j - T}^{j} F_{i}^{L} (k, l)

k＝1，2...H；l＝1，2，，，W；

(式2)

通过将差值图像Dj计算为当前帧FLj和时间平均图像(Qj)之间的差值提供了对于帧速率转换的适应力(例如，强健性)，通过该帧速率转换可攻击视频内容。使用时间平均图像Qj防止对于单个帧的依赖性。在步骤108中计算时间平均图像并在步骤106中计算差值图像时，产生两个解矩阵，从该解矩阵导出(例如，计算，提取)签名特征。第一矩阵FLj实质上捕获(例如，表示)当前解码的帧(FLj)的表观。第二矩阵Dj捕获与当前帧(Dj)相关的运动方面。在步骤109和110中，在当前解码的帧、与其对应的矩阵F^L _j中的值和运动映射的当前帧D_j中的每一个中产生多个区域。

在步骤109中，计算与矩阵F^L _j和Dj对应的未分割的、不完全地重叠的空间区域。未分割的、不完全重叠的空间区域可实际上符合或基本上符合任何配置或形状等。例如，未分割的、不完全重叠的空间区域可符合圆形或基本圆形、椭圆形或基本椭圆形、椭圆体或基本椭圆体、卵形或基本卵形的配置或形状等。

作为替代方案，或者在一些条件或在一些上下文中，未分割的、不完全重叠的空间区域可符合除圆形、椭圆形、椭圆体、卵形或基本圆形、椭圆形、椭圆体或卵形之外的配置或形状等。例如，未分割的、不完全重叠的空间区域可至少部分地符合或基本上符合矩形或其它的多边形配置。

未分割的、不完全重叠的空间区域可具有可实际上符合任何配置或取向的由外部圆周、轮廓或边界等为界的内部区。例如，外部圆周和其它的轮廓或边界中的至少一部分可弯曲。作为替代方案，或者，在某些条件或环境下，外部边界或轮廓可具有一个或更多个基本呈直线的边缘。

图2B示出根据本发明的实施例的经区域化的帧210的例子。经区域化的帧210实质上表示划分成多个未分割的区域的剪裁的帧区域200。未分割的区域至少部分地重叠。此外，未分割的区域可共享一个或更多个几何相似性、元素或关系。帧210可具有任意正整数‘N’个区域，第一区域R1为最内部区域，区域RN为最外部区域。在与图2B有关的示例性实施例中，N＝5，并且帧210表示分成分别具有半径r1、r2、...、r5的五(5)个同心的、圆形或基本上圆形的、未分割的区域R1、R2、...、R5。未分割的区域中的每一个包含(例如，包括、包容)与其重叠的其它未分割的区域。实施例还可作用于符合除圆形配置之外的配置的区域。

如文中使用的，术语‘未分割’可指的是一致性、连续性、完整性、非分离性、区域同一性、分区单一性或空间均匀性等的质量或特性。例如，区域R1包含其内部没有划分或分区化的单个、单一区。类似地，区域R2～R5中的每一个包含在它们内部没有划分或分区化的单个、单一区。这里参照诸如区域R1～R5的区域或者在该区域的上下文中使用的术语“内部”可涉及存在于该区域的圆周、外部轮廓或外部边界内的空间质量或特性。

区域R5包含其内部没有划分或分区化的π(r₅)²的未分割的面积。区域R5的半径r₅比区域R4的半径r₄大。并且，半径r₄包含半径r₅的成分。例如，r₅＝r₄+(r₅-r₄)。区域R4不完全地覆盖区域R5并且包含区域R5的成分。因此，区域R5包含(例如，包括、包容)区域R4的全体。

区域R4包含其内部没有划分或分区化的π(r₄)²的未分割的面积。区域R4的半径r₄比区域R3的半径r₃大。并且，半径r₃可包含半径r₄和r₅两者的成分。例如，r₄＝r₃+(r₄-r₃)和r₅＝[r₃+(r₄-r₃)]+(r₅-r₄)。

区域R3包含其内部没有划分或分区化的π(r₃)²的未分割的面积。区域R3不完全地覆盖区域R4，并由此还不完全地覆盖区域R5并且包含区域R4和区域R5两者的成分。因此，区域R4包含(例如，包括、包容)区域R3的全体，并且区域R5包含区域R4和区域R3两者的全体。

区域R2包含其内部没有划分或分区化的π(r₂)²的未分割的面积。区域R3的半径r₃比区域R2的半径r₂大。并且，半径r₂可包含半径r₂、r₄和r₅的成分。例如，r₃＝r₂+(r₃-r₂)和r₅＝[r₂+(r₃-r₂)]+[r₃+(r₄-r₃)]+[r₄+(r₅-r₄)]。区域R2不完全地覆盖区域R3并由此也不完全地覆盖区域R4和区域R5的一部分，并且包含区域R3、R4和R5的成分。因此，区域R2包含区域2的全体，区域R4包含区域R2和R3的全体，并且，区域R5包含区域R2、R3和R4的全体。

区域R1包含其内部没有划分或分区化的π(r₁)²的未分割的面积。区域R2的半径r₂比区域R1的半径r₁大。并且，半径r₁包含半径r₂、r₃、r₄和r₅的成分。例如，r₂＝r₁+(r₂-r₁)和r₅＝[r₁+(r₂-r₁)]+[r₂+(r₃-r₂)]+[r₃+(r₄-r₃)]+[r₄+(r₅-r₄)]。区域R1不完全地覆盖区域R2并由此也不完全地覆盖区域R3、R4和R5，并且包含区域R2、R3、R4和R5的成分。因此，区域R2包含区域1的全体，区域R3包含区域R1和R2的全体，区域R4包含区域R1、R2和R3的全体，并且，区域R5包含区域R1、R2、R3和R4的全体。

帧210可包含具有除圆形或基本圆形的配置以外的配置的未分割的区域。在一个实施例中，未分割的区域可基本上符合椭圆形、椭圆体、卵形或卵圆形配置。在一个实施例中，帧210的区域可符合除基本同心的配置以外的配置。在一个实施例中，帧210可包含具有符合除弯曲表面以外的表面的一个或更多个轮廓的一个或更多个区域。例如，一个或更多个轮廓可符合基本直的边缘。

图2C示出根据本发明的实施例的帧250的例子。帧250包含五(5)个未分割的区域R1′、R2′、R3′、R4′和R5′。帧250的区域中的每一个的轮廓基本上是直的。区域R1′与区域R2′水平相邻，并且与区域R3′垂直相邻。区域R2′与区域R1′水平相邻，并且与区域R4′垂直相邻。区域R3′与区域R4′水平相邻，并且与区域R1′垂直相邻。区域R4′与区域R3′水平相邻，并且与区域R2′垂直相邻。

区域R1′～R4′中的每一个的面积可基本上相等(但未必如此)。区域R5′覆盖区域R1′～R4′中的每一个的一部分。区域R1′～R4′中的每一个的由区域R5′覆盖的部分可基本上相等(但未必如此)。区域R5′的面积可与其它区域的面积一致。作为替代方案或者附加地(例如，根据各种上下文或条件)，区域R5′的面积可与其它的区域不同。

在一个实施例中，虽然区域R1′、R2′、R3′、R4′和R5′中的每一个与该区域中的一个或更多个其它区域具有重叠关系，但是区域与层级关系无关地重叠，例如该区域可另外通过该层级关系被布置、排列、相关联以及相关。例如，区域R1′、R2′、R3′、R4′和R5′中的每一个可通过与区域中的一个或更多个其它区域的重叠但不分层级的关系实现。

虽然实施例可作用于图2B或图2C中所示的未分割的帧区域，但是这里示出的配置作为例子被给出。应当理解，实施例不限于在图2B和图2C中示出的配置。相反，本发明的实施例很好地适于作用于实际上任何配置的未分割的帧区域。例如，实施例可作用于如图2C所示的具有符合除弯曲表面以外的表面的轮廓的未分割的区域。

从具有弯曲轮廓(诸如图2B中的区域R1～R5的基本圆形轮廓)的未分割的帧区域导出的签名可在可在处理中发生的旋转和其它几何操作下基本上不变。因此，作用于具有弯曲轮廓的未分割的帧区域的实施例可计算这样的媒体指纹，该媒体指纹可靠地与媒体对应并且对于几何攻击具有显著的强健性和适应力。

重新参照图2B，也可根据下式3A～3B中所示的准则导出区域的半径。

{πr}_{1}^{2} = π (r_{2}^{2} - r_{1}^{2})

{πr}_{1}^{2} = π (r_{3}^{2} - r_{2}^{2})

{πr}_{1}^{2} = π (r_{4}^{2} - r_{3}^{2})

{πr}_{1}^{2} = π (r_{5}^{2} - r_{4}^{2})

(式3A、3B、3C、3D)

在式3A～3D中表示的准则允许在从区域R1向外前进至R5期间的面积增量保持等于第一区域R1的面积。例如，区域R5的面积为区域R1的面积的五(5)倍。类似地，区域R4、R3和R2的面积分别为区域R1的面积的四(4)倍、三(3)倍和二(2)倍。因此，一般在第n(‘n’为任意正整数)个区域的半径r_n和第一区域R1的半径(r₁)之间存在简单的关系，并可在下式(4)中表达该关系。

r_{n} = \sqrt{n} r_{1}

(式4)

任何区域R_N包含其内部的所有区域，例如，内部区域R_N-1、...、R₂、R₁。区域R_N也具有等于区域R1的面积的面积增量。与存在于区域中的每一个内的视频图像或音频谱对应的媒体内容在任意量的旋转或其它的几何操作或变化上保持基本上不变。

在步骤110(重新参照图1)中，从与矩阵F^L _j和D_j相关联的未分割的、不完全重叠的空间区域的成分计算矩不变量。在一个实施例中，从‘N’个区域中的每一个提取‘M’个特征。从被指示为F^M _j的矩阵F^L _j的区域导出特征矩阵。特征矩阵F^L _j具有尺寸H×W，并且F^M _j具有尺寸N×M。关于这些尺寸，术语‘H’和‘W’分别表示或对应于经下采样的视频帧的高度和宽度，并且，术语‘N’和‘M’分别表示区域的数量和从各区域提取的特征的数量。类似地，还从矩阵D_j的‘N’个区域提取‘M’个特征，以产生特征矩阵D_j ^M。从矩阵导出的媒体指纹的强健性至少部分地基于从N个区域中的每一个提取的M个特征的强健性。例如，从矩阵计算的指纹的强健性可至少部分地依赖于被提取的特征对于旋转操作的适应力，这可包含对于媒体内容的几何攻击的特征。

在实施例中，从N(例如，5个)区域计算一组七个(或其它数量的)矩不变量作为特征。该组矩不变量包含对于平移、旋转和比例变化攻击强健的图像表面的实质上全局的量度。在一个实施例中，从N个区域中的每一个计算矩不变量。可根据下式5计算一组非中心矩(m_pq)。

m_{pq} = \underset{x}{Σ} \underset{y}{Σ} x^{p} y^{q} F_{j}^{L} (x, y)

(式5)

例如，计算的一组非中心矩m_pq可包含矩m₀₀、m₀₁、m₁₀、m₁₁、m₀₂、m₂₀、m₁₂、m₂₁、m₀₃和m₃₀。矩m₀₀～m₃₀包含具有例如小于等于三(3)的p+q的阶数的一组非中心矩。对于图像F_j ^L的区域R_N内的所有x，y位置执行由上式5表示的计算。项F_j ^L(x，y)表示与区域R_N内的(x，y)处的像素相关联的强度值。

可根据下式6从非中心矩m_pq计算一组的中心化的矩μ_pq。

μ_{pq} = \underset{x}{Σ} \underset{y}{Σ} {(x - \overset{&OverBar;}{x})}^{p} {(y - \overset{&OverBar;}{y})}^{q} F_{j}^{L} (x, y)

\overset{&OverBar;}{x} = \frac{m_{10}}{m_{00}}

\overset{&OverBar;}{y} = \frac{m_{01}}{m_{00}}

μ₀₀＝m₀₀

μ₁₀＝μ₀₁＝0

μ_{20} = m_{20} - \overset{&OverBar;}{x} m_{10}

μ_{02} = m_{02} - \overset{&OverBar;}{y} m_{01}

μ_{11} = m_{11} - \overset{&OverBar;}{y} m_{10}

μ_{30} = m_{30} - 3 \overset{&OverBar;}{x} m_{20} + {2 m}_{10} {\overset{&OverBar;}{x}}^{2}

μ_{03} = m_{03} - 3 \overset{&OverBar;}{y} m_{02} + {2 m}_{01} {\overset{&OverBar;}{y}}^{2}

μ_{12} = m_{12} - 2 \overset{&OverBar;}{y} m_{11} - \overset{&OverBar;}{x} m_{02} + {2 m}_{10} {\overset{&OverBar;}{y}}^{2}

μ_{21} = m_{21} - 2 \overset{&OverBar;}{x} m_{11} - \overset{&OverBar;}{y} m_{20} + {2 m}_{01} {\overset{&OverBar;}{x}}^{2}

(式6)

可根据下式7将中心化的矩μ_pq规格化。

η_{pq} = \frac{μ_{pq}}{μ_{00}^{γ}}

γ = \frac{p + q}{2} + 1; p + q = 2,3 . . .

(式7)

可从组合的规格化的中心矩η_pq计算矩不变量。例如，可根据下式8从规格化的中心矩η_pq的组合计算七个矩不变量Φ₁、Φ₂、...、Φ₇。

[在P.22处继续描述]

φ₁＝η₂₀+η₀₂

φ_{2} = {(η_{20} - η_{02})}^{2} + {4 η}_{11}^{2}

φ₃＝(η₃₀-3η₁₂)²+(3η₂₁-η₀₃)²

φ₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)²

φ₅＝(η₃₀-3η₁₂)(η₃₀+η₁₂)

[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]

+(3η₂₁-η₀₃)(η₂₁+η₀₃)

[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

φ₆＝(η₀₂-η₀₂)

[(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

+4η₁₁(η₂₁+η₀₃)(η₁₂+η₃₀)

φ₇＝(3η₂₁-η₀₃)(η₃₀+η₁₂)

[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]

+(3η₁₂-η₃₀)(η₂₁+η₀₃)

[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

(式8)

可从矩阵F_j ^M的行对于各区域计算矩不变量Φ₁、Φ₂、...、Φ₇。在示例性实现中，H＝120，W＝160，N＝5并且N＝7：具有五(5)个未分割和不完全重叠的同心区域和七(7)个矩不变量的120＊160帧。

步骤110类似地包含根据式5、式6、式7和式8对输入图像D_j进行计算以产生矩阵D_j ^M。

例如根据上式6计算的区域R_N的非中心矩m_pq可以以递增的方式被计算。例如，由于已在先被计算，因此在区域R_N内并不完全地覆盖R_N的未分割区域R_N-1的非中心矩可能是可用的。例如，如以上参照图2B描述的那样，区域R_N包含区域R_N-1的全体。因此，可通过根据下式9执行的计算来实现用于计算区域R_N的矩m_pq的上式6的函数。

m_{pq} = \underset{x}{Σ} \underset{y}{Σ} x^{p} y^{q} F_{k}^{L} (x, y) + \underset{k}{Σ} \underset{l}{Σ} k^{p} l^{q} F_{j}^{L} (k, l)

x，y∈R_N-1

k，l∈R_N

(式9)

上式9中的第一项表示区域R_N-1的非中心矩。因此，在计算最内部的未分割的区域R₁的非中心矩之后，可根据上式9通过对于外部区域R_N执行的计算以递增的方式计算区域R₁外面的随后区域的矩。在实施例中，例如，对于重叠区域执行特征的递增计算，这允许对于特定区域执行的计算作为杠杆以用于计算该特定区域可能作为其的成分的如文中参照图2B描述的区域的统计量。

因此，可从N个区域中的每一个计算矩不变量作为M个特征。作为替代方案或者附加地，例如通过使用包含N个区域中的每一个内的‘M’个区段的颜色/强度直方图，实施例由具有色品(或色度)有关和照度(或辉度)有关值从每个区域计算特征。N×M颜色/强度直方图在诸如旋转的几何操作下也是不变的。因此，通过其计算的媒体指纹对于几何攻击也是强健的。一个实施例用于从各区域计算对于这样的处理操作不变的M个特征，在该处理操作下希望指纹强健。

在步骤112中，在矩阵F_j ^M和D_j ^M上计算变换。输入的矩阵F_j ^M和D_j ^M均表示从各区域提取的特征可如何随着采样或计算从最内部区域R1进行到最外面的区域R_N而改变。在一个实施例中，矩阵F_j ^M和D_j ^M的列通过它们投影到一组基本矢量上被变换，以分别产生变换的矩阵F_j ^T和D_j ^T。该组基本矢量基本上直接捕获图像的特征可如何随着采样或计算从最内部区域R1进行到最外面的区域R_N而改变。

在一个实施例中，通过包含数量‘J’个矩阵F₁ ^M、F₂ ^M、...、F_J ^M的训练组的集合计算基本矢量。计算具有N＊J的尺寸的矩阵V。从训练组F₁ ^M、F₂ ^M、...、F_J ^M中的各矩阵的特定列(例如，第一列)导出矩阵V的列。计算矩阵V中的各列的均值。在矩阵V上计算的各列的均值被从相应的列的元素减去。计算矩阵V的列空间的基本矢量B₁、B₂、...、B_J。在实施例中，通过使用奇异值分解(SVD)或非负矩阵因子分解将矩阵V进行因子分解。

图3示出根据本发明的实施例的示例性矩阵矢量空间的基300。基400包含尺寸5＊6000上的矩阵V的列空间的基，其中，N＝5和J＝6000。参照图2B，基400由此在训练组中的6000个例子上捕获从区域R1到区域R5的特征的变化。

基本矢量可捕获不同的图案。例如，基本矢量B1捕获特征的实质上单调增加的图案。因此，对于具有这种单调增加的图案的特征矩阵F_j ^M中的特征，投影到基本矢量B1上的值可能会超过其上面的其它特征的投影的值。因此，通过用基400变换矩阵F_j ^M和D_j ^M的列，可直接从R₁到R_N直接捕获特征变化的图案。实施例捕获特征可如何跨越不同的区域(不限于例如参照图2C描述的同心圆配置)改变。并且，捕获特征可如何跨越不同的区域改变与在区域中的每一个中正在提取什么特征无关。实施例使用矩阵矢量空间的基，每一个基包含与多个视频帧中的每一个对应的列值，这有效地捕获会随时间发生的特征变化。

在步骤113和114中，分别从矩阵F_j ^M和D_j ^M产生签名位。产生签名位可包含在矩阵F_j ^M和D_j ^M两者中的值上执行的相同的、基本上相同的或类似的变换计算。出于与简化、简洁和简要有关的目的，由此参照F_j ^M描述位提取。但是，与这里描述的示例性实施例有关的领域的技术人员应理解，该描述可同样地应用于在与矩阵D_j ^M相关的值上计算签名位。

实施例可通过创建可具有与矩阵F_j ^T相同的尺寸的K个伪随机矢量P₁、P₂、...、P_K来产生签名位。根据下式10，矩阵F_j ^T可被投影到具有与矩阵F_j ^T相同的尺寸的一组K₁矢量上。

H_{k} = Σ_{i = 1}^{M_{1}} Σ_{j = 1}^{M_{2}} (Q (i, j) * P_{k} (i, j))

(式10)

矩阵Q包含矩阵F_j ^T或矩阵D_j ^T中的一个或更多个。术语M₁表示与每个区域的特征的群体数(population)对应的数量‘M’。术语M₂表示这里使用的可表示内部未分割区域的数量的数量‘N’。可通过将对K₁投影应用阈值来导出签名位。

在步骤115和步骤116中，分别从变换后的矩阵F_j ^M和矩阵D_j ^M创建散列位。图4示出用于基于伪随机矢量上的投影产生散列位的过程400，本发明的实施例可通过该过程起作用。基于一组K₁个矢量P₁、P₂、...、P_K1的投影可捕获矩阵F_j ^T的不同的方面。例如，如果K₁个矢量中的任两个是类似的，那么K₁个位中的两个位可以是相同的(或者基本上如此)。因此，可以使用K₁个矢量的正交基组。作为替代方案或者附加地，在一些条件或环境下或者在某些上下文或使用中，可以使用一组K₁个伪随机矢量。例如，假定K₁个伪随机矢量P₁、P₂、...、P_K1大致相互正交。可基于矩阵Q在K₁个伪随机矢量P₁、P₂、...、P_K1上的投影从F_j ^T创建K₁个散列位。类似地，从D_j ^T位创建K₂个散列位。该投影步骤减少了矩阵F_j ^T或矩阵D_j ^T的维度，并从该矩阵产生位。注意，伪随机矩阵不被低通滤波以使得它们平滑化，并且这有助于各P_i从输入的矩阵Q捕获独立的信息。也可通过使用训练数据组优化伪随机矩阵，以帮助拾取捕获独立的信息的一组伪随机矩阵。

可通过对K₁个投影应用阈值来导出签名位。在一个实施例中，基于伪随机矢量上的投影产生散列位。基于一组K1个矢量P1、P2、...、PK1的投影可捕获矩阵D的不同的方面。例如，如果K1个矢量中的任两个是类似的，那么K1个位中的两个位是相同的。因此，可以使用K1矢量的正交基组。作为替代方案，可以使用一组K1个伪随机矢量，因为假定K1个伪随机矢量大致相互正交。

可基于K1个伪随机矢量上的Hadamard乘积投影H₁、H₂、...、H_K1从Q产生K1个散列位。对于从1到K₁的数i，如果H_i比H₁、H₂、...、H_K1的中值大，那么第i个签名位可被设为值‘1’。但是，在H_i不比H₁、H₂、...、H_K1的中值大的情况下，相应的签名位可被设为值‘0’。以基本上类似的方式，从V_r个位创建K₂个散列位。

在例如为了比较或参照相应的原版视频内容的指纹而从修改的视频内容重新产生视频指纹时，诸如T_chunk、空间区域的数量、每个区域提取的特征的数量和/或伪随机矩阵的参数的值可基本上不变。

在步骤114中，创建媒体指纹。媒体指纹具有K₁+K₂位的长度，并且包含来自F_j ^M或D_j ^M的两组散列位的连结。用于产生K₁个散列位的伪随机矩阵和用于产生K₂个散列位的伪随机矩阵可不同。(在示例性实现中，K₁和K₂被设为值18。)

示例性实现平台

可通过计算机***、以电子电路和部件配置的***、集成电路(IC)器件(诸如可编程逻辑器件(PLD)、例如微控制器、场可编程门阵列(FPGA)或专用IC(ASIC))实现诸如过程100和400(分别地，图1、图4)的一部分的本发明的实施例。作为替代方案或者附加地，可通过包含这些***、器件或部件中的一个或更多个的装置实现本发明的实施例。在与其一起提交的其附录中的一个或更多个中描述可实施本发明的实施例的示例性平台，在此并入该附录作为参考。

图5示出可实施本发明的实施例的示例性计算机***平台500。计算机***500包含用于传送信息的总线502或其它的通信机构，以及与总线502耦合的用于处理信息的处理器504。计算机***500还包含与总线502耦合的用于存储要由处理器504执行的信息和指令的诸如随机存取存储器(RAM)或其它的动态存储器件的主存储器506。主存储器506还可被用于在要被处理器504执行的指令的执行中存储临时变量或其它的中间信息。计算机***500还包含与总线502耦合的用于存储用于处理器504的静态信息和指令的只读存储器(ROM)508或其它的静态存储器件。诸如磁盘或光盘的存储设备510被提供并与总线502耦合以用于存储信息和指令。

计算机***500可通过总线502与用于向计算机用户显示信息的诸如液晶显示器(LCD)、阴极射线管(CRT)或等离子显示器等的显示器512耦合。用于向处理器504传送信息和命令选择的包含文字数字和其它的键的输入设备514与总线502耦合。另一类型的用户输入设备是用于向处理器504传送方向信息和命令选择并用于控制显示器512上的光标移动的诸如鼠标、跟踪球或光标方向键的光标控制516。该输入设备典型地在两个轴、即第一轴(例如，x)和第二轴(例如，y)中具有两个自由度，允许设备指定平面内的位置。

本发明的实施例可涉及用于导出例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹的计算机***500的应用。根据本发明的实施例，响应于处理器504执行包含于主存储器506中的一个或更多个指令的一个或更多个序列，由计算机***500提供通过远程对象重写询问。这些指令可从诸如存储设备510的另一计算机可读媒体被读入主存储器506中。包含于主存储器506中的指令的序列的执行导致处理器504执行这里描述的处理步骤。也可使用多处理配置中的一个或更多个处理器以执行包含于主存储器506中的指令的序列。在替代性实施例中，作为软件指令的替代或者与其组合，可以使用硬接线电路以实现本发明。因此，本发明的实施例不限于硬件电路和软件的任何特定组合。

这里使用的术语“计算机可读介质”或“计算机可读存储介质”可涉及参与向处理器504提供用于执行的指令的任何介质。这种介质可采取任何形式，包括但不限于非易失性介质、易失性介质和传送介质。非易失性介质包含例如诸如存储设备510的光盘或磁盘。易失性介质包含诸如主存储器506的动态存储器。传送介质包含共轴线缆、铜线或其它的导体和光纤，包括包含总线502的导线。传送介质也可采取声波或光波的形式，诸如在无线电波和红外数据通信中产生的声波或光波。

一般形式的计算机可读介质包含例如软盘、柔性盘、硬盘、磁带或任何其它的磁性媒体、CD-ROM、任何其它的光媒体、穿孔卡片、纸带、任何其它的传统的或具有孔的图案的其它的物理媒体、RAM、PROM和EPROM、FLASH-EPROM、任何其它的存储器芯片或盒、后面描述的载波或计算机可读取的任何其它的媒体。

各种形式的计算机可读介质可涉及将一个或更多个指令的一个或更多个序列携带到处理器504以供执行。例如，可初始地在远程计算机的磁盘上承载指令。远程计算机可将指令加载到其动态存储器中并通过使用调制解调器在电话线上发送指令。计算机***500本地的调制解调器可在电话线上接收数据，并且使用红外传送器以将数据转换成红外信号。与总线502耦合的红外检测器可接收在红外信号中承载的数据并在总线502上放置数据。总线502将数据携带到主存储器506，处理器504从该主存储器506检索和执行指令。由主存储器506接收的指令可任选地在被处理器504执行之前或之后被存储于存储设备510上。

计算机***500还包含与总线502耦合的通信接口518。通信接口518向与局域网522连接的网络链接520提供双向数据通信耦合。例如，通信接口518可以是提供与相应类型的电话线的数据通信连接的综合业务数字网(ISDN)卡或数字用户线路(DSL)、电缆或其它的调制解调器。作为另一例子，通信接口518可以提供与兼容LAN的数据通信连接的局域网(LAN)。也可以实现无线链接。在任何这种实现中，通信接口518发送和接收承载代表各种类型的信息的数字数据流的电信号、电磁信号或光信号。

网络链路520典型地通过一个或更多个网络向其它的数据设备提供数据通信。例如，网络链路520可通过局域网络520向主机计算机524或向由因特网服务提供商(ISP)526操作的数据设备提供连接。ISP 526继而通过现在通常称为“因特网”528的世界信息包数据通信网络提供数据通信服务。局域网522和因特网528均使用承载数字数据流的电信号、电磁信号或光学信号。承载去往和来自计算机***500的数字数据的通过各种网络的信号以及网络链路520上的并且通过通信接口518上的信号是传送信息的载波的示例性形式。

计算机***500可通过网络、网络链路520和通信接口518发送消息并接收包含程序代码的数据。在因特网例子中，服务器530可通过因特网528、ISP 526、局域网522和通信接口518传送对于应用程序请求的代码。根据本发明，一种这种下载的应用提供这里描述的导出例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹。接收的代码可在被接收时被处理器504执行，并且/或者被存储在存储设备510或其它的非易失性存储器中以供以后的执行。这样，计算机***500可以以载波的形式获得应用代码。

等同物、扩展、替代方案和混合

因此，描述了涉及例如通过矩不变量的投影可靠地与媒体内容对应的媒体指纹的示例性实施例。在以上的说明书中，参照可因实现而改变的大量的具体细节描述了本发明的实施例。因此，什么是本发明以及申请人意图成为本发明的唯一且排他的指示是一组权利要求，该组权利要求以发布这样的权利要求的特定形式从本申请发布，包含任何随后的校正。这里对于包含于这些权利要求中的术语明确阐述的任何定义应主导在权利要求中使用的这些术语的意思。由此，在权利要求中没有明确陈述的限制、元素、性能、特征、优点或属性不应以任何的方式限制这些权利要求的范围。因此，说明书和附图应被视为解释性的而不是限制性的。

本发明的实施例可涉及下列的示例性实施例中的一个或更多个。

1.一种方法，包括以下的步骤：

访问媒体内容的一部分；

从媒体内容的第一空间区域采样一个或更多个成分，

其中，第一空间区域包含未分割区；

从媒体内容的第二空间区域采样一个或更多个成分，

其中，第二空间区域包含未分割区；

第一空间区域包含第二空间区域的元素；和

从第一和第二空间区域的成分导出媒体指纹，

其中，媒体指纹可靠地与媒体内容部分对应。

2.如列举的示例性实施例1描述的方法，还包括以下的步骤：

从媒体内容的第N个空间区域采样一个或更多个成分，

其中，第N个空间区域包含未分割区，并且，

第二空间区域包含第N个空间区域的元素；和

从第一、第二和第N个空间区域的成分导出媒体指纹。

3.如列举的示例性实施例2或列举的示例性实施例中的一个或更多个描述的方法，其中，N包含具有大于二(2)的值的整数。

4.如列举的示例性实施例3描述的方法，还包括以下的步骤：

从具有与具有值(N-1)的整数对应的序数身份的媒体内容空间区域采样一个或更多个成分，

其中，与整数(N-1)对应的空间区域包含未分割区，并且，

其中，与整数(N-1)对应的空间区域包含第N个空间区域的元素；以及

从第一、第二和第N个空间区域以及与整数(N-1)对应的空间区域的成分导出媒体指纹。

5.如列举的示例性实施例1描述的方法，其中，第一空间区域和第二空间区域均符合类似的配置。

6.如列举的示例性实施例5描述的方法，其中，类似的配置包含类似的几何形状。

7.如列举的示例性实施例6描述的方法，其中，第一空间区域不完全地覆盖第二空间区域。

8.如列举的示例性实施例6或7的一个或更多个描述的方法，其中，第一空间区域基本上相对于第二空间区域居中。

9.如列举的示例性实施例3描述的方法，其中，配置包含椭圆体或卵形体中的至少一种。

10.如列举的示例性实施例9描述的方法，其中，椭圆体符合圆形或椭圆形配置，并且，

圆形配置的第一空间区域；或

椭圆形配置的第一空间区域的长轴或短轴中的一个或更多个

的中心基本上与媒体内容部分的中心对准。

11.如列举的示例性实施例1～10中的一个或更多个描述的方法，其中，第二到第N个空间区域中的一个或更多个包含基本上在空间上与其叠合的第一空间区域的空间投影，其中，第一和第二到第N个空间区域基本上相互同心地取向。

12.如列举的示例性实施例1～11的一个或更多个描述的方法，其中，第一空间区域包含第二空间区域的空间元素，并且，

第二空间区域或与整数(N-1)对应的空间区域中的一个或更多个包含第N个空间区域的空间元素。

13.如列举的示例性实施例1～12中的一个或更多个描述的方法，其中，导出步骤包含以下的步骤：

计算与采样的空间区域成分中的每一个相关的一组统计量。

14.如列举的示例性实施例13描述的方法，其中，该组统计包含与采样的空间区域成分相关联的多个矩不变量。

15.如列举的示例性实施例1～14中的一个或更多个描述的方法，其中，媒体包含以下的媒体中的一个或更多个：

视频媒体，其中，媒体指纹包含关于在空间区域中的每一个上的视频媒体中的图像的特征的变化进行描述的视频指纹；

音频媒体，其中，媒体指纹包含关于在空间区域中的每一个上的与媒体内容部分相关联的声谱图的特性的变化进行描述的音频/声学指纹。

16.如列举的示例性实施例15描述的方法，还包括以下的步骤：

从视频图像或音频声谱图中的一个或更多个产生差值实例；

从差值实例中的一组区域计算多个矩不变量；和

描述与视频图像或音频谱图的特性中的一个或更多个相关联的运动在空间区域中的每一个上的变化。

17.如列举的示例性实施例13描述的方法，其中，计算一组统计量包含以下的步骤：

计算与从第一空间区域采样的成分相关的一组统计量；和

递增地计算与各随后的区域到第N个区域的成分相关的一组统计量。

18.如列举的示例性实施例17描述的方法，递增计算步骤包括以下的步骤：

以从较小面积的空间区域到其随后的面积增加的空间区域中的每一个的顺序计算空间区域中的每一个的一组统计量；

在对于空间区域中的每一个计算各组统计量时存储各组统计量中的每一个；

在随后空间区域中的每一个的成分的采样时，对于较小面积的空间区域中的每一个访问存储的各组统计量；和

在对于其随后的面积增加的空间区域中的每一个的计算一组统计的步骤中使用所访问的各组统计量。

19.如列举的示例性实施例13描述的方法，其中，成分包含视频图像的强度元素或颜色元素或音频媒体内容部分的强度元素或频率元素中的至少一个，

其中，计算一组统计量的步骤包含以下的步骤：

产生代表强度元素、频率元素或颜色元素的直方图；

在空间区域中的每一个上测量强度、频率或颜色代表性直方图；以及

描述空间区域中的每一个上的与直方图相关联的区段群体数的变化。

20.如列举的示例性实施例13描述的方法，其中，计算统计量的步骤还包括以下的步骤：

从媒体内容的帧的离线训练组，在媒体内容的帧的训练组的采样的空间区域成分中收集一组矩阵，其中，训练组具有群体数‘J’；

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与空间区域的数量有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

其中，矩阵V的一个或更多个列中的多个值被从训练组的各矩阵的列中的一个导出；

计算一个或更多个矩阵V的列中的每一个的均值；

计算所述均值与列中的每一个的值中的每一个之间的差值；和

从计算的差值估计第一维度空间中的一组基本矢量。

21.如列举的示例性实施例20描述的方法，其中，估计步骤包括以下的步骤：

将矩阵V因子分解。

22.如列举的示例性实施例21描述的方法，其中，因子分解步骤包括以下的步骤中的至少一个：

对于矩阵V计算奇异值分解；或

对于矩阵V计算非负因子分解。

23.如列举的示例性实施例21描述的方法，还包括以下的步骤：

将与空间区域中的两个或更多个的特征或特性中的一个或更多个对应的多个值投影到所估计的基本矢量中的一个或更多个上；和

基于投影组变换该组矩阵；和

确定在空间区域上所述特征或特性中的一个或更多个的可变性。

24.如列举的示例性实施例13描述的方法，其中，计算统计量的步骤还包括以下的步骤：

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与时间步的数量有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

计算一个或更多个矩阵V的列中的每一个的均值；

计算所述均值与列中的每一个的值中的每一个之间的差值；

从计算的差值估计第一维度空间中的一组基本矢量；以及

关于帧和与其相关联的帧速率，确定特征或特性随时间的可变性。

25.如列举的示例性实施例20或列举的示例性实施例24中的一个或更多个描述的方法，其中，导出指纹的步骤还包括以下的步骤：

计算均具有尺寸N和M的多个伪随机矢量；

将矩阵中的每一个投影到所述伪随机矢量中的每一个上，其中，多个标量值被导出，所述标量值中的每一个与被投影的矩阵中的一个相对应；

计算与所述多个标量值的中值对应的阈值；和

比较标量值和阈值，其中基于所述比较导出指纹。

26.如列举的示例性实施例1～12中的一个或更多个描述的方法，其中，导出步骤包括以下的步骤：

计算与采样的空间区域成分中的每一个有关的一组统计量，并且，

其中，该组统计量包含在媒体内容部分的任意一组区域上被采样的多个矩不变量。

27.一种方法，包括以下多个步骤：

计算与以下中的至少一个有关的一组统计量：

从媒体内容的一个或更多个帧采样的多个空间区域成分中的每一个，其中，媒体内容包含视频、音频或混合媒体内容中的一个或更多个；或

在媒体内容部分的任意一组区域上采样的多个矩不变量；以及

从空间区域成分导出媒体指纹，其中，媒体指纹可靠地与媒体内容部分对应。

28.如列举的示例性实施例27描述的方法，其中，计算统计量的步骤还包括以下的步骤：

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与空间区域的数量有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

计算一个或更多个矩阵V的列中的每一个的均值；

从计算的差值估计第一维度空间中的一组基本矢量，其中，媒体内容部分的特征的空间变化是可通过其确定的。

29.如列举的示例性实施例28描述的方法，其中，估计步骤包括以下的步骤：

将矩阵V因子分解。

30.如列举的示例性实施例28描述的方法，其中，因子分解步骤包括以下的步骤中的至少一个：

对于矩阵V计算奇异值分解；或

对于矩阵V计算非负因子分解。

31.如列举的示例性实施例28描述的方法，还包括以下的步骤：

基于投影组变换该组矩阵；和

32.一种方法，包括以下多个步骤：

计算与以下中的至少一个有关的一组统计量：

从媒体内容的一个或更多个帧采样的多个采样的空间区域成分中的每一个，其中，媒体内容包含视频、音频或混合媒体内容中的一个或更多个；或

从第一和第二空间区域的成分导出媒体指纹，其中，媒体指纹可靠地与媒体内容部分对应。

33.如列举的示例性实施例32描述的方法，其中，计算统计量的步骤还包括以下的步骤：

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与时间步的数量有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

计算一个或更多个矩阵V的列中的每一个的均值；

计算所述均值与列中的每一个的值中的每一个之间的差值；

从计算的差值估计第一维度空间中的一组基本矢量；以及

34.如列举的示例性实施例33描述的方法，其中，导出指纹步骤还包括以下的步骤：

计算均具有尺寸N和M的多个伪随机矢量；

计算与所述多个标量值的中值对应的阈值；和

比较标量值和阈值，其中基于所述比较导出指纹

35.如列举的示例性实施例1描述的方法，其中，第一空间区域与第一区域和第二区域之间的层级关系无关地在空间上与第二空间区域重叠。

36.如列举的示例性实施例1描述的方法，还包括以下的步骤：

从媒体内容的第N个空间区域采样一个或更多个成分，

其中，第N个空间区域包含未分割区，

第一空间区域、第二空间区域和第N个空间区域中的一个或更多个包含一个或更多个其它空间区域的元素；以及

从第一、第二和第N个空间区域的成分导出媒体指纹。

37.一种方法，包括以下的步骤：

访问媒体内容的一部分，其中，媒体内容包含音频、视频、混合或多媒体内容中的一个或更多个；

从媒体内容的第一空间区域采样一个或更多个成分，

其中，第一空间区域包含未分割区；

从媒体内容的第二空间区域采样一个或更多个成分，

其中，第二空间区域包含未分割区；

第一空间区域在空间上与第二空间区域部分地重叠，而与第一区域和第二区域之间的层级关系无关；以及

38.一种方法，包括以下多个步骤：

a)对于媒体内容的序列中的内容部分的时间相关组的媒体内容的一部分的第一表现，访问所述第一表现被分割成的空间区域的矩阵上的内容元素的值；

b)从内容部分的离线训练组估计第一维度空间中的一组基本矢量，其中，该组基本矢量包含涉及被从媒体内容的一个或更多个帧采样的多个采样的空间区域成分中的每一个的统计量，其中，所述媒体内容包含视频、音频或混合媒体内容中的一个或更多个；以及

c)将所述第一表现变换成第二维度空间中的媒体内容部分的第二表现，其中所述第二表现包含基于估计的基本矢量的第一表现的投影，

其中，至少部分地基于所述第二表现导出媒体指纹。

39.如列举的示例性实施例38描述的方法，其中，计算统计步骤还包括以下的步骤：

从媒体内容的帧的离线训练组，在媒体内容的帧的训练组的多个采样的空间区域成分中收集一组矩阵，其中，训练组具有群体数‘J’；

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与空间区域的数量或时间步的数量中的至少一个有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

计算一个或更多个矩阵V的列中的每一个的均值；

计算所述均值与列中的每一个的值中的每一个之间的差值；

其中，从计算的差值在第一维度空间中估计一组基本矢量；其中，媒体内容部分的特征中的空间变化或时间变化中的一个或更多个是可通过其确定的。

40.一种***，包括：

用于执行如列举的示例性实施例1～39中的一个或更多个所述的方法的步骤的装置。

41.一种装置或***，包括：

至少一个处理器；和

计算机可读介质，包含当被处理器执行时导致***执行如列举的示例性实施例1～39中的一个或更多个所述的方法的步骤的指令。

42.一种集成电路(IC)器件，被配置或编程用于执行如列举的示例性实施例1～39所述的方法中的一个或更多个的步骤，或体现、设置或支持如列举的示例性实施例40～41所述的***中的一个或更多个。

43.如列举的示例性实施例42描述的IC器件，其中，IC包含处理器、可编程逻辑器件(PLD)、微控制器、场可编程门阵列(FPGA)、数字信号处理器(DSP)或专用IC(ASIC)中的至少一个。

44.一种计算机***的应用，包括：

执行、控制或实施在列举的示例性实施例1～29中的一个或更多个个描述的方法。

45.一种计算机可读存储介质，包含当被一个或更多个处理器执行时导致一个或更多个处理器实现以下操作的经编码的指令：

执行如列举的示例性实施例1～29中的一个或更多个所述的方法的步骤；

配置或编码如列举的示例性实施例30～31中的一个或更多个所述的装置或***中的一个或更多个中的至少一个；

配置或编程如列举的示例性实施例32～33中的一个或更多个所述的IC器件中的一个或更多个；或

编程或控制如列举的示例性实施例34所述的计算机***。

等同物、扩展、替代方案和混合

Claims

1.一种方法，包括以下步骤：

访问媒体内容的一部分；

从所述媒体内容的第一空间区域采样一个或更多个成分，

其中，所述第一空间区域包含未分割区；

从所述媒体内容的第二空间区域采样一个或更多个成分，

其中，所述第二空间区域包含未分割区；

所述第一空间区域包含所述第二空间区域的元素；以及

从所述第一空间区域和第二空间区域的成分导出媒体指纹，

其中，所述媒体指纹可靠地与所述媒体内容部分对应。

2.如权利要求1描述的方法，还包括以下步骤：

从所述媒体内容的第N个空间区域采样一个或更多个成分，

其中，所述第N个空间区域包含未分割区，并且，

其中，所述第二空间区域包含所述第N个空间区域的元素；以及

从所述第一、第二和第N个空间区域的成分导出所述媒体指纹。

3.如权利要求2或权利要求中的一个或更多个描述的方法，其中，N包含具有大于二(2)的值的整数。

4.如权利要求3描述的方法，还包括以下步骤：

其中，与整数(N-1)对应的空间区域包含未分割区，并且，

其中，与整数(N-1)对应的空间区域包含所述第N个空间区域的元素；以及

从所述第一、第二和第N个空间区域以及与整数(N-1)对应的空间区域的成分导出所述媒体指纹。

5.如权利要求1描述的方法，其中，所述第一空间区域和所述第二空间区域均符合类似的配置。

6.如权利要求5描述的方法，其中，所述类似的配置包含类似的几何形状。

7.如权利要求6描述的方法，其中，所述第一空间区域不完全地覆盖所述第二空间区域。

8.如权利要求6或7的中的一个或更多个描述的方法，其中，所述第一空间区域相对于所述第二空间区域基本上居中。

9.如权利要求3描述的方法，其中，所述配置包含椭圆体或卵形体中的至少一种。

10.如权利要求9描述的方法，其中，椭圆体符合圆形或椭圆形配置，并且，

圆形配置的第一空间区域；或

椭圆形配置的第一空间区域的长轴或短轴中的一个或更多个

的中心基本上与媒体内容部分的中心对准。

11.如权利要求1～10中的一个或更多个描述的方法，其中，第二到第N个空间区域中的一个或更多个包含基本上在空间上与其叠合的第一空间区域的空间投影，其中，第一和第二到第N个空间区域基本上相互同心地被取向。

12.如权利要求1～11的一个或更多个描述的方法，其中，第一空间区域包含第二空间区域的空间元素，并且，

13.如权利要求1～12中的一个或更多个描述的方法，其中，导出步骤包含以下步骤：

计算与被采样的空间区域成分中的每一个相关的一组统计量。

14.如权利要求13描述的方法，其中，该组统计量包含与被采样的空间区域成分相关联的多个矩不变量。

15.如权利要求1～14中的一个或更多个描述的方法，其中，媒体包含以下中的一个或更多个：

视频媒体，其中，所述媒体指纹包含关于在空间区域中的每一个上的视频媒体中的图像的特征中的变化进行描述的视频指纹；

音频媒体，其中，所述媒体指纹包含关于在空间区域中的每一个上的与媒体内容部分相关联的声谱图的特性中的变化进行描述的音频/声学指纹。

16.如权利要求15描述的方法，还包括以下的步骤：

从视频图像或音频声谱图中的一个或更多个产生差值实例；

从所述差值实例中的一组区域产生所述多个矩不变量；以及

描述在空间区域中的每一个上的与视频图像或音频声谱图的特性中的一个或更多个相关联的运动中的变化。

17.如权利要求13描述的方法，其中，计算一组统计量包含以下的步骤：

计算与来自第一空间区域的被采样的成分相关的一组统计量；以及

递增地计算与每个随后的区域到第N个区域的成分相关的一组统计量。

18.如权利要求17描述的方法，递增计算步骤包括以下的步骤：

在对于空间区域中的每一个计算各组统计量时存储各组统计量中的每一组；

在进行随后空间区域中的每一个的成分的采样时，对于较小区域的空间区域中的每一个访问存储的各组统计量；和

在对于其随后的面积增加的空间区域中的每一个执行计算一组统计量的步骤时使用访问的各组统计量。

19.如权利要求13描述的方法，其中，所述成分包含视频图像的强度元素或颜色元素或音频媒体内容部分的强度元素或频率元素中的至少一个，

其中，计算一组统计步骤包含以下的步骤：

产生代表强度元素、频率元素或颜色元素的直方图；

描述在空间区域中的每一个上与直方图相关联的区段群体数的变化。

20.如权利要求1描述的方法，其中，第一空间区域与第一区域和第二区域之间的层级关系无关地在空间上与第二空间区域重叠。

21.如权利要求1描述的方法，还包括以下的步骤：

从媒体内容的第N个空间区域采样一个或更多个成分，

其中，第N个空间区域包含未分割区，

第一空间区域、第二空间区域和第N个空间区域中的一个或更多个包含一个或更多个其它空间区域中的元素；和

从第一、第二和第N个空间区域的成分导出所述媒体指纹。

22.一种方法，包括以下步骤的至少一个：

第一多个步骤，包含：

计算涉及以下中的至少一个的一组统计量：

从媒体内容的一个或更多个帧采样的多个空间区域成分中的每一个，其中所述媒体内容包含视频、音频或混合媒体内容中的一个或更多个；或

从所述空间区域成分导出媒体指纹，其中所述媒体指纹可靠地与所述媒体内容部分对应；或

第二多个步骤，包含：

b)从内容部分的离线训练组估计第一维度空间中的一组基本矢量，其中，该组基本矢量包含涉及被从媒体内容的一个或更多个帧采样的多个采样空间区域成分中的每一个的统计量，其中，所述媒体内容包含视频、音频或混合媒体内容中的一个或更多个；以及

其中，至少部分地基于所述第二表现导出媒体指纹。

23.如权利要求13或权利要求22中的一个或更多个描述的方法，其中，计算统计量的步骤还包括以下的步骤：

从媒体内容的帧的离线训练组，在媒体内容的帧的训练组的采样空间区域成分中收集一组矩阵，其中，训练组具有群体数‘J’；

从J个矩阵计算矩阵‘V’，其中，矩阵V包含：

与空间区域的数量有关的第一尺寸‘N’；和

与训练组的群体数‘J’有关的第二尺寸；

计算一个或更多个矩阵V的列中的每一个的均值；

从计算的差值估计第一维度空间中的一组基本矢量。

24.如权利要求23描述的方法，其中，估计步骤包括以下的步骤：

将矩阵V因子分解。

25.如权利要求24描述的方法，其中，因子分解步骤包括以下的步骤中的至少一个：

对于矩阵V计算奇异值分解；或

对于矩阵V计算非负因子分解。

26.如权利要求23描述的方法，还包括以下的步骤：

将与空间区域中的两个或更多个的特征或特性中的一个或更多个对应的多个值投影到所估计的基本矢量中的一个或更多个上；以及

基于投影的组变换该组矩阵；以及

确定所述特征或特性中的一个或更多个在空间区域上的可变性。

27.如权利要求26中的一个或更多个描述的方法，其中，导出指纹的步骤还包括以下的步骤：

计算均具有尺寸N和M的多个伪随机矢量；

计算与所述多个标量值的中值对应的阈值；和

比较标量值和阈值，其中基于所述比较导出指纹。

28.如权利要求1～12中的一个或更多个描述的方法，其中，导出步骤包括以下的步骤：

计算涉及采样空间区域成分中的每一个的一组统计量，并且，

29.如权利要求28描述的方法，还包括以下的步骤：

基于投影的组变换该组矩阵；以及

30.一种***，包括：

用于执行如权利要求1～29中的一个或更多个所述的方法的步骤的装置。

31.一种装置或***，包括：

至少一个处理器；和

计算机可读介质，包含当被处理器执行时导致***执行如权利要求1～29中的一个或更多个所述的方法的步骤的指令。

32.一种集成电路(IC)器件，被配置或编程用于执行如权利要求1～29所述的方法中的一个或更多个的步骤，或体现、设置或支持如权利要求30～31所述的***中的一个或更多个。

33.如权利要求32描述的IC器件，其中，IC包含处理器、可编程逻辑器件(PLD)、微控制器、场可编程门阵列(FPGA)、数字信号处理器(DSP)或专用IC(ASIC)中的至少一个。

34.一种计算机***的应用，包括：

执行、控制或实施权利要求1～29中的一个或更多个描述的方法。

35.一种计算机可读存储介质，包含当被一个或更多个处理器执行时导致所述一个或更多个处理器实现以下的操作的经编码的指令：

执行如权利要求1～29中的一个或更多个所述的方法的步骤；

对如权利要求30～31中的一个或更多个所述的装置或***中的一个或更多个中的至少一个进行配置或编程；

对如权利要求32～33中的一个或更多个所述的IC器件中的一个或更多个进行配置或编程；或

编程或控制如权利要求34所述的计算机***。