CN104978750B

CN104978750B - 用于处理视频文件的方法和装置

Info

Publication number: CN104978750B
Application number: CN201410139040.4A
Authority: CN
Inventors: 汪孔桥; 李江伟
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-04-04
Filing date: 2014-04-04
Publication date: 2018-02-06
Anticipated expiration: 2034-04-04
Also published as: EP3127086B1; CN104978750A; EP3127086A4; WO2015150634A1; EP3127086A1

Abstract

本发明提供一种用于处理视频文件的方法和装置，所述视频文件包括多个视频帧，所述方法包括：确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

Description

用于处理视频文件的方法和装置

技术领域

本发明的实施方式涉及视频文件处理领域，更具体地，涉及一种用于处理视频文件的方法和装置。

背景技术

随着计算机技术，尤其是视频技术的不断发展，对视频文件的分割处理成为研究的热点之一。例如，经常存在需要从视频文件中剥离出背景画面的需求。

视频分割是用于视频处理的关键技术。其目标是从背景中分割出运动对象。存在两类常见的分割方法。第一类方法是通过例如运动估计(Motion Estimation，ME)之类的技术从背景中直接估计并分割出运动对象。这类方法一般对背景的运动没有限制。这样，总是存在对于从背景分割的运动的对象的分割准确性问题。即使通过交互式机制来手动地对运动对象的边缘进行精细调整，直至获得可接受的结果，其准确性依然无法完全得到保证，而且需要耗费大量人工劳动，效率很低。

另一类分割方法是跨视频帧来重构整个背景，通过比较重构的背景与每个视频帧来分割运动对象。常用方法是通过对每个像素在视频时间轴上进行统计学习建模，得到重构的视频背景。方法要求背景中像素在不同视频帧的位置基本不发生变化，对背景的运动有严格限制，理想的情况是具有静止的背景。这就要求用户在摄制视频时，手不能晃动，这在实践中相当困难。

发明内容

为了解决现有技术中存在的上述问题，本说明书提出如下方案。

根据本发明第一方面，提供一种用于处理视频文件的方法，所述视频文件包括多个视频帧，所述方法包括：确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

在本发明的可选实现中，所述确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量进一步包括：将所述每一视频帧划分成多个视频块；计算所述多个视频块中每个视频块相对于所述前一视频帧中的对应视频块的相对运动矢量；基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块；以及基于所述每一帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量，确定所述每一帧相对于前一视频帧的相对运动矢量。

在本发明的可选实现中，所述方法进一步包括：将所述画面以及所述多个视频帧中的每个视频帧划分成数目相同的多个块；以及针对所述画面中的每一个块：在所述多个视频帧的每个视频帧中设置一候选块选择窗口，所述候选块选择窗口至少覆盖与所述一个块在空间位置上对应的块、在针对所述一个块的多个所述选择窗口中选取与所述一个块大小相同且内容最为接近的一个区域，作为用于替换所述一个块的候选块、以及基于确定的所述候选决进行替换。

在本发明的可选实现中，所述基于确定的所述候选决进行替换进一步包括：从确定的所述候选块所在的视频帧中获得覆盖且超过所述候选块一预定面积的区域作为相应的替换块；以及将所述画面中的每个块用相应的所述替换块进行替换，其中，相邻两个替换块的重叠部分基于其中各个像素的色彩权值进行呈现。

在本发明的可选实现中，所述基于所述每一帧中与所述背景有关的所述多个视频块中的每个视频决的相对运动矢量，确定所述每一帧相对于前一视频帧的相对运动矢量包括：将所述每一帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量的平均值作为所述每一帧相对于前一视频帧的相对运动矢量。

在本发明的可选实现中，对对应于所述每个空间点的所有像素点的聚类基于所述像素点在RGB色彩空间中的空间密度分布而进行。

在本发明的可选实现中，将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点进一步包括：在针对所述每个空间点的所述聚类的结果中，将属于最大类的多个像素点作为对应于所述每个空间点的与所述背景有关的像素点。

在本发明的可选实现中，所述基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块进一步包括：将经聚类后，属于最大类、且空间位置相邻的多个视频块确定为与所述背景有关的多个视频块。

在本发明的可选实现中，所述相对运动矢量包括水平方向运动矢量和垂直方向运动矢量。

根据本发明的第二方面，提供一种用于处理视频文件的装置，所述视频文件包括多个视频帧，所述装置包括：运动矢量确定单元，被配置为确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；对齐单元，被配置为基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；像素聚类单元，被配置为将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及画面创建单元，被配置为基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

根据本发明的又一方面，提供一种包括计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行根据本发明第一方面所述的方法。

根据本发明的再一方面，提供一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器；所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行本发明第一方面所述的方法。

通过下文描述将会理解，当希望获得视频文件中的背景作为背景画面时，即便所捕获的视频存在抖动，也可以根据本发明的实施方式来实现。并且画面的质量可以通过根据本发明提供的各种方法来优化。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的一个示例性实施方式的用于处理视频文件的方法100的流程图；

图2示出了根据本发明的一个示例性实施方式的用于确定两个连续帧之间的相对运动矢量的方法200的流程图；

图3示出了根据本发明另一示例性实施方式的用于进一步优化所获得的背景画面的质量的方法300的流程图；

图4示出了根据本发明示例性实施方式的基于两个连续帧的相对运动矢量来对齐这两个帧的示意图；

图5示出了根据本发明示例性实施方式的对对应于同一空间点的像素的进行聚类的示意图；

图6示出了根据本发明示例性实施方式的用于处理视频文件的方法的所得到的与背景有关的一个示例性画面；

图7示出了根据本发明的示例性实施方式的用于进行背景质量优化的示意图；

图8示出了根据本发明的示例性实施方式的用于进一步优化图像质量的方法；

图9示出了根据本发明示例性实施方式的经优化的示例性背景画面；

图10示出了根据本发明示例性实施方式的用于处理视频文件的装置1000的示意性框图；

图11示出了适于用来实践本发明实施方式的计算机***1100的示意性框图；

图12示出了适于用来实践本发明实施方式的用户终端1200；

图13示意性示出了如图12所示用户终端的配置示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个示例性实施方式的用于处理视频文件的方法100的流程图。这里所称的“视频文件”可以是各种类型和格式的视频文件，其包括有多个视频帧。在对这样的视频文件进行方法100的处理时，首先进行步骤S101，确定该多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量。

需要说明的是，在捕获视频时，由于捕获装置的整体平移运动并不会对诸如分割背景之类的视频处理带来明显的影响，因此为了避免对本发明的不必要的模糊，在上下文中提及捕获视频内容时，不考虑大的运动，而只考虑小的图像移动(例如拍摄者的晃动)。另外，可以通过衡量视频帧的水平方向的相对运动矢量和垂直方向的相对运动矢量来得到视频帧的相对运动矢量，然而，本发明并不局限于此。

为了确定该每一视频帧相对于前一视频帧的相对运动矢量，参照图2，本发明的示例性实施方式提供了用于确定两个连续帧之间的相对运动矢量的方法200的流程图。需要注意的是，图2所图示的方法并非是必需的，本领域中其他用于确定视频文件中相邻两帧之间的相对运动矢量的方法也可以用于方法100的步骤S101，本发明在此方面不受限制。

如图2所示，方法200首先包括步骤S201，将每一视频帧划分成多个视频块，例如m×n个视频块，m和n为正整数，可以根据需要来设定。

接下来，方法200前进到步骤S202，计算多个视频块中每个视频块相对于前一视频帧中的对应视频块的相对运动矢量。一般而言，一视频帧中例如位于第i行j列的视频块在前一视频帧中也基本上对应于第i行j列的视频块。两个连续帧中相对应的视频块的相对运动矢量的计算以下以示例的形式来示出，但本领域技术人员应理解，计算的方式并不局限于如下示例，其也可以采用现有技术中的任何公知方法来进行。

为了估计两个连续视频帧中位置相应的视频块之间的相对运动矢量，可以分别估计其的水平和垂直的矢量，然后组合这二者以得到整个帧的运动矢量。

假定水平矢量是并且垂直矢量是组合的最终运动矢量是则

并且θ是与水平方向的夹角。

关于水平和垂直矢量的计算，以为例来加以说明。

首先，分别计算该两个相应块的水平投影直方图(直方图在x轴上的向量维度等于块在水平方向的宽度；并且直方图在y轴上的高度对应于该相应块沿垂直方向对应像素的累计值)。这样，假定两个直方图分别用F₁(i)和F₂(i)表示，i＝0，1，2，......，w-1，w是相应块的宽度；

则可以通过如下公式来计算该两个相应块之间的相关度：

从而找到

也即，不断尝试这两个块在水平方向错开的距离Δd，找到某个Δd，使得这两个块重合的区域之间的相关度最大，由此获得水平方向的相对运动矢量类似地，可以找到从而通过公式(1)获得视频块的(整体)相对运动矢量

接下来，方法200进到步骤S203，基于每个视频块的相对运动矢量，对每一视频帧中的多个视频块进行聚类，以确定每一视频帧中与背景有关的多个视频块。由于在视频中背景往往不动或者由于拍摄者的晃动而仅有略微的抖动，因此，他们相对于前一视频帧的运动矢量应当是类似的。基于此，在本发明的优选实现中，可以将聚类之后属于最大类、且空间位置相邻的多个视频块作为与背景有关的多个视频块。

之后，方法200进到步骤S204，基于每一帧中与背景有关的多个视频块中的每个视频块的相对运动矢量，确定所述每一帧相对于前一视频帧的相对运动矢量。在视频帧中往往包括与背景有关的多个视频块以及与对象有关的多个块(如果有的话)，显然，在确定某一帧的相对运动矢量时，应当考虑所有与背景有关的视频块，而不是与对象有关的视频块。

在一种示例性实现中，可以将所述每一帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量的平均值作为所述每一帧相对于前一视频帧的相对运动矢量。本领域技术人员应当理解，其他基于一帧中与背景有关的每个视频块的相对运动矢量来计算该帧的相对运动矢量的方式也在本发明的范围内，本发明在此方面不受限制。

至此，方法200结束。

回到图1，在步骤S101已经确定了两个连续视频帧之间的相对运动矢量之后，方法100前进到步骤S102，基于相对运动矢量，在空间上对齐多个视频帧，以确定同一空间点在多个视频帧的每个视频帧上对应的像素点。

图4示出了根据本发明示例性实施方式的基于两个连续帧的相对运动矢量来对齐这两个帧的示意图。如图4所示，可以基于前述计算的内容，从x轴和y轴两个方向来对齐视频帧，视频帧的任何像素都可以被计算。具体而言，例如可以基于两个连续视频帧之间的相对运动矢量确定每一视频帧相对于第一帧的运动矢量。为表述方便，把相对于第一帧的运动矢量记为绝对运动矢量。从而，每个视频帧都可以根据这一绝对运动矢量、相对于第一视频帧进行对齐。例如，在一视频流的多个视频帧对齐之后，第一帧中的像素p(i，j)对应于第二帧的像素p(i+Vx，j+Vy)，Vx和Vy分别是第二帧相对于第一帧的水平和垂直方向的运动矢量。假定视频中有n帧，则在任何一个空间点，都存在分别来自每个视频帧的n个像素，这n个像素即是对应于同一空间点的像素点。

接下来，方法100进到步骤S103，将对应于每个空间点的所有像素点进行聚类，以获得对应于每个空间点的与背景有关的像素点。图5示出了根据本发明示例性实施方式的对对应于同一空间点的像素的进行聚类的示意图。如图5所示，例如可以基于像素点在RGB色彩空间中的空间密度分布来进行这一聚类。在RGB色彩空间中分析这些像素的空间密度分布，可以认为聚集在同一位置的、并且属于最大空间密度的像素是与背景有关的像素，而其他像素则属于与运动对象有关的像素。也即，在针对所述每个空间点的所述聚类的结果中，可选地可以将属于最大类的多个像素点作为对应于每个空间点的与背景有关的像素点。然而，本领域技术人员应当理解，上述聚类方式仅是示意性的，并不用于限制本发明的范围，通过现有技术中的其他聚类方式，例如通过判断像素点是否服从高斯分布也可以确定哪些像素的属于与背景有关的像素的。本发明在此方面不受限制。

至此，方法100已经获得了视频文件的每个视频帧中所有与背景有关的像素点。方法100前进到步骤S104，基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。例如，对与背景有关的像素求平均就可以创建与视频文件的背景有关的画面。本领域技术人员也应理解，求平均仅是一种示例性方法，现有技术中的其他基于多个背景像素点来获得背景画面的方法同样适用于本发明。图6示出了根据本发明示例性实施方式的用于处理视频文件的方法的所得到的与背景有关的一个示例性画面。

至此，方法100结束。

可以看到，根据本发明实施方式的用于处理视频文件的方法在即使存在拍摄时抖动等轻微移动的情况下，也能将背景从视频文件中剥离出来，以满足用户的各类需求。

现在参照图3，图3示出了根据本发明另一实施方式的用于进一步优化所获得的背景画面的质量的方法300的流程图。如图3所示，在步骤S301，首先将所创建的画面以及多个视频帧中的每个视频帧划分成数目相同的多个块。所划分的多个块类似地可以根据需要为m×n的阵列，m和n为正整数。为了更好地阐述方法300，结合图7提供具体示例。图7示出了根据本发明的示例性实施方式的用于进行背景质量优化的示意图。如图7所示，首先将待优化的背景画面划分成例如6×4块(为了便于示例，6×4仅为示意性的划分，在实践中，所划分的决数根据需要要比此大很多)。

回到方法300，接下来其前进到步骤S302，针对所述画面中的每一个块，在所述多个视频帧的每个视频帧中设置一候选块选择窗口，所述候选块选择窗口至少覆盖与所述一个块在空间位置上对应的块。

需要注意的是，这里所称的在空间位置上对应的块是指对画面或视频帧采用同样的方式划分成数目相同的多个块之后，位于对应行(例如相同行)和对应列(例如相同列)位置处的块。对于图7所示画面中的第2行第3列的块，在寻找用于替换它的候选块时，例如可以在原始视频文件包括的多个帧中的每一帧(帧1、2、3...)中进行选取。如图7所示，选取时在每个视频帧中设置一候选块选择窗口，该窗口应当至少覆盖与所述每个块在空间位置上对应的块(例如在视频流中各视频帧的第2行第3列的块)；考虑到拍摄视频时可能存在的抖动等因素，候选块选择窗口还可以覆盖与该空间位置上对应的块相接的一部分其他块。例如，如图7所示，候选块选择窗口覆盖了各视频帧的第2行第3列的整个块，以及第1行第2-4列、第2行第2列和第4列、以及第3行第1-3列的一部分块。本领域技术人员可以理解，候选块选择窗口的大小以及具***置可以根据经验或专业知识来预定。

回到方法300，接下来进行步骤S303，针对所述画面中的每一个块，在针对所述一个块的多个所述选择窗口中选取与所述一个块大小相同且内容最为接近的一个区域，作为用于替换所述一个块的候选块。如图7所示，在对应于画面中第2行第3列的块的多个候选块选择窗口中，寻找与该块大小相等且内容最为接近的一个区域。例如，图7中示出这一区域为视频帧3的选择窗口的右上角区域，则将该区域作为用于替换画面中第2行第3列的块的候选块。

这里对视频内容是否接近的确定可以采用前文参照公式(3)类似的方法计算它们之间的相关度而进行。同样需要注意的是，本领域的其他计算相关度的方法也适用于此。本发明在此方面没有限制。

最后，方法300前进到步骤S304，针对所述画面中的每一个块，基于确定的所述候选块进行替换。一个替换方法就是将该确定的候选块直接用于替换其所对应的画面上的块。

经过方法300处理之后的背景画面由于其组成部分均选自于原始的视频帧，因此非常清晰，具有良好的图像质量，能更好地满足用户需求。

现在参照图8，其示出了根据本发明的示例性实施方式的用于进一步优化图像质量的方法。具体而言，在用确定的候选块替换画面中的每个块时，例如可以从确定的候选块所在的视频帧中获得覆盖且超过所述候选块一预定面积的区域作为相应的替换块。如图8所示，视频块801和802分别表示所确定的用于替换的两个相邻候选块。根据本发明的示例性实施方式，在替换时，可以分别从801和802所在的帧中获得覆盖这两个块、且面积超过其一预定阈值的区域来作为相应的替换块。这里所称的预定阈值是可以根据需要进行设定和调整的。一般情况下，作为替换块的区域通常为候选块(也可称为有效区域)及其周边区域(也可称为边缘区域)。例如，在图8中，将包括801及其周边区域在内的803作为一替换块，将包括802及其周边区域在内的804作为另一替换块。本领域技术人员可以理解，预定面积的大小可以根据经验或专业知识来预定。

这样，就将画面中的每个块用相应的替换块进行替换，其中，相邻两个替换块的重叠部分可以例如基于其中各个像素的色彩权值进行呈现。为了便于说明，在图8中将所确定的候选块801用黄色表示(即，有效区域)，将所确定的候选块802用绿色表示(即，有效区域)，而将其各自的周边区域用白色表示(即，边缘区域)。在替换后，替换块803的边缘区域将会重叠替换块804的绿色区域，而替换块804的边缘区域将会重叠替换块803的黄色区域。对于这些重叠区域，可以认为：替换块804的像素点(绿色)比替换块803的像素点(白色)区域对背景画面的贡献更多；而替换块803的像素点(黄色)比替换块804的像素点(白色)区域对背景画面的贡献更多。如果有黄色区域和绿色区域的重叠，则可以认为两者对背景画面的贡献一样多。从而得到最终的背景画面。很显然，周边区域不宜过大，以免干扰到有效区域画面的形成。

经过这一所谓“淡入淡出”处理的背景画面在相邻视频块的接合部分减少了“断裂(stitching breaks)”的出现，进一步优化了图像质量。例如，图9示出了根据本发明示例性实施方式的经优化的示例性背景画面。

接下来参照图10进一步描述根据本发明示例性实施方式的用于处理视频文件的装置1000的示意性框图，该视频文件包括多个视频帧。

如图所示，装置1000包括运动矢量确定单元1010、对齐单元1020、像素聚类单元1030以及画面创建单元1040。其中，运动矢量确定单元1010，被配置为确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；对齐单元1020，被配置为基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；像素聚类单元1030，被配置为将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；画面创建单元1040，被配置为基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

在本发明的可选实施方式中，运动矢量确定单元1010进一步包括：第一划分单元1011，被配置为将所述每一视频帧划分成多个视频块；计算单元1012，被配置为计算所述多个视频块中每个视频块相对于所述前一视频帧中的对应视频块的相对运动矢量；视频块聚类单元1013，被配置为基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块；以及子确定单元1014，被配置为基于所述每一帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量，确定所述每一帧相对于前一视频帧的相对运动矢量。

在本发明的可选实施方式中，装置1000可以进一步包括：第二划分单元1050，被配置为将所述画面以及所述多个视频帧中的每个视频帧划分成数目相同的多个块；选取单元1060，被配置为针对所述画面中的每一个块，在所述多个视频帧的每个视频帧中设置一候选块选择窗口，所述候选块选择窗口至少覆盖与所述一个块在空间位置上对应的块；候选块确定单元1070，被配置为针对所述画面中的每一个块，在针对所述一个块的多个所述选择窗口中选取与所述一个块大小相同且内容最为接近的一个区域，作为用于替换所述一个块的候选块；以及替换单元1080，被配置为针对所述画面中的每一个块，基于确定的所述候选块进行替换。

在本发明的可选实施方式中，替换单元1080进一步包括：获得单元1081，被配置为从确定的所述候选块所在的视频帧中获得覆盖且超过所述候选块一预定面积的区域作为相应的替换块；以及子替换单元1082，被配置为将所述画面中的每个块用相应的所述替换块进行替换，其中，相邻两个替换块的重叠部分基于其中各个像素的色彩权值进行呈现数据集和所述参考运行结果从公共平台中获得。

在本发明的可选实施方式中，子确定单元1014包括平均值替代单元10141，被配置为将所述每一帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量的平均值作为所述每一帧相对于前一视频帧的相对运动矢量。

在本发明的可选实施方式中，对对应于所述每个空间点的所有像素点的聚类基于所述像素点在RGB色彩空间中的空间密度分布而进行。

在本发明的可选实施方式中，像素聚类单元1030进一步包括：最大类像素点获取单元1031，被配置为在针对所述每个空间点的所述聚类的结果中，将属于最大类的多个像素点作为对应于所述每个空间点的与所述背景有关的像素点。

在本发明的可选实施方式中，视频块聚类单元1013进一步包括：最大类视频块获取单元，被配置为将经聚类后，属于最大类、且空间位置相邻的多个视频块确定为与所述背景有关的多个视频块。

在本发明的可选实施方式中，相对运动矢量包括水平方向运动矢量和垂直方向运动矢量。

需要注意的是，为了便于说明，在图10中的装置1000中示出了第二划分单元1050、选取单元1060、候选块确定单元1070和替换单元1080，然而应当理解，这些单元并非是必须的，而是备选的或可选的。同样，虽然在图10中的装置1010中示出运动矢量确定单元1010包括第一划分单元1011、计算单元1012、视频块聚类单元1013以及子确定单元1014，但单元1011-1014是可选的，本发明的范围在此方面不受限制。而且，这里所用的术语“单元”既可以是硬件模块，也可以是软件单元模块。相应地，装置1000可以通过各种方式实现。例如，在某些实施方式中，装置1000可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置1000可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上***(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

根据本发明的用于处理视频文件的方法和装置可以在各种电子设备上实施。例如，其可以在计算机上实施。图11示出了适于用来实践本发明实施方式的计算机***1100的示意性框图。例如，图11所示的计算机***1100可以用于实现如上文描述的用于处理视频文件的装置1000的各个部件，也可以用于固化或实现如上文描述的处理视频文件的方法100-300的各个步骤。

如图11所示，计算机***可以包括：CPU(中央处理单元)1101、RAM(随机存取存储器)1102、ROM(只读存储器)1103、***总线1104、硬盘控制器1105、键盘控制器1106、串行接口控制器1107、并行接口控制器1108、显示控制器1109、硬盘1110、键盘1111、串行外部设备1112、并行外部设备1113和显示器1114。在这些设备中，与***总线1104耦合的有CPU1101、RAM1102、ROM1103、硬盘控制器1105、键盘控制器1106、串行控制器1107、并行控制器1108和显示控制器1109。硬盘1110与硬盘控制器1105耦合，键盘1111与键盘控制器1106耦合，串行外部设备1112与串行接口控制器1107耦合，并行外部设备1113与并行接口控制器1108耦合，以及显示器1114与显示控制器1109耦合。应当理解，图11所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

如上所述，***1000可以实现为纯硬件，例如芯片、ASIC、SOC等。这些硬件可以集成在计算机***1100中。此外，本发明的实施方式也可以通过计算机程序产品的形式实现。例如，参考图1-图3描述的方法100-300可以通过计算机程序产品来实现。该计算机程序产品可以存储在例如图11所示的RAM1104、ROM1104、硬盘1110和/或任何适当的存储介质中，或者通过网络从适当的位置下载到计算机***1100上。计算机程序产品可以包括计算机代码部分，其包括可由适当的处理设备(例如，图11中示出的CPU1101)执行的程序指令。所述程序指令至少可以包括用于实现方法100-300中任一的步骤的指令。

上文已经结合若干具体实施方式阐释了本发明的精神和原理。根据本发明的用于确定应用的正确性的方法、***和装置相对于现有技术具有诸多优点。例如，其可以在捕获视频文件时有所抖动的情况下也能从中剥离出背景画面。并且在经过相应处理之后，能够获得较好的画面质量，以满足用户的各种需求。

如前所述用于实施根据本发明的用于处理视频文件的方法和装置的电子设备也可以包括如图12所示的用户终端1200。

用户终端1200包括扬声器或耳机1202、麦克风1206、触摸屏1203和一组按键1204，其可以包括虚拟按键1204a、软键1204b、1204c和游戏杆1205或其他类型的导航输入设备。

图13示意性示出了如图12所示用户终端的配置示意图。

现在，参考图13来描述用户终端1200的内部组件、软件和协议结构。用户终端1200具有控制器1300，其负责用户终端的整体操作，并且可以利用任何商业可得CPU(“中央处理单元”)、DSP(“数字信号处理器”)或任何其他电子可编程逻辑器件实现。控制器1300具有关联电子存储器1302，诸如RAM存储器、ROM存储器、EEPROM存储器、闪存或其任何组合。存储器1302由控制器1300用于各种目的，其中之一在于为用户终端中各种软件存储程序指令和数据。软件包括实时操作***1320、用于人机界面(MMI)1334的驱动器、应用处理机1332和各种应用。应用可以包括消息文本编辑器1350、手写识别(HWR)应用1360和各种其他应用1370，诸如，用于语音呼叫、视频呼叫、发送和接收短消息服务(SMS)消息、多媒体消息服务(MMS)或电子邮件、Web浏览、即时消息收发应用、电话簿应用、日历应用、控制面板应用、照相机应用、一个或多个视频游戏、记事本应用等。应当注意，上述应用的两个或更多可以作为同一应用执行。

MMI1334还包括一个或多个硬件控制器，其与MMI驱动器一起与第一显示器1336/1203，小键盘1338/1204和各种其他I/O设备(诸如麦克风、扬声器、振动器、响铃发生器、LED指示器等)协作。如所公知的，用户可以通过这样形成的人机界面来操作用户终端。

软件还可以包括各种模块、协议栈、驱动器等，其被共同标记为1330，并且为RF接口1306以及可选地为蓝牙接口1308和/或IrDA接口1310提供通信服务(诸如，传输、网络和连通性)，以用于本地连通性。RF接口1306包括内部或外部天线以及用于建立和维护通往基站的无线链路的适当无线电电路。如本领域技术人员公知的，无线电电路包括一系列模拟和数字电子组件，其一起形成无线电接收机和发射机。这些组件例如包括带通滤波器、放大器、混频器、本地振荡器、低通滤波器、AD/DA转换器等。

用户终端还可以包括SIM卡1304和相关联的读出器。如所公知的，SIM卡1304包括处理器以及本地工作和数据存储器。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现。在实现中，在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

在一个例子中，提供了一种计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行：确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

在另一个例子中，提供了一种装置，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器；所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行：基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；；将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面。

本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于处理视频文件的方法，所述视频文件包括多个视频帧，所述方法包括：

确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；

基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；

将对应于每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及

基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面；

将所述画面以及所述多个视频帧中的每个视频帧划分成数目相同的多个块；以及

针对所述画面中的每一个块：

在所述多个视频帧的每个视频帧中设置一候选块选择窗口，所述候选块选择窗口至少覆盖与所述一个块在空间位置上对应的块；

在针对所述一个块的多个所述选择窗口中选取与所述一个块大小相同且内容最为接近的一个区域，作为用于替换所述一个块的候选块；以及

基于确定的所述候选块进行替换。

2.根据权利要求1所述的方法，其中，所述确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量进一步包括：

将所述每一视频帧划分成多个视频块；

计算所述多个视频块中每个视频块相对于所述前一视频帧中的对应视频块的相对运动矢量；

基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块；以及

基于所述每一视频帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量，确定所述每一视频帧相对于前一视频帧的相对运动矢量。

3.根据权利要求1所述的方法，其中，所述基于确定的所述候选块进行替换进一步包括：

从确定的所述候选块所在的视频帧中获得覆盖且超过所述候选块一预定面积的区域作为相应的替换块；以及

将所述画面中的每个块用相应的所述替换块进行替换，其中，相邻两个替换块的重叠部分基于其中各个像素的色彩权值进行呈现。

4.根据权利要求2所述的方法，所述基于所述每一视频帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量，确定所述每一视频帧相对于前一视频帧的相对运动矢量包括：

将所述每一视频帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量的平均值作为所述每一视频帧相对于前一视频帧的相对运动矢量。

5.根据权利要求1所述的方法，其中，对对应于所述每个空间点的所有像素点的聚类基于所述像素点在RGB色彩空间中的空间密度分布而进行。

6.根据权利要求1所述的方法，其中，将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点进一步包括：

在针对所述每个空间点的所述聚类的结果中，将属于最大类的多个像素点作为对应于所述每个空间点的与所述背景有关的像素点。

7.根据权利要求2所述的方法，其中，所述基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块进一步包括：

将经聚类后，属于最大类、且空间位置相邻的多个视频块确定为与所述背景有关的多个视频块。

8.根据权利要求1所述的方法，其中，所述相对运动矢量包括水平方向运动矢量和垂直方向运动矢量。

9.一种用于处理视频文件的装置，所述视频文件包括多个视频帧，所述装置包括：

运动矢量确定单元，被配置为确定所述多个视频帧中每一视频帧相对于前一视频帧的相对运动矢量；

对齐单元，被配置为基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；

像素聚类单元，被配置为将对应于每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及

画面创建单元，被配置为基于获得的对应于所述每个空间点的与背景有关的像素点，创建与所述视频文件的背景有关的画面；

第二划分单元，被配置为将所述画面以及所述多个视频帧中的每个视频帧划分成数目相同的多个块；

选取单元，被配置为针对所述画面中的每一个块，在所述多个视频帧的每个视频帧中设置一候选块选择窗口，所述候选块选择窗口至少覆盖与所述一个块在空间位置上对应的块；

候选块确定单元，被配置为针对所述画面中的每一个块，在针对所述一个块的多个所述选择窗口中选取与所述一个块大小相同且内容最为接近的一个区域，作为用于替换所述一个块的候选块；以及

替换单元，被配置为针对所述画面中的每一个块，基于确定的所述候选块进行替换。

10.根据权利要求9所述的装置，其中，所述运动矢量确定单元进一步包括：

第一划分单元，被配置为将所述每一视频帧划分成多个视频块；

计算单元，被配置为计算所述多个视频块中每个视频块相对于所述前一视频帧中的对应视频块的相对运动矢量；

视频块聚类单元，被配置为基于所述每个视频块的所述相对运动矢量，对所述每一视频帧中的所述多个视频块进行聚类，以确定所述每一视频帧中与所述背景有关的多个视频块；以及

子确定单元，被配置为基于所述每一视频帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量，确定所述每一视频帧相对于前一视频帧的相对运动矢量。

11.根据权利要求9所述的装置，其中，所述替换单元进一步包括：

获得单元，被配置为从确定的所述候选块所在的视频帧中获得覆盖且超过所述候选块一预定面积的区域作为相应的替换块；以及

子替换单元，被配置为将所述画面中的每个块用相应的所述替换块进行替换，其中，相邻两个替换块的重叠部分基于其中各个像素的色彩权值进行呈现。

12.根据权利要求10所述的装置，所述子确定单元包括：

平均值替代单元，被配置为将所述每一视频帧中与所述背景有关的所述多个视频块中的每个视频块的相对运动矢量的平均值作为所述每一视频帧相对于前一视频帧的相对运动矢量。

13.根据权利要求9所述的装置，其中，对对应于所述每个空间点的所有像素点的聚类基于所述像素点在RGB色彩空间中的空间密度分布而进行。

14.根据权利要求9所述的装置，其中，所述像素聚类单元进一步包括：

最大类像素点获取单元，被配置为在针对所述每个空间点的所述聚类的结果中，将属于最大类的多个像素点作为对应于所述每个空间点的与所述背景有关的像素点。

15.根据权利要求10所述的装置，其中，所述视频块聚类单元进一步包括：

最大类视频块获取单元，被配置为将经聚类后，属于最大类、且空间位置相邻的多个视频块确定为与所述背景有关的多个视频块。

16.根据权利要求9所述的装置，其中，所述相对运动矢量包括水平方向运动矢量和垂直方向运动矢量。

17.一种包括计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行根据权利要求1至8中任何一项所述的方法。

18.一种用于处理视频文件的装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器；

所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行根据权利要求1至8中任一项所述的方法。