CN108605092B

CN108605092B - 用于视频处理的***和方法

Info

Publication number: CN108605092B
Application number: CN201780010258.1A
Authority: CN
Inventors: 西蒙·米卡
Original assignee: IMINT IMAGE INTELLIGENCE AB
Current assignee: IMINT IMAGE INTELLIGENCE AB
Priority date: 2016-02-18
Filing date: 2017-02-17
Publication date: 2020-06-26
Anticipated expiration: 2037-02-17
Also published as: US20190043169A1; CN108605092A; WO2017140887A1; US10402945B2; EP3417608A1; EP3417608B1

Abstract

提供了一种***、方法和计算机程序，用于处理至少一个视频序列，例如以便将视频序列转换成不同格式，其中，该至少一个视频序列包括多个时间连续的图像帧。该***配置为：提供预定的一组至少一个特征，并且使加权值与各个特征相关联。该***进一步配置为：提供预定的一组至少一个成像过程，并且提供经处理的视频序列，在该经处理的视频序列中，已经根据在该视频序列中所检测到的特征将该一个或多个成像过程应用到该视频序列。

Description

用于视频处理的***和方法

技术领域

本发明总体上涉及视频技术领域。更具体地，本发明涉及一种用于视频处理的***和方法。

背景技术

视频在当今社会中是非常丰富的。由于消费电子产品的快速技术进步，可以由手持设备方便地录制和/或显示许多这些视频。将理解的是，大多数当今的智能电话设置有视频录制功能，并且由于几年之后智能电话用户的数量可能在30亿左右，因此针对关于视频录制的功能和特征、尤其是针对诸如智能电话等设备的市场是不断增长的。

然而，应当注意，许多录制的视频就其呈现而言可能是次优的。例如，在一些情况下视频可能以较差的方式来渲染诸如对象、人、图案、文本等特征。因此，观察者可能会具有以下印象：他/她正在观看的视频是非动态的、乏味的等，和/或视频可以采用更好的或更吸引人的方式来呈现。改进视频呈现的需要可以进一步通过以下观察来证实：许多视频可以采用第一格式来录制而且采用不同于第一格式的第二格式来呈现，并且可以改进对视频的渲染。例如，视频可以由设备来录制，例如诸如智能电话、平板计算机、膝上计算机等手持设备和/或便携式设备，并且可以被显示在具有不同特征诸如不同(屏幕)格式的不同设备上。

因此，基于以上观察，可能存在这样的需要：对视频进行处理，从而使得当将这些视频的呈现显示给观察者时，可以对呈现进行改进。

发明内容

本发明的目的是减轻以上问题并且提供一种***，可以由这种***对视频录制进行处理，从而使得该视频录制与原始的、未经处理的视频录制相比可以采用改进的方式来渲染或呈现。

此目的和其他目的是通过提供一种具有独立权利要求中的特征的***、方法和计算机程序来实现的。在从属权利要求中限定了优选实施例。

因此，根据本发明的第一方面，提供了一种用于处理至少一个视频序列的***，其中，该至少一个视频序列包括多个时间连续的图像帧。该***配置为：提供预定的一组至少一个特征，并且使加权值与各个特征相关联。该***进一步配置为：提供预定的一组至少一个成像过程；并且针对该多个时间连续的图像帧中的至少一个图像帧，在该图像帧中检测来自该预定的一组至少一个特征的至少一个特征，由至少一个边界限定所检测到的至少一个特征，并且通过向由对应的至少一个边界限定的区域分配与该至少一个特征相关联的该加权值来提供该图像帧的加权密度帧。该***进一步配置为：将该至少一个加权密度帧叠加为经叠加的一组至少一个加权密度帧。此外，该***配置为：构造该组成像过程中的至少一个成像过程的至少一个组合，并且针对该至少一个组合，该***配置为：将该至少一个组合应用到该经叠加的一组至少一个加权密度帧，并且将所应用的至少一个组合映射到候选帧，并且其次，通过根据所应用的至少一个组合来估计该候选帧的加权密度，从而使该候选帧的值与该经叠加的一组至少一个加权密度帧相关联。该***进一步配置为：选择与最高值相关联的该候选帧，并且提供由所选择的候选帧限定的至少一个视频序列。

根据本发明的第二方面，提供了一种用于处理至少一个视频序列的方法，其中，该至少一个视频序列包括多个时间连续的图像帧。该方法配置为：提供预定的一组至少一个特征，并且使加权值与各个特征相关联。该方法进一步配置为：提供预定的一组至少一个成像过程，并且针对该多个时间连续的图像帧中的至少一个图像帧，执行以下步骤：在该图像帧中检测来自该预定的一组至少一个特征中的至少一个特征，由至少一个边界限定所检测到的至少一个特征，以及通过向由对应的至少一个边界限定的区域分配与该至少一个特征相关联的该加权值来提供该图像帧的加权密度帧。该方法进一步包括以下步骤：将该至少一个加权密度帧叠加为经叠加的一组至少一个加权密度帧，并且构造该组成像过程中的至少一个成像过程的至少一个组合。针对该至少一个组合，该方法进一步包括以下步骤：将该至少一个组合应用到该经叠加的一组至少一个加权密度帧，以及将所应用的至少一个组合映射到候选帧，以及通过根据所应用的至少一个组合来估计该候选帧的加权密度，从而使该候选帧的值与该经叠加的一组至少一个加权密度帧相关联。该方法进一步包括以下步骤：选择与最高值相关联的该候选帧，以及提供由所选择的候选帧限定的至少一个视频序列。

根据本发明的第三方面，提供了一种包括计算机可读代码的计算机程序，该计算机可读代码用于当该计算机程序在计算机上执行时使得该计算机执行根据本发明的第二方面的方法的步骤。

因此，本发明基于处理视频序列的理念，由此可以通过应用一个或多个成像过程来在所产生的视频序列中突出特别感兴趣的特征。可以由***在视频序列中检测到的特别感兴趣的这些特征中的每一个特征都可以具有与其相关联的加权值，并且该***可以由此根据加权值以及限定了该(多个)特征的边界的区域而提供(多个)加权密度帧。此外，由于该***配置为将这些帧合并(merge)为重叠的、经叠加的一组加权密度帧，因此一个或多个成像过程可以被应用到该组且被映射到候选帧，并且通过根据所应用的至少一个组合来估计该候选帧的加权密度，从而使每个候选帧的值与该经叠加的一组至少一个加权密度帧相关联。然后，所产生的视频序列可以被渲染为与最高值相关联的候选帧。因此，根据特征和成像过程对所产生的视频序列进行渲染(呈现)，以便例如突出、遵循和/或关注特别感兴趣的视频序列中的特征。

本发明的优点在于，该***可以提供与原始的、未经处理的视频序列相比对观察者而言可能更吸引人和/或更有趣的视频序列。这基于以下观察：特别感兴趣的特征可能在所处理的视频序列中具有更显著的外观。

本发明的优点还在于，该***可以提供对视频序列的自动处理。因此，由于该***可以向视频序列自动地应用一个或多个成像过程，因此用户可以不必手动地处理视频序列以提供(更)吸引人的视频序列。

本发明的优点还在于，视频序列可以被方便地转换成不同的格式，由此可以采用新的格式来突出特别感兴趣的特征。

根据本发明的第一方面，提供了一种用于处理至少一个视频序列的***，其中，该至少一个视频序列包括多个时间连续的图像帧。该***配置为：提供预定的一组至少一个特征，并且使加权值与各个特征相关联。通过术语“特征”，在此意指诸如人类、人类面部、颜色、文本等时间连续的图像帧对象中的特性特征。通过术语“预定的一组”，在此意指提前设置的特征列表。通过术语“加权值”，在此意指这样的值，该值根据与其相关联的特征来设置。

该***进一步配置为：提供预定的一组至少一个成像过程。这里，在此背景下，术语“预定的一组”意指提前设置的成像过程列表。此外，通过术语“成像过程”，在此基本上意指用于对图像进行处理的任何过程。

针对该多个时间连续的图像帧中的至少一个图像帧，该***进一步配置为：在该图像帧中检测来自该预定的一组至少一个特征中的至少一个特征。通过术语“检测”，在此意指该***配置为对特征进行识别、标识等。该***进一步配置为：由至少一个边界限定所检测到的至少一个特征。通过术语“边界”，在此意指围绕该特征而设置的帧等。该***进一步配置为：通过向由对应的至少一个边界限定的区域分配与该至少一个特征相关联的该加权值，从而提供该图像帧的加权密度帧。换言之，如果特征的相对高(低)加权值与由相对小(大)区域限定的特征相关联，则加权密度帧可以包括相对高(低)的密度。

该***进一步配置为：将该至少一个加权密度帧叠加为经叠加的一组至少一个加权密度帧。通过术语“叠加”，在此意指：该***配置为将该(多个)加权密度帧(以重叠的方式)安排在彼此的顶部上，或者换言之，将该(多个)帧合并为经合并的一组至少一个加权密度帧。

此外，该***配置为：构造该组成像过程中的至少一个成像过程的至少一个组合。换言之，一个或多个成像过程可以被组合成要应用于视频序列的一组成像过程。针对此组合，该***配置为执行以下各项：首先，通过将该至少一个组合应用到该经叠加的一组至少一个加权密度帧以及映射所应用的至少一个组合，从而构造候选帧。换言之，由***通过以下方式来构造一个或多个候选帧：将该(多个)组合应用到该经叠加的一组(多个)加权密度帧，并且将所应用的该(多个)组合映射到该(多个)候选帧。其次，该***配置为：通过根据所应用的至少一个组合来估计该候选帧的加权密度，从而使该候选帧的值与该经叠加的一组至少一个加权密度帧相关联。换言之，该***配置为：根据被应用到该经叠加的一组(多个)加权密度帧的该(多个)组合来对该候选帧的加权密度进行估计、计算和/或积分，以由此获得某个值。此后由该***使得这个值与候选帧相关联或被分配给候选帧。

该***进一步配置为：选择与最高值相关联的候选帧。换言之，该***配置为：选择候选帧，该候选帧依据根据被应用到该经叠加的一组(多个)加权密度帧的该(多个)组合来对该候选帧的加权密度所进行的估计、计算和/或积分，产生了最高值。

此外，该***配置为：提供由所选择的候选帧限定的至少一个视频序列。换言之，该***配置为：例如在具有与候选帧相同格式(即，宽度和高度)的屏幕上渲染或呈现由最高值的候选帧限定的该(多个)视频序列。

根据本发明的实施例，该特征选自由以下各项组成的组：对象、人类、人类面部、颜色和文本。换言之，可以提供预定的一组特征，包括：对象、人类、人类面部、颜色和/或文本。本实施例优点在于，该***可以方便地且有效地检测该(多个)视频序列中的预定特征中的一个或多个。此外，将理解的是，所提及的特征可以是可能是用户或观察者在所产生的视频中特别感兴趣看到的那些特征。

根据本发明的实施例，该***进一步配置为：根据预定的一组加权值而使加权值与各个特征相关联。换言之，特定加权值关联于(被分配给)特定特征，导致分级的特征组或列表，其中，相对高兴趣的特征与相对高的值相关联，而且相对低兴趣的特征与相对低的值相关联。本实施例优点在于，当通过例如突出、遵循和/或关注视频序列中的特别感兴趣的特征来渲染所产生的视频序列时，***可以由此能够容易地且方便地标识(最)感兴趣的特征。

根据本发明的实施例，该***进一步配置为：基于该多个时间连续的图像帧中的至少两个图像帧来检测至少一个所检测到的特征的运动，并且根据该至少一个特征的该运动而使加权值与该至少一个特征相关联。换言之，该***可以配置为跟踪所检测到的(多个)特征。通过术语“跟踪”，在此意指该***配置为遵循该特征的任何移动。因此，该***可以标识特征的运动或移动，并且例如取决于该特征的速度来关联特征的运动的值。本实施例优点在于，可以在经渲染的所产生的视频序列中突出、遵循和/或关注该视频序列中的运动的特征。

根据本发明的实施例，成像过程选自由以下各项组成的组：将该视频序列的高度和宽度中的至少一项调整成候选帧的高度和宽度中的对应一项，提供用于处理的视频序列与第二格式的候选帧的联合(union)，以及对用于处理的视频序列进行缩放。换言之，在首先例示的成像过程中，视频序列的高度或宽度中的任一项适于(调整成、映射至和/或适配于)用于处理的视频序列的对应高度或宽度。将该视频序列的高度和宽度中的至少一项调整成第二格式的候选帧的高度和宽度中的对应一项的此成像过程可以被称为“填充(padding)”。此外，本实施例中的“填充”意味着用于处理的视频序列与候选帧的联合可以提供由所选择的候选帧限定的所产生的(经处理的)视频序列中不包括(未经处理的)视频序列的任何材料的至少一个区域。此一个或多个区域可以例如在所产生的视频序列中设置有图案等。此外，在第二例示的成像过程中，提供视频序列与候选帧的联合(即，叠加的重叠)可以被称为“裁剪(cropping)”。此外，在第三例示的成像过程中，对视频序列的缩放可以包括对视频序列的放大或缩小。本实施例优点在于，该***可以应用所例示的成像过程中的任何一个或组合以便例如突出、遵循和/或关注要呈现在所产生的视频序列中的特别感兴趣的特征。

根据本发明的实施例，该***配置为：基于模式识别而在该图像帧中检测来自该预定的一组至少一个特征中的至少一个特征。本实施例优点在于，模式识别关于在图像和/或视频中检测一个或多个特征是高效的。将理解的是，作为关注识别数据中的模式和规律的机器学习分支的模式识别对于本领域技术人员来说是已知的，从而省略了其细节。

根据本发明的实施例，该***配置为处理采用第一格式的至少一个视频序列，其中，该***进一步配置为提供由该所选择的候选帧限定的、采用第二格式的至少一个视频序列，并且其中，该第一格式不同于该第二格式。换言之，未经处理的至少一个视频序列可以具有第一格式，并且经处理的至少一个视频序列可以具有不同于第一格式的第二格式。通过术语“第一格式”，在此意指二维的、即具有高度和宽度的视频序列的格式。本实施例的优点在于，该***可以配置为将第一格式的视频序列转换(映射)成第二格式的视频序列，其中，第二格式的视频序列可能更便于向用户显示，产生对用户而言改进的可视化体验。当考虑许多视频序列可以由第一设备例如诸如智能电话、平板计算机、膝上计算机等手持和/或便携式设备来录制、但是旨在被显示在具有与第一设备相比不同配置和/或特征诸如不同的(屏幕)格式的第二设备上时，本实施例也是有利的。

根据本发明的实施例，第一格式的宽度大于第一格式的高度，并且其中，第二格式的高度大于第二格式的宽度。例如，第一格式的该至少一个视频序列可以具有矩形(水平)格式，例如当被水平握持时适配于手持设备的屏幕；而第二格式的该至少一个视频序列可以具有矩形(竖直)格式，例如当被竖直握持时适配于手持设备的屏幕。将理解的是，用于视频录制和/或显示的设备通常设置有矩形屏幕，并且可能希望将“竖直地”录制的视频序列方便地渲染成“水平的”视频序列，或反之亦然。更具体地，诸如智能电话和或平板计算机等设备通常被设计为在竖直(站立、直立)位置中操作和/或使用，由此该屏幕通常具有比宽度更大的高度，并且视频序列经常采用此种竖直格式来录制和/或显示。因此，本实施例优点在于，该***可以方便地将视频序列从水平格式转换成竖直格式。最新研究表明，当沉迷于诸如商业广告、新闻剪辑等视频序列时，许多观察者(用户)避免旋转他们的(手持)设备，并且表明因此视频序列在这种设备上通常采用竖直格式。然而，通过本实施例，当在手持设备中显示视频序列时，用户可以不必转动手持设备，例如从竖直位置转到水平位置。

根据本发明的实施例，提供了一种用于视频录制的设备。该设备包括屏幕、以及根据以上实施例中任一实施例所述的***。该设备配置为在该屏幕上显示由该***处理过的至少一个视频序列。在本实施例中，该***可以配置为：处理已经(例如，从服务器)提供给用于视频录制的设备的(一个或多个)视频序列，或处理已经由该设备自身录制的(一个或多个)视频序列。

根据本发明的实施例，该设备进一步配置为：录制至少一个视频序列，并且向***提供该至少一个视频序列以便对该至少一个视频序列进行处理。此外，该设备进一步配置为：在屏幕上显示由***处理过的该至少一个视频序列。因此，在本实施例中，该***可以配置为处理已经由设备录制的一个或多个视频序列。

根据本发明的实施例，该设备进一步配置为实时地录制和显示该至少一个视频序列。换言之，该设备可以配置为：录制一个或多个视频序列，由根据以上实施例中任一实施例所述的***来处理该(一个或多个)视频序列，并且同时(或至少几乎同时)显示由该***处理过的该(一个或多个)视频序列。

根据本发明的实施例，该设备进一步包括存储介质。该设备进一步配置为在存储介质上存储以下各项：由该***处理过的该至少一个视频序列；以及被应用于与最高值相关联的所构造的候选帧的该一组成像过程中的至少一个成像过程的该组合，该所构造的候选帧限定该至少一个视频序列。换言之，该设备可以配置为：存储多个视频序列连同产生对应视频序列的成像过程的组合。本实施例的优点在于，这些视频序列及与其相关联的成像过程的组合可以被用作对***的反馈，使得可以为了更进一步改进所产生的视频序列而改进***。

根据本发明的实施例，该设备进一步包括用户界面UI，该用户界面配置为与该屏幕结合使用。该UI配置为：在屏幕上显示至少一个视频序列期间，由用户记录屏幕上的至少一个特征的至少一个标记，由此向该UI提供用户输入。该***进一步配置为：使该至少一个标记与该预定的一组至少一个特征中的至少一个特征相关联，并且由至少一个边界限定该至少一个特征。将理解的是，UI可以是触敏用户界面。通过术语“触敏用户界面”，在此意指能够接收通过用户触摸产生的输入的UI，诸如通过用户的一个或多个手指触摸UI。本实施例优点在于，以容易且方便的方式，用户可以通过例如通过使用一个或多个手指进行触摸来标记、指示和/或选择该(多个)视频序列中的一个或多个特征。替代性地，可以根据用户的眼睛跟踪来进行用户对至少一个特征的标记。替代性地，可以通过用户的语音来进行用户对至少一个特征的标记。由于眼睛跟踪和语音这两种技术对于本领域技术人员来说都是已知的，因此省略了对其更详细的说明。

将理解的是，本发明的第一方面的***的所提及优点还适用于根据本发明的第二方面的方法以及根据本发明的第三方面的计算机程序。

当研究以下详细公开内容、附图以及所附权利要求书时，本发明的其他目标、特征以及优点将变得明显。本领域技术人员将认识到，可以组合本发明的不同特征来创建除了以下描述的那些实施例之外的实施例。

附图说明

现在将参照附图更详细地描述本发明的这个和其他方面，这些附图示出了本发明的(多个)实施例。

图1是根据本发明的示例性实施例的***的示意图，

图2至图5是***的各部分的示意图，

图6是用于视频录制的设备的示意图，该设备包括根据本发明的示例性实施例的***，以及

图7是根据本发明的第二方面的方法的流程图。

具体实施方式

图1是用于处理视频序列110的***100的示意图，其中，视频序列110包括多个时间连续的图像帧115。视频序列110可以是例如：电影、电影中的场景、商业广告、(新闻)剪辑等。在此，时间连续的图像帧115被例示为图像帧L_i(L₁、L₂、L₃)等，其中，i是分别在对应的时间t₁、t₂、t₃等上的整数。***100配置为提供预定的一组120至少一个特征C_i(C₁、C₂、C₃等)。将理解的是，(特性)特征C_i可以基本上是任何特征，并且特征C_i的示例可以是一个或多个对象、人类、人类面部、颜色、文本等。***100进一步配置为使加权值W_i与各个特征C_i相关联130。例如，可以存在预定的一组140加权值W_i(W₁、W₂、W₃等)，其中，特定加权值W_i可以与特定特征C_i相关联(相关)。

返回虚线框125，***100进一步配置为：针对时间连续的图像帧115中的至少一个图像帧L_i，执行以下各项：在图像帧L_i中检测200来自预定的一组120至少一个特征C_i中的一个或多个特征C_i。因此，***100可以(例如，基于模式识别)检测200(识别)对应的图像帧中的一个或多个特征，并且使(多个)特征与预定的一组120特征C_i的对应特征C_i相关联。在图1中，作为示例，***100已经检测到200图像帧L_i中的所指示位置中的面部205和文本207。

***100进一步配置为：由至少一个边界210、211来限定所检测到200的至少一个特征C_i。在此，特征C₁(面部205)由矩形边界210限定，并且特征C₂(文本207)由矩形边界211限定。然而，将理解的是，该一个或多个边界替代地可以是例如椭圆形、圆形等。***100进一步配置为：通过向由对应的至少一个边界210、211限定的区域A_i分配与该至少一个特征C_i相关联的加权值W_i，从而提供图像帧L_i的加权密度帧220。区域A_i可以例如由其像素数量来限定。例如，并且如图1所示，***100可以配置为：向由面部205的边界210限定的区域A₁分配与C₁(面部205)相关联的加权值W₁作为特征。类似地，***100可以配置为：向由文本207的边界211限定的区域A₂分配与C₂(文本207)相关联的加权值W₂作为特征。***100由此可以配置为：通过针对各个特征和边界估计比率W_i/A_i而提供加权密度帧220，其中，i是整数。因此，如果特征C_i的相对高的加权值W_i与具有相对小的区域A_i的特征C_i的边界相关联，则加权密度帧220可以包括图像帧L_i的特定区域中的相对高的密度W_i/A_i。

***100可以配置为：迭代地检测200(多个)特征C_i，由(一个或多个)边界210限定(多个)特征C_i，并且向至少一个、且可能所有的图像帧115提供加权密度帧220，如符号230所示。

返回虚线框275，加权密度帧220a-220c的数量被例示为三个帧220a-220c，并且将理解的是，该数量的选择仅仅是作为示例。当所有、或至少一个图像帧115已经由***100的这些步骤处理过时，***100进一步配置为：将(多个)加权密度帧220a-220c叠加为经叠加的一组240至少一个加权密度帧。换言之，***100配置为：将加权密度帧220a-220c安排在彼此的顶部上(或者，换言之，将帧220a-220c合并)成为经叠加的(合并的)一组240至少一个加权密度帧。

返回虚线框250，***100进一步配置为提供预定的一组150至少一个成像过程P_i(P₁、P₂、P₃等)。将理解的是，成像过程P_i可以基本上是任何成像过程。例如，成像过程P_i可以意味着：调整视频序列110的高度和/或宽度，移除用于处理的视频序列110的一个或多个部分，对用于处理的视频序列110进行缩放等。此外，***100配置为：构造预定的一组150成像过程中的至少一个成像过程P_i的至少一个组合300。在图1中，公开了各自具有成像过程P_i的三个预定组150的示例。例如，组合300可以构成P₁；P₁、P₂；P₁、P₂、P₃或P₂、P₁、P₃等。***100配置为：将组合300应用310到经叠加的一组240至少一个加权密度帧。然后，***100配置为：将所应用的至少一个组合映射400到候选帧F_i。在此，由***100通过以下方式来构造一个或多个候选帧F_i：将(多个)组合300应用到经叠加的一组240(多个)加权密度帧、并且将所应用的(多个)组合300映射到(多个)候选帧F_i。候选帧F_i可以采用与L_i相同的格式。替代性地，候选帧F_i可以采用除了L_i之外的另一种格式。

返回虚线框800，***100配置为：通过根据所应用的至少一个组合300来估计候选帧F_i的加权密度，从而使该候选帧的值R_i与经叠加的一组240至少一个加权密度帧相关联600。***100进一步配置为选择与最高值R_i相关联的候选帧F_i，并且配置为提供由所选择的候选帧F_i限定的至少一个视频序列700。换言之，***100配置为：渲染由最高值R_i的候选帧F_i限定的(多个)视频序列700。(多个)视频序列700可以被显示在(例如，诸如智能电话等移动设备的)屏幕上，其中，候选帧F_i和屏幕具有该格式，即，相同的宽度和高度。

因此，图1示意性地展示了对视频序列的处理，由此可以通过应用一个或多个成像过程来在所产生的视频序列中突出特别感兴趣的特征。以下图2至图5的目的是更详尽地解释和例示图1中呈现的对视频序列的处理的步骤。

图2是***100的由图1中的虚线框125指示的一部分的示意图，其中，公开了三个虚线框125a-125c以增加对***100所执行步骤的理解。图2中的虚线框125a与图1中的虚线框125类似。在此，***100配置为：在视频序列110的时间连续的图像帧115中的图像帧L₁中，检测到200来自预定的一组120至少一个特征C_i中的一个或多个特征C_i。作为示例，***100在虚线框125a中在图像帧L₁的左手侧部分处检测到200(识别)面部205(例如，基于模式识别)，并且配置为使面部205与预定的一组120特征C_i的对应特征C_i，例如C₁相关联。此外，***100在图像帧L₁的下部右手侧部分处检测到200文本207，并且使文本207与预定的一组120特征C_i的对应特征，例如C₂相关联。***100进一步配置为：由至少一个边界210、211限定所检测到200的至少一个特征C_i。在此，特征C₁(面部205)由矩形边界210限定，并且特征C₂(文本207)由矩形边界211限定。

***100进一步配置为：通过向由对应的至少一个边界限定的区域A_i分配与该至少一个特征C_i相关联的加权值W_i，从而提供图像帧的加权密度帧220a。在本示例中，***100可以配置为：向由面部205的边界210限定的区域A₁分配与C₁(面部205)相关联的加权值W₁作为特征。类似地，***100可以配置为：向由文本207的边界211限定的区域A₂分配与C₂(文本207)相关联的加权值W₂作为特征。由此***100可以配置为通过以下方式来提供加权密度帧220a：通过为具有由区域A₁的边界210限定的权重W₁的面部205估计比率W₁/A₁，并且通过为具有由区域A₂的边界211限定的权重W₂的文本207估计比率W₂/A₂。

在虚线框125b中，***100配置为分析图像帧L₂，即紧接L₁的下一个图像帧。在L₂中，***100已经在图像帧L₂的相对中心部分处检测到200到图像帧L₁的面部205，而***100已经在与L₁中检测到的文本207的位置类似的图像帧L₂的下部右手侧部分处检测到200到文本207。与虚线框125a的步骤类似，***100配置为通过以下方式来提供帧220b：通过为具有由区域A₁的边界210限定的权重W₁的面部205估计比率W₁/A₁，并且通过为具有由区域A₂的边界211限定的权重W₂的文本207估计比率W₂/A₂。

在虚线框125c中，***100配置为分析图像帧L₃，即紧接L₂的下一个图像帧。在L₃中，***100已经在图像帧L₃的右手侧部分处检测到200图像帧L₁的面部205，而***100已经在与L₁和L₂中检测到文本207的位置类似的图像帧L₃的下部右手侧部分处检测到200到文本207。此外，***100配置为：在图像帧L₃的上部左手侧部分处检测到200颜色208，并且使颜色208与预定的一组120特征C_i的对应特征，例如C₃相关联。***100进一步配置为由矩形边界212来限定所检测到200的特征C₃(颜色208)。

与虚线框125a-125b的步骤类似，***100配置为通过估计比率W₁/A₁、W₂/A₂和W₃/A₃来提供帧220c，其中，比率W₃/A₃指示由区域A₃的与所检测到的颜色208相关联的边界212限定的权重W₃。

此外，***100可以配置为：基于该多个时间连续的图像帧L中的至少两个图像帧L_i来检测至少一个所检测特征C_i的运动，并且根据该至少一个特征C_i的运动而使加权值W_i与该至少一个特征C_i相关联。例如，***100可以配置为跟踪在图像帧L₁、L₂和L₃中检测到的面部205的移动。换言之，***100可以配置为跟踪视频序列110中的面部205的移动，其中，所检测到200的面部205在图像帧L₁、L₂和L₃中从左侧移动到右侧。可以例如基于在对应的时间t₁、t₂和t₃上的图像帧L₁、L₂和L₃中的至少两个图像帧、根据面部205在视频序列110中的速度来设置与特征C₁相关联的加权值W₁。例如，***100可以配置为：当***100检测到特征C_i的相对高的速度(或替代性地，相对慢的速度)时，向所检测的特征C_i分配较高的加权值W_i。

图3是***100的由图1中的虚线框275指示的一部分的示意图，用于增加对***100所执行步骤的理解。在此，如图2中例示的加权密度帧220a-220c由***100进行叠加(重叠、合并)，产生经叠加的一组240a加权密度帧220a-220c。换言之，***100配置为：将加权密度帧220a-220c安排在彼此的顶部上(或者，换言之，将帧220a-220c合并)成为经叠加的(合并的)一组240a这三个加权密度帧220a-220c。注意，在经叠加的一组240a中，在图像帧L₁-L₃中所检测到的面部205的运动构成了中心部分，而由***100检测为在图像帧L₁-L₃中是静止的所检测到的文本207构成了这些图像帧的下部右手侧。仅在图像帧L₁-L₃中的L₃中存在的所检测到的颜色208构成了经叠加的一组240a的上部右手侧部分。因此，经叠加的一组240a表示特征C_i的根据时间和区域的密度帧或图表。经叠加的一组240a可以被描述为全部加权密度帧220a-220c的总和，其中，在时间上针对每个帧220a-220c，根据与由限定了区域A_i＝(x_i2-x_i1)·(y_i2-y_i1)的坐标x_i1-x_i2和y_i1-y_i2之间的边界限定的所检测到的特征C_i相关联的加权值W_i来提供密度。例如，经叠加的一组240a在具有加权值W_i的所检测特征C_i的边界的区x_i2-x_i1；y_i2-y_i1中的密度可以被表示为sum(i,t)[i·W_i,t(C_i,t)/[(x_i,t；2-x_i,t:i)·(y_i,t:2-y_i,t:i)]]。例如，经叠加的一组240a在所检测到的文本207的边界211的下部右手侧区x₂-x₁和y₂-y₁中的密度可以被表示为3·W₂(C₂)/[(x_i2-x_i1)·(y_i2-y_i1)]。将理解的是，在与所检测文本C₂相关联的加权值W₂相对高的情况下，和/或在由与文本C₂相关联的边界211限定的区域A₂相对小的情况下，在其中检测到文本207的经叠加的一组240a的密度可能相对高。此外，在经叠加的一组240的还没有检测到特征C_i的区域中，如由经叠加的一组240a中的下部左手侧和上部左手侧区237以及中间右手侧区235所例示的，***100可以配置为将密度设置为零。

图4a是***100的由图1中的虚线框250指示的一部分的示意图，用于增加对***100所执行步骤的理解。***100配置为：构造预定的一组150成像过程中的至少一个成像过程P_i的组合300。作为示例，***100可以配置为构造组合P₁、P₂、P₃，其中，P₁可以指示经叠加的一组240b的至少一部分的移除(省略)，P₂可以指示对经叠加的一组240b的至少一部分的缩放，并且P₃可以指示将经叠加的一组240b的高度和宽度中的至少一项调整成候选帧的高度和宽度中的对应的一项。

在图4b中，***100可以首先配置为将成像过程P₁应用到经叠加的一组240b。由此，***100可以配置为移除(省略)经叠加的一组240b的最左部分242，因为其密度为零。

在图4c中，***100此后可以配置为：在由P₁处理之后，向所产生的经叠加的一组240b应用成像过程P₂。由此，***100可以对经叠加的一组240b在下部右手侧角落中的一部分在x方向和y方向上进行放大。

在图4d中，***100此后可以配置为：在由P₁和P₂处理之后，向所产生的经叠加的一组240b应用成像过程P₃。由此，***100可以将经叠加的一组240b的宽度W_s调整成可以与候选帧的宽度相对应的宽度W_f。类似地，***100可以配置为将经叠加的一组240b的高度H_s按比例缩放成高度H_f，从而保持经叠加的一组240b的对称性。

在图4e中，***100配置为将所应用的成像过程P₁、P₂、P₃的组合映射到经叠加的一组240b至候选帧260。在此，候选帧F_i具有宽度W_f，即等于图4d的经叠加的一组240b的宽度，并且具有比图4d的经叠加的一组240b的高度H_f大的高度。在此，***100可以配置为使经处理的经叠加的一组240b在候选帧F_i中居中。候选帧F_i的偏离中心(即，空的)部分可以填满有填充值，这些填充值由此可以提供更吸引人的结果。在图4e中对此进行了例示，其中，候选帧F_i的下部部分包括与文本左侧相邻的部分相同的图案(由对角线指示)。类似地，图4e中的上部部分的图案(由水平线例示)与面部上方的相邻设置的部分相同。因此，如果在屏幕上显示候选帧F_i，则屏幕的上部部分和下部部分可以填满(填充)有图案。

图5是***100的由图1中的虚线框800指示的一部分的示意图，用于增加对***100所执行步骤的理解。***100配置为：将所应用的成像过程P_i的(多个)组合300映射到图4d的经叠加的一组240b至一个或多个候选帧F_i。在此，***100已经配置为提供三个候选帧F₁、F₂和F₃。此外，***100配置为：通过根据所应用的成像过程P_i的至少一个组合300来估计(例如，通过积分和/或加法)候选帧F_i的加权密度，从而使该候选帧F_i的值R_i与经叠加的一组240至少一个加权密度帧相关联600。如图5所例示的，***100配置为：使值R₁与候选帧F₁相关联，R₂与候选帧F₂相关联，并且R₃与候选帧F₃相关联。***100进一步配置为：选择与最高值R_i相关联的候选帧F_i，该候选帧在图5中例示为F₁，这是因为R₁>R₂>R₃。***100此后配置为提供由所选择候选帧F_i限定的一个或多个视频序列700。如图5所例示的，***100配置为：提供由候选帧F₁限定的视频序列，即已经由***100根据上述步骤处理过的视频序列110。例如，可以在屏幕上显示候选帧F₁，其中，屏幕的上部部分和下部部分已经如图4所描述地被填满(填充)。

图6是用于视频录制的设备850的示意图。将理解的是，设备850可以是手持设备，诸如智能电话等。设备850包括屏幕860、以及根据以上实施例中任一实施例所述的***100。设备850配置为：在屏幕上显示由***100处理过的至少一个视频序列870。将理解的是，***100可以配置为：处理已经(例如，从服务器)提供给设备850的视频序列870，或处理已经由设备850自身录制的视频序列870。设备850可以配置为：实时地录制和显示该视频序列。图6中的设备850进一步包括触敏用户界面UI，该触敏用户界面配置为与屏幕860结合使用。该UI配置为：在屏幕上显示至少一个视频序列期间，由用户在屏幕上记录屏幕上的至少一个特征的至少一个标记，由此向该UI提供用户输入。***100进一步配置为：使该至少一个标记与预定的一组至少一个特征C_i中的至少一个特征C_i相关联，并且跟踪该至少一个特征。通过术语“触敏用户界面”，在此意指能够接收通过用户触摸产生的输入的UI，诸如通过用户的一个或多个手指触摸UI。本实施例优点在于，以容易且方便的方式，用户可以通过例如通过使用一个或多个手指进行触摸来标记、指示和/或选择该(一个或多个)视频序列中的特征。替代性地，可以根据用户的眼睛跟踪来进行用户对至少一个特征的标记。替代性地，可以通过用户的语音来进行用户对至少一个特征的标记。

图7是根据本发明的第二方面的方法900的流程图，其中，至少一个视频序列包括多个时间连续的图像帧。方法900包括以下步骤：提供910预定的一组至少一个特征，并且使加权值与各个特征相关联920。方法900进一步包括以下步骤：提供930预定的一组至少一个成像过程。然后，针对该多个时间连续的图像帧中的至少一个图像帧，如由递归箭头所指示的，方法900可以执行以下步骤：在图像帧中检测940来自预定的一组至少一个特征中的至少一个特征，由至少一个边界限定950所检测到的至少一个特征，以及通过向由对应的至少一个边界限定的区域分配与该至少一个特征相关联的加权值来提供960该图像帧的加权密度帧。方法900进一步包括以下步骤：将该至少一个加权密度帧叠加970为经叠加的一组至少一个加权密度帧，并且构造980该组成像过程中的至少一个成像过程的至少一个组合。然后，针对该至少一个组合，如由递归箭头所指示的，方法900可以执行以下步骤：将该至少一个组合应用990到经叠加的一组至少一个加权密度帧，将所应用的至少一个组合映射1000到候选帧，以及通过根据所应用的至少一个组合来估计该候选帧的加权密度，从而使该候选帧的值与该经叠加的一组至少一个加权密度帧相关联1100。方法900进一步包括以下步骤：选择1200与最高值相关联的候选帧，以及提供1300由所选择的候选帧限定的至少一个视频序列。

本领域技术人员应认识到，本发明决不限于上述优选实施例。相反，在所附权利要求的范围内能够进行许多修改和变化。例如，将理解的是，附图仅仅是根据本发明的实施例的***的示意图。因此，图像、帧等的任何维度、形状和/或大小可以不同于所描绘和/或描述的那些。

Claims

1.一种用于处理至少一个视频序列的***，其中，该至少一个视频序列包括多个时间连续的图像帧，该***配置为：

提供预定的一组至少一个特征，并且使加权值与各个特征相关联，

提供预定的一组至少一个成像过程，

并且针对该多个时间连续的图像帧中的至少一个图像帧，

在该图像帧中检测来自该预定的一组至少一个特征中的至少一个特征，

由至少一个边界限定所检测到的至少一个特征，并且

通过向由对应的至少一个边界限定的区域分配与该至少一个特征相关联的该加权值，从而提供该图像帧的加权密度帧，

其中，该***进一步配置为：

将该至少一个加权密度帧叠加为经叠加的一组至少一个加权密度帧，

构造该组成像过程中的至少一个成像过程的至少一个组合，并且针对该至少一个组合，该***配置为：

将该至少一个组合应用到该经叠加的一组至少一个加权密度帧，并且将所应用的至少一个组合映射到候选帧，并且

通过根据该所应用的至少一个组合来估计该候选帧的加权密度，从而使该候选帧的值与该经叠加的一组至少一个加权密度帧相关联，

其中，该***进一步配置为：

选择与最高值相关联的该候选帧，并且

提供由所选择的候选帧限定的至少一个视频序列。

2.如权利要求1所述的***，其中，该特征选自由以下各项组成的组：对象、人类、人类面部、颜色和文本。

3.如权利要求1所述的***，进一步配置为：根据预定的一组加权值而使加权值与各个特征相关联。

4.如权利要求1所述的***，进一步配置为：基于该多个时间连续的图像帧中的至少两个图像帧来检测至少一个所检测特征的运动，并且根据该至少一个特征的该运动而使加权值与该至少一个特征相关联。

5.如权利要求1所述的***，其中，该成像过程选自由以下各项组成的组：

将用于处理的该视频序列的高度和宽度中的至少一项调整成该候选帧的高度和宽度中的对应一项，

提供用于处理的该视频序列与该候选帧的联合，并且

对用于处理的该视频序列进行缩放。

6.如权利要求1所述的***，其中，该***配置为基于模式识别而在该图像帧中检测来自该预定的一组至少一个特征中的至少一个特征。

7.如权利要求1所述的***，用于处理采用第一格式的至少一个视频序列，其中，该***进一步配置为提供由该所选择的候选帧限定的、采用第二格式的至少一个视频序列，并且其中，该第一格式不同于该第二格式。

8.如权利要求7所述的***，其中，该第一格式的宽度大于该第一格式的高度，并且其中，该第二格式的高度大于该第二格式的宽度。

9.一种用于视频录制的设备，包括：

屏幕，以及

根据权利要求1至8中任一项所述的***，其中，该设备配置为在该屏幕上显示由该***处理过的至少一个视频序列。

10.如权利要求9所述的设备，进一步配置为：

录制至少一个视频序列，

向该***提供该至少一个视频序列，以便对该至少一个视频序列进行处理，并且

在该屏幕上显示由该***处理过的该至少一个视频序列。

11.如权利要求10所述的设备，进一步配置为实时地录制和显示该至少一个视频序列。

12.如权利要求9所述的设备，进一步包括存储介质，并且其中，该设备进一步配置为在该存储介质上存储以下各项：

由该***处理过的该至少一个视频序列，以及

被应用到与最高值相关联的所构造候选帧的该组成像过程中的至少一个成像过程的该组合，该所构造候选帧限定该至少一个视频序列。

13.如权利要求9所述的设备，进一步包括用户界面UI，该用户界面配置为与该屏幕结合使用，该UI配置为：

在该屏幕上显示至少一个视频序列期间，由用户记录该屏幕上的至少一个特征的至少一个标记，由此向该UI提供用户输入，

并且其中，该***进一步配置为：

使该至少一个标记与该预定的一组至少一个特征中的至少一个特征相关联，并且

由至少一个边界限定该至少一个特征。

14.一种用于处理至少一个视频序列的方法，其中，该至少一个视频序列包括多个时间连续的图像帧，该方法包括以下步骤：

提供预定的一组至少一个成像过程，

并且针对该多个时间连续的图像帧中的至少一个图像帧，执行以下步骤：

由至少一个边界限定所检测到的至少一个特征，并且

其中，该方法进一步包括以下步骤：

构造该组成像过程中的至少一个成像过程的至少一个组合，并且针对该至少一个组合，执行以下步骤：

将该至少一个组合应用到该经叠加的一组至少一个加权密度帧，并且将所应用的至少一个组合映射到候选帧，以及

其中，该方法进一步包括以下步骤：

选择与最高值相关联的该候选帧，以及

提供由所选择的候选帧限定的至少一个视频序列。