CN109844736A

CN109844736A - 概括视频内容

Info

Publication number: CN109844736A
Application number: CN201780064898.0A
Authority: CN
Inventors: Y.沈; T.金; C.欧; X.陈; Y.石; M-H.蔡; W.杨; Z.孙; J.王; J.富特雷尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-05
Filing date: 2017-08-03
Publication date: 2019-06-04
Anticipated expiration: 2037-08-03
Also published as: KR102262481B1; CN109844736B; US20210117691A1; EP3513310A1; JP2020516107A; JP6735927B2; US20210312186A1; KR20190099027A; US11042754B2; WO2018203920A1

Abstract

本文描述了自动提取视频内容概要的***和方法。数据处理***可以从视频数据库访问包括第一多个帧的第一视频内容元素。数据处理***可以选择第一视频内容元素的第一多个帧的区间子集。数据处理***可以为包括来自区间子集的预定数量的帧的多个进一步子集中的每一个进一步子集计算该进一步子集的分数。数据处理***可以从多个进一步子集中识别具有最高分数的进一步子集。数据处理***可以选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分。数据处理***可以生成包括第一视频内容元素的所选择的部分的第二视频内容元素。

Description

概括视频内容

相关专利申请的交叉引用

本申请要求在35U.S.C§§119下2017年5月5日提交的国际申请号为PCT/CN2017/083223的所有权益，在其中的整体内容通过参考并入本文。

背景技术

视频内容元素可以通过计算机联网环境提供以在客户端设备上渲染和播放。这种视频内容元素可能具有一定的持续时间，并且可以消耗对应量的计算机处理功率和网络带宽。在对内容(例如，作为“推送”内容、嵌入或作为另一内容的一部分提供的内容、所请求的内容项、或其他这样的传送机制)的请求之前传送这样的内容可能导致带宽、处理功率以及移动设备上的电池功率的显著消耗。

发明内容

带宽、处理功率和电池功率可以通过传递内容的缩短形式(被称为内容的缩短或概括的版本)来降低。缩短或概括的版本可以自动生成，而不需要用户干预、组件选择或片段值的主观确定。在内容提供商请求或向处理设备传送内容时，处理设备可以自动生成视频内容元素的缩短或概括的版本。在一些实施方式中，服务器可以对视频内容元素进行降采样(down-sample)(例如，降采样到每秒一帧、每秒两帧、每两秒一帧或任何其他这样的速率)，这可以被称为选择视频内容元素的帧的区间(intervallic)子集。然后，服务器***可以经由多个评估器通过应用多个处理规则和值计算来评估或分析降采样的视频内容元素的每个帧。这些评估器可以包括图像质量比较器、对象检测器、运动检测器和颜色分布测量器等等。通过在分析每个帧之前对视频内容元素进行降采样，服务器***可以减少用于执行每个评估器的另外的(otherwise)资源密集型(resource-heavy)图像分析算法的计算资源。

使用训练的模型，图像质量比较器可以评估降采样的视频内容元素的每个帧的质量。可能已经用从标记为负的其他视频中随机选择的一个帧集和从标记为正的其他视频中选择的另一帧集训练了模型。通过应用该模型，图像质量比较器可以将帧与正样本和负样本进行比较。图像比较器可以确定来自降采样的视频内容元素的帧与正样本和负样本的相似程度，并且可以根据所确定的相似度计算分数。

为了检测降采样的视频内容元素的每个帧内的对象，对象检测器可以将图像识别算法应用于每个帧。图像识别算法可以包括面部检测和光学字符识别以及其他模式识别技术。在检测到帧内的对象时，对象检测器可以识别对象的各种特征(例如，大小、颜色、字体等)。然后，对象检测器可以根据检测对象的数量和为每个对象识别的各种特征来计算分数。

在降采样的视频内容元素的相邻帧之间，运动检测器可以确定逐帧的每一像素运动的测量值。运动检测器可以将运动测量值与上限阈值和下限阈值进行比较。如果运动测量值在上限阈值和下限阈值内，则运动检测器可以基于测量值和上限阈值之间的差值或距离、以及测量值和下限阈值之间的差值或距离来计算和调整分数。因此，运动检测器可以为具有中等运动量的连续帧分配更高的分数。

对于每个帧，颜色分布测量器可以计算帧像素之间的颜色分布。颜色分布可以指示单个帧内颜色的方差或标准偏差。基于计算出的帧像素之间的颜色分布，颜色分布测量器可以确定降采样的视频内容的帧的分数。分数的确定可以考虑分数映射的分布。

在分析了降采样的视频内容元素的每个帧之后，服务器***可以计算来自每个帧评估器的分数的加权平均值。然后，服务器***可以使用滑动窗口来计算窗口内帧子集的分数。窗口的长度可以被设置为与截短的或概括的视频内容元素的最大长度相对应。通过总和的计算，服务器***可以识别最高总和。然后，服务器***可以从与最高总和的滑动窗口相对应的降采样的视频内容元素中选择帧子集。服务器***可以将与降采样的视频内容元素的所选择的帧子集相对应的原始视频内容元素的帧子集识别为概括的视频内容元素。与传送完整视频内容元素相比，通过向客户端设备提供具有减少的帧数的概括的视频内容元素，服务器***可以减少消耗的带宽量。另外，概括的视频内容元素可以降低在客户端设备处处理和播放视频内容时的计算资源量。

由于视频内容元素的帧在降采样之后(所选择的帧子集)被分析，所以概括的视频内容元素的帧子集的选择可以包括不同场景的帧。为了消除不同的场景，服务器***可以在所选择的子集的帧内检测单个场景的初始镜头帧和结束镜头帧，并且可以将视频内容元素截断为初始镜头帧和结束镜头帧之间的那些帧。服务器***还可以附加所识别的包括特定对象的所选择的帧的子集。

这些和其他方面以及实施方式将在下面详细讨论。前述信息和以下详细描述包括各种方面和实施方式的说明性示例，并且提供了用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供了对各个方面和实施方式的说明和进一步理解，并且被并入并构成本说明书的一部分。

附图说明

附图不意图按比例绘制。各种附图中的相似的参考标号和标示指示相似的元素。为了清楚，并非每个组件都可以在每个附图中进行标记。在附图中：

图1是描述根据说明性实施方式的在计算机网络环境中自动提取视频内容概要的过程的框图；

图2是描述根据说明性实施方式的用于在计算机网络环境中自动提取视频内容概要的***的框图；

图3A-图3E是描绘根据说明性实施方式的在计算机网络环境中自动提取视频内容概要的方法的流程图；和

图4是示出了根据说明性实施方式的可用于实施本文描述和示出的***和方法的元素的计算机***的通用架构的框图。

具体实施方式

以下是与在计算机网络环境中自动提取视频内容概要的方法、装置和***相关的各种概念及其实施方式的更详细描述。上面介绍的和下面更详细讨论的各种概念可以以多种方式中的任何一种来实施，因为所描述的概念不限于任何特定的实施方式的方式。

本文描述的***和方法可以解决与视频内容概要的自动生成相关联的问题。视频内容概要可以提供以原始视频的压缩格式提供原始视频信息内容的视频内容。因此，视频内容概要可以允许客户端设备的用户使用相对于原始视频的少量数据来预览视频内容，并且因此，例如，一旦确定需要这样的完整视频内容，可以通过允许用户接收完整视频内容来减少带宽使用。

首先参考图1，示出了描述自动提取视频内容概要的过程100的框图。本文在过程100中描述的功能可以由如下的数据处理***、或图2所示***200、或图4所示***400的任何一个或多个组件或模块来执行。过程100可以从原始视频内容元素105开始，原始视频内容元素105可以包括原样的(raw)或未压缩的视频文件、压缩的视频文件、动画或视频的各个图像的集、或者任何其他类型和形式的视频元素。虽然主要按照视频内容和分析来讨论，但是内容项可以是包括视频和音频的多媒体内容项。视频内容元素105可以包括N个帧110-1至110-N。帧110-1至110-N可以被配置为或被识别为由计算设备上的视频播放器以任何帧速率(例如，从每秒10帧到每秒600帧)回放。

原始视频内容元素105可以被降采样以形成降采样的视频内容元素105’。降采样的视频内容元素105’可以包括原始视频内容元素105的帧的区间子集，或者根据预定周期或帧的区间数量(例如，每十帧中的一个、每三十帧中的一个等等)选择的帧的子集。在图1描绘的实施方式中，降采样的视频内容元素105’包括原始视频内容元素105的每第十帧(例如，帧110-1、110-11、110-21至110-M)。使用每第十帧是一个示例，并且可以使用其他采样率值。通过对原始视频内容元素105进行降采样，在对降采样的视频内容元素105’应用各种质量分析技术时，可以减少计算资源。

已经对视频内容元素105进行了降采样，帧评估器可以应用于降采样的视频内容元素105’的各个帧，以计算分数125A至125M，通常称为(多个)分数120。在一些实施方式中，帧评估器可以包括图像质量比较器、对象检测器、运动检测器和颜色分布测量器等等。

图像质量比较器可以基于降采样的视频内容元素105’的帧与标记为正或负的其他图像之间的比较来计算该降采样的视频内容元素105’的每个帧的分数。例如，在一些实施方式中，使用训练的模型，图像质量比较器可以评估降采样的视频内容元素的每个帧的质量。可能已经用从标记为负的其他视频中随机选择的一个帧集和从标记为正的其他视频中的另一帧集训练了模型。通过应用该模型，图像质量比较器可以将帧与正样本和负样本进行比较。图像比较器可以确定与正样本和负样本相似的来自降采样的视频内容元素的相似帧，并且可以根据所确定的相似度计算分数。

对象检测器可以使用对象和使用图像识别算法在帧中识别的对象的各种特征为每个帧计算另一分数。在一些实施方式中，为了检测降采样的视频内容元素的每个帧内的对象，对象检测器可以将图像识别算法应用于每个帧。图像识别算法可以包括面部检测和光学字符识别以及其他模式识别技术。在检测到帧内的对象时，对象检测器可以识别对象的各种特征(例如，大小、颜色、字体等)。然后，对象检测器可以根据检测对象的数量和为每个对象识别的各种特征来计算分数。

运动检测器可以基于降采样的视频内容元素105’的相邻帧之间的运动量来计算每个帧的另一分数。例如，在一些实施方式中，在降采样的视频内容元素的相邻帧之间，运动检测器可以确定每像素逐帧运动的测量值。运动检测器可以将运动测量值与上限阈值和下限阈值进行比较。如果运动测量值在上限阈值和下限阈值内，运动检测器可以基于测量值和上限阈值之间的差值或距离、以及测量值和下限阈值之间的差值或距离来计算和调整分数。因此，运动检测器可以为具有中等运动量的连续帧分配更高的分数。

颜色分布测量器可以基于对应帧上像素的颜色分布来计算降采样的视频内容元素105’的每个帧的另一分数。对于每个帧，颜色分布测量器可以计算帧像素之间的颜色分布。颜色分布可以指示单个帧内颜色的方差或标准偏差。基于计算出的帧像素之间的颜色分布，颜色分布测量器可以确定降采样的视频内容的帧的分数。分数的确定可以考虑分数映射的分布。

使用用各种质量分析技术计算的分数，降采样的视频内容元素105’的每个帧可以被分配对应的综合分数125A-125M。每个综合分数125A-125M可以是由帧评估器计算的分数的加权总和或加权平均值。在一些实施方式中，分数可以在每个串行处理或分析步骤之后累积(例如，将新计算的分数添加到先前的总数)，而在其他实施方式中，处理或分析可以并行执行，并且分数一起合计。

然后，滑动窗口135可以用于计算降采样的视频内容元素105’的对应帧(例如，帧110-11和110-21)上的多个综合分数的总和130A-130O(例如，分数125B和125C加起来为130B)。窗口的长度可以被设置为与截短的或概括的视频内容元素的最大长度相对应。

在分数的总和130A-130O当中，可以识别使用滑动窗口135的多个分数的最大总和(例如，总和130B)。可以选择与多个分数的最大总和相对应的降采样的视频内容元素105’的帧(例如，帧110-11和110-21)。然后，可以识别与这些选择的帧相对应的原始视频内容元素105的帧(例如，对于具有十比一降采样的实施方式，帧110-11至110-30)可以被识别，以创建概括的视频内容元素105”。因此，在一些实施方式中，服务器***可以将与降采样的视频内容元素的选择的帧子集相对应的原始视频内容元素的帧子集识别为概括的视频内容元素。

与完整的原始视频内容元素105相比，概括的视频内容元素105”可以包括更少的帧或者覆盖更短的持续时间(例如，基于滑动窗口的大小，五秒而不是六十秒，或者任何其他这样的时间)。以这种方式，相对于提供完整的视频内容元素105，概括的视频内容元素105”的传送可以减少每一视频消耗的带宽量和其他网络资源量。另外，概括的视频内容元素105”可以降低在客户端设备处处理和渲染视频内容时的计算资源量。

由于视频内容元素的帧在降采样之后(所选择的帧子集)被分析，所以概括的视频内容元素的帧子集的选择可以包括不同场景的帧。为了消除不同的场景，服务器***可以在选择的子集的帧内检测单个场景的初始镜头帧和结束镜头帧，并且可以将视频内容元素截断为初始镜头帧和结束镜头帧之间的那些帧。服务器***还可以附加所识别的包括特定对象的选择的帧的子集。

现在参考图2，描绘了用于自动提取视频内容概要的数据处理***200。尽管仅示出了一个数据处理***200，但是在许多实施方式中，数据处理***200可以是群(farm)、云、集群或多个数据处理***或计算设备的其他分组。数据处理***200可以包括至少一个处理器和存储器，有时称为处理电路，下面结合图4更详细地讨论处理器和存储器中的每一个。数据处理***200可以包括视频访问器210、降采样器或区间帧选择器(intervallicframe selector)215、一个或多个帧评估器220(如图所示，其可以并行提供；串行提供，以任何顺序提供；或者串行和并行处理的任意组合提供)、分数合并器250、帧选择器255和场景边界截断器260。一个或多个帧评估器220可以包括图像比较器225、运动检测器235、对象检测器240和颜色分布测量器245等等。视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260和帧连接器265中的每一个可以包括硬件或软件和硬件的组合，诸如被配置为执行一个或多个脚本或其他计算机逻辑的一个或多个处理器。视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260和帧连接器265中的每一个可以包括单独的组件、单个组件或者是数据处理***110的一部分。数据处理***200可以包括内容储存库或数据库，诸如视频内容数据库205、样本图像数据库230和概括的视频内容数据库265。在一些实施方式中，数据处理***200可以在多个计算设备之间划分，多个计算设备包括物理计算设备、由物理计算设备执行的虚拟计算设备、集群、服务器群、云或其他这样的并行或可扩展***。

更详细地，视频访问器210可以访问视频内容数据库205，以识别或检索视频内容元素105。视频内容数据库205可以包括一个或多个原始视频内容元素105。每个原始视频内容元素105可以包括一个或多个帧110-1至110-N。原始视频内容元素105可以包括指定的帧速率(例如，每秒10帧至每秒600帧，或者任何其他这样的值)。在一些实施方式中，视频访问器210可以接收对内容进行概括或生成概要的请求。对内容进行概括的请求可以包括视频内容标识符。视频内容标识符可以包括引用视频内容元素105的地址(例如，统一资源定位符(Uniform Resource Locator，URL)、唯一资源标识符(Unique Resource Identifier，URI)或内容的任何其他标识符)。使用包括在请求中的视频内容标识符，视频访问器210可以检索或识别视频内容元素105。在一些实施方式中，对内容进行概括的请求可以包括视频内容元素105本身。一旦接收到视频内容元素105，视频访问器210可以将视频内容元素105存储或保存到视频内容数据库205上。在一些实施方式中，对内容进行概括的请求可以包括目标截断或概要时间(例如，十秒、五秒、一分钟或任何其他这样的时间)。在以压缩格式提供视频内容的一些实施方式中，在检索视频内容元素105时，视频访问器210可以解压缩视频内容元素105。使用解压缩的视频内容元素105，视频访问器210可以生成视频内容元素105的每个帧110-1至110-N的渲染。在其他实施方式中，可以直接在压缩的视频内容元素105上执行处理，而不需要解压缩或转换。在又其他实施方式中，内容的解压缩可以稍后或根据需要由帧评估器220来执行。例如，在一个这样的实施方式中，内容可以在解压缩之前被降采样，以避免解压缩将被丢弃或不被分析的帧。

如上讨论的，为了降低分析由视频访问器210识别的视频内容元素105的计算复杂度，降采样器215可以以采样率(例如，每秒1帧到每秒60帧)降采样视频内容元素105的帧110-1至110-N。在一些实施方式中，降采样器215可以以识别的采样率或子采样率选择视频内容元素105的帧110-1至110-N的区间子集。区间子集可以包括来自以诸如十帧中的一帧、二十帧中的一帧等的采样率的视频内容元素105的帧110-1至110-N的周期性样本。区间子集可以形成降采样的视频内容元素105’(例如，如图1所示，具有帧110-1、110-11、110-22至110-M)。

在一些实施方式中，降采样器215可以识别或确定对视频内容元素105进行降采样的采样率。在一个实施方式中，降采样器215可以识别原始视频内容元素105的指定帧速率。使用原始视频内容元素105的识别的帧速率，降采样器215可以计算用于选择帧的区间子集的采样率。在一些实施方式中，降采样器215可以将采样率计算为原始视频内容元素105的帧速率的指定百分比(例如，1-50％)。在一些实施方式中，降采样器215可以识别视频内容元素105的长度。降采样器215可以基于原始视频内容元素105的长度和帧速率来确定采样率。在一些实施方式中，降采样器215可以进一步基于目标截断时间来确定采样率。在一些实施方式中，降采样器215可以将采样率计算为目标截断时间的倒数的指定百分比(例如，1-50％)。在又其他实施方式中，降采样器215可以计算采样率以实现目标输出的降采样后的帧数(例如，采样率可以计算为目标帧数除以源帧数或输入帧数)。因此，在一些实施方式中，采样率可以是更长视频的更长的周期或更低频率。

使用形成降采样的视频内容元素105’的区间子集，数据处理***200可以将一个或多个帧评估器220应用于提取的帧子集，以确定每个帧的分数。分数可以包括表示降采样的视频内容元素105’的帧的质量的数值。在一些实施方式中，分数可以是标准化的数值(例如，0至1、0至10、-1至1、-10至10)。一个或多个帧评估器220可以包括图像比较器225、运动检测器235、对象检测器240和颜色分布测量器245等。每个帧评估器220可以在分析视频内容的每个帧的质量时执行或运行计算昂贵的算法，并且可以串行、并行或以串行和并行的组合运行。由于这些算法可以应用于降采样的视频内容元素105’而不是原始视频内容元素105，因此可以减少和降低计算资源和功耗，从而提高数据处理***200的效率。

图像比较器225可以将降采样的视频内容元素105’的每个帧与样本图像进行比较，以计算该帧的分数。图像比较器225可以访问样本图像数据库230，样本图像数据库230可以存储在相同的计算设备内的存储设备中、经由网络访问、或者以其他方式可访问图像比较器225。样本图像数据库230可以包括标记为正的样本图像集和标记为负的另一样本图像集。标记为正的样本图像集可以与较高质量(例如，较高清晰度、高对比度、高分辨率、高色度等)相关联，并且可以与较高的分数(例如，在-1至1的标度上为0至1、在0至1的标度上为0.5至1、在-10至10的标度上为0至10、在0至10的标度上为5至10、或者任何其他这样的范围)相关联。标记为负的样本图像集可以与较低质量(例如，模糊、低对比度、存在伪影、低分辨率等)相关联)，并且可以与较低的分数(例如，在-1至1的标度上为-1至0、在0至1的标度上为0至0.5、在-10至10的标度上为-10至0、在0至10的标度上为0至5、或者不同于用于较高的分数的范围的任何其他这样的范围)相关联。在一些实施方式中，两个样本图像集可以被预先指定为正或负。该样本图像集可以从其他视频内容元素中提取。

使用标记为正或负的图像集，图像比较器225可以计算帧和图像集之间的距离测量值。在一些实施方式中，图像比较器225可以计算帧和标记为正的样本图像集之间的距离度量。在一些实施方式中，图像比较器225可以计算帧和标记为负的样本图像集之间的距离度量。距离度量可以是基于质量的，诸如清晰度、对比度和分辨率以及其他测量值。在一些实施方式中，图像比较器225可以维护模型，以将每个帧与标记为正或负的样本图像集进行比较(例如，贝叶斯网络、人工神经网络或分层模型等)。通过应用人工智能算法(例如，监督学习技术、深度学习、支持向量机等)，可以使用标记为正或负的图像集来训练模型。在一些实施方式中，使用该模型，图像比较器225可以计算帧和标记为正的样本图像集之间以及帧和标记为负的样本图像集之间的两个距离度量。因此，图像比较器225可以为每个帧生成正距离度量(或到正样本图像集的距离度量)和负距离度量(或到负样本图像集的距离度量)，每个度量基于从帧与正或负样本图像的比较中提取的系数的加权和，在模型训练期间动态地确定权重。例如，清晰度的系数权重可以高于分辨率或对比度的系数权重，反之亦然。

降采样的视频内容元素105’的帧的距离度量越接近标记为正的图像集，该帧的分数可能越高。相反，降采样的视频内容元素105’的帧的距离度量越接近标记为负的图像集，该帧的分数可能越低。利用帧和标记为正或负的两个相应图像集之间的两个计算的距离度量，图像比较器225可以计算每个帧的分数。在一些实施方式中，图像比较器225可以将分数计算为两个距离度量的组合。在一些实施方式中，分数可以是两个距离度量的线性和，而在其他实施方式中，任一个或两个度量可以被进一步加权或调整(例如，取对数、基于其他度量的平均值调整，等等)。图像比较器225可以对降采样的视频内容元素105’的每个帧重复上述处理。

运动检测器235可以分析或确定降采样的视频内容元素105’的相邻帧之间的运动量，以计算每个帧的分数。运动检测器235可以识别区间子集内的两个相邻帧(例如，如图1所示的帧110-1和110-11)。运动检测器235可以应用运动检测算法来计算两个识别的相邻帧之间的运动度量。在一些实施方式中，运动检测器235可以确定两个相邻帧中的每个像素或像素块的颜色值(例如，RGB值)。根据帧中每个像素的颜色值，运动检测器235可以识别帧内不同位置中的相邻帧中的对应像素或像素块，并生成帧之间的运动矢量。运动矢量可以以不同的块大小计算，从单个像素到大像素组的宏块，并且在一些实施方式中，来自不同块大小的运动矢量可以被平均或相加在一起。这可以允许在较大缓慢移动的视频区域内识别小的快速移动的对象。在一些实施方式中，运动度量可以与运动矢量相同或成比例。例如，快速运动可以对应于高运动度量。在其他实施方式中，快速运动可能不太适合概要视频，并且因此，运动度量可能与运动矢量成反比，使得快速运动对应于低运动度量或负运动度量。

在一些实施方式中，运动检测器235可以将帧之间的运动矢量与上限阈值和下限阈值进行比较。可以设置上限阈值和下限阈值，以便降低具有过多或最小运动度量的帧的分数。运动检测器235可以计算帧之间的运动矢量和上限阈值之间的差值。运动检测器235可以计算帧之间的运动矢量和下限阈值之间的差值。基于这两个差值，运动检测器235可以计算降采样的视频内容元素105’的帧的分数。运动检测器235可以在构成降采样的视频内容元素105’的区间子集的帧上重复该功能。

对象检测器240可以将图像识别算法应用于降采样的视频内容元素105’的每个帧，以识别一个或多个对象，并识别对象的一个或多个特征和类型。基于识别的对象、特征，对象检测器240可以计算区间子集中的对应帧的分数。由对象检测器240应用的图像识别算法可以包括面部识别算法、光学字符识别算法和其他计算机视觉技术。例如，对象检测器240可以扫描像素块、宏块或区域，以识别匹配预定规则集的对象(例如，具有匹配颜色的连续像素的块、具有相同运动矢量的连续像素的块等)或匹配的其他对象(例如，经由图像比较搜索图像库，或其他这样的方法)。

为了识别帧上的面部表情，对象检测器240可以在区间子集的帧上应用面部识别算法。面部识别算法可以包括线性判别分析、弹性束图匹配、隐马尔可夫模型、多线性子空间学习和主成分分析。在一些实施方式中，对象检测器240可以生成帧的区间子集的帧的灰度版本。对象检测器240可以识别面部图像的训练集。面部图像的训练集可以包括具有面部表情的样本图像。对象检测器240可以计算帧的灰度版本和面部图像的训练集之间的特征向量集。对象检测器240可以使用特征向量集(例如，欧几里德距离)来计算距离度量。然后，对象检测器240可以将距离度量与阈值度量进行比较。如果距离度量小于阈值，则对象检测器240可以确定帧中存在面部表情。如果距离度量大于或等于阈值，则对象检测器240可以确定帧中不存在面部表情。对象检测器240可以将缺少面部表情的帧的分数设置为零。

如果在帧中检测到面部表情，则对象检测器240可以识别降采样的视频内容元素105’的帧的一个或多个特征。一个或多个特征可以包括面部表情的大小、亮度、对比度、分辨率、位置、圆整度和其他属性。在一些实施方式中，一个或多个特征可以包括在面部表情中检测到的眼睛的大小。眼睛可以使用计算机视觉技术来检测。对象检测器240可以基于帧中识别的面部表情的一个或多个特征来设置帧的分数。识别的面部表情的眼睛的尺寸、亮度、对比度、分辨率和大小越大，由对象检测器240计算的分数可能就越高。识别的面部表情的眼睛的尺寸、亮度、对比度、分辨率和大小越小，由对象检测器240计算的分数可能就越低。对象检测器240可以在构成降采样的视频内容元素105’的区间子集的帧上重复该功能。

为了检测帧上的文本，对象检测器240可以对降采样的视频内容元素105’的帧应用光学字符识别算法。光学字符识别算法可以包括模式匹配、模式识别和其他相关技术。在一些实施方式中，对象检测器240可以生成帧的灰度版本。然后，对象检测器240可以访问训练字符集。训练字符集可以包括具有字符的样本图像。对象检测器240可以确定帧的特征向量。然后，对象检测器240可以确定训练字符集中每个字符的特征向量。对象检测器240可以计算帧的特征向量和训练字符集的每个字符的特征向量之间的距离度量。然后，对象检测器240可以将距离度量与阈值进行比较。如果距离度量小于阈值，则对象检测器240可以确定帧中存在字符。如果距离度量大于或等于阈值，则对象检测器240可以确定帧中不存在字符。对象检测器240可以将缺少字符的帧的分数设置为零。

如果在帧中检测到字符，则对象检测器240可以识别该字符的一个或多个特征。一个或多个特征可以包括字符的大小、亮度、对比度、分辨率、字体、字符类型(例如，“a”、“1”、“@”)、位置和其他属性。对象检测器240可以基于字符的一个或多个特征来设置帧的分数。大小、亮度、对比度、分辨率和字体越大，由对象检测器240计算的分数可能越高。大小、亮度、对比度、分辨率和字体越小，由对象检测器240计算的分数可能越低。在一些实施方式中，对象检测器240可以识别帧上的字符数。使用识别的帧数，对象检测器240可以计算分数。对象检测器240可以在构成降采样的视频内容元素105’的区间子集的帧上重复该功能。

颜色分布测量器245可以使用帧上的像素的颜色分布来确定区间子集的每个帧的分数。颜色分布测量器245可以遍历帧的像素，以识别每个像素的颜色值(例如，RGB值)。颜色分布测量器245可以使用帧上的像素的识别的颜色值来确定颜色分布。颜色分布可以包括帧上的像素的颜色值的平均值、标准偏差和方差等。在一些实施方式例中，颜色分布可以是三维值，对应于RGB值之间的偏差的测量值。颜色分布测量器245可以基于帧的确定的颜色分布来计算分数。在一些实施方式中，颜色分布测量器245可以访问颜色分布到分数的映射。映射可以是存储在存储器中的数据结构。映射可以指定特定颜色分布的分数。使用该映射，颜色分布测量器245可以计算帧的分数。颜色分布测量器245可以在构成降采样的视频内容元素105’的区间子集的帧上重复该功能。

获取由每个帧评估器220计算的分数，分数合并器250可以计算降采样的视频内容元素105’的每个帧的综合分数125A-125M。在一些实施方式中，综合分数125A-125M可以是由一个或多个帧评估器220计算的分数的平均值。在一些实施方式中，综合分数125A-125M可以是由一个或多个帧评估器220计算的分数的加权平均值或加权和。在一些实施方式中，分数合并器250可以识别由一个或多个帧评估器220计算的每个分数的权重。权重可以对应于综合分数125A-125M中的分数的组成百分比(例如，由图像比较器225计算的分数的35％、由运动检测器235计算的分数的10％、由对象检测器240计算的分数的30％、以及由颜色分布测量器245计算的分数的25％、或者任何其他这样的分布)。在一些实施方式中，权重可以是预定的或预先指定的。在一些实施方式中，权重可以由分数合并器250动态地确定。在一些实施方式中，分数合并器250可以基于原始视频内容元素105的长度、目标截断时间和降采样的视频内容元素105’中的帧数等来设置权重。例如，对于非常短的目标截断时间，基于文本识别的包含高分数的帧可能比更长的目标截断时间被评级得更高，因为它们可能对应于标题。

根据综合分数125A-125M，帧选择器255可以计算滑动窗口135内的降采样的视频内容元素105’的帧子集的综合分数的总和130A-130O。帧选择器255可以基于目标截断时间设置或计算滑动窗口135的长度或滑动窗口135的子集帧的数量。在一些实施方式中，滑动窗口135的长度可以被设置为一，以选择单个帧作为概括的视频内容元素105”的静止图像。在一些实施方式中，帧选择器255可以基于目标截断时间来确定滑动窗口135的重叠。重叠可以包括在滑动窗口135的两个实例之间使用的用于计算综合分数总和130A-130O的多个帧。一旦设置了滑动窗口135的长度和重叠，帧选择器255可以计算滑动窗口135内的每个帧子集的综合分数总和130A-130O。

根据计算的综合分数总和130A-130O，帧选择器255可以识别最高综合分数总和。然后，帧选择器255可以识别与最高综合分数总和相对应的降采样的视频内容元素105’的帧子集。帧子集可以包括与滑动窗口135相同数量的帧。帧选择器255可以将原始视频内容元素105的帧子集识别为对应于：被识别为与最高综合分数总和相对应的降采样的视频内容元素105’的帧子集。在一些实施方式中，帧选择器255可以从视频内容数据库205中检索原始视频内容元素105。在一些实施方式中，如果滑动窗口135的长度被设置为一以选择单个帧作为概括的视频内容元素105”的静止图像，则帧选择器255可以选择被识别为与最高综合分数总和相对应的单个帧作为概括的视频内容元素105”。因此，在从降采样的帧子集识别出具有最高综合分数的一个或多个帧之后，帧选择器可以通过检索与具有最高综合分数的一个或多个帧和滑动窗口内的多个帧相对应的完整帧集来“上采样”回原始源图像内容。在一个实施方式中，给定每秒30帧的源图像内容，该内容可以被降采样到每秒一帧并被分析。滑动窗口可以对应于10秒的视频，或者10个降采样的帧。在识别出具有最高综合分数的帧时，帧选择器可以从包括识别的帧的原始源图像内容中检索对应的10秒视频(即以原始的每秒30帧的300帧，而不是以降采样速率的10帧)。检索到的帧可以用于以原始帧速率生成概要视频。

在一些实施方式中，帧选择器255可以遍历原始视频内容元素105的帧110-1至110-N，以识别帧子集，该帧子集对应于与被识别为与最高综合分数相对应的降采样的视频内容元素105’的帧子集。帧选择器255可以识别原始视频内容元素105的初始帧，该初始帧与被识别为与最高综合分数总和相对应的子集帧的降采样视频内容元素105’的初始帧相对应。当帧选择器255遍历帧110-1至110-N时，帧选择器255可以选择帧110-1至110-N，并且包括或***选择的帧110-1至110-N作为概括的视频内容元素105”的一部分。帧选择器255可以遍历原始视频内容元素105的帧110-1至110-N，直到帧选择器255将原始视频内容元素105的帧识别为与降采样的视频内容元素105’中的帧子集之一相对应。如果降采样的视频内容元素105’中的帧子集的帧是结束帧，则帧选择器255可以选择原始视频内容元素105的帧110-1至110-N中对采样间隔编号的剩余部分。如果降采样的视频内容元素105’中的帧子集的帧不是结束帧，则帧选择器255可以继续选择原始视频内容元素105的帧110-1至110-N。使用被选择为与降采样的视频内容元素105’的帧子集相对应的原始视频内容元素105的帧110-1至110-N，帧选择器255可以生成概括的视频内容元素105”。在一些实施方式中，帧选择器255可以响应于生成概括的视频内容元素105”，将概括的视频内容元素105”存储在概括的视频数据库270上。帧选择器255还可以存储概括的视频内容元素105”的对应标识符，以引用用于生成概括的视频内容元素105”的原始视频内容105。

由于降采样的视频内容元素105’被用于分析帧的质量，所以概括的视频内容元素105”可以在视频内容中包括不止一个场景，并且还可以包括对于概括的视频内容元素105”的观看者可能不愉快的突然或意外的视觉变化(例如，颜色)。为了减少场景的数量，场景边界截断器260可以从概括的视频内容元素105”中识别一个或多个镜头边界。从视觉角度来看，镜头边界可以对应于从一个场景过渡到另一场景的帧。这种过渡可以对应于从一个帧到下一帧的颜色的快速变化，或者到黑色或从黑色的渐变。在截断概括的视频内容元素105”时，场景边界截断器260可以将截断的、概括的视频内容元素105”存储在概括的视频数据库270上。

从概括的视频内容元素105”的开端开始，场景边界截断器260可以遍历帧，以检测帧当中的初始镜头边界帧。在遍历时，场景边界截断器260可以识别帧像素的颜色分布。颜色分布可以包括帧上像素的颜色值的平均值、标准偏差和方差等。在一些实施方式中，颜色分布可以是三维值，对应于RGB值之间的偏差的测量值。场景边界截断器260可以将当前帧的颜色分布与概括的视频内容元素105”的先前帧的颜色分布进行比较。场景边界截断器260可以确定当前帧的颜色分布和先前帧的颜色分布之间的差值。场景边界截断器260可以将该差值与阈值进行比较。如果差值大于阈值，则场景边界截断器260可以将当前帧识别为初始镜头边界帧。然后，场景边界截断器260可以从概括的视频内容元素105”中移除初始镜头边界帧之前的帧。如果差值小于阈值，则场景边界截断器260可以将当前帧识别为非镜头边界帧，并且可以继续遍历概括的视频内容元素105”的帧。

在一些实施方式中，场景边界截断器260可以使用帧之间的颜色分布的差值来继续遍历概括的视频内容元素105”的帧，以检测场景变化或镜头边界。在检测到镜头边界时，场景边界截断器260可以保持镜头边界的数量并增加镜头边界的数量。在一些实施方式中，场景边界截断器260可以将镜头边界的数量与场景的最大数量进行比较。如果镜头边界的数量等于或大于最大数量，则场景边界截断器260可以从概括的视频内容元素105”中移除对与镜头边界相对应的帧之后的帧。

从概括的视频内容元素105”的结尾开始，场景边界截断器260可以遍历帧以检测帧当中的结束镜头边界帧。在遍历时，场景边界截断器260可以识别帧像素的颜色分布。颜色分布可以包括帧上像素的颜色值的平均值、标准偏差和方差等。在一些实施方式中，颜色分布可以是三维值，对应于RGB值之间的偏差的测量值。场景边界截断器260可以将当前帧的颜色分布与概括的视频内容元素105”的先前遍历的帧的颜色分布进行比较。场景边界截断器260可以确定当前帧的颜色分布和先前遍历的帧的颜色分布之间的差值。场景边界截断器260可以将该差值与阈值进行比较。如果差值大于阈值，则场景边界截断器260可以将当前帧识别为结束镜头边界帧。然后，场景边界截断器260可以从概括的视频内容元素105”中移除结束镜头边界帧之后的帧。如果差值小于阈值，则场景边界截断器260可以将当前帧识别为非镜头边界帧，并且可以继续遍历概括的视频内容元素105”的帧。

视频连接器265可以将原始视频内容元素105的其他帧添加到概括的视频内容元素105”。视频连接器265可以从原始视频内容元素105中识别未被选择用于概括的视频内容元素105”的剩余帧。在一些实施方式中，视频连接器265可以从原始视频内容元素105的结尾选择预定数量的帧，以添加到概括的视频内容元素105”。在一些实施方式中，使用图像识别算法，视频连接器265可以从包括一个或多个预先指定的对象的剩余帧中识别帧的连续集。一个或多个预先指定的对象可以包括特定类型的文本和特定类型的图像(例如，标志或商标)等等。用于识别一个或多个预先指定的对象的图像识别算法可以包括光学字符识别、对象识别、斑点检测、边缘检测、以及其他计算机视觉技术。在遍历视频内容元素105的剩余帧时，视频连接器265可以识别包括一个或多个对象的连续帧的一个集或多个集。在遍历剩余帧之后，视频连接器265可以将连续帧的一个集或多个集添加到概括的视频内容元素105”。在一些实施方式中，视频连接器265可以将连续帧的一个集或多个集连接、附加或***到概括的视频内容元素105”。一旦被添加，视频连接器265可以将修改的、概括的视频内容元素105”保存到概括的视频内容数据库270。

现在参考图3A-图3E，描绘了根据说明性实施方式的自动提取视频内容概要的方法300的流程图。本文描述的方法300中描述的功能可以由数据处理***或图2所示的数据处理***200或图4中的***400的任何一个或多个组件或模块来执行。

从图3A开始，在步骤302处，数据处理***可以访问视频内容数据库。在步骤304处，数据处理***可以从视频内容数据库中检索视频内容元素。在一些实施方式中，数据处理***可以解压缩视频内容元素。在步骤306处，数据处理***可以识别用于质量分析的采样率。在步骤308处，数据处理***可以识别从数据库检索的视频内容元素的初始帧。在步骤310处，数据处理***可以确定帧位置是否等于由采样率定义的采样间隔。如果帧位置等于采样间隔，则在步骤312处，数据处理***可以为采样集选择帧。无论如何，在步骤314处，数据处理***可以确定是否还有更多帧剩余。如果是，则数据处理***可以重复步骤310-314的功能。

转到图3B，如果没有剩余帧，则在步骤316处，数据处理***可以识别用于质量分析的采样集的初始帧(例如，在步骤318-328处的功能)。在步骤318处，数据处理***可以计算当前帧与正标记样本图像的距离。在步骤319处，数据处理***可以计算当前帧与负标记样本图像的距离。在步骤320处，数据处理***可以基于距离计算该帧的分数。在步骤321处，数据处理***可以检测帧图像中的对象。在步骤322处，数据处理***可以识别帧图像中对象的类型或属性。在步骤323处，数据处理***可以基于图像中所识别的对象的类型或属性来计算该帧的分数。在步骤324处，数据处理***可以识别与当前帧相邻的帧。在步骤325处，数据处理***可以计算相邻帧和当前帧之间的运动度量。在步骤326处，数据处理***可以基于运动度量计算该帧的分数。在步骤327处，数据处理***可以确定当前帧的颜色分布。在步骤328处，数据处理***可以基于颜色分布计算该帧的分数。

继续，在步骤330处，数据处理***可以识别在步骤320、323、326和328处计算的每个分数的权重。在步骤332处，数据处理***可以基于分数和对于每个分数的所识别的权重来计算该帧的总和分数。在步骤334处，数据处理***可以确定采样集中是否还有更多帧剩余。如果采样集中还有剩余帧，则在步骤336处，数据处理***可以识别接下来的帧用于分析，并且可以重复步骤318-336的功能。

现在参考图3C，如果采样集中没有剩余帧，则在步骤338处，数据处理***可以计算初始窗口中的帧的总和分数。在步骤340处，数据处理***可以计算后续窗口中的帧的总和分数。在步骤342处，数据处理***可以将当前总和分数与先前高总和分数进行比较。如果当前总和分数大于先前高总和分数，则在步骤344处，数据处理***可以将当前窗口中的帧子集设置为对应于最高总和分数。如果当前总和分数小于先前高总和分数，则在步骤346处，数据处理***可以将先前识别的窗口中的帧子集保持为对应于最高总和分数。在步骤348处，数据处理***可以确定采样集中是否还有更多帧剩余。如果采样集中还有更多帧剩余，则在步骤350处，数据处理***可以将窗口滑动到采样集中的下一帧子集。如果采样集中没有更多帧剩余，则在步骤352处，数据处理***可以识别采样集中被确定为对应于最高总和分数的帧子集。

继续到图3D，在步骤354处，数据处理***可以识别与采样集中被识别为对应于最高总和分数的帧子集相对应的原始视频内容元素的帧子集。在步骤356处，数据处理***可以识别原始视频内容元素中的初始帧的像素特征。在步骤358处，数据处理***可以识别原始视频内容元素中的接下来的帧的像素特征。最初，数据处理***可以从初始帧开始遍历所识别的原始视频内容元素的帧子集，同时识别原始视频内容的帧的镜头边界。在步骤360处，数据处理***可以计算两个帧之间像素特征的差值。

在步骤362处，数据处理***可以确定像素特征的差值大于阈值。如果像素特征的差值大于阈值，则在步骤364处，数据处理***可以将当前帧识别为镜头边界。在步骤366处，数据处理***可以确定所识别的镜头边界是初始镜头边界还是结束镜头边界。如果第一次检测到镜头边界，则数据处理***可以将检测到的镜头边界识别为初始镜头边界。如果镜头边界是初始的，则在步骤368处，数据处理***可以截断镜头边界之前的帧。在步骤370处，数据处理***可以识别原始视频内容元素的帧子集的结束帧的像素特征。在重复步骤358-366和374时，数据处理***可以从结束帧遍历原始视频内容元素的帧子集。如果镜头边界结束，则在步骤372处，数据处理***可以截断镜头边界之后的帧。在步骤374处，数据处理***可以确定在原始视频内容元素中是否还有更多帧剩余。如果还有剩余帧，则数据处理***可以重复步骤358-372的功能。如果没有剩余帧，则在步骤376处，数据处理***可以将剩余帧设置为概括的视频内容元素。

最后参考图3E，在步骤378处，数据处理***可以从未包括在概括的视频内容元素中的原始视频内容元素中识别剩余帧。在步骤380处，数据处理***可以从排除的帧集中识别初始帧。在步骤382处，数据处理***可以使用图像识别算法从当前帧中识别对象。在步骤384处，数据处理***可以确定所识别的对象是否匹配预先指定的对象。

如果检测到的对象匹配预先指定的对象，则在步骤836处，数据处理***可以确定当前帧是否与先前存储的帧连续。如果当前帧与先前存储的帧不连连续，则在步骤388处，数据处理***可以创建新的单独的集。无论如何，在步骤390处，数据处理***可以将帧存储在单独的集上。在步骤392处，数据处理***可以确定在原始视频内容元素中是否还有更多帧剩余。如果还有剩余帧，则数据处理***可以从概括的视频内容元素中排除的帧集中识别接下来的帧，并重复步骤382-392的功能。如果没有更多剩余帧，在步骤396处，数据处理***可以将存储的集的帧连接到概括的视频内容元素上。

图4示出了根据一些实施方式的示例性计算机***400的总体架构，其可用于实施本文讨论的任何计算机***(包括***200及其组件，诸如视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260、和帧连接器265)。计算机***400可用于经由网络430提供信息以供显示。图4的计算机***400包括通信地耦合到存储器425的一个或多个处理器420、一个或多个通信接口405、和一个或多个输出设备410(例如，一个或多个显示单元)和一个或多个输入设备415。处理器420可以被包括在数据处理***200及其组件中，诸如视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260、和帧连接器265。处理器420还可以被包括在视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260、和帧连接器265等中。

在图4的计算机***400中，存储器425可以包括任何计算机可读存储介质，并且可以存储计算机指令，诸如用于实施本文针对各个***描述的各种功能的处理器可执行指令，以及与其相关、由此产生的或经由(多个)通信接口或(多个)输入设备(如果存在)接收的任何数据。在数据处理***200的上下文中，存储器425可以包括用于视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260和帧连接器265的将由处理器420处理的指令。存储器425还可以包括视频内容数据库205、样本图像数据库230、和概括的视频数据库270。图4所示的(多个)处理器420可以用于执行存储在存储器425中的指令，并且在这样做时，还可从存储器读取或向存储器写入根据指令的执行而处理和/或生成的各种信息。

图4所示的计算机***400的处理器420也可以通信地耦合到或控制(多个)通信接口405，以根据指令的执行来发送或接收各种信息。例如，(多个)通信接口405可以耦合到有线或无线网络、总线或其他通信装置，并且因此可以允许计算机***400向其他设备(例如，其他计算机***)发送信息或从其他设备接收信息。虽然在图2的***中没有明确示出，但是一个或多个通信接口有助于***400的组件之间的信息流。在一些实施方式中，(多个)通信接口可以被配置(例如，经由各种硬件组件或软件组件)以提供网站作为对计算机***400的至少一些方面的访问门户。通信接口405的示例包括用户接口(例如，网页)，用户可以通过用户接口与数据处理***200通信。

存储器425可以存储处理器可执行指令，当由处理器执行这些指令时，使得处理器执行本文描述的一个或多个操作。处理器420可以包括微处理器、专用集成电路(Application-Specific Integrated Circuit，ASIC)、可程序化逻辑门阵列(Field-Programmable Gate Array，FPGA)等，或它们的组合。存储器可以包括但不限于能够向处理器提供程序指令的电子、光学、磁性或任何其他存储或传输设备。存储器425还可以包括处理器可以从中读取指令的软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random-Access Memory，RAM)、电可擦除ROM(Electrically-Erasable ROM，EEPROM)、可擦除可编程ROM(Erasable-Programmable ROM，EPROM)、闪速存储器、光学介质或任何其他合适的存储器。指令可以包括来自任何合适的计算机编程语言的代码，诸如数据处理***200的组件(诸如，视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260和帧连接器265)。

例如，可以提供图4所示的计算机***400的输出设备410，以允许结合指令的执行来查看或以其他方式感知各种信息。例如，可以提供(多个)输入设备415，以允许用户在指令的执行期间进行手动调整、选择、输入数据或以各种方式与处理器交互。本文还提供了与可以用于本文讨论的各种***的通用计算机***架构结构相关的附加信息。

网络430可以包括计算机网络，诸如因特网、局域网、广域网、城域网或其他域网、内部网、卫星网络、其他计算机网络，诸如语音或数据移动电话通信网络及其组合。数据处理***200可以经由网络430与其他设备通信，诸如一个或多个客户端设备、内容提供商服务器和/或内容发布者服务器。网络430可以是在数据处理***200、客户端设备、内容提供商服务器和/或内容发布者服务器之间中继信息的任何形式的计算机网络。例如，网络430可以包括互联网和/或其他类型的数据网络，诸如局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、蜂窝网络、卫星网络或其他类型的数据网络。网络430还可以包括被配置为在网络430内接收和/或发送数据的任意数量的计算设备(例如，计算机、服务器、路由器、网络交换机等)。网络430还可以包括任意数量的硬连线和/或无线连接。例如，客户端设备可以与硬连线到(例如，经由光纤电缆、CAT5电缆等)网络430中的其他计算设备的收发器无线地通信(例如，经由WiFi、蜂窝、无线电等)。

本说明书中描述的主题和操作的实施方式可以在数字电子电路中实施，或者在包括本说明书中公开的结构及其结构等同物的有形介质、固件或硬件上嵌入的计算机软件中实施，或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施方式能够被实施为一个或多个计算机程序，即编码在计算机存储介质上的计算机程序指令的一个或多个模块，以便被数据处理装置运行或者用来控制数据处理装置的操作。程序指令能够被编码在人工生成的传播的信号中，例如，被生成以便编码用于传输到合适的接收器装置以便被数据处理装置运行的信息的、机器生成的电、光、或者电磁信号。计算机存储介质可以是计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合或被包括在其中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以包括编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的物理组件或介质(例如，多个CD、磁盘或其他存储设备)或被包括在其中。

本文公开的特征可以在智能电视模块(或连接的电视模块、混合电视模块等)上实施，其可以包括处理模块，该处理模块被配置为将互联网连接与更传统的电视节目源(例如，经由电缆、卫星、空中下载或其他信号接收的)集成。智能电视模块可以物理地并入到电视机中，或者可以包括单独的设备，诸如机顶盒、蓝光或其他数字媒体播放器、游戏控制台、酒店电视***和其他伴随设备。智能电视模块可以被配置为允许观看者在网络上、本地有线电视频道上、***频道上或存储在本地硬盘上搜索和查找视频、电影、照片和其他内容。机顶盒(Set-Top Box，STB)或机顶盒单元(Set-Top Unit，STU)可以包括信息应用设备，该信息应用设备可以包含调谐器并连接到电视机和外部信号源，将信号转换成之后显示在电视屏幕或其他显示设备上的内容。智能电视模块可以被配置为提供主页屏幕或顶层屏幕，其包括用于多个不同应用的图标，诸如网络浏览器和多个流媒体服务、连接的电缆或卫星媒体源、其他网络“频道”等。智能电视模块还可以被配置为向用户提供电子节目指南。智能电视模块的伴随应用在移动计算设备上可操作，以向用户提供关于可用节目的附加信息，以允许用户控制智能电视模块等。在替代实施方式中，这些特征可以在膝上型计算机或其他个人计算机、智能手机、其他移动电话、手持计算机、平板PC或其他计算设备上实施。

本说明书中描述的操作可以被实施为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。

术语“数据处理装置”、“数据处理***”、“用户设备”或“计算设备”涵盖用于处理数据的所有种类的装置、设备和机器，例如，包括可编程处理器、计算机、片上***或前述的多个设备、装置和机器或其组合。该装置可以包括专用逻辑电路，例如，FPGA(fieldprogrammable gate array，现场可编程门阵列)或ASIC(application-specificintegrated circuit，专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础设施，诸如网络服务、分布式计算和网格计算基础设施。视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260、和帧连接器265可以包括或共享数据处理***200的一个或多个计算设备或处理器(例如，处理器420)。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言、声明或过程语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其他单元。计算机程序可以，但是不需要，对应于文件***中的文件。程序能够存储在保持其它程序或者数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调的文件(例如，存储一个或多个模块、子程序、或者代码部分的文件)中。计算机程序能够被部署为在一个计算机上运行，或者在位于一个场所的或者分布在多个场所之间并通过通信网络430互连的多个计算机上运行。

在本说明书中描述的过程和逻辑流能够通过运行一个或多个计算机程序的一个或多个可编程处理器执行，以便通过对输入数据进行操作并且生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于计算机程序的运行的处理器包括，例如，通用微处理器和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或者随机存取存储器或者两者接收指令和数据。计算机的基本元素是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个海量存储设备，例如，磁盘、磁光盘或者光盘，或者将被可操作地耦合到该一个或多个海量存储设备，以从该一个或多个海量存储设备接收数据、或者向该一个或多个海量存储设备传递数据、或者两者。然而，计算机不需要具有这样的设备。而且，计算机能够被嵌入另一设备中，例如，移动电话、个人数字助理(Personal Digital Assistant，PDA)、移动音频或者视频播放器、游戏控制台、全球定位***(Global PositioningSystem，GPS)接收器、或者便携式存储设备(例如，通用串行总线(Universal Serial Bus，USB)闪存驱动器)，以用作示例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪速存储器设备；磁盘(例如，内部硬盘或可移动磁盘)；磁光盘；和CD-ROM和DVD-ROM光盘。处理器和存储器可以由专用逻辑电路补充，或者并入在专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施方式能够被实施在具有用于向用户显示信息的显示设备(例如，CRT(cathode ray tube，阴极射线管)、等离子、或者LCD(liquid crystal display，液晶显示器)监视器)以及能够被用户用来向计算机提供输入的键盘和定向设备(例如，鼠标和轨迹球)的计算机上。其它种类的设备也能够用来提供与用户的交互；例如，提供给用户的反馈可以包括任何形式的感官反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且来自用户的输入可以以任何形式被接收，包括声音、语音、或者触觉输入。另外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求向用户的客户端设备上的网络浏览器发送网页。

本说明书中描述的主题的实施方式可以实施在包括后端组件(例如，作为数据服务器)的计算***中，或者可以实施在包括中间件组件(例如，应用服务器)的计算***中，或者可以实施在包括前端组件(例如，具有用户能够通过其与在本说明书中描述的主题的实施方式进行交互的图形用户界面或者网络浏览器的客户端计算机)的计算***中、或者可以实施在一个或多个这样的后端组件、中间件组件、或者前端组件的任何组合的计算***中。***的组件能够通过任何形式或者介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、跨网络(例如，因特网)和对等网络(例如，自组织对等网络)。

诸如***400或***200的计算***可以包括客户端和服务器。例如，数据处理***200可以包括一个或多个数据中心或服务器群中的一个或多个服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络来交互。客户端和服务器之间的关系凭借在各个计算机上运行的并且彼此之间具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器将数据(例如，HTML页面)传输到客户端设备(例如，为了向与客户端设备交互的用户显示数据和从与客户端设备交互的用户接收用户输入)。在客户端设备处生成的数据(例如，用户交互的结果)可以在服务器处从客户端设备接收。

虽然本说明书包含了许多具体的实施方式细节，但是这些细节不应该被解释为对任何发明或可能要求保护的范围的限制，而是对本文描述的***和方法的特定实施方式的特征的描述。在分开的实施方式的上下文中在本说明书中描述的某些特征还能够组合地实施在单一实施方式中。相反地，在单一实施方式的上下文中描述的各种特征还能够分开地实施在多个实施方式中或者实施在任何合适的的子组合中。而且，虽然特征可能在上面被描述为出现在某些组合中并且甚至一开始就被请求按这样进行保护，但是来自请求保护的组合的一个或多个特征在一些情况下能够从该组合中被删除，并且请求保护的组合可以指向子组合或者子组合的变化。

类似地，尽管在附图中以特定次序描绘了操作，但是这不应当被理解为需要以示出的特定次序或以相继的次序来执行这样的操作或者需要执行所有示意的操作来取得满意的结果。在有些情况下，在权利要求中记载的动作能够以不同的次序来执行，并且仍然实现期望的结果。另外，附图中描述的过程不一定需要所示的特定次序或相继次序来获得期望的结果。

在某些情况下，多任务和并行处理可能是有利的。而且，在上述实施方式中各种***组件的分离不应当被理解为在所有实施方式中要求这样的分离，而是应当理解，所描述的程序组件和***可以通常地在单个软件产品中被集成在一起或者被封装在多个软件产品中。例如，视频访问器210、降采样器215、一个或多个帧评估器220、分数合并器250、帧选择器255、场景边界截断器260、和帧连接器265可以是数据处理***200的一部分、单个模块、具有一个或多个处理模块的逻辑设备、一个或多个服务器、或搜索引擎的一部分。

因此，提供了本文讨论的***和方法以用于自动生成或提取视频内容概要，并且可以以传送整个内容所需的带宽和处理功率的一小部分快速有效地向客户端设备提供视频内容概要。本文讨论的至少一个方面涉及一种自动提取视频内容概要的方法。数据处理***可以从视频数据库访问包括第一多个帧的第一视频内容元素。数据处理***可以选择第一视频内容元素的第一多个帧的区间子集。数据处理***可以为包括来自区间子集的预定数量的帧的多个进一步子集中的每一个进一步子集计算该进一步子集的分数。数据处理***可以从多个进一步子集中识别具有最高分数的进一步子集。数据处理***可以选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分。数据处理***可以生成包括第一视频内容元素的所选择的部分的第二视频内容元素。

在一些实施方式中，计算进一步子集的分数还可以包括计算该进一步子集和正样本图像集之间的第一距离度量。在一些实施方式中，计算进一步子集的分数还可以包括计算该进一步子集和负样本图像集之间的第二距离度量。在一些实施方式中，计算进一步子集的分数还可以包括基于第一距离度量和第二距离度量的组合来计算进一步子集的分数。

在一些实施方式中，计算进一步子集的分数还可以包括使用图像识别算法检测来自该进一步子集的对象。在一些实施方式中，计算进一步子集的分数还可以包括使用图像识别算法识别从该进一步子集检测到的对象的一个或多个属性。在一些实施方式中，计算进一步子集的分数还可以包括基于从对象识别的一个或多个属性来计算进一步子集的分数。

在一些实施方式中，计算进一步子集的分数还可以包括通过将运动检测算法应用于两个对应的帧来在该进一步子集的每个帧之间计算运动度量。在一些实施方式中，计算进一步子集的分数还可以包括基于在该进一步子集的每个帧之间计算的运动度量的集来计算进一步子集的分数。

在一些实施方式中，计算进一步子集的分数还可以包括确定该进一步子集的帧的多个像素之间的颜色分布。在一些实施方式中，计算进一步子集的分数还可以包括基于该进一步子集的帧的多个像素之间的颜色分布来计算进一步子集的分数。

在一些实施方式中，计算进一步子集的分数还可以包括通过将对应数量的图像分析算法应用于该进一步子集的帧来为多个进一步子集的每一个计算多个分数。在一些实施方式中，计算进一步子集的分数还可以包括基于多个分数的预定加权平均值来计算分数。

在一些实施方式中，选择第一视频内容元素的部分还可以包括识别与具有最高分数的进一步子集的第二初始帧相对应的第一视频内容元素的第一初始帧。在一些实施方式中，选择第一视频内容元素的部分还可以包括识别与具有最高分数的进一步子集的第二结束帧相对应的第一视频内容元素的第一结束帧。在一些实施方式中，选择第一视频内容元素的部分还可以包括从第一初始帧到第一结束帧选择第一视频内容元素的帧子集。

在一些实施方式中，生成第二视频内容元素还可以包括基于帧之间的第一颜色变化来检测与第一视频内容元素的部分相对应的帧当中的初始镜头边界帧。在一些实施方式中，生成第二视频内容元素还可以包括基于帧之间的第二颜色变化来检测与第一视频内容元素的部分相对应的帧当中的结束镜头边界帧。第二颜色变化在第一颜色变化之后。在一些实施方式中，生成第二视频内容元素还可以包括将与该部分的初始帧相对应的第一视频内容元素的第一子部分截断为初始镜头边界帧。在一些实施方式中，生成第二视频内容元素还可以包括将与结束镜头边界帧相对应的第一视频内容元素的第二子部分截断为该部分的结束帧。

在一些实施方式中，计算进一步子集的分数还可以包括计算包括一个帧的进一步子集的分数。在一些实施方式中，生成第二视频内容元素还可以包括生成包括从多个帧中的一个帧的第二视频内容元素。在一些实施方式中，数据处理***可以使用图像识别算法从包括对象的第一多个帧中识别连续帧的第二子集。在一些实施方式中，数据处理***可以将连续帧的第二子集连接到第二视频内容元素。

至少一个方面涉及一种用于自动提取视频内容概要的***。该***可以包括数据处理***。数据处理***可以具有一个或多个处理器和存储器。数据处理***可以从视频数据库访问包括第一多个帧的第一视频内容元素。数据处理***可以选择第一视频内容元素的第一多个帧的区间子集。数据处理***可以为包括来自区间子集的预定数量的帧的多个进一步子集中的每一个进一步子集计算该进一步子集的分数。数据处理***可以从多个进一步子集中识别具有最高分数的进一步子集。数据处理***可以选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分。数据处理***可以生成包括第一视频内容元素的所选择部分的第二视频内容元素。

在一些实施方式中，数据处理***可以计算该进一步子集和正样本图像集之间的第一距离度量。在一些实施方式中，数据处理***可以计算该进一步子集和负样本图像集之间的第二距离度量。在一些实施方式中，数据处理***可以基于第一距离度量和第二距离度量的组合来计算该进一步子集的分数。

在一些实施方式中，数据处理***可以使用图像识别算法从进一步子集检测对象。在一些实施方式中，数据处理***可以使用图像识别算法来识别从该进一步子集检测到的对象的一个或多个属性。在一些实施方式中，数据处理***可以基于从对象识别的一个或多个属性来计算该进一步子集的分数。

在一些实施方式中，数据处理***可以通过将运动检测算法应用于两个对应的帧来在该进一步子集的每个帧之间计算运动度量。在一些实施方式中，数据处理***可以基于在该进一步子集的每个帧之间计算的运动度量的集来计算该进一步子集的分数。

在一些实施方式中，数据处理***可以确定该进一步子集的帧的多个像素之间的颜色分布。在一些实施方式中，数据处理***可以基于该进一步子集的帧的多个像素之间的颜色分布来计算该进一步子集的分数。在一些实施方式中，数据处理***可以通过将对应数量的图像分析算法应用于该进一步子集的帧来为多个进一步子集的每一个计算多个分数。在一些实施方式中，数据处理***可以基于多个分数的预定加权平均值来计算分数。

在一些实施方式中，数据处理***可以识别与具有最高分数的进一步子集的第二初始帧相对应的第一视频内容元素的第一初始帧。在一些实施方式中，数据处理***可以识别与具有最高分数的进一步子集的第二结束帧相对应的第一视频内容元素的第一结束帧。在一些实施方式中，数据处理***可以从第一初始帧到第一结束帧选择第一视频内容元素的帧子集。

在一些实施方式中，数据处理***可以基于帧之间的第一颜色变化来检测与第一视频内容元素的一部分相对应的帧当中的初始镜头边界帧。在一些实施方式中，数据处理***可以基于帧之间的第二颜色变化来检测与第一视频内容元素的一部分相对应的帧当中的结束镜头边界帧。第二颜色变化可以在第一颜色变化之后。在一些实施方式中，数据处理***可以将与该部分的初始帧相对应的第一视频内容元素的第一子部分截断为初始镜头边界帧。在一些实施方式中，数据处理***可以将与结束镜头边界帧相对应的第一视频内容元素的第一视频内容元素第二子部分截断为该部分的结束帧。

在一些实施方式中，数据处理***可以使用图像识别算法从包括对象的第一多个帧中识别连续帧的第二子集。在一些实施方式中，数据处理***可以将连续帧的第二子集连接到第二视频内容元素。

至少一个方面涉及存储用于自动提取视频内容概要的指令的非暂时性计算机可读介质。当一个或多个处理器执行该指令时，可以使得一个或多个处理器执行操作以执行操作。操作可以包括从视频数据库访问包括第一多个帧的第一视频内容元素。操作可以包括选择第一视频内容元素的第一多个帧的区间子集。操作可以包括为包括来自区间子集的预定数量的帧的多个进一步子集的每一个计算进一步子集的分数。操作可以包括从多个进一步子集中识别具有最高分数的进一步子集。操作可以选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分。操作可以包括生成包括第一视频内容元素的所选择的部分的第二视频内容元素。

现在已经描述了一些说明性的实施例和实施方式，显然前面是说明性的而不是限制性的，已经通过示例的方式给出。具体而言，尽管本文呈现的许多示例涉及方法动作或***元件的特定组合，但是这些动作和那些元件可以以其他方式组合以实现相同的目标。仅结合一个实施方式讨论的动作、元件和特征不意图被排除在其他实施例或实施方式中的类似角色之外。

本文使用的措辞和术语是为了描述的目的，而不应该被视为限制性的。本文使用的“包括”、“包含”、“具有”、“包含了”、“涉及”、“特征在于”、“特征为”及其变型意味着涵盖其后列出的项目、其等同物和附加项目，以及由其后专门列出的项目组成的替代实施方式。在一个实施例中，本文描述的***和方法由一个所描述的元件、动作或组件、不止一个所描述的元件、动作或组件的每个组合或所有所描述的元件、动作或组件组成。

本文中以单数引用的***和方法的实施方式或元件或动作的任何引用也可以包含包括了多个这些元件的实施方式，并且本文中以复数引用的任何实施方式或元件或动作也可以包含仅包括单个元件的实施例。单数或复数形式的引用并不意图将当前公开的***或方法、其组件、动作或元件限制为单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包括动作或元件至少部分基于任何信息、动作或元件的实施方式。

本文公开的任何实施方式可以与任何其他实施方式相结合，并且对“实施方式”、“一些实施方式”、“替代实施方式”、“各种实施方式”、“一个实施方式”等的引用不一定是互斥的，并且意图指示结合该实施方式描述的特定特征、结构或特性可以被包括在至少一个实施方式中。本文使用的这些术语不一定都指相同的实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式与任何其他实施方式包括地或排他地相结合。

对“或”的引用可以被解释为包含性的，使得使用“或”描述的任何术语可以指示单个、不止一个和所有所描述的术语中的任何一个。

在附图、详细描述或任何权利要求中的技术特征后面跟随有附图标记的情况下，附图标记被包括在内的唯一目的是增加附图、详细描述和权利要求的可理解性。因此，参考标记或其缺失对任何权利要求要素的范围都没有任何限制作用。

在不脱离本文描述的***和方法的特征的情况下，本文描述的***和方法可以以其他特定形式体现。尽管本文提供的示例涉及提供用于显示的交互式内容，但是本文描述的***和方法可以包括应用于其他环境，在这些环境中，日志数据库中包括的数据被使用并与对应于内容的先前请求的数据进行比较，并且响应于确定数据变化，识别将该变化的信用归于的一个或多个内容元素。前述实施方式是说明性的，而不是对所描述的***和方法的限制。因此，本文描述的***和方法的范围由所附权利要求而不是前述描述来指示，并且落入权利要求等同物的含义和范围内的改变包含在其中。

Claims

1.一种用于自动提取视频内容概要的方法，包括：

由数据处理***从视频数据库访问包括第一多个帧的第一视频内容元素；

由所述数据处理***选择第一视频内容元素的第一多个帧的区间子集；

由所述数据处理***为包括来自所述区间子集的预定数量的帧的多个进一步子集中的每一个计算所述进一步子集的分数；

由所述数据处理***从所述多个进一步子集中识别具有最高分数的进一步子集；

由所述数据处理***选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分；以及

由所述数据处理***生成包括第一视频内容元素的所选择的部分的第二视频内容元素。

2.根据权利要求1所述的方法，其中，计算所述进一步子集的分数还包括：

计算所述进一步子集和正样本图像集之间的第一距离度量；

计算所述进一步子集和负样本图像集之间的第二距离度量；以及

基于第一距离度量和第二距离度量的组合来计算所述进一步子集的分数。

3.根据权利要求1或2所述的方法，其中，计算所述进一步子集的分数还包括：

使用图像识别算法来检测来自所述进一步子集的对象；

使用图像识别算法来识别从所述进一步子集检测到的对象的一个或多个属性；以及

基于从所述对象识别的一个或多个属性来计算所述进一步子集的分数。

4.根据权利要求1至3中任一项所述的方法，其中，计算所述进一步子集的分数还包括：

通过将运动检测算法应用于两个对应帧来在所述进一步子集的每个帧之间计算运动度量；以及

基于在所述进一步子集的每个帧之间计算的运动度量的集来计算所述进一步子集的分数。

5.根据任一前述权利要求所述的方法，其中，计算所述进一步子集的分数还包括：

确定所述进一步子集的帧的多个像素之间的颜色分布；以及

基于所述进一步子集的帧的多个像素之间的颜色分布来计算所述进一步子集的分数。

6.根据任一前述权利要求所述的方法，其中，计算所述进一步子集的分数还包括：

通过将对应数量的图像分析算法应用于所述进一步子集的帧来为多个进一步子集的每一个计算多个分数；以及

基于所述多个分数的预定加权平均值来计算分数。

7.根据任一前述权利要求所述的方法，其中，选择第一视频内容元素的一部分还包括：

识别与具有最高分数的进一步子集的第二初始帧相对应的第一视频内容元素的第一初始帧；

识别与具有最高分数的进一步子集的第二结束帧相对应的第一视频内容元素的第一结束帧；以及

从第一初始帧到第一结束帧选择第一视频内容元素的帧子集。

8.根据任一前述权利要求所述的方法，其中，生成第二视频内容元素还包括：

基于帧之间的第一颜色变化来检测与第一视频内容元素的所述部分相对应的帧当中的初始镜头边界帧；

基于帧之间的第二颜色变化来检测与第一视频内容元素的所述部分相对应的帧当中的结束镜头边界帧，第二颜色变化在第一颜色变化之后；

将与所述部分的初始帧相对应的第一视频内容元素的第一子部分截断为初始镜头边界帧；以及

将与结束镜头边界帧相对应的第一视频内容元素的第二子部分截断为所述部分的结束帧。

9.根据任一前述权利要求所述的方法，其中，计算所述进一步子集的分数还包括计算包括一个帧的进一步子集的分数；

其中，生成第二视频内容元素还包括生成包括从多个帧中的一个帧的第二视频内容元素。

10.根据权利要求9所述的方法，其中，计算包括一个帧的进一步子集的分数还包括：

对于所述区间子集的多个帧中的每一个，确定帧的清晰度的测量值；

基于所确定的清晰度的测量值选择所述多个帧的子集；以及

计算所选择的帧中的每一个的分数。

11.根据任一前述权利要求所述的方法，还包括：

由所述数据处理***使用图像识别算法从包括对象的第一多个帧中识别连续帧的第二子集；以及

由所述数据处理***将连续帧的第二子集连接到第二视频内容元素。

12.一种用于自动提取视频内容概要的***，包括：

具有一个或多个处理器和存储器的数据处理***，被配置为：

从视频数据库访问包括第一多个帧的第一视频内容元素；

选择第一视频内容元素的第一多个帧的区间子集；

为包括来自所述区间子集的预定数量的帧的多个进一步子集中的每一个计算所述进一步子集的分数；

从所述多个进一步子集中识别具有最高分数的进一步子集；

选择包括具有最高分数的进一步子集的帧的第一视频内容元素的一部分；以及

生成包括第一视频内容元素的所选择的部分的第二视频内容元素。

13.根据权利要求12所述的***，其中，所述数据处理***还被配置为：

计算所述进一步子集和正样本图像集之间的第一距离度量；

14.根据权利要求12或13所述的***，其中，所述数据处理***还被配置为：

使用图像识别算法检测来自所述进一步子集的对象；

15.根据权利要求12至14中任一项所述的***，其中，所述数据处理***还被配置为：

16.根据权利要求12至15中任一项所述的***，其中，所述数据处理***还被配置为：

确定所述进一步子集的帧的多个像素之间的颜色分布；以及

17.根据权利要求12至16中任一项所述的***，其中，所述数据处理***还被配置为：

通过将对应数量的图像分析算法应用于所述进一步子集的帧来为多个进一步子集中的每一个计算多个分数；以及

基于所述多个分数的预定加权平均值来计算分数。

18.根据权利要求12至17中任一项所述的***，其中，所述数据处理***还被配置为：

19.根据权利要求12至18中任一项所述的***，其中，所述数据处理***还被配置为：

20.根据权利要求12至19中任一项所述的***，其中，所述数据处理***还被配置为：

使用图像识别算法从包括对象的第一多个帧中识别连续帧的第二子集；以及

将所述连续帧的第二子集连接到第二视频内容元素。

21.一种存储用于自动提取视频内容概要的指令的非暂时性计算机可读介质，当一个或多个处理器执行所述指令时，使得所述一个或多个处理器执行根据权利要求1至11中任一项的方法。

22.一种用于自动提取视频内容概要的方法，包括：

由所述数据处理***为包括来自所述区间子集的预定数量的帧的多个进一步子集的每一个计算所述进一步子集的分数；

23.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括：

计算所述进一步子集和正样本图像集之间的第一距离度量；

24.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括：

使用图像识别算法来检测来自所述进一步子集的对象；

25.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括：

26.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括：

确定所述进一步子集的帧的多个像素之间的颜色分布；以及

27.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括：

基于所述多个分数的预定加权平均值来计算分数。

28.根据权利要求22所述的方法，其中，选择第一视频内容元素的一部分还包括：

29.根据权利要求22所述的方法，其中，生成第二视频内容元素还包括：

30.根据权利要求22所述的方法，其中，计算所述进一步子集的分数还包括计算包括一个帧的进一步子集的分数；

31.根据权利要求22所述的方法，还包括：

由所述数据处理***，使用图像识别算法从包括对象的第一多个帧中识别连续帧的第二子集；以及

32.一种用于自动提取视频内容概要的***，包括：

具有一个或多个处理器和存储器的数据处理***，被配置为：

从视频数据库访问包括第一多个帧的第一视频内容元素；

选择第一视频内容元素的第一多个帧的区间子集；

从所述多个进一步子集中识别具有最高分数的进一步子集；

33.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

计算所述进一步子集和正样本图像集之间的第一距离度量；

34.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

使用图像识别算法来检测来自所述进一步子集的对象；

35.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

36.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

确定所述进一步子集的帧的多个像素之间的颜色分布；以及

37.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

基于所述多个分数的预定加权平均值来计算分数。

38.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

39.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

将与所述部分的初始帧相对应的第一视频内容元素的第一子部分截断为初始镜头边界；以及

40.根据权利要求32所述的***，其中，所述数据处理***还被配置为：

将所述连续帧的第二子集连接到第二视频内容元素。

41.一种存储用于自动提取视频内容概要的指令的非暂时性计算机可读介质，当一个或多个处理器执行所述指令时，使得所述一个或多个处理器执行包括以下的操作：

从视频数据库访问包括第一多个帧的第一视频内容元素；

选择第一视频内容元素的第一多个帧的区间子集；

从所述多个进一步子集中识别具有最高分数的进一步子集；