CN107077595A

CN107077595A - 选择和呈现代表性帧以用于视频预览

Info

Publication number: CN107077595A
Application number: CN201580034616.3A
Authority: CN
Inventors: 桑凯希·谢帝; 托马斯·伊佐; 蔡明轩; 苏达赫恩德拉·维娅亚纳拉辛汉; 阿波斯托洛斯·勒里奥斯; 萨米·阿布-艾尔-海贾; 乔治·丹·托代里奇; 苏珊娜·里科; 巴拉科利什南·瓦瑞德瑞简; 尼古拉·穆谢托拉; 辜维欣; 杨玮龙; 尼汀·坎德尔瓦; 勒彭
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-09-08
Filing date: 2015-09-05
Publication date: 2017-08-18
Also published as: US20180239964A1; EP3192273A4; US20210166035A1; US9953222B2; US12014542B2; US20160070962A1; US10867183B2; EP3192273A1; WO2016038522A1

Abstract

提供了一种用于选择视频的代表性帧的计算机实现的方法。该方法包括接收视频并且为视频的每个帧识别特征集合。所述特征包括基于帧的特征和语义特征。所述语义特征识别语义概念在视频的帧中作为内容而存在的似然性。随后生成用于视频的视频片段集合。每个视频片段包括来自视频的帧的按时间顺序的帧的子集，并且每个帧与所述语义特征中的至少一个相关联。该方法至少基于语义特征为每个视频片段的帧的子集的每个帧生成分数，并且基于视频片段中的帧的分数为每个视频片段选择代表性帧。代表性帧表示并概述视频片段。

Description

选择和呈现代表性帧以用于视频预览

技术领域

本公开一般涉及向用户呈现代表性视频概述，并且具体地涉及使用语义特征来选择代表性视频概述。

背景技术

视频托管***存储并向客户端设备提供视频。随着这些视频托管***变得越来越流行，视频托管***越来越多地存储较长形式的视频，有时超过几小时的长度。这些较长形式的视频可以显示各种各样的主题和设置，并且描绘视频内的许多不同的场景和对象。例如，题为“塞伦盖蒂动物”的野生动物视频可能会显示许多不同的动物，如狮子、瞪羚、大象和鬣狗。这些动物可以在各种各样的背景中显示，例如在放牧、迁移时或追逐期间。当用户浏览视频时，视频托管服务提供视频的一些部分作为视频的预览，诸如从视频的开始的单个帧。对于较长形式的视频，预览的选择通常不能准确地表示视频的全部内容，并且用户不能在不观看视频本身的情况下快速地区分特定视频是否具有期望的内容。在“塞伦盖蒂动物”示例中，该预览可以示出狮子休息的帧，但是用户在没有观看视频的情况下将不能够确定视频还包括迁移瞪羚。

发明内容

视频托管服务以视频的预览将来自视频的代表性帧呈现给用户。这允许用户接收关于视频的附加上下文，并且确定是否选择要观看那个视频。视频托管服务分析由视频托管服务接收的视频以生成描述视频内的各个帧的特征。这样的特征包括：描述帧的低级别信息，例如颜色、运动和音频特征；以及预测帧内各种概念的存在的语义特征。在帧中识别的这样的概念包括例如帧包括特定类型的对象(“狮子”)或动作(“打猎”)。

视频托管服务基于视频的特征来识别视频内的片段。每个片段识别将被汇总在一起的视频的连续帧的一部分。在一个实施例中，通过识别视频中的镜头边界来确定每个片段。在识别片段集合之后，视频托管***分析每个片段并识别可用于向用户概述该片段的代表性帧。为了识别代表性帧，视频托管***确定哪些语义概念在片段内并且根据帧中包含该片段的语义概念的似然性对片段中的每个帧进行打分。在一个实施例中，分数组合来自帧的多个语义概念的分数，这可以允许包括片段的多个概念的帧比包括片段的单个概念的帧接收到更高的分数。每个帧的分数还可以包括指示其照片质量的帧的美学分数。选择片段中具有最高分数的帧作为该片段的代表性帧。可以通过锐度和对比度等来度量照片质量。在各种实施例中，语义分数与美学分数组合以确定该帧的总分数。选择片段中具有最高总分数的帧作为该片段的代表性帧。

在一个实施例中，通过一种或多种不同的分割技术来识别视频的片段。由每种技术识别的片段被称为片段集合，并且片段集合中的片段可以是原始视频的重叠部分。因此，可以通过各种片段集合以多种不同的方式来分割视频。确定每个片段集合的每个片段的代表性帧。作为多个片段集合的结果，视频托管***基于用于分割视频的技术来识别视频的代表性帧，增加代表性帧捕获视频的替代部分的似然性。片段和相关联的代表性帧被存储为在片段表中的条目。条目指示片段的视频的部分、片段的代表性帧以及与该代表性帧相关联的概念。

视频托管***接收用于概述视频的请求。概述视频的请求可以基于用户浏览视频托管***中的视频，或者可以基于与请求相关联的搜索查询。视频托管***通过将片段的语义概念与与请求相关联的语义概念进行比较来识别片段表中与请求相关的片段。通过对搜索查询、用户兴趣信息的分析或通过识别与视频的元数据相关联的语义概念来确定与请求相关联的语义概念。当没有搜索时，在一些实施例中，片段表中的所有片段被视为相关的。

接下来，从相关片段中，选择代表性片段集合。可以选择一个或多个代表性片段。基于相关片段和与查询相关联的语义概念之间的匹配来对相关片段进行打分。在打分之后，从相关片段中选择代表性片段集合以概述视频。视频托管***选择具有最高分数并反映与所选择的片段相关联的语义概念中的多样性的片段。与所选择的片段相关联的代表性帧用于生成视频的概述。所述概述按时间顺序组合代表性帧并向用户呈现一系列帧。视频概述被提供给可以确定是否观看整个视频的用户。

在观看视频期间，还可以在视频播放时向用户呈现相关片段或代表性帧的指示。可以以各种方式来选择代表性帧，诸如通过将搜索查询或用户简档与所观看的视频的片段中的语义概念相匹配。在一个示例中，附加片段的代表性帧被示为与正在播放的视频相邻。在另一示例中，在正在播放的视频的时间线上显示一个或多个标记。这些标记指示各种片段的代表性帧何时出现。因为代表性帧与相关片段相关联并且基于用户的上下文(例如，简档或搜索查询)来选择，所以代表性帧可能指示用户特别感兴趣的帧。通过在播放视频的同时显示这些帧，视频托管***允许用户容易地识别视频的用户特别可能感兴趣的部分，而无需手动寻找视频的部分。

在说明书中描述的特征和优点不全部是包括性的，并且特别地，考虑到附图、说明书和权利要求，许多附加的特征和优点对于本领域普通技术人员将是显而易见的。此外，应当注意，在说明书中使用的语言主要是为了可读性和指导目的而选择的，并且可能不是被选择来描述或限制本发明的主题。

附图说明

图1是根据一个实施例的示例视频托管服务的框图，其中使用视频片段的语义特征来生成视频预览。

图2图示根据一个实施例的视频的分割和代表性帧的选择。

图3图示根据一个实施例的指示视频片段的代表性帧的片段表的生成。

图4图示根据一个实施例的用于识别代表性帧的方法。

图5示出根据一个实施例的用于从片段表选择代表性帧以显示给用户的方法。

图6示出根据一个实施例的包括视频的代表性帧的视频预览界面。

图7A示出根据一个实施例的包括视频的代表性帧的另一视频预览界面。

图7B-7D示出根据各种实施例的用于呈现视频的代表性帧的另外的界面。

图8示出根据一个实施例的用于在播放器界面内提供代表性帧的界面。

图9示出根据一个实施例的用于使用播放器界面为视频提供代表性帧的界面。

附图仅出于说明的目的描绘了本公开的实施例。本领域技术人员将从以下描述容易地认识到，可以采用本文所示的结构和方法的替选实施例，而不脱离本文所描述的本公开的原理。

具体实施方式

***架构

图1是视频托管服务100的框图，其中使用视频片段的语义特征来生成视频预览。视频预览是视频的一部分，例如帧、帧集合、动画或其它可以向用户显示以供用户确定视频的内容的概述。用户可以使用预览来确定是否请求视频以观看。视频托管服务100存储视频并向诸如客户端设备135的客户端提供视频。视频托管站点100经由网络140与多个内容提供商130和客户端设备135进行通信，以促进用户之间的视频内容的共享。在图1中，为了清楚起见，仅示出了内容提供商130和客户端135的一个实例，尽管可以有任何数量的每个。视频托管服务100包括前端接口102、视频提供模块104、视频搜索模块106、上传服务器108、用户数据库114、视频储存库116和特征储存库118。

视频托管服务100还包括用于选择和提供视频的代表性预览的组件，诸如特征提取模块120、视频分割模块122、帧选择模块124和视频概述模块126。未示出视频托管服务100的其它常规特征(诸如防火墙、负载平衡器、认证服务器、应用服务器、故障转移服务器和站点管理工具)以更清楚地示出视频托管站点100的特征。视频托管网站100的所示组件可以实现为软件或硬件的单个或多个组件。通常，在一个实施例中描述为由一个组件执行的功能也可以由其它实施例中的其它组件或由组件的组合来执行。此外，在一个实施例中描述为由视频托管网站100的组件执行的功能如果合适也可以在其它实施例中由一个或多个客户端设备135执行。

客户端设备135是执行客户端软件(例如，web浏览器或内置客户端应用)以经由网络140连接到视频托管服务100的前端接口102并显示视频的计算设备。在这些实施例中使用的客户端设备135包括例如个人计算机、个人数字助理、蜂窝、移动或智能电话、或膝上型计算机。

网络140通常是互联网，但可以是任何网络，包括但不限于LAN、MAN、WAN、移动有线或无线网络、云计算网络、专用网络、或虚拟网络专用网络。客户端设备135可以包括个人计算机或其它具有网络能力的设备，诸如个人数字助理(PDA)、移动电话、寻呼机、电视“机顶盒”等。

在概念上，内容提供商130向视频托管服务100提供视频内容，并且客户端135观看该内容。在实践中，内容提供商也可以是内容观看者。另外，内容提供商130可以是操作视频托管站点100的相同实体。

内容提供商130操作客户端设备以执行各种内容提供商功能。内容提供商功能可以包括例如将视频文件上传到视频托管网站100，编辑由视频托管网站100存储的视频文件、或编辑与视频文件相关联的内容提供商偏好。

客户端设备135是操作以观看由视频托管站点100存储的视频内容的设备。客户端设备135还可以用于配置与视频内容有关的观看者偏好。在一些实施例中，客户端设备135包括嵌入式视频播放器，例如来自Adobe Systems,Inc的FLASH播放器或适用于视频托管网站100中使用的视频文件格式的任何其它播放器。注意，这里使用的“客户端”和“内容提供商”可以涉及提供客户端和内容提供功能两者的软件、和涉及在其上执行所述软件的硬件。“内容提供商”还包括操作软件和/或硬件的实体，如从使用术语的上下文显而易见的。

视频托管服务100的上传服务器108从客户端设备135接收视频内容。接收到的内容存储在视频储存库116中。响应于来自客户端设备135的请求，视频提供模块104将来自视频储存库116的视频数据提供到客户端设备135。客户端设备135还可以使用视频搜索模块106，例如通过输入包含感兴趣的关键字的文本查询来搜索存储在视频储存库116中的感兴趣的视频。视频搜索模块106可以从视频概述模块126请求搜索结果中的任何视频的预览，如本文进一步描述的。前端接口102提供在客户端135和视频托管站点100的各种组件之间的接口。特别地，前端接口102向用户提供视频预览界面，以允许用户在查看显示完整视频本身的界面之前以概述格式查看视频。

在一些实施例中，用户数据库114负责维护视频托管服务器100的所有注册用户的记录。注册用户包括内容提供商130和/或仅仅在视频托管网站100上观看视频的用户。每个内容提供商130和/或个人用户向视频托管服务器100注册包括登录名、电子邮件(e-mail)地址和密码的账户信息，并且被提供唯一的用户ID。该账户信息存储在用户数据库114中。用户数据库114还可以存储与用户相关联的用户兴趣。可以由用户观看的先前视频或用户输入的兴趣或者由除了视频托管服务100之外的其它站点上的用户活动来确定用户兴趣。

视频储存库116包含由用户提交的视频117的集合。视频储存库116可以包含任何数量的视频117，例如数万或数亿。视频117中的每一个具有将其与其它视频中的每一个区分开的唯一视频标识符，诸如文本名称(例如，字符串“a91qrx8”)、整数或者唯一命名视频的任何其它方式。视频117可以被封装在诸如AVI、MP4或MOV的各种容器中，并且可以使用诸如MPEG-2、MPEG-4、WebM、WMV、H.263和H.264等的视频编解码器来编码。除了它们的视听内容之外，视频117还具有相关联的元数据117A，例如诸如标题、描述和/或标签的文本元数据。视频元数据117A还存储维护视频的片段的识别的片段表。每个片段指示属于相同视频镜头的连续帧集合。除了片段的代表性帧之外，还将具有片段的开始和停止时间的指示的片段存储在片段表中。代表性帧是来自被选择以被显示以在预览中概述片段的片段的帧。例如，该片段可以被识别为从4:25开始并且在8:05结束，具有在4:45的识别的代表性帧。当此片段用于概述视频时，使用4:45的代表性帧来概述片段，如本文进一步描述。另外，片段表中的每个片段被识别为包括一个或多个语义概念。

特征储存库118为视频储存库116的视频存储关于一个或多个类型的视觉或音频信息(例如颜色、运动和音频信息)表征视频的关联特征集合。视频117的特征与视频本身的原始内容不同，并且由特征提取模块120从其导出。在一个实施例中，特征被存储为值的向量，为了一致性的目的，向量对于每个视频117具有相同维度。

在一个实施例中使用特征提取模块120提取的特征是视觉低级别的基于帧的特征。例如，一个实施例使用颜色直方图、定向梯度的直方图、与相邻帧的颜色差异、运动特征和特征追踪，但是可以使用其它基于帧的特征。所提取的特征是在每帧的基础上收集的，并且可以包括其它基于帧的特征，例如识别的面部数量或定向光流的直方图，并且可以包括提取的特征的组合。在其它实施例中提取了其它特征，诸如高斯拉普拉斯(LoG)或尺度不变特征变换(SIFT)特征提取器、使用HSV颜色空间中的色相和饱和度计算的颜色直方图、运动刚度特征、纹理特征、滤波器响应(例如，从伽柏(Gabor)小波导出)，包括3D滤波器响应、使用由坎尼(Canny)边缘检测器检测的边缘的边缘特征、梯度位置和定向直方图(GLOH)、基于局部能量的形状直方图(LESH)或加速鲁棒特征(SURF)。还可以使用附加的音频特征，例如音量、音频谱图、话音-非话音指示符、或平稳化的听觉图像。特征还可以包括针对各种图像和视频识别、分类或排名任务训练的深层神经网络的中间层输出。可选地，为了减少这些特征的维度并且同时保持辨别方面，减少了特征。在一个实施例中，使用学习的线性投影使用主成分分析来将特征向量的维度减小到50或小于100的某个其它合适的数量，来执行特征减少。其它实施例可以使用附加技术来在需要时减少在特征向量中的维度的数量。

特征提取模块120还可以包括多个语义分类器以确定与语义概念集合相关的语义特征。语义概念是分配给视频或帧的内容的标签，并且可以对应于诸如“狗”或“猫”的实体或诸如“狗追逐猫”的自由文本。语义概念的集合根据实施方式而变化，并且可以包括例如25,000个概念。语义分类器是接收帧及其特征的指定并输出该帧与特定语义概念相关或描述特定语义概念的似然性的计算机模型。例如，用于语义概念“狗”的语义分类器确定帧包含语义概念“狗”的似然性。可以在一个范围内确定似然性，例如在0和1之间。帧包含语义概念的似然性被存储为帧的语义特征。每个语义概念与语义分类器相关联，并且特征提取模块120应用语义分类器以确定语义概念集合的语义特征。在该实施例中，使用语义分类器为每个语义概念生成语义特征集合，并且语义特征集合与视频中的每个帧相关联并且存储在特征储存库118中。语义分类器还可以用于确定作为整个视频或针对视频的特定片段或部分的存在于视频中的语义概念。语义分类器由分类器训练模块(未示出)训练，训练模块使用监督数据(例如，帧或视频属于语义概念的特定人类指定)或通过从与视频相关联的数据(例如，视频的元数据)推断标签来训练语义分类器。

视频分割模块122识别视频的片段。为了识别视频中的片段，视频分割模块122分析视频中的帧的视觉和音频特征。视频分割模块122可应用用于确定视频内的镜头边界的不同技术中的一种或其组合。在一些实施例中，应用这些方法中的多个来识别视频中的多于一个片段集合。

视频分割模块122可使用分类器来识别视频片段。使用标记的镜头边界作为正性特征集合并且将靠近边界的帧作为硬负性训练集合，来训练分类器。由该分类器分析的帧的特征可以包括与相邻帧的颜色差异、运动特征、音频音量和音频话音检测。视频分割模块122将分类器应用于视频的帧以确定每一帧是否是镜头边界。

在一个实施例中，视频分割模块122通过使用帧特征的相干性来识别视频片段。相干性度量预定时间片段中的特征的相似性。预定时间片段是用于度量在帧之间的相似性的视频的短片段。这种相似性提供了对无监督聚类/分割算法的距离度量，例如聚集聚类、亲和力传播或谱聚类。该算法的输出识别视频的片段。

视频分割模块122可通过跨帧追踪视觉特征来识别视频片段。当多于阈值数量或部分的特征在包括帧的那些帧之间变化时，视频分割模块122将所述帧识别为片段边界。视频分割模块122可使用上文所描述的技术中的一种或其组合来识别视频片段。随后，视频分割模块122将所识别的片段提供给帧选择模块124。

帧选择模块124针对每一视频片段识别代表性帧以表示和概述视频片段。代表性帧是最能代表视频片段中的概念的帧。当识别代表性帧时，帧选择模块124根据帧的语义特征对片段的帧进行打分，并将帧的语义特征与视频片段的语义特征进行比较。帧选择模块124还可以生成与帧相关联的美学分数并且生成针对帧的组合的分数。帧的组合的分数考虑语义分数和美学分数。从片段的帧的组合的分数中，帧选择模块124选择具有最高分数的帧作为视频片段的代表性帧。

为了生成帧的语义分数，帧选择模块124通过识别每一帧中的语义概念来识别视频片段中存在的语义概念。当帧中的概念的语义特征高于阈值(例如语义概念存在于帧中的40、50或60％的似然性时)，将帧中的语义概念添加到视频片段的语义概念集合。对于在片段中识别的每个语义概念，帧选择模块124通过确定与参考值相比概念存在于帧中的量来确定在帧中的该概念的分数。参考值可以是片段的帧中的概念的平均值、中值、最小值或最大值语义特征，或者可以是零。帧选择模块124对每个概念将分数求和，以生成每个帧的语义分数。通过对片段中存在的每个概念的分数求和，包括片段中的多个概念的帧更可能被选择为该片段的代表性帧。例如，描绘狮子追逐瞪羚的片段包括一些只描绘狮子的帧、一些只描绘瞪羚的帧以及一些描绘狮子和瞪羚的组合的帧。在该示例中，描绘狮子和瞪羚的帧接收到考虑狮子和瞪羚两者的存在的语义分数。

在一个实施例中，计算帧的语义分数包括由标签表示的语义概念的线性组合和在给定帧中的语义概念的似然性。作为一个示例，根据等式(1)确定帧f的语义分数S：

S(f)＝sum_c(concept_segment(c)*likelihood(c，f)) (1)

其中sum_c表示片段中每个语义概念的和，concept_segment(c)表示语义概念对于片段多么显著(例如，片段中的所有帧上的平均似然)，并且似然性(c,f)是语义概念c在帧f中的似然性(该特定帧的概念分数)。因此，对于片段中的每个语义概念，语义分数S对片段中的语义概念的普遍性乘以帧中的语义概念的似然性求和。因此，帧的语义分数强调了帧中的语义概念(由似然性(c,f)表示)在整个视频片段中占优势(由concept_segment(c)表示)的帧。

除了语义分数之外，在一个实施例中，分数还包括美学分数以帮助选择也在美学上令人愉快的代表性帧。针对每个帧确定美学分数，并且使用诸如运动量、锐度、距片段边界的距离(例如，片段的第一个和最后一个帧)和照片质量的个体质量来确定美学分数。这些美学质量中的每一个被组合以确定帧的美学分数，并且可以使用机器学习模型通过求和或通过另一手段来组合。

帧选择模块124组合语义分数和美学分数以生成用于每个帧的组合分数，其用于识别被选择为对于该片段的代表性的帧。可以在组合之前对分数进行归一化，并且该组合可以基于计算机学习的模型，或者可以是分数的总和。

为了归一化分数，可以为语义和美学分数计算函数，例如平均值、最大值、最小值、噪声或(noisy-or)、或k-噪声或。可以对信号的归一化或非归一化值计算这些函数。可以在片段内，在被打分的帧周围的帧的窗口内，或者使用跨越视频的分数，或者使用数据库中的样本视频的分数来计算归一化(例如映射分数为0-1)。

在一个实施例中，帧选择模块124通过应用接收美学分数和语义分数作为输入的计算机学习模型来确定组合的分数。可以以各种方式训练计算机学习的模型，例如使用成对数据(帧x优于帧y)或使用回归(帧x具有分数s)。还可以使用未如上所述归一化的分数来执行模型。

在确定片段中的每个帧的组合分数之后，帧选择模块124根据组合的分数对片段中的帧进行排名。帧选择模块124选择排名最高的帧(即，具有最高组合的分数的帧)作为该片段的代表性帧。在一个实施例中，帧选择模块124仅使用帧中的最高语义分数来选择代表性帧。帧选择模块124还可使用类似技术选择帧的代表性音频，并选择跨越若干帧的音频的一部分。代表性音频可以从围绕所选代表性帧的帧处的音频中选择。在帧选择模块124选择代表性帧之后，代表性帧与片段指定一起存储在与视频相关联的片段表中。与代表性帧相关联的语义概念也可以存储在片段表中。在一个实施例中，帧选择模块124从视频分割模块122接收多个片段集合。通过使用不同的分割视频的方法来确定多个片段集合。这些片段集合中的每一个可以与片段表以及每个片段的相关联的代表性帧一起存储。

在一个实施例中，在将视频提供给客户端装置135以供观看之前，由帧选择模块124和视频分割模块122执行代表性帧选择和视频分割。当上传服务108接收到新视频时，可以识别代表性帧。通过在上传时(或在请求观看视频之前)识别代表性帧并生成片段表，则片段表可获取以识别代表性帧用于在用户请求之前显示。

图2图示根据一个实施例的视频的分割和代表性帧的选择。如上所述，由视频托管服务100的组件执行代表性帧的分割和选择。视频200由视频分割模块120分割成片段210的集合。每个片段包括按时间顺序的帧集合220，这里示为帧F₁-F₇。每个帧与由特征提取模块120识别的语义特征集合相关联。在该示例中，所示的片段是示出狮子追逐瞪羚的片段。在该片段中，最初，帧描绘了狮子，然后在帧F₃和F₄处示出了瞪羚，在F₅处狮子开始追踪瞪羚，并且在F₆中都在帧内并且被识别，并且在F₇中识别出单独的狮子。如上所述，在一个实施例中，这些语义特征识别语义概念存在于帧中的似然性，并且虽然这里显示为“存在”，但语义概念可以仅指示特定概念(例如“狮子”)可能或很可能存在于帧中，或者可以包括概念在帧中出现的浮点似然性或概率。在对帧中的语义概念打分之后，帧选择模块124选择帧F₆作为该片段中的代表性帧。当对帧进行打分时，帧选择模块124识别与该片段相关联的语义概念是“狮子”和“瞪羚”。帧F₆(由于包括狮子和瞪羚)接收每个概念的分数和考虑每个概念的总语义分数。在可选地考虑美学分数生成组合分数之后，选择帧F₆作为代表性帧230。在实践中，多个帧可能包括概念“狮子”和“瞪羚”。结合美学分数可以帮助识别这些帧中的哪一个在美学上对于用户是最令人愉快的。

图3示出根据一个实施例的指示视频的视频片段的代表性帧的片段表的生成。在该示例中，视频300包括各种动物。视频分割模块122使用识别视频片段的若干方法来分析视频，其产生经识别的视频片段集合310A-310C。对于该集合中的每个视频片段，如上所述，由帧选择模块124识别代表性帧315。由于各种分割方法可识别视频300内的不同边界，因此可针对各种片段选择不同的代表性帧，如图所示。片段和代表性帧被存储在片段表320中，片段表320识别片段、每个片段的代表性帧以及与代表性帧相关联的语义概念集合。

图4示出根据一个实施例的用于识别代表性帧的方法。该方法由参考图1描述的实施例中的特征提取模块120、视频分割模块122和帧选择模块124执行。最初，在400接收用于识别代表性帧的视频。可以响应于视频被上传到视频托管服务100接收视频以识别代表性帧，或者可以在上传之后的另一时间接收视频。在410为如上所述的视频识别特征，包括基于帧的特征和识别帧中存在的语义概念的语义特征。可以从基于帧的特征确定语义特征，例如通过将语义分类器应用于为帧识别的基于帧的特征，以确定该帧的一个或多个语义特征。由视频分割模块122分析视频特征以生成视频片段420，视频片段420可包含由多个视频分割方法确定的多个片段集合。对于所识别的片段，在430对片段中的帧进行打分以生成语义分数。在一个实施例中，语义分数包括合并了帧的美学分数的组合分数。使用与片段中的帧相关联的分数，在440从具有最高分数的帧中选择片段的代表性帧。所识别的片段和代表性帧可以被添加到视频的片段表。

返回图1，视频概述模块126使用片段表为用户生成视频的预览。视频预览被用于生成视频的“故事板(storyboard)”以描绘视频的代表性帧，并且可以选择与由用户提供的搜索查询相关的或与用户的兴趣相关的代表性帧。

视频概述模块126接收生成视频的预览的请求。可以当用户浏览视频托管服务100上的视频时从前端接口提供请求，或者可以针对视频的搜索结果从视频搜索模块106提供该请求以生成预览。生成预览的请求指示要为其生成预览的视频，并且可以在用户数据库114中包括搜索查询或请求用户的标识。

在接收到概述视频的请求之后，视频概述模块126识别与请求相关的视频的片段。当没有接收到搜索查询时，所有片段可以被认为是相关的。替选地，与视频相关联的元数据(例如，与视频相关联的标题和任何标签)可被选为相关词项以用于确定片段和代表性帧的相关性。当接收到搜索查询时，搜索查询被翻译成相关词项以识别相关词项以分析视频并识别哪些语义概念由搜索查询描述。另外，所识别的请求用户可以与用户数据库114中的兴趣相关联。各种相关词项被翻译成语义概念以确定视频的片段的相关性。将翻译的相关词项和与视频的片段的代表性帧相关联的语义概念进行比较。视频概述模块126将包括与相关词项的语义概念匹配的概念的代表性帧识别为相关片段，并使用这些片段作为潜在片段来生成视频的预览。

在识别视频的相关片段之后，视频概述模块126识别将使用哪些相关片段(及代表性帧)来生成视频的预览。为了选择用于预览的代表性帧，视频概述模块126生成片段的代表性帧的相关性分数。使用关于代表性帧的语义特征的元数据、查询或用户兴趣来计算相关性分数。该相关性分数将元数据、查询或用户兴趣的语义特征与所述语义特征相匹配。相关性分数被排名，并且选择排名最高的相关性分数作为代表性帧。另外，所选择的帧的语义概念可以用于选择其它代表性帧。在一个应用中，帧的选择强调所选择的帧中的语义概念的多样性。例如，作为已经选择的帧的具有不同的语义概念的帧可以优选于具有相似的语义概念的帧。选择指定数量的代表性帧来表示视频，例如3或5。

所选择的帧也可以按时间顺序组织以便显示给用户。在一个实施例中，视频概述模块126通过使用所选择的代表性帧生成动画来生成视频概述。该动画向用户提供视频的代表性帧的简要概述，并且允许用户快速确定用户是否对视频感兴趣。

在一个实施例中，视频概述模块还基于所选择的代表性帧来确定是否替换视频的默认缩略图。每个视频可以与默认缩略图相关联，该默认缩略图可以由上传视频的用户指定，或者可以基于视频的美学特征的语义来选择。在一些实施例中，视频概述模块126通过将所选择的代表性帧的相关性分数与关于默认缩略图计算的相关性分数进行比较来确定是否替换默认缩略图。可以如上所述关于视频元数据、搜索查询或用户兴趣来计算相关性分数。当代表性帧相关性分数比默认缩略图高出阈值值时，代表性帧被选择为用于显示的替换缩略图。

在一个实施例中，不是基于查询词项或用户兴趣来确定代表性片段，而是将查询词项和用户兴趣并入用于预览的代表性帧的选择的打分中，并且增加对于在预览的代表性帧的打分，并且不影响选择为相关的代表性片段。也就是说，与查询或用户兴趣相关联的语义概念用于增加与查询或用户兴趣的语义概念匹配的代表性帧的分数。

图5示出根据一个实施例的用于从片段表选择代表性帧以显示给用户的方法。在图1所示的实施例中，该方法由视频概述模块126执行。最初，在500接收用于概述视频并向用户提供预览的请求。该请求可以指定搜索查询和/或请求视频的用户。接下来，在510，基于搜索查询、请求视频的用户的用户兴趣或与视频相关联的元数据来识别与请求相关的片段。可以通过将与片段相关联的语义概念和与请求相关联的语义概念进行比较来识别片段。例如，可以从包括视频片段、片段的代表性帧和片段的相关联语义概念的片段表中识别与片段相关联的语义概念。可以通过分析搜索查询或用户兴趣信息，或通过识别与视频的元数据相关联的语义概念，来确定与请求相关联的语义概念。

在520从被确定为与请求相关的片段中选择代表性片段。基于与视频元数据和用户的上下文(例如，用户的搜索查询或用户兴趣)的相关性来对与请求相关的片段进行打分和选择。例如，基于片段和与查询相关联的语义概念之间的匹配来对与请求相关的片段进行打分。选择具有最高分数并反映语义概念的多样性的片段。可以从片段表确定与所选代表性片段相关联的代表性帧。视频概述模块126使用所选代表性片段的代表性帧来生成视频概述530。视频概述按时间顺序组合代表性帧，并且可以例如在静态“故事板”中或者通过将帧合成从一个帧到另一个帧顺序地转换的动画，向用户呈现一系列代表性帧。视频概述被提供给确定是否观看整个视频的用户。

图6示出了根据一个实施例的包括视频的代表性帧的视频预览界面600。视频预览界面600被提供给客户端设备135以用于浏览视频并且基于视频预览确定是否完整地观看视频。在该示例中，用户输入“corvette unveiling(克尔维特展示)”的搜索查询，并且响应于该请求确定了多个视频。将搜索查询和得到的视频提供给视频概述模块126，用于选择代表性帧和视频的预览。

在该示例中，在显示器的第一部分中，三个视频610A-610C的集合被选择为相关。分析每个相关视频以确定代表性帧和每个代表性帧的相关性分数。可以如上所述确定相关性分数以识别与搜索查询或用户简档相关的帧。在该示例中，当代表性帧超过阈值相关性分数时，视频概述模块126选择代表性帧620以伴随显示器中的视频。在该示例中，视频概述模块126选择具有超过阈值相关性分数的最高相关性分数的帧在视频预览界面600上呈现。还在此示例中示出，视频610B和610C没有具有高于阈值相关性分数的相关性分数的代表性帧，并且未在具有代表性帧620的预览界面中示出。

在视频预览界面600的另一部分中，向用户显示场景预览630。除了相关视频610A-610C之外，还可以显示场景预览630，或者可以在单独的界面或显示器上显示场景预览630。在该示例中，场景预览630显示相关搜索结果的缩略图640。在该示例中，对于每个视频，将默认缩略图替换为代表性帧。因此，每个所显示的缩略图640A-640C是每个搜索结果的具有最高相关性分数的代表性帧。为了生成缩略图640，视频概述模块126生成相关视频中的每个片段的相关性分数，并选择最高分数的代表性帧。代表性帧替换默认缩略图图像以便在场景预览630中显示。以这种方式，场景预览630呈现由关于用户输入的搜索查询最佳地概述视频的代表性帧所概述的每个视频。当用户选择代表性帧时，可以向用户显示视频，并且视频的回放在代表性帧开始，允许用户跳转到视频中的代表性帧。在变型中，选择代表性帧导致在包含代表性帧的片段的开始处开始回放。如上所述，相关性分数还可以考虑用户简档其它信息以用于确定相关性分数。另外，尽管场景预览630在这里被示为视频预览界面600的一部分，但是在本实施例中，界面元素650允许用户观看由代表性帧所概述的附加视频。该界面元素650向用户提供也具有用查询或用户特定的代表性帧替换的默认缩略图的附加搜索结果。

图7A示出了根据一个实施例的包括视频的代表性帧的另一视频预览界面700。视频预览界面700被提供给客户端设备135，用于浏览视频并且基于视频预览确定是否完整地观看视频。在该示例中，用户输入了“bulldog skateboarding(牛头犬滑板)”的搜索查询，并且响应于该请求确定了几个视频。将搜索查询和得到的视频提供给视频概述模块126，用于选择代表性帧和视频的预览。在该实施例中，向用户提供代表性帧710A、710B和710C的集合作为各个视频的预览。也就是说，不是如图6所示选择单个代表性帧，在该实施例中，可以选择视频的多个帧并将其呈现给用户。这允许用户确定用户想要观看哪个视频和视频内的特定代表性帧。当用户选择代表性帧时，可以向用户示出视频，并且视频的回放在代表性帧开始，允许用户跳转到视频中的代表性帧或包含代表性帧的片段。通过显示与用户的请求相关的代表性帧，用户可以从视频预览界面700快速确定用户想要观看这些视频中的哪一个。另外，由于在一个实施例中在搜索请求之前确定了代表性视频片段，所以视频托管***100可以在搜索查询时在没有显著的逐帧处理的情况下确定视频预览界面700的代表性帧。

图7B-7D示出了根据各种实施例的用于呈现视频的代表性帧的另外的界面。如图7B中所示，代表性帧710可以由视频托管服务100指定或突出显示为与用户或用户的搜索(在本示例中为“大象”或“***(Namibia)大象”)特别相关。在该示例中，代表性帧710D和710E通过代表性帧710D中的轮廓和710E中的下划线来突出显示。为了生成这些界面，视频概述模块126确定用于用户的代表性帧集合并且生成与代表性帧相关联的相关性分数。代表性帧通过相关性分数来排名，并且最高排名的代表性帧被识别并且用突出显示呈现给用户。代表性帧在这里被示为按时间排序，但也可以根据代表性帧的相关性分数来排序。图7C示出了视频的代表性帧的选择。如图7C所示，视频预览界面700包括指示特定代表性帧何时出现在视频中的时间线720或进度条730。图7D示出了另一视频预览界面700，其中以网格配置显示代表性帧710。

图8示出根据一个实施例的用于在播放器界面800内提供代表性帧的界面。播放器界面800是用户与之交互以播放视频并调整视频的控制(例如，音量、开始、停止、搜索和其它动作)的界面。播放器界面800还包括指示视频的长度和已经观看的视频的部分的进度条805。视频概述模块126识别可以在播放器界面800内指示的一个或多个代表性帧。在该示例中，视频中代表性帧出现的时间由进度条805上的标记810指示。当用户与标记810交互时，向用户显示代表性帧815，其还可包括为代表性帧识别的语义概念或动作的描述。用于显示代表性帧的用户交互在不同实施方式中变化，并且可以是在标记810的位置处超过阈值时间段检测到的用户的光标(例如，悬停)，或者可以是用户点击标记810。

图9示出根据一个实施例的利用播放器界面900提供视频的代表性帧的界面。在该示例中，不是在视频的进度条中提供标记，而是将代表性帧显示为列表910。代表性帧的列表还可以根据帧的相关性分数来分类。如上所述，可以基于用户的简档、搜索或用户可能感兴趣的帧的其它指示来选择代表性帧的列表。代表性帧的列表允许用户回顾和选择代表性帧，而不影响视频的观看区域。另外，当用户选择代表性帧时，视频托管服务100在代表性帧或相关片段的时刻开始视频的回放，允许用户快速寻找用户感兴趣的视频的部分。使用本文所描述的各种技术，用户可以有效地识别用户感兴趣的并且是特有于查询或用户的视频部分。以允许用户确定用户对一个或多个视频的代表性帧是否感兴趣的方式，将视频的这些部分呈现给用户。

已经关于一个可能的实施例特别详细地描述了本公开。本领域技术人员将理解，本公开可以在其它实施例中实践。首先，组件和变量的特定命名、术语的大写、属性、数据结构或任何其它编程或结构方面不是强制性的或重要的，并且实现本公开或其特征的机制可以具有不同的名称、格式或协议。此外，本文所描述的各种***组件之间的特定功能划分仅仅是为了示例的目的，而不是强制性的；由单个***组件执行的功能可以替代地由多个组件执行，并且由多个组件执行的功能可以替代地由单个组件执行。如本文所述，术语“集合”是指一个或多个。

以上描述的一些部分在关于信息的操作的算法和符号表示方面呈现本公开的特征。这些算法描述和表示是数据处理领域的技术人员用来将他们的工作的实质最有效地传达给本领域其他技术人员的手段。在功能上或逻辑上描述的这些操作应理解为由计算机程序实现。此外，已经证明将这些操作布置称为模块或功能名称有时是方便的，而不失一般性。

除非特别声明，或者从上述讨论中显而易见，应当理解，在整个描述中，利用诸如“确定”或“显示”等术语的讨论是指计算机***或者类似的电子计算设备的动作和过程，该计算机***或者类似的电子计算设备操纵和变换在计算机***存储器或寄存器或其它这样的信息存储、传输或显示设备内表示为物理(电子)量的数据。

本公开的某些方面包括以算法的形式在此描述的过程步骤和指令。应当注意，本公开的过程步骤和指令可以以软件、固件或硬件来实现，并且当以软件实现时，可以被下载以驻留在由实时网络操作***使用的不同平台上并从该不同平台操作。

本公开还涉及用于执行这里的操作的装置。该装置可以是为了所需目的而特别构造的，或者它可以包括通过存储在可由计算机访问的计算机可读介质上的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中，例如但不限于任何类型的盘、包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或适合于存储电子指令的任何类型的非暂时性计算机可读存储介质。此外，说明书中提及的计算机可以包括单个处理器或者可以是采用多处理器设计以提高计算能力的架构。

本文呈现的算法和操作不是固有地与任何特定计算机或其它装置相关。各种通用***也可以与根据本文的教导的程序一起使用，或者可以证明构造更专用的装置以执行所需的方法步骤是方便的。各种这些***所需的结构以及等效变化对于本领域技术人员将是显而易见的。另外，不参考任何特定的编程语言来描述本公开。应当理解，各种编程语言可以用于实现如本文所描述的本公开的教导，并且提供对特定语言的任何引用用于公开本公开的实现和最佳模式。

本公开很好地适用于多种拓扑上的各种各样的计算机网络***。在该领域内，大型网络的配置和管理包括通过网络(例如互联网)通信地耦合到不同的计算机和存储设备的存储设备和计算机。

最后，应当注意，在说明书中使用的语言主要是为了可读性和指导目的而选择的，并且可能不是被选择来描绘或限制本发明的主题。因此，本公开的公开旨在说明而非限制在所附权利要求中阐述的本公开的范围。

Claims

1.一种用于选择视频的代表性帧的计算机实现的方法，包括：

接收包括帧集合的视频；

识别所述视频的所述帧的每个帧的特征集合，所述特征包括基于帧的特征和语义特征，所述语义特征识别语义概念在所述视频的所述帧中作为内容存在的似然性；

生成所述视频的视频片段集合，每个视频片段包括来自所述视频的按时间顺序的帧的子集，并且每个帧与所述语义特征中的至少一个语义特征相关联；

至少基于所述语义特征为每个视频片段的所述帧的子集的每个帧生成分数；和

基于所述视频片段中的所述帧的所述分数为每个视频片段选择代表性帧，所述代表性帧表示和概述所述视频片段。

2.根据权利要求1所述的方法，还包括生成所述视频的片段表，所述片段表存储所述视频的所述视频片段的所述代表性帧和与所述代表性帧的每一个相关联的所述语义概念的集合。

3.根据权利要求1所述的计算机实现的方法，其中，所述基于帧的特征包括以下中的至少一个：

视觉特征，包括由颜色直方图、定向梯度的直方图、帧与相邻帧的颜色差分、运动特征、或特征追踪构成的组中的至少一个，以及；

音频特征，包括由音量、音频频谱图、话音-非话音指示符、或平稳化的听觉图像构成的组中的至少一个。

4.根据权利要求1所述的计算机实现的方法，其中，识别所述特征集合的所述步骤包括：

应用多个语义分类器以确定所述语义特征，

其中，语义分类器接收与基于帧的特征相关联的帧的指定，并输出所述帧与语义概念相关或描述语义概念的似然性，以及

其中，所述语义概念是分配给所述视频的所述内容的标签，并且对应于实体或自由文本。

5.根据权利要求1所述的计算机实现的方法，其中，生成所述视频片段集合的所述步骤包括：

分析所述基于帧的特征以确定所述视频内的镜头边界集合；

其中，镜头包括连续帧集合，且镜头边界指示相邻镜头之间的帧。

6.根据权利要求5所述的计算机实现的方法，其中，确定所述镜头边界的集合的所述步骤包括：

将分类器应用于与基于帧的特征相关联的帧以确定帧是否是镜头边界；

其中，使用有标签的镜头边界作为正性特征集合，且使用所述镜头边界附近的帧作为硬负性训练集合，来训练所述分类器，以及

其中，所述基于帧的特征包括与相邻帧的色差、运动特征、音频音量、和音频话音检测。

7.根据权利要求5所述的计算机实现的方法，其中确定所述镜头边界集合的所述步骤包括：

分析所述基于帧的特征的相干性；

其中，所述相干性度量在预定时间片段中基于帧的特征的相似性，并且

其中，所述相似性提供用于分割所述视频的距离度量。

8.根据权利要求5所述的计算机实现的方法，其中确定所述镜头边界集合的所述步骤包括：

在所述视频的帧的多个系列中追踪所述基于帧的特征；并且

其中，当帧和相邻帧之间的基于帧的特征的变化大于阈值时，将所述帧确定为镜头边界。

9.根据权利要求1所述的计算机实现的方法，其中所述分数包括语义分数，并且为所述帧生成所述语义分数的所述步骤包括：

通过将包括在所述视频片段中的所述按时间顺序的帧的子集生成的每个语义特征与阈值进行比较，为包含所述帧的视频片段识别语义概念集合，其中所述集合的每个语义概念具有大于所述阈值的所述对应语义特征；和

对于所述集合的每个语义概念，通过确定与参考值相比存在于所述帧中的所述语义概念的量，来确定所述视频片段中的所述按时间顺序的帧的子集的每一帧的帧级别分数；以及

通过合计所述片段中的所述帧的所述帧级别分数来确定所述帧的所述语义分数。

10.根据权利要求1所述的计算机实现的方法，其中，生成所述每个帧的所述分数的所述步骤包括组合所述帧中的语义概念和对应的似然性。

11.根据权利要求1所述的计算机实现的方法，其中所述分数组合语义分数和美学分数，并且为所述每个帧生成所述分数的所述步骤包括：

基于所确定的语义特征来计算所述语义分数；

使用质量度量集合来计算所述美学分数，所述质量度量包括来自由锐度、运动量、与片段边界的距离、和照片质量组成的组中的至少一个；以及

组合所述语义分数和所述美学分数。

12.根据权利要求1所述的计算机实现的方法，还包括响应于接收到对视频片段的请求而呈现所述视频片段的代表性帧。

13.一种包括能够由处理器执行的计算机程序指令的非暂时性计算机可读存储介质，所述计算机程序指令包括：

接收包括帧集合的视频；

14.根据权利要求13所述的非暂时性计算机可读存储介质，其中所述计算机程序指令还包括生成所述视频的片段表，所述片段表存储所述视频的所述视频片段的所述代表性帧和与所述代表性帧的每一个代表性帧相关联的所述语义概念的集合。

15.根据权利要求13所述的计算机程序产品，其中识别所述特征集合的所述步骤包括：

应用多个语义分类器以确定所述语义特征，

16.根据权利要求13所述的计算机程序产品，其中生成所述视频片段集合的所述步骤包括：

分析所述基于帧的特征以确定所述视频内的镜头边界集合；

17.根据权利要求16所述的计算机程序产品，其中确定所述镜头边界集合的所述步骤包括：

18.根据权利要求16所述的计算机程序产品，其中，确定所述镜头边界集合的所述步骤包括：

分析所述基于帧的特征的相干性；

其中，所述相似性提供用于分割所述视频的距离度量。

19.根据权利要求13所述的计算机程序产品，其中所述分数包括语义分数，并且为所述帧生成所述语义分数的所述步骤包括：

通过将为包括在所述视频片段中的所述按时间顺序的帧的子集生成的每个语义特征与阈值进行比较，为包含所述帧的视频片段识别语义概念集合，其中所述集合的每个语义概念具有大于所述阈值的所述对应语义特征；和

20.一种***，包括：

用于执行计算机程序指令的处理器；和

包括能够由所述处理器执行的计算机程序指令的非暂时性计算机可读存储介质，所述计算机程序指令包括：

接收包括帧集合的视频；

21.一种用于选择用于向用户显示的代表性帧的计算机实现的方法，包括：

接收对于概述视频的请求，所述请求指定至少搜索查询或请求视频的用户；

至少基于所述用户的上下文或与所述视频相关联的元数据，识别与所述请求相关的视频片段集合；

基于所述视频片段集合与所述视频元数据的相关性和语义概念的多样性，从与所述请求相关的所述视频片段集合中选择代表性片段集合；

从用于多个视频的一个或多个片段表确定与所述代表性片段集合相关联的代表性帧集合，片段表指示用于视频片段的代表性帧和语义概念集合；和

使用所述代表性帧集合生成视频概述，所述视频概述按时间顺序组合所述代表性帧。

22.根据权利要求21所述的计算机实现的方法，还包括在用户界面中呈现包括所识别的视频片段集合的视频集合，仅在与所述代表性帧相关联的相关性分数大于阈值相关性分数的情况下，所述视频集合中的视频伴随着为所述对应视频片段选择的所述代表性帧。

23.根据权利要求22所述的计算机实现的方法，还包括：

对于所述视频集合中的每个视频，识别所述视频的每个视频片段的代表性帧，并选择概述所述视频的代表性帧，所述代表性帧具有比所述视频的所述视频片段的其余部分的其它代表性帧更大的相关联的相关分数；和

呈现概述所述视频集合的所选择的代表性帧。

24.根据权利要求21所述的计算机实现的方法，还包括在用户界面中呈现包括所识别的视频片段集合的视频集合，所述视频集合中的每个视频伴随着为在所述视频中包括的一个或多个视频片段选择的代表性帧集合。

25.根据权利要求24所述的计算机实现的方法，还包括通过相关联的相关性分数对所述代表性帧集合进行排名，并且突出显示排名最高的代表性帧。

26.根据权利要求21所述的计算机实现的方法，还包括：

接收用户对包括所述视频片段集合中的一个或多个视频片段的视频的选择；

识别所述视频的至少一个视频片段的代表性帧集合；以及

播放所述视频，并在播放所述视频时标记与所述代表性帧集合相关联的时间点集合。

27.根据权利要求21所述的计算机实现的方法，还包括：

识别所述视频的至少一个视频片段的代表性帧集合；以及

播放所述视频，并在播放所述视频时呈现所述代表性帧集合。