CN103856833A

CN103856833A - 视频处理设备和方法

Info

Publication number: CN103856833A
Application number: CN201310653013.4A
Authority: CN
Inventors: 田中俊幸
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-12-05
Filing date: 2013-12-05
Publication date: 2014-06-11
Also published as: US20140153900A1; EP2741293A1

Abstract

提供一种视频处理设备和方法。一种视频处理设备包括：第一视频捕捉单元，捕捉用户的图像。视频处理设备还包括分析单元，从由第一视频捕捉单元捕捉的第一视频识别用户的面部，并分析用户的面部特征。视频处理设备还包括估计值计算单元，在捕捉或显示第二视频时，基于分析的用户的面部特征计算估计值。视频处理设备还包括记录单元，记录将被映射到第二视频的时间线的估计值。视频处理设备还包括视频编辑单元，基于估计值从第二视频提取部分视频以产生视频摘要。

Description

视频处理设备和方法

本申请要求于2012年12月5日提交到日本专利局的第2012-266397号日本专利申请以及2013年7月24日提交到韩国知识产权局的第10-2013-0087605号韩国专利申请的优先权权益，它们的公开通过引用全部包含于此。

技术领域

一个或更多个实施例涉及一种视频处理设备和方法。

背景技术

近来，电子装置（诸如数字相机、智能电话等）包括视频捕捉功能和播放功能。视频适于表达生动感，但是与静止图像相比，花费大量时间检查播放内容。此外，在播放视频时，除了视频的主屏幕之外还存在许多部分，因此，尽管记录了视频，但是播放视频的次数可能较少。

因此，期望自动且有效地产生或编辑视频摘要。

产生视频的视频摘要的方法众所周知。例如，可由用户指定视频的人物或对象。可通过提取包括指定的人物的视频的场景来产生包括指定的人物的其它视频的视频摘要。此外，人物的特定特征或声音可被检测为事件，从而可通过基于这些事件的发生改变播放速度来产生视频摘要。此外，在利用数字相机捕捉静止图像时，可基于观看者在观看视频时是否具有笑脸来设置视频的观看者的观看满意度。

然而，检测人物的特征或声音以产生视频摘要的方法具有以下问题：视频摘要限于那些包含人物的特征或声音的场景。此外，该方法不能保证具有指定的人物的场景将被***到视频摘要，另外，不能保证具有指定的人物的声音的场景将被***到视频摘要。由此，用户难以产生期望的视频摘要。此外，当指定的人物频繁出现在视频中时，难以从具有指定的人物的其它场景确定具有指定的人物的主场景。

此外，确定观看者是否具有用于设置满意度的笑脸的方法不限于静止图像，并且不用于产生视频的视频摘要。

发明内容

本公开的一个或更多个实施例包括用于产生准确反映了用户意图的视频的视频摘要的视频处理设备和方法。

各种实施例将在下面的描述中部分地阐明，并且从描述中部分是清楚的，或者通过呈现的实施例的实施可以被理解。

根据一个或更多个实施例，一种视频处理设备包括：第一视频捕捉单元，捕捉用户的图像。视频处理设备还包括分析单元，从由第一视频捕捉单元捕捉的第一视频识别用户的面部，并分析用户的面部特征。视频处理设备还包括估计值计算单元，在捕捉或显示第二视频时，基于分析的用户的面部特征计算估计值。视频处理设备还包括记录单元，记录将被映射到第二视频的时间线的估计值。视频处理设备还包括视频编辑单元，基于估计值从第二视频提取部分视频以产生视频摘要。

视频处理设备还可包括第二视频捕捉单元，捕捉第二视频。在第二视频捕捉单元捕捉第二视频时，估计计算单元计算估计值。

当第二视频捕捉单元捕捉第二视频时，估计值提取单元可基于从第一视频分析的用户的面部特征提取面部表情因子。

视频编辑单元可依次提取估计值大于阈值的时间线区间的部分视频以产生视频摘要。

视频编辑单元可改变阈值，使得所述部分视频的总时间与预定编辑时间相应，从而提取所述部分视频。

视频编辑单元可依次提取通过在估计值大于阈值的时间线区间之前、之后或者之前和之后两者添加缓冲时间而获得的缓冲的时间线区间的部分视频。

估计值计算单元可基于一个或更多个预定规则提取面部表情因子。

估计值计算单元可基于一个或更多个预定规则在面部表情中提取眼睛变窄因子、眼睛睁大因子、眼角向下倾斜因子、嘴巴张开因子或嘴角上扬因子中的至少一个作为面部表情因子。

一个或更多个预定规则可被定义为将高的重要性给予被确定为显著影响用户的面部表情变化的因子。

记录单元可将估计值作为元数据记录在第二视频的视频文件中。

记录单元可将估计值以一对一关系记录为与第二视频的视频文件相应的单独文件。

根据本公开的一个或更多个实施例，一种视频处理方法包括：在捕捉或显示第二视频时捕捉用户的至少一个图像；从用户的至少一个图像识别用户的面部，并分析用户的面部特征；基于分析的用户的面部特征，提取用户的面部的面部表情因子以计算估计值；记录将被映射到第二视频的时间线的估计值；基于估计值从第二视频提取部分视频以产生第二视频的视频摘要。

视频处理方法还可包括：捕捉第二视频。计算估计值的步骤可包括：在捕捉第二视频时计算估计值。

产生视频摘要的步骤可包括：依次提取估计值大于阈值的时间线区间的部分视频以产生视频摘要。

产生视频摘要的步骤可包括：改变阈值，使得所述部分视频的总时间与预定编辑时间相应，从而提取所述部分视频。

产生视频摘要的步骤可包括：依次提取通过在估计值大于阈值的时间线区间之前、之后或者之前和之后两者添加缓冲时间而获得的缓冲的时间线区间的部分视频。

计算估计值的步骤可包括：基于一个或更多个预定规则提取面部表情因子。

记录的步骤可包括：将估计值作为元数据记录在第二视频的视频文件中。

记录的步骤可包括：将估计值以一对一关系记录为与第二视频的视频文件相应的单独文件。

根据本公开的一个或更多个实施例，一种存储用于执行视频处理方法的程序的非暂时性计算机可读存储介质。

附图说明

从以下结合附图对实施例的描述中，这些和/或其它方面将变得清楚和更容易理解，在附图中：

图1是示出视频处理设备（诸如智能电话、数字相机等）正在捕捉对象的图像的状态的示图；

图2是示出由视频处理设备捕捉的图像的示图；

图3是示出根据实施例的拍摄设备的构造的示意图；

图4和图5是用于描述基于面部表情因子定义估计值的规则的一个示例的示图；

图6是示出视频编辑单元的自动编辑功能的示图；

图7是示出随着时间的提取的图4和图5的面部表情因子的估计值以及视频的一部分的估计值的和的图表；

图8示出视频摘要的采样时间与图7的估计值的和之间的关系，其中，采样时间基于所述和进行线性插值；

图9是示出用于存储估计值的文件的示例的示意图；

图10是示出由拍摄设备执行的视频处理方法的流程图。

具体实施方式

现在将详细参照实施例，实施例的示例在附图中被示出，其中，相同的标号始终表示相同的元件。在这点上，本实施例可具有不同的形式并不应被解释为限于这里阐述的描述。因此，以下仅通过参照附图描述实施例以解释本描述的各种特征。

以下，将参照附图详细描述本发明的实施例。此外，在本说明书和附图中，相同的标号始终表示相同的元件，因此，将省略多余的描述。

在最近的便携式电子装置（诸如智能电话等）中，自捕捉相机（内置或后置相机）与受控捕捉相机（subject-capture camera）分离地安装于用户侧上。本领域普通技术人员将理解，自捕捉相机的构造除了可应用于数字相机之外，还可应用于包括便携式装置（诸如，智能电话、平板个人计算机（PC）等）的各种装置。

在拍摄设备中，由于小型化的影响，拍摄设备（例如，智能电话或数字相机）的液晶显示器（LCD）可基于来自拍摄者的输入显示对象而不需要拍摄者使用取景器。在这种情况下，拍摄者可使用拍摄设备捕捉与拍摄设备分离特定距离的对象的面部图像，从而，当拍摄设备包括自捕捉相机时，拍摄设备还可捕捉拍摄者的整个面部图像。

图1是示出视频处理设备300（诸如智能电话、数字相机等）正在捕捉对象的图像的状态的示图。视频处理设备300基于拍摄者的用户输入，利用前置相机捕捉对象的图像。此外，视频处理设备300包括与前置相机302相对（例如，在拍摄者一侧上）的后置相机304。因此，后置相机304可捕捉拍摄者的面部图像。

图2是示出由视频处理设备300捕捉的图像的示图。这里，图2的部分（B）示出由LCD306显示由视频处理设备300的前置相机302捕捉的图像的状态。此外，图2的部分（A）示出由视频处理设备300的后置相机304捕捉的图像。如图2的部分（A）中所示，由后置相机304捕捉拍摄者的图像。包括除了前置相机302以外的后置相机304的视频处理设备300可在捕捉对象的图像时捕捉拍摄者的面部图像。

由前置相机302捕捉的图像可与各种对象（诸如人、风景、车辆、建筑物等）相关，并且前置相机302不总是检测或捕捉人脸。由后置相机304捕捉的图像通常为正在观看布置在后置相机304附近的LCD306的拍摄者的面部图像。因此，后置相机304可捕捉正在观看LCD306的拍摄者的正面轮廓图像。可选择地，后置相机304可捕捉可被确定为用户的正面轮廓图像的图像。

此外，即使在低光照条件下，来自LCD306的光也可向拍摄者的面部提供照明，因此，即使在黑暗环境中，后置相机304也可捕捉拍摄者的面部图像。因此，包括后置相机304的视频处理设备300更可能捕捉拍摄者的面部图像，从而检测面部和面部表情。

在实施例中，可通过使用可用于捕捉拍摄者的面部图像的后置相机304来收集拍摄者的面部信息（具体地讲，表情信息）。此外，可基于拍摄者的面部信息（具体地讲，面部信息）自动地编辑由视频处理设备300捕捉的视频。

图3是示出根据实施例的作为视频处理设备300的示例的拍摄设备100的构造的示意图。图3示出在根据实施例的数字静止相机中的图像处理管线的示意框图。

如图3中所示，根据实施例的拍摄设备100可包括变焦镜头（或变焦镜头组）102、光圈104、聚焦透镜（或聚焦透镜组）108、透镜中央处理器（CPU）110、多个驱动器112和114、多个电机116和118、模数（A/D）转换器120、只读存储器（ROM）122和随机存取存储器（RAM）124。

此外，拍摄设备100可包括快门126、驱动器128、电机130、作为图像捕捉装置的互补金属氧化物半导体（CMOS）器件132、与放大器集成的相关双采样（CDS）电路134、A/D转换器136、第一图像输入控制器138和CPU200。在一个示例中的拍摄设备100包括包含CMOS器件132的视频捕捉单元137。视频捕捉单元137还可包括CDS电路134和A/D转换器136。

此外，拍摄设备100可包括非易失性存储器140、压缩处理电路142、LCD驱动器144、LCD146、介质控制器150、记录介质152、视频RAM（VRAM）154、存储器（同步动态RAM（SDRAM））156、操作元件158和电池148。操作元件158可包括方向按钮（例如、上、下、左、右按钮）、电源开关、模式盘或用于用户输入的其它按钮、开关等。

通过操作分别由驱动器112和114控制的电机116和118来驱动光圈104和聚焦透镜108。变焦镜头102为沿光轴方向向后和向前移动以连续改变焦距的镜头。当捕捉图像时，光圈104调整入射到CMOS器件132上的光量。当捕捉图像时，由电机130驱动的快门126控制CMOS器件132暴露于入射光的时间段，其中，电机130由驱动器128控制。聚焦透镜108沿光轴方向向后和向前移动以调整由CMOS器件132形成的对象的图像的焦点。

CMOS器件132为将通过变焦镜头102、光圈104和聚焦透镜108入射的光转换为电信号的器件。

一个示例中的CDS电路134包括用于从CMOS器件132输出的电信号去除噪声的采样电路。CDS电路134与用于放大去噪之后的电信号的放大器集成。CDS电路134使用与放大器集成的采样电路。在可选实施例中，拍摄设备100可被构造有用于去除噪声并放大来自CMOS器件132的电信号的另一电路，以作为CDS电路132的替代。

A/D转换器136将由CMOS器件132和CDS电路134产生的电信号转换为数字信号以产生图像的原始数据（图像数据）。第一图像输入控制器138控制将由A/D转换器136产生的图像的原始数据（图像数据）输入到记录介质152的操作。

此外，根据实施例的拍摄设备100包括用作后置相机304的第二CMOS器件160（COMS-2）、与放大器集成的CDS电路162、A/D转换器164和第二图像输入控制器166。CDS电路162、A/D转换器164和第二图像输入控制器166被构造用于CMOS器件160，与用于COMS器件132的CDS电路134、A/D转换器136和第一图像输入控制器138类似。在一个示例中，拍摄设备100包括包含CMOS器件160的视频捕捉单元165。视频捕捉单元165还可包括CDS电路134和A/D转换器164。此外，拍摄设备100包括构造用于CMOS器件160的光学透镜168。光学透镜168的光轴指向操作拍摄设备100（例如，拍摄者）的用户，光学透镜168在CMOS器件160的捕捉平面上形成与拍摄者的面部相应的对象图像（例如，拍摄者的图像）。CMOS器件160将通过光学透镜168入射的光转换为电信号。后置相机304可构造有上述元件（例如，CMOS160、CDS电路162、A/D转换器164、第二图像输入控制器166和光学透镜168）。

一个示例中的CDS电路162包括用于去除从CMOS器件160输出的电信号的噪声的采样电路。CDS电路162与用于放大去噪之后的电信号的放大器集成。

A/D转换器164将由CMOS器件160和CDS电路162产生的电信号转换为数字信号以产生图像的原始数据（图像数据）。第二图像输入控制器166控制将由A/D转换器164产生的图像的原始数据（图像数据）输入到记录介质152的操作。

非易失性存储器140为存储由拍摄设备100保存的数据的存储器。非易失性存储器140还可存储用于操作CPU200的程序。

数据压缩处理电路142将从CMOS器件131和160输出的图像的数据压缩为适当类型的图像数据。图像的压缩方案可以是可逆方案或不可逆方案。适当方案的示例可包括联合图像专家组（JPEG）和JPEG2000。

LCD146可在捕捉操作（例如，对快门按钮的按压）之前显示实时景观，显示拍摄设备100的各种设置屏幕，显示捕捉的图像或显示视频。LCD驱动器144可被驱动，因此，LCD146可显示拍摄设备100的图像数据或各种信息。

存储器（SDRAM）156临时存储由CMOS器件132或CMOS器件160捕捉的图像。记录介质152具有用于存储多个图像的存储容量。由第一图像输入控制器138和第二图像输入控制器166控制存储在存储器（SDRAM）156中的图像的读取/写入。

VRAM154存储由LCD146显示的内容，因此，LCD146的分辨率或最大显示颜色数可取决于VRAM154的容量。

记录介质152记录由CMOS器件132或CMOS器件160捕捉的图像或视频。由介质控制器150控制记录介质152的输入/输出。记录介质152可使用作为在闪存中存储数据的卡类型存储装置的存储卡。

CPU200可向CMOS器件132和160或者CDS电路134和162提供基于信号的命令或基于操作的命令（与操作元件158的操作相应）。根据实施例的视频处理设备300仅包括一个CPU200，但是可由另一CPU提供基于信号的命令或基于操作的命令。

CPU200包括自动曝光（AE）/自动白平衡（AWB）/自动聚焦（AF）估计值计算单元202、适当AWB计算单元204、图像处理单元206、AF操作和控制单元208、AE操作和控制单元210、图形用户界面（GUI）管理单元212、时序产生单元（TG1）214、输入/输出（I/O）216、SIO218和时序产生单元（TG2）219。此外，CPU200包括面部识别单元220、表情估计值计算单元222、显示处理单元224、视频编辑单元226和记录文件创建单元228。

AE/AWB/AF估计值计算单元202基于从CMOS器件132和160中的每一个输出（例如，从第一图像输入控制器138或第二图像输入控制器166接收）的图像数据计算AE估计值（曝光量信息）、AWB估计值（白平衡信息）和AF估计值（AF信息）。适当AWB计算单元204计算图像数据的适当白平衡值。图像处理单元206针对图像数据校正光量的增益，处理图像的边缘（强调轮廓）并调整白平衡。

AF操作和控制单元208基于AF估计值确定在捕捉对象的图像时的聚焦透镜108的驱动量。透镜CPU110基于确定的驱动量控制驱动器114并驱动电机118。因此，针对聚焦位置驱动聚焦透镜108。

AE操作和控制单元210基于AE估计值确定在捕捉对象的图像时的光圈值和快门速度。CPU200基于确定的快门速度控制驱动器128并驱动电机130。因此，快门126被驱动。此外，透镜CPU110基于确定的光圈值控制驱动器112并驱动电机116。因此，光圈104被驱动。

当由用户操作操作元件158时，GUI管理单元212从操作元件158接收操作输入信息。CPU200基于从操作元件158传送到GUI管理单元212的操作输入信息执行各种处理。例如，当GUI管理单元212从操作元件158接收用于产生视频摘要的操作输入信息时，视频编辑单元226可执行用于产生视频摘要的处理。

时序产生单元（TG1）214将时序信号输入到CMOS器件132。因此，可由来自时序产生单元（TG1）214的时序信号控制CMOS器件132的驱动。时序产生单元（TG1）214可提供时序信号以控制驱动CMOS器件132的时间，从而使CMOS器件132具有用于将来自对象的入射光输入到CMOS器件132的电子快门的功能。

同样地，时序产生单元（TG2）219将时序信号输入到CMOS器件160。因此，可由来自时序产生单元（TG2）219的时序信号控制CMOS器件160的驱动。时序产生单元（TG2）219可提供时序信号以控制驱动CMOS器件160的时间，从而使CMOS器件160具有用于将来自对象（例如，拍摄者）的入射光输入到CMOS器件160的电子快门的功能。

图像处理单元206对从图3的CMOS器件132获得的RGB图像信号执行图像预处理（诸如缺陷像素校正和电平校正），此外，执行各种电子处理，诸如白平衡校正、拜尔（Bayer）颜色插值、颜色校正和伽马校正，从而记录图像。此外，可由电路（硬件）或CPU和用于操作电路（硬件）或CPU的程序（软件）构造图3的每个功能框，并且程序可被存储在包括在拍摄设备100中的非易失性存储器140或诸如从外部连接到拍摄设备100的存储器的记录介质中。

如上所述，由拍摄者作为对象进行视频捕捉的目标或对象（例如，人、风景等）被CMOS器件132（例如，前置相机302）转换为图像数据。拍摄者的面部被CMOS器件160（例如，后置相机304）转换为图像数据。

此外，在实施例中，CMOS器件132和160被用作捕捉元件，但实施例不限于此。作为另一示例，可使用另一图像传感器（诸如电荷耦合器件（CCD））代替CMOS器件132和160。CMOS器件132和160可以以高于CCD器件的速度将对象的入射光转换为电信号，从而缩短对象的图像被捕捉的时间，随后执行图像的合成处理。

如图3中所示，根据实施例的拍摄设备100可被构造有镜筒250和可更换镜头260，并且可更换镜头260可与镜筒250分离。在根据另一实施例的拍摄设备100中，镜筒250和可更换镜头260可被构造为一体。

在以这种方式构造的拍摄设备100中，后置相机304可监视拍摄者的面部表情，并且可基于面部表情推断出拍摄者对正被捕捉的图像的想法。可选择地，可基于面部表情推断出拍摄者对正被显示的图像的想法。例如，当父亲或母亲想要记录或捕捉与他们的孩子有关的电话会议时，许多情况下父亲或母亲在孩子出现之前等待相当长时间。随后，在孩子出现之后开始记录，以便防止在孩子未出现时进行记录。当将被记录图像的孩子出现或演出开始时，拍摄者的表情可能自然地改变，或者拍摄者可能与孩子说话。因此，通过识别拍摄者的面部表情，可基于由后置相机304捕捉的图像客观地确定拍摄者的主观想法。

可基于由后置相机304捕捉的拍摄者的面部表情（例如，基于检测到的拍摄者的喜悦、生气、悲伤或快乐的级别或图像帧之间的面部表情的改变程度）计算客观的数字估计值。这里，随着估计值的数字值变高，可基于估计值确定主场景（例如，具有期望的对象的场景）很可能地正在被记录或显示。此外，通过从估计值足够高的视频时间线区间依次提取帧或图像，可自动地产生由视频的主场景构成的视频摘要。

可在捕捉视频时由CMOS器件132计算估计值。此外，可在显示记录在记录介质152中的视频文件的视频时由显示处理单元224计算估计值。在计算出估计值之后，可基于计算的估计值在另一时间产生视频摘要。

CPU200的面部识别单元（例如，分析单元）220从由CMOS器件160（例如，后置相机304）捕捉的图像数据识别拍摄者（或正在观看显示的视频的用户）的面部表情，并分析面部特征。面部识别单元220可用作分析用户的面部特征的分析单元。

表情估计值计算单元222基于由面部识别单元220识别的面部表情提取面部表情因子以计算估计值。可在CMOS器件132捕捉视频的同时产生数字化的估计值的数据，从而可将数字化的估计值记录在与显示的视频相同的时间线上。因此，记录的估计值被映射到与捕捉的视频的时间线相同的时间线。此外，当在显示视频时计算估计值时，可在显示处理单元224显示视频的同时产生数字化的估计值，从而可将数字化的估计值记录在与显示的视频相同的时间线上。因此，记录的估计值被映射到与显示的视频的时间线相应的时间线。

可基于一个或更多个预定规则确定面部表情的估计值。在用户的面部表情的估计值中存在个人差异，因此，可基于包括在一个视频中的多个面部表情的数据，通过将更高的估计值分配到显示喜悦、生气、悲伤和快乐的表情的面部表情来执行相对确定。根据以上描述，基于个人差异确定面部表情估计值，此外，可减小基于不同条件的估计值的绝对差。以下，将详细描述计算估计值的方法。

图4和图5是用于描述定义估计值的规则的示图。这里，图4是示出用于基于人的面部表情确定估计值的面部表情因子的示图。

如图4中所示，可从诸如（a）眼睛变窄、（b）眼睛睁大、（c）眼角向下倾斜、（d）嘴巴张开以及（e）嘴角上扬的因子确定估计值。例如，通过观察嘴角（e），可估计用户的感觉的改变。

因此，根据实施例，根据定义估计值的规则分析面部表情，（a）眼睛变窄、（b）眼睛睁大、（c）眼角向下倾斜、（d）嘴巴张开以及（e）嘴角上扬中的至少一个面部表情因子可被提取或数字化（例如，被转换为数字值）并随后被计算为估计值：。

此外，即使在声音大的环境中也可基于估计值检测拍摄者发出声音的时序。

图5是示出用于基于因子（a）至（e）确定估计值的规则的一个示例的示图。如图5中所示，当因子（a）至（e）中的每一个具有正常级别时，估计值为0。当检测到因子的改变时设置或更新最大估计值，并且估计值被设置为根据改变的级别而增大。例如，对于因子“（a）眼睛变窄”，可将在眼睛变得尽可能窄时的估计值设置为8，并且可根据眼睛变窄的级别以升序将估计值设置为2、4、6和8。同样地，对于因子“（b）眼睛睁大”，可将在眼睛睁得最大时的估计值设置为12，并且可根据眼睛睁大的级别以升序设置估计值。这里，在图5的规则中，被确定为显著影响对象的表情改变的因子的重要性高。例如，在嘴巴张开（例如，当为孩子加油时）的表情和在嘴角明显上扬（例如，当微笑时）的表情中，因子“（d）嘴巴张开”和“（e）嘴角上扬”的相对重要性被反映在确定对象的表情改变的操作中。因此，根据表情改变将重要性给予图5的每个因子。

例如，与因子“（c）眼角向下倾斜和因子（d）嘴巴张开”相比，对于因子“（c）眼角向下倾斜”，在改变大时的估计值被设置为4，对于因子“（d）嘴巴张开”，在改变大时的估计值被设置为20。这是因为即使在最大地改变两个条件时，因子“（d）嘴巴张开”被确定为更显著地表示面部表情的改变。以这种方式，通过根据因子（a）至（e）改变估计值的重要性，可基于估计值更恰当地估计用户的情绪。

根据实施例，可通过基于用户的表情预先设置正常级别和最大级别来针对因子（a）至（e）确定做出至正常级别到最大级别中的哪个级别的改变。例如，在因子“（a）眼睛变窄”中，在第一次捕捉用户的面部图像时获得诸如两眼之间的间隔、两眼的尺寸（例如，宽度）和面部的轮廓的基本数据，并且基于基本数据预先设置正常眼睛的尺寸（图4中的实线N）和睁得最大的眼睛（例如，图4中的虚线M）的尺寸。此外，可通过检测对于正常眼睛的尺寸（实线N）眼睛的尺寸变得接近虚线M的范围有多少来确定从正常级别到最大级别的眼睛睁开的范围。

面部识别单元220从识别的面部图像识别眼睛、嘴巴或鼻子中的至少一个的特征，并分析该特征。表情估计值计算单元222基于由面部识别单元220检测的特征计算各个因子（a）至（e）的估计值，并将各个因子的估计值相加以计算Σ{(a)+(b)+(c)+(d)+(e)}，从而计算最终估计值。

根据实施例，图5的规则（例如，哪个因子应被估计以及它们各自的最大级别）可被存储在拍摄设备100的非易失性存储器140中。此外，用户可操作元件158以改变图5的规则。

当产生视频摘要时，可通过提取估计值（例如，最终估计值）超过预定阈值的部分视频来产生视频摘要。

根据上述构造，当用户观看捕捉的视频（或显示的视频）时，与他们的面部表情相应的估计值在用户在观看捕捉（或显示）的视频时表现出感兴趣、被感动或具有感情变化的情况下变高。因此，可通过基于估计值产生视频的视频摘要来准确地反映用户感兴趣的视频的视频摘要。

此外，用户（或观看显示的视频的用户）可知道图5的规则。在这种情况下，用户可有意改变他们的表情，从而可执行指示和指定视频的编辑点的使用方法。此外，可基于用户有意的面部表情选择将被提取的部分视频。

例如，当期望将当前捕捉（或显示）的部分视频添加到视频摘要时，通过有意将表情改变为笑脸，可计算出高的估计值并且当前捕捉（或显示）的视频可被添加到视频摘要。因此，即使在期望安静的条件下或在用户紧闭他们的嘴巴以防止由用户的语音或声音引起的对对象的干扰的条件下，也可通过仅改变表情而不使用特定仪器或设备或执行特定操作来自动地编辑视频摘要。此外，可在显示或记录视频时将用于自动地编辑视频摘要的指令信息添加到视频的时间线。

如上所述，拍摄者可预先知道用于提取视频的规则，因此，可通过改变面部表情在捕捉视频时将他或她期望保留为自动编辑的区间有意添加到视频。因此，可提取期望的部分视频，并可有效地产生视频摘要。

此外，由于可在捕捉视频的同时计算估计值，因此，不需要在捕捉视频之后检测面部表情特征，并且不需要再次扫描用于计算估计值的视频数据。因此，可有效且快速地计算估计值。

接下来，将描述由根据实施例的拍摄设备100执行的处理。

拍摄者通过使用拍摄设备100捕捉对象的图像，并且由CMOS器件132捕捉对象的视频。同时，可由CMOS器件160捕捉拍摄者（或正在观看显示的视频的用户）的面部图像。

CPU200的面部识别单元220在由CMOS器件132捕捉对象的视频时识别拍摄者的面部，并分析面部特征。CPU200的表情估计值计算单元222针对由面部识别单元220识别的拍摄者的面部提取图5的面部表情因子（a）至（e），并基于图5的规则计算面部表情的估计值。如上所述，表情估计值计算单元222将各个因子（a）至（e）的估计值相加以最终计算估计值。记录文件创建单元228记录映射到与捕捉的视频相同的时间线的计算的估计值。

此外，当在显示视频时计算估计值时，CPU200的显示处理单元224读取和显示记录在记录介质152中的视频文件。由LCD146显示显示的视频。当视频正在被显示时，用于可观看由LCD146显示的视频。此时，CMOS器件160捕捉用户的面部图像。面部识别单元220从由CMOS器件160捕捉的图像检测用户的面部，并分析面部特征。此外，表情估计值计算单元222从由面部识别单元220识别的用户的面部提取图5的面部表情因子（a）至(e)，并基于图5的规则计算面部表情的估计值。记录文件创建单元228记录映射到与显示的视频相同的时间线的计算的估计值。因此，与在捕捉视频时相似，即使在显示视频时，也可在视频的时间线上记录估计值的数据。

CPU200的视频编辑单元226基于面部表情的估计编辑视频。例如，拍摄设备100可在用户期望快速检查视频的内容或在用户期望仅编辑视频的一部分或主场景时允许视频编辑单元226执行自动编辑功能。在这种情况下，当用户将用于视频编辑的指令输入到操作元件158时，视频编辑单元226编辑视频。

在一个示例中，视频编辑单元226在结束捕捉或结束视频的显示之后自动编辑视频。在另一示例中，在LCD146将视频文件显示为缩略图时，视频编辑单元226可自动编辑视频。通过编辑视频而产生的视频摘要被记录在记录介质152中。

图6是示出视频编辑单元226的自动编辑功能的示图。

在通过视频编辑单元226进行自动编辑时，基于表情的估计值依次提取具有高的估计值的时间线区间的部分视频。这里，基于预定阈值确定具有高的估计值的时间线区间的部分视频。在图6中，在提取部分视频时，诸如当编辑时间短时的阈值T1、当编辑时间中等长时的阈值T2和当编辑时间长时的阈值T3的三个阈值被设置为阈值。

当编辑时间短时，视频编辑单元226提取估计值超过阈值T1的时间线区间R11和R12的部分视频以产生视频摘要。当编辑时间中等长时，视频编辑单元226提取估计值超过阈值T2的时间线区间R21、R22、R23、R24和R25的部分视频以产生视频摘要。当编辑时间长时，视频编辑单元226提取估计值超过阈值T3的时间线区间R31、R32、R33和R34的部分视频以产生视频摘要。

以这种方式，当执行自动编辑功能时，根据实施例的视频编辑单元226可改变估计值的阈值以便视频摘要具有拍摄者（用户）期望的编辑时间。

根据实施例的视频编辑单元226确定使摘要视频的总时间与用户期望的编辑时间相应的估计值的阈值。视频编辑单元226提取的估计值超过确定的阈值的时间线区间的部分视频，并确定提取的部分视频的总时间是否接近期望的编辑时间。例如，当提取的部分视频的总时间短于期望的编辑时间时，视频编辑单元226可选择较低的阈值，从而使总时间与期望的编辑时间相应。视频编辑单元226提取被提取的部分视频的总时间接近期望的编辑时间的阈值中的时间线区间，并连接多个提取的时间线区间以产生视频摘要。以这种方式，视频摘要的长度可被设置为用户期望的长度。

在图6中，示出三个阈值T1至T3，然而，阈值还可被设置为除了阈值T1至T3之外的任意值。用户可操作操作元件158以自由设置视频摘要的长度。在这种情况下，视频编辑单元226基于从操作元件158输入的视频摘要的长度信息来调整阈值。因此，视频摘要的长度可被设置为用户期望的时间。

图7是示出图4和图5的各个因子（a）至（e）的估计值以及视频的一部分的估计值的和的图表。当估计值的阈值被设置为15时，在从12秒至16秒的区间中，估计值的和为15或更大，因此，由加粗边框702指示的12秒至16秒的区间的视频被提取为视频摘要。

图8示出视频摘要的采样时间与图7的估计值的和之间的关系，其中，采样时间基于所述和被线性插值。

在图8中，估计采样间隔被示出为4秒的间隔。此外，估计值的阈值被假设为15。例如，在图8中，估计值的和超过15的区间为10.5秒至18秒的区间R4，并且通过提取与10.5秒至18秒的区间相应的时间的视频，可产生视频摘要。

当估计值的和超过15的时间线区间的部分视频被提取用于视频摘要时，对于视频摘要的所有部分或最终部分，视频摘要可能不是期望的视频摘要。在这种情况下，可使用缓冲的时间线区间并且将被提取的部分视频可（例如，通过在开始之前添加缓冲时间）在估计值的和超过15之前大约几秒时开始。图8的区间R5示出用于提取的部分视频的开始位置（在8.5秒）被设置为早于和超过15的时间大约两秒的时间（例如，两秒的缓冲时间）的示例。同样地，（例如，通过在结束之后添加缓冲时间）用于提取的部分视频的结束还可被设置为比所述和等于或小于15的时间晚的时序。因此，从视频摘要省略用户期望的视频的部分的可能性较小，并且可产生更期望的视频摘要。可分别通过渐入和渐出效果显示视频摘要的开始和结束的图像。

图9是示出用于存储估计值的文件的示例的示意图。

图9的部分（A）示出估计值被存储为视频文件400中的元数据的一个示例。在这种情况下，视频文件400可包括头402、表情的估计值404和视频数据406。

图9的部分（B）示出估计值被存储为与视频文件500相应的单独文件600的另一示例。在这种情况下，视频文件500包括头502和视频数据506。文件600包括表情估计值604。视频文件500和估计值文件600使用相同的文件名但不同的文件扩展名（“.mov”和“.eva”）来以一对一关系彼此对应。

在图9的部分（A）和（B）的所有中，视频数据（例如，视频数据406或506）和表情估计值（例如，表情估计值404或604）被记录在记录介质152中。视频文件500和估计值文件600被存储为彼此映射，因此，视频编辑单元226可在稍后的时间产生视频摘要。此外，如图7中所示，估计值可被表达为文本数据，因此，通过仅存储文本数据来完全存储估计值。

因此，当存储估计值时，可通过适当减小采样量（例如，采样时间间隔）或将估计值表达为文本数据来减小估计值所使用的数据量，因此，可从记录介质152快速读取估计值。此外，即使在编辑视频时，也可通过对记录介质152执行读取操作来快速地读取估计值。

此外，由视频编辑单元226产生的视频摘要也被记录在记录介质152中。因此，视频编辑单元226可产生视频摘要，接收对用户期望显示的视频摘要的选择，并显示视频摘要。

例如，LCD146可同时显示静止图像的缩略图和视频摘要的缩略图。当基于用户输入输入了针对视频摘要的缩略图选择信号时，视频摘要可被放大为LCD146的屏幕尺寸并被显示。此外，当LCD146将视频摘要显示为缩略图时，通过以无限循环重复特定时间段的视频摘要而显示的视频的部分可被全部显示为静止图像。如上所述，通过在LCD146中将视频摘要显示为缩略图，通过如静止图像的缩略图那样使用缩略图容易地检查视频的内容。

图10是示出由拍摄设备100执行的视频处理方法的流程图。

首先，在操作S10，后置相机304在记录或显示视频时开始捕捉用户的图像。

在操作S12，拍摄设备100从由后置相机304捕捉的图像识别用户的面部，并分析用户的面部特征。

在操作S14，拍摄设备100在捕捉或显示视频时提取用户的面部的面部表情因子以计算估计值。

在操作S16，拍摄设备100记录映射到与捕捉或显示视频的时间线相同的时间线的估计值。

在操作S18，拍摄设备100基于记录的估计值依次提取部分视频以产生视频摘要。

如上所述，根据实施例，基于由后置相机304捕捉的用户的面部表情产生期望的视频摘要。因此，准确地提取在记录或观看视频时用户感兴趣并引起感情变化的视频的部分，并产生用户期望的视频摘要。因此，基于用户的主观面部表情有效地执行视频的自动编辑。此外，与视频中的对象的条件（人的出现、方向、人数等）或包括在视频中的语音无关地执行视频的自动编辑。

此外，用户可知道用于计算面部表情的估计值的规则，因此，通过用户做出有意的面部表情来根据用户的意图产生视频摘要。此外，在捕捉视频的同时更有效地计算估计值，因此，不需要再次对用于计算估计值的视频数据进行解码。

在相同的程度上，这里引用的包括出版物、专利申请和专利的所有文献包含于此，以资参考，就像每个文献被单独且特别指示为通过引用被包含并且在这里被完全阐述一样。

为了提高对本发明的原理的理解的目的，已参照附图中示出的实施例，并且特定语言已用于描述这些实施例。然而，该特定语言不意图限制本发明的范围，并且本发明应被解释为包含本领域普通技术人员通常遇到的所有实施例。这里使用的术语用于描述特定实施例的目的，而不意图限制本发明的示例性实施例。在实施例的描述中，当认为现有技术的特定详细解释可能不必要地使本发明的本质模糊时，省略对现有技术的特定详细解释。

本发明的实施例可被写为计算机程序并可被实现在使用计算机可读记录介质执行所述程序的通用数字计算机中。计算机可读记录介质的示例包括磁存储介质（例如，ROM、软盘、硬盘等）和光学记录介质（例如，CD-ROM或DVD）。这里描述的设备可包括处理器、用于存储将由处理器执行的程序数据的存储器、诸如盘驱动器的永久性存储器、用于处理与外部装置的通信的通信端口和包括显示器、触摸面板、按钮等的用户接口装置。当涉及软件模块时，这些软件模块可被存储为可由处理器执行的程序指令或计算机可读代码，或者可被存储在非暂时性计算机可读介质（诸如磁存储介质（例如，磁带、硬盘、软盘）、光学记录介质（例如，CD-ROM、数字多功能盘（DVD）等）和固态存储器（例如，随机存取存储器（RAM）、只读存储器（ROM）、静态随机存取存储器（SRAM）、电可擦可编程只读存储器（EEPROM）、闪存、拇指驱动器等））上。计算机可读记录介质还可分布于联网的计算机***，使得计算机可读代码以分布方式被存储和执行。该计算机可读记录介质可由计算机读取，存储在存储器中，并由处理器执行。

应理解，这里描述的示例性实施例应仅被视为描述意义而不是用于限制的目的。通常，每个实施例内的特征或方面的描述应被视为可用于其它实施例中的其它相似特征或方面。

此外，使用这里的公开，本发明所属领域的程序员可容易实现功能程序、代码和代码段，以做出和使用本发明。

可在功能块组件和各种处理步骤的方面来描述本发明。可由任何数量的被构造为执行指定功能的硬件和/或软件组件来实现这样的功能块。例如，本发明可采用各种集成电路组件，例如，存储器元件、处理元件、逻辑元件、查找表等，所述各种集成电路组件可在一个或更多个微处理器或其它控制装置的控制下执行各种功能。类似地，当使用软件编程或软件组件来实现本发明的元件时，可使用任何编程或脚本语言(如C、C++、

、汇编等)来实现本发明，其中，使用数据结构、对象、处理、程序或其它编程元件的任何组合来执行各种算法。可以以在一个或更多个处理器上执行的算法来实现多个功能方面。此外，本发明可采用用于电子构造、信号处理和/或控制、数据处理等的任意数量的传统技术。最后，除非这里另外指明或明显与上下文矛盾，否则可以按任何适合的顺序执行这里描述的所有方法的步骤。

为了简明，可不详细描述传统电子技术、控制***、软件开发和***的其它功能方面（以及***的各个操作组件的组件）。此外，各个附图中示出的连接线或连接器意图表示各元件之间的示例性功能关系和/或物理或逻辑耦合。应注意，实际装置中可存在许多替代或其它功能关系、物理连接或逻辑连接。词语“机制”、“元件”、“单元”、“结构”、“装置”和“构造”被广泛使用并且不受限于机械或物理的实施例，而是可包括与处理器等结合的软件程序。

除非另外声明，否则这里提供的任何及所有的示例或示例性语言(例如，“诸如”)的使用仅仅是为了更好地说明本发明，并非限制本发明的范围。在不脱离由权利要求限定的本发明的精神和范围的情况下，本领域的普通技术人员容易清楚许多修改和适应性改变。因此，本发明的范围不是由本发明的详细描述限定而是由权利要求限定，且范围内的所有差异将被解释为包括在本发明中。

除非元件被明确描述为“必要的”或“关键的”，否则没有项目或组件对本发明的实施是必要的。还将认识到，这里使用的术语“包括”、“包含”或“具有”专门意图被理解为本领域的开放式术语。除非上下文明确指示，否则在描述本发明的上下文中(尤其在权利要求的上下文中)，应该理解单数形式和类似指代的使用覆盖了单数形式和复数形式两者。另外，应理解，尽管可在这里使用术语“第一”、“第二”等描述各种元件，但是这些元件不应由这些术语限制，这些术语仅用于将一个元件与另一元件进行区分。此外，除非这里另外指出，否则这里叙述的值的范围仅仅意图用作单独引用落在此范围内的每个单独值的简单方法，并且每个单独值包含在说明书中就好像其在这里被独立地叙述。

虽然已参照附图描述了本发明的一个或更多个实施例，但是本领域普通技术人员将理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可在形式和细节上对所述实施例做出各种改变。

Claims

1.一种视频处理设备，包括：

第一视频捕捉单元，捕捉用户的图像；

分析单元，从由第一视频捕捉单元捕捉的第一视频识别用户的面部，并分析用户的面部特征；

估计值计算单元，在捕捉或显示第二视频时，基于分析的用户的面部特征计算估计值；

记录单元，记录将被映射到第二视频的时间线的估计值；

视频编辑单元，基于估计值从第二视频提取部分视频以产生视频摘要。

2.如权利要求1所述的视频处理设备，还包括第二视频捕捉单元，捕捉第二视频；

其中，估计计算单元，在第二视频捕捉单元捕捉第二视频时计算估计值。

3.如权利要求2所述的视频处理设备，其中，估计值提取单元基于从第一视频分析的用户的面部特征提取面部表情因子。

4.如权利要求1所述的视频处理设备，其中，视频编辑单元依次提取估计值大于阈值的时间线区间的部分视频以产生视频摘要。

5.如权利要求4所述的视频处理设备，其中，视频编辑单元改变阈值，使得所述部分视频的总时间与预定编辑时间相应，从而提取所述部分视频。

6.如权利要求4所述的视频处理设备，其中，视频编辑单元依次提取通过在估计值大于阈值的时间线区间之前、之后或者之前和之后两者添加缓冲时间而获得的缓冲的时间线区间的部分视频。

7.如权利要求1所述的视频处理设备，其中，估计值计算单元基于一个或更多个预定规则提取面部表情因子。

8.如权利要求7所述的视频处理设备，其中，估计值计算单元基于一个或更多个预定规则在面部表情中提取眼睛变窄因子、眼睛睁大因子、眼角向下倾斜因子、嘴巴张开因子或嘴角上扬因子中的至少一个作为面部表情因子。

9.如权利要求7所述的视频处理设备，其中，一个或更多个预定规则被定义为将高的重要性给予被确定为显著影响用户的面部表情变化的选择的因子。

10.如权利要求1所述的视频处理设备，其中，记录单元将估计值作为元数据记录在第二视频的视频文件中。

11.如权利要求1所述的视频处理设备，其中，记录单元将估计值以一对一关系记录为与第二视频的视频文件相应的单独文件。

12.一种视频处理方法，包括：

在捕捉或显示第二视频时捕捉用户的至少一个图像；

从用户的至少一个图像识别用户的面部，并分析用户的面部特征；

基于分析的用户的面部特征，提取用户的面部的面部表情因子以计算估计值；

记录将被映射到第二视频的时间线的估计值；

基于估计值从第二视频提取部分视频以产生第二视频的视频摘要。

13.如权利要求12所述的视频处理方法，还包括：捕捉第二视频，

其中，计算估计值的步骤包括：在捕捉第二视频时计算估计值。

14.如权利要求12所述的视频处理方法，其中，产生视频摘要的步骤包括：依次提取估计值大于阈值的时间线区间的部分视频以产生视频摘要。

15.如权利要求14所述的视频处理方法，其中，产生视频摘要的步骤包括：改变阈值，使得所述部分视频的总时间与预定编辑时间相应，从而提取所述部分视频。