CN105512348B

CN105512348B - 用于处理视频和相关音频的方法和装置及检索方法和装置

Info

Publication number: CN105512348B
Application number: CN201610058764.5A
Authority: CN
Inventors: 许欣然; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2019-03-26
Anticipated expiration: 2036-01-28
Also published as: CN105512348A

Abstract

本发明的实施例提供了一种用于处理视频和相关音频的方法和装置以及检索方法和装置。用于处理视频和相关音频的方法包括：获取包括一个或多个对象的一个或多个人脸的视频；对视频中的每个视频帧进行人脸检测，以识别一个或多个人脸；获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频；针对一个或多个人脸中的至少部分人脸中的每一个，确定音频中的、与该人脸相对应的音频部分；将该人脸与对应的音频部分关联起来，其中，至少部分人脸分别属于至少部分对象。根据本发明，通过将对象的人脸与其语音关联起来，可以确定对象的说话时间和说话内容，从而方便用户在后期对该对象的说话内容进行查看和检索。

Description

用于处理视频和相关音频的方法和装置及检索方法和装置

技术领域

本发明涉及人脸识别技术领域，更具体地涉及一种用于处理视频和相关音频的方法和装置及检索方法和装置。

背景技术

在很多场景下，需要对人们说过的话进行记录并且需要知道每个人的具体说话内容。下面以会议场景为例进行描述。对会议进行记录在很多场合下都是必须的，记录的方式通常包括采用文字、音频或视频等进行记录。采用文字进行记录的方式最便于检索，但成本较大；采用视频或音频进行记录的方式成本较低，但存储和检索都存在不小的困难。具体来说，前者的缺点主要在于人力成本耗费很大，同时在与会人员的人数较多时，对速记人员的能力提出了挑战。后者往往是整个会议被记录为一大段音频或者视频，虽然会议被完整地记录下来了，不过由于不知道每段语音和人物的对应关系，因此无法便利地进行检索。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于处理视频和相关音频的方法和装置以及检索方法和装置。

根据本发明一方面，提供了一种用于处理视频和相关音频的方法。该方法包括：

获取包括一个或多个对象的一个或多个人脸的视频；

对所述视频中的每个视频帧进行人脸检测，以识别所述一个或多个人脸；

获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频；

针对所述一个或多个人脸中的至少部分人脸中的每一个，

确定所述音频中的、与该人脸相对应的音频部分；

将该人脸与对应的音频部分关联起来，

其中，所述至少部分人脸分别属于所述至少部分对象。

示例性地，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之前，所述方法进一步包括：

针对所述至少部分人脸中的每一个，

根据该人脸的嘴部动作对所述视频进行分段，以获得与该人脸相对应的初始视频段；

根据所述音频中的语音特征对所述音频进行分段，以获得与该人脸相对应的初始音频段；以及

根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段；

所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分包括：

针对所述至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

示例性地，所述针对所述一个或多个人脸中的至少部分人脸中的每一个将该人脸与对应的音频部分关联起来包括：

针对所述至少部分人脸中的每一个，

对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；

将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。

示例性地，所述方法进一步包括：

针对特定视频音频组合所对应的人脸对所述特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，所述特定视频音频组合是所述至少部分人脸所对应的所有视频音频组合之一；

对所述特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；

针对所述所有视频音频组合中的其余视频音频组合中的每一个，

计算所述特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；

计算所述特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；

计算所述特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得所述特定视频音频组合与该视频音频组合之间的平均相似度；

如果所述特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将所述特定视频音频组合与该视频音频组合归类到同一对象。

示例性地，所述针对所述至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段包括：

针对所述至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段，并且将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

针对所述至少部分人脸中的每一个，

根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；

根据所述统一分段时间对所述视频和所述音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

示例性地，所述音频是由统一麦克风采集的，

所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段以获得与该人脸相对应的初始音频段包括：

根据所述音频中的语音特征对所述音频进行分段，以获得混合音频段；以及

针对所述至少部分人脸中的每一个，从所述混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

示例性地，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，

在所述获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频之前，所述方法进一步包括：

控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频；

针对所述至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

示例性地，所述定向麦克风的数目等于或大于所述一个或多个人脸的数目。

示例性地，在所述控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频之前，所述方法进一步包括：

根据所述一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及

按照每个人脸的优先级确定所述一个或多个定向麦克风要朝向的对象作为所述至少部分对象。

示例性地，所述针对所述至少部分人脸中的每一个根据该人脸的嘴部动作对所述视频进行分段按照以下规则实施：

针对所述至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在所述第一时刻之前的第一预定时段内持续处于闭合状态，则将所述第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在所述第二时刻之后的第二预定时段内持续处于闭合状态，则将所述第二时刻作为视频分段结束时间，

其中，所述视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为所述初始视频段。

示例性地，所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段按照以下规则实施：

如果所述音频中的语音在第三时刻从不发声状态变化到发声状态并且在所述第三时刻之前的第三预定时段内持续处于不发声状态，则将所述第三时刻作为音频分段开始时间，如果所述音频中的语音在第四时刻从发声状态变化到不发声状态并且在所述第四时刻之后的第四预定时段内持续处于不发声状态，则将所述第四时刻作为音频分段结束时间，

其中，所述音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为所述初始音频段。

示例性地，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之后，所述方法进一步包括：

针对所述至少部分人脸中的每一个，

对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；

将所述文本文件与该人脸关联起来。

示例性地，所述方法进一步包括：输出期望信息，

其中，所述期望信息包括以下项中的一项或多项：所述视频、所述音频、包含所述一个或多个人脸中的特定人脸的视频帧、包含所述特定人脸的视频帧的采集时间、与所述特定人脸相对应的音频部分和与所述特定人脸相对应的音频部分的采集时间。

根据本发明另一方面，提供了一种检索方法，包括：

接收针对目标人脸的检索指示；

根据所述检索指示从数据库中查找所述目标人脸的相关信息；以及

输出所述目标人脸的相关信息；

其中，所述数据库用于存储根据上文所述的用于处理视频和相关音频的方法进行处理的视频以及音频和/或与所述至少部分人脸中的每一个相对应的音频部分，

并且其中，所述目标人脸的相关信息包括以下项中的一项或多项：包含所述目标人脸的视频帧、包含所述目标人脸的视频帧的采集时间、与所述目标人脸相对应的音频部分和与所述目标人脸相对应的音频部分的采集时间。

根据本发明另一方面，提供了一种用于处理视频和相关音频的装置。该装置包括：

第一获取模块，用于获取包括一个或多个对象的一个或多个人脸的视频；

人脸检测模块，用于对所述视频中的每个视频帧进行人脸检测，以识别所述一个或多个人脸；

第二获取模块，用于获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频；

音频部分确定模块，用于针对所述一个或多个人脸中的至少部分人脸中的每一个，确定所述音频中的、与该人脸相对应的音频部分，其中，所述至少部分人脸分别属于所述至少部分对象；以及

音频关联模块，用于针对所述至少部分人脸中的每一个，将该人脸与对应的音频部分关联起来。

示例性地，所述装置进一步包括：

视频分段模块，用于针对所述至少部分人脸中的每一个，根据该人脸的嘴部动作对所述视频进行分段，以获得与该人脸相对应的初始视频段；

音频分段模块，用于针对所述至少部分人脸中的每一个，根据所述音频中的语音特征对所述音频进行分段，以获得与该人脸相对应的初始音频段；以及

有效视频及音频获得模块，用于根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段；

所述音频部分确定模块包括确定子模块，用于针对所述至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

示例性地，所述音频关联模块包括：

视频帧选择子模块，用于针对所述至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；以及

关联子模块，用于将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。

示例性地，所述装置进一步包括：

人脸特征提取模块，用于针对特定视频音频组合所对应的人脸对所述特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，所述特定视频音频组合是所述至少部分人脸所对应的所有视频音频组合之一；

声音特征提取模块，对所述特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；

人脸相似度计算模块，用于针对所述所有视频音频组合中的其余视频音频组合中的每一个，计算所述特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；

声音相似度计算模块，用于针对所述其余视频音频组合中的每一个，计算所述特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；

平均相似度计算模块，用于针对所述其余视频音频组合中的每一个，计算所述特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得所述特定视频音频组合与该视频音频组合之间的平均相似度；

归类模块，用于针对所述其余视频音频组合中的每一个，如果所述特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将所述特定视频音频组合与该视频音频组合归类到同一对象。

示例性地，所述有效视频及音频获得模块包括：

有效视频段确定子模块，用于针对所述至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段；以及

有效音频段确定子模块，用于针对所述至少部分人脸中的每一个，将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

示例性地，所述有效视频及音频获得模块包括：

统一分段时间确定子模块，用于针对所述至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；

统一分段子模块，用于根据所述统一分段时间对所述视频和所述音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

示例性地，所述音频是由统一麦克风采集的，

所述音频分段模块包括：

第一分段子模块，用于根据所述音频中的语音特征对所述音频进行分段，以获得混合音频段；以及

音频段选择子模块，用于针对所述至少部分人脸中的每一个，从所述混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

所述装置进一步包括：

控制模块，用于控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频；

所述音频分段模块包括：

第二分段子模块，用于针对所述至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

示例性地，所述装置进一步包括：

优先级确定模块，用于根据所述一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及

对象确定模块，用于按照每个人脸的优先级确定所述一个或多个定向麦克风要朝向的对象作为所述至少部分对象。

示例性地，所述视频分段模块按照以下规则对所述视频进行分段：

示例性地，所述音频分段模块按照以下规则对所述音频进行分段：

示例性地，所述装置进一步包括：

语音识别模块，用于针对所述至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；以及

文本关联模块，用于将所述文本文件与该人脸关联起来。

示例性地，所述装置进一步包括输出模块，用于输出期望信息，

根据本发明另一方面，提供了一种检索装置，包括：

接收模块，用于接收针对目标人脸的检索指示；

查找模块，用于根据所述检索指示从数据库中查找所述目标人脸的相关信息；以及

输出模块，用于输出所述目标人脸的相关信息；

其中，所述数据库用于存储利用上文所述的用于处理视频和相关音频的装置进行处理的视频以及音频和/或与所述至少部分人脸中的每一个相对应的音频部分，

根据本发明实施例的用于处理视频和相关音频的方法和装置及检索方法和装置，通过将对象的人脸与其语音关联起来，可以确定对象的说话时间和说话内容，从而方便用户在后期对该对象的说话内容进行查看和检索。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的用于处理视频和相关音频的方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的用于处理视频和相关音频的方法的示意性流程图；

图3示出根据本发明另一个实施例的用于处理视频和相关音频的方法的示意性流程图；

图4示出根据本发明一个实施例的归类步骤的示意性流程图；

图5示出根据本发明另一个实施例的用于处理视频和相关音频的方法的示意性流程图；

图6示出根据本发明一个实施例的检索方法的示意性流程图；

图7示出根据本发明一个实施例的用于处理视频和相关音频的装置的示意性框图；

图8示出根据本发明一个实施例的检索装置的示意性框图；以及

图9示出根据本发明一个实施例的用于处理视频和相关音频的***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现根据本发明实施例的用于处理视频和相关音频的方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、视频采集装置110以及音频采集装置114，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述视频采集装置110可以采集期望的视频，并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以采用任何合适的设备实现，例如摄像机或移动终端的摄像头等。视频采集装置110是可选的，电子设备100可以不包括视频采集装置110。电子设备100可以利用视频采集装置110采集视频，也可以经由与其他设备之间的通信接口(未示出)接收其他设备传送的视频。

所述音频采集装置114可以采集期望的音频，并且将所采集的音频存储在所述存储装置104中以供其它组件使用。音频采集装置114可以采用任何合适的录音设备实现，例如独立的麦克风或移动终端的内置麦克风等。音频采集装置114还可以是摄像机的内置麦克风，也就是说，音频采集装置114可以与视频采集装置110集成在一起。音频采集装置114是可选的，电子设备100可以不包括音频采集装置114。电子设备100可以利用音频采集装置114采集音频，也可以经由与其他设备之间的通信接口(未示出)接收其他设备传送的音频。

示例性地，用于实现根据本发明实施例的用于处理视频和相关音频的方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的用于处理视频和相关音频的方法。图2示出根据本发明一个实施例的用于处理视频和相关音频的方法200的示意性流程图。如图2所示，用于处理视频和相关音频的方法200包括以下步骤。

在步骤S210，获取包括一个或多个对象的一个或多个人脸的视频。

本文所述的“对象”可以是任何需要记录其语音的人，例如参与会议的人员或行为需要受到监控的人员等。同一对象具有同一张人脸，同一张人脸在不同视频帧中的位置、表情动作可能不同，可以采用人脸跟踪技术在连续的视频帧中跟踪同一对象的人脸。

在会议场景下，可以利用摄像头(例如独立的摄像机或移动终端的摄像头等)采集在会议期间会场内的人员的视频。期望的是，所采集的视频中包括所有与会人员的人脸或至少包括所有说过话的与会人员的人脸。摄像头可以将采集到的视频实时传送到服务器端，由服务器端进行实时处理。当然，视频采集端和处理端也可以实现在一起。其中，处理端可以用于处理视频采集端采集到的视频。

在步骤S220，对视频中的每个视频帧进行人脸检测，以识别一个或多个人脸。

在该步骤中，可以确定出在所采集的视频的每个视频帧中是否包含人脸，并且在视频帧中包含人脸的情况下在视频帧中定位出人脸区域。可以利用预先训练好的人脸检测器来在所采集的视频帧中定位人脸区域。例如，可以预先利用哈尔(Haar)算法、Adaboost算法等人脸检测与识别算法在大量图片的基础上训练出人脸检测器，对于所采集的单个视频帧，该预先训练好的人脸检测器能够快速地定位出人脸区域。此外，对于连续采集的多个视频帧(即一段视频)，在首个视频帧中定位出人脸区域之后，可以基于当前视频帧的前一视频帧中的人脸区域的位置来实时地追踪在当前视频帧中人脸区域的位置，也就是可以实现人脸跟踪。

应了解本发明不受具体采用的人脸检测方法的限制，无论是现有的人脸检测方法还是将来开发的人脸检测方法，都可以应用于根据本发明实施例的用于处理视频和相关音频的方法中，并且也应包括在本发明的保护范围内。

在步骤S230，获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频。

在会议场景下，可以利用麦克风(例如独立的麦克风或移动终端的麦克风等)采集在会议期间会场内的人员的音频，记录这些人员所说过的话，即他们的语音。在本实施中，采集在会议期间会场内的人员的音频与采集在会议期间会场内的人员的视频同时进行，即音频与视频需在相同时间段内同时采集。期望的是，所采集的音频中包括所有与会人员的语音或至少包括所有说过话的与会人员的语音。应了解，在某些情况下，例如在所采用的麦克风数量不够或麦克风质量不好使得采集的音频不够清晰的情况下，可能无法得到所有与会人员(或所有说过话的与会人员)的语音。麦克风可以将采集到的音频实时传送到服务器端，由服务器端进行实时处理。当然，音频采集端和处理端也可以实现在一起。其中，处理端可以用于处理音频采集端采集到的音频。

在步骤S240，针对一个或多个人脸中的至少部分人脸中的每一个，确定音频中的、与该人脸相对应的音频部分，其中，至少部分人脸分别属于至少部分对象。

视频具有时间轴，每个视频帧均具有确切的采集时间。由于会场内的人员在说话的时候，在视频中能检测到其脸部(主要是嘴部)的变化，因此可以判断其说话的时间。同样，音频也具有时间轴，音频数据的采集时间也可以获知。在某人说话之时，在音频中能检测到声波的变化，因此，也可以判断其说话的时间。可以理解，综合视频和音频数据，可以比较容易地获知某人说话的时间以及其说话的内容(即其语音)。期望的是，记录会场内的所有人员的人脸和语音，尤其是记录曾经说过话的人员的人脸和语音，这样，后期可以由用户查看或检索每个曾经说过话的人员的说话内容。然而，有可能视频中包括所有与会人员(或所有说过话的与会人员)的人脸，而音频不包括所有与会人员(或所有说过话的与会人员)的语音，或者相反，音频中包括所有与会人员(或所有说过话的与会人员)的语音，而视频中不包括所有与会人员(或所有说过话的与会人员)的人脸，在这样的情况下，可以确定会场中的部分与会人员(或部分说过话的与会人员)的人脸及相对应的音频部分。

在步骤S250，针对至少部分人脸中的每一个，将该人脸与对应的音频部分关联起来。

当确定与某个人脸相对应的音频部分之后，可以将该人脸与对应的音频部分关联起来。例如，如果在某日上午采集的视频中，通过人脸检测发现在九点至九点十分的视频帧中某对象说过话，而在同时采集的音频中发现九点至九点十分存在语音变化，则可以将检测到的该对象的人脸图像(例如包含该对象的人脸的整个视频帧或通过提取视频帧获得的仅包含该对象的人脸的图像)与九点至九点十分采集的一段音频关联在一起。这样，在以后用户查看该会议记录时，可以告知用户该对象在九点至九点十分说过话，并且可以告知用户该对象在这段时间内的说话内容。另外，上述关联方式使得用户可以非常便利地对会议记录进行检索。

应了解，图2所示的各步骤的实施顺序仅是示例性而非限制性的，步骤S210至步骤S250可以具有任何合适的实施顺序。在一个示例中，步骤S210至步骤S250可以是实时进行的。例如，视频和音频可以同时开始采集和获取，即步骤S210和步骤S230可以同时实施。更具体地，在会议场景下，摄像头连续不断地采集与会人员的视频帧并将采集到的视频帧传送到相连接的本地处理器或远程服务器，同时麦克风连续不断地采集与会人员的音频并将采集到的音频数据传送到相连接的本地处理器或远程服务器。本地处理器或远程服务器每当接收到新的视频帧(即实施步骤S210)，就对视频帧进行人脸检测(即实施步骤S220)。本地处理器或远程服务器在接收新的视频帧时，也同时接收到新的音频数据(即实施步骤S230)。本地处理器或远程服务器可以根据在步骤S220中识别出的人脸来确定与该人脸相对应的音频部分(即实施步骤S240)，并将人脸与对应的音频部分关联起来(即实施步骤S250)。上述整个方法200是连续地、实时地实施的。在另一示例中，摄像头可以将采集到的关于整个会议的视频存储起来，麦克风也可以将采集到的关于整个会议的音频存储起来。当会议结束之后，摄像头和麦克风可以将完整的视频和音频传送到本地处理器或远程服务器。由本地处理或远程服务器对完整的视频和音频进行处理。在这种情况下，步骤S210可以在步骤S230之前、之后或同时实施，步骤S220可以在步骤S230之前、之后或同时实施。

示例性地，根据本发明实施例的用于处理视频和相关音频的方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本发明实施例的用于处理视频和相关音频的方法可以部署在客户端。例如，在会议场景下，可以利用移动终端的摄像头(即视频采集装置)采集与会人员的视频并利用移动终端的麦克风(即音频采集装置)采集与会人员的音频，随后由移动终端的处理器(即用于处理视频和相关音频的装置)对视频和音频进行处理。在另一会议场景下，视频采集装置、音频采集装置和用于处理视频和相关音频的装置部署在会场。例如，可以利用独立的摄像机(即视频采集装置)采集与会人员的视频并利用独立的麦克风或摄像机的内置麦克风(即音频采集装置)采集与会人员的音频，随后摄像机和麦克风将采集的视频和音频传送给相连接的计算机，由计算机的处理器(即用于处理视频和相关音频的装置)对视频和音频进行处理。

替代地，根据本发明实施例的用于处理视频和相关音频的方法还可以分布地部署在服务器端(或云端)和客户端(例如移动终端)处。例如，在会议场景下，可以利用摄像头(例如独立的摄像机或移动终端的摄像头等)采集与会人员的视频，并利用麦克风(例如独立的麦克风、摄像机的内置麦克风或移动终端的麦克风等)采集对象的音频，摄像头和麦克风将采集的视频和音频传送到服务器端(或云端)，服务器端(或云端)对视频和音频进行处理。

根据本发明实施例的用于处理视频和相关音频的方法，通过将对象的人脸与其语音关联起来，可以确定对象的说话时间和说话内容，从而方便用户在后期对该对象的说话内容进行查看和检索。本发明适用于任何合适的需要记录对象语音的场景，例如会议场景等。

图3示出根据本发明另一个实施例的用于处理视频和相关音频的方法300的示意性流程图。图3所示的方法300的步骤S310、S320、S330和S380分别与图2所示的方法200的步骤S210、S220、S230和S250相对应。本领域技术人员根据图2和上文的描述可以理解图3中的上述步骤，为了简洁，在此不再赘述。图3所示的步骤S370是图2所示的步骤S240的一种具体实施方式，下面将详细描述。根据本实施例，在步骤S370之前，方法300可以进一步包括以下步骤。

在步骤S340，针对至少部分人脸中的每一个，根据该人脸的嘴部动作对视频进行分段，以获得与该人脸相对应的初始视频段。

在步骤S320中进行人脸检测可以检测出人脸的轮廓，定位出人脸区域。随后可以进一步在所定位的人脸区域中定位人脸关键点。人脸关键点通常包括脸部一些表征能力强的关键点，例如眼睛、眼角、眼睛中心、眉毛、鼻子、鼻尖、嘴巴和嘴角等。在本发明中，主要需要定位的是嘴部关键点。可以利用预先训练好的关键点***来在人脸区域中定位人脸关键点。例如，可以预先利用级联回归方法在大量人工标注的人脸图片的基础上训练出关键点***。替换地，也可以采用传统的人脸关键点定位方法，其基于参数形状模型，根据关键点附近的表观特征，学习出一个参数模型，在使用时迭代地优化关键点的位置，最后得到关键点坐标。

如上所述，在本发明中，主要需要定位的是嘴部关键点。例如，可以定位嘴部轮廓。可以通过同一人脸的嘴部轮廓在一段时间(也就是在连续的视频帧)中的大小变化判断该人脸的嘴部动作。例如，如果在一段时间中，同一人脸的嘴部在逐渐变大或变小，可以认为该人脸所对应的对象正在说话。如果在一段时间中，同一人脸的嘴部持续处于闭合状态，可以认为该人脸所对应的对象没有说话。或者，如果在一段时间中，同一人脸的嘴部持续处于张开状态并且嘴部轮廓变化很小，则也可以认为该人脸所对应的对象没有说话(例如可能在打哈欠)。根据嘴部动作可以将对象说话时采集的视频帧与对象不说话时采集的视频帧分开，也就是依据对象说话与否来对视频进行分段。所获得的与人脸相对应的初始视频段可以是根据人脸的嘴部动作所确定的、对象处于说话状态时采集到的那部分视频。

虽然在整个视频或说每个视频帧中可能存在多个人脸，但是每个人脸所对应的对象可能仅在某段时间内说过话。例如，在整个视频X中记录了对象A的人脸和对象B的人脸。对象A和对象B分别在时段a和时段b说过话。可以单独跟踪对象A的人脸，根据对象A的嘴部动作将整个视频X分段，找出在时段a内采集的那部分视频，即与对象A的人脸相对应的初始视频段。对于对象B，可以根据对象B的嘴部动作将整个视频X分段，找出在时段b内采集的那部分视频，即与对象B的人脸相对应的初始视频段。也就是说，可以分别根据每个人脸的嘴部动作情况对整个视频进行分段，以获得与每个人脸相对应的初始视频段。

在步骤S350，针对至少部分人脸中的每一个，根据音频中的语音特征对音频进行分段，以获得与该人脸相对应的初始音频段。

语音特征可以包括语音变化。音频中的语音变化也就是音频中的来自对象的声波的起伏。可以理解，当有人说话时，音频中存在人声的起伏，而当无人说话时，音频中可能只存在背景噪声，几乎检测不到人声的起伏。因此，可以通过语音变化来判断是否有人在说话。语音特征还可以包括其他类型的特征，例如语音内容。如果对象在一段时间内连续发出例如“啊”、“哦”之类的无意义的语气词，则可以认为对象在这段时间内并未说话。

将对象说话时采集的音频数据与对象不说话时采集的音频数据分开，也就是依据对象说话与否来对音频进行分段。所获得的与人脸相对应的初始音频段可以是根据音频中的语音特征所确定的、对象处于说话状态时采集到的那部分音频。

如果音频是采用全局统一的麦克风(可以称为统一麦克风)采集的，则所有对象的语音可能混杂在同一路音频中。在这种情况下，根据语音特征对音频进行分段之后，需要进一步根据所划分出的音频段的采集时间以及每个对象的初始视频段的采集时间来判断音频段应该与哪个对象的人脸相对应。如果音频是采用定向麦克风采集的，所采集到的音频分成多路，每路仅包括一个对象的语音，在这种情况下，可以无需判断音频段与人脸的对应关系，因为在为对象分配定向麦克风时，该对应关系已经确定。这些实施例将在下文中进一步详细描述，在此不做赘述。

在步骤S360，针对至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段。

有效视频段是指最终确定的对象处于说话状态时采集到的视频段，有效音频段是指最终确定的对象处于说话状态时采集到的音频段。有效视频段和有效音频段可以用于确定与人脸相对应的音频部分以及将人脸与对应的音频部分关联起来。

在一个示例中，步骤S360可以包括：针对至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段，并且将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

通常，对象的嘴部动作与语音是一致的，也就是说对象张嘴会出声，对象闭嘴不出声。因此，根据人脸的嘴部动作划分出的初始视频段与根据语音特征划分出的初始音频段在时间轴上基本是对应的。在这种情况下，可以直接将初始视频段视为有效视频段，并将初始音频段视为有效音频段。这种方式可以较为简单快速地确定有效视频段和有效音频段。

在另一个示例中，步骤S360可以包括：针对至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；根据统一分段时间对视频和音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

由于视频和音频在关于对象说话与否方面的区分标准不同，因此初始视频段和初始音频段可能在时间轴上不完全一致，对说话状态的划分准确度也不一定相同。在某些情况下初始视频段对说话状态的划分准确度可能大于初始音频段，在另外一些情况下则可能相反。因此，可以综合考虑初始视频段和初始音频段的分段时间来确定一个较为合适的统一分段时间。该统一分段时间可以用于统一划分对象是否处于说话状态。然后，根据该统一分段时间重新对视频和音频进行分段，获得有效视频段和有效音频段。这种方式可以提高有效音频段和有效视频段的划分准确度。

例如，假设对于对象A，根据其在视频中的嘴部动作发现其在九点十分二十秒至九点十一分三十秒的时段1内持续处于说话状态，并且将该时段1内采集到的一段视频作为初始视频段；另外，根据音频中的语音特征发现对象A在九点十分三十秒至九点十一分三十五秒的时段2内持续处于说话状态，并且将该时段2内采集到一段音频作为初始音频段，那么，可以综合考虑时段1和时段2确定统一分段时间。例如，将九点十分二十秒至九点十一分三十五秒这段时间(可称为“时段3”)视为对象A实际处于说话状态的时间。在这种情况下，将九点十分二十秒作为统一分段开始时间，将九点十一分三十五秒作为统一分段结束时间，将时段3内采集到的那段视频作为有效视频段，将时段3内采集到的那段音频作为有效音频段。在本示例中，时段3是时段1和时段2的并集。又例如，可以将九点十分三十秒至九点十一分三十秒这段时间(可称为“时段4”)视为对象A实际处于说话状态的时间。在这种情况下，将九点十分三十秒作为统一分段开始时间，将九点十一分三十秒作为统一分段结束时间，将时段4内采集到的那段视频作为有效视频段，将时段4内采集到的那段音频作为有效音频段。在本示例中，时段4是时段1和时段2的交集。上述统一分段时间的确定方式仅是示例而非限制，统一分段时间也可以具有其他合适的确定方式，其均应落入本发明的保护范围。

与单纯根据语音特征进行分段相比，通过人脸嘴部动作和语音特征共同配合来分段可以获得更好的分段效果，能够更好地处理小声说话等情况。

在图3所示的实施例中，步骤S370可以具体包括：针对至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

可以将与某人脸相对应的所有有效音频段视为需要找出的、与该人脸相对应的音频部分。

根据图3所示的实施例，通过对象说话与否对视频和音频分段，从而可以较为准确地找出与对象的人脸相对应的音频部分。

根据本发明实施例，上述步骤S380可以包括：针对至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。其中，人脸质量最佳的视频帧可以是所有视频帧中分辨率最高的视频帧、或者可以是人脸最清晰的视频帧。

与有效视频段对应的有效音频段是指在采集时间上与有效视频段一致或基本一致的有效音频段。通过步骤S310至S370，对于每个人脸来说，可以获得若干个有效视频段和与有效视频段一一对应的有效音频段。在一个示例中，可以直接将有效视频段和对应的有效音频段关联起来，形成若干个视频及音频对，每个视频及音频对可以视为一个视频音频组合。在另一个示例中，可以从每个有效视频段中选出一个或多个比较有代表性的视频帧，也就是，可以选择人脸质量最佳的一个或多个视频帧。将所选择的视频帧与对应的有效音频段关联起来，最终形成若干个视频帧及音频对，每个视频帧及音频对也可以视为一个视频音频组合。可以理解的是，视频帧是人脸图像，里面可能包含若干人脸。所选择的视频帧可以是原始的视频帧，其中，可以在该视频帧中标出(例如利用方框标出)有效视频段所对应的人脸。另外，所选择的视频帧也可以是仅包含有效视频段所对应的人脸的视频帧。对于后一种情况，可以在步骤S340中将与期望人脸相对应的初始视频段中的原始视频帧转换为仅包含该期望人脸的新的视频帧、或者可以在步骤S360中将与期望人脸相对应的有效视频段中的原始视频帧转换为仅包含该期望人脸的新的视频帧、或者可以在步骤S380中将与期望人脸相对应的有效视频段中的原始视频帧或所选择的视频帧转换为仅包含该期望人脸的新的视频帧。比较期望的是，形成的每个视频音频组合是一个仅包含某人脸的人脸图像匹配一个与该人脸相对应的有效音频段。这样，在会议场景下，当用户期望查看会议记录时，可以以人脸图像加上有效音频段的形式呈现会议记录，这样是非常直观和非常易于检索的。

根据本发明实施例，为了补偿人脸检测误差，方法200(或300)可以进一步包括归类步骤。图4示出根据本发明一个实施例的归类步骤的示意性流程图。如图4所示，归类步骤可以包括以下步骤。

在步骤S410，针对特定视频音频组合所对应的人脸对特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，特定视频音频组合是至少部分人脸所对应的所有视频音频组合之一。

在一个示例中，视频采集装置和音频采集装置实时采集视频和音频，用于处理视频和相关音频的装置对视频和音频进行实时处理。也就是说，视频和音频被边采集边处理。在这种情况下，会随着时间推移获得越来越多的视频音频组合。每当获得一个新的视频音频组合时，可以将当前获得的视频音频组合与先前获得的所有视频音频组合进行对比，如果发现当前获得的视频音频组合与先前获得的某一视频音频组合属于同一个对象，则将二者归类到同一对象。对于当前获得的视频音频组合，可以分别计算与先前获得的某个视频音频组合的人脸与语音的相似度。

对于视频和音频先完整采集，随后进行处理的情况，可以选择任意视频音频组合作为特定视频音频组合，计算其与其余视频音频组合的人脸与语音的相似度。

在步骤S410主要提取特定人脸的人脸特征。例如，对于由一个视频帧和一个有效音频段组成的视频音频组合，视频帧可能仅包括视频音频组合所对应的人脸，也可能进一步包括其他人脸。在进行人脸特征提取时，需要仅针对视频音频组合所对应的人脸进行特征提取。

人脸特征提取，也称人脸表征，它是对人脸进行特征建模的过程。人脸特征提取可以采用两类方法实现：一种是基于几何特征的方法；另外一种是基于代数特征或统计学习的方法。基于几何特征的方法主要是通过提取人脸重要器官(例如眼睛、鼻子、嘴、下巴)的几何形状和几何关系作为人脸特征。人脸的眼睛、鼻子、嘴、下巴等部位可以称为特征点。利用这些特征点可构造出能够衡量人脸特征的特征分量，特征分量通常包括特征点间的欧氏距离、曲率和角度等。本文所述的人脸特征可以包括上述特征分量。基于代数特征或统计学习的方法是将视频帧视作一个矩阵，通过作矩阵变换或线性投影，可以提取人脸的统计特征，这是一种基于整体的思想，把整个视频帧(即人脸图像)视作一个模式进行识别，因此这种方法也是一种模板匹配方法。本文所述的人脸特征还可以包括上述统计特征。

以上人脸特征提取的方法仅是示例而非限制，可以采用任何其他已知的或未来可能实现的人脸特征提取方法来对特定视频音频组合中的视频帧进行处理，以获得特定人脸特征。

通过上述方式可以获得特定视频音频组合所对应的人脸的人脸特征，即特定人脸特征。

在步骤S420，对特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征。

声音特征提取可以通过提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征来实现。所提取的声音特征可以包括：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。

在步骤S430，针对所有视频音频组合中的其余视频音频组合中的每一个，计算特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度。

视频音频组合所对应的人脸特征也就是视频音频组合所对应的人脸的人脸特征。对于视频和音频被实时采集和处理的情况，可以在每次获得新的视频音频组合时，计算其所对应的人脸特征，并将计算出的人脸特征存储在存储装置中。同时，还可以将当前获得的视频音频组合所对应的人脸特征(即特定人脸特征)与已存储的、先前获得的每个视频音频组合所对应的人脸特征进行比较，计算二者之间的相似度。

对于视频和音频先完整采集，随后进行处理的情况，可以同时计算所有的视频音频组合的人脸特征，并选择其中的任意视频音频组合作为特定视频音频组合，计算其与其余视频音频组合之间的人脸相似度。

在步骤S440，针对其余视频音频组合中的每一个，计算特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度。

对于视频和音频被实时采集和处理的情况，可以在每次获得新的视频音频组合时，计算其所对应的声音特征，并将计算出的声音特征存储在存储装置中。同时，还可以将当前获得的视频音频组合所对应的声音特征(即特定声音特征)与已存储的、先前获得的每个视频音频组合所对应的声音特征进行比较，计算二者之间的相似度。

对于视频和音频先完整采集，随后进行处理的情况，可以同时计算所有的视频音频组合的声音特征，并选择其中的任意视频音频组合作为特定视频音频组合，计算其与其余视频音频组合之间的声音相似度。

在步骤S450，针对其余视频音频组合中的每一个，计算特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得特定视频音频组合与该视频音频组合之间的平均相似度。

对于某一视频音频组合x来说，其与特定视频音频组合y之间具有人脸相似度和声音相似度，假设分别为80％和90％。计算二者的平均值，得到平均相似度为85％。也就是说，该视频音频组合x与特定视频音频组合y之间的平均相似度是85％。

在步骤S460，针对其余视频音频组合中的每一个，如果特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将特定视频音频组合与该视频音频组合归类到同一对象。

相似度阈值可以根据需要而定，其可以是任何合适的值，本发明不对此进行限制。假设相似度阈值是90％，则平均相似度85％是小于相似度阈值的，这样，认为上述视频音频组合x和特定视频音频组合y不属于同一对象。如果之前通过人脸检测错误地将视频音频组合x和特定视频音频组合y对应到同一人脸，则通过这种方式，可以纠正人脸检测的误差。假设相似度阈值是80％，则平均相似度85％是大于相似度阈值的，这样，认为上述视频音频组合x和特定视频音频组合y属于同一对象。如果之前通过人脸检测错误地将视频音频组合x和特定视频音频组合y对应到不同人脸，则通过这种方式，可以纠正人脸检测的误差。

通过归类操作，可以使视频中的同一对象的人脸归类到一起，从而大幅度提升对音频的分类准确率。另外，采用归类操作可以使得本文所述的用于处理视频和相关音频的方法对同一对象的不同语气、不同音量等情况有着更好的兼容性，能减少把一个对象的不同语气分类到多个对象的情况。

应当理解，图4仅是示例而非限制，上述步骤S410至S460可以具有任何合理的实施顺序而非局限于图4所示的顺序。

根据本发明实施例，所述音频是由统一麦克风采集的，上述步骤S350可以包括：根据音频中的语音特征对音频进行分段，以获得混合音频段；以及针对至少部分人脸中的每一个，从混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

在会议场景下，可以采用一个(也可能多个)麦克风(即统一麦克风)采集所有与会人员的语音。在这种情况下，所有与会人员的语音将包含在同一路音频中。根据语音特征将音频分段之后，获得的音频段(即混合音频段)可能对应着不同的对象。通过初始视频段可知每个对象在何时说过话。例如，对于对象A，假设其具有三个初始视频段。结合初始视频段的分段时间可以找到在采集时间上与初始视频段一致的三个混合音频段。这三个混合音频段就是所需要的、与对象A的人脸相对应的初始音频段。需要注意的是，本文所述的采集时间一致可以包括采集时间同步或基本同步的情况，而不应当仅将其理解为采集时间必须完全相同。

在采用统一麦克风采集音频的情况下，结合人脸信息找出对应的语音信息的方式是一种简便快捷的方式。

根据本发明实施例，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，在步骤S330之前，方法300可以进一步包括：控制一个或多个定向麦克风分别朝向至少部分对象以采集一路或多路音频。

定向麦克风可以是带云台的定向麦克风。定向麦克风能够比较清晰地采集其所朝向的对象的语音，而几乎采集不到其他对象的语音。因此，通过定向麦克风可以实现高信噪比的音频采集。

在会议场景下，可以首先采集到包含所有与会人员的人脸的视频。然后实时进行人脸检测，根据检测到的人脸向与会人员分配定向麦克风。优选地，定向麦克风的数目等于或大于上文所述的一个或多个人脸的数目。这样，在一个或多个对象为会场中的所有对象的情况下，可以保证会场中的所有对象均分配有定向麦克风，从而可以保证所有对象的语音均被记录下来，避免出现语音的遗漏。如果定向麦克风的数目小于一个或多个人脸的数目，可以灵活地分配定向麦克风。通常，在同一时刻仅有一个对象说话。当当前分配有定向麦克风的对象不说话时，可以将定向麦克风重新分配给下一个说话的对象。这些操作可以基于人脸检测结果来实施。

当然，也可以将定向麦克风固定分配给对象，这样，如果定向麦克风的数目小于一个或多个人脸的数目，则仅采集到部分对象的语音。具体地，当检测到会场中的人脸之后，向其中的至少部分人脸所对应的至少部分对象分配一个或多个定向麦克风。能够分配到定向麦克风的对象的数目取决于定向麦克风的数目。每个定向麦克风可以采集一路音频，因此可以获得一路或多路音频。

在本实施例中，步骤S350可以包括：针对至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

由于定向麦克风所朝向的对象是已知的，因此每路音频与人脸的对应关系是已知的。例如，假设定向麦克风m朝向对象A，则来自定向麦克风m的一路音频中仅包含对象A的语音。对来自定向麦克风m的一路音频进行分段，可以直接获得与对象A相对应的初始音频段。当然，在灵活调整定向麦克风所朝向的对象的情况下，每路音频与人脸的对应关系可能是变化的。然而，这种变化也是已知的，可以分时段确定每路音频与人脸的对应关系，进而确定与每个对象相对应的初始音频段。

通过人脸检测和带云台的定向麦克风配合，可以获得比广范围麦克风(例如上文所述的统一麦克风)更加清晰的音频，从而可以对后续的音频分段、归类操作以及语音识别等步骤产生非常好的增益效果。

根据本发明实施例，在控制一个或多个定向麦克风分别朝向至少部分对象以采集一路或多路音频之前，方法300可以进一步包括：根据一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及按照每个人脸的优先级确定一个或多个定向麦克风要朝向的对象作为至少部分对象。

可以根据优先级为对象分配定向麦克风，这在定向麦克风的数目小于一个或多个人脸的数目的情况下尤其有用。优先级可以根据人脸的人脸特征和/或动作确定。人脸特征可以包括人脸轮廓的大小。例如，定向麦克风可以与摄像头放置在一处，当摄像头采集到的人脸较大时，可以认为该人脸所对应的对象离定向麦克风较近，就可以将该人脸的优先级提高，使得可以优先将定向麦克风分配给该人脸所对应的对象。人脸特征还可以包括人脸的嘴部动作。例如，如果通过视频中的若干连续视频帧中的人脸嘴部动作发现第一人脸所对应的对象停止说话，并且发现第二人脸所对应的对象开始说话，则可以将第一人脸的优先级降低，将第二人脸的优先级提高，使得原本分配给第一人脸所对应的对象的定向麦克风能够重新分配给第二人脸所对应的对象。人脸的动作可以包括人脸是否稳定。例如，如果通过视频中的若干连续视频帧发现人脸所对应的对象比较稳定不会乱动，则可以将该人脸的优先级提高，使得可以优先将定向麦克风分配给该人脸所对应的对象。

通过优先级可以使得定向麦克风的朝向能够较灵活地做出调整，在定向麦克风数量不够的情况下可以保证采集到尽可能多的对象的语音。

根据本发明实施例，上述步骤S340可以按照以下规则实施：针对至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在第一时刻之前的第一预定时段内持续处于闭合状态，则将第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在第二时刻之后的第二预定时段内持续处于闭合状态，则将第二时刻作为视频分段结束时间，其中，所述视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为初始视频段。

第一预定时段、第二预定时段以及下文所述的第三预定时段、第四预定时段中的任何两者可以相同或者不同，其可以根据需要而定，本发明不对此进行限制。

如果某个对象的嘴部在闭合第一预定时段之后突然张开，可以认为对象开始说话，可以将此时的时间点视为视频分段开始时间。如果某个对象的嘴部在张开第二预定时段之后突然闭合，可以认为对象停止说话，可以将此时的时间点视为视频分段结束时间。

当然，可以理解的是，也可以按照其他规则根据嘴部动作对视频进行分段，或者根据其他人脸特征对视频进行分段，其均应落入本发明的保护范围内。

根据本发明实施例，上述步骤S350可以按照以下规则实施：如果音频中的语音在第三时刻从不发声状态变化到发声状态并且在第三时刻之前的第三预定时段内持续处于不发声状态，则将第三时刻作为音频分段开始时间，如果音频中的语音在第四时刻从发声状态变化到不发声状态并且在第四时刻之后的第四预定时段内持续处于不发声状态，则将第四时刻作为音频分段结束时间，其中，音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为初始音频段。

与视频分段类似地，如果音频中的语音在不发声状态持续了第三预定时段之后突然发声，可以认为有对象开始说话，可以将此时的时间点视为音频分段开始时间。如果音频中的语音在发声状态持续了第四预定时段之后突然不再发声，可以认为对象停止说话，可以将此时的时间点视为音频分段结束时间。

当然，可以理解的是，也可以按照其他规则根据语音特征对音频进行分段，其均应落入本发明的保护范围内。

图5示出根据本发明另一个实施例的用于处理视频和相关音频的方法500的示意性流程图。图5所示的方法500的步骤S510至S550分别与图2所示的方法200的步骤S210至S250相对应。本领域技术人员根据图2和上文的描述可以理解图5中的上述步骤，为了简洁，在此不再赘述。在本实施例中，在步骤S550之后，方法500可以进一步包括以下步骤。

在步骤S560，针对至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件。

在步骤S570，针对至少部分人脸中的每一个，将文本文件与该人脸关联起来。

对于某个人脸来说，获得与该人脸对应的音频部分之后，可以进行语音识别。语音识别可以采用常规技术实现，本文不赘述。识别出的文本文件是用文字形式表示的对象的说话内容，其可以与说话的对象关联在一起。可以理解的是，在包括归类步骤的实施例中，原来关联到某个对象的有效音频段可能会被重新归类到另一对象，在这种情况下，可以对经归类后的有效音频段进行语音识别，将识别出的文本文件与正确的对象关联在一起。

通过语音识别可以将对象的说话内容转换成文字，这有利于语音的存储，并且使得用户可以方便地通过关键词对语音进行检索。

根据本发明实施例，方法200(300或500)可以进一步包括：输出期望信息。所述期望信息包括以下项中的一项或多项：所述视频、所述音频、包含一个或多个人脸中的特定人脸的视频帧、包含特定人脸的视频帧的采集时间、与特定人脸相对应的音频部分和与特定人脸相对应的音频部分的采集时间。

特定人脸可以是例如上文所述的至少部分人脸。例如，在会议场景下，当处理完在整个会议期间采集的视频和音频之后，可以获知在会议期间曾经说过话的与会人员及其说话内容。可以将曾经说过话的与会人员的人脸图像及其说话内容(音频或文本形式)输出，呈现给期望查看会议信息的用户。当然，也可以输出所有与会人员的人脸图像及曾经说过话的与会人员的说话内容(音频或文本形式)。另外，还可以将会议期间采集的整个视频或音频输出。

在一个示例中，可以利用诸如图1所示的输出装置108输出特定人脸的相关信息。例如，输出装置108可以是服务器端的输出接口，其可以将期望信息输出到用户的客户端。又例如，输出装置108可以是显示器、扬声器等中的一个或多个，其可以显示或播放期望信息。在显示期望信息时，可以以时间和/或对象的人脸为线索进行显示。例如，在会议场景下，可以显示所有与会人员或说过话的与会人员的人脸图像、说话时间和/或说话内容等。

通过输出期望信息，可以使用户及时获知说过话的对象及其说话内容，例如在会议场景下用户可以获知整个会议的情况。

根据本发明另一方面，提供一种检索方法。图6示出根据本发明一个实施例的检索方法600的示意性流程图。如图6所示，检索方法600包括以下步骤。

在步骤S610，接收针对目标人脸的检索指示。

检索指示可以是来自期望查看记录的音频和/或视频的用户。例如，在会议场景下，可以将整个会议期间曾经说过话的与会人员的人脸图像呈现给用户，用户经由交互界面点击某人脸图像，输入针对某人脸的检索指示。检索方法可以实现在服务器端，例如实现在上文所述的电子设备100上，用户可以经由输入装置106输入检索指示。在另一示例中，用户的移动终端可以将检索指示传送到服务器端，服务器端将检索到的信息(例如与某人脸相对应的音频部分)传送到用户的移动终端。在又一示例中，检索方法也可以实现在客户端，例如实现在用户的移动终端上，服务器可以将通过上文所述的用于处理视频和相关音频的方法处理的视频和音频及一些其他信息，例如与每个人脸对应的音频部分和/或人脸与音频部分的关联关系等，存储在存储装置中，并且可以将所存储的这些信息传送到用户的移动终端。用户可以在自己的移动终端上检索需要的信息。在再一示例中，上文所述的用于处理视频和相关音频的方法和检索方法可以一起实现在客户端，这种情况与二者一起实现在服务器端类似，不再赘述。

在步骤S620，根据检索指示从数据库中查找目标人脸的相关信息，其中，数据库用于存储根据上文所述的用于处理视频和相关音频的方法进行处理的视频以及音频和/或与至少部分人脸中的每一个相对应的音频部分，并且其中，目标人脸的相关信息包括以下项中的一项或多项：包含目标人脸的视频帧、包含目标人脸的视频帧的采集时间、与目标人脸相对应的音频部分和与目标人脸相对应的音频部分的采集时间。

如上文所述，在会议场景下，可以将整个会议期间曾经说过话的与会人员的人脸图像呈现给用户，用户经由交互界面点击某人脸图像，输入针对某人脸的检索指示。当用户点击某个人脸之后，可以从数据库中查找该人脸在会议期间的视频部分和音频部分。包含该人脸的视频帧可以是单个视频帧，也可以是连续的视频帧(即一段视频)。另外，数据库还可以存储代表与至少部分人脸中的每一个相对应的音频部分的文本文件。也就是说，可以存储以文字表示的对象在会议期间的说话内容。这样，目标人脸的相关信息还可以包括与目标人脸相对应的文本文件。

在步骤S630，输出目标人脸的相关信息。

包含目标人脸的视频帧可以经由显示界面(例如显示器等)输出。与目标人脸相对应的音频部分可以经由声音播放装置(例如扬声器等)输出。通过输出需要的视频帧或音频部分，可以向用户提供关于在会议期间说过话的对象及其说话内容的信息。

对于根据上文所述的用于处理视频和相关音频的方法进行处理的视频和音频来说，每个人脸与其语音之间的关联关系是已知的，因此可以快速有效地检索到与人脸相对应的语音。

应当注意，本发明不局限于以上检索方法，其他任何合适的检索方法也是可行的。例如，还可以根据时间来检索目标人脸、包含目标人脸的视频帧、与目标人脸相对应的音频部分等。

图7示出了根据本发明一个实施例的用于处理视频和相关音频的装置700的示意性框图。

如图7所示，根据本发明实施例的用于处理视频和相关音频的装置700包括第一获取模块710、人脸检测模块720、第二获取模块730、音频部分确定模块740和音频关联模块750。

第一获取模块710用于获取包括一个或多个对象的一个或多个人脸的视频。第一获取模块710可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

人脸检测模块720用于对视频中的每个视频帧进行人脸检测，以识别一个或多个人脸。人脸检测模块720可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

第二获取模块730用于获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频。第二获取模块730可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

音频部分确定模块740用于针对一个或多个人脸中的至少部分人脸中的每一个，确定音频中的、与该人脸相对应的音频部分，其中，至少部分人脸分别属于至少部分对象。音频部分确定模块740可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

音频关联模块750用于针对至少部分人脸中的每一个，将该人脸与对应的音频部分关联起来。音频关联模块750可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，用于处理视频和相关音频的装置700可以进一步包括：视频分段模块，用于针对至少部分人脸中的每一个，根据该人脸的嘴部动作对视频进行分段，以获得与该人脸相对应的初始视频段；音频分段模块，用于针对至少部分人脸中的每一个，根据音频中的语音特征对音频进行分段，以获得与该人脸相对应的初始音频段；以及有效视频及音频获得模块，用于根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段。音频部分确定模块740可以包括确定子模块，用于针对至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

示例性地，音频关联模块750可以包括：视频帧选择子模块，用于针对至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；以及关联子模块，用于将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。

示例性地，用于处理视频和相关音频的装置700可以进一步包括：人脸特征提取模块，用于针对特定视频音频组合所对应的人脸对特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，特定视频音频组合是至少部分人脸所对应的所有视频音频组合之一；声音特征提取模块，对特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；人脸相似度计算模块，用于针对所有视频音频组合中的其余视频音频组合中的每一个，计算特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；声音相似度计算模块，用于针对其余视频音频组合中的每一个，计算特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；平均相似度计算模块，用于针对其余视频音频组合中的每一个，计算特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得特定视频音频组合与该视频音频组合之间的平均相似度；归类模块，用于针对其余视频音频组合中的每一个，如果特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将特定视频音频组合与该视频音频组合归类到同一对象。

示例性地，有效视频及音频获得模块可以包括：有效视频段确定子模块，用于针对至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段；以及有效音频段确定子模块，用于针对至少部分人脸中的每一个，将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

示例性地，有效视频及音频获得模块包括：统一分段时间确定子模块，用于针对至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；统一分段子模块，用于根据统一分段时间对视频和音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

示例性地，音频是由统一麦克风采集的，音频分段模块包括：第一分段子模块，用于根据音频中的语音特征对音频进行分段，以获得混合音频段；以及音频段选择子模块，用于针对至少部分人脸中的每一个，从混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

示例性地，音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，用于处理视频和相关音频的装置700可以进一步包括控制模块，用于控制一个或多个定向麦克风分别朝向至少部分对象以采集一路或多路音频；音频分段模块可以包括第二分段子模块，用于针对至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

示例性地，定向麦克风的数目等于或大于一个或多个人脸的数目。

示例性地，用于处理视频和相关音频的装置700可以进一步包括：优先级确定模块，用于根据一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及对象确定模块，用于按照每个人脸的优先级确定一个或多个定向麦克风要朝向的对象作为至少部分对象。

示例性地，视频分段模块按照以下规则对视频进行分段：针对至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在第一时刻之前的第一预定时段内持续处于闭合状态，则将第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在第二时刻之后的第二预定时段内持续处于闭合状态，则将第二时刻作为视频分段结束时间，其中，视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为初始视频段。

示例性地，音频分段模块按照以下规则对音频进行分段：如果音频中的语音在第三时刻从不发声状态变化到发声状态并且在第三时刻之前的第三预定时段内持续处于不发声状态，则将第三时刻作为音频分段开始时间，如果音频中的语音在第四时刻从发声状态变化到不发声状态并且在第四时刻之后的第四预定时段内持续处于不发声状态，则将第四时刻作为音频分段结束时间，其中，音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为初始音频段。

示例性地，用于处理视频和相关音频的装置700可以进一步包括：语音识别模块，用于针对至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；以及文本关联模块，用于将文本文件与该人脸关联起来。

示例性地，用于处理视频和相关音频的装置700可以进一步包括输出模块，用于输出期望信息，其中，期望信息包括以下项中的一项或多项：视频、音频、包含一个或多个人脸中的特定人脸的视频帧、包含特定人脸的视频帧的采集时间、与特定人脸相对应的音频部分和与特定人脸相对应的音频部分的采集时间。

根据本发明另一方面，提供一种检索装置。图8示出了根据本发明一个实施例的检索装置800的示意性框图。检索装置800包括接收模块810、查找模块820和输出模块830。

接收模块810用于接收针对目标人脸的检索指示。

查找模块820用于根据检索指示从数据库中查找目标人脸的相关信息，其中，数据库用于存储利用上文所述的用于处理视频和相关音频的装置进行处理的视频以及音频和/或与至少部分人脸中的每一个相对应的音频部分，并且其中，目标人脸的相关信息包括以下项中的一项或多项：包含目标人脸的视频帧、包含目标人脸的视频帧的采集时间、与目标人脸相对应的音频部分和与目标人脸相对应的音频部分的采集时间。

输出模块830用于输出目标人脸的相关信息。

上文已经描述了检索方法600的实施方式，本领域技术人员根据上文描述并结合图6可以理解检索装置800的结构、运行方式及其优点等，不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图9示出了根据本发明一个实施例的用于处理视频和相关音频的***900的示意性框图。用于处理视频和相关音频的***900包括视频采集装置910、音频采集装置920、存储装置930、以及处理器940。

视频采集装置910用于采集包括对象的人脸的视频。音频采集装置920用于采集包括对象的语音的音频。

所述存储装置930存储用于实现根据本发明实施例的用于处理视频和相关音频的方法中的相应步骤的程序代码。

所述处理器940用于运行所述存储装置930中存储的程序代码，以执行根据本发明实施例的用于处理视频和相关音频的方法的相应步骤，并且用于实现根据本发明实施例的用于处理视频和相关音频的装置700中的第一获取模块710、人脸检测模块720、第二获取模块730、音频部分确定模块740和音频关联模块750。

在一个实施例中，在所述程序代码被所述处理器940运行时执行以下步骤：获取包括一个或多个对象的一个或多个人脸的视频；对视频中的每个视频帧进行人脸检测，以识别一个或多个人脸；获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频；针对一个或多个人脸中的至少部分人脸中的每一个，确定音频中的、与该人脸相对应的音频部分；将该人脸与对应的音频部分关联起来，其中，至少部分人脸分别属于至少部分对象。

在一个实施例中，在所述程序代码被所述处理器940运行时还执行以下步骤：针对至少部分人脸中的每一个，根据该人脸的嘴部动作对视频进行分段，以获得与该人脸相对应的初始视频段；根据音频中的语音特征对音频进行分段，以获得与该人脸相对应的初始音频段；以及根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段。在所述程序代码被所述处理器940运行时所执行的针对一个或多个人脸中的至少部分人脸中的每一个确定音频中的、与该人脸相对应的音频部分的步骤包括：针对至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

在一个实施例中，在所述程序代码被所述处理器940运行时所执行的针对一个或多个人脸中的至少部分人脸中的每一个将该人脸与对应的音频部分关联起来的步骤包括：针对至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。

在一个实施例中，在所述程序代码被所述处理器940运行时还执行以下步骤：针对特定视频音频组合所对应的人脸对特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，特定视频音频组合是至少部分人脸所对应的所有视频音频组合之一；对特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；针对所有视频音频组合中的其余视频音频组合中的每一个，计算特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；计算特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；计算特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得特定视频音频组合与该视频音频组合之间的平均相似度；如果特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将特定视频音频组合与该视频音频组合归类到同一对象。

在一个实施例中，在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段的步骤包括：针对至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段，并且将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

在一个实施例中，在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段的步骤包括：针对至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；根据统一分段时间对视频和音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

在一个实施例中，音频是由统一麦克风采集的，在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段以获得与该人脸相对应的初始音频段的步骤包括：根据音频中的语音特征对音频进行分段，以获得混合音频段；以及针对至少部分人脸中的每一个，从混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

在一个实施例中，音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，在所述程序代码被所述处理器940运行时还执行以下步骤：控制一个或多个定向麦克风分别朝向至少部分对象以采集一路或多路音频；在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段以获得与该人脸相对应的初始音频段的步骤包括：针对至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

在一个实施例中，定向麦克风的数目等于或大于一个或多个人脸的数目。

在一个实施例中，在所述程序代码被所述处理器940运行时还执行以下步骤：根据一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及按照每个人脸的优先级确定一个或多个定向麦克风要朝向的对象作为至少部分对象。

在一个实施例中，在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据该人脸的嘴部动作对视频进行分段的步骤按照以下规则实施：针对至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在第一时刻之前的第一预定时段内持续处于闭合状态，则将第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在第二时刻之后的第二预定时段内持续处于闭合状态，则将第二时刻作为视频分段结束时间，其中，视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为初始视频段。

在一个实施例中，在所述程序代码被所述处理器940运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段的步骤按照以下规则实施：如果音频中的语音在第三时刻从不发声状态变化到发声状态并且在第三时刻之前的第三预定时段内持续处于不发声状态，则将第三时刻作为音频分段开始时间，如果音频中的语音在第四时刻从发声状态变化到不发声状态并且在第四时刻之后的第四预定时段内持续处于不发声状态，则将第四时刻作为音频分段结束时间，其中，音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为初始音频段。

在一个实施例中，在所述程序代码被所述处理器940运行时还执行以下步骤：针对至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；将文本文件与该人脸关联起来。

在一个实施例中，在所述程序代码被所述处理器940运行时还执行以下步骤：输出期望信息，其中，期望信息包括以下项中的一项或多项：视频、音频、包含一个或多个人脸中的特定人脸的视频帧、包含特定人脸的视频帧的采集时间、与特定人脸相对应的音频部分和与特定人脸相对应的音频部分的采集时间。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的用于处理视频和相关音频的方法的相应步骤，并且用于实现根据本发明实施例的用于处理视频和相关音频的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的用于处理视频和相关音频的装置的各个功能模块，并且/或者可以执行根据本发明实施例的用于处理视频和相关音频的方法。

在一个实施例中，所述计算机程序指令在被计算机运行时执行以下步骤：获取包括一个或多个对象的一个或多个人脸的视频；对视频中的每个视频帧进行人脸检测，以识别一个或多个人脸；获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频；针对一个或多个人脸中的至少部分人脸中的每一个，确定音频中的、与该人脸相对应的音频部分；将该人脸与对应的音频部分关联起来，其中，至少部分人脸分别属于至少部分对象。

在一个实施例中，所述计算机程序指令在被计算机运行时还执行以下步骤：针对至少部分人脸中的每一个，根据该人脸的嘴部动作对视频进行分段，以获得与该人脸相对应的初始视频段；根据音频中的语音特征对音频进行分段，以获得与该人脸相对应的初始音频段；以及根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段。在所述计算机程序指令在被计算机运行时所执行的针对一个或多个人脸中的至少部分人脸中的每一个确定音频中的、与该人脸相对应的音频部分的步骤包括：针对至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。

在一个实施例中，所述计算机程序指令在被计算机运行时所执行的针对一个或多个人脸中的至少部分人脸中的每一个将该人脸与对应的音频部分关联起来的步骤包括：针对至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。

在一个实施例中，所述计算机程序指令在被计算机运行时还执行以下步骤：针对特定视频音频组合所对应的人脸对特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，特定视频音频组合是至少部分人脸所对应的所有视频音频组合之一；对特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；针对所有视频音频组合中的其余视频音频组合中的每一个，计算特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；计算特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；计算特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得特定视频音频组合与该视频音频组合之间的平均相似度；如果特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将特定视频音频组合与该视频音频组合归类到同一对象。

在一个实施例中，在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段的步骤包括：针对至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段，并且将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。

在一个实施例中，在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得视频中的、与该人脸相对应的有效视频段和音频中的、与该人脸相对应的有效音频段的步骤包括：针对至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；根据统一分段时间对视频和音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。

在一个实施例中，音频是由统一麦克风采集的，在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段以获得与该人脸相对应的初始音频段的步骤包括：根据音频中的语音特征对音频进行分段，以获得混合音频段；以及针对至少部分人脸中的每一个，从混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。

在一个实施例中，音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，在所述计算机程序指令在被计算机运行时还执行以下步骤：控制一个或多个定向麦克风分别朝向至少部分对象以采集一路或多路音频；在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段以获得与该人脸相对应的初始音频段的步骤包括：针对至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。

在一个实施例中，在所述计算机程序指令在被计算机运行时还执行以下步骤：根据一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及按照每个人脸的优先级确定一个或多个定向麦克风要朝向的对象作为至少部分对象。

在一个实施例中，在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据该人脸的嘴部动作对视频进行分段的步骤按照以下规则实施：针对至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在第一时刻之前的第一预定时段内持续处于闭合状态，则将第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在第二时刻之后的第二预定时段内持续处于闭合状态，则将第二时刻作为视频分段结束时间，其中，视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为初始视频段。

在一个实施例中，在所述计算机程序指令在被计算机运行时所执行的针对至少部分人脸中的每一个根据音频中的语音特征对音频进行分段的步骤按照以下规则实施：如果音频中的语音在第三时刻从不发声状态变化到发声状态并且在第三时刻之前的第三预定时段内持续处于不发声状态，则将第三时刻作为音频分段开始时间，如果音频中的语音在第四时刻从发声状态变化到不发声状态并且在第四时刻之后的第四预定时段内持续处于不发声状态，则将第四时刻作为音频分段结束时间，其中，音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为初始音频段。

在一个实施例中，在所述计算机程序指令在被计算机运行时还执行以下步骤：针对至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；将文本文件与该人脸关联起来。

在一个实施例中，在所述计算机程序指令在被计算机运行时还执行以下步骤：输出期望信息，其中，期望信息包括以下项中的一项或多项：视频、音频、包含一个或多个人脸中的特定人脸的视频帧、包含特定人脸的视频帧的采集时间、与特定人脸相对应的音频部分和与特定人脸相对应的音频部分的采集时间。

根据本发明实施例的用于处理视频和相关音频的***中的各模块可以通过根据本发明实施例的用于处理视频和相关音频的检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的用于处理视频和相关音频的方法及装置、检索方法及装置、用于处理视频和相关音频的***以及存储介质，通过将对象的人脸与其语音关联起来，可以确定对象的说话时间和说话内容，从而方便用户在后期对该对象的说话内容进行查看和检索。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于处理视频和相关音频的方法，包括：

获取包括一个或多个对象的一个或多个人脸的视频；

针对所述一个或多个人脸中的至少部分人脸中的每一个，

确定所述音频中的、与该人脸相对应的音频部分；

将该人脸与对应的音频部分关联起来，

其中，所述至少部分人脸分别属于所述至少部分对象；

其中，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之前，所述方法进一步包括：

针对所述至少部分人脸中的每一个，

2.如权利要求1所述的方法，其中，所述针对所述一个或多个人脸中的至少部分人脸中的每一个将该人脸与对应的音频部分关联起来包括：

针对所述至少部分人脸中的每一个，

3.如权利要求2所述的方法，其中，所述方法进一步包括：

4.如权利要求1至3任一项所述的方法，其中，

所述针对所述至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段包括：

5.如权利要求1至3任一项所述的方法，其中，所述针对所述至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段包括：

针对所述至少部分人脸中的每一个，

6.如权利要求1所述的方法，其中，所述音频是由统一麦克风采集的，

7.如权利要求1所述的方法，其中，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，

8.如权利要求7所述的方法，其中，所述定向麦克风的数目等于或大于所述一个或多个人脸的数目。

9.如权利要求7或8所述的方法，其中，在所述控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频之前，所述方法进一步包括：

10.如权利要求1所述的方法，其中，所述针对所述至少部分人脸中的每一个根据该人脸的嘴部动作对所述视频进行分段按照以下规则实施：

11.如权利要求1所述的方法，其中，所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段按照以下规则实施：

12.如权利要求1所述的方法，其中，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之后，所述方法进一步包括：

针对所述至少部分人脸中的每一个，

将所述文本文件与该人脸关联起来。

13.如权利要求1所述的方法，其中，所述方法进一步包括：输出期望信息，

14.一种检索方法，包括：

接收针对目标人脸的检索指示；

输出所述目标人脸的相关信息；

其中，所述数据库用于存储根据权利要求1至13任一项所述的用于处理视频和相关音频的方法进行处理的视频以及音频和/或与所述至少部分人脸中的每一个相对应的音频部分，

15.一种用于处理视频和相关音频的装置，包括：

音频关联模块，用于针对所述至少部分人脸中的每一个，将该人脸与对应的音频部分关联起来；

其中，所述装置进一步包括：

16.如权利要求15所述的装置，其中，所述音频关联模块包括：

17.如权利要求16所述的装置，其中，所述装置进一步包括：

18.如权利要求15至17任一项所述的装置，其中，所述有效视频及音频获得模块包括：

19.如权利要求15至17任一项所述的装置，其中，所述有效视频及音频获得模块包括：

20.如权利要求15所述的装置，其中，所述音频是由统一麦克风采集的，

所述音频分段模块包括：

21.如权利要求15所述的装置，其中，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，

所述装置进一步包括：

所述音频分段模块包括：

22.如权利要求21所述的装置，其中，所述定向麦克风的数目等于或大于所述一个或多个人脸的数目。

23.如权利要求21或22所述的装置，其中，所述装置进一步包括：

24.如权利要求15所述的装置，其中，所述视频分段模块按照以下规则对所述视频进行分段：

25.如权利要求15所述的装置，其中，所述音频分段模块按照以下规则对所述音频进行分段：

26.如权利要求15所述的装置，其中，所述装置进一步包括：

文本关联模块，用于将所述文本文件与该人脸关联起来。

27.如权利要求15所述的装置，其中，所述装置进一步包括输出模块，用于输出期望信息，

28.一种检索装置，包括：

接收模块，用于接收针对目标人脸的检索指示；

输出模块，用于输出所述目标人脸的相关信息；

其中，所述数据库用于存储利用权利要求15至27任一项所述的用于处理视频和相关音频的装置进行处理的视频以及音频和/或与所述至少部分人脸中的每一个相对应的音频部分，