CN102087704A

CN102087704A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN102087704A
Application number: CN2010105781767A
Authority: CN
Inventors: 柏木晓史
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-08
Filing date: 2010-12-01
Publication date: 2011-06-08
Also published as: JP2011123529A; US20110135152A1

Abstract

一种信息处理装置、信息处理方法和程序。该信息处理装置包括：检测单元，从运动图像内容的帧中检测人脸；第一确定单元，通过提取所检测到的脸的特征量并且在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在第一数据库中与人识别信息相对应地记录有脸的特征量；声音分析单元，分析当从运动图像内容的帧中检测人脸时获取的声音，并生成声音信息；以及第二确定单元，通过在第二数据库中检验与未被第一确定单元确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在第二数据库中与人识别信息相对应地记录有声音信息。

Description

信息处理装置、信息处理方法和程序

技术领域

本发明涉及一种信息处理装置、信息处理方法和程序，更具体地涉及一种能够根据具有声音的运动图像内容的图像来检测人脸并且识别和跟踪脸的信息处理装置、信息处理方法和程序。

背景技术

过去，提出了检测和跟踪存在于运动图像上的移动体(诸如人等)的大量方法。例如，在日本待审专利申请公开No.2002-203245中，在运动图像上提供包括移动体的矩形区域，且跟踪该矩形的像素值的移动。

过去，提出了检测存在于运动图像上的人脸并且确定此人是谁的大量识别方法。具体地，例如提出了如下方法：提取所检测到的脸的特征量并且在彼此对应地记录脸的特征量和预选择的人的数据库中检验该特征量，以确定所检测到的脸是谁。

当组合上述移动体跟踪方法和脸识别方法时，例如，可跟踪出现在运动图像内容上的特定人的移动。

发明内容

然而，在上述移动体跟踪方法中，当图像中的被跟踪对象藏在阴影中或图像完全变暗时，被跟踪对象可能从视野中丢失。在这种情况下，必须重新检测对象以进行跟踪。因此，可能无法连续地跟踪对象。

在上述的脸识别方法中，例如，可识别向正前方看的脸。然而，即使对于同一个人，可能无法识别具有面部表情的脸，诸如笑脸或哭脸。而且，可能无法识别在除向前方向之外的方向看的脸，诸如侧面像。

即使当通过组合移动体跟踪方法和脸识别方法来跟踪运动图像内容的图像上出现的特定人的移动时，也出现该问题。

期望提供一种能够通过指定人脸来连续地跟踪出现在运动图像内容的图像上的人的移动的技术。

根据本发明的实施例，提供一种识别在具有声音的运动图像内容上出现的人的信息处理装置。该信息处理装置包括：检测单元，从运动图像内容的帧中检测人脸；第一确定单元，通过提取所检测到的脸的特征量并在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在该第一数据库中与人识别信息相对应地记录有脸的特征量；声音分析单元，分析当从运动图像内容的帧中检测人脸时获取的声音，并生成声音信息；以及第二确定单元，通过在第二数据库中检验与在从运动图像内容的帧中检测到的脸中未被第一确定单元确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在第二数据库中与人识别信息相对应地记录有声音信息。

根据本发明实施例的信息处理装置可进一步包括记录单元，该记录单元与关于确定出的人的人识别信息相对应地在第二数据库中记录与从运动图像内容的帧中检测到的脸中被第一确定单元确定出的人的脸相对应的声音信息。

根据本发明实施例的信息处理装置可进一步包括跟踪单元，该跟踪单元跟踪在运动图像内容的帧上检测到和确定出的人的脸的位置。

跟踪单元可在没有检测到人脸的帧上估计脸的位置。

跟踪单元可基于在没有检测到人脸的帧的在前帧和随后帧中的至少一帧上检测到的脸的位置轨迹来估计脸的位置。

跟踪单元可基于与没有检测到人脸的帧的紧邻在前的帧上检测到的脸相对应的声音信息和与没有检测到人脸的帧的紧接在后的帧上检测到的脸相对应的声音信息的连续性，来估计脸的位置。

声音分析单元可提取从运动图像内容的帧中检测到人脸的脸检测时段的声音v1和在脸检测时段期间被检测到的人的嘴移动的时段的声音v2，并且可生成通过声音v1和声音v2之差V的傅立叶变换获得的频率分布作为声音信息。

根据本发明实施例，提供一种识别在具有声音的运动图像内容上出现的人的信息处理装置的信息处理方法。该信息处理方法使信息处理装置执行以下步骤：从运动图像内容的帧中检测人脸；第一确定人步骤，通过提取所检测到的脸的特征量并且在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在第一数据库中与人识别信息相对应地记录有脸的特征量；分析当从运动图像内容的帧中检测到人脸时获取的声音，并生成声音信息；以及第二确定人步骤，通过在第二数据库中检验与从运动图像内容的帧中检测到的脸中未在第一确定人步骤中确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在第二数据库中与人识别信息相对应地记录有声音信息。

根据本发明实施例，提供一种控制信息处理装置的程序，该信息处理装置识别在具有声音的运动图像内容上出现的人。该程序使信息处理装置的计算机执行以下步骤：从运动图像内容的帧中检测人脸；第一确定人步骤，通过提取所检测到的脸的特征量并且在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在第一数据库中与人识别信息相对应地记录有脸的特征量；分析当从运动图像内容的帧中检测到人脸时获取的声音，并生成声音信息；以及第二确定人步骤，通过在第二数据库中检验与从运动图像内容的帧中检测到的脸中未在第一确定人步骤中确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在第二数据库中与人识别信息相对应地记录有声音信息。

根据本发明实施例，从运动图像内容的帧中检测人脸，提取所检测到的脸的特征量，且通过在第一数据库中执行检验来确定与所检测到的脸相对应的人，在该第一数据库中与人识别信息相对应地记录脸的特征量。分析从运动图像内容的帧中检测到人脸时获取的声音以生成声音信息，且通过在第二数据库中检验与在从运动图像内容的帧中检测到的脸中未确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在第二数据库中与人识别信息相对应地记录声音信息。

根据本发明实施例，可以确定具有出现在运动图像内容的图像上的脸的人。

附图说明

图1是示出根据本发明实施例的人跟踪设备的示例配置的框图。

图2是示出人跟踪处理的流程图。

图3是示出声音信息记录处理的流程图。

图4是示出人声音数据库的示例的图。

图5是示出基于声音信息的脸识别的图。

图6是示出基于声音信息的连续性来估计人的位置的处理的图。

图7是示出基于声音信息的连续性来判断是否存在场景的不连续性的处理的图。

图8是示出计算机的示例配置的框图。

具体实施方式

以下，参考附图详细描述本发明的优选实施例(以下称为实施例)。按照如下顺序进行描述。

1.实施例

人跟踪设备的示例配置

人跟踪设备的操作

1.实施例

人跟踪设备的示例配置

根据本发明实施例的人跟踪设备是根据具有声音的运动图像内容的图像来检测人脸、识别人并继续跟踪人的设备。

图1是示出根据本发明实施例的人跟踪设备的示例配置的图。人跟踪设备10包括分离单元11、帧缓冲器12、脸检测单元13、脸识别单元14、人脸数据库(DB)15、人确定单元16、人声音数据库17、人跟踪单元18、声音检测单元19、声音分析单元20以及字符信息提取单元21。

分离单元11将输入到人跟踪设备10的运动图像内容(图像、声音和字符信息诸如元数据或字幕)分离成图像、声音和字符信息。分离出的图像被提供给帧缓冲器12，声音被提供给声音检测单元19，字符信息被提供给字符信息检测单元21。

帧缓冲器12逐帧地暂时存储从分离单元11提供的运动图像内容的图像。脸检测单元13顺序地从帧缓冲器12获取图像的帧，检测所获取的帧上存在的人脸，并将所获取的帧和检测结果输出到脸识别单元14。脸检测单元13检测脸被检测到的时段和脸的嘴移动(发声)的时段，并将该检测结果通知给声音检测单元19。

脸识别单元14通过计算在帧上检测到的脸的特征量并且在人脸数据库15中检验所计算出的脸的特征量来确定具有所检测到的脸的人(识别所检测到的脸是谁)。可能存在脸识别单元14不能识别的脸。

人脸数据库15是通过机器学习提前准备的。例如，与人识别信息(名字等)(诸如出现在运动图像内容(诸如电视节目或电影等)中的表演者、运动员、政客和文化人物)相对应地记录脸的特征量。

人确定单元16允许在检测到脸时获取的(从声音分析单元20提供的)声音信息与具有由脸检测单元13检测到的脸并且由脸识别单元14识别出的人相对应，并将声音信息记录在人声音数据库17中。而且，人确定单元16还允许字符信息提取单元21提取的关键字与具有由脸识别单元14识别出的脸的人相对应并且将关键字记录在人声音数据库17中。

人确定单元16通过在人声音数据库17中检验在检测到脸时获取的(从声音分析单元20提供的)、与由脸检测单元13检测到的脸中未由脸识别单元14确定出的人的脸有关的声音信息来确定具有所检测到的脸的人。

人声音数据库17与在人确定单元16的控制下针对所检测到的脸而确定出的人的人识别信息相对应地记录声音信息。人声音数据库17的记录细节可在人确定单元16的控制下记录或可被预先记录。或者，可添加和更新来自外部的记录细节。另外，可将人声音数据库17的记录细节提供给另一人跟踪设备10等。

人跟踪单元18跟踪在每个帧中检测到和确定出的人的脸的移动。人跟踪单元18通过基于没有检测到人脸的帧的在前帧和随后帧中检测到的脸的位置和声音信息的连续性来估计未检测到的脸的位置，来***针对没有检测到人脸的帧的脸的跟踪。

声音检测单元19根据由分离单元11提供的运动图像内容的声音提取脸检测单元13检测到脸的脸检测时段的声音v1。声音检测单元19提取在脸检测时段期间脸的嘴移动的时段的声音v2。声音检测单元19计算声音v1和声音v2之差V，并将该差V输出到声音分析单元20。

在此，假定声音v1不包括从脸被检测到的人发出的声音而仅包括环境声音。然而，假定声音v2包括从脸被检测到的人发出的声音和环境声音二者。因此，由于环境声音被排除了，所以认为差V仅包括由脸被检测到的人发出的声音。

声音分析单元20对从声音检测单元19输入的差V(＝v2-v1)执行傅立叶变换，并将通过傅立叶变换获得的差V(由脸被检测到的人发出的声音)的频率分布f作为声音信息输出到人确定单元16。此外，声音分析单元20可检测所发出的声音(差V)的语调、强度、口音等的变化模式以及频率分布f，且可允许该变化模式被包括在声音信息中以便被记录。

字符信息提取单元21分析从分离单元11提供的运动图像内容的字符信息(运动图像内容的概要描述句子、下方字幕(subtitle)、内嵌字幕(telop)等)的语素，并从该结果提取适当的名词。由于认为适当的名词包括脸被检测到的人的名字、角色名称、固定词组等，所以脸被检测到的人的名字、角色名称、固定词组等作为关键字被提供给人确定单元16。

人跟踪设备的操作

接着，描述人跟踪设备10的操作。图2是示出人跟踪设备10的人跟踪处理的流程图。

人跟踪处理是根据具有声音的运动图像内容的图像来检测人脸、识别人以及连续地跟踪人的处理。

在步骤S1，运动图像内容被输入到人跟踪设备10。分离单元11分离运动图像内容的图像、声音和字符信息，并将图像、声音和字符信息分别提供给帧缓冲器12、声音检测单元19和字符信息检测单元21。

在步骤S2中，脸检测单元13顺序地从帧缓冲器12获取图像的帧，检测所获取的帧上存在的人脸，并且将检测结果和所获取的帧输出到脸识别单元14。在此，检测具有各种面部表情的脸和朝各个方向上看的脸，以及向正前方看的脸。在步骤S2的处理中可使用任何现有的脸检测技术。脸检测单元13检测脸检测时段和人的嘴移动的时段，并将检测结果通知给声音检测单元19。

在步骤S3，脸识别单元14通过计算在帧上检测到的脸的特征量并在人脸数据库15中检验所计算出的特征量来确定具有所检测到的脸的人。

另一方面，在步骤S4中，声音检测单元19从运动图像内容的声音中提取与由脸被检测到的人发出的声音相对应的声音，声音分析单元20获取与提取出的声音相对应的声音信息，且人确定单元16与识别出的人相对应地将该声音信息记录在人声音数据库17中。例如，如图4所示，声音信息(频率分布f)是与人识别信息(人A的名字等)相对应地在人声音数据库17中生成的。

下面详细描述步骤S4的处理(下文中称为声音信息记录处理)。图3是示出声音信息记录处理的流程图。

在步骤S21中，声音检测单元19从分离单元11提供的运动图像内容的声音中提取脸检测单元13检测脸的脸检测时段的声音v1。声音检测单元19提取脸检测时段期间脸的嘴移动的时段的声音v2。在步骤S22中，声音检测单元19计算声音v1和声音v2之差V并且将该差V输出到声音分析单元20。

在步骤S23中，声音分析单元20对从声音检测单元19输入的差V(＝v2-v1)执行傅立叶变换，并且将通过傅立叶变换获得的差V(由具有所检测到脸的人发出的声音)的频率分布f作为声音信息输出到人确定单元16。

将与一次发出的声音相对应的频率分布f记录为声音信息以识别人是不恰当的。因此，在步骤S24中，当检测到与同一人相联系的脸时，人确定单元16将相对应的发出的声音(差V)的频率分布f分组成频率分布组，并且通过对频率分布组取平均来确定频率分布f。在步骤S25中，人确定单元16将频率分布f作为相应人的声音信息记录在人声音数据库15中。

在步骤S5中，再次参考图2，字符信息提取单元21通过分析从分离单元11提供的运动图像内容的字符信息的语素来提取适当的名词，并将该适当的名词作为关键字提供给人确定单元16。人确定单元16与识别出的人相对应地将输入的关键字记录在人声音数据库17中。

在步骤S6中，人确定单元16判断在由脸检测单元13检测到的脸中是否存在未被脸识别单元14确定出的人的脸。当判断出存在这样的脸时，处理进行到步骤S7。在步骤S7中，人确定单元16通过在人声音数据库17中检验在检测脸时获取的(从声音分析单元20提供的)、与在由脸检测单元13检测到的脸中未确定出的人的脸有关的声音信息来确定具有所检测到的脸的人。

下文中参照图5描述步骤S6和S7的处理。

例如，当在步骤S2中脸检测单元13检测到图5所示的脸2时，在步骤S3中脸识别单元14基于脸的特征量来识别人A。相似地，当在步骤S2中脸检测单元13检测图5所示的脸4时，在步骤S3中脸识别单元14基于脸的特征量来识别人B。

然而，当在步骤S2中脸检测单元13检测到图5所示的脸1时，在步骤S3中由于脸的表情或方向可能无法识别人。在这种情况下，在步骤S7中在人声音数据库17中检验与脸1相对应的声音信息。然后，当与脸1相对应的声音信息与人B的声音信息相似时，具有脸1的人被识别为人B。

相似地，当在步骤S2中脸检测单元13检测到图5所示的脸3时，在步骤S3中由于脸的表情或方向可能无法识别人。在这种情况下，在步骤S7中在人声音数据库17中检验与脸3相对应的声音信息。然后，当与脸3相对应的声音信息与人A的声音信息相似时，具有脸3的人被识别为人A。

当然，为了将具有所检测到的脸1的人识别为人B，必须将人B的声音信息预先记录在人声音数据库17中，或必须与人B的人识别信息相对应地在人声音数据库17中记录在将帧上检测到的脸识别和检测为人B时获取的声音信息，直到进行了识别。相似地，为了将具有所检测到的脸3的人识别为人A，必须预先将人A的声音信息记录在人声音数据库17中，或必须与人A的人识别信息相对应地在人声音数据库17中记录在将帧上检测到的脸识别和检测为人A时获取的声音信息，直到进行了识别。

在步骤S6中，当再次参照图2判断出在脸检测单元13检测出的脸中不存在未被脸识别单元14确定出的人的脸时，步骤S7跳过并且处理进行到步骤S8。

在步骤S8中，人跟踪单元18跟踪在步骤S2中在每个帧上检测并且在步骤S3或S7中确定出的人的脸的移动。而且，不仅可以跟踪脸，还可以跟踪脸的被识别出的各个部分。

在步骤S9中，当存在步骤S2中未检测到人脸的帧时，人跟踪单元18判断与相对应帧的紧邻在前的帧相对应的声音信息是否类似于与相对应帧的紧接在后的帧相对应的声音信息。当判断出两个帧彼此相似时，如图6所示，直到相对应帧为止被检测到且跟踪到的脸的轨迹(向前方向的轨迹)和在对应帧之后被检测到且被跟踪到的脸的轨迹(向后方向的轨迹)各自延伸，轨迹在对应帧上彼此交叉的位置被估计为存在脸的位置。

如图7所示，当判断出与相对应帧的在前帧相对应的声音信息不类似于与相对应帧的随后帧相对应的声音信息时，判断出在相对应帧的边界内存在场景不连续性(场景变化)。在这种情况下，直到相对应帧为止被检测到且跟踪到的脸的轨迹(向前方向的轨迹)在相对应帧上延伸的位置被估计为存在脸的位置。然后，人跟踪处理结束。

当使用上述人跟踪处理时，在运动图像中可以跟踪特定的人。而且，即使特定人藏在图像上的阴影中时，也可以跟踪该特定人的位置。

也就是说，通常可使用人跟踪处理在图像上确认特定人的位置。例如，人跟踪处理可用于以下应用：当以光标点击运动图像内容的图像上出现的人时显示关于该人的信息。

可通过硬件或软件执行上述处理序列。当通过软件来执行处理序列时，软件程序从程序可记录介质被安装到嵌入有专用硬件的计算机上或能够通过安装各种程序执行各种功能的计算机(诸如通用计算机等)上。

图8是示出根据程序执行上述处理序列的计算机的示例硬件配置的框图。

在计算机100中，CPU(中央处理单元)101、ROM(只读存储器)102和RAM(随机存取存储器)103通过总线104彼此连接。

I/O接口105也连接到总线104。具有键盘、鼠标、麦克风等的输入单元106，显示器、扬声器等形成的输出单元107，硬盘、非易失性存储器等形成的存储单元108，网络接口等形成的通信单元109，以及驱动可移除介质111如磁盘、光盘、磁光盘或半导体存储器的驱动器110连接到I/O接口105。

在具有上述配置的计算机100中，例如，CPU 101通过I/O接口105和总线104将存储在存储单元108中的程序加载到RAM 103上并执行该程序，以处理上述处理序列。

计算机执行的程序可以是按说明书中所述的顺序按时间顺序执行处理的程序，或并行执行处理或在程序被调用的时机执行处理的程序。

程序可通过一个计算机或通过多个计算机以分布处理执行。可将程序发送到位于其他地方的计算机来执行。

本申请的主题与2009年12月8日提交到日本专利局的日本优先权专利申请JP 2009-278180公开的主题相关，其全部内容通过引用而合并于此。

本领域技术人员应该理解根据设计需求和其他因素可进行各种修改、组合、子组合和替代，只要其落入所附权利要求或其等同内容的范围内。

Claims

1.一种识别在具有声音的运动图像内容上出现的人的信息处理装置，包括：

检测单元，从所述运动图像内容的帧中检测人脸；

第一确定单元，通过提取所检测到的脸的特征量并且在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在所述第一数据库中与人识别信息相对应地记录有脸的特征量；

声音分析单元，分析当从所述运动图像内容的帧中检测人脸时获取的声音，并生成声音信息；以及

第二确定单元，通过在第二数据库中检验与在从所述运动图像内容的帧中检测到的脸中未被所述第一确定单元确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在所述第二数据库中与所述人识别信息相对应地记录有所述声音信息。

2.根据权利要求1所述的信息处理装置，进一步包括：

记录单元，与关于确定出的人的人识别信息相对应地在所述第二数据库中记录与从所述运动图像内容的帧中检测到的脸中被所述第一确定单元确定出的人的脸相对应的声音信息。

3.根据权利要求1或2所述的信息处理装置，进一步包括：

跟踪单元，跟踪在所述运动图像内容的帧上检测到和确定出的人的脸的位置。

4.根据权利要求3所述的信息处理装置，其中，所述跟踪单元在没有检测到人脸的帧上估计脸的位置。

5.根据权利要求4所述的信息处理装置，其中，所述跟踪单元基于在没有检测到人脸的帧的在前帧和随后帧中的至少一帧上检测到的脸的位置轨迹来估计脸的位置。

6.根据权利要求5所述的信息处理装置，其中，所述跟踪单元基于与没有检测到人脸的帧的紧邻在前的帧上检测到的脸相对应的声音信息和与没有检测到人脸的帧的紧接在后的帧上检测到的脸相对应的声音信息的连续性，来估计脸的位置。

7.根据权利要求1所述的信息处理装置，其中，所述声音分析单元提取从所述运动图像内容的帧中检测到人脸的脸检测时段的声音v1和在所述脸检测时段期间被检测到的人的嘴移动的时段的声音v2，并且生成通过所述声音v1和所述声音v2之差V的傅里叶变换获得的频率分布作为声音信息。

8.一种识别在具有声音的运动图像内容上出现的人的信息处理装置的信息处理方法，所述信息处理方法使所述信息处理装置执行以下步骤：

从所述运动图像内容的帧中检测人脸；

第一确定步骤，通过提取所检测到的脸的特征量并且在第一数据库中检验所提取出的特征量来确定与所检测到的脸相对应的人，在所述第一数据库中与人识别信息相对应地记录有脸的特征量；

分析当从所述运动图像内容的帧中检测人脸时获取的声音，并生成声音信息；以及

第二确定步骤，通过在第二数据库中检验与在从所述运动图像内容的帧中检测到的脸中未在所述第一确定步骤中确定出的人的脸相对应的声音信息来确定与所检测到的脸相对应的人，在所述第二数据库中与所述人识别信息相对应地记录有所述声音信息。

9.一种控制信息处理装置的程序，所述信息处理装置识别在具有声音的运动图像内容上出现的人，所述程序使信息处理装置的计算机执行以下步骤：

从所述运动图像内容的帧中检测人脸；