CN107644213A

CN107644213A - 视频人物提取方法及装置

Info

Publication number: CN107644213A
Application number: CN201710882276.0A
Authority: CN
Inventors: 马兆远; 郝欣童
Original assignee: Sima Great (beijing) Intelligent Systems Ltd
Current assignee: Sima Great (beijing) Intelligent Systems Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-01-30

Abstract

本发明涉及图像识别领域，具体涉及一种视频人物提取方法及装置，所述视频人物提取方法包括：提取目标视频中包括人物图像的视频帧图像；对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。本发明提供的视频人物提取方法，分析提取视频内出现所有人物的特征信息，并根据提取的特征信息对视频内人物进行分类，可以有效识别视频图像中出现的人物。方便工作人员进行查找和筛选，节省了时间，提高了效率。

Description

视频人物提取方法及装置

技术领域

本发明涉及图像识别领域，具体而言，涉及一种视频人物提取方法及装置。

背景技术

社会现代化的过程中，新技术不断涌现，很多传统的方式被更先进的方式替代，原本不存在的技术也不断出现。目前，监控***已成为维护社会稳定、解决治安问题的重要工具。通过对重要地点的全方位监控，一旦发生意外情况，能够使管理人员迅速做出反馈，从而减少损失解决问题。通过对已存储视频的搜索回溯，可以确认事件发生过程，如果有违法犯罪行为，也可以借此锁定目标嫌疑人，将其画面与公安***中的信息进行比对从而确认其身份。

这一过程通常需要由工作人员进行长时间的查找和筛查。在现场了解情况后，确认事件发生的大概时间。根据这一信息，从监控***中调取当时的录像视频，然后进行进一步的查找。如果没有额外的信息来缩小搜索范围，这一过程中常常需要很长时间才能满足调查取证的需求，效率较低，人力成本很高。

发明内容

有鉴于此，本发明实施例的目的在于提供一种视频人物提取方法，以改善上述的问题。

本发明实施例的另一目的在于提供一种视频人物提取装置，以改善上述的问题。

本发明采用的技术方案如下：

本发明实施例提供了一种视频人物提取方法，所述视频人物提取方法包括：提取目标视频中包括人物图像的视频帧图像；对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

进一步地，所述提取目标视频中包括人物图像的视频帧图像包括：读取目标视频中的每一帧图像；通过多个卷积神经网络对读取的每一帧图像进行人脸检测；根据人脸检测结果筛选出人物图像的视频帧图像。

进一步地，所述对所述视频帧图像进行图像处理，获得人物特征信息包括：基于卷积神经网络提取所述视频帧图像的人脸特征信息；提取所述视频帧图像中的行人特征信息。

进一步地，所述通过多个卷积神经网络对每一帧视频帧图像进行人脸检测包括：在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；从所述有人脸位置候选框的图像中筛选生成的人脸图像。

进一步地，所述基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果的方式包括以下其中之一或者任意组合：基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果；基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果；基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成人物聚类结果。

一种视频人物提取装置，所述视频人物提取装置包括：获取模块，用于提取目标视频中包括人物图像的视频帧图像；预处理模块，用于对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；分类模块，用于基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

进一步地，所述获取模块包括：图像读取单元，用于读取目标视频中的每一帧图像；人脸检测单元，用于通过多个卷积神经网络对读取的每一帧图像进行人脸检测；图像筛选单元，用于根据人脸检测结果筛选出人物图像的视频帧图像。

进一步地，所述预处理模块包括：人脸特征提取单元，用于基于卷积神经网络提取所述视频帧图像的人脸特征信息；行人特征提取单元，用于提取所述视频帧图像中的行人特征信息。

进一步地，所述人脸检测单元包括：候选框标注子单元，用于在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；筛选子单元，用于从所述有人脸位置候选框的图像中筛选生成人脸图像。

进一步地，所述分类模块包括：人脸特征分类单元，用于基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果；行人特征分类单元，用于基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果；人物分类单元，用于基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成目标视频中所包括的人物聚类结果。

相对现有技术，本发明具有以下有益效果：

本发明提供的一种视频人物提取方法及装置，所述视频人物提取方法包括：提取目标视频中包括人物图像的视频帧图像；对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。本发明提供的视频人物提取方法，分析提取视频内出现所有人物的特征信息，并根据提取的特征信息对视频内人物进行分类，可以有效识别视频图像中出现的人物。方便工作人员进行查找和筛选，节省了时间，提高了效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明所提供的一种视频人物提取***示意图。

图2示出了视频人物提取方法的流程图。

图3示出了图2中步骤S10的子步骤流程图。

图4示出了图2中步骤S20的子步骤流程图。

图5示出了图2中步骤S30的子步骤流程图。

图6示出了视频人物提取装置的示意框图。

图7示出了获取模块的示意框图。

图8示出了预处理模块的示意框图。

图9示出了分类模块的示意框图。

图标：100-视频人物提取***；121-存储器；122-存储控制器；123-处理器；124-外设接口；125-显示单元；126-输入单元；200-视频人物提取装置；210-获取模块；211-图像读取单元；213-人脸检测单元；215-图像筛选单元；230-预处理模块；231-人脸特征提取单元；233-行人特征提取单元；250-分类模块；251-人脸特征分类单元；253-行人特征分类单元；255-人物分类单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明较佳实施例提供的视频人物提取方法及装置还可应用于如图1示出的视频人物提取***100。图1为本发明较佳实施例提供的视频人物提取***100的方框示意图。所述视频人物提取***100包括视频人物提取装置200、存储器121、存储控制器122、处理器123、外设接口124、显示单元125、输入单元126。

所述存储器121、存储控制器122、处理器123、外设接口124、显示单元125、输入单元126各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述视频人物提取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器121中或固化在所述视频人物提取***100的操作***(operating system，OS)中的软件功能模块。所述处理器123用于执行存储器121中存储的可执行模块，例如所述视频人物提取装置200包括的软件功能模块或计算机程序。

其中，存储器121可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器121用于存储程序，所述处理器123在接收到执行指令后，执行所述程序，本发明任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器123中，或者由处理器123实现。

处理器123可以是一种集成电路芯片，具有信号的处理能力。上述的处理器123可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器123也可以是任何常规的处理器123等。

所述外设接口124将各种输入/输出装置耦合至处理器123以及存储器121。在一些实施例中，外设接口124，处理器123以及存储控制器122可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

显示单元125在所述视频人物提取***100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元125可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器123进行计算和处理。

输入单元126用于提供给用户输入图像信息。所述输入单元126可以是，但不限于，摄像头、电子绘画板、数据接口及键盘等，键盘可以是虚拟键盘。

第一实施例

本实施例提供了一种视频人物提取方法，视频人物提取方法应用于视频人物提取装置200及视频人物提取***100。请参阅图2，视频人物提取方法包括步骤S10～步骤S40。

步骤S10：提取目标视频中包括人物图像的视频帧图像。

目标视频是指需要通过视频人物提取方法进行处理的视频，目标视频是由多帧图像连续放映而成，部分图像包括有人物图像，部分图像不包括人物图像，步骤S10用于提取所有图像中，包括人物图像的视频帧图像。

步骤S10包括子步骤S101～S103。请参阅图3，图3示出了步骤S10的子步骤流程图。

步骤S101：读取目标视频中的每一帧图像。

将目标视频的每一帧图像进行读取，以便于进行下一步的图像筛选操作。于本实施例中，所述目标视频可以是同一视频进行循环播放，也可以是不同的视频依次进行播放。

步骤S102：通过多个卷积神经网络对读取的每一帧图像进行人脸检测。

人脸检测采用多个卷积神经网络进行级联的方式，依次完成人脸候选框的生产、人脸候选框的筛选、确定最终位置的功能。此人脸检测器在GPU计算平台上能够达到100FPS。在速度和检测精度上能够满足实时***的需求。对每一帧图像进行人脸检测的结果包括：检测到包括人脸的图像或检测到不包括人脸的图像。

步骤S103：根据人脸检测结果筛选出人物图像的视频帧图像。

依照人脸检测的结果，提取所有视频图像中包括有人脸的图像，将图像中包括人脸的视频帧图像筛选出来，以进行下一步的处理。

需要注意的是，于本实施例中，还可以通过整体轮廓检测来进行人物检测，从而提取包括人物图像的视频帧图像，作为通过人脸检测的补充。

步骤S20：对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息。

于本实施例中，根据人物检测方式的不同，对特征提取的方式也有不同。不同的人物检测方式对应不同的人物特征信息提取方法，具体地，包括人脸特征信息和行人特征信息，将视频帧图像中的人脸特征信息及行人特征信息提取，以进行下一步的分类处理。请参阅图4，步骤S20包括子步骤S201～S202。

步骤S201：基于卷积神经网络提取所述视频帧图像的人脸特征信息。

人脸的基本轮廓和脸部器官位置基本是固定的，在提取特征之前先定义一个标准的模板，利用Hough变换、方差投影和模板匹配相结合，有效地确定出眼睛、嘴和鼻子等器官的位置。定义模板需要用到人脸器官的几何特征矢量，它可以通过虹膜中心、内眼角点、外眼角点、鼻尖点、鼻孔点、耳屏点、耳下点、口角点、头顶点、眉内点和眉外点等关键点得到。特征的提取通常以面部器官的外形和几何关系之间的匹配分量作为依据，匹配分量通常包括人脸两点间的欧氏距离、曲率和角度等，其中欧氏距离的判决是最常用的方法。采用卷积神经网络为基础框架，先在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；然后从所述有人脸位置候选框的图像中筛选生成的人脸图像。最后通过卷积神经网络对人脸图像进行特征信息提取。人脸特征信息是该识别网络去掉最后一层识别分类器后，得到倒数第二层的输出作为该视频帧图像中的人脸的特征。

步骤S202：提取所述视频帧图像中的行人特征信息。

该步骤适用于采用整体轮廓检测所检测到的人物的特征信息的提取。行人特征信息包括体形胖瘦、高矮，衣着颜色等等。在视频图像中，通常行人面部在视频画面中的占比较小，无法进行清晰的指认，因此采用提取行人特征信息的方式作为人脸特征信息提取的补充，以实现最佳的检测、识别效果。

步骤S30：基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

在步骤S20的过程中会将所有的特征信息进行保存，每隔一段时间进行一次处理。这里所做的处理就是聚类。

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset)，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

于本实施例中，将人物特征信息进行聚类分析，对人物特征信息分类的步骤包括其中之一或任意组合：请参阅图5，步骤S30包括子步骤S301～S303。

步骤S301：基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果。

将人脸特征作为聚类分析的对象，根据人脸特征的差异将视频帧图像中出现的所有人物进行聚类分析，生成人脸特征分类结果。具体地，可以某一特征的相似程度，例如眼角的距离，对视频帧图像中出现的所有人物进行分类提取。

步骤S302：基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果。

按照视频帧图像中不同人物的行人特征信息对视频帧图像中出现的所有人物进行分类，生成行人特征分类结果。行人特征信息进行分类是对人脸特征信息分类的一个补充。

步骤S303：基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成人物聚类结果。

需要注意的是，对于部分视频帧图像无法同时使用行人特征信息和人脸特征信息进行分类的时候，即以其中任一的分类结果作为最终的人物聚类结果。

第二实施例

本实施例提供了一种视频人物提取装置200，请参阅图6，图6示出了本发明实施例提供的视频人物提取装置200的示意图。视频人物提取装置200包括获取模块210、预处理模块230和分类模块250。

获取模块210用于提取目标视频中包括人物图像的视频帧图像。

在本实施例中，步骤S10可以由获取模块210执行。如图7所示，获取模块210包括以下功能单元：

图像读取单元211，用于读取目标视频中的每一帧图像。

于本实施例中，步骤S101可以由图像读取单元211执行。

人脸检测单元213，用于通过多个卷积神经网络对读取的每一帧图像进行人脸检测。于本实施例中，步骤S102可以由人脸检测单元213执行。人脸检测单元213还包括候选框标注子单元，用于在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；以及筛选子单元，用于从所述有人脸位置候选框的图像中筛选生成人脸图像。

图像筛选单元215，用于根据人脸检测结果筛选出人物图像的视频帧图像。于本实施例中，步骤S103可以由图像筛选单元215执行。

预处理模块230，用于对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息。

于本实施例中，步骤S20可以由预处理模块230执行。请参阅图8，预处理模块230包括以下功能单元。

人脸特征提取单元231，用于基于卷积神经网络提取所述视频帧图像的人脸特征信息。可以理解的是，子步骤S201可以由人脸特征提取单元231执行。

行人特征提取单元233，用于提取所述视频帧图像中的行人特征信息。可以理解的是，子步骤S202可以由行人特征提取单元233执行。

分类模块250，用于基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

于本实施例中，步骤S30可以由分类模块250执行。请参阅图9，分类模块250包括以下功能单元：

人脸特征分类单元251，用于基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果；可以理解的是，子步骤S301可以由人脸特征分类单元251执行。

行人特征分类单元253，用于基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果；可以理解的是，子步骤S302可以由行人特征分类单元253执行。

人物分类单元255，用于基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成目标视频中所包括的人物聚类结果。可以理解的是，子步骤S303可以由人物分类单元255执行。人物分类单元255将目标视频内依据相同特征对提取的人物进行分类，得出目标视频中出现过的人物。

需要注意的是，上述列举仅仅是对本发明实施例为了便于理解所做的说明，并非是对本发明实施例进行限制，本发明实施例提供的视频人物提取装置200还可以包括输入模块、输出模块等，本实施例对此不作详细介绍。

综上所述，本发明提供了一种视频人物提取方法及装置，所述视频人物提取方法包括：提取目标视频中包括人物图像的视频帧图像；对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；基于聚类算法对获得的人物特征信息进行聚类处理，通过行人特征以及人脸特征两个方面对目标视频图像中人物特征进行提取分类，得到所述目标视频中所包括的人物聚类结果。本发明提供的视频人物提取方法及装置可以自动提取视频图像中包括的人物，无须人工重复排查，从而简化工作人员筛查工作，极大的提升了筛查视频中人员的效率。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，高速计算机、服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频人物提取方法，其特征在于，所述视频人物提取方法包括：

提取目标视频中包括人物图像的视频帧图像；

对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；

基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

2.如权利要求1所述的视频人物提取方法，其特征在于，所述提取目标视频中包括人物图像的视频帧图像包括：

读取目标视频中的每一帧图像；

通过多个卷积神经网络对读取的每一帧图像进行人脸检测；

根据人脸检测结果筛选出人物图像的视频帧图像。

3.如权利要求2所述的视频人物提取方法，其特征在于，所述对所述视频帧图像进行图像处理，获得人物特征信息包括：

基于卷积神经网络提取所述视频帧图像的人脸特征信息；

提取所述视频帧图像中的行人特征信息。

4.如权利要求3所述的视频人物提取方法，其特征在于，所述通过多个卷积神经网络对每一帧视频帧图像进行人脸检测包括：

在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；

从所述有人脸位置候选框的图像中筛选生成的人脸图像。

5.如权利要求4所述的视频人物提取方法，其特征在于，所述基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果的方式包括以下其中之一或者任意组合：

基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果；

基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果；

基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成人物聚类结果。

6.一种视频人物提取装置，其特征在于，所述视频人物提取装置包括：

获取模块，用于提取目标视频中包括人物图像的视频帧图像；

预处理模块，用于对所述视频帧图像进行图像处理，获得人物特征信息，其中，人物特征信息包括人脸特征信息及人体特征信息；

分类模块，用于基于聚类算法对获得的人物特征信息进行聚类处理，得到所述目标视频中所包括的人物聚类结果。

7.如权利要求6所述的视频人物提取装置，其特征在于，所述获取模块包括：

图像读取单元，用于读取目标视频中的每一帧图像；

人脸检测单元，用于通过多个卷积神经网络对读取的每一帧图像进行人脸检测；

图像筛选单元，用于根据人脸检测结果筛选出人物图像的视频帧图像。

8.如权利要求7所述的视频人物提取装置，其特征在于，所述预处理模块包括：

人脸特征提取单元，用于基于卷积神经网络提取所述视频帧图像的人脸特征信息；

行人特征提取单元，用于提取所述视频帧图像中的行人特征信息。

9.如权利要求8所述的视频人物提取装置，其特征在于，所述人脸检测单元包括：

候选框标注子单元，用于在每一帧视频图像中标注人脸位置候选框，生成有人脸位置候选框的图像；

筛选子单元，用于从所述有人脸位置候选框的图像中筛选生成人脸图像。

10.如权利要求9所述的视频人物提取装置，其特征在于，所述分类模块包括：

人脸特征分类单元，用于基于聚类算法对所述人脸特征进行分类，生成人脸特征分类结果；

行人特征分类单元，用于基于聚类算法对所述行人特征信息进行分类，生成行人特征分类结果；

人物分类单元，用于基于聚类算法对所述人脸特征分类结果和/或所述行人特征分类结果进行分类，生成目标视频中所包括的人物聚类结果。