CN111209897A

CN111209897A - 视频处理的方法、装置和存储介质

Info

Publication number: CN111209897A
Application number: CN202010157708.3A
Authority: CN
Inventors: 吴韬; 徐叙远; 刘孟洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-05-29
Anticipated expiration: 2040-03-09
Also published as: CN111209897B

Abstract

本发明涉及视频处理方法、装置和存储介质。该方法包括：获取待处理视频和目标人体区域；检测待处理视频中的多个人体区域；将多个人体区域输入经训练的特征提取网络，得到分别描述多个人体区域的多个第一特征，和将目标人体区域输入经训练的特征提取网络，得到描述目标人体区域的第二特征；将多个第一特征分别与第二特征进行比较，得到与第二特征相匹配的至少一个第一匹配特征；确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点；基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。特征提取网络是使用基于人体区域样本集合构建的数据集训练的，且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。

Description

视频处理的方法、装置和存储介质

技术领域

本发明涉及深度学习和计算机视觉的技术领域，具体涉及视频处理方法、装置和存储介质。

背景技术

随着多媒体技术的发展，各种图像及音视频为人们的生活增添了诸多乐趣。人们在观看视频文件时，通常会选择自己感兴趣片段进行观看。目前的视频片段剪辑大体上基于某些特定类别或特定场景进行剪辑，比如基于体育视频和游戏视频中的特定镜头或文字提示（例如，体育视频中的进球、射门，游戏视频中的绝杀、五杀等）来判断是否是精彩镜头，进而对视频进行剪辑。人们还希望在一段视频中仅观看关于特定人物的段落。在这种情况下，相关技术通常通过人脸识别来判断视频画面中的人物以完成针对该特定任务的剪辑。

发明内容

在通过人脸识别来识别包含特定人物的视频片段的技术方案中，在某些情况下无法识别或者无法准确识别包含特定人物的视频片段，例如当特定人物的面部不清晰、不完整，人物展现为侧面、背面以及人物动作幅度较大（例如，打斗）等的时候，基于人脸识别来剪辑特定人物片段效果较差。本发明的实施例至少部分地解决上面提及的问题。

根据本发明的一方面，提出了一种视频处理方法。该方法包括：获取待处理视频和表示目标对象的目标人体区域；检测待处理视频中的多个人体区域；将多个人体区域输入经训练的特征提取网络，得到分别描述多个人体区域的多个第一特征，和将目标人体区域输入经训练的特征提取网络，得到描述目标人体区域的第二特征；将多个第一特征分别与第二特征进行比较，得到与第二特征相匹配的第一特征中的至少一个第一匹配特征；确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点；基于各个时间点处理待处理视频以获取与目标对象关联的视频部分；其中，特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的，且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。

在一些实施例中，数据集通过下述步骤构建：获取用于特征提取网络的训练视频；按照视频拍摄镜头将训练视频划分为多个训练视频分段；针对多个训练视频分段中的每一个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合；确定一个或多个人体区域样本集合中是否包含人脸；响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。

在一些实施例中，针对多个训练视频分段中的每一个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合包括：针对多个训练视频分段中的每一个训练视频分段，每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧，检测多个视频帧中的人体区域；判断所检测到的两个或更多个人体区域之间的相似度；将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成训练视频分段的一个或多个人体区域样本集合。

在一些实施例中，响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括：响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，从各个人体区域样本集合中分别选取相同预定数量的人脸；对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较；将人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。

在一些实施例中，数据集还通过下述步骤构建：利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域；从人体区域样本集合中去除人体区域相似度低于第二预定阈值的人体区域。

在一些实施例中，判断所检测到的两个或更多个人体区域之间的相似度包括：基于人工特征判断所检测到的两个或更多个人体区域之间的相似度。

在一些实施例中，待处理视频中的多个人体区域是通过单次多边框检测器检测的。

在一些实施例中，基于各个时间点处理待处理视频以获取与目标对象关联的视频部分包括：基于各个时间点的时间戳对待处理视频进行拼接以获取与目标对象关联的视频部分。

根据本发明的另一方面，提出了一种用于构建数据集的方法，数据集用于训练特征提取网络。该方法包括：获取用于特征提取网络的训练视频；按照视频拍摄镜头将训练视频划分为多个训练视频分段；针对多个训练视频分段中的每一个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合；确定一个或多个人体区域样本集合中是否包含人脸；响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。

根据本发明的另一方面，提出了一种特征提取网络的训练方法，包括：获取用于特征提取网络的训练视频，基于所获取的训练视频，使用如前述方面的构建数据集的方法来构造训练数据集，使用数据集来训练特征提取网络以提取描述人体区域的特征。

根据本发明的另一方面，提出了一种视频处理装置。该装置包括：获取模块、人体检测模块、特征提取模块、比较模块、时间点确定模块和视频处理模块。获取模块被配置成获取待处理视频和表示目标对象的目标人体区域。人体检测模块被配置成检测待处理视频中的多个人体区域。特征提取模块被配置成将多个人体区域输入经训练的特征提取网络，得到分别描述多个人体区域的多个第一特征，和将目标人体区域输入经训练的特征提取网络，得到描述目标人体区域的第二特征，其中，特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的，且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。比较模块被配置成将多个第一特征分别与第二特征进行比较，得到与第二特征相匹配的第一特征中的至少一个第一匹配特征。时间点确定模块被配置成确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点。视频处理模块被配置成基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。

根据本发明的另一方面，提出了一种数据集的构建装置，数据集用于对特征提取网络进行训练。装置包括：获取模块、视频分段模块、集合创建模块、确定模块、集合合并模块和集合合并模块。获取模块被配置成获取用于特征提取网络的训练视频。视频分段模块被配置成按照视频拍摄镜头将训练视频划分为多个训练视频分段。集合创建模块被配置成针对多个训练视频分段中的每一个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合。确定模块被配置成确定一个或多个人体区域样本集合中是否包含人脸。集合合并模块被配置成响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。

根据本发明的另一方面，提出了一种特征提取网络的训练装置，包括：获取模块，被配置成获取用于特征提取网络的训练视频，数据集构建模块，被配置成基于所获取的训练视频，使用如上的构建数据集的方法来构造训练数据集，训练模块，被配置成使用数据集来训练特征提取网络以提取描述人体区域的特征。

根据本发明的一些实施例，提供了一种计算机设备，包括：处理器；以及存储器，其上存储有指令，指令当在处理器上执行时促使处理器执行如上的方法中的任一个。

根据本发明的一些实施例，提供了一种计算机可读存储介质，其上存储有指令，指令当在处理器上执行时促使处理器执行如上的方法中的任一个。

本发明所提出的视频处理方法、装置和存储介质是利用深度学习对视频内容中的人物角色进行分析，并通过经训练的特征提取网络来进行视频中相同角色的片段剪辑。该视频处理方法能够自动分割出视频（例如，电影、电视剧和综艺）中相同角色的片段，节省了大量的人力和时间成本，提高了剪辑效率，也有助于后期的视频制作，增强了用户体验。

附图说明

现将参考附图以非限制性示例的方式更加详细地描述本发明的实施例，附图仅仅是示意性的，并且其中相同的附图标记始终指代相同部分，在附图中：

图1示意性示出了根据本发明一个实施例的图形用户界面示意图；

图2示例性示出了根据本发明一个实施例的示例应用场景；

图3示意性示出了根据本发明一个实施例的针对目标角***处理的网络框架示意图；

图4示意性示出了单次多边框检测器的结构的示意图；

图5示意性示出了根据本发明一个实施例的视频处理方法的流程图；

图6示意性示出了根据本发明另一个实施例的构建数据集的方法的流程图；

图7示意性示出了根据本发明一个实施例的视频处理装置的示意图；

图8示意性示出了根据本发明另一个实施例的构建数据集的装置的示意图；以及

图9示意性示出了用于进行视频处理和/或构建数据集的示例计算机设备的示意图。

具体实施方式

下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解，本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下，并没有示出或详细描述一些熟知的结构和功能，以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

首先，对本公开的实施例中涉及的部分用语进行说明，以便于本领域技术人员理解：

深度学习（Deep Learning, DL）：含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本等。

计算机视觉技术（Computer Vision, CV）：计算机视觉是一门研究如何使机器“看”的科学。更进一步的说，计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步使用计算机做图形处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

卷积神经网络（Convolutional Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学***移不变分类。

单次多边框检测器（Single Shot MultiBox Detector, SSD）是基于单个深度神经网络检测图片中物体的方法。其将边界框的输出空间离散化，在每个特征图的位置设置一系列具有不同纵横比和不同尺度的默认边界框。在预测时，神经网络对每一个默认边界框是否属于某一个类别产生评分，并且生成对边界框的修正，以使得边框与物体形状更加贴合。

尺度不变特征转换（Scale-invariant feature transform, SIFT）是一种具有尺度不变性和光照不变性的特征描述子，也同时是一套特征提取的理论。首次由D. G. Lowe于2004年发表，且在开源算法库OpenCV中进行了实现、扩展和使用。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性，是一种非常稳定的局部特征。

行人重识别（Person Re-identification （REID））是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。是一个图像检索的子问题，给定一个监控行人图像，检索跨设备下的该行人图像。其可以例如检索出不同摄像头下的相同行人图。

三元组损失函数（Triplet Loss function）：所谓的三元组包含三个样例，例如（anchor, pos, neg），anchor表示目标，pos表示正样本，neg表示负样本。三元损失函数就是定义了使得目标到负样本的距离大于目标到正样本的距离和预定阈值之和的目标函数。

本发明的主要目的是利用深度学习对视频内容中的人物角色进行分析，和通过特征提取网络来进行同一角色的视频片段剪辑。由于视频中的人体具有多姿态、多角度和多尺度等情况，对视频片段中的相同人体区域进行区分是一项复杂的任务。本发明利用卷积神经网络（比如，单次边框检测器SSD（Single Shot MultiBox Detector））来检测视频中的人体区域，进而提取对应的人体特征。本发明利用人体特征进行视频中相同人体的定位，能够自动有效地分割出视频中相同角色的片段。

图1示意性示出了根据本发明一个实施例的图形用户界面100的示意图。图形用户界面100可以显示在各种用户终端上，例如，笔记本电脑、个人电脑、平板电脑、手机、电视等。视频101为用户通过用户终端观看的视频。该视频101通过本发明实施例提供的视频处理方法，能够自动剪辑成关于视频101中选定目标对象，例如目标人物的视频剪辑。选定的目标人物可以是一个或多个。例如，目标人物可以为特定明星或特定角色。自动剪辑生成的人物视频剪辑的图标102也被显示在图形用户界面100上。用户在观看视频101时，通过点击相应的图标102就可以容易地观看相应感兴趣人物的视频剪辑片段。

图2示例性示出了根据本发明一个实施例的示例应用场景200。服务器201经由网络202与用户终端203连接。用户终端203可以是例如笔记本电脑、个人电脑、平板电脑、手机、电视等。网络202可以包括有线网络（例如LAN、电缆等等）和无线网络（例如WLAN、蜂窝、卫星等等）、因特网等。在用户终端203上安装有用于观看视频的应用程序。用户在通过用户终端203上安装的该应用程序观看视频并且希望观看感兴趣人物的视频剪辑片段时，可以点击该应用程序呈现的相应人物剪辑的图标。响应于用户点击了相应人物剪辑的图标，应用程序呈现出相应人物的剪辑片段。值得注意的是，相应人物的剪辑片段是在服务器201处或用户终端203处（也可以在用户终端203和服务器201二者处）通过执行本发明所提出的视频处理方法得到的。

图3示意性示出了根据本发明一个实施例的针对目标角***处理的网络框架300的示意图。首先，针对需要剪辑的目标角色，通过将该目标角色人体区域302输入特征提取网络310中进行人物特征提取，得到目标角色的人物特征F 304。将待处理的视频301输入人体检测网络309中，得到检测到的待处理视频301中的全部人体区域303。这里，人体检测网络309和特征提取网络310将在下文进一步具体描述。各个人体区域303然后输入上述特征提取网络310中，提取出针对每个人体区域的特征P_i，并记录该人体在视频中的时间点T_i（例如，可以为时间戳）。然后，将待处理视频中所有的人体区域的特征P_i组合到特征池305中。通过将目标角色的人物特征F 304和特征池305中的各个人体区域的特征Pi输入匹配计算模块311进行相似度计算，得到全部P_i中与人物特征F相匹配的特征P_k 306。示例性地，特征匹配可以通过计算不同特征之间的欧式距离实现的。计算特征池中的一个Pi与人体特征F之间的距离d。如果d小于预定阈值，则确定该P_i与人体特征F相匹配，即该P_i所对应的人体区域所对应的人物与目标角色符合。将相匹配的特征P_k 306输入时序聚合模块312，查找匹配特征P_k 306所对应的时间点，并在时序上针对时间点T_k进行聚合，得到经聚合的多个时间点307。视频剪辑模块313基于经聚合的多个时间点的时间戳对视频进行拼接即形成了目标角色所对应的片段，即待处理视频中包含目标角色的所有视频帧。

以上在目标角色是单个角色的情况下，对如何通过本发明提供的视频处理方法处理得到针对目标角色的片段进行了描述。应该理解的是，在另一些实施例中，目标角色也可以是多个目标角色。

图4示意性示出了单次多边框检测器的结构300的示意图。本文中所使用的人体检测网络采用单次多边框检测器SSD结构。SSD检测网络在检测速度和检测精度都有非常好的表现。具体地，SSD检测网络的人体检测效率在图形处理器GPU上能够达到100帧/秒，同时保证高于85%的检出率。SSD的结构是建立在VGG-16的基础上，原因在于 VGG-16可以提供高质量的图像分类和迁移学习来改善结果。这里，SSD对VGG-16进行了调整，从Con6层开始用一系列的辅助卷积层来代替原始的全连接层。通过使用辅助卷积层，可以提取图像多个尺度的特征，并逐步减小每个卷积层的尺寸。

图5示意性示出了根据本发明一个实施例的视频处理方法500的流程图。该方法可以由用户终端或服务器执行，也可以由用户终端和服务器共同执行，本实施例以该方法由服务器执行为例进行说明。在步骤501中，获取待处理视频和表示目标对象的目标人体区域。这里，目标人体区域可以是通过将目标对象的图像样本或者包含目标对象的视频样本输入人体检测网络（例如，SSD）得到的。在步骤502中，利用人体检测网络来检测待处理视频中的多个人体区域。在步骤503中，将多个人体区域输入经训练的特征提取网络，得到分别描述多个人体区域的多个第一特征，和将目标人体区域输入经训练的特征提取网络，得到描述目标人体区域的第二特征。下文将对该特征提取网络如何训练进行具体说明。这里，值得注意的是，特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的。人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。在步骤504中，将多个第一特征分别与第二特征进行比较，得到与第二特征相匹配的第一特征中的至少一个第一匹配特征。例如，第一特征为P_i，第二特征为F，则将由P_i所组成的特征池中的每个P_i与F进行比较，找到与F相匹配的P_k。这里，特征匹配是通过计算不同特征之间的欧式距离实现的。计算特征池中的一个P_i与特征F之间的距离d。如果d小于预定阈值，则确定该P_i与F相匹配，即该P_i所对应的人体区域所对应的人物与目标角色符合。在步骤505中，确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点。即，确定与F相匹配的P_k在视频中所对应的时间点T_k。在步骤506中，基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。在一个实施例中，对时间点T_k在时序上进行聚合，由此得到针对相同角色的所有时间点的集合。在一个实施例中，对于最终获取的时间点T_k的集合在时序上进行聚合包括：对于任意两个时间点，如果间隔小于某个阈值，则认为是连续的片段，否则认为是分离的片段。通过这样的处理，使得选出的视频帧更加连贯，画面不会出现跳跃。由此，得到多个视频片段。对于每个片段的起始时间点和结束时间点，再从每个片段的起始时间点开始向前利用光流法寻找最近的镜头切换点，和从每个片段的结束时间点开始向后寻找最近的场景切换点，以保证截取到的片段的完整性。这里，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的方法。对于所有的片段进行该操作后，即获得同一目标对象（例如同一角色）在视频中的不同片段剪辑。该视频处理方法500能够自动分割出视频（例如，电影、电视剧和综艺）中相同角色的片段，节省了大量的人力和时间成本，提高了剪辑效率，也有助于后期的视频制作，增强了用户体验。

在上述视频处理方法中，使用基于人体区域样本集合构建的数据集对特征提取网络进行训练。用于训练特征提取网络的数据集是利用视频在时间和空间上的相关性，以及使用例如人脸识别和行人重识别ReID技术来构建的。该数据集是通过图6中所示出构建数据集的方法600的下述步骤进行构建的。

在步骤601中，获取用于特征提取网络的训练视频。

在步骤602中，按照视频拍摄镜头将训练视频划分为多个训练视频分段。多个训练视频分段中的每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧。示例性地，可以通过光流法判断训练视频中是否存在镜头的切换。如果存在镜头切换就在镜头发生切换的视频帧处对视频进行划分，由此将一个完整训练视频拆分为对应不同镜头的分段。

在步骤603中，针对多个训练视频分段中的每一个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合。在一个实施例中，针对每个训练视频分段，检测其包含的多个视频帧中的人体区域；判断所检测到的两个或更多个人体区域之间的相似度；和将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成训练视频分段的一个或多个人体区域样本集合。检测多个视频帧中的人体区域是通过人体检测网络SSD实现的。这里，人体区域之间的相似度是利用人工特征来判断的。举例而言，人体特征可以是尺度不变SIFT特征。在一个实施例中，预定阈值范围设置为高于第一阈值且低于第二阈值，将满足该预定阈值范围的两个或更多个人体区域加入到相同的人体区域样本集合内，作为正样本对的集合。这里将预定阈值设置为高于第一阈值是用于确保人体区域有较高的相似度，即两个人体区域属于同一个角色；同时要求预定阈值低于第二阈值是用于去除相似度过高的人体区域，原因在于相似度过高的两帧几乎没有变化，不利于网络模型的训练。在另一个实施例中，预定阈值范围被设置为低于第三阈值，将满足该预定阈值范围的两个或更多个人体区域加入到相同的人体区域样本集合内，作为负样本对的集合，即这样的人体区域不属于相同角色。

在步骤604中，确定一个或多个人体区域样本集合中是否包含人脸。该步骤是通过人脸识别技术实现的。在步骤605中，响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。在一个实施例中，响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，从各个人体区域样本集合中分别选取相同预定数量的人脸；对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较；将人脸相似度满足预定阈值的人体区域样本集合进行合并。具体地，利用人脸识别技术对各个人体区域样本集合内的人脸进行比对。例如，在确定存在人脸的各个人体区域样本集合中，分别选择N个人脸，N为正整数。对选择的N张人脸进行交叉比较。在两个或更多个人体区域样本集合中的N张人脸匹配的比例超过预定阈值（例如，50%）的情况下，则对两个或更多个人体区域样本集合合并为同一个人体区域样本集合。即说明这两个人体区域样本集合中的人体区域时实际上属于同一人物。这在一些情况下，是由于从第一镜头切换到第二镜头，然后又切回第一镜头造成的。

在一个实施例中，该数据集的构建方法还包括：利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域；从人体区域样本集合中去除人体区域相似度低于预定阈值的人体区域。这里ReID是利用开源的经过训练的ReID网络，即通过开源的方法判断是否构建的人体区域样本集合中是否存在不相似的人体区域。

此外，在上述构建数据集方法的基础上，由于同一人物在视频中会出现各种姿态角度和背景，上述步骤后可能还需要进行人工筛选，以确保每个集合中的人体都是相同的人物形象。

本发明还提出了一种特征提取网络的训练方法，基于上述方法600得到的数据集对特征提取网络进行训练。需要注意的是，在训练中，对这些样本添加了包括随机剪裁、模糊、旋转等攻击，由此提高特征提取网络的鲁棒性。

本发明的特征提取网络在现有深度网络结构的基础上还进行了下述改进和优化，来提升针对本任务的效果。首先，在网络的浅层采用较大的卷积核和步长，达到加大感受野的同时也加快网络的深入速度的作用。随着网络的深入，特征维度不断增加，为了提升运算效率，卷积核大小逐步下降，最终降至3x3的卷积核。此外，特征提取网络采用三元组损失函数作为最终的损失函数。该损失函数能够减小正样本对之间的距离，同时增加负样本对之间的距离，对于后续判断人体是否相似有非常好的效果。这里正样本指的是通过人体区域之间的相似度确定属于相同人物的人体区域的样本对；负样本指的是通过人体区域之间的相似度确定属于不同人物的人体区域的样本对。另外，最终的特征为深层特征和浅层特征叠加。深度网络的浅层特征代表了图像的结构信息，深层特征富含了更多的语意信息。本发明使用了注意力模型将网络的深层信息和浅层信息相结合，对比单一使用浅层特征或者深层特征能够提升非常高的准确率。

图7示意性示出了根据本发明一个实施例的视频处理装置700的示意图。一种视频处理装置700包括：获取模块701、人体检测模块702、特征提取模块703、比较模块704、时间点确定模块705和视频处理模块706。获取模块701被配置成获取待处理视频和表示目标对象的目标人体区域。人体检测模块702被配置成检测待处理视频中的多个人体区域。特征提取模块703被配置成将多个人体区域输入经训练的特征提取网络，得到分别描述多个人体区域的多个第一特征，和将目标人体区域输入经训练的特征提取网络，得到描述目标人体区域的第二特征，特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的，且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。比较模块704被配置成将多个第一特征分别与第二特征进行比较，得到与第二特征相匹配的第一特征中的至少一个第一匹配特征。时间点确定模块705被配置成确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点。视频处理模块706，被配置成基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。该视频处理装置700能够自动分割出视频（例如，电影、电视剧和综艺）中相同角色的片段，节省了大量的人力和时间成本，提高了剪辑效率，也有助于后期的视频制作，增强了用户体验。

图8示意性示出了根据本发明另一个实施例的构建数据集的装置800的示意图，该数据集用于对特征提取网络进行训练。数据集的构建装置800包括：获取模块801、视频分段模块802、集合创建模块803、确定模块804、集合合并模块805和数据集构建模块806。获取模块801被配置成获取用于特征提取网络的训练视频。视频分段模块802被配置成按照视频拍摄镜头将训练视频划分为多个训练视频分段，多个训练视频分段中的每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧。集合创建模块803被配置成针对每个训练视频分段，创建训练视频分段的一个或多个人体区域样本集合。确定模块804被配置成确定一个或多个人体区域样本集合中是否包含人脸。集合合并模块805被配置成响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并。

图9示意性示出了示出了用于进行视频处理和/或构建数据集的示例计算机设备900的示意图。计算机设备900可以是各种不同类型的设备，例如服务器计算机（例如图2中所示的服务器201）、与应用程序相关联的设备（例如，图2中所示的用户终端203）、片上***、和/或任何其它合适的计算机设备或计算***。

计算机设备900可以包括能够诸如通过***总线914或其他适当的连接彼此通信的至少一个处理器902、存储器904、（多个）通信接口906、显示设备908、其他输入/输出（I/O）设备910以及一个或多个大容量存储装置912。

处理器902可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器902可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外，处理器902可以被配置成获取并且执行存储在存储器904、大容量存储装置912或者其他计算机可读介质中的计算机可读指令，诸如操作***916的程序代码、应用程序918的程序代码、其他程序920的程序代码等，以实现本发明一个实施例提供的用于进行视频处理和/或构建数据集的方法。

存储器904和大容量存储设备912是用于存储指令的计算机存储介质的示例，指令由处理器902执行来实施前面所描述的各种功能。举例来说，存储器904一般可以包括易失性存储器和非易失性存储器二者（例如RAM、ROM等等）。此外，大容量存储设备912一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘（例如CD、DVD）、存储阵列、网络附属存储、存储区域网等等。存储器904和大容量存储设备912在本文中都可以被统称为存储器或计算机存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非瞬时性介质，计算机程序代码可以由处理器902作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

多个程序模块可以存储在大容量存储设备912上。这些程序包括操作***916、一个或多个应用程序918、其他程序920和程序数据922，并且它们可以被加载到存储器904以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑（例如，计算机程序代码或指令）：获取模块701、人体检测模块702、特征提取模块703、比较模块704、时间点确定模块705和视频处理模块706以及获取模块901、视频分段模块802、集合创建模块803、确定模块804、集合合并模块805和数据集构建模块806和/或本文描述的另外的实施例。

虽然在图9中被展示成存储在计算机设备900的存储器904中，但是模块916、918、920和922或者其部分可以使用可由计算机设备900访问的任何形式的计算机可读介质来实施。如本文所使用的，“计算机可读介质”至少包括两种类型的计算机可读介质，也就是计算机存储介质和通信介质。

计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质，信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字通用盘（DVD）、或其他光学存储装置，磁盒、磁带、磁盘存储装置或其他磁性存储设备，或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。

计算机设备900还可以包括一个或更多通信接口906，以用于诸如通过网络、直接连接等等与其他设备交换数据，正如前面所讨论的那样。一个或更多通信接口906可以促进在多种网络和协议类型内的通信，其中包括有线网络（例如LAN、电缆等等）和无线网络（例如WLAN、蜂窝、卫星等等）、因特网等等。通信接口906还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置（未示出）的通信。

在一些示例中，可以包括诸如监视器之类的显示设备908，以用于显示信息和图像。其他I/O设备910可以是获取来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。

通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除其他元件或步骤，并且本文使用的词语“一”或“一个”不排除多个。虽然某些特征记载在相互不同的从属权利要求中，但是仅仅这个事实并不表明这些特征的组合不能被使用或实现。

Claims

1.一种视频处理方法，所述方法包括：

获取待处理视频和表示目标对象的目标人体区域；

检测所述待处理视频中的多个人体区域；

将所述多个人体区域输入经训练的特征提取网络，得到分别描述所述多个人体区域的多个第一特征，和将所述目标人体区域输入所述经训练的特征提取网络，得到描述所述目标人体区域的第二特征；

将所述多个第一特征分别与所述第二特征进行比较，得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征；

确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点；

基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分；

其中，所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的，且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。

2.如权利要求1所述的视频处理方法，其中所述数据集通过下述步骤构建：

获取用于所述特征提取网络的训练视频；

按照视频拍摄镜头将所述训练视频划分为多个训练视频分段；

针对所述多个训练视频分段中的每一个训练视频分段，创建所述训练视频分段的一个或多个人体区域样本集合；

确定一个或多个所述人体区域样本集合中是否包含人脸；

响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。

3.如权利要求2所述的视频处理方法，所述针对所述多个训练视频分段中的每一个训练视频分段，创建所述训练视频分段的一个或多个人体区域样本集合包括：

针对所述多个训练视频分段中的每一个训练视频分段，所述每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧，检测所述多个视频帧中的人体区域；

判断所检测到的两个或更多个人体区域之间的相似度；

将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成所述训练视频分段的一个或多个人体区域样本集合。

4.如权利要求2或3所述的视频处理方法，所述响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括：

响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，从各个人体区域样本集合中分别选取相同预定数量的人脸；

对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较；

将所述人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。

5.如权利要求2所述的视频处理方法，所述数据集还通过下述步骤构建：

利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域；

从所述人体区域样本集合中去除所述人体区域相似度低于第二预定阈值的人体区域。

6.如权利要求3所述的视频处理方法，所述判断所检测到的两个或更多个人体区域之间的相似度包括：基于人工特征判断所检测到的两个或更多个人体区域之间的相似度。

7.一种用于构建数据集的方法，所述数据集用于训练特征提取网络，所述方法包括：

获取用于所述特征提取网络的训练视频；

确定一个或多个所述人体区域样本集合中是否包含人脸；

8.如权利要求7所述的用于构建数据集的方法，所述针对所述多个训练视频分段中的每一个训练视频分段，创建所述训练视频分段的一个或多个人体区域样本集合包括：

判断所检测到的两个或更多个人体区域之间的相似度；

9.如权利要求7或8所述的用于构建数据集的方法，所述响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括：

10.一种特征提取网络的训练方法，包括：

获取用于所述特征提取网络的训练视频，

基于所获取的训练视频，使用如权利要求7-9中任一项所述的构建数据集的方法来构造训练数据集，

使用所述数据集来训练特征提取网络以提取描述人体区域的特征。

11.一种视频处理装置，所述装置包括：

获取模块，被配置成获取待处理视频和表示目标对象的目标人体区域；

人体检测模块，被配置成检测所述待处理视频中的多个人体区域；

特征提取模块，被配置成将所述多个人体区域输入经训练的特征提取网络，得到分别描述所述多个人体区域的多个第一特征，和将所述目标人体区域输入所述经训练的特征提取网络，得到描述所述目标人体区域的第二特征，其中，所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的，且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的；

比较模块，被配置成将所述多个第一特征分别与所述第二特征进行比较，得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征；

时间点确定模块，被配置成确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点；

视频处理模块，被配置成基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分。

12.一种数据集的构建装置，所述数据集用于对特征提取网络进行训练，所述装置包括：

获取模块，被配置成获取用于所述特征提取网络的训练视频；

视频分段模块，被配置成按照视频拍摄镜头将所述训练视频划分为多个训练视频分段；

集合创建模块，被配置成针对所述多个训练视频分段中的每一个训练视频分段，创建所述训练视频分段的一个或多个人体区域样本集合；

确定模块，被配置成确定一个或多个所述人体区域样本集合中是否包含人脸；

集合合并模块，被配置成响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸，基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。

13.一种特征提取网络的训练装置，包括：

获取模块，被配置成获取用于所述特征提取网络的训练视频，

数据集构建模块，被配置成基于所获取的训练视频，使用如权利要求7-9中任一项所述的构建数据集的方法来构造训练数据集，

训练模块，被配置成使用所述数据集来训练特征提取网络以提取描述人体区域的特征。

14.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。