CN110633663A

CN110633663A - 一种手语视频中自动裁剪多模态数据的方法

Info

Publication number: CN110633663A
Application number: CN201910835953.2A
Authority: CN
Inventors: 伍家松; 李桃桃; 舒华忠; 孔佑勇; 杨冠羽; 杨淳沨; 姜龙玉; 章品正
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-31
Anticipated expiration: 2039-09-05
Also published as: CN110633663B

Abstract

本发明公开了一种手语视频中自动裁剪多模态数据的方法，该方法：把手语视频裁剪为图像、视频、语音以及手语四个模态的数据集合，基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对，实现视频裁剪过程全自动。本发明通过利用自定义的人脸库裁剪视频中的多模态数据，提高构建多模态数据集的效率。

Description

一种手语视频中自动裁剪多模态数据的方法

技术领域

本发明涉及一种手语视频中自动裁剪多模态数据的方法，属于数字图像处理、深度学习领域。

背景技术

在多模态表示学习中，多模态数据作为自然存在的一种数据，被广泛应用于语音识别、计算机视觉等领域，用来提升例如声音分离、自动驾驶中的激光雷达目标检测等具体任务的性能。目前，多模态的研究主要集中在图像、视频、语音、语义之间的学习。手语作为聋哑人之间信息交互的主要渠道，能够携带一定的信息，可以作为一个模态为现实中的任务提供辅助监督信息。

另外，制作大型数据集的过程需要投入大量的人力标注成本及大容量的存储介质，浪费资源与金钱。在标注过程中，若发生错误标注且没有及时发现，对最终深度神经网络模型计算得出的结果会产生不可预估的影响。

综上所述，构建一个全自动的包含手语的多模态数据集不仅可以节省大量的人力成本以及解决由于错误标注引起的一系列问题，而且可以把手语信息作为其中一个模态进行更加深入的研究，进一步推动多模态表示学习的发展。

发明内容

本发明的目的是提供一种手语视频中自动裁剪多模态数据的方法，以解决背景技术中所介绍的现有场景不存在包含手语的多模态数据集问题，此方法可以自动裁剪手语视频，极大地提高构建多模态数据集的效率。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种手语视频中自动裁剪多模态数据的方法，具体步骤如下：

步骤1，构建自定义的人脸特征库

1.1，收集电视台公开的手语视频，所述手语视频包含图像、视频、语音以及手语四个模态的信息；

1.2，利用OpenCV获取对1.1中的手语视频的关键帧图片，同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片；

1.3，通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸；

1.4，将1.3截取的人脸送到FaceNet神经网络中提取人脸特征，形成人脸特征库；

步骤2，对待裁剪手语视频进行全自动裁剪

2.1，根据1.2至1.4中的方法提取待裁剪手语视频的人脸特征，并通过FaceNet神经网络判断待裁剪手语视频的人脸特征是否在人脸特征库中，若是则执行下一步，否则将待裁剪手语视频的人脸特征加入人脸特征库后执行下一步；

2.2，将待裁剪手语视频的关键帧图片转化为用浮点型表示的灰度图；

2.3，使用感知哈希算法计算某关键帧与前一关键帧对应的灰度图之间的汉明距离，若汉明距离大于12，则表示两者不为同一剪辑段，将该关键帧作为特殊帧；

2.4，以2.3中的特殊帧为片段的初始帧，通过FFmpeg将待裁剪手语视频切割成若干片段；

2.5，将2.4中每个片段中开始1秒的关键帧以及倒数3秒内的任一关键帧分割出来，提取与之对应的两张灰度图中的人脸特征并分别与人脸特征库中的人脸特征相比对，若相似度在95％以上则该片段为满足裁剪要求的视频片段，否则返回2.3直至待裁剪手语视频结束；

步骤3，切割各模态数据

3.1，利用FFmpeg把步骤2中满足裁剪要求的视频片段切割成关键帧图片和语音的集合，形成图像和语音两个模态的数据；

3.2，通过OpenCV把3.1中的关键帧图片整合成视频，形成视频模态的数据；

3.3，人工划定手语部分在3.1中关键帧图片中的位置，利用OpenCV把3.1中的关键帧图片中的手语部分裁剪出来，形成手语模态的数据。

作为本发明的进一步优化方案，该方法的软件环境为FFmpeg和安装OpenCV开发包的Python3.6。

作为本发明的进一步优化方案，人脸特征库的的保存形式为pkl后缀结尾的文件。

作为本发明的进一步优化方案，1.3中截取的人脸为160x160像素。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明解决了背景技术中所介绍的现有场景不存在包含手语的多模态数据集问题，此方法可以自动裁剪手语视频，极大地提高构建多模态数据集的效率。

附图说明

图1为一种自动裁剪多模态数据方法的示意图；

图2为公开手语视频示例，其中，(a)为中央电视台的《共同关注》，(b)为北京电视台的《新闻手语》，(c)为大连电视台的《手语新闻》，(d)为河南电视台的《豫爱同行》，(e)为杭州电视台的《杭州气象》，(f)为杭州西湖电视台的《明珠手语新闻》；

图3为构建人脸特征库的流程图；

图4为一种自动裁剪多模态数据的流程图；

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中的技术方案做进一步详细的说明。

本发明所提出的一种手语视频中自动裁剪多模态数据方法的示意图如图1所示。该图主要由人脸特征提取和多模态数据自动裁剪两部分组成，其中虚线框中为第一部分，实线框中为第二部分。从图1中可以看到，第二部分包含第一部分，第一部分为第二部分提供操作前提，若当前待切割视频的主持人人脸特征已经在人脸特征库中，则无需将其加入人脸特征库直接进行后续步骤，否则将其加入人脸特征库后再执行后续步骤。为了体现全自动裁剪多模态数据的特性，从图1中可以看到，把待裁剪视频经过第一部分和第二部分处理即可得到包含图像、视频、语音以及手语四个模态的数据集合。

实施例：图2为技术方案1中搜集的手语视频示例，(a)为中央电视台的《共同关注》、(b)为北京电视台的《新闻手语》、(c)为大连电视台的《手语新闻》、(d)为河南电视台的《豫爱同行》、(e)为杭州电视台的《杭州气象》、(f)为杭州西湖电视台的《明珠手语新闻》。下面以某一天《共同关注》视频为实施例，详细说明本发明的步骤。

实验环境：电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM)，Windows10 64位操作***。软件环境为FFmpeg和安装Opencv开发包的Python3.6。

实验步骤：

实验步骤分为2个部分，分别如图3和图4所示。

图3为本发明构建人脸特征库的流程图，具体为：

101.视频转图片。该流程接受一个输入视频，即为某一天的《共同关注》视频。经过读取与分析之后，把该视频的每张关键帧图片保存到指定的存储介质；

102.MTCNN截取人脸。该流程过滤101中保存的图片，截取出期望的图片。在101中保存的关键帧图片中，需要把不存在多模态数据的关键帧图片剔除，在满足条件的关键帧图片中裁剪人脸，得到160x160像素的主持人人脸数据，该人脸数据用于构建人脸特征库；

103.FaceNet提取人脸特征。该流程将102得到的主持人人脸数据送到FaceNet神经网络中提取人脸特征；

104.保存至人脸库。把103提取到的人脸特征加入已存在的人脸库中。本实施例全部使用Python编写，所以人脸库的保存形式为pkl后缀结尾的文件，用于保存人脸特征；

图4为本发明实现的自动裁剪多模态数据的流程图，具体为：

201.OpenCV寻找特殊帧。把某一天《共同关注》的视频送入该模块，该模块基于OpenCV读取视频中的每个关键帧。除了读取的第一帧，其余帧都将与前一帧进行比对，使用感知哈希算法计算该关键帧与前一关键帧对应的灰度图之间的汉明距离，若汉明距离大于12，则表示两者不为同一剪辑段，将该关键帧作为特殊帧；

202.FFmpeg处理视频。以201返回的特殊帧，为片段的初始帧，通过FFmpeg将待裁剪手语视频切割成若干片段，并把这些小片段的开始1秒的关键帧以及倒数3秒内的某一个关键帧单独分割出来返回；

203.人脸比对。判断202返回的关键帧图片中是否存在合格的人脸。比对的对象就是104中得到的人脸特征库。202返回的关键帧图片是成对出现的，即每个视频片段都对应两张图片分别为该视频片段的开始1秒的关键帧和倒数3秒内的某一个关键帧。判断是否是合格人脸的标准是每个视频片段的开始1秒的关键帧和倒数3秒内的某一个关键帧中的人脸均需要和104中人脸特征库中的某些人脸特征的相似度在95％以上，只有满足这个条件才能够判断该片段为满足裁剪要求的视频片段，否则继续执行201步骤的操作，直到找到满足条件的人脸直至待剪裁手语视频结束；

204.切割各模态数据。利用FFmpeg把203中存在多模态数据的视频片段切割成关键帧图片和语音的集合，形成图像和语音两个模态的数据。再通过OpenCV把得到的关键帧图片整合成视频。最终，人工划定关键帧图片中的手语部分，利用OpenCV把关键帧中的手语部分裁剪出来，得到手语模态的数据。上述得到的四个模态的数据就是利用本发明提到的***进行自动化的切割得到的最终数据。

以上所述是本实验优选实施方式，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换也应视为本发明的保护范围。

Claims

1.一种手语视频中自动裁剪多模态数据的方法，其特征在于，具体步骤如下：

步骤1，构建自定义的人脸特征库

步骤2，对待裁剪手语视频进行全自动裁剪

步骤3，切割各模态数据

2.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法，其特征在于，该方法的软件环境为FFmpeg和安装OpenCV开发包的Python3.6。

3.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法，其特征在于，人脸特征库的的保存形式为pkl后缀结尾的文件。

4.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法，其特征在于，1.3中截取的人脸为160x160像素。