CN110633663A - 一种手语视频中自动裁剪多模态数据的方法 - Google Patents
一种手语视频中自动裁剪多模态数据的方法 Download PDFInfo
- Publication number
- CN110633663A CN110633663A CN201910835953.2A CN201910835953A CN110633663A CN 110633663 A CN110633663 A CN 110633663A CN 201910835953 A CN201910835953 A CN 201910835953A CN 110633663 A CN110633663 A CN 110633663A
- Authority
- CN
- China
- Prior art keywords
- sign language
- key frame
- video
- face
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种手语视频中自动裁剪多模态数据的方法,该方法:把手语视频裁剪为图像、视频、语音以及手语四个模态的数据集合,基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪过程全自动。本发明通过利用自定义的人脸库裁剪视频中的多模态数据,提高构建多模态数据集的效率。
Description
技术领域
本发明涉及一种手语视频中自动裁剪多模态数据的方法,属于数字图像处理、深度学习领域。
背景技术
在多模态表示学习中,多模态数据作为自然存在的一种数据,被广泛应用于语音识别、计算机视觉等领域,用来提升例如声音分离、自动驾驶中的激光雷达目标检测等具体任务的性能。目前,多模态的研究主要集中在图像、视频、语音、语义之间的学习。手语作为聋哑人之间信息交互的主要渠道,能够携带一定的信息,可以作为一个模态为现实中的任务提供辅助监督信息。
另外,制作大型数据集的过程需要投入大量的人力标注成本及大容量的存储介质,浪费资源与金钱。在标注过程中,若发生错误标注且没有及时发现,对最终深度神经网络模型计算得出的结果会产生不可预估的影响。
综上所述,构建一个全自动的包含手语的多模态数据集不仅可以节省大量的人力成本以及解决由于错误标注引起的一系列问题,而且可以把手语信息作为其中一个模态进行更加深入的研究,进一步推动多模态表示学习的发展。
发明内容
本发明的目的是提供一种手语视频中自动裁剪多模态数据的方法,以解决背景技术中所介绍的现有场景不存在包含手语的多模态数据集问题,此方法可以自动裁剪手语视频,极大地提高构建多模态数据集的效率。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种手语视频中自动裁剪多模态数据的方法,具体步骤如下:
步骤1,构建自定义的人脸特征库
1.1,收集电视台公开的手语视频,所述手语视频包含图像、视频、语音以及手语四个模态的信息;
1.2,利用OpenCV获取对1.1中的手语视频的关键帧图片,同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片;
1.3,通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸;
1.4,将1.3截取的人脸送到FaceNet神经网络中提取人脸特征,形成人脸特征库;
步骤2,对待裁剪手语视频进行全自动裁剪
2.1,根据1.2至1.4中的方法提取待裁剪手语视频的人脸特征,并通过FaceNet神经网络判断待裁剪手语视频的人脸特征是否在人脸特征库中,若是则执行下一步,否则将待裁剪手语视频的人脸特征加入人脸特征库后执行下一步;
2.2,将待裁剪手语视频的关键帧图片转化为用浮点型表示的灰度图;
2.3,使用感知哈希算法计算某关键帧与前一关键帧对应的灰度图之间的汉明距离,若汉明距离大于12,则表示两者不为同一剪辑段,将该关键帧作为特殊帧;
2.4,以2.3中的特殊帧为片段的初始帧,通过FFmpeg将待裁剪手语视频切割成若干片段;
2.5,将2.4中每个片段中开始1秒的关键帧以及倒数3秒内的任一关键帧分割出来,提取与之对应的两张灰度图中的人脸特征并分别与人脸特征库中的人脸特征相比对,若相似度在95%以上则该片段为满足裁剪要求的视频片段,否则返回2.3直至待裁剪手语视频结束;
步骤3,切割各模态数据
3.1,利用FFmpeg把步骤2中满足裁剪要求的视频片段切割成关键帧图片和语音的集合,形成图像和语音两个模态的数据;
3.2,通过OpenCV把3.1中的关键帧图片整合成视频,形成视频模态的数据;
3.3,人工划定手语部分在3.1中关键帧图片中的位置,利用OpenCV把3.1中的关键帧图片中的手语部分裁剪出来,形成手语模态的数据。
作为本发明的进一步优化方案,该方法的软件环境为FFmpeg和安装OpenCV开发包的Python3.6。
作为本发明的进一步优化方案,人脸特征库的的保存形式为pkl后缀结尾的文件。
作为本发明的进一步优化方案,1.3中截取的人脸为160x160像素。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明解决了背景技术中所介绍的现有场景不存在包含手语的多模态数据集问题,此方法可以自动裁剪手语视频,极大地提高构建多模态数据集的效率。
附图说明
图1为一种自动裁剪多模态数据方法的示意图;
图2为公开手语视频示例,其中,(a)为中央电视台的《共同关注》,(b)为北京电视台的《新闻手语》,(c)为大连电视台的《手语新闻》,(d)为河南电视台的《豫爱同行》,(e)为杭州电视台的《杭州气象》,(f)为杭州西湖电视台的《明珠手语新闻》;
图3为构建人脸特征库的流程图;
图4为一种自动裁剪多模态数据的流程图;
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术方案做进一步详细的说明。
本发明所提出的一种手语视频中自动裁剪多模态数据方法的示意图如图1所示。该图主要由人脸特征提取和多模态数据自动裁剪两部分组成,其中虚线框中为第一部分,实线框中为第二部分。从图1中可以看到,第二部分包含第一部分,第一部分为第二部分提供操作前提,若当前待切割视频的主持人人脸特征已经在人脸特征库中,则无需将其加入人脸特征库直接进行后续步骤,否则将其加入人脸特征库后再执行后续步骤。为了体现全自动裁剪多模态数据的特性,从图1中可以看到,把待裁剪视频经过第一部分和第二部分处理即可得到包含图像、视频、语音以及手语四个模态的数据集合。
实施例:图2为技术方案1中搜集的手语视频示例,(a)为中央电视台的《共同关注》、(b)为北京电视台的《新闻手语》、(c)为大连电视台的《手语新闻》、(d)为河南电视台的《豫爱同行》、(e)为杭州电视台的《杭州气象》、(f)为杭州西湖电视台的《明珠手语新闻》。下面以某一天《共同关注》视频为实施例,详细说明本发明的步骤。
实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM),Windows10 64位操作***。软件环境为FFmpeg和安装Opencv开发包的Python3.6。
实验步骤:
实验步骤分为2个部分,分别如图3和图4所示。
图3为本发明构建人脸特征库的流程图,具体为:
101.视频转图片。该流程接受一个输入视频,即为某一天的《共同关注》视频。经过读取与分析之后,把该视频的每张关键帧图片保存到指定的存储介质;
102.MTCNN截取人脸。该流程过滤101中保存的图片,截取出期望的图片。在101中保存的关键帧图片中,需要把不存在多模态数据的关键帧图片剔除,在满足条件的关键帧图片中裁剪人脸,得到160x160像素的主持人人脸数据,该人脸数据用于构建人脸特征库;
103.FaceNet提取人脸特征。该流程将102得到的主持人人脸数据送到FaceNet神经网络中提取人脸特征;
104.保存至人脸库。把103提取到的人脸特征加入已存在的人脸库中。本实施例全部使用Python编写,所以人脸库的保存形式为pkl后缀结尾的文件,用于保存人脸特征;
图4为本发明实现的自动裁剪多模态数据的流程图,具体为:
201.OpenCV寻找特殊帧。把某一天《共同关注》的视频送入该模块,该模块基于OpenCV读取视频中的每个关键帧。除了读取的第一帧,其余帧都将与前一帧进行比对,使用感知哈希算法计算该关键帧与前一关键帧对应的灰度图之间的汉明距离,若汉明距离大于12,则表示两者不为同一剪辑段,将该关键帧作为特殊帧;
202.FFmpeg处理视频。以201返回的特殊帧,为片段的初始帧,通过FFmpeg将待裁剪手语视频切割成若干片段,并把这些小片段的开始1秒的关键帧以及倒数3秒内的某一个关键帧单独分割出来返回;
203.人脸比对。判断202返回的关键帧图片中是否存在合格的人脸。比对的对象就是104中得到的人脸特征库。202返回的关键帧图片是成对出现的,即每个视频片段都对应两张图片分别为该视频片段的开始1秒的关键帧和倒数3秒内的某一个关键帧。判断是否是合格人脸的标准是每个视频片段的开始1秒的关键帧和倒数3秒内的某一个关键帧中的人脸均需要和104中人脸特征库中的某些人脸特征的相似度在95%以上,只有满足这个条件才能够判断该片段为满足裁剪要求的视频片段,否则继续执行201步骤的操作,直到找到满足条件的人脸直至待剪裁手语视频结束;
204.切割各模态数据。利用FFmpeg把203中存在多模态数据的视频片段切割成关键帧图片和语音的集合,形成图像和语音两个模态的数据。再通过OpenCV把得到的关键帧图片整合成视频。最终,人工划定关键帧图片中的手语部分,利用OpenCV把关键帧中的手语部分裁剪出来,得到手语模态的数据。上述得到的四个模态的数据就是利用本发明提到的***进行自动化的切割得到的最终数据。
以上所述是本实验优选实施方式,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换也应视为本发明的保护范围。
Claims (4)
1.一种手语视频中自动裁剪多模态数据的方法,其特征在于,具体步骤如下:
步骤1,构建自定义的人脸特征库
1.1,收集电视台公开的手语视频,所述手语视频包含图像、视频、语音以及手语四个模态的信息;
1.2,利用OpenCV获取对1.1中的手语视频的关键帧图片,同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片;
1.3,通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸;
1.4,将1.3截取的人脸送到FaceNet神经网络中提取人脸特征,形成人脸特征库;
步骤2,对待裁剪手语视频进行全自动裁剪
2.1,根据1.2至1.4中的方法提取待裁剪手语视频的人脸特征,并通过FaceNet神经网络判断待裁剪手语视频的人脸特征是否在人脸特征库中,若是则执行下一步,否则将待裁剪手语视频的人脸特征加入人脸特征库后执行下一步;
2.2,将待裁剪手语视频的关键帧图片转化为用浮点型表示的灰度图;
2.3,使用感知哈希算法计算某关键帧与前一关键帧对应的灰度图之间的汉明距离,若汉明距离大于12,则表示两者不为同一剪辑段,将该关键帧作为特殊帧;
2.4,以2.3中的特殊帧为片段的初始帧,通过FFmpeg将待裁剪手语视频切割成若干片段;
2.5,将2.4中每个片段中开始1秒的关键帧以及倒数3秒内的任一关键帧分割出来,提取与之对应的两张灰度图中的人脸特征并分别与人脸特征库中的人脸特征相比对,若相似度在95%以上则该片段为满足裁剪要求的视频片段,否则返回2.3直至待裁剪手语视频结束;
步骤3,切割各模态数据
3.1,利用FFmpeg把步骤2中满足裁剪要求的视频片段切割成关键帧图片和语音的集合,形成图像和语音两个模态的数据;
3.2,通过OpenCV把3.1中的关键帧图片整合成视频,形成视频模态的数据;
3.3,人工划定手语部分在3.1中关键帧图片中的位置,利用OpenCV把3.1中的关键帧图片中的手语部分裁剪出来,形成手语模态的数据。
2.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法,其特征在于,该方法的软件环境为FFmpeg和安装OpenCV开发包的Python3.6。
3.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法,其特征在于,人脸特征库的的保存形式为pkl后缀结尾的文件。
4.如权利要求1所述的一种手语视频中自动裁剪多模态数据的方法,其特征在于,1.3中截取的人脸为160x160像素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910835953.2A CN110633663B (zh) | 2019-09-05 | 2019-09-05 | 一种手语视频中自动裁剪多模态数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910835953.2A CN110633663B (zh) | 2019-09-05 | 2019-09-05 | 一种手语视频中自动裁剪多模态数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633663A true CN110633663A (zh) | 2019-12-31 |
CN110633663B CN110633663B (zh) | 2022-04-08 |
Family
ID=68970150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910835953.2A Active CN110633663B (zh) | 2019-09-05 | 2019-09-05 | 一种手语视频中自动裁剪多模态数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633663B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019358A (zh) * | 2021-08-18 | 2022-09-06 | 东南大学 | 一种真实场景下的多模态数据集的构建方法 |
CN115460462A (zh) * | 2022-09-17 | 2022-12-09 | 东南大学 | 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查***及方法 |
US20180204061A1 (en) * | 2017-01-19 | 2018-07-19 | Samsung Electronics Co., Ltd. | Vision intelligence management for electronic devices |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN108537109A (zh) * | 2018-02-13 | 2018-09-14 | 东南大学 | 基于OpenPose的单目相机手语识别方法 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及*** |
AU2019100545A4 (en) * | 2019-05-21 | 2019-08-22 | Daria Sancha Anna Gomez Gane | SUSAN: Sign [languages] Universal - Sign [languages] Auslang New [translating - including "SUSANita" and "REPLICAnte" - and teaching tools] |
-
2019
- 2019-09-05 CN CN201910835953.2A patent/CN110633663B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查***及方法 |
US20180204061A1 (en) * | 2017-01-19 | 2018-07-19 | Samsung Electronics Co., Ltd. | Vision intelligence management for electronic devices |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN108537109A (zh) * | 2018-02-13 | 2018-09-14 | 东南大学 | 基于OpenPose的单目相机手语识别方法 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及*** |
AU2019100545A4 (en) * | 2019-05-21 | 2019-08-22 | Daria Sancha Anna Gomez Gane | SUSAN: Sign [languages] Universal - Sign [languages] Auslang New [translating - including "SUSANita" and "REPLICAnte" - and teaching tools] |
Non-Patent Citations (1)
Title |
---|
张晓梅: "自然手语语料库建设与研究", 《长春大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019358A (zh) * | 2021-08-18 | 2022-09-06 | 东南大学 | 一种真实场景下的多模态数据集的构建方法 |
CN115460462A (zh) * | 2022-09-17 | 2022-12-09 | 东南大学 | 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110633663B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445902B (zh) | 数据收集方法、装置、存储介质及电子设备 | |
US20230267735A1 (en) | Method for structuring pedestrian information, device, apparatus and storage medium | |
CN103927352A (zh) | 利用知识库海量关联信息的中文名片ocr数据修正*** | |
CN110633663B (zh) | 一种手语视频中自动裁剪多模态数据的方法 | |
CN113780276B (zh) | 一种结合文本分类的文本识别方法及*** | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN109168006A (zh) | 一种图形和图像共存的视频编解码方法 | |
CN114332122A (zh) | 基于注意力机制分割并回归的细胞计数方法 | |
CN113780289A (zh) | 图像识别方法及装置、存储介质和电子设备 | |
KR20200046182A (ko) | 딥러닝 기반 이미지 보정 탐지 시스템 및 이를 이용하여 무보정 탐지 서비스를 제공하는 방법 | |
CN113434727A (zh) | 一种新闻类长视频描述数据集构建方法 | |
CN116364064B (zh) | 一种音频拼接方法、电子设备及存储介质 | |
CN110580462B (zh) | 一种基于非局部网络的自然场景文本检测方法和*** | |
Ghorpade et al. | Extracting text from video | |
CN103916677A (zh) | 一种广告视频识别方法和装置 | |
CN114724144A (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN113033552A (zh) | 文本识别方法、装置和电子设备 | |
KR101911613B1 (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 | |
CN115205920A (zh) | 一种包含戴口罩人脸的语音分离数据集制作方法 | |
CN112836712B (zh) | 图片特征的提取方法、装置、电子设备及存储介质 | |
CN114979742B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113762270A (zh) | 一种基于多标签误差网络深度监督的医学图像分割方法 | |
CN114140798A (zh) | 文本区域的分割方法、装置、电子设备和存储介质 | |
CN118155605A (zh) | 一种语音语种转化的方法及设备 | |
CN115080793A (zh) | 视频拆条方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |