CN112465008A - 一种基于自监督课程学习的语音和视觉关联性增强方法 - Google Patents

一种基于自监督课程学习的语音和视觉关联性增强方法 Download PDF

Info

Publication number
CN112465008A
CN112465008A CN202011338294.0A CN202011338294A CN112465008A CN 112465008 A CN112465008 A CN 112465008A CN 202011338294 A CN202011338294 A CN 202011338294A CN 112465008 A CN112465008 A CN 112465008A
Authority
CN
China
Prior art keywords
learning
visual
voice
speech
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011338294.0A
Other languages
English (en)
Other versions
CN112465008B (zh
Inventor
徐行
张静然
沈复民
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011338294.0A priority Critical patent/CN112465008B/zh
Publication of CN112465008A publication Critical patent/CN112465008A/zh
Application granted granted Critical
Publication of CN112465008B publication Critical patent/CN112465008B/zh
Priority to US17/535,675 priority patent/US20220165171A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督课程学习的语音和视觉关联性增强方法,涉及多模态的语音和视觉特征表征学习领域。该方法利用对比学习,在teacher‑student框架下提出一种自监督课程学习语音和视觉关联性增强方法,可以保证在无需人工标注的视频数据集上进行训练,以获取高效的语音和视觉表征,并应用于下游任务中。具体地,本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher‑student迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。

Description

一种基于自监督课程学习的语音和视觉关联性增强方法
技术领域
本发明属于多模态的语音和视觉特征表征学习领域,更为具体地讲,涉及一种基于自监督课程学习的语音和视觉关联性增强方法。
背景技术
语音和视觉具有并发的特性,因为声音是由视觉场景中的物体碰撞震动而产生的。合理的利用这一特性,不仅可以减小人工标注的成本,而且可以更高效的提取视觉和语音特征。
视频数据中通常包含丰富的视觉和语音信息,近年来由于视频采集设备的普及性,如便携相机、智能手机等,导致视频数据非常容易获取,并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。然而,如果应用传统的监督学习方法,来提取视频中的信息,需要昂贵的人工标注成本,并且这些标注很难体现视频数据的结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法,可以有效的利用视频数据的特性。现有的视频动作识别领域主流识别方法是基于深度卷积神经网络。
基于视频中语音和视觉并发性的自监督表征学习方法,已成为一个重要的研究方向。语音和视觉的表征学习旨在利用语音和视觉特征的并发特性,提取相应的特征,为下游的视频处理和语音处理任务服务。基于语音和视觉特性的自监督学习方法主要可以分为以下两类:
(1)利用语音和视觉信息的关联性:利用视频中语音和视频帧的成对特性进行自监督学习。
(2)利用语音和视觉信息的同步性:利用视频中语音是由视频帧场景中特定物体振动产生这一特性进行自监督学习。
这两种方式下的自监督学习都是通过验证输入的语音和视频帧序列对是否匹配完成,其中正样本的语音和视频帧序列对都是采样于同一视频源,而负样本对在这两种方式下是不同。利用语音和视觉信息关联性时的负样本对通常采样于不同视频,而利用语音和视觉信息同步性时的负样本对通常采样于同一视频中声音和对应帧场景出现延迟或超前的情形。
本发明主要利用语音和视觉信息的关联性进行自监督的语音和视觉信息表征学习,但如果直接验证输入的语音和视频帧序列对是否匹配,存在以下不足:
(1)只注重输入语音和视频帧序列对不同模态间的关联性,忽略了单模态本身的结构特性。如在足球比赛和篮球比赛场景下,可能都会出现观众和裁判,以及相应的欢呼声和哨声,如果仅考虑不同模态间关联性,会导致错误的匹配,所以还要考虑单模态自身的特性,比如在该情形下是足球还是篮球,以及它们的击球和回弹声音间不同差异;
(2)只考虑少量情形下非匹配输入语音和视频帧序列对间的差异性,无法实现复杂的多情形非匹配对挖掘。
发明内容
本发明的目的在于克服现有技术的不足,提供一种自监督课程学习的语音和视觉关联性增强方法,可以考虑语音和视频帧序列对不同模态间的关联性,同时关注单模态本身的结构特性。该发明在teacher-student结构下进行自监督课程学习以表征语音和视觉特征,具体地,提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher-st udent迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练;最终,利用teacher-student结构下学习的语音和视觉表征进行下游视频动作和语音识别测试。
为实现上述发明目的,本发明的基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,包括以下步骤:
(1)、利用卷积网络进行视频和语音特征提取
假设视频样本集
Figure BDA0002797830790000026
由N个样本组成
Figure BDA0002797830790000021
每个视频样本Vi由T个视频帧序列组成。由于该样本集没有标签,采用常规方式不易进行特征学习,现将视频样本集中样本预处理为成对的语音和视频帧序列
Figure BDA0002797830790000022
其中
Figure BDA0002797830790000027
为视频帧集合,
Figure BDA0002797830790000028
为语音集合。首先运用视觉卷积网络
Figure BDA0002797830790000029
和语音卷积网络
Figure BDA00027978307900000210
提取相应的视觉和语音特征:
Figure BDA0002797830790000023
其中,
Figure BDA0002797830790000024
为视觉特征,为
Figure BDA0002797830790000025
语音特征,i={1,2,...,N}。
(2)、根据提取的特征进行自监督课程学习
1)第一阶段学习
先对视频帧进行自监督的预训练,采用对比学习:
Figure BDA0002797830790000031
其中,
Figure BDA0002797830790000032
是期望函数,log(·)为对数函数,exp(·)为指数函数,τ为温度参数,K为负样本个数,本发明参数设定为τ=0.07,K=16384;
Figure BDA00027978307900000317
Figure BDA0002797830790000034
进行数据变化后的样本
Figure BDA0002797830790000035
的特征,具体由
Figure BDA00027978307900000315
提取
Figure BDA0002797830790000036
由以下变换产生:
Figure BDA0002797830790000037
其中,Tem(·)为时序抖动函数,s为抖动步伐,本发明设为4,T表示视频帧序列的长度;Spa(·)为一序列图像变换函数,本发明中由图像剪裁,水平翻转,灰度变换组成。
再对语音进行自监督的预训练,同样采用对比学习:
Figure BDA0002797830790000038
其中,
Figure BDA0002797830790000039
Figure BDA00027978307900000310
进行数据变化后的样本
Figure BDA00027978307900000311
的特征,具体由
Figure BDA00027978307900000312
提取
Figure BDA00027978307900000313
由以下变换产生:
Figure BDA00027978307900000314
其中,Mts(·)为音频时域掩膜变换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换。
通过这一阶段的学习,可以使单模态的语音和视觉特征进行互相区分。
2)第二阶段学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
Figure BDA0002797830790000041
其中,
Figure BDA0002797830790000042
为正样本对,
Figure BDA0002797830790000043
为负样本对。
通过该阶段的学习,可以将跨模态的语音和视觉间关联信息进行互相迁移。
(3)、利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程可以只存在一个正样本对,和K个负样本对,理想情况下可以使除样本集中正样本外所有样本都为负样本,即K=N-1,但这种情况需要花费高昂的计算代价,在实际情况下无法使用。为解决这一问题并保证有足够数量的负样本,本发明在课程学习过程中维护了一个视觉记忆库
Figure BDA0002797830790000044
和一个语音记忆存储库
Figure BDA0002797830790000045
这两个库的大小为K=16384,且库的样本会在训练过程中进行动态更新:
Figure BDA0002797830790000046
其中,
Figure BDA0002797830790000047
为在某次训练迭代过程中的视觉特征和语音特征,由于每次的记忆库是从所有样本集中随机抽取,且维持固定大小,不仅可以减小计算量还可以保证负样本的多样性。
(4)、下游视频动作和语音识别任务
当自监督课程学习完成后,可以用训练完的视觉卷积网络
Figure BDA00027978307900000412
和语音卷积网络
Figure BDA00027978307900000413
进行相应的表征学习,应用于下游任务分类:
Figure BDA0002797830790000048
其中,
Figure BDA0002797830790000049
为动作的预测标签,
Figure BDA00027978307900000410
为语音的预测标签,argmax(·)为求最大值函数,y表示标签变量,
Figure BDA00027978307900000411
为求概率函数。
为了更好的利用大规模的未标记数据集,并学习语音和视觉表征,本发明利用对比学习,在teacher-student框架下提出一种自监督课程学习语音和视觉关联性增强方法,可以保证在无需人工标注的视频数据集上进行训练,以获取高效的语音和视觉表征,并应用于下游任务中。具体地,本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher-student迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。该方法能无需人工标签,可以利用视频输入中语音和视觉特征间的关联性,自监督的学习语音和视觉信息的特征表示,为下游任务服务。
附图说明
图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图;
图2是本发明可视化语音对视频帧相似性的效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图:
在本实施例中,如图1所示,本发明实施方法包括以下步骤:
步骤S1:利用卷积网络进行视频和语音特征提取
假设视频样本集
Figure BDA0002797830790000056
由N个样本组成
Figure BDA0002797830790000051
将视频集中样本预处理为成对的语音和视频帧序列
Figure BDA0002797830790000052
其中
Figure BDA0002797830790000057
为视频帧集合,
Figure BDA0002797830790000058
为语音集合。首先运用视觉卷积网络
Figure BDA0002797830790000059
和语音卷积网络
Figure BDA00027978307900000510
提取相应的视觉和语音特征:
Figure BDA0002797830790000053
其中,
Figure BDA0002797830790000054
为视觉特征,为
Figure BDA0002797830790000055
语音特征,i={1,2,...,N}。
步骤S2:根据提取的特征进行自监督课程学习
步骤S2.1:第一阶段课程学习
先对视频帧进行自监督的预训练,采用对比学习:
Figure BDA0002797830790000061
其中,
Figure BDA0002797830790000062
是期望函数,log(·)为对数函数,exp(·)为指数函数,τ为温度参数,K为负样本个数,本发明参数设定为τ=0.07,K=16384;
Figure BDA00027978307900000618
Figure BDA0002797830790000064
进行数据变化后的样本
Figure BDA0002797830790000065
的特征,具体由
Figure BDA0002797830790000066
提取
Figure BDA0002797830790000067
由以下变换产生:
Figure BDA0002797830790000068
其中,Tem(·)为时序抖动函数,s为抖动步伐,本发明设为4,T表示视频帧序列的长度;Spa(·)为一序列图像变换函数,本发明中由图像剪裁,水平翻转,灰度变换组成。
再对语音进行自监督的预训练,同样采用对比学习:
Figure BDA0002797830790000069
其中,
Figure BDA00027978307900000610
Figure BDA00027978307900000611
进行数据变化后的样本
Figure BDA00027978307900000612
的特征,具体由
Figure BDA00027978307900000613
提取
Figure BDA00027978307900000614
由以下变换产生:
Figure BDA00027978307900000615
其中,Mts(·)为音频时域掩膜表换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换。
步骤S2.2:第二阶段课程学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
Figure BDA00027978307900000616
其中,
Figure BDA0002797830790000071
为正样本对,
Figure BDA0002797830790000072
为负样本对。
步骤S3:利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程可以只在一个正样本对,和K个负样本对。为缓解负样本对计算代价并保证有足够数量的负样本,本发明在课程学习过程中维护了一个视觉记忆库
Figure BDA0002797830790000073
和一个语音记忆存储库
Figure BDA0002797830790000074
这两个库的大小均为K=16384,且库的样本会在训练过程中进行动态更新:
Figure BDA0002797830790000075
其中,
Figure BDA0002797830790000076
为在某次训练迭代过程中的视觉特征和语音特征,由于每次的记忆库是从所有样本集中随机抽取,且维持固定大小,不仅可以减小计算量还可以保证负样本的多样性。
步骤S4:下游视频动作和语音识别任务
当自监督课程学习完成后,可以用训练完的视觉卷积网络
Figure BDA0002797830790000077
和语音卷积网络
Figure BDA0002797830790000078
进行相应的表征学习,应用于下游任务分类:
Figure BDA0002797830790000079
其中,
Figure BDA00027978307900000710
为动作的预测标签,
Figure BDA00027978307900000711
为语音的预测标签,argmax(·)为求最大值函数,y表示标签变量,
Figure BDA00027978307900000712
为求概率函数。
实施例
本发明先在Kinetics-400数据上进行预训练,然后用下游的动作识别和语音识别的准确率来评估我们的自监督学习方法。Kinetics-400有306,000个短视频序列,本发明提取221,065个视频帧和语音对用于预训练。采用top-k指标来评估本发明的模型。top-k指模型返回的分类特征分数中前k个结果中有正确标签的样本所占的比例,是最常用的分类评估方法。在本实例中,k设为1。
在大规模视频行为分类数据集UCF-101和HMDB-51数据集上测试本发明在动作识别的性能。UCF-101数据集包含101个动作类别,共13,320个样本;HMDB-51数据集包含51个动作类别,共6,849个样本;本发明在这两个数据集上和其他方法的比较如表1所示。
在语音分类数据集ESC-50和DCASE数据集上测试本发明在语音识别的性能。ESC-50数据集包含50个场景的语音,共2000个语音样本;DCASE数据集包含10个场景的语音,共100个语音样本;本发明在这两个数据集上和其他方法的分类效果比较如表2所示。
从表1和表2可以看出,本发明学习到的增强后的语音和视觉表征可以有效的应用于下游的动作识别和语音识别任务中,可以为后续的实际应用中提供便利。
表1 在UCF-101和HMDB-51数据集上的比较表
Figure BDA0002797830790000081
表2 在语音分类数据集ESC-50和DCASE数据集上的分类效果比较表
Figure BDA0002797830790000082
在Kinetics数据集上,本发明可视化语音对视频帧相似性的效果图,如图2所示。本发明可以有效增强视频语音和视频帧间的关联性,将语音和具体的视频帧中的场景或行为进行关联。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,该方法包括以下步骤:
(S1)利用卷积网络进行视频和语音特征提取
假设视频样本集
Figure FDA0002797830780000011
由N个样本组成
Figure FDA0002797830780000012
每个视频样本Vi由T个视频帧序列组成,由于该样本集没有标签,采用常规方式不易进行特征学习,现将视频样本集中样本预处理为成对的语音和视频帧序列
Figure FDA0002797830780000013
其中
Figure FDA0002797830780000014
为视频帧集合,
Figure FDA0002797830780000015
为语音集合;运用视觉卷积网络
Figure FDA0002797830780000016
和语音卷积网络
Figure FDA0002797830780000017
提取相应的视觉和语音特征:
Figure FDA0002797830780000018
其中,
Figure FDA0002797830780000019
为视觉特征,为
Figure FDA00027978307800000110
语音特征,i={1,2,...,N};
(S2)根据提取的特征进行自监督课程学习
S21)第一阶段课程学习
先对视频帧进行自监督的预训练,采用对比学习:
Figure FDA00027978307800000111
其中,
Figure FDA00027978307800000112
是期望函数,log(·)为对数函数,exp(·)为指数函数,τ为温度参数,K为负样本个数;
Figure FDA00027978307800000113
Figure FDA00027978307800000114
进行数据变化后的样本
Figure FDA00027978307800000115
的特征,具体由
Figure FDA00027978307800000116
提取
Figure FDA00027978307800000117
Figure FDA00027978307800000118
由以下变换产生:
Figure FDA00027978307800000119
其中,Tem(·)为时序抖动函数,s为抖动步伐,T为视频帧序列的长度;Spa(·)为一序列图像变换函数;
再对语音进行自监督的预训练,同样采用对比学习:
Figure FDA0002797830780000021
其中,
Figure FDA0002797830780000022
Figure FDA0002797830780000023
进行数据变化后的样本
Figure FDA0002797830780000024
的特征,具体由
Figure FDA0002797830780000025
提取
Figure FDA0002797830780000026
Figure FDA0002797830780000027
由以下变换产生:
Figure FDA0002797830780000028
其中,Mts(·)为音频时域掩膜变换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换;
通过这一阶段的学习,使单模态的语音和视觉特征进行互相区分;
S22)第二阶段课程学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
Figure FDA0002797830780000029
其中,
Figure FDA00027978307800000210
为正样本对,
Figure FDA00027978307800000211
为负样本对;
通过该阶段的学习,将跨模态的语音和视觉间关联信息进行互相迁移;
(S3)利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程能够只在一个正样本对,和K个负样本对的情况下进行,理想情况下使除样本集中正样本外所有样本都为负样本,即K=N-1,但这种情况需要花费高昂的计算代价,在实际情况下无法使用;为解决这一问题并保证有足够数量的负样本,在课程学习过程中维护了一个视觉记忆库
Figure FDA00027978307800000212
和一个语音记忆存储库
Figure FDA00027978307800000213
上述这两个库的大小均为K,且这两个库的样本会在训练过程中进行动态更新:
Figure FDA00027978307800000214
其中,
Figure FDA0002797830780000031
为在某次训练迭代过程中的视觉特征和语音特征,由于每次的记忆库是从所有样本集中随机抽取,且维持固定大小,不仅能够减小计算量还能够保证负样本的多样性;
(S4)下游视频动作和语音识别任务
当自监督课程学习完成后,可以用训练完的视觉卷积网络
Figure FDA0002797830780000032
和语音卷积网络
Figure FDA0002797830780000033
进行相应的表征学习,应用于下游任务分类:
Figure FDA0002797830780000034
其中,
Figure FDA0002797830780000035
为动作的预测标签,
Figure FDA0002797830780000036
为语音的预测标签,argmax(·)为求最大值函数,y表示标签变量,
Figure FDA0002797830780000037
为求概率函数。
2.根据权利要求1所述的基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,所述步骤(S2)中参数设定为τ=0.07,K=16384,s=4。
3.根据权利要求2所述的基于自监督课程学***翻转,灰度变换组成。
CN202011338294.0A 2020-11-25 2020-11-25 一种基于自监督课程学习的语音和视觉关联性增强方法 Active CN112465008B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011338294.0A CN112465008B (zh) 2020-11-25 2020-11-25 一种基于自监督课程学习的语音和视觉关联性增强方法
US17/535,675 US20220165171A1 (en) 2020-11-25 2021-11-25 Method for enhancing audio-visual association by adopting self-supervised curriculum learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011338294.0A CN112465008B (zh) 2020-11-25 2020-11-25 一种基于自监督课程学习的语音和视觉关联性增强方法

Publications (2)

Publication Number Publication Date
CN112465008A true CN112465008A (zh) 2021-03-09
CN112465008B CN112465008B (zh) 2021-09-24

Family

ID=74798911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011338294.0A Active CN112465008B (zh) 2020-11-25 2020-11-25 一种基于自监督课程学习的语音和视觉关联性增强方法

Country Status (2)

Country Link
US (1) US20220165171A1 (zh)
CN (1) CN112465008B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906624A (zh) * 2021-03-12 2021-06-04 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN113435480A (zh) * 2021-06-07 2021-09-24 电子科技大学 通道顺序切换自监督提升长尾分布视觉识别能力的方法
CN113469289A (zh) * 2021-09-01 2021-10-01 成都考拉悠然科技有限公司 视频自监督表征学习方法、装置、计算机设备和介质
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN114494930A (zh) * 2021-09-09 2022-05-13 马上消费金融股份有限公司 语音与图像同步性衡量模型的训练方法及装置
CN114510585A (zh) * 2022-02-15 2022-05-17 北京有竹居网络技术有限公司 一种信息表征模型构建方法、信息表征方法
CN114648805A (zh) * 2022-05-18 2022-06-21 华中科技大学 课程视频视线修正模型及其训练方法、视线落点估计方法
CN116229960A (zh) * 2023-03-08 2023-06-06 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、***、介质及设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983923B1 (en) * 2022-12-08 2024-05-14 Netflix, Inc. Systems and methods for active speaker detection
CN116230012B (zh) * 2023-02-28 2023-08-08 哈尔滨工程大学 一种基于元数据对比学习预训练的两阶段异音检测方法
CN116310667B (zh) * 2023-05-15 2023-08-22 鹏城实验室 联合对比损失和重建损失的自监督视觉表征学习方法
CN118015431A (zh) * 2024-04-03 2024-05-10 阿里巴巴(中国)有限公司 图像处理方法、设备、存储介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110970056A (zh) * 2019-11-18 2020-04-07 清华大学 一种从视频中分离音源的方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110970056A (zh) * 2019-11-18 2020-04-07 清华大学 一种从视频中分离音源的方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARIEL EPHRAT等: "Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation", 《TRANSACTIONS ON GRAPHICS》 *
CHUANG GAN等: "Self-Supervised Moving Vehicle Tracking With Stereo Sound", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
JIE SHAO等: "Context Encoding for Video Retrieval with Contrast Learning", 《ARXIV:2008.01334V1》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906624B (zh) * 2021-03-12 2022-09-13 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN112906624A (zh) * 2021-03-12 2021-06-04 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN113435480B (zh) * 2021-06-07 2022-06-21 电子科技大学 通道顺序切换自监督提升长尾分布视觉识别能力的方法
CN113435480A (zh) * 2021-06-07 2021-09-24 电子科技大学 通道顺序切换自监督提升长尾分布视觉识别能力的方法
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113469289B (zh) * 2021-09-01 2022-01-25 成都考拉悠然科技有限公司 视频自监督表征学习方法、装置、计算机设备和介质
CN113469289A (zh) * 2021-09-01 2021-10-01 成都考拉悠然科技有限公司 视频自监督表征学习方法、装置、计算机设备和介质
CN114494930A (zh) * 2021-09-09 2022-05-13 马上消费金融股份有限公司 语音与图像同步性衡量模型的训练方法及装置
CN114494930B (zh) * 2021-09-09 2023-09-22 马上消费金融股份有限公司 语音与图像同步性衡量模型的训练方法及装置
CN114510585A (zh) * 2022-02-15 2022-05-17 北京有竹居网络技术有限公司 一种信息表征模型构建方法、信息表征方法
CN114510585B (zh) * 2022-02-15 2023-11-21 北京有竹居网络技术有限公司 一种信息表征模型构建方法、信息表征方法
CN114648805A (zh) * 2022-05-18 2022-06-21 华中科技大学 课程视频视线修正模型及其训练方法、视线落点估计方法
CN116229960A (zh) * 2023-03-08 2023-06-06 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、***、介质及设备
CN116229960B (zh) * 2023-03-08 2023-10-31 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、***、介质及设备

Also Published As

Publication number Publication date
CN112465008B (zh) 2021-09-24
US20220165171A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN111462735B (zh) 语音检测方法、装置、电子设备及存储介质
CN102549603B (zh) 基于相关性的图像选择
US10963504B2 (en) Zero-shot event detection using semantic embedding
CN109117777A (zh) 生成信息的方法和装置
CN108921002B (zh) 基于多线索融合的暴恐音视频识别方法及装置
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
WO2022222850A1 (zh) 一种多媒体内容的识别方法、相关装置、设备及存储介质
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
WO2023038574A1 (en) Method and system for processing a target image
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
CN111539445B (zh) 一种半监督特征融合的对象分类方法及***
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及***
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN113297525A (zh) 网页分类方法、装置、电子设备、及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
Lin et al. Violence detection in movies with auditory and visual cues
Bie et al. Facial expression recognition from a single face image based on deep learning and broad learning
CN113627498B (zh) 人物丑化图像识别和模型训练方法与装置
CN116978370A (zh) 语音处理方法、装置、计算机设备和存储介质
CN112035759A (zh) 英文新闻媒体报道的假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant