CN112465008A - 一种基于自监督课程学习的语音和视觉关联性增强方法 - Google Patents
一种基于自监督课程学习的语音和视觉关联性增强方法 Download PDFInfo
- Publication number
- CN112465008A CN112465008A CN202011338294.0A CN202011338294A CN112465008A CN 112465008 A CN112465008 A CN 112465008A CN 202011338294 A CN202011338294 A CN 202011338294A CN 112465008 A CN112465008 A CN 112465008A
- Authority
- CN
- China
- Prior art keywords
- learning
- visual
- voice
- speech
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012512 characterization method Methods 0.000 claims abstract description 9
- 238000013508 migration Methods 0.000 claims abstract description 9
- 230000005012 migration Effects 0.000 claims abstract description 9
- 230000000052 comparative effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims 1
- 238000013526 transfer learning Methods 0.000 abstract description 3
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/08—Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
- G09B5/14—Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自监督课程学习的语音和视觉关联性增强方法,涉及多模态的语音和视觉特征表征学习领域。该方法利用对比学习,在teacher‑student框架下提出一种自监督课程学习语音和视觉关联性增强方法,可以保证在无需人工标注的视频数据集上进行训练,以获取高效的语音和视觉表征,并应用于下游任务中。具体地,本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher‑student迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。
Description
技术领域
本发明属于多模态的语音和视觉特征表征学习领域,更为具体地讲,涉及一种基于自监督课程学习的语音和视觉关联性增强方法。
背景技术
语音和视觉具有并发的特性,因为声音是由视觉场景中的物体碰撞震动而产生的。合理的利用这一特性,不仅可以减小人工标注的成本,而且可以更高效的提取视觉和语音特征。
视频数据中通常包含丰富的视觉和语音信息,近年来由于视频采集设备的普及性,如便携相机、智能手机等,导致视频数据非常容易获取,并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。然而,如果应用传统的监督学习方法,来提取视频中的信息,需要昂贵的人工标注成本,并且这些标注很难体现视频数据的结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法,可以有效的利用视频数据的特性。现有的视频动作识别领域主流识别方法是基于深度卷积神经网络。
基于视频中语音和视觉并发性的自监督表征学习方法,已成为一个重要的研究方向。语音和视觉的表征学习旨在利用语音和视觉特征的并发特性,提取相应的特征,为下游的视频处理和语音处理任务服务。基于语音和视觉特性的自监督学习方法主要可以分为以下两类:
(1)利用语音和视觉信息的关联性:利用视频中语音和视频帧的成对特性进行自监督学习。
(2)利用语音和视觉信息的同步性:利用视频中语音是由视频帧场景中特定物体振动产生这一特性进行自监督学习。
这两种方式下的自监督学习都是通过验证输入的语音和视频帧序列对是否匹配完成,其中正样本的语音和视频帧序列对都是采样于同一视频源,而负样本对在这两种方式下是不同。利用语音和视觉信息关联性时的负样本对通常采样于不同视频,而利用语音和视觉信息同步性时的负样本对通常采样于同一视频中声音和对应帧场景出现延迟或超前的情形。
本发明主要利用语音和视觉信息的关联性进行自监督的语音和视觉信息表征学习,但如果直接验证输入的语音和视频帧序列对是否匹配,存在以下不足:
(1)只注重输入语音和视频帧序列对不同模态间的关联性,忽略了单模态本身的结构特性。如在足球比赛和篮球比赛场景下,可能都会出现观众和裁判,以及相应的欢呼声和哨声,如果仅考虑不同模态间关联性,会导致错误的匹配,所以还要考虑单模态自身的特性,比如在该情形下是足球还是篮球,以及它们的击球和回弹声音间不同差异;
(2)只考虑少量情形下非匹配输入语音和视频帧序列对间的差异性,无法实现复杂的多情形非匹配对挖掘。
发明内容
本发明的目的在于克服现有技术的不足,提供一种自监督课程学习的语音和视觉关联性增强方法,可以考虑语音和视频帧序列对不同模态间的关联性,同时关注单模态本身的结构特性。该发明在teacher-student结构下进行自监督课程学习以表征语音和视觉特征,具体地,提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher-st udent迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练;最终,利用teacher-student结构下学习的语音和视觉表征进行下游视频动作和语音识别测试。
为实现上述发明目的,本发明的基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,包括以下步骤:
(1)、利用卷积网络进行视频和语音特征提取
假设视频样本集由N个样本组成每个视频样本Vi由T个视频帧序列组成。由于该样本集没有标签,采用常规方式不易进行特征学习,现将视频样本集中样本预处理为成对的语音和视频帧序列其中为视频帧集合,为语音集合。首先运用视觉卷积网络和语音卷积网络提取相应的视觉和语音特征:
(2)、根据提取的特征进行自监督课程学习
1)第一阶段学习
先对视频帧进行自监督的预训练,采用对比学习:
其中,Tem(·)为时序抖动函数,s为抖动步伐,本发明设为4,T表示视频帧序列的长度;Spa(·)为一序列图像变换函数,本发明中由图像剪裁,水平翻转,灰度变换组成。
再对语音进行自监督的预训练,同样采用对比学习:
其中,Mts(·)为音频时域掩膜变换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换。
通过这一阶段的学习,可以使单模态的语音和视觉特征进行互相区分。
2)第二阶段学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
通过该阶段的学习,可以将跨模态的语音和视觉间关联信息进行互相迁移。
(3)、利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程可以只存在一个正样本对,和K个负样本对,理想情况下可以使除样本集中正样本外所有样本都为负样本,即K=N-1,但这种情况需要花费高昂的计算代价,在实际情况下无法使用。为解决这一问题并保证有足够数量的负样本,本发明在课程学习过程中维护了一个视觉记忆库和一个语音记忆存储库这两个库的大小为K=16384,且库的样本会在训练过程中进行动态更新:
(4)、下游视频动作和语音识别任务
为了更好的利用大规模的未标记数据集,并学习语音和视觉表征,本发明利用对比学习,在teacher-student框架下提出一种自监督课程学习语音和视觉关联性增强方法,可以保证在无需人工标注的视频数据集上进行训练,以获取高效的语音和视觉表征,并应用于下游任务中。具体地,本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher-student迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。该方法能无需人工标签,可以利用视频输入中语音和视觉特征间的关联性,自监督的学习语音和视觉信息的特征表示,为下游任务服务。
附图说明
图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图;
图2是本发明可视化语音对视频帧相似性的效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图:
在本实施例中,如图1所示,本发明实施方法包括以下步骤:
步骤S1:利用卷积网络进行视频和语音特征提取
步骤S2:根据提取的特征进行自监督课程学习
步骤S2.1:第一阶段课程学习
先对视频帧进行自监督的预训练,采用对比学习:
其中,Tem(·)为时序抖动函数,s为抖动步伐,本发明设为4,T表示视频帧序列的长度;Spa(·)为一序列图像变换函数,本发明中由图像剪裁,水平翻转,灰度变换组成。
再对语音进行自监督的预训练,同样采用对比学习:
其中,Mts(·)为音频时域掩膜表换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换。
步骤S2.2:第二阶段课程学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
步骤S3:利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程可以只在一个正样本对,和K个负样本对。为缓解负样本对计算代价并保证有足够数量的负样本,本发明在课程学习过程中维护了一个视觉记忆库和一个语音记忆存储库这两个库的大小均为K=16384,且库的样本会在训练过程中进行动态更新:
步骤S4:下游视频动作和语音识别任务
实施例
本发明先在Kinetics-400数据上进行预训练,然后用下游的动作识别和语音识别的准确率来评估我们的自监督学习方法。Kinetics-400有306,000个短视频序列,本发明提取221,065个视频帧和语音对用于预训练。采用top-k指标来评估本发明的模型。top-k指模型返回的分类特征分数中前k个结果中有正确标签的样本所占的比例,是最常用的分类评估方法。在本实例中,k设为1。
在大规模视频行为分类数据集UCF-101和HMDB-51数据集上测试本发明在动作识别的性能。UCF-101数据集包含101个动作类别,共13,320个样本;HMDB-51数据集包含51个动作类别,共6,849个样本;本发明在这两个数据集上和其他方法的比较如表1所示。
在语音分类数据集ESC-50和DCASE数据集上测试本发明在语音识别的性能。ESC-50数据集包含50个场景的语音,共2000个语音样本;DCASE数据集包含10个场景的语音,共100个语音样本;本发明在这两个数据集上和其他方法的分类效果比较如表2所示。
从表1和表2可以看出,本发明学习到的增强后的语音和视觉表征可以有效的应用于下游的动作识别和语音识别任务中,可以为后续的实际应用中提供便利。
表1 在UCF-101和HMDB-51数据集上的比较表
表2 在语音分类数据集ESC-50和DCASE数据集上的分类效果比较表
在Kinetics数据集上,本发明可视化语音对视频帧相似性的效果图,如图2所示。本发明可以有效增强视频语音和视频帧间的关联性,将语音和具体的视频帧中的场景或行为进行关联。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,该方法包括以下步骤:
(S1)利用卷积网络进行视频和语音特征提取
假设视频样本集由N个样本组成每个视频样本Vi由T个视频帧序列组成,由于该样本集没有标签,采用常规方式不易进行特征学习,现将视频样本集中样本预处理为成对的语音和视频帧序列其中为视频帧集合,为语音集合;运用视觉卷积网络和语音卷积网络提取相应的视觉和语音特征:
(S2)根据提取的特征进行自监督课程学习
S21)第一阶段课程学习
先对视频帧进行自监督的预训练,采用对比学习:
其中,Tem(·)为时序抖动函数,s为抖动步伐,T为视频帧序列的长度;Spa(·)为一序列图像变换函数;
再对语音进行自监督的预训练,同样采用对比学习:
其中,Mts(·)为音频时域掩膜变换,Mfc(·)为频域通道掩膜变换,Wf(·)为特征扰动变换;
通过这一阶段的学习,使单模态的语音和视觉特征进行互相区分;
S22)第二阶段课程学习
进行跨模态的特征迁移学习:根据第一阶段预训练的特征进行信息迁移,在teacher-stud ent框架下应用对比学习:
通过该阶段的学习,将跨模态的语音和视觉间关联信息进行互相迁移;
(S3)利用记忆存储机制进行训练
以上两阶段的自监督课程学习的计算过程都应用了对比学习,整个过程能够只在一个正样本对,和K个负样本对的情况下进行,理想情况下使除样本集中正样本外所有样本都为负样本,即K=N-1,但这种情况需要花费高昂的计算代价,在实际情况下无法使用;为解决这一问题并保证有足够数量的负样本,在课程学习过程中维护了一个视觉记忆库和一个语音记忆存储库上述这两个库的大小均为K,且这两个库的样本会在训练过程中进行动态更新:
(S4)下游视频动作和语音识别任务
2.根据权利要求1所述的基于自监督课程学习的语音和视觉关联性增强方法,其特征在于,所述步骤(S2)中参数设定为τ=0.07,K=16384,s=4。
3.根据权利要求2所述的基于自监督课程学***翻转,灰度变换组成。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338294.0A CN112465008B (zh) | 2020-11-25 | 2020-11-25 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
US17/535,675 US20220165171A1 (en) | 2020-11-25 | 2021-11-25 | Method for enhancing audio-visual association by adopting self-supervised curriculum learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338294.0A CN112465008B (zh) | 2020-11-25 | 2020-11-25 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465008A true CN112465008A (zh) | 2021-03-09 |
CN112465008B CN112465008B (zh) | 2021-09-24 |
Family
ID=74798911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011338294.0A Active CN112465008B (zh) | 2020-11-25 | 2020-11-25 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220165171A1 (zh) |
CN (1) | CN112465008B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113435480A (zh) * | 2021-06-07 | 2021-09-24 | 电子科技大学 | 通道顺序切换自监督提升长尾分布视觉识别能力的方法 |
CN113469289A (zh) * | 2021-09-01 | 2021-10-01 | 成都考拉悠然科技有限公司 | 视频自监督表征学习方法、装置、计算机设备和介质 |
CN113486833A (zh) * | 2021-07-15 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN114494930A (zh) * | 2021-09-09 | 2022-05-13 | 马上消费金融股份有限公司 | 语音与图像同步性衡量模型的训练方法及装置 |
CN114510585A (zh) * | 2022-02-15 | 2022-05-17 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114648805A (zh) * | 2022-05-18 | 2022-06-21 | 华中科技大学 | 课程视频视线修正模型及其训练方法、视线落点估计方法 |
CN116229960A (zh) * | 2023-03-08 | 2023-06-06 | 江苏微锐超算科技有限公司 | 欺骗性语音鲁棒检测方法、***、介质及设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983923B1 (en) * | 2022-12-08 | 2024-05-14 | Netflix, Inc. | Systems and methods for active speaker detection |
CN116230012B (zh) * | 2023-02-28 | 2023-08-08 | 哈尔滨工程大学 | 一种基于元数据对比学习预训练的两阶段异音检测方法 |
CN116310667B (zh) * | 2023-05-15 | 2023-08-22 | 鹏城实验室 | 联合对比损失和重建损失的自监督视觉表征学习方法 |
CN118015431A (zh) * | 2024-04-03 | 2024-05-10 | 阿里巴巴(中国)有限公司 | 图像处理方法、设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110970056A (zh) * | 2019-11-18 | 2020-04-07 | 清华大学 | 一种从视频中分离音源的方法 |
CN111652202A (zh) * | 2020-08-10 | 2020-09-11 | 浙江大学 | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其*** |
-
2020
- 2020-11-25 CN CN202011338294.0A patent/CN112465008B/zh active Active
-
2021
- 2021-11-25 US US17/535,675 patent/US20220165171A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110970056A (zh) * | 2019-11-18 | 2020-04-07 | 清华大学 | 一种从视频中分离音源的方法 |
CN111652202A (zh) * | 2020-08-10 | 2020-09-11 | 浙江大学 | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其*** |
Non-Patent Citations (3)
Title |
---|
ARIEL EPHRAT等: "Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation", 《TRANSACTIONS ON GRAPHICS》 * |
CHUANG GAN等: "Self-Supervised Moving Vehicle Tracking With Stereo Sound", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
JIE SHAO等: "Context Encoding for Video Retrieval with Contrast Learning", 《ARXIV:2008.01334V1》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906624B (zh) * | 2021-03-12 | 2022-09-13 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113435480B (zh) * | 2021-06-07 | 2022-06-21 | 电子科技大学 | 通道顺序切换自监督提升长尾分布视觉识别能力的方法 |
CN113435480A (zh) * | 2021-06-07 | 2021-09-24 | 电子科技大学 | 通道顺序切换自监督提升长尾分布视觉识别能力的方法 |
CN113486833A (zh) * | 2021-07-15 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN113486833B (zh) * | 2021-07-15 | 2022-10-04 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN113469289B (zh) * | 2021-09-01 | 2022-01-25 | 成都考拉悠然科技有限公司 | 视频自监督表征学习方法、装置、计算机设备和介质 |
CN113469289A (zh) * | 2021-09-01 | 2021-10-01 | 成都考拉悠然科技有限公司 | 视频自监督表征学习方法、装置、计算机设备和介质 |
CN114494930A (zh) * | 2021-09-09 | 2022-05-13 | 马上消费金融股份有限公司 | 语音与图像同步性衡量模型的训练方法及装置 |
CN114494930B (zh) * | 2021-09-09 | 2023-09-22 | 马上消费金融股份有限公司 | 语音与图像同步性衡量模型的训练方法及装置 |
CN114510585A (zh) * | 2022-02-15 | 2022-05-17 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114510585B (zh) * | 2022-02-15 | 2023-11-21 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114648805A (zh) * | 2022-05-18 | 2022-06-21 | 华中科技大学 | 课程视频视线修正模型及其训练方法、视线落点估计方法 |
CN116229960A (zh) * | 2023-03-08 | 2023-06-06 | 江苏微锐超算科技有限公司 | 欺骗性语音鲁棒检测方法、***、介质及设备 |
CN116229960B (zh) * | 2023-03-08 | 2023-10-31 | 江苏微锐超算科技有限公司 | 欺骗性语音鲁棒检测方法、***、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112465008B (zh) | 2021-09-24 |
US20220165171A1 (en) | 2022-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465008B (zh) | 一种基于自监督课程学习的语音和视觉关联性增强方法 | |
CN111462735B (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN102549603B (zh) | 基于相关性的图像选择 | |
US10963504B2 (en) | Zero-shot event detection using semantic embedding | |
CN109117777A (zh) | 生成信息的方法和装置 | |
CN108921002B (zh) | 基于多线索融合的暴恐音视频识别方法及装置 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN112766218B (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
WO2022222850A1 (zh) | 一种多媒体内容的识别方法、相关装置、设备及存储介质 | |
Bilkhu et al. | Attention is all you need for videos: Self-attention based video summarization using universal transformers | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
WO2023038574A1 (en) | Method and system for processing a target image | |
Blanchard et al. | Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities | |
CN111539445B (zh) | 一种半监督特征融合的对象分类方法及*** | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及*** | |
CN115147641A (zh) | 一种基于知识蒸馏和多模态融合的视频分类方法 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN113297525A (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
Lin et al. | Violence detection in movies with auditory and visual cues | |
Bie et al. | Facial expression recognition from a single face image based on deep learning and broad learning | |
CN113627498B (zh) | 人物丑化图像识别和模型训练方法与装置 | |
CN116978370A (zh) | 语音处理方法、装置、计算机设备和存储介质 | |
CN112035759A (zh) | 英文新闻媒体报道的假新闻检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |