CN112465008A

CN112465008A - 一种基于自监督课程学习的语音和视觉关联性增强方法

Info

Publication number: CN112465008A
Application number: CN202011338294.0A
Authority: CN
Inventors: 徐行; 张静然; 沈复民; 邵杰; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09
Anticipated expiration: 2040-11-25
Also published as: CN112465008B; US20220165171A1

Abstract

本发明公开了一种基于自监督课程学习的语音和视觉关联性增强方法，涉及多模态的语音和视觉特征表征学习领域。该方法利用对比学习，在teacher‑student框架下提出一种自监督课程学习语音和视觉关联性增强方法，可以保证在无需人工标注的视频数据集上进行训练，以获取高效的语音和视觉表征，并应用于下游任务中。具体地，本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习，以克服直接进行teacher‑student迁移学习的困难性；其次，利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。

Description

一种基于自监督课程学习的语音和视觉关联性增强方法

技术领域

本发明属于多模态的语音和视觉特征表征学习领域，更为具体地讲，涉及一种基于自监督课程学习的语音和视觉关联性增强方法。

背景技术

语音和视觉具有并发的特性，因为声音是由视觉场景中的物体碰撞震动而产生的。合理的利用这一特性，不仅可以减小人工标注的成本，而且可以更高效的提取视觉和语音特征。

视频数据中通常包含丰富的视觉和语音信息，近年来由于视频采集设备的普及性，如便携相机、智能手机等，导致视频数据非常容易获取，并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。然而，如果应用传统的监督学习方法，来提取视频中的信息，需要昂贵的人工标注成本，并且这些标注很难体现视频数据的结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法，可以有效的利用视频数据的特性。现有的视频动作识别领域主流识别方法是基于深度卷积神经网络。

基于视频中语音和视觉并发性的自监督表征学习方法，已成为一个重要的研究方向。语音和视觉的表征学习旨在利用语音和视觉特征的并发特性，提取相应的特征，为下游的视频处理和语音处理任务服务。基于语音和视觉特性的自监督学习方法主要可以分为以下两类：

(1)利用语音和视觉信息的关联性：利用视频中语音和视频帧的成对特性进行自监督学习。

(2)利用语音和视觉信息的同步性：利用视频中语音是由视频帧场景中特定物体振动产生这一特性进行自监督学习。

这两种方式下的自监督学习都是通过验证输入的语音和视频帧序列对是否匹配完成，其中正样本的语音和视频帧序列对都是采样于同一视频源，而负样本对在这两种方式下是不同。利用语音和视觉信息关联性时的负样本对通常采样于不同视频，而利用语音和视觉信息同步性时的负样本对通常采样于同一视频中声音和对应帧场景出现延迟或超前的情形。

本发明主要利用语音和视觉信息的关联性进行自监督的语音和视觉信息表征学习，但如果直接验证输入的语音和视频帧序列对是否匹配，存在以下不足：

(1)只注重输入语音和视频帧序列对不同模态间的关联性，忽略了单模态本身的结构特性。如在足球比赛和篮球比赛场景下，可能都会出现观众和裁判，以及相应的欢呼声和哨声，如果仅考虑不同模态间关联性，会导致错误的匹配，所以还要考虑单模态自身的特性，比如在该情形下是足球还是篮球，以及它们的击球和回弹声音间不同差异；

(2)只考虑少量情形下非匹配输入语音和视频帧序列对间的差异性，无法实现复杂的多情形非匹配对挖掘。

发明内容

本发明的目的在于克服现有技术的不足，提供一种自监督课程学习的语音和视觉关联性增强方法，可以考虑语音和视频帧序列对不同模态间的关联性，同时关注单模态本身的结构特性。该发明在teacher-student结构下进行自监督课程学习以表征语音和视觉特征，具体地，提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习，以克服直接进行teacher-st udent迁移学习的困难性；其次，利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练；最终，利用teacher-student结构下学习的语音和视觉表征进行下游视频动作和语音识别测试。

为实现上述发明目的，本发明的基于自监督课程学习的语音和视觉关联性增强方法，其特征在于，包括以下步骤：

(1)、利用卷积网络进行视频和语音特征提取

假设视频样本集

由N个样本组成

每个视频样本V_i由T个视频帧序列组成。由于该样本集没有标签，采用常规方式不易进行特征学习，现将视频样本集中样本预处理为成对的语音和视频帧序列

其中

为视频帧集合，

为语音集合。首先运用视觉卷积网络

和语音卷积网络

提取相应的视觉和语音特征：

其中，

为视觉特征，为

语音特征，i＝{1，2，...，N}。

(2)、根据提取的特征进行自监督课程学习

1)第一阶段学习

先对视频帧进行自监督的预训练，采用对比学习：

其中，

是期望函数，log(·)为对数函数，exp(·)为指数函数，τ为温度参数，K为负样本个数，本发明参数设定为τ＝0.07，K＝16384；

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

其中，Tem(·)为时序抖动函数，s为抖动步伐，本发明设为4，T表示视频帧序列的长度；Spa(·)为一序列图像变换函数，本发明中由图像剪裁，水平翻转，灰度变换组成。

再对语音进行自监督的预训练，同样采用对比学习：

其中，

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

其中，Mts(·)为音频时域掩膜变换，Mfc(·)为频域通道掩膜变换，Wf(·)为特征扰动变换。

通过这一阶段的学习，可以使单模态的语音和视觉特征进行互相区分。

2)第二阶段学习

进行跨模态的特征迁移学习：根据第一阶段预训练的特征进行信息迁移，在teacher-stud ent框架下应用对比学习：

其中，

为正样本对，

为负样本对。

通过该阶段的学习，可以将跨模态的语音和视觉间关联信息进行互相迁移。

(3)、利用记忆存储机制进行训练

以上两阶段的自监督课程学习的计算过程都应用了对比学习，整个过程可以只存在一个正样本对，和K个负样本对，理想情况下可以使除样本集中正样本外所有样本都为负样本，即K＝N-1，但这种情况需要花费高昂的计算代价，在实际情况下无法使用。为解决这一问题并保证有足够数量的负样本，本发明在课程学习过程中维护了一个视觉记忆库

和一个语音记忆存储库

这两个库的大小为K＝16384，且库的样本会在训练过程中进行动态更新：

其中，

为在某次训练迭代过程中的视觉特征和语音特征，由于每次的记忆库是从所有样本集中随机抽取，且维持固定大小，不仅可以减小计算量还可以保证负样本的多样性。

(4)、下游视频动作和语音识别任务

当自监督课程学习完成后，可以用训练完的视觉卷积网络

和语音卷积网络

进行相应的表征学习，应用于下游任务分类：

其中，

为动作的预测标签，

为语音的预测标签，argmax(·)为求最大值函数，y表示标签变量，

为求概率函数。

为了更好的利用大规模的未标记数据集，并学习语音和视觉表征，本发明利用对比学习，在teacher-student框架下提出一种自监督课程学习语音和视觉关联性增强方法，可以保证在无需人工标注的视频数据集上进行训练，以获取高效的语音和视觉表征，并应用于下游任务中。具体地，本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习，以克服直接进行teacher-student迁移学习的困难性；其次，利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。该方法能无需人工标签，可以利用视频输入中语音和视觉特征间的关联性，自监督的学习语音和视觉信息的特征表示，为下游任务服务。

附图说明

图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图；

图2是本发明可视化语音对视频帧相似性的效果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明自监督课程学习语音和视觉关联性增强方法的框架图：

在本实施例中，如图1所示，本发明实施方法包括以下步骤：

步骤S1：利用卷积网络进行视频和语音特征提取

假设视频样本集

由N个样本组成

将视频集中样本预处理为成对的语音和视频帧序列

其中

为视频帧集合，

为语音集合。首先运用视觉卷积网络

和语音卷积网络

提取相应的视觉和语音特征：

其中，

为视觉特征，为

语音特征，i＝{1，2，...，N}。

步骤S2：根据提取的特征进行自监督课程学习

步骤S2.1：第一阶段课程学习

先对视频帧进行自监督的预训练，采用对比学习：

其中，

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

再对语音进行自监督的预训练，同样采用对比学习：

其中，

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

其中，Mts(·)为音频时域掩膜表换，Mfc(·)为频域通道掩膜变换，Wf(·)为特征扰动变换。

步骤S2.2：第二阶段课程学习

其中，

为正样本对，

为负样本对。

步骤S3：利用记忆存储机制进行训练

以上两阶段的自监督课程学习的计算过程都应用了对比学习，整个过程可以只在一个正样本对，和K个负样本对。为缓解负样本对计算代价并保证有足够数量的负样本，本发明在课程学习过程中维护了一个视觉记忆库

和一个语音记忆存储库

这两个库的大小均为K＝16384，且库的样本会在训练过程中进行动态更新：

其中，

步骤S4：下游视频动作和语音识别任务

当自监督课程学习完成后，可以用训练完的视觉卷积网络

和语音卷积网络

进行相应的表征学习，应用于下游任务分类:

其中，

为动作的预测标签，

为求概率函数。

实施例

本发明先在Kinetics-400数据上进行预训练，然后用下游的动作识别和语音识别的准确率来评估我们的自监督学习方法。Kinetics-400有306,000个短视频序列，本发明提取221,065个视频帧和语音对用于预训练。采用top-k指标来评估本发明的模型。top-k指模型返回的分类特征分数中前k个结果中有正确标签的样本所占的比例，是最常用的分类评估方法。在本实例中，k设为1。

在大规模视频行为分类数据集UCF-101和HMDB-51数据集上测试本发明在动作识别的性能。UCF-101数据集包含101个动作类别，共13,320个样本；HMDB-51数据集包含51个动作类别，共6,849个样本；本发明在这两个数据集上和其他方法的比较如表1所示。

在语音分类数据集ESC-50和DCASE数据集上测试本发明在语音识别的性能。ESC-50数据集包含50个场景的语音，共2000个语音样本；DCASE数据集包含10个场景的语音，共100个语音样本；本发明在这两个数据集上和其他方法的分类效果比较如表2所示。

从表1和表2可以看出，本发明学习到的增强后的语音和视觉表征可以有效的应用于下游的动作识别和语音识别任务中，可以为后续的实际应用中提供便利。

表1 在UCF-101和HMDB-51数据集上的比较表

表2 在语音分类数据集ESC-50和DCASE数据集上的分类效果比较表

在Kinetics数据集上，本发明可视化语音对视频帧相似性的效果图，如图2所示。本发明可以有效增强视频语音和视频帧间的关联性，将语音和具体的视频帧中的场景或行为进行关联。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于自监督课程学习的语音和视觉关联性增强方法，其特征在于，该方法包括以下步骤：

(S1)利用卷积网络进行视频和语音特征提取

假设视频样本集

由N个样本组成

每个视频样本V_i由T个视频帧序列组成，由于该样本集没有标签，采用常规方式不易进行特征学习，现将视频样本集中样本预处理为成对的语音和视频帧序列

其中

为视频帧集合，

为语音集合；运用视觉卷积网络

和语音卷积网络

提取相应的视觉和语音特征：

其中，

为视觉特征，为

语音特征，i＝{1，2，...，N}；

(S2)根据提取的特征进行自监督课程学习

S21)第一阶段课程学习

先对视频帧进行自监督的预训练，采用对比学习：

其中，

是期望函数，log(·)为对数函数，exp(·)为指数函数，τ为温度参数，K为负样本个数；

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

其中，Tem(·)为时序抖动函数，s为抖动步伐，T为视频帧序列的长度；Spa(·)为一序列图像变换函数；

再对语音进行自监督的预训练，同样采用对比学习：

其中，

为

进行数据变化后的样本

的特征，具体由

提取

由以下变换产生：

其中，Mts(·)为音频时域掩膜变换，Mfc(·)为频域通道掩膜变换，Wf(·)为特征扰动变换；

通过这一阶段的学习，使单模态的语音和视觉特征进行互相区分；

S22)第二阶段课程学习

其中，

为正样本对，

为负样本对；

通过该阶段的学习，将跨模态的语音和视觉间关联信息进行互相迁移；

(S3)利用记忆存储机制进行训练

以上两阶段的自监督课程学习的计算过程都应用了对比学习，整个过程能够只在一个正样本对，和K个负样本对的情况下进行，理想情况下使除样本集中正样本外所有样本都为负样本，即K＝N-1，但这种情况需要花费高昂的计算代价，在实际情况下无法使用；为解决这一问题并保证有足够数量的负样本，在课程学习过程中维护了一个视觉记忆库