CN116189047A

CN116189047A - 一种基于多模态信息聚合的短视频分类方法

Info

Publication number: CN116189047A
Application number: CN202310006748.1A
Authority: CN
Inventors: 吕卫; 林家欣; 褚晶辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-30

Abstract

本发明涉及一种基于多模态信息聚合的短视频分类方法，包括以下步骤：提取出短视频的视觉、轨迹、声音三种模态特征；引入一组并行的图卷积网络，将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入，不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式，利用图卷积的相关矩阵对节点进行更新，获得更新后的节点特征；多模态信息聚合：引入带有聚合瓶颈项的序列自注意力机制，以特定方向聚合并浓缩来自各个模态的重要信息，同时丢弃冗余信息，得到融合后的类别表示；将获得的最终类别表示输入分类器获得短视频的标签预测分数，采用多标签分类损失函数来指导网络寻找模型最优解。

Description

一种基于多模态信息聚合的短视频分类方法

技术领域

本发明涉及短视频分类领域，尤其涉及一种基于多模态信息聚合的短视频分类方法。

背景技术

近年来，各大短视频平台蓬勃发展，表明短视频作为一种新型的用户生成内容方式，正以其易于操作、即时分享、内容贴近生活的特性吸引广大用户，成为社交媒体时代的主流趋势之一。与此同时，这也意味着大量的多媒体数据每时每刻都在产生，且其产生速度还在持续高速增长，使得用户真正需求的信息被规模庞大的无关信息所掩盖，难以获取。因此，对这些爆发性增长的视频数据进行分类管理成为迫切需求。良好的视频分类能够帮助短视频平台和网站实现更加精准的内容搜索、个性化推荐和广告投放，提升用户的使用体验，也为平台带来更高的经济收益，具有重要的应用价值和现实意义。

另一方面，短视频天然的包含多种模态信息，如视觉、音频、轨迹和文本等，这些信息从不同角度对短视频的内容进行了描述，起到相互补充的作用。因此，考虑从多模态的角度解决短视频的分类任务是合理的，也有利于推动相关领域的发展，是一个具有研究价值和应用价值的课题。

经检索，查到的部分相关专利文献如下：

专利110334689公开了一项基于多模态融合的视频分类方法，先使用并行的自注意力机制分别获取各模态类别信息，后将各模态类别信息依次输入门控循环单元实现多模态融合的后融合策略，所用注意力模块用于捕获各模态内部的特征关系，并未涉及对标签之间的相关性的利用。

专利CN111246256公开了一种基于多模态视频内容和多任务学习的视频推荐方法，根据用户对各模态的偏好(即用户特征)，采用注意力机制学习视频各模态特征的权重，将各模态特征进行加权和获得视频特征表示，实现对视频多模态特征的融合。

专利CN115129934公开了一种多模态视频理解方法，对多模态信息采用的是后期融合策略，即将各模态特征所得的类别分数加权求和，作为整个视频的类别得分。

专利CN111382309提供了一种基于图模型的短视频推荐方法，使用了用户-短视频图结构，图的节点表示用户和短视频，边表示用户与短视频之间的交互，提出不再将多模态信息作为整体，而是对各个模态分开建模；该专利所用的多模态融合策略为直接拼接各个模态所得的特征向量，作为融合层的输出。

专利CN115329127公开了一种融合情感信息的多模态短视频标签推荐方法，首先通过多模态信息分别提取视频的内容特征和情感特征，后加权相加作为最终表示，其中权重由注意力网络学习。在内容特征和情感特征的学习中，不同模态信息通过跨注意力机制或多头共注意力机制进行交互，即不同模态特征之间互相直接进行交互。

发明内容

本发明提供一种基于多模态信息聚合的短视频分类方法，此分类方法有利于提升多模态场景下多标签短视频分类任务的准确性。技术方案如下：

一种基于多模态信息聚合的短视频分类方法，所述方法包括以下步骤：

步骤一：从所用数据集中预提取出短视频的视觉、轨迹、声音三种模态特征，设三种模态特征分别为视觉特征x_v、轨迹特征x_t、声音特征x_a；

步骤二：引入一组并行的图卷积网络，将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入，不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式，利用图卷积的相关矩阵对节点进行更新，获得更新后的节点特征。方法如下：

(1)获得各模态特有图卷积网络的初始节点特征：将三种模态特征x_v,x_t,x_a分别输入3个结构相同的编码器得到编码后的模态表示u_v,u_t,u_a，然后将u_m,m∈{v,t,a}，按行扩展得到各模态的类别嵌入矩阵Z_v,Z_t,Z_a作为各模态特有图卷积网络的初始节点特征；

(2)获得模态共享图卷积网络的初始节点特征：通过卷积操作融合三个模态的类别嵌入矩阵Z_v,Z_t,Z_a获得，公式为：

其中，δ()为Sigmoid激活函数，

与/>

为卷积层的权重矩阵，C表示图节点数，在此处等于短视频标签个数，d_m为类别嵌入的维度数；

(3)将Z_v,Z_t,Z_a和Z_s分别作为相应的图卷积网络的初始节点特征V，带入下式，获得更新后的节点相应的各个特征：

其中，V_u为更新后的节点特征，A∈R^C×C为相关矩阵，描述了标签之间的关联性，V为初始节点特征，

为状态权重更新矩阵，D为V的特征维度数，D_u为V_u的特征维度数，LeakyReLU()为非线性激活函数；

将各模态特有的图卷积网络所得更新后的节点特征记为增强后的各模态类别嵌入H_m,m∈{v,t,a}，其中v、t、a分别表示视觉、轨迹和声音模态；将模态共享图卷积网络所得更新后的节点特征记为模态共享的类别嵌入H_s，即更新后的节点特征V_u包含H_m,m∈{v,t,a}，H_s；

步骤三：多模态信息聚合：引入带有聚合瓶颈项的序列自注意力机制，以特定方向聚合并浓缩来自各个模态的重要信息，同时丢弃冗余信息，得到融合后的类别表示；

步骤四：将获得的最终类别表示输入分类器获得短视频的标签预测分数，采用多标签分类损失函数来指导网络寻找模型最优解。

进一步地，步骤一所述视觉、轨迹和声音三种模态特征的提取方法分别为：

视觉特征x_v为以等时间间隔抽取短视频的多个图像帧，使用残差网络提取这些图像帧的深度特征后进行平均池化操作获得；轨迹特征x_t为对短视频联合使用轨迹池化深度卷积描述子和费舍尔矢量获得；声音特征x_a为提取短视频音频的梅尔倒谱系数获得。

进一步地，步骤三的所述多模态信息聚合过程为：

(1)使用增强后的视觉类别嵌入H_v通过卷积操作初始化生成低维度的聚合瓶颈项H_agg；

(2)聚合瓶颈项H_agg通过序列自注意力机制模块按照特定顺序分别与各模态类别嵌入H_v,H_t,H_a进行交互，同时引入模态共享的类别嵌入H_s来指导整个聚合过程，方法如下：

将H_agg分别与H_s和模态类别嵌入H_m,m∈{v,t,a}串联，后分别输入自注意力机制，所得输出结果矩阵即为被该模态类别嵌入和H_s更新后的H_agg，拆分输出结果矩阵获得更新后的H_agg和H_s，再次与另一模态类别重复上述过程，通过自注意力机制进行模态特征融合，直至H_agg与所有模态完成交互；在这个过程中，来自各模态类别嵌入的重要信息被收集压缩至H_agg，将与所有模态类别嵌入交互更新过的聚合瓶颈项H_agg作为最终类别表示。

进一步地，所述损失函数为：

其中，log()为对数函数，Sigmoid()为非线性激活函数，C为标签类别数，y_i为短视频的真实标签，s_i为标签预测分数。

本发明提供的技术方案的有益效果是：

(1)针对多模态场景下的多标签分类任务，考虑到不同模态对标签的贡献度不同，将标签相关性分解为各模态特有的标签关联模式和模态共享的标签关联模式，并引入了图卷积网络自适应的挖掘标签相关关系，有效的利用了标签信息；

(2)针对短视频多模态信息由于嵌入噪声信息导致各模态之间内在关联性被掩盖的问题，引入了序列自注意力机制挖掘模态特征空间的内在依赖关系，以此生成更完备的类别表示；

(3)探究了短视频中的多模态数据融合问题，引入了聚合瓶颈项来促使模型更好的收集和浓缩各模态信息，实现多模态信息的聚合，提供了一种多模态数据的融合方案；

本发明充分利用了短视频天然的多模态特性，同时考虑了标签之间、模态和标签之间的依赖关系，有利于提升多模态场景下多标签分类任务的准确性。

附图说明

图1为基于多模态信息聚合的短视频分类方法网络；

图2为基于自注意力机制的特征融合过程；

图3为使用不同模态组合的性能对比和与先进方法的性能对比。

具体实施方式

本发明提供了一种基于多模态信息聚合的短视频分类方法，具体方法框架参见图1，下面对实施方式进行详细描述：

第一步，构建数据集并进行模态特征提取：

(1)本发明使用了2018年AI挑战赛发布的大规模多标签短视频分类数据集，该数据集共包含20万条短视频，63类标签从视频主体、场景、动作等多个维度对短视频进行描述，大部分视频的时长为5到15秒。随机选取数据集中80％的短视频作为训练集，剩余的20％作为测试集。

(2)分别提取短视频的视觉、轨迹、声音三种模态特征：

对于视觉模态，按照等时间间隔抽取短视频的15帧图像帧，使用经过预训练的残差网络(ResNet)模型提取图像帧的深度特征表示，然后对它们进行平均池化(AveragePooling)操作，获得短视频的整体视觉特征x_v：

其中，ResNet()为残差网络，AvePooling()为平均池化操作，f_v表示图像帧的深度视觉表示，β_v为待学习的网络参数，D_v为视觉特征的维度。

对于轨迹模态，联合使用轨迹池化深度卷积描述子(Trajectory-Pooled Deep-Convolutional Descriptors,TDD)和费舍尔矢量，从短视频中提取轨迹特征x_t：

其中，TDD()表示轨迹池化深度卷积描述子网络，f_t为短视频原始轨迹信息，β_t为待学习的网络参数，D_t为轨迹特征的维度。

对于声音模态，提取短视频音频的梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients,MFCC)，得到声音特征x_a：

其中，MFCC()表示梅尔倒谱系数，f_a为短视频原始音频特征，β_a为待学习的网络参数，D_a为声音特征的维度。

第二步，通过深度学习框架Pytorch搭建基于多模态信息聚合的短视频分类网络。基于多模态信息聚合的短视频分类网络包括三个部分，标签依赖信息嵌入模块、多模态信息聚合模块和多标签分类模块。下面对这三个部分进行详细介绍：

(1)标签依赖关系是多标签学***行的图卷积网络来分别挖掘模态共享和各模态特有的标签关联模式。

首先介绍图结构和图卷积的概念。给定一个有C个标签节点的图G，可以使用一个矩阵V＝[v₁,v₂,...,v_C]∈R^C×D来描述节点特征，其中D为节点特征的维度。图G的边，即相关矩阵A∈R^C×C则反映标签之间的关系。图卷积可以利用这种关联性来更新V的值，公式定义如下：

其中，V_u表示更新后的节点特征，

为状态权重更新矩阵，LeakyReLU()为非线性激活函数。

①建立初始图结构

将第一步得到的模态特征x_v,x_t,x_a分别输入3个结构相同的编码器得到编码后的模态表示u_v,u_t,u_a：

其中，m∈{v,t,a}为模态指示器，v、t、a分别表示视觉、轨迹和声音模态，σ()表示非线性激活函数，FC()为全连接层操作，d_m为编码后所得表示的维度数。然后将u_m按行扩展，就得到了类别嵌入矩阵

作为图的初始节点特征，该矩阵的各行分别代表对应类别的表示。

②挖掘模态共享和各模态特有的标签关联模式

引入一组并行的图卷积网络分别挖掘上述两种关联模式。将Z_v,Z_t,Z_a分别输入各模态特有的图卷积网络，得到更新后的节点H_m：

其中，A_m∈R^C×C,

分别表示对应模态的特有图卷积网络的相关矩阵和状态权重更新矩阵，H_m,m＝{v,t,a}代表了模态特有关联模式增强后的类别嵌入。

同时，融合三个模态的嵌入矩阵Z_v,Z_t,Z_a作为模态共享图卷积网络的输入，得到模态共享的类别嵌入H_s：

其中，δ()表示Sigmoid激活函数，A_s∈R^C×C,

分别表示模态共享图卷积网络的相关矩阵和状态权重更新矩阵，/>

与/>

表示卷积层的权重矩阵，通过多个卷积操作实现Z_v,Z_t,Z_a三者的融合。

(2)由于自注意机制能够挖掘特征之间的内在联系，强化其中的重要特征，本发明引入了一个低维度的多模态信息聚合瓶颈项

使H_agg与H_m,m＝{v,t,a}通过序列自注意力机制进行交互，从而将各模态的重要信息聚合到H_agg上。

①初始化多模态信息聚合瓶颈项H_agg

由于视觉模态通常包含较其他模态更丰富的信息，因此考虑以视觉模态为主，其他模态信息作为补充，使得

初始化如下：

其中，H_v为增强后的视觉类别嵌入，Conv_1d()表示一维卷积操作。

②多模态信息聚合

引入序列自注意力机制模块，使得初始化后的

与各模态H_m以串行的顺序进行交互，实现多模态信息聚合，同时引入H_s来指导整个聚合过程。

为了简化公式表达，定义基于缩放点积的自注意力操作如下：

其中，θ为可学习参数，Softmax()为非线性激活函数，W^Q,W^K,W^V为将输入X分别变换为查询矩阵、键矩阵和值矩阵的映射矩阵，d_k为缩放因子，用于抵消使用Softmax函数带来的梯度消失效应。

在模态信息聚合过程中，将H_agg分别与H_s和H_m串联后，将它们输入自注意力机制中，第l层的序列自注意力操作定义如下：

其中，l＝1,2,3表示当前为第l层模态特征融合过程，H_m为当前特征融合层所选的模态类别嵌入，表示矩阵拼接操作，θ_s,θ_t为对应的可学习参数。单层模态特征融合过程如图2所示，将H_agg分别与H_s和模态类别嵌入H_m串联，后分别输入自注意力机制，拆分所得输出结果矩阵获得更新后的H_agg和H_s。

以t→a→v的信息聚合顺序为例，即l＝1,2,3时，H_m分别取H_t,H_a,H_v，则整个信息聚合过程可表示如下：

在这个过程中，来自各模态的信息被迫压缩和汇总到最终的

中。

(3)将(2)中取得的

作为最终的类别表示矩阵来完成多标签分类任务，其中，h_i(i＝1,2,...,C)为特定于第i个类别的表示向量，并包含了来自短视频的内容信息。将h_i输入对应的分类器得到预测的类别得分s＝[s₁,s₂,...,s_C]，采用传统的多标签分类损失作为模型的损失函数：

其中，log(·)为对数函数，Sigmoid(·)为非线性激活函数，C为标签类别数，y_i为短视频的真实标签，s_i为标签预测结果。

第三步，模型训练和实验：

在训练过程中，使用了SGD随机梯度下降优化器，其中动量(momentum)设为0.9，权重衰减(weight decay)设置为0.001。初始学***均精度(mAP)、首标记错误(One-error)、覆盖率(Coverage)、排名损失(RankingLoss)和汉明损失(HammingLoss)这五个评价指标来对模型的多标签分类性能进行评估，其中：

(1)平均精度表示多个类别(在本实验中为63个类别)的准确度的平均值，其值越大，模型分类性能越好；

(2)首标记错误计算预测概率值最大的标签不属于正确标签集合的频率，其值越小，模型分类性能越好；

(3)覆盖率将标签的预测概率值从大到小排序，计算平均需要取前多少个值才能覆盖所有的正确标签，其值越小，模型分类性能越好；

(4)排名损失计算实例的倒序标签对的平均分数，其值越小，模型分类性能越好；

(5)汉明损失计算预测标签与正确标签的差异，其值越小，模型分类性能越好。

实验结果如图3所示，v,t,a分别表示视觉、轨迹和声音模态。图3分别展示了不同的模态组合的分类性能对比和与经典方法的分类性能对比，证明了本发明所提方法能够有效聚合来自多个模态的信息，并在与先进方法的对比中取得有竞争性的结果。

综上所述，本发明提供了一种基于多模态信息聚合的短视频分类方法。对于包含多种模态的短视频的内容信息，所提方法致力于聚合多模态信息来生成完备的联合表示，用于多标签分类任务。从标签之间的关联性和模态与标签的关联性考虑，将模态依赖关系分解为模态共享和各模态特有的标签关联模式，引入一组平行的图卷积网络对它们进行挖掘利用。考虑到由于各模态数据中含有的噪声信息会导致模态之间的关联性被掩盖，引入了序列自注意力机制模块来将来自各模块的重要信息收集浓缩到聚合瓶颈项中，同时舍弃冗余信息。将获得的最终类别表示用于的多标签分类。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态信息聚合的短视频分类方法，所述方法包括以下步骤：

其中，δ(·)为Sigmoid激活函数，

与/>

其中，V_u包含更新后的节点相应的各个特征，A∈R^C×C为相关矩阵，描述了标签之间的关联性，

为状态权重更新矩阵，D为V的特征维度数，D_u为V_u的特征维度数，LeakyReLU(·)为非线性激活函数；

2.根据权利要求1所述的基于多模态信息聚合的短视频分类方法，其特征在于，步骤一所述视觉、轨迹和声音三种模态特征的提取方法分别为：

3.根据权利要求1所述的基于多模态信息聚合的短视频分类方法，其特征在于，步骤三的所述多模态信息聚合过程为：

4.根据权利要求1所述的一种基于多模态信息聚合的短视频分类方法，其特征在于，所述损失函数为：