CN112801762B

CN112801762B - 基于商品感知的多模态视频高光检测方法及其***

Info

Publication number: CN112801762B
Application number: CN202110397055.0A
Authority: CN
Inventors: 赵洲; 郭兆宇; 周楚程; 刘瑞涛; 汪达舟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-08-03
Anticipated expiration: 2041-04-13
Also published as: CN112801762A

Abstract

本发明提出了一种基于商品感知的多模态视频高光检测方法及其***，属于视频高光检测领域。首先，分别进行视频预处理和文本预处理，通过视频预处理得到视频片段的自注意力语义表示，通过文本预处理获取视频标题、商品标签以及商品名称的词特征，构建并更新得到最终图，获取句法感知的文本信息表示；然后，两者通过共同注意力模块融合得到跨模态语义集合，使用含有sigmoid函数的全连接层计算每一个视频片段的置信度；最后，通过置信度筛选出候选片段来构建无向图，利用图卷积网络从无向图中预测出最终的高光索引。本发明通过将商品名称、标签和视频标题作为监督元素加入模型中，检测精度更高。

Description

基于商品感知的多模态视频高光检测方法及其***

技术领域

本发明涉及视频高光检测领域，尤其涉及一种基于商品感知的多模态视频高光检测方法及其***。

背景技术

在电子商务中，介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中，通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者，从而提高产品的点击率。然而，目前的研究方法应用于实际场景的效果并不令人满意。与其他视频理解任务相比，视频高光检测相对抽象和主观，只有利用视觉信息才能做出准确的判断。

视频高光检测算法一般分为无监督方法和监督方法。无监督技术通过手动获取的特性或规则创建视频高光。无监督的视频高光检测方法可以进一步分为领域无关或领域特定的方法。领域无关的方法提出在任何视频上均匀工作的运动强度作为弱监督信号。领域特定的方法针对主题领域定制亮点，并利用视频持续时间和视觉共现作为弱监督信号。然而，没有引入监督信号，高光检测的结果并不令人满意。

除了视觉信息，高度抽象的视频标题可以帮助检测视频高光，传统的有监督方法多为单模态方法，无法充分利视频相关信息的问题，因此有必要提供一种多模态视频高光检测任务，将视频相关语言信息引入到监督信号中。

发明内容

为了解决现有技术中的无监督方法无法准确定位高光片段以及单模态方法无法充分利视频相关信息的问题，本发明提出了一种基于商品感知的多模态视频高光检测方法及其***。

本发明基于电子商务场景，将商品的名字、标签和视频的题目作为监督元素加入模型中，得出的高光检测方法可以更好的检测出视频中的片段，相对于人工标注大大节约了时间，相对于无监督方法和单模态方法，可以更加准确的检测出高光片段。

为了实现上述目的，本发明采用的技术方案为：

一种基于商品感知的多模态视频高光检测方法，包括如下步骤：

S1：将一段视频划分为部分重叠的视频片段，提取每一段视频片段的帧特征，并采用Bi-GRU网络学习视频片段的自注意力语义表示h^v；

S2：提取一段视频的视频标题、商品标签以及商品名称的词特征，通过沿相关词间的依赖边传递信息，构建视频标题图

和商品名称图

建立商品属性列表，利用查询焦点图聚合模块分别获得属性感知的商品名称图G^cl和属性感知的视频标题图G^tl；

将属性感知的商品名称图G^cl转换为商品属性列表，利用查询焦点图聚合模块获得最终图，利用图神经网络获得最终图的边，将边的最终表达作为句法感知的文本信息表示

其中，下角标m表示最终图G^t中的边的个数，

表示最终图中第i个边的最终表达；

S3：结合视频片段的句法感知的文本信息表示h^t和自注意力语义表示h^v，利用共同注意力模块分别获得句法感知的视觉表达

和句法感知的语义表达

融合后得到跨模态语义表示f＝(f₁,f₂,…,f_n)，其中，f_i表示第i个视频片段对应的跨模态语义表示；

采用Bi-GRU网络学习得到最终的语义表示

然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度s_i；

S4：基于图的微调模块，利用步骤S3中置信度最高的k个片段作为图中节点，计算图中两两节点之间的连接指数，当连接指数大于阈值时，用边连接两个节点，形成无向图G；

S5：对无向图G进行图卷积，预测高光片段索引τ＝(s_i,e_i)，s_i,e_i分别为预测的时间边界，输出索引对应的高光片段。

本发明的有益效果为：

1、本发明将视频与商品辅助信息进行融合，将多模态商品高光检测任务引入电子商务场景，解决了电子商务场景中多模态视频高光检测问题，降低了手动标注高光片段的人工成本。

2、本发明提出了一种融合多源自然语言信息的图聚合方法，在方法中同时引入了视频标题、商品标签、商品名称这三种自然语言信息，构建商品名称图和视频标题图，可同时利用多源信息提高高光检测准确率。

3、本发明提出了一种新颖的多模态融合方法，将文本信息和图片信息进行融合，可以同时将多模态信息加入考量，生成更有吸引力的高光剪辑片段，进一步提高视频推荐的性能。

附图说明

图1是本实施例所使用的基于商品感知的多模态视频高光检测方法示意图。

图2为图聚合模块的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案做更进一步地描述。此外，本发明中所描述的实施例仅仅是作为一部分的实施例，而不是全部的实施例。

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明提出的基于商品感知的多模态视频高光检测方法通过一个共同注意力模块连接了两个分支，其中一个分支用于获取视频片段的自注意力语义表示，另一个分支基于图聚合模块用于获取句法感知的文本信息表示；两者通过共同注意力模块融合得到跨模态语义集合，使用含有sigmoid函数的全连接层计算每一个视频片段的置信度；最后，通过置信度筛选出候选片段来构建无向图，利用图卷积网络从无向图中预测出最终的高光索引。

基本步骤可以分为：

步骤一、将一段视频划分为部分重叠的视频片段，提取每一段视频片段的帧特征，并采用Bi-GRU网络学习视频片段的自注意力语义表示H^v；

步骤二、提取一段视频的视频标题、商品标签以及商品名称的词特征，通过沿相关词间的依赖边传递信息，构建视频标题图

和商品名称图

其中，下角标m表示最终图G^t中的边的个数，

表示最终图中第i个边的最终表达；

步骤三、结合视频片段的句法感知的文本信息表示h^t和自注意力语义表示h^v，利用共同注意力模块分别获得句法感知的视觉表达

和句法感知的语义表达

采用Bi-GRU网络学习得到最终的语义表示

步骤四、基于图的微调模块，利用步骤S3中置信度最高的k个片段作为图中节点，计算图中两两节点之间的连接指数，当连接指数大于阈值时，用边连接两个节点，形成无向图G；

步骤五、对无向图G进行图卷积，预测高光片段索引τ＝(s_i,e_i)，s_i,e_i分别为预测的时间边界，输出索引对应的高光片段。

在本发明的具体实施中，步骤一为视频的预处理过程，具体为：

1.1)将一段视频分为n个片段，每一个视频片段由连续的若干帧构成，且相邻两个视频片段之间存在部分重叠；标记视频中的每一个高光片段的边界

作为标签。

1.2)提取每一个视频片段的帧特征v_i，构成帧特征集v＝(v₁,v₂,…,v_n)，其中，v_i表示第i个视频片段的帧特征；本实施例中，可以利用预训练的Two-Stream Inflflated 3DConvNets提取视频片段的帧特征。

1.3)将帧特征集作为第一Bi-GRU网络的输入，学习得到视频片段的自注意力语义表示

计算公式为：

其中，

和

分别是第一Bi-GRU网络的前馈网络和反馈网络，W_v是可训练矩阵，

表示第i个视频片段的自注意力语义表示，

表示

的前向语义特征，

表示

的后向语义特征，f(·)表示tanh激活函数，||表示将前后的语义特征进行拼接，b表示偏置；在初始化时，令

在本发明的具体实施中，步骤二中，基于图聚合模块用于获取句法感知的文本信息表示，具体为：

a)将视频标题的词特征表示为

商品名称的词特征表示为

商品标签的词特征表示为

本实施例中，可以通过预训练的Chinese word2vec embedding提取词特征。

将商品名称的词特征作为图的节点

构建商品名称图

将视频标题的词特征作为图的节点

构建视频标题图

b)利用查询焦点图聚合模块获得属性感知的商品名称图G^cl和属性感知的视频标题图G^tl：

2.1)创建商品属性列表

2.2)如图2所示，以商品名称图

为例，首先将商品属性列表通过全局平均池化获得查询的全局表示q^l′，使用q^l′更新商品名称图

中的节点，获得中间图，公式为：

其中，N_q表示商品属性列表中的词特征个数，

表示商品属性列表中的第i个词特征，q^l′表示平均池化后的词特征；g_j为对应于图中第j个节点的临时变量，b_g、b_q、b_e表示偏置，W_g、W_q、W_e是可训练的矩阵，ρ代表sigmoid函数，

表示商品名称图

中的第j个节点，

表示中间图的第j个节点。

2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征，公式为：

其中，o_i,j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力，o_i,k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力，W_o、W_a表示可训练矩阵，b₀表示偏置；

表示归一化后的注意力，N_e表示图的节点数，

表示更新后的图中的第i个节点。

2.4)遍历图中所有的节点，由更新后的所有节点构成具有词库查询注意特征的图结构，利用图神经网络GCN来确定图结构的边，得到属性感知的商品名称图G^cl。

所述的图神经网络GCN用于给节点之间的边打上标签，计算过程为：

其中，

和

是用于打标签的模型参数，

是最终图G^t中的第i个节点及其相邻节点集合，

是最终图G^t中的第j个节点在第t_k层的特征表达，

是最终图G^t中的第i个节点在第t_k+1层的特征表达，f(·)表示图神经网络GCN的运算，

表示i、j两个节点在第t_k层基于门限机制的值。

通过含有l层的图神经网络GCN计算，由每条边的最终特征表达构成句法感知的语义表达

下角标m表示最终图G^t中边的数量。

同理，针对视频标题图

首先将商品属性列表通过全局平均池化获得查询的全局表示q^l′，使用q^l′更新视频标题图

中的节点，获得中间图；之后，使用节点级加性注意力机制和线性同义词库的加权来融合图的特征，遍历图中所有的节点，由更新后的所有节点构成具有词库查询注意特征的图结构，即属性感知的视频标题图t^tl。

在本实施例中，将商品标签的特征保留基本值作为属性集，并将其创建为线性列表Q^l作为查询焦点图聚合模块(QFGA)的输入。即步骤2.1)中的商品属性列表Q^l采用商品标签的词特征

N_q＝m₃。

进一步的，将属性感知的商品名称图G^cl转换为属性感知的商品标题列表Q^l＝linear(G^cl)，采用步骤2.2)至2.4)的方法，将商品标题列表Q^l＝linear(G^cl)和属性感知的视频标题图G^tl作为查询焦点图聚合模块的输入，得到最终图G^t。

在本发明的具体实施中，步骤三将前两个步骤获得的结果通过共同注意力模块融合得到跨模态语义集合，使用含有sigmoid函数的全连接层计算每一个视频片段的置信度，具体为：

3.1)建立共同注意力模块，给定一个查询和一组键值对，协同注意机制根据查询和键的兼容性函数计算加权和，两个模态特征交替作为查询。查询，键和值分别用Q、K、V表示，皆为向量集，将其组合为矩阵，通过下面公式得到放缩点积自注意力：

表示为：

其中，Q、K和V分别表示查询、键和值，Attention(·)表示放缩点积自注意力，d_k表示注意力参数，上角标T表示转置。

3.2)将查询Q设置为

将键K、值V均设置为

将句法感知的文本信息表示h^t转换为句法感知的视觉表达

计算公式为：

其中，W_q,W_k,W_v是可学习矩阵，FF_t(·)是一个线性变换的前馈模块，使用LayerNorm来稳定训练，LayerNorm(·)表示归一化。

同理，将Q设置为

将键K、值V均设置为

将自注意力语义表示h^v转换为句法感知的语义表达

3.3)融合视觉表达

和语义表达

得到每一个视频片段的跨模态语义表示f_i，公式为：

其中，σ(·)表示singmoid函数，

W^tf、W_f是可训练矩阵；⊙表示Hadamard乘积，表示对应位置元素相乘；b_f表示偏置，

表示视觉表达

中的第i个元素。

遍历所有的视频片段，构成视频片段的跨模态语义集合F＝(f₁,f₂,…,f_n)。

3.4)将跨模态语义集合F作为第二Bi-GRU网络的输入，学习得到最终的语义表示

3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度s_i，公式为：

其中，σ(·)表示sigmoid激活函数，W^c和b^c表示全连接层的网络参数，

表示第i个视频片段的跨模态语义表示。

在本发明的具体实施中，步骤四基于图的微调模块，利用步骤S3中置信度最高的k个片段构建无向图G，具体为：

4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段，将候选片段的帧特征作为图中节点{v₁,v₂,…,v_k}。

4.2)计算两两节点之间的相关指数：

其中，I(v_i,v_j)和U(v_i,v_j)分别是两个候选片段的交集和并集，v_i和v_j分别表示第i个和第j个候选片段的帧特征，i≠j且i≤k，j≤k。

4.3)计算两两节点的中心距离：

其中，d(v_i,v_j)是两个候选片段的中心距离，c_i,c_j分别是v_i,v_j的中心坐标。

4.4)根据相关指数和中心距离，计算两两节点之间的连接指数：

e(v_i,v_j)＝θ_r·r(v_i,v_j)+θ_d·d(v_i,v_j)+θ_s·cos(v_i,v_j)

其中，θ_r、θ_d、θ_s是可调节参数，cos(·)表示cos函数。

4.5)设置阈值θ_α，当e(v_i,v_j)>θ_a时，用边连接两个节点，构建无向图G。

在本发明的具体实施中，步骤五利用图卷积网络从无向图中预测出最终的高光索引，具体为：

5.1)对无向图G进行K层的图卷积运算：

X^(k)＝A·X^(k-1)·W^(k)

其中，1≤k≤K，

是第k层的可学习参数，

是候选片段在第k层的隐藏特征，

是输入特征，即步骤S4构建的无向图G。

5.2)在每一层卷积运算后添加激活函数，并将最后一层的隐藏特征和输入层的特征拼接起来：

X^(K)＝X^(K)||X⁽⁰⁾,

其中，||代表级联操作。

5.3)使用全连接层和激活函数计算预测高光片段的索引τ：

τ＝softmax(FC(GCN(X⁽⁰⁾)))

式中，FC(·)表示全连接层，索引τ＝(s_i,e_i)，s_i,e_i分别表示预测边界，GCN(·)表示图卷积运算。

本实施例中，结合回归损失和高光聚合损失，以端到端的方式训练参数。

其中，R(x)为smooth L1函数，

的计算公式与连接指数的计算公式相同，k为视频候选片段的候选数量，v_i为第i个视频片段的帧特征，

表示实际高光片段，L_reg为回归损失，L_arg为高光聚合损失。两损失值可以直接相加或者通过权重系数相加作为最终损失。

本实施例中，上述中存在可训练参数的模块或算法均需要训练，采用上述中的端到端训练方式，训练好的模型可以依据步骤一至五的顺序来获取视频的高光片段。

与前述的基于商品感知的多模态视频高光检测方法的实施例相对应，本申请还提供了一种基于商品感知的多模态视频高光检测***的实施例，其包括：

预处理单元，其用于将一段视频划分为部分重叠的视频片段，提取每一段视频片段的帧特征，并采用Bi-GRU网络学习视频片段的自注意力语义表示；

图聚合单元，其用于构建初始的视频标题图和商品名称图，并基于查询焦点图聚合模块获得最终图，将最终图的边表达作为句法感知的文本信息表示；

置信度计算单元，其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示，并利用Bi-GRU网络学习得到最终的语义表示，通过含有sigmoid函数的全连接层计算每一个视频片段的置信度；

图微调单元，其用于筛选置信度最高的k个片段作为图中节点，计算图中两两节点之间的连接指数，当连接指数大于阈值时，用边连接两个节点，形成无向图G；

预测单元，其用于对无向图G进行图卷积，预测高光片段索引并输出索引对应的高光片段。

关于上述实施例中的***，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于***实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为置信度计算单元，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

在本发明的一项具体实施中，介绍了文本预处理过程。

使用Jieba中文分词器，移除文本中的标点并标记句子。每一个商品的名称、视频名称和商品的标签分别不超过20，20和15字，超过的文本将会被截短。再通过预训练的Chinese word2vec embedding Roberta提取文本中的词特征。

在本发明的一项具体实施中，介绍了视频预处理过程。

将每一帧的大小调节为112×112，并使用Two-Stream Inflflated 3D ConvNets从未剪辑过的视频中提取视觉特征。将连续的128帧定义为一个初始候选片段，每个单元与相邻单元重叠24帧。将各个单元输入预训练的3D-ConvNet获得，每个单元都获得一个4096维的特征。

在本发明的一项具体实施中，介绍了模型参数的设置。

在每一个时间步中使用多尺度窗口，在重叠阈值为0.2，窗口宽度为128的情况下采样k个候选时刻。

将Bi-GRU的隐藏状态维度设置为512(一个方向256)，多头自注意模块和双线性融合中线性矩阵的维数也设为512。在训练中使用adam优化器最小化多任务损失，并将学习率设置为0.001。将模型中的隐藏层的维度设置为128，卷积层的核大小设置为7，多头注意力模块的头大小为设置为8。在构建图时将θ_r，θ_d，θ_s全部设置为1，θ_α设置为1.5，将损失参数alpha设置为0.1。

本发明使用了TaoHighlight数据集中化妆品、头发产品、美食产品、玩具产品、运动产品进行训练和验证。具体实施步骤同上，不再赘述。

该数据集中的每一个视频都有其对应的商品标签、视频标题、商品名称。商品标签包括商品的种类和商家给商品打上的标签。在每一个大类中，都有3000个视频，每个视频都是当天在淘宝平台该类中点击次数最多的商品，每一个视频的长度在1到3分钟之间。

评估指标：

采用“R@n，IoU＝μ”作为评估指标。“R@n，IoU＝μ”表示当IoU值为μ时，在选择出来的最佳n个候选片段中，与实际高光片段的IoU值大于μ的比例。mIoU是所有测试样例的IoU的平均值。

表1展现的是本发明和其他诸多模型之间的比较：

VH-GNN提出了一种视频高光框架来构造一个对象感知图，并从全局视图对对象之间的关系进行建模，这是当前单模态视频高亮检测较好的模型，但该模型再电子商务环境中无法使用更多相关模态的信息，导致模型效果较差。

Tao-GNN利用图形神经网络(GNN)在淘宝电商平台上建立视频高光在线预测模型。该方法使用全部视频帧建立图，并使用GNN提取特征。然后通过滑动窗口得到时长五秒的候选段，并通过建立图提取相应的特征。最后，该模型产生对齐分数和位置偏移。该模型同样没有将电子商务中多模态的有用信息引入模型中，并且图神经网络更新节点的隐藏状态是低效的，在迭代中使用相同的参数，更新节点隐藏状态是时序的。

表1

Method	IoU＝0.1	IoU＝0.3	IoU＝0.5	IoU＝0.7
					VH-GNN	23.1	19.1	9.9	9.7
Tao-base	16.3	12.1	8.6	2.1
					Tao-GNN	20.3	12.4	11.3	3.4
VSL	32.3	22.4	15.6	11.3
					本发明	55.6	41.4	26.3	15.6

可以清晰的看出，相对于别的模型，本发明在四种IoU等级下的表象均好于其余四种模型。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于商品感知的多模态视频高光检测方法，其特征在于，包括如下步骤：

S1：将一段视频划分为部分重叠的视频片段，提取每一段视频片段的帧特征，并采用Bi-GRU网络学习视频片段的自注意力语义表示；

S2：提取一段视频的视频标题、商品标签以及商品名称的词特征，通过沿相关词间的依赖边传递信息，构建视频标题图和商品名称图；建立商品属性列表，利用查询焦点图聚合模块分别获得属性感知的商品名称图和属性感知的视频标题图；

将属性感知的商品名称图转换为商品属性列表，利用查询焦点图聚合模块获得最终图，利用图神经网络获得最终图的边，将边的最终表达作为句法感知的文本信息表示；

S3：结合视频片段的句法感知的文本信息表示和自注意力语义表示，利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达，融合后得到跨模态语义表示；

采用Bi-GRU网络学习得到最终的语义表示，然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度；

S5：对无向图G进行图卷积，预测高光片段索引并输出索引对应的高光片段。

2.根据权利要求1所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤S1具体为：

作为标签；

1.2)提取每一个视频片段的帧特征v_i，构成帧特征集v＝(v₁，v₂，…v_i…，v_n)，其中，v_i表示第i个视频片段的帧特征；

计算公式为：

其中，

和

表示第i个视频片段的自注意力语义表示，

表示

的前向语义特征，

表示

3.根据权利要求1所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤S2中，将视频标题的词特征表示为

商品名称的词特征表示为

商品标签的词特征表示为

将商品名称的词特征作为图的节点

构建商品名称图

将视频标题的词特征作为图的节点

构建视频标题图

4.根据权利要求3所述的基于商品感知的多模态视频高光检测方法，其特征在于，利用查询焦点图聚合模块获得属性感知的商品名称图G^cl和属性感知的视频标题图G^tl；所述的查询焦点图聚合模块的计算过程如下：

2.1)创建商品属性列表

2.2)针对商品名称图

首先将商品属性列表通过全局平均池化获得查询的全局表示q^l′，使用q^l′更新商品名称图

中的节点，获得中间图，公式为：

其中，N_q表示商品属性列表中的词特征个数，

表示商品名称图

中的第j个节点，

表示中间图的第j个节点；

其中，o_i，j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力，o_i，k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力，W_o、W_a表示可训练矩阵，b₀表示偏置；

表示归一化后的注意力，N_e表示图的节点数，

表示更新后的图中的第i个节点；

2.4)遍历图中所有的节点，由更新后的所有节点构成具有词库查询注意特征的图结构，利用图神经网络GCN来确定图结构的边，得到属性感知的商品名称图G^cl；

同理，针对视频标题图

中的节点，获得中间图；之后，使用节点级加性注意力机制和线性同义词库的加权来融合图的特征，遍历图中所有的节点，由更新后的所有节点构成具有词库查询注意特征的图结构，即属性感知的视频标题图G^tl。

5.根据权利要求4所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤2.1)中的商品属性列表Q^l采用商品标签的词特征，即

6.根据权利要求4所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤2.4)中的图神经网络GCN用于给节点之间的边打上标签，计算过程为：

其中，

和

是用于打标签的模型参数，

是最终图G^t中的第i个节点及其相邻节点集合，

是最终图G^t中的第j个节点在第t_k层的特征表达，

表示i、j两个节点在第t_k层基于门限机制的值；

下角标m表示最终图G^t中边的数量。

7.根据权利要求1所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤S3具体为：

3.1)建立共同注意力模块，表示为：

其中，Q、K和V分别表示查询、键和值，Attention(·)表示放缩点积自注意力，d_k表示注意力参数，上角标T表示转置；

3.2)将查询Q设置为

将键K、值V均设置为

将句法感知的文本信息表示h^t转换为句法感知的视觉表达

计算公式为：

其中，W_q，W_k，W_v是可学习矩阵，FF_t(·)是一个线性变换的前馈模块，使用LayerNorm来稳定训练，LayerNorm(·)表示归一化；

同理，将Q设置为

将键K、值V均设置兆

将自注意力语义表示h^v转换为句法感知的语义表达

3.3)融合视觉表达

和语义表达

得到每一个视频片段的跨模态语义表示f_i，公式为：

其中，σ(·)表示singmoid函数，

表示视觉表达

中的第i个元素；

遍历所有的视频片段，构成视频片段的跨模态语义集合F＝(f₁，f₂，...，f_n)；

表示第i个视频片段的跨模态语义表示。

8.根据权利要求1所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤S4具体为：

4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段，将候选片段的帧特征作为图中节点{v₁，v₂，...，v_k}；

4.2)计算两两节点之间的相关指数：

其中，I(v_i，v_j)和U(v_i，v_j)分别是两个候选片段的交集和并集，v_i和v_j分别表示第i个和第j个候选片段的帧特征，i≠j且i≤k，j≤k；

4.3)计算两两节点的中心距离：

其中，d(v_i，v_j)是两个候选片段的中心距离，c_i，c_j分别是v_i，v_j的中心坐标；

e(v_i，v_j)＝θ_r·r(v_i，v_j)+θ_d·d(v_i，v_j)+θ_s·cos(v_i，v_j)

其中，θ_r、θ_d、θ_s是可调节参数，cos(·)表示cos函数；

4.5)设置阈值θ_α，当e(v_i，v_j)＞θ_a时，用边连接两个节点，构建无向图G。

9.根据权利要求1所述的基于商品感知的多模态视频高光检测方法，其特征在于，步骤S5具体为：

5.1)对无向图G进行K层的图卷积运算：

X^(k)＝A.X^(k-1).W^(k)

其中，1≤k≤K，W^(k)是第k层的可学习参数，X^(k)是候选片段在第k层的隐藏特征，

是输入特征，即步骤S4构建的无向图G；

X^(K)＝X^(K)||X⁽⁰⁾，

其中，||代表级联操作；

5.3)使用全连接层和激活函数计算预测高光片段的索引τ：

τ＝softmax(FC(GCN(X⁽⁰⁾)))

式中，FC(·)表示全连接层，索引τ＝(s_i，e_i)，s_i，e_i分别表示预测边界，GCN(·)表示图卷积运算。

10.一种基于权利要求1所述商品感知的多模态视频高光检测方法的检测***，其特征在于，包括：