CN112801762B - 基于商品感知的多模态视频高光检测方法及其*** - Google Patents

基于商品感知的多模态视频高光检测方法及其*** Download PDF

Info

Publication number
CN112801762B
CN112801762B CN202110397055.0A CN202110397055A CN112801762B CN 112801762 B CN112801762 B CN 112801762B CN 202110397055 A CN202110397055 A CN 202110397055A CN 112801762 B CN112801762 B CN 112801762B
Authority
CN
China
Prior art keywords
graph
video
commodity
nodes
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110397055.0A
Other languages
English (en)
Other versions
CN112801762A (zh
Inventor
赵洲
郭兆宇
周楚程
刘瑞涛
汪达舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110397055.0A priority Critical patent/CN112801762B/zh
Publication of CN112801762A publication Critical patent/CN112801762A/zh
Application granted granted Critical
Publication of CN112801762B publication Critical patent/CN112801762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于商品感知的多模态视频高光检测方法及其***,属于视频高光检测领域。首先,分别进行视频预处理和文本预处理,通过视频预处理得到视频片段的自注意力语义表示,通过文本预处理获取视频标题、商品标签以及商品名称的词特征,构建并更新得到最终图,获取句法感知的文本信息表示;然后,两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。本发明通过将商品名称、标签和视频标题作为监督元素加入模型中,检测精度更高。

Description

基于商品感知的多模态视频高光检测方法及其***
技术领域
本发明涉及视频高光检测领域,尤其涉及一种基于商品感知的多模态视频高光检测方法及其***。
背景技术
在电子商务中,介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中,通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者,从而提高产品的点击率。然而,目前的研究方法应用于实际场景的效果并不令人满意。与其他视频理解任务相比,视频高光检测相对抽象和主观,只有利用视觉信息才能做出准确的判断。
视频高光检测算法一般分为无监督方法和监督方法。无监督技术通过手动获取的特性或规则创建视频高光。无监督的视频高光检测方法可以进一步分为领域无关或领域特定的方法。领域无关的方法提出在任何视频上均匀工作的运动强度作为弱监督信号。领域特定的方法针对主题领域定制亮点,并利用视频持续时间和视觉共现作为弱监督信号。然而,没有引入监督信号,高光检测的结果并不令人满意。
除了视觉信息,高度抽象的视频标题可以帮助检测视频高光,传统的有监督方法多为单模态方法,无法充分利视频相关信息的问题,因此有必要提供一种多模态视频高光检测任务,将视频相关语言信息引入到监督信号中。
发明内容
为了解决现有技术中的无监督方法无法准确定位高光片段以及单模态方法无法充分利视频相关信息的问题,本发明提出了一种基于商品感知的多模态视频高光检测方法及其***。
本发明基于电子商务场景,将商品的名字、标签和视频的题目作为监督元素加入模型中,得出的高光检测方法可以更好的检测出视频中的片段,相对于人工标注大大节约了时间,相对于无监督方法和单模态方法,可以更加准确的检测出高光片段。
为了实现上述目的,本发明采用的技术方案为:
一种基于商品感知的多模态视频高光检测方法,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示hv
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图
Figure GDA0003107022460000021
和商品名称图
Figure GDA0003107022460000022
建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl
将属性感知的商品名称图Gcl转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示
Figure GDA0003107022460000023
其中,下角标m表示最终图Gt中的边的个数,
Figure GDA0003107022460000024
表示最终图中第i个边的最终表达;
S3:结合视频片段的句法感知的文本信息表示ht和自注意力语义表示hv,利用共同注意力模块分别获得句法感知的视觉表达
Figure GDA0003107022460000025
和句法感知的语义表达
Figure GDA0003107022460000026
融合后得到跨模态语义表示f=(f1,f2,…,fn),其中,fi表示第i个视频片段对应的跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示
Figure GDA0003107022460000027
然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引τ=(si,ei),si,ei分别为预测的时间边界,输出索引对应的高光片段。
本发明的有益效果为:
1、本发明将视频与商品辅助信息进行融合,将多模态商品高光检测任务引入电子商务场景,解决了电子商务场景中多模态视频高光检测问题,降低了手动标注高光片段的人工成本。
2、本发明提出了一种融合多源自然语言信息的图聚合方法,在方法中同时引入了视频标题、商品标签、商品名称这三种自然语言信息,构建商品名称图和视频标题图,可同时利用多源信息提高高光检测准确率。
3、本发明提出了一种新颖的多模态融合方法,将文本信息和图片信息进行融合,可以同时将多模态信息加入考量,生成更有吸引力的高光剪辑片段,进一步提高视频推荐的性能。
附图说明
图1是本实施例所使用的基于商品感知的多模态视频高光检测方法示意图。
图2为图聚合模块的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做更进一步地描述。此外,本发明中所描述的实施例仅仅是作为一部分的实施例,而不是全部的实施例。
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明提出的基于商品感知的多模态视频高光检测方法通过一个共同注意力模块连接了两个分支,其中一个分支用于获取视频片段的自注意力语义表示,另一个分支基于图聚合模块用于获取句法感知的文本信息表示;两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。
基本步骤可以分为:
步骤一、将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示Hv
步骤二、提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图
Figure GDA0003107022460000031
和商品名称图
Figure GDA0003107022460000032
建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl
将属性感知的商品名称图Gcl转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示
Figure GDA0003107022460000041
其中,下角标m表示最终图Gt中的边的个数,
Figure GDA0003107022460000042
表示最终图中第i个边的最终表达;
步骤三、结合视频片段的句法感知的文本信息表示ht和自注意力语义表示hv,利用共同注意力模块分别获得句法感知的视觉表达
Figure GDA0003107022460000043
和句法感知的语义表达
Figure GDA0003107022460000044
融合后得到跨模态语义表示f=(f1,f2,…,fn),其中,fi表示第i个视频片段对应的跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示
Figure GDA0003107022460000045
然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si
步骤四、基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
步骤五、对无向图G进行图卷积,预测高光片段索引τ=(si,ei),si,ei分别为预测的时间边界,输出索引对应的高光片段。
在本发明的具体实施中,步骤一为视频的预处理过程,具体为:
1.1)将一段视频分为n个片段,每一个视频片段由连续的若干帧构成,且相邻两个视频片段之间存在部分重叠;标记视频中的每一个高光片段的边界
Figure GDA0003107022460000046
作为标签。
1.2)提取每一个视频片段的帧特征vi,构成帧特征集v=(v1,v2,…,vn),其中,vi表示第i个视频片段的帧特征;本实施例中,可以利用预训练的Two-Stream Inflflated 3DConvNets提取视频片段的帧特征。
1.3)将帧特征集作为第一Bi-GRU网络的输入,学习得到视频片段的自注意力语义表示
Figure GDA0003107022460000047
计算公式为:
Figure GDA0003107022460000048
Figure GDA0003107022460000049
Figure GDA00031070224600000410
其中,
Figure GDA00031070224600000411
Figure GDA00031070224600000412
分别是第一Bi-GRU网络的前馈网络和反馈网络,Wv是可训练矩阵,
Figure GDA00031070224600000413
表示第i个视频片段的自注意力语义表示,
Figure GDA00031070224600000414
表示
Figure GDA00031070224600000415
的前向语义特征,
Figure GDA00031070224600000416
表示
Figure GDA00031070224600000417
的后向语义特征,f(·)表示tanh激活函数,||表示将前后的语义特征进行拼接,b表示偏置;在初始化时,令
Figure GDA0003107022460000051
在本发明的具体实施中,步骤二中,基于图聚合模块用于获取句法感知的文本信息表示,具体为:
a)将视频标题的词特征表示为
Figure GDA0003107022460000052
商品名称的词特征表示为
Figure GDA0003107022460000053
商品标签的词特征表示为
Figure GDA0003107022460000054
本实施例中,可以通过预训练的Chinese word2vec embedding提取词特征。
将商品名称的词特征作为图的节点
Figure GDA0003107022460000055
构建商品名称图
Figure GDA0003107022460000056
将视频标题的词特征作为图的节点
Figure GDA0003107022460000057
构建视频标题图
Figure GDA0003107022460000058
b)利用查询焦点图聚合模块获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl
2.1)创建商品属性列表
Figure GDA0003107022460000059
2.2)如图2所示,以商品名称图
Figure GDA00031070224600000510
为例,首先将商品属性列表通过全局平均池化获得查询的全局表示ql′,使用ql′更新商品名称图
Figure GDA00031070224600000511
中的节点,获得中间图,公式为:
Figure GDA00031070224600000512
Figure GDA00031070224600000513
Figure GDA00031070224600000514
其中,Nq表示商品属性列表中的词特征个数,
Figure GDA00031070224600000515
表示商品属性列表中的第i个词特征,ql′表示平均池化后的词特征;gj为对应于图中第j个节点的临时变量,bg、bq、be表示偏置,Wg、Wq、We是可训练的矩阵,ρ代表sigmoid函数,
Figure GDA00031070224600000516
表示商品名称图
Figure GDA00031070224600000517
中的第j个节点,
Figure GDA00031070224600000518
表示中间图的第j个节点。
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
Figure GDA00031070224600000519
Figure GDA00031070224600000520
Figure GDA00031070224600000521
其中,oi,j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,oi,k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,Wo、Wa表示可训练矩阵,b0表示偏置;
Figure GDA0003107022460000061
表示归一化后的注意力,Ne表示图的节点数,
Figure GDA0003107022460000062
表示更新后的图中的第i个节点。
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图Gcl
所述的图神经网络GCN用于给节点之间的边打上标签,计算过程为:
Figure GDA0003107022460000063
其中,
Figure GDA0003107022460000064
Figure GDA0003107022460000065
是用于打标签的模型参数,
Figure GDA0003107022460000066
是最终图Gt中的第i个节点及其相邻节点集合,
Figure GDA0003107022460000067
是最终图Gt中的第j个节点在第tk层的特征表达,
Figure GDA0003107022460000068
是最终图Gt中的第i个节点在第tk+1层的特征表达,f(·)表示图神经网络GCN的运算,
Figure GDA0003107022460000069
表示i、j两个节点在第tk层基于门限机制的值。
通过含有l层的图神经网络GCN计算,由每条边的最终特征表达构成句法感知的语义表达
Figure GDA00031070224600000610
下角标m表示最终图Gt中边的数量。
同理,针对视频标题图
Figure GDA00031070224600000611
首先将商品属性列表通过全局平均池化获得查询的全局表示ql′,使用ql′更新视频标题图
Figure GDA00031070224600000612
中的节点,获得中间图;之后,使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,即属性感知的视频标题图ttl
在本实施例中,将商品标签的特征保留基本值作为属性集,并将其创建为线性列表Ql作为查询焦点图聚合模块(QFGA)的输入。即步骤2.1)中的商品属性列表Ql采用商品标签的词特征
Figure GDA00031070224600000613
Nq=m3
进一步的,将属性感知的商品名称图Gcl转换为属性感知的商品标题列表Ql=linear(Gcl),采用步骤2.2)至2.4)的方法,将商品标题列表Ql=linear(Gcl)和属性感知的视频标题图Gtl作为查询焦点图聚合模块的输入,得到最终图Gt
在本发明的具体实施中,步骤三将前两个步骤获得的结果通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度,具体为:
3.1)建立共同注意力模块,给定一个查询和一组键值对,协同注意机制根据查询和键的兼容性函数计算加权和,两个模态特征交替作为查询。查询,键和值分别用Q、K、V表示,皆为向量集,将其组合为矩阵,通过下面公式得到放缩点积自注意力:
表示为:
Figure GDA0003107022460000071
其中,Q、K和V分别表示查询、键和值,Attention(·)表示放缩点积自注意力,dk表示注意力参数,上角标T表示转置。
3.2)将查询Q设置为
Figure GDA0003107022460000072
将键K、值V均设置为
Figure GDA0003107022460000073
将句法感知的文本信息表示ht转换为句法感知的视觉表达
Figure GDA0003107022460000074
计算公式为:
Figure GDA0003107022460000075
其中,Wq,Wk,Wv是可学习矩阵,FFt(·)是一个线性变换的前馈模块,使用LayerNorm来稳定训练,LayerNorm(·)表示归一化。
同理,将Q设置为
Figure GDA0003107022460000076
将键K、值V均设置为
Figure GDA0003107022460000077
Figure GDA0003107022460000078
将自注意力语义表示hv转换为句法感知的语义表达
Figure GDA0003107022460000079
3.3)融合视觉表达
Figure GDA00031070224600000710
和语义表达
Figure GDA00031070224600000711
得到每一个视频片段的跨模态语义表示fi,公式为:
Figure GDA00031070224600000712
其中,σ(·)表示singmoid函数,
Figure GDA00031070224600000713
Wtf、Wf是可训练矩阵;⊙表示Hadamard乘积,表示对应位置元素相乘;bf表示偏置,
Figure GDA00031070224600000714
表示视觉表达
Figure GDA00031070224600000715
中的第i个元素。
遍历所有的视频片段,构成视频片段的跨模态语义集合F=(f1,f2,…,fn)。
3.4)将跨模态语义集合F作为第二Bi-GRU网络的输入,学习得到最终的语义表示
Figure GDA00031070224600000716
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si,公式为:
Figure GDA0003107022460000081
其中,σ(·)表示sigmoid激活函数,Wc和bc表示全连接层的网络参数,
Figure GDA0003107022460000082
表示第i个视频片段的跨模态语义表示。
在本发明的具体实施中,步骤四基于图的微调模块,利用步骤S3中置信度最高的k个片段构建无向图G,具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v1,v2,…,vk}。
4.2)计算两两节点之间的相关指数:
Figure GDA0003107022460000083
其中,I(vi,vj)和U(vi,vj)分别是两个候选片段的交集和并集,vi和vj分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k。
4.3)计算两两节点的中心距离:
Figure GDA0003107022460000084
其中,d(vi,vj)是两个候选片段的中心距离,ci,cj分别是vi,vj的中心坐标。
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
e(vi,vj)=θr·r(vi,vj)+θd·d(vi,vj)+θs·cos(vi,vj)
其中,θr、θd、θs是可调节参数,cos(·)表示cos函数。
4.5)设置阈值θα,当e(vi,vj)>θa时,用边连接两个节点,构建无向图G。
在本发明的具体实施中,步骤五利用图卷积网络从无向图中预测出最终的高光索引,具体为:
5.1)对无向图G进行K层的图卷积运算:
X(k)=A·X(k-1)·W(k)
其中,1≤k≤K,
Figure GDA0003107022460000085
是第k层的可学习参数,
Figure GDA0003107022460000086
是候选片段在第k层的隐藏特征,
Figure GDA0003107022460000087
是输入特征,即步骤S4构建的无向图G。
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
X(K)=X(K)||X(0),
其中,||代表级联操作。
5.3)使用全连接层和激活函数计算预测高光片段的索引τ:
τ=softmax(FC(GCN(X(0))))
式中,FC(·)表示全连接层,索引τ=(si,ei),si,ei分别表示预测边界,GCN(·)表示图卷积运算。
本实施例中,结合回归损失和高光聚合损失,以端到端的方式训练参数。
Figure GDA0003107022460000091
Figure GDA0003107022460000092
其中,R(x)为smooth L1函数,
Figure GDA0003107022460000093
的计算公式与连接指数的计算公式相同,k为视频候选片段的候选数量,vi为第i个视频片段的帧特征,
Figure GDA0003107022460000094
表示实际高光片段,Lreg为回归损失,Larg为高光聚合损失。两损失值可以直接相加或者通过权重系数相加作为最终损失。
本实施例中,上述中存在可训练参数的模块或算法均需要训练,采用上述中的端到端训练方式,训练好的模型可以依据步骤一至五的顺序来获取视频的高光片段。
与前述的基于商品感知的多模态视频高光检测方法的实施例相对应,本申请还提供了一种基于商品感知的多模态视频高光检测***的实施例,其包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
关于上述实施例中的***,其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于***实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为置信度计算单元,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
在本发明的一项具体实施中,介绍了文本预处理过程。
使用Jieba中文分词器,移除文本中的标点并标记句子。每一个商品的名称、视频名称和商品的标签分别不超过20,20和15字,超过的文本将会被截短。再通过预训练的Chinese word2vec embedding Roberta提取文本中的词特征。
在本发明的一项具体实施中,介绍了视频预处理过程。
将每一帧的大小调节为112×112,并使用Two-Stream Inflflated 3D ConvNets从未剪辑过的视频中提取视觉特征。将连续的128帧定义为一个初始候选片段,每个单元与相邻单元重叠24帧。将各个单元输入预训练的3D-ConvNet获得,每个单元都获得一个4096维的特征。
在本发明的一项具体实施中,介绍了模型参数的设置。
在每一个时间步中使用多尺度窗口,在重叠阈值为0.2,窗口宽度为128的情况下采样k个候选时刻。
将Bi-GRU的隐藏状态维度设置为512(一个方向256),多头自注意模块和双线性融合中线性矩阵的维数也设为512。在训练中使用adam优化器最小化多任务损失,并将学习率设置为0.001。将模型中的隐藏层的维度设置为128,卷积层的核大小设置为7,多头注意力模块的头大小为设置为8。在构建图时将θr,θd,θs全部设置为1,θα设置为1.5,将损失参数alpha设置为0.1。
本发明使用了TaoHighlight数据集中化妆品、头发产品、美食产品、玩具产品、运动产品进行训练和验证。具体实施步骤同上,不再赘述。
该数据集中的每一个视频都有其对应的商品标签、视频标题、商品名称。商品标签包括商品的种类和商家给商品打上的标签。在每一个大类中,都有3000个视频,每个视频都是当天在淘宝平台该类中点击次数最多的商品,每一个视频的长度在1到3分钟之间。
评估指标:
采用“R@n,IoU=μ”作为评估指标。“R@n,IoU=μ”表示当IoU值为μ时,在选择出来的最佳n个候选片段中,与实际高光片段的IoU值大于μ的比例。mIoU是所有测试样例的IoU的平均值。
表1展现的是本发明和其他诸多模型之间的比较:
VH-GNN提出了一种视频高光框架来构造一个对象感知图,并从全局视图对对象之间的关系进行建模,这是当前单模态视频高亮检测较好的模型,但该模型再电子商务环境中无法使用更多相关模态的信息,导致模型效果较差。
Tao-GNN利用图形神经网络(GNN)在淘宝电商平台上建立视频高光在线预测模型。该方法使用全部视频帧建立图,并使用GNN提取特征。然后通过滑动窗口得到时长五秒的候选段,并通过建立图提取相应的特征。最后,该模型产生对齐分数和位置偏移。该模型同样没有将电子商务中多模态的有用信息引入模型中,并且图神经网络更新节点的隐藏状态是低效的,在迭代中使用相同的参数,更新节点隐藏状态是时序的。
表1
Method IoU=0.1 IoU=0.3 IoU=0.5 IoU=0.7
VH-GNN 23.1 19.1 9.9 9.7
Tao-base 16.3 12.1 8.6 2.1
Tao-GNN 20.3 12.4 11.3 3.4
VSL 32.3 22.4 15.6 11.3
本发明 55.6 41.4 26.3 15.6
可以清晰的看出,相对于别的模型,本发明在四种IoU等级下的表象均好于其余四种模型。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种基于商品感知的多模态视频高光检测方法,其特征在于,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图和商品名称图;建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图和属性感知的视频标题图;
将属性感知的商品名称图转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示;
S3:结合视频片段的句法感知的文本信息表示和自注意力语义表示,利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达,融合后得到跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示,然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
2.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S1具体为:
1.1)将一段视频分为n个片段,每一个视频片段由连续的若干帧构成,且相邻两个视频片段之间存在部分重叠;标记视频中的每一个高光片段的边界
Figure FDA0003107022450000011
作为标签;
1.2)提取每一个视频片段的帧特征vi,构成帧特征集v=(v1,v2,…vi…,vn),其中,vi表示第i个视频片段的帧特征;
1.3)将帧特征集作为第一Bi-GRU网络的输入,学习得到视频片段的自注意力语义表示
Figure FDA0003107022450000021
计算公式为:
Figure FDA0003107022450000022
Figure FDA0003107022450000023
Figure FDA0003107022450000024
其中,
Figure FDA0003107022450000025
Figure FDA0003107022450000026
分别是第一Bi-GRU网络的前馈网络和反馈网络,Wv是可训练矩阵,
Figure FDA0003107022450000027
表示第i个视频片段的自注意力语义表示,
Figure FDA0003107022450000028
表示
Figure FDA0003107022450000029
的前向语义特征,
Figure FDA00031070224500000210
表示
Figure FDA00031070224500000211
的后向语义特征,f(·)表示tanh激活函数,||表示将前后的语义特征进行拼接,b表示偏置;在初始化时,令
Figure FDA00031070224500000212
3.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S2中,将视频标题的词特征表示为
Figure FDA00031070224500000213
商品名称的词特征表示为
Figure FDA00031070224500000214
商品标签的词特征表示为
Figure FDA00031070224500000215
将商品名称的词特征作为图的节点
Figure FDA00031070224500000216
构建商品名称图
Figure FDA00031070224500000217
将视频标题的词特征作为图的节点
Figure FDA00031070224500000218
构建视频标题图
Figure FDA00031070224500000219
4.根据权利要求3所述的基于商品感知的多模态视频高光检测方法,其特征在于,利用查询焦点图聚合模块获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl;所述的查询焦点图聚合模块的计算过程如下:
2.1)创建商品属性列表
Figure FDA00031070224500000220
2.2)针对商品名称图
Figure FDA00031070224500000221
首先将商品属性列表通过全局平均池化获得查询的全局表示ql′,使用ql′更新商品名称图
Figure FDA00031070224500000222
中的节点,获得中间图,公式为:
Figure FDA00031070224500000223
Figure FDA00031070224500000224
Figure FDA00031070224500000225
其中,Nq表示商品属性列表中的词特征个数,
Figure FDA00031070224500000226
表示商品属性列表中的第i个词特征,ql′表示平均池化后的词特征;gj为对应于图中第j个节点的临时变量,bg、bq、be表示偏置,Wg、Wq、We是可训练的矩阵,ρ代表sigmoid函数,
Figure FDA0003107022450000031
表示商品名称图
Figure FDA00031070224500000312
中的第j个节点,
Figure FDA0003107022450000032
表示中间图的第j个节点;
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
Figure FDA0003107022450000033
Figure FDA0003107022450000034
Figure FDA0003107022450000035
其中,oi,j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,oi,k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,Wo、Wa表示可训练矩阵,b0表示偏置;
Figure FDA0003107022450000036
表示归一化后的注意力,Ne表示图的节点数,
Figure FDA0003107022450000037
表示更新后的图中的第i个节点;
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图Gcl
同理,针对视频标题图
Figure FDA0003107022450000038
首先将商品属性列表通过全局平均池化获得查询的全局表示ql′,使用ql′更新视频标题图
Figure FDA0003107022450000039
中的节点,获得中间图;之后,使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,即属性感知的视频标题图Gtl
5.根据权利要求4所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤2.1)中的商品属性列表Ql采用商品标签的词特征,即
Figure FDA00031070224500000310
Figure FDA00031070224500000311
6.根据权利要求4所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤2.4)中的图神经网络GCN用于给节点之间的边打上标签,计算过程为:
Figure FDA0003107022450000041
其中,
Figure FDA0003107022450000042
Figure FDA0003107022450000043
是用于打标签的模型参数,
Figure FDA0003107022450000044
是最终图Gt中的第i个节点及其相邻节点集合,
Figure FDA0003107022450000045
是最终图Gt中的第j个节点在第tk层的特征表达,
Figure FDA0003107022450000046
是最终图Gt中的第i个节点在第tk+1层的特征表达,f(·)表示图神经网络GCN的运算,
Figure FDA0003107022450000047
表示i、j两个节点在第tk层基于门限机制的值;
通过含有l层的图神经网络GCN计算,由每条边的最终特征表达构成句法感知的语义表达
Figure FDA0003107022450000048
下角标m表示最终图Gt中边的数量。
7.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S3具体为:
3.1)建立共同注意力模块,表示为:
Figure FDA0003107022450000049
其中,Q、K和V分别表示查询、键和值,Attention(·)表示放缩点积自注意力,dk表示注意力参数,上角标T表示转置;
3.2)将查询Q设置为
Figure FDA00031070224500000410
将键K、值V均设置为
Figure FDA00031070224500000411
将句法感知的文本信息表示ht转换为句法感知的视觉表达
Figure FDA00031070224500000412
计算公式为:
Figure FDA00031070224500000413
其中,Wq,Wk,Wv是可学习矩阵,FFt(·)是一个线性变换的前馈模块,使用LayerNorm来稳定训练,LayerNorm(·)表示归一化;
同理,将Q设置为
Figure FDA00031070224500000414
将键K、值V均设置兆
Figure FDA00031070224500000415
Figure FDA00031070224500000416
将自注意力语义表示hv转换为句法感知的语义表达
Figure FDA00031070224500000417
3.3)融合视觉表达
Figure FDA00031070224500000418
和语义表达
Figure FDA00031070224500000419
得到每一个视频片段的跨模态语义表示fi,公式为:
Figure FDA00031070224500000420
其中,σ(·)表示singmoid函数,
Figure FDA0003107022450000051
Wtf、Wf是可训练矩阵;⊙表示Hadamard乘积,表示对应位置元素相乘;bf表示偏置,
Figure FDA0003107022450000052
表示视觉表达
Figure FDA0003107022450000053
中的第i个元素;
遍历所有的视频片段,构成视频片段的跨模态语义集合F=(f1,f2,...,fn);
3.4)将跨模态语义集合F作为第二Bi-GRU网络的输入,学习得到最终的语义表示
Figure FDA0003107022450000054
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si,公式为:
Figure FDA0003107022450000055
其中,σ(·)表示sigmoid激活函数,Wc和bc表示全连接层的网络参数,
Figure FDA0003107022450000056
表示第i个视频片段的跨模态语义表示。
8.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S4具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v1,v2,...,vk};
4.2)计算两两节点之间的相关指数:
Figure FDA0003107022450000057
其中,I(vi,vj)和U(vi,vj)分别是两个候选片段的交集和并集,vi和vj分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k;
4.3)计算两两节点的中心距离:
Figure FDA0003107022450000058
其中,d(vi,vj)是两个候选片段的中心距离,ci,cj分别是vi,vj的中心坐标;
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
e(vi,vj)=θr·r(vi,vj)+θd·d(vi,vj)+θs·cos(vi,vj)
其中,θr、θd、θs是可调节参数,cos(·)表示cos函数;
4.5)设置阈值θα,当e(vi,vj)>θa时,用边连接两个节点,构建无向图G。
9.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S5具体为:
5.1)对无向图G进行K层的图卷积运算:
X(k)=A.X(k-1).W(k)
其中,1≤k≤K,W(k)是第k层的可学习参数,X(k)是候选片段在第k层的隐藏特征,
Figure FDA0003107022450000061
是输入特征,即步骤S4构建的无向图G;
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
X(K)=X(K)||X(0)
其中,||代表级联操作;
5.3)使用全连接层和激活函数计算预测高光片段的索引τ:
τ=softmax(FC(GCN(X(0))))
式中,FC(·)表示全连接层,索引τ=(si,ei),si,ei分别表示预测边界,GCN(·)表示图卷积运算。
10.一种基于权利要求1所述商品感知的多模态视频高光检测方法的检测***,其特征在于,包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
CN202110397055.0A 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其*** Active CN112801762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397055.0A CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397055.0A CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其***

Publications (2)

Publication Number Publication Date
CN112801762A CN112801762A (zh) 2021-05-14
CN112801762B true CN112801762B (zh) 2021-08-03

Family

ID=75816972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397055.0A Active CN112801762B (zh) 2021-04-13 2021-04-13 基于商品感知的多模态视频高光检测方法及其***

Country Status (1)

Country Link
CN (1) CN112801762B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254716B (zh) * 2021-05-26 2022-05-24 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113379786B (zh) * 2021-06-30 2024-02-02 深圳万兴软件有限公司 图像抠图方法、装置、计算机设备及存储介质
CN114332729B (zh) * 2021-12-31 2024-02-02 西安交通大学 一种视频场景检测标注方法及***
CN116567350B (zh) * 2023-05-19 2024-04-19 上海国威互娱文化科技有限公司 全景视频数据处理方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、***及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成***
US20200272856A1 (en) * 2019-02-25 2020-08-27 Walmart Apollo, Llc Systems and methods of personalized product recognition through multi-model image processing
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质
CN112511854A (zh) * 2020-11-27 2021-03-16 刘亚虹 一种直播视频精彩片段生成方法、装置、介质和设备
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576224B2 (en) * 2014-12-31 2017-02-21 TCL Research America Inc. Robust error correction with multi-model representation for face recognition
CN110148043A (zh) * 2019-03-01 2019-08-20 安徽省优质采科技发展有限责任公司 基于知识图谱的招标采购信息推荐***及推荐方法
CN111311364B (zh) * 2020-02-13 2021-10-01 山东大学 基于多模态商品评论分析的商品推荐方法及***
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、***及存储介质
US20200272856A1 (en) * 2019-02-25 2020-08-27 Walmart Apollo, Llc Systems and methods of personalized product recognition through multi-model image processing
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成***
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及***
CN112511854A (zh) * 2020-11-27 2021-03-16 刘亚虹 一种直播视频精彩片段生成方法、装置、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multi-model Organ Segmentation Method Based on Abdominal Ultrasound Image;Li Dandan等;《2020 15th IEEE International Conference on Signal Processing (ICSP)》;20210118;第505-510页 *
面向跨模态商品搜索的深度卷积与特征融合算法研究;汪达舟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181231;第2018年卷(第12期);第I138-1889页 *

Also Published As

Publication number Publication date
CN112801762A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其***
CN108182295B (zh) 一种企业知识图谱属性抽取方法及***
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111291261A (zh) 融合标签和注意力机制的跨领域推荐方法及其实现***
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN112883289B (zh) 一种基于社交信任和标签语义相似度的pmf推荐方法
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN112036276A (zh) 一种人工智能视频问答方法
CN114065048A (zh) 基于多异构图图神经网络的物品推荐方法
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及***
CN118035945B (zh) 一种标签识别模型的处理方法和相关装置
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
Han et al. One-shot video graph generation for explainable action reasoning
Bai et al. Aligned variational autoencoder for matching danmaku and video storylines
Nabati et al. Multimodal video-text matching using a deep bifurcation network and joint embedding of visual and textual features
CN116958740A (zh) 基于语义感知和自适应对比学习的零样本目标检测方法
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN116680578A (zh) 一种基于跨模态模型的深度语义理解方法
CN116467513A (zh) 基于注意力机制的多模态知识图谱推荐方法、装置及介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
Wang et al. Dual-perspective fusion network for aspect-based multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant