CN112801762B - 基于商品感知的多模态视频高光检测方法及其*** - Google Patents
基于商品感知的多模态视频高光检测方法及其*** Download PDFInfo
- Publication number
- CN112801762B CN112801762B CN202110397055.0A CN202110397055A CN112801762B CN 112801762 B CN112801762 B CN 112801762B CN 202110397055 A CN202110397055 A CN 202110397055A CN 112801762 B CN112801762 B CN 112801762B
- Authority
- CN
- China
- Prior art keywords
- graph
- video
- commodity
- nodes
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 230000008447 perception Effects 0.000 title claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 25
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000004220 aggregation Methods 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- AWKLBIOQCIORSB-UHFFFAOYSA-N etamiphylline Chemical group CN1C(=O)N(C)C(=O)C2=C1N=CN2CCN(CC)CC AWKLBIOQCIORSB-UHFFFAOYSA-N 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于商品感知的多模态视频高光检测方法及其***,属于视频高光检测领域。首先,分别进行视频预处理和文本预处理,通过视频预处理得到视频片段的自注意力语义表示,通过文本预处理获取视频标题、商品标签以及商品名称的词特征,构建并更新得到最终图,获取句法感知的文本信息表示;然后,两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。本发明通过将商品名称、标签和视频标题作为监督元素加入模型中,检测精度更高。
Description
技术领域
本发明涉及视频高光检测领域,尤其涉及一种基于商品感知的多模态视频高光检测方法及其***。
背景技术
在电子商务中,介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中,通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者,从而提高产品的点击率。然而,目前的研究方法应用于实际场景的效果并不令人满意。与其他视频理解任务相比,视频高光检测相对抽象和主观,只有利用视觉信息才能做出准确的判断。
视频高光检测算法一般分为无监督方法和监督方法。无监督技术通过手动获取的特性或规则创建视频高光。无监督的视频高光检测方法可以进一步分为领域无关或领域特定的方法。领域无关的方法提出在任何视频上均匀工作的运动强度作为弱监督信号。领域特定的方法针对主题领域定制亮点,并利用视频持续时间和视觉共现作为弱监督信号。然而,没有引入监督信号,高光检测的结果并不令人满意。
除了视觉信息,高度抽象的视频标题可以帮助检测视频高光,传统的有监督方法多为单模态方法,无法充分利视频相关信息的问题,因此有必要提供一种多模态视频高光检测任务,将视频相关语言信息引入到监督信号中。
发明内容
为了解决现有技术中的无监督方法无法准确定位高光片段以及单模态方法无法充分利视频相关信息的问题,本发明提出了一种基于商品感知的多模态视频高光检测方法及其***。
本发明基于电子商务场景,将商品的名字、标签和视频的题目作为监督元素加入模型中,得出的高光检测方法可以更好的检测出视频中的片段,相对于人工标注大大节约了时间,相对于无监督方法和单模态方法,可以更加准确的检测出高光片段。
为了实现上述目的,本发明采用的技术方案为:
一种基于商品感知的多模态视频高光检测方法,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示hv;
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图和商品名称图建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl;
将属性感知的商品名称图Gcl转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示其中,下角标m表示最终图Gt中的边的个数,表示最终图中第i个边的最终表达;
S3:结合视频片段的句法感知的文本信息表示ht和自注意力语义表示hv,利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达融合后得到跨模态语义表示f=(f1,f2,…,fn),其中,fi表示第i个视频片段对应的跨模态语义表示;
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引τ=(si,ei),si,ei分别为预测的时间边界,输出索引对应的高光片段。
本发明的有益效果为:
1、本发明将视频与商品辅助信息进行融合,将多模态商品高光检测任务引入电子商务场景,解决了电子商务场景中多模态视频高光检测问题,降低了手动标注高光片段的人工成本。
2、本发明提出了一种融合多源自然语言信息的图聚合方法,在方法中同时引入了视频标题、商品标签、商品名称这三种自然语言信息,构建商品名称图和视频标题图,可同时利用多源信息提高高光检测准确率。
3、本发明提出了一种新颖的多模态融合方法,将文本信息和图片信息进行融合,可以同时将多模态信息加入考量,生成更有吸引力的高光剪辑片段,进一步提高视频推荐的性能。
附图说明
图1是本实施例所使用的基于商品感知的多模态视频高光检测方法示意图。
图2为图聚合模块的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做更进一步地描述。此外,本发明中所描述的实施例仅仅是作为一部分的实施例,而不是全部的实施例。
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明提出的基于商品感知的多模态视频高光检测方法通过一个共同注意力模块连接了两个分支,其中一个分支用于获取视频片段的自注意力语义表示,另一个分支基于图聚合模块用于获取句法感知的文本信息表示;两者通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;最后,通过置信度筛选出候选片段来构建无向图,利用图卷积网络从无向图中预测出最终的高光索引。
基本步骤可以分为:
步骤一、将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示Hv;
步骤二、提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图和商品名称图建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl;
将属性感知的商品名称图Gcl转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示其中,下角标m表示最终图Gt中的边的个数,表示最终图中第i个边的最终表达;
步骤三、结合视频片段的句法感知的文本信息表示ht和自注意力语义表示hv,利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达融合后得到跨模态语义表示f=(f1,f2,…,fn),其中,fi表示第i个视频片段对应的跨模态语义表示;
步骤四、基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
步骤五、对无向图G进行图卷积,预测高光片段索引τ=(si,ei),si,ei分别为预测的时间边界,输出索引对应的高光片段。
在本发明的具体实施中,步骤一为视频的预处理过程,具体为:
1.2)提取每一个视频片段的帧特征vi,构成帧特征集v=(v1,v2,…,vn),其中,vi表示第i个视频片段的帧特征;本实施例中,可以利用预训练的Two-Stream Inflflated 3DConvNets提取视频片段的帧特征。
其中,和分别是第一Bi-GRU网络的前馈网络和反馈网络,Wv是可训练矩阵,表示第i个视频片段的自注意力语义表示,表示的前向语义特征,表示的后向语义特征,f(·)表示tanh激活函数,||表示将前后的语义特征进行拼接,b表示偏置;在初始化时,令
在本发明的具体实施中,步骤二中,基于图聚合模块用于获取句法感知的文本信息表示,具体为:
b)利用查询焦点图聚合模块获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl:
其中,Nq表示商品属性列表中的词特征个数,表示商品属性列表中的第i个词特征,ql′表示平均池化后的词特征;gj为对应于图中第j个节点的临时变量,bg、bq、be表示偏置,Wg、Wq、We是可训练的矩阵,ρ代表sigmoid函数,表示商品名称图中的第j个节点,表示中间图的第j个节点。
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
其中,oi,j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,oi,k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,Wo、Wa表示可训练矩阵,b0表示偏置;表示归一化后的注意力,Ne表示图的节点数,表示更新后的图中的第i个节点。
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图Gcl。
所述的图神经网络GCN用于给节点之间的边打上标签,计算过程为:
其中,和是用于打标签的模型参数,是最终图Gt中的第i个节点及其相邻节点集合,是最终图Gt中的第j个节点在第tk层的特征表达,是最终图Gt中的第i个节点在第tk+1层的特征表达,f(·)表示图神经网络GCN的运算,表示i、j两个节点在第tk层基于门限机制的值。
同理,针对视频标题图首先将商品属性列表通过全局平均池化获得查询的全局表示ql′,使用ql′更新视频标题图中的节点,获得中间图;之后,使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,即属性感知的视频标题图ttl。
进一步的,将属性感知的商品名称图Gcl转换为属性感知的商品标题列表Ql=linear(Gcl),采用步骤2.2)至2.4)的方法,将商品标题列表Ql=linear(Gcl)和属性感知的视频标题图Gtl作为查询焦点图聚合模块的输入,得到最终图Gt。
在本发明的具体实施中,步骤三将前两个步骤获得的结果通过共同注意力模块融合得到跨模态语义集合,使用含有sigmoid函数的全连接层计算每一个视频片段的置信度,具体为:
3.1)建立共同注意力模块,给定一个查询和一组键值对,协同注意机制根据查询和键的兼容性函数计算加权和,两个模态特征交替作为查询。查询,键和值分别用Q、K、V表示,皆为向量集,将其组合为矩阵,通过下面公式得到放缩点积自注意力:
表示为:
其中,Q、K和V分别表示查询、键和值,Attention(·)表示放缩点积自注意力,dk表示注意力参数,上角标T表示转置。
其中,Wq,Wk,Wv是可学习矩阵,FFt(·)是一个线性变换的前馈模块,使用LayerNorm来稳定训练,LayerNorm(·)表示归一化。
遍历所有的视频片段,构成视频片段的跨模态语义集合F=(f1,f2,…,fn)。
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si,公式为:
在本发明的具体实施中,步骤四基于图的微调模块,利用步骤S3中置信度最高的k个片段构建无向图G,具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v1,v2,…,vk}。
4.2)计算两两节点之间的相关指数:
其中,I(vi,vj)和U(vi,vj)分别是两个候选片段的交集和并集,vi和vj分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k。
4.3)计算两两节点的中心距离:
其中,d(vi,vj)是两个候选片段的中心距离,ci,cj分别是vi,vj的中心坐标。
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
e(vi,vj)=θr·r(vi,vj)+θd·d(vi,vj)+θs·cos(vi,vj)
其中,θr、θd、θs是可调节参数,cos(·)表示cos函数。
4.5)设置阈值θα,当e(vi,vj)>θa时,用边连接两个节点,构建无向图G。
在本发明的具体实施中,步骤五利用图卷积网络从无向图中预测出最终的高光索引,具体为:
5.1)对无向图G进行K层的图卷积运算:
X(k)=A·X(k-1)·W(k)
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
X(K)=X(K)||X(0),
其中,||代表级联操作。
5.3)使用全连接层和激活函数计算预测高光片段的索引τ:
τ=softmax(FC(GCN(X(0))))
式中,FC(·)表示全连接层,索引τ=(si,ei),si,ei分别表示预测边界,GCN(·)表示图卷积运算。
本实施例中,结合回归损失和高光聚合损失,以端到端的方式训练参数。
其中,R(x)为smooth L1函数,的计算公式与连接指数的计算公式相同,k为视频候选片段的候选数量,vi为第i个视频片段的帧特征,表示实际高光片段,Lreg为回归损失,Larg为高光聚合损失。两损失值可以直接相加或者通过权重系数相加作为最终损失。
本实施例中,上述中存在可训练参数的模块或算法均需要训练,采用上述中的端到端训练方式,训练好的模型可以依据步骤一至五的顺序来获取视频的高光片段。
与前述的基于商品感知的多模态视频高光检测方法的实施例相对应,本申请还提供了一种基于商品感知的多模态视频高光检测***的实施例,其包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
关于上述实施例中的***,其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于***实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为置信度计算单元,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
在本发明的一项具体实施中,介绍了文本预处理过程。
使用Jieba中文分词器,移除文本中的标点并标记句子。每一个商品的名称、视频名称和商品的标签分别不超过20,20和15字,超过的文本将会被截短。再通过预训练的Chinese word2vec embedding Roberta提取文本中的词特征。
在本发明的一项具体实施中,介绍了视频预处理过程。
将每一帧的大小调节为112×112,并使用Two-Stream Inflflated 3D ConvNets从未剪辑过的视频中提取视觉特征。将连续的128帧定义为一个初始候选片段,每个单元与相邻单元重叠24帧。将各个单元输入预训练的3D-ConvNet获得,每个单元都获得一个4096维的特征。
在本发明的一项具体实施中,介绍了模型参数的设置。
在每一个时间步中使用多尺度窗口,在重叠阈值为0.2,窗口宽度为128的情况下采样k个候选时刻。
将Bi-GRU的隐藏状态维度设置为512(一个方向256),多头自注意模块和双线性融合中线性矩阵的维数也设为512。在训练中使用adam优化器最小化多任务损失,并将学习率设置为0.001。将模型中的隐藏层的维度设置为128,卷积层的核大小设置为7,多头注意力模块的头大小为设置为8。在构建图时将θr,θd,θs全部设置为1,θα设置为1.5,将损失参数alpha设置为0.1。
本发明使用了TaoHighlight数据集中化妆品、头发产品、美食产品、玩具产品、运动产品进行训练和验证。具体实施步骤同上,不再赘述。
该数据集中的每一个视频都有其对应的商品标签、视频标题、商品名称。商品标签包括商品的种类和商家给商品打上的标签。在每一个大类中,都有3000个视频,每个视频都是当天在淘宝平台该类中点击次数最多的商品,每一个视频的长度在1到3分钟之间。
评估指标:
采用“R@n,IoU=μ”作为评估指标。“R@n,IoU=μ”表示当IoU值为μ时,在选择出来的最佳n个候选片段中,与实际高光片段的IoU值大于μ的比例。mIoU是所有测试样例的IoU的平均值。
表1展现的是本发明和其他诸多模型之间的比较:
VH-GNN提出了一种视频高光框架来构造一个对象感知图,并从全局视图对对象之间的关系进行建模,这是当前单模态视频高亮检测较好的模型,但该模型再电子商务环境中无法使用更多相关模态的信息,导致模型效果较差。
Tao-GNN利用图形神经网络(GNN)在淘宝电商平台上建立视频高光在线预测模型。该方法使用全部视频帧建立图,并使用GNN提取特征。然后通过滑动窗口得到时长五秒的候选段,并通过建立图提取相应的特征。最后,该模型产生对齐分数和位置偏移。该模型同样没有将电子商务中多模态的有用信息引入模型中,并且图神经网络更新节点的隐藏状态是低效的,在迭代中使用相同的参数,更新节点隐藏状态是时序的。
表1
Method | IoU=0.1 | IoU=0.3 | IoU=0.5 | IoU=0.7 |
VH-GNN | 23.1 | 19.1 | 9.9 | 9.7 |
Tao-base | 16.3 | 12.1 | 8.6 | 2.1 |
Tao-GNN | 20.3 | 12.4 | 11.3 | 3.4 |
VSL | 32.3 | 22.4 | 15.6 | 11.3 |
本发明 | 55.6 | 41.4 | 26.3 | 15.6 |
可以清晰的看出,相对于别的模型,本发明在四种IoU等级下的表象均好于其余四种模型。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种基于商品感知的多模态视频高光检测方法,其特征在于,包括如下步骤:
S1:将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
S2:提取一段视频的视频标题、商品标签以及商品名称的词特征,通过沿相关词间的依赖边传递信息,构建视频标题图和商品名称图;建立商品属性列表,利用查询焦点图聚合模块分别获得属性感知的商品名称图和属性感知的视频标题图;
将属性感知的商品名称图转换为商品属性列表,利用查询焦点图聚合模块获得最终图,利用图神经网络获得最终图的边,将边的最终表达作为句法感知的文本信息表示;
S3:结合视频片段的句法感知的文本信息表示和自注意力语义表示,利用共同注意力模块分别获得句法感知的视觉表达和句法感知的语义表达,融合后得到跨模态语义表示;
采用Bi-GRU网络学习得到最终的语义表示,然后使用含有sigmoid函数的全连接层计算每一个视频片段的置信度;
S4:基于图的微调模块,利用步骤S3中置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
S5:对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
2.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S1具体为:
1.2)提取每一个视频片段的帧特征vi,构成帧特征集v=(v1,v2,…vi…,vn),其中,vi表示第i个视频片段的帧特征;
4.根据权利要求3所述的基于商品感知的多模态视频高光检测方法,其特征在于,利用查询焦点图聚合模块获得属性感知的商品名称图Gcl和属性感知的视频标题图Gtl;所述的查询焦点图聚合模块的计算过程如下:
其中,Nq表示商品属性列表中的词特征个数,表示商品属性列表中的第i个词特征,ql′表示平均池化后的词特征;gj为对应于图中第j个节点的临时变量,bg、bq、be表示偏置,Wg、Wq、We是可训练的矩阵,ρ代表sigmoid函数,表示商品名称图中的第j个节点,表示中间图的第j个节点;
2.3)使用节点级加性注意力机制和线性同义词库的加权来融合图的特征,公式为:
其中,oi,j表示商品属性列表中的第i个词特征与中间图的第j个节点的注意力,oi,k表示商品属性列表中的第i个词特征与中间图的第k个节点的注意力,Wo、Wa表示可训练矩阵,b0表示偏置;表示归一化后的注意力,Ne表示图的节点数,表示更新后的图中的第i个节点;
2.4)遍历图中所有的节点,由更新后的所有节点构成具有词库查询注意特征的图结构,利用图神经网络GCN来确定图结构的边,得到属性感知的商品名称图Gcl;
7.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S3具体为:
3.1)建立共同注意力模块,表示为:
其中,Q、K和V分别表示查询、键和值,Attention(·)表示放缩点积自注意力,dk表示注意力参数,上角标T表示转置;
其中,Wq,Wk,Wv是可学习矩阵,FFt(·)是一个线性变换的前馈模块,使用LayerNorm来稳定训练,LayerNorm(·)表示归一化;
遍历所有的视频片段,构成视频片段的跨模态语义集合F=(f1,f2,...,fn);
3.5)使用含有sigmoid函数的全连接层计算每一个视频片段的置信度si,公式为:
8.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S4具体为:
4.1)筛选出步骤S3中置信度最高的k个片段作为候选片段,将候选片段的帧特征作为图中节点{v1,v2,...,vk};
4.2)计算两两节点之间的相关指数:
其中,I(vi,vj)和U(vi,vj)分别是两个候选片段的交集和并集,vi和vj分别表示第i个和第j个候选片段的帧特征,i≠j且i≤k,j≤k;
4.3)计算两两节点的中心距离:
其中,d(vi,vj)是两个候选片段的中心距离,ci,cj分别是vi,vj的中心坐标;
4.4)根据相关指数和中心距离,计算两两节点之间的连接指数:
e(vi,vj)=θr·r(vi,vj)+θd·d(vi,vj)+θs·cos(vi,vj)
其中,θr、θd、θs是可调节参数,cos(·)表示cos函数;
4.5)设置阈值θα,当e(vi,vj)>θa时,用边连接两个节点,构建无向图G。
9.根据权利要求1所述的基于商品感知的多模态视频高光检测方法,其特征在于,步骤S5具体为:
5.1)对无向图G进行K层的图卷积运算:
X(k)=A.X(k-1).W(k)
5.2)在每一层卷积运算后添加激活函数,并将最后一层的隐藏特征和输入层的特征拼接起来:
X(K)=X(K)||X(0),
其中,||代表级联操作;
5.3)使用全连接层和激活函数计算预测高光片段的索引τ:
τ=softmax(FC(GCN(X(0))))
式中,FC(·)表示全连接层,索引τ=(si,ei),si,ei分别表示预测边界,GCN(·)表示图卷积运算。
10.一种基于权利要求1所述商品感知的多模态视频高光检测方法的检测***,其特征在于,包括:
预处理单元,其用于将一段视频划分为部分重叠的视频片段,提取每一段视频片段的帧特征,并采用Bi-GRU网络学习视频片段的自注意力语义表示;
图聚合单元,其用于构建初始的视频标题图和商品名称图,并基于查询焦点图聚合模块获得最终图,将最终图的边表达作为句法感知的文本信息表示;
置信度计算单元,其用于计算视频片段的自注意力语义表示和句法感知的文本信息表示的跨模态语义表示,并利用Bi-GRU网络学习得到最终的语义表示,通过含有sigmoid函数的全连接层计算每一个视频片段的置信度;
图微调单元,其用于筛选置信度最高的k个片段作为图中节点,计算图中两两节点之间的连接指数,当连接指数大于阈值时,用边连接两个节点,形成无向图G;
预测单元,其用于对无向图G进行图卷积,预测高光片段索引并输出索引对应的高光片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397055.0A CN112801762B (zh) | 2021-04-13 | 2021-04-13 | 基于商品感知的多模态视频高光检测方法及其*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397055.0A CN112801762B (zh) | 2021-04-13 | 2021-04-13 | 基于商品感知的多模态视频高光检测方法及其*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801762A CN112801762A (zh) | 2021-05-14 |
CN112801762B true CN112801762B (zh) | 2021-08-03 |
Family
ID=75816972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110397055.0A Active CN112801762B (zh) | 2021-04-13 | 2021-04-13 | 基于商品感知的多模态视频高光检测方法及其*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801762B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254716B (zh) * | 2021-05-26 | 2022-05-24 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、电子设备和可读存储介质 |
CN113379786B (zh) * | 2021-06-30 | 2024-02-02 | 深圳万兴软件有限公司 | 图像抠图方法、装置、计算机设备及存储介质 |
CN114332729B (zh) * | 2021-12-31 | 2024-02-02 | 西安交通大学 | 一种视频场景检测标注方法及*** |
CN116567350B (zh) * | 2023-05-19 | 2024-04-19 | 上海国威互娱文化科技有限公司 | 全景视频数据处理方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、***及存储介质 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN111488807A (zh) * | 2020-03-29 | 2020-08-04 | 复旦大学 | 基于图卷积网络的视频描述生成*** |
US20200272856A1 (en) * | 2019-02-25 | 2020-08-27 | Walmart Apollo, Llc | Systems and methods of personalized product recognition through multi-model image processing |
CN111783709A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学技术大学 | 针对教育视频的信息预测方法及装置 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质 |
CN112511854A (zh) * | 2020-11-27 | 2021-03-16 | 刘亚虹 | 一种直播视频精彩片段生成方法、装置、介质和设备 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9576224B2 (en) * | 2014-12-31 | 2017-02-21 | TCL Research America Inc. | Robust error correction with multi-model representation for face recognition |
CN110148043A (zh) * | 2019-03-01 | 2019-08-20 | 安徽省优质采科技发展有限责任公司 | 基于知识图谱的招标采购信息推荐***及推荐方法 |
CN111311364B (zh) * | 2020-02-13 | 2021-10-01 | 山东大学 | 基于多模态商品评论分析的商品推荐方法及*** |
CN112232925A (zh) * | 2020-11-02 | 2021-01-15 | 哈尔滨工程大学 | 一种融合知识图谱对商品进行个性化推荐的方法 |
-
2021
- 2021-04-13 CN CN202110397055.0A patent/CN112801762B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、***及存储介质 |
US20200272856A1 (en) * | 2019-02-25 | 2020-08-27 | Walmart Apollo, Llc | Systems and methods of personalized product recognition through multi-model image processing |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN111488807A (zh) * | 2020-03-29 | 2020-08-04 | 复旦大学 | 基于图卷积网络的视频描述生成*** |
CN111783709A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学技术大学 | 针对教育视频的信息预测方法及装置 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及*** |
CN112511854A (zh) * | 2020-11-27 | 2021-03-16 | 刘亚虹 | 一种直播视频精彩片段生成方法、装置、介质和设备 |
Non-Patent Citations (2)
Title |
---|
A Multi-model Organ Segmentation Method Based on Abdominal Ultrasound Image;Li Dandan等;《2020 15th IEEE International Conference on Signal Processing (ICSP)》;20210118;第505-510页 * |
面向跨模态商品搜索的深度卷积与特征融合算法研究;汪达舟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181231;第2018年卷(第12期);第I138-1889页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801762A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其*** | |
CN108182295B (zh) | 一种企业知识图谱属性抽取方法及*** | |
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN111291261A (zh) | 融合标签和注意力机制的跨领域推荐方法及其实现*** | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN112883289B (zh) | 一种基于社交信任和标签语义相似度的pmf推荐方法 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN114065048A (zh) | 基于多异构图图神经网络的物品推荐方法 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及*** | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN116976505A (zh) | 基于信息共享的解耦注意网络的点击率预测方法 | |
Han et al. | One-shot video graph generation for explainable action reasoning | |
Bai et al. | Aligned variational autoencoder for matching danmaku and video storylines | |
Nabati et al. | Multimodal video-text matching using a deep bifurcation network and joint embedding of visual and textual features | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
CN117033804A (zh) | 一种主客观视角引导下的点击诱导检测方法 | |
CN116680578A (zh) | 一种基于跨模态模型的深度语义理解方法 | |
CN116467513A (zh) | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN116403608A (zh) | 基于多标签纠正和时空协同融合的语音情感识别方法 | |
Wang et al. | Dual-perspective fusion network for aspect-based multimodal sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |