CN109874053A - 基于视频内容理解和用户动态兴趣的短视频推荐方法 - Google Patents

基于视频内容理解和用户动态兴趣的短视频推荐方法 Download PDF

Info

Publication number
CN109874053A
CN109874053A CN201910131014.XA CN201910131014A CN109874053A CN 109874053 A CN109874053 A CN 109874053A CN 201910131014 A CN201910131014 A CN 201910131014A CN 109874053 A CN109874053 A CN 109874053A
Authority
CN
China
Prior art keywords
video
user
interest
short
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910131014.XA
Other languages
English (en)
Other versions
CN109874053B (zh
Inventor
金莹莹
许娟
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910131014.XA priority Critical patent/CN109874053B/zh
Publication of CN109874053A publication Critical patent/CN109874053A/zh
Application granted granted Critical
Publication of CN109874053B publication Critical patent/CN109874053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频内容理解和用户动态兴趣的短视频推荐方法,首先利用深度学习技术提取视频的深度视觉特征,从视频中提取音频文件并提取听觉特征;再利用PCA降维和数据标准化等技术将视频特征与社交特征、用户特征进行融合得到深度融合特征用于用户历史行为的特征表示;然后利用自我注意力机制,提取历史行为对当前兴趣的影响,再利用循环神经网络学习对候选视频的兴趣演化路径,得到精准的用户动态兴趣;最后利用多层感知机对视频候选集进行点击概率预测和推荐。本发明实施于短视频的个性化推荐,采用本发明的技术方案,将有效提高推荐的准确度。

Description

基于视频内容理解和用户动态兴趣的短视频推荐方法
技术领域
本发明属于网络视频技术领域,尤其涉及一种基于视频内容理解和用户动态兴趣的短视频推荐方法。
背景技术
随着移动终端的普及和网络的提速,短平快的视频受到各大平台和用户的青睐,短视频平台逐渐崛起,随之而来的是信息过载和个性化需求的问题。海量的视频对视频消费者和视频生产者而言都是巨大的挑战。对视频消费者来说,面临如何从海量视频中找到用户真正感兴趣的视频的困难;对视频供应商来说,面临如何将视频分发给合适的用户的困难。正式这些迫切的需求,使得移动短视频个性化推荐成为了一个热门的研究课题。
应用于个性化推荐的方法包括基于内容的推荐方法、基于协同过滤的推荐方法、混合推荐、基于知识的推荐方法、基于数据挖掘的推荐方法等。
目前,对视频推荐的方法仅考虑用户对视频历史行为的偏好,而不探索视频内容。而移动短视频的个性化推荐与普通资源的个性化推荐相比,存在非结构化的视频信息难以利用的问题。
此外还存在以下几个问题:(1)移动短视频往往没有与视频内容相符的标题、描述等信息;(2)移动短视频的分类仅为粗略类别,难以准确表达用户兴趣;(3)用户反馈数据稀疏。考虑到以上因素,现在急需一种能够实现对视频内容进行理解,进一步捕获用户动态兴趣以实现更精准和个性化的短视频推荐方法。
发明内容
发明目的:针对以上问题,本发明提出一种基于视频内容理解和用户动态兴趣的短视频推荐方法,通过视频内容理解,能对用户动态兴趣进行更精准的捕获,以达到更加精准的个性化推荐,用来弥补现在短视频推荐方案中对视频内容利用的匮乏的问题。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于视频内容理解和用户动态兴趣的短视频推荐方法,包括步骤:
(1)利用深度学习技术提取短视频的多模态特征;
(2)利用PCA降维和数据标准化技术进行将视频特征与社交特征、用户特征进行融合得到深度融合特征;
(3)基于深度融合特征和观影记录,通过自我注意力机制和循环神经网络构建用户动态兴趣模型;
(4)基于用户动态兴趣模型和情景信息,采用多层感知机对候选短视频集实现视频内点击预测与推荐。
进一步地,所述步骤(1)包括:
(1.1)提取短视频关键帧,利用深度学习技术提取视频的视觉特征;
a、利用深度卷积神经网络提取短视频的RGB特征;
b、利用C3D模型提取短视频的运动特征。
(1.2)从视频中提取音频文件,并提取听觉特征。
进一步地,所述步骤(2)具体地,先利用PCA对各个特征进行降维,在保留99%以上的信息,同时减小特征维度;再利用数据标准化,将不同特征映射到同一语义空间中;最后进行拼接融合。
进一步地,所述步骤(3)中用户动态兴趣模型包括兴趣提取层和兴趣演化层:
(3.1)兴趣提取层利用自我注意力机制进行兴趣提取,学习历史行为之间的影响;
(3.2)兴趣演化层利用循环神经网络和注意力机制,对每个候选短视频的兴趣演化过程进行学习。
进一步地,所述步骤(4)具体地,采用多层感知机,判断用户是否对该视频感兴趣,从而完成视频内容点击预测;将候选视频集按照预测点击率排序,将预测点击率高的视频推荐给该用户。
有益效果:本发明在现有对图片及视频特征提取的基础上,实现对视频内容的理解;应用于各短视频分发平台,实现更加精准的个性化推荐,以此提高用户对平台的粘度,提高平台的受益,同时提高用户的体验。
附图说明
图1是基于视频内容理解和用户动态兴趣的短视频推荐方法流程图;
图2是提取视频RGB特征网络结构示意图;
图3是ResNet模块结构示意图;
图4是3D CNN卷积示意图;
图5是用户动态兴趣学习模型。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,本发明所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,具体包括以下步骤:
(1)利用深度学习技术提取短视频的多模态特征,包括视觉特征和听觉特征,用于表征短视频内容;
传统图像特征存在诸多缺陷,如鲁棒性差、表征不够准确等。随着深度学习技术的发展,更具有表征能力和抽象能力的图像特征提取成为可能。
由于短视频时间限制在6秒至300秒之间,短视频通常由较小的微镜头经过剪辑拼接而成。因此短视频的每个帧通常具有高信息内容,甚至可以消除对关键帧或镜头选择等常见的视频预处理步骤的需求。故本发明在为短视频选择关键帧时,先将短视频分割成微镜头,并将每个微镜头中提取第一帧,最后一帧和中间帧作为关键帧。对于超过1秒的微镜头,提取等间距的关键帧,以确保每秒至少包含一个关键帧。
通过提取短视频关键帧,利用深度学习技术提取视频的视觉特征;从视频中提取音频文件,并提取听觉特征。
(1.1)视觉特征的提取;
本发明利用预训练的ResNet模型对短视频的RGB特征进行学习,利用C3D网络对短视频的运动特征进行学习;所提取的深度视觉特征能充分表达视频的场景、对象及行为信息。
a、短视频的RGB特征提取;
本发明利用预训练的ResNet模型对视频的RGB特征进行提取,提取流程如附图2,ResNet中引入残差结构,解决神经网络中的退化问题。残差的结构如附图3所示,残差结构的计算公式:
其中,x代表网络结构的输入,代表卷积层/池化层操作后的输出。
残差结构就是2层或3层输出后加上之前的输入x。增加残差结构后,非但没有增加额外参数和计算复杂度,反而能对更深层网络进行学习。
利用ResNet模型的最后一个全连接层的1000维的向量作为关键帧RGB特征表示,短视频的RGB特征最终由所有关键帧的RGB特征融合而得,融合公式:
其中,代表第i个关键帧的RGB特征,FR代表短视频的RGB特征。
b、短视频的运动特征提取;
本发明利用预训练的3D CNN模型对视频的运动特征进行提取,3D CNN在视频的分类、动作视频等领域发挥着巨大优势。因为3D CNN能够更好地捕捉视频中的时间和空间的特征信息。3D CNN的卷积核操作如附图4所示,附图5所示的3D卷积的时间维度为3,即对连续的3帧图像进行卷积。3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。在这个结构中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,因此能捕捉运动信息。
本发明中,利用3D CNN模型的最后一个全连接层的4096维的向量作为连续关键帧运动特征表示,短视频的运动特征最终由所有连续关键帧的运动特征融合而得,融合公式如下:
其中,代表第i个连续关键帧的运动特征,Fs代表短视频的运动特征。
(1.2)短视频的音频特征提取;
本发明首先将音频文件从视频中分离出,再对其进行MFCC、Audio-Six等20多个听觉特征,听觉特征的融合公式:
FA=concat([FMFCC,FZCR,……])
其中,FMFCC代表梅尔频率倒谱系数的特征表示,FZCR代表过零率的特征表示,省略了其他22个音频特征的表达形式。FA代表短视频的听觉特征。
(2)利用PCA降维和数据标准化等技术进行将视频特征与社交特征、用户特征等进行融合得到深度融合特征;
由于不同特征不能直接进行拼接或相加,会导致训练失败或维度***。故先利用PCA对各个特征进行降维,在保留99%以上信息的同时,减小特征维度;再利用数据标准化,将不同特征映射到同一语义空间中;最后进行拼接融合。融合的公式:
FC=concat(PCA(FV),PCA(FS),PCA(FA),FT,FU)
其中,PCA(Fi)代表经过PCA后的特征表示,FT代表视频的统计特征,如点赞数、转发数等。FU为用户的特征信息,如年龄、性别等。FC代表一个视频的内容特征表示。
(3)基于深度融合特征和观影记录,通过自我注意力机制和循环神经网络构建用户动态兴趣模型;
用深度融合特征表示用户历史行为,即在对视频内容理解的基础上,学习用户真正的兴趣。先利用自我注意力机制,提取历史行为对用户当前兴趣的影响,再利用循环神经网络学习用户对候选视频的兴趣演化路径,得到精准的用户动态兴趣。
(3.1)兴趣提取层;
与以往将视频内容表是直接作为用户兴趣不同,本发明考虑用户历史行为对用户兴趣的影响,故利用自我注意力机制学习历史行为之间的影响关系:
A=softmax(a(S,S))
其中,a(S,S)=SWSTS表示用户u的观看短视频历史行为的特征表示。
(3.2)兴趣演化层;
本发明在对用户历史兴趣进行提取后,再利用循环神经网络对候选视频的兴趣演化过程进行学习。首先是计算候选视频与用户历史兴趣之间的相关度,再利用GRU学习相关兴趣之间的演化过程。下面是相关度的计算公式:
其中,At代表兴趣提取层得到的第t个历史兴趣的特征表示,ea代表第a个候选视频的特征表示,at代表目标视频ea与第t个用户历史兴趣之间的相关度
利用这个相关度,筛选与候选视频相关度高的兴趣,并学习这些兴趣的演化过程。
演化过程如下:
i′t=At*at
ut=σ(Wui′t+UuAt-1+bu)
rt=σ(Wri′t+UrA(t-1)+br)
循环神经网络最后一个时刻的输出即用户当前的兴趣表示。
(4)基于用户动态兴趣模型和情景信息,采用多层感知机对候选短视频集实现视频内点击预测与推荐。
对于用户u,本发明在用户动态兴趣模型基础上,采用多层感知机实现对目标视频点击率的预测,预测概率计算公式如下:
y=σ(W|H|+1aH+b(|H|+1))
其中,σ代表softmax激活函数,|H|表示隐含层的层数,aH表示视频j的隐含表示,y是用户u对视频j预估的点击率。
损失函数如下所示;
本发明最后将候选视频集按照预测点击率排序,将预测点击率高的视频推荐给该用户,从而完成整个个性化视频点击率预测与推荐的流程。

Claims (6)

1.一种基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,包括步骤:
(1)利用深度学习技术提取短视频的多模态特征;
(2)利用PCA降维和数据标准化技术进行将视频特征与社交特征、用户特征进行融合得到深度融合特征;
(3)基于深度融合特征和观影记录,通过自我注意力机制和循环神经网络构建用户动态兴趣模型;
(4)基于用户动态兴趣模型和情景信息,采用多层感知机对候选短视频集实现视频内点击预测与推荐。
2.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,所述步骤(1)包括:
(1.1)提取短视频关键帧,利用深度学习技术提取视频的视觉特征;
(1.2)从视频中提取音频文件,并提取听觉特征。
3.根据权利要求2所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,所述步骤(1.1)包括:
a、利用深度卷积神经网络提取短视频的RGB特征;
b、利用C3D模型提取短视频的运动特征。
4.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,所述步骤(2)具体地,先利用PCA对各个特征进行降维,在保留99%以上的信息,同时减小特征维度;再利用数据标准化,将不同特征映射到同一语义空间中;最后进行拼接融合。
5.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,所述步骤(3)中用户动态兴趣模型包括兴趣提取层和兴趣演化层:
(3.1)兴趣提取层利用自我注意力机制进行兴趣提取,学习历史行为之间的影响;
(3.2)兴趣演化层利用循环神经网络和注意力机制,对每个候选短视频的兴趣演化过程进行学习。
6.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法,其特征在于,所述步骤(4)具体地,采用多层感知机,判断用户是否对该视频感兴趣,从而完成视频内容点击预测;将候选视频集按照预测点击率排序,将预测点击率高的视频推荐给该用户。
CN201910131014.XA 2019-02-21 2019-02-21 基于视频内容理解和用户动态兴趣的短视频推荐方法 Active CN109874053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910131014.XA CN109874053B (zh) 2019-02-21 2019-02-21 基于视频内容理解和用户动态兴趣的短视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910131014.XA CN109874053B (zh) 2019-02-21 2019-02-21 基于视频内容理解和用户动态兴趣的短视频推荐方法

Publications (2)

Publication Number Publication Date
CN109874053A true CN109874053A (zh) 2019-06-11
CN109874053B CN109874053B (zh) 2021-10-22

Family

ID=66919041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910131014.XA Active CN109874053B (zh) 2019-02-21 2019-02-21 基于视频内容理解和用户动态兴趣的短视频推荐方法

Country Status (1)

Country Link
CN (1) CN109874053B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及***
CN110399841A (zh) * 2019-07-26 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111274440A (zh) * 2020-01-19 2020-06-12 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111461235A (zh) * 2020-03-31 2020-07-28 合肥工业大学 音视频数据处理方法、***、电子设备及存储介质
CN111737573A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 资源推荐方法、装置、设备及存储介质
CN111860870A (zh) * 2020-07-29 2020-10-30 北京达佳互联信息技术有限公司 交互行为确定模型的训练方法、装置、设备及介质
CN112040339A (zh) * 2020-08-31 2020-12-04 广州市百果园信息技术有限公司 一种视频数据的制作方法、装置、计算机设备和存储介质
CN112395505A (zh) * 2020-12-01 2021-02-23 中国计量大学 一种基于协同注意力机制的短视频点击率预测方法
CN112541128A (zh) * 2020-09-07 2021-03-23 同济大学 基于特征双向动态协同的个性化新闻推荐方法
CN112749297A (zh) * 2020-03-03 2021-05-04 腾讯科技(深圳)有限公司 视频推荐方法、装置、计算机设备和计算机可读存储介质
CN112804566A (zh) * 2019-11-14 2021-05-14 中兴通讯股份有限公司 节目推荐方法、设备及计算机可读存储介质
CN113158020A (zh) * 2020-01-22 2021-07-23 北京达佳互联信息技术有限公司 视频的推荐方法及装置
CN113268633A (zh) * 2021-06-25 2021-08-17 北京邮电大学 一种短视频推荐方法
CN113761378A (zh) * 2021-09-14 2021-12-07 上海任意门科技有限公司 内容排序方法、计算设备和计算机可读存储介质
CN115065872A (zh) * 2022-06-17 2022-09-16 联通沃音乐文化有限公司 一种影音视频的智能推荐方法及***
CN115994628A (zh) * 2023-03-23 2023-04-21 湖北长江电气有限公司 基于大数据的能源管理方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235313A1 (en) * 2009-03-16 2010-09-16 Tim Rea Media information analysis and recommendation platform
CN105975641A (zh) * 2016-07-15 2016-09-28 合网络技术(北京)有限公司 视频推荐方法及装置
CN106446015A (zh) * 2016-08-29 2017-02-22 北京工业大学 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN106682108A (zh) * 2016-12-06 2017-05-17 浙江大学 一种基于多模态卷积神经网络的视频检索方法
CN106993226A (zh) * 2017-03-17 2017-07-28 深圳市金立通信设备有限公司 一种推荐视频的方法及终端
CN107911719A (zh) * 2017-10-30 2018-04-13 中国科学院自动化研究所 视频动态推荐装置
CN109104620A (zh) * 2018-07-26 2018-12-28 腾讯科技(深圳)有限公司 一种短视频推荐方法、装置和可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235313A1 (en) * 2009-03-16 2010-09-16 Tim Rea Media information analysis and recommendation platform
CN105975641A (zh) * 2016-07-15 2016-09-28 合网络技术(北京)有限公司 视频推荐方法及装置
CN106446015A (zh) * 2016-08-29 2017-02-22 北京工业大学 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN106682108A (zh) * 2016-12-06 2017-05-17 浙江大学 一种基于多模态卷积神经网络的视频检索方法
CN106993226A (zh) * 2017-03-17 2017-07-28 深圳市金立通信设备有限公司 一种推荐视频的方法及终端
CN107911719A (zh) * 2017-10-30 2018-04-13 中国科学院自动化研究所 视频动态推荐装置
CN109104620A (zh) * 2018-07-26 2018-12-28 腾讯科技(深圳)有限公司 一种短视频推荐方法、装置和可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄立威,江碧涛,吕守业,刘艳博,李德毅: "《基于深度学习的推荐***研究综述》", 《计算机学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309360B (zh) * 2019-06-13 2021-09-28 山东大学 短视频标签标注方法及***
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及***
CN110399841A (zh) * 2019-07-26 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110399841B (zh) * 2019-07-26 2022-03-25 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN112804566A (zh) * 2019-11-14 2021-05-14 中兴通讯股份有限公司 节目推荐方法、设备及计算机可读存储介质
CN111274440A (zh) * 2020-01-19 2020-06-12 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN113158020A (zh) * 2020-01-22 2021-07-23 北京达佳互联信息技术有限公司 视频的推荐方法及装置
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN112749297B (zh) * 2020-03-03 2023-07-21 腾讯科技(深圳)有限公司 视频推荐方法、装置、计算机设备和计算机可读存储介质
CN112749297A (zh) * 2020-03-03 2021-05-04 腾讯科技(深圳)有限公司 视频推荐方法、装置、计算机设备和计算机可读存储介质
CN111461235A (zh) * 2020-03-31 2020-07-28 合肥工业大学 音视频数据处理方法、***、电子设备及存储介质
US11335096B2 (en) 2020-03-31 2022-05-17 Hefei University Of Technology Method, system and electronic device for processing audio-visual data
CN111737573A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 资源推荐方法、装置、设备及存储介质
CN111860870A (zh) * 2020-07-29 2020-10-30 北京达佳互联信息技术有限公司 交互行为确定模型的训练方法、装置、设备及介质
CN112040339A (zh) * 2020-08-31 2020-12-04 广州市百果园信息技术有限公司 一种视频数据的制作方法、装置、计算机设备和存储介质
CN112541128B (zh) * 2020-09-07 2022-05-13 同济大学 基于特征双向动态协同的个性化新闻推荐方法
CN112541128A (zh) * 2020-09-07 2021-03-23 同济大学 基于特征双向动态协同的个性化新闻推荐方法
CN112395505B (zh) * 2020-12-01 2021-11-09 中国计量大学 一种基于协同注意力机制的短视频点击率预测方法
CN112395505A (zh) * 2020-12-01 2021-02-23 中国计量大学 一种基于协同注意力机制的短视频点击率预测方法
CN113268633A (zh) * 2021-06-25 2021-08-17 北京邮电大学 一种短视频推荐方法
CN113268633B (zh) * 2021-06-25 2022-11-11 北京邮电大学 一种短视频推荐方法
CN113761378A (zh) * 2021-09-14 2021-12-07 上海任意门科技有限公司 内容排序方法、计算设备和计算机可读存储介质
CN113761378B (zh) * 2021-09-14 2022-04-08 上海任意门科技有限公司 内容排序方法、计算设备和计算机可读存储介质
CN115065872A (zh) * 2022-06-17 2022-09-16 联通沃音乐文化有限公司 一种影音视频的智能推荐方法及***
CN115994628A (zh) * 2023-03-23 2023-04-21 湖北长江电气有限公司 基于大数据的能源管理方法和装置
CN115994628B (zh) * 2023-03-23 2023-07-18 湖北长江电气有限公司 基于大数据的能源管理方法和装置

Also Published As

Publication number Publication date
CN109874053B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN109862391A (zh) 视频分类方法、介质、装置和计算设备
CN111611436B (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
US10671895B2 (en) Automated selection of subjectively best image frames from burst captured image sequences
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及***
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN111143613A (zh) 选择视频封面的方法、***、电子设备与存储介质
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN115129934A (zh) 一种多模态视频理解方法
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索***
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
CN112001279A (zh) 基于双重属性信息的跨模态行人重识别方法
CN115033739A (zh) 搜索方法、模型训练方法、装置、电子设备和介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN117809679A (zh) 一种服务器、显示设备及数字人交互方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116701706A (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN114170540B (zh) 一种融合表情和姿态的个体情绪识别方法
CN114661953B (zh) 视频描述生成方法、装置、设备以及存储介质
CN116628179B (zh) 一种用户操作数据的可视化与人机交互推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant