CN114283315A - 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 - Google Patents

一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN114283315A
CN114283315A CN202111565805.7A CN202111565805A CN114283315A CN 114283315 A CN114283315 A CN 114283315A CN 202111565805 A CN202111565805 A CN 202111565805A CN 114283315 A CN114283315 A CN 114283315A
Authority
CN
China
Prior art keywords
rgb
fusion
modal
features
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111565805.7A
Other languages
English (en)
Inventor
段松松
夏晨星
黄荣梅
孙延光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202111565805.7A priority Critical patent/CN114283315A/zh
Publication of CN114283315A publication Critical patent/CN114283315A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,提供了一种基于交互式引导注意力和梯形金字塔融合的RGB‑D显著性目标检测方法,包括以下步骤:1)获取训练和测试该任务的RGB‑D数据集,并定义本发明的算法目标;2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器;3)建立跨模态特点融合网络,通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合;4)构建超大规模的感受野融合机制,以增强多模态特征的高级语义信息;5)建立梯形金字塔特征融合网络为基础的解码器以生成显著图Pest;6)预测的显著图Pest与人工标注的显著目标分割图PGT计算损失;7)对测试数据集进行测试,生成显著图Ptest,并使用评价指标进行性能评估。

Description

一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著 性目标检测方法
技术领域:
本发明涉及计算机视觉和图像处理领域,特别地涉及一种基于交互式 引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法。
背景技术:
显著性目标检测旨在通过模拟人类视觉注意机制从给定的数据(如RGB图片、RGB-D图片、视频等)中,定位出最引人注目的目标或者区域。而最近几年,显著性目标检测由于其广泛的应用得到了快速发展,在许多计算机视觉领域得到显著应用,比如图像检索,视频分割,语义分割,视频跟踪,人物重建,缩略图创建和质量评估等等。
由于单一的模态的RGB显著性目标检测算法在面对一些具有挑战性的场景(例如,复杂背景、显著目标与背景高度相似、低对比度场景等等)下,难以准确和完整地从背景中定位出显著目标。因此,为了解决这个问题,将深度(Depth)图像引入到显著性目标检测,通过联合RGB图像和Depth图像相结合构成了RGB-D进行显著性目标检测。
由于Depth Map能够提供许多有用的信息,诸如比如空间结构, 3D分布,目标边缘等信息。将Depth图引入到SOD任务中,能够帮助SOD模型处理诸如复杂背景、低对比度、显著目标与背景外形相似等具有挑战性的场景。因此,如何利用Depth Map辅助 RGB-D显著性目标检测模型精确定位显著目标至关重要。此前的 RGB-D显著性目标检测方法大多将DepthMap作为独立于RGB图像的数据流,单独提取特征,或者将Depth图像作为RGB图像的第四个通道输入进RGB-D显著性检测模型,该类方法无差别地对待RGB图像和Depth图像,忽略了一个事实:RGB图像和Depth图像中,不同区域所携带的显著信息是有着巨大的差异,并且RGB图像和Depth图像对显著目标的信息的表示方面也存在着差异。
考虑到RGB图像数据和Depth图像数据之间存在跨模态数据的二义性问题,本发明尝试探索一种发高效的跨模态特征融合方法,并利用跨模态融合方法有效消除跨模态数据之间的二义性问题。此外,为了进一步探索多尺度特征之间的联系和协作机制,利用多尺度的特征信息有效的提升模型检测的性能,并且可以兼顾高级语义信息和低级的细节信息,从到可以达到感知显著性目标的边缘细节和整体完整性。本发明通过进一步挖掘特征金字塔在多尺度特征融合方面的作用,帮助显著性检测模型更加准确地预测出显著目标。
发明内容:
针对以上提出的问题,本发明提供一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,具体采用的技术方案如下:
1.获取训练和测试该任务的RGB-D数据集。
1.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集,将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、 SIP数据集、STERE数据集和SSD数据集作为测试集。
1.2)RGB-D图像数据集,包括单幅RGB图像PRGB、对应的Depth 图像PDepth和对应的人工标注的显著目标分割图像PGT
2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络;
2.1)利用VGG16作为本发明的模型的主干网络,用于提取RGB 图像特征和因对的Depth图像特征,分别为
Figure BDA0003417611270000031
Figure BDA0003417611270000032
Figure BDA0003417611270000033
2.2)本发明采用ImageNet数据集预训练的VGG16参数权重初始化本发明的用于构建主干网络的VGG16权重。
3.基于步骤2所提取到的多尺度RGB图像特征
Figure BDA0003417611270000034
Figure BDA0003417611270000035
和对应的Depth图像特征
Figure BDA0003417611270000036
进行多尺度的跨模态特征交互式融合,并利用该交互融合构建一个跨模态特征融合网络用于生成多模态特征。
3.1)跨模态特征融合网络由5个层次的CMAF模块已经5个层次的RGB图像特征
Figure BDA0003417611270000037
和对应的Depth图像特征
Figure BDA0003417611270000038
Figure BDA0003417611270000039
构成,并生成5个层次的多模态特征
Figure BDA00034176112700000310
Figure BDA00034176112700000311
Figure BDA00034176112700000312
3.2)第i层次的CMAF模块的输入数据为
Figure BDA00034176112700000313
Figure BDA00034176112700000314
构成,并通过交互式引导的注意力机制生成第i层次的多模态特征
Figure BDA00034176112700000315
其中i∈{1,2,3,4,5}。
3.3)CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下:
3.3.1)首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息,增强特征的显著性的表达能力,通过该残差卷积模块,可以进一步增强RGB图像特征和对应的Depth图像特征。
3.3.2)进一步利用元素感知的矩阵相乘操作和元素感知的矩阵相加操作融合RGB图像特征和对应的Depth图像特征,然后利用 softmax激活函数将融合后的特征转化为全局上下文感知的注意力权重Ws和通道感知注意力权重Wc
Figure BDA0003417611270000041
Figure BDA0003417611270000042
其中,Resconv表示残差卷积模块,multi表示元素感知的矩阵乘操作,add表示元素感知的矩阵加操作,GAP表示全局平均池化, softmax表示softmax激活函数。
3.3.3)在获得全局上下文感知的注意力权重Ws和通道感知注意力权重Wc之后,我们将Ws和Wc分别与增强之后的RGB图像特征和对应的Depth图像特征相结合,利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域,得到过滤之后的多模态特征:
Figure BDA0003417611270000043
Figure BDA0003417611270000044
其中,α∈{r,d},通过上述操作可以获得经过过滤之后的RGB图像特征
Figure BDA0003417611270000045
和对应的Depth图像特征
Figure BDA0003417611270000046
3.3.4)通过交叉交互式融合方法,融合跨模态特征,RGB图像特征
Figure BDA0003417611270000051
和对应的Depth图像特征
Figure BDA0003417611270000052
得到融合特征
Figure BDA0003417611270000053
Figure BDA0003417611270000054
其中,i∈{1,2,3,4,5}表示特征所在模型的层次,conv3表示卷积核大小为3×3的卷积操作,cat表示特征连接操作。
4)通过上述操作,提取到5个层次的多模态特征
Figure BDA0003417611270000055
Figure BDA0003417611270000056
Figure BDA0003417611270000057
并将这5个层次输入到密度空洞卷积模块,通过多层级的空洞卷积操作增强多模态特征的感受野信息和高级语义信息。
4.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
Figure BDA0003417611270000058
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,
Figure BDA0003417611270000059
Figure BDA00034176112700000510
分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
4.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
Figure BDA00034176112700000511
其中,TPNet表示梯形金字塔特征融合网络。
5)将步骤4所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中,得到最终的融合特征,在经过sigmoid函数激活,得到预测的显著图Pest
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(7)
6)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性目标检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用MAE、S-measure、 F-measure、E-measure评价指标进行评估。
本发明基于深度卷积神经网络实现的多模态显著性目标检测,利用Depth图像中的丰富的空间结构信息,并与RGB图像提取的Depth 特征进行交互引导注意力方式的跨模态特征融合,能够适应不同场景下的显著目标检测的要求,特别在一些具有挑战性场景下(复杂背景、低对比度、透明物体等),本发明能够具有一定的鲁棒性。相比较之前的RGB-D显著性目标检测方法,本发明具有以下收益:
首先,利用深度学习技术,通过编码器和解码器结构构建RGB-D 图像对和图像显著目标之间的关系,并通过跨模态特征的提取和融合,得到显著性预测。
其次,通过一种交互式融合的方式,有效调制Depth图像特征对于RGB图像特征的补充信息,并利用其本身具备的深度分布信息指导跨模态的特征融合,排除RGB图像中的背景信息的干扰,为下一阶段的显著目标的预测打好基础。
最后,通过构建的梯形金字塔特征融合网络进行多尺度的多模态特征融合,预测最终的显著图。
附图说明
图1为本发明的模型结构示意图
图2为跨模态特征融合模块示意图
图3为超大规模感受野融合模块示意图
图4为梯形金字塔特征融合网络(TPNet)示意图
图5为模型训练和测试示意图
图6为本发明与其他RGB-D显著性目标检测方法的结果对比图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实例仅仅是本发明一部分实例,而不是所有的实例。基于本发明中的实例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例,都属于本发明保护范围。
参考附图1,一种基于交互式引导注意力和梯形金字塔融合的 RGB-D显著性目标检测方法主要包含以下步骤:
1.获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集。将NJUD 数据集、NLPR数据集和DUT-RGBD数据集作为训练集,余下数据集作为测试集,包括SIP数据集、剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、STERE数据集和SSD数据集。
2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络,包括用于提取RGB图像特征的 RGB编码器和用于提取Depth图像特征的Depth编码器:
2.1.将带有三通道的RGB图像输入到RGB编码器,生成5个层次的RGB图像特征,分别是
Figure BDA0003417611270000081
Figure BDA0003417611270000082
2.2.将三通道的Depth图像输入到Depth编码器中,生成5个层次的Depth图像特征,分别是
Figure BDA0003417611270000083
Figure BDA0003417611270000084
3.参考附图2所示,通过跨模态融合模块将步骤2所生成的5 个层次的RGB图像特征
Figure BDA0003417611270000085
和Depth图像特征
Figure BDA0003417611270000086
Figure BDA0003417611270000087
进行交互式融合,得到5个层次的多模态特征
Figure BDA0003417611270000088
Figure BDA0003417611270000089
Figure BDA00034176112700000810
主要步骤如下所示:
3.1.跨模态特征融合网络由5个层次的CMAF模块构成,已经 5个层次的RGB图像特征
Figure BDA00034176112700000811
和对应的Depth图像特征
Figure BDA00034176112700000812
构成,并生成5个层次的多模态特征
Figure BDA00034176112700000813
Figure BDA00034176112700000814
Figure BDA00034176112700000815
3.2.第i层次的CMAF模块的输入数据为
Figure BDA00034176112700000816
Figure BDA00034176112700000817
构成,并通过交互式引导的注意力机制输出第i层次的多模态特征
Figure BDA00034176112700000818
其中 i∈{1,2,3,4,5}。
3.3.CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下:
3.3.1.首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息,增强特征的显著性的表达能力,通过该残差卷积模块,可以进一步增强RGB图像特征和对应的Depth图像特征。
3.3.2.进一步利用元素感知的矩阵乘操作和元素感知的矩阵加操作融合RGB图像特征和对应的Depth图像特征,然后利用softmax 激活函数将融合后的特征转化为全局上下文感知的注意力权重Ws和通道感知注意力权重Wc
Figure BDA0003417611270000091
Figure BDA0003417611270000092
其中,Resconv表示残差卷积模块,multi表示元素感知的矩阵乘操作,add表示元素感知的矩阵加操作,GAP表示全局平均池化, softmax表示softmax激活函数。
3.3.3.在获得全局上下文感知的注意力权重Ws和通道感知注意力权重Wc之后,我们将Ws和Wc分别与增强之后的RGB图像特征和对应的Depth图像特征相结合,利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域,得到过滤之后的多模态特征:
Figure BDA0003417611270000093
Figure BDA0003417611270000094
其中,α∈{r,d},通过上述操作可以获得经过过滤之后的RGB图像特征
Figure BDA0003417611270000095
和对应的Depth图像特征
Figure BDA0003417611270000096
3.3.4.通过交叉交互式融合方法,融合跨模态特征,RGB图像特征
Figure BDA0003417611270000097
和对应的Depth图像特征
Figure BDA0003417611270000098
得到融合特征
Figure BDA0003417611270000099
Figure BDA00034176112700000910
其中,i∈{1,2,3,4,5}表示特征所在模型的层次,conv3表示卷积核大小为3×3的卷积操作,cat表示特征连接操作。
4.参考附图3,利用超大规模的感受野融合模块增强多模态特征的感受野信息和高级语义信息:
4.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
Figure BDA0003417611270000101
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,
Figure BDA0003417611270000102
Figure BDA0003417611270000103
分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
4.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
Figure BDA0003417611270000104
其中,TPNet()表示梯形金字塔特征融合网络。
5.参考附图4,将梯形金字塔本发明提出的算法的解码器,将5 个层次的多模态增强特征f1、f2、f3、f4和f5输入到解码器中,再经过sigmoid函数激活,得到预测的显著图Pest
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(7)
6)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用MAE、S-measure、 F-measure、E-measure评价指标进行评估。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。

Claims (5)

1.一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于,该方法包括一下步骤:
1)获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;
2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器;
3)建立跨模态特点融合网络,通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合;
4)基于上述的跨模态特征融合成的多模态特征,构建超大规模的感受野融合机制,以增强多模态特征的感受野信息和高级语义信息;
5)建立以梯形金字塔特征融合网络为基础的解码器,并通过激活函数得到最终的预测到的显著图;
6)预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用评价指标进行性能评估。
2.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤2)具体方法是:
2.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集,将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、SIP数据集、STERE数据集和SSD数据集作为测试集。
2.2)RGB-D图像数据集包括单幅RGB图像PRGB、对应的Depth图像PDepth和对应的人工标注的显著目标分割图像PGT
3.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤3)具体方法是:
3.1)利用VGG16作为本发明的模型的主干网络,用于提取RGB图像特征和因对的Depth图像特征,分别为
Figure FDA0003417611260000021
Figure FDA0003417611260000022
Figure FDA0003417611260000023
3.2)采用在ImageNet数据集上预训练好的VGG16参数权重初始化本发明的用于构建主干网络的VGG16权重。
4.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤4)具体方法是:
4.1)跨模态特征融合网络由5个层次的CMAF模块构成,并生成5个层次的多模态特征
Figure FDA0003417611260000024
Figure FDA0003417611260000025
4.2)第i层次的CMAF模块的输入数据为
Figure FDA0003417611260000026
Figure FDA0003417611260000027
构成,并通过交互式引导的注意力机制输出第i层次的多模态特征
Figure FDA0003417611260000028
其中i∈{1,2,3,4,5}。
5.根据权利要求1所述的基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤5)具体方法是:
5.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
Figure FDA0003417611260000031
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,
Figure FDA0003417611260000032
Figure FDA0003417611260000033
分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
5.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
Figure FDA0003417611260000034
其中,TPNet()表示梯形金字塔特征融合网络。
6)将步骤5所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中,得到最终的融合特征,在经过sigmoid函数激活,得到预测的显著图Pest
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(3)
7)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
CN202111565805.7A 2021-12-17 2021-12-17 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 Pending CN114283315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565805.7A CN114283315A (zh) 2021-12-17 2021-12-17 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565805.7A CN114283315A (zh) 2021-12-17 2021-12-17 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN114283315A true CN114283315A (zh) 2022-04-05

Family

ID=80873250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565805.7A Pending CN114283315A (zh) 2021-12-17 2021-12-17 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN114283315A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082553A (zh) * 2022-08-23 2022-09-20 青岛云智聚智能科技有限公司 一种物流包裹位置检测方法及***
CN115439726A (zh) * 2022-11-07 2022-12-06 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及存储介质
CN117854009A (zh) * 2024-01-29 2024-04-09 南通大学 一种交叉协作融合的轻量化跨模态人群计数方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082553A (zh) * 2022-08-23 2022-09-20 青岛云智聚智能科技有限公司 一种物流包裹位置检测方法及***
CN115439726A (zh) * 2022-11-07 2022-12-06 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及存储介质
CN117854009A (zh) * 2024-01-29 2024-04-09 南通大学 一种交叉协作融合的轻量化跨模态人群计数方法

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN113240691B (zh) 一种基于u型网络的医学图像分割方法
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及***
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN113284100B (zh) 基于恢复图像对混合域注意力机制的图像质量评价方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114283316A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN113033454B (zh) 一种城市视频摄像中建筑物变化的检测方法
CN111275784A (zh) 生成图像的方法和装置
CN111783557B (zh) 一种基于深度视觉的可穿戴导盲设备及服务器
CN113435269A (zh) 一种基于YOLOv3改进的水面漂浮物检测与识别方法及***
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及***
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114299305B (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及***
CN114926734A (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination