CN114529757A - 一种跨模态单样本三维点云分割方法 - Google Patents

一种跨模态单样本三维点云分割方法 Download PDF

Info

Publication number
CN114529757A
CN114529757A CN202210083858.3A CN202210083858A CN114529757A CN 114529757 A CN114529757 A CN 114529757A CN 202210083858 A CN202210083858 A CN 202210083858A CN 114529757 A CN114529757 A CN 114529757A
Authority
CN
China
Prior art keywords
point cloud
point
sample
text
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210083858.3A
Other languages
English (en)
Other versions
CN114529757B (zh
Inventor
雷印杰
杨昱威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210083858.3A priority Critical patent/CN114529757B/zh
Publication of CN114529757A publication Critical patent/CN114529757A/zh
Application granted granted Critical
Publication of CN114529757B publication Critical patent/CN114529757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,且公开了一种跨模态单样本三维点云分割方法,首先针对目标场景中的所有类别建立类级别的单一文本描述集,分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中,接着应用双重注意力和自注意力完成模态内的特征交互并设计视觉‑语义变换器结构在统一的空间中对齐模态间的特征,最后构建文本原型并采用非参数化的度量方法来对点云进行逐点匹配,从而完成分割任务。该跨模态单样本三维点云分割方法,数据便于获取,极大减轻人力消耗且迁移扩展能力强,本方法仅通过使用容易获取的单一“类级别”文本描述作为支撑集引导查询点云完成单样本分割,无需大规模点云数据且完全避免对支撑点云的逐点标注。

Description

一种跨模态单样本三维点云分割方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种跨模态单样本三维点云分割方法。
背景技术
近年来,深度学习网络已经在二维图像分类、目标检测、语义分割等诸多任务上取得了巨大的成功,随着3D传感器的快速发展,一些实际的应用(如自动驾驶、机器导航、虚拟/增强现实等)引起了人们更多的关注,三维点云作为一种天然表示物体几何结构的数据形式被广泛应用,对其进行语义分割在现实中起着至关重要的作用,然而当前大部分的分割方法均依赖于全监督框架,它们需要昂贵且难以获得的逐点标注数据用来训练,且由于封闭集假设(Closed Set Assumption),这些方法在推理过程中只适用于可见类的预测,难以推广到新类的分割上,这大大限制了模型的泛化性能,少样本学习(Few-Shot Learning)是一种解决这些问题的有前途的范式,因为其允许仅通过少量标注的样本作为支撑迁移到新类物体的识别上。
当前的少样本学习范式主要包括基于元学习(Meta Learning)和基于度量学习(Metric Learning)的两种框架,在传统的全监督学习框架中,随着数据量和标注的减少,数据将无法涵盖类别的完整分布,从而使得模型的表达能力显著下降,而对于少样本学习,其主要通过应用元学习算法或者非参数化/参数化的度量函数来完成少量数据下的知识迁移,但这些方法主要集中于二维图像的分类或分割任务上,难以处理复杂非规则化的三维点云数据。
最近的一些研究根据三维点云的数据特点设计了一些少样本分割方法,其主要通过学习同一模态的少量支撑样本中点云特征来帮助完成查询点云的识别,尽管这些方法取得了一定的进展,但是它们仍然依靠于完全逐点标注的支撑点云,这依然需要耗费大量的时间和精力,且无法适用于无新类视觉样本或视觉样本无法获得的极端情况下。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种跨模态单样本三维点云分割方法,采用更加容易获得的语义类级别单一文本描述作为支撑来构建情景任务(Episodic Task),以此完成点云细粒度分割,称为跨模态单样本三维点云分割(Cross-Modal One-Shot PointCloud Segmentation,即少样本的支撑集为单一文本描述),本发明将点云和文本嵌入到各自的特征空间,设计跨模态特征增强方法来完成视觉点云和文本特征的模态内交互及模态间对齐,具备提升语义引导的跨模态单样本框架下点云分割模型性能,增强模型仅依靠背景知识对无视觉支撑的新类点云泛化能力等优点,解决了传统少样本学习依靠完全逐点标注支撑点云,且无法适用于无新类视觉样本的极端情况下的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种跨模态单样本三维点云分割方法,所述方法包括:首先针对目标场景中的所有类别建立类级别的单一文本描述集,然后整体采用支撑-查询两分支架构,分别使用不同的嵌入网络将支撑文本和点云映射到各自的特征空间中,接着应用自注意力(针对点云特征)和双重注意力(针对文本特征)完成模态内的特征交互并设计视觉-语义变换器结构(Visual-Semantic Transformer)在统一的空间中对齐模态间的特征,最后构建文本原型(Prototype),并采用非参数化的度量方法来对点云进行逐点匹配,从而完成分割任务,此外,本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估,采用设定的情景式学习范式进行训练,所述跨模态单样本三维点云分割方法的具体步骤如下所示:
S1、针对目标三维点云场景中出现的各个类别构建“类级别”单一描述,用以形成文本支撑集;
S2、构建支撑-查询双分支结构(Two-Branch Structure),采用文本嵌入网络将S1中的支撑文本嵌入到语义特征空间中得到单词特征,应用点云嵌入网络将目标查询点云嵌入到视觉特征空间中获取逐点特征;
S3、对于S2语义特征空间中的单词特征应用双重注意力(Dual-Attention),视觉特征空间中的逐点特征使用自注意力(Self-Attention)以挖掘模态内特征关系,完成特征交互,从而得到交互后的逐点和单词特征,并对交互后的单词特征应用平均池化(MeanPooling)得到类初始原型(包括背景类和前景类);
S4、设计视觉-语义变换器结构(Visual-Semantic Transformer),将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌(Tokens)排列并拼接位置嵌入(Position Embedding)一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐,以消除模态间差异,得到对齐后的点云特征和文本原型;
S5、将S4中得到的查询点云特征与文本原型在相似度度量空间中进行逐点匹配,输出预测类别概率;
S6、构建整体预测损失函数并使用设定的情景式训练(Episodic Training)范式在可见类上对网络参数进行优化,并保存合适的模型参数用于未知类的预测测试;
S7、针对S3中的得到交互后的逐点和单词特征,可不遵循S4、S5操作而直接迁移经典少样本学习中的多种度量学习方法于当前设置框架中用于形成基线,并按照S6构建损失函数进行训练和评估。
优选的,所述S1中的“类级别”单一描述为一到两句英文文本,用来粗略地概括目标类别的基本通用属性(如形状、颜色、位置、用途等)。
优选的,所述S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识,在其后接入双向门控循环单元(Bi-GRU)用于网络微调,以动态学习语义空间。
优选的,所述S3中对单词特征的双重注意力采用位置注意力(PositionAttention)模块紧接自注意力模块构成,位置注意力将全连接层映射后的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘,用于聚焦到重要的单词表示上。
优选的,所述S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌。
优选的,所述S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率。
优选的,所述S7中的迁移的经典度量学习方法包括孪生网络(Siamese Network)、关系网络(Relation Network)、匹配网络(Matching Network)及原型网络(PrototypicalNetwork)。
与现有技术相比,本发明提供了一种跨模态单样本三维点云分割方法,具备以下有益效果:
1、该跨模态单样本三维点云分割方法,数据便于获取,极大减轻人力消耗且迁移扩展能力强,本方法仅通过使用容易获取的单一“类级别”文本描述作为支撑集引导查询点云完成单样本分割,无需大规模点云数据且完全避免对支撑点云的逐点标注,大大节省成本。
2、该跨模态单样本三维点云分割方法,精度高,在不同实验设置下(N-way1-shot,N为2~6),本方法均取得显著优越的性能,2-way、3-way 1-shot设置下,在ScanNet数据集S0及S1划分上的平均mIoU性能分别为51.30和48.29,S3DIS数据集S0及S1划分上平均mIoU性能分别为47.02和43.43,达到与原先使用大量标注的视觉样本作为支撑集方法效果可比甚至更好的结果。
3、该跨模态单样本三维点云分割方法,迁移扩展性强,由于网络采用跨模态单样本学习框架,当出现一个存在新类别的点云场景时,无需视觉样本对模型进行重新训练,仅需类别的单一文本描述作为支撑即可帮助完成推理,具有良好的迁移能力。
4、该跨模态单样本三维点云分割方法,发展前景好,本方法探索了三维视觉点云和文本语义的联合理解以完成对新概念知识的学习,为当前日益进步的机器理解、人机交互等领域研究打下基础,具有广阔的发展空间。
附图说明
图1为本发明原理图;
图2为本发明网络整体图;
图3为本发明步骤流程图;
图4为本发明实验效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,一种跨模态单样本三维点云分割方法,方法包括:首先针对目标场景中的所有类别建立类级别的单一文本描述集,然后整体采用支撑-查询两分支架构,分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中,接着应用自注意力(针对点云特征)和双重注意力(针对文本特征)完成模态内的特征交互并设计视觉-语义变换器结构(Visual-Semantic Transformer)在统一的空间中对齐模态间的特征,最后构建文本原型(Prototype),并采用非参数化的度量方法来对点云进行逐点匹配,从而完成分割任务,此外,本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估,采用设定的情景式学习范式进行训练,跨模态单样本三维点云分割方法的具体步骤如下所示:
S1、针对目标三维点云场景中出现的各个类别构建“类级别”单一描述,用以形成文本支撑集;
S2、构建支撑-查询双分支结构(Two-Branch Structure),采用文本嵌入网络将S1中的支撑文本嵌入到语义特征空间中得到单词特征,应用点云嵌入网络将目标查询点云嵌入到视觉特征空间中获取逐点特征;
S3、对于S2语义特征空间中的单词特征应用双重注意力(Dual-Attention),视觉特征空间中的逐点特征使用自注意力(Self-Attention)以挖掘模态内特征关系,完成特征交互,从而得到交互后的逐点和单词特征,并对交互后的单词特征应用平均池化(MeanPooling)得到类初始原型(包括背景类和前景类);
S4、设计视觉-语义变换器结构(Visual-Semantic Transformer),将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌(Tokens)排列并拼接位置嵌入(Position Embedding)一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐,用以消除模态间差异,得到对齐后的点云特征和文本原型;
S5、将S4中得到的查询点云特征与文本原型在相似度度量空间中进行逐点匹配,输出预测类别概率;
S6、构建整体预测损失函数并使用设定的情景式训练(Episodic Training)范式在可见类上对网络参数进行优化,并保存合适的模型参数用于未知类的预测测试;
S7、针对S3中的得到交互后的逐点和单词特征,可不遵循S4、S5操作而直接迁移经典少样本学习中的多种度量学习方法于当前设置框架中用于形成基线,并按照S6构建损失函数进行训练和评估。
S1中的“类级别”单一描述为一到两句英文文本,用来粗略地概括目标类别的基本通用属性(如形状、颜色、位置、用途等),文本支撑集分为目标类描述构成的前景文本支撑集和剩余类描述构成的背景文本支撑集;S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识,在其后接入双向门控循环单元(Bi-GRU)用于网络微调,以动态学习语义空间,S2中的点云嵌入网络采用DGCNN模型中边缘卷积EdgeConv模块堆叠三层以编码全局特征,并使用多层感知机(Multi-Layer Perceptron)将多层次拼接特征映射入视觉空间,点云嵌入网络需在目标场景上的可见类上进行预训练;S3中对单词特征的双重注意力采用位置注意力(Position Attention)模块紧接自注意力模块构成,位置注意力将全连接层映射后的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘,用于聚焦到重要的单词表示上,自注意力模块同S3中自注意力SA,定义如下式所示:
Figure BDA0003481752050000071
其中Q为查询向量,K为键向量,V为值向量,d为缩放系数,在点云自注意力中Q,K,V均为点特征,单词自注意力中Q,K,V均为单词特征,其将原始输入特征作为残差拼接(对于点云特征)或直接加入(对于单词特征)到最终结果,S3中的类初始原型可表示为
Figure BDA0003481752050000072
(背景原型为
Figure BDA0003481752050000073
和前景原型为
Figure BDA0003481752050000074
);S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌,具体过程如下所示:
Figure BDA0003481752050000075
yl=MLP(Norm(y'l))+y'l, (3)
y'l←Att(Norm(yl-1))+yl-1, (4)
其中G为点云中点数目,W为文本单词数目(填充至同一长度),N为N-way 1-shot设定下的类别数目,
Figure BDA0003481752050000081
为查询点云嵌入特征,背景描述文本的嵌入单词特征为
Figure BDA0003481752050000082
前景描述文本的嵌入单词特征为
Figure BDA0003481752050000083
xpos代表令牌的位置嵌入,Norm表示特征标准化,Att为多头注意力,通过L层变换后,最终得到结果yL,其中对应位置包含对齐后的点云特征
Figure BDA0003481752050000084
和文本原型
Figure BDA0003481752050000085
S3和S4共同组成跨模态特征增强;S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率,计算公式如下所示:
Figure BDA0003481752050000086
其中的α(.,.)表示余弦相似度,
Figure BDA0003481752050000087
代表点云中每一个点属于N+1个类别的概率(N个前景类和1个背景类);S6中的预测损失函数采用交叉熵损失(Cross Entropy Loss),整体损失函数如下式所示:
Figure BDA0003481752050000088
其中M表示M对查询点云,
Figure BDA0003481752050000089
为查询点云中逐点标签值,训练过程中损失将会被最小化用于优化整体网络参数ψ,训练中背景类标签并不反向传播类信息,此外,S6中情景式训练范式不同于经典方法从支撑样本集中随机抽取一个或多个样本以构建一个情景任务(K-Shot设置),该方法对于一个具体的类仅包含一个单独的文本描述,即相同类在不同情景任务中使用同一个文本描述(1-Shot)作为支撑进行训练;S7中的迁移的经典度量学习方法包括孪生网络(Siamese Network)、关系网络(Relation Network)、匹配网络(MatchingNetwork)及原型网络(Prototypical Network),此外可设计微调方法(Fine Tuning),直接拉近预测掩码点云和对应类文本原型特征间距离,并接入分割器完成任务,其中孪生网络使用二值交叉熵损失(Binary Cross Entropy Loss)、关系网络使用均方损失(MeanSquared Loss)、匹配网络和原型网络使用交叉熵损失(Cross Entropy Loss)。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种跨模态单样本三维点云分割方法,所述方法包括:首先针对目标场景中的所有类别建立类级别的单一文本描述集,然后整体采用支撑-查询两分支架构,分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中,接着应用自注意力(针对点云特征)和双重注意力(针对文本特征)完成模态内的特征交互并设计视觉-语义变换器结构(Visual-Semantic Transformer)在统一的空间中对齐模态间的特征,最后构建文本原型(Prototype),并采用非参数化的度量方法来对点云进行逐点匹配,从而完成分割任务,此外,本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估,采用设定的情景式学习范式进行训练,所述跨模态单样本三维点云分割方法的具体步骤如下所示:
S1、针对目标三维点云场景中出现的各个类别构建“类级别”单一描述,用以形成文本支撑集;
S2、构建支撑-查询双分支结构(Two-Branch Structure),采用文本嵌入网络将S1中的支撑文本嵌入到语义特征空间中得到单词特征,应用点云嵌入网络将目标查询点云嵌入到视觉特征空间中获取逐点特征;
S3、对于S2语义特征空间中的单词特征应用双重注意力(Dual-Attention),视觉特征空间中的逐点特征使用自注意力(Self-Attention)以挖掘模态内特征关系,完成特征交互,从而得到交互后的逐点和单词特征,并对交互后的单词特征应用平均池化(MeanPooling)得到类初始原型(包括背景类和前景类);
S4、设计视觉-语义变换器结构(Visual-Semantic Transformer),将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌(Tokens)排列并拼接位置嵌入(Position Embedding)一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐,用以消除模态间差异,得到对齐后的点云特征和文本原型;
S5、将S4中得到的查询点云特征与文本原型在相似度度量空间中进行逐点匹配,输出预测类别概率;
S6、构建整体预测损失函数并使用设定的情景式训练(Episodic Training)范式在可见类上对网络参数进行优化,并保存合适的模型参数用于未知类的预测测试;
S7、针对S3中的得到交互后的逐点和单词特征,可不遵循S4、S5操作而直接迁移经典少样本学习中的多种度量学习方法于当前设置框架中用于形成基线,并按照S6构建损失函数进行训练和评估。
2.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S1中的“类级别”单一描述为一到两句英文文本,用来粗略地概括目标类别的基本通用属性(如形状、颜色、位置、用途等)。
3.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识,在其后接入双向门控循环单元(Bi-GRU)用于网络微调,以动态学习语义空间。
4.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S3中对单词特征的双重注意力采用位置注意力(Position Attention)模块紧接自注意力模块构成,位置注意力将全连接层映射的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘,用于聚焦到重要的单词表示上。
5.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌。
6.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率。
7.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S6中的预测损失函数采用交叉熵损失(Cross Entropy Loss)。
8.根据权利要求1所述的一种跨模态单样本三维点云分割方法,其特征在于:所述S7中的迁移的经典度量学习方法包括孪生网络(Siamese Network)、关系网络(RelationNetwork)、匹配网络(Matching Network)及原型网络(Prototypical Network)。
CN202210083858.3A 2022-01-21 2022-01-21 一种跨模态单样本三维点云分割方法 Active CN114529757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083858.3A CN114529757B (zh) 2022-01-21 2022-01-21 一种跨模态单样本三维点云分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083858.3A CN114529757B (zh) 2022-01-21 2022-01-21 一种跨模态单样本三维点云分割方法

Publications (2)

Publication Number Publication Date
CN114529757A true CN114529757A (zh) 2022-05-24
CN114529757B CN114529757B (zh) 2023-04-18

Family

ID=81621021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083858.3A Active CN114529757B (zh) 2022-01-21 2022-01-21 一种跨模态单样本三维点云分割方法

Country Status (1)

Country Link
CN (1) CN114529757B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311274A (zh) * 2022-10-11 2022-11-08 四川路桥华东建设有限责任公司 一种基于空间变换自注意力模块的焊缝检测方法及***
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
DE102018128531A1 (de) * 2018-11-14 2020-05-14 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN111968121A (zh) * 2020-08-03 2020-11-20 电子科技大学 一种基于实例嵌入与语义融合的三维点云场景分割方法
CN112037228A (zh) * 2020-11-05 2020-12-04 中南大学 一种基于双倍注意力的激光雷达点云目标分割方法
CN112233124A (zh) * 2020-10-14 2021-01-15 华东交通大学 基于对抗式学习与多模态学习的点云语义分割方法及***
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN113177555A (zh) * 2021-05-21 2021-07-27 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113393474A (zh) * 2021-06-10 2021-09-14 北京邮电大学 一种基于特征融合的三维点云的分类和分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
DE102018128531A1 (de) * 2018-11-14 2020-05-14 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN111968121A (zh) * 2020-08-03 2020-11-20 电子科技大学 一种基于实例嵌入与语义融合的三维点云场景分割方法
CN112233124A (zh) * 2020-10-14 2021-01-15 华东交通大学 基于对抗式学习与多模态学习的点云语义分割方法及***
CN112037228A (zh) * 2020-11-05 2020-12-04 中南大学 一种基于双倍注意力的激光雷达点云目标分割方法
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN113177555A (zh) * 2021-05-21 2021-07-27 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113393474A (zh) * 2021-06-10 2021-09-14 北京邮电大学 一种基于特征融合的三维点云的分类和分割方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAO LIU等: "Semantic Context Encoding for Accurate 3D Point Cloud Segmentation" *
MINGTAO FENG等: "Point attention network for semantic segmentation of 3D point clouds" *
XU WANG等: "Attention Models for Point Clouds in Deep Learning: A Survey" *
YINJIE LEI等: "Hierarchical Paired Channel Fusion Network for Street Scene Change Detection" *
文沛等: "基于深度学习的点云分类方法综述" *
王雨: "面向自动驾驶场景的高效实时语义分割方法研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN115761222B (zh) * 2022-09-27 2023-11-03 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN115311274A (zh) * 2022-10-11 2022-11-08 四川路桥华东建设有限责任公司 一种基于空间变换自注意力模块的焊缝检测方法及***
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及***
CN117315030B (zh) * 2023-10-18 2024-04-16 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及***

Also Published As

Publication number Publication date
CN114529757B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN114529757B (zh) 一种跨模态单样本三维点云分割方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
JP7167216B2 (ja) 画像質問応答方法、装置、コンピュータ装置、媒体およびプログラム
RU2767162C2 (ru) Сверточная нейронная сеть на основе октодерева
WO2022100379A1 (zh) 基于图像和三维模型的物体姿态估计方法、***及介质
CN109492666A (zh) 图像识别模型训练方法、装置及存储介质
WO2022001805A1 (zh) 一种神经网络蒸馏方法及装置
WO2023236977A1 (zh) 一种数据处理方法及相关设备
CN115457531A (zh) 用于识别文本的方法和装置
WO2022001724A1 (zh) 一种数据处理方法及装置
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
Chuang et al. Deep learning‐based panoptic segmentation: Recent advances and perspectives
CN112906517B (zh) 一种自监督的幂律分布人群计数方法、装置和电子设备
Liu et al. Attention-embedding mesh saliency
CN113159053A (zh) 图像识别方法、装置及计算设备
Fang et al. A Small Network MicronNet‐BF of Traffic Sign Classification
CN117173445A (zh) 一种超图卷积网络和对比学习的多视图三维物体分类方法
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN115982363A (zh) 基于提示学习的小样本关系分类方法、***、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant