CN113034592A - 基于自然语言描述的三维场景目标检测建模及检测方法 - Google Patents

基于自然语言描述的三维场景目标检测建模及检测方法 Download PDF

Info

Publication number
CN113034592A
CN113034592A CN202110251422.6A CN202110251422A CN113034592A CN 113034592 A CN113034592 A CN 113034592A CN 202110251422 A CN202110251422 A CN 202110251422A CN 113034592 A CN113034592 A CN 113034592A
Authority
CN
China
Prior art keywords
target
graph
dimensional
candidate frame
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110251422.6A
Other languages
English (en)
Other versions
CN113034592B (zh
Inventor
冯明涛
张亮
朱光明
宋娟
沈沛意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110251422.6A priority Critical patent/CN113034592B/zh
Publication of CN113034592A publication Critical patent/CN113034592A/zh
Application granted granted Critical
Publication of CN113034592B publication Critical patent/CN113034592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自然语言描述的三维场景目标检测的建模及检测方法。方法包括:①设计语言先验图网络,用于将生成的名词短语及关系短语进行图表示;②构建点云场景中三维目标化外接候选框初始化预测网络;③基于语言先验图更新后的名词短语特征进行引导,对三维目标初始化候选框进行冗余裁剪及更新;④构建三维目标候选框视觉关系图网络;⑤基于更新后的名词短语特征和关系短语特征,分别与视觉关系图的节点和边进行相似性得分匹配,定位最终的三维目标。本发明通过构建语言先验图和视觉关系图,高效地捕获全局上下文依赖关系,同时还开发了交叉跨模态的图匹配策略,避免增加计算量的同时有效地提升大规模三维点云场景的目标定位精度。

Description

基于自然语言描述的三维场景目标检测建模及检测方法
技术领域
本发明属于人工智能与计算机视觉领域,具体涉及一种基于自然语言描述的三维场景目标检测建模及检测方法。
背景技术
近年来,随着激光雷达和深度相机等的广泛应用,移动机器人可以更好地获得工作场景的三维信息,基于深度学***。依据自然语言描述进行三维点云目标定位存在如何抽象出自由式语言描述关系特征、如何跨模态地对自然语言和三维点云信息进行融合处理等问题。
目前基于文本语言描述引导的三维点云目标检测方法只提取语言描述的全局特征,忽略了自由式语言描述中长距离名词的上下文关系,且没有深度融合跨语言和三维点云模态之间的抽象信息,限制了三维目标定位精度,制约了移动机器人以更智能的方式理解人类自然语言并执行相应的后续任务。
发明内容
本发明的目的在于提供一种基于自然语言描述的三维场景目标检测建模及检测方法,用以解决现有技术中的三维目标定位精度不足的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于自然语言描述的三维场景目标检测建模方法,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
所述的图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
进一步的,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
更进一步的,所述的损失函数为:
Figure BDA0002966224790000041
其中
Figure BDA0002966224790000042
为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,
Figure BDA0002966224790000043
为目标候选框更新中候选框偏移量计算的损失,
Figure BDA0002966224790000044
为图匹配最终目标定位中边的相似性得分计算的损失,
Figure BDA0002966224790000045
为图匹配的相似性得分计算的损失,Ldet为三维目标候选框初始化的损失,τ1234为加权系数且取值范围均为0-1。
一种基于自然语言描述的三维场景目标检测方法,包括如下步骤:
步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入任一种基于自然语言描述的三维场景目标检测建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
本发明与现有技术相比具有以下技术特点:
(1)本发明通过对自由式自然语言描述进行针对性的解析,利用解析得到的名词短语和关系短语构建自然语言先验图网络,通过基于注意力机制的特征更新策略,有效地提取自然语言描述中的目标信息及关系信息,克服了现有技术中对复杂语言描述无法提取长距离上下文信息的问题,使得本发明具有能够更好地理解自然语言描述,进而为目标的定位提供准确的引导先验信息的优点。
(2)本发明通过自然语言描述引导从复杂三维点云场景中定位出目标物体,利用自然语言先验图的节点特征作为先验进行目标候选框的冗余裁剪及更新,有效提升了初始化目标候选框的精度,客服了现有技术中视觉场景图构建中由于冗余造成的运算量大且候选框精度低的问题,使得本发明具有能够建立具有更强特征表示能力的三维目标视觉场景图的优点。
(3)本发明基于自然语言先验图的节点和边特征与三维目标视觉场景图进行相似性匹配,有效突破了自然语言和三维点云的跨模态特征域差异的瓶颈,克服了现有技术中无法深度融合自然语言和三维点云的多模态特征问题,使得本发明具有能够基于对自然语言的理解在三维点云场景中精准地定位到目标物体的优点。
附图说明
图1是基于自然语言描述引导的三维场景目标定位方法的整体框架;
图2是自然语言先验图的更新示意图;
图3是三维目标视觉场景图的更新示意图;
图4是三维场景目标定位结果示意图。
具体实施方式
首先对本发明中出现的技术词语进行解释:
临近节点:邻近节点是指与某一节点存在边的所有节点。
PointNet++:主干点云特征提取网络,在不同尺度提取点云局部特征,通过包含下采样和上采样的多层网络结构得到点云深层特征。该网络的出处为:Qi C R,Yi L,Su H,etal.PointNet++deep hierarchical feature learning on point sets in a metricspace[C]//Proceedings of the 31st International Conference on NeuralInformation Processing Systems.2017:5105-5114.
VoteNet:投票策略,该策略通过主干点云网络PointNet++传递输入点云之后,对一组种子点进行采样,并根据它们的特征生成投票,投票的目标是到达目标中心,投票集群出现在目标中心附近,然后可以通过一个学习模块进行聚合,生成初始化候选框集合。该策略的出处为:Qi C R,Litany O,He K,et al.Deep hough voting for 3d objectdetection in point clouds[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2019:9277-9286.
相似性匹配:比较两个特征的相似性,将两个特征输入到卷积网络中运算,得到一个概率值,根据概率值的大小设定阈值判断二者相似性。
注意力机制:计算某一指定特征与其它所有特征的关系,这个关系是用归一化的权重值表示,然后将其它所有特征与它们对应权重值相乘后再相加,用来更新某一指定特征。注意力机制的出处为:Vaswani A,Shazeer N,Parmar N,et al.Attention is all youneed[C]//Proceedings of the 31st International Conference on NeuralInformation Processing Systems.2017:6000-6010.
最小联合区域:能够同时包含两个候选框最小外接框区域。
偏移量:候选框表示为中心坐标、长宽高和位姿角度,偏移量是指在中心坐标、长宽高和位姿角度上的偏移值,然后与原始值相加,得到更新后的候选框。
多层感知机:用[1,1]大小的卷积核去做多层卷积操作,用来做特征提取。
在本实施例中公开了一种图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
三维场景点云与步骤1的自然语言描述相关是指:一条自然语言描述所描述的对象在空间上处于一个三维场景中,称该条自然语言描述和该三维场景所对应的三维场景点云相关。
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
在本实施例中还公开了一种基于自然语言描述的三维场景目标检测建模方法,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为三维场景目标检测模型。
具体的,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
具体的,步骤三训练时网络的损失函数为:
Figure BDA0002966224790000091
其中
Figure BDA0002966224790000092
为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,
Figure BDA0002966224790000093
为目标候选框更新中候选框偏移量计算的损失,
Figure BDA0002966224790000094
为图匹配最终目标定位中边的相似性得分计算损失,
Figure BDA0002966224790000095
为图匹配最终目标定位中节点的相似性得分计算损失,Ldet为三维目标候选框初始化网络的损失,τ1234为平衡损失项的加权系数且取值范围为0-1。
在本实施例中还公开了一种基于自然语言描述的三维场景目标检测方法,包括如下步骤:
步骤a:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤b:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入三维场景目标检测模型中得到目标候选框。
实施例1
在本实施例中公开了一种图网络构建方法,在上述实施例的基础上,还公开了如下技术特征,该方法包括如下子步骤:
步骤a:输入为三维场景的自然语言描述Q,通过离线语言解析器解析出名词短语
Figure BDA0002966224790000096
和关系短语
Figure BDA0002966224790000097
并使用双向GRU分别编码得到名词短语特征表示
Figure BDA0002966224790000098
和关系短语特征表示
Figure BDA0002966224790000099
i、j、N为正整数,N为名词短语的总数;
步骤b:以名词短语P为节点并以关系短语R为边建立语言场景图
Figure BDA0002966224790000101
关联名词短语特征
Figure BDA0002966224790000102
为节点特征,并关联关系短语特征
Figure BDA0002966224790000103
为边特征;
步骤c:通过注意力机制聚合所有与指定名词短语节点存在边的邻近节点和边的特征来更新每个名词短语节点pi,得到具有全局上下文感知能力的节点名词短语特征
Figure BDA0002966224790000104
基于更新后的每一对存在边的名词短语节点<pi,pj>,通过名词对短语特征与原来边特征相加,得到更新后的边特征
Figure BDA0002966224790000105
步骤d:输入随机采样后的三维点云场景
Figure BDA0002966224790000106
其中sq为第q个点的x,y,z三维坐标,fq为第q个点的r,g,b颜色信息,q、Q为正整数,Q为三维点云场景中点的总数;
步骤e:采用PointNet++作为主干点云特征提取网络,并用VoteNet的投票策略生成初始化候选框集合
Figure BDA0002966224790000107
om表示为{cx,cy,cz,lx,ly,lz},其中(cx,cy,cz)为外接框中心坐标,(lx,ly,lz)为外接框在三个坐标轴方向的长度,m、M为正整数,M为初始化候选框的总数;
在本实施例中设置VoteNet的投票策略中的参数为256,则得到包含256个候选框的初始化候选框集合,候选框就类似一个只有骨架的长方体,它用来表示三维点云场景中物体的最小外接空间。候选框本身一般用中心点的坐标和长宽高来表示,而候选框内会包含有它所含空间内目标的三维点,这些所包含目标的三维点特征通常默认用来表示候选框的特征向量,同时用来表示候选框的坐标和长宽高可以提取得到候选框的空间特征向量。
步骤f:采用平均池化法为每个候选框提取特征向量
Figure BDA0002966224790000108
编码每个候选框相对三维点云空间的位置得到空间特征向量
Figure BDA0002966224790000109
步骤g:级联特征向量
Figure BDA00029662247900001010
和空间特征向量
Figure BDA00029662247900001011
并经过多层感知机运算得到每个候选框的目标特征
Figure BDA0002966224790000111
D为每个候选框的目标特征的维数且D为正整数。
步骤h:对每个名词短语和候选框计算相似性匹配得分
Figure BDA0002966224790000112
具体的,所述的相似性匹配得分采用如下方法计算:
Figure BDA0002966224790000113
其中
Figure BDA0002966224790000114
为两层全连接网络。
步骤i:使用名词短语特征
Figure BDA0002966224790000115
和候选框目标特征
Figure BDA0002966224790000116
回归每个候选框的偏移量
Figure BDA0002966224790000117
步骤j:依据相似性匹配得分
Figure BDA0002966224790000118
为每个名词短语选K(K>>M)个得分最高的候选框,对K个候选框分别依据其对应的偏移量进行更新。
步骤k:获取每个名词短语节点pi对应更新后的候选框集
Figure BDA0002966224790000119
所有的候选框集
Figure BDA00029662247900001110
提取每个候选框目标oi,k的特征表示
Figure BDA00029662247900001111
表示图的节点特征;
步骤l:如果一组候选框<oi,k,oj,l>存在关系短语rij,则定义存在边ui,j,k,l,其中,oj,l表示第j个名词短语pj的第l个目标候选框,oi,k表示第i个名词短语pi的第k个目标候选框,所有边的集合
Figure BDA00029662247900001112
使用平均池化法提取视觉特征
Figure BDA00029662247900001113
对<oi,k,oj,l>取最小联合区域,编码最小联合区域的的几何特征
Figure BDA00029662247900001114
级联
Figure BDA00029662247900001115
Figure BDA00029662247900001116
表示边特征
Figure BDA00029662247900001117
步骤m:构建三维目标候选框视觉关系图
Figure BDA00029662247900001118
通过注意力机制聚合所有邻近节点和边的特征来更新每个节点oi,k,得到具有全局上下文感知能力的节点特征
Figure BDA00029662247900001119
在本实施例中还公开了一种三维场景目标检测模型建立方法,在上述实施例的基础上还公开了如下特征:
步骤三进行训练时,每次迭代训练的过程中还包括如下操作:
步骤A:基于已经构建的语言先验图
Figure BDA0002966224790000121
和三维目标视觉关系图
Figure BDA0002966224790000122
对每一个名词短语节点和目标候选框节点计算图匹配得分φi,k,对语言先验图边和三维目标视觉关系图边计算图性匹配得分φi,j,k,l
分别计算的这两组图匹配得分,取边图匹配得分中值最高所对应的目标候选框关系边,该关系边连接有两个目标候选框节点,依据节点图匹配得分,选取这两个节点中值最高即目标候选框。根据目标候选框与真实目标候选框计算损失,更新模型参数;
具体的,图匹配得分采用如下式结构化预测方法计算得到:
Figure BDA0002966224790000123
Figure BDA0002966224790000124
其中β为平衡名词短语和关系得分的权重系数,优选的,在本实施例中β=0.7。
步骤B:分配给每一个名词短语和候选框目标组一个二进制变量λi,k={0,1},用来表示候选框目标oi,k是否为自然语言描述中名词短语pi所指的目标物体,其中
Figure BDA0002966224790000125
具体的,在本实施例中τ1=0.1,τ2=1,τ3=1,τ4=0.1。
实施例2
如图3所示,构建三维目标候选框视觉关系图
Figure BDA0002966224790000126
通过注意力机制聚合所有邻近节点和边的特征来更新每个节点oi,k,得到具有全局上下文感知能力的节点特征
Figure BDA0002966224790000127
如图3所示,为语言先验图2中的每个名词节点对应选取得分排名前25的候选框,作为三维目标候选框视觉关系图的节点,分别为oi,k,其中i=1,2,3,k=1,…,25。依据语言先验图中边的存在规律,为存在关系的每对三维目标候选框节点构建边ui,j,k,l,其中i=1,2,3,j=1,2,3,k=1,…,25,l=1,…,25。构建得到三维目标候选框视觉关系图,通过注意力机制聚合所有存在边的邻近节点和边的特征来更新每个节点,基于更新后的每一对存在边的节点,通过节点特征与原来边特征相加,得到更新后的边特征。

Claims (4)

1.基于自然语言描述的三维场景目标检测建模方法,其特征在于,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
所述的图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
2.如权利要求1所述的基于自然语言描述的三维场景目标检测建模方法,其特征在于,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
3.如权利要求2所述的基于自然语言描述三维场景目标检测的建模方法,其特征在于,所述的损失函数为:
Figure FDA0002966224780000031
其中
Figure FDA0002966224780000032
为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,
Figure FDA0002966224780000033
为目标候选框更新中候选框偏移量计算的损失,
Figure FDA0002966224780000034
为图匹配最终目标定位中边的相似性得分计算的损失,
Figure FDA0002966224780000035
为图匹配的相似性得分计算的损失,Ldet为三维目标候选框初始化的损失,τ1234为加权系数且取值范围均为0-1。
4.基于自然语言描述的三维场景目标检测方法,其特征在于,包括如下步骤:
步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入权利要求1-3中任一种基于自然语言描述的三维场景目标检测的建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
CN202110251422.6A 2021-03-08 2021-03-08 基于自然语言描述的三维场景目标检测建模及检测方法 Active CN113034592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110251422.6A CN113034592B (zh) 2021-03-08 2021-03-08 基于自然语言描述的三维场景目标检测建模及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110251422.6A CN113034592B (zh) 2021-03-08 2021-03-08 基于自然语言描述的三维场景目标检测建模及检测方法

Publications (2)

Publication Number Publication Date
CN113034592A true CN113034592A (zh) 2021-06-25
CN113034592B CN113034592B (zh) 2021-08-31

Family

ID=76467037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110251422.6A Active CN113034592B (zh) 2021-03-08 2021-03-08 基于自然语言描述的三维场景目标检测建模及检测方法

Country Status (1)

Country Link
CN (1) CN113034592B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657478A (zh) * 2021-08-10 2021-11-16 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN114842313A (zh) * 2022-05-10 2022-08-02 北京易航远智科技有限公司 基于伪点云的目标检测方法、装置、电子设备和存储介质
CN117475089A (zh) * 2023-12-27 2024-01-30 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111192270A (zh) * 2020-01-03 2020-05-22 中山大学 一种基于点全局上下文关系推理的点云语义分割方法
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN111814658A (zh) * 2020-07-07 2020-10-23 西安电子科技大学 基于语义的场景语义结构图检索方法
CN112395954A (zh) * 2020-10-23 2021-02-23 长沙理工大学 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别***
CN112446259A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
CN112446259A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111192270A (zh) * 2020-01-03 2020-05-22 中山大学 一种基于点全局上下文关系推理的点云语义分割方法
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN111814658A (zh) * 2020-07-07 2020-10-23 西安电子科技大学 基于语义的场景语义结构图检索方法
CN112395954A (zh) * 2020-10-23 2021-02-23 长沙理工大学 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657478A (zh) * 2021-08-10 2021-11-16 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN113657478B (zh) * 2021-08-10 2023-09-22 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN114842313A (zh) * 2022-05-10 2022-08-02 北京易航远智科技有限公司 基于伪点云的目标检测方法、装置、电子设备和存储介质
CN114842313B (zh) * 2022-05-10 2024-05-31 北京易航远智科技有限公司 基于伪点云的目标检测方法、装置、电子设备和存储介质
CN117475089A (zh) * 2023-12-27 2024-01-30 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件
CN117475089B (zh) * 2023-12-27 2024-03-29 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件

Also Published As

Publication number Publication date
CN113034592B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113034592B (zh) 基于自然语言描述的三维场景目标检测建模及检测方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
US10019629B2 (en) Skeleton-based action detection using recurrent neural network
US20220414911A1 (en) Three-dimensional reconstruction method and three-dimensional reconstruction apparatus
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及***
CN105701502B (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN107944559B (zh) 一种实体关系自动识别方法及***
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN110378281A (zh) 基于伪3d卷积神经网络的组群行为识别方法
CN106909877A (zh) 一种基于点线综合特征的视觉同时建图与定位方法
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别***及方法
CN110334584B (zh) 一种基于区域全卷积网络的手势识别方法
CN113724388B (zh) 高精地图的生成方法、装置、设备以及存储介质
EP4227858A1 (en) Method for determining neural network structure and apparatus thereof
CN111539422A (zh) 基于Faster RCNN的飞行目标协同识别方法
CN111414875A (zh) 基于深度回归森林的三维点云头部姿态估计***
CN114140841A (zh) 点云数据的处理方法、神经网络的训练方法以及相关设备
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN115049833A (zh) 一种基于局部特征增强和相似性度量的点云部件分割方法
CN115063585A (zh) 一种无监督语义分割模型的训练方法及相关装置
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN110348311B (zh) 一种基于深度学习的道路交叉口识别***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant