CN116499471B

CN116499471B - 一种基于开放场景地图的视觉语言导航方法、装置及介质

Info

Publication number: CN116499471B
Application number: CN202310788171.4A
Authority: CN
Inventors: 谭明奎; 陈沛豪; 吉冬昱; 林坤阳; 杜卿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-12
Anticipated expiration: 2043-06-30
Also published as: CN116499471A

Abstract

本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质，属于智能导航技术领域。其中方法包括：获取智能体在环境中的视觉图像数据；根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息，将以上信息结合构建开放场景地图，提升该地图对开放场景中多样化物体的属性、位置的表征能力，使地图表征不局限于固定的少量物体类别，且增加的物体属性信息可帮助智能体消除物体类别歧义，准确定位感兴趣物体。

Description

一种基于开放场景地图的视觉语言导航方法、装置及介质

技术领域

本发明涉及智能导航技术领域，尤其涉及一种基于开放场景地图的视觉语言导航方法、装置及介质。

背景技术

具身智能的出现为提升当前人工智能认知能力、走向通用智能提供了重要技术路线。通过与环境交互的渠道，智能体可从真实物理或虚拟数字空间中获取真实反馈，从而进一步学习和进步，其中，视觉语言导航旨在使智能体能够跟随自然语言指令进行自主导航，近年来逐步受到广泛关注，已成为具身智能的研究热点之一，在人机交互、家居服务机器人等方面有着巨大的潜在应用价值。

目前，现有方法提出基于地图的模块化方式实现视觉语言导航，通过构建语义地图以表征环境信息。然而，现有方法所构建的语义地图仍然存在两个主要问题：1）现有地图构建方式忽略了物体自身所包含的丰富属性信息（如颜色、纹理等），从而导致物体歧义。比如，当房间内有两张不同颜色的沙发，如果地图只能表示沙发这个语义类别，则无法区分两张沙发；2）现有地图构建方式仅能表示有限的物体类别（通常为40类）。实际指令和场景中往往包含复杂多样的物体类别信息，现有语义地图难以对其进行有效表示，进而影响智能体的导航性能。因此，如何在地图中融入物体的细节属性信息并准确表示开放场景中的多样物体类别信息是目前视觉语言导航任务的研究热点与难点之一。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于开放场景地图的视觉语言导航方法、装置及介质。

本发明所采用的技术方案是：

一种基于开放场景地图的视觉语言导航方法，包括以下步骤：

获取智能体在环境中的视觉图像数据；所述视觉图像数据包括RGB图像和深度图像；

根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；

根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。

进一步地，所述根据视觉图像数据构建开放场景地图表征，包括：

根据RGB图像和深度图像获取物体属性层级地图；

根据RGB图像、深度图像和预设的开放场景物体类别获取开放场景物体语义地图；

根据RGB图像、深度图像和预设的导航指令获取标志物语义层级地图；

将物体属性层级地图、开放场景物体语义地图和标志物语义层级地图分别经过卷积层，在子空间连接后，再经过卷积层得到开放场景地图表征。

进一步地，所述物体属性层级地图具体通过以下方式获得：

将RGB图像输入经过训练的深度神经网络，获取深度神经网络的中间层特征图；

将获得的中间层特征图，根据深度图像的深度信息进行映射，得到物体属性层级地图。

进一步地，所述开放场景物体语义地图具体通过以下方式获得：

将预设的开放场景物体类别和RGB图像输入到面向开放词汇的目标检测器，检测得到开放场景物***置；

将检测得到的开放场景物***置，根据深度图像的深度信息进行映射，得到开放场景物体语义地图。

进一步地，所述标志物语义层级地图具体通过以下方式获得：

将导航指令输入标志物解析器，得到指令中的标志物类别；

将得到的标志物类别输入到面向开放词汇的目标检测器，得到标志物位置；

根据得到的标志物位置以及深度图像的深度信息进行映射，得到标志物语义层级地图。

进一步地，所述标志物解析器采用GPT大语言模型来实现，所述目标检测器采用GLIP模型来实现。

进一步地，所述根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作，包括：

将开放场景地图表征与指令输入GRU，得到智能体当前的状态特征；

将得到状态特征经过子目标点预测器，预测子目标点距离当前位置的相对坐标偏移；

根据相对坐标偏移预测当前状态下的导航进度，以及根据子目标点位置和导航进度获取智能体下一步动作。

本发明所采用的另一技术方案是：

一种基于开放场景地图的视觉语言导航装置，包括：

数据获取模块，用于获取智能体在环境中的视觉图像数据；所述视觉图像数据包括RGB图像和深度图像；

表征构建模块，用于根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；

导航应用模块，用于根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。

本发明所采用的另一技术方案是：

一种基于开放场景地图的视觉语言导航装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息，将以上信息结合构建开放场景地图，提升该地图对开放场景中多样化物体的属性、位置的表征能力，使地图表征不局限于固定的少量物体类别，且增加的物体属性信息可帮助智能体消除物体类别歧义，准确定位感兴趣物体。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于开放场景地图的视觉语言导航方法的步骤流程图；

图2是本发明实施例中开放场景地图构建模块示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

术语解释：

GRU：门循环单元，是循环神经网络（RNN）的其中一种实现方式。在申请中可以用任意形式的循环神经网络，包括但不限于GRU、LSTM。

如图1所示，本实施例提供一种基于开放场景地图的视觉语言导航方法，包括以下步骤：

S1、获取智能体在环境中的视觉图像数据。所述视觉图像数据包括RGB图像和深度图像。

S2、根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图。

具体地，步骤S2包括以下步骤S21- S24：

S21、将RGB图像输入经过训练的深度神经网络，获取深度神经网络中间层特征图，并将该特征图根据深度图像的深度信息进行映射得到物体属性层级地图。

S22、将常见的开放场景物体类别和RGB图像输入到面向开放词汇的目标检测器，检测得到常见的开放场景物***置，并将物***置根据深度图像的深度信息进行映射得到开放场景物体语义层级地图。

S23、将导航指令输入至标志物解析器得到指令标志物类别，并将标志物类别输入到面向开放词汇的目标检测器得到标志物位置，根据深度图像的深度信息进行映射得到标志物语义层级地图。

S24、将上述三种地图分别经过卷积层，三者在子空间连接后再经过卷积层得到开放场景地图表征。

S3、根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。

具体地，将智能体状态特征经过全连接层，预测子目标点距离当前位置的相对坐标偏移，并经过另一全连接层，预测当前状态下的导航进度。根据子目标点位置和导航进度决定智能体下一步动作。

以下结合附图2及具体实施例对上述方法进行详细解释说明。

本实施例提供了一种基于开放场景地图的视觉语言导航方法，包括以下步骤：

步骤1：获取智能体在环境中的视觉图像等数据。

获取智能体在仿真环境中所观察到的视觉图像，视觉图像包括RGB图像以及深度图像，在本实施例中使用公开仿真器habitat-sim，并使用公开的数据集VLN-CE作为训练与测试数据。

步骤2：构建开放场景地图表征。

所构建的开放场景多层级地图表征主要由三部分组成，分别为包含物体细节特征的物体属性层级地图以及包含物体语义特征的开放场景物体语义地图和指令标志物语义地图。

现有神经网络可解释性工作表明神经网络不同隐藏层的特征可获取图像中物体的不同类型信息，其中浅层特征通常可提取物体的局部细节，而深层特征通常可提取物体的全局轮廓。因此，在构建物体属性地图时，基于经过图像-文本匹配任务预训练的CLIP网络，输入RGB图片至该网络，选择该网络的浅层特征和深层特征，拼接得到物体属性特征图，通过深度信息将每个特征向量映射至地图中的对应位置，从而得到物体属性层级地图。

为了体现高层级物体语义信息，利用面向开放词汇的目标检测器检测开放场景中的常见物体类别以及指令标志物在RGB图片中的位置，并通过深度信息将每个特征向量映射至地图中的对应位置，从而得到开放场景物体语义层级地图和指令标志物语义层级地图。

具体地，通过指令标志物解析器（如GPT大语言模型）解析得到指令中的标志物类别，并且将该标志物类别与开放场景中常见物体类别和图片一起输入至面向开放词汇的目标检测器（如GLIP模型），得到这些物体在RGB图片中的空间位置，通过深度信息将每个特征向量映射至地图中的对应位置，从而得到开放场景物体语义层级地图和指令标志物语义层级地图。

地图编码器：上述三种地图分别经过卷积层，三者在子空间连接后再经过卷积层得到开放场景地图表征。

步骤3：预测子目标点位置及导航进度，执行对应动作。

智能体的动作决策方式选择在每个时刻对下一步子目标点位置进行预测。具体而言，将地图表征与指令输入循环神经网络（可选用任意循环神经网络，包括但不限于GRU、LSTM），得到智能体当前状态特征，将该状态特征经过子目标点预测器，预测子目标点距离当前位置的相对坐标偏移。由此可在地图上标记出子目标点位置，并通过已有视觉导航算法（如DDPPO）得到智能体的下一步动作，包括前进、左转、右转。同时，将该状态特征经过导航进度预测器，预测当前状态下的导航进度，当预测进度大于一定阈值时，则执行停止动作结束当前导航。

综上所述，本实施例方法有效地利用了深度神经网络中隐藏层特征所包含的物体属性特征，将该特征映射至地图得到物体属性层级信息，用以表示开放场景中物体的属性（如颜色、轮廓、材质等），再结合开放场景物体和指令标志物的语义信息，利用面向开放词汇的目标检测器定位开放场景中任意物体的位置。将以上信息结合构建开放场景地图，提升该地图对开放场景中多样化物体的属性、位置的表征能力，使地图表征不局限于固定的少量物体类别，且增加的物体属性信息可帮助智能体消除物体类别歧义，准确定位感兴趣物体。

本实施例还提供一种基于开放场景地图的视觉语言导航装置，包括：

本实施例的一种基于开放场景地图的视觉语言导航装置，可执行本发明方法实施例所提供的一种基于开放场景地图的视觉语言导航方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图1所示方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于开放场景地图的视觉语言导航方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于开放场景地图的视觉语言导航方法，其特征在于，包括以下步骤：

根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作；

所述根据视觉图像数据构建开放场景地图表征，包括：

根据RGB图像和深度图像获取物体属性层级地图；

将物体属性层级地图、开放场景物体语义地图和标志物语义层级地图分别经过卷积层，在子空间连接后，再经过卷积层得到开放场景地图表征；

所述物体属性层级地图具体通过以下方式获得：

将获得的中间层特征图，根据深度图像的深度信息进行映射，得到物体属性层级地图；

所述开放场景物体语义地图具体通过以下方式获得：

将检测得到的开放场景物***置，根据深度图像的深度信息进行映射，得到开放场景物体语义地图；

所述标志物语义层级地图具体通过以下方式获得：

将导航指令输入标志物解析器，得到指令中的标志物类别；

根据得到的标志物位置以及深度图像的深度信息进行映射，得到标志物语义层级地图；

所述标志物解析器采用GPT大语言模型来实现，所述目标检测器采用GLIP模型来实现；

所述根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作，包括：

2.一种基于开放场景地图的视觉语言导航装置，用于实现如权利要求1所述的一种基于开放场景地图的视觉语言导航方法，其特征在于，包括：

3.一种基于开放场景地图的视觉语言导航装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1所述方法。

4.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1所述方法。