CN117506940B

CN117506940B - 机器人轨迹语言描述生成方法、装置和可读存储介质

Info

Publication number: CN117506940B
Application number: CN202410012473.7A
Authority: CN
Inventors: 杨旭; 王泽禹
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-09
Anticipated expiration: 2044-01-04
Also published as: CN117506940A

Abstract

本发明涉及一种机器人轨迹语言描述生成方法、装置和可读存储介质。涉及机器人技术领域，该方法包括：在连续仿真环境中生成仿真轨迹，并使智能体按照仿真轨迹运行；获取仿真轨迹运行过程中的传感器观察信息和动作序列信息；确定出动作序列信息中的关键动作；根据关键动作确定出传感器观察信息中的视觉观察信息；采用多模态预训练模型来预测视觉观察信息中的名词信息；生成轨迹指令模板；将关键动作和名词信息填入轨迹指令模板，以得到与仿真轨迹对应的自然语言描述。该方法能够极大降低视觉语言导航训练数据的产生成本，扩大数据规模，降低视觉语言导航的训练难度，提升训练效率和训练得到的模型的泛化性及准确度。

Description

机器人轨迹语言描述生成方法、装置和可读存储介质

技术领域

本发明涉及机器人技术领域，尤其涉及一种机器人轨迹语言描述生成方法、装置和可读存储介质。

背景技术

随着人工智能和机器人相关技术的不断发展，具身智能的研究和应用越来越深入。在具身智能算法的研究中，往往需要应用强化学习和模仿学习相关算法，连续仿真环境的低损耗、易搭建、高真实性、高效模拟的方式让其成为了具身智能研究的必然要求。在具身智能的任务中，视觉语言导航任务是最重要的任务之一。这一任务的内涵为，让人类对复杂环境中的路径进行自然语言描述，而具身智能机器人根据自然语言描述沿着所描述的路径前进，最终到达自然语言描述所指定的位置。由于之前所述的仿真环境相对于真实环境的模拟优势，所以以上任务主要在仿真环境中完成。在上述的视觉语言导航任务中，和其他的机器学习任务面临的问题一样，如果想达到比较好的效果，显然需要大量的样本进行训练。在当前的任务中，训练样本主要是由自然语言描述和对应的轨迹之间的语言描述-轨迹对构成。但是与传统的图像分类等基础的机器学习任务不同的是，由于数据标注的难度和复杂度更高，视觉语言导航任务数据标注的单位成本要远高于传统任务，这就让一种能够自动生成语言描述-轨迹对数据的算法成为了需要。

发明内容

有鉴于此，本发明的目的之一在于解决自然语言导航任务中，视觉语言导航任务数据标注的成本和人力消耗成本高的问题，为了解决上述问题，本发明提供了一种机器人轨迹语言描述生成方法。

具体地，本发明是通过如下技术方案实现的：

根据本发明的第一方面，提供了一种机器人轨迹语言描述生成方法，该方法包括：在连续仿真环境中生成仿真轨迹，并使智能体按照仿真轨迹运行；获取仿真轨迹运行过程中的传感器观察信息和动作序列信息；确定出动作序列信息中的关键动作；根据关键动作确定出传感器观察信息中的视觉观察信息；采用多模态预训练模型来预测视觉观察信息中的名词信息；生成轨迹指令模板；将关键动作和名词信息填入轨迹指令模板，以得到与仿真轨迹对应的自然语言描述。

在一些实施例中，生成轨迹指令模板的步骤，具体包括：获取具有多样语言信息的预设轨迹-语言描述对；利用预设轨迹-语言描述对描述数据，将数据中的方位词和名词关键词去除，以生成轨迹指令模板。

在一些实施例中，在连续仿真环境中生成仿真轨迹的步骤，具体包括：在连续仿真环境中随机采样第一位置和第二位置；将第一位置和第二位置作为仿真轨迹的始末位置；采用环境先验信息生成第一位置和第二位置之间的最短路程轨迹，最短路程轨迹为仿真轨迹。

在一些实施例中，第一位置和第二位置的距离满足预设阈值距离。

在一些实施例中，确定出动作序列信息中的关键动作的步骤，具体包括：将动作序列信息进行阈值化操作，以提取出动作序列信息中的关键动作。

在一些实施例中，根据关键动作确定出传感器观察信息中的视觉观察信息的步骤，具体包括：确定关键动作的关键帧；确定传感器观察信息中的视觉信息；基于关键帧和视觉信息确定出视觉观察信息。

在一些实施例中，采用多模态预训练模型来预测视觉观察信息中的名词信息的步骤，具体包括：将视觉观察信息输入进多模态预训练模型，以预测出视觉观察信息中的物体标签和环境标签。

在一些实施例中，多模态预训练模型采用预设规模的多模态数据对比学习预训练生成。

根据本发明的第二方面，提供一种机器人轨迹语言描述生成装置，装置包括用于执行第一方面或第一方面的任意可能的实现方式中的机器人轨迹语言描述生成方法的模块。

根据本发明的第三方面，提供一种机器人轨迹语言描述生成装置，包括：存储器和处理器，存储器储存有程序或指令，程序或指令被处理器执行时，实现第一方面或第一方面的任意可能的实现方式中的机器人轨迹语言描述生成方法的步骤。

根据本发明的第四方面，提供一种可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现第一方面或第一方面的任意可能的实现方式中的机器人轨迹语言描述生成方法的步骤。

本发明提供的技术方案至少带来以下有益效果：能够实现语言描述-轨迹对数据的自动生成，达到零成本生成视觉语言导航训练数据的能力。在数据生成的过程中，不需要人工进行任何标注，只需要在连续虚拟环境取样始末点对后运行此算法，便可利用智能体在此始末点对间的轨迹上采用的动作和视觉信息生成此轨迹的描述。该方法能够极大降低视觉语言导航训练数据的产生成本，扩大数据规模，降低视觉语言导航的训练难度，提升训练效率和训练得到的模型的泛化性及准确度。此方法在视觉语言导航领域的应用还可以进一步提升智能体的具身智能能力。并且此算法还可以在实体机器人和实体环境中落地，促进具身智能机器人的落地转化。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的第一个实施例提供的机器人轨迹语言描述生成方法的流程图；

图2为本发明的第二个实施例提供的机器人轨迹语言描述生成方法的流程图；

图3为本发明的第三个实施例提供的机器人轨迹语言描述生成方法的流程图；

图4为本发明的实施例提供的机器人轨迹语言描述生成方法的流程框架图；

图5为本发明的一个实施例提供的机器人轨迹语言描述生成装置图；

图6为本发明的另一个实施例提供的机器人轨迹语言描述生成装置图。

其中，图5和图6中的附图标记与部件名称之间的对应关系为：

10-机器人轨迹语言描述生成装置，11-运行模块，12-获取模块，13-第一确定模块，14-第二确定模块，15-预测模块，16-模板生成模块，17-语言描述模块，20-机器人轨迹语言描述生成装置，21-存储器，22-处理器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例提供了一种机器人轨迹语言描述生成方法，该方法可以包括如下步骤：

S101、在连续仿真环境中生成仿真轨迹，并使智能体按照仿真轨迹运行。

S102、获取仿真轨迹运行过程中的传感器观察信息和动作序列信息。

S103、确定出动作序列信息中的关键动作。

S104、根据关键动作确定出传感器观察信息中的视觉观察信息。

S105、采用多模态预训练模型来预测视觉观察信息中的名词信息。

S106、生成轨迹指令模板。

S107、将关键动作和名词信息填入轨迹指令模板，以得到与仿真轨迹对应的自然语言描述。

根据本发明提供的机器人轨迹语言描述生成方法，充分利用多模态预训练模型中来自互联网的大规模信息，在极低成本的前提下有效生成了大量对应机器人导航轨迹的自然语言指令，同时能保证生成指令的准确性和有效性，可以很好地解决视觉语言导航智能体训练过程中的训练数据不足的问题。在数据生成的过程中，不需要人工进行任何标注，只需要在连续虚拟环境取样始末点对后运行此算法，便可利用智能体在此始末点对间的轨迹上采用的动作和视觉信息生成此轨迹的描述。该方法能够极大降低视觉语言导航训练数据的产生成本，扩大数据规模，降低视觉语言导航的训练难度，提升训练效率和训练得到的模型的泛化性及准确度。此方法在视觉语言导航领域的应用还可以进一步提升智能体的具身智能能力。并且此算法还可以在实体机器人和实体环境中落地，促进具身智能机器人的落地转化。

如图2所示，本发明实施例提供了一种机器人轨迹语言描述生成方法，该方法可以包括如下步骤：

S201、在连续仿真环境中生成仿真轨迹，并使智能体按照仿真轨迹运行。

S202、获取仿真轨迹运行过程中的传感器观察信息和动作序列信息。

S203、确定出动作序列信息中的关键动作。

S204、根据关键动作确定出传感器观察信息中的视觉观察信息。

S205、将视觉观察信息输入进多模态预训练模型，以预测出视觉观察信息中的物体标签和环境标签。

S206、获取具有多样语言信息的预设轨迹-语言描述对；利用预设轨迹-语言描述对描述数据，将数据中的方位词和名词关键词去除，以生成轨迹指令模板。

S207、将关键动作、物体标签和环境标签填入轨迹指令模板，以得到与仿真轨迹对应的自然语言描述。

其中，机器人从起点走到终点，要有一系列细微的动作，其每次前进，只能前进一小段距离，每次转弯，只能转动一个小角度。阈值化操作即为设置一个阈值，来判断目前一系列动作的描述。例如，连续有三个及以上“前进”动作，即可视为有一个“前进”，三个以下“前进”不算数。在连续转弯动作中，转-45°至45°之间仍然视为直行，转45°至135°之间视为右转，转135°至225°视为掉头，以此类推。其中，上述的角度阈值和直行阈值的具体数值只是举例，具体选值需要根据实际情况调整。其中，如果某几个连续动作被判断达到了阈值要求，那么这一系列动作的第一个动作即为“关键动作”，这一帧也被视为“关键帧”。

进一步地，多模态预训练模型采用来自互联网的大规模多模态数据进行对比学习预训练得到。

如图3所示，本发明实施例提供了一种机器人轨迹语言描述生成方法，该方法可以包括如下步骤：

S301、利用具有多样语言信息的专家轨迹描述数据，去除其中的方位词和名词关键词，作为生成轨迹指令的模板。

S302、在Habitat连续仿真环境中随机采样距离在一定预设阈值内的点对作为轨迹的始末位置，并利用环境先验信息自动生成两点之间的最短路程轨迹。

S303、智能体沿着最短路程轨迹运行，运行期间不断收集传感器观察信息和动作序列信息。

S304、将收集的动作序列信息进行阈值化操作，提取出动作序列中的关键动作。

S305、利用关键动作的关键帧和收集的传感器观察信息中的视觉信息，提取出关键帧对应的视觉观察信息，而后利用多模态预训练模型来预测观察信息中的物体和环境标签。

S306、将关键动作、物体和环境标签以对应的形式填入指令模板，以生成仿真环境中机器人轨迹语言描述。

根据本发明提供的机器人轨迹语言描述生成方法，利用已有轨迹描述指令，去除其中的名词和方位词关键词作为指令模版。而后利用智能体在连续仿真环境中进行点到点移动，来收集轨迹信息并同时预测自然语言指令。然后根据智能体在环境中行进时的动作，采用阈值限制的方式来提取关键动作，进而生成轨迹中的动作信息。在此基础上，利用基于大规模网络多模态数据对比学习得到的多模态预训练模型，来预测关键动作时视觉输入中的名词信息。最后将所得到的动作信息和名词信息填入指令模板，得到最终的机器人轨迹语言描述。通过实验验证，本方法充分利用多模态预训练模型中来自互联网的大规模信息，在极低成本的前提下有效生成了大量对应机器人导航轨迹的自然语言指令，同时能保证生成指令的准确性和有效性，可以很好地解决视觉语言导航智能体训练过程中的训练数据不足的问题。

本申请机器人轨迹语言描述生成方法所生成的轨迹-语言描述对主要用于视觉语言导航任务，这一任务是对在仿真环境中的智能体给出描述其每一步行动的自然语言指令，智能体根据这一自然语言指令和每一个时间点获得的此时的传感器观察来采取行动/>，最终按照自然语言指令的指引到达指令所指出的终点。

本申请提供的机器人轨迹语言描述生成方法总体上来说是利用机器人在Habitat连续仿真环境中行走，通过将连续动作阈值化提取出关键动作，进而得到关键动作所对应的关键视觉图像，再通过多模态预训练模型CLIP将关键视觉图像转化成名词文本，最后将关键动作和对应的名词文本填入到经过处理后挖去方位词和名词关键词的轨迹指令模板中，最终形成对轨迹的自然语言描述。

为了有助于对本申请的理解，下面以对于某一个想要生成路径的房屋场景进行举例进一步说明机器人轨迹语言描述生成方法：

如图4所示，说明了本方法的流程框架，各步实施细节如下：

步骤一、采样路径；

对于某一个想要生成路径的房屋场景，在把这一场景加载到Habitat仿真器中后，首先对场景进行轨迹始末位置的采样。为了保证采样轨迹的有效性，采样按照一定的规则进行：此处要求始末位置点的绝对距离在一定的区间范围内，其可以表示为：

；

其中，x、y、z表示的是三维坐标值，s表示的是start，e表示的是end，公式即为计算两个三维坐标点之间的距离。

此处还应要求始末位置的可达性，即应当通过仿真器加载的场景先验信息确保所要训练的智能体能够从起始位置运行到终点位置。

在成功采样得到始末位置后，直接利用Habitat仿真器的最短路径规划算法，按照场景中的先验信息规划出始末点之间的最短路径。

步骤二、智能体运行并阈值化；

在上一步采样得到路径的前提下，让智能体机器人在上述路径上运行。在机器人运行过程中，对于每个时间点会有此时的传感器观察/>和采取的动作/>，最终形成传感器观察序列/>和动作序列/>。

由于机器人是在连续环境中运行，所以每一个动作只对机器人的状态有微小改变，因此需要对动作进行阈值化处理，提取出动作序列中的关键动作以及采取关键动作时对应的传感器观察，生成关键动作序列以及对应的关键动作传感器观察序列/>。

在阈值化的过程中，核心是设定动作的阈值。机器人和导航相关的最核心的动作是前进以及左右转，因此主要针对这几个动作设计阈值化。

针对前进动作设计阈值，即当连续的前进动作数大于此阈值时，这一批连续前进动作中的首个动作时刻/>的动作即为关键动作/>，其动作为前进（forward），同时/>时的传感器观察中的视觉观测/>也进行记录；当连续的前进动作数未到达阈值，则这些前进动作不视为关键动作，不对其进行记录。

对于转向动作，其阈值为角度值。设计转向动作的区间阈值、/>、、/>、/>、/>，当出现连续的转向动作时，对于连续转向动作累积的角度值/>，若/>，则这一批连续转向动作中的首个动作时刻/>的动作为关键动作/>，其动作为左转（left），同时/>时的传感器观察中的视觉观测/>也进行记录。同理，对于/>，也记录/>和/>，动作为右转（right）；对于，也记录/>和/>，动作为掉头（around）。

至此，可以根据每条轨迹得到一组一一对应的关键动作和视觉观测/>，其中关键动作对应的动作词（forward、left、right、around）即为动作信息。

步骤三、预测名词信息；

针对做出关键动作时的视觉观测，需要利用多模态预训练模型来预测出视觉观测中包含的关键名词信息。

选择CLIP作为多模态预训练模型，利用其在大规模网络数据上训练得到的多模态能力，让其在候选的房间和物体中，以文字提示预测概率最大词的形式，根据视觉观测来预测其中的房间（room）和物体（object）信息。其中，房间和物体的候选类别来自Habitat环境中的已有类别的先验信息。

对于预测的房间（room）和物体（object）信息完全相同的两个或几个相邻视觉观测，删除上述除第一个外的所有视觉观测及其对应的关键动作。

最终，利用CLIP预测的房间（room）和物体（object）信息组合成“room withobject”的形式，而后在{room，object，room with object}中随机抽取作为这一关键动作的最终的名词信息。

步骤四、生成轨迹描述模板（轨迹指令模板）；

利用视觉语言导航任务R2R的自然语言轨迹描述，以其为基础，利用BERT模型和句法分析法提取名词短语，用规则形式提取出动作方向词，将二者挖去并标记。

由于前述步骤中得到的名词信息和动作信息是一一对应的，所以应当对生成的自然语言轨迹描述模板进行筛选，筛选出每条模板中名词短语数量和动作方向词数量相等的条目作为最终的模板。

步骤五、生成轨迹描述；

利用前述步骤中生成的轨迹模板，将模板组合，使得每条轨迹的关键动作数量和模板组合中名词/动作方向词数量一致。将动作信息及其对应的名词信息填入到模板中对应的位置即得到轨迹对应的自然语言描述。

基于同一发明构思，如图5所示，本发明实施例还提供了一种机器人轨迹语言描述生成装置10，该装置包括运行模块11，用于在连续仿真环境中生成仿真轨迹，并使智能体按照仿真轨迹运行；获取模块12，用于获取仿真轨迹运行过程中的传感器观察信息和动作序列信息；第一确定模块13，用于确定出动作序列信息中的关键动作；第二确定模块14，用于根据关键动作确定出传感器观察信息中的视觉观察信息；预测模块15，用于采用多模态预训练模型来预测视觉观察信息中的名词信息；模板生成模块16，用于生成轨迹指令模板；语言描述模块17，用于将关键动作和名词信息填入轨迹指令模板，以得到与仿真轨迹对应的自然语言描述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于同一发明构思，如图6所示，本发明实施例还提供了一种机器人轨迹语言描述生成装置20，包括：存储器21和处理器22，存储器21储存有程序或指令，程序或指令被处理器22执行时，实现第一方面或第一方面的任意可能的实现方式中的机器人轨迹语言描述生成方法的步骤。可相当于如前的机器人轨迹语言描述生成装置20，当然，该处理器22还可以用来处理其他数据或运算。该机器人轨迹语言描述生成装置20可以是PC、服务器、终端等设备。

基于同一发明构思，本发明实施例还提供了一种可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现第一方面或第一方面的任意可能的实现方式中的机器人轨迹语言描述生成方法的步骤。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位***（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种机器人轨迹语言描述生成方法，其特征在于，包括：

在连续仿真环境中生成仿真轨迹，并使智能体按照所述仿真轨迹运行；

获取所述仿真轨迹运行过程中的传感器观察信息和动作序列信息；

确定出所述动作序列信息中的关键动作，具体包括：将所述动作序列信息进行阈值化操作，以提取出所述动作序列信息中的所述关键动作；

根据所述关键动作确定出所述传感器观察信息中的视觉观察信息；

采用多模态预训练模型来预测所述视觉观察信息中的名词信息；

生成轨迹指令模板；

将所述关键动作和所述名词信息填入所述轨迹指令模板，以得到与所述仿真轨迹对应的自然语言描述；

其中，所述阈值化操作为设置一个阈值，来判断目前一系列动作的描述，在几个连续动作被判断达到了所述阈值要求的情况下，这一系列动作的第一个动作为所述关键动作。

2.根据权利要求1所述的机器人轨迹语言描述生成方法，其特征在于，所述生成轨迹指令模板的步骤，具体包括：

获取具有多样语言信息的预设轨迹-语言描述对；

利用所述预设轨迹-语言描述对中的语言描述数据，将所述数据中的方位词和名词关键词去除，以生成所述轨迹指令模板。

3.根据权利要求1所述的机器人轨迹语言描述生成方法，其特征在于，所述在连续仿真环境中生成仿真轨迹的步骤，具体包括：

在所述连续仿真环境中随机采样第一位置和第二位置；

将所述第一位置和所述第二位置作为所述仿真轨迹的始末位置；

采用环境先验信息生成所述第一位置和所述第二位置之间的最短路程轨迹，所述最短路程轨迹为所述仿真轨迹。

4.根据权利要求3所述的机器人轨迹语言描述生成方法，其特征在于，

所述第一位置和所述第二位置的距离满足预设阈值距离。

5.根据权利要求1所述的机器人轨迹语言描述生成方法，其特征在于，所述根据所述关键动作确定出所述传感器观察信息中的视觉观察信息的步骤，具体包括：

确定所述关键动作的关键帧；

确定所述传感器观察信息中的视觉信息；

基于所述关键帧和所述视觉信息确定出所述视觉观察信息。

6.根据权利要求1所述的机器人轨迹语言描述生成方法，其特征在于，所述采用多模态预训练模型来预测所述视觉观察信息中的名词信息的步骤，具体包括：

将所述视觉观察信息输入进所述多模态预训练模型，以预测出所述视觉观察信息中的物体标签和环境标签。

7.根据权利要求1所述的机器人轨迹语言描述生成方法，其特征在于，所述多模态预训练模型采用预设规模的多模态数据对比学习预训练生成。

8.一种机器人轨迹语言描述生成装置，其特征在于，包括：

运行模块，用于在连续仿真环境中生成仿真轨迹，并使智能体按照所述仿真轨迹运行；

获取模块，用于获取所述仿真轨迹运行过程中的传感器观察信息和动作序列信息；

第一确定模块，用于确定出所述动作序列信息中的关键动作，具体包括：将所述动作序列信息进行阈值化操作，以提取出所述动作序列信息中的所述关键动作；

第二确定模块，用于根据所述关键动作确定出所述传感器观察信息中的视觉观察信息；

预测模块，用于采用多模态预训练模型来预测所述视觉观察信息中的名词信息；

模板生成模块，用于生成轨迹指令模板；

语言描述模块，用于将所述关键动作和所述名词信息填入所述轨迹指令模板，以得到与所述仿真轨迹对应的自然语言描述；

9.一种机器人轨迹语言描述生成装置，其特征在于，包括：

存储器和处理器，所述存储器储存有程序或指令，所述程序或所述指令被所述处理器执行时，实现如权利要求1至7中任一项所述的机器人轨迹语言描述生成方法的步骤。

10.一种可读存储介质，其特征在于，其上存储有程序或指令，所述程序或所述指令被执行时，实现如权利要求1至7中任一项所述的机器人轨迹语言描述生成方法的步骤。