CN111476162A

CN111476162A - 一种操作命令生成方法、装置及电子设备和存储介质

Info

Publication number: CN111476162A
Application number: CN202010265410.4A
Authority: CN
Inventors: 刘文印; 莫秀云; 陈俊洪; 梁达勇; 朱展模
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-31

Abstract

本申请公开了一种操作命令生成方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。本申请提供的操作命令生成方法，提高了生成操作命令的效率和准确度。

Description

一种操作命令生成方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种操作命令生成方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

从视频中学习操作是机器人获得新技能的一种重要方式。在相关技术中，利用基于语法的解析器对原始视频进行解析，首先将原始视频分解为原子命令，以识别其中的动作、主体对象和受体对象，并组合为初始命令。其次，从现实环境中，通过计算主体对象和受体对象与机器人之间的最小实际欧氏距离决定使用左手还是右手。最后，根据预定义的命令序列语法，解析器可以组合原子命令来生成用于机器人的通用命令。

在上述方案中，需要设计和训练多个复杂的网络，例如动作识别网络、物体分类网络、主体对象分类网络和受体对象分类网络等。而组成操作命令的手部(左手或右手)并不能直接通过视频中的信息进行学习，效率和准确度较低。

因此，如何提高生成操作命令的效率和准确度是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种操作命令生成方法、装置及一种电子设备和一种计算机可读存储介质，提高了生成操作命令的效率和准确度。

为实现上述目的，本申请提供了一种操作命令生成方法，包括：

获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；

提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；

基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

其中，所述提取每个所述视频段的RGB特征和光流特征，包括：

利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像；

利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征。

其中，对所述RGB特征和所述光流特征进行融合得到融合特征，包括：

对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征。

其中，所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层；

所述第一LSTM层的输入包括所述目标视频段的融合特征，输出包括隐藏的编码器向量序列；

所述第二LSTM层的输入包括所述隐藏的编码器向量序列，输出包括解码器向量序列；

所述softmax层的输入包括所述解码器向量序列，输出包括所述目标视频段对应的操作命令。

为实现上述目的，本申请提供了一种操作命令生成装置，包括：

获取模块，用于获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；

提取模块，用于提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；

训练模块，用于基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

其中，所述提取模块包括：

抽取单元，用于利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像；

提取单元，用于利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征；

融合单元，用于对所述RGB特征和所述光流特征进行融合得到融合特征。

其中，所述融合单元具体为对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征的单元。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述操作命令生成方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述操作命令生成方法的步骤。

通过以上方案可知，本申请提供的一种操作命令生成方法，包括：获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

本申请提供的操作命令生成方法，由于训练集标注的操作命令中包括操作者的手部，即左手或右手，因此训练完成的LSTM(中文全称：长短期记忆，英文全称：Long Short-Term Memory)网络可以直接输出目标视频段中的手部，提高了生成手部的效率和准确度。同时，在本申请中，只需要特征提取网络和LSTM网络即可生成操作命令，减少了训练多个网络模型的成本。另外，对于视频段的特征提取，本申请在利用RGB特征的同时，结合光流特征训练网络，使得到的操作命令在精度上得到显著提高。本申请还公开了一种操作命令生成装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种操作命令生成方法的流程图；

图2为根据一示例性实施例示出的一种LSTM网络的结构图；

图3为根据一示例性实施例示出的另一种操作命令生成方法的流程图；

图4为根据一示例性实施例示出的一种操作命令生成装置的结构图；

图5为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种操作命令生成方法，提高了生成操作命令的效率和准确度。

参见图1，根据一示例性实施例示出的一种操作命令生成方法的流程图，如图1所示，包括：

S101：获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；

本实施例的目的在于基于已标注的训练集训练LSTM网络，训练完成的LSTM网络可以用于输出目标视频段对应的操作命令。在本步骤中，对训练集进行预处理，即将视频数据集按照动作划分为多个视频段，标注每个视频段的操作命令。预处理后的视频数据集用于学习机器人操作命令，可以用于其他研究从视频中学习机器人操作命令的实验。标注后的视频段的操作命令语句无语法格式，操作命令的语序可以为：操作者的手部、主体对象、动作和受体对象。

可见，本实施例结合视频描述(video caption)领域的方法，将机器人从视频中学习到的操作命令定义为由四个原子命令组成的高度简洁且具有一定语序的命令序列(即操作者的手部、主体对象、动作和受体对象)，可以明确各个原子命令间的时序关系，更适用于机器人应用。

S102：提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；

本步骤的目的在于对每个视频段进行预处理，即提取每个视频段的RGB特征和光流特征，并将其融合为融合特征。本实施例中特征融合的方式可以为向量拼接，即对所述RGB特征和所述光流特征进行融合得到融合特征，包括：对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征。

作为一种可行的实施方式，所述提取每个所述视频段的RGB特征和光流特征的步骤可以包括：利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像；利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征。

在具体实施中，使用opencv工具箱从各视频段中抽取RGB图像和光流图像。其中，光流包括x和y两个方向的光流，x方向的光流反应了动作水平方向的位移变化，y方向的光流反映了动作垂直方向的位移变化，光流的计算可以采用TV-L1的方法。通过使用双流3D卷积神经网络作为特征提取器分别从堆叠的RGB图像和光流图像中提取物体的空间信息特征和动作的动态特征，将堆叠的RGB图像特征(全局特征)和光流图像特征(物体的运动特征)融合在一起。

S103：基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

在本步骤中，基于每个视频段对应的融合特征和标注的操作命令训练LSTM网络，训练完成的LSTM网络可以输出目标视频段对应的操作命令，该操作命令映射到机器人应用程序中，并发送到Baxter机器人中执行。Baxter机器人可以根据视觉感知和运动规划器(用于生成机器人的运动轨迹)直接操作物体从而实现在现实环境中的操作。

LSTM网络中的隐藏单元结构存在三种门控类型：输入门、遗忘门和输出门。如图2所示，利用LSTM能对输入数据的长期依赖关系进行有效的建模的特点，使用它来构建具有encoder-decoder结构的网络模型。在编码阶段，第一LSTM层采用目标视频段的融合特征作为输入，输出隐藏的编码器向量序列He。解码阶段进行训练时，将标注的操作命令与隐藏的编码器向量序列He相结合输入第二LSTM层，第二LSTM层将隐藏的编码器向量序列He转换为隐藏的解码器向量序列Hd。此处标注的操作命令可以采用one-hot encoding技术表示为一个向量以便计算(即图2中W)，最后通过softmax层实现最终的操作命令的生成，例如图2中的(Lefthand，Spatula，Sti，bowl)。在预测阶段，T时刻第二LSTM层单元操作命令部分的输入为T-1时刻第二LSTM层单元预测的原子操作命令的向量。解码过程按时间顺序依次预测当前时刻的原子操作命令，直到网络生成end-of-command(EOC)标志。在数据处理时，为每个操作命令末尾添加EOC标志。

本申请实施例提供的操作命令生成方法，由于训练集标注的操作命令中包括操作者的手部，即左手或右手，因此训练完成的LSTM网络可以直接输出目标视频段中的手部，提高了生成手部的效率和准确度。同时，在本申请实施例中，只需要特征提取网络和LSTM网络即可生成操作命令，减少了训练多个网络模型的成本。另外，对于视频段的特征提取，本申请实施例在利用RGB特征的同时，结合光流特征训练网络，使得到的操作命令在精度上得到显著提高。

本申请实施例公开了一种操作命令生成方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，根据一示例性实施例示出的另一种操作命令生成方法的流程图，如图3所示，包括：

S201：获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；

S202：利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像；

S203：利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征；

S204：对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征；

S205：基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

在本实施例中，利用3D卷积神经网络融合了视频段中物体的空间信息特征(即RGB特征)和动作的动态特征(即光流特征)，并利用具有encoder-decoder结构的网络编码特征，最终输出可以直接用于机器人应用程序的命令。由此实现了机器人可以从视频中学习操作命令的任务，这在一定程度上为机器人智能***的开发提供了现实保障。

由此可见，本实施例只需要通过利用双流的3D卷积神经网络作为特征提取器提取视频的视觉特征并融合，再利用LSTM网络构建具有encoder-decoder结构的网络模型处理特征即可输出机器人操作命令，大大减少标注数据的工作量和训练多个模型训练的成本。同时，输出的命令序列具有明确的时序关系，不需要语法解析器解析命令，更适合实际应用。

下面对本申请实施例提供的一种操作命令生成装置进行介绍，下文描述的一种操作命令生成装置与上文描述的一种操作命令生成方法可以相互参照。

参见图4，根据一示例性实施例示出的一种操作命令生成装置的结构图，如图4所示，包括：

获取模块401，用于获取训练集；其中，所述训练集包括多个标注操作命令的视频段，所述操作命令包括操作者的手部、主体对象、动作和受体对象；

提取模块402，用于提取每个所述视频段的RGB特征和光流特征，并对所述RGB特征和所述光流特征进行融合得到融合特征；

训练模块403，用于基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络，以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。

本申请实施例提供的操作命令生成装置，由于训练集标注的操作命令中包括操作者的手部，即左手或右手，因此训练完成的LSTM网络可以直接输出目标视频段中的手部，提高了生成手部的效率和准确度。同时，在本申请实施例中，只需要特征提取网络和LSTM网络即可生成操作命令，减少了训练多个网络模型的成本。另外，对于视频段的特征提取，本申请实施例在利用RGB特征的同时，结合光流特征训练网络，使得到的操作命令在精度上得到显著提高。

在上述实施例的基础上，作为一种优选实施方式，所述提取模块402包括：

在上述实施例的基础上，作为一种优选实施方式，所述融合单元具体为对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征的单元。

在上述实施例的基础上，作为一种优选实施方式，所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图5，本申请实施例提供的一种电子设备500的结构图，如图5所示，可以包括处理器11和存储器12。该电子设备500还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备500的整体操作，以完成上述的操作命令生成方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的操作命令生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述操作命令生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备500的处理器11执行以完成上述的操作命令生成方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种操作命令生成方法，其特征在于，包括：

2.根据权利要求1所述操作命令生成方法，其特征在于，所述提取每个所述视频段的RGB特征和光流特征，包括：

3.根据权利要求1所述操作命令生成方法，其特征在于，对所述RGB特征和所述光流特征进行融合得到融合特征，包括：

4.根据权利要求1至3中任一项所述操作命令生成方法，其特征在于，所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层；

5.一种操作命令生成装置，其特征在于，包括：

6.根据权利要求5所述操作命令生成装置，其特征在于，所述提取模块包括：

7.根据权利要求6所述操作命令生成装置，其特征在于，所述融合单元具体为对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征的单元。

8.根据权利要求5至7中任一项所述操作命令生成装置，其特征在于，所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述操作命令生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述操作命令生成方法的步骤。