CN115213884A

CN115213884A - 机器人的交互控制方法、装置、存储介质及机器人

Info

Publication number: CN115213884A
Application number: CN202110729750.2A
Authority: CN
Inventors: 张站朝
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-10-21

Abstract

本公开涉及一种机器人的交互控制方法、装置、存储介质及机器人，方法包括：获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据；对所述多种模态的数据进行感知识别，得到所述目标环境下的各种模态对应的语义级环境特征；基于所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络，预测所述机器人对应的目标交互信息；基于所述目标交互信息，控制所述机器人进行交互。本公开的方法可以提高机器人交互的准确性。

Description

机器人的交互控制方法、装置、存储介质及机器人

技术领域

本公开涉及机器人技术领域，具体地，涉及一种机器人的交互控制方法、装置、存储介质及机器人。

背景技术

随着机器人技术的发展，服务机器人越来越多的出现在日常生活中。服务机器人通过与环境中的对象进行交互，例如与环境中的人或者物体等对象进行交互，完成机器人工作。

然而，相关技术中的服务机器人在与环境中的对象进行交互时，由于环境中的对象复杂多样，导致服务机器人不能对环境特征准确认知，进而导致服务机器人存在交互准确性差的问题。

发明内容

本公开的目的是提供一种机器人的交互控制方法、装置、存储介质及机器人，解决了机器人存在的交互准确性差的问题。

为了实现上述目的，第一方面，本公开提供一种机器人的交互控制方法，方法包括：

获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据；

对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；

基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；

基于目标交互信息，控制机器人进行交互。

可选地，获取目标环境下的多种模态的数据之后，方法还包括：

对多种模态的数据分别进行优化处理，得到多种模态的优化后的数据；

对多种模态的优化后的数据进行融合校正处理，得到多种模态的融合校正后的数据；

对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征，包括：

对多种模态的融合校正后的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

可选地，基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息，包括：

将各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

对各种模态对应的语义级环境特征进行对齐处理，得到各种模态对应的跨语义环境特征；

对各种模态对应的跨语义环境特征进行融合处理，得到目标环境下的融合环境特征；

将融合环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

可选地，目标交互信息预测模型的训练过程包括：

获取多个样本数据，其中，每个样本数据包括目标环境对应的样本对象以及对象语义关系网络；

基于多个样本数据对初始神经网络模型进行训练，直至满足预设的训练条件，停止训练并输出目标交互信息预测网络。

可选地，机器人包括柔性屏肢体部件、环境状态传感器、视觉传感器、语音传感器以及力觉传感器，多种模态的数据包括通过柔性屏肢体部件采集的触觉数据、通过环境状态传感器采集的环境状态数据、通过视觉传感器采集的视觉数据、通过语音传感器采集的语音数据以及通过力觉传感器采集的力感数据。

可选地，目标交互信息包括多模态的目标交互信息，每种模态的目标交互信息携带对应的时序信息，基于目标交互信息，控制机器人进行交互，包括：

基于每种模态的目标交互信息以及每种模态的目标交互信息携带的时序信息，控制机器人进行交互。

可选地，目标交互信息包括待显示图像，基于目标交互信息，控制机器人进行交互，包括：

控制柔性屏肢体部件显示待显示图像。

可选地，目标交互信息包括柔性屏肢体部件的位置信息，控制柔性屏肢体部件显示待显示图像，包括：

获取待显示图像包括的各个图像区域与预设显示位置之间的关联关系；

基于待显示图像包括的各个图像区域与预设显示位置之间的关联关系，获取与各个柔性屏肢体部件的位置信息对应的目标图像区域；

控制柔性屏肢体部件显示目标图像区域的图像。

第二方面，本公开还提供一种机器人的交互控制装置，装置包括：多模态数据获取模块，用于获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据；

感知识别模块，用于对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；

预测模块，用于基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；

控制模块，用于基于目标交互信息，控制机器人进行交互。

第三方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中方法的步骤。

第四方面，本公开还提供了一种机器人的交互控制装置，包括：

存储器，其上存储有计算机程序；

处理器，用于执行存储器中的计算机程序，以实现第一方面中方法的步骤。

第五方面，本公开还提供了一种机器人，机器人包括执行器、多种类型的传感器、以及与多种传感器以及执行器连接的处理装置，执行器包括设置在机器人主体上的柔性屏肢体部件；

处理装置用于：获取多种模态的数据，多种模态的数据包括通过柔性屏肢体部件采集的触觉数据、通过多种类型的传感器分别采集的环境状态数据、视觉数据、语音数据以及力感数据中的至少两种数据的组合；对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；基于目标交互信息，控制对应的执行器进行交互操作。

通过上述技术方案，在获取用于控制目标环境下的机器人的多种模态的数据之后，先对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；然后再基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；最后便可以基于目标交互信息，控制机器人进行交互。由于语义级环境特征考虑了到环境特征携带的语义信息，可以减少识别得到的环境特征存在的歧义，因此，通过语义级环境特征可以提高预测得到的目标交互信息的准确性，从而提高机器人交互的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是实施例提供的一种机器人的交互控制方法的流程示意图。

图2是实施例中步骤S13的一种流程示意图。

图3是实施例提供的一种目标交互信息预测模型的训练过程的流程示意图。

图4是实施例提供的一种控制柔性屏肢体部件显示待显示图像的流程示意图。

图5是实施例提供的另一种机器人的交互控制方法的流程示意图。

图6是实施例提供的一种机器人的交互控制装置的结构示意图。

图7是实施例提供的另一种机器人的交互控制装置的结构示意图。

图8是实施例提供的另一种机器人的交互控制装置的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

请参阅图1，图1是根据本公开一示例性实施例示出的一种机器人的交互控制方法的流程图，如图1所示，该机器人的交互控制方法包括步骤S11至步骤S14。具体的：

S11，获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据。

其中，目标环境是指需要控制的机器人当前所处的环境。可以理解的是，不同的服务机器人所服务的环境是不同的。例如，对于迎宾机器人，主要服务在场所入口，教育机器人主要服务于教室中，会议室服务机器人主要服务器于会议室中。以迎宾机器人为例，当其服务在某个场所的入口时，目标环境即为该迎宾机器人所服务的场所入口所处的环境。

本公开中，每一种信息的来源或者形式，都可以称为一种模态，不同数据来源的数据可以看作是不同的模态的数据，或者说一种模态的数据表征一类数据来源数据。例如，可以通过不同的传感器采集不同来源的数据，从而通过多个不同传感器采集的数据可以称为多种模态的数据。可以理解的是，根据机器人所需要完成的任务不同，不同的机器人可以携带不同类型的传感器。从而采集得到的多种模态的数据也不同。

在一些实施方式中，机器人可以携带触觉传感器、环境状态传感器、视觉传感器、语音传感器以及力觉传感器等基础传感器，这种情况下，多种模态的数据可以包括通过触觉传感器采集的触觉数据、通过环境状态传感器采集的环境状态数据、通过视觉传感器采集的视觉数据、通过语音传感器采集的语音数据以及通过力觉传感器采集的力感数据。其中，视觉传感器可以是3D深度相机以及激光雷达等传感器。

在另一些实施方式中，机器人除了可以携带环境状态传感器、视觉传感器、语音传感器以及力觉传感器等基础传感器之外，还可以携带柔性屏肢体部件，利用柔性屏肢体部件作为触觉传感器。这种情况下，多种模态的数据可以包括通过柔性屏肢体部件采集的触觉数据、通过环境状态传感器采集的环境状态数据、通过视觉传感器采集的视觉数据、通过语音传感器采集的语音数据以及通过力觉传感器采集的力感数据。其中，柔性屏肢体部件可以理解为机器人肢体部件上覆盖的柔性触摸屏外壳。

本实施例中，机器人可以是各种仿人型的机器人或者其他形态的机器人。其中，仿人型的机器人的肢体部件构成包括但不限于多自由度的头部、脖子关节、双臂(大臂、小臂、肘关节)、仿人形手(2-5指，每指2-3关节)、多自由度腰部、单腿或双腿、膝关节、双脚、各种行状态轮式底盘等，这些机器人肢体部件的外壳，均可全部或部分采用这种柔性触摸屏，形成机器人的“皮肤”。

可以理解的是，通过设置柔性屏肢体部件的方式，使得环境中的对象通过接触机器人的任意肢体部件便可以采集到触觉数据，简化了触觉数据采集过程，使得触觉数据采集更加方便。

此外，本实施例中的柔性屏肢体部件支持但不限于单点、多点触控、滑动触控等。

其中，获取用于控制目标环境下的机器人的多种模态的数据可以有多种方式。

作为一种实施方式，多模态的数据可以全部从机器人携带的传感器获得。

此外，考虑到机器人携带的传感器可能存在发生故障或者存在数据采集权限限制等特殊情况，从而不能从机器人携带的传感器获取全部所需的各种模态的数据，这种情况下，作为另一种实施方式，多模态的数据可以部分从机器人携带的传感器获得，部分从目标环境中安装的传感器获得。

其中，对于从目标环境中安装的传感器获得这种情况，具体可以是先与目标环境中安装的传感器建立通信连接，然后再从目标环境中安装的传感器获得对应模态的数据。

S12，对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

其中，语义级环境特征是指考虑了语义信息的环境特征，环境特征可以理解为环境中的对象以及对象具备的属性。例如，在不考虑语义信息的情况下，苹果可以作为一种吃的水果，还可以理解为一种手机品牌，因此，为了使得识别得到的环境特征不存在歧义，避免控制机器人产生错误的交互行为，本实施例中，可以先对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

其中，对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征，可以有多种方式。

可选地，可以先采用面向多模态表达的紧致哈希编码方法对多种模态的数据进行处理，该方法能够考虑到模态内和模态间的相关性约束，然后，再采用正交正则化方法进一步对得到的哈希编码特征进行处理，从而降低哈希编码特征的冗余性，最终得到目标环境下的各种模态对应的语义级环境特征。

可选地，也可以基于自适应相似结构正则化的部分多模态稀疏编码模型对多种模态的数据进行处理，得到目标环境下的各种模态对应的语义级环境特征。

S13，基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息。

其中，目标环境对应的对象语义关系网络可以根据目标环境下的场景信息以及先验知识进行构建。目标交互信息是指用于控制机器人进行交互的信息。

在一些实施方式中，预测得到的机器人对应的交互信息可以只有一种，这种情况下，可以直接将该交互信息确定为目标交互信息。在另一些实施方式中，预测得到的机器人对应的交互信息可以有多种，这种情况下，可以利用预先设置的综合决策模块，对机器人对应的多种交互信息进行综合决策，从多种交互信息中给出最佳的交互信息，即目标交互信息。

示例性的，假设目标环境是会议室环境，根据会议室的场景信息，可以知道，通常情况下会议室中摆放有会议桌以及茶杯，其中茶杯摆放在会议桌上，且茶杯之间的间隔为50厘米，在会议室中存在会议人员时，应该在茶杯中接入茶水，此外，根据先验知识，可以知道茶水不超过杯沿的80％，且接完水之后要盖上杯盖。这种情况下，根据目标环境下的场景信息以及先验知识可以构建茶桌、茶杯、茶水、杯盖等对象之间的对象语义关系网络。

本实施例中，在得到各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络之后，可以通过语义推理的方式预测得到机器人对应的目标交互信息。

其中，目标交互信息是指用于控制机器人与环境中的对象进行交互的指令信息。示例性地，在会议室环境中，目标交互信息可以是加水指令，具体为往第一个杯子中接入茶水，接水量为杯沿的75％，接水完成后，盖上第一个杯子的杯盖。再例如，在迎宾环境中，目标交互信息可以是保持微笑、弯腰并伸手与客人握手等。

在一些实施方式中，目标交互信息

其中，基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息可以有多种方式。

作为一种实现方式，可以直接将各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

作为另一种实现方式，可以先对各种模态对应的语义级环境特征进行处理，再将处理后的环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。这种情况下，请参阅图2，如图2所示，步骤S13可以包括以下步骤：

S131，对各种模态对应的语义级环境特征进行对齐处理，得到各种模态对应的跨语义环境特征。

其中，对齐处理是指识别不同模态之间的部件、元素的对应关系，从而促使学习到的各种模态的跨语义环境特征表示更加精确，为后续的目标交互信息预测模型提供更细致的线索。

可选地，对齐处理的具体方法，包括但不限于利用最大边距学习方式结合局部对齐(例如，视觉对象和词汇对齐，或者和触控身体部位对齐)和全局对齐(例如图片和语句对齐，或者和触控对应的动作(握手/拥抱等))方法来学习共同嵌入表示空间，对齐后的跨语义表示可以较好地提高目标交互信息预测模型预测的质量。

S132，对各种模态对应的跨语义环境特征进行融合处理，得到目标环境下的融合环境特征。

融合处理是指整合不同模态间的模型与特征，融合处理能获得更全面的特征，提高模型鲁棒性，并且保证模型在某些模态信息缺失时仍能有效工作。比如缺失用户视觉表情或表情是高兴的，但语言表达沮丧的情况下，仍能有效工作；又比如语音识别当前这个人的情绪是高兴，但视觉识别的他的表情是沮丧，虽然都是描述这个人的情绪，但还需要融合当前场景的上下文信息，比如可能表达高兴的语音是另一个人的。

S133，将融合环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

在得到融合环境特征之后，便可以将融合环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

可以理解的是，各种模态对应的语义级环境特征以及融合环境特征都是语义级环境特征，因此，可以使用同一个目标交互信息预测模型进行处理。

下面再结合图3，对目标交互信息预测模型的训练过程进行介绍。如图3所示，目标交互信息预测模型的训练过程包括以下步骤：

S21，获取多个样本数据。

其中，每个样本数据包括目标环境对应的样本对象以及对象语义关系网络，且样本对象携带对应得语义信息。

作为一种实施方式，目标环境中的样本对象可以是人为选择确定的，并为其标注语义信息。

S22，基于多个样本数据对初始神经网络模型进行训练，直至满足预设的训练条件，停止训练并输出目标交互信息预测网络。

可选地，预设的训练条件可以是预设迭代次数，对应的，判断是否满足预设的训练条件为：判断当前迭代次数是否大于预设迭代次数，且在当前迭代次数大于预设迭代次数时，确定满足预设条件。

作为一种实施方式，初始神经网络模型可以是基于强化学习的马尔科夫决策链。

S14，基于目标交互信息，控制机器人进行交互。

需要说明的是，本公开实施例提供的机器人的交互控制方法可以仅在机器人本地执行，也可以仅在服务器执行，还可以部分由机器人本地执行，部分由服务器执行。

作为一种实施方式，当机器人的交互控制方法在机器人本地执行时，机器人可以包括执行器、多种类型的传感器、以及与多种传感器以及执行器连接的处理装置，执行器包括设置在机器人主体上的柔性屏肢体部件，其中，柔性屏肢体部件可以通过在机器人的肢体部件上覆盖柔性屏得到。这种情况下，处理装置具体用于获取多种模态的数据，多种模态的数据包括通过柔性屏肢体部件采集的触觉数据、通过多种类型的传感器分别采集的环境状态数据、视觉数据、语音数据以及力感数据中的至少两种数据的组合；对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；基于目标交互信息，控制对应的执行器进行交互操作。

当然，多种模态中的部分模态的数据也可以从目标环境中安装的传感器中获得。

作为另一种实施方式，当机器人的交互控制方法在服务器执行时，服务器可以执行上述步骤S11-S14。这种情况下，在步骤S11中，服务器可以从机器人携带的传感器获取多种模态的数据，服务器还可以从从机器人携带的传感器以及目标环境中安装的传感器共同获得。在步骤S14中，服务器基于目标交互信息，控制机器人进行交互，具体可以是服务器先将目标交互信息发送到机器人本地，由机器人本地的执行器进行交互操作。采用该方式，可以将多模态数据的处理过程交由算力更强的服务器执行，最终只需要将目标交互信息发送到执行器，由执行器进行交互操作即可，可以降低对于机器人的硬件要求。

作为再一种实施方式，当机器人的交互控制方法部分由机器人本地执行，部分由服务器执行时，上述步骤S11-S14中的任意步骤均可以由机器人执行，剩余的步骤则可以由服务器执行，并且当相邻的两个步骤分别在服务器以及在机器人本地执行时，可以通过机器人本地与服务器之间的网络传输中间过程的数据。采用该方式，可以在机器人本地突然出现处理故障时，但是网络功能以及执行器功能正常的情况下，将处理过程转由正常运行以及算力更强的服务器执行，使得即使机器人本地突然出现处理故障时依然能够实现对机器人的交互控制控制功能。

此外，为了加强传输私密性以及安全性，在一些实施方式中，上述机器人本地与服务器之间的网络可以是专用网络。

采用上述技术方案，在获取用于控制目标环境下的机器人的多种模态的数据之后，先对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；然后再基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；最后便可以基于目标交互信息，控制机器人进行交互。由于语义级环境特征考虑到环境特征携带的语义信息，可以减少识别得到的环境特征存在的歧义，因此，通过语义级环境特征可以提高预测得到的目标交互信息的准确性，从而提高机器人交互的准确性。

结合前述内容可知，在一些实施方式中，机器人可以包括柔性屏肢体部件、环境状态传感器、视觉传感器、语音传感器以及力觉传感器，多种模态的数据包括通过柔性屏肢体部件采集的触觉数据、通过环境状态传感器采集的环境状态数据、通过视觉传感器采集的视觉数据、通过语音传感器采集的语音数据以及通过力觉传感器采集的力感数据。

本实施例中，机器人进行交互的方式可以有多种。可选地，在机器人包括柔性屏肢体部件的情况下，可以是通过柔性屏肢体进行图像显示的方式进行交互，可选地，还可以是通过变换柔性屏肢体形态的方式进行交互，可选地，还可以是通过语音输出的方式进行交互等交互方式，可选地，还可以是多种交互方式同时执行的交互方式。这种情况下，步骤S14可以包括以下步骤中一者或者多者的组合：

在所述目标交互信息包括待显示图像的情况下，控制所述柔性屏肢体部件显示所述待显示图像；或者

在所述目标交互信息包括位置移动信息的情况下，控制所述机器人基于所述位置移动信息进行移动；或者

在所述目标交互信息包括肢体运动信息的情况下，控制所述机器人的柔性屏肢体部件基于所述肢体运动信息进行运动；或者

在所述目标交互信息包括语音信息的情况下，控制所述机器人以音频形式输出所述语音信息对应的内容。

可以理解的是，柔性屏肢体部件除了可以用于采集触觉数据之外，还可以用于图像显示，这种情况下，若目标交互信息中包括待显示图像，则可以控制柔性屏肢体部件显示待显示图像。

其中，柔性屏肢体部件显示待显示图像可以有多种显示方式。

在一些实施方式中，可以是每个柔性屏肢体单独显示待显示图像对应的全部图像或者部分图像，还可以是所有的柔性屏肢体作为一个整体显示待显示图像对应的全部图像或者部分图像。并且，在显示待显示图像时可以以画中画的形式进行显示。

本实施例中，通过柔性屏肢体部件对待显示图像进行显示，相较于相关技术中的只在机器人胸部位置以显示屏进行显示的方式，增加了图像显示的多样性。

在另一些实施方式中，考虑到机器人可以发生肢体交互，从而导致柔性屏肢体部件的位置发生改变，例如上下挥手。这种情况下，若机器人的柔性屏肢体部件始终显示的是同一个图像区域的图像的话，可能导致在柔性屏肢体部件的位置改变前后，某个柔性屏肢体部件显示的图像不能与其他柔性屏肢体部件显示的图像融合成一个整体图像，导致图像错位。例如，机器人手臂上的柔性屏在前一时刻显示的是待显示图像的上部分图像区域的图像，当机器人做出向下挥手的动作后，若还是显示待显示图像的上部分图像区域的图像的话，此时，手臂上的柔性屏显示的图像与腿部上的柔性屏显示的图像会存在图像错位，不能构成一个整体图像。那么这种情况下，为了避免显示错位，提高机器人交互效果，目标交互信息可以包括柔性屏肢体部件的位置信息，这种情况下，请参阅图4，控制柔性屏肢体部件显示待显示图像具体可以包括步骤S141至步骤S143。具体地：

S141，获取待显示图像包括的各个图像区域与预设显示位置之间的关联关系。

可以理解的是，对于任一张待显示图像而言，是可以划分出不同的图像区域的。例如，可以按照像素点进行划分，将一个或者多个相邻的像素点作为一个图像显示区域。

本实施例中，可以预先设置待显示图像被完整显示时，待显示图像中的每个图像区域对应的显示位置，从而得到待显示图像包括的各个图像区域与预设显示位置之间的关联关系。其中，图像区域对应得显示位置是二维或者三维坐标系下的位置。

S142，基于待显示图像包括的各个图像区域与预设显示位置之间的关联关系，获取与各个柔性屏肢体部件的位置信息对应的目标图像区域。

S143，控制柔性屏肢体部件显示目标图像区域的图像。

在获取到与各个柔性屏肢体部件的位置信息对应的目标图像区域之后，便可以控制柔性屏肢体部件显示目标图像区域的图像。

其中，目标交互信息包括柔性屏肢体部件的位置信息可以有多种形式。

可选地，该位置信息可以是交互前的位置信息以及交互后的位置信息。这种情况下，机器人的柔性屏肢体部件可以在交互前以及交互后分别显示不同的图像。

可选地，该位置信息可以是交互过程中的实时位置信息。这种情况下，机器人的柔性屏肢体部件可以在交互过程中实时动态显示不同的图像，进一步提高机器人交互的效果。

可以理解的是，上述过程中，仅仅是对基于目标交互信息中包括的待显示图像控制机器人进行交互的过程进行了详细说明，结合前述内容可知，目标交互信息可以是多模态的目标交互信息，即多种形式的目标交互信息，也即，目标交互信息中除了可以包括待显示图像之外，还可以包括其他形式的信息，例如，待输出的语音信息、肢体运动信息或者位置移动信息等，这种情况下，除了可以控制柔性屏肢体部件显示待显示图像之外，还可以控制语音输出模块输出语音信息，即控制机器人以音频形式输出语音信息对应的内容，或者控制机器人的柔性屏肢体部件根据肢体运动信息进行运动，或者控制所述机器人基于所述位置移动信息进行移动等。其中，位置移动信息是指机器人整体移动的位置信息。肢体运动信息是指柔性屏肢体部件运动的信息，例如，机器人肢体具体如何运动，运动到哪个位置等，可以是机器人能够执行的例如握手、跳舞、抓取等任意动作。

在一些实施方式中，在目标交互信息包括多模态的目标交互信息的情况下，每种模态的目标交互信息还可以携带对应的时序信息，此时，步骤S14具体可以包括步骤：基于每种模态的目标交互信息以及每种模态的目标交互信息携带的时序信息，控制机器人进行交互。

其中，时序信息是指目标交互信息执行时间的信息。本实施例中，在每种模态的目标交互信息携带时序信息的情况下，便可以基于每种模态的目标交互信息以及每种模态的目标交互信息携带的时序信息，控制机器人进行交互。

可选地，不同模态的目标交互信息携带的时序信息可以是不同的，例如，机器人在执行不同模态的目标交互信息时可以是先后执行，例如，先挥手，再发出问候语音，再以待显示图像的形式显示咨询问题。

可选地，不同模态的目标交互信息携带的时序信息还可以是相同的，例如，机器人在执行不同模态的目标交互信息时可以是同时执行，例如，在挥手的同时发出问候语音，且同时显示咨询问题。

可选地，不同模态的目标交互信息携带的时序信息还可以是部分相同，部分不同的，例如，在挥手的同时发出问候语音，在挥手以及问候语音之后，再显示咨询问题。

采用上述实施例的方法，可以使的机器人的交互行为更加贴近真实人类交互过程。

请参阅图5，图5是根据本公开又一示例性实施例示出的一种机器人的交互控制方法的流程图。如图5所示，该方法包括步骤S31至步骤S36。具体的：

S31，获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据。

其中，步骤S31与步骤S11类似，此处不再赘述。

S32，对多种模态的数据分别进行优化处理，得到多种模态的优化后的数据。

本实施例中，可以采用去噪、过滤、优化算法中的一种或者多种的组合来对多种模态的数据分别进行优化处理，得到多种模态的优化后的数据。如此，可以提高优化后的数据的质量。

S33，对多种模态的优化后的数据进行融合校正处理，得到多种模态的融合校正后的数据。

本实施例中，融合校正处理主要是为了保证多种模态的数据的一致性以及互补性。

例如，在一些情况下，不同传感器选择的原点或者基准点不同，从而导致考虑到不同传感器采集的针对同一个对象的数据存在偏差或者缺失，而为了更加准确表达同一个对象的数据，可以对多种模态的优化后的数据进行融合校正处理，得到多种模态的融合校正后的数据。

S34，对多种模态的融合校正后的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

本实施例中，在得到多种模态的融合校正后的数据之后，便可以对多种模态的融合校正后的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

S35，基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息。

S36，基于目标交互信息，控制机器人进行交互。

其中，步骤S34-S36与步骤S12-S14类似，此处不再赘述。

采用本实施例的方法，在得到用于控制目标环境下的机器人的多种模态的数据之后，先对多种模态的数据分别进行优化处理，得到多种模态的优化后的数据，然后再对得到多种模态的优化后的数据进行融合校正处理，再将多种模态的融合校正后的数据进行感知识别，可以提高感知识别的数据的质量，进一步提高后续对机器人交互的准确性。

下面结合一个业务接待或者咨询环境中的具体示例对本申请实施例的机器人的交互控制方法进行说明，其中，该方法应用于机器人。

在一个公共场所，比如机场、火车站或者地铁站，机器人作为接待和业务咨询服务。一个用户上前和机器人用手势打招呼，并说“机器人，你好”，机器人通过视觉传感器捕捉的视频中看到有人靠近，并伴随手势，并接收到了语音信号，即多种模态的数据；机器人对多种模态的数据进行了感知识别，得到各种模态对应的语义级环境特征，即有个25岁左右(视觉感知识别年龄)的男性(视觉感知识别性别)正在高兴(视觉感知识别表情)的走来，并用右手做着要和机器人“握手”的手势(视觉识别姿态)，还说了“机器人，你好，我要咨询问题”(语音识别)；机器人基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息，即目标交互信息为语音输出“早上好，乐于效劳”，肢体动作“伸手迎合用户握手的动作”，柔性屏幕肢体组件显示“友好、温暖和专业服务等主题的画面”，接着，机器人便可以做出以下行为：说着“早上好，乐于效劳”，同时做出伸手迎合用户握手的动作，同时，机器人身体皮肤显示友好、温暖和专业服务等主题的画面。

当机器人手和用户手握上后，机器人继续通过视觉传感器捕捉的视频中看到的人的人脸，通过手部柔性屏肢体部件采集掌纹，接着，继续对多种模态的数据进行了感知识别，得到各种模态对应的语义级环境特征，即人脸识别以及掌纹识别具体是哪个用户；接着，机器人基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息，机器人便可以基于目标交互信息进行交互。

例如，通过柔性显示皮肤显示该用户喜欢的颜色主题(例如握着的手可显示为纤纤玉手，或者卡通手，或者怪兽手)，以及通过柔性屏皮肤显示出当前他可能需要咨询的问题清单(回答问题显示)，以及语音输出询问问题(例如，你是想了解目的的天气情况么？)。

在完成询问之后，机器人可以松开握手处于自然站立的服务姿态，同时继续接收语音数据(例如，是的)，然后对语音数据进行感知识别，以及预测得到目标交互信息，然后基于目标交互信息进行交互。

例如，机器人语音输出用户问题的答案“你达到目的地时会下雨”，并在胸部柔性屏显示需要选择购买的各种伞，腰部显示目的地下雨的景象。再语音输出问题：您还有什么需要帮助么？

最后再继续接收语音数据(例如，用户说：没有了)，并继续进行交互，即机器人说：祝您愉快，“再见”，同时做出招手再见的动作。

请参阅图6，本公开一示例性实施例还提供一种机器人的交互控制装置400，该装置包括：

多模态数据获取模块410，用于获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据。

感知识别模块420，用于对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

预测模块430，用于基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息。

控制模块440，用于基于目标交互信息，控制机器人进行交互。

可选地，该装置400还包括：优化处理模块，用于对多种模态的数据分别进行优化处理，得到多种模态的优化后的数据。校正处理模块，用于对多种模态的优化后的数据进行融合校正处理，得到多种模态的融合校正后的数据。这种情况下，感知识别模块420还用于对多种模态的融合校正后的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征。

可选地，预测模块430还用于将各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

可选地，预测模块430还用于对各种模态对应的语义级环境特征进行对齐处理，得到各种模态对应的跨语义环境特征；对各种模态对应的跨语义环境特征进行融合处理，得到目标环境下的融合环境特征；将融合环境特征以及目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到机器人对应的目标交互信息。

可选地，该装置400还包括训练模块，用于获取多个样本数据，其中，每个样本数据包括目标环境对应的样本对象以及对象语义关系网络；基于多个样本数据对初始神经网络模型进行训练，直至满足预设的训练条件，停止训练并输出目标交互信息预测网络。

可选地，目标交互信息包括多模态的目标交互信息，每种模态的目标交互信息携带对应的时序信息，这种情况下，控制模块440还用于基于每种模态的目标交互信息以及每种模态的目标交互信息携带的时序信息，控制机器人进行交互。

可选地，目标交互信息包括待显示图像，这种情况下，控制模块440还用于控制柔性屏肢体部件显示待显示图像。

可选地，目标交互信息包括柔性屏肢体部件的位置信息，这种情况下，控制模块440包括第一获取子模块，第二获取子模块以及控制子模块，其中：

第一获取子模块，用于获取待显示图像包括的各个图像区域与预设显示位置之间的关联关系。

第二获取子模块，用于基于待显示图像包括的各个图像区域与预设显示位置之间的关联关系，获取与各个柔性屏肢体部件的位置信息对应的目标图像区域。

控制子模块，用于控制柔性屏肢体部件显示目标图像区域的图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种机器人的交互控制装置500的框图，该机器人的交互控制装置500例如可以机器人的一部分。如图7所示，该机器人的交互控制装置500可以包括：处理器501，存储器502。该机器人的交互控制装置500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该机器人的交互控制装置500的整体操作，以完成上述的机器人的交互控制方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该机器人的交互控制装置500的操作，这些数据例如可以包括用于在该机器人的交互控制装置500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该机器人的交互控制装置500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，机器人的交互控制装置500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的机器人的交互控制方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的机器人的交互控制方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由机器人的交互控制装置500的处理器501执行以完成上述的机器人的交互控制方法。

图8是根据一示例性实施例示出的一种机器人的交互控制装置600的框图。例如，机器人的交互控制装置600可以被提供为一服务器。参照图8，机器人的交互控制装置600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的机器人的交互控制方法。

另外，机器人的交互控制装置600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行机器人的交互控制装置600的电源管理，该通信组件650可以被配置为实现机器人的交互控制装置600的通信，例如，有线或无线通信。此外，该机器人的交互控制装置600还可以包括输入/输出(I/O)接口658。机器人的交互控制装置600可以操作基于存储在存储器632的操作***，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的机器人的交互控制方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由机器人的交互控制装置600的处理器622执行以完成上述的机器人的交互控制方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的机器人的交互控制方法的代码部分。

在另一示例性实施例中，还提供了一种机器人，机器人包括执行器、多种类型的传感器、以及与多种传感器以及执行器连接的处理装置，执行器包括设置在机器人主体上的柔性屏肢体部件；处理装置用于：获取多种模态的数据，多种模态的数据包括通过柔性屏肢体部件采集的触觉数据、通过多种类型的传感器分别采集的环境状态数据、视觉数据、语音数据以及力感数据中的至少两种数据的组合；对多种模态的数据进行感知识别，得到目标环境下的各种模态对应的语义级环境特征；基于各种模态对应的语义级环境特征以及目标环境对应的对象语义关系网络，预测机器人对应的目标交互信息；基于目标交互信息，控制对应的执行器进行交互操作。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种机器人的交互控制方法，其特征在于，所述方法包括：

对所述多种模态的数据进行感知识别，得到所述目标环境下的各种模态对应的语义级环境特征；

基于所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络，预测所述机器人对应的目标交互信息；

基于所述目标交互信息，控制所述机器人进行交互。

2.根据权利要求1所述的机器人的交互控制方法，其特征在于，所述获取目标环境下的多种模态的数据之后，所述方法还包括：

对所述多种模态的数据分别进行优化处理，得到多种模态的优化后的数据；

对所述多种模态的优化后的数据进行融合校正处理，得到多种模态的融合校正后的数据；

所述对所述多种模态的数据进行感知识别，得到所述目标环境下的各种模态对应的语义级环境特征，包括：

对所述多种模态的融合校正后的数据进行感知识别，得到所述目标环境下的各种模态对应的语义级环境特征。

3.根据权利要求1所述的机器人的交互控制方法，其特征在于，所述基于所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络，预测所述机器人对应的目标交互信息，包括：

将所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络输入目标交互信息预测模型，得到所述机器人对应的目标交互信息。

4.根据权利要求1所述的机器人的交互控制方法，其特征在于，所述基于所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络，预测所述机器人对应的目标交互信息，包括：

对所述各种模态对应的语义级环境特征进行对齐处理，得到各种模态对应的跨语义环境特征；

对所述各种模态对应的跨语义环境特征进行融合处理，得到所述目标环境下的融合环境特征；

将所述融合环境特征以及所述目标环境对应的对象语义关系网络输入所述目标交互信息预测模型，得到所述机器人对应的目标交互信息。

5.根据权利要求3或4所述的机器人的交互控制方法，其特征在于，所述目标交互信息预测模型的训练过程包括：

获取多个样本数据，其中，每个所述样本数据包括所述目标环境对应的样本对象以及对象语义关系网络；

基于所述多个样本数据对初始神经网络模型进行训练，直至满足预设的训练条件，停止训练并输出所述目标交互信息预测网络。

6.根据权利要求1-4任一项所述的机器人的交互控制方法，其特征在于，所述机器人包括柔性屏肢体部件、环境状态传感器、视觉传感器、语音传感器以及力觉传感器，所述多种模态的数据包括通过所述柔性屏肢体部件采集的触觉数据、通过环境状态传感器采集的环境状态数据、通过视觉传感器采集的视觉数据、通过语音传感器采集的语音数据以及通过力觉传感器采集的力感数据。

7.根据权利要求6所述的机器人的交互控制方法，其特征在于，所述目标交互信息包括多模态的目标交互信息，每种模态的目标交互信息携带对应的时序信息，所述基于所述目标交互信息，控制所述机器人进行交互，包括：

基于所述每种模态的目标交互信息以及所述每种模态的目标交互信息携带的时序信息，控制所述机器人进行交互。

8.根据权利要求6所述的机器人的交互控制方法，其特征在于，目标交互信息所述基于所述目标交互信息，控制所述机器人进行交互，包括以下步骤中一者或者多者的组合：

9.根据权利要求8所述的机器人的交互控制方法，其特征在于，所述目标交互信息包括柔性屏肢体部件的位置信息，所述在所述目标交互信息包括待显示图像的情况下，控制所述柔性屏肢体部件显示所述待显示图像，包括：

控制所述柔性屏肢体部件显示所述目标图像区域的图像。

10.一种机器人的交互控制装置，其特征在于，包括：

多模态数据获取模块，用于获取用于控制目标环境下的机器人的多种模态的数据，一种模态的数据表征一类数据来源数据；

感知识别模块，用于对所述多种模态的数据进行感知识别，得到所述目标环境下的各种模态对应的语义级环境特征；

预测模块，用于基于所述各种模态对应的语义级环境特征以及所述目标环境对应的对象语义关系网络，预测所述机器人对应的目标交互信息；

控制模块，用于基于所述目标交互信息，控制所述机器人进行交互。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

12.一种机器人的交互控制装置，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。

13.一种机器人，其特征在于，所述机器人包括执行器、多种类型的传感器、以及与所述多种传感器以及所述执行器连接的处理装置，所述执行器包括设置在机器人主体上的柔性屏肢体部件；

所述处理装置用于：

获取多种模态的数据，所述多种模态的数据包括通过所述柔性屏肢体部件采集的触觉数据、通过所述多种类型的传感器分别采集的环境状态数据、视觉数据、语音数据以及力感数据中的至少两种数据的组合；

基于所述目标交互信息，控制对应的所述执行器进行交互操作。