CN113379879A

CN113379879A - 交互方法、装置、设备、存储介质以及计算机程序产品

Info

Publication number: CN113379879A
Application number: CN202110701948.XA
Authority: CN
Inventors: 韦多; 肖雪; 杨明哲; 贺京; 丁美元; 胡丽娜; 李想; 朱紫瑜; 徐阳意; 赵慧斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-10

Abstract

本公开提供了一种交互方法、装置、设备、存储介质以及计算机程序产品，涉及人工智能技术领域，尤其涉及计算机视觉领域。具体实现方案为：获取输入信息以及与输入信息对应的通信标识；为输入信息配置虚拟形象；基于通信标识确定至少一个通信对端；将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。可以将虚拟形象作为交互的媒介，提高了交互效率。

Description

交互方法、装置、设备、存储介质以及计算机程序产品

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉技术领域，尤其涉及一种交互方法、装置、设备、存储介质以及计算机程序产品。

背景技术

随着人工智能技术的快速发展，虚拟偶像和虚拟主播等虚拟形象也逐渐被大众广泛使用，这些虚拟形象的动作和表情均可以由真人的动作和表情进行实时控制。

发明内容

本公开提供了一种交互方法、装置、设备、存储介质以及计算机程序产品，提高了交互效率。

根据本公开的一方面，提供了一种交互方法，包括：获取输入信息以及与输入信息对应的通信标识；为输入信息配置虚拟形象；基于通信标识确定至少一个通信对端；将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。

根据本公开的另一方面，提供了一种交互装置，包括：获取模块，被配置为获取输入信息以及与输入信息对应的通信标识；配置模块，被配置为为输入信息配置虚拟形象；确定模块，被配置为基于通信标识确定至少一个通信对端；驱动模块，被配置为将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述交互方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行上述交互方法。

根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现上述交互方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开可以应用于其中的示例性***架构图；

图2是根据本公开的交互方法的一个实施例的流程图；

图3是根据本公开的交互方法的另一个实施例的流程图；

图4是根据本公开的交互方法的又一个实施例的流程图；

图5是根据本公开的基于输入信息和补充信息驱动虚拟形象的一个实施例的流程图；

图6是根据本公开的交互装置的一个实施例的结构示意图；

图7是用来实现本公开实施例的交互方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本公开的交互方法或交互装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，也可以经由服务器105实现终端设备101、102、103之间的交互。终端设备101、102、103上可以安装有各种客户端应用，例如视频聊天、视频会议应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种交互服务。例如，服务器105可以对从终端设备101、102、103获取到的用户语音以及动作进行分析和处理，并生成处理结果(例如对虚拟形象进行驱动等)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的交互方法一般由服务器105执行，相应地，交互装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的交互方法的一个实施例的流程200。该交互方法包括以下步骤：

步骤201、获取输入信息以及与输入信息对应的通信标识。

在本实施例中，交互方法的执行主体(例如图1所示的服务器105)可以获取用户通过终端设备(例如图1所示的终端设备101、102、103)输入的信息，该信息主要用于与其他用户进行信息交互。例如，用户可以通过输入语音信息与其他用户进行语音通话，或者通过输入视频信息与其他用户进行视频聊天/视频会议。每一个信息交互的通道都可以具备一个唯一的通信标识，通过该通信标识可以定位到参与当前通信的每一个终端。

步骤202、为输入信息配置虚拟形象。

在本实施例中，上述执行主体在获取到输入信息后，可以进一步为输入信息配置一个虚拟形象。通过构建虚拟形象模型可以得到相应的虚拟形象，其通常是一个人物形象的3D模型。上述执行主体可以直接创建一个新的虚拟形象模型，或者从已有的虚拟形象模型库中选择一个虚拟形象模型。示例性的，可以先获取一个预先构建的基础角色模型，然后根据实际需求进行个性化修饰，例如，对基础角色模型的发型、脸型、身材和服饰等进行配置，最后得到需要的虚拟形象。

需要说明的是，本实施例中的虚拟形象模型可以用现有技术中的3D建模方法进行构建，在此不再赘述。

步骤203、基于通信标识确定至少一个通信对端。

在本实施例中，上述执行主体在上述步骤201中得到通信标识后，就可以进一步根据通信标识确定与上述输入信息进行通信的一个或多个通信对端。通常，终端间进行通信交互的方式包括语音通话，视频通话，文字信息交互等。在通过全球移动通信***进行语音通话时，可以将电话号码作为通信标识。在通过各类及时通讯应用程序进行文字、语音或视频交互式，可以将用户账号作为通信标识。当有多个用户账号同时进行通信交互时，例如多人视频通话或多人在线会议时，可以将多人所在的群号或会议号作为通信标识。在得到通信标识后，就可以确定出参与当前通信的所有终端，除去在步骤201中输入信息的终端本身，其他所用参与通信的终端都可以认为是与输入信息进行交互的通信对端。

为了便于区分，在本公开实施例中，在步骤201中输入信息的终端称为本端，与本端进行通信交互的所有终端为上述通信对端。

步骤204、将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。

在本实施例中，上述执行主体在确定出至少一个通信对端后，可以将在步骤202中配置的虚拟形象分别推送到每个通信对端，并且进一步根据输入信息驱动虚拟形象。这样在与通信对端进行交互时，不但能进行常规的文字、语音、视频通信，还能进一步将代表本端的虚拟形象，推送到对端并在对端设备上进行呈现，并且虚拟形象可以通过本端的输入信息在对端上进行驱动，以展现本端用户的身体动作信息。

本公开实施例提供的交互方法，首先获取输入信息以及与输入信息对应的通信标识，然后为输入信息配置虚拟形象，接着基于通信标识确定至少一个通信对端，最后将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。通过使用虚拟人来代表真实用户进行交流沟通，扩展了终端用户间的交互模式，提高了交互效率。

进一步继续参考图3，其示出了根据本公开的交互方法的另一个实施例的流程300。该交互方法包括以下步骤：

步骤301、获取输入信息以及与输入信息对应的通信标识。

在本实施例中，步骤301具体操作已在图2所示的实施例中步骤201进行了详细的介绍，在此不再赘述。

在本实施例中，上述执行主体在得到输入信息后，可以进一步判断输入信息中是否包含面部图像信息，如果包含则执行下述步骤302，否则执行下述步骤303。

步骤302、响应于输入信息中包括面部图像信息，基于面部图像信息生成虚拟形象。

在本实施例中，上述执行主体在确定输入信息中包含面部图像信息后，说明本端的用户开启了终端的图像传感器，输入信息中的面部图像通常为本端用户的人脸图像，此时可以进一步基于面部图像信息生成虚拟形象。具体地，可以将面部图像中所包含的人脸图像作为虚拟形象的脸部原型，进行3D建模，得到虚拟形象。

步骤303、响应于输入信息中不包括面部图像信息，获取输入信息对应的属性信息，并基于属性信息生成虚拟形象。

在本实施例中，上述执行主体在确定输入信息中不包含面部图像信息后，说明本端的用户没有开启终端的图像传感器或将镜头对在了非人脸位置，由于未得到用户面部图像，此时可以进一步获取输入信息对应的属性信息。其中，属性信息可以是本端用户的个性化信息，例如，对某种人物形象的偏好等。在获取属性信息后，可以进一步基于属性信息生成对应的虚拟形象，例如，将本端用户喜欢的动漫人物作为虚拟形象。

步骤304、基于通信标识确定至少一个通信对端。

在本实施例中，步骤304具体操作已在图2所示的实施例中步骤203进行了详细的介绍，在此不再赘述。

步骤305、将虚拟形象推送至至少一个通信对端，并基于输入信息生成补充信息。

在本实施例中，上述执行主体在确定出至少一个通信对端后，可以将在步骤302或303中生成的虚拟形象分别推送到每个通信对端，并且可以进一步判断输入信息是否全面，若输入信息有所缺失，还可以进一步对输入信息进行补充，生成补充信息。例如，在某些网络信号不好的场所(地铁上等)，用户输入的语音信号可能出现断断续续的情况，此时可以根据用户语音信息的实际含义和上下文情况，对缺失的语音信号进行补充。

在本实施例的一些可选实现方式中，上述基于输入信息生成补充信息包括：基于输入信息的信息类型，确定补充信息的信息类型；基于输入信息的信息内容以及补充信息的信息类型，生成补充信息。在本实施例中，上述执行主体在判断输入信息是否全面时，主要根据输入信息所包含的信息类型来判断，并将缺少的信息类型确定为补充信息的信息类型。示例性的，要驱动虚拟形象，通常需要语音信息、面部表情信息和肢体动作信息这三类驱动信息共同左右，如果输入信息中少了这三类中的一类或多类信息，则可以将其确定为补充信息的信息类型。然后可以根据输入信息的信息内容以及补充信息的信息类型，生成补充信息，其中补充信息的内容可以是与输入信息的内容相匹配的。本实现方式通过信息类别确定是否需要对输入信息进行补充，提高了补充信息的生成速度和准确度。

在本实施例的一些可选实现方式中，上述信息类型包括：文字类、语音类、面部表情类和肢体动作类。其中，文字类信息是文本信息，语音类信息主要包括不包含图像的纯声音信息，面部表情信息主要包括面部五官动作导致的表情变化信息，肢体动作信息可以包括四肢动作信息和手指动作信息。对于输入信息来说，文字类信息可以通过实体或虚拟键盘输入，语音类信息可以通过声音传感器(例如麦克风)采集，面部表情信息和肢体动作信息都可以通过图像传感器(例如摄像头)采集和图像分析两步确定。

步骤306、基于输入信息和补充信息驱动虚拟形象。

在本实施例中，上述执行主体在生成补充信息之后，可以同时通过输入信息和补充信息来驱动虚拟形象，使得呈现在通信对端的虚拟形象能够做出相应的动作和表情。

在本实施例的一些可选实现方式中，交互方法还包括：在本端的显示界面上显示虚拟形象，并基于输入信息和补充信息驱动该虚拟形象。这样本端用户也可以实时获取到虚拟形象的表情和动作，有利于提高本端用户的交互意愿。

从图3中可以看出，与图2对应的实施例相比，本实施例中的交互方法在得到输入信息后，可以根据输入信息是否包括面部图像信息，来确定如何生成虚拟形象，使得虚拟形象更具备感染力。并且，基于输入信息生成了补充信息，并同时使用输入信息和补充信息驱动虚拟形象，使得虚拟形象能够传递更加丰富准确的信息，改善了交互体验。

进一步继续参考图4，其示出了根据本公开的交互方法的又一个实施例的流程400。该交互方法包括以下步骤：

步骤401、获取输入信息以及与输入信息对应的通信标识。

步骤402、为输入信息配置虚拟形象。

在本实施例中，步骤402具体操作已在图2所示的实施例中步骤202或在图3所示的实施例中步骤302和303进行了详细的介绍，在此不再赘述。

步骤403、基于通信标识确定至少一个通信对端。

在本实施例中，步骤403具体操作已在图2所示的实施例中步骤203进行了详细的介绍，在此不再赘述。

步骤404、将虚拟形象推送至至少一个通信对端。

在本实施例中，上述执行主体在确定出至少一个通信对端后，可以将在步骤402中配置的虚拟形象分别推送到每个通信对端。

在本实施例中，上述执行主体在得到输入信息后，还可以对输入信息的内容进行检测，然后根据检测结果确定如何生成补充信息以驱动虚拟形象。根据输入信息内容的不同，本实施例中的交互方法可以执行下述步骤405和406，或者407和408，或者409和410。

步骤405、响应于输入信息仅包括语音信息，对语音信息进行语义识别，得到第一识别结果。

在本实施例中，上述执行主体检测到输入信息仅包括语音信息后，可以进一步对语音信息进行语义识别，得到第一识别结果。具体地，可以首先利用自动语音识别技术(Automatic Speech Recognition，ASR)将语音信息转换为文本信息，然后利用自然语言处理(Natural Language Processing，NLP)技术对文本信息进行语义识别，从而得到第一识别结果。

步骤406、基于第一识别结果生成面部表情信息和肢体动作信息，作为补充信息。

在本实施例中，上述执行主体在得到第一识别结果，即输入信息对应的语义结果后，可以进一步根据该语义结果生成面部表情信息和肢体动作信息。具体地，可以预先构建面部表情库，在该表情库中，每个表情都可以对应一个或多个语义标签，在基于第一识别结果生成面部表情信息时，可以将与第一结果匹配的语义标签对应的表情，作为补充信息的一部分。类似的，可以预先构建肢体动作库，并从该肢体动作库中获取与第一识别结果匹配的肢体动作信息，作为补充信息的另外一部分。

在本实施例的一些可选实现方式中，上述基于第一识别结果生成面部表情信息和肢体动作信息包括：根据第一识别结果确定语音信息对应的文本信息；将文本信息对应的手语动作序列确定为肢体动作信息。在本实施例中，为了方便与听力障碍人士进行交互，还可以将语音信息转化为手语动作。具体地，在得到第一识别结果后，可以根据具体的语义信息，将语音信息拆分为符合手语语法规则的文本信息，然后从预先构建的手语动作库中获取文本信息所对应的手语动作，并将全部文本信息对应的手语动作序列确定为肢体动作信息。其中，手语动作库中的动作轨迹可以通过动作捕捉设备采集真人动作获得，对应的语义标签可以通过人工标注确定。

步骤407、响应于输入信息仅包括语音信息和面部表情信息，对语音信息进行语义识别，得到第二识别结果。

在本实施例中，上述执行主体检测到输入信息包括语音信息和图像信息后，可以进一步对图像信息进行图像分析，若图像信息包括人脸图像，则可以从人脸图像中获取面部表情信息。若检测到输入信息仅包括语音信息和面部表情信息后，可以通过ASR和NLP技术对语音信息进行语义识别，得到第二识别结果。

步骤408、基于面部表情信息和第二识别结果，生成肢体动作信息，作为补充信息。

在本实施例中，上述执行主体在得到第二识别结果，即输入信息对应的语义结果后，可以进一步根据该语义结果和面部表情信息生成肢体动作信息。具体地，首先可以从预先构建面部表情库中，确定出面部表情信息所对应语义标签。接着，在一种可选的实现方式中，可以先将该语义标签与第二识别结果融合，得到融合后的语义结果，最后从预先构建的肢体动作库中获取与语义结果对应的肢体动作信息；在另一种可选的实现方式中，可以从预先构建的肢体动作库中，分别获取与第二识别结果和语义标签对应的候选肢体动作信息，然后将候选肢体动作信息进行融合，生成肢体动作信息。

步骤409、响应于输入信息仅包括肢体动作信息和面部表情信息，获取肢体动作信息对应的语义信息。

在本实施例中，上述执行主体检测到输入信息仅包括图像信息，而不包括语音信息后，可以通过图像分析获取肢体动作信息和/或面部表情信息。若确定输入信息仅包括肢体动作信息和面部表情信息，可以首先通过预先构建的肢体动作库获取肢体动作信息对应的语义标签，通过预先构建的面部表情库获取面部表情信息对应的语义标签，然后对获得的两部分语义标签进行整合，得到语义信息。

步骤410、基于语义信息，生成文本信息以及对应的语音信息，作为补充信息。

在本实施例中，上述执行主体在得到语义信息后，可以直接将语义信息作为文本信息，也可以根据通用语法规则对语义信息进行补充和整理，生成文本信息。之后还可以通过文字转语音(Text to speech，TTS)技术将文本信息转换为语音信息。此时，文本信息和语音信息都可以作为补充信息。

在本实施例的一些可选实现方式中，上述肢体动作信息包括手语动作信息；上述基于语义信息，生成文本信息以及对应的语音信息包括：基于手语语法规则，将语义信息转化为文本信息；基于输入信息的属性信息，将文本信息转化为语音信息。

具体地，手语动作信息通常可以包括手部姿势信息和上半身的肢体动作信息。在将手语动作信息转化为文本信息时，需要根据手语语法规则，将各个手语动作对应的语义信息进行组合，得到文本信息。在将文本信息转化为语音信息时，可以进一步获取输入信息对应的属性信息。其中，属性信息可以是本端用户的个性化信息，例如，性别、年龄等，可以进一步基于属性信息选取合适的发声声音，来生成语音信息。通过将手语动作转化为文本和声音，便于与听障人士进行交互。

步骤411、基于输入信息和补充信息驱动虚拟形象。

在本实施例中，步骤411具体操作已在图3所示的实施例中步骤306进行了详细的介绍，在此不再赘述。

在本实施例的一些可选实现方式，交互方法还包括：生成对虚拟形象的肢体动作和面部表情的描述信息；将描述信息推送至至少一个通信对端中的指定对端。在某些情况在，终端用户(例如，视觉障碍人士)可能无法看见虚拟形象的任何动作和表情，因此可以根据虚拟形象的肢体动作和面部表情生成描述信息，通常是对具体动作或表情进行描述的语音信息，然后再将描述信息发送给这些特殊的指定对端，从而通过播放描述信息实现多模态交互。

从图4中可以看出，与图3对应的实施例相比，本实施例中的交互方法在对输入信息进行补充时，根据输入信息的内容不同，对输入信息进行适应性补充，在输入信息仅包括语音信息时，生成面部表情信息和肢体动作信息作为补充信息；在输入信息仅包括语音信息和面部表情信息时，生成肢体动作信息作为补充信息；在输入信息仅包括肢体动作信息和面部表情信息时，生成语音信息作为补充信息。这样，无论输入信息的形式如何，都可以实现多模态的交互，从而进一步扩大交互方法的适用范围，改善了用户体验。

进一步继续参考图5，其示出了根据本公开的基于输入信息和补充信息驱动虚拟形象的一个实施例的流程500，包括以下步骤：

步骤501、基于语音信息生成口型信息。

在本实施例中，输入信息和补充信息合并在一起后，可以包括语音信息、面部表情信息和肢体动作信息。上述执行主体驱动虚拟模型前，需要对语音信息进行预处理，具体可以通过语音转动画(sound to animation)技术，将语音信息转化为驱动虚拟形象嘴部动作的口型信息。

步骤502、基于口型信息和面部表情信息驱动虚拟形象进行面部动作。

在本实施例中，由于口型信息和面部表情信息都会影响虚拟形象面部动作，所以在驱动虚拟形象时，需要按照驱动时间将同一时刻作用的口型信息和面部表情进行融合后，再进行驱动，从而在保证虚拟形象口型准确的同时，尽量保持面部表情自然柔和。

步骤503、基于肢体动作信息驱动虚拟形象进行肢体动作。

在本实施例中，上述执行主体在得到肢体动作信息之后，基于肢体动作信息驱动虚拟形象进行肢体动作，该肢体动作可以包括躯干和四肢动作、头部动作和手部姿势动作等。

需要说明的是，步骤502和步骤503可以是同时进行的，也可以是先后进行的，具体可以根据输入信息的发生顺序确定，

在本实施例的一些可选实现方式中，输入信息和补充信息还包括文本信息，在驱动虚拟形象的同时，还可以将文本信息显示在虚拟形象的展示界面上，以进一步扩大交互维度。

从图5中可以看出，本实施例可以通过多模态信息驱动虚拟形象，增强了虚拟形象的感染力，改善了交互体验。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种交互装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的交互装置600可以包括获取模块601，配置模块602，确定模块603和驱动模块604。其中，获取模块601，被配置为获取输入信息以及与输入信息对应的通信标识；配置模块602，被配置为为输入信息配置虚拟形象；确定模块703，被配置为基于通信标识确定至少一个通信对端；驱动模块604，被配置为将虚拟形象推送至至少一个通信对端，并基于输入信息驱动虚拟形象。

在本实施例中，交互装置600中：获取模块601，配置模块602，确定模块603和驱动模块604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，配置模块602包括：第一配置子模块，被配置为响应于输入信息中包括面部图像信息，基于面部图像信息生成虚拟形象；第二配置子模块，被配置为响应于输入信息中不包括面部图像信息，获取输入信息对应的属性信息，并基于属性信息生成虚拟形象。

在本实施例的一些可选实现方式中，驱动模块604包括：补充子模块，被配置为基于输入信息生成补充信息；驱动子模块，被配置为基于输入信息和补充信息驱动虚拟形象。

在本实施例的一些可选实现方式中，补充子模块包括：类型确定单元，被配置为基于输入信息的信息类型，确定补充信息的信息类型；信息补充单元，被配置为基于输入信息的信息内容以及补充信息的信息类型，生成补充信息。

在本实施例的一些可选实现方式中，信息类型包括：文字类、语音类、面部表情类和肢体动作类。

在本实施例的一些可选实现方式中，补充子模块包括：第一识别单元，被配置为响应于输入信息仅包括语音信息，对语音信息进行语义识别，得到第一识别结果；第一补充单元，被配置为基于第一识别结果生成面部表情信息和肢体动作信息，作为补充信息。

在本实施例的一些可选实现方式中，第一补充单元包括：文本确定子单元，被配置为根据第一识别结果确定语音信息对应的文本信息；动作确定子单元，被配置为将文本信息对应的手语动作序列确定为肢体动作信息。

在本实施例的一些可选实现方式中，补充子模块包括：第二识别单元，被配置为响应于输入信息仅包括语音信息和面部表情信息，对语音信息进行语义识别，得到第二识别结果；第二补充单元，被配置为基于面部表情信息和第二识别结果，生成肢体动作信息，作为补充信息。

在本实施例的一些可选实现方式中，补充子模块包括：语义获取单元，被配置为响应于输入信息仅包括肢体动作信息和面部表情信息，获取肢体动作信息和面部表情信息对应的语义信息；文本生成单元，被配置为基于语义信息，生成文本信息以及对应的语音信息，作为补充信息。

在本实施例的一些可选实现方式中，肢体动作信息包括手语动作信息；文本生成单元包括：语义转化子单元，被配置为基于手语语法规则，将语义信息转化为文本信息；文本转化子单元，被配置为基于输入信息的属性信息，将文本信息转化为语音信息

在本实施例的一些可选实现方式中，驱动子模块包括：口型生成单元，被配置为基于语音信息生成口型信息；面部驱动单元，被配置为基于口型信息和面部表情信息驱动虚拟形象进行面部动作；肢体驱动单元，被配置为基于肢体动作信息驱动虚拟形象进行肢体动作。

在本实施例的一些可选实现方式中，交互装置600还包括：描述模块，被配置为生成对虚拟形象的肢体动作和面部表情的描述信息；推送模块，被配置为将描述信息推送至至少一个通信对端中的指定对端。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如交互方法。例如，在一些实施例中，交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行交互方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式***的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。服务器可以为分布式***的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种交互方法，所述方法包括：

获取输入信息以及与所述输入信息对应的通信标识；

为所述输入信息配置虚拟形象；

基于所述通信标识确定至少一个通信对端；

将所述虚拟形象推送至所述至少一个通信对端，并基于所述输入信息驱动所述虚拟形象。

2.根据权利要求1所述的方法，其中，所述为所述输入信息配置虚拟形象包括：

响应于所述输入信息中包括面部图像信息，基于所述面部图像信息生成所述虚拟形象；

响应于所述输入信息中不包括面部图像信息，获取所述输入信息对应的属性信息，并基于所述属性信息生成虚拟形象。

3.根据权利要求1或2所述的方法，其中，所述基于所述输入信息驱动所述虚拟形象包括：

基于所述输入信息生成补充信息；

基于所述输入信息和所述补充信息驱动所述虚拟形象。

4.根据权利要求3所述的方法，其中，所述基于所述输入信息生成补充信息包括：

基于所述输入信息的信息类型，确定所述补充信息的信息类型；

基于所述输入信息的信息内容以及所述补充信息的信息类型，生成补充信息。

5.根据权利要求4所述的方法，其中，所述信息类型包括：文字类、语音类、面部表情类和肢体动作类。

6.根据权利要求3所述的方法，其中，所述基于所述输入信息生成补充信息包括：

响应于所述输入信息仅包括语音信息，对所述语音信息进行语义识别，得到第一识别结果；

基于所述第一识别结果生成面部表情信息和肢体动作信息，作为所述补充信息。

7.根据权利要求6所述的方法，所述基于所述第一识别结果生成面部表情信息和肢体动作信息包括：

根据所述第一识别结果确定所述语音信息对应的文本信息；

将所述文本信息对应的手语动作序列确定为所述肢体动作信息。

8.根据权利要求3所述的方法，其中，所述基于所述输入信息生成补充信息包括：

响应于所述输入信息仅包括语音信息和面部表情信息，对所述语音信息进行语义识别，得到第二识别结果；

基于所述面部表情信息和所述第二识别结果，生成肢体动作信息，作为所述补充信息。

9.根据权利要求3所述的方法，其中，所述基于所述输入信息生成补充信息包括：

响应于所述输入信息仅包括肢体动作信息和面部表情信息，获取所述肢体动作信息和面部表情信息对应的语义信息；

基于所述语义信息，生成文本信息以及对应的语音信息，作为所述补充信息。

10.根据权利要求9所述的方法，其中，所述肢体动作信息包括手语动作信息；

所述基于所述语义信息，生成文本信息以及对应的语音信息包括：基于手语语法规则，将所述语义信息转化为文本信息；基于所述输入信息的属性信息，将所述文本信息转化为语音信息。

11.根据权利要求6-10任一项所述的方法，其中，所述基于所述输入信息和所述补充信息驱动所述虚拟形象包括：

基于所述语音信息生成口型信息；

基于所述口型信息和所述面部表情信息驱动所述虚拟形象进行面部动作；

基于所述肢体动作信息驱动所述虚拟形象进行肢体动作。

12.根据权利要求11所述的方法，其中，所述方法还包括：

生成对所述虚拟形象的肢体动作和面部表情的描述信息；

将所述描述信息推送至所述至少一个通信对端中的指定对端。

13.一种交互装置，所述装置包括：

获取模块，被配置为获取输入信息以及与所述输入信息对应的通信标识；

配置模块，被配置为为所述输入信息配置虚拟形象；

确定模块，被配置为基于所述通信标识确定至少一个通信对端；

驱动模块，被配置为将所述虚拟形象推送至所述至少一个通信对端，并基于所述输入信息驱动所述虚拟形象。

14.根据权利要求13所述的装置，其中，所述配置模块包括：

第一配置子模块，被配置为响应于所述输入信息中包括面部图像信息，基于所述面部图像信息生成所述虚拟形象；

第二配置子模块，被配置为响应于所述输入信息中不包括面部图像信息，获取所述输入信息对应的属性信息，并基于所述属性信息生成虚拟形象。

15.根据权利要求13或14所述的装置，其中，所述驱动模块包括：

补充子模块，被配置为基于所述输入信息生成补充信息；

驱动子模块，被配置为基于所述输入信息和所述补充信息驱动所述虚拟形象。

16.根据权利要求15所述的装置，其中，所述补充子模块包括：

类型确定单元，被配置为基于所述输入信息的信息类型，确定所述补充信息的信息类型；

信息补充单元，被配置为基于所述输入信息的信息内容以及所述补充信息的信息类型，生成补充信息。

17.根据权利要求15所述的装置，所述补充子模块包括：

第一识别单元，被配置为响应于所述输入信息仅包括语音信息，对所述语音信息进行语义识别，得到第一识别结果；

第一补充单元，被配置为基于所述第一识别结果生成面部表情信息和肢体动作信息，作为所述补充信息。

18.根据权利要求15所述的装置，所述补充子模块包括：

第二识别单元，被配置为响应于所述输入信息仅包括语音信息和面部表情信息，对所述语音信息进行语义识别，得到第二识别结果；

第二补充单元，被配置为基于所述面部表情信息和所述第二识别结果，生成肢体动作信息，作为所述补充信息。

19.根据权利要求15所述的装置，其中，所述补充子模块包括：

语义获取单元，被配置为响应于所述输入信息仅包括肢体动作信息和面部表情信息，获取所述肢体动作信息和面部表情信息对应的语义信息；

文本生成单元，被配置为基于所述语义信息，生成文本信息以及对应的语音信息，作为所述补充信息。

20.根据权利要求17-19任一项所述的装置，其中，所述驱动子模块包括：

口型生成单元，被配置为基于所述语音信息生成口型信息；

面部驱动单元，被配置为基于所述口型信息和所述面部表情信息驱动所述虚拟形象进行面部动作；

肢体驱动单元，被配置为基于所述肢体动作信息驱动所述虚拟形象进行肢体动作。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。