WO2020024692A1

WO2020024692A1 - 一种人机交互方法和装置

Info

Publication number: WO2020024692A1
Application number: PCT/CN2019/089209
Authority: WO
Inventors: 荣涛
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-08-02
Filing date: 2019-05-30
Publication date: 2020-02-06
Also published as: CN109254650A; TW202008143A; CN112925418A; TWI782211B; CN109254650B

Abstract

本说明书实施例公开了一种人机交互方法和装置，上述方法包括：获取用于指示终端设备执行动作的图像；基于所述图像的图像特征确定匹配的动作指令；响应于所述动作指令，执行与所述动作指令相匹配的操作。本说明书实施例还公开了另外一种人机交互方法和装置。

Description

一种人机交互方法和装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种人机交互方法和装置。

背景技术

增强现实(Augmented reality，AR)技术是通过计算机***提供的信息增加用户对现实世界感知，其将虚拟的信息应用到真实世界，并将计算机生成的虚拟物体、场景或***提示信息叠加到真实场景中，从而实现对现实的增强，达到超越现实的感官体验。

虚拟现实(Virtual Reality，VR)通过模拟计算产生出一个与现实场景相同或相似的三维虚拟世界，用户可以在这个虚拟现实世界中进行游戏、活动或执行某些特定的操作，整个过程如同在真实世界中进行一般，给用户提供了视觉、听觉、触觉等全方位的模拟体验。

混合现实(Mix reality，MR)技术包括增强现实和增强虚拟，指的是合并现实和虚拟世界而产生的新的可视化环境。在新的可视化环境中，物理和虚拟对象(也即数字对象)共存，并实时互动。

目前，AR、VR和MR技术还处于开发阶段，与上述技术相关的人机交互技术尚不成熟，因此有必要提供一种人机交互方案。

发明内容

本说明书实施例提供一种人机交互方法和装置，用于实现人机交互。

本说明书实施例采用下述技术方案：

第一方面，提供了一种人机交互方法，包括：获取用于指示终端设备执行动作的图像；基于所述图像的图像特征确定匹配的动作指令；响应于所述动作指令，执行与所述动作指令相匹配的操作。

第二方面，提供了一种人机交互方法，应用在接收方，包括：接收来自于发送方的动作指令；响应于所述动作指令，显示与所述动作指令对应的效果，所述与所述动作指令对应的效果包括下述至少一种：对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；对与发送方进行通讯的消息边框颜色的处理效果；屏幕振动反转；或视频或动画播放。

第三方面，提供了一种人机交互装置，包括：图像获取模块，获取用于指示终端设备执行动作的图像；动作指令确定模块，基于所述图像的图像特征确定匹配的动作指令；执行模块，响应于所述动作指令，执行与所述动作指令相匹配的操作。

第四方面，提供了一种人机交互装置，包括：接收模块，接收来自于发送方的动作指令；效果显示模块，响应于所述动作指令，显示与所述动作指令对应的效果，所述与所述动作指令对应的效果包括下述至少一种：对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；对与发送方进行通讯的消息边框颜色的处理效果；屏幕振动反转；或视频或动画播放。

第五方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：获取用于指示终端设备执行动作的图像；基于所述图像的图像特征确定匹配的动作指令；响应于所述动作指令，执行与所述动作指令相匹配的操作。

第六方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：接收来自于发送方的动作指令；响应于所述动作指令，显示与所述动作指令对应的效果，所述与所述动作指令对应的效果包括下述至少一种：对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；对与发送方进行通讯的消息边框颜色的处理效果；屏幕振动反转；或视频或动画播放。

第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：获取用于指示终端设备执行动作的图像；基于所述图像的图像特征确定匹配的动作指令；响应于所述动作指令，执行与所述动作指令相匹配的操作。

第八方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：接收来自于发送方的动作指令；响应于所述动作指令，显示与所述动作指令对应的效果，所述与所述动作指令对应的效果包括下述至少一种：对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；对与发送方进行通讯的消息边框颜色的处理效果；屏幕振动反转；或视频或动画播放。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：基于获取到图像的图像特征确定匹配的动作指令，并响应于所述动作指令执行与所述动作指令相匹配的操作，实现了基于获取的图像的人机交互。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书的一个实施例提供的人机交互方法流程示意图；

图2为本说明书的另一个实施例提供的人机交互方法流程示意图；

图3为图2所示的实施例中的显示界面示意图；

图4为本说明书的再一个实施例提供的人机交互方法流程示意图；

图5为图4所示的实施例中的显示界面示意图；

图6为本说明书的又一个实施例提供的人机交互方法流程示意图；

图7为图6所示的实施例中的显示界面示意图；

图8为本说明书的一个实施例提供的人机交互方法初始界面示意图；

图9为本说明书的一个实施例提供的人机交互方法初始界面另一示意图；

图10为本说明书的下一个实施例提供的人机交互方法流程示意图；

图11为图10所示的实施例中的显示界面示意图；

图12为本说明书的一个实施例提供的人机交互装置结构示意图；

图13为本说明书的另一个实施例提供的人机交互装置结构示意图；

图14本说明书各个实施例能够实现的效果示意图。

图15为实现本说明书各个实施例的电子设备硬件结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

如图1所示，本说明书的一个实施例提供一种人机交互方法100，包括如下步骤：

S102：获取用于指示终端设备执行动作的图像。

本说明书实施例中获取的用于指示终端设备执行动作的图像可以是手势图像、人脸图像、用户全身的人体图像或者是用户身体的局部图像等等，本说明书不作具体限行。

本说明书实施例中获取的图像可以是单张图像，也可以是采集的视频流中的多帧图像。

另外，该步骤中获取图像可以是单个用户的图像，也可以是多个用户的图像。

该步骤可以是从预先存储的多个图像中获取图像，也可以是实时采集得到图像。如果上述图像可以是预先存储的，这样，步骤S102可以从存储的多个图像中获取一个图像，例如获取用户选择的一个图像。另外，如果上述图像还是实时采集得到，这样，步骤S102可以基于终端设备的图像传感器等实时采集图像。

S104：基于所述图像的图像特征确定匹配的动作指令。

该步骤中的图像特征和获取到的图像相对应，具体可以是从获取到的图像中提取的到，例如，获取到的是手势图像，则该处的图像特征可以是手势特征；获取到的图像是人脸图像，则该处的图像特征可以是人脸特征；获取到的图像是人体图像，则该处的图像特征可以是人体的姿势或动作特征等等。

该实施例执行之前，可以预先建立图像特征和动作指令的映射关系表，这样，步骤S104则可以直接通过查表的方式确定匹配的动作指令。

可选地，在不同的应用场景下，同一个图像特征还可以对应与不同的动作指令，因此，该实施例执行之前，还可以在不同的场景下，分别建立图像特征和动作指令的映射关系表，该实施例则可以是在已确定的场景下执行，例如，该实施例可以是在用户选择的场景下执行，又例如，该实施例还可以是在基于AR扫描获取到的场景下执行，或者是在预设的VR环境下执行，又或者是在预设的MR环境下执行，等等。

S106：响应于所述动作指令，执行与所述动作指令相匹配的操作。

该步骤中的响应于所述动作指令，执行与所述动作指令相匹配的操作，例如，在单机人机交互的增强现实场景下，具体可以是基于所述动作指令生成渲染指令；然后以对所述动作指令相关的目标对象进行渲染。

另外，在发送方和接收方的聊天场景下，对所述动作指令相关的目标对象进行渲染的同时，还可以向接收方发送所述动作指令，以便接收方基于上述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染。同时，在发送方也显示上述增强现实显示的目标对象。上述提到的目标对象，具体可以是增强现实场景、虚拟现实场景、混合现实场景等等；另外，本说明书各个实施例提到的显示效果以及相关的显示技术可以基于Open CV视觉库实现。

上述提到的向接收方发送所述动作指令，具体可以是将所述动作指令发送至服务端，再由服务端向接收方发送所述动作指令；或者是，在不存在服务端而直接是客户端对客户端的场景下，发送方可以直接将所述动作指令发送至接收方。

本说明书实施例提供的人机交互方法，基于获取到的图像的图像特征确定匹配的动作指令，并响应于所述动作指令执行与所述动作指令相匹配的操作，实现了基于获取的图像的人机交互。

可选地，本说明书的各个实施例还可以应用在AR、VR以及MR等场景下。

为详细说明本说明书实施例提供的人机交互方法，如图2和图3所示，本说明书的另一个实施例提供一种人机交互方法200，包括如下步骤：

S202：响应于用户对展示的预设图像的选择操作，获取被选择的手势图像、人脸图像或人体图像。

如图3的应用界面示意图所示，该实施例可以预先在显示界面显示多个手势图像，具体见图3中右侧的文字“手势选择”下方的方框，当用户点击选择其中的一个手势图像时，该步骤即可获取到了上述手势图像。

可选地，该实施例还可以预先展示多个人脸表情图像、人体动作姿势图像等，当用户选取时，该步骤即可获取上述人脸表情图像或人体动作图像。

可选地，上述预先显示的手势图像可以包括左手的手势图像；右手的手势图像；还可以包括单手握拳或手指合拢的手势图像；单手放开或手指伸开的手势图像；以及中指和无名指合拢其他手指伸开的爱的手势图像等等。

上述预先展示的人脸表情图像可以是欢笑的表情图像、悲伤的表情图像、大哭的表情图像等。

上述预先展示的人体动作姿势图像可以是弯腰90度的人体姿势图像、站军姿的人体动作姿势图像等等。

S204：在预设场景下基于选取的图像的图像特征确定动作指令。

该实施例执行之前可以预先存储上述图像和图像特征的对应关系，这样，基于用户选择的图像即可直接确定图像特征，例如，用户选取的手势图像是单手握拳的图像，则手势特征可以是表示单手握拳的特征。

该实施例执行之前，可以预先建立图像特征和动作指令的映射关系表，这样，步骤S204则可以直接通过查表的方式确定匹配的动作指令。

可选地，在不同的应用场景下，同一个图像特征还可以对应与不同的动作指令，因此，该实施例执行之前，还可以在不同的场景下，分别建立图像特征和动作指令的映射关系表，该实施例则可以是在已确定的场景下执行，例如，该实施例可以是在用户选择的场景下执行，又例如，该实施例还可以是在基于AR扫描获取到的场景下执行，或者是在预设的VR场景下执行，又或者是在预设的MR场景下执行，等等，这样，该实施例执行之前还可以预先获取场景图像，在获取到的场景下执行该实施例。

该步骤基于所述图像特征确定动作指令时，可以先确定当前的应用场景，然后确定在当前应用场景下获取到的图像特征对应的动作指令，例如，在单机格斗游戏的场景下，基于单手握拳的手势特征可以确定出拳的动作指令。

S206：响应于所述动作指令，执行与所述动作指令相匹配的操作。

该步骤中的响应于所述动作指令，执行与所述动作指令相匹配的操作具体可以是基于所述动作指令生成渲染指令，对所述动作指令相关的目标对象进行渲染，例如，在图3中预先显示的手势图像左侧的方框内展示强现实、虚拟现实或混合现实的目标对象，展示的目标对象可以是增强现实、虚拟现实或混合现实场景图像。

该步骤中提到的响应于所述动作指令，执行与所述动作指令相匹配的操作之后，还可以向接收方发送所述动作指令，以便接收方基于上述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染。

本说明书实施例提供的交互方法，基于获取到图像的图像特征确定匹配的动作指令，并响应于所述动作指令执行与所述动作指令相匹配的操作，实现了基于获取的图像的人机交互。

另外，本说明书实施例预先保存有多个手势图像、人脸图像或人体图像。从而方便用户快速选取，提高用户体验。

可选地，在图3所示的显示界面中预先展示的手势图像的顺序，或者是其他实施例中的人脸图像或人体图像的显示顺序，可以基于用户历史使用频率进行排序，例如，用户选择单手握拳的手势图像的频率最高，则将单手握拳的手势图像排在第一位进行展示，进一步方便用户选取，提高用户体验。

需要说明的是，上述实施例还可以同时应用在多个设备多个用户交互的场景下。具体例如，通过步骤S202获取甲、乙、丙等用户从多个展示的手势图像中选取的手势图像；通过步骤S204和步骤S206，在预设的甲、乙、丙等互相交互的场景下，基于各自选取的手势图像的图像特征向甲、乙、丙等用户发送上述图像特征。同时，每个终端设备可以实时采集每个用户的手势图像，如果匹配预先选取的图像特性达到一定契合度，则执行后续逻辑操作，例如甲、乙、丙等终端设备选择的场景是一个古代庙宇，前面有道石门、当多设备识别到手往前推的动作，石门就会缓缓打开等。

在图2和图3所示的实施例中预先展示有手势图像、人脸图像或人体图像等，考虑到展示的图像的数量有限；并且预先展示的图像的内容不够丰富，为了进一步提高图像的数量，并且提高图像的丰富程度，增强用户互动，增加用户交互乐趣，如图4和图5所示，本说明书的另一个实施例提供一种人机交互方法400，包括如下步骤：

S402：获取图像特征，所述图像特征包括下述至少一种：手势图像特征、人脸图像特征、人体图像特征以及动作特征。

该实施例可以应用在终端设备上，该终端设备包括有可用于采集图像的部件，以运行增强现实应用的终端设备为例，终端设备上用于采集图像的部件可以包括红外摄像头等，在获取到图像后基于获取的图像获取图像特征。

上述动作特征，例如包括：出拳的动作特征、挥手的动作特征、出掌的动作特征、跑步的动作特征、直立静止的动作特征、摇头的动作特征、点头的动作特征等。

可选地，该实施例执行之前还可以预先识别应用场景，例如，上述应用场景具体可以包括发送方和接收方相互聊天的场景；网络格斗游戏的应用场景；多个终端设备互相聊天交互的场景等。

该步骤在获取图像特征时，例如获取手势特征时，可使用手势特征分类模型获取手势特征。该手势特征分类模型的输入参数可以是采集到的手势图像(或者预处理后的手势图像，下一段进行介绍)，输出参数可以是手势特征。该手势特征分类模型可基于支持向量机(Support Vector Machine，SVM))、卷积神经网络(Convolutional Neural Network，简称CNN)或DL等算法，通过机器学习的方式生成得到。

为了提高手势特征的识别精度，可选地，该步骤还可以对采集到的手势图像进行预处理，以便去除噪声。具体地，对手势图像的预处理操作可包括但不限于：对采集到的手势图像进行图像增强；图像二值化；图像灰度化以及去噪声处理等。

对于人脸图像特征、人体图像特征以及动作特征的获取方式与上述手势特征的获取方式类似，在此不再赘述。

该实施例执行之前可以预先采集手势图像、人脸图像、人体图像以及动作图像等，然后基于采集的图像提取手势图像特征、人脸图像特征、人体图像特征以及动作特征。

可选地，该实施例还可以根据图像特征精度要求以及性能要求(比如响应速度要求)等来确定是否进行图像预处理，或者确定所采用的图像预处理方法。具体例如，在响应速度要求比较高的网络格斗游戏的应用场景下，可以不对手势图像进行预处理；在对手势精度要求比较高的场景下，可以对采集到的图像进行预处理。

S404：在预设场景下基于所述图像特征以及用户选取的附加动态特征确定匹配的动作指令。

该实施例执行之前还可以预先获取场景图像，在获取到的场景下执行该实施例。

该步骤具体基于所述图像特征以及用户选取的附加动态特征确定匹配的动作指令时，可以先确定当前的应用场景，然后确定在当前应用场景下图像特征以及用户选取的附加动态特征对应的动作指令，例如，在单机格斗游戏的场景下，基于单手握拳的手势特征以及用户选择的附加火球的动态特征，可以确定出拳+火球的动作指令。如图5的应用界面示意图所示，该实施例可以预先在显示界面显示多个附加动态效果，具体见图5中右侧的文字“附加动态效果”下方的圆形，当用户点击选择其中的一个附加动态效果时，该步骤即可基于所述手势特征和所述附加动态效果特征确定动作指令。

该实施例中，选取的附加动态特征和获取的图像相对应。在其他的实施例中，如果获取到的是人脸特征，这还可以预先在显示界面显示多个附加人脸相关的动态效果供用户选取，当用户选取时生成附加动态特征，以对人脸显示效果等进行增强显示。

在其他的实施例中，如果获取到的是人体图像特征或动作特征，这还可以预先在显示界面显示多个附加人体或动作相关的动态效果供用户选取，当用户选取时生成附加动态特征。

具体例如，步骤S402中获取到的是表示单手握拳的手势特征，如果不选择上述附加动态效果(或称特征)，则该步骤确定的动作指令仅仅表示出拳的动作指令；如果选择附加“雪球”的附加动态效果，则该步骤确定的动作指令可以是包括出拳加发射雪球的具有炫酷效果的动作指令。

S406：响应于所述动作指令，执行与所述动作指令相匹配的操作。

该步骤中的响应于所述动作指令，执行与所述动作指令相匹配的操作，具体可以是基于所述动作指令生成渲染指令，对所述动作指令相关的目标对象进行渲染，例如，在图5中左侧的方框内展示增强现实、虚拟现实或混合现实的目标对象，展示的目标对象可以是增强现实、虚拟现实或混合现实场景图像。

该实施例还可以向接收方发送所述动作指令，以便接收方基于上述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染，当然在发送方也可以同样展示增强现实的目标对象。

本说明书实施例提供的交互方法，获取图像特征，并基于所述图像特征以及用户选取的附加动态特征确定动作指令并响应于所述动作指令，实现基于获取的图像特征的人机交互。

另外，该实施例基于实时采集的图像获取手势图像特征、人脸图像特征、人体图像特征以及动作特征等，相对于获取数量有限的、预先存储的图像而言，能够获取到的图像特征更加丰富、多样。

同时，通过实时采集用户图像并获取图像特征的方式，增加用户的互动，特别是在一些游戏场景下，提高用户的融入感和互动性，提高用户体验。

另外，本说明书实施例预先保存有附加动态效果供用户选择，从而方便用户快速选取，以便与生成更加炫酷的特技效果，提高用户体验。

可选地，在图5所示的显示界面中预先展示的附加动态效果的顺序，或者是其他实施例中的对人脸特征的附加动态效果、或人体特征的附加动态效果等显示顺序，可以基于用户历史使用频率进行排序，例如，用户选择“火球”的频率最高，参见图5，则将“火球”的附加动态效果排在第一位进行展示，进一步方便用户选取，提高用户体验。

需要说明的是，上述实施例不仅可以应用在单个终端设备的场景下，还可以同时应用在多个设备交互的场景下。

如图6和图7所示，本说明书的另一个实施例提供一种人机交互方法600，包括如下步骤：

S602：获取用户选取的场景特征。

该实施例中的场景特征，具体如图7的应用界面示意图所示，该实施例可以预先在显示界面显示多个预设场景，例如图7所示的“阿凡达(avatar)”场景，后续的多个场景以“***”进行示意显示，当用户点击选择其中的一个场景时，该步骤即相当于是获取到的场景特征。

另外，在图7的应用界面还包括有“more”按钮，当用户点击时可以展现更多的预设场景。

S604：基于所述场景特征以及获取的图像特征确定动作指令，所述图像特征包括下述至少一种：手势图像特征、人脸图像特征、人体图像特征以及动作特征。

该实施例可以应用在终端设备上，该终端设备包括有可用于采集图像的部件，以运行增强现实应用的终端设备为例，终端设备上用于采集图像的部件可以包括红外摄像头等，并基于获取的图像获取图像特征，具体的获取过程参见图4所示的实施例，以下以获取人脸特征为例进行介绍。

在获取人脸特征时，可使用人脸特征分类模型获取人脸特征。该人脸特征分类模型的输入参数可以是采集到的人脸图像(或者预处理后的人脸图像，下一段进行介绍)，输出参数可以是人脸特征。该人脸特征分类模型可基于支持向量机(Support Vector Machine，SVM))、卷积神经网络(Convolutional Neural Network，简称CNN)或DL等算法，通过机器学习的方式生成得到。

为了提高人脸特征的识别精度，可选地，该步骤还可以对采集到的人脸图像进行预处理，以便去除噪声。具体地，对人脸图像的预处理操作可包括但不限于：对采集到的人脸图像进行图像增强；图像二值化；图像灰度化以及去噪声处理等。

该步骤基于所述图像特征和所述场景特征确定匹配的动作指令时，例如，在具有发送方和接收方的网络聊天的应用场景下，可以将图像特征和场景特征融合，如将人脸特征和场景特征融合，生成人脸特征和场景特征融合的动作指令，具体例如，在用户选择的场景中预留有人脸区域，将用户的人脸特征融合展示在上述预留的人脸区域，从而实现用户人脸与选择的场景的无缝对接，生成用户真实处于上述场景中的效果，具体如，用户人在画中游、上述场景中的角色的脸部变成了用户的人脸等。

该实施例尤其适用于合影、艺术大头贴、艺术造型、cosplay等应用场景下。

S606：响应于所述动作指令，执行与所述动作指令相匹配的操作。

该步骤中的响应于所述动作指令，执行与所述动作指令相匹配的操作，具体可以是基于所述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染；还可以是向接收方发送所述动作指令，以便接收方基于上述动作指令生成渲染指令，对所述动作指令相关的目标对象进行渲染，最终展示增强现实、虚拟现实或混合现实的目标对象。

在上述合影的应用场景下，通过步骤S606的操作之后，还可以将携带有人脸特征和所述场景特征的消息发送至接收方，在接收方在获取接收方的人脸特征，从而实现发送方的人脸特征、接收方的人脸特征以及发送方选择的场景的融合，便于提高用户体验。

本说明书实施例提供的交互方法，获取图像特征以及场景特征，基于所述图像特征和所述场景特征确定动作指令并响应于所述动作指令，实现了图像特征和各种预设场景的融合，便于提升用户体验。

另外，该实施例预先存储有不同的预设场景供用户选择，实现了获取的图像在不同的场景下变幻出不同的造型，增加趣味性，提高用户体验。

可选地，该实施例还可以保存上述展示的增强现实、虚拟现实或混合现实的目标对象，方便用户后续使用。在一个实施例中，可以请求第三方摄像器材从外界拍摄记录当前终端设备屏幕上所显示的增强现实、虚拟现实或混合现实视图，从而间接实现增强现实、虚拟现实或混合现实视图存储，能够灵活的获取用户所需要存储的增强现实、虚拟现实或混合现实视图。

在另一个实施例中，还可以通过截图的方式截取并保存用户在显示屏幕上所看到的增强现实、虚拟现实或混合现实视图。该实现方式不仅截取并存储屏幕上显示的所有增强现实、虚拟现实或混合现实内容，还可以根据用户需要有选择的存储增强现实、虚拟现实或混合现实视图。

对于本说明书前文图1至图7所示的实施例具体应用时，其初始显示界面可以参见图8至图9，用户点击最右侧的添加按钮则会出现**Card选项，并且将**Card功能保存在聊天界面中，如图8所示，该处的**Card可以是AR Card、MR Card或者是VR Card等等。

后续用户使用时，首先可以点击如图8所示的**Card按钮，然后即可以执行图1至图7所示的各个实施例的操作步骤；或者，检测到用户目前的场景能够执行前文图1至图7所示的实施例的方法步骤时，可以在消息界面弹出**Card选项以供用户选择使用，提高用户体验。

需要说明的是，图8和图9只是示意性地展示了一种触发执行方式，实际上，前文几个实施例介绍的方法还可以是由其他方式触发执行，例如摇一摇终端设备自动执行、通过识别用户发出的特定语音执行等等，本说明书实施例不作具体限定。

如图10和图11所示，本说明书的另一个实施例提供一种人机交互方法1000，应用在接收方，包括如下步骤：

S1002：接收来自于发送方的动作指令。

该实施例中的动作指令，可以是前文中的图1至图7所示的实施例中所提到的动作指令，也即，该实施例应用在接收方，其发送方执行的操作可以是如图1至图7所示的各个实施例的操作。

当然，该实施例中的动作指令也可以是其他的动作指令，即与图1至图7所示的各个实施例相互独立。

S1004：响应于所述动作指令，显示与所述动作指令对应的效果；

其中，所述与所述动作指令对应的效果包括下述至少一种：

对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；

对与发送方进行通讯的消息边框颜色的处理效果，对于该处提到的消息边框，可以参见图11，在显示界面中，网名为***的朋友发送了三条消息，每一条消息都包括有消息边框。

屏幕振动反转，即整个终端设备屏幕振动并发生反转；或

自动播放视频、动画以及语音等，上述动画包括gif图像。

上述视频具体可以是H264、H265等编码格式的视频文件，接收方接收到上述视频文件后即可自动播放；上述动画具体可以是强化表现人物表情的动画、画外音的艺术文字以及一些背景动画效果等，接收方接收到上述动画后自动播放。

另外，该实施例在发送方的显示界面还可以显示接收方三维模型状态发生变化，具体可以展示接收方身上中弹、接收方身上有雪花等增强现实、虚拟现实或混合现实等三维显示效果。

此外，该实施例在发送方的显示界面还可以显示头像的处理效果，例如，具体可以是接收方头像变成乌龟或其他的增强现实、虚拟现实或混合现实等接收方头像的三维显示变化样式，提高趣味性，增强用户体验。

上述显示效果中，在发送方的显示界面中可以显示出双方动作的产生到消亡，以及接收方的状态、头像等最后的状态；在接收方的显示界面中可以显示出双方动作的产生到消亡，通常不会显示上述接收方的状态、头像等最后的状态，提高趣味性，增强用户体验。

另外，该实施例还可以接收拖动指令，在显示界面移动展示的对象等。

本说明书实施例提供的人机交互方法，接收来自于发送方的动作指令，并响应于所述动作指令显示与所述动作指令对应的效果，实现了基于动作指令的人机交互。

本说明书实施例提供的人机交互方法，与所述动作指令对应的效果均可以是在三维状态下展示，具体可以是三维增强现实、虚拟现实或混合现实展示。

在一个具体的实施例中，在发送方的显示界面中还可以生成如下效果：甲(发送方)发送一个雪球，乙(接收方)发送一个火球，火球和雪球相撞后火球会削弱并飞向甲方，然后甲方图像着火等；又例如，甲方和乙方同时发送火球或同时发送水球，碰撞后会散落成火花或雪花溅落，形成奇幻的艺术效果，提高趣味性，增强用户体验。

以上说明书部分详细介绍了人机交互方法实施例，如图12所示，本说明书还提供了一种人机交互装置1200，如图12所示，装置1200包括：

图像获取模块1202，可以用于获取用于指示终端设备执行动作的图像；

动作指令确定模块1204，可以用于基于所述图像的图像特征确定匹配的动作指令；

执行模块1206，可以用于响应于所述动作指令，执行与所述动作指令相匹配的操作。

本说明书实施例提供的交互装置，基于获取到图像的图像特征确定动作指令并响应于所述动作指令，执行与所述动作指令相匹配的操作，实现了基于获取的图像的人机交互。

可选地，作为一个实施例，所述图像获取模块1202，可以用于响应于用户对展示的预设图像的选择操作，获取被选择的图像。

可选地，作为一个实施例，所述图像获取模块1202，可以用于通过摄像采集设备采集用户的图像。

可选地，作为一个实施例，所述用于指示终端设备执行动作的图像包括手势图像、人脸图像或人体图像。

可选地，作为一个实施例，所述动作指令确定模块1204，可以用于基于所述手势特征和获取的附加动态特征确定匹配的动作指令。

可选地，作为一个实施例，所述动作指令确定模块1204，可以用于在预设场景下，基于所述图像的图像特征和所述附加动态特征确定匹配的动作指令。

可选地，作为一个实施例，所述动作指令确定模块1204，可以用于基于所述图像的图像特征和获取的场景特征确定匹配的动作指令。

可选地，作为一个实施例，所述装置1200还包括保存模块，可以用于保存所述图像特征和所述场景特征。

可选地，作为一个实施例，所述执行模块1206，可以用于基于所述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染。

可选地，作为一个实施例，所述装置1200还包括发送模块，可以用于向接收方发送所述动作指令。

根据本说明书实施例的上述人机交互装置1200可以参照对应前文本说明书实施例的图1至图9所示的人机交互方法的流程，并且，该人机交互装置1200中的各个单元/模块和上述其他操作和/或功能分别为了实现人机交互方法中的相应流程，为了简洁，在此不再赘述。

如图13所示，本说明书还提供了一种人机交互装置1300，如图13所示，该装置1300包括：

接收模块1302，可以用于接收来自于发送方的动作指令；

效果显示模块1304，可以用于响应于所述动作指令，显示与所述动作指令对应的效果，所述与所述动作指令对应的效果包括下述至少一种：

对与发送方进行通讯的消息边框颜色的处理效果；

屏幕振动反转；或

视频或动画播放。

上述视频具体可以是H264、H265等编码格式的视频文件，或是三维模型及时演算动画，即接收方接收到上述视频文件后即可自动播放；上述动画具体可以是强化表现人物表情的动画、画外音的艺术文字以及一些背景动画效果等，接收方接收到上述动画后即可自动播放。

另外，该实施例在发送方的显示界面还可以显示接收方三维模型状态发生变化，具体可以是展示接收方身上中弹、接收方身上有雪花等增强现实、虚拟现实或混合现实等三维显示效果。

此外，该实施例在发送方的显示界面还可以显示接收方的头像的处理效果例如，具体可以是接收方头像变成乌龟或其他的增强现实、虚拟现实或混合现实等接收方头像的三维显示变化样式，提高趣味性，增强用户体验。

本说明书实施例提供的人机交互装置，接收来自于发送方的动作指令，并响应于所述动作指令显示与所述动作指令对应的效果，实现了基于接收的动作指令的人机交互。

根据本说明书实施例的上述人机交互装置1300可以参照对应前文本说明书实施例的图10至图11所示的人机交互方法的流程，并且，该人机交互装置1300中的各个单元/模块和上述其他操作和/或功能分别为了实现人机交互方法中的相应流程，为了简洁，在此不再赘述。

本说明书上述各个实施例能够实现的效果具体可以参见图14，在用户输入时，不仅实现了文本输入、语音输入、图片输入和短视频输入，还可以实现人脸识别、动作识别、场景识别等，并根据识别的人脸、动作和场景等变幻出不同的效果发送。用户接收时，不仅实现了普通的文本展示、语音播放、图片动态播放短视频播放等，还实现了状态发生变化、动画声音播放屏幕震动反馈等效果，上述状态发生变化，例如包括发送方身上中弹、发送方头像变成乌龟、动态更换背景等。

下面将结合图15详细描述根据本说明书实施例的电子设备。参考图15，在硬件层面，电子设备包括处理器，可选地，包括内部总线、网络接口、存储器。其中，如图15所示，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括实现其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成转发聊天信息的装置。处理器，执行存储器所存放的程序，并具体用于执行本说明书前文所述的方法实施例的操作。

上述图1至图11所示实施例揭示的方法、装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

图15所示的电子设备还可执行图1至图11的方法，并实现人机交互方法在图1至图11所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图1至图11所示的各个方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、***、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

一种人机交互方法，包括：

获取用于指示终端设备执行动作的图像；

基于所述图像的图像特征确定匹配的动作指令；

响应于所述动作指令，执行与所述动作指令相匹配的操作。
根据权利要求1所述的方法，所述获取用于指示终端设备执行动作的图像包括：

响应于用户对展示的预设图像的选择操作，获取被选择的图像。
根据权利要求1所述的方法，所述获取用于指示终端设备执行动作的图像包括：

通过摄像采集设备采集用户的图像。
根据权利要求1至3任一项所述的方法，所述用于指示终端设备执行动作的图像包括手势图像、人脸图像或人体图像。
根据权利要求4所述的方法，所述基于所述图像的图像特征确定匹配的动作指令之前，所述方法还包括：

获取与所述图像相关的附加动态特征；

其中，所述基于所述图像的图像特征确定匹配的动作指令包括：基于所述图像的图像特征和所述附加动态特征确定匹配的动作指令。
根据权利要求5所述的方法，

所述基于所述图像的图像特征和所述附加动态特征确定匹配的动作指令包括：在预设场景下，基于所述图像的图像特征和所述附加动态特征确定匹配的动作指令。
根据权利要求1所述的方法，

所述方法还包括：获取所述图像所应用的场景特征；

其中，所述基于所述图像的图像特征确定匹配的动作指令包括：基于所述图像的图像特征和所述场景特征确定匹配的动作指令。
根据权利要求7所述的方法，

所述方法还包括：保存所述图像特征和所述场景特征。
根据权利要求1所述的方法，

所述响应于所述动作指令，执行与所述动作指令相匹配的操作包括：

基于所述动作指令生成渲染指令，以对所述动作指令相关的目标对象进行渲染。
根据权利要求9所述的方法，

所述方法还包括：向接收方发送所述动作指令。
一种人机交互方法，应用在接收方，包括：

接收来自于发送方的动作指令；

响应于所述动作指令，显示与所述动作指令对应的效果；

其中，所述与所述动作指令对应的效果包括下述至少一种：

对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；

对与发送方进行通讯的消息边框颜色的处理效果；

屏幕振动反转；或

视频或动画播放播放。
一种人机交互装置，包括：

图像获取模块，获取用于指示终端设备执行动作的图像；

动作指令确定模块，基于所述图像的图像特征确定匹配的动作指令；

执行模块，响应于所述动作指令，执行与所述动作指令相匹配的操作。
一种人机交互装置，包括：

接收模块，接收来自于发送方的动作指令；

效果显示模块，响应于所述动作指令，显示与所述动作指令对应的效果；

其中，所述与所述动作指令对应的效果包括下述至少一种：

对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；

对与发送方进行通讯的消息边框颜色的处理效果；

屏幕振动反转；或

视频或动画播放。
一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：

获取用于指示终端设备执行动作的图像；

基于所述图像的图像特征确定匹配的动作指令；

响应于所述动作指令，执行与所述动作指令相匹配的操作。
一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：

接收来自于发送方的动作指令；

响应于所述动作指令，显示与所述动作指令对应的效果；

其中，所述与所述动作指令对应的效果包括下述至少一种：

对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；

对与发送方进行通讯的消息边框颜色的处理效果；

屏幕振动反转；或

视频或动画播放。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

获取用于指示终端设备执行动作的图像；

基于所述图像的图像特征确定匹配的动作指令；

响应于所述动作指令，执行与所述动作指令相匹配的操作。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

接收来自于发送方的动作指令；

响应于所述动作指令，显示与所述动作指令对应的效果；

其中，所述与所述动作指令对应的效果包括下述至少一种：

对终端设备的发送方头像的处理效果和/或对终端设备的接收方头像的处理效果；

对与发送方进行通讯的消息边框颜色的处理效果；

屏幕振动反转；或

视频或动画播放。