CN111638783A

CN111638783A - 一种人机交互方法及电子设备

Info

Publication number: CN111638783A
Application number: CN202010420768.XA
Authority: CN
Inventors: 崔颖
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-09-08

Abstract

一种人机交互方法及电子设备，该方法包括：以目标语种输出第一动作指令；获取采集的用户图像，并识别所述用户图像中包括的肢体动作；在识别出所述肢体动作与所述第一动作指令相匹配时，输出用于指示正确的反馈信息。实施本申请实施例，能够由电子设备以目标语种发出动作指令，由用户在理解了动作指令的意思之后，做出对应的肢体动作；电子设备在识别出用户执行的肢体动作与动作指令相匹配时，输出用于指示正确的反馈信息，可以提高用户在学习目标语种时的参与感，调动用户的学习积极性，提高学习效率。

Description

一种人机交互方法及电子设备

技术领域

本发明涉及人机交互技术领域，具体涉及一种人机交互方法及电子设备。

背景技术

目前，部分家教机、学习平板等电子设备可以帮助用户进行语言学习。这些电子设备一般可以提供点读、翻译、查单词等功能，虽然可以为语言学习提供便利，但是和用户的互动较为单调，导致用户的学习效率比较低。

发明内容

本申请实施例公开了一种人机交互方法及电子设备，能够提高学习效率。

本申请实施例第一方面公开一种人机交互方法，所述方法包括：

以目标语种输出第一动作指令；

获取采集的用户图像，并识别所述用户图像中包括的肢体动作；

在识别出所述肢体动作与所述第一动作指令相匹配时，输出用于指示正确的反馈信息。

作为一种可选的实施方式，在本申请实施例第一方面中，所述第一动作指令为指向目标物体的指令；

所述识别所述用户图像中包括的肢体动作，包括：

在判断出所述肢体动作为所述指向手势时，识别所述指向手势指向的物体；

所述在识别出所述肢体动作与所述第一动作指令相匹配时，输出用于指示正确的反馈信息，包括：

在判断出所述肢体动作为所述指向手势，并且所述指向手势指向的物体与所述目标物体相匹配时，输出用于指示正确的反馈信息。

作为一种可选的实施方式，在本申请实施例第一方面中，所述获取采集的用户图像，包括：

当所述目标物体为脸部器官时，控制摄像头以第一焦距拍摄所述用户图像；

当所述目标物体部位为非脸部器官时，控制摄像头以第二焦距拍摄所述用户图像；所述第二焦距小于所述第一焦距。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述以目标语种输出第一动作指令之前，所述方法还包括：

获取拍摄到的书本图像；

从所述书本图像中识别出第一目标内容；

生成与所述第一目标内容对应的所述第一动作指令。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述生成与所述第一目标内容对应的所述第一动作指令之前，所述方法还包括：

获取用户身份标识，并查询与所述用户身份标识对应的学习记录；

若所述学习记录中包括所述目标内容的读音学习，则执行所述生成与所述目标内容对应的所述第一动作指令的步骤。

作为一种可选的实施方式，在本申请实施例第一方面中，所述方法还包括：

获取以目标语种输入的用户语音；

识别所述用户语音中包括的第二动作指令；

控制在屏幕中显示的虚拟模型执行与所述第二动作指令对应的动作或形态变化。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述获取输入的用户语音之前，所述方法还包括：

获取拍摄到的书本图像；

从所述书本图像中识别出第二目标内容；

显示与所述第二目标内容对应的标准动作；

以及，所述获取以目标语种输入的用户语音，包括：

获取以所述目标语种描述所述标准动作的用户语音。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述显示与所述第二目标内容对应的标准动作之前，所述方法还包括：

若所述学习记录中包括所述目标内容的释义学习，则执行所述显示与所述目标内容对应的标准动作的步骤。

本申请实施例第二方面公开一种电子设备，包括：

第一输出单元，用于以目标语种输出第一动作指令；

获取单元，用于获取采集的用户图像，并识别所述用户图像中包括的肢体动作；

第二输出单元，用于在识别出所述肢体动作与所述第一动作指令相匹配时，输出用于指示正确的反馈信息。

本申请实施例第三方面公开一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本申请实施例第一方面公开的任一项方法。

本发明第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本申请实施例第一方面公开的任一项方法。

本申请实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本申请实施例第一方面公开的任一项方法。

与现有技术相比，本申请实施例具有以下有益效果：

电子设备能够以目标语种发出动作指令，由用户在理解了动作指令的意思之后，做出对应的肢体动作；电子设备在识别出用户执行的肢体动作与动作指令相匹配时，输出用于指示正确的反馈信息，可以提高用户在学习目标语种时的参与感，调动用户的学习积极性，提高学习效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种人机交互方法的应用场景示例图；

图2是本申请实施例公开的一种人机交互方法的流程示意图；

图3A是本申请实施例公开的另一种人机交互方法的应用场景示例图；

图3B是本申请实施例公开的另一种人机交互方法的应用场景示例图；

图4是本申请实施例公开的一种人机交互方法的流程示意图；

图5是本申请实施例公开的另一种人机交互方法的应用场景示例图；

图6是本申请实施例公开的另一种人机交互方法的流程示意图；

图7是本申请实施例公开的一种电子设备的结构示意图；

图8是本申请实施例公开的另一种电子设备的结构示意图；

图9是本申请实施例公开的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例公开了一种人机交互方法及电子设备，能够提高学习效率以下分别进行详细说明。

下面先对本申请实施例公开的一种人机交互方法的应用场景进行介绍。请参阅图1，图1为本申请实施例公开的一种人机交互方法的应用场景示例图。图1所示的电子设备10可以为智能手机、平板电脑、家教机、学习机等电子设备，具体不做限定。电子设备上可以设置有屏幕11、摄像头12、扬声器13、麦克风14等组件。屏幕11可以用于显示文字信息、视频画面等文字或者图像信息；摄像头12可以用于采集包括用户的图像；扬声器13可以用于播放音频，麦克风14可以用于采集用户发出的声音。基于上述的一种或多种组件，电子设备10可以与用户进行交互。

请参阅图2，图2是本申请实施例公开的一种人机交互方法的流程示意图，图2所示的方法可以应用于如图1所示的电子设备。如图2所示，该人机交互方法可以包括以下步骤：

210、以目标语种输出第一动作指令。

在本申请实施例中，目标语种可以为用户需要学习的语种，可以为用户的母语，也可以为除母语以外的第二语言。示例性的，目标语种可以包括但不限于：中文、英语、法语等。为了方便描述，以下内容以目标语种为英语进行说明，不应构成对目标语种的限定。

在本申请实施例中，第一动作指令可以根据用户需要学习的学习目标生成。用户需要学习的学习目标可以包括但不限于：活动用语、物体名称、形容词、介词。

示例性的，当用户需要学习的学习目标为动作用语(如“stand up”、“sit down”、“jump”等)时，则第一动作指令可以为指示用户执行动作用语对应的动作的指令；当用户需要学习的学习目标为物体名称(如“pen”、“nose”等)时，第一动作指令可以为指示用户指向物体名称对应的目标物体的指令(如“show me your pen”，“touch your nose”等)；当用户需要学习的学习目标为物体名称，且物体名称为动物名称时，第一动作指令可以为指示用户模仿该动物名称对应的动物的指令；当用户需要学习的内容为形容词(如“tall”、“long”等)时，第一动作指令可以为指示用户执行预先设定的与该形容词对应的动作的指令(如“be tall”、“be long”)；当用户需要学习的内容为介词(如“in”、“out”)时，第一动作指令可以为指示用户执行预先设定的与该介词对应的动作的指令(如“jump in”、“jump out”)。

此外，在本申请实施例中，可以通过语音或文字形式以目标语种输出第一动作指令。当通过语音以目标语种输出第一动作指令时，可以考察用户的听力，当通过文字以目标语种输出第一动作指令时，可以考察用户的阅读理解能力。

220、获取采集的用户图像，并识别用户图像中包括的肢体动作。

在本申请实施例中，在电子设备输出第一动作指令之后，用户可以对第一动作指令进行响应，执行相应的肢体动作。在用户执行肢体动作的过程中，可以通过电子设备的摄像头采集用户图像。对采集到的用户图像进行图像识别，可以从用户图像中提取出肢体动作。

其中，对采集到的用户图像进行图像识别时，可以从用户图像中提取出人体的骨骼特征，从而根据骨骼特征识别出用户执行的肢体动作。或者，也可以将用户图像输入至预先训练好的识别模型中，利用预先训练好的识别模型识别出用户图像中包括的肢体动作。预先训练好的识别模型可以为支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Network，CNN)等机器学习模型。利用预先标记出动作种类的动作图像对上述的机器学习模型进行训练，可以得到识别模型。标记的动作图像对应的动作种类越多，识别模型能够识别的动作种类越多。

在本申请实施例中，作为一种可选的实施方式，电子设备的摄像头可以为焦距可调的摄像头，可以根据第一动作指令对摄像头的焦距进行调整，使得摄像头采集到的用户图像中包括的肢体动作清晰、完整，从而可以提高从用户图像中识别出肢体动作的成功率，减少由于图像拍摄质量问题而导致误判用户执行的肢体动作与第一动作指令不匹配的问题。

进一步可选的，当第一动作指令为指向目标物体的指令时，获取采集的用户图像，包括：

当目标物体为脸部器官时，控制摄像头以第一焦距拍摄用户图像；

当目标物体为非脸部器官时，控制摄像头以第二焦距拍摄用户图像；其中，非脸部器官可以为手、脚、头等除脸部器官以外的其他身体部位；或者，非脸部器官也可以为笔、书本等非身体部位的物体；上述的第二焦距小于第一焦距。

也就是说，当第一动作指令指示用户指向如眼、耳、口、鼻等脸部器官时，控制摄像头以较大的焦距拍摄用户图像，使得脸部在用户图像中的占比较大，脸部器官在用户图像中较为清晰；当用户根据第一动作指令执行了指向脸部器官的肢体动作时，从清晰且脸部在图像中占比较大的用户图像中可以更加准确地识别出用户指向的脸部器官。当第一动作指令指示用户指向非脸部器官的目标物体时，控制摄像头以较小的焦距拍摄用户图像，使得用户图像可以包括完整的躯干和/或四肢，从而可以更加准确地从用户图像中识别出指向非脸部器官的指向手势。

230、在识别出肢体动作与第一动作指令相匹配时，输出用于指示正确的反馈信息。

在本申请实施例中，在识别出用户执行的肢体动作与第一动作指令对应的动作相同或者相似时，可以判定肢体动作与第一动作指令相匹配。

可选的，当第一动作指令为指向目标物体的指令时，第一动作指令对应的动作可以为指向手势，在判断出用户执行的肢体动作与指向手势相同或者相似之后，还需要进一步判断用户执行的指向手势指向的物体是否与第一动作指令指示指向的目标物体相匹配；若判断出指向手势指向的物体与目标物体相匹配，则可以判定用户执行的肢体动作与目标物体相匹配。

此外，在本申请实施例中，可以通过文字、语音、图像、动画、视频等形式中的一种或多种的组合输出用于指示正确的反馈信息。可选的，可以通过文字和语音输出“答对了”或者“正确”等用于指示正确的用语；或者，也可以在屏幕上显示打勾的图像或者动画；或者，还可以控制在屏幕上显示的虚拟人像、卡通形象等虚拟模型执行与第一动作指令相对应的动作。在本申请实施例中，通过输出用语指示正确的反馈信息，可以使得用户可以接收到“答对了”的正向反馈，从而建立“目标语种的输入-目标语种的理解-动作表达”的链接，从而可以加深对目标语种的理解。

示例性的，请一并参阅图3A，图3A是本申请实施例公开的另一种人机交互方法的应用场景示例图。如图3A所示，电子设备以英语播放第一动作指令“be tall”，用户执行如图3A所示的肢体动作，电子设备可以通过摄像头采集用户图像。假设预先设定的与形容词“tall”对应的动作为向上抬起手臂，则采集到的用户图像中的肢体动作与“向上抬起手臂”的动作相同，可以判定用户执行的肢体动作与第一动作指令相匹配，电子设备输出“恭喜你，答对了！”的反馈信息。

示例性的，请一并参阅图3B，图3B是本申请实施例公开的另一种人机交互方法的应用场景示例图。如图3B所示，电子设备在屏幕上显示第一动作指令“touch your nose”，则第一动作指令为指向“鼻子”的指令，鼻子为目标物体。用户执行如图3B所示的肢体动作，电子设备可以通过摄像头采集用户图像。假设指向手势为“伸出食指”，采集到的用户图像中可以识别到食指，则可以判定从用户执行的肢体动作为指向手势；进一步地，还可以从用户图像中识别出食指指向的物体为鼻子，则可以判定用户执行的指向手势指向的物体与目标物体相匹配，电子设备输出“恭喜你，答对了！”的反馈信息。

可见，实施上述实施例提供的方法，可以由电子设备以目标语种输出动作指令，用户在接收到动作指令之后，根据自身对动作指令的理解，做出对应的肢体动作。电子设备可以通过采集到的用户图像识别出用户执行的肢体动作，并且可以在识别出肢体动作与动作指令相匹配时，输出用于指示正确的反馈信息，从而可以提高用户在学习目标语种时的参与感，调动用户的学习积极性，提高学习效率。

此外，实施上述实施例提供的方法，还可以在实施直接式沟通(total physicalresponse，TPR)教学法进行目标语种的学习时，由电子设备扮演TPR教学法中的教师角色。TPR教学法以“听指令-做动作”为主要的教学组织形式，在教学过程中，一般由教师发出指令，由学生完成动作。而实施上述的实施例提供的方法，使得用户在课堂以外的环境(如家庭)中也可以独立使用TPR教学法进行语言学习，为语言学习提供了便利。

可选的，如图2所示的人机交互方法可以是电子设备中提供TPR教学法的功能模块(如语言学习应用程序)执行的方法。作为另一种可选的实施方式，电子设备中提供TPR教学法的功能模块还可以执行如图4所示的人机交互方法。如图4所示，该人机交互方法可以包括以下步骤：

410、获取以目标语种输入的用户语音。

在本申请实施例中，用户能够以目标语种说出一段话，说话的内容可以与用户需要学习的内容相关。电子设备可以通过麦克风采集用户发出的声音，从而得到输入的用户语音。

在本申请实施例中，作为一种可选的实施方式，在执行步骤410之前，电子设备也可以先显示提示内容，以提示用户以目标语种输入用户语音。可选的，提示内容可以为某一标准动作，该标准动作与用户需要学习的学习目标相关。在显示标准动作之后，用户可以利用目标语种对标准动作进行描述，电子设备可以采集用户在描述标准动作时发出的声音，从而获得以目标语种输入的用户语音。或者，提示内容也可以为以文字形式显示的用户需要学习的学习目标对应的单词、词组或者语句。

示例性的，可以在电子设备的屏幕中显示“向上抬起手臂”的标准动作。用户在看到屏幕中显示的标准动作时，若能够正确理解该标准动作的含义为变高，并且可以想到变高在英语中的表达为“be tall”，那么用户可以将该标准动作描述为“be tall”，并且可以用英语读出，则电子设备可以获取到用户以英语输入的用户语音。或者，也可以在电子设备的屏幕上显示“TALL”，用户在看到“TALL”时，若能理解TALL对应的读音，则可以用英语读出“be tall”，电子设备也可以获取到用户以英语输入的用户语音。

实施上述的实施方式，在获取以目标语种输入的用户语音之前，输出标准动作作为提示，帮助用户建立“动作表达-目标语种的理解-目标语种的输出”的链接，也可以加深用户对目标语种的理解。

420、识别用户语音中包括的第二动作指令。

在本申请实施例中，第二动作指令是由用户发出的指令。可选的，可以识别用户语音中是否包含与用户需要学习的学习目标相关的关键词。若识别出用户语音包含上述的关键词，则可以根据关键词生成第二动作指令。或者；若识别出用户语音包含上述的关键词，则可以直接将用户语音中包含该关键词的语句作为第二动作指令。第二动作指令的具体示例可以如上述的第一动作指令所示，以下内容不再赘述。

430、控制在屏幕中显示的虚拟模型执行与第二动作指令对应的动作或形态变化。

在本申请实施例中，虚拟模型可以为二维或者三维的虚拟模型，可以包括但不限于：虚拟人像、卡通形象、与用户需要学习的目标相关，并且以目标语种显示的内容(如以目标语种显示的单词、词组或者句子)。

可选的，当用户需要学习的学习目标为形容词，第二动作指令为指示用户执行预先设定的与该形容词对应的动作的指令时，可以控制在屏幕中显示的虚拟模型执行与第二动作指令对应的形态变化。

进一步可选的，在执行步骤420识别出用户语音中包括的第二动作指令之后，以及在执行步骤430之前，还可以获取第二动作指令中包括的与用户需要学习的学习目标对应的关键词；在屏幕中输出显示与该关键词在目标语种中的拼写或字形相对应的虚拟模型。

示例性的，请参阅图5，图5是本申请实施例公开的另一种人机交互的应用场景示例图。如图5所示，用户以英语读出“be tall”，单词“tall”为用户需要学习的学习目标(即上述的关键词)，电子设备的屏幕上显示的虚拟模型为英文字母“TALL”的图形。电子设备通过麦克风采集用户语音，并从用户语音中识别出第二动作指令为“be tall”，则控制在屏幕中显示虚拟模型“TALL”变高。用户通过观察屏幕中显示的虚拟模型，可以更好地将tall的读音、字形和释义对应起来，有利于用户运用图像记忆记住tall的音形义，从而可以提高用户学习效率。

也就是说，实施上述实施例提供的方法，可以由用户以目标语种输出动作指令；若用户输出动作指令时的发音正确，则电子设备可以从采集到的用户语音中识别出用户发出的动作指令，从而可以控制在屏幕中显示的虚拟模型执行与该动作指令对应的动作或者形态变化，进而可以帮助用户建立目标语种的音形义链接，提高学习效率。

可选的，在本申请实施例中，还可以在对学习目标进行学习时，通过电子设备执行图2及图4所示的人机交互方法，从听、说、读三方面帮助用户巩固对学习目标的理解。以下进行详细说明。请一并参阅图6，图6是本申请实施例公开的另一种人机交互方法的流程示意图。如图6所示，该人机交互方法可以包括以下步骤：

610、获取拍摄到的书本图像。

612、从书本图像中识别出第一目标内容和第二目标内容。

在本申请实施例中，电子设备可以控制摄像头对课本、绘本、练习册等书本的页面进行拍摄，从而得到书本图像。

在本申请实施例中，第一目标内容和第二目标内容可以为相同或者不同的内容。当第一目标内容和第二目标内容为相同的内容时，执行图6所示的人机交互方法可以帮助用户针对同一个学习目标进行强化学习。当第一目标内容和第二目标内容为不同的内容时，执行图6所示的人机交互方法可以帮助用户针对不同的学习目标进行针对性的听、说、读训练。

为了方便描述，以下内容以第一目标内容和第二目标内容为相同的内容为例对图6所示的人机交互方法进行介绍。

可选的，上述的书本在印刷时，可以在纸质页面中添加特殊的标识码。示例性的，标识码可以为印刷在页眉或者页脚的二维码，或者也可以为以用户不可见的特殊涂料印刷的编码。单个标识码可以对应有至少一个用户需要学习的目标内容；相应地，从书本图像中识别出目标内容可以包括：从书本图像中识别出标识码，从本地数据库或者服务器中查询出与该标识码对应的目标内容。

可选的，用户在阅读上述的书本时，也可以使用手指或者笔指出需要学习的目标内容。相应地，从书本图像中识别出目标内容，可以包括：从书本图像中识别出手指或者笔等用于指向的物体，并识别手指或者笔在图像中的指向位置；进一步地，识别出图像中的指向位置对应的目标内容。

也就是说，在本申请实施例中，可以从用户正在阅读的书本中识别出用户需要学习的目标内容，并执行下述的步骤，以通过TPR教学法帮助用户对目标内容进行学习。用户无需在电子设备上手动设置学习目标，可以省去繁琐的设置步骤，降低了用户的使用门槛，尤其是对于低龄用户而言，可以更便捷地使用电子设备进行语言学习。

614、生成与第一目标内容对应的第一动作指令，并以目标语种输出第一动作指令。

616、获取采集的用户图像，并识别用户图像中包括的肢体动作。

618、在识别出肢体动作与第一动作指令相匹配时，输出用于指示正确的反馈信息。

示例性的，书本上的目标内容为英语单词“tall”，则电子设备可以执行步骤614，以英语读出第一动作指令“be tall”。用户在听到“be tall”时，做出相应的肢体动作。电子设备执行步骤616-步骤618，在用户做动作的同时拍摄用户图像，并从用户图像中识别出用户执行的肢体动作为“向上抬起手臂”，与“be tall”的动作指令相匹配，则输出“恭喜你，答对了！”的反馈信息。

在本申请实施例中，执行上述的步骤614-步骤618，可以由电子设备扮演指令发出者的角色，由用户扮演指令执行者的角色，从而可以训练用户的听力和/或阅读能力。为了进一步训练用户的口语能力，可以继续执行下述的步骤620-步骤626。

620、显示与第二目标内容相对应的标准动作。

622、获取以目标语种描述标准动作的用户语音。

624、识别用户语音中包括的第二动作指令。

626、控制在屏幕中显示的虚拟模型执行与第二动作指令对应的动作或形态变化。

示例性的，电子设备执行步骤620时，可以控制在屏幕中显示的卡通形象执行“向上抬起手臂”的标准动作。用户在看到该标准动作时，若已经通过步骤614-步骤618所示的步骤与电子设备进行交互，记住了“be tall”对应的动作为“向上抬起手臂”，则用户可以读出“be tall”，电子设备可以采集到用户语音，并且从用户语音中识别出第二动作指令“betall”，从而可以控制在屏幕中显示的另一虚拟模型“TALL”变高。

在本申请实施例中，执行上述的步骤620-步骤626，可以由用户扮演指令发出者的角色，由电子设备扮演指令执行者的角色，从而可以鼓励用户大胆地说目标语种，帮助训练用户的口语能力。

需要说明的是，在另外一些可能的实施例中，在执行上述的步骤612从书本图像中识别出目标内容之后，也可以先执行步骤620-步骤626，对用户的口语能力进行训练，通过标准动作以及虚拟模型的动作或形态变化帮助用户建立目标内容的发音和释义之间的对应关系；再执行步骤614-步骤618，由电子设备发出指令，检验用户在步骤620-步骤626中的学习成果。

作为一种可选的实施方式，在执行上述的步骤612从书本图像中识别出目标内容之后，还可以执行以下步骤：

获取用户身份标识。其中，用户身份标识可以为指示用户身份的凭证，可以包括但不限于：用户账号、手机号码、邮箱地址、身份证号。在本申请实施例中，获取用户身份标识的方式可以包括但不限于：获取用户输入的指纹、人脸、声纹等生物特征信息，查询与获取到的生物特征信息对应的用户身份标识；或者，在屏幕中显示登录界面，在登录成功时，获取在登录界面中输入的用户账号。

查询与用户身份标识对应的学习记录。在本申请实施例中，当用户使用电子设备上与语言学习相关的功能(如翻译、点读、搜题等)时，可以根据用户对这些功能的使用记录生成学习记录。例如，用户在登陆当前的用户账号时，使用过翻译功能，翻译的对象为单词“tall”，则可以在当前的用户账号对应的学习记录中生成一条关于“tall”的释义学习的条目；或者，用户在登录当前的用户账号时，使用过点读功能，点读的对象为单词“nose”，则可以在当前的用户账号对应的学习记录中生成一条关于“nose”的读音学习的条目。

若学习记录中包括第一目标内容的读音学习，则触发执行上述的步骤620-步骤626。在本申请实施例中，若用户已经学习过第一目标内容的读音，则可以通过上述的步骤620-步骤626鼓励用户开口朗读第一目标内容，并且可以帮助用户理解第一目标内容的释义，从而帮助用户从音形义三方面全面理解第一目标内容。

若学习记录中包括第二目标内容的释义学习，则触发执行上述的步骤614-步骤618。在本申请实施例中，若用户已经学习过第二目标内容的释义，则可以通过上述的步骤614-步骤618，帮助用户巩固对第二目标内容释义的理解，并且通过输出与目标内容相关的指令，帮助用户学习第二目标内容的读音或者拼写。

可见，实施上述实施例提供的方法，可以从用户正在阅读的书本中识别出用户需要学习的目标内容，无需在电子设备上手动设置学习目标，可以省去繁琐的设置步骤，降低了用户的使用门槛。以及，还可以由用户分别扮演指令发出者和指令执行者的角色，通过不同的角色变换，可以帮助用户从音形义三方面对目标内容进行全面的学习，加深用户对目标内容的理解。

下面对本申请实施例公开的一种电子设备进行详细说明。请一并参阅图7，图7是本申请实施例公开的一种电子设备的结构示意图。如图7所示，该电子设备可以包括：

第一输出单元701，用于以目标语种输出第一动作指令。在本申请实施例中，第一动作指令可以根据用户需要学习的学习目标生成。用户需要学习的学习目标可以包括但不限于：活动用语、物体名称、形容词、介词。其中，第一输出单元701可以通过语音或文字形式以目标语种输出第一动作指令。当通过语音以目标语种输出第一动作指令时，可以考察用户的听力，当通过文字以目标语种输出第一动作指令时，可以考察用户的阅读理解能力。

获取单元702，用于获取采集的用户图像，并识别用户图像中包括的肢体动作。在本申请实施例中，获取单元702具体可以用于通过电子设备的摄像头采集用户图像，并对采集到的用户图像进行图像识别，从而从用户图像中提取出肢体动作。其中，对采集到的用户图像进行图像识别时，可以从用户图像中提取出人体的骨骼特征，从而根据骨骼特征识别出用户执行的肢体动作。或者，也可以将用户图像输入至预先训练好的识别模型中，利用预先训练好的识别模型识别出用户图像中包括的肢体动作。

在本申请实施例中，作为一种可选的实施方式，电子设备的摄像头可以为焦距可调的摄像头。获取单元702获取采集的用户图像的方式可以包括：获取单元702，根据第一动作指令对摄像头的焦距进行调整，使得摄像头采集到的用户图像中包括的肢体动作清晰或者完整，从而可以提高从用户图像中识别出肢体动作的成功率，减少由于图像拍摄质量问题而导致误判用户执行的肢体动作与第一动作指令不匹配的问题。

进一步可选的，获取单元702可以用于在第一动作指令为指向目标物体的指令，且目标物体为脸部器官时，控制摄像头以第一焦距拍摄用户图像；在第一动作指令为指向目标物体的指令，且目标物体为非脸部器官时，控制摄像头以第二焦距拍摄用户图像；其中，第二焦距小于第一焦距。

第二输出单元703，用于在识别出肢体动作与第一动作指令相匹配时，输出用于指示正确的反馈信息。

在本申请实施例中，作为一种可选的实施方式，当第一动作指令为指向目标物体的指令时，第二输出单元703，可以用于在判断出肢体动作为指向手势，并且指向手势指向的物体与目标物体相匹配时，输出用于指示正确的反馈信息。也就是说，当第一动作指令为指向目标物体的指令，除了需要判断用户执行的肢体动作与指向手势是否相同或者相似，还需要判断指向手势指向的物体与目标物体是否相匹配。

实施上述实施例提供的电子设备，可以由电子设备以目标语种输出动作指令，用户在接收到动作指令之后，根据自身对动作指令的理解，做出对应的肢体动作，电子设备可以识别肢体动作，并且在判断出肢体动作与动作指令相匹配时，输出用于指示正确的反馈信息，从而可以提高用户在学习目标语种时的参与感，调动用户的学习积极性，提高学习效率。

可选的，请一并参阅图8，图8是本申请实施例公开的另一种电子设备的结构示意图。其中，图8所示的电子设备是由图7所示的电子设备进行优化得到的。在图8所示的电子设备中：

上述的获取单元702，还可以用于获取以目标语种输入的用户语音；

以及，图8所示的电子设备，还可以包括：

显示单元704，用于识别用户语音中包括的第二动作指令，以及控制在屏幕中显示的虚拟模型执行与第二动作指令对应的动作或形态变化。可选的，显示单元704可以在用户需要学习的学习目标为形容词，第二动作指令为指示用户执行预先设定的与该形容词对应的动作的指令时，控制在屏幕中显示的虚拟模型执行与第二动作指令对应的形态变化。

进一步可选的，图8所示的电子设备还可以包括：

识别单元705，用于获取拍摄到的书本图像，并从书本图像中识别出第一目标内容和/或第二目标内容。其中，第一目标内容和第二目标内容可以是相同或者不同的内容。

可选的，上述的第一输出单元701在以目标语种输出第一动作指令之前，还可以执行根据识别单元705识别出的第一目标内容生成第一动作指令的操作；

或者，上述的显示单元704，还可以用于获取识别单元705识别出的第二目标内容，并显示与第二目标内容对应的标准动作。相应地，上述的获取单元702用于获取以目标语种输入的用户语音的方式可以包括：获取单元702，用于获取以目标语种描述标准动作的用户语音。

更进一步可选的，图8所示的电子设备还可以包括：

查询单元706，用于获取用户身份标识，并查询与用户身份标识对应的学习记录；以及，在学习记录中包括识别单元705识别出的第一目标内容的读音学习时，触发第一输出单元701执行根据识别单元705识别出的第一目标内容生成第一动作指令，并以目标语种输出第一动作指令的操作；以及在学习记录中包括识别单元705识别出的第二目标内容的释义学习时，触发显示单元704执行显示与第二目标内容对应的标准动作的操作。

可见，实施上述实施例提供的电子设备，用户除了可以扮演指令执行者的角色，还可以扮演指令发出者的角色，从而可以鼓励用户大胆地说目标语种，帮助训练用户的口语能力。以及，电子设备可以从用户正在阅读的书本中识别出用户需要学习的学习目标，无需在电子设备上手动设置学习目标，可以省去繁琐的设置步骤，降低了用户的使用门槛。

请参阅图9，图9是本申请实施例公开的另一种电子设备的结构示意图。如图9所示，该电子设备可以包括：

存储有可执行程序代码的存储器901；

与存储器901耦合的处理器902；

其中，处理器902调用存储器901中存储的可执行程序代码，执行本申请实施例公开的任一种人机交互方法。

处理器902可以包括一个或者多个处理核。处理器902利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器901内的指令、程序、代码集或指令集，以及调用存储在存储器901内的数据，执行终端设备的各种功能和处理数据。可选地，处理器902可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器902可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器902中，单独通过一块通信芯片进行实现。

存储器901可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器901可用于存储指令、程序、代码、代码集或指令集。存储器901可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备在使用中所创建的数据等。

需要说明的是，图9所示的电子设备还可以包括电源、输入按键、摄像头、扬声器、屏幕、麦克风、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本申请实施例公开的任一种人机交互方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的任一种人机交互方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器、随机存储器、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种人机交互方法及电子设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

以目标语种输出第一动作指令；

2.根据权利要求1所述的方法，其特征在于，所述第一动作指令为指向目标物体的指令；

所述识别所述用户图像中包括的肢体动作，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取采集的用户图像，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述以目标语种输出第一动作指令之前，所述方法还包括：

获取拍摄到的书本图像；

从所述书本图像中识别出第一目标内容；

生成与所述第一目标内容对应的所述第一动作指令。

5.根据权利要求4所述的方法，其特征在于，在所述生成与所述第一目标内容对应的所述第一动作指令之前，所述方法还包括：

若所述学习记录中包括所述第一目标内容的读音学习，则执行所述生成与所述目标内容对应的所述第一动作指令的步骤。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取以目标语种输入的用户语音；

识别所述用户语音中包括的第二动作指令；

7.根据权利要求6所述的方法，其特征在于，在所述获取输入的用户语音之前，所述方法还包括：

获取拍摄到的书本图像；

从所述书本图像中识别出第二目标内容；

显示与所述第二目标内容对应的标准动作；

以及，所述获取以目标语种输入的用户语音，包括：

获取以所述目标语种描述所述标准动作的用户语音。

8.根据权利要求7所述的方法，其特征在于，在所述显示与所述第二目标内容对应的标准动作之前，所述方法还包括：

若所述学习记录中包括所述第二目标内容的释义学习，则执行所述显示与所述第二目标内容对应的标准动作的步骤。

9.一种电子设备，其特征在于，包括：

第一输出单元，用于以目标语种输出第一动作指令；

10.一种电子设备，其特征在于，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行权利要求1-8任一项所述的人机交互方法。