CN114520003A

CN114520003A - 语音交互方法、装置、电子设备和存储介质

Info

Publication number: CN114520003A
Application number: CN202210187518.5A
Authority: CN
Inventors: 李守毅; 王浩
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-20
Anticipated expiration: 2042-02-28
Also published as: CN114520003B

Abstract

本发明提供一种语音交互方法、装置、电子设备和存储介质，其中方法包括：获取环境信息，环境信息包括环境语音和/或环境图像；对环境信息中包含的人员进行身份识别，得到身份识别结果；若身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；获取问题对应的答题语音，并基于答题语音，确定目标人员对于知识点的学情情况，在目标人员处于播放设备所处环境的情况下语音播放知识点和问题，避免了空播报的情况，并且在语音播报后增加了与目标人员间的语音互动环节，以通过采集的答题语音来掌握目标人员的学情情况，完全克服了传统方案中因缺乏与目标人员的互动，导致知识点学习效果甚微的缺陷，实现学习效率和学习效果的双重提升。

Description

语音交互方法、装置、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音交互方法、装置、电子设备和存储介质。

背景技术

随着人们对于教育以及知识学习的关注度的日益加重，大量的学习机器人和学习设备应运而生，这些学习机器人和学习设备以每日播放一个知识点的形式，使孩子每天学习一个知识点，以达到积少成多的目的，而学习的知识点的内容可以多种多样，例如，可以是传统节日介绍、自然科普、动物习性介绍等。

目前的学习机器人或学习设备每日播放知识点的方式，大多是定点设置，即学习机器人或学习设备于每日特定时间启动，播放知识点，这一方式较为简单，并且缺乏与孩子间的互动，从而导致孩子的学习效率较低，学习效果甚微。

发明内容

本发明提供一种语音交互方法、装置、电子设备和存储介质，用以解决现有技术中知识点空播报，以及因缺乏与目标人员间的互动，导致知识点学习效果甚微的缺陷。

本发明提供一种语音交互方法，包括：

获取环境信息，所述环境信息包括环境语音和/或环境图像；

对所述环境信息中包含的人员进行身份识别，得到身份识别结果；

若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；

获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

根据本发明提供的一种语音交互方法，所述基于所述答题语音，确定所述目标人员对于所述知识点的学情情况，包括：

对所述答题语音进行语音转写，得到所述问题对应的答题文本；

基于所述问题对应的标准答案文本，以及所述答题文本，确定所述目标人员对于所述知识点的学情情况。

根据本发明提供的一种语音交互方法，所述基于所述问题对应的标准答案文本，以及所述答题文本，确定所述目标人员对于所述知识点的学情情况，包括：

对所述答题文本和所述标准答案文本分别进行语义提取，得到所述答题文本的语义信息和所述标准答案文本的语义信息；

对所述答题文本的语义信息和所述标准答案文本的语义信息进行相似度匹配，得到所述答题文本和所述标准答案文本的语义相似度；

基于所述语义相似度，确定所述目标人员对于所述知识点的学情情况。

根据本发明提供的一种语音交互方法，所述基于所述语义相似度，确定所述目标人员对于所述知识点的学情情况，包括：

基于所述语义相似度，确定所述目标人员对于所述问题的答题情况；

基于所述问题的知识点考察情况，以及所述答题情况，确定所述目标人员对于所述知识点的学情情况。

根据本发明提供的一种语音交互方法，所述基于所述问题的知识点考察情况，以及所述答题情况，确定所述目标人员对于所述知识点的学情情况，之后还包括：

基于预设展示方式，对所述答题情况和所述学情情况进行展示；

所述预设展示方式包括语音播报展示、视频图像展示、学习报告展示中的至少一种。

根据本发明提供的一种语音交互方法，所述进行知识点和问题的语音播报，之后还包括：

若预设时间段内未获取到所述问题对应的答题语音，则生成提示信息；

所述提示信息包括语音提示信息、文字提示信息、铃声指示信息、灯光提示信息中的至少一种。

根据本发明提供的一种语音交互方法，所述若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报，包括：

若所述身份识别结果中包含目标人员的身份信息，则对所述环境语音进行语音转写，并基于语音转写所得的转写文本进行语义提取，得到环境语义信息；

和/或，若所述身份识别结果中包含目标人员的身份信息，则对所述环境图像中的目标人员进行姿态检测，得到所述目标人员的姿态检测结果；

若所述环境语义信息和/或所述姿态检测结果反映所述目标人员处于休闲状态，则进行知识点和问题的语音播报。

根据本发明提供的一种语音交互方法，所述对所述环境信息中包含的人员进行身份识别，得到身份识别结果，包括：

对所述环境语音进行声纹提取，得到所述环境语音中包含的人员的声纹特征；

基于所述声纹特征，确定语音身份识别结果；

和/或，对所述环境图像进行身份识别，得到图像身份识别结果；

基于所述语音身份识别结果和/或所述图像身份识别结果，确定身份识别结果。

本发明还提供一种语音交互装置，包括：

信息获取单元，用于获取环境信息，所述环境信息包括环境语音和/或环境图像；

身份识别单元，用于对所述环境信息中包含的人员进行身份识别，得到身份识别结果；

语音播报单元，用于若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；

学情掌控单元，用于获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的语音交互方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的语音交互方法。

本发明提供的语音交互方法、装置、电子设备和存储介质，本发明提供的语音交互方法，对环境信息中包含的人员进行身份识别，并在身份识别所得的身份识别结果中包含目标人员的身份信息的情况下，进行知识点和问题的语音播报；然后，获取问题对应的答题语音，并据此答题语音确定目标人员对于知识点的学情情况，在目标人员处于播放设备所处环境的情况下进行知识点和问题的语音播放，避免了空播报的情况，并且在语音播报后增加了与目标人员间的语音互动环节，以通过采集的答题语音来掌握目标人员的学情情况，完全克服了传统方案中因缺乏与目标人员间的互动，导致知识点学习效果甚微的缺陷，实现学习效率和学习效果的双重提升。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音交互方法的流程示意图；

图2是本发明提供的语音交互方法中步骤140的流程示意图；

图3是本发明提供的语音交互方法中步骤142的流程示意图；

图4是本发明提供的语音交互方法中步骤142-3方法的流程示意图；

图5是本发明提供的语音交互方法中步骤120的流程示意图；

图6是本发明提供的语音交互装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人们对于教育以及课内外知识学习重视度的日益增加，大量的学习机器人和学习设备应运而生，此类学习机器人和学习设备大多具备每日自动播放一个知识点的功能，即以每日播放一个知识点的形式，使孩子每天学习一个知识点，从而达到积少成多的目的；并且，学习机器人和学习设备播放的知识点的内容可以是多种多样的，例如，可以是传统节日介绍、自然科普、动物习性介绍等。

目前，学习机器人和学习设备每日播放知识点的方式，大多是定点设置，即使学习机器人或学习设备于每日特定时间启动，播放知识点，这一方式较为简单，并且，学习机器人或学习设备播放知识点后，无法确定用户的学习情况，即用户可能并不在其附近，或者在其附近但并未学习知识点，此种情况下，学习机器人或学习设备播放知识点的收效甚微，即在无法获知用户的学习情况，无法知晓其学习状态情况下的知识点播报的意义有限，与期盼用户能够借助此类设备更好、更自主的学习的初衷相去甚远。

针对上述情况，本发明提供一种语音交互方法，旨在确定目标人员在设备附近的情况下进行播放知识点，并且在播放后增加与目标人员间的互动环节，以通过语音互动来掌握目标人员的学情情况，实现知识点学习效果的显著提升，图1是本发明提供的语音交互方法的流程示意图，如图1所示，该方法包括：

步骤110，获取环境信息，环境信息包括环境语音和/或环境图像；

具体地，为避免知识点空播报的情况，即学习对象未处在播放设备附近的情况，本发明实施例中，在启动播放设备进行知识点播报之前，首先需要获取播放设备所处环境的环境信息，以据此环境信息验证播放设备所处环境中是否包含学习对象，即目标人员，此处的目标人员可以是一个也可以是多个，本发明实施例对此不做具体限定。

另外，此处的播放设备即能够进行知识点播报的设备，可以是学习机器人、学习设备等；环境信息可以是音频形式的，也可以是图像形式的，即环境信息可以包括环境语音和/或环境图像。

其中，环境语音可以通过设置于播放设备上的语音采集设备采集得到，此处的语音采集设备可以是麦克风、麦克风阵列等；环境图像则可以通过装设于播放设备上的图像采集设备采集得到，此处的图像采集设备可以是相机、摄像头等。

步骤120，对环境信息中包含的人员进行身份识别，得到身份识别结果；

具体地，经过步骤110得到环境信息后，即可执行步骤120，对环境信息中包含的人员进行身份识别，以得到身份识别结果，这一过程实际上等同于借助环境信息中的环境语音和/或环境图像，判断目标人员是否在播放设备附近的过程。

而考虑到声纹以及人脸的独特性，本发明实施例中，可以应用环境语音中包含的人员的声纹特征进行身份识别，此处，环境语音中可能仅包含一个人员，也可能包含多个人员，即其中的说话人可能是一个也可能是多个，将各个说话人的声纹特征与预先存储/录入/注册的用户的声纹特征进行匹配，并将匹配成功的两个声纹特征对应的说话人和用户等同，即将与之匹配的声纹特征对应的用户的身份信息直接作为对应说话人的身份信息，此身份信息即为对应说话人的身份识别结果。

也可以通过识别率较高的面部特征进行身份识别，即将环境图像中包含的人员的面部特征，与从预先存储/录入/注册的用户的人脸图像中提取得到的面部特征进行匹配，并将匹配成功的面部特征对应的用户的身份信息作为环境图像中对应人员的身份信息，同样，此身份信息为环境图像中对应人员的身份识别结果。

需要说明的是，在上述身份识别的过程中，还可以通过预先存储/录入/注册的用户的身高、体型等信息进行辅助判断，以减轻识别难度或提升识别精度。

除此之外，本发明实施例中，还可以综合环境语音中的声纹特征以及环境图像中的面部特征进行身份识别，即在环境语音中蕴含的人员的声纹特征的基础上，结合环境图像中蕴含的人员的面部特征，据此两者进行身份识别以确定环境信息中包含的人员的身份信息，结合不同层面的信息进行身份识别，能够最大程度的保障身份识别结果的准确性。

步骤130，若身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；

具体地，在步骤120中，得到环境信息中包含的人员的身份识别结果的情况下，可判断此身份识别结果中是否包含目标人员的身份信息，亦可以理解为环境信息中包含的人员是否囊括有目标人员。

进一步地，在环境信息中包含的人员有目标人员的情况下，即对环境信息中包含的人员进行身份识别所得的身份识别结果中包含目标人员的身份信息的情况下，播放设备启动并进行知识点的语音播报，具体可以是生成启动指令，通过启动指令触发播放设备启动，语音播报知识点。此处的知识点即知识、理论、道理、思想等层面上，相对独立的最小知识单元，其内容可以是自然科普、天体科普、物理现象科普、传统文化科普、生活常识科普等。

另外，考虑到传统方案中由于学习情况检验环节的缺失，导致学习效果甚微的情况，本发明实施例中，播放设备会在知识点播报前后，语音播报问题，该问题是与播报的知识点适配的，即是根据播报的知识点的内容确定的，并且，问题的数目可以是一个也可以是多个，可以根据实际情况相应设置。

例如，当语音播报的知识点为“地球表面积有5.1亿平方公里，其中，71％为海洋，29％为陆地”时，与其对应的问题可以是：

(1)地球的表面积是多少？

(2)地球的表面是陆地面积大，还是海洋面积大？

(3)海洋的表面积是陆地表面积的多少倍？

相应地，若环境信息中包含的人员的身份识别结果中未包含目标人员的身份信息，即目标人员未处于播放设备所处环境中，此时，无需启动播放设备，直待后续的身份识别结果中包含目标人员的身份信息再启动播放设备进行知识点和问题的语音播报。

步骤140，获取问题对应的答题语音，并基于答题语音，确定目标人员对于知识点的学情情况。

具体地，在步骤130中，播报知识点和问题后，为了掌握目标人员的学情情况，本发明实施例中，可继续获取目标人员对于问题的回答，即通过播放设备上设置的语音采集设备采集目标人员对于问题的答题语音，基于此答题语音确定目标人员对于知识点的掌握情况，这一过程具体可以是，将此答题语音转换为文本，并在转换后的文本的基础上，结合问题对应的标准答案文本，确定目标人员对于知识点的学情情况，即将转换后的文本与问题对应的标准答案文本进行文本形式层面和/或文本语义层面的相似度匹配，从而得到两者的相似度匹配结果，并据此结果确定目标人员对于知识点的学情情况。

另外，此学情情况可以用于下一次的知识点播报中，从而使得每一次的知识点播报可以适配于目标人员的学习进度，即可以针对单一目标人员，确定适配于其学情情况的知识点；并且，在目标人员为多个，且学情情况不同的情况下，为免耽误学习进度，可以为各个目标人员确定适合于其学习进度的知识点。

本发明提供的语音交互方法，对环境信息中包含的人员进行身份识别，并在身份识别所得的身份识别结果中包含目标人员的身份信息的情况下，进行知识点和问题的语音播报；然后，获取问题对应的答题语音，并据此答题语音确定目标人员对于知识点的学情情况，在目标人员处于播放设备所处环境的情况下进行知识点和问题的语音播放，避免了空播报的情况，并且在语音播报后增加了与目标人员间的语音互动环节，以通过采集的答题语音来掌握目标人员的学情情况，完全克服了传统方案中因缺乏与目标人员间的互动，导致知识点学习效果甚微的缺陷，实现学习效率和学习效果的双重提升。

基于上述实施例，图2是本发明提供的语音交互方法中步骤140的流程示意图，如图2所示，步骤140中，基于答题语音，确定目标人员对于知识点的学情情况，包括：

步骤141，对答题语音进行语音转写，得到问题对应的答题文本；

步骤142，基于问题对应的标准答案文本，以及答题文本，确定目标人员对于知识点的学情情况。

具体地，步骤140中，获取答题语音后，根据答题语音确定目标人员对于知识点的学情情况的过程，具体包括如下步骤：

首先，执行步骤141，将答题语音转换为文本，即对答题语音进行语音转写，从而得到答题语音对应的答题文本，此处的语音转写过程可以借助语音转写引擎或语音转写模型完成，即将答题语音输入语音转写引擎或语音转写模型，语音转写引擎或语音转写模型对输入的答题语音进行语音转写，得到语音转写引擎或语音转写模型输出的答题语音对应的答题文本；

随即，执行步骤142，根据答题语音对应的答题文本，以及问题对应的标准答案文本，确定目标人员对于知识点的学情情况，这一过程实际上凭借的是答题文本和标准答案文本之间的相似度，此处的相似度可以是文本形式层面的，即文本相似度，也可以是文本语义层面的，即语义相似度，即以答题文本与标准答案文本之间的文本相似度和/或语义相似度为基准，确定目标人员对于知识点的学情情况。

基于上述实施例，图3是本发明提供的语音交互方法中步骤142的流程示意图，如图3所示，步骤142包括：

步骤142-1，对答题文本和标准答案文本分别进行语义提取，得到答题文本的语义信息和标准答案文本的语义信息；

步骤142-2，对答题文本的语义信息和标准答案文本的语义信息进行相似度匹配，得到答题文本和标准答案文本的语义相似度；

步骤142-3，基于语义相似度，确定目标人员对于知识点的学情情况。

具体地，步骤142中，根据答题文本，以及问题对应的标准答案文本，确定目标人员对于知识点的学情情况的过程，具体包括如下步骤：

步骤142-1，对答题文本和标准答案文本分别进行语义提取，提取其中包含的语义信息，然后得到答题文本的语义信息和标准答案文本的语义信息，此处的语义提取过程可以通过常规的语义提取方式实现；

步骤142-2，在得到答题文本的语义信息和标准答案文本的语音信息的基础上，可据此两者确定答题文本和标准答案文本之间的语义相似度，即对答题文本的语义信息和标准答案文本的语义信息进行相似度匹配，从而得到答题文本和标准答案文本之间的语义相似度；

步骤142-3，以上一步确定的两个文本之间的语义相似度为基准，确定目标人员对于问题的答题情况，并据此答题情况确定目标人员对于知识点的学情情况，即当语义相似度较高时，可以确定目标人员对于问题的答题情况较好，对于知识点的学情情况为优秀；对应地，当语义相似度较低时，可以确定目标人员对于问题的答题情况不佳，对于知识点的学情情况为不及格。

需要说明的是，本发明实施例中，除了借助答题文本和标准答案文本的语义相似度之外，还可以通过两者于文本形式层面的文本相似度，确定目标人员对于知识点的学情情况，又考虑到文本是由多个句子组成，因此，文本之间的相似度依赖于文本中句子之间的相似度，而句子又是由词语组成，因此，文本之间的相似度实际上取决于文本中词语之间的相似度，而不论是中文词语还是英文单词，通过编辑距离均可计算相似度。

因而，上述依据文本相似度，确定目标人员对于知识点的学情情况的过程，具体可以是，分别计算答题文本和标准答案文本中词语的编辑距离；然后，基于答题文本中词语的编辑距离，以及标准答案文本中词语的编辑距离，确定答题文本和标准答案文本之间的文本相速度；此后，即可据此文本相似度，确定目标人员对于知识点的学情情况。

基于上述实施例，图4是本发明提供的语音交互方法中步骤142-3方法的流程示意图，如图4所示，步骤142-3包括：

步骤142-31，基于语义相似度，确定目标人员对于问题的答题情况；

步骤142-32，基于问题的知识点考察情况，以及答题情况，确定目标人员对于知识点的学情情况。

具体地，步骤142-3中，根据语义相似度，确定目标人员对于知识点的学情情况的过程，包括如下步骤：

首先，根据答题文本和标准答案文本之间语义相似度，确定目标人员对于问题的答题情况，此处的语义相似度表征答题文本和标准答案文本的接近程度，语义相似度越高，表示目标人员对于问题的回答越接近标准答案，即目标人员回答正确的概率越大；反之，语义相似度越低，表示目标人员对于问题的回答与标准答案的差别越大，即目标人员回答正确的概率越小，即可以以语义相似度为基准，确定目标人员对于语音播报的一个或多个问题的回答优劣，例如，当语义相似度为80％时，可以初步确定目标人员对于问题的答题情况较好；反之，当语义相似度为40％时，可以初步确定目标人员对于问题的答题情况不佳；

进一步地，考虑到不同问题涉及的知识面的宽广不同，即不同问题考察的知识点的数目不同、难易程度也不同，因而，本发明实施例中，在得到目标人员对于问题的答题情况的基础上，还可以结合问题的知识点考察情况，以确定目标人员对于知识点的学情情况，此处的知识点考察情况可以是知识点数目、知识点难易程度、知识点之间的关联程度中的一种或多种。

例如，在语义相似度为50％时，可以初步确定目标人员对于问题的答题情况为不佳(50分)，此时，若问题的知识点考察情况中的知识点数目占语音播报的知识点内容的80％，则可以确定此种情况下对于该问题的及格线为48分

此时，可以确定目标人员对于知识点的学情情况为及格。

基于上述实施例，步骤142-32中，基于问题的知识点考察情况，以及答题情况，确定目标人员对于知识点的学情情况，之后还包括：

基于预设展示方式，对答题情况和学情情况进行展示；

预设展示方式包括语音播报展示、视频图像展示、学习报告展示中的至少一种。

具体地，经过上述步骤得到目标人员对于问题的答题情况，以及对于知识点的学情情况后，可以对其进行展示，即通过预先展示方式，对答题情况和学情情况进行展示，需要说明的是，此处的预设展示方式可以是语音播报展示、视频图像展示、学习报告展示中的一种或多种。

其中，语音播报展示，即将目标人员对于问题的答题情况和对于知识点的学情情况通过语音播报的形式进行展示。

视频图像展示，即根据答题情况和学情情况生成视频和/或图像，然后，于预置的显示设备上进行显示，显示方式可以是触发显示、点击显示、滑动显示中的一种或多种，即在生成视频和/或图像后，通过触发显示图标、点击显示屏幕、滑动显示页面中的一种或多种显示方式，实现对答题情况和学情情况的展示。

学习报告展示，即根据答题情况和学情情况生成学习文本和/或学习报表，然后通过预置的显示设备进行显示，具体的显示方式与视频图像显示一致。

基于上述实施例，步骤130中，进行知识点和问题的语音播报，之后还包括：

若预设时间段内未获取到问题对应的答题语音，则生成提示信息；

提示信息包括语音提示信息、文字提示信息、铃声指示信息、灯光提示信息中的至少一种。

具体地，步骤130中，播放设备进行知识点和问题的语音播报后，若在预设时间段内未采集到目标人员对于问题的答题语音，则可以认为目标人员并未以语音形式回答问题，而未回答问题的原因可能是目标人员已离开播放设备所处环境，或者目标人员忘记还需回答问题，此时，为知晓目标人员对于知识点的学情情况，可以生成提示信息，通过此提示信息提示目标人员回答问题。

需要说明的是，此处的提示信息可以是语音提示信息、文字提示信息、铃声提示信息、灯光提示信息中的一种或多种，即可以通过语音播报提示信息提示目标人员还有问题未回答，具体的提示内容可以根据实际情况相应设置，或者通过预置的显示设备显示文字提示信息，以达到提示目标人员回答问题的目的，又或者通过铃声、灯光亮度变化等方式提示目标人员通过语音回答问题；此外，还可以结合上多种提示方式，共同提示目标人员回答问题。

基于上述实施例，步骤130包括：

若身份识别结果中包含目标人员的身份信息，则对环境语音进行语音转写，并基于语音转写所得的转写文本进行语义提取，得到环境语义信息；和/或，

若身份识别结果中包含目标人员的身份信息，则对环境图像中的目标人员进行姿态检测，得到目标人员的姿态检测结果；

若环境语义信息和/或姿态检测结果反映目标人员处于休闲状态，则进行知识点和问题的语音播报。

具体地，步骤130中，在对环境信息进行身份识别所得的身份识别结果中包含目标人员的身份信息的情况下，若直接进行知识点和问题的语音播报，则可能会使得正处于作业状态的目标人员的思绪中断，从而导致目标人员的体验不佳，因而，为避免上述情况，本发明实施例中，可在进行知识点和问题的语音播报之前，确定目标人员的当前状态，以在其处于休闲状态时进行语音播报，这一过程具体包括如下步骤：

首先，在身份识别结果中包含目标人员的身份信息的情况下，对环境信息中的环境语音进行语音转写，即将环境语音转写为文本，从而得到环境语音对应的转写文本，此处的语音转写可以通过常规的语音转写技术实现；

随即，对环境语音对应的转写文本进行语义提取，提取其中包含的语义信息，从而得到环境语义信息，即环境语音中包含的语义信息；

此后，即可通过环境语义信息，确定目标人员的当前状态，并在当前状态为休闲状态的情况下，启动播放设备进行知识点和问题的语音播报。

或者，在身份识别结果中包含目标人员的身份信息的情况下，借助环境信息中的环境图像，对目标人员进行姿态检测，从而得到目标人员的姿态检测结果，此时的姿态检测结果即目标人员的当前姿态；随后，可据此姿态检测结果，确定目标人员的当前状态，并在当前状态为休闲状态的情况下，启动播放设备进行知识点和问题的语音播报。

例如，当姿态检测结果为伏案写作时，可以确定目标人员的当前状态为作业状态或非休闲状态；相应地，当姿态检测结果为堆积木或看电视时，可以确定目标人员的当前状态为休闲状态，此时可以启动播放设备进行知识点和问题的语音播报。

又或者，综合上述两者方式，共同判断目标人员的当前状态，即在身份识别结果中包含目标人员的身份信息的情况下，结合环境语义信息和姿态检测结果，共同确定目标人员的当前状态，并在当前状态为休闲状态的情况下，启动播放设备进行知识点和问题的语音播报，通过两个不同层面的信息确定的目标人员的当前状态的准确度较高，能够在极大程度上避免对目标人员非休闲状态下的打扰，从而实现使用体验的优化。

基于上述实施例，图5是本发明提供的语音交互方法中步骤120的流程示意图，如图5所示，步骤120包括：

步骤121，对环境语音进行声纹提取，得到环境语音中包含的人员的声纹特征；

步骤122，基于声纹特征，确定语音身份识别结果；

和/或，

步骤123，对环境图像进行身份识别，得到图像身份识别结果；

步骤124，基于语音身份识别结果和/或图像身份识别结果，确定身份识别结果。

考虑到声纹所具有的特定性，即每个人的声纹都是独有的，不同人员的声纹不同，因而，步骤120中，对环境信息中包含的人员进行身份识别，以得到身份识别结果的过程，可以凭借声纹特征实现，具体过程包括如下步骤：

首先，执行步骤121，对环境信息中的环境语音进行声纹提取，以确定环境语音中包含的人员的声纹特征，即从环境语音中提取有关于说话人的声纹特征的信息，从而得到各个说话人的声纹特征；

随后，执行步骤122，根据环境语音中包含的各个说话人的声纹特征，确定各个说话人的身份信息，即各个说话人的身份识别结果，这一过程具体可以是，将各个说话人的声纹特征与预先存储/录入/注册的用户的声纹特征进行匹配，将匹配成功的两个声纹特征对应的说话人和用户等同，即将与之匹配的声纹特征对应的用户的身份信息直接作为对应说话人的身份信息。

需要说明的是，由于此时的身份识别结果是通过环境信息中的环境语音确定的，因而，可以将其称为语音身份识别结果；又考虑到以声纹特征为基准，确定的语音身份识别结果的准确性较高，因而，本发明实施例中，可以将语音身份识别结果直接作为最终的身份识别结果。

另外，也可以通过识别率较高的面部特征进行身份识别，即以环境图像中包含的人员的面部特征为基准，对环境图像中包含的人员进行身份识别，从而得到其中包含的人员的身份信息，即环境图像中包含的人员的身份识别结果，而由于此身份识别结果是以环境图像为基准确定的，因而，将其称为图像身份识别结果；又由于面部特征的识别率非常高，因而，可以将此时得到的图像身份识别结果直接作为最终的身份识别结果。

除此之外，考虑到还存在极少部分面部特征较为相似的人，因而，为了保证得到的身份识别结果的准确率，本发明实施例中，还可以在图像身份识别结果的基础上，结合语音身份识别结果，据此两者确定身份识别结果，如此即可使得最终的身份识别结果的准确度能够得到最大程度的保障。

下面对本发明提供的语音交互装置进行描述，下文描述的语音交互装置与上文描述的语音交互方法可相互对应参照。

图6是本发明提供的语音交互装置的结构示意图，如图6所示，该装置包括：

信息获取单元610，用于获取环境信息，所述环境信息包括环境语音和/或环境图像；

身份识别单元620，用于对所述环境信息中包含的人员进行身份识别，得到身份识别结果；

语音播报单元630，用于若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；

学情掌控单元640，用于获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

本发明提供的语音交互装置，本发明提供的语音交互方法，对环境信息中包含的人员进行身份识别，并在身份识别所得的身份识别结果中包含目标人员的身份信息的情况下，进行知识点和问题的语音播报；然后，获取问题对应的答题语音，并据此答题语音确定目标人员对于知识点的学情情况，在目标人员处于播放设备所处环境的情况下进行知识点和问题的语音播放，避免了空播报的情况，并且在语音播报后增加了与目标人员间的语音互动环节，以通过采集的答题语音来掌握目标人员的学情情况，完全克服了传统方案中因缺乏与目标人员间的互动，导致知识点学习效果甚微的缺陷，实现学习效率和学习效果的双重提升。

基于上述实施例，学情掌控单元640用于：

基于上述实施例，所述装置还包括展示单元，用于：

基于上述实施例，所述还包括提示单元，用于：

基于上述实施例，语音播报单元630用于：

基于上述实施例，身份识别单元620用于：

基于所述声纹特征，确定语音身份识别结果；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音交互方法，该方法包括：获取环境信息，所述环境信息包括环境语音和/或环境图像；对所述环境信息中包含的人员进行身份识别，得到身份识别结果；若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音交互方法，该方法包括：获取环境信息，所述环境信息包括环境语音和/或环境图像；对所述环境信息中包含的人员进行身份识别，得到身份识别结果；若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的语音交互方法，该方法包括：获取环境信息，所述环境信息包括环境语音和/或环境图像；对所述环境信息中包含的人员进行身份识别，得到身份识别结果；若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报；获取所述问题对应的答题语音，并基于所述答题语音，确定所述目标人员对于所述知识点的学情情况。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互方法，其特征在于，包括：

获取环境信息，所述环境信息包括环境语音和/或环境图像；

2.根据权利要求1所述的语音交互方法，其特征在于，所述基于所述答题语音，确定所述目标人员对于所述知识点的学情情况，包括：

3.根据权利要求2所述的语音交互方法，其特征在于，所述基于所述问题对应的标准答案文本，以及所述答题文本，确定所述目标人员对于所述知识点的学情情况，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述基于所述语义相似度，确定所述目标人员对于所述知识点的学情情况，包括：

5.根据权利要求4所述的语音交互方法，其特征在于，所述基于所述问题的知识点考察情况，以及所述答题情况，确定所述目标人员对于所述知识点的学情情况，之后还包括：

6.根据权利要求1至5中任一项所述的语音交互方法，其特征在于，所述进行知识点和问题的语音播报，之后还包括：

7.根据权利要求1至5中任一项所述的语音交互方法，其特征在于，所述若所述身份识别结果中包含目标人员的身份信息，则进行知识点和问题的语音播报，包括：

8.根据权利要求1至5中任一项所述的语音交互方法，其特征在于，所述对所述环境信息中包含的人员进行身份识别，得到身份识别结果，包括：

基于所述声纹特征，确定语音身份识别结果；

9.一种知识学习装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的语音交互方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的语音交互方法。