CN107992507A

CN107992507A - 一种儿童智能对话学习方法、***及电子设备

Info

Publication number: CN107992507A
Application number: CN201710138759.XA
Authority: CN
Inventors: 何嘉斌; 顾嘉唯; 常丰峰
Original assignee: Beijing Genius Intelligent Technology Co Ltd
Current assignee: Beijing Genius Intelligent Technology Co Ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2018-05-04

Abstract

本发明公开了一种儿童智能对话学习方法、***及电子设备，该方法包括：通过预设引导语音引导用户调整智能学习机，使智能学习机上的摄像头朝向所要学习的目标物；通过摄像头获取图像并分析，判断该图像是否符合目标物图像要求，若不符合继续通过引导语音引导用户调整智能学习机；若符合要求，则对目标物图像进行识别，获取目标物类型；根据目标物类型，获取与目标物对应的语料库；播放语料库中与目标物对应的多媒体文件并且基于语料库与用户进行交互对话学习。所述儿童智能对话学习方法、***及电子设备能够准确把握儿童用户的兴趣点和注意力并且提高与儿童用户语音对话识别的准确率，同时能够加强与儿童用户的互动和交流，提高对话学习的质量。

Description

一种儿童智能对话学习方法、***及电子设备

技术领域

本发明涉及智能机器技术领域，特别是指一种儿童智能对话学习方法、***及电子设备。

背景技术

随着计算机技术的飞速发展，智能机器尤其是智能家居逐渐出现在人们的生活中，不仅对于提高人们生活质量和效率有着极为明显的促进作用，而且节省了大量的人力物力。在智能机器中有一种较为特别的智能机器，就是针对于儿童的智能机器，主要用于儿童的娱乐、学习以及安全防护等等。由于儿童属于特殊人群，所以与常规的成人使用的有较大的不同，体现在：儿童的随意性比较强、控制力比较差、注意力集中程度与时间也与成人不同。

所以，现有用于儿童学习的智能机器人通常都是直接存储大量的既定知识，然后通过儿童的点播按照固定顺序进行播放，或者配套设计有一组相应的物品玩具，通过对玩具进行扫码等方式实现儿童对物品的认知学习。这样的设计一方面将所有知识整合在一起，当与儿童进行对话学习时，由于儿童语音处于成长变音期，其识别率较低；另一方面，限定了儿童学习的范围，不仅使得智能机器中的内容无法准确吸引儿童的注意力和兴趣点，而且既定顺序的学习方式并不能很好的适应儿童的学习和娱乐，导致使用的体验不好，学习成果不显著。此外，对于儿童来说，常规逻辑设计的语音对话环节往往并不能准确把握儿童的关注点，导致这些智能机器与儿童对话交互的质量较低。

因此，在实现本发明的过程中，发明人发现现有技术至少存在以下缺陷：与儿童语音对话的识别率不高、无法准确吸引儿童的兴趣点和注意力、无法提供并加强与儿童语音交互的互动性和对话质量。

发明内容

有鉴于此，本发明的目的在于提出一种儿童智能对话学习方法、***及电子设备，能够准确把握儿童用户的兴趣点和注意力并且提高与儿童用户语音对话识别的准确率，同时能够加强与儿童用户的互动和交流，提高对话学习的质量。

基于上述目的本发明提供的一种儿童智能对话学习方法，应用于儿童智能学习机，该智能学习机上设置有摄像头，并在所述智能学习机中预设每种待学习的目标物对应的语料库；该方法包括：

通过预设引导语音引导用户调整智能学习机，使智能学习机上的摄像头朝向所要学习的目标物；

通过所述摄像头获取图像，分析所述图像，判断该图像是否符合目标物图像要求，若不符合继续通过所述引导语音引导用户调整所述智能学习机；

若符合要求，则对所述目标物图像进行识别，获取目标物类型；

根据所述目标物类型，获取与目标物对应的语料库；

播放所述语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习。

可选的，所述分析所述图像，判断该图像是否符合目标物图像要求的步骤包括：

对获取的所述图像进行分析，得到所述图像内识别出的可能目标物；

依次对每个可能目标物分别提示用户当前的可能目标物是否属于用户所要学习的目标物；

根据用户的反馈，确定所述图像中是否包含用户所要学习的目标物；

若是，则对所述目标物图像进行识别并获取用户所要学习的目标物的类型；否则，提示用户没有找到目标物，继续通过所述引导语音引导用户调整所述智能学习机。

可选的，所述对获取的所述图像进行分析，得到所述图像内识别出的可能目标物的步骤包括：

对每个识别出的可能目标物进行分析，获取每个可能目标物的基础特征，所述基础特征包括轮廓、颜色；

将每个所述可能目标物的基础特征与智能学习机中预存的目标物基础特征库进行相识度比对；

判断相识度是否超出预设的相似度阈值，若是，则保留该可能目标物，否则，删除该可能目标物或排除该可能目标物。

可选的，所述智能学习机上设置有显示屏和引导框，所述通过所述摄像头获取图像的步骤包括：

根据所述引导语音引导用户查看显示屏以及引导框；

根据所述引导语音中的预设问题以及采集的用户回答，引导用户调整所述智能学习机，直到使得所要学习的目标物显示在所述引导框内；

引导用户确认所要学习的目标物位于所述引导框内并获取图像；

根据用户的操作指令获取图像或者所述智能学习机自动获取图像。

可选的，所述引导框为设置于智能学习机的显示屏上的高亮线框；或者，所述引导框为所述智能学习机的摄像前端发出的红外光束区域。

可选的，所述对所述目标物图像进行识别，获取目标物类型的步骤还包括：

采用深度神经网络的模型，输入的图像通过卷积层和池化层提取图像特征，通过全连接层进一步优化图像特征；

通过分类器以及提取的图像特征对所述目标物图像进行分类；

根据分类结果获取目标物的类型。

可选的，所述根据所述目标物类型，获取与目标物对应的语料库的步骤还包括：

预先基于不同目标物将所有语料分为多个不同的语料库；

构建目标物与语料库的对应关系列表；

通过识别后的目标物类型，查找目标物与语料库的对应关系列表，获取与目标物对应的语料库。

可选的，所述播放所述语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习的步骤还包括：

在所述语料库中调取并播放与目标物对应的知识性多媒体文件；

调取并播放知识性多媒体文件对应的问题多媒体文件；

根据播放的问题多媒体文件，确定语音识别的关键词组；

通过麦克风获取用户的应答音频；

对应答音频进行识别并基于所述关键词组进行关键词检索，判断用户的应答是否正确；

若检测到关键词，则播放回答正确对应的多媒体文件，若没有检测到关键词，则播放回答错误对应的多媒体文件。

本发明还提供了一种儿童智能对话学习***，包括：

引导模块，用于通过预设引导语音引导用户调整智能学习机，使智能学习机上的摄像头朝向所要学习的目标物；

图像获取模块，用于通过所述引导模块的引导以及用户的操作指令获取图像，将获取的图像发送给分析识别模块；

分析识别模块，用于接收图像获取模块发送的目标物图像，分析所述图像，判断该图像是否符合目标物图像要求，若不符合继续通过所述引导语音引导用户调整所述智能学习机；若符合要求，则对所述目标物图像进行识别，获取目标物类型；将识别得到的目标物类型发送给语料模块；

语料模块，用于接收分析识别模块发送的目标物类型，根据所述目标物类型获取与目标物对应的语料库；

对话模块，用于播放所述语料模块的语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习。

可选的，所述分析识别模块还用于，对获取的所述图像进行分析，得到所述图像内识别出的可能目标物；

若是，则对所述目标物图像进行识别并获取用户所要学习的目标物的类型；否则，提示用户没有找到目标物，继续通过所述引导模块引导用户调整所述智能学习机。

可选的，所述分析识别模块还用于，

判断相识度是否超出预设的相似度阈值，若是，则保留该可能目标物，否则，删除该可能目标物。

可选的，所述智能学习机上设置有显示屏和引导框，所述引导模块还用于，

根据所述引导语音引导用户查看显示屏以及引导框；

所述图像获取模块还用于，根据用户的操作指令获取图像或者自动获取图像。

可选的，所述分析识别模块还包括：

特征提取模块，用于采用深度神经网络的模型，输入的图像通过卷积层和池化层提取图像特征，通过全连接层进一步优化图像特征，将提取的图像特征发送给分类模块；

分类模块，用于接收所述特征提取模块发送的图像特征，通过分类器以及提取的图像特征对图像进行分类，将分类结果发送给类型确定模块；

类型确定模块，用于接收所述分类模块发送的分类结果，根据分类结果获取目标物的类型。

可选的，所述语料模块包括：

语料库构建模块，用于预先基于不同目标物将所有语料分为多个不同的语料库；

关系构建模块，用于构建目标物与语料库的对应关系列表；

查找模块，用于通过识别后的目标物类型，查找目标物与语料库的对应关系列表，获取与目标物对应的语料库。

可选的，所述对话模块包括：

学习模块，用于在所述语料库中调取并播放与目标物对应的知识性多媒体文件；

问题模块，用于在所述语料库中调取并播放知识性多媒体文件对应的问题多媒体文件；

应答模块，用于通过麦克风获取用户的应答音频，将所述应答音频发送给检索模块；

检索模块，用于根据播放的问题多媒体文件，确定语音识别的关键词组；对所述应答模块获取的应答音频进行识别并基于所述关键词组进行关键词检索，将检索结果发送给判断模块；

判断模块，用于接收所述检索模块发送的检索结果，判断用户的应答是否正确；若应答正确，则播放回答正确对应的多媒体文件，否则播放回答错误对应的多媒体文件。

本发明实施例的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

从上面所述可以看出，本发明提供的儿童智能对话学习方法、***及电子设备，通过引导儿童用户对感兴趣的目标物品进行拍照识别的方式，使得儿童用户能够对视线范围内感兴趣的物品通过智能学习机进行对话学习，这样可以基于儿童用户的兴趣点进行准确教学，大大提高了儿童学习的主动性以及对目标物进行对话学习的注意力和学习效率；此外通过拍照识别目标物品的方式不仅大大拓展了儿童进行对话学习的目标物范围，而且基于周边真实物体的学习能够大大提高儿童的兴趣和娱乐性。本发明还通过基于图像识别的目标物选择预设的对应语料库，然后基于对应语料库与儿童进行对话学习，这样通过目标物限定语料库不仅能够缩小与儿童进行语音对话时进行语音以及关键词检索的范围，大大提高儿童语音识别的准确性，而且基于限定的语料库可以缩小语音识别以及对话的模型，能够提高对话以及资料查找的效率和速度。本发明还通过设置引导语音对儿童用户进行准确有效的引导，使得儿童用户能够正确的调整智能学习机并且实现对目标物的拍照；通过对儿童用户所拍摄的图像进行分析判断，进而确认所拍摄的图像属于用户想要学习的目标物，大大提高了儿童用户进行拍照学习的准确性。此外，通过简单的引导，还能够进一步加强与儿童对话学习的互动交流，提高对话学习的质量以及儿童用户在整个学习过程中的娱乐性和趣味性。

附图说明

图1为本发明提供的儿童智能对话学习方法的一个实施例的流程示意图；

图2为本发明提供的分析并判断目标物图像的一个实施例的流程示意图；

图3为本发明提供的引导用户获取图像的一个实施例流程示意图；

图4为本发明提供的与用户对话学习的一个实施例的流程示意图；

图5为本发明提供的儿童智能对话学习***的一个实施例的结构示意图；

图6为本发明提供的儿童智能对话学习***中分析识别模块的结构示意图；

图7为本发明提供的儿童智能对话学习***中语料模块的结构示意图；

图8为本发明提供的儿童智能对话学习***中对话模块的结构示意图；

图9为本发明提供的对话学习方式与现有对话学习方式的比较示意图；

图10为本发明提供的一个对话学习实施例的流程示意图。

图11为本发明提供的执行所述儿童智能对话学习方法的电子设备的一个实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明是针对于当前现有的针对于儿童的智能学习设备、智能机器人、启蒙机器人等相关设备的使用效果和体验均不好的基础上，研发一种针对于儿童的智能学习的方法、***及电子设备，使得儿童用户与智能设备能够更好的实现对话学习和生活娱乐。基于儿童的语音处于变声期且儿童的发音往往并不准确，使得现有针对于儿童的语音对话技术还不成熟，大部分以儿童语音交互为核心功能的智能机器人，使用体验都不够好。引起的问题有：(1)机器无法准确识别儿童的发音；(2)机器无法判断儿童对什么话题感兴趣，不能主动引导儿童进行高质量的对话；(3)机器无法通过对话来加深孩子对某个知识性内容的理解。因此，需要针对于儿童自身的特点来设计对应的智能设备。有鉴于此，本申请提出了一种儿童智能对话学习方法，该方法应用于儿童智能学习机，该智能学习机上设置有摄像头，并在所述智能学习机中预设每种待学习的目标物对应的语料库。其中，所述智能学习机既可以是机器人、智能家居设备，也可以是针对儿童配套设计的智能玩具等等。所述智能学习机既可以用于对儿童的启蒙、教学和娱乐，也可以使用于成人、病患的教学娱乐中，本申请只是将儿童作为典型目标进行示例性的说明，并未限定相应设备的应用范围。所述摄像头的位置可以根据实际的使用需要进行调整，例如设置于机器人的眼睛中或者设置于相应智能设备的前端或后端，其位置可以便于用户操作以及容易实现拍照摄像。

参照图1所示，为本发明提供的儿童智能对话学习方法的一个实施例的流程示意图，该方法包括：

步骤101，通过预设引导语音引导用户调整智能学习机，使智能学习机上的摄像头朝向所要学习的目标物；其中，所述引导语音为智能学习机中预设的引导语音，包括开机指示“开机”“已启动智能学习机”以及相应的引导语“请将智能学习机的眼睛对准需要学习的物体上”等等，目的在于通过简单的引导话语去引导用户使用智能学习机的摄像头对所要学习的目标物进行拍照或摄像。优选的，为了便于儿童用户的操作也可以将引导语分为多段，逐步引导，且在每次引导后均询问儿童用户是否完整然后才进入下一步，例如当摄像头设置于机器人背部时，可以首先引导儿童将机器人的背部对准实现前方，“请把机器人的脸部朝向自己的脸部哦”“现在机器人的脸部是不是对准自己的脸部了”“好棒哦，继续”等等引导语。此外，根据需要还可以将摄像头与智能学习机设置为分离的两个部分，便于儿童对摄像头的操作。所述所要学习的目标物既可以是所述智能学习机指定的目标物，也可以是用户感兴趣的任意目标物。

步骤102，通过所述摄像头获取图像；其中，通过摄像头或者图像的方式既可以是通过引导用户使用摄像头拍照的方式，也可以是智能学习机自动拍摄获取的方式。优选的，所述摄像头在拍照获取图像是能够自动对焦以获取清晰的图像。

步骤103，分析所述图像，判断该图像是否符合目标物图像要求；其中，对于目标物图像需要预先设置一定的要求以便获取的图像能够与准确识别得到相应的目标物。这里的目标物图像要求通常是指是否符合目标物轮廓、颜色、形状等等基础特征。例如：图像的清晰度是否足够识别图像中的物体？或者图像中涵盖的物体是否完全处于图像内？所述目标物图像要求还可以是智能学习机中所有预存的可学习的目标物的要求集合，只有找到符合的图像才表示该图像中存在可学习的目标物，才能获取相应的学习资料和进行相应的对话学些。若判断结果显示图像符合目标物图像要求，则表示找到符合的目标物了，执行步骤104；若判断结果显示图像不符合目标物图像要求，则表示没有找到符合的目标物，需要转入步骤101，继续通过所述引导语音引导用户调整所述智能学习机；

步骤104，若图像符合目标物图像要求，则对所述目标物图像进行识别，获取目标物类型；通过对图像进行识别能够准确获取图像中物体的类型，例如识别结果表示图像中为香蕉、苹果等等。这样，基于目标物类型才能够与智能学习中预存的相应资料进行匹配，进而能够获得相应的学习资料。

步骤105，根据所述目标物类型，获取与目标物对应的语料库；当确定了目标物类型后，通过预设的指令查找到与目标物对应的语料库，使得在后续的对话学习中将语料范围以及相应关键词的检索范围限定在本次所要学些的目标物相应的范围，这样不仅大大缩小了单词学习过程中的语料范围，也即缩小了识别范围，进而可以提高语音识别的准确率，尤其是对于儿童语音的识别。

步骤106，播放所述语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习。其中，所述多媒体文件包括目标物对应的知识性语音或视频以及相应的与用户进行对话学习的音频视频文件。其过程可以为：首先播放该目标物的基本知识，例如：“苹果是一种常见的水果，富含矿物质和维生素”。然后播放对话学习的内容，例如“苹果是不是水果？”“苹果中富含有什么东西？”等等。当然，对话学习的过程中可以添加一些简短且鼓励性的对白，进而加强儿童学习的兴趣以及注意力。或者在回答错误的时候可以播放简单的提示语。

由上述实施例可知，所述儿童智能对话学习方法通过引导儿童用户对感兴趣的目标物品进行拍照识别的方式，使得儿童用户能够对视线范围内感兴趣的物品通过智能学习机进行对话学习，这样可以准确把握儿童用户的兴趣点然后基于儿童用户的兴趣点进行准确教学，大大提高儿童学习的主动性、注意力和兴趣。此外通过拍照识别目标物品的方式不仅大大拓展了儿童进行对话学习的目标物的范围，而且基于周边真实物体的学习能够大大提高儿童的兴趣和娱乐性，激发儿童的发散性思维。本发明还通过基于图像识别的目标物选择预设对应的语料库，然后基于对应语料库与儿童进行对话学习，这样通过目标物限定语料库不仅能够缩小与儿童进行语音对话时进行语音以及关键词检索的范围，大大提高儿童语音识别的准确性，而且基于限定的语料库可以缩小语音识别以及对话的模型，能够提高对话以及资料查找的效率和速度。本发明还通过设置引导语音对儿童用户进行准确有效的引导，使得儿童用户能够正确的调整智能学习机并且实现对目标物的拍照；通过对儿童用户所拍摄的图像进行分析判断，进而确认所拍摄的图像属于用户想要学习的目标物，大大提高了儿童用户进行拍照学习的准确性。此外，通过简单的引导，还能够进一步加强与儿童对话学习的互动交流，提高对话学习的质量以及儿童用户在整个学习过程中的娱乐性和趣味性。

参照图2所示，为本发明提供的儿童智能对话学习方法中分析并判断目标物图像的一个实施例的流程示意图。所述分析所述图像，判断该图像是否符合目标物图像要求的步骤103包括：

步骤1031，对获取的所述图像进行分析，得到所述图像内识别出的可能目标物；其中，对于获取的图像来说，往往在该图像内识别出的目标物不止1个，而用户所要学习的目标物可能只有一个，所以对于识别出的多个目标物来说，并不能肯定是用户所需要的，因此图像识别结果中可能包含多个可能目标物，所述可能目标物是指待定的目标物。

步骤1032，依次对每个可能目标物分别提示用户当前的可能目标物是否属于用户所要学习的目标物；其中，提示的方式既可以是语音提示，也可以是在相应智能学习机的显示屏中采用图标进行提示；采用语音提示时，将会逐一播放每个可能目标物的介绍并询问儿童用户当前目标物是否是所要学习的目标物，用户也可以采用相应的语音进行回答或者使用相应的动作进行回答，若回答结果为是，则保留该目标物作为所要学习的目标物，否则，删除或者忽略该目标物。

步骤1033，根据用户的反馈，确定所述图像中是否包含用户所要学习的目标物；其中，所述用户的反馈是指用户对于所有可能目标物的应答；若图像中包含用户所要学习的目标物，则表示以获取到准确的图像以及对应的目标物，转到步骤104，若图像中没有包含用户所要学习的目标物，则表示获取的图像不合格，需要转到步骤101调整智能学习机进而获取图像。

步骤104，对所述目标物图像进行识别并获取用户所要学习的目标物的类型；

步骤101，提示用户没有找到目标物，继续通过所述引导语音引导用户调整所述智能学习机。

这样，通过对所有目标物逐一提示用户进行确认选择，能够使得最终图像中准确找到用户所要学习的目标物。大大提高了目标物查找的准确性和可靠性。同时基于用户参与整个目标物的选取过程，能够增强与儿童用户的对话学习的互动性和趣味性。

进一步，在本发明一些可选的实施例中，所述对获取的所述图像进行分析，得到所述图像内识别出的可能目标物的步骤包括：

对每个识别出的可能目标物进行分析，获取每个可能目标物的基础特征，所述基础特征包括轮廓、颜色；将每个所述可能目标物的基础特征与智能学习机中预存的目标物基础特征库进行相识度比对；判断相识度是否超出预设的相似度阈值，若是，则保留该可能目标物，否则，删除该可能目标物。其中，所述基础特征可以根据需要预先设定。对于每个可能目标物均通过基础特征在智能学习机中进行查找和比对，进而确定该可能目标物是否属于智能学习机的学习范围，因为只有预存在智能学习机中的目标物才具有相应的学习资料以及才能够进行相应的对话学习。当发现所述智能学习机中不存在某一可能目标物时，也可以将其保留下来，只是在最后进行资料播报的过程中时提示用户该目标物无法学习，需要更新资料库或者自己添加相应的资料。这样，能够及时排除无法学习的可能目标物并且提高目标物识别的效率和准确性。

优选的，对每个基础特征附加相应的权重，然后基于分析结果和相应的权重计算目标物的相似度。进一步提高目标物判断的准确性。

参照图3所示，为本发明提供的引导用户获取图像的一个实施例流程示意图。所述智能学习机上设置有显示屏和引导框，所述通过所述摄像头获取图像的步骤102包括：

步骤1021，根据所述引导语音引导用户查看显示屏以及引导框；其中，所述显示屏的位置可以设置在适宜位置，使得用户使用摄像头时可以方便的查看显示屏。可选的，所述引导框为设置于智能学习机的显示屏上的高亮线框；或者，所述引导框为所述智能学习机的摄像前端发出的红外光束区域。通过设置引导框和显示屏能够提高用户操作智能学习机的准确性和趣味性。可选的，所述引导框的形状可以根据需要设置为方形或者圆形。

步骤1022，根据所述引导语音中的预设问题以及采集的用户回答，引导用户调整所述智能学习机，直到使得所要学习的目标物显示在所述引导框内；例如：当所述引导框为显示屏上的高亮线框时，用户通过查看显示屏中的引导框以及对应目标物的位置，结合引导语音的引导逐渐调整智能学习机的位置，使得目标物显示在所述引导框内。或者当所述引导框为红外光束区域时，用户通过调整智能学习机使得红外光束区域覆盖整个目标物，进而使得摄像头能够对准相应的目标物。

步骤1023，引导用户确认所要学习的目标物位于所述引导框内并获取图像；当目标物已经处于引导框内时，既可以提示用户确认或者经过预设时间后自动获取图像。

步骤1024，根据用户的操作指令获取图像或者所述智能学习机自动获取图像。

这样，通过设置引导框，使得用户能够有一个明确的参照物，进而准确引导用户获取有效的图像，同时利用引导框进行引导的过程也会增加用户使用智能学习机的趣味性。

在本发明一些可选的实施例中，所述对所述目标物图像进行识别，获取目标物类型的步骤还包括：采用深度神经网络的模型，输入的图像通过卷积层和池化层提取图像特征，通过全连接层进一步优化图像特征；通过分类器以及提取的图像特征对所述目标物图像进行分类；根据分类结果获取目标物的类型。此处采用神经网络技术进行图像识别，当然根据实际需要也可以采用其他图像识别的方式。基于本申请针对的是儿童智能学习机，其中待学习的目标物属于预先已知的，因而采用神经网络具有更好的实用性和准确性。

在本发明一些可选的实施例中，所述根据所述目标物类型，获取与目标物对应的语料库的步骤还包括：预先基于不同目标物将所有语料分为多个不同的语料库；构建目标物与语料库的对应关系列表；通过识别后的目标物类型，查找目标物与语料库的对应关系列表，获取与目标物对应的语料库。通过构建目标物与语料库的对应关系列表使得在识别目标物后能够准确查找并获取得到相应的语料库，提高***以及设备的稳定性。

参照图4所示，为本发明提供的与用户对话学习的一个实施例的流程示意图。所述播放所述语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习的步骤106还包括：

步骤1061，在所述语料库中调取并播放与目标物对应的知识性多媒体文件；

步骤1062，调取并播放知识性多媒体文件对应的问题多媒体文件；其中，所述问题多媒体文件是基于知识性多媒体文件中预先设定的问题语音或视频，且在知识性多媒体文件包含有该问题的答案。

步骤1063，根据播放的问题多媒体文件，确定语音识别的关键词组；其中，通过相应的问题多媒体可以进一步缩小关键词组，使得在获取用户的回答语音时，检索范围更小，进而使得识别结果更为准确。

步骤1064，通过麦克风获取用户的应答音频；其中获取应答音频的方式也可以采用其他的获取方式；可选的，所述麦克风采用双麦并且利用双麦进行降噪处理，能够提高获取用户应答音频的准确率。还可以利用双麦形成波束，进而加强用户方向的语音，提高获取用户应答音频的质量。

步骤1065，对应答音频进行识别并基于所述关键词组进行关键词检索，判断用户的应答是否正确；

步骤1066，若检测到关键词，则播放回答正确对应的多媒体文件，

步骤1067，若没有检测到关键词，则播放回答错误对应的多媒体文件。

由上述实施例可知，通过对目标物知识性文件以及相应问题的对话交互，逐步将相应的知识点教授给用户并且通过问答加深巩固，大大提高了儿童对话学习的效率；还通过基于问题限定相应的关键词组能够进一步提高用户语音识别的准确性，尤其是儿童语音识别的准确性。

另一方面，本发明还提供了一种儿童智能对话学习***。参照图5所示，为本发明提供的儿童智能对话学习***的一个实施例的结构示意图；所述儿童智能对话学习***，包括：

引导模块201，用于通过预设引导语音引导用户调整智能学习机，使智能学习机上的摄像头朝向所要学习的目标物；

图像获取模块202，用于通过所述引导模块201的引导以及用户的操作指令获取图像，将获取的图像发送给分析识别模块203；

分析识别模块203，用于接收图像获取模块202发送的目标物图像，分析所述图像，判断该图像是否符合目标物图像要求，若不符合继续通过所述引导语音引导用户调整所述智能学习机；若符合要求，则对所述目标物图像进行识别，获取目标物类型；将识别得到的目标物类型发送给语料模块204；

语料模块204，用于接收分析识别模块203发送的目标物类型，根据所述目标物类型获取与目标物对应的语料库；

对话模块205，用于播放所述语料模块的语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习。

由上述实施例可知，所述儿童智能对话学习***通过所述引导模块201和所述图像获取模块202引导儿童用户对感兴趣的目标物品进行拍照识别的方式，使得儿童用户能够对视线范围内感兴趣的物品通过智能学习机进行对话学习，这样可以基于儿童用户的兴趣点进行准确教学，大大提高儿童学习的主动性和注意力；此外，所述图像获取模块202通过拍照识别目标物品的方式不仅大大拓展了儿童进行对话学习的目标物范围，而且基于周边真实物体的学习能够大大提高儿童的兴趣和娱乐性。所述儿童智能对话学习***还通过所述语料模块204基于图像识别的目标物选择预设的对应语料库，然后通过对话模块205基于对应语料库与儿童进行对话学习，这样通过目标物限定语料库不仅能够缩小与儿童进行语音对话时进行语音以及关键词检索的范围，大大提高儿童语音识别的准确性，而且基于限定的语料库可以缩小语音识别以及对话的模型，能够提高对话以及资料查找的效率和速度。所述儿童智能对话学习***还通过所述引导模块201设置引导语音对儿童用户进行准确有效的引导，使得儿童用户能够正确的调整智能学习机并且实现对目标物的拍照；通过对儿童用户所拍摄的图像进行分析判断，进而确认所拍摄的图像属于用户想要学习的目标物，大大提高了儿童用户进行拍照学习的准确性。此外，通过简单的引导，还能够进一步加强与儿童对话学习的互动交流，提高对话学习的质量以及儿童用户在整个学习过程中的娱乐性和趣味性。

在本发明一些可选的实施例中，所述分析识别模块203还用于，对获取的所述图像进行分析，得到所述图像内识别出的可能目标物；依次对每个可能目标物分别提示用户当前的可能目标物是否属于用户所要学习的目标物；根据用户的反馈，确定所述图像中是否包含用户所要学习的目标物；若是，则对所述目标物图像进行识别并获取用户所要学习的目标物的类型；否则，提示用户没有找到目标物，继续通过所述引导模块引导用户调整所述智能学习机。这样使得用户能够准确找到所要学习的目标物，提高***的准确定和可靠性。

在本发明一些可选的实施例中，所述分析识别模块203还用于，对每个识别出的可能目标物进行分析，获取每个可能目标物的基础特征，所述基础特征包括轮廓、颜色；将每个所述可能目标物的基础特征与智能学习机中预存的目标物基础特征库进行相识度比对；判断相识度是否超出预设的相似度阈值，若是，则保留该可能目标物，否则，删除该可能目标物。这样，通过相识度比对能够快速将超出智能学习机的学习范围的一些目标物排除，提高***处理的效率以及***运行的稳定性。

在本发明一些可选的实施例中，所述智能学习机上设置有显示屏和引导框，所述引导模块201还用于，根据所述引导语音引导用户查看显示屏以及引导框；根据所述引导语音中的预设问题以及采集的用户回答，引导用户调整所述智能学习机，直到使得所要学习的目标物显示在所述引导框内；引导用户确认所要学习的目标物位于所述引导框内并获取图像；所述图像获取模块还用于，根据用户的操作指令获取图像或者自动获取图像。这样，通过引导框以及显示屏不仅能够提高用户获取图像的准确性，而且增加了用户使用智能学习机进行学习的趣味性。

参照图6所示，为本发明提供的儿童智能对话学习***中分析识别模块的结构示意图；所述分析识别模块203还包括：

特征提取模块2031，用于采用深度神经网络的模型，输入的图像通过卷积层和池化层提取图像特征，通过全连接层进一步优化图像特征，将提取的图像特征发送给分类模块；

分类模块2032，用于接收所述特征提取模块发送的图像特征，通过分类器以及提取的图像特征对图像进行分类，将分类结果发送给类型确定模块；

类型确定模块2033，用于接收所述分类模块发送的分类结果，根据分类结果获取目标物的类型。

这样，通过采用神经网络的识别方式，不仅能够提高图像识别的准确性和效率，而且基于对图像特征的提取能够提高目标物类型的确定。

参照图7所示，为本发明提供的儿童智能对话学习***中语料模块的结构示意图；所述语料模块204包括：

语料库构建模块2041，用于预先基于不同目标物将所有语料分为多个不同的语料库；

关系构建模块2042，用于构建目标物与语料库的对应关系列表；

查找模块2043，用于通过识别后的目标物类型，查找目标物与语料库的对应关系列表，获取与目标物对应的语料库。

这样，通过构建不同的语料库，使得每一个待学习的目标物均对应一个语料范围较小的语料库，能够缩小后续关键词检索的范围。通过构建目标物与语料库的对应关系列表能够快速准确找到目标物对应的语料库，提高***的效率和速度。

参照图8所示，为本发明提供的儿童智能对话学习***中对话模块的结构示意图。所述对话模块205包括：

学习模块2051，用于在所述语料库中调取并播放与目标物对应的知识性多媒体文件；

问题模块2052，用于在所述语料库中调取并播放知识性多媒体文件对应的问题多媒体文件；

应答模块2053，用于通过麦克风获取用户的应答音频，将所述应答音频发送给检索模块2054；

检索模块2054，用于根据播放的问题多媒体文件，确定语音识别的关键词组；对所述应答模块获取的应答音频进行识别并基于所述关键词组进行关键词检索，将检索结果发送给判断模块2055；

判断模块2055，用于接收所述检索模块发送的检索结果，判断用户的应答是否正确；若应答正确，则播放回答正确对应的多媒体文件，否则播放回答错误对应的多媒体文件。

由上述实施例可知，通过播放知识性多媒体以及问题多媒体不仅能够将目标物相应的知识教授给用户，而且通过问题以及用户的应答能够进一步加强对相应知识的影响，同时，这样的对话学习方式不仅有助于提高儿童用户的自信息，而且提高了儿童用户学习的趣味性和主动性。

参照图9所示，为本发明提供的对话学习方式与现有对话学习方式的比较示意图；由图可知，本发明通过图片或图像采集和识别大大扩充了智能学习机的学习范围和学习材料，只要智能学习机中存储由足够的资料，用户就能够对身边任意的物品通过拍摄图片或图像去进行学习，不仅增强了学习的趣味性，而且有利于儿童用户对于真实目标物的认知。这是在模型以及存储的图片中无法学到的。此外，本发明还通过基于图片内识别的物体限定相应的语料库，进而能够限定对话场景相应的资料和关键词，能够大大提高用户语音识别的准确性和可靠性。

参照图10所示，为本发明提供的一个对话学习实施例的流程示意图。所述语音引导可以直接限定目标物，即香蕉，进而引导儿童用户去寻找香蕉。当然也可以对目标物不限定，而是由用户去选择学习哪一个目标物，例如引导语为“请寻找一个水果”“请任意寻找一种物品”等，或者还可以在用户选定并且获取了相应的图像后再去开启相应的引导语音。

基于上述目的，本发明实施例的另一个方面，提出了一种执行所述儿童智能对话学习方法的电子设备的一个实施例。

所述执行所述儿童智能对话学习方法的电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述任意一种方法。

如图11所示，为本发明提供的执行所述儿童智能对话学习方法的电子设备的一个实施例的硬件结构示意图。

以如图11所示的电子设备为例，在该电子设备中包括一个处理器301以及一个存储器302，并还可以包括：输入装置303和输出装置304。

处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述儿童智能对话学习方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的儿童智能对话学习方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据儿童智能对话学习***的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至儿童智能对话学习***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置303可接收输入的数字或字符信息，以及产生与儿童智能对话学习***的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器302中，当被所述处理器301执行时，执行上述任意方法实施例中的儿童智能对话学习方法。

所述执行所述儿童智能对话学习方法的电子设备的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种儿童智能对话学习方法，其特征在于，应用于儿童智能学习机，该智能学习机上设置有摄像头，并在所述智能学习机中预设每种待学习的目标物对应的语料库；该方法包括：

根据所述目标物类型，获取与目标物对应的语料库；

2.根据权利要求1所述的方法，其特征在于，所述分析所述图像，判断该图像是否符合目标物图像要求的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述对获取的所述图像进行分析，得到所述图像内识别出的可能目标物的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标物图像进行识别，获取目标物类型的步骤还包括：

根据分类结果获取目标物的类型。

5.根据权利要求1所述的方法，其特征在于，所述播放所述语料库中与目标物对应的多媒体文件并且基于所述语料库与用户进行交互对话学习的步骤还包括：

调取并播放知识性多媒体文件对应的问题多媒体文件；

根据播放的问题多媒体文件，确定语音识别的关键词组；

通过麦克风获取用户的应答音频；

6.一种儿童智能对话学习***，其特征在于，包括：

7.根据权利要求6所述的***，其特征在于，所述分析识别模块还用于，对获取的所述图像进行分析，得到所述图像内识别出的可能目标物；

8.根据权利要求7所述的***，其特征在于，所述分析识别模块还用于，

9.根据权利要求6所述的***，其特征在于，所述分析识别模块还包括：

10.根据权利要求6所述的***，其特征在于，所述对话模块包括：

11.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5任意一项所述的方法。