CN112035639B

CN112035639B - 智能自动答题机器人***

Info

Publication number: CN112035639B
Application number: CN202010891341.8A
Authority: CN
Inventors: 王鑫
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-30
Filing date: 2020-08-30
Publication date: 2021-08-03
Anticipated expiration: 2040-08-30
Also published as: CN112035639A

Abstract

本发明提供了智能自动答题机器人***，其能够针对不同类型的用户发出的声音信息进行识别，以及在不需要用户按照预设标准模板进行发问的情况下也能够确定用户当前所提问的问题内容，并且还能够根据用户与机器人之间的相对位姿关系驱动机器人运动至用户匹配的位置区域，从而保证机器人能够准确地和快速地针对用户的提问进行回答以及改善用户的使用体验。

Description

智能自动答题机器人***

技术领域

本发明涉及智能教育的技术领域，特别涉及智能自动答题机器人***。

背景技术

自动答题机器人广泛用于学前教育中，用户通过向自动答题机器人发出相应的语音信号，自动答题机器人能够针对该语音信号做出适应性的问题回答操作。但是，现有的自动答题机器人只能在用户发出的语音信息属于标准语音模式以及语音信息包含的内容属于标准问题提问模板的情况下，才能够进行相应的识别和答题反馈，而自动答题机器人的用户大多数为学龄前儿童，其无法按照标准模式发出合格的语音信号，这严重地影响自动答题机器人的适用场合，同时也降低自动答题机器人的答题正确性。

发明内容

针对现有技术存在的缺陷，本发明提供智能自动答题机器人***，其通过对用户进行拍摄和录音，以此获得关于用户的影像信息和声音信息，并分别对该影像信息和声音信息进行处理，以此确定用户当前相对于机器人的位姿信息和用户当前对所述机器人进行提问问题的语义信息，再根据该位姿信息，驱动机器人进行运动，以及对该语义信息进行处理，从而确定用户提问问题对应的答案信息，最后根据该答案信息，对用户进行图像形式和/或语音形式的答题操作；可见，该智能自动答题机器人***能够针对不同类型的用户发出的声音信息进行识别，以及在不需要用户按照预设标准模板进行发问的情况下也能够确定用户当前所提问的问题内容，并且还能够根据用户与机器人之间的相对位姿关系驱动机器人运动至用户匹配的位置区域，从而保证机器人能够准确地和快速地针对用户的提问进行回答以及改善用户的使用体验。

本发明提供智能自动答题机器人***，其特征在于，其包括拍摄模块、声音采集模块、影像处理模块、声音处理模块、动作驱动模块、知识数据处理模块和答题模块；其中，

所述拍摄模块用于对用户进行拍摄，从而获得关于所述用户的影像信息；

所述声音采集模块用于对用户进行录音，从而获得关于所述用户的声音信息；

所述影像处理模块用于对所述影像信息进行处理，从而确定所述用户当前相对于机器人的位姿信息；

所述声音处理模块用于对所述声音信息进行处理，从而确定所述用户当前对所述机器人进行提问问题的语义信息；

所述动作驱动模块用于根据所述位姿信息，驱动所述机器人进行运动；

所述知识数据处理模块用于对所述语义信息进行处理，从而确定所述用户提问问题对应的答案信息；

所述答题模块用于根据所述答案信息，对所述用户进行图像形式和/或语音形式的答题操作；

进一步，所述拍摄模块对用户进行拍摄，从而获得关于所述用户的影像信息具体包括从相对于所述用户的两个不同视角方向，对所述用户进行双目拍摄，从而获得关于所述用户的双目影像信息；

或者，

所述声音采集模块用于对用户进行录音，从而获得关于所述用户的声音信息具体包括通过布置在相对所述用户不同方位的麦克风阵列，对所述用户进行多方位录音，从而获得关于所述用户的多方位声音信息；

进一步，所述影像处理模块用于对所述影像信息进行处理，从而确定所述用户当前相对于机器人的位姿信息具体包括，

对所述双目影像信息进行影像图案色度特征提取处理，从而提取得到对应的影像图案色度特征信息；

根据所述影像图案色度特征信息，确定所述双目影像信息整体的实际图案色度分布差异度，若所述实际图案色度分布差异度大于预设图案分布差异度阈值，则对所述双目影像信息进行色度分布均匀化处理，否则保持所述双目影像信息当前色度分布状态；

再确定所述双目影像信息在所述两个不同视角方向的视差信息，并根据所述视差信息，确定所述用户当前相对于机器人的位姿信息；

进一步，所述声音处理模块对所述声音信息进行处理，从而确定所述用户当前对所述机器人进行提问问题的语义信息具体包括，

根据所述用户的声纹特征信息，从所述声音信息中分别提取得到来自所述用户的用户语音信息和背景噪声信息；

根据所述用户语音信息和所述背景噪声信息之间的声音信噪比，对所述声音信息进行滤波降噪处理，从而去除所述背景噪声信息且保留所述用户语音信息；

根据所述用户对应的语言语种，对所述用户语音信息进行语义识别处理，从而生成关于所述用户语音信息的语义文本信息；

将所述语义文本信息与预设提问问题数据库进行比对，以此从所述语义文本信息中筛选得到所述用户当前对所述机器人进行提问问题的语义信息；

进一步，所述动作驱动模块根据所述位姿信息，驱动所述机器人进行运动具体包括，

根据所述位姿信息，确定所述用户与所述机器人的实际相对距离以及所述用户相对于与所述机器人的实际相对方位角；

根据所述实际相对距离和所述实际相对方位角，确定所述机器人的运动路径和/或运动速度；

根据所述运动路径和/或所述运动速度，驱动所述机器人进行运动，从而使所述机器人移动至所述用户的前方；

进一步，所述知识数据处理模块对所述语义信息进行处理，从而确定所述用户提问问题对应的答案信息具体包括，

对所述语义信息进行词汇和/或句段解析处理，从而确定所述语义信息包含的提问关键词信息；

根据所述提问关键词信息，从预设提问问题库中确定与所述语义信息相匹配的问题-答案关联数据；

根据所述问题-答案关联数据，确定所述用户提问问题对应的答案信息；

进一步，所述答题模块根据所述答案信息，对所述用户进行图像形式和/或语音形式的答题操作具体包括，

根据所述答案信息，确定所述答案信息包含的文本形式答案内容、图像形式答案内容和声音答案形式内容；

根据所述文本形式答案内容、所述图像形式答案内容和所述声音答案形式内容在所述答案信息中各自的数据比特量占比，确定对所述用户进行图像形式和/或语音形式的答题操作；

进一步，所述答题模块还用于根据所述位姿信息，调整对所述用户进行图像形式和/或语音形式的答题操作的参数，其具有包括，

根据所述实际相对距离和所述实际相对方位角，确定所述用户是否处于所述机器人预先设定的感应覆盖区域内，若是，则保持所述答题操作的当前图像显示亮度和/或当前的语音播放音量，若否，则提高所述答题操作的当前图像显示亮度和/或当前的语音播放音量；

进一步，所述动作驱动模块根据所述位姿信息，驱动所述机器人进行运动还包括，

所述运动速度随着时间变化实时变换更新，并在驱动所述机器人进行运动的过程中，所述用户与所述机器人的实际相对距离以及所述用户相对于所述机器人的实际相对方位角也发生实时变换更新，再通过实时变换更新的所述实际相对距离和所述实际相对方位角，更新所述机器人的运动速度，直到所述机器人移动至所述用户的前方，其具体过程包括，

第一，利用下面公式(1)，得到实时变换更新的实际相对方位角，

在上述公式(1)中，θ(t)表示t时刻的实际相对方位角，u[]表示阶跃函数，E表示所述拍摄模块拍摄到的影像的宽度，(x(t),y(t))表示所述拍摄模块在t时刻拍摄到的影像中某一图像点的实时坐标值；

第二、利用下面公式(2)，得到实时变换更新的实际相对距离，

在上述公式(2)中，L(t)表示t时刻的实际相对距离，S表示所述拍摄模块的镜头焦距，R表示所述拍摄模块的最大拍摄景深，(x(t),y(t))表示所述拍摄模块在t时刻拍摄到的影像中某一图像点的实时坐标值，E表示所述拍摄模块拍摄到的影像的宽度；

第三、利用下面公式(3)，得到所述机器人的运动速度

在上述公式(3)中，V(t)表示t时刻所述机器人的运动速度；

根据所述运动速度V(t)驱动所述机器人，直到所述机器人移动至所述用户的前方。

相比于现有技术，该智能自动答题机器人***通过对用户进行拍摄和录音，以此获得关于用户的影像信息和声音信息，并分别对该影像信息和声音信息进行处理，以此确定用户当前相对于机器人的位姿信息和用户当前对所述机器人进行提问问题的语义信息，再根据该位姿信息，驱动机器人进行运动，以及对该语义信息进行处理，从而确定用户提问问题对应的答案信息，最后根据该答案信息，对用户进行图像形式和/或语音形式的答题操作；可见，该智能自动答题机器人***能够针对不同类型的用户发出的声音信息进行识别，以及在不需要用户按照预设标准模板进行发问的情况下也能够确定用户当前所提问的问题内容，并且还能够根据用户与机器人之间的相对位姿关系驱动机器人运动至用户匹配的位置区域，从而保证机器人能够准确地和快速地针对用户的提问进行回答以及改善用户的使用体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的智能自动答题机器人***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的智能自动答题机器人***的结构示意图。该智能自动答题机器人***包括拍摄模块、声音采集模块、影像处理模块、声音处理模块、动作驱动模块、知识数据处理模块和答题模块；其中，

该拍摄模块用于对用户进行拍摄，从而获得关于该用户的影像信息；

该声音采集模块用于对用户进行录音，从而获得关于该用户的声音信息；

该影像处理模块用于对该影像信息进行处理，从而确定该用户当前相对于机器人的位姿信息；

该声音处理模块用于对该声音信息进行处理，从而确定该用户当前对该机器人进行提问问题的语义信息；

该动作驱动模块用于根据该位姿信息，驱动该机器人进行运动；

该知识数据处理模块用于对该语义信息进行处理，从而确定该用户提问问题对应的答案信息；

该答题模块用于根据该答案信息，对该用户进行图像形式和/或语音形式的答题操作。

该智能自动答题机器人***能够针对不同类型的用户发出的声音信息进行识别，以及在不需要用户按照预设标准模板进行发问的情况下也能够确定用户当前所提问的问题内容，并且还能够根据用户与机器人之间的相对位姿关系驱动机器人运动至用户匹配的位置区域，从而保证机器人能够准确地和快速地针对用户的提问进行回答以及改善用户的使用体验。

优选地，该拍摄模块对用户进行拍摄，从而获得关于该用户的影像信息具体包括从相对于该用户的两个不同视角方向，对该用户进行双目拍摄，从而获得关于该用户的双目影像信息。

通过对用户进行两个不同视角方向的拍摄能够全面地获得用户与机器人交互过程中的动态影像。

优选地，该声音采集模块用于对用户进行录音，从而获得关于该用户的声音信息具体包括通过布置在相对该用户不同方位的麦克风阵列，对该用户进行多方位录音，从而获得关于该用户的多方位声音信息。

通过对用户进行多方位的录音能够准确地采集到用户发出的声音信息以及降低环境背景噪声的影响。

优选地，该影像处理模块用于对该影像信息进行处理，从而确定该用户当前相对于机器人的位姿信息具体包括，

对该双目影像信息进行影像图案色度特征提取处理，从而提取得到对应的影像图案色度特征信息；

根据该影像图案色度特征信息，确定该双目影像信息整体的实际图案色度分布差异度，若该实际图案色度分布差异度大于预设图案分布差异度阈值，则对该双目影像信息进行色度分布均匀化处理，否则保持该双目影像信息当前色度分布状态；

再确定该双目影像信息在该两个不同视角方向的视差信息，并根据该视差信息，确定该用户当前相对于机器人的位姿信息。

通过对该双目影像信息进行关于影像图案色度的均匀化处理能够避免该双目影像由于色度不均匀而导致后续视差信息计算偏差过大的情况发生，从而提高该位姿信息的计算精确性。

优选地，该声音处理模块对该声音信息进行处理，从而确定该用户当前对该机器人进行提问问题的语义信息具体包括，

根据该用户的声纹特征信息，从该声音信息中分别提取得到来自该用户的用户语音信息和背景噪声信息；

根据该用户语音信息和该背景噪声信息之间的声音信噪比，对该声音信息进行滤波降噪处理，从而去除该背景噪声信息且保留该用户语音信息；

根据该用户对应的语言语种，对该用户语音信息进行语义识别处理，从而生成关于该用户语音信息的语义文本信息；

将该语义文本信息与预设提问问题数据库进行比对，以此从该语义文本信息中筛选得到该用户当前对该机器人进行提问问题的语义信息。

通过对声音信息进行关于用户声纹特征的提取处理和背景噪声成分的去除处理，能够避免背景噪声影响该语义识别处理的正确性和提高该语义识别处理的可靠性。

优选地，该动作驱动模块根据该位姿信息，驱动该机器人进行运动具体包括，

根据该位姿信息，确定该用户与该机器人的实际相对距离以及该用户相对于与该机器人的实际相对方位角；

根据该实际相对距离和该实际相对方位角，确定该机器人的运动路径和/或运动速度；

根据该运动路径和/或该运动速度，驱动该机器人进行运动，从而使该机器人移动至该用户的前方。

通过指示机器人根据该运动路径和/或该运动速度进行移动，能够保证该机器人快速地和准确地移动到用户的前方，与用户进行近距离的互动。

优选地，该知识数据处理模块对该语义信息进行处理，从而确定该用户提问问题对应的答案信息具体包括，

对该语义信息进行词汇和/或句段解析处理，从而确定该语义信息包含的提问关键词信息；

根据该提问关键词信息，从预设提问问题库中确定与该语义信息相匹配的问题-答案关联数据；

根据该问题-答案关联数据，确定该用户提问问题对应的答案信息。

通过对该语义信息进行词汇和/或句段解析处理，以此得到相应的提问关键词信息，能够在不需要用户按照预设标准提问模板进行提问的情况下，也能够从该语音信息中识别得到相应的提问内容和便于后续快速地得到正确的答案信息。

优选地，该答题模块根据该答案信息，对该用户进行图像形式和/或语音形式的答题操作具体包括，

根据该答案信息，确定该答案信息包含的文本形式答案内容、图像形式答案内容和声音答案形式内容；

根据该文本形式答案内容、该图像形式答案内容和该声音答案形式内容在该答案信息中各自的数据比特量占比，确定对该用户进行图像形式和/或语音形式的答题操作。

通过根据该文本形式答案内容、该图像形式答案内容和该声音答案形式内容在该答案信息中各自的数据比特量占比，确定对该用户进行图像形式和/或语音形式的答题操作，能够提高机器人进行问题回答的灵活性。

优选地，该答题模块还用于根据该位姿信息，调整对该用户进行图像形式和/或语音形式的答题操作的参数，其具有包括，

根据该实际相对距离和该实际相对方位角，确定该用户是否处于该机器人预先设定的感应覆盖区域内，若是，则保持该答题操作的当前图像显示亮度和/或当前的语音播放音量，若否，则提高该答题操作的当前图像显示亮度和/或当前的语音播放音量。

通过根据该实际相对距离和该实际相对方位角，调整该答题操作的当前图像显示亮度和/或当前的语音播放音量，能够便于用户直接地和快速地得到答案内容。

优选地，该动作驱动模块根据该位姿信息，驱动该机器人进行运动还包括，

该运动速度随着时间变化实时变换更新，并在驱动该机器人进行运动的过程中，该用户与该机器人的实际相对距离以及该用户相对于该机器人的实际相对方位角也发生实时变换更新，再通过实时变换更新的该实际相对距离和该实际相对方位角，更新该机器人的运动速度，直到该机器人移动至该用户的前方，其具体过程包括，

在上述公式(1)中，θ(t)表示t时刻的实际相对方位角，u[]表示阶跃函数，E表示该拍摄模块拍摄到的影像的宽度，(x(t),y(t))表示该拍摄模块在t时刻拍摄到的影像中某一图像点的实时坐标值；

在上述公式(2)中，L(t)表示t时刻的实际相对距离，S表示该拍摄模块的镜头焦距，R表示该拍摄模块的最大拍摄景深，(x(t),y(t))表示该拍摄模块在t时刻拍摄到的影像中某一图像点的实时坐标值，E表示该拍摄模块拍摄到的影像的宽度；

第三、利用下面公式(3)，得到该机器人的运动速度

在上述公式(3)中，V(t)表示t时刻该机器人的运动速度；

根据该运动速度V(t)驱动该机器人，直到该机器人移动至该用户的前方。

利用公式(1)得到实时更新的实际相对方位角，目的是为了利用公式保证在机器人的运动过程中，时刻得到用户的实际相对方位角，从而可以使得机器人向着用户的前方进行移动，利用公式(2)得到实时更新的实际相对距离，目的是为了通过公式可以实时的得到机器人与所述用户之间的实际相对距离，保证机器人在移动到用户前方后可以停止运动，最后利用公式(3)得到驱动所述机器人的实时运动速度，是利用实时更新的实际相对距离和实际相对方位角进行求取的，保证了在所述机器人距离用户较远时可以快速的移动到用户前方，并且移动到用户前方后可以停止运动；上述公式和步骤保证了机器人运动的可靠性以及稳定性，并且可以自动的行驶到用户的前方也体现了极强的自动化程度。

从上述实施例的内容可知，该智能自动答题机器人***通过对用户进行拍摄和录音，以此获得关于用户的影像信息和声音信息，并分别对该影像信息和声音信息进行处理，以此确定用户当前相对于机器人的位姿信息和用户当前对该机器人进行提问问题的语义信息，再根据该位姿信息，驱动机器人进行运动，以及对该语义信息进行处理，从而确定用户提问问题对应的答案信息，最后根据该答案信息，对用户进行图像形式和/或语音形式的答题操作；可见，该智能自动答题机器人***能够针对不同类型的用户发出的声音信息进行识别，以及在不需要用户按照预设标准模板进行发问的情况下也能够确定用户当前所提问的问题内容，并且还能够根据用户与机器人之间的相对位姿关系驱动机器人运动至用户匹配的位置区域，从而保证机器人能够准确地和快速地针对用户的提问进行回答以及改善用户的使用体验。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.智能自动答题机器人***，其特征在于，其包括拍摄模块、声音采集模块、影像处理模块、声音处理模块、动作驱动模块、知识数据处理模块和答题模块；其中，

其中，所述动作驱动模块根据所述位姿信息，驱动所述机器人进行运动具体包括，

其中，所述动作驱动模块根据所述位姿信息，驱动所述机器人进行运动，包括，

所述运动速度随着时间变化实时变换更新，并在驱动所述机器人进行运动的过程中，所述用户与所述机器人的实际相对距离以及所述用户相对于所述机器人的实际相对方位角也发生实时变换更新，再通过实时变换更新的所述实际相对距离和所述实际相对方位角，更新所述机器人的运动速度，直到所述机器人移动至所述用户的前方，其具体过程包括，第一，利用下面公式(1)，得到实时变换更新的实际相对方位角，

第三、利用下面公式(3)，得到所述机器人的运动速度

在上述公式(3)中，V(t)表示t时刻所述机器人的运动速度；

2.如权利要求1所述的智能自动答题机器人***，其特征在于：

所述拍摄模块对用户进行拍摄，从而获得关于所述用户的影像信息具体包括从相对于所述用户的两个不同视角方向，对所述用户进行双目拍摄，从而获得关于所述用户的双目影像信息；

或者，

所述声音采集模块用于对用户进行录音，从而获得关于所述用户的声音信息具体包括通过布置在相对所述用户不同方位的麦克风阵列，对所述用户进行多方位录音，从而获得关于所述用户的多方位声音信息。

3.如权利要求2所述的智能自动答题机器人***，其特征在于：

所述影像处理模块用于对所述影像信息进行处理，从而确定所述用户当前相对于机器人的位姿信息具体包括，

再确定所述双目影像信息在所述两个不同视角方向的视差信息，并根据所述视差信息，确定所述用户当前相对于机器人的位姿信息。

4.如权利要求2所述的智能自动答题机器人***，其特征在于：

所述声音处理模块对所述声音信息进行处理，从而确定所述用户当前对所述机器人进行提问问题的语义信息具体包括，

将所述语义文本信息与预设提问问题数据库进行比对，以此从所述语义文本信息中筛选得到所述用户当前对所述机器人进行提问问题的语义信息。

5.如权利要求1所述的智能自动答题机器人***，其特征在于：

所述知识数据处理模块对所述语义信息进行处理，从而确定所述用户提问问题对应的答案信息具体包括，

根据所述问题-答案关联数据，确定所述用户提问问题对应的答案信息。

6.如权利要求1所述的智能自动答题机器人***，其特征在于：

所述答题模块根据所述答案信息，对所述用户进行图像形式和/或语音形式的答题操作具体包括，

根据所述文本形式答案内容、所述图像形式答案内容和所述声音答案形式内容在所述答案信息中各自的数据比特量占比，确定对所述用户进行图像形式和/或语音形式的答题操作。

7.如权利要求6所述的智能自动答题机器人***，其特征在于：

所述答题模块还用于根据所述位姿信息，调整对所述用户进行图像形式和/或语音形式的答题操作的参数，其具有包括，

根据所述实际相对距离和所述实际相对方位角，确定所述用户是否处于所述机器人预先设定的感应覆盖区域内，若是，则保持所述答题操作的当前图像显示亮度和/或当前的语音播放音量，若否，则提高所述答题操作的当前图像显示亮度和/或当前的语音播放音量。