CN113516878A

CN113516878A - 用于语言启蒙的多模态交互方法、***及智能机器人

Info

Publication number: CN113516878A
Application number: CN202010710490.XA
Authority: CN
Inventors: 郑婉仪
Original assignee: Shanghai Yupeng Technology Co ltd
Current assignee: Shanghai Yupeng Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-10-19

Abstract

本发明公开了一种用于语言启蒙的多模态交互方法、***及智能机器人，其中多模态交互方法包括以下步骤：获取用于语言启蒙的待输出语言信息；为所述待输出语言信息确定相适配的动作；驱动所述智能机器人的音频输出装置输出所述待输出的语言信息并驱动所述智能机器人的对应舵机执行所述动作。本发明提供的用于语言启蒙的多模态交互方法、***及智能机器人，通过在驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作，实现了智能机器人用于语言启蒙时交互方式的多样性，通过相适配的动作能够提高对儿童的吸引力，达到持续吸引儿童注意力的效果，进而提高智能机器人用于儿童语言启蒙时的学习效果。

Description

用于语言启蒙的多模态交互方法、***及智能机器人

技术领域

本发明涉及人机交互领域，特别涉及一种用于语言启蒙的多模态交互方法、***及智能机器人。

背景技术

目前用于语言教学的智能机器人采用的常见的交互方式包括键盘输入、点触式交互和语音交互。然而，前述交互方式用于儿童语言启蒙时效果均不理想，原因在于，现有的交互方式过于单调，不符合儿童的认知发展规律所要求的多种形式刺激；另外，现有的交互方式也过于呆板，无法充分模拟人与人之间的交互，难以持续吸引儿童的注意力，造成智能机器人用于儿童语言启蒙时学习效果欠佳。

发明内容

本发明要解决的技术问题是为了克服现有技术中智能机器人用于儿童语言启蒙时学习效果欠佳的缺陷，提供一种交互方式丰富、能够持续吸引儿童注意力的用于语言启蒙的多模态交互方法、***及智能机器人。

本发明是通过下述技术方案来解决上述技术问题：

本发明第一方面提供了一种用于语言启蒙的智能机器人的多模态交互方法，包括以下步骤：

获取用于语言启蒙的待输出语言信息；

为所述待输出语言信息确定相适配的动作；

驱动所述智能机器人的音频输出装置输出所述待输出的语言信息并驱动所述智能机器人的对应舵机执行所述动作。

本方案中，通过在驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作，实现了智能机器人用于语言启蒙时交互方式的多样性，通过相适配的动作能够提高对儿童的吸引力，达到持续吸引儿童注意力的效果，进而提高智能机器人用于儿童语言启蒙时的学习效果。

较佳地，所述获取用于语言启蒙的待输出语言信息的步骤为：

根据预设的条件获取用于语言启蒙的待输出语言信息。

较佳地，所述预设的条件包括预设的时间点；

所述根据预设的条件获取用于语言启蒙的待输出语言信息的步骤包括以下步骤：

判断当前时间是否为所述预设的时间点，若是则获取用于语言启蒙的待输出语言信息。

本方案实现了在预设的时间点自动启动智能机器人进行语言启蒙，当当前时间不是预设的时间点时继续按照预设的规则监控当前时间，直到其为预设的时间点时自动启动智能机器人进行语言启蒙。

较佳地，所述预设的条件包括预设的时间范围；

在所述预设的时间范围内，每隔固定时间或根据接收到的识别指令驱动所述智能机器人的视频采集装置采集视野范围内的物体并进行识别；

判断识别的结果是否满足预设的识别条件，若是则获取用于语言启蒙的待输出语言信息。

本方案实现了在预设的时间范围内，周期性地或者根据接收的识别指令使用智能机器人进行语言启蒙，具体为驱动智能机器人识别视野范围内的物体，并在识别到的结果满足预设的识别条件时驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作。

较佳地，所述多模态交互方法还包括获取启动指令的步骤；

所述获取用于语言启蒙的待输出语言信息的步骤为：

在收到所述启动指令后获取用于语言启蒙的待输出语言信息。

本方案中，智能机器人在收到启动指令后再开始语言启蒙对应的操作。

较佳地，所述获取启动指令的步骤包括：

获取使用者发出的语音信息，以得到所述启动指令；

和/或采集图像信息，以得到所述启动指令。

本方案中，启动指令可以通过采集使用者发出的语音实现，也可以通过采集图像得到，或者两者兼而有之。其中图像可以是使用者提供的，也可以是智能机器人主动获取的。

较佳地，所述启动指令为依次做出动作指令；

所述为所述待输出语言信息确定相适配的动作的步骤为：

为所述待输出语言信息确定相适配的一系列的动作；

所述驱动所述智能机器人的对应舵机执行所述动作的步骤为：

驱动所述智能机器人的对应舵机执行所述一系列的动作。

本方案中，启动指令为要求智能机器人依次做出一系列的动作对应的指令，基于该启动指令，实现驱动智能机器人输出语音信息的同时还执行一系列匹配的动作，以此提高对儿童的吸引力，达到持续吸引儿童注意力的效果，从而有效提高智能机器人用于儿童语言启蒙时的学习效果。

较佳地，所述启动指令包括第一预设指令；

所述在收到所述启动指令后获取用于语言启蒙的待输出语言信息的步骤为：

在收到所述第一预设指令后获取待猜测的语言信息，基于所述待猜测的语言信息得到对应的解释语言信息，并将所述解释语言信息作为所述待输出语言信息；

在驱动所述智能机器人的音频输出装置输出所述待输出的语言信息并驱动所述智能机器人的对应舵机执行所述动作步骤之后还包括以下步骤：

采集使用者发出的语音信息并识别所述语音信息与所述待猜测的语言信息是否匹配，若是则驱动所述智能机器人的音频输出装置输出回答正确对应的语音并驱动所述智能机器人的对应舵机执行表示回答正确的动作，若否则驱动所述智能机器人的音频输出装置输出回答错误对应的语音并驱动所述智能机器人的对应舵机执行表示回答错误的动作。

本方案实现了智能机器人的使用者和智能机器人之间猜测语言信息的功能，具体猜测过程中智能机器人在发出语音的同时配合动作，有利于吸引使用者的注意力，更好的识别出待猜测的语言信息，并通过驱动智能机器人做出表示回答正确如点头或表示回答错误如摇头的动作，丰富了语言启蒙时交互方式，达到持续吸引儿童注意力的效果，提高了智能机器人用于儿童语言启蒙时的学习效果。当然表示回答正确和错误的动作也可以是其它类似的动作，譬如回答正确时鼓掌，回答错误时摸摸头等。

较佳地，所述启动指令包括第二预设指令；

在收到所述第二预设指令后驱动所述智能机器人的对应舵机执行低头并指向预设页面的动作；

驱动所述智能机器人的视频采集装置采集所述预设页面上的图像并识别出所述图像中的物体；

将所述图像中的物体的外语名称作为所述待输出语言信息。

本方案充分模拟了人与人之间的交互，实现了通过智能机器人指读预设页面中物体，如绘本图像的识别及讲解，进一步可以实现与使用者就识别出的物体进行有关的问答，并穿插动作，提高了智能机器人用于儿童语言启蒙时的学习效果。

较佳地，所述启动指令包括第三预设指令；

在收到所述第三预设指令后驱动所述智能机器人的对应舵机执行低头并指向预设页面的动作；

驱动所述智能机器人的视频采集装置采集所述预设页面上的文字信息；

将所述预设页面上的文字信息作为所述待输出语言信息。

本方案实现了通过智能机器人指读预设页面中的文字信息的功能，如绘本文字的识别及讲解，进一步可以实现与使用者就绘本文字的内容展开问答。

较佳地，所述启动指令包括第四预设指令；

在收到所述第四预设指令后采集使用者用外语描述的待猜测的语言信息对应的内容，并基于所述对应的内容对所述待猜测的语言信息进行识别；

将识别的结果作为所述待输出语言信息。

本方案实现了使用者用外语描述待猜测的语言信息对应的内容，智能机器人猜测并说出对应的待猜测的语言信息，该待猜测的语言信息可以是一个单词，也可以是短语或者是句子。后续使用者可以继续用外语给予正确或错误的反馈，智能机器人随之做出庆祝或沮丧的动作等。本方案能够鼓励使用者多进行外语口语输出，改善了使用者学习外语时难以张口的问题，能够提高智能机器人用于儿童语言启蒙时的学习效果。

本发明第二方面提供了一种用于语言启蒙的智能机器人的多模态交互***，包括：

语言信息获取模块，用于获取用于语言启蒙的待输出语言信息；

动作匹配模块，用于为所述待输出语言信息确定相适配的动作；

第一驱动模块，用于驱动所述智能机器人的音频输出装置输出所述待输出的语言信息并驱动所述智能机器人的对应舵机执行所述动作。

较佳地，所述语言信息获取模块用于根据预设的条件获取用于语言启蒙的待输出语言信息。

较佳地，所述预设的条件包括预设的时间点；

所述语言信息获取模块用于判断当前时间是否为所述预设的时间点，若是则获取用于语言启蒙的待输出语言信息。

较佳地，所述预设的条件包括预设的时间范围；

所述语言信息获取模块包括：

识别单元，用于在所述预设的时间范围内，每隔固定时间或根据接收到的识别指令驱动所述智能机器人的视频采集装置采集视野范围内的物体并进行识别；

判断单元，用于判断识别的结果是否满足预设的识别条件，若是则获取用于语言启蒙的待输出语言信息。

较佳地，所述多模态交互***还包括启动指令获取模块；

所述启动指令获取模块用于获取启动指令；

所述语言信息获取模块用于在收到所述启动指令后获取用于语言启蒙的待输出语言信息。

较佳地，所述启动指令获取模块用于获取使用者发出的语音信息，以得到所述启动指令；

和/或，所述启动指令获取模块用于采集图像信息，以得到所述启动指令。

较佳地，所述启动指令为依次做出动作指令；

所述动作匹配模块用于为所述待输出语言信息确定相适配的一系列的动作；

所述第一驱动模块用于驱动所述智能机器人的对应舵机执行所述一系列的动作。

较佳地，所述启动指令包括第一预设指令；

所述语言信息获取模块用于在收到所述第一预设指令后获取待猜测的语言信息，基于所述待猜测的语言信息得到对应的解释语言信息，并将所述解释语言信息作为所述待输出语言信息；

所述多模态交互***还包括采集匹配模块、第二驱动模块和第三驱动模块；

所述采集匹配模块用于在所述第一驱动模块执行完毕后采集使用者发出的语音信息并识别所述语音信息与所述待猜测的语言信息是否匹配，若是则调用所述第二驱动模块，若否则调用所述第三驱动模块；

所述第二驱动模块用于驱动所述智能机器人的音频输出装置输出回答正确对应的语音并驱动所述智能机器人的对应舵机执行表示回答正确的动作；

所述第三驱动模块用于驱动所述智能机器人的音频输出装置输出回答错误对应的语音并驱动所述智能机器人的对应舵机执行表示回答错误的动作。

较佳地，所述启动指令包括第二预设指令；

所述语言信息获取模块包括第一驱动单元、第一采集识别单元和第一确认单元；

所述第一驱动单元用于在收到所述第二预设指令后驱动所述智能机器人的对应舵机执行低头并指向预设页面的动作；

所述第一采集识别单元用于驱动所述智能机器人的视频采集装置采集所述预设页面上的图像并识别出所述图像中的物体；

所述第一确认单元用于将所述图像中的物体的外语名称作为所述待输出语言信息。

较佳地，所述启动指令包括第三预设指令；

所述语言信息获取模块包括第二驱动单元、第二采集识别单元和第二确认单元；

所述第二驱动单元用于在收到所述第三预设指令后驱动所述智能机器人的对应舵机执行低头并指向预设页面的动作；

所述第二采集识别单元用于驱动所述智能机器人的视频采集装置采集所述预设页面上的文字信息；

所述第二确认单元用于将所述预设页面上的文字信息作为所述待输出语言信息。

较佳地，所述启动指令包括第四预设指令；

所述语言信息获取模块包括第三采集识别单元和第三确认单元；

所述第三采集识别单元用于在收到所述第四预设指令后采集使用者用外语描述的待猜测的语言信息对应的内容，并基于所述对应的内容对所述待猜测的语言信息进行识别；

所述第三确认单元用于将识别的结果作为所述待输出语言信息。

本发明第三方面提供了一种智能机器人，包括如第二方面所述的用于语言启蒙的智能机器人的多模态交互***。

本发明的积极进步效果在于：与现有技术相比，本发明提供的用于语言启蒙的多模态交互方法、***及智能机器人，通过在驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作，实现了智能机器人用于语言启蒙时交互方式的多样性，通过相适配的动作能够提高对儿童的吸引力，达到持续吸引儿童注意力的效果，进而提高智能机器人用于儿童语言启蒙时的学习效果。

附图说明

图1为本发明实施例1的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图2为本发明实施例2的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图3为本发明实施例3的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图4为本发明实施例4的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图5为本发明实施例5的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图6为本发明实施例6的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图7为本发明实施例7的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图8为本发明实施例8的用于语言启蒙的智能机器人的多模态交互方法的流程图。

图9为本发明实施例9的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图10为本发明实施例11的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图11为本发明实施例12的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图12为本发明实施例13的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图13为本发明实施例14的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图14为本发明实施例15的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

图15为本发明实施例16的用于语言启蒙的智能机器人的多模态交互***的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。本发明中多模态交互方法中涉及获取多模态交互信息，具体包括文本信息、语音信息、视觉信息中任一项或多项。多模态交互信息可以是由使用者发出的或者是由使用者输入给智能机器人的，也可以是按预先设定的条件由智能机器人主动获取。

实施例1

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图1所示，包括以下步骤：

步骤100、获取用于语言启蒙的待输出语言信息；

步骤101、为待输出语言信息确定相适配的动作；

步骤102、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

本实施例中，用于语言启蒙的待输出语言信息可以是外语词汇或外语短语语音，具体不限定外语的种类，即可以用于任何类型的外语的语言启蒙。

本实施例中，通过在驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作，实现了智能机器人用于语言启蒙时交互方式的多样性，通过相适配的动作能够提高对儿童的吸引力，达到持续吸引儿童注意力的效果，进而提高智能机器人用于儿童语言启蒙时的学习效果。

实施例2

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图2所示，包括以下步骤：

步骤200、判断当前时间是否为预设的时间点，若是则执行步骤201，若否则执行步骤202；

步骤201、获取用于语言启蒙的待输出语言信息，执行步骤203；

步骤202、继续按照预设的规则监控当前时间，具体为定期更新当前时间，执行步骤200；

步骤203、为待输出语言信息确定相适配的动作；

步骤204、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

本实施例一种可能的应用场景如下：家长根据小朋友的作息时间设定好周一至周五的早上8：30智能机器人和小朋友进行出门前的对话，即对小朋友进行语言启蒙。基于本实施例提供的多模态交互方法，周一至周五的早上8：30智能机器人主动发出如下语音：“Have a nice day！”，同时右臂举起挥舞，做告别状。小朋友即使用者如果回复(例如“Youtoo”或“You have a nice day too”)，智能机器人可以再次回应“Love you.Now bye-bye”等。其中，8：30为预设的时间点，“Have a nice day！”为用于语言启蒙的待输出语言信息，“右臂举起挥舞，做告别状”为相适配的动作。

本实施例实现了在预设的时间点自动启动智能机器人进行语言启蒙，当当前时间不是预设的时间点时继续按照预设的规则监控当前时间，直到其为预设的时间点时自动启动智能机器人进行语言启蒙。

实施例3

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图3所示，包括以下步骤：

步骤300、在预设的时间范围内，每隔固定时间或根据接收到的识别指令驱动智能机器人的视频采集装置采集视野范围内的物体并进行识别；

步骤301、判断识别的结果是否满足预设的识别条件，若是则执行步骤303，若否则执行步骤302；

步骤302、判断是否在预设的时间范围内，若是则返回步骤300，若否则流程结束；

步骤303、获取用于语言启蒙的待输出语言信息；

步骤304、为待输出语言信息确定相适配的动作；

步骤305、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

本实施例一种可能的应用场景如下：智能机器人在预先设定好的时间段范围内，每隔固定时间段或者根据使用者的命令词，对智能机器人的摄像头视野内的物体进行识别；当识别结果满足一定条件时，智能机器人主动发起和小朋友的对话。例如，上午10点至12点之间是小朋友玩耍的时间段，10点和10点15分智能机器人分别进行第1次、第2次识别，识别结果为：小朋友坐在地板上，周围有3件玩具，小朋友的手和视线都在玩具上。智能机器人在此情景下设定反应为不分散小朋友的注意力，因此不做任何行动。随后在10点半时智能机器人进行第3次识别，识别结果为：小朋友坐在地板上，周围放着5件玩具，小朋友的手和视线不在玩具上。智能机器人在此情景下发出如下语音：“Nice toys！Could you putthem back to the box？”，同时左臂抬起，指向玩具。使用者如果回复(例如“OK I will”或“I don’t want to put them back”)，机器人再次回应“Good boy/girl”或者“Please,they want to go back to their home”。此后根据使用者的回应持续或者结束对话。其中，10点至12点为预设的时间范围，固定时间为15分钟，“小朋友坐在地板上，周围有3件玩具，小朋友的手和视线都在玩具上”和“小朋友坐在地板上，周围放着5件玩具，小朋友的手和视线不在玩具上”均是识别的结果，预设的识别条件是小朋友没有在玩玩具。“Nicetoys！Could you put them back to the box？”为待输出语言信息，“左臂抬起，指向玩具”为相适配的动作。

本实施例实现了在预设的时间范围内，周期性地或者根据接收的识别指令使用智能机器人进行语言启蒙，具体为驱动智能机器人识别视野范围内的物体，并在识别到的结果满足预设的识别条件时驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作。

实施例4

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图4所示，包括以下步骤：

步骤400、获取使用者发出的启动指令；本实施例中启动指令为依次做出动作指令；

步骤401、在收到启动指令后获取用于语言启蒙的待输出语言信息；

步骤402、为待输出语言信息确定相适配的一系列的动作；

步骤403、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行一系列的动作。

步骤400中可以通过获取使用者发出的语音信息得到启动指令；也可以通过采集使用者提供的图像信息得到启动指令。具体实现方式不做限定，如可以根据使用者发出的语音指令匹配命令词库中的命令词，利用现有的语音识别模块将该命令词转写为文本，经过现有的自然语言处理模块的处理，与动作库及文本库中该命令词对应的动作及文本进行匹配，匹配成功则向相关舵机输出动作指令；同时利用现有的语音合成模块将文本转写为语音，向智能机器人的音频输出装置输出语音输出指令。

本实施例一种可能的应用场景如下：智能机器人依次做出动作，并说出对应的英文词汇。例如，智能机器人单手搭在眼睛上方连续做出眺望的动作，同时说“look”三遍，音调依次升高。再例如，一边跑一边说“run,I am running”。其中，三遍“look”以及“run,I amrunning”为待输出语言信息，“单手搭在眼睛上方连续做出眺望的动作”及“持续跑”为相适配的一系列的动作。

本实施例中，智能机器人在收到使用者发出的启动指令后开始语言启蒙对应的操作。该启动指令可以通过采集使用者发出语音实现，也可以通过采集使用者提供的图像得到，或者两者兼而有之。本实施例中，启动指令为要求智能机器人依次做出一系列的动作对应的指令，基于该启动指令，实现驱动智能机器人输出语音信息的同时还执行一系列匹配的动作，以此提高对儿童的吸引力，达到持续吸引儿童注意力的效果，从而有效提高智能机器人用于儿童语言启蒙时的学习效果。

实施例5

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图5所示，包括以下步骤：

步骤500、获取使用者发出的启动指令；本实施例中，启动指令为第一预设指令；

步骤501、在收到第一预设指令后获取待猜测的语言信息，基于待猜测的语言信息得到对应的解释语言信息，并将解释语言信息作为待输出语言信息；

步骤502、为待输出语言信息确定相适配的动作；

步骤503、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作；

步骤504、采集使用者发出的语音信息并识别该语音信息与待猜测的语言信息是否匹配，若是则执行步骤505，若否则执行步骤506；

步骤505、驱动智能机器人的音频输出装置输出回答正确对应的语音并驱动智能机器人的对应舵机执行表示回答正确的动作，流程结束；

步骤506、驱动智能机器人的音频输出装置输出回答错误对应的语音并驱动智能机器人的对应舵机执行表示回答错误的动作。

本实施例中，表示回答正确采用点头，表示回答错误采用摇头。在其它可选实施方式中也可以执行其他类似动作，譬如回答正确时鼓掌，回答错误时摸头等。

本实施例一种可能的应用场景如下：智能机器人和使用者之间进行语音对话猜词游戏，并配合动作(“我说/我做你猜”)。例如：智能机器人发出猫叫声或者做出跑步的动作，让使用者猜测对应的单词，如果使用者正确说出对应的单词，则智能机器人说“correct”同时伴随点头；如果错误，则摇头并说出正确的单词，还可以接着说“try another one”等。还可以是“我说你猜”游戏，智能机器人可以用外语描述一个词汇的相关内容，让使用者猜测对应的单词。

本实施例的另一种可能的应用场景如下：智能机器人和使用者之间进行单词卡片互动游戏。例如：使用者两手各拿一张单词卡片，藏于背后，问智能机器人左(右)手是什么词，智能机器人在本阶段词汇表中说一个之后，使用者回答对还是不对，同时把对应的单词卡片拿到智能机器人面前，智能机器人识别并说出对应的单词。

本实施例实现了智能机器人的使用者和智能机器人之间猜测语言信息的功能，具体猜测过程中智能机器人在发出语音(可以不发音或者只做出相应的口型)的同时配合动作，有利于吸引使用者的注意力，更好的识别出待猜测的语言信息，并通过驱动智能机器人做出点头或摇头的动作，丰富了语言启蒙时交互方式，达到持续吸引儿童注意力的效果，提高了智能机器人用于儿童语言启蒙时的学习效果。

实施例6

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图6所示，包括以下步骤：

步骤600、获取使用者发出的启动指令；本实施例中，启动指令为第二预设指令；

步骤601、在收到第二预设指令后驱动智能机器人的对应舵机执行低头并指向预设页面的动作；

步骤602、驱动智能机器人的视频采集装置采集预设页面上的图像并识别出图像中的物体；

步骤603、将图像中的物体的外语名称作为待输出语言信息；

步骤604、为待输出语言信息确定相适配的动作；

步骤605、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

在其它可选的实施方式中，步骤603中除了外语名称外还可以包括与物体有关的其它外语描述语句，具体基于业务需求决定，可以由设计语言启蒙的内容编写团队编写设计。

本实施例一种可能的应用场景如下：进行绘本图像识别及讲解。例如：智能机器人低头，指向面前的绘本，识别其中的物体图像，说出对应物体的英文名称和相关联的扩展内容，与使用者就这些内容进行问答，并穿插动作。其中，绘本当前打开的页面即为预设页面。

当然，本实施例中视频采集装置采集预设页面上的图像并识别出图像中的物体也可以是直接采集使用者提供的生活中的实体物品，具体实现时使用者可以将生活中的实体物品拿到智能机器人面前，智能机器人识别出来，说出物品对应的外语名称及关联内容，并做出表示高兴、得意的动作等。

本实施例充分模拟了人与人之间的交互，实现了通过智能机器人指读预设页面中物体，如绘本图像的识别及讲解，进一步可以实现与使用者就识别出的物体进行有关的问答，并穿插动作，提高了智能机器人用于儿童语言启蒙时的学习效果。

实施例7

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图7所示，包括以下步骤：

步骤700、获取使用者发出的启动指令；本实施例中，启动指令为第三预设指令；

步骤701、在收到第三预设指令后驱动智能机器人的对应舵机执行低头并指向预设页面的动作；

步骤702、驱动智能机器人的视频采集装置采集预设页面上的文字信息；

步骤703、将预设页面上的文字信息作为待输出语言信息；

步骤704、为待输出语言信息确定相适配的动作；

步骤705、驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

本实施例一种可能的应用场景如下：进行绘本文字识别及讲解。例如：识别分级读物或绘本中的文字内容并阅读出来，对其中的动词做出“动作示意”，即匹配相适配的动作，并与使用者就这些内容进行问答。

本实施例实现了通过智能机器人指读预设页面中文字信息，例如绘本文字的识别及讲解，进一步可以实现与使用者就绘本文字的内容展开问答。

实施例8

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互方法，如图8所示，包括以下步骤：

步骤800、获取使用者发出的启动指令；本实施例中该启动指令为第四预设指令；

步骤801、在收到第四预设指令后采集使用者用外语描述的待猜测的语言信息对应的内容，并基于对应的内容对待猜测的语言信息进行识别；

步骤802、将识别的结果作为待输出语言信息；

步骤803、为待输出语言信息确定相适配的动作；

步骤804、驱动智能机器人的音频输出装置输出待输出的语言信息，并驱动智能机器人的对应舵机执行动作；

步骤805、采集使用者用外语给予正确或错误的反馈；

步骤806、智能机器人识别出使用者的反馈后随之做出庆祝或沮丧的动作等。

具体实施过程中，步骤803和步骤804中的动作可以省略掉，也就是说智能机器人猜测的过程可以不匹配动作，而仅在步骤806时配合相应的动作，由此使得整个交互过程更加的简洁，使得使用者更加专注于描述待猜测的语言信息对应的内容。

本实施例一种可能的应用场景如下：智能机器人和使用者之间进行“你说我猜”游戏。例如：使用者用外语描述一个单词的相关内容，智能机器人猜测并说出对应的单词，使用者用外语给予正确或错误的反馈，智能机器人随之做出庆祝或沮丧的动作。

本实施例能够鼓励使用者通过描述的方式多进行外语口语输出，由智能机器人来猜测对应的结果，进一步通过与使用者互动的方式进行儿童语言启蒙教学，改善了使用者学习外语时难以张口的问题，能够进一步提高智能机器人用于儿童语言启蒙时的学习效果。

实施例9

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图9所示，包括语言信息获取模块10、动作匹配模块11和第一驱动模块12。其中，语言信息获取模块10用于获取用于语言启蒙的待输出语言信息。动作匹配模块11用于为待输出语言信息确定相适配的动作。第一驱动模块12用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

实施例10

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，与实施例9类似，也包括语言信息获取模块、动作匹配模块和第一驱动模块。动作匹配模块用于为待输出语言信息确定相适配的动作。第一驱动模块用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。与实施例9不同之处在于语言信息获取模块用于判断当前时间是否为预设的时间点，若是则获取用于语言启蒙的待输出语言信息，若否则继续按照预设的规则监控当前时间，具体为定期更新当前时间，然后再重新判断当前时间是否为预设的时间点。

实施例11

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图10所示，包括语言信息获取模块30、动作匹配模块31和第一驱动模块32。其中，语言信息获取模块30用于根据预设的条件获取用于语言启蒙的待输出语言信息。动作匹配模块31用于为待输出语言信息确定相适配的动作。第一驱动模块32用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行动作。

本实施例中，预设的条件包括预设的时间范围。语言信息获取模块30包括识别单元3001和判断单元3002。其中，识别单元3001用于在预设的时间范围内，每隔固定时间或根据接收到的识别指令驱动智能机器人的视频采集装置采集视野范围内的物体并进行识别；判断单元3002用于判断识别的结果是否满足预设的识别条件，若是则获取用于语言启蒙的待输出语言信息。

实施例12

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图11所示，包括启动指令获取模块40、语言信息获取模块41、动作匹配模块42和第一驱动模块43。其中，启动指令获取模块40用于获取使用者发出的启动指令，本实施例中启动指令为依次做出动作指令；语言信息获取模块41用于在收到启动指令后获取用于语言启蒙的待输出语言信息。动作匹配模块42用于为待输出语言信息确定相适配的一系列的动作。第一驱动模块43用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行一系列的动作。

本实施例中，启动指令获取模块用于获取使用者发出的语音信息，以得到启动指令；和/或，启动指令获取模块用于采集使用者提供的图像信息，以得到启动指令。

本实施例中，智能机器人在收到使用者发出的启动指令后开始语言启蒙的对应操作。该启动指令的获得可以通过使用者发出语音实现，也可以通过采集使用者提供的图像得到，或者两者兼而有之。本实施例中，启动指令为要求智能机器人依次做出一系列的动作对应的指令，基于该启动指令，实现驱动智能机器人输出语音信息的同时还执行一系列匹配的动作，以此提高对儿童的吸引力，达到持续吸引儿童注意力的效果，从而有效提高智能机器人用于儿童语言启蒙时的学习效果。

实施例13

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图12所示，包括启动指令获取模块50、语言信息获取模块51、动作匹配模块52、第一驱动模块53、采集匹配模块54、第二驱动模块55和第三驱动模块56。

其中，启动指令获取模块50用于获取使用者发出的启动指令，本实施例中启动指令为第一预设指令；语言信息获取模块51用于在收到第一预设指令后获取待猜测的语言信息，基于待猜测的语言信息得到对应的解释语言信息，并将解释语言信息作为待输出语言信。动作匹配模块52用于为待输出语言信息确定相适配的一系列的动作。第一驱动模块53用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行一系列的动作。采集匹配模块54用于在第一驱动模块53执行完毕后采集使用者发出的语音信息并识别语音信息与待猜测的语言信息是否匹配，若是则调用第二驱动模块55，若否则调用第三驱动模块56。第二驱动模块55用于驱动智能机器人的音频输出装置输出回答正确对应的语音并驱动智能机器人的对应舵机执行表示回答正确的动作。第三驱动模块57用于驱动智能机器人的音频输出装置输出回答错误对应的语音并驱动智能机器人的对应舵机执行表示回答错误的动作。

本实施例实现了智能机器人的使用者和智能机器人之间猜测语言信息的功能，具体猜测过程中智能机器人在发出语音的同时配合动作，有利于吸引使用者的注意力，更好的识别出待猜测的语言信息，并通过驱动智能机器人做出点头或摇头的动作，丰富了语言启蒙时交互方式，达到持续吸引儿童注意力的效果，提高了智能机器人用于儿童语言启蒙时的学习效果。

实施例14

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图13所示，包括启动指令获取模块60、语言信息获取模块61、动作匹配模块62和第一驱动模块63。其中，启动指令获取模块60用于获取使用者发出的启动指令，本实施例中启动指令为第二预设指令；语言信息获取模块61用于在收到第二预设指令后获取用于语言启蒙的待输出语言信息。动作匹配模块62用于为待输出语言信息确定相适配的动作。第一驱动模块63用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行相适配的动作。

本实施例中，语言信息获取模块61包括第一驱动单元6101、第一采集识别单元6102和第一确认单元6103。其中，第一驱动单元6101用于在收到第二预设指令后驱动智能机器人的对应舵机执行低头并指向预设页面的动作；第一采集识别单元6102用于驱动智能机器人的视频采集装置采集预设页面上的图像并识别出图像中的物体；第一确认单元6103用于将图像中的物体的外语名称作为待输出语言信息。

本实施例充分模拟了人与人之间的交互，实现了通过智能机器人指读预设页面中物体，例如绘本图像的识别及讲解，进一步可以实现与使用者就识别出的物体进行有关的问答，并穿插动作，提高了智能机器人用于儿童语言启蒙时的学习效果。

实施例15

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图14所示，包括启动指令获取模块70、语言信息获取模块71、动作匹配模块72和第一驱动模块73。其中，启动指令获取模块70用于获取使用者发出的启动指令，本实施例中启动指令为第三预设指令；语言信息获取模块71用于在收到第三预设指令后获取用于语言启蒙的待输出语言信息。动作匹配模块72用于为待输出语言信息确定相适配的动作。第一驱动模块73用于驱动智能机器人的音频输出装置输出待输出的语言信息并驱动智能机器人的对应舵机执行相适配的动作。

本实施例中，语言信息获取模块71包括第二驱动单元7101、第二采集识别单元7102和第二确认单元7103；第二驱动单元7101用于在收到第三预设指令后驱动智能机器人的对应舵机执行低头并指向预设页面的动作；第二采集识别单元7102用于驱动智能机器人的视频采集装置采集预设页面上的文字信息；第二确认单元7103用于将预设页面上的文字信息作为待输出语言信息，在其它可选实施方式中，该待输出信息可以不仅包括预设页面上的文字信息，还可以包括与之相关的文字内容，例如由内容编写团队编写的相应内容。

实施例16

本实施例提供了一种用于语言启蒙的智能机器人的多模态交互***，如图15所示，包括启动指令获取模块80、语言信息获取模块81、动作匹配模块82、第一驱动模块83、采集模块84和反馈模块85。其中，启动指令获取模块80用于获取使用者发出的启动指令；该启动指令为第四预设指令。语言信息获取模块81包括第三采集识别单元8101和第三确认单元8102；第三采集识别单元8101用于在收到第四预设指令后采集使用者用外语描述的待猜测的语言信息对应的内容，并基于对应的内容对待猜测的语言信息进行识别；第三确认单元8102用于将识别的结果作为待输出语言信息。动作匹配模块82用于为待输出语言信息确定相适配的动作。第一驱动模块83用于驱动智能机器人的音频输出装置输出待输出的语言信息，并驱动智能机器人的对应舵机执行动作。采集模块84用于采集使用者用外语给予正确或错误的反馈。反馈模块85用于在智能机器人识别出使用者的反馈后随之做出庆祝或沮丧的动作等。

本实施例能够鼓励使用者通过描述的方式多进行外语口语输出，由智能机器人来猜测对应的结果，进一步通过与使用者互动的方式进行儿童语言启蒙教学，改善了使用者学习外语时难以张口的问题，进一步提高智能机器人用于儿童语言启蒙时的学习效果。

实施例17

本实施例实现了一种智能机器人，包括了如实施例9至16任一种用于语言启蒙的智能机器人的多模态交互***。

本实施例提供的智能机器人，通过在驱动智能机器人输出语音信息的同时还驱动其执行与语音信息相适配的动作，实现了智能机器人用于语言启蒙时交互方式的多样性，通过相适配的动作能够提高对儿童的吸引力，达到持续吸引儿童注意力的效果，进而提高智能机器人用于儿童语言启蒙时的学习效果。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种用于语言启蒙的智能机器人的多模态交互方法，其特征在于，包括以下步骤：

获取用于语言启蒙的待输出语言信息；

为所述待输出语言信息确定相适配的动作；

2.如权利要求1所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述获取用于语言启蒙的待输出语言信息的步骤为：

根据预设的条件获取用于语言启蒙的待输出语言信息。

3.如权利要求2所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述预设的条件包括预设的时间点；

4.如权利要求2所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述预设的条件包括预设的时间范围；

5.如权利要求1所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述多模态交互方法还包括获取启动指令的步骤；

所述获取用于语言启蒙的待输出语言信息的步骤为：

6.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述获取启动指令的步骤包括：

获取使用者发出的语音信息，以得到所述启动指令；

和/或采集图像信息，以得到所述启动指令。

7.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述启动指令为依次做出动作指令；

所述为所述待输出语言信息确定相适配的动作的步骤为：

为所述待输出语言信息确定相适配的一系列的动作；

驱动所述智能机器人的对应舵机执行所述一系列的动作。

8.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述启动指令包括第一预设指令；

9.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述启动指令包括第二预设指令；

将所述图像中的物体的外语名称作为所述待输出语言信息。

10.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述启动指令包括第三预设指令；

将所述预设页面上的文字信息作为所述待输出语言信息。

11.如权利要求5所述的用于语言启蒙的智能机器人的多模态交互方法，其特征在于，所述启动指令包括第四预设指令；

将识别的结果作为所述待输出语言信息。

12.一种用于语言启蒙的智能机器人的多模态交互***，其特征在于，包括：

13.如权利要求12所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述语言信息获取模块用于根据预设的条件获取用于语言启蒙的待输出语言信息。

14.如权利要求13所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述预设的条件包括预设的时间点；

15.如权利要求13所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述预设的条件包括预设的时间范围；

所述语言信息获取模块包括：

16.如权利要求12所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述多模态交互***还包括启动指令获取模块；

所述启动指令获取模块用于获取启动指令；

17.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令获取模块用于获取使用者发出的语音信息，以得到所述启动指令；

18.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令为依次做出动作指令；

19.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令包括第一预设指令；

20.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令包括第二预设指令；

21.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令包括第三预设指令；

22.如权利要求16所述的用于语言启蒙的智能机器人的多模态交互***，其特征在于，所述启动指令包括第四预设指令；

23.一种智能机器人，其特征在于，包括如权利要求12至22任一项所述的用于语言启蒙的智能机器人的多模态交互***。