CN111048066A

CN111048066A - 一种儿童机器人上利用图像辅助的语音端点检测***

Info

Publication number: CN111048066A
Application number: CN201911130093.9A
Authority: CN
Inventors: 郑艳霞
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-21

Abstract

本发明提出了一种儿童机器人上利用图像辅助的语音端点检测***，所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块；其中，所述机器人唤醒模块，用于启动机器人准备进入拾音状态；所述摄像头取景启动模块，用于启动机器的摄像头针对用户头像进行取景拍摄；所述拾音进程中动态检测模块，用于检测用户在拾音进程中的实时的头部动态情况；所述拾音开启前动态检测模块，用于检测用户在拾音开启前的实时的头部动态情况。

Description

一种儿童机器人上利用图像辅助的语音端点检测***

技术领域

本发明涉及语音检测技术领域，特别涉及一种儿童机器人上利用图像辅助的语音端点检测***。

背景技术

随着科技的不断发展，智能机器人越来越多的被应用在各个工程技术领域中，当前，智能机器人也越来越多的应用到家庭生活中，现在的儿童鞥机器人通过语言交互，语音互动来与儿童或其他家庭成员实现语音智能沟通，但是，传统的语音智能机器人只采用vad语音活动边界检测技术，只依靠vad语音活动边界检测技术进行语音端点检测，这种检测方式导致机器人在混响环境、环境嘈杂下，容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话，但拾音一直不结束的情况、或是识别了一堆无用的语音，增加语音识别、语义理解的困难；最终导致用户体验不佳。

发明内容

本发明提供了一种儿童机器人上利用图像辅助的语音端点检测***，用以解决传统语音端点检测***只依靠声音信号的语音边界检测技术，使机器人在嘈杂环境中存在拾音困难，拾音错误的问题：

本发明提出的一种儿童机器人上利用图像辅助的语音端点检测***，所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块；其中，

所述机器人唤醒模块，用于启动机器人准备进入拾音状态；

所述摄像头取景启动模块，用于启动机器的摄像头针对用户头像进行取景拍摄；

所述拾音进程中动态检测模块，用于检测用户在拾音进程中的实时的头部动态情况；

所述拾音开启前动态检测模块，用于检测用户在拾音开启前的实时的头部动态情况。

进一步地，所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块；其中，

所述拾音识别启动模块，用于启动机器人进入拾音识别状态；

所述面部动态识别检测模块一，用于识别拾音进程中用户的面部动态情况；

所述用户语言交互判断模块，用于判断用户的语言表达进程阶段。

进一步地，所述面部动态识别检测模块一包括：注视方向检测模块和嘴部动态检测模块一；其中，

所述注视方向检测模块，用于检测用户的眼睛是否注释机器人屏幕；

所述嘴部动态检测模块一，用于检测在拾音进程中，用户的嘴部是否有持续的动作。

进一步地，所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块；其中，

所述拾音与识别维持运行模块，用于用户语言交互判断模块确定用户进行语言表达时，即使vad后端点检测语音结束，依然控制机器人继续维持拾音进程和用户面部动态的持续识别；

所述拾音与识别关闭模块，用于用户语言交互判断模块确定用户结束语言表达时，即使vad后端点检测语音未结束，依然关闭拾音和识别功能；

所述交互反馈模块，用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。

进一步地，所述拾音进程中动态检测模块还包括拾音进程中用户检测模块，用于在机器人进行多轮语音交互后，检测用户是否离开摄像头拍摄场景。

进一步地，所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块；其中，

所述面部动态识别检测模块二，用于在拾音开启前检测用户面部动态情况；

所述语音拾音识别启动模块，用于所述面部动态识别检测模块二检测到用户面部动态后，启动机器人进行语音拾音。

进一步地，所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块；其中，

所述嘴部动态检测模块二，用于在拾音开启前，检测用户嘴部的动态情况；

所述用户头像检测模块，用于在拾音开启前，检测机器人周围是否有用户头像。

进一步地，所述语音端点检测***还包括

本发明有益效果：

本发明提出的一种儿童机器人上利用图像辅助的语音端点检测***，在传统的vad语音活动边界检测方法之上设置了图像检测识别功能，该***通过摄像头拍摄用户头像场景，并通过对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测，同时结合vad语音活动边界检测方法提高儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率，进而提高用户体验。

附图说明

图1为本发明所述语音端点检测***的结构框图；

图2为本发明所述拾音进程中动态检测模块的结构框图；

图3为本发明所述拾音开启前动态检测模块的结构框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种儿童机器人上利用图像辅助的语音端点检测***，旨在解决传统语音端点检测***只依靠声音信号的语音边界检测技术，在混响环境、环境嘈杂下，容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话，但拾音一直不结束的情况、或是识别了一堆无用的语音，增加语音识别、语义理解的困难，最终导致用户体验不佳的问题。

本实施例中提供了一种儿童机器人上利用图像辅助的语音端点检测***，如图1所示，所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块；其中，所述机器人唤醒模块，用于启动机器人准备进入拾音状态；所述摄像头取景启动模块，用于启动机器的摄像头针对用户头像进行取景拍摄；所述拾音进程中动态检测模块，用于检测用户在拾音进程中的实时的头部动态情况；所述拾音开启前动态检测模块，用于检测用户在拾音开启前的实时的面部动态情况。

上述方案的工作原理为：机器人唤醒模块将机器人唤醒之后，机器人存在两种运行状态，一种是机器人处于拾音状态中，即拾音进程中，另一种是机器人处于拾音未开启状态，即拾音开启前；针对这两种工作状态，机器人在开启拾音进行语音识别时(即拾音进程中)和拾音开启前，所述语音端点检测***利用摄像头取景启动模块启动摄像头进行用户头像实时采集，同时，通过拾音进程中动态检测模块和拾音开启前动态检测模块检测用户的头像的重点部位(如嘴巴和眼睛)是否有动态特性存在，然后拾音进程中动态检测模块和拾音开启前动态检测模块根据检测到的动态情况，确定是否要继续运行或开启拾音识别功能。

上述方案的有益效果为：本实施例提出的一种儿童机器人上利用图像辅助的语音端点检测***，在传统的vad语音活动边界检测方法之上配合了图像检测识别功能，在vad语音活动边界检测进行的同时配合图像检测的辅助，通过摄像头拍摄用户头像场景，并利用对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测，对机器人语音识别的场景中的用户做进一步的识别确认，vad语音活动边界检测和图像检测的双重检测方式有效的提高了儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率，进而提高用户体验。

在一个实施例中，如图2所示，所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块；其中，所述拾音识别启动模块，用于启动机器人进入拾音识别状态；所述面部动态识别检测模块一，用于识别拾音进程中用户的面部动态情况；所述用户语言交互判断模块，用于判断用户的语言表达进程阶段。

上述技术方案的原理为：在拾音识别启动模块启动拾音识别功能后，即机器人处于拾音进程中时，通过面部动态识别检测模块一检测拾音进程中用户的面部动态情况，然后利用用户语言交互判断模块确定用户是否在拾音进程当下具有语音交互的相关面部动作，进而确定用户是在进行语音交互进程当中，还是已经完成语言表达，即表达结束。

上述技术方案的有益效果为：通过用户的面部动态信息的检测和识别，能够有效提高语音交互检测的准确率。

在一个实施例中，如图2所示，所述面部动态识别检测模块一包括：注视方向检测模块和嘴部动态检测模块一；其中，所述注视方向检测模块，用于检测用户的眼睛是否注释机器人屏幕；所述嘴部动态检测模块一，用于检测在拾音进程中，用户的嘴部是否有持续的动作。

上述技术方案的原理为：面部动态识别检测模块一通过注视方向检测模块检测用户的眼睛是否注视机器人屏幕，同时，利用嘴部动态检测模块一检测用户的嘴巴是否持续在动，如果用户的眼睛注视屏幕和/或用户的嘴巴在持续的动，则用户语言交互判断模块判断用户在正在进行语音互动中，此时，及时即使vad后端点检测语音结束，所述语音端点检测***依然控制机器人持续进行拾音和识别；如果注视方向检测模块和嘴部动态检测模块检测到用户的眼睛已经不再注视机器人屏幕并且用户嘴巴超过1秒钟不动，则用户语言交互判断模块判断用户已经结束语音互动，此时，即使vad后端点检测语音未结束，也立即判断为用户本次语音表达结束，机器人立即进行交互的反馈。

上述技术方案的有益效果为：眼睛和嘴巴是用户进行语音交互过程中最具特点的两个部位，通过对嘴巴和眼睛的检测识别，能够准确的检测用户的面部动态特征，有效提高了用户面部检测的准确性。同时结合用户语言交互判断模块的判断模式，能够进一步准确的检测用户是否在进行语音交互，提高用于语言交互进程阶段检测的准确性，进而提高语音交互的开始结束边界检测的准确率。

在一个实施例中，如图2所示，所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块；其中，所述拾音与识别维持运行模块，用于用户语言交互判断模块确定用户进行语言表达时，即使vad后端点检测语音结束，依然控制机器人继续维持拾音进程和用户面部动态的持续识别；所述拾音与识别关闭模块，用于用户语言交互判断模块确定用户结束语言表达时，即使vad后端点检测语音未结束，依然关闭拾音和识别功能；所述交互反馈模块，用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。

上述技术方案的原理为：通过拾音与识别维持模块和拾音与识别关闭模块控制拾音与语音识别的运行状态，即维持拾音和语音识别的运行和关闭拾音与语音识别。然后通过交互反馈模块在确定用户结束语言表达后控制机器人进行语音交互反馈。

上述技术方案的有益效果为：结合用户语言交互判断模块的判断模式，能够进一步准确的检测用户是否在进行语音交互，提高用于语言交互进程阶段检测的准确性，进而提高语音交互的开始结束边界检测的准确率。

在一个实施例中，如图2所示，所述拾音进程中动态检测模块还包括拾音进程中用户检测模块，用于在机器人进行多轮语音交互后，检测用户是否离开摄像头拍摄场景。

上述技术方案的原理为：在机器人与用户进行多轮交互后，当用户不想聊了，离开了的场景，通过拾音进程中用户检测模块检测到没有用户在摄像机采集的场景范围内，且再无语音出现，即用户已经离开，则用户语言交互判断模块判断用户的语音表达结束，然后通过拾音与识别关闭模块快速结束语音交互流程。

上述技术方案的有益效果为：通过对摄像头采集的场景中用户人像的检测，能够及时准确的检测出用户离开的情况，进而快速结束拾音和语音交互识别，通过这种方式不仅使本发明所述的语音端点检测***适应多种用户使用情形的检测，提高检测***的检测准确性，更能够及时有效的对机器人的拾音、语音交互运行进程进行控制，对于不需要语音交互，即语音交互结束时，及时关闭拾音和语音交互识别的功能，能够有效减少机器人能量的损耗，提高机器人的使用时长，节约能源。

在一个实施例中，如图3所示，所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块；其中，所述面部动态识别检测模块二，用于在拾音开启前检测用户面部动态情况；所述语音拾音识别启动模块，用于所述面部动态识别检测模块二检测到用户面部动态后，启动机器人进行语音拾音。

上述技术方案的原理为：在机器人被唤醒后，未启动拾音功能之前，所述语音端点检测***通过面部动态识别检测模块二检测用户的面部动态特征，如果面部动态识别检测模块二检测到用户面部存在动态特征(如嘴巴在动)，则通过语音拾音识别启动模块开启拾音和识别功能，如果面部动态识别检测模块二检测到用户面部没有动态存在(如嘴巴没有动)，则确定机器人被误唤醒，则保持拾音识别功能不开启。

上述技术方案的有益效果为：提高所述语音端点检测***用户使用情形检测的多样性，降低因误唤醒造成的拾音开启次数，能够有效减少机器人声音识别错误操作的情况，即减少拾音识别的错误率，进而有效降低语音端点检测的错误率。

在一个实施例中，如图3所示，所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块；其中，所述嘴部动态检测模块二，用于在拾音开启前，检测用户嘴部的动态情况；所述用户头像检测模块，用于在拾音开启前，检测机器人周围是否有用户头像。

上述技术方案的原理为：所述面部动态识别检测模块二通过嘴部动态检测模块二在人唤醒后，拾音识别开启前检测用户的嘴是否存在动态情况，如果检测到用户嘴部存在动态动作，则确定用户需要进行语音交互，则开启拾音和识别功能；如果检测到用户的嘴巴不存在动态动作，则确定为误唤醒，保持拾音和识别功能不启动；另一方面，面部动态识别检测模块二还可以通过用户头像检测模块检测摄像机摄取的场景内是否有用户，如果有则则开启拾音和识别功能，如果没有，则保持拾音和识别功能不启动。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种儿童机器人上利用图像辅助的语音端点检测***，其特征在于，所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块；其中，

所述机器人唤醒模块，用于启动机器人准备进入拾音状态；

2.根据权利要求1所述语音端点检测***，其特征在于，所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块；其中，

3.根据权利要求2所述语音端点检测***，其特征在于，所述面部动态识别检测模块一包括：注视方向检测模块和嘴部动态检测模块一；其中，

4.根据权利要求2所述语音端点检测***，其特征在于，所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块；其中，

5.根据权利要求2所述语音端点检测***，其特征在于，所述拾音进程中动态检测模块还包括拾音进程中用户检测模块，用于在机器人进行多轮语音交互后，检测用户是否离开摄像头拍摄场景。

6.根据权利要求1所述语音端点检测***，其特征在于，所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块；其中，

7.根据权利要求1所述语音端点检测***，其特征在于，所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块；其中，