CN111048066A - 一种儿童机器人上利用图像辅助的语音端点检测*** - Google Patents
一种儿童机器人上利用图像辅助的语音端点检测*** Download PDFInfo
- Publication number
- CN111048066A CN111048066A CN201911130093.9A CN201911130093A CN111048066A CN 111048066 A CN111048066 A CN 111048066A CN 201911130093 A CN201911130093 A CN 201911130093A CN 111048066 A CN111048066 A CN 111048066A
- Authority
- CN
- China
- Prior art keywords
- pickup
- user
- module
- dynamic
- detection module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 42
- 238000009432 framing Methods 0.000 claims abstract description 8
- 238000004540 process dynamic Methods 0.000 claims abstract description 4
- 230000003993 interaction Effects 0.000 claims description 46
- 230000001815 facial effect Effects 0.000 claims description 38
- 210000003128 head Anatomy 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Manipulator (AREA)
Abstract
本发明提出了一种儿童机器人上利用图像辅助的语音端点检测***,所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
Description
技术领域
本发明涉及语音检测技术领域,特别涉及一种儿童机器人上利用图像辅助的语音端点检测***。
背景技术
随着科技的不断发展,智能机器人越来越多的被应用在各个工程技术领域中,当前,智能机器人也越来越多的应用到家庭生活中,现在的儿童鞥机器人通过语言交互,语音互动来与儿童或其他家庭成员实现语音智能沟通,但是,传统的语音智能机器人只采用vad语音活动边界检测技术,只依靠vad语音活动边界检测技术进行语音端点检测,这种检测方式导致机器人在混响环境、环境嘈杂下,容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话,但拾音一直不结束的情况、或是识别了一堆无用的语音,增加语音识别、语义理解的困难;最终导致用户体验不佳。
发明内容
本发明提供了一种儿童机器人上利用图像辅助的语音端点检测***,用以解决传统语音端点检测***只依靠声音信号的语音边界检测技术,使机器人在嘈杂环境中存在拾音困难,拾音错误的问题:
本发明提出的一种儿童机器人上利用图像辅助的语音端点检测***,所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,
所述机器人唤醒模块,用于启动机器人准备进入拾音状态;
所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;
所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;
所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
进一步地,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,
所述拾音识别启动模块,用于启动机器人进入拾音识别状态;
所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;
所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
进一步地,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,
所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;
所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
进一步地,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,
所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;
所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;
所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
进一步地,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
进一步地,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,
所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;
所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
进一步地,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,
所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;
所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
进一步地,所述语音端点检测***还包括
本发明有益效果:
本发明提出的一种儿童机器人上利用图像辅助的语音端点检测***,在传统的vad语音活动边界检测方法之上设置了图像检测识别功能,该***通过摄像头拍摄用户头像场景,并通过对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测,同时结合vad语音活动边界检测方法提高儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率,进而提高用户体验。
附图说明
图1为本发明所述语音端点检测***的结构框图;
图2为本发明所述拾音进程中动态检测模块的结构框图;
图3为本发明所述拾音开启前动态检测模块的结构框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种儿童机器人上利用图像辅助的语音端点检测***,旨在解决传统语音端点检测***只依靠声音信号的语音边界检测技术,在混响环境、环境嘈杂下,容易出现用户说话说了一半就结束拾音的情况、或是用户已经结束说话,但拾音一直不结束的情况、或是识别了一堆无用的语音,增加语音识别、语义理解的困难,最终导致用户体验不佳的问题。
本实施例中提供了一种儿童机器人上利用图像辅助的语音端点检测***,如图1所示,所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的面部动态情况。
上述方案的工作原理为:机器人唤醒模块将机器人唤醒之后,机器人存在两种运行状态,一种是机器人处于拾音状态中,即拾音进程中,另一种是机器人处于拾音未开启状态,即拾音开启前;针对这两种工作状态,机器人在开启拾音进行语音识别时(即拾音进程中)和拾音开启前,所述语音端点检测***利用摄像头取景启动模块启动摄像头进行用户头像实时采集,同时,通过拾音进程中动态检测模块和拾音开启前动态检测模块检测用户的头像的重点部位(如嘴巴和眼睛)是否有动态特性存在,然后拾音进程中动态检测模块和拾音开启前动态检测模块根据检测到的动态情况,确定是否要继续运行或开启拾音识别功能。
上述方案的有益效果为:本实施例提出的一种儿童机器人上利用图像辅助的语音端点检测***,在传统的vad语音活动边界检测方法之上配合了图像检测识别功能,在vad语音活动边界检测进行的同时配合图像检测的辅助,通过摄像头拍摄用户头像场景,并利用对用户嘴巴动态信息的采集和检测以及用户眼睛注视方向的检测,对机器人语音识别的场景中的用户做进一步的识别确认,vad语音活动边界检测和图像检测的双重检测方式有效的提高了儿童智能机器人上在和用户语音交互过程中的语音交互的开始结束边界检测的准确率,进而提高用户体验。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,所述拾音识别启动模块,用于启动机器人进入拾音识别状态;所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
上述技术方案的原理为:在拾音识别启动模块启动拾音识别功能后,即机器人处于拾音进程中时,通过面部动态识别检测模块一检测拾音进程中用户的面部动态情况,然后利用用户语言交互判断模块确定用户是否在拾音进程当下具有语音交互的相关面部动作,进而确定用户是在进行语音交互进程当中,还是已经完成语言表达,即表达结束。
上述技术方案的有益效果为:通过用户的面部动态信息的检测和识别,能够有效提高语音交互检测的准确率。
在一个实施例中,如图2所示,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
上述技术方案的原理为:面部动态识别检测模块一通过注视方向检测模块检测用户的眼睛是否注视机器人屏幕,同时,利用嘴部动态检测模块一检测用户的嘴巴是否持续在动,如果用户的眼睛注视屏幕和/或用户的嘴巴在持续的动,则用户语言交互判断模块判断用户在正在进行语音互动中,此时,及时即使vad后端点检测语音结束,所述语音端点检测***依然控制机器人持续进行拾音和识别;如果注视方向检测模块和嘴部动态检测模块检测到用户的眼睛已经不再注视机器人屏幕并且用户嘴巴超过1秒钟不动,则用户语言交互判断模块判断用户已经结束语音互动,此时,即使vad后端点检测语音未结束,也立即判断为用户本次语音表达结束,机器人立即进行交互的反馈。
上述技术方案的有益效果为:眼睛和嘴巴是用户进行语音交互过程中最具特点的两个部位,通过对嘴巴和眼睛的检测识别,能够准确的检测用户的面部动态特征,有效提高了用户面部检测的准确性。同时结合用户语言交互判断模块的判断模式,能够进一步准确的检测用户是否在进行语音交互,提高用于语言交互进程阶段检测的准确性,进而提高语音交互的开始结束边界检测的准确率。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
上述技术方案的原理为:通过拾音与识别维持模块和拾音与识别关闭模块控制拾音与语音识别的运行状态,即维持拾音和语音识别的运行和关闭拾音与语音识别。然后通过交互反馈模块在确定用户结束语言表达后控制机器人进行语音交互反馈。
上述技术方案的有益效果为:结合用户语言交互判断模块的判断模式,能够进一步准确的检测用户是否在进行语音交互,提高用于语言交互进程阶段检测的准确性,进而提高语音交互的开始结束边界检测的准确率。
在一个实施例中,如图2所示,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
上述技术方案的原理为:在机器人与用户进行多轮交互后,当用户不想聊了,离开了的场景,通过拾音进程中用户检测模块检测到没有用户在摄像机采集的场景范围内,且再无语音出现,即用户已经离开,则用户语言交互判断模块判断用户的语音表达结束,然后通过拾音与识别关闭模块快速结束语音交互流程。
上述技术方案的有益效果为:通过对摄像头采集的场景中用户人像的检测,能够及时准确的检测出用户离开的情况,进而快速结束拾音和语音交互识别,通过这种方式不仅使本发明所述的语音端点检测***适应多种用户使用情形的检测,提高检测***的检测准确性,更能够及时有效的对机器人的拾音、语音交互运行进程进行控制,对于不需要语音交互,即语音交互结束时,及时关闭拾音和语音交互识别的功能,能够有效减少机器人能量的损耗,提高机器人的使用时长,节约能源。
在一个实施例中,如图3所示,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
上述技术方案的原理为:在机器人被唤醒后,未启动拾音功能之前,所述语音端点检测***通过面部动态识别检测模块二检测用户的面部动态特征,如果面部动态识别检测模块二检测到用户面部存在动态特征(如嘴巴在动),则通过语音拾音识别启动模块开启拾音和识别功能,如果面部动态识别检测模块二检测到用户面部没有动态存在(如嘴巴没有动),则确定机器人被误唤醒,则保持拾音识别功能不开启。
上述技术方案的有益效果为:提高所述语音端点检测***用户使用情形检测的多样性,降低因误唤醒造成的拾音开启次数,能够有效减少机器人声音识别错误操作的情况,即减少拾音识别的错误率,进而有效降低语音端点检测的错误率。
在一个实施例中,如图3所示,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
上述技术方案的原理为:所述面部动态识别检测模块二通过嘴部动态检测模块二在人唤醒后,拾音识别开启前检测用户的嘴是否存在动态情况,如果检测到用户嘴部存在动态动作,则确定用户需要进行语音交互,则开启拾音和识别功能;如果检测到用户的嘴巴不存在动态动作,则确定为误唤醒,保持拾音和识别功能不启动;另一方面,面部动态识别检测模块二还可以通过用户头像检测模块检测摄像机摄取的场景内是否有用户,如果有则则开启拾音和识别功能,如果没有,则保持拾音和识别功能不启动。
上述技术方案的有益效果为:提高所述语音端点检测***用户使用情形检测的多样性,降低因误唤醒造成的拾音开启次数,能够有效减少机器人声音识别错误操作的情况,即减少拾音识别的错误率,进而有效降低语音端点检测的错误率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种儿童机器人上利用图像辅助的语音端点检测***,其特征在于,所述语音端点检测***包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,
所述机器人唤醒模块,用于启动机器人准备进入拾音状态;
所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;
所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;
所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。
2.根据权利要求1所述语音端点检测***,其特征在于,所述拾音进程中动态检测模块包括面部动态识别检测模块一、拾音识别启动模块和用户语言交互判断模块;其中,
所述拾音识别启动模块,用于启动机器人进入拾音识别状态;
所述面部动态识别检测模块一,用于识别拾音进程中用户的面部动态情况;
所述用户语言交互判断模块,用于判断用户的语言表达进程阶段。
3.根据权利要求2所述语音端点检测***,其特征在于,所述面部动态识别检测模块一包括:注视方向检测模块和嘴部动态检测模块一;其中,
所述注视方向检测模块,用于检测用户的眼睛是否注释机器人屏幕;
所述嘴部动态检测模块一,用于检测在拾音进程中,用户的嘴部是否有持续的动作。
4.根据权利要求2所述语音端点检测***,其特征在于,所述拾音进程中动态检测模块还包括拾音与识别维持运行模块、拾音与识别关闭模块和交互反馈模块;其中,
所述拾音与识别维持运行模块,用于用户语言交互判断模块确定用户进行语言表达时,即使vad后端点检测语音结束,依然控制机器人继续维持拾音进程和用户面部动态的持续识别;
所述拾音与识别关闭模块,用于用户语言交互判断模块确定用户结束语言表达时,即使vad后端点检测语音未结束,依然关闭拾音和识别功能;
所述交互反馈模块,用于用户语言交互判断模块确定用户结束语言表达后控制机器人进行语音交互反馈。
5.根据权利要求2所述语音端点检测***,其特征在于,所述拾音进程中动态检测模块还包括拾音进程中用户检测模块,用于在机器人进行多轮语音交互后,检测用户是否离开摄像头拍摄场景。
6.根据权利要求1所述语音端点检测***,其特征在于,所述拾音开启前动态检测模块包括面部动态识别检测模块二和语音识别启动模块;其中,
所述面部动态识别检测模块二,用于在拾音开启前检测用户面部动态情况;
所述语音拾音识别启动模块,用于所述面部动态识别检测模块二检测到用户面部动态后,启动机器人进行语音拾音。
7.根据权利要求1所述语音端点检测***,其特征在于,所述面部动态识别检测模块二包括嘴部动态检测模块二和用户头像检测模块;其中,
所述嘴部动态检测模块二,用于在拾音开启前,检测用户嘴部的动态情况;
所述用户头像检测模块,用于在拾音开启前,检测机器人周围是否有用户头像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911130093.9A CN111048066A (zh) | 2019-11-18 | 2019-11-18 | 一种儿童机器人上利用图像辅助的语音端点检测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911130093.9A CN111048066A (zh) | 2019-11-18 | 2019-11-18 | 一种儿童机器人上利用图像辅助的语音端点检测*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111048066A true CN111048066A (zh) | 2020-04-21 |
Family
ID=70231960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911130093.9A Pending CN111048066A (zh) | 2019-11-18 | 2019-11-18 | 一种儿童机器人上利用图像辅助的语音端点检测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048066A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN111933149A (zh) * | 2020-08-11 | 2020-11-13 | 北京声智科技有限公司 | 语音交互方法、穿戴式设备、终端及语音交互*** |
CN113345472A (zh) * | 2021-05-08 | 2021-09-03 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
CN114007168A (zh) * | 2021-11-03 | 2022-02-01 | 长沙楚风数码科技有限公司 | 一种智能音频控制***及方法 |
CN115063895A (zh) * | 2022-06-10 | 2022-09-16 | 深圳市智远联科技有限公司 | 一种基于语音识别的售票方法及售票*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130021459A1 (en) * | 2011-07-18 | 2013-01-24 | At&T Intellectual Property I, L.P. | System and method for enhancing speech activity detection using facial feature detection |
CN107978316A (zh) * | 2017-11-15 | 2018-05-01 | 西安蜂语信息科技有限公司 | 控制终端的方法及装置 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及*** |
-
2019
- 2019-11-18 CN CN201911130093.9A patent/CN111048066A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130021459A1 (en) * | 2011-07-18 | 2013-01-24 | At&T Intellectual Property I, L.P. | System and method for enhancing speech activity detection using facial feature detection |
CN107978316A (zh) * | 2017-11-15 | 2018-05-01 | 西安蜂语信息科技有限公司 | 控制终端的方法及装置 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及*** |
Non-Patent Citations (1)
Title |
---|
陈庆利: "基于音频和视觉特征的语音端点检测", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933149A (zh) * | 2020-08-11 | 2020-11-13 | 北京声智科技有限公司 | 语音交互方法、穿戴式设备、终端及语音交互*** |
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN111933136B (zh) * | 2020-08-18 | 2024-05-10 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN113345472A (zh) * | 2021-05-08 | 2021-09-03 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
CN113345472B (zh) * | 2021-05-08 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
EP4086905A1 (en) * | 2021-05-08 | 2022-11-09 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Voice activity detection method and apparatus, electronic device and storage medium |
CN114007168A (zh) * | 2021-11-03 | 2022-02-01 | 长沙楚风数码科技有限公司 | 一种智能音频控制***及方法 |
CN115063895A (zh) * | 2022-06-10 | 2022-09-16 | 深圳市智远联科技有限公司 | 一种基于语音识别的售票方法及售票*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048066A (zh) | 一种儿童机器人上利用图像辅助的语音端点检测*** | |
US11163356B2 (en) | Device-facing human-computer interaction method and system | |
US20220238112A1 (en) | Query endpointing based on lip detection | |
US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
WO2017143948A1 (zh) | 一种唤醒智能机器人的方法及智能机器人 | |
KR101991163B1 (ko) | 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇 | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
CN113345433B (zh) | 一种车外语音交互*** | |
CN106782585A (zh) | 一种基于麦克风阵列的拾音方法及*** | |
CN110730115B (zh) | 语音控制方法及装置、终端、存储介质 | |
JP2005022065A5 (zh) | ||
CN107360157A (zh) | 一种用户注册方法、装置及智能空调器 | |
CN111199032A (zh) | 身份认证的方法以及装置 | |
JP2009222969A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
TW200809768A (en) | Method of driving a speech recognition system | |
JP2012076162A (ja) | 会話ロボット | |
CN107808085A (zh) | 智能终端的指纹控制方法及*** | |
Rekik et al. | Human machine interaction via visual speech spotting | |
CN111936964A (zh) | 非中断性nui命令 | |
JPWO2008001549A1 (ja) | 音声対話装置と音声対話方法及びそのプログラム | |
US20040095389A1 (en) | System and method for managing engagements between human users and interactive embodied agents | |
CN105141785B (zh) | 一种电话接听方法及装置 | |
CN110262767A (zh) | 基于靠近嘴部检测的语音输入唤醒装置、方法和介质 | |
CN209044802U (zh) | 一种可强制禁麦克风、禁摄像头的刷脸支付装置 | |
CN112035639B (zh) | 智能自动答题机器人*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |