CN114121042A - 免唤醒场景下的语音检测方法、装置及电子设备 - Google Patents

免唤醒场景下的语音检测方法、装置及电子设备 Download PDF

Info

Publication number
CN114121042A
CN114121042A CN202111439706.4A CN202111439706A CN114121042A CN 114121042 A CN114121042 A CN 114121042A CN 202111439706 A CN202111439706 A CN 202111439706A CN 114121042 A CN114121042 A CN 114121042A
Authority
CN
China
Prior art keywords
voice
preset time
activity detection
preset
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111439706.4A
Other languages
English (en)
Inventor
韩启源
李智勇
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111439706.4A priority Critical patent/CN114121042A/zh
Publication of CN114121042A publication Critical patent/CN114121042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种免唤醒场景下的语音检测方法、装置及电子设备。该方法包括:获取待识别音频数据;对所述待识别音频数据进行主语音活动检测;在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。本申请实施例降低了VAD误触发的概率。

Description

免唤醒场景下的语音检测方法、装置及电子设备
技术领域
本申请属于电子技术领域,具体涉及一种免唤醒场景下的语音检测方法、装置及电子设备。
背景技术
随着电子设备的发展,多数电子设备可以加入语音交互功能。通常在电子设备利用语音活动检测(Voice Activity Detection,VAD)对实时的录音数据进行语音检测,为了提高用户体验,目前很多电子设备的语音交互都采用的是免唤醒模式。这样在使用的过程中,只要VAD检测到声音后,VAD将会输出语音数据进行后续的语音识别处理,以实现语音交互。由于受到环境噪音的影响,导致VAD误触发的概率较大。
发明内容
本申请实施例的目的是提供一种免唤醒场景下的语音检测方法、装置及电子设备,能够解决由于受到环境噪音的影响,导致VAD误触发的概率较大的问题。
第一方面,本申请实施例提供了一种免唤醒场景下的语音检测方法,包括:
获取待识别音频数据;
对所述待识别音频数据进行主语音活动检测;
在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
第二方面,本申请实施例提供了一种免唤醒场景下的语音检测装置,其特征在于,包括:
获取模块,用于获取待识别音频数据;
检测模块,用于对所述待识别音频数据进行主语音活动检测;
确定模块,用于在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
本申请实施例通过获取待识别音频数据;对所述待识别音频数据进行主语音活动检测;在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。由于在基于主语音活动检测输出第一语音开始信号后,进一步判断预设时长内是否存在目标语音数据,从而可以从一定程度上对环境的噪音进行过滤,降低了VAD误触发的概率。此外,本申请实施例无需进行语音唤醒即可实现语音交互,简化了语音交互的操作。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的免唤醒场景下的语音检测方法的流程图;
图2是本申请实施例提供的免唤醒场景下的语音检测装置的结构图;
图3是本申请实施例提供的一种电子设备的结构图;
图4是本申请实施例提供的另一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的免唤醒场景下的语音检测方法进行详细地说明。
参见图1,图1是本申请实施例提供的一种免唤醒场景下的语音检测方法的流程图,如图1所示,包括以下步骤:
步骤101,获取待识别音频数据;
本申请实施例中,上述待识别音频数据可以为实时录音数据,也可以为其他设备发送或者本地储存的音频数据。例如,电子设备具有录音功能,在电子设备处于开机状态下,可以实时进行录音,也可以在电子设备处于工作状态下,实时进行录音。电子设备可以对录音的数据进行相应的处理(例如降噪和回音消除等处理)后可以得到录音数据,即上述音频数据。其中,工作状态可以理解为开机且未处于待机状态,例如,针对具有锁屏的电子设备,可以理解为电子设备处于解锁状态下。
步骤102,对所述待识别音频数据进行主语音活动检测;
本申请实施例中,以录音为例,在录音的过程中,可以启动主语音活动检测实时对录音数据进行检测,也可以在录音结束后启动主检测流程,利用主语音活动检测实时对录音数据进行检测。当主语音活动检测检测到存在声音的情况下,可以输出第一语音开始信号。应理解,本申请实施例中,该第一语音开始信号可以理解为检测到语音后输出的语音开始信号,也可以理解为检测到声音后输出的语音开始信号。
步骤103,在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
本申请实施例中,所述预设时长的开始时刻位于输出所述第一语音开始信号的时刻之后。其中,当在所述预设时长内存在目标语音数据时,则确定所述音频数据存在有效声音,即确定检测到语音信号;否则确定所述音频数据不存在有效声音。
可选地,在确定所述待识别音频数据在预设时长内存在目标语音数据,从而可以截取并输出有效的目标语音数据,以执行相关的操作,例如可以对输出的目标语音数据进行语音识别,并根据语音识别结果执行对应的语音交互功能。
应理解,上述预设时长不包含输出所述第一语音开始信号的时刻。可选地,该预设时长的开始时刻位于输出所述第一语音开始信号的时刻之后可以理解为,预设时长的开始时刻晚于输出所述第一语音开始信号的时刻,且预设时长的开始时刻与输出所述第一语音开始信号的时刻之间间隔预设时长。例如,以某一时间单元为处理的时间单元,在时间单元1检测并输出第一语音开始信号,将时间单元2的开始时刻确定为预设时长的开始时刻,其中时间单元2和时间单元1为相邻的两个时间单元,且时间单元2位于时间单元1之后。
需要说明的是,上述预设时长的大小可以根据实际需要进行设置,例如可以为用户设定的某一阈值(例如可以为500ms),也可以智能调整预设时长的时长。确定所述待识别音频数据在预设时长内存在目标语音数据可以理解为电子设备确定、假设或者认为预设时长内是否存在有效的目标语音数据。由于通过基于所述语音活动检测输出第一语音开始信号后,进一步判断预设时长内是否存在目标语音数据,从而可以从一定程度上对环境的噪音进行过滤,降低了VAD误触发的概率。VAD误触发可以理解为VAD误触发输出语音数据,即输出非正常的语音数据(例如噪音数据)执行相关操作。例如,在实时显示对话状态的场景下,可以大幅度的降低误触发对话显示,提升了用户体验效果。
本申请实施例通过获取待识别音频数据;对所述待识别音频数据进行主语音活动检测;在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。由于在基于主语音活动检测输出第一语音开始信号后,进一步判断预设时长内是否存在目标语音数据,从而可以从一定程度上对环境的噪音进行过滤,降低了VAD误触发的概率。此外,本申请实施例无需进行语音唤醒即可实现语音交互,简化了语音交互的操作。
应理解,确定所述待识别音频数据在预设时长内是否存在目标语音数据的方式可以根据实际需要进行设置,例如,在一些是实施例中,在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据,包括:
在所述主语音活动检测输出第一语音开始信号的情况下,触发辅语音活动检测对音频数据进行检测;
按照预设规则确定在所述预设时长内是否存在目标语音数据;
其中,所述预设规则包括:在满足预设条件的情况下,确定在所述预设时长内不存在目标语音数据,否则,确定在所述预设时长内存在目标语音数据,所述预设条件包括以下至少一项:
在所述预设时长内,所述主语音活动检测输出语音结束信号或者所述辅语音活动检测输出语音结束信号;
在所述预设时长内所述主语音活动检测未输出语音结束信号,且在所述预设时长内所述辅语音活动检测未输出语音结束信号和第二语音开始信号。
本申请实施例中,每当主语音活动检测输出第一语音开始信号时,将会触发一个辅语音活动检测进行声音的有效性确定。此时,主语音活动检测和辅语音活动检测同时对预设时长内的音频数据进行检测,基于预设规则进行检测结果判断,确定预设时长内是否存在有效声音或者目标语音数据。
可选地,在检测的过程中,一旦主语音活动检测或辅语音活动检测输出语音结束信号,则表明该声音的持续时间较短,为无效声音,也就是说电子设备可以假设、认为或确认基于第一语音开始信号检测到的声音为噪音(即确定在所述预设时长内不存在目标语音数据),从而不触发主VAD输出语音数据。当到达预设时长的结束时刻,主语音活动检测和辅语音活动检测均未输出语音结束信号,可以判断在所述预设时长内所述辅语音活动检测是否输出第二语音开始信号,当辅语音活动检测未输出第二语音开始信号,则可以理解为表明该声音的持续时间较短,为无效声音,也就是说电子设备可以假设、认为或确认基于第一语音开始信号检测到的声音为噪音(即确定在所述预设时长内不存在目标语音数据),从而不触发主VAD输出语音数据;当辅语音活动检测输出第二语音开始信号,则可以理解为表明该声音的持续时间较长,为有效声音,也就是说电子设备可以假设、认为或确认基于第一语音开始信号检测到的声音为正常的说话语音(即确定在所述预设时长内存在目标语音数据),从而触发主VAD输出语音数据。
需要说明的是,在一些实施例中,也可以仅基于主语音活动检测和辅语音活动检测输出语音结束信号确定所述预设时长内是否存在有效声音,例如,一旦主语音活动检测或辅语音活动检测输出语音结束信号,即可确定预设时长内不存在目标语音数据,否则(即主语音活动检测和辅语音活动检测均未输出语音结束信号)确定预设时长内存在目标语音数据。
本申请实施例中,通过使用语音活动检测对预设时长内是否存在目标语音数据进行判断,从而可以减少噪音产生的影响,减少了VAD的误触发频次。
可选地,在一些实施例中,上述语音交互用于控制电子设备执行相应的语音交互功能的情况下,在所述确定检测到语音信号之后,所述方法还可以包括:
对所述目标语音数据进行语音识别,获得语音识别结果;
基于所述语音识别结果执行对应的语音交互功能。
本申请实施例中,上述语音交互功能可以包括执行相应的控制操作,例如,播放指定的多媒体文件,或者音量调节等操作等。上述语音交互功能还可以包括执行语音对话,例如回答用户提出的问题等。
可选地,上述语音交互功能对应的执行信息可以预先进行储存。例如,在一些实施例中,可以在预设数据库中提前存储多个执行信息,将识别的结果与预设数据中存储的执行信息进行相似度比对,根据比对的结果确定执行的操作。
可选地,在一些实施例中,所述语音识别结果包括声纹识别结果和语音内容识别结果,所述基于所述语音识别结果执行对应的语音交互功能包括:
将所述声纹识别结果与预设的声纹信息进行匹配;
在所述声纹识别结果与预设的声纹信息匹配的情况下,基于所述语音内容识别结果执行对应的语音交互功能。
本申请实施例中,在对目标语音数据进行识别时,可以增加声纹识别,获得声纹识别结果,在声纹识别结果与预设的声纹信息匹配时,可以执行对应的语音交互功能。由于无需进行唤醒,直接可以实现语音交互,当多人共同使用电子设备时,容易误发触发电子设备执行语音交互功能,为了提高语音识别的准确度,降低语音交互功能的误触发概率,可以仅响应与预先存储的声纹信息匹配的语音内容,即仅相应指定用户的语音指令。
应理解,本申请实施例中,用户可以首先在响应的设置界面录入相应的语音,供电子设备识别并储存相应的声纹信息。这样在后续进行语音交互的过程中通过声纹信息的比对,可以降低语音交互功能的误触发概率。
可选地,在一些实施例中,所述方法还包括:
获取当前环境音的声音信息;
根据所述当前环境音的声音信息确定所述预设时长。
本申请实施例中,当前环境音的声音信息可以理解为环境噪音信息,具体可以包括环境噪音的类型,例如为稳态噪音,还是非稳态噪音。其中稳态噪音可以理解为持续噪音,非稳态噪音可以理解为无序噪音,当判断噪音类型为稳态噪音时,可以适当增加预设时长的时长,当为非稳态噪音时,可以适当缩短预设时长的时长。
可选地,在一些实施例中,所述方法还包括:
获取历史误触发频次;
根据所述历史误触发频次确定所述预设时长。
上述历史误触发频次可以理解为历史的一段时间内VAD误触发的次数,例如可以为主语音活动检测输出的N次第一语音开始信号所对应的VAD误触发的次数。N的取值大小可以根据实际需要进行设置,在此不做进一步的限定。可选地,在一些实施例中,当误触发频次越大,可以设置对应的预设时长的时长越短,误触发频次越小,可以设置对应的预设时长的时长越长。
需要说明的是,在一些实施中还可以同时基于当前环境音的声音信息和历史误触发频次对预设时长进行调整。由于可以基于当前环境音的声音信息和/或历史误触发频次对预设时长进行调整,从而可以更好的适应不同环境的检测,从而进一步降低VAD误触发的概率。
进一步地,在一些实施例中,所述方法还包括:
确定所述电子设备的工作模式;
其中,所述电子设备的工作模式包括第一工作模式和第二工作模式;所述按照预设规则确定在所述预设时长内是否存在目标语音数据包括:
在所述电子设备处于所述第一工作模式的情况下,按照预设规则确定在所述预设时长内是否存在目标语音数据。
本申请实施例中,上述第一工作模式可以理解为免唤醒模式,上述第二工作模式可以理解为唤醒模式。当采用第二工作模式时,首先需要进行语音唤醒(例如通过语音输入电子设备的名称进行唤醒),在唤醒后可以进行语音输入。
应理解,上述工作模式的设置可以通过指定的交互界面进行设置,也可以通过语音或手势等进行工作模式的设置或切换,在此不做进一步地限定。由于可以由用户设置电子设备的工作模式,从而可以基于不同的应用环境设置电子设备的工作模式,例如在公共场所采用唤醒模式,在私人场所使用免唤醒模式。这样,提高了电子产品使用的灵活性。
需要说明的是,本申请实施例提供的免唤醒场景下的语音检测方法,执行主体可以为免唤醒场景下的语音检测装置,或者该免唤醒场景下的语音检测装置中的用于执行加载免唤醒场景下的语音检测方法的控制模块。本申请实施例中以免唤醒场景下的语音检测装置执行加载免唤醒场景下的语音检测方法为例,说明本申请实施例提供的免唤醒场景下的语音检测方法。
参见图2,图2是本申请实施例提供的免唤醒场景下的语音检测装置的结构图,如图2所示,免唤醒场景下的语音检测装置200包括:
获取模块201,用于获取待识别音频数据;
检测模块202,用于对所述待识别音频数据进行主语音活动检测;
确定模块203,用于在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
可选地,所述确定模块203包括:
触发单元,用于在所述主语音活动检测输出第一语音开始信号的情况下,触发辅语音活动检测对音频数据进行检测;
确定单元,用于按照预设规则确定在所述预设时长内是否存在目标语音数据;
其中,所述预设规则包括:在满足预设条件的情况下,确定在所述预设时长内不存在目标语音数据,否则,确定在所述预设时长内存在目标语音数据,所述预设条件包括以下至少一项:
在所述预设时长内,所述主语音活动检测输出语音结束信号或者所述辅语音活动检测输出语音结束信号;
在所述预设时长内所述主语音活动检测未输出语音结束信号,且在所述预设时长内所述辅语音活动检测未输出语音结束信号和第二语音开始信号。
可选地,所述语音控制装置200还包括:
识别模块,用于当所述待识别音频数据在预设时长内存在目标语音数据的情况下,对所述目标语音数据进行语音识别,获得语音识别结果;
执行模块,用于基于所述语音识别结果执行对应的语音交互功能。
可选地,所述语音识别结果包括声纹识别结果和语音内容识别结果,所述执行模块具体用于:将所述声纹识别结果与预设的声纹信息进行匹配;在所述声纹识别结果与预设的声纹信息匹配的情况下,基于所述语音内容识别结果执行对应的语音交互功能。
可选地,所述语音控制装置200还包括调整模块,其中,
所述获取模块,还用于获取当前环境音的声音信息;
所述调整模块,用于根据所述当前环境音的声音信息确定所述预设时长。
可选地,所述语音控制装置200还包括调整模块,其中,
所述获取模块,还用于获取历史误触发频次;
所述调整模块,用于根据所述历史误触发频次确定所述预设时长。
本申请实施例中的免唤醒场景下的语音检测装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的免唤醒场景下的语音检测装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为ios操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的免唤醒场景下的语音检测装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
可选的,本申请实施例还提供一种电子设备,包括处理器310,存储器309,存储在存储器309上并可在所述处理器310上运行的程序或指令,该程序或指令被处理器310执行时实现上述免唤醒场景下的语音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图4为实现本申请各个实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理***与处理器410逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器410,用于执行以下操作:
获取待识别音频数据;
对所述待识别音频数据进行主语音活动检测;
在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
可选地,所述处理器410具体用于执行以下操作:
在所述主语音活动检测输出第一语音开始信号的情况下,触发辅语音活动检测对音频数据进行检测;
按照预设规则确定在所述预设时长内是否存在目标语音数据;
其中,所述预设规则包括:在满足预设条件的情况下,确定在所述预设时长内不存在目标语音数据,否则,确定在所述预设时长内存在目标语音数据,所述预设条件包括以下至少一项:
在所述预设时长内,所述主语音活动检测输出语音结束信号或者所述辅语音活动检测输出语音结束信号;
在所述预设时长内所述主语音活动检测未输出语音结束信号,且在所述预设时长内所述辅语音活动检测未输出语音结束信号和第二语音开始信号。
可选地,所述处理器410还用于执行以下操作:
当所述待识别音频数据在预设时长内存在目标语音数据的情况下,对所述目标语音数据进行语音识别,获得语音识别结果;
基于所述语音识别结果执行对应的语音交互功能。
可选地,所述语音识别结果包括声纹识别结果和语音内容识别结果,所述处理器410具体用于执行以下操作:
将所述声纹识别结果与预设的声纹信息进行匹配;
在所述声纹识别结果与预设的声纹信息匹配的情况下,基于所述语音内容识别结果执行对应的语音交互功能。
可选地,所述处理器410还用于执行以下操作:
获取当前环境音的声音信息;
根据所述当前环境音的声音信息确定所述预设时长。
可选地,所述处理器410还用于执行以下操作:
获取历史误触发频次;
根据所述历史误触发频次确定所述预设时长。
本申请实施例中由于在基于主语音活动检测输出第一语音开始信号后,进一步判断预设时长内是否存在目标语音数据,从而可以从一定程度上对环境的噪音进行过滤,降低了VAD误触发的概率。此外,本申请实施例无需进行语音唤醒即可实现语音交互,简化了语音交互的操作。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述免唤醒场景下的语音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述免唤醒场景下的语音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种免唤醒场景下的语音检测方法,其特征在于,包括:
获取待识别音频数据;
对所述待识别音频数据进行主语音活动检测;在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
2.根据权利要求1所述的方法,其特征在于,在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据,包括:
在所述主语音活动检测输出第一语音开始信号的情况下,触发辅语音活动检测对音频数据进行检测;
按照预设规则确定在所述预设时长内是否存在目标语音数据;
其中,所述预设规则包括:在满足预设条件的情况下,确定在所述预设时长内不存在目标语音数据,否则,确定在所述预设时长内存在目标语音数据,所述预设条件包括以下至少一项:
在所述预设时长内,所述主语音活动检测输出语音结束信号或者所述辅语音活动检测输出语音结束信号;
在所述预设时长内所述主语音活动检测未输出语音结束信号,且在所述预设时长内所述辅语音活动检测未输出语音结束信号和第二语音开始信号。
3.根据权利要求1所述的方法,其特征在于,在所述确定检测到语音信号之后,所述方法还包括:
对所述目标语音数据进行语音识别,获得语音识别结果;
基于所述语音识别结果执行对应的语音交互功能。
4.根据权利要求3所述的方法,其特征在于,所述语音识别结果包括声纹识别结果和语音内容识别结果,所述基于所述语音识别结果执行对应的语音交互功能包括:
将所述声纹识别结果与预设的声纹信息进行匹配;
在所述声纹识别结果与预设的声纹信息匹配的情况下,基于所述语音内容识别结果执行对应的语音交互功能。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取当前环境音的声音信息;
根据所述当前环境音的声音信息确定所述预设时长。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取历史误触发频次;
根据所述历史误触发频次确定所述预设时长。
7.一种免唤醒场景下的语音检测装置,其特征在于,包括:
获取模块,用于获取待识别音频数据;
检测模块,用于对所述待识别音频数据进行主语音活动检测;
确定模块,用于在所述主语音活动检测输出第一语音开始信号的情况下,确定所述待识别音频数据在预设时长内是否存在目标语音数据;
其中,当所述待识别音频数据在预设时长内存在目标语音数据时,确定检测到语音信号。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
触发单元,用于在所述主语音活动检测输出第一语音开始信号的情况下,触发辅语音活动检测对音频数据进行检测;
确定单元,用于按照预设规则确定在所述预设时长内是否存在目标语音数据;
其中,所述预设规则包括:在满足预设条件的情况下,确定在所述预设时长内不存在目标语音数据,否则,确定在所述预设时长内存在目标语音数据,所述预设条件包括以下至少一项:
在所述预设时长内,所述主语音活动检测输出语音结束信号或者所述辅语音活动检测输出语音结束信号;
在所述预设时长内所述主语音活动检测未输出语音结束信号,且在所述预设时长内所述辅语音活动检测未输出语音结束信号和第二语音开始信号。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的免唤醒场景下的语音检测方法的步骤。
10.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现权利要求1至6中任一项所述的免唤醒场景下的语音检测方法的步骤。
CN202111439706.4A 2021-11-30 2021-11-30 免唤醒场景下的语音检测方法、装置及电子设备 Pending CN114121042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111439706.4A CN114121042A (zh) 2021-11-30 2021-11-30 免唤醒场景下的语音检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111439706.4A CN114121042A (zh) 2021-11-30 2021-11-30 免唤醒场景下的语音检测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114121042A true CN114121042A (zh) 2022-03-01

Family

ID=80368437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111439706.4A Pending CN114121042A (zh) 2021-11-30 2021-11-30 免唤醒场景下的语音检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114121042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024099359A1 (zh) * 2022-11-09 2024-05-16 北京有竹居网络技术有限公司 语音检测的方法和装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024099359A1 (zh) * 2022-11-09 2024-05-16 北京有竹居网络技术有限公司 语音检测的方法和装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108108142A (zh) 语音信息处理方法、装置、终端设备及存储介质
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN103456306A (zh) 用于在电子装置中执行语音命令的方法和设备
CN111884908B (zh) 联系人标识显示方法、装置及电子设备
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN111968635B (zh) 语音识别的方法、装置及存储介质
CN107870674B (zh) 一种程序启动方法和移动终端
CN111063354B (zh) 人机交互方法及装置
CN112700782A (zh) 语音处理方法和电子设备
CN109040444B (zh) 一种通话录音方法、终端及计算机可读存储介质
CN108847243B (zh) 声纹特征更新方法、装置、存储介质及电子设备
CN108763475B (zh) 一种录制方法、录制装置及终端设备
CN111081241A (zh) 设备误唤醒的数据检测方法、装置、移动终端和存储介质
TW201928740A (zh) 關鍵詞確認方法和裝置
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN114121042A (zh) 免唤醒场景下的语音检测方法、装置及电子设备
CN110992953A (zh) 一种语音数据处理方法、装置、***及存储介质
CN112486387A (zh) 应用程序的控制方法及装置
CN108833688B (zh) 位置提醒方法、装置、存储介质及电子设备
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN113936697A (zh) 语音处理方法、装置以及用于语音处理的装置
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
CN107957789B (zh) 一种文本输入方法及移动终端
CN112740321A (zh) 唤醒设备的方法、装置、存储介质及电子设备
CN110706691A (zh) 语音验证方法及装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination