CN109473092A - 一种语音端点检测方法及装置 - Google Patents
一种语音端点检测方法及装置 Download PDFInfo
- Publication number
- CN109473092A CN109473092A CN201811468244.7A CN201811468244A CN109473092A CN 109473092 A CN109473092 A CN 109473092A CN 201811468244 A CN201811468244 A CN 201811468244A CN 109473092 A CN109473092 A CN 109473092A
- Authority
- CN
- China
- Prior art keywords
- frame number
- audio frame
- energy threshold
- detection
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 82
- 230000002618 waking effect Effects 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electric Clocks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音端点检测方法及装置,其中,该方法包括:检测是否接收到唤醒家用电器的唤醒词;根据检测的结果调节能量阈值E0和音频帧数M0;根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点,解决了相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题,提高了语音识别的准确度。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音端点检测方法及装置。
背景技术
语音端点检测是指从连续的一段语音中检测出有效语音段,包括检测有效语音的起始点与结束点。语音端点检测可以提取出语音流中提取用户想要的信息,减小传输与存储过程中的数据量,节省存储空间,提高传输速度。
目前,常用的语音端点检测的方法中,规定音频前面部分连续M0帧的能量值低于事先指定的能量值阈值E0,接下来连续M0帧能量值大于E0,则语音能量值增大的地方为有效语音的前端点。同样的,如果连续的若干帧语音能量值较大,随后的帧能量值变小,并且持续一段时长,则语音能量减小的地方为有效语音的后端点。
虽然该方法能够满足大部分语音起始点与结束点的检测,但在不同的场景下,环境声音大小不同,可能导致语音端点的漏识别与误识别。
针对相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种语音端点检测方法及装置,以至少解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题。
根据本发明的一个实施例,提供了一种语音端点检测方法,包括:
检测是否接收到唤醒家用电器的唤醒词;
根据检测的结果调节能量阈值E0和音频帧数M0;
根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
可选地,根据检测的结果调节能量阈值E0和音频帧数M0包括:
在检测的结果为未接收到唤醒家用电器的唤醒词的情况下,截取当前环境下语音中预定数量的音频帧数;
计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;
确定所述音频帧数M0为第一预设值。
可选地,根据检测的结果调节能量阈值E0和音频帧数M0包括:
在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;
计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
可选地,根据检测的结果调节能量阈值E0和音频帧数M0包括:
在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,调节所述能量阈值E0;
将所述音频帧数M0调节为第二预设值,其中,所述第二预设值小于所述第一预设值。
可选地,调节所述能量阈值E0包括:
将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值,其中,所述预定阈值小于所述第一平均能量值。
根据本发明的另一个实施例,还提供了一种语音端点检测装置,包括:
检测模块,用于检测是否接收到唤醒家用电器的唤醒词;
调节模块,用于根据检测的结果调节能量阈值E0和音频帧数M0;
端点检测模块,用于根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
可选地,所述调节模块包括:
第一截取单元,用于在检测的结果为未接收到唤醒家用电器的唤醒词的情况下,截取当前环境下语音中预定数量的音频帧数;
第一计算单元,用于计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;
第一确定单元,用于确定所述音频帧数M0为第一预设值。
可选地,所述调节模块包括:
第二截取单元,用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;
第二计算单元,用于计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
可选地,所述调节模块包括:
第一调节单元,用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,调节所述能量阈值E0;
第二调节单元,用于将所述音频帧数M0调节为第二预设值,其中,所述第二预设值小于所述第一预设值。
可选地,所述第一调节单元,还用于
将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值,其中,所述预定阈值小于所述第一平均能量值。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,一般家用电器唤醒前环境音较大,在用户的控制下唤醒后环境音会变小,通过在唤醒前后采用不同的能量阈值E0和音频帧数M0来进行语音端点检测,根据不同的环境音大小采用不同灵敏度进行检测,因此,可以解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题,提高了语音识别的准确度,提高了用户体验的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音端点检测方法的移动终端的硬件结构框图;
图2是根据本发明实施例的语音端点检测方法的流程图;
图3是根据本发明实施例的语音端点检测装置的框图;
图4是根据本发明优选实施例的语音端点检测装置的框图一;
图5是根据本发明优选实施例的语音端点检测装置的框图二;
图6是根据本发明优选实施例的语音端点检测装置的框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音端点检测方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本发明实施例通过上述的移动终端扫描二维码或条形码,并在上述的移动终端中绘制家电维护的预约界面,用户在该预约界面主填写维护信息便可生成预约维护单,之后上传到服务器做进一步的处理。
本实施例提供了一种语音端点检测方法,应用于家用电器,与上述的移动终端建立无线连接,图2是根据本发明实施例的语音端点检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,检测是否接收到唤醒家用电器的唤醒词;
步骤S204,根据检测的结果调节能量阈值E0和音频帧数M0;
步骤S206,根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
通过上述步骤,一般家用电器唤醒前环境音较大,在用户的控制下唤醒后环境音会变小,通过在唤醒前后采用不同的能量阈值E0和音频帧数M0来进行语音端点检测,根据不同的环境音大小采用不同灵敏度进行检测,因此,可以解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题,提高了语音识别的准确度,提高了用户体验的效果。
本发明实施例中,针对E0和M0的调节,主要考虑的是家用电器唤醒前后的调节,一般情况下,在家用电器激活前,家用电器所处的环境可能噪音比较大,此时对于语音识别不需要那么灵敏,当用户准备唤醒家用电器时,会刻意控制一下环境噪音,此时需要提高识别的灵敏度,故根据家用电器唤醒前后需要的不同灵敏度的对语音识别,在一个可选的实施例中,在检测的结果为未接收到唤醒家用电器的唤醒词的情况下,根据检测的结果调节能量阈值E0和音频帧数M0具体可以包括:截取当前环境下语音中预定数量的音频帧数;计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;确定所述音频帧数M0为第一预设值。
在另一个可选的实施例中,在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,根据检测的结果调节能量阈值E0和音频帧数M0具体可以包括:截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
另外,在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,根据检测的结果调节能量阈值E0和音频帧数M0还可以是直接调节能力阈值E0和音频帧数M0,可以调节为某一预先设置的值,具体地可以包括:调节所述能量阈值E0;将所述音频帧数M0调节为第二预设值,其中,所述第二预设值小于所述第一预设值。进一步地,调节所述能量阈值E0具体可以包括:将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值,其中,所述预定阈值小于所述第一平均能量值。
针对上述M0与E0的值,提出一种根据场景自适应调节E0、M0的方法。在被唤醒前,设备不需要检测用户语音,可以将端点检测的灵敏度设置的较小,以此达到节能的目的;在语音设备被唤醒后自动提高该灵敏度,避免遗漏用户语音指令,即使用户语音指令很短,也能被准确检测到。提高语音端点检测的准确性,也达到节能的作用。
本发明实施例中,通过分贝检测仪检测当前环境声音分贝大小来确定能量值阈值E0,灵敏度调节模型用于计算能量值阈值E0与端点检测灵敏度M0的值。根据场景当前声音分贝值设定E0,根据设备是否被唤醒调节M0,以此提高有效语音端点检测的准确性。
在语音设备被唤醒前,利用麦克风采集房间中当前的音频声音,截取一定数量的音频帧数,计算其平均能量值,以此作为能量值阈值E0。确定E0后,还需确定M0。由于用户没有语音控制设备的打算,房间中的声音分贝可能较大,比如多人对话的声音,电视、电脑上传出来的音频的声音。故需要将语音端点检测的灵敏度调小,增大M0,提高语音端点检测的要求,即需要一段较长的连续的M0帧音频的能量由低于E0转变为高于E0,该转折点才能作为有效语音段的前端点,要求一段较长的连续的M0音频的能量由高于E0转变为低于E0,该转折点才能作为有效语音段的后端点。
在语音设备被唤醒后,因为用户此时有语音控制设备的打算,故用户可能会刻意减小房间中其他的声音,设备唤醒前计算的E0可能并不适用。此时,将用户下达唤醒词后到用户等待设备唤醒反馈(反馈信息可以是灯光或者语音)的这段时间中房间的环境声音作为E0计算的样本,计算其平均能量值更新E0。并且由于房间相对安静,可将语音端点检测的灵敏度调高,减小M0,减小语音端点检测的要求,即要求满足端点检测条件的M0帧音频的长度不需要很长,这样,即使用户下达的语音指令很短,语速很快,也能准确检测出语音指令的端点。
例如,在语音唤醒前,M0的值为1000ms,语音唤醒后,M0的值为500ms。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种语音端点检测装置,应用于家用电器,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的语音端点检测装置的框图,如图3所示,包括:
检测模块32,用于检测是否接收到唤醒家用电器的唤醒词;
调节模块34,用于根据检测的结果调节能量阈值E0和音频帧数M0;
端点检测模块36,用于根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
图4是根据本发明优选实施例的语音端点检测装置的框图一,如图4所示,所述调节模块34包括:
第一截取单元42,用于在检测的结果为未接收到唤醒家用电器的唤醒词的情况下,截取当前环境下语音中预定数量的音频帧数;
第一计算单元44,用于计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;
第一确定单元46,用于确定所述音频帧数M0为第一预设值。
图5是根据本发明优选实施例的语音端点检测装置的框图二,如图5所示,所述调节模块34包括:
第二截取单元52,用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;
第二计算单元54,用于计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
图6是根据本发明优选实施例的语音端点检测装置的框图三,如图6所示,所述调节模块34包括:
第一调节单元62,用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,调节所述能量阈值E0;
第二调节单元64,用于将所述音频帧数M0调节为第二预设值,其中,所述第二预设值小于所述第一预设值。
可选地,所述第一调节单元62,还用于
将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值,其中,所述预定阈值小于所述第一平均能量值。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,检测是否接收到唤醒家用电器的唤醒词;
S12,根据检测的结果调节能量阈值E0和音频帧数M0;
S13,根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,检测是否接收到唤醒家用电器的唤醒词;
S12,根据检测的结果调节能量阈值E0和音频帧数M0;
S13,根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音端点检测方法,其特征在于,包括:
检测是否接收到唤醒家用电器的唤醒词;
根据检测的结果调节能量阈值E0和音频帧数M0;
根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括:
在所述检测的结果为未接收到唤醒家用电器的唤醒词的情况下,截取当前环境下语音中预定数量的音频帧数;
计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;
确定所述音频帧数M0为第一预设值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括:
在所述检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;
计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
4.根据权利要求2所述的方法,其特征在于,所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括:
在所述检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,调节所述能量阈值E0;
将所述音频帧数M0调节为第二预设值,其中,所述第二预设值小于所述第一预设值。
5.根据权利要求4所述的方法,其特征在于,所述调节所述能量阈值E0包括:
将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值,其中,所述预定阈值小于所述第一平均能量值。
6.一种语音端点检测装置,其特征在于,应用于家用电器,包括:
检测模块,用于检测是否接收到唤醒家用电器的唤醒词;
调节模块,用于根据检测的结果调节能量阈值E0和音频帧数M0;
端点检测模块,用于根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测,其中,所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0,且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点;所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0,且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。
7.根据权利要求6所述的装置,其特征在于,所述调节模块包括:
第一截取单元,用于在检测的结果为未接收到唤醒家用电器的唤醒词的情况下,截取当前环境下语音中预定数量的音频帧数;
第一计算单元,用于计算所述预定数量的音频帧数的第一平均能量值,将所述第一平均能量值确定为所述能量值阈值E0;
第一确定单元,用于确定所述音频帧数M0为第一预设值。
8.根据权利要求7所述的装置,其特征在于,所述调节模块包括:
第二截取单元,用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下,截取当前环境下语音中所述预定数量的音频帧数,其中,所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音;
第二计算单元,用于计算所述预定数量的音频帧数的第二平均能量值,根据所述第二平均能量值更新所述能量阈值E0。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811468244.7A CN109473092B (zh) | 2018-12-03 | 2018-12-03 | 一种语音端点检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811468244.7A CN109473092B (zh) | 2018-12-03 | 2018-12-03 | 一种语音端点检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109473092A true CN109473092A (zh) | 2019-03-15 |
CN109473092B CN109473092B (zh) | 2021-11-16 |
Family
ID=65674878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811468244.7A Active CN109473092B (zh) | 2018-12-03 | 2018-12-03 | 一种语音端点检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473092B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136752A (zh) * | 2019-06-04 | 2019-08-16 | 广州酷狗计算机科技有限公司 | 音频处理的方法、装置、终端及计算机可读存储介质 |
CN110600060A (zh) * | 2019-09-27 | 2019-12-20 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad*** |
CN111128155A (zh) * | 2019-12-05 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111540342A (zh) * | 2020-04-16 | 2020-08-14 | 浙江大华技术股份有限公司 | 一种能量阈值调整方法、装置、设备及介质 |
CN111816217A (zh) * | 2020-07-02 | 2020-10-23 | 南京奥拓电子科技有限公司 | 一种自适应端点检测的语音识别方法与***、智能设备 |
CN111968680A (zh) * | 2020-08-14 | 2020-11-20 | 北京小米松果电子有限公司 | 一种语音处理方法、装置及存储介质 |
CN112420079A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
CN112863542A (zh) * | 2021-01-29 | 2021-05-28 | 青岛海尔科技有限公司 | 语音检测方法和装置、存储介质及电子设备 |
CN113314153A (zh) * | 2021-06-22 | 2021-08-27 | 北京华捷艾米科技有限公司 | 语音端点检测的方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140249812A1 (en) * | 2013-03-04 | 2014-09-04 | Conexant Systems, Inc. | Robust speech boundary detection system and method |
CN105261368A (zh) * | 2015-08-31 | 2016-01-20 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN107527630A (zh) * | 2017-09-22 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN107731223A (zh) * | 2017-11-22 | 2018-02-23 | 腾讯科技(深圳)有限公司 | 语音活性检测方法、相关装置和设备 |
CN108648769A (zh) * | 2018-04-20 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音活性检测方法、装置及设备 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
-
2018
- 2018-12-03 CN CN201811468244.7A patent/CN109473092B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140249812A1 (en) * | 2013-03-04 | 2014-09-04 | Conexant Systems, Inc. | Robust speech boundary detection system and method |
CN105261368A (zh) * | 2015-08-31 | 2016-01-20 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN107527630A (zh) * | 2017-09-22 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN107731223A (zh) * | 2017-11-22 | 2018-02-23 | 腾讯科技(深圳)有限公司 | 语音活性检测方法、相关装置和设备 |
CN108648769A (zh) * | 2018-04-20 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音活性检测方法、装置及设备 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136752A (zh) * | 2019-06-04 | 2019-08-16 | 广州酷狗计算机科技有限公司 | 音频处理的方法、装置、终端及计算机可读存储介质 |
CN110600060A (zh) * | 2019-09-27 | 2019-12-20 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad*** |
CN110600060B (zh) * | 2019-09-27 | 2021-10-22 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad*** |
CN111128155B (zh) * | 2019-12-05 | 2020-12-01 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111128155A (zh) * | 2019-12-05 | 2020-05-08 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111540342A (zh) * | 2020-04-16 | 2020-08-14 | 浙江大华技术股份有限公司 | 一种能量阈值调整方法、装置、设备及介质 |
CN111540342B (zh) * | 2020-04-16 | 2022-07-19 | 浙江大华技术股份有限公司 | 一种能量阈值调整方法、装置、设备及介质 |
CN111816217A (zh) * | 2020-07-02 | 2020-10-23 | 南京奥拓电子科技有限公司 | 一种自适应端点检测的语音识别方法与***、智能设备 |
CN111816217B (zh) * | 2020-07-02 | 2024-02-09 | 南京奥拓电子科技有限公司 | 一种自适应端点检测的语音识别方法与***、智能设备 |
CN111968680A (zh) * | 2020-08-14 | 2020-11-20 | 北京小米松果电子有限公司 | 一种语音处理方法、装置及存储介质 |
CN112420079A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
CN112420079B (zh) * | 2020-11-18 | 2022-12-06 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
CN112863542A (zh) * | 2021-01-29 | 2021-05-28 | 青岛海尔科技有限公司 | 语音检测方法和装置、存储介质及电子设备 |
CN113314153A (zh) * | 2021-06-22 | 2021-08-27 | 北京华捷艾米科技有限公司 | 语音端点检测的方法、装置、设备和存储介质 |
CN113314153B (zh) * | 2021-06-22 | 2023-09-01 | 北京华捷艾米科技有限公司 | 语音端点检测的方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109473092B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473092A (zh) | 一种语音端点检测方法及装置 | |
EP3340243B1 (en) | Method for performing voice control on device with microphone array, and device thereof | |
CN107452386B (zh) | 一种语音数据处理方法和*** | |
CN104954555B (zh) | 一种音量调节方法及*** | |
WO2020042993A1 (zh) | 语音控制方法、装置及*** | |
CN107388487B (zh) | 控制空调的方法和装置 | |
CN109360564A (zh) | 语言识别模式的选择方法及装置、家用电器 | |
CN108335700B (zh) | 语音调节方法、装置、语音交互设备及存储介质 | |
CN110336723A (zh) | 智能家电的控制方法及装置、智能家电设备 | |
US20190228770A1 (en) | Voice control method, device, and computer storage medium | |
CN105554283A (zh) | 一种信息处理方法及电子设备 | |
CN107148072B (zh) | 一种智能终端应用的目标资源参数的获取方法及*** | |
CN109147802A (zh) | 一种播放语速调节方法及装置 | |
CN109377991A (zh) | 一种智能设备控制方法及装置 | |
CN110364156A (zh) | 语音交互方法、***、终端及可读存储介质 | |
CN110875045A (zh) | 一种语音识别方法、智能设备和智能电视 | |
CN109150675A (zh) | 一种家用电器的交互方法及装置 | |
CN111833863A (zh) | 语音控制***、方法和装置以及计算设备和存储介质 | |
CN106254648B (zh) | 调节移动设备音量的方法、装置和移动设备 | |
CN111681675B (zh) | 数据动态传输方法、装置、设备和存储介质 | |
CN103916511B (zh) | 信息处理的方法及电子设备 | |
CN107395873B (zh) | 音量调节方法、装置、存储介质及终端 | |
CN113593548A (zh) | 智能设备的唤醒方法和装置、存储介质及电子装置 | |
CN109448710A (zh) | 语音处理方法及装置、家电设备、存储介质电子装置 | |
CN108922522A (zh) | 设备的控制方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |