CN112435691B - 在线语音端点检测后处理方法、装置、设备及存储介质 - Google Patents
在线语音端点检测后处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112435691B CN112435691B CN202011083235.3A CN202011083235A CN112435691B CN 112435691 B CN112435691 B CN 112435691B CN 202011083235 A CN202011083235 A CN 202011083235A CN 112435691 B CN112435691 B CN 112435691B
- Authority
- CN
- China
- Prior art keywords
- audio frame
- voice
- current audio
- door
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000012805 post-processing Methods 0.000 title claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明适用于音频处理技术领域,提供了一种在线语音端点检测后处理方法、装置、设备及存储介质,该方法包括:获取当前音频帧的上一音频帧的门状态,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态,根据当前音频帧的门状态确定当前音频帧的音频帧类型,从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,提高了语音/非语音判断的准确性,进而提高了语音识别的性能。
Description
技术领域
本发明属于音频处理技术领域,尤其涉及一种在线语音端点检测后处理方法、装置、设备及存储介质。
背景技术
语音端点检测(Voice Activity Detection,VAD),从应用场景上可以分为离线VAD和在线VAD两种,离线VAD其主要任务是从带有噪声的语音中准确定位出语音的开始点和结束点,在进行判断之前已经拥有全部语音信息,而在线VAD其主要任务是判断当前时刻输出的是语音部分还是非语音部分,有较高的实时性要求。
为了能够更好地区分语音和非语音部分,近年来提出了许多基于深度神经网络的VAD算法,主流的有CRNN,即CNN(卷积神经网络)+RNN(循环神经网络)+DNN(深度神经网络)网络结构,或者CLDNN,即CNN+LSTM(长期短期记忆网络)+DNN网络结构,将语音和非语音的判断当成一个二分类问题。统一的思想就首先用CNN网络进行特征提取,区别于图像,语音信号是有时序的序列,用RNN/LSTM/GRU(门控循环单元)对语音序列进行建模,后接DNN经过softmax进行最终的输出,但模型的输出结果会存在语音帧/非语音帧误判的情况,进而导致语音识别性能的降低。
发明内容
本发明的目的在于提供一种在线语音端点检测后处理方法、装置、设备及存储介质,旨在解决现有技术中由于语音帧/非语音帧误判导致的语音识别性能低的问题。
一方面,本发明提供一种在线语音端点检测后处理方法,所述方法包括下述步骤:
获取当前音频帧的上一音频帧的门状态;
根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态;
根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型。
优选地,所述根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态的步骤,还包括:
若所述上一音频帧的门状态为开门状态,则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较,其中,所述第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值;
若所述第一语音概率平均值大于或等于所述第一语音概率平均阈值,则判定所述当前音频帧的门状态为开门状态。
优选地,所述将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较的步骤之后,还包括:
若所述第一语音概率平均值小于所述第一语音概率平均阈值,则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较,其中,所述第二语音概率平均值用于表示所述当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值,所述第二预设语音长度小于所述第一预设语音长度;
若所述第二语音概率平均值大于或等于所述第二语音概率平均阈值,则判定所述当前音频帧的门状态为开门状态。
优选地,所述将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较的步骤之后,还包括:
若所述第二语音概率平均值小于所述第二语音概率平均阈值,则将获取到的所述当前音频帧的语音概率值与第三语音概率平均值进行比较,其中,所述第三语音概率平均值用于表示所述当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值;
若所述当前音频帧的语音概率值大于或等于所述第三语音概率平均值,则判定所述当前音频帧的门状态为开门状态。
优选地,所述将所述当前音频帧的语音概率值与第三语音概率平均值进行比较的步骤之后,还包括:
若所述当前音频帧的语音概率值小于所述第三语音概率平均值,则判断当前音频帧是否为初始音频帧;
若为初始音频帧,则判定所述当前音频帧的门状态为开门状态;
若不为初始音频帧,则判定所述当前音频帧的门状态为关门状态。
优选地,所述根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态的步骤,还包括:
若所述上一音频帧的门状态为关门状态,则将所述当前音频帧的语音概率值与预设的语音概率阈值进行比较;
若所述当前音频帧的语音概率值大于或等于所述语音概率阈值,则判定所述当前音频帧的门状态为开门状态;
若所述当前音频帧的语音概率值小于所述语音概率阈值,则判定所述当前音频帧的门状态为关门状态。
优选地,所述根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型的步骤,包括:
若所述当前音频帧的门状态为开门状态,则确定所述当前音频帧为语音帧;
若所述当前音频帧的门状态为关门状态,则确定所述当前音频帧为非语音帧。
另一方面,本发明提供了一种在线语音端点检测后处理装置,所述装置包括:
门状态获取单元,用于获取当前音频帧的上一音频帧的门状态;
门状态判断单元,用于根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态;以及
音频帧类型确定单元,用于根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型。
另一方面,本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明获取当前音频帧的上一音频帧的门状态,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态,根据当前音频帧的门状态确定当前音频帧的音频帧类型,从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,提高了语音/非语音判断的准确性,进而提高了语音识别的性能。
附图说明
图1是本发明实施例一提供的在线语音端点检测后处理方法的实现流程图;
图2是本发明实施例二提供的当前音频帧的门状态判断方法的流程示例图;
图3是本发明实施例三提供的在线语音端点检测后处理装置的结构示意图;以及
图4是本发明实施例四提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的在线语音端点检测后处理方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,获取当前音频帧的上一音频帧的门状态。
本发明实施例适用于在线语音端点检测,具体可应用于手机、手环、平板电脑、便携计算机、桌上型计算机等具有运算功能的电子设备。本发明将语音端点检测分为三部分,即前处理部分、模型部分和后处理部分,其中,前处理部分用于提取音频特征,提取的音频特征作为模型的输入,该部分通常包含加窗、分帧、STFT(短时傅里叶变换)等,模型部分用于预测并输出当前音频帧属于语音帧的概率值,该模型的输入一般为N帧M维的梅尔频谱,N帧对应的buffer(缓冲寄存器)缓冲(例如,200ms)的音频数据,M一般取40或64,后处理部分即本实施例所描述的方法。考虑到在线端点检测检测要求输出结果相对输入延迟控制在200ms(结合buffer的大小)以内,即实时性要求较高,因此,本方法将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,并结合当前音频帧的语音概率值、以及当前音频帧之前的音频帧的语音概率值和门状态等多维度因素进行综合判断,提高了语音识别的性能。其中,该门状态包括开门状态和关门状态,具体实现中,门状态可用0、1表示。
在步骤S102中,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态。
在本发明实施例中,对于采用语音输入进行聊天等场景,考虑到当说话人长时间说话时,语音段之间会存在短暂的停顿,从而优选地,在根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态时,若上一音频帧的门状态为开门状态,则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较,若第一语音概率平均值大于或等于第一语音概率平均阈值,则判定当前音频帧的门状态为开门状态,此时,门状态无需进行转换,继续保持开门状态,以保证说话人语音片段的连贯性和完整性。其中,语音概率值通常是指音频帧被预测为语音帧的概率值,该语音概率值通常由神经网络预测得到,例如,CRNN网络或CLDNN网络;第一语音概率平均阈值可根据实际语音环境灵活设置;第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值。
对于语音唤醒等场景,考虑到说话人说的时间通常较短,从而优选地,在将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较之后,若第一语音概率平均值小于第一语音概率平均阈值,则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较,若第二语音概率平均值大于或等于第二语音概率平均阈值,则判定当前音频帧的门状态为开门状态,此时,继续保持开门状态,从而进一步降低了对音频帧的误判率。其中,第二语音概率平均值用于表示当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值,第二预设语音长度小于第一预设语音长度。
在这里需要指出的是,第一预设语音长度和第二预设语音长度可根据实际应用场景的经验值确定。
考虑到在不同环境中,不同人说话时音频帧被预测为语音帧的概率值并不固定,例如,在安静环境下,被预测为语音帧的概率值总体偏高,在环境比较复杂尤其是信噪比比较低时,被预测为语音帧的概率值总体偏低,从而优选地,在将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较之后,若第二语音概率平均值小于第二语音概率平均阈值,则将获取到的当前音频帧的语音概率值与第三语音概率平均值进行比较,若当前音频帧的语音概率值大于或等于第三语音概率平均值,则判定当前音频帧的门状态为开门状态,以在信噪比较低时,提高判断结果的准确性,进而提高了低信噪比环境下语音识别的性能。其中,第三语音概率平均值用于表示当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值。在这里需要说明的是,若当前音频帧之前的门状态为关门状态,则表示当前音频帧之前无连续音频帧,第三语音概率平均值为零。
考虑到***刚刚开启时,获得语音信息较少,该方法获取的门状态可能不太稳定,从而优选地,在将语音概率值与第三语音概率平均值进行比较之后,若当前音频帧的语音概率值小于第三语音概率平均值,则判断当前音频帧是否为初始音频帧,若为初始音频帧,则判定当前音频帧的门状态为开门状态,若不为初始音频帧,则判定当前音频帧的门状态为关门状态,此时,将门状态由开门状态转换为关门状态,从而提高了语音/非语音判断结果的准确性,进而提高了语音识别的性能。
当前一音频帧的门状态为关门状态时,为了在不漏掉语音帧的情况下,尽可能将非语音帧进行过滤,从而优选地,在根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态时,若上一音频帧的门状态为关门状态,则将当前音频帧的语音概率值与预设的语音概率阈值进行比较,若当前音频帧的语音概率值大于或等于语音概率阈值,则判定当前音频帧的门状态为开门状态,此时,将门状态由关门状态转换为开门状态,若当前音频帧的语音概率值小于语音概率阈值,则判定当前音频帧的门状态为关门状态,此时,保持门状态为关门状态不变,从而简化了语音/非语音判断过程,提高了语音识别的性能。
当然,在实际应用中,该语音概率值也可以是音频帧被预测为非语音帧的概率值,相应地,各比较参数及具体的门状态的判断方式需进行相应地调整,但其基本判断方法与本实施例中描述的方法实质相同。
在步骤S103中,根据当前音频帧的门状态确定当前音频帧的音频帧类型。
在本发明实施例中,不同的门状态可表示音频帧的不同数据类型,具体可根据实际需要进行设定。本发明实施例中的音频帧类型包括语音帧和非语音帧,开门状态表示当前音频帧的音频帧类型为语音帧,关门状态表示表示当前音频帧的音频帧类型为非语音帧,从而优选地,若当前音频帧的门状态为开门状态,则确定当前音频帧为语音帧,若当前音频帧的门状态为关门状态,则确定当前音频帧为非语音帧,从而降低了语音/非语音的误判率,进而提高了语音识别的性能。
在本发明实施例中,获取当前音频帧的上一音频帧的门状态,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态,根据当前音频帧的门状态确定当前音频帧的音频帧类型,从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,降低了语音/非语音的误判率,进而提高了语音识别的性能。
实施例二:
图2示出了本发明实施例二提供的当前音频帧的门状态判断方法的流程示例图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
图2中用door_state表示当前音频帧的门状态,用last_state表示当前音频帧的前一音频帧的门状态,其中,1表示开门状态,0表示关门状态;第一语音概率平均值用S1表示,第一语音概率平均阈值用T1表示;第二语音概率平均值用S2表示,第二语音概率平均阈值用T2表示,第三语音概率平均值用S3表示;当前音频帧的语音概率值用label表示,语音概率阈值用thred表示;当前音频帧与初始音频帧之间的关系用begin_flag表示,其中,begin_flag=1表示当前音频帧为初始音频帧,begin_flag=0表示当前音频帧为非初始音频帧。
在步骤S201中,判断当前音频帧的前一音频帧的门状态是否为关门状态,若否,则执行S202,若是,则执行S206;
在步骤S202中,判断第一语音概率平均值是否大于或等于第一语音概率平均阈值,若否,则执行S203,若是,则执行S207;
在步骤S203中,判断第二语音概率平均值是否大于或等于第二语音概率平均阈值,若否,则执行S204,若是,则执行S207;
在步骤S204中,判断当前音频帧的语音概率值是否大于或等于第三语音概率平均值,若否,则执行S205,若是,则执行S207;
在步骤S205中,判断当前音频帧是否为初始音频帧,若否,则执行步骤S208,若是,则执行步骤S207;
在步骤S206中,判断当前音频帧的语音概率值是否大于或等于预设的语音概率阈值,若否,则执行步骤S208,若是,则执行步骤S207
在步骤S207中,确定当前音频帧的门状态为开门状态;
在步骤S208中,确定当前音频帧的门状态为关门状态。
实施例三:
图3示出了本发明实施例三提供的在线语音端点检测后处理装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
门状态获取单元31,用于获取当前音频帧的上一音频帧的门状态;
门状态判断单元32,用于根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态;以及
帧类型确定单元33,用于根据当前音频帧的门状态确定当前音频帧的音频帧类型。
优选地,该装置还包括:
第一比较单元,用于若上一音频帧的门状态为开门状态,则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较,其中,第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值;以及
第一状态确定单元,用于若第一语音概率平均值大于或等于第一语音概率平均阈值,则判定当前音频帧的门状态为开门状态。
优选地,该装置还包括:
第二比较单元,用于若第一语音概率平均值小于第一语音概率平均阈值,则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较,其中,第二语音概率平均值用于表示当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值,第二预设语音长度小于第一预设语音长度;以及
第二状态确定单元,用于若第二语音概率平均值大于或等于第二语音概率平均阈值,则判定当前音频帧的门状态为开门状态。
优选地,该装置还包括:
第三比较单元,用于若第二语音概率平均值小于第二语音概率平均阈值,则将获取到的当前音频帧的语音概率值与第三语音概率平均值进行比较,其中,第三语音概率平均值用于表示当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值;以及
第三状态确定单元,用于若当前音频帧的语音概率值大于或等于第三语音概率平均值,则判定当前音频帧的门状态为开门状态。
优选地,该装置还包括:
第四比较单元,用于若当前音频帧的语音概率值小于第三语音概率平均值,则判断当前音频帧是否为初始音频帧;以及
第四状态确定单元,用于若为初始音频帧,则判定当前音频帧的门状态为开门状态;
第五状态确定单元,用于若不为初始音频帧,则判定当前音频帧的门状态为关门状态。
优选地,该装置还包括:
第五比较单元,用于若上一音频帧的门状态为关门状态,则将当前音频帧的语音概率值与预设的语音概率阈值进行比较;以及
第六状态确定单元,用于若当前音频帧的语音概率值大于或等于语音概率阈值,则判定当前音频帧的门状态为开门状态;
第七状态确定单元,用于若当前音频帧的语音概率值小于语音概率阈值,则判定当前音频帧的门状态为关门状态。
优选地,帧类型确定单元包括:
第一确定子单元,用于若当前音频帧的门状态为开门状态,则确定当前音频帧为语音帧;以及
第二确定子单元,用于若当前音频帧的门状态为关门状态,则确定当前音频帧为非语音帧。
在本发明实施例中,在线语音端点检测后处理装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。在线语音端点检测后处理装置的各单元的具体实施方式可参考前述方法实施例的描述,在此不再赘述。
实施例四:
图4示出了本发明实施例四提供的电子设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的电子设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,处理器40执行计算机程序42时实现上述各装置实施例中各单元的功能,例如图3所示单元31至33的功能。
在本发明实施例中,获取当前音频帧的上一音频帧的门状态,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态,根据当前音频帧的门状态确定当前音频帧的音频帧类型,从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,降低了语音/非语音的误判率,进而提高了语音识别的性能。
实施例五:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S103。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图3所示单元31至33的功能。
在本发明实施例中,获取当前音频帧的上一音频帧的门状态,根据与上一音频帧的门状态匹配的门状态判断方式,判断当前音频帧的门状态,根据当前音频帧的门状态确定当前音频帧的音频帧类型,从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断,降低了语音/非语音的误判率,进而提高了语音识别的性能。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种在线语音端点检测后处理方法,其特征在于,所述方法包括下述步骤:
获取当前音频帧的上一音频帧的门状态;
根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态;
根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型;
所述根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态的步骤,包括:
若所述上一音频帧的门状态为开门状态,则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较,其中,所述第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值;
若所述第一语音概率平均值小于所述第一语音概率平均阈值,则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较,其中,所述第二语音概率平均值用于表示所述当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值,所述第二预设语音长度小于所述第一预设语音长度;
若所述第二语音概率平均值小于所述第二语音概率平均阈值,则将获取到的所述当前音频帧的语音概率值与第三语音概率平均值进行比较,其中,所述第三语音概率平均值用于表示所述当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值;
若所述当前音频帧的语音概率值大于或等于所述第三语音概率平均值,则判定所述当前音频帧的门状态为开门状态。
2.如权利要求1所述的方法,其特征在于,还包括:
若所述第一语音概率平均值大于或等于所述第一语音概率平均阈值,则判定所述当前音频帧的门状态为开门状态。
3.如权利要求1所述的方法,其特征在于,还包括:
若所述第二语音概率平均值大于或等于所述第二语音概率平均阈值,则判定所述当前音频帧的门状态为开门状态。
4.如权利要求1所述的方法,其特征在于,还包括:
若所述当前音频帧的语音概率值小于所述第三语音概率平均值,则判断当前音频帧是否为初始音频帧;
若为初始音频帧,则判定所述当前音频帧的门状态为开门状态;
若不为初始音频帧,则判定所述当前音频帧的门状态为关门状态。
5.如权利要求1所述的方法,其特征在于,所述根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态的步骤,还包括:
若所述上一音频帧的门状态为关门状态,则将所述当前音频帧的语音概率值与预设的语音概率阈值进行比较;
若所述当前音频帧的语音概率值大于或等于所述语音概率阈值,则判定所述当前音频帧的门状态为开门状态;
若所述当前音频帧的语音概率值小于所述语音概率阈值,则判定所述当前音频帧的门状态为关门状态。
6.如权利要求1所述的方法,其特征在于,所述根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型的步骤,包括:
若所述当前音频帧的门状态为开门状态,则确定所述当前音频帧为语音帧;
若所述当前音频帧的门状态为关门状态,则确定所述当前音频帧为非语音帧。
7.一种在线语音端点检测后处理装置,其特征在于,所述装置包括:
门状态获取单元,用于获取当前音频帧的上一音频帧的门状态;
门状态判断单元,用于根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态;以及
帧类型确定单元,用于根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型;
所述门状态判断单元在根据与所述上一音频帧的门状态匹配的门状态判断方式,判断所述当前音频帧的门状态时,包括:
若所述上一音频帧的门状态为开门状态,则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较,其中,所述第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值;
若所述第一语音概率平均值小于所述第一语音概率平均阈值,则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较,其中,所述第二语音概率平均值用于表示所述当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值,所述第二预设语音长度小于所述第一预设语音长度;
若所述第二语音概率平均值小于所述第二语音概率平均阈值,则将获取到的所述当前音频帧的语音概率值与第三语音概率平均值进行比较,其中,所述第三语音概率平均值用于表示所述当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值;
若所述当前音频帧的语音概率值大于或等于所述第三语音概率平均值,则判定所述当前音频帧的门状态为开门状态。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083235.3A CN112435691B (zh) | 2020-10-12 | 2020-10-12 | 在线语音端点检测后处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083235.3A CN112435691B (zh) | 2020-10-12 | 2020-10-12 | 在线语音端点检测后处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112435691A CN112435691A (zh) | 2021-03-02 |
CN112435691B true CN112435691B (zh) | 2024-03-12 |
Family
ID=74690571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011083235.3A Active CN112435691B (zh) | 2020-10-12 | 2020-10-12 | 在线语音端点检测后处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112435691B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421595B (zh) * | 2021-08-25 | 2021-11-09 | 成都启英泰伦科技有限公司 | 一种利用神经网络的语音活性检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
CN108766418A (zh) * | 2018-05-24 | 2018-11-06 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN109935241A (zh) * | 2017-12-18 | 2019-06-25 | 上海智臻智能网络科技股份有限公司 | 语音信息处理方法 |
WO2019149108A1 (zh) * | 2018-01-31 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法、装置、计算机可读存储介质及计算机设备 |
CN110634507A (zh) * | 2018-06-06 | 2019-12-31 | 英特尔公司 | 用于语音唤醒的音频的语音分类 |
CN110648687A (zh) * | 2019-09-26 | 2020-01-03 | 广州三人行壹佰教育科技有限公司 | 一种活动语音检测方法及*** |
CN110827858A (zh) * | 2019-11-26 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473412B (zh) * | 2009-07-21 | 2014-06-11 | 日本电信电话株式会社 | 语音信号区间估计装置与方法 |
-
2020
- 2020-10-12 CN CN202011083235.3A patent/CN112435691B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
CN109935241A (zh) * | 2017-12-18 | 2019-06-25 | 上海智臻智能网络科技股份有限公司 | 语音信息处理方法 |
WO2019149108A1 (zh) * | 2018-01-31 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法、装置、计算机可读存储介质及计算机设备 |
CN108766418A (zh) * | 2018-05-24 | 2018-11-06 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
CN110634507A (zh) * | 2018-06-06 | 2019-12-31 | 英特尔公司 | 用于语音唤醒的音频的语音分类 |
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN110648687A (zh) * | 2019-09-26 | 2020-01-03 | 广州三人行壹佰教育科技有限公司 | 一种活动语音检测方法及*** |
CN110827858A (zh) * | 2019-11-26 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及*** |
Non-Patent Citations (2)
Title |
---|
Voice Activity Detection Using Novel Teager Energy Based Band Spectral Entropy;Hegde, R.;<2019 International Conference on Communication and Electronics Systems (ICCES)>;全文 * |
基于ACAM和传统分类模型的语音端点检测研究;张敏;《中国优秀硕士学位论文全文数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112435691A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694679B2 (en) | Wakeword detection | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection | |
US9202462B2 (en) | Key phrase detection | |
EP2994910B1 (en) | Method and apparatus for detecting a target keyword | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
US11676625B2 (en) | Unified endpointer using multitask and multidomain learning | |
CN111916061B (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US11514900B1 (en) | Wakeword detection | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
CN116601598A (zh) | 基于检测序列的热门短语触发 | |
CN112435691B (zh) | 在线语音端点检测后处理方法、装置、设备及存储介质 | |
US20210065689A1 (en) | Trigger to keyword spotting system (kws) | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN113330513A (zh) | 语音信息处理方法及设备 | |
US20230223014A1 (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Properties | |
WO2020073839A1 (zh) | 语音唤醒方法、装置、***及电子设备 | |
WO2021146857A1 (zh) | 音频处理方法及装置 | |
US11195545B2 (en) | Method and apparatus for detecting an end of an utterance | |
CN115910114A (zh) | 用于语音检测的方法、装置、设备和存储介质 | |
CN114550721A (zh) | 用户交谈状态的检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |