CN107331386B - 音频信号的端点检测方法、装置、处理***及计算机设备 - Google Patents

音频信号的端点检测方法、装置、处理***及计算机设备 Download PDF

Info

Publication number
CN107331386B
CN107331386B CN201710493677.7A CN201710493677A CN107331386B CN 107331386 B CN107331386 B CN 107331386B CN 201710493677 A CN201710493677 A CN 201710493677A CN 107331386 B CN107331386 B CN 107331386B
Authority
CN
China
Prior art keywords
audio signal
detected
endpoint detection
endpoint
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710493677.7A
Other languages
English (en)
Other versions
CN107331386A (zh
Inventor
余世经
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN201710493677.7A priority Critical patent/CN107331386B/zh
Publication of CN107331386A publication Critical patent/CN107331386A/zh
Application granted granted Critical
Publication of CN107331386B publication Critical patent/CN107331386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了音频信号的端点检测方法、装置、处理***及计算机设备。该方法包括:基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定待检测音频信号的端点检测判定参数;基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定检测结果标识数组的端点检测标记值之和,根据端点检测判定参数及端点检测标记值之和,确定待检测音频信号的端点检测结果。利用该方法,能够在低信噪比的条件下依旧保持端点检测的高准确率,且噪声环境的变化并不影响本技术方案端点检测的准确度,更好地增强了语音端点检测随噪声环境变化时的鲁棒性。

Description

音频信号的端点检测方法、装置、处理***及计算机设备
技术领域
本发明涉及音频信号处理技术领域,尤其涉及音频信号的端点检测方法、装置、处理***及计算机设备。
背景技术
语音端点检测(Voice Active Detection,VAD)是音频编码、音频识别以及音频增强等音频信号处理中的一个重要环节,它通常作为一种音频信号处理的预处理模块,能够将输入的音频信号划分为语音段和非语音段,后续可对语音段或非语音段进行区别性处理,从而达到音频信号处理的目标效果。
一般地,VAD的性能容易受到环境噪声的影响,在信噪比越低的环境下,语音端点检测也就越不准确。目前工程中常用的VAD算法,如基于短时能量和过零率的“双门限”的VAD算法,其性能会随着信噪比的下降而明显降低,在低信噪比(小于5dB)的环境下会基本上失去应用价值,另外,其针对噪声强度、噪声类型等声学场景的变化缺少鲁棒性,算法参数往往需要根据环境的变化进行训练和调节。
近年来出现的一些新的VAD算法,如基于谱熵的VAD算法,基于小波变换的VAD算法等,在抗噪性能和鲁棒性方面都有所提高,但计算较为复杂,目前工程实际中应用的并不多。目前比较有代表性的VAD算法是由ITU-T的G.729Annex B提出的,该算法利用音频信号的短时平稳性,将待检测的音频信号以“帧”为单位分成若干段(每10~30ms长的数据为一帧,音频信号在该时间段范围内可被认为是平稳信号),最终返回音频信号帧为语音信号帧或非语音信号帧的检测结果。具体地,G.729Annex B的VAD算法主要分为两步进行:第一步,待检测的一帧音频信号中提取4个特征参数,分别是:线谱频率LSF,过零率ZC,全带宽信号能量Ef,低频带信号能量Ei,然后用这些特征参数和各参数的门限阈值比较,做出初步的VAD判决Ivd;第二步,对初步判决结果进行平滑处理,得到平滑后的判决结果Svd。平滑后的判决结果可以使语音帧和非语音帧之间的切换更为自然,在一定程度上降低有用语音信息的丢失。G.729Annex B的VAD算法的缺陷在于:它面对噪声环境变化的鲁棒性不足,并且在信噪比较低的环境下,语音端点检测的准确性会明显下降。
发明内容
本发明实施例提供了音频信号的端点检测方法、装置、处理***及计算机设备,更好地增强了语音端点检测随噪声环境变化时的鲁棒性,从而提高了音频信号中语音信号检测的准确性。
第一方面,本发明实施例提供了一种音频信号的端点检测方法,包括:
基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;
基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;
根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
第二方面,本发明实施例提供了一种音频信号的端点检测装置,包括:
判定参数确定模块,用于基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;
端点标记确定模块,用于基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;
检测结果确定模块,用于根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
第三方面,本发明实施例还提供了一种音频信号处理***,音频信号处理***包括了本发明实施例提供的音频信号的端点检测装置。
第四方面,本发明实施例也提供了一种计算机设备,该设备包括:
本发明实施例提供的音频信号处理***;
一个或多个处理器;
存储装置,用于存储所述音频信号处理***中的一个或多个程序,
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的音频信号的端点检测方法。
第五方面,本发明实施例又提供了一种包含计算机可执行指令的存储介质,包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的音频信号的端点检测方法。
本发明实施例提供了音频信号的端点检测方法、装置、处理***及计算机设备,该音频信号的端点检测方法首先基于待检测信号的功率谱及预先确定的噪声功率谱确定待检测音频信号的端点检测判定参数;然后基于设定长度的检测结果标识数组记录的各端点检测标记值,确定检测结果标识数组的端点检测标记值之和,最终根据端点检测判定参数及端点检测标记值之和,确定待检测音频信号的端点检测结果。利用该方法,仅基于音频信号的功率谱及噪声功率谱就可确定端点检测的判定参数,并最终实现端点检测,其技术方案的实现并不依赖音频信号本身的音节特征,因此与现有方案相比,本技术方案能够在低信噪比的条件下依旧保持端点检测的高准确率,且噪声环境的变化并不影响本技术方案端点检测的准确度,更好地增强了语音端点检测随噪声环境变化时的鲁棒性;同时,本技术方案的实现简单方便,更容易集成到各类嵌入式音频处理***中,适用范围广,在实际应用中具有更好的实用性。
附图说明
图1为本发明实施例一提供的一种音频信号的端点检测方法的流程示意图;
图2为本发明实施例二提供的一种音频信号的端点检测方法的流程示意图;
图3为本发明实施例三提供的一种音频信号的端点检测方法的流程示意图;
图4a为本发明实施例四提供的音频信号的端点检测方法优选实施例的流程示意图;
图4b为本发明实施例使提供的一段纯净音频信号文件的示意图;
图4c为5dB白噪声环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;
图4d为5dB白噪声环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图;
图4e为10dB说话人环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;
图4f为10dB说话人环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图;
图4g为15dB车内环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;
图4h为15dB车内环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图。
图5为本发明实施例五提供的一种音频信号的端点检测装置的结构框图;
图6为本发明实施例六提供的一种计算机设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种音频信号的端点检测方法的流程示意图,该方法适用于具有音频信号处理功能的设备在对音频信号处理前对音频信号进行端点检测的情况,该方法可以由音频信号的端点检测装置执行,其中该装置可由软件和/或硬件实现,并一般集成在具有音频处理功能的音频信号处理***中,且音频信号处理***可设置在计算机设备上。
需要说明的是,所述音频信号处理***具体可对音频信号进行音频编码、音频识别以及音频增强等信号处理操作;所述计算机设备可以是手机、平板电脑、笔记本等具有通话功能的电子产品,同时也可以是智能语音助手、智能家居以及语音导航仪等带有音频交互功能的电子产品。
如图1所示,本发明实施例提供的一种音频信号的端点检测方法,包括如下操作:
S101、基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定待检测音频信号的端点检测判定参数。
在本实施例中,所述待检测音频信号具体可理解为当前获取的待进行端点检测的音频信号,本实施例优选地以帧为单位确定待检测音频信号,并对每帧待检测音频信号进行端点检测操作,以确定每帧待检测音频信号为语音信号还是非语音信号。一般地,根据语音信号具有短时平稳性的特点,可确定其在10ms至30ms的时间段内通常是平稳的,因此,为保证音频信号端点检测的准确度,本实施例将单位帧的时间长度优选在10ms至30ms的范围内。
在本实施例中,所述待检测音频信号的功率谱可以基于待检测音频信号在频域上的频率幅度值确定;如果当前的待检测音频信号为首帧待检测的音频信号,则当前采用的噪声功率谱为预先初始化的噪声功率谱;否则,当前采用的噪声功率谱具体可在对前一帧待检测音频信号进行端点检测时更新确定。
此外,本实施例中的端点检测判定参数具体可看作对待检测音频信号进行端点检测所需的判定参数。可以理解的是,本步骤具体通过待检测音频信号的功率谱及预先获取的噪声功率谱确定端点检测所需的端点检测判定参数。
进一步地,所述待检测音频信号为实时输入的音频信号或者为预先录制的音频信号;相应的,当所述待检测音频信号为预先录制的音频信号时,基于所述预先录制的前M帧音频信号进行噪声功率谱的初始化计算,其中,M为设定常数值。
在本实施例中,所述待检测音频信号的可以为实时输入音频输入设备的音频信号,也可以预先录制并存储在计算机设备中的音频信号。
具体地,当待检测音频信号实时输入时,一般直接通过计算机设备中的音频输入设备进行待检测音频信号的拾取,此时可以将待检测音频信号缓存至设定缓存区中,以便于后续从设定缓存区中以帧为单位获取待检测音频信号并进行端点检测,此外,噪声功率谱的初始值可在启动计算机设备时基于缓存在设定缓存区中的前M帧缓存信号确定。
当待检测音频信号为预先录制时,通常将形成的音频文件预先存储在计算机设备的设定存储路径下,此时可直接以帧为单位从存储路径中获取音频信号,并可基于预先录制音频文件中的前M帧音频信号确定噪声功率谱的初始值,本实施例优选设定M的取值为[5,10]中的整数。
需要说明的是,本实施例中噪声功率谱的初始值可通过下述公式计算获取:
Figure BDA0001331992640000071
其中,λNE0表示进行端点检测前预设的噪声功率谱初始值,n表示所需信号的帧号,1≤n≤M,M表示计算噪声功率谱的初始值所需信号的帧数,|FFT(x(n))|2表示第n帧所需信号的功率谱。
可以理解的是,初始化噪声功率谱时所需的M帧信号可以是设定缓存区中的前M帧信号,也可以是预先录制音频文件中的前M帧音频信号,其所需信号的选择可具体情况具体确定。
S102、基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定检测结果标识数组的端点检测标记值之和。
在本实施例中,所述检测结果标识数组具体可用于存放历史待检测音频信号的端点检测标记值,且所存放端点检测标记值的最大个数通过所述检测结果标识数组的设定长度限定。一般地,所述检测结果标识数组的设定长度可根据历史经验随机设定,本实施例优选该设定长度与确定噪声功率谱初始值所需信号的帧数相同。
在本实施例中,所述端点检测标记值具体可理解为对音频信号进行端点检测后对应于端点检测结果的标记值,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值。可以理解的是,当端点检测结果确定为语音信号时,可将所述端点标记值赋值为语音端点标记值;同时,当端点检测结果确定为非语音信号时,可将所述端点标记值赋值为非语音端点标记值。本步骤具体可获取检测结果标识数组中的端点检测标记值,并由此确定检测结果标识数组对应的端点检测标记值之和。
需要说明的是,当待检测音频信号为首帧待检测的音频信号时,可初始化设定检测结果标识数组中的元素值(端点检测标记值),示例性地,可优选将检测结果标识数组中的各元素值均初始设定为非语音端点标记值。此外,如果当前的待检测音频信号不是首帧待检测的音频信号,当前所采用检测结果标识数组中记录的各端点检测标记值可根据前一帧待检测音频信号对应的检测结果进行更新确定。
可以知道的是,当待检测音频信号为实时输入的音频信号时,本实施例可直接将输入的首帧音频信号看作首帧待检测音频信号;当待检测音频信号为预先录制的音频信号时,本实施例则可将用于计算噪声功率谱初始值的前M帧音频信号看作噪声信号,然后可直接忽略对上述前M帧音频信号的端点检测,直接将第M+1帧音频信号看作首帧待检测音频信号。
S103、根据端点检测判定参数及端点检测标记值之和,确定待检测音频信号的端点检测结果。
在本实施例中,所述端点检测结果具体可以为语音信号或非语音信号。具体地,本步骤可根据端点检测判定参数与所设定相应门限值的比较结果,以及端点检测标记值之和与所设定相应阈值的比较结果来确定该帧待检测音频信号为语音信号还是非语音信号。
本发明实施例一提供的一种音频信号的端点检测方法,仅基于音频信号的功率谱及噪声功率谱就可确定端点检测的判定参数,并最终实现端点检测,其技术方案的实现并不依赖音频信号本身的音节特征,因此与现有方案相比,本技术方案能够在低信噪比的条件下依旧保持端点检测的高准确率,且噪声环境的变化并不影响本技术方案端点检测的准确度,更好地增强了语音端点检测随噪声环境变化时的鲁棒性;同时,本技术方案的实现简单方便,更容易集成到各类嵌入式音频处理***中,适用范围广,在实际应用中具有更好的实用性。
实施例二
图2为本发明实施例二提供的一种音频信号的端点检测方法的流程示意图,本实施例以上述实施例为基础进行优化,在本实施例中,将基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数,进一步优化为:基于所述待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的后验信噪比和先验信噪比;根据设定的判定参数公式以及所述后验信噪比和先验信噪比,确定所述待检测音频信号的端点检测判定参数。
进一步地,本实施例还优化增加了:根据所述待检测音频信号的检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
如图2所示,本发明实施例二提供的一种音频信号的端点检测方法,具体包括如下操作:
需要说明的是,本实施例中的S201和S202具体化了端点检测判定参数的确定过程。
S201、基于所述待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的后验信噪比和先验信噪比。
本步骤首先确定用于待检测音频信号端点检测的后验信噪比和先验信噪比。具体地,本步骤可以获得待检测音频信号的功率谱,同时可以获取预先确定的噪声功率谱,之后根据确定待检测音频信号的功率谱和噪声信号功率谱获得所需的后验信噪比及先验信噪比。
进一步地,分别根据下述后验信噪比公式以及先验信噪比公式,确定所述待检测音频信号的后验信噪比和先验信噪比,
所述后验信噪比公式表示为:
Figure BDA0001331992640000101
所述先验信噪比公式表示为:
ξ(n,k)=αξ(n-1,k)+(1-α)max(γ(n,k)-1,0),其中,k表示频率域的频率编号,为0至K-1中的任一整数值,K表示频率域长度,n表示当前待检测音频信号的帧号,x(n)表示时域上的第n帧待检测音频信号,FFT(x(n))表示频域上的第n帧待检测音频信号,γ(n,k)表示第n帧待检测音频信号的后验信噪比,|FFT(x(n))|2表示第n帧待检测音频信号的功率谱,λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱,ξ(n,k)表示第n帧待检测音频信号的先验信噪比,α为0~1之间的任一常数,ξ(n-1,k)表示第n-1帧待检测音频信号的先验信噪比。
在本实施例中,如果当前待检测音频信号为首帧待检测的音频信号(即n为1),则计算后验信噪比时采用的噪声功率谱相当于噪声功率谱的初始值。可以理解的是,第n-1帧待检测音频信号相当于第n帧待检测音频信号的前一帧,因此,当待检测音频信号不是首帧待检测的音频信号时,可采用基于前一帧待检测音频信号的端点检测结果更新后的噪声功率谱确定当前的后验信噪比。此外,本实施例中α的设定可根据历史经验值人为选取,或者根据具体使用场景确定相应的取值,本实施例可优选α的取值范围为[0.75,1)。
需要说明的是,当n为1时,可设定但不限定ξ(n-1,k)的初始值为0.98,此时,ξ(n-1,k)的值为一个优选的历史经验值。
S202、根据设定的判定参数公式以及所述后验信噪比和先验信噪比,确定所述待检测音频信号的端点检测判定参数。
本步骤可基于上述确定的后验信噪比及先验信噪比以及设定的判定参数公式,确定端点检测所需的端点检测判定参数。进一步地,本实施例可以根据下述判定参数公式确定所述待检测音频信号的端点检测判定参数,所述判定参数公式表示为:
Figure BDA0001331992640000111
在本步骤中,判定参数公式中出现的变量与S201中具有相同的含义,这里不再赘述,本步骤具体可通过该判定参数公式确定所需的端点检测判定参数。
S203、基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和。
具体地,所述检测结果标识数组中记录的各端点检测标记值具体可通过前一帧待检测音频信号的端点检测结果更新确定,其中,所述端点检测标记值可以为语音端点标记值或非语音端点标记值,且如果不存在前一帧待检测音频信号,则可认为所述检测结果标识数组中的各端点检测标记值均为初始化设定的初始值(一般均初始为非语音端点标记值)。
S204、根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
示例性地,本步骤可将端点检测判定参数与设定的多个门限值进行大小比较,由此可获得第一比对结果,同时可以将所述端点检测标记值之和与设定的多个阈值进行大小比较,由此最终可获得第二比对结果,最终可根据第一比对结果以及第二部对结果确定待检测音频信号为语音信号还是非语音信号。
S205、根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
在本实施例中,确定待检测音频信号的端点检测结果后,可以根据端点检测结果进一步更新端点检测所需的噪声功率谱并保存,且更新后的噪声功率谱可以用于下一帧待检测音频信号端点检测判定参数的确定。
进一步地,所述根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,包括:如果确定所述待检测音频信号为语音信号,则保持所述噪声功率谱不变;否则,根据下述噪声功率谱更新公式更新所述噪声功率谱并保存,所述噪声功率谱更新公式表示为:
λNE(n,k)=μλNE(n-1,k)+(1-μ)|FFT(x(n))|2,其中,k表示频率域的频率编号;λNE(n,k)表示第n帧待检测音频信号中噪声信号对应的噪声功率谱;λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱;|FFT(x(n))|2表示第n帧待检测音频信号的功率谱。
在本实施例中,当待检测音频信号确定为语音信号时,可认为当前的待检测音频信号中不存在或仅存在少量的噪声信号,此时不需要进行噪声功率谱的更新,可沿用之前确定的噪声功率谱。当待检测音频信号确定为非语音信号时,可认为当前的待检测音频信号中存在较多的噪声信号,此时可根据预先确定的噪声功率谱及上述噪声功率谱更新公式更新噪声功率谱。需要说明的是,上述噪声功率谱更新公式中μ的取值范围为(0,1),本实施例可优选μ的取值范围为(0.9,1),此外,其具体值可以根据历史经验值人为设定,或者根据具体使用场景确定相应的取值。
需要注意的是,由于本实施例中对噪声功率谱的初始化相当于对噪声功率谱的预估计操作,所以基于预估计的噪声功率谱初始值进行噪声功率谱更新后确定的噪声功率谱依旧相当于一个估计值,因此,可以认为本实施例基于噪声功率谱确定的先验信噪比以及后验信噪比均可看作一个估计值。由此可以对确定噪声功率谱初始值的正确估计与否可以影响待检测音频信号端点检测的准确度。
本发明实施例二提供的一种音频信号的端点检测方法,具体化了端点检测判定参数的确定过程,并具体增加了噪声功率谱的更新操作。利用该方法,能够基于音频信号的功率谱及噪声功率谱就可确定端点检测的判定参数,端点检测的实现不依赖音频信号本身的音节特征,由此无论噪声环境怎样变化,都不会影响端点检测的准确性,从而更好地增强了语音端点检测随噪声环境变化时的鲁棒性。同时,本技术方案的实现简单,更容易集成到各类嵌入式音频处理***中,适用范围广,在实际应用中具有更好的实用性。
实施例三
图3为本发明实施例三提供的一种音频信号的端点检测方法的流程示意图,本发明实施例以上述实施例一或实施例二为基础进行优化,在本实施例中,将根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果,进一步具体化为:如果所述端点检测标记值之和大于或等于第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值,则根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;如果所述端点检测标记值之和小于或等于第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值,则根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;如果所述端点检测标记值之和大于或等于第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;如果所述端点检测标记值之和小于或等于第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;如果所述元素值之和小于所述第一设定阈值且大于所述第二设定阈值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;其中,所述第一设定阈值大于所述第二设定阈值;所述第一设定门限值小于所述第三设定门限值;所述第三设定门限值小于所述第二设定门限值。
此外,本实施例在所述确定所述待检测音频信号的端点检测结果之后,还优化增加了:更新所述检测结果标识数组中记录的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
如图3所示,本发明实施例三提供的一种音频信号的端点检测方法,具体包括如下操作:
S301、基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数。
示例性地,本步骤可以首先根据待检测音频信号的功率谱及预先确定的噪声功率谱确定待检测音频信号的先验信噪比和后验信噪比,之后可根据设定的判定参数公式以及先验信噪比和后验信噪比确定待检测音频信号的端点检测判定参数。
S302、基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和。
示例性地,本实施例可将检测结果标识数组的设定长度确定为一个定值,该定值可等同于噪声功率谱初始值确定时所需信号的帧数,由此,上述检测结果标识数组中可记录设定长度个端点检测标记值,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值。本步骤可根据获取的各端点检测标记值,确定最终的端点检测标记值之和。
此外,初始进行音频信号的端点检测时,可预先为检测结果标识数组中记录的各端点检测标记值设置一个初始值,后续可根据每次迭代的端点检测结果更新各端点检测标记值。
需要说明的是,本实施例中S303至S309具体描述了端点检测结果的确定过程。
S303、判定该端点检测标记值之和是否大于或等于第一设定阈值,若是,则执行S304;若否,则执行S305。
本步骤首先判定S302中所确定端点检测标记值之和与第一设定阈值的比对结果,如果端点检测标记值之和大于或等于第一设定阈值,则可执行S304的操作,否则,可执行S305的操作。
S304、判定检测结果标识数组中最后一个端点检测标记值是否为语音端点标记值,若是,则执行S307;若否,则执行S309。
本步骤在基于S303的判定确定端点检测标记值之和大于或等于第一设定阈值之后,又进一步对检测结果标识数组中最后一个端点检测标记值进行判定,并在最后一个端点检测标记值为语音端点标记值时,执行S307的操作,否则,相当于最后一个端点检测标记值为非语音端点标记值,此时执行S309的操作。
S305、判定该端点检测标记值之和是否小于或等于第二设定阈值,若是,则执行S306;若否,则执行S309。
本步骤在基于S303的判定确定端点检测标记值之和小于第一设定阈值之后,又进一步判定该端点检测标记值之和与第二设定阈值的大小关系,并当端点检测标记值之和小于或等于第二设定阈值时,执行S306的操作,否则,相当于端点检测标记值之和大于第二设定阈值且小于第一设定阈值时执行S309的操作。
需要说明的是,本步骤中的第二设定阈值小于S303中的第一设定阈值,且所述第二设定阈值以及第一设定阈值的具体值可以根据历史经验值人为设定,或者根据具体使用场景确定相应的取值。示例性地,可认为第二设定阈值以及第一设定阈值的选择与检测结果标识数组的设定长度以及端点检测标记值的设定值存在一定的关系,如,当检测结果标识数组的设定长度为6,端点检测标记值仅设定为0或1时,可将第一设定阈值确定为4,同时可将第二设定阈值确定为2,需要注意的是,上述示例仅是选取具体值的其中一种方式,并不限定具体值采用其他方式选取。
S306、判定检测结果标识数组中最后一个端点检测标记值是否为语音端点标记值,若否,则执行S308;若是,则执行S309。
本步骤在基于S305的判定确定端点检测标记值之和小于第二设定阈值之后,又进一步对检测结果标识数组中最后一个端点检测标记值进行判定,并在最后一个端点检测标记值不为语音端点标记值(即为非语音端点标记值)时,执行S308的操作;否则,相当于最后一个端点检测标记值为语音端点标记值,此时执行S309的操作。
S307、根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果。
在本实施例中,可以在S303以及S304的判定状态均为肯定时,即,端点检测标记值之和大于或等于第一设定阈值且最后一个端点检测标记值为语音端点标记值时执行本步骤的操作,此时,可通过端点检测判定参数与第一设定门限值的比对结果,最终确定待检测音频信号的端点检测结果。
进一步地,所述根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:当所述端点检测判定参数大于或等于所述第一设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
在本实施例中,所述端点检测标记值具体表示了待检测音频信号的端点检测结果,如,语音信号与语音端点标记值相对应,非语音信号与非语音端点标记值相对应。可以理解的是,本实施例中语音端点标记值以及非语音端点标记值的具体值可为随意设定的常数值,本实施例优选设定所述语音端点标记值为1,同时优选设定所述非语音端点标记值为0。
S308、根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果。
在本实施例中,可以在S305的判定状态为肯定,以及S306的判定状态为否定时,即,端点检测标记值之和小于或等于第二设定阈值且最后一个端点检测标记值为非语音端点标记值时,执行本步骤的操作,此时,可通过端点检测判定参数与第二设定门限值的比对结果,最终确定待检测音频信号的端点检测结果。
进一步地,所述根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:当所述端点检测判定参数大于或等于所述第二设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
S309、根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果。
在本实施例中,可在S303的判定状态为肯定,以及S304的判定状态为否定,即,端点检测标记值之和大于或等于第一设定阈值且最后一个端点检测标记值为非语音端点标记值时执行本步骤的操作;同时,也可在S303的判定状态为否定,以及S305的判定状态为否定,即端点检测标记值之和大于第二设定阈值且小于第一设定阈值时执行本步骤的操作;此外,还可在S305的判定状态为肯定,以及S306的判定状态也为肯定,即,端点检测标记值之和小于或等于第二设定阈值且最后一个端点检测标记值为语音端点标记值时执行本步骤的操作。当出现上述任一种情况时,均可通过端点检测判定参数与第三设定门限值的比对结果,最终确定待检测音频信号的端点检测结果。
进一步地,所述根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:当所述端点检测判定参数大于或等于所述第三设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
需要注意的是,本实施例中第一设定门限值、第二设定门限值以及第三设定门限值均可看作一个常数值,其中,第一设定门限值小于第三设定门限值;且第三设定门限值小于所述第二设定门限值,本实施例可优选第一设定门限值的取值范围为(0.05,0.1),优选第三设定门限值的取值范围为(0.1,0.3),优选第二设定门限值的取值范围为(0.5,5.0)。此外,在本实施例中,所述第一设定门限值、第二设定门限值以及第三设定门限值的具体值可以根据历史经验值人为设定,或者根据具体使用场景确定相应的取值。
S310、根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
示例性地,本步骤可以根据上述端点检测结果,基于噪声功率谱的更新条件及噪声功率谱更新公式,实现噪声功率谱的更新。
S311、更新所述检测结果标识数组中记录的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
在本实施例中,还可以在确定待检测音频信号的端点检测结果之后,对检测结果标识数组中的各端点检测标记值进行更新。
进一步地,根据下述标记值更新公式更新所述检测结果标识数组中的端点检测标记值,所述标记值更新公式表示为:
Figure BDA0001331992640000201
其中,m表示所述检测结果标识数组的数组元素编号;L表示所述检测结果标识数组的设定长度;value[m]表示记录于所述检测结果标识数组中的第m个端点检测标记值;val_decision为所述待检测音频信号对应的端点检测标记值。
在本实施例中,可认为所述检测结果标识数组中具体记录了当前待检测音频信号的前设定长度帧历史待检测音频信号对应的端点检测标记值,且可根据当前待检测音频信号的端点检测结果实时更新检测结果标识数组中记录的各端点检测标记值。
具体地,检测结果标识数组中的第1个端点检测标记值可表示为value[1],基于上述标记值更新公式,当1小于设定长度L时,可将value[1]更新为当前检测结果标识数组中的value[2],后续将依次基于与value[1]相同的更新方式对value[2]至value[L-1]进行更新,并最终将value[L]更新为当前待检测音频信号的端点检测结果对应的端点检测标记值。示例性地,若当前待检测音频信号对应的端点检测标记值为语音端点标记值,则value[L]此时更新赋值为语音端点标记值。
基于上述对检测结果标识数组中各端点检测标记值的更新,可以保证检测结果标识数组中各端点检测标记值一直记录的是待检测音频信号前的设定长度帧历史待检测音频信号对应的端点检测标记值。
本发明实施例三提供的一种音频信号的端点检测方法,具体表述了端点检测的实现过程,同时优化增加了检测结果标识数组中元素值的更新过程。与现有方案相比,该方法能够在低信噪比的条件下依旧保持端点检测的高准确率,且噪声环境的变化并不影响本技术方案端点检测的准确度,更好地增强了语音端点检测随噪声环境变化时的鲁棒性;同时,本技术方案的实现简单方便,更容易集成到各类嵌入式音频处理***中,适用范围广,在实际应用中具有更好的实用性。
实施例四
图4a为本发明实施例四提供的音频信号的端点检测方法优选实施例的流程示意图。为验证本发明实施例提供的音频信号的端点检测方法具有强鲁棒性和端点检测高准确率的特点,本实施例在三种不同噪声环境下基于所提供的音频信号的端点检测方法进行端点检测。
具体地,三种不同的噪声环境分别为:白噪声(White)、说话人噪声(Babble)以及车内噪声(Vehicle),且为不同的噪声环境分别设定了三个信噪比:5dB,10dB和15dB。为了评价本发明所提供端点检测方法的端点检测效果,本实施例首先录制一端时长为15秒的纯净音频信号文件(即,没有噪声的音频信号文件),并确定该音频信号文件中含语音信号的部分约占60%左右,其余40%左右为静音部分,本实施例设定单位帧的帧长为10ms;之后以该帧长对上述纯净音频信号文件进行分帧,并手动确定每一帧的端点检测结果为语音帧还是非语音帧,图4b为本发明实施例四提供的一段纯净音频信号文件的示意图,由图4b可以看出,存在信号波动的部分为语音信号部分,没有信号波动的部分为静音部分;然后,本实施例在上述三种噪声环境下分别播放上述纯净音频信号文件,并录音形成各包含噪音的音频信号文件,最终,本实施例基于所提供的音频信号的端点检测方法对所形成的三种包含噪音的音频信号文件进行端点检测。
如图4a所示,基于本发明上述实施例提供的音频信号的端点检测方法对包含噪音的三种音频信号文件(本实施例统称含噪音频信号文件)进行端点检测,具体包括如下操作:
S401、获取当前帧的待检测音频信号,并根据该帧待检测音频信号的功率谱及预先确定的噪声功率谱,确定待检测音频信号的后验信噪比和先验信噪比。
本实施例可以帧为单位对含噪音频信号文件进行分帧,并基于前M帧含噪音频信号进行噪声功率谱初始化,同时将第M+1帧含噪音频信号看作首帧待检测音频信号。示例性地,本步骤具体根据待检测音频信号的功率谱及预先确定(初始确定或更新确定)的噪声功率谱,通过设定的后验信噪比以及先验信噪比的计算公式,获得端点检测所需的后验信噪比及先验信噪比。
S402、根据判定参数公式以及后验信噪比及先验信噪比,确定待检测音频信号的端点检测判定参数。
S403、获取设定长度检测结果标识数组中的各端点检测标记值,并确定端点检测标记值之和。
示例性地,假设设定长度为6,则检测结果标识数组中相当于记录了该帧待检测音频信号前的6帧历史待检测音频信号对应的端点检测标记值,且记录顺序与历史待检测音频信号的输入顺序相同。同时,假设待检测音频信号前不存在历史待检测音频信号,则可将检测结果标识数组中的各端点检测标记值初始化为0(假设非语音端点标记值为0)。
S404、根据端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
本步骤可具体根据上述实施例三中描述的判定操作,确定待检测音频信号的端点检测结果。
S405、如果确定所述待检测音频信号为语音信号,则保持所述噪声功率谱不变;否则,根据噪声功率谱更新公式更新所述噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
本步骤具体实现噪声功率谱的更新。
S406、根据标记值更新公式更新所述检测结果标识数组中的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
本步骤具体实现检测结果标识数组中的端点检测标记值的更新。
S407、如果当前帧的待检测音频信号不是上述含噪音频信号文件的最后一帧,则将下一帧确定为当前帧,并返回执行S401;否则,结束端点检测操作。
本步骤具体判定迭代进行端点检测操作的结果条件。
需要说明的是,本实施例为确定所提供端点检测方法的端点检测效果,同时基于现有的G.729Annex B的VAD算法对上述三种噪声环境下形成的含噪音频信号文件进行端点检测。且本实施例提出了两个端点检测结果的比对参数,分别为:正检率Pd(将语音帧检测为语音帧的概率)和虚检率pf(将非语音帧检测为语音帧的概率),其中,正检率Pd越高,虚检率pf越低,说明检测的准确性越高用于比对说明本发明方案与现有方案的检测效果。
表1本发明技术方案与G.729Annex B提出的VAD算法的检测结果比对
Figure BDA0001331992640000241
具体地,表1给出了不同噪声环境下本发明所提方案和G.729Annex B提出的VAD算法的检测结果比对。从表1可以看出,相比G.729Annex B的VAD算法,本发明提出的端点检测方法在低信噪比(5dB)条件下检测的准确性有显著的提高;同时,在不同信噪比、不同噪声环境下,本发明提出的端点检测方法都能够保持相对较高的端点检测的准确性,从而证明了本发明提出的端点检测方法对于噪声环境变化具有较强的鲁棒性。
需要说明的是,本实施例还给出了不同端点检测方法对应的端点检测效果图,具体地,图4c为5dB白噪声环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;图4d为5dB白噪声环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图;图4e为10dB说话人环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;图4f为10dB说话人环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图;图4g为15dB车内环境下基于G.729Annex B的VAD算法检测到含噪音频信号文件中语音信号的示意图;图4h为15dB车内环境下基于本发明技术方案检测到含噪音频信号文件中语音信号的示意图。
可以理解的是,上述图4c至图4h中具体标记了含噪音频信号文件中的语音信号,将上述图4c至图4h的检测结果与上述图4b所示出纯净音频信号文件中的语音信号相比对,可以发现,本发明实施例提供的端点检测方法的检测结果准确度高于现有G.729Annex B的VAD算法,由此进一步说明本发明实施例提供的端点检测方法具有较高的检测准确率,且具有较强的鲁棒性。
实施例五
图5为本发明实施例五提供的一种音频信号的端点检测装置的结构框图,该装置适用于适用于具有音频信号处理功能的设备在对音频信号处理前对音频信号进行端点检测的情况,该装置可由软件和/或硬件实现,并一般集成在具有音频处理功能的音频信号处理***中,且音频信号处理***设置在计算机设备上。如图5所示,该装置包括:判定参数确定模块51、端点标记确定模块52以及检测结果确定模块53。
其中,判定参数确定模块51,用于基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;
端点标记确定模块52,用于基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;
检测结果确定模块53,用于根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
在本实施例中,该装置首先通过判定参数确定模块51基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;然后通过端点标记确定模块52基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和;最终通过检测结果确定模块53根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
本发明实施例五提供的一种音频信号的端点检测装置,仅基于音频信号的功率谱及噪声功率谱就可确定端点检测的判定参数,并最终实现端点检测,其技术方案的实现并不依赖音频信号本身的音节特征,因此与现有方案相比,本技术方案能够在低信噪比的条件下依旧保持端点检测的高准确率,且噪声环境的变化并不影响本技术方案端点检测的准确度,更好地增强了语音端点检测随噪声环境变化时的鲁棒性;同时,本技术方案的实现简单方便,更容易集成到各类嵌入式音频处理***中,适用范围广,在实际应用中具有更好的实用性。
在上述优化的基础上,判定参数确定模块51,包括:
信噪比确定单元,用于基于所述待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的后验信噪比和先验信噪比;
判定参数获取单元,用于根据设定的判定参数公式以及所述后验信噪比和先验信噪比,确定所述待检测音频信号的端点检测判定参数。
进一步地,所述信噪比确定单元,具体用于分别根据下述后验信噪比公式以及先验信噪比公式,确定所述待检测音频信号的后验信噪比和先验信噪比,所述后验信噪比公式表示为:
Figure BDA0001331992640000271
所述先验信噪比公式表示为:ξ(n,k)=αξ(n-1,k)+(1-α)max(γ(n,k)-1,0);
所述判定参数获取单元,具体用于根据下述判定参数公式确定所述待检测音频信号的端点检测判定参数,所述判定参数公式表示为:
Figure BDA0001331992640000272
其中,k表示频率域的频率编号,为0至K-1中的任一整数值,K表示频率域长度,n表示当前待检测音频信号的帧号,x(n)表示时域上的第n帧待检测音频信号,FFT(x(n))表示频域上的第n帧待检测音频信号,γ(n,k)表示第n帧待检测音频信号的后验信噪比,|FFT(x(n))|2表示第n帧待检测音频信号的功率谱,λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱,ξ(n,k)表示第n帧待检测音频信号的先验信噪比,α为0~1之间的任一常数,ξ(n-1,k)表示第n-1帧待检测音频信号的先验信噪比。
进一步地,该装置还优化包括了:功率谱更新模块54,用于根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
在上述优化的基础上,功率谱更新模块54,具体用于:
当确定所述待检测音频信号为语音信号时,保持所述噪声功率谱不变;否则,根据下述噪声功率谱更新公式更新所述噪声功率谱并保存,所述噪声功率谱更新公式表示为:λNE(n,k)=μλNE(n-1,k)+(1-μ)|FFT(x(n))|2,其中,k表示频率域的频率编号;λNE(n,k)表示第n帧待检测音频信号中噪声信号对应的噪声功率谱;λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱;|FFT(x(n))|2表示第n帧待检测音频信号的功率谱。
进一步地,检测结果确定模块53,包括:
第一确定单元,用于当所述端点检测标记值之和大于或等于第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值时,根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第二确定单元,用于当所述端点检测标记值之和小于或等于第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值时,根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第三确定单元,用于当所述端点检测标记值之和大于或等于所述第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第四确定单元,用于当所述端点检测标记值之和小于或等于所述第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第五确定单元,用于当所述端点检测标记值之和小于所述第一设定阈值且大于所述第二设定阈值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
其中,所述第一设定阈值大于所述第二设定阈值;所述第一设定门限值小于所述第三设定门限值;所述第三设定门限值小于所述第二设定门限值。
在上述实施例的基础上,所述第一确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第一设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
同时,所述第二确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第二设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
进一步地,所述第三确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第三设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
此外,该装置还优化包括了:标记值更新模块55,用于在所述确定所述待检测音频信号的端点检测结果之后,更新所述检测结果标识数组中记录的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
在上述优化的基础上,标记值更新模块55,具体用于根据下述标记值更新公式更新所述检测结果标识数组中的端点检测标记值,所述标记值更新公式表示为:
Figure BDA0001331992640000301
其中,m表示所述检测结果标识数组的数组元素编号;L表示所述检测结果标识数组的设定长度;value[m]表示记录于所述检测结果标识数组中的第m个端点检测标记值;val_decision为所述待检测音频信号对应的端点检测标记值。
在上述实施例的基础上,该装置中所述待检测音频信号为实时输入的音频信号或者为预先录制的音频信号;
相应的,当所述待检测音频信号为预先录制的音频信号时,基于所述预先录制的前M帧音频信号进行噪声功率谱的初始化计算,其中,M为设定常数值。
同时,本发明实施例还提供了一种音频信号处理***,该音频信号处理***包括了本发明上述实施例提供的音频信号的端点检测装置。
可以理解的是,所述音频信号处理***具体可用于对音频信号进行进行音频编码、音频识别以及音频增强等信号处理操作,基于本发明实施例提供的音频信号处理***,可以在进行上述处理操作之前,通过所集成的音频信号的端点检测装置对音频信号进行预处理操作,即实现音频信号的端点检测。由此可以将输入的音频信号划分为语音段和非语音段,然后进行有区别性的处理,进而保证了音频信号处理***具有降低码率、提高语音识别率、提升信号的信噪比等性能。
实施例六
图6为本发明实施例六提供的一种计算机设备的结构图,如图6所示,该计算机设备集成了上述实施例提供的音频信号处理***60,还包括:处理器61和存储装置62;计算机设备中处理器61的数量可以是一个或多个,图6中以一个处理器61为例;所述计算机设备中的处理器61和存储装置62可以通过总线或其他方式连接,图6中以通过总线连接为例。此外,音频信号处理***可以直接以软件形式安装于设备中,也可以进行嵌入式集成,以芯片形式设置于计算机设备中,此时,音频信号处理***可以通过总线或其他方式连接与处理器61和存储装置62连接。
可以理解的是,该计算机设备可以是是手机、平板电脑、笔记本等具有通话功能的电子产品,同时也可以是智能语音助手、智能家居以及语音导航仪等带有音频交互功能的电子产品。
存储装置62作为一种计算机可读存储介质,可用于存储一个或多个程序,同样可存储音频信号处理***60中的一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中的音频信号的端点检测方法对应的程序指令/模块(例如,附图6所示的音频信号的端点检测装置中的判定参数确定模块51、端点标记确定模块52以及检测结果确定模块53)。处理器61通过运行存储在存储装置62中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例中的音频信号处理方法。
存储装置62可包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储装置62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置62可进一步包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器61执行时,程序进行如下操作:
基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
此外,本发明实施例又提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种如实施例一、实施例二、实施例三或实施例四中所述的音频信号的端点检测方法,该方法包括:基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (27)

1.一种音频信号的端点检测方法,其特征在于,包括:
基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;
基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;
根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数,包括:
基于所述待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的后验信噪比和先验信噪比;
根据设定的判定参数公式以及所述后验信噪比和先验信噪比,确定所述待检测音频信号的端点检测判定参数。
3.根据权利要求2所述的方法,其特征在于,分别根据下述后验信噪比公式以及先验信噪比公式,确定所述待检测音频信号的后验信噪比和先验信噪比,
所述后验信噪比公式表示为:
Figure FDA0002418864430000011
所述先验信噪比公式表示为:
ξ(n,k)=αξ(n-1,k)+(1-α)max(γ(n,k)-1,0);
根据下述判定参数公式确定所述待检测音频信号的端点检测判定参数,所述判定参数公式表示为:
Figure FDA0002418864430000012
其中,k表示频率域的频率编号,为0至K-1中的任一整数值,K表示频率域长度,n表示当前待检测音频信号的帧号,x(n)表示时域上的第n帧待检测音频信号,FFT(x(n))表示频域上的第n帧待检测音频信号,γ(n,k)表示第n帧待检测音频信号的后验信噪比,|FFT(x(n))|2表示第n帧待检测音频信号的功率谱,λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱,ξ(n,k)表示第n帧待检测音频信号的先验信噪比,α为0~1之间的任一常数,ξ(n-1,k)表示第n-1帧待检测音频信号的先验信噪比。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,包括:
如果确定所述待检测音频信号为语音信号,则保持所述噪声功率谱不变;否则,根据下述噪声功率谱更新公式更新所述噪声功率谱并保存,所述噪声功率谱更新公式表示为:
λNE(n,k)=μλNE(n-1,k)+(1-μ)|FFT(x(n))|2
其中,k表示频率域的频率编号;λNE(n,k)表示第n帧待检测音频信号中噪声信号对应的噪声功率谱;λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱;|FFT(x(n))|2表示第n帧待检测音频信号的功率谱。
6.根据权利要求1所述的方法,其特征在于,所述根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果,包括:
如果所述端点检测标记值之和大于或等于第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值,则根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
如果所述端点检测标记值之和小于或等于第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值,则根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
如果所述端点检测标记值之和大于或等于所述第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
如果所述端点检测标记值之和小于或等于所述第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
如果所述端点检测标记值之和小于所述第一设定阈值且大于所述第二设定阈值,则根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
其中,所述第一设定阈值大于所述第二设定阈值;所述第一设定门限值小于所述第三设定门限值;所述第三设定门限值小于所述第二设定门限值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:
当所述端点检测判定参数大于或等于所述第一设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
8.根据权利要求6所述的方法,其特征在于,所述根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:
当所述端点检测判定参数大于或等于所述第二设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
9.根据权利要求6所述的方法,其特征在于,所述根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果,包括:
当所述端点检测判定参数大于或等于所述第三设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
10.根据权利要求1所述的方法,其特征在于,在所述确定所述待检测音频信号的端点检测结果之后,还包括:
更新所述检测结果标识数组中记录的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
11.根据权利要求10所述的方法,其特征在于,根据下述标记值更新公式更新所述检测结果标识数组中的端点检测标记值,
所述标记值更新公式表示为:
Figure FDA0002418864430000031
其中,m表示所述检测结果标识数组的数组元素编号;L表示所述检测结果标识数组的设定长度;value[m]表示记录于所述检测结果标识数组中的第m个端点检测标记值;val_decision为所述待检测音频信号对应的端点检测标记值;value[m+1]表示记录于所述检测结果标识数组中的第m+1个端点检测标记值。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述待检测音频信号为实时输入的音频信号或者为预先录制的音频信号;
相应的,当所述待检测音频信号为预先录制的音频信号时,基于所述预先录制的前M帧音频信号进行噪声功率谱的初始化计算,其中,M为设定常数值。
13.一种音频信号的端点检测装置,其特征在于,包括:
判定参数确定模块,用于基于待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的端点检测判定参数;
端点标记确定模块,用于基于设定长度的检测结果标识数组中记录的各端点检测标记值,确定所述检测结果标识数组的端点检测标记值之和,其中,所述端点检测标记值为语音端点标记值或非语音端点标记值;
检测结果确定模块,用于根据所述端点检测判定参数及所述端点检测标记值之和,确定所述待检测音频信号的端点检测结果。
14.根据权利要求13所述的装置,其特征在于,所述判定参数确定模块,包括:
信噪比确定单元,用于基于所述待检测音频信号的功率谱及预先确定的噪声功率谱,确定所述待检测音频信号的后验信噪比和先验信噪比;
判定参数获取单元,用于根据设定的判定参数公式以及所述后验信噪比和先验信噪比,确定所述待检测音频信号的端点检测判定参数。
15.根据权利要求14所述的装置,其特征在于,所述信噪比确定单元,具体用于分别根据下述后验信噪比公式以及先验信噪比公式,确定所述待检测音频信号的后验信噪比和先验信噪比,
所述后验信噪比公式表示为:
Figure FDA0002418864430000041
所述先验信噪比公式表示为:
ξ(n,k)=αξ(n-1,k)+(1-α)max(γ(n,k)-1,0);
所述判定参数获取单元,具体用于根据下述判定参数公式确定所述待检测音频信号的端点检测判定参数,所述判定参数公式表示为:
Figure FDA0002418864430000042
其中,k表示频率域的频率编号,为0至K-1中的任一整数值,K表示频率域长度,n表示当前待检测音频信号的帧号,x(n)表示时域上的第n帧待检测音频信号,FFT(x(n))表示频域上的第n帧待检测音频信号,γ(n,k)表示第n帧待检测音频信号的后验信噪比,|FFT(x(n))|2表示第n帧待检测音频信号的功率谱,λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱,ξ(n,k)表示第n帧待检测音频信号的先验信噪比,α为0~1之间的任一常数,ξ(n-1,k)表示第n-1帧待检测音频信号的先验信噪比。
16.根据权利要求13所述的装置,其特征在于,还包括:
功率谱更新模块,用于根据所述待检测音频信号的端点检测结果,更新预先确定的噪声功率谱并保存,以用于确定下一帧待检测音频信号的端点检测判定参数。
17.根据权利要求16所述的装置,其特征在于,所述功率谱更新模块,具体用于:
当确定所述待检测音频信号为语音信号时,保持所述噪声功率谱不变;否则,根据下述噪声功率谱更新公式更新所述噪声功率谱并保存,所述噪声功率谱更新公式表示为:
λNE(n,k)=μλNE(n-1,k)+(1-μ)|FFT(x(n))|2
其中,k表示频率域的频率编号;λNE(n,k)表示第n帧待检测音频信号中噪声信号对应的噪声功率谱;λNE(n-1,k)表示第n-1帧待检测音频信号中噪声信号对应的噪声功率谱;|FFT(x(n))|2表示第n帧待检测音频信号的功率谱。
18.根据权利要求13所述的装置,其特征在于,所述检测结果确定模块,包括:
第一确定单元,用于当所述端点检测标记值之和大于或等于第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值时,根据所述端点检测判定参数与第一设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第二确定单元,用于当所述端点检测标记值之和小于或等于第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值时,根据所述端点检测判定参数与第二设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第三确定单元,用于当所述端点检测标记值之和大于或等于所述第一设定阈值且所述检测结果标识数组中最后一个端点检测标记值为非语音端点标记值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第四确定单元,用于当所述端点检测标记值之和小于或等于所述第二设定阈值且所述检测结果标识数组中最后一个端点检测标记值为语音端点标记值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
第五确定单元,用于当所述端点检测标记值之和小于所述第一设定阈值且大于所述第二设定阈值时,根据所述端点检测判定参数与第三设定门限值的比对结果,确定所述待检测音频信号的端点检测结果;
其中,所述第一设定阈值大于所述第二设定阈值;所述第一设定门限值小于所述第三设定门限值;所述第三设定门限值小于所述第二设定门限值。
19.根据权利要求18所述的装置,其特征在于,所述第一确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第一设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
20.根据权利要求18所述的装置,其特征在于,所述第二确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第二设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
21.根据权利要求18所述的装置,其特征在于,所述第三确定单元,具体用于:
当所述端点检测判定参数大于或等于所述第三设定门限值时,确定所述待检测音频信号为语音信号,并将所述待检测音频信号的端点检测标记值记为语音端点标记值;
否则,确定所述待检测音频信号为非语音信号,并将所述待检测音频信号的端点检测标记值记为非语音端点标记值。
22.根据权利要求13所述的装置,其特征在于,还包括:
标记值更新模块,用于在所述确定所述待检测音频信号的端点检测结果之后,更新所述检测结果标识数组中记录的端点检测标记值,以用于对下一帧待检测音频信号进行端点检测。
23.根据权利要求22所述的装置,其特征在于,所述标记值更新模块,具体用于根据下述标记值更新公式更新所述检测结果标识数组中的端点检测标记值,
所述标记值更新公式表示为:
Figure FDA0002418864430000061
其中,m表示所述检测结果标识数组的数组元素编号;L表示所述检测结果标识数组的设定长度;value[m]表示记录于所述检测结果标识数组中的第m个端点检测标记值;val_decision为所述待检测音频信号对应的端点检测标记值;value[m+1]表示记录于所述检测结果标识数组中的第m+1个端点检测标记值。
24.根据权利要求13-23任一项所述的装置,其特征在于,所述待检测音频信号为实时输入的音频信号或者为预先录制的音频信号;
相应的,当所述待检测音频信号为预先录制的音频信号时,基于所述预先录制的前M帧音频信号进行噪声功率谱的初始化计算,其中,M为设定常数值。
25.一种音频信号处理***,其特征在于,该音频信号处理***包括了权利要求13-24任一项所述的音频信号的端点检测装置。
26.一种计算机设备,其特征在于,该计算机设备包括:
权利要求25所述的音频信号处理***;
一个或多个处理器;
存储装置,用于存储所述音频信号处理***中的一个或多个程序,
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的音频信号的端点检测方法。
27.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-12中任一项所述的音频信号的端点检测方法。
CN201710493677.7A 2017-06-26 2017-06-26 音频信号的端点检测方法、装置、处理***及计算机设备 Active CN107331386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710493677.7A CN107331386B (zh) 2017-06-26 2017-06-26 音频信号的端点检测方法、装置、处理***及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710493677.7A CN107331386B (zh) 2017-06-26 2017-06-26 音频信号的端点检测方法、装置、处理***及计算机设备

Publications (2)

Publication Number Publication Date
CN107331386A CN107331386A (zh) 2017-11-07
CN107331386B true CN107331386B (zh) 2020-07-21

Family

ID=60195874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710493677.7A Active CN107331386B (zh) 2017-06-26 2017-06-26 音频信号的端点检测方法、装置、处理***及计算机设备

Country Status (1)

Country Link
CN (1) CN107331386B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN110021305B (zh) * 2019-01-16 2021-08-20 上海惠芽信息技术有限公司 一种音频滤波方法、音频滤波装置及可穿戴设备
CN109946055B (zh) * 2019-03-22 2021-01-12 宁波慧声智创科技有限公司 一种汽车座椅滑轨异响检测方法及***
CN111292729B (zh) * 2020-02-06 2021-01-15 北京声智科技有限公司 音频数据流的处理方法和装置
CN111816217B (zh) * 2020-07-02 2024-02-09 南京奥拓电子科技有限公司 一种自适应端点检测的语音识别方法与***、智能设备
CN112634907B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 用于语音识别的音频数据处理方法及装置
CN113660578B (zh) * 2021-08-16 2023-11-28 世邦通信股份有限公司 拾音角度范围可调的双麦克风定向拾音方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102884575A (zh) * 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
CN103730124A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于似然比测试的噪声鲁棒性端点检测方法
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN105261375A (zh) * 2014-07-18 2016-01-20 中兴通讯股份有限公司 激活音检测的方法及装置
CN105405447A (zh) * 2015-10-27 2016-03-16 航宇救生装备有限公司 一种送话呼吸噪声屏蔽方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3798681B2 (ja) * 2001-11-14 2006-07-19 日本電信電話株式会社 音声スペクトル推定方法、その装置、そのプログラムおよびその記録媒体
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
CN102184732A (zh) * 2011-04-28 2011-09-14 重庆邮电大学 基于分形特征的智能轮椅语音识别控制方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102884575A (zh) * 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
CN103730124A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于似然比测试的噪声鲁棒性端点检测方法
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN105261375A (zh) * 2014-07-18 2016-01-20 中兴通讯股份有限公司 激活音检测的方法及装置
CN105405447A (zh) * 2015-10-27 2016-03-16 航宇救生装备有限公司 一种送话呼吸噪声屏蔽方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability》;Bin Liu.etal;《IEEE The 9th International Symposium on Chinese Spoken Language Processing》;20141027;全文 *
《Robust Voice Activity Detection Using Long-Term Signal Variability》;Prasanta Kumar Ghosh.etal;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20110331;第19卷(第3期);全文 *
《一种基于语音端点检测的维纳滤波语音增强算法》;李战明等;《电子设计工程》;20160131;第24卷(第2期);全文 *
《一种基于频域特征和过渡段判决的端点检测算法》;郭逾等;《山东大学学报(工学版)》;20160430;第46卷(第2期);全文 *

Also Published As

Publication number Publication date
CN107331386A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107331386B (zh) 音频信号的端点检测方法、装置、处理***及计算机设备
CA2663568C (en) Voice activity detection system and method
Moattar et al. A simple but efficient real-time voice activity detection algorithm
EP1058925B1 (en) System and method for noise-compensated speech recognition
Ramírez et al. An effective subband OSF-based VAD with noise reduction for robust speech recognition
CN101647061B (zh) 用于语音增强的噪声方差估计器
US10783899B2 (en) Babble noise suppression
US20020087306A1 (en) Computer-implemented noise normalization method and system
CN108597505B (zh) 语音识别方法、装置及终端设备
EP1662481A2 (en) Speech detection method
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
CN104036786A (zh) 一种语音降噪的方法及装置
EP1525577B1 (en) Method for automatic speech recognition
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
Chang et al. Speech enhancement: new approaches to soft decision
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
KR20080059881A (ko) 음성 신호의 전처리 장치 및 방법
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
CN110085264A (zh) 语音信号检测方法、装置、设备及存储介质
CN112216285B (zh) 多人会话检测方法、***、移动终端及存储介质
CN112002307B (zh) 一种语音识别方法和装置
Kurpukdee et al. Improving voice activity detection by using denoising-based techniques with convolutional lstm
CN115019823A (zh) 针对流式音频端点检测的方法、***、设备及介质
Syed et al. Speech Waveform Compression Using Robust Adaptive Voice Activity Detection for Nonstationary Noise.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Endpoint detection method, device, processing system and computer equipment of audio signal

Effective date of registration: 20230223

Granted publication date: 20200721

Pledgee: China Construction Bank Corporation Shanghai No.5 Sub-branch

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2023980033272