CN115132231A - 语音活性检测方法、装置、设备及可读存储介质 - Google Patents

语音活性检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115132231A
CN115132231A CN202211051500.9A CN202211051500A CN115132231A CN 115132231 A CN115132231 A CN 115132231A CN 202211051500 A CN202211051500 A CN 202211051500A CN 115132231 A CN115132231 A CN 115132231A
Authority
CN
China
Prior art keywords
voice
convolution
signal frame
layer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211051500.9A
Other languages
English (en)
Other versions
CN115132231B (zh
Inventor
胡今朝
李威
李永超
马志强
周传福
潘志兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Xunfei Huanyu Technology Co ltd
Original Assignee
Anhui Xunfei Huanyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Xunfei Huanyu Technology Co ltd filed Critical Anhui Xunfei Huanyu Technology Co ltd
Priority to CN202211051500.9A priority Critical patent/CN115132231B/zh
Publication of CN115132231A publication Critical patent/CN115132231A/zh
Application granted granted Critical
Publication of CN115132231B publication Critical patent/CN115132231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本申请公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。

Description

语音活性检测方法、装置、设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,更具体的说,是涉及一种语音活性检测方法、装置、设备及可读存储介质。
背景技术
语音活性检测(Voice Activity Detection,VAD)***用于对输入语音信号进行语音帧与非语音帧的判断,其判断出的语音帧将被送入后续的语音处理步骤。语音活性检测***是众多语音相关应用(如,语音唤醒、语音增强、语音编码、语音识别、说话人识别)中至关重要的前置步骤,这些应用在很多场景当中对实时性要求很高,如视频会议场景。因此,语音活性检测***就需要尽可能快地将有效语音帧送给后续语音处理步骤。
目前,语音活性检测***多采用普通的卷积神经网络(Convolutional NeuralNetwork,CNN)模型实现对输入的语音信号进行语音帧与非语音帧的判断,普通的CNN模型为了保持卷积操作前后时间维的帧数不变,其会用到未来帧,这都会导致普通的CNN模型在推理阶段前向传播过程中产生等待时延。
因此,如何提供一种语音活性检测***,以降低模型在推理阶段前向传播过程中产生的等待时延,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种语音活性检测方法、装置、设备及可读存储介质。具体方案如下:
一种语音活性检测方法,所述方法包括:
获取待检测的语音信号对应的各个信号帧的语音特征;
将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
可选地,所述获取待检测的语音信号对应的各个信号帧的语音特征,包括:
对所述语音信号进行分帧加窗处理,得到多个信号帧;
针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
可选地,所述基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段,包括:
对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;
从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;
将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
可选地,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:
针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;
如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;
如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
可选地,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;
所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;
所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;
所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;
所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;
所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;
所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;
所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
可选地,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;
所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;
每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;
所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
可选地,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;
所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;
所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;
所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;
所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
一种语音活性检测装置,所述装置包括:
获取单元,用于获取待检测的语音信号对应的各个信号帧的语音特征;
检测单元,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
确定单元,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
可选地,所述获取单元,包括:
分帧加窗单元,用于对所述语音信号进行分帧加窗处理,得到多个信号帧;
特征提取单元,用于针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
可选地,所述确定单元,包括:
顺滑操作单元,用于对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;
噪声语音片段和非噪声语音片段确定单元,用于从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;
活性语音片段确定单元,用于将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
可选地,所述噪声语音片段和非噪声语音片段确定单元,具体用于:
针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;
如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;
如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
可选地,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;
所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;
所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;
所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;
所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;
所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;
所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;
所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
可选地,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;
所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;
每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;
所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
可选地,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;
所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;
所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;
所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;
所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
一种语音活性检测设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音活性检测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音活性检测方法的各个步骤。
借由上述技术方案,本申请公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的语音活性检测方法的流程示意图;
图2为本申请实施例公开的基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的方法的流程示意图;
图3为本申请实施例公开的一种语音活性检测模型的结构示意图;
图4为本申请实施例公开的语音活性检测模型中因果卷积神经网络的结构示意图;
图5为本申请实施例公开的一种语音活性检测装置结构示意图;
图6为本申请实施例公开的一种语音活性检测设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的语音活性检测方法进行介绍。
参照图1,图1为本申请实施例公开的语音活性检测方法的流程示意图,该方法可以包括:
步骤S101:获取待检测的语音信号对应的各个信号帧的语音特征。
在本申请中,待检测的语音信号可以是实时输入的语音信号,对于实时输入的语音信号,在本申请中,可以对所述语音信号进行分帧加窗处理,得到多个信号帧;再针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
需要说明的是,在本申请中,可以基于预设的帧长、帧移、窗函数对所述语音信号进行分帧加窗处理,得到多个信号帧。在本申请中,语音特征可以为PLP(Perceptuallinear predictive,感知线性预测系数)、MFCC(Mel frequency cepstrum coefficient,梅尔倒谱系数)、Filter Bank(滤波器组)特征等常见的语音特征,由于Filter Bank(滤波器组)特征相比MFCC保留了更原始的声学特征,因此,作为一种可实施方式,本申请中可以选择使用Filter Bank(滤波器组)特征作为信号帧的语音特征,比如,在本申请中可以选择使用维度为40的Filter Bank特征作为信号帧的语音特征。
人耳对不同频率的感知程度不一样,频率越高,敏感度较低,所以人耳的频域感知是非线性的,梅尔刻度(Mel Scale)正是刻画这种规律的,它反映了人耳线性感知的梅尔频率(Mel Frequency)与普通频率之间的关系,梅尔频谱的能量数值取对数,最终得到的结果就是Filter Bank(滤波器组)特征。
步骤S102:将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的。
在本申请中,可以将各个信号帧的语音特征分批输入语音活性检测模型,语音活性检测模型可以是基于因果卷积神经网络实现的,相比于现有技术中基于普通的卷积神经网络实现的语音活性检测模型,本申请中的语音活性检测模型在对每个信号帧进行语音活性检测时,是基于该信号帧以及该信号帧之前的预设数量个历史信号帧得到该信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,即,本申请中,语音活性检测模型是采用部分历史视野完全不采用未来视野的信息,因此,可以避免模型在推理阶段前向传播过程中产生等待时延。
需要说明的是,语音活性检测模型的具体结构以及功能实现,将通过后面的实施例详细说明,此处不再展开描述。
步骤S103:基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
活性语音片段由相邻的多个语音帧组成,在本申请中,基于各个信号帧的语音活性检测结果,可以确定各个信号帧是语音帧还是非语音帧,基于此即可确定出活性语音片段。
为了保证确定出的活性语音片段的准确性,还可以考虑各个信号帧之间的时序关联,以及各个信号帧的噪声特性,基于各个信号帧的语音活性检测结果、各个信号帧之间的时序关联,以及各个信号帧的噪声特性,确定所述语音信号对应的活性语音片段,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
本实施例公开了一种语音活性检测方法,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。
在本申请的另一个实施例中,对步骤S103基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的具体实现方式进行了说明。
参照图2,图2为本申请实施例公开的基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的方法的流程示意图,该方法可以包括:
步骤S201:对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段。
语音信号是时序信号,这表示信号帧前后之间存在关联,比如,当前信号帧为语音帧,那么下一信号帧为语音帧的概率较大,但是当每个信号帧独立判断时,会出现众多语音帧当中夹杂非语音帧的现象,因此,需要基于各个信号帧的语音活性检测结果,通过人为定义的规则在语音段级别做顺滑操作,用来减少语音帧与非语音帧的频繁跳变。因此,在本申请中,可以对各个信号帧的语音活性检测结果进行顺滑操作,得到语音信号对应的初始活性语音片段。
步骤S202:从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段。
在本申请中,由于语音活性检测模型,针对每个信号帧,是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的,这会导致语音活性检测模型更容易将背景人声检测为语音帧,为了解决这一问题,可以进一步对初始活性语音片段进行处理,从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,在确定出噪声语音片段和非噪声语音片段之后,再将噪声语音片段抛弃掉,将非噪声语音片段确定为活性语音片段。
作为一种可实施方式,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
步骤S203:将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
在本申请的另一个实施例中,对语音活性检测模型的结构和功能实现进行了说明。
参照图3,图3为本申请实施例公开的一种语音活性检测模型的结构示意图,该语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;
所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;作为一种可实施方式,所述第一卷积层可以采用3×3的卷积核。在本申请中,可以设置第一卷积层的填充参数,进而实现前后补零填充。
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;
所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;
所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;
所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;需要说明的是,拼帧处理可降低后续模型结构的计算复杂度,进一步降低模型的计算时延。
所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;在本申请中,可以设置因果卷积神经网络的填充参数,进而实现前置补零填充。
所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;作为一种可实施方式,所述第二卷积层可以采用1×5的卷积核。在本申请中,可以设置第二卷积层的填充参数,进而实现前后补零填充。
所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
在本申请的另一个实施例中,对语音活性检测模型中因果卷积神经网络的结构进行了说明。
参照图4,图4为本申请实施例公开的语音活性检测模型中因果卷积神经网络的结构示意图,因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;
所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;作为一种可实施方式,第一卷积模块可以采用1×1的卷积核。
每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;
所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
其中,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;
所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;
所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;作为一种可实施方式,第一卷积子层可以采用1×3的卷积核。
所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;作为一种可实施方式,第二卷积子层可以采用1×1的卷积核。
所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
需要说明的是,本申请实施例中提出的语音活性检测模型的结构仅仅是示例性的,在此基础上得到的其他类似结构也应在本申请的保护范围之内。
下面对本申请实施例公开的语音活性检测装置进行描述,下文描述的语音活性检测装置与上文描述的语音活性检测方法可相互对应参照。
参照图5,图5为本申请实施例公开的一种语音活性检测装置结构示意图。如图5所示,该语音活性检测装置可以包括:
获取单元11,用于获取待检测的语音信号对应的各个信号帧的语音特征;
检测单元12,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
确定单元13,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
作为一种可实施方式,所述获取单元,包括:
分帧加窗单元,用于对所述语音信号进行分帧加窗处理,得到多个信号帧;
特征提取单元,用于针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
作为一种可实施方式,所述确定单元,包括:
顺滑操作单元,用于对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;
噪声语音片段和非噪声语音片段确定单元,用于从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;
活性语音片段确定单元,用于将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
作为一种可实施方式,所述噪声语音片段和非噪声语音片段确定单元,具体用于:
针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;
如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;
如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
作为一种可实施方式,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;
所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;
所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;
所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;
所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;
所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;
所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;
所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
作为一种可实施方式,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;
所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;
每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;
所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
作为一种可实施方式,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;
所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;
所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;
所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;
所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
参照图6,图6为本申请实施例提供的语音活性检测设备的硬件结构框图,参照图6,语音活性检测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待检测的语音信号对应的各个信号帧的语音特征;
将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待检测的语音信号对应的各个信号帧的语音特征;
将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音活性检测方法,其特征在于,所述方法包括:
获取待检测的语音信号对应的各个信号帧的语音特征;
将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测的语音信号对应的各个信号帧的语音特征,包括:
对所述语音信号进行分帧加窗处理,得到多个信号帧;
针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
3.根据权利要求1所述的方法,其特征在于,所述基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段,包括:
对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;
从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;
将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
4.根据权利要求3所述的方法,其特征在于,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:
针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;
如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;
如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
5.根据权利要求1所述的方法,其特征在于,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;
所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;
所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;
所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;
所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;
所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;
所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;
所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
6.根据权利要求5所述的方法,其特征在于,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;
所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;
每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;
所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
7.根据权利要求6所述的方法,其特征在于,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;
所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;
所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;
所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;
所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
8.一种语音活性检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检测的语音信号对应的各个信号帧的语音特征;
检测单元,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;
确定单元,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
9.一种语音活性检测设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的语音活性检测方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音活性检测方法的各个步骤。
CN202211051500.9A 2022-08-31 2022-08-31 语音活性检测方法、装置、设备及可读存储介质 Active CN115132231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211051500.9A CN115132231B (zh) 2022-08-31 2022-08-31 语音活性检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211051500.9A CN115132231B (zh) 2022-08-31 2022-08-31 语音活性检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN115132231A true CN115132231A (zh) 2022-09-30
CN115132231B CN115132231B (zh) 2022-12-13

Family

ID=83387721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211051500.9A Active CN115132231B (zh) 2022-08-31 2022-08-31 语音活性检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115132231B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1391212A (zh) * 2001-06-11 2003-01-15 阿尔卡塔尔公司 在信号中检测话音活动的方法,以及包含用于实现该方法的装置的话音信号编码器
WO2016188553A1 (en) * 2015-05-22 2016-12-01 Huawei Technologies Co., Ltd. Methods and nodes in a wireless communication network
CN106601229A (zh) * 2016-11-15 2017-04-26 华南理工大学 一种基于soc芯片的语音唤醒方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及***
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
CN111312218A (zh) * 2019-12-30 2020-06-19 苏州思必驰信息科技有限公司 神经网络的训练和语音端点检测方法及装置
CN111816216A (zh) * 2020-08-25 2020-10-23 苏州思必驰信息科技有限公司 语音活性检测方法和装置
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法
WO2021201422A1 (ko) * 2020-03-31 2021-10-07 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2022036801A1 (zh) * 2020-08-18 2022-02-24 深圳大学 一种实现异构网络共存的方法和***
CN114155839A (zh) * 2021-12-15 2022-03-08 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN114566179A (zh) * 2022-03-16 2022-05-31 北京声加科技有限公司 一种时延可控的语音降噪方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1391212A (zh) * 2001-06-11 2003-01-15 阿尔卡塔尔公司 在信号中检测话音活动的方法,以及包含用于实现该方法的装置的话音信号编码器
WO2016188553A1 (en) * 2015-05-22 2016-12-01 Huawei Technologies Co., Ltd. Methods and nodes in a wireless communication network
CN106601229A (zh) * 2016-11-15 2017-04-26 华南理工大学 一种基于soc芯片的语音唤醒方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及***
CN111312218A (zh) * 2019-12-30 2020-06-19 苏州思必驰信息科技有限公司 神经网络的训练和语音端点检测方法及装置
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
WO2021201422A1 (ko) * 2020-03-31 2021-10-07 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2022036801A1 (zh) * 2020-08-18 2022-02-24 深圳大学 一种实现异构网络共存的方法和***
CN111816216A (zh) * 2020-08-25 2020-10-23 苏州思必驰信息科技有限公司 语音活性检测方法和装置
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法
CN114155839A (zh) * 2021-12-15 2022-03-08 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN114566179A (zh) * 2022-03-16 2022-05-31 北京声加科技有限公司 一种时延可控的语音降噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SY CHANG 等: "Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
侯苗苗: "基于CNN多特征融合的藏语语音识别的研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN115132231B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
US11508366B2 (en) Whispering voice recovery method, apparatus and device, and readable storage medium
CN108428447B (zh) 一种语音意图识别方法及装置
CN109841220B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
CN110415699B (zh) 一种语音唤醒的判断方法、装置及电子设备
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN109448746B (zh) 语音降噪方法及装置
CN109658943B (zh) 一种音频噪声的检测方法、装置、存储介质和移动终端
CN111916061A (zh) 语音端点检测方法、装置、可读存储介质及电子设备
CN112652306A (zh) 语音唤醒方法、装置、计算机设备和存储介质
CN111048118B (zh) 一种语音信号处理方法、装置及终端
CN116312616A (zh) 一种用于带噪语音信号的处理恢复方法和控制***
CN115132231B (zh) 语音活性检测方法、装置、设备及可读存储介质
CN112289311A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
CN113436640B (zh) 一种音频降噪方法、装置、***及计算机可读存储介质
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP3006496B2 (ja) 音声認識装置
CN111048096A (zh) 一种语音信号处理方法、装置及终端
CN116110393B (zh) 一种基于语音相似度的拒识方法、装置、计算机及介质
CN113393858B (zh) 语音分离方法和***、电子设备及可读存储介质
JP7511792B2 (ja) 情報処理装置、プログラム及び情報処理方法
US20240170003A1 (en) Audio Signal Enhancement with Recursive Restoration Employing Deterministic Degradation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant