CN109215635A - 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 - Google Patents

用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 Download PDF

Info

Publication number
CN109215635A
CN109215635A CN201811249506.0A CN201811249506A CN109215635A CN 109215635 A CN109215635 A CN 109215635A CN 201811249506 A CN201811249506 A CN 201811249506A CN 109215635 A CN109215635 A CN 109215635A
Authority
CN
China
Prior art keywords
spectral tilt
tilt degree
parameter
voice
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811249506.0A
Other languages
English (en)
Other versions
CN109215635B (zh
Inventor
胡瑞敏
李罡
张锐
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201811249506.0A priority Critical patent/CN109215635B/zh
Publication of CN109215635A publication Critical patent/CN109215635A/zh
Application granted granted Critical
Publication of CN109215635B publication Critical patent/CN109215635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,训练阶建立语音数据集,对数据集中的语音资料进行预处理;输入预处理后的窄带语音资料,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱;输入预处理后的宽带语音资料,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数;训练频谱倾斜度重建网络并使用,重建宽带语音频谱倾斜度的全极点模型参数。本发明根据窄带语音信号重建宽带语音信号频谱倾斜度参数,适用于所有基于频谱倾斜度特征的语音清晰度增强***之中,且可适配多语种、多模态的语音信号。

Description

用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建 方法
技术领域
本发明提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,涉及语音信号处理和通信技术领域,适用于所有基于频谱倾斜度特征的语音清晰度增强***之中,且可适配多语种、多模态的语音信号。
背景技术
21世纪以来,移动通信技术迅速发展,手机等移动通信设备快速普及。凭借手机带来的便利,人们得以随时随地使用移动通信设备进行实时语音通信;在这种便利之下,人们不可避免的在车站、餐馆、工厂等多样化嘈杂环境下通话,嘈杂环境中的噪声严重降低了语音通话质量。
语音通信流程可以简要分为两个阶段(如图1所示):第一阶段为说话阶段,说话人向手机说话,手机麦克风采集语音信号,并将信号编码,最后作为上行信号发送至通信信道中;第二阶段为听音阶段,手机从信道中接收到由通信网络发出的下行信号,由手机解码重新生成语音信号,最后由手机播放解码后的语音信号,人耳接收到播放的语音信号,一条语音信息的通信过程完成了。接收下行信号、收听语音内容的过程,站在语音收听者的角度来看,称作近端;发生语音信号、发送上行信号的过程,仍然站在语音收听者的角度来看,称作远端。
远端信号处理过程中,研究者们逐步研究出了语音增强技术用于抑制麦克风采集到的语音信号中的环境噪声。在语音增强过程中,一方面利用软件算法,根据语音信号时频特性、声学特性、语言学特性等一系列特征,滤除语音信号之外的能量,并对滤波后信号成分有所缺失的语音信号进行语音特征重建;另一方面利用硬件辅助,在手机上安装多个的专用麦克风用于环境声采集,将语音信号与噪声麦克风采集到的噪声信号进行谱减法或组成自适应滤波***。凭借一系列的软硬件结合措施,语音增强技术已经能较为完整的滤除麦克风采集到的语音信号中的噪声成分,并保证语音失真非常小。
近端信号处理过程中,为了抑制听音过程中的环境噪声,研究者们最先想到的是噪声抵消策略:使用麦克风采集环境噪声,然后发出与噪声相位相反,频率、振幅相同的声波与噪声干涉实现相位抵消,降低环境噪声能量。主动降噪耳机就是基于噪声抵消策略的典型产品,耳机通过物理隔绝方式预先过滤了一部分噪声,剩余噪声通过在耳机播放的信号中追加反相信号抵消掉。但在听筒接听模式缺少耳机物理隔绝的情况下,耳朵直接暴露在能量巨大的环境噪声之中,同时伴随着环境混响、听筒难以保证正对耳朵等一系列问题,抗噪效果大幅度下降。
在手机听筒接听模式下噪声抵消策略失效的情况下,为了保障听音者接收的语音信号足够清晰,研究者们又提出了近端听音增强技术,基于感知声学、语言学和信号处理方法,通过改善语音信号感知可懂度的方式,增强语音信号鲁棒性,使语音信号的在相同噪声条件下更容易被听音者理解;由于其以改善语音信号可懂度为目标,因而又被称作语音清晰度增强或语音可懂度增强技术。
语音清晰度增强技术的传统方法主要分为两类:基于规则的方法和基于度量的方法。基于规则的方法不考虑周围的环境噪声,仅根据固定的语音特性调整规则修正语音信号时频特性,该类方法在不同环境下的清晰度提升幅度差异较大,算法鲁棒性较差;基于度量的方法是通过特定的度量指标将语音信号与环境噪声事实对比,动态调整语音信号的增益,对语音清晰度的提升效果较为明显,但是该类方法很大程度上破坏了语音自然度和舒适度。
基于数据驱动的语音清晰度增强方法是一种全新的语音清晰度增强方法,该方法利用说话人噪声对抗的发声机理和自然语音生成模型提高语音清晰度。在噪声场景下,说话人受到噪声的压迫,会自发地改变自己的发声方式来克服周围噪声的影响,这种改变可以显著提高收听者的感知清晰度,这种说话人噪声对抗发生机理被称作Lombard效应,这种具备抗噪特性的语音被称为Lombard语音。研究表明,Lombard语音的频谱倾斜度较对应语句的普通语音的频谱倾斜度在细节上差异巨大,Lombard语音频谱倾斜度整体也更为平坦,频谱倾斜度的特征有效反应了Lombard语音和普通语音的差异,可利用频谱倾斜度参数作为提升语音清晰度的关键参数。
在数据驱动的语音清晰度增强***中,利用不同场景下的Lombard语音和对应安静环境下的普通语音信号作为训练数据,能够拟合出基于Lombard的语音清晰度增强***,可以通过普通语音信号的频谱倾斜度映射出Lombard语音的频谱倾斜度,进而得到具备抗噪特性的Lombard语音。该***算法框图如图2所示,具体过程为:输入窄带普通语音,提取窄带语音频谱倾斜度,利用频谱倾斜度重建网络重建宽带语音频谱倾斜度特征参数A(z),将A(z)输入到频谱倾斜度映射模型映射出宽带抗噪语音(Lombard语音)频谱倾斜度特征参数A′(z),其中,z为复变函数z域中的复变量基本表示符号。利用滤波器将窄带普通语音频谱倾斜度替换成映射的宽带语音抗噪语音频谱倾斜度,然后,为了保证处理前后的语音信号的总能量不变,对滤波后的语音信号进行增益控制,最后,输出抗噪语音。
基于数据驱动的算法可以利用高斯过程回归、高斯混合模型和深度神经网络等机器学习算法完成映射模型训练。该映射模型对输入的语音频谱度信息有很高的精度要求,但实际语音通信环境中的窄带信号由于声学特征缺失加多,用窄带信号直接计算频谱倾斜度参数较窄带语音信号存在较大误差,导致语音清晰度增强***无法获取准确的频谱倾斜度信息使增强效果严重下降。本发明提出一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,重建的特征参数能够应用于所有基于频谱倾斜度参数的语音清晰度增强***。
发明内容
本发明通过提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,解决了由于窄带语音信号声学特征缺失,其直接计算的频谱倾斜度参数较宽带语音信号存在较大误差,导致语音清晰度增强***无法获取准确的频谱倾斜度信息使增强效果严重下降的问题。
本发明技术方案提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,
所述的频谱倾斜度重建网络的训练阶段包括以下步骤,
步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;
步骤S12,输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;
步骤S13,输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;
步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;
所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时信语音号逐帧处理中,
步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;
步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。
而且,宽带和窄带语音资料均包括普通语音和抗噪语音。
而且,步骤S12中,短时傅里叶变换的点数为N,频谱倾斜度重建网络的训练输入的计算公式为:
Si(n)表示第i帧窄带语音信号,n为语音信号帧长,xi(k)表示第i帧语音信号的对数幅度谱的值,k为复变函数频域中的复变量基本表示符号,Win表示一种时域上的窗函数;每帧语音信号的对数幅度谱的点数为xi=[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱,对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱,将其逐行存储到矩阵X中,X表示频谱倾斜度重建网络的输入矩阵,M为X的行数。
而且,步骤S13中,根据第i帧宽带语音信号si(n)计算,
得到ai=[ai(1),ai(2)…,ai(P)],为第i帧宽带语音信号频谱倾斜度的全极点模型参数,P为全极点模型参数的阶数。
而且,步骤S13所述的线性频谱对参数为全极点模型参数的等价形式,线性频谱对参数具有更强的鲁棒性。
而且,步骤S14采用的评估方法使用的是验证集和测试集的语音资料,计算公式为:
为第i帧语音信号频谱倾斜度全极点模型参数的估计值,yi(n)为第i帧语音信号频谱倾斜度全极点模型参数的真实值,为第i帧语音信号频谱倾斜度的估计值,Yi(k)为第i帧语音信号频谱倾斜度的真实值,对和Yi(k)使用相同的子带划分方法分别划分成L个子带,表示第i帧语音信号第j个子带的频谱倾斜度估计值,表示第i帧语音信号第j个子带的频谱倾斜度真实值,Dj表示第j个子带的长度,bj表示计算第j个子带的感知均方根偏差的感知系数,PRi表示第i帧语音信号频谱倾斜度的感知均方根偏差PRMSD。
而且,步骤S14所述的最优重建网络参数模型的输入层节点数为与步骤S12中每帧窄带语音信号的对数幅度谱参数的点数相同。
而且,步骤S14中,最优网络参数模型的隐藏层使用的激励函数为Sigmoid函数、Tanh函数或Linear函数,隐藏层的节点参数为[N/4,N/4,N/8,N/8]、[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16],每层隐藏层的最优时间步长通过参数调试确定。
而且,步骤S14中,最优重建网络的输出层数为P,与语音频谱倾斜度的全极点模型参数的阶数相同。
而且,频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参数的方法与频谱倾斜度重建网络的训练阶段步骤S12相同;频谱倾斜度重建网络的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络重建的宽带语音频谱倾斜度的线性频谱对参数转化为全极点模型参数。
本发明实现了由窄带语音的对数幅度谱信息重建宽带语音频谱倾斜度信息,该频谱倾斜度信息能够适用于所有基于频谱倾斜度的语音清晰度增强***,且可适配多语种、多模态的语音信号,可提升该语音清晰度增强***的拓展性和实用性。
附图说明
图1为本发明实施例的噪声场景下的语音通信流程示意图;
图2为本发明实施例的基于频谱倾斜度特征的语音清晰度增强***框图;
图3为本发明实施例的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法的流程图。
具体实施方式
以下结合本发明实施例中的附图,对本发明实施例中的进行进一步的详细描述,显而易见,本文所描述的实施例仅是本发明一部分实施例,并不是所有的实施例。本领域技术人员在没有做出创造性劳动前提下基于本发明实施例所获取的任何实施例,均为本发明申请的保护范围。
本发明适用于实时语音通信***中的语音清晰度增强***,该语音清晰度增强***基于说话人噪声对抗的发声机理(Lombard效应)和自然语音生成模型提高音清晰度。本发明提供了一种语音清晰度增强***中语音特征参数恢复方法,即“一种由窄带语音重建宽带语音频谱倾斜度参数的方法”。
下面结合附图和实施例对本发明作进一步说明,但不作为本发明的限定。
根据现有技术存在的问题,实施例提出了一种由窄带语音重建宽带语音频谱倾斜度特征参数的方法,适用于基于频谱倾斜度特征的语音清晰度增强***,该***框图如图2所示。
实施例的实现过程包括基于循环神经网络的频谱倾斜度重建网络(RecurrentNeural Network,RNN)的训练阶段和使用阶段,如图3所示。
训练阶段:提取训练集中窄带语音对数幅度谱参数和宽带语音频谱线性频谱对参数分别作为频谱倾斜度重建网络训练的输入和输出,训练频谱倾斜度重建网络,并调试出最优参数模型;使用阶段:逐帧输入窄带语音对数幅度谱参数到频谱倾斜度重建网络中,重建出宽带语音频谱倾斜度的线性频谱对参数,生成宽带语音频谱倾斜度的全极点模型参数。
频谱倾斜度重建网络的训练阶段包括如下具体实施步骤:
步骤S11:建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行分帧,使用海明窗加窗等预处理;
步骤S12:输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;
步骤S13:输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,将其转化成线性频谱对参数作为频谱倾斜度重建网络的输出;
步骤S14:训练频谱倾斜重建网络,定义感知均方根偏差(Perceptual Root-Mean-Square Deviation,PRMSD)作为评估方法测试频谱倾斜度网络性能,,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果。
具体的,步骤S11的详细过程为:对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,所述的宽带语音资料的采样率一般为16000赫兹、48000赫兹等,窄带语音资料的采样率一般为8000赫兹、6000赫兹等。
本实施例中所述的宽带语音资料的采样率为16000赫兹,窄带语音资料的采样率为8000赫兹,对应的窄带和宽带语音资料均包括有相同文本内容的普通语音和抗噪语音。图3中输入的窄带和宽带语音均来自步骤S11中建立的语音数据集。将语音数据集按照85%、7.5%、7.5%的比例分别分为训练集、验证集和测试集,对训练集和测试集中的窄带与宽带语音资料进行分帧,本实施例中使用海明窗进行加窗处理。
所述的宽带和窄带语音资料均包括普通语音和抗噪语音(Lombard语音)。
所述的Lombard语音是人在噪声环境下,受到周围噪声的压迫,自发地改变自己的发声方式所发出的具有抗噪特性的语音。Lombard语音比普通语音有更强的清晰度。优选的,窄带和宽带语音资料按照如下设置进行分帧:设置每帧语音信号的时长为20毫秒,每一帧语音信号同前一帧设置50%的重叠。由于窄带和宽带语音的采样率不同,所以窄带和宽带语音每帧信号的帧长不同,本实施例中每帧窄带和宽带语音信号的帧长分别为320和160。
具体的,步骤S12对应图3中训练阶段的计算网络输入的模块,详细过程为:输入从步骤S11获取的每帧窄带语音信号,进行N点的短时傅里叶变换,N的可能取值为1024,512,256等,本实施例中N的取值优选512,然后按照如下公式计算每帧窄带语音信号的对数幅度谱:
Si(n)表示第i帧窄带语音信号,n为语音信号帧长,取值为160,xi(k)表示第i帧窄带语音信号的对数幅度谱的值,k为复变函数频域中的复变量基本表示符号,M为输入的训练样本的总帧数,Win表示一种时域上的窗函数,本实施例对每帧语音信号使用汉宁窗加窗,可供选择的其他窗函数有海明窗和正弦窗。本发明所取的每帧语音信号的对数幅度谱的点数为本实施例中C的取值为257。
每帧语音信号的对数幅度谱的点数为xi=[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱,对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱,将其逐行存储到矩阵X中,X表示频谱倾斜度重建网络的输入矩阵,M为X的行数,即为输入的训练样本(所有训练集中分帧后的窄带语音资料)的总帧数。
本实施例中每帧窄带语音信号的257点对数幅度谱参数作为频谱倾斜度重建网络的训练输入。频谱倾斜度重建网络的输入矩阵X为:
具体的,步骤S13对应图3中训练阶段的计算网络输出的模块,详细过程为:输入从步骤S11获取的每帧宽带语音信号,计算语音频谱倾斜度参数的全极点模型参数,本实施例使用的全极点模型参数计算方法的公式为:
ai=f(si(n))
si(n)为第i帧宽带语音信号,ai=[ai(1),ai(2)…,ai(P)]为第i帧宽带语音信号频谱倾斜度的全极点模型参数。P为全极点模型参数的阶数,ai(1),ai(2)…,ai(P)分别为第1,2,…,P阶的全极点模型参数值,本实施例中P=20。全极点模型参数ai存在多种计算方法,f(si(n))表示全极点模型参数ai的计算函数,该计算函数根据ai的计算方法相应设置。例如可以使用线性预测算法或其他基于特定感知加权的线性预测算法。
然后将宽带语音频谱倾斜度的全极点模型参数转化为线性频谱对参数。线性频谱对参数为全极点模型参数的等价形式,线性频谱对参数具有更强的鲁棒性,在语音信号处理领域广泛应用。
进一步,参数转化的具体过程为:将第i帧宽带语音频谱倾斜度的全极点模型参数转化成z域形式,其z域形式为:
定义Ki(z)和Qi(z)这两个P+1阶的对称和反对称多项式:
Ki(z)=Ai(z)+z-(P+1)Ai(z-1)
Qi(z)=Ai(z)-z-(P+1)Ai(z-1)
第i帧宽带语音频谱倾斜度的线性频谱对的Z域形式为Ki′(z)和Qi′(z)两个多项式:
求得Ki′(z)和Qi′(z)对应的参数为
每i帧宽带语音频谱倾斜度的线性频谱对参数为bi=[bpi,bqi],每帧宽带语音频谱倾斜度的线性频谱对参数作为频谱倾斜度重建网络的训练输出。频谱倾斜度重建网络的输出矩阵Y为:
具体的,步骤S14对应图3中训练阶段的训练频谱倾斜度重建网络的模块,详细过程为:训练频谱倾斜重建网络,定义感知均方根偏差作为评估方法,使用测试集中的语音资料和评估方法测试频谱倾斜度网络性能,调试出最优重建网络参数模型。
评估方法感知均方根偏差的计算公式为:
为第i帧语音信号频谱倾斜度全极点模型参数的估计值,yi(n)为第i帧语音信号频谱倾斜度全极点模型参数的真实值,为第i帧语音信号频谱倾斜度的估计值,Yi(k)为第i帧语音信号频谱倾斜度的真实值,对和Yi(k)使用相同的子带划分方法分别划分成L个子带,表示第i帧语音信号第j个子带的频谱倾斜度估计值,表示第i帧语音信号第j个子带的频谱倾斜度真实值,Dj表示第j个子带的长度,bj表示计算第j个子带的感知均方根偏差的感知系数。PRi表示第i帧语音信号频谱倾斜度的感知均方根偏差(PRMSD)。
最优频谱倾斜度重建网络的输入层节点数为C,与步骤S12中每帧窄带语音信号的对数幅度谱参数的点数相同。
具体实施时,最优网络参数模型的隐藏层可使用的激励函数包括Sigmoid函数、Tanh函数、Linear函数等,隐藏层的节点参数可为[N/4,N/4,N/8,N/8]、[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]和[N/4,N/8,N/16,N/16],每层隐藏层的最优时间步长通过参数调试确定。
本实施例中隐藏层使用的激励函数为Tanh函数,输出层使用的激励函数为Linear函数,隐藏层的节点参数分别为[N/8,N/8,N/16,N/16],输出层节点数为P,与语音频谱倾斜度的全极点模型参数的阶数相同。步骤S14所述的最优重建网络的输出层数为P,与语音频谱倾斜度的全极点模型参数的阶数相同,考虑到算法复杂度,P的取值一般小于等于20。
实施例中,隐藏层的最优时间步长通过参数调试确定,具体调试过程为:使用上述重建网络结构,分别训练使用不同的时间步长的重建网络,使用验证集中的语音资料使用上述训练后网络进行测试,计算不同时间步长的重建网络的感知均方根偏差,感知均方根偏差最小的重建网络使用得时间步长即为最优的隐藏层时间步长,本实施例的每个隐藏层时间步长均为6。
当频谱倾斜度重建网络训完成后,即可投入到使用阶段,使用阶段将该网络嵌入到语音通信***解码器末端作为后处理技术使用,该网络能对实际通信中的实时语音信号进行逐帧处理。
频谱倾斜度重建网络的使用阶段的具体实现步骤为:
步骤S21:实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数。
步骤S22:逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。
具体的,步骤S21对应图3中提取窄带语音特征的模块,具体实现过程为:实时输入一帧窄带语音信号,使用与频谱倾斜度重建网络的训练阶段步骤S12相同的方法,提取其C点窄带语音对数幅度谱参数。
步骤S22的具体实现过程为:将步骤S21提取的C点窄带语音对数幅度谱参数输入到训练好的最优频谱倾斜度重建网络中,重建出宽带语音的频谱倾斜度的P阶线性频谱对参数,最后将得到的P阶线性频谱对参数转化为P阶全极点模型参数,即获取由窄带语音重建的宽带语音频谱倾斜度特征参数。
综上,本发明提供了一种从窄带语音信号中重建宽带语音信号频谱倾斜度的方法。该方法具有较强的鲁棒性,能应用于所有基于频谱倾斜度特征的语音清晰度增强***之中,且适用于多语种、多模态的语音信号。具体实施时,可采用计算机软件技术实现自动运行流程。
以上所描述的内容仅是本发明的优先实施例,本发明并不受上述实施例形式上的限制,本领域的技术人员应当了解,凡是参照本发明的技术核心对上述实施例所作的任意形式的简单改进、等价变化与修改,均属于本发明技术方案要求保护的发明范围内。

Claims (10)

1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,
所述的频谱倾斜度重建网络训练阶段包括以下步骤,
步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;
步骤S12,输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;
步骤S13,输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;
步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;
所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中,包括以下步骤,
步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;
步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。
2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,特征在于:宽带和窄带语音资料均包括普通语音和抗噪语音。
3.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S12中,短时傅里叶变换的点数为N,频谱倾斜度重建网络的训练输入的计算公式为:
Si(n)表示第i帧窄带语音信号,n为语音信号帧长,xi(k)表示第i帧语音信号的对数幅度谱的值,k为复变函数频域中的复变量基本表示符号,Win表示一种时域上的窗函数;每帧语音信号的对数幅度谱的点数为xi=[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱,对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱,将其逐行存储到矩阵X中,X表示频谱倾斜度重建网络的输入矩阵,M为X的行数。
4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S13中,根据第i帧宽带语音信号si(n)计算,
得到ai=[ai(1),ai(2)…,ai(P)],为第i帧宽带语音信号频谱倾斜度的全极点模型参数,P为全极点模型参数的阶数。
5.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S13所述的线性频谱对参数为全极点模型参数的等价形式,线性频谱对参数具有更强的鲁棒性。
6.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S14采用的评估方法使用的是验证集和测试集的语音资料,计算公式为:
为第i帧语音信号频谱倾斜度全极点模型参数的估计值,yi(n)为第i帧语音信号频谱倾斜度全极点模型参数的真实值,为第i帧语音信号频谱倾斜度的估计值,Yi(k)为第i帧语音信号频谱倾斜度的真实值,对和Yi(k)使用相同的子带划分方法分别划分成L个子带,表示第i帧语音信号第j个子带的频谱倾斜度估计值,Yi j(k)表示第i帧语音信号第j个子带的频谱倾斜度真实值,Dj表示第j个子带的长度,bj表示计算第j个子带的感知均方根偏差的感知系数,PRi表示第i帧语音信号频谱倾斜度的感知均方根偏差PRMSD。
7.根据权利要1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S14所述的最优重建网络参数模型的输入层节点数为与步骤S12中每帧窄带语音信号的对数幅度谱参数的点数相同。
8.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S14中,最优网络参数模型的隐藏层使用的激励函数为Sigmoid函数、Tanh函数或Linear函数,隐藏层的节点参数为[N/4,N/4,N/8,N/8]、[N/8,N/8,N/16,N/16]、[N/4,N/4,N/8,N/16]、[N/4,N/8,N/8,N/16]或[N/4,N/8,N/16,N/16],每层隐藏层的最优时间步长通过参数调试确定。
9.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S14中,最优重建网络的输出层数为P,与语音频谱倾斜度的全极点模型参数的阶数相同。
10.根据权利要求1或2或3或4或5或6或7或8或9所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:
频谱倾斜度重建网络的使用阶段步骤S21中的提取窄带语音对数幅度谱参数的方法与频谱倾斜度重建网络的训练阶段步骤S12相同;
频谱倾斜度重建网络的使用阶段步骤S22中的参数转换是将频谱倾斜度重建网络重建的宽带语音频谱倾斜度的线性频谱对参数转化为全极点模型参数。
CN201811249506.0A 2018-10-25 2018-10-25 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 Active CN109215635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811249506.0A CN109215635B (zh) 2018-10-25 2018-10-25 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811249506.0A CN109215635B (zh) 2018-10-25 2018-10-25 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法

Publications (2)

Publication Number Publication Date
CN109215635A true CN109215635A (zh) 2019-01-15
CN109215635B CN109215635B (zh) 2020-08-07

Family

ID=64996332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811249506.0A Active CN109215635B (zh) 2018-10-25 2018-10-25 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法

Country Status (1)

Country Link
CN (1) CN109215635B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185848A (en) * 1988-12-14 1993-02-09 Hitachi, Ltd. Noise reduction system using neural network
US20060003328A1 (en) * 2002-03-25 2006-01-05 Grossberg Michael D Method and system for enhancing data quality
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185848A (en) * 1988-12-14 1993-02-09 Hitachi, Ltd. Noise reduction system using neural network
US20060003328A1 (en) * 2002-03-25 2006-01-05 Grossberg Michael D Method and system for enhancing data quality
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN JIANG .ETC: "Nonlinear Prediction with Deep Recurrent Neural Networks for Non-Blind Audio Bandwidth Extension", 《CHINA COMMUNICATIONS》 *
郭雷勇等: "用于隐马尔可夫模型语音带宽扩展的激励分段扩展方法", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110085245B (zh) * 2019-04-09 2021-06-15 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110322891B (zh) * 2019-07-03 2021-12-10 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN109215635B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN107886967B (zh) 一种深度双向门递归神经网络的骨导语音增强方法
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
Nemala et al. A multistream feature framework based on bandpass modulation filtering for robust speech recognition
CN106128477B (zh) 一种口语识别校正***
Janke et al. Fundamental frequency generation for whisper-to-audible speech conversion
Adiga et al. Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN.
Nossier et al. Mapping and masking targets comparison using different deep learning based speech enhancement architectures
Shah et al. Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion
CN109215635A (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Fan et al. A regression approach to binaural speech segregation via deep neural network
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
Zouhir et al. A bio-inspired feature extraction for robust speech recognition
Pulakka et al. Bandwidth extension of telephone speech using a filter bank implementation for highband mel spectrum
Exter et al. DNN-Based Automatic Speech Recognition as a Model for Human Phoneme Perception.
Huber et al. Single-ended speech quality prediction based on automatic speech recognition
Cheyne et al. Talker-to-listener distance effects on speech production and perception
Akhter et al. An analysis of performance evaluation metrics for voice conversion models
Tanaka et al. An evaluation of excitation feature prediction in a hybrid approach to electrolaryngeal speech enhancement
Gupta et al. Artificial bandwidth extension using H∞ sampled-data control theory
Zheng et al. Throat microphone speech enhancement via progressive learning of spectral mapping based on lstm-rnn
Marković et al. Whispered speech recognition based on gammatone filterbank cepstral coefficients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant