CN113129872B - 一种基于深度压缩感知的语音增强方法 - Google Patents

一种基于深度压缩感知的语音增强方法 Download PDF

Info

Publication number
CN113129872B
CN113129872B CN202110367869.XA CN202110367869A CN113129872B CN 113129872 B CN113129872 B CN 113129872B CN 202110367869 A CN202110367869 A CN 202110367869A CN 113129872 B CN113129872 B CN 113129872B
Authority
CN
China
Prior art keywords
voice
model
signal
speech
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110367869.XA
Other languages
English (en)
Other versions
CN113129872A (zh
Inventor
康峥
黄志华
赖惠成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202110367869.XA priority Critical patent/CN113129872B/zh
Publication of CN113129872A publication Critical patent/CN113129872A/zh
Application granted granted Critical
Publication of CN113129872B publication Critical patent/CN113129872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于深度压缩感知的语音增强方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建基于深度压缩感知的语音增强模型(SEDCS),并对其进行联合训练;步骤3:预处理带噪语音测试集,利用训练完成的SEDCS模型对其去噪与重构,并保存结果,完成语音增强任务;步骤4:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强,可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,并且以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度,能够更简便灵活地实现语音增强。

Description

一种基于深度压缩感知的语音增强方法
技术领域
本发明涉及语音信号处理的语音增强技术领域,尤其涉及一种基于深度压缩感知的语音增强方法。
背景技术
语音是人们交流的一种最自然、最快捷以及最高效的方式,但是在现实生活中语音往往会被各种各样的噪声所干扰,比如环境噪声,机械噪声等。这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。为解决这些问题,就需要应用到语音增强。语音增强是从带噪语音中提取干净语音的一种技术,是语音识别***中重要组成部分,其目的主要有两个,一是改善语音质量,二是提高语音可懂度。
现有的语音增强手段主要包括传统方法和深度学***稳的,但对于低信噪比和非平稳噪声下语音增强效果较差。所以鉴于这个问题,基于深度学***稳噪声下语音增强效果差的问题,但是压缩感知要求语音信号需满足特定结构,如语音信号必须是稀疏的,而语音信号在稀疏化过程中可能造成有效信息丢失,导致重构语音可懂度下降。
现有语音增强技术大多在时频域实现,数据处理后易造成相位信息丢失等问题;许多基于深度学习的语音增强技术虽然在时域实现了语音增强,为增强算法的研究提供了新的方向;基于传统压缩感知技术的语音增强方法受语音信号稀疏性的影响,导致重构语音可懂度下降。
发明内容
本发明主要以语音信号的观测信号作为优化对象解决现有语音增强技术存在的模型复杂、增强速率慢等问题,解决传统压缩感知方法重构语音可懂度下降的问题;本发明的目的是提供一种结合深度学习的压缩感知语音增强方法,通过该方法可以完成语音增强任务,提高语音增强速率,解决传统压缩感知方法重构语音可懂度下降的问题。
本发明的目的是通过以下技术方案实现。
一种基于深度压缩感知的语音增强方法,包括以下步骤:
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列;
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型(SEDCS),设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中;
步骤3:测试模型:对带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务;
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
本发明的模型称为SEDCS模型,通过训练SEDCS模型,可在时域完成语音增强任务,避免时频域数据处理后相位信息丢失等问题,用户只需提供带噪语音文件即可快速获得增强语音;本发明可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
进一步的,步骤2中SEDCS模型由两个深度神经网络模型构建,分别称为生成模型G θ 和测量模型F β
生成模型G θ 代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号;
测量模型F β 代替压缩感知中测量矩阵实现信号观测降维过程,用于获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
进一步的,步骤2中构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
Figure SMS_1
其中
Figure SMS_2
表示优化后的带噪语音信号,
Figure SMS_3
表示干净语音信号,
Figure SMS_4
表示带噪语音信号,
Figure SMS_5
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure SMS_6
Figure SMS_7
表示语音信号通过测量模型后获得观测信号,
Figure SMS_8
是权系数,在优化数据期间,生成模型和测量模型不更新,优化次数可指定。
进一步的,将优化后的带噪语音信号输入生成模型G θ ,然后再通过测量模型F β 获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure SMS_9
Figure SMS_10
其中
Figure SMS_11
表示添加的L1正则化项的权重因子,
Figure SMS_12
表示干净语音信号,
Figure SMS_13
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure SMS_14
,即最小化模型总体目标函数。
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现有语音增强技术增强速率慢的问题。
传统压缩感知的方法由于语音信号稀疏化的原因,使得重构语音可懂度下降,本发明的SEDCS模型利用深度神经网络代替稀疏过程和观测降维过程,在不需要考虑选择哪种稀疏基和哪种测量矩阵的同时,也能有效解决传统压缩感知方法中重构语音可懂度下降的问题。
进一步的,步骤3包括以下子步骤。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
进一步的,步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
进一步的,步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时模型可完成语音增强任务,说明本发明能够适应不同噪声场景,具有实用性。
进一步的,步骤4中多种评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
采用上述方案,本发明的有益效果包括以下几点。
1.本发明提供一种基于深度压缩感知的语音增强方法,有效利用深度学习方法和压缩感知技术各自的优点,构建了结合深度学习的压缩感知语音增强模型,以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度。
2.本发明采用联合训练方式训练模型,使带噪语音信号能够拟合干净语音信号,有效提升语音增强质量与可懂度。
3.本发明可以在不同的噪声条件下完成语音增强,具有较强的适应能力和一定的实用性。
附图说明
为进一步理解本发明实施例的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明实施例提供的一种语音增强技术路线示意图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音增强方法,通过联合训练的方式,获得SEDCS模型,在时域完成语音增强任务,既能解决现有语音增强技术存在的模型复杂、增强速率慢等问题,又能解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
如图1所示,本发明实施例提供的一种语音增强技术路线图,其中包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列。
在数据预处理过程中预加重的主要作用是提升高频分量以防止重构语音质量受到影响,相应地,在输出端需进行去加重。在此预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型,设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中。
SEDCS模型由两个深度神经网络模型构建,分别是生成模型G θ 和测量模型F β
生成模型G θ 代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号。
测量模型F β 代替压缩感知中测量矩阵实现信号观测降维过程,该模型的输入包括干净语音信号和生成语音信号,目的是获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
模型构建完成后,通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,在优化带噪语音期间,生成模型和测量模型不更新,优化次数可指定。
此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
Figure SMS_15
其中
Figure SMS_16
表示优化后的带噪语音信号,
Figure SMS_17
表示干净语音信号,
Figure SMS_18
表示带噪语音信号,
Figure SMS_19
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure SMS_20
Figure SMS_21
表示语音信号通过测量模型后获得观测信号,
Figure SMS_22
是权系数。
将优化后的带噪语音信号输入生成模型G θ ,然后再通过测量模型F β 获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure SMS_23
Figure SMS_24
其中
Figure SMS_25
表示添加的L1正则化项的权重因子,
Figure SMS_26
表示干净语音信号,
Figure SMS_27
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure SMS_28
,即最小化模型总体目标函数。
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现在语音增强技术增强速率慢的问题。
步骤3:测试模型:将带噪测试集的语音数据进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
带噪测试集预处理方式与训练集预处理方式相同,即预加重因子仍选择0.95,帧长仍设置为16384个采样点,帧叠仍设置为1/2,运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时,模型也可以完成语音增强任务。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
对保存的去噪语音进行评估,以此来评测模型性能。
评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
本发明的一个实施例,评测模型一共采用了两个带噪测试集:
测试集一中噪声类型是5种与训练集不同的环境噪声,模拟在本模型应对未知环境噪声时,所获得的增强效果,同时证明本模型的有效性和可行性,实施例结果如表1所示;
测试集二中噪声类型是white、volvo以及babble,white噪声模拟平稳噪声环境,其他噪声模拟非平稳噪声环境,该测试集用于评测本方法是否解决了传统压缩感知方法中去噪语音可懂度下降的问题,实施例结果如表2所示。
表1 测试集一的不同指标得分情况:
指标 PESQ SSNR CSIG CBAK COVL STOI
带噪测试集得分 3.02 1.68 3.34 2.44 2.63 0.916
维纳增强方法得分 3.15 5.07 3.23 2.68 2.67 0.914
本实施例方法得分 3.14 6.71 3.41 2.88 2.78 0.921
表2 测试集二PESQ和STOI的得分情况:
指标 带噪测试集得分 传统压缩感知方法得分 本实施例方法得分
PESQ 2.09 2.24 2.31
STOI 0.781 0.685 0.794
为证明本发明有效性及可行性,本实施例还与利用维纳语音增强方法的结果进行比较。由表1发现,本实施例得分的PESQ虽然比维纳方法低0.01,但是其他指标得分均表现较优,说明本实施例可有效抑制噪声,改善语音质量,且适应不同噪声环境。
由表2发现,本实施例中得分均表现较优,且有一定提升,说明本实施例可解决传统压缩感知方法中可懂度下降的问题。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明,并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度压缩感知的语音增强方法,其特征在于,包括以下步骤:
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列;
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型SEDCS,设定合适的误差函数,将处理后的训练集语音信号输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中;
步骤3:测试模型:将带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务;
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估;
所述步骤2的SEDCS模型由两个基于卷积神经网络的模型构建,分别是生成模型G θ 和测量模型F β ,具体结构如下:
生成模型G θ 代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号;
测量模型F β 代替压缩感知中测量矩阵实现信号观测降维过程,用于获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
2.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述的构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,优化方式采用梯度下降法,目标函数为:
Figure QLYQS_1
其中
Figure QLYQS_2
表示优化后的带噪语音信号,
Figure QLYQS_3
表示干净语音信号,
Figure QLYQS_4
表示带噪语音信号,
Figure QLYQS_5
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure QLYQS_6
Figure QLYQS_7
表示语音信号通过测量模型后获得观测信号,
Figure QLYQS_8
为权系数。
3.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,将优化后的带噪语音信号输入生成模型G θ ,然后再通过测量模型F β 获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure QLYQS_9
Figure QLYQS_10
其中
Figure QLYQS_11
表示添加的L1正则化项的权重因子,
Figure QLYQS_12
表示干净语音信号,
Figure QLYQS_13
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure QLYQS_14
,即最小化模型总体目标函数。
4.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3包括以下子步骤:
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同;
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号;
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定位置。
5.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
6.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件不同,应对未知噪声条件时模型可完成语音增强任务。
7.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤4中评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。
CN202110367869.XA 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法 Active CN113129872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110367869.XA CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110367869.XA CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Publications (2)

Publication Number Publication Date
CN113129872A CN113129872A (zh) 2021-07-16
CN113129872B true CN113129872B (zh) 2023-03-14

Family

ID=76774973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110367869.XA Active CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Country Status (1)

Country Link
CN (1) CN113129872B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子***综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
EP3090574A1 (en) * 2014-01-03 2016-11-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410589A (zh) * 2022-09-05 2022-11-29 新疆大学 一种基于联合感知损失的注意力生成对抗语音增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子***综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
EP3090574A1 (en) * 2014-01-03 2016-11-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A new way to enhance speech signal based on compressed sensing";Houria Haneche 等;《Measurement》;20191008;全文 *
"Speech Enhancement Using U-Net with Compressed Sensing";Kang Zheng 等;《Applied Sciences》;20220530;全文 *
"基于压缩感知的语音信号建模技术的研究";张健;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20120715;全文 *
"基于噪声稀疏特性的语音增强算法分析";黄志华 等;《声学技术》;20171031;全文 *

Also Published As

Publication number Publication date
CN113129872A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Gupta et al. Comparing recurrent convolutional neural networks for large scale bird species classification
CN110245608B (zh) 一种基于半张量积神经网络的水下目标识别方法
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
CN113707176B (zh) 一种基于声信号及深度学习技术的变压器故障检测方法
CN108172238A (zh) 一种语音识别***中基于多个卷积神经网络的语音增强算法
Xu et al. Cross-language transfer learning for deep neural network based speech enhancement
CN106558308A (zh) 一种互联网音频数据质量自动打分***及方法
CN115410589A (zh) 一种基于联合感知损失的注意力生成对抗语音增强方法
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN115457980A (zh) 一种无参考语音的自动化语音质量评估方法及***
CN116626753B (zh) 一种基于多模态神经网络的微地震事件识别方法及***
CN114065809A (zh) 一种乘用车异响识别方法、装置、电子设备以及存储介质
CN113792597A (zh) 一种基于自监督特征提取的机械设备异常声音检测方法
CN113129872B (zh) 一种基于深度压缩感知的语音增强方法
CN115497492A (zh) 一种基于全卷积神经网络的实时语音增强方法
You et al. Sparse representation with optimized learned dictionary for robust voice activity detection
CN114302301A (zh) 频响校正方法及相关产品
CN110111810B (zh) 基于卷积神经网络的语音人格预测方法
Yin et al. Blind source separation and identification for speech signals
EP4233051B1 (en) An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
CN117974736B (zh) 一种基于机器学习的水下传感器输出信号降噪方法及***
CN112259126B (zh) 一种自闭症语音特征辅助识别机器人及方法
Soni et al. Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition
Karthik et al. An optimized convolutional neural network for speech enhancement
CN111383652B (zh) 一种基于双层字典学习的单通道语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant