CN111508509A - 基于深度学习的声音质量处理***及其方法 - Google Patents

基于深度学习的声音质量处理***及其方法 Download PDF

Info

Publication number
CN111508509A
CN111508509A CN202010254598.2A CN202010254598A CN111508509A CN 111508509 A CN111508509 A CN 111508509A CN 202010254598 A CN202010254598 A CN 202010254598A CN 111508509 A CN111508509 A CN 111508509A
Authority
CN
China
Prior art keywords
deep learning
sound
gate
data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010254598.2A
Other languages
English (en)
Inventor
吴开钢
詹启军
林榕
郑广平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Unionman Technology Co Ltd
Original Assignee
Guangdong Unionman Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Unionman Technology Co Ltd filed Critical Guangdong Unionman Technology Co Ltd
Priority to CN202010254598.2A priority Critical patent/CN111508509A/zh
Publication of CN111508509A publication Critical patent/CN111508509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及声音处理方法技术领域,尤其涉及一种基于深度学习的声音质量处理***及其方法,包括音源采样输入模块、深度学习重构网络和音源处理输出模块。本发明的发明目的在于提供一种基于深度学习的声音质量处理***及其方法,采用本发明提供的技术方案解决了目前基于人工填充或插值数据的方法进行声音重构的方案,存在无法理解声音特征本质的技术问题。

Description

基于深度学习的声音质量处理***及其方法
技术领域
本发明涉及声音处理方法技术领域,尤其涉及一种基于深度学习的声音质量处理***及其方法。
技术背景
随着人们对声音品质的追求越来越高,以及日益进步的音频采样技术,目前有损音频的质量已经远远不能满足需求。如何在有限的存储和传输空间条件限制下实现最好的声音还原效果成为声音质量处理技术的核心。目前有损压缩方法中,如MP3、高级音频编码(AAC)等通过人工数字信号处理算法方法,虽能初步降低了码率,能将基本的声音信号还原,从而得到广泛的应用。
然而目前基于人工填充或插值数据的方法进行重构的方案,效果均不太理想,根本原因是这种方式基于人的过于粗糙的主观感知实现,不能对声音有本质理解。
发明内容
本发明的发明目的在于提供一种基于深度学习的声音质量处理***及其方法,采用本发明提供的技术方案解决了目前基于人工填充或插值数据的方法进行声音重构的方案,存在无法理解声音特征本质的技术问题。
为了解决上述技术问题,本发明一方面提供一种基于深度学习的声音质量处理***,包括音源采样输入模块、深度学习重构网络和音源处理输出模块;
所述音源采样输入模块,用于对无损音频样本和有损音频样本进行采样,获得原始裸数据;
所述深度学习重构网络,提取所述原始裸数据的特征后进行分类,分别对每一类特征进行频谱重构,再进行时域还原,得到时域波形数据;
所述音源处理输出模块,输出将所述深度学习重构网络得到的时域波形数据。
优选的,在所述音源采样输入模块中,所述有损音频样本由所述无损音频样本通过短时傅立叶变换得到。
优选的,所述深度学习重构网络包括输入层和输出层,所述原始裸数据为所述输入层的输入,所述原始裸数据的特征为所述输出层的目标。
优选的,所述深度学习重构网络由至少三个LSTM网络、若干个Dropout层、至少两个Dence层和一Softmax分类器依次连接组成,在相邻的两个LSTM网络以及相邻的两个Dence层之间均连接有一Dropout层。
基于上述声音质量处理***,本发明另一方面还提供一种声音质量处理方法,包括以下步骤:
S100、对无损音频样本和有损音频样本进行采样,获得原始裸数据;
S200、提取所述原始裸数据的特征后进行分类;
S300、分别对每一类特征进行频谱重构;
S400、对频谱重构的特征进行时域还原,得到时域波形数据并输出。
优选的,在步骤S200中,在对特征进行分类之前,对特征进行记忆处理,包括:
LSTM网络提取原始裸数据的特征后;
提取的特征在Dropout层每个隐藏层各单元之间的重置门和更新门之间传递;
传递过程控制之前声音特征和当前声音特征的记忆和遗忘程度。
优选的,所述重置门和更新门为遗忘门、输入门、候选门和输出门的变种可控门。
优选的,在步骤S200中,完成记忆处理的特征在Dence层跟进声音特征的组合进行分类。
优选的,在步骤S300中,由Softmax分类器分别对每一类特征进行频谱重构计算。
优选的,在LSTM网络中,部分自身输出灌入音频输入帧中。
由上可知,应用本发明提供的可以得到以下有益效果:本发明基于深度学***的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或现有技术的描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于深度学习的声音质量处理***框图;
图2为本发明实施例基于深度学习的声音质量处理***LSTM网络门结构示意图;
图3为本发明实施例基于深度学习的声音质量处理***神经网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前有损压缩方法中,基于人工填充或插值数据的方法进行重构的方案,效果均不太理想,根本原因是这种方式基于人的过于粗糙的主观感知实现,不能对声音有本质理解。
请参见图1-3,为了解决上述技术问题,本实施例提供一种基于深度学习的声音质量处理***,包括音源采样输入模块、深度学习重构网络和音源处理输出模块。
其中,音源采样输入模块,用于对无损音频样本和有损音频样本进行采样,获得原始裸数据;
深度学习重构网络,提取原始裸数据的特征后进行分类,分别对每一类特征进行频谱重构,再进行时域还原,得到时域波形数据;
音源处理输出模块,输出将深度学习重构网络得到的时域波形数据。
在本发明中,深度学习重构网络采用LSTM网络实现深度学习,具体的,LSTM即LongShort Memory Network,长短时记忆网络,属于RNN的一种变种,LSTM网络是为了克服RNN无法很好处理远距离依赖而提出,相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
RNN不能处理距离较远的序列是因为训练时很有可能会出现梯度消失,让RNN失去了对较远时刻的感知能力。LSTM的重复网络模块,实现了三个门计算,即遗忘门、输入门和输出门。每个门负责是事情不一样,其中遗忘门负责决定保留多少上一时刻的单元状态到当前时刻的单元状态;输入门负责决定保留多少当前时刻的输入到当前时刻的单元状态;输出门负责决定当前时刻的单元状态有多少输出。
为此在LSTM网络中,每个LSTM包含了三个输入,即上时刻的单元状态、上时刻LSTM的输出和当前时刻输入。
基于上述LSTM网络,本发明实施例提供的基于深度学习的声音质量处理***,其深度学习重构网络包括输入层和输出层,原始裸数据为输入层的输入,原始裸数据的特征为输出层的目标。
在连接结构中,深度学习重构网络由至少三个LSTM网络、若干个Dropout层、至少两个Dence层和一Softmax分类器依次连接组成,在相邻的两个LSTM网络以及相邻的两个Dence层之间均连接有一Dropout层。
基于上述声音质量处理***,本发明另一方面还提供一种声音质量处理方法,包括以下步骤:
S100、对无损音频样本和有损音频样本进行采样,获得原始裸数据。
在该步骤中,通过音源采样输入模块对音源样本进行采样,其中有损音频样本由无损音频样本通过短时傅立叶变换得到。
S200、提取原始裸数据的特征后进行分类。
在对特征进行分类之前,对特征进行记忆处理,包括:
LSTM网络提取原始裸数据的特征后;提取的特征在Dropout层每个隐藏层各单元之间的重置门和更新门之间传递;传递过程控制之前声音特征和当前声音特征的记忆和遗忘程度。
具体通过深度学习重构网络实现,此模块是具有一种重复神经网络模块的链式形式,对输入源直接处理。
对音源采样输入的有损音频样本和无损音频样本分别进行特征提取,分别得到所述有损音频样本的特征和所述无损音频样本的特征。将采样的原始裸数据作为所述音频重构神经网络的输入层的输入,并将得到的所述原始裸数据的特征作为所述原始裸数据重构神经网络的输出层的目标,递归调节训练参数,以训练所述音频重构神经网络模型。
深度神经网络是使用LSTM网络(Longshort term memory),由普通的RNN循环神经网络在各自的隐藏层各神经单元中增加记忆单元,从而从声音信号的时间序列上的记忆的特征信息可控,特征在每个隐藏层各单元中传递时通过几个可控门(遗忘门、输入门、候选门、输出门)的变种重置门、更新门,可以控制之前声音特征和当前声音特征的记忆和遗忘程度。在这个结构中,把神经元状态和隐藏状态进行了合并,输出的模型比标准的LSTM结构要简单,从而使此RNN网络具备了对声音特征有长期记忆功能。
本发明实施例采用的LSTM变体网络如图2所示,其中,r代表重置门,z代表更新门。r门代表的特征将决定是否将之前的状态遗忘,作用等同于遗忘门和传入门。当rt→0的时候,t的前一个状态h会被遗忘掉,隐藏状态h(~)t的参数会被清空并设置为当前输入的信号。tanh输出的每个结果都是一个在0和1之间的实数,表示让对应信号通过的权重(或者占比)。
神经网络架构如图3所示,网络将输入层经数据过反复的两次512个神经元进行运算,每次得到的结果采取30%丢弃的方式避免网络产生过拟合的现象。使用全连接Dence层根据声音特征的组合进行分类,尽量减少特征重复位置对分特征类带来的影响。
S300、分别对每一类特征进行频谱重构。
频谱重构通过一个Softmax多类特征分类器完成,Softmax多类特征分类器分别对每一类特征进行频谱重构计算。
S400、对频谱重构的特征进行时域还原,得到时域波形数据并输出。
步骤S300中得到的结果再进行时域还原,即可得到重构后的音频流。
在上述处理***及其方法中,存在处理误差的技术问题,为此在本发明实施例中,还增加了网络自身反馈,将LSTM变体网络部分有用的自身输出灌入音频输入帧中,使其形成自身反馈,克服了误差消失的问题。
综上,本发明实施例基于深度学***的效果。
以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。

Claims (10)

1.一种基于深度学习的声音质量处理***,其特征在于:包括音源采样输入模块、深度学习重构网络和音源处理输出模块;
所述音源采样输入模块,用于对无损音频样本和有损音频样本进行采样,获得原始裸数据;
所述深度学习重构网络,提取所述原始裸数据的特征后进行分类,分别对每一类特征进行频谱重构,再进行时域还原,得到时域波形数据;
所述音源处理输出模块,输出将所述深度学习重构网络得到的时域波形数据。
2.根据权利要求1所述的声音质量处理***,其特征在于:在所述音源采样输入模块中,所述有损音频样本由所述无损音频样本通过短时傅立叶变换得到。
3.根据权利要求2所述的声音质量处理***,其特征在于:所述深度学习重构网络包括输入层和输出层,所述原始裸数据为所述输入层的输入,所述原始裸数据的特征为所述输出层的目标。
4.根据权利要求3所述的声音质量处理***,其特征在于:所述深度学习重构网络由至少三个LSTM网络、若干个Dropout层、至少两个Dence层和一Softmax分类器依次连接组成,在相邻的两个LSTM网络以及相邻的两个Dence层之间均连接有一Dropout层。
5.一种基于权利要求4所述的声音质量处理***的处理方法,其特征在于:包括以下步骤:
S100、对无损音频样本和有损音频样本进行采样,获得原始裸数据;
S200、提取所述原始裸数据的特征后进行分类;
S300、分别对每一类特征进行频谱重构;
S400、对频谱重构的特征进行时域还原,得到时域波形数据并输出。
6.根据权利要求5所述的处理方法,其特征在于:在步骤S200中,在对特征进行分类之前,对特征进行记忆处理,包括:
LSTM网络提取原始裸数据的特征后;
提取的特征在Dropout层每个隐藏层各单元之间的重置门和更新门之间传递;
传递过程控制之前声音特征和当前声音特征的记忆和遗忘程度。
7.根据权利要求6所述的处理方法,其特征在于:所述重置门和更新门为遗忘门、输入门、候选门和输出门的变种可控门。
8.根据权利要求7所述的处理方法,其特征在于:在步骤S200中,完成记忆处理的特征在Dence层跟进声音特征的组合进行分类。
9.根据权利要求8所述的处理方法,其特征在于:在步骤S300中,由Softmax分类器分别对每一类特征进行频谱重构计算。
10.根据权利要求9所述的处理方法,其特征在于:在LSTM网络中,部分自身输出灌入音频输入帧中。
CN202010254598.2A 2020-04-02 2020-04-02 基于深度学习的声音质量处理***及其方法 Pending CN111508509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254598.2A CN111508509A (zh) 2020-04-02 2020-04-02 基于深度学习的声音质量处理***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254598.2A CN111508509A (zh) 2020-04-02 2020-04-02 基于深度学习的声音质量处理***及其方法

Publications (1)

Publication Number Publication Date
CN111508509A true CN111508509A (zh) 2020-08-07

Family

ID=71877456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254598.2A Pending CN111508509A (zh) 2020-04-02 2020-04-02 基于深度学习的声音质量处理***及其方法

Country Status (1)

Country Link
CN (1) CN111508509A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114400014A (zh) * 2021-12-09 2022-04-26 慧之安信息技术股份有限公司 一种基于深度学习的音频码流压缩方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN108538283A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部图像特征到语音编码参数的转换方法
CN108882111A (zh) * 2018-06-01 2018-11-23 四川斐讯信息技术有限公司 一种基于智能音箱的交互方法及***
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109147805A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的音频音质增强
CN109376848A (zh) * 2018-09-01 2019-02-22 哈尔滨工程大学 一种简化的门控单元神经网络
CN109859767A (zh) * 2019-03-06 2019-06-07 哈尔滨工业大学(深圳) 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN108538283A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部图像特征到语音编码参数的转换方法
CN108882111A (zh) * 2018-06-01 2018-11-23 四川斐讯信息技术有限公司 一种基于智能音箱的交互方法及***
CN109147805A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的音频音质增强
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109376848A (zh) * 2018-09-01 2019-02-22 哈尔滨工程大学 一种简化的门控单元神经网络
CN109859767A (zh) * 2019-03-06 2019-06-07 哈尔滨工业大学(深圳) 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114400014A (zh) * 2021-12-09 2022-04-26 慧之安信息技术股份有限公司 一种基于深度学习的音频码流压缩方法和装置

Similar Documents

Publication Publication Date Title
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN109214575B (zh) 一种基于小波长短期记忆网络的超短期风电功率预测方法
AU694932B2 (en) Assessment of signal quality
CN109151692B (zh) 基于深度学习网络的助听器自验配方法
CN113113030B (zh) 一种基于降噪自编码器的高维受损数据无线传输方法
Guzhov et al. Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio
CN111966998A (zh) 基于变分自动编码器的口令生成方法、***、介质和设备
CN115470827A (zh) 基于自监督学习和孪生网络的对抗性心电信号降噪方法
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN101770560A (zh) 模拟生物神经元信息处理机制的信息处理方法及装置
CN114912666A (zh) 一种基于ceemdan算法和注意力机制的短时客流量预测方法
CN108959388A (zh) 信息生成方法及装置
CN111508509A (zh) 基于深度学习的声音质量处理***及其方法
CN115630742A (zh) 一种基于自监督预训练的天气预测方法及***
CN112005300B (zh) 语音信号的处理方法和移动设备
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN111935762A (zh) 一种5g承载网下基于ewt和cnn的配网故障诊断方法和***
CN112819143B (zh) 一种基于图神经网络的工作记忆计算***及方法
CN115346080A (zh) 基于量子计算的图像处理方法及相关设备
Dibazar et al. Speech recognition based on fundamental functional principles of the brain
Faundez-Zanuy Nonlinear speech processing: Overview and possibilities in speech coding
Lv et al. A universal PCA for image compression
Kaouri et al. Enhancement of coded speech signals using artificial neural network techniques
De A Study of Different Aspects of Neural Networks: Neural Representations, Connectivity and Computation
Aillet et al. [Re] Variational Neural Cellular Automata

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200807