CN103778919B - 基于压缩感知和稀疏表示的语音编码方法 - Google Patents

基于压缩感知和稀疏表示的语音编码方法 Download PDF

Info

Publication number
CN103778919B
CN103778919B CN201410026207.6A CN201410026207A CN103778919B CN 103778919 B CN103778919 B CN 103778919B CN 201410026207 A CN201410026207 A CN 201410026207A CN 103778919 B CN103778919 B CN 103778919B
Authority
CN
China
Prior art keywords
atom
voice
dictionary
observation sequence
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
CN201410026207.6A
Other languages
English (en)
Other versions
CN103778919A (zh
Inventor
杨震
李尚靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410026207.6A priority Critical patent/CN103778919B/zh
Publication of CN103778919A publication Critical patent/CN103778919A/zh
Application granted granted Critical
Publication of CN103778919B publication Critical patent/CN103778919B/zh
Withdrawn - After Issue legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种压缩感知框架下的语音编码方法,利用压缩感知框架下行阶梯矩阵投影后观测序列可保留部分语音特性的特点,采用稀疏表示对观测序列进行数学模型建立;在训练阶段,先利用K奇异值分解方法对大量语音行阶梯投影后的观测序列进行训练,得到一个可用于实时观测序列稀疏表示的码本字典;在编码阶段,利用字典内的原子,采用正交匹配追踪算法对实时观测序列数学建模,仅对少量选择原子的位置和幅度进行编码并传输;解码端只需有相同字典就可恢复观测序列,并利用基追踪算法重构语音信号,后置低通滤波器提高重构语音的人耳听觉特性。该发明可以在压缩感知框架下有效地对语音信号进行编码传输,降低编码传输码率,并且保证良好的重构语音性能。

Description

基于压缩感知和稀疏表示的语音编码方法
技术领域
本发明属于语音信号处理技术领域,涉及一种压缩感知框架下的语音编码方法。
背景技术
压缩感知(Compressed sensing)是近几年来出现的一种新颖的理论,它与传统奈奎斯特采样定理完全不同,不需要信号带宽两倍以上的采样速率,只要信号在某个变换域是稀疏的或可压缩的,那么就可以远低于奈奎斯特采样速率的采样率对信号进行采样,并从少量的观测投影中以高概率重构出原信号。在该理论框架下,采样速率不取决于信号带宽,而决定于信息在信号中的结构和内容。压缩感知理论主要包含三部分:信号的稀疏分解、观测矩阵的设计和信号重构算法。压缩感知一经提出,立刻引起了国内外学者的广泛重视,应用研究已涉及到众多领域:如传感器网络、医学图像处理、雷达扫描、生物传感、语音信号处理等。
近年来,稀疏表示(Sparse representation)已经成为信号处理及其应用领域中处于第一位的概念之一。稀疏表示的核心思想,即对于一类别的信号,在一个足够大的样本训练空间或变换域内,可以大致的由训练样本中同类的样本子空间或变换域原子线性表示,原子即为样本子空间或变换域矩阵里的列向量。因此当该信号由整个样本空间表示时,其表示的系数是稀疏的,这是稀疏表示思想最重要的一个假设,当然也是之后进一步分析的基础。稀疏表示充分利用了某一类信号之间的相关性,对于信号处理中的压缩、消噪、建模和编码等都带来了巨大研究价值。对于由一类信号训练得到的字典来说,训练的成功与否直接决定了下一步稀疏表示的性能,因此国内外学者提出了一系列的字典训练方法,包括优化方向方法算法(MOD),K奇异值分解算法(K-SVD),在线字典学习算法(Online Dictionary Learning)等。
语音编码是语音传输和通信的前提和基础,良好的语音编码方法可在较低的数码率情况下得到较好的恢复语音听觉质量。近二十年来,随着计算机、通信、信号处理等相关技术的发展,语音编码技术得到了迅速发展和应用。语音编码按照传统的分类方法通常分为三类:波形编码、参数编码和混合编码。波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重构语音波形保持原始语音信号的波形形状,主要有脉冲调制编码(PCM)和自适应差分脉冲调制编码(ADPCM)。参数编码又称声源编码或声码器,它使将信源信号在频域或其他变换域提取特征参数,然后对这些特征参数进行编码和传输,在解码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。线性预测系数(Linear prediction coefficient)是目前应用最为广泛的参数编码技术。混合编码将波形编码和参数编码结合起来,克服了波形编码和参数编码的缺点,吸收了他们的长处,在4~16kbps速率上能够得到高质量的合成语音。
发明内容
技术问题:本发明的目的是提供一种可以有效的压缩语音编码所需的数码率,并且保证良好合成语音人耳听觉性能的基于压缩感知和稀疏表示的语音编码方法。
技术方案:本发明基于压缩感知和稀疏表示的语音编码方法,包括以下步骤:
a)通过K奇异值分解算法训练得到一个适合语音信号观测序列的字典D;
b)获得观测序列:在编码端对进入编码器的语音首先进行帧长为20~40ms的分帧处理,然后利用行阶梯矩阵作为投影矩阵,按照1:2或1:4的压缩比对每帧语音进行投影,得到每帧语音的观测序列y;
c)利用稀疏表示对观测序列y进行数学建模,即利用正交匹配追踪算法,得到观测序列y在字典D中的稀疏系数,具体步骤如下:
1)初始化:候选集合I初始化为空集,即I=()空集,残差r=y,稀疏系数γ=0,设置迭代初始次数i=1,迭代终止次数为根据目标码率选择的原子个数K,也即预设的稀疏度;
2)根据下式求残差与字典D中的原子相关度最高的索引k:
其中dk为字典D内第k个原子,Arg min表示使目标函数取最小值时的变量值;
然后将所选原子索引k放入候选集合I内,I=(I,k);
3)根据下式更新稀疏系数:
其中DI为仅利用候选集合I内索引原子的字典,为DI的伪逆矩阵,γI为仅利用候选集合I内原子的稀疏系数向量;
然后根据下式更新残差:
r=y-DIγI
4)令i=i+1,如果i<K,则表明字典原子选取未完成,返回步骤2),否则观测序列稀疏表示循环结束,将最后更新得到的γI作为观测序列y在字典D中的稀疏系数γ,进入步骤d),其中K为迭代终止次数,其取值为根据目标码率选择的原子个数;
d)按照如下方法,分别对稀疏系数γ所需K个原子的位置和幅度进行编码:
将字典D内的原子个数规定为2的指数幂,即L=2p,根据p比特找到所需原子的位置,采用标准8比特脉冲调制编码作为原子幅度;
e)语音信号观测序列的恢复:根据所述步骤d)中获得了稀疏系数γ所需K个原子的位置和幅度,在字典D中找到稀疏系数γ所需要的原子,然后将每个原子的向量与其幅度相乘,然后将得到的K个与幅度相乘后的原子向量相加,得到恢复出的语音信号观测序列;
f)语音信号的重构:根据恢复的观测序列重构出语音信号。选择离散余弦基为语音信号稀疏基,采用基追踪算法作为重构算法,利用所述步骤e)恢复的语音信号观测序列重构出语音信号;
g)对重构语音信号进行低通滤波:根据滤波器传递函数采用后置低通滤波器的方法对所述步骤f)重构的语音信号进行滤波后处理。
本发明的一种优选方案的步骤b)中,在编码端对进入编码器的语音进行分帧处理的帧长为40ms。
有益效果:本发明与现有技术相比,具有以下优点:
压缩感知可将信号采集和压缩两步骤同时处理,有限降低采样速率,大大简化下一步处理的运算量和信号传输带宽,压缩感知框架下的语音编码还处于起步阶段,进行压缩感知观测序列的数学建模和编码对语音通信具有非常重要的现实意义。本发明基于压缩感知框架,在分帧后利用行阶梯矩阵进行观测投影,利用预先的训练字典和稀疏表示对观测序列进行数学建模和提取特征参数,仅对少量特征参数进行编码传输,解码时利用字典和参数恢复观测序列,利用离散余弦基和基追踪算法重构语音信号,并后置低通滤波器提高重构语音的人耳听觉特性。在保证低码率的同时,得到了较好的语音恢复质量。该方法在传输码率为5.25Kbps时,平均意见分可达到3.18分,优于经典码激励线性预测编码(CELP)方法。
附图说明
图1为本发明方法中编码端的流程示意图。
图2为本发明方法中解码端的流程示意图。
具体实施方式
下面通过实施例对本发明作进一步详细说明。
在对实时的、不同的,变化的语音信号编码之前,首先要用训练的方式得到用于观测序列稀疏表示的语音信号观测序列字典。由于不同人的语音、同一个人不同时间的语音都不尽相同,训练所得到的字典必须尽可能包含更为广泛的语音特性,过完备字典的冗余性恰好符合语音编码字典的要求。首先搜集得到大量的语音组成语音库,其中包括了不同年龄、性别,职业等大量特征不同的人的语音,以便包含语音信号的各种变化。对语音库中的语音首先进行分帧处理,根据语音信号的短时平稳性,帧长可选取20ms~40ms中以5ms为间隔的任意值,以40ms最为适宜。当帧长为40ms时,对于8千赫兹采样信号,一帧语音包含N=320个采样点。在压缩感知技术框架下,并对语音库中每帧信号通过行阶梯矩阵进行观测投影,得到语音库所有语音的观测序列。当压缩比为M:N=1:2时,行阶梯观测矩阵如式(1)所示。
1100000.....0 0011000.....0 0000110.....0 ..................... 0000.......011 - - - ( 1 )
此时M=160,即观测序列有160个采样点,压缩感知采样点仅为传统采样方式的一半,大大压缩了数据量。当字典训练观测序列处理完成后,即可利用K奇异值分解算法对处理得到的语音观测序列进行字典学习,得到后续步骤所需的稀疏表示字典。下文中所提到的字典,均指通过该步骤学习的所得到的特定的稀疏表示字典。K奇异值分解字典学习算法步骤如下:
输入:训练观测序列集合X,初始字典D0,目标稀疏度K,字典大小L,迭代次数n。
输出:字典D,稀疏矩阵Γ(以至于X≈DΓ)。
1)初始化:设置初始化字典D=D0
2)初始化:i=1;
3)对于任意i,求s.t.||γ||0≤K,Γi第i次迭代的稀疏矩阵,Arg min表示使目标函数取最小值时的变量值;
4)设置j=1;
5)Dj=0,Dj为字典内第j个原子,即第j列向量;
6)I={训练集合X中利用Dj表示的观测序列的索引};
7)E=XI-DΓI,E为索引内信号与本身的稀疏表示之间的误差;
8)求s.t.||d||2=1,d为目标函数最小化求得的原子,g为稀疏系数,Arg min表示使目标函数取最小值时的变量值;
9)更新Dj=d;
10)更新Γj,I=gT,Γj,I为第j次循环时利用索引内原子的稀疏系数;
11)j=j+1,如果j<L(L代表字典原子个数),则返回到步骤5),否则,循环结束;
12)i=+1,如果i<n,则返回到步骤3),否则,循环结束,字典训练完成。
字典的训练迭代次数n取30为宜。当字典训练完成后,正式编码阶段仅需字典D,用于编码阶段的观测序列稀疏表示和解码阶段的观测序列恢复。字典大小经过反复试验,取为2的十三次幂8192,即利用13比特就可以确定所选原子的位置。
在正式语音编解码阶段,对输入编码器的语音按传统语音处理方式,首先进行分帧处理,帧长和训练时采用同样的40ms。分帧后利用压缩感知技术,对每帧语音进行观测投影。在压缩感知观测模型中,并不是直接测量稀疏信号x,而是将信号x投影到一组观测向量Φ=[φ1,φ2,…φm,…φM]上,而得到观测值写成矩阵形式为
y=Φx (2)
式中;x是N×1维矩阵,y是M×1维矩阵,Φ是M×N维的观测矩阵。先记稀疏基为Ψ,则有
y=Φx=ΦΨθ=Ξθ (3)
式中Ξ=ΦΨ是M×N维矩阵。
由于观测值维数M远远小于信号维数N,求解式(2)的逆问题是一个病态问题,所有无法直接从y的M个观测值中直接求解出信号x。但由于压缩感知利用了信号的稀疏性,可通过求稀疏系数θ进一步得到信号x。为了保证算法的收敛性,使得稀疏稀疏能由M个观测值准确的恢复,Ξ必须满足有限等距特性(RIP准则),即对于任意具有严格K稀疏的矢量v,矩阵Ξ都能保证如下不等式成立
1 - &epsiv; &le; | | &Xi; v | | 2 | | v | | 2 &le; 1 + &epsiv; - - - ( 4 )
式中ε>0。然而,判定给定的Ξ是否具有RIP性质是一组合复杂问题。有文献指出如果能保证观测矩阵和稀疏基不相干,则Ξ在很大概率上满足RIP特性,不相干是指向量{φj}不能用{ψi}稀疏表示,不相干性越强,互相表示所需的系数越多;反之相关性则越强。通过选择随机高斯矩阵作为观测矩阵Φ即可高概率保证不相干性质和RIP性质。
由于行阶梯矩阵投影后的语音观测序列保留了语音的部分特性,如短时平稳性、近似周期性和基音结构,在压缩的提出上显性保留了语音信号的部分冗余特性。并且行阶梯矩阵也可高概率保证RIP特性,所以利用行阶梯矩阵作为投影矩阵,投影得到每帧语音的观测序列。行阶梯观测矩阵与式(1)相同,保证实时语音观测序列长度与字典内原子长度相等,便于后续对观测序列的数学建模。
虽然利用压缩感知对语音信号进行了压缩,但根据相关研究表明,并没有完全压缩语音信号的冗余信息,进行二次压缩的空间很大。数学建模后提取特征参数这一压缩方式以广泛应用到了信号处理领域,利用稀疏表示对观测序列进行建模,数学模型如式(5)所示,
y = &Sigma; i 1 = 1 K a i 1 d i i - - - ( 5 )
其中y表示要进行建模的观测序列,di为字典中的各个不同原子,ai为对应原子的增益(幅度),K为固定稀疏度,选取K=10。相对于8192这样一个巨大的字典,仅需10个原子和相应稀疏就可表示任意一帧语音信号。这一模型可简单解释为利用过完备字典中10个原子的线性组合即可精确近似实时语音信号的观测序列,对语音观测序列进行了二次压缩。但从字典中寻找稀疏表示的十个原子和相应的稀疏系数是一个优化问题,解决此类问题方法很多。正交匹配追踪(OMP)算法是一种贪婪算法,在计算速度快的基础上,又能保证建模精度。因此利用OMP算法进行稀疏分解,具体步骤如下:
1)初始化:候选集合I初始化为空集,即I=()空集,残差r=y,稀疏系数γ=0,设置迭代初始次数i=1,迭代终止次数为K;
2)根据下式求残差与字典D中的原子相关度最高的索引k:
其中dk为字典D内第k个原子,Arg min表示使目标函数取最小值时的变量值;
然后将所选原子索引k放入候选集合I内,I=(I,k);
3)根据下式更新稀疏系数:
其中DI为仅利用候选集合I内索引原子的字典,为DI的伪逆矩阵,γI为仅利用候选集合I内原子的稀疏系数向量;
然后根据下式更新残差:
r=y-DIγI
4)令i=i+1,如果i<K,则表明字典原子选取未完成,返回步骤2),否则观测序列稀疏表示循环结束,将最后更新得到的γI作为观测序列y在字典D中的稀疏系数γ,进入步骤d),其中K为迭代终止次数,其取值为根据目标码率选择的原子个数;
相对一个有8192原子的观测序列字典,稀疏系数γ是一个1*8192的向量,其中非零元素仅为K个。通过这K个非零元素的位置,对照字典就可以计算得到稀疏系数所选的原子。二次压缩后,所需传输的数据仅为稀疏系数所选原子的位置和幅度。
为了方便传输,仅需对稀疏系数所需原子的位置和幅度进行编码。在利用稀疏表示对观测序列进行数学建模后,信号以大大压缩,仅利用正交匹配算法所选择原子和系数大小(幅度)就可表示信号。将过完备字典大小设置为8192,就是为了方便利用二进制编码,考虑到8191=213,因此仅需13比特就能确定一个所选原子的位置。原子幅度对建模的准确度有很大影响,所以采用标准8比特PCM编码,保证对原子幅度编码的精准。在对一帧信号全部所选原子的位置和幅度编码完成后,即可进行传输。当帧长为T毫秒,一帧观测序列稀疏系数所需原子为K个,确定一个原子位置所需比特数为p时,语音编码速率可由式(6)计算,
Bit rate=K×(p+8)/T Kbps (6)
所以当T=40ms、K=10,p=13时,相应的语音编码速率为5.25Kbps。
在解码端,根据数学模型恢复观测序列。解码端相应相应有一个相同的字典存在以恢复出观测序列。在解码端获得了选择稀疏系数的位置和幅度后,根据系数位置可确定在字典中所选原子,并乘以该原子对应的稀疏稀疏幅度,之后将所有乘以幅度信息后的原子相加,得到经过稀疏表示数学建模并恢复出得语音观测序列。实验***明,该建模方法对语音观测序列的二次压缩十分有效,对浊音信号的恢复误差在1%以内,清音信号稍差,但也优于大部分针对压缩感知观测序列的数学建模方法。并且该方法下的特征参数仅有稀疏系数原子的位置参数和幅度参数,便于进一步处理。
在获得重新恢复出的语音信号观测序列后,下一步根据压缩感知重构算法重构出语音信号。压缩感知理论框架下,稀疏基的选取和重构算法的选择直接决定了最后重构出得语音质量。只有选择合适的基表示信号才能保证信号的稀疏度,从而保证信号的恢复精度,在研究信号的稀疏系数时,可以通过变换系数衰减速度来衡量变换基的稀疏表示能力。有研究表明,满足具有幂次速度衰减的信号,可利用压缩感知理论得到重构恢复,并且重构误差满足
E = | | x - x ^ | | 2 &le; C r &CenterDot; ( K / ( log N ) 6 ) - r - - - ( 7 )
其中r=1/p-1/2,0<p<1。
有文献指出光滑信号的Fourier系数,小波系数,有界变差函数的全变差函数,震荡信号的Gabor系数及具有便连续边缘的图像信号的Curvelet系数等都都具有足够的稀疏性,可以通过压缩感知理论恢复信号。根据语音信号的特性,在选择离散余弦基下呈现出良好的稀疏性,故选择离散余弦基为语音信号稀疏基。DCT基结构如式(8)所示,
在压缩感知理论中,由于观测数量M远远小于信号长度N,因此不得不求解欠定方程y=Φx=ΦΨθ=Ξθ的问题。表面看来,求解欠定方程组似乎是无望的。但是由于信号x是稀疏的或可压缩的,这个前提根本上改变了问题,使得欠定问题可以求解,并且RIP特性也理论保证了从M个观测值中精确恢复信号。
为了更清晰地描述压缩感知理论的信号重构问题,首先定义信号x的p范数为
| | x | | p = ( &Sigma; i = 1 N | x i | p ) 1 / p - - - ( 9 )
当p=0时得到0范数,实际上代表x中非零项的个数。于是,在信号稀疏或可压缩的前提下,求解欠定方程的问题转化为最小0范数问题(10)
min||ΨTx||0s.t.y=ΦΨx=Ξθ (10)
基追踪算法将证明在符合有限等距特性(RIP)条件下,求解一个更加简单的LI范数最小化,即当式(9)中p=1时最小,与求解L0范数最小有相同解,
min||ΨTx||1s.t.y=ΦΨx=Ξθ (11)
基追踪算法是目前广泛应用于压缩感知的重构算法。利用基追踪算法根据观测序列从离散余弦基中得到信号最稀疏的表示,即用尽可能少的基向量尽可能精确的表示原语音信号,从而获得信号的内在本质特性。采用表示稀疏的范数作为信号表示稀疏性的度量,通过最小化L1范数将信号稀疏表示问题定义为一类有约束的极值问题,进而转化为凸优化线性规划问题进行求解。
尽管通过基追踪算法得到的最优解在整体上重构观测在欧式距离上逼近原观测值,但由于基追踪算法采用L1范数作为目标函数,讯在低尺度能量搬移到高尺度的现象,从而容易产生一些人工效应,会在高频区域出现震荡。根据原始语音和重构语音的频谱图对比发现,两者在低频段较吻合,高频段重构语音频谱提升较大。对于语音信号而言,高频部分频谱能量提升意味着会出现一些尖锐“兹啦”声,导致对重构语音的人耳听觉质量有一定影响。后置一个一阶低通滤波器可有效缓解有重构带来的高频部分失真,提升人耳重构语音听觉特性。滤波器传递函数如式(12)所示。
H ( z ) = 1 - &mu; 1 - &mu;z - 1 - - - ( 12 )
当滤波器参数μ取0.9时,滤波器传递函数如式(13)所示。
H ( z ) = 1 - 0.9 1 - 0.9 z - 1 - - - ( 13 )
经后置滤波器滤波后,重构语音高频部分频谱与原始语音较为接近,“兹啦”声小时,重构语音听起来更为舒适。

Claims (2)

1.一种基于压缩感知和稀疏表示的语音编码方法,其特征在于,该方法包括以下步骤:
a)通过K奇异值分解算法训练得到一个适合语音信号观测序列的字典D;
b)获得观测序列:在编码端对进入编码器的语音首先进行帧长为20~40ms的分帧处理,然后利用行阶梯矩阵作为投影矩阵,按照1:2或1:4的压缩比对每帧语音进行投影,得到每帧语音的观测序列y;
c)利用稀疏表示对观测序列y进行数学建模,即利用正交匹配追踪算法,得到观测序列y在字典D中的稀疏系数,具体步骤如下:
1)初始化:候选集合I初始化为空集,即I=()空集,残差r=y,稀疏系数γ=0,设置迭代初始次数i=1,迭代终止次数为根据目标码率选择的原子个数K,也即预设的稀疏度;
2)根据下式求残差与字典D中的原子相关度最高的索引k:
其中dk为字典D内第k个原子,Arg min表示使目标函数取最小值时的变量值;
然后将所选原子索引k放入候选集合I内,I=(I,k);
3)根据下式更新稀疏系数:
其中DI为仅利用候选集合I内索引原子的字典,为DI的伪逆矩阵,γI为仅利用候选集合I内原子的稀疏系数向量;
然后根据下式更新残差:
r=y-DIγI
4)令i=i+1,如果i<K,则表明字典原子选取未完成,返回步骤2),否则观测序列稀疏表示循环结束,将最后更新得到的γI作为观测序列y在字典D中的稀疏系数γ,进入步骤d),其中K为迭代终止次数,其取值为根据目标码率选择的原子个数;
d)按照如下方法,分别对稀疏系数γ所需K个原子的位置和幅度进行编码:
将字典D内的原子个数规定为2的指数幂,即L=2p,根据p比特找到所需原子的位置,采用标准8比特脉冲调制编码作为原子幅度;
e)语音信号观测序列的恢复:根据所述步骤d)中获得了稀疏系数γ所需K个 原子的位置和幅度,在字典D中找到稀疏系数γ所需要的原子,然后将每个原子的向量与其幅度相乘,然后将得到的K个与幅度相乘后的原子向量相加,得到恢复出的语音信号观测序列;
f)语音信号的重构:根据恢复的观测序列重构出语音信号;选择离散余弦基为语音信号稀疏基,采用基追踪算法作为重构算法,利用所述步骤e)恢复的语音信号观测序列重构出语音信号;
g)对重构语音信号进行低通滤波:根据滤波器传递函数采用后置低通滤波器的方法对所述步骤f)重构的语音信号进行滤波后处理。
2.根据权利要求1所述的基于压缩感知和稀疏表示的语音编码方法,其特征在于,所述步骤b)中,在编码端对进入编码器的语音进行分帧处理的帧长为40ms。
CN201410026207.6A 2014-01-21 2014-01-21 基于压缩感知和稀疏表示的语音编码方法 Withdrawn - After Issue CN103778919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410026207.6A CN103778919B (zh) 2014-01-21 2014-01-21 基于压缩感知和稀疏表示的语音编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410026207.6A CN103778919B (zh) 2014-01-21 2014-01-21 基于压缩感知和稀疏表示的语音编码方法

Publications (2)

Publication Number Publication Date
CN103778919A CN103778919A (zh) 2014-05-07
CN103778919B true CN103778919B (zh) 2016-08-17

Family

ID=50571087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410026207.6A Withdrawn - After Issue CN103778919B (zh) 2014-01-21 2014-01-21 基于压缩感知和稀疏表示的语音编码方法

Country Status (1)

Country Link
CN (1) CN103778919B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103974076B (zh) 2014-05-19 2018-01-12 华为技术有限公司 图像编解码方法和设备、***
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置
CN104506198B (zh) * 2014-12-30 2017-08-01 大连理工大学 基于重复性特征的心音信号压缩算法
CN104934038A (zh) * 2015-06-09 2015-09-23 天津大学 一种基于稀疏化表示的空间音频编解码方法
CN107305770B (zh) * 2016-04-21 2021-02-09 华为技术有限公司 一种音频信号的采样和重建方法、装置及***
CN107622777B (zh) * 2016-07-15 2020-04-14 公安部第三研究所 一种基于过完备字典对的高码率信号获取方法
CN106548780B (zh) * 2016-10-28 2019-10-15 南京邮电大学 一种语音信号的压缩感知重构方法
CN106653061A (zh) * 2016-11-01 2017-05-10 武汉大学深圳研究院 一种基于字典分类的音频匹配追踪装置及其追踪方法
CN107528595A (zh) * 2017-07-17 2017-12-29 广东工业大学 K‑mp压缩感知快速重构方法
CN107659315B (zh) * 2017-09-25 2020-11-10 天津大学 一种用于压缩感知的稀疏二值编码电路
CN107705795A (zh) * 2017-09-27 2018-02-16 天津大学 基于ksvd算法的多声道音频处理方法
CN109040116B (zh) * 2018-09-06 2020-03-27 广州宏途教育网络科技有限公司 一种基于云端服务器的视频会议***
CN109044781A (zh) * 2018-09-06 2018-12-21 深圳源广安智能科技有限公司 一种双臂多功能治疗仪
CN109299227B (zh) * 2018-11-07 2023-06-02 平安医疗健康管理股份有限公司 基于语音识别的信息查询方法和装置
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互***的音频对象编码方法
CN111355493B (zh) * 2020-04-03 2023-05-23 哈尔滨工业大学 一种面向调制宽带转换器的支撑集筛选重构方法
CN112054803B (zh) * 2020-08-31 2023-11-21 昆明理工大学 一种基于压缩感知的通信信号的分选方法
CN112187282A (zh) * 2020-09-02 2021-01-05 北京电子工程总体研究所 基于字典双学习的压缩感知信号重构方法及***
CN112466315A (zh) * 2020-12-02 2021-03-09 公安部第三研究所 一种音视频的高码率获取方法
CN112737595B (zh) * 2020-12-28 2023-10-24 南京航空航天大学 一种基于fpga的可逆投影压缩感知方法
CN112802139A (zh) * 2021-02-05 2021-05-14 歌尔股份有限公司 一种图像处理方法、装置、电子设备及可读存储介质
CN113327632B (zh) * 2021-05-13 2023-07-28 南京邮电大学 一种基于字典学习的无监督异常声检测方法和装置
CN113644916B (zh) * 2021-07-30 2023-12-26 南京信息工程大学滨江学院 基于边缘计算的电力***稳态数据压缩方法
CN113723546B (zh) * 2021-09-03 2023-12-22 江苏理工学院 基于离散隐马尔可夫模型的轴承故障检测方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034478B (zh) * 2010-11-17 2013-10-30 南京邮电大学 基于压缩感知和信息隐藏的语音保密通信***设计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001463A1 (en) * 2010-07-01 2012-01-05 Nokia Corporation A compressed sampling audio apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034478B (zh) * 2010-11-17 2013-10-30 南京邮电大学 基于压缩感知和信息隐藏的语音保密通信***设计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于压缩感知的语音信号编码算法;*** 等;《桂林电子科技大学学报》;20120831;第32卷(第4期);全文 *
基于小波变换和压缩感知的低速率语音编码方案;叶蕾 等;《仪器仪表学报》;20100731;第31卷(第7期);全文 *
基于数据驱动字典和稀疏表示的语音增强;孙林慧 等;《信号处理》;20111231;第27卷(第12期);全文 *
行阶梯观测矩阵、对偶仿射尺度内点重构算法下的语音压缩感知;叶蕾 等;《电子学报》;20120331;第40卷(第3期);全文 *

Also Published As

Publication number Publication date
CN103778919A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103778919B (zh) 基于压缩感知和稀疏表示的语音编码方法
US6633839B2 (en) Method and apparatus for speech reconstruction in a distributed speech recognition system
CN101140759B (zh) 语音或音频信号的带宽扩展方法及***
CN105023580B (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
CN105070293B (zh) 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
CN108986834A (zh) 基于编解码器架构与递归神经网络的骨导语音盲增强方法
US7027979B2 (en) Method and apparatus for speech reconstruction within a distributed speech recognition system
CN103531205A (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN102750955B (zh) 基于残差信号频谱重构的声码器
CN111508470B (zh) 一种语音合成模型的训练方法及装置
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家***身份认证方法
CN104217730B (zh) 一种基于k‑svd的人工语音带宽扩展方法及装置
CN103236262B (zh) 一种语音编码器码流的转码方法
Thomas et al. Acoustic and data-driven features for robust speech activity detection
CN106875944A (zh) 一种语音控制家庭智能终端的***
CN104240717A (zh) 基于稀疏编码和理想二进制掩膜相结合的语音增强方法
CN114495973A (zh) 一种基于双路径自注意力机制的特定人语音分离方法
Shin et al. Audio coding based on spectral recovery by convolutional neural network
Liu et al. A novel unified framework for speech enhancement and bandwidth extension based on jointly trained neural networks
CN106935243A (zh) 一种基于melp的低比特数字语音矢量量化方法和***
CN117292694B (zh) 基于时不变编码的少令牌神经语音编解码方法和***
Srikotr et al. Predictive vector quantized variational autoencoder for spectral envelope quantization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140507

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000212

Denomination of invention: Speech coding method based on compressed sensing and sparse representation

Granted publication date: 20160817

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000212

Date of cancellation: 20180116

EC01 Cancellation of recordation of patent licensing contract
AV01 Patent right actively abandoned

Granted publication date: 20160817

Effective date of abandoning: 20230828

AV01 Patent right actively abandoned

Granted publication date: 20160817

Effective date of abandoning: 20230828

AV01 Patent right actively abandoned
AV01 Patent right actively abandoned