CN101958119A

CN101958119A - 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法

Info

Publication number: CN101958119A
Application number: CN200910158577.4A
Authority: CN
Inventors: 吴鸣; 林志斌; 彭科; 邓峥; 卢晶; 邱小军; 黎家力; 陈国明; 袁浩; 刘开文
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2009-07-16
Filing date: 2009-07-16
Publication date: 2011-01-26
Anticipated expiration: 2029-07-16
Also published as: EP2442304A4; JP5400963B2; BR112012000871A2; JP2012533094A; WO2011006369A1; RU2488899C1; HK1165076A1; CN101958119B; US20120109659A1; US8731910B2; EP2442304A1; EP2442304B1

Abstract

本发明提供了一种改进的离散余弦变换域音频丢帧补偿方法，包括：步骤a，当前丢失帧为第p帧时，获取待预测的频率点集合，对该集合中的每个频率点，使用第p-1帧前面的若干帧在改进的离散余弦变换-改进的离散正弦变换域，即MDCT-MDST域，的相位和幅值预测得到第p帧的相位和幅值，使用预测得到的相位和幅值得到第p帧在对应每个频率点的MDCT系数；步骤b，对一帧内除该集合之外的频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧在该频率点的MDCT系数值；步骤c，对第p帧在所有频率点的MDCT系数进行改进的离散余弦逆变换得到第p帧的时域信号。本发明还提供了一种丢帧补偿器。本发明具有无延迟、计算量存储量小、易于实现的优点。

Description

一种改进的离散余弦变换域音频丢帧补偿器和补偿方法

技术领域

本发明涉及音频解码领域，具体涉及一种无延时低复杂度的MDCT(Modified Discrete Cosine Transform，改进的离散余弦变换)域音频丢帧补偿器及补偿方法。

背景技术

在网络通信中，分组技术应用十分广泛，各种形式的信息如语音或者音频等数据通过编码后采用分组技术在网络上传输，如VoIP(网络电话)等。由于信息发送端发送容量的限制，或在指定延迟时间内分组信息帧没有到达接收端缓冲区，或是网络拥挤堵塞等造成语音频帧信息的丢失，引起解码端合成语音频质量的急剧下降，因此需要采用一些技术对丢帧的数据进行补偿。丢帧补偿器就是一种减轻由于丢帧导致语音频质量下降的现象的技术。目前丢帧补偿的技术很多，但这些丢帧补偿技术多数只适用于语音的丢帧补偿，而对音频的丢帧补偿很少有相关技术。

现有的音频丢帧补偿方法最为简单的是采用重复前一帧的MDCT信号或者静音替代的方法，该方法虽然实现简单且没有延迟，但是补偿效果一般；其他的补偿方式如GAPES(缺口数据幅值相位估计技术)将MDCT系数转化成DSTFT(离散短时傅里叶变换)系数，该方法运算复杂度高，消耗内存多；3GPP采用整形噪声***技术进行音频丢帧补偿，该方法对类噪声信号的补偿效果较好，对多谐波音频信号的补偿效果甚差。

综上所述，已公开的音频丢帧补偿技术多数效果不明显或是运算复杂度和延迟时间过长。

发明内容

本发明要解决的技术问题是提供一种MDCT域音频丢帧补偿器和补偿方法，补偿效果好，复杂度低且无延时。

为了解决上述问题，本发明提供了一种改进的离散余弦变换域音频丢帧补偿方法，包括：

步骤a，当前丢失帧为第p帧时，获取待预测的频率点集合，对所述待预测的频率点集合中的每个频率点，使用第p-1帧前面的若干帧在改进的离散余弦变换-改进的离散正弦变换域，即MDCT-MDST域，的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值，使用所述预测得到的第p帧在MDCT-MDST域的相位和幅值得到第p帧在对应所述每个频率点的改进的离散余弦变换域系数，即MDCT系数，其中，所述第p-1帧是第p帧的前一帧；

步骤b，对一帧内除所述待预测的频率点集合之外的频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧在该频率点的MDCT系数值；

步骤c，对第p帧在所有频率点的MDCT系数进行改进的离散余弦逆变换，即IMDCT变换，得到第p帧的时域信号。

进一步地，上述方法还可具有以下特点，所述步骤a之前还包括，检测到当前帧丢失时，判断当前丢失帧的类型，如果当前丢失帧是非语音帧，执行步骤a。

进一步地，上述方法还可具有以下特点，所述判断该当前丢失帧的类型具体包括：

计算当前丢失帧前K帧每帧的谱平坦度；如果该K帧中，谱平坦度小于一门限值的帧的个数小于等于K₀，则当前丢失帧为语音帧，否则，当前丢失帧为非语音帧，其中，K₀＜＝K，K₀，K为自然数。

进一步地，上述方法还可具有以下特点，所述步骤a中，获取待预测的频率点集合时，使用第p帧前面的若干帧的MDCT-MDST域复数信号和/或MDCT系数来获取待预测的频率点集合S_C，或者，直接将一帧内的所有频率点放入所述待预测的频率点集合S_C中。

进一步地，上述方法还可具有以下特点，所述获取待预测的频率点集合S_C具体包括：

将所述第p帧前面的若干帧设为L1帧，计算所述L1帧中各频率点的功率，获取该L1帧中各帧的峰值频率点组成的集合S₁，...，S_L1，各集合中的对应的频率点数为N₁，...，N_L1；

从所述L1个集合S₁，...，S_L1中选取一集合S_i，对S_i中的每个峰值频率点m_j，j＝1...N_i，判断m_j，m_j±1，...，m_j±k中是否存在同时属于其余所有峰值频率点集合的频率点，如果存在，将m_j，m_j±1，...，m_j±k均放入频率点集合S_C；

如果对S_i中的每个峰值频率点m_j，j＝1...N_i，m_j，m_j±1，...，m_j±k中没有同时属于其余所有峰值频率点集合的频率点，直接将一帧内的所有频率点都放入频率点集合S_C；

其中，所述k为非负整数。

进一步地，上述方法还可具有以下特点，所述峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

进一步地，上述方法还可具有以下特点，当所述L1帧中包含第p-1帧时，第p-1帧中各频率点的功率通过如下方式计算：

其中

是第p-1帧在频率点m的功率，c^p-1(m)是第p-1帧在频率点m处的MDCT系数，c^p-1(m+1)是第p-1帧在频率点m+1处的MDCT系数，c^p-1(m-1)是第p-1帧在频率点m-1处的MDCT系数。

进一步地，上述方法还可具有以下特点，所述步骤a中，所述预测得到第p帧在MDCT-MDST域的相位和幅值具体包括：对待预测的频率点，使用第p-1帧前面的L2帧在该频率点的MDCT-MDST域的相位进行线性外推或线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位；从该L2帧中一帧在该频率点的MDCT-MDST域的幅值得到第p帧在该频率点的MDCT-MDST域的幅值，其中，L2＞1。

进一步地，上述方法还可具有以下特点，当L2＝2时，分别用第t1帧，第t2帧表示这两帧，通过如下方式预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，

所述

为第p帧在频率点m的MDCT-MDST域的相位的预测值，所述为第t1帧在频率点m的MDCT-MDST域的相位，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

进一步地，上述方法还可具有以下特点，当L2＞2时，对待预测的频率点，对所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位。

进一步地，上述方法还可具有以下特点，所述步骤a中，使用第p-2帧、第p-3帧的MDCT-MDST域复数信号和第p-1帧的MDCT系数来获取待预测的频率点集合，对该频率点集合中的每个频率点，使用第p-2帧、第p-3帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值。

进一步地，上述方法还可具有以下特点，所述步骤b中，采用第p-1帧的MDCT系数值的一半作为第p帧的MDCT系数值。

本发明还提供一种改进的离散余弦变换域音频丢帧补偿器，所述丢帧补偿器包括多谐波丢帧补偿模块、第二补偿模块和IMDCT模块，其中：

所述多谐波丢帧补偿模块，用于在当前丢失帧为第p帧时，获取待预测的频率点集合，对所述待预测的频率点集合中的每个频率点，使用第p-1帧前面的若干帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值，使用所述预测得到的第p帧在MDCT-MDST域的相位和幅值得到第p帧在对应所述每个频率点的MDCT系数，将该MDCT系数发送给第二补偿模块，所述第p-1帧是第p帧的前一帧；

所述第二补偿模块，用于对一帧内除所述待预测的频率点集合之外的频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧在该频率点的MDCT系数值，将第p帧在所有频率点的MDCT系数发送给IMDCT模块；

所述IMDCT模块，用于对第p帧在所有频率点的MDCT系数进行[MDCT变换，得到第p帧的时域信号。

进一步地，上述丢帧补偿器还可具有以下特点，所述丢帧补偿器还包括帧类型检测模块，其中：

所述帧类型检测模块，用于在检测到丢失帧时，判断当前丢失帧的类型，如果是非语音帧，指示所述多谐波丢帧补偿模块进行补偿。

进一步地，上述丢帧补偿器还可具有以下特点，所述帧类型检测模块通过如下方式判断当前丢失帧的类型：计算当前丢失帧前K帧每帧的谱平坦度；如果该K帧中，谱平坦度小于一门限值的帧的个数小于等于K₀，则当前丢失帧为语音帧，否则，当前丢失帧为非语音帧，其中，K₀＜＝K，K₀，K为自然数。

进一步地，上述丢帧补偿器还可具有以下特点，所述多谐波丢帧补偿模块，用于使用第p帧前面的若干帧的MDCT-MDST域复数信号和/或MDCT系数来获取待预测的频率点集合S_C，或者，直接将一帧内的所有频率点放入所述待预测的频率点集合S_C中。

进一步地，上述丢帧补偿器还可具有以下特点，所述多谐波丢帧补偿模块，进一步包括频率点集合生成单元，其中：

所述频率点集合生成单元用于生成待预测的频率点集合S_C，具体生成方法如下：

如果对S_i中的每个峰值频率点m_j，j＝1...N_i，m_j，m_j±1，...，m_j±k中没有同时属于其余所有峰值频率点集合的频率点，直接将一帧内的所有频率点都放入频率点集合S_C；其中，k为非负整数。

进一步地，上述丢帧补偿器还可具有以下特点，所述峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

进一步地，上述丢帧补偿器还可具有以下特点，所述频率点集合生成单元，用于在所述L1帧中包括第p-1帧时，通过如下方式计算所述第p-1帧中各频率点的功率：

其中

进一步地，上述丢帧补偿器还可具有以下特点，

所述多谐波丢帧补偿模块，进一步包括系数生成单元，用于使用第p-1帧前面的L2帧在MDCT-MDST域的相位和幅值预测得到第p帧中属于所述待预测的频率点集合的各频率点的相位和幅值，使用预测得到的第p帧的相位和幅值得到第p帧在对应所述每个频率点的MDCT系数的MDCT系数，将该MDCT系数发送给第二补偿模块，其中，L2＞1；

所述系数生成单元进一步包括相位预测子单元和幅值预测子单元，其中：

所述相位预测子单元，用于对待预测的频率点，使用所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性外推或线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位；

所述幅值预测子单元，用于从该L2帧中一帧在该频率点的MDCT-MDST域的幅值得到第p帧在该频率点的MDCT-MDST域的幅值。

进一步地，上述丢帧补偿器还可具有以下特点，当L2＝2时，分别用第t1帧，第t2帧表示这两帧，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，

所述为第p帧在频率点m的MDCT-MDST域的相位的预测值，所述

为第t1帧在频率点m的MDCT-MDST域的相位，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

进一步地，上述丢帧补偿器还可具有以下特点，当L2＞2时，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点，对所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位。

进一步地，上述丢帧补偿器还可具有以下特点，所述多谐波丢帧补偿模块，用于使用第p-2帧、第p-3帧的MDCT-MDST域复数信号和第p-1帧的MDCT系数来获取待预测的频率点集合，对该频率点集合中的每个频率点，使用第p-2帧、第p-3帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值。

进一步地，上述丢帧补偿器还可具有以下特点，所述第二补偿模块，用于采用第p-1帧的MDCT系数值的一半作为第p帧在除所述待预测的频率点集合之外的频率点的MDCT系数值。

本发明提出的MDCT域音频丢帧补偿器和补偿方法，对于语音帧，当前丢失帧的MDCT系数使用其之前的若干帧的MDCT系数值计算得到；对于非语音帧，利用其在MDCT-MDST域上的特性得到当前丢失帧的MDCT系数。相对于现有技术，本发明具有无延迟、计算量存储量小、易于实现等优点。

附图说明

图1是本发明帧顺序示意图；

图2是本发明MDCT域音频丢帧补偿方法流程图；

图3是本发明语音/非语音帧判断流程图；

图4是本发明非语音帧丢帧补偿方法流程图；

图5是本发明实施例1多谐波丢帧补偿MDCT系数计算方法流程图；

图6是本发明MDCT域音频丢帧补偿器框图；

图7是本发明另一实施例MDCT域音频丢帧补偿器框图；

图8是本发明又一实施例MDCT域音频丢帧补偿器框图。

具体实施方式

本发明的主要思想是：利用谐波信号在MDCT-MDST域的相位呈线性这一特征，使用当前丢失帧前面若干帧的信息预测得到当前丢失帧的MDCT-MDST域相位和幅值，进而得到当前丢失帧的MDCT系数，根据当前丢失帧的MDCT系数得到当前丢失帧的时域信号。

本发明提出一种MDCT域音频丢帧补偿方法，如图2所示，包括：

步骤S1，当解码端发现当前帧的数据包丢失，将该当前帧称为当前丢失帧，判断该当前丢失帧的类型，如果当前丢失帧为语音帧，执行步骤S2；否则，执行步骤S3；

其中，判断该当前丢失帧的类型是根据当前丢失帧的前K帧的MDCT系数进行判断，如图3所示，包括：

1a)对当前丢失帧的前K帧中的每一帧，计算该帧的谱平坦度，当其谱平坦度小于一预设门限时，认为该帧主要由多谐波组成，为多谐波稳态信号帧；

1b)如果所述前K帧中多谐波稳态信号帧的数目小于等于K₀帧，则认为当前丢失帧为语音帧，否则为非语音帧(如音乐帧)，其中，K₀＜＝K，K₀，K为预先设置的值。

本发明不限于使用图3所示方法判断当前丢失帧的类型，也可以使用其他方法进行判断，比如使用过零率进行判断，本发明对此不作限定。

步骤S2，如果判断当前丢失帧为语音帧，对一帧内的所有频率点，使用当前丢失帧前的若干帧的MDCT系数值计算当前丢失帧的MDCT系数值；然后执行步骤S4。

比如，采用当前丢失帧的前一帧的MDCT系数值的一半或其他比例作为当前丢失帧的MDCT系数值。

步骤S3，如果判断当前丢失帧为非语音帧，采用无延迟多谐波丢帧补偿算法估计得到当前丢失帧的MDCT系数，如图4所示，具体包括：

3a)当第p帧的数据包丢失，即当前丢失帧为第p帧，在第p帧之前取L1帧。

当该L1帧中包含第p-1帧时，根据当前丢失帧之前帧解码得到的MDCT系数，采用FMDST(Fast Modified Discrete Sine Transform，快速的改进离散正弦变换)算法得到该L1帧中除了第p-1帧以外的L1-1帧的MDST(Modified Discrete Sine Transform，改进的离散正弦变换)系数。对该L1-1帧中的每一帧，将每帧的MDST系数和MDCT系数组成该帧的MDCT-MDST域复数信号，其中，MDCT系数为实部参数，MDST系数为虚部参数。

当该L1帧中不包含第p-1帧时，根据当前丢失帧之前帧解码得到的MDCT系数，采用FMDST算法得到该L1帧的MDST系数，对该L1帧中的每一帧，将每帧的MDST系数和MDCT系数组成该帧的MDCT-MDST域复数信号，其中，MDCT系数为实部参数，MDST系数为虚部参数。

其中，计算MDST系数的方法如下：

根据第p-1帧和第p-2帧的MDCT系数做逆MDCT变换得到第p-2帧的时域信号，根据第p-2帧和第p-3帧的MDCT系数做逆MDCT变换得到第p-3帧的时域信号，依此类推；

根据第p-2帧和第p-3帧的时域信号用FMDST算法得到第p-2帧的MDST系数，根据第p-3帧和第p-4帧的时域信号用FMDST算法得到第p-3帧的MDST系数，依此类推。

其中，第p帧，第p-1帧等各帧的顺序如图1所示。

3b)对上述L1帧求每帧的峰值频率点集合。

如果这L1帧中包含第p-1帧，则：

对第p-1帧，根据第p-1帧的MDCT系数计算第p-1帧中各频率点的功率，获取该帧中功率最大的前若干个峰值频率点组成的集合；

对除第p-1帧外的其余每一帧，根据该帧的MDCT-MDST域复数信号计算该帧中各频率点的功率，获取该帧中功率最大的前若干个峰值频率点组成的集合；其中，峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

如果这L1帧中不包含第p-1帧，则：

对该L1帧中的每一帧都根据其MDCT-MDST域复数信号获取该帧中功率最大的前若干个峰值频率点组成的集合。

这L1个集合中的频率点数可以相同或不同。

也可使用其他方式获取这L1个集合，比如对于每一帧直接取功率大于一设定阈值的峰值频率点组成的集合，每一帧取的阈值可以相同或不同。

3c)如果L1＞1，假设这L1个频率点集合叫做S₁，...，S_L1，集合中的对应的频率点数为N₁，...，N_L1，选取一集合S_i，对S_i中的每个峰值频率点m_j(j＝1...N_i)，判断m_j，m_j±1，...，m_j±k(k是非负整数，通常取k＝0或者1)中是否存在同时属于其余所有的峰值频率点集合的频率点，如果存在，将m_j，m_j±1，...，m_j±k均放入频率点集合S_C。

如果对S_i中的每个峰值频率点m_j(j＝1...N_i)，m_j，m_j±1，...，m_j±k中没有同时属于其余所有峰值频率点集合的频率点，直接将一帧内的所有频率点都放入频率点集合S_C。

如果L1＝1，假设这个频率点集合叫做S₁，其对应的频率点数为N₁，对峰值频率点集合S₁中的每个峰值频率点m_i(i＝1...N₁)，将m_i，m_i±1，...，m_i±k(k是非负整数，通常取k＝0或者1)均放入频率点集合S_C。

也可不执行步骤3a、3b和步骤3c的以上部分，直接将一帧内的所有频率点都放入频率点集合S_C。

3d)在第p-1帧之前取L2(L2＞1)帧，计算得到该L2帧的MDCT-MDST域复数信号(具体计算方法同步骤3a中的方法)。对频率点集合S_C中的每个频率点，使用该L2帧在MDCT-MDST域的相位预测得到当前丢失帧在MDCT-MDST域的相位，使用该L2帧在MDCT-MDST域的幅值预测得到当前丢失帧在MDCT-MDST域的幅值，根据当前丢失帧的相位和幅值进而得到当前丢失帧在对应所述每个频率点的MDCT系数。

如果L2＝2，对于频率点集合S_C中的所有频率点，对每个待预测的频率点，使用所选取的这2帧在该频率点的相位进行线性外推，得到当前丢失帧在该频率点的MDCT-MDST域复数信号相位；从这2帧中一帧在该频率点的MDCT-MDST域的幅值得到当前丢失帧在该频率点的MDCT-MDST域复数信号的幅值，即用该2帧中一帧在该频率点的MDCT-MDST域的幅值作为当前丢失帧在该频率点的MDCT-MDST域的幅值。

线性外推的一种方法如下：

当L2＝2时，分别用第t1帧，第t2帧表示这两帧，通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，

所述

为第p帧在频率点m的MDCT-MDST域的相位的预测值，所述

为第t1帧在频率点m的MDCT-MDST域的相位，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

如果L2＞2，对于集合S_C中的所有频率点，对每个待预测的频率点，使用这L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到当前丢失帧在该频率点的MDCT-MDST域复数信号相位；从这L2帧中的一帧在该频率点的MDCT-MDST域的幅值得到当前丢失帧在该频率点的MDCT-MDST域复数信号的幅值，即使用该L2帧中的一帧在该频率点的MDCT-MDST域的幅值作为当前丢失帧在该频率点的MDCT-MDST域的幅值。

3e)对所述频率点集合S_C之外的频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧的MDCT系数值。比如，使用当前丢失帧的前一帧的MDCT系数值的一半作为当前丢失帧的MDCT系数值。

在本发明另一实施例中，在步骤S3中，也可在步骤3a之前，执行步骤“对一帧内的所有频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧的MDCT系数值”，然后执行步骤3a、3b、3c和3d后跳过步骤3e进入步骤S4；或者，在步骤3d之前执行“对一帧内的所有频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧的MDCT系数值”，然后在执行步骤3d之后跳过步骤3e进入步骤S4。

也可以作其他变形，比如，步骤3e在步骤3c之后步骤S4之前执行即可，即得到频率点集合S_C后就可以执行。

步骤S4，对所述当前丢失帧在所有频率点的MDCT系数进行IMDCT(Inverse MDCT，改进的离散余弦逆变换)变换，得到当前丢失帧的时域信号。

上述实施例还可进行如下变形：先进行初始补偿，即可以先对一帧内的所有频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧的MDCT系数值，再判断当前丢失帧的类型，根据当前丢失帧的类型执行不同的步骤，如果是语音帧，则直接执行步骤S4，如果是非语音帧，则执行步骤S3中的步骤3a、3b、3c及3d后跳过步骤3e直接执行步骤S4。

下面通过两个具体实施例进一步说明本发明。

[实施例1]

步骤110，解码端发现当前帧的数据包丢失，判断当前帧(即当前丢失帧)为语音帧还是非语音帧(例如由多种谐波组成的音乐帧)，如果是语音帧，执行步骤120，否则，执行步骤130；

具体判断方法为：

计算当前丢失帧的前10帧的谱平坦度，当谱平坦度小于0.1时，认为该帧为多谐波稳态信号帧。当丢失帧的前10帧中有大于8帧为多谐波稳态信号帧时，认为当前丢失帧是非语音帧，否则认为是语音帧，谱平坦度的计算方法如下：

第i帧谱平坦度SFM_i定义为第i帧信号的变换域下信号幅值的几何平均值与算术平均值之比：

{SFM}_{i} = \frac{G_{i}}{A_{i}} - - - (1)

其中

为第i帧信号幅值的几何平均，

为第i帧信号幅值的算术平均，cⁱ(m)为第i帧在频率点m的MDCT系数，M为MDCT域信号帧长度。

步骤120，如果判断当前丢失帧为语音帧，对一帧内的所有频率点，采用当前丢失帧的前一帧的MDCT系数值的一半作为当前丢失帧的MDCT系数值，即：

c^p(m)＝0.5*c^p-1(m)m＝0，1，2，3...M-1 (2)

然后执行步骤140。

步骤130，如果判断当前丢失帧为非语音帧，采用无延迟多谐波丢帧补偿算法得到当前丢失帧的MDCT系数，执行步骤140；

具体采用无延迟多谐波丢帧补偿算法获得当前丢失帧MDCT系数的方法如图5所示，包括：当第p帧的数据包丢失时，

首先，对一帧内的所有频率点，采用第p-1帧在该频率点的MDCT系数值的一半作为第p帧在该频率点的MDCT系数值，如式(2)所示；

然后，根据当前丢失帧之前帧解码得到的MDCT系数，采用FMDST算法得到第p-2帧和第p-3帧的MDST系数s^p-2(m)和s^p-3(m)。把得到的第p-2帧和第p-3帧的MDST系数和第p-2帧和第p-3帧的MDCT系数c^p-2(m)和c^p-3(m)组成MDCT-MDST域的复数信号：

v^p-2(m)＝c^p-2(m)+js^p-2(m) (3)

v^p-3(m)＝c^p-3(m)+js^p-3(m) (4)

其中j为虚数符号。

计算第p-2帧和第p-3帧中各频率点的功率|v^p-2(m)|²，|v^p-3(m)|²，分别取第p-2帧和第p-3帧中功率最大的前10个峰值频率点(如果任何一帧中的峰值频率点少于10个，则取该帧中的所有峰值频率点)组成频率点集合m^p-2，m^p-3。

根据第p-1帧的MDCT系数估计第p-1帧中各频率点的功率。

{| {\hat{v}}^{p - 1} (m) |}^{2} = {[c^{p - 1} (m)]}^{2} + {[c^{p - 1} (m + 1) - c^{p - 1} (m - 1)]}^{2} - - - (5)

其中，

是第p-1帧在频率点m的功率，c^p-1(m)是第p-1帧在频率点m处的MDCT系数，其余类似。

求得第p-1帧中功率最大的前10个峰值频率点

i＝1...10。如果该帧中的峰值频率点数N^p-1小于10，则取该帧中的所有峰值频率点i＝1...N^p-1。

对每个判断

(峰值频率点附近的频率点其功率也可能比较大，因此将其加入第p-1帧的峰值频率点的集合中)中是否存在同时属于集合m^p-2，m^p-3的频率点。如果同时属于集合m^p-2，m^p-3，根据下面式(6)-(11)求得第p帧在频率点

(

中只要有一个点同时属于m^p-2和m^p-3，对

这三个频率点都作下述计算)的MDCT-MDST域复数信号的相位和幅值：

A^p-2(m)＝|v^p-2(m)| (8)

A^p-3(m)＝|v^p-3(m)| (9)

{\hat{A}}^{p} (m) = A^{p - 2} (m) - - - (11)

A分别表示相位和幅值。例如，

为第p帧在频率点m的相位，

为第p-2帧在频率点m的相位，

为第p-3帧在频率点m的相位，

是第p帧在频率点m的幅值，A^p-2(m)为第p-2帧在频率点m的幅值，其余类似。

因此补偿得到的第p帧在频率点m的MDCT系数为

如果在所有

中没有同时属于集合m^p-2，m^p-3的频率点，就对当前丢失帧内所有频率点根据式(6)-(12)估计MDCT系数。

也可不求需要做预测的频率点，直接对当前丢失帧内所有频率点根据式(6)-(12)估计MDCT系数。

步骤140，对当前丢失帧在所有频率点的MDCT系数进行IMDCT变换，得到当前丢失帧的时域信号。

[实施例2]

步骤210，解码端发现当前帧的数据包丢失，判断当前帧(即当前丢失帧)为语音帧还是非语音帧(例如由多种谐波组成的音乐帧)，如果是语音帧，执行步骤220，否则，执行步骤230；

具体判断当前丢失帧是语音帧还是非语音帧的方法为：

计算当前丢失帧的前10帧的谱平坦度，对每一帧，当该帧的谱平坦度小于0.1时，认为该帧为多谐波稳态信号帧。如果当前丢失帧的前10帧中有大于8帧为多谐波稳态信号帧，则认为当前丢失帧是非语音帧，否则认为是语音帧。其中，谱平坦度的计算方法如下：

第i帧的谱平坦度SFM_i定义为第i帧信号的变换域下信号幅值的几何平均值与算术平均值之比：

{SFM}_{i} = \frac{G_{i}}{A_{i}} - - - (13)

其中

为第i帧信号幅值的几何平均，为第i帧信号幅值的算术平均，cⁱ(m)为第i帧在频率点m的MDCT系数，M为MDCT域信号帧长度。

步骤220，如果判断当前丢失帧为语音帧，对一帧内的所有频率点，采用当前丢失帧的前一帧的MDCT系数值的一半作为当前丢失帧的MDCT系数值，即：

c^p(m)＝0.5*c^p-1(m)m＝0，1，2，3...M-1 (14)

然后执行步骤240。

步骤230，如果判断当前丢失帧为非语音帧，采用无延迟多谐波丢帧补偿算法得到当前丢失帧的MDCT系数，执行步骤240；

具体采用无延迟多谐波丢帧补偿算法获得当前丢失帧MDCT系数的方法为：当第p帧的数据包丢失时，根据当前丢失帧之前帧解码得到的MDCT系数，采用FMDST算法得到第p-2帧、第p-3帧和第p-4帧的MDST系数s^p-2(m)、s^p-3(m)和s^p-4(m)。把得到的第p-2帧、第p-3帧和第p-4帧的MDST系数和第p-2帧、第p-3帧和第p-4帧的MDCT系数c^p-2(m)、c^p-3(m)和c^p-4(m)组成MDCT-MDST域的复数信号：

v^p-2(m)＝c^p-2(m)+js^p-2(m) (15)

v^p-3(m)＝c^p-3(m)+js^p-3(m) (16)

v^p-4(m)＝c^p-4(m)+js^p-4(m) (17)

其中j为虚数符号。

计算第p-2帧、第p-3帧和第p-4帧中各频率点的功率|v^p-2(m)|²，|v^p-3(m)|²，|v^p-4(m)|²，分别取第p-2帧、第p-3帧和第p-4帧中功率最大的前10个峰值频率点(如果任何一帧中的峰值频率点少于10个，则取该帧中的所有峰值频率点)组成频率点集合m^p-2，m^p-3，m^p-4。

对频率点集合m^p-4中的每个频率点

判断

(峰值频率点附近的频率点其功率也可能比较大，因此将其加入第p-4帧的峰值频率点的集合中)中是否存在同时属于集合m^p-2，m^p-3的频率点。如果存在同时属于集合m^p-2，m^p-3的频率点，根据下面式(18)-(27)求得第p帧在频率点

(

中只要有一个点同时属于m^p-2和m^p-3，对

A^p-2(m)＝|v^p-2(m)| (21)

A^p-3(m)＝|v^p-3(m)| (22)

A^p-4(m)＝|v^p-4(m)| (23)

{\hat{A}}^{p} (m) = A^{p - 2} (m)

(24)

A分别表示相位和幅值。例如，

为第p帧在频率点m的相位，

为第p-2帧在频率点m的相位，为第p-3帧在频率点m的相位，为第p帧在频率点m的幅值，A^p-2(m)为第p-2帧在频率点m的幅值，其余类似。

下面将用最小二乘法来求不同帧在同一频率点的相位的线性拟合函数

其中x表示帧序号，a₀，a₁表示要求的线性拟合函数的系数。

根据用最小二乘准则来度量拟合误差的方法，从方程组

解出a₀，a₁。在其他实施例中，也可用不同于最小二乘准则的其他准则来度量拟合误差，估计拟合系数。根据解出的a₀，a₁，即可估计得到第p帧在频率点m的相位

因此补偿得到的第p帧在频率点m的MDCT系数为

如果在所有

中存在同时属于集合m^p-2，m^p-3的频率点，用S_C表示上述所有根据式(18)-(28)进行补偿的频率点组成的集合，对一帧内在频率点集合S_C之外的频率点，采用当前丢失帧的前一帧的MDCT系数值的一半作为当前丢失帧的MDCT系数值。

如果在所有

中没有同时属于集合m^p-2，m^p-3的频率点，就对当前丢失帧内所有频率点根据式(18)-(28)估计MDCT系数。

也可不求需要做预测的频率点，直接对当前丢失帧内所有频率点根据式(18)-(28)估计MDCT系数。

步骤240，对当前丢失帧在所有频率点的MDCT系数进行IMDCT变换，得到当前丢失帧的时域信号。

本发明还提供一种MDCT域音频丢帧补偿器，包括帧类型检测模块，语音丢帧补偿模块，多谐波丢帧补偿模块，第二补偿模块和IMDCT模块，如图6所示，其中：

所述帧类型检测模块，用于在检测到丢失帧时，判断当前丢失帧的类型，如果是语音帧，则指示语音丢帧补偿模块进行补偿；如果是非语音帧，则指示多谐波丢帧补偿模块进行补偿；具体判断当前丢失帧的类型的方法如前文所述，此处不再赘述。

所述语音丢帧补偿模块，用于对一帧内的所有频率点，使用当前丢失帧前的若干帧的MDCT系数值计算当前丢失帧的MDCT系数值，将该MDCT系数发送给IMDCT模块；

进一步地，所述多谐波丢帧补偿模块，用于使用第p-2帧、第p-3帧的MDCT-MDST域复数信号和第p-1帧的MDCT系数来获取待预测的频率点集合，对该频率点集合中的每个频率点，使用第p-2帧、第p-3帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值。

进一步地，所述多谐波丢帧补偿模块获取待预测的频率点集合时，使用第p帧前面的若干帧的MDCT-MDST域复数信号和/或MDCT系数来获取待预测的频率点集合，或者，直接将一帧内的所有频率点放入所述频率点集合中。

所述第二补偿模块，用于对一帧内除所述待预测的频率点集合之外的频率点，使用第p帧前的若干帧的MDCT系数值计算第p帧在该频率点的MDCT系数值，将第p帧在所有频率点的MDCT系数发送给IMDCT模块；进一步的，所述第二补偿模块采用第p-1帧的MDCT系数值的一半作为第p帧在除所述待预测的频率点集合之外的频率点的MDCT系数值。

所述多谐波丢帧补偿模块，进一步包括频率点集合生成单元和系数生成单元，其中，

所述频率点集合生成单元，用于生成待预测的频率点集合S_C；

所述系数生成单元，用于使用第p-1帧前的L2帧在MDCT-MDST域的相位和幅值预测得到第p帧中属于频率点集合S_C的各频率点的相位和幅值，使用所述预测得到的第p帧在MDCT-MDST域的相位和幅值得到第p帧在对应所述每个频率点的MDCT系数，将该MDCT系数发送给第二补偿模块，其中，L2＞1。

所述频率点集合生成单元按如下方式生成待预测的频率点集合S_C：将所述第p帧前面的若干帧设为L1帧，计算所述L1帧中各频率点的功率，获取该L1帧中各帧的峰值频率点组成的集合S₁，...，S_L1，各集合中的对应的频率点数为N₁，...，N_L1；

其中，k为非负整数。所述峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

所述L1帧中包括第p-1帧时，所述频率点集合生成单元通过如下方式计算所述第p-1帧中各频率点的功率：

其中是第p-1帧在频率点m的功率，c^p-1(m)是第p-1帧在频率点m处的MDCT系数，c^p-1(m+1)是第p-1帧在频率点m+1处的MDCT系数，c^p-1(m-1)是第p-1帧在频率点m-1处的MDCT系数。

所述系数生成单元进一步包括相位预测子单元和幅值预测子单元，其中，

所述幅值预测子单元，用于从该L2帧中其中一帧在该频率点的MDCT-MDST域的幅值得到第p帧在该频率点的MDCT-MDST域的幅值。

当L2＝2时，分别用第t1帧，第t2帧表示这两帧，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，

所述

为第p帧在频率点m的MDCT-MDST域的相位的预测值，所述

为第t1帧在频率点m的MDCT-MDST域的相位，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

当L2＞2时，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点，对所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位。

所述IMDCT模块，用于对所述当前丢失帧在所有频率点的MDCT系数进行IMDCT变换，得到第p帧的时域信号。

图6所示MDCT域音频丢帧补偿器可进行变动，如图7所示，包括帧类型检测模块，语音丢帧补偿模块，多谐波丢帧补偿模块，第二补偿模块和IMDCT模块，第二补偿模块与帧类型检测模块和多谐波丢帧补偿模块相连，多谐波丢帧补偿模块和IMDCT模块相连，其中：

所述第二补偿模块，用于对一帧内的所有频率点，使用当前丢失帧前的若干帧的MDCT系数值计算当前丢失帧的MDCT系数值，将该MDCT系数发送给多谐波丢帧补偿模块；

所述多谐波丢帧补偿模块，用于获取待预测的频率点集合，得到第p帧在待预测的频率点集合中各频率点的MDCT系数，具体方法同图6中多谐波丢帧补偿模块；对待预测的频率点集合之外的各频率点，使用从第二补偿模块得到的MDCT系数作为第p帧在该频率点的MDCT系数，将第p帧在所有频率点的MDCT系数发送给IMDCT模块。

其余各模块功能与图6中各模块类似，此处不再赘述。

如图8所示，为本发明又一MDCT域音频丢帧补偿器框图，其中MDCT域音频丢帧补偿器包括语音丢帧补偿模块，帧类型检测模块、多谐波丢帧补偿模块和IMDCT模块，其中：

所述语音丢帧补偿模块，用于在检测到丢失帧时，对一帧内的所有频率点，使用当前丢失帧前的若干帧的MDCT系数值计算当前丢失帧的MDCT系数值，将该MDCT系数发送给帧类型检测模块；

所述帧类型检测模块，用于判断当前丢失帧的类型，如果是语音帧，则将从语音丢帧补偿模块收到的MDCT系数发送给IMDCT模块；如果是非语音帧，则将该MDCT系数发送给多谐波丢帧补偿模块；具体判断当前丢失帧的类型的方法如前文所述，此处不再赘述。

所述多谐波丢帧补偿模块，用于获取待预测的频率点集合，得到第p帧在待预测的频率点集合中各频率点的MDCT系数，具体方法同图6中多谐波丢帧补偿模块；对待预测的频率点集合之外的各频率点，使用从帧类型检测模块得到的MDCT系数作为第p帧在该频率点的MDCT系数，将第p帧在所有频率点的MDCT系数发送给IMDCT模块；

本发明提出的丢帧补偿方法和丢帧补偿器，可以用于实时双向通信如无线、IP会议电视和实时广播业务的IPTV、移动流媒体、手机电视等领域的音频丢帧补偿问题，以提高传输码流的抗误码能力。本发明通过补偿操作能很好地避免由于语音频网络传输丢包带来的音质下降，提高丢包后语音频质量的舒适度，得到很好的主观听觉效果。

Claims

1.一种改进的离散余弦变换域音频丢帧补偿方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述步骤a之前还包括，检测到当前帧丢失时，判断当前丢失帧的类型，如果当前丢失帧是非语音帧，执行步骤a。

3.如权利要求2所述的方法，其特征在于，所述判断该当前丢失帧的类型具体包括：

计算当前丢失帧前K帧每帧的谱平坦度；如果该K帧中，谱平坦度小于一门限值的帧的个数小于等于K₀，则当前丢失帧为语音帧，否则，当前丢失帧为非语音帧，其中，K_o＜＝K，K₀，K为自然数。

4.如权利要求1所述的方法，其特征在于，所述步骤a中，获取待预测的频率点集合时，使用第p帧前面的若干帧的MDCT-MDST域复数信号和/或MDCT系数来获取待预测的频率点集合S_C，或者，直接将一帧内的所有频率点放入所述待预测的频率点集合S_C中。

5.如权利要求4所述的方法，其特征在于，所述获取待预测的频率点集合S_C具体包括：

其中，所述k为非负整数。

6.如权利要求5所述的方法，其特征在于，所述峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

7.如权利要求5所述的方法，其特征在于，当所述L1帧中包含第p-1帧时，第p-1帧中各频率点的功率通过如下方式计算：

8.如权利要求1至7任一所述的方法，其特征在于，所述步骤a中，所述预测得到第p帧在MDCT-MDST域的相位和幅值具体包括：对待预测的频率点，使用第p-1帧前面的L2帧在该频率点的MDCT-MDST域的相位进行线性外推或线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位；从该L2帧中一帧在该频率点的MDCT-MDST域的幅值得到第p帧在该频率点的MDCT-MDST域的幅值，其中，L2＞1。

9.如权利要求8所述的方法，其特征在于，当L2＝2时，分别用第t1帧，第t2帧表示这两帧，通过如下方式预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

10.如权利要求8所述的方法，其特征在于，当L2＞2时，对待预测的频率点，对所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位。

11.如权利要求1至7任一所述的方法，其特征在于，所述步骤a中，使用第p-2帧、第p-3帧的MDCT-MDST域复数信号和第p-1帧的MDCT系数来获取待预测的频率点集合，对该频率点集合中的每个频率点，使用第p-2帧、第p-3帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值。

12.如权利要求1至7任一所述的方法，其特征在于，所述步骤b中，采用第p-1帧的MDCT系数值的一半作为第p帧的MDCT系数值。

13.一种改进的离散余弦变换域音频丢帧补偿器，其特征在于，所述丢帧补偿器包括多谐波丢帧补偿模块、第二补偿模块和IMDCT模块，其中：

所述IMDCT模块，用于对第p帧在所有频率点的MDCT系数进行IMDCT变换，得到第p帧的时域信号。

14.如权利要求13所述的丢帧补偿器，其特征在于，所述丢帧补偿器还包括帧类型检测模块，其中：

15.如权利要求14所述的丢帧补偿器，其特征在于，所述帧类型检测模块通过如下方式判断当前丢失帧的类型：计算当前丢失帧前K帧每帧的谱平坦度；如果该K帧中，谱平坦度小于一门限值的帧的个数小于等于K₀，则当前丢失帧为语音帧，否则，当前丢失帧为非语音帧，其中，K_o＜＝K，K₀，K为自然数。

16.如权利要求13所述的丢帧补偿器，其特征在于，所述多谐波丢帧补偿模块，用于使用第p帧前面的若干帧的MDCT-MDST域复数信号和/或MDCT系数来获取待预测的频率点集合S_C，或者，直接将一帧内的所有频率点放入所述待预测的频率点集合S_C中。

17.如权利要求13所述的丢帧补偿器，其特征在于，所述多谐波丢帧补偿模块，进一步包括频率点集合生成单元，其中：

18.如权利要求17所述的丢帧补偿器，其特征在于，所述峰值频率点是指功率大于与其相邻的两个频率点上的功率的频率点。

19.如权利要求17所述的丢帧补偿器，其特征在于，所述频率点集合生成单元，用于在所述L1帧中包括第p-1帧时，通过如下方式计算所述第p-1帧中各频率点的功率：

其中

20.如权利要求13至19任一所述的丢帧补偿器，其特征在于，

21.如权利要求20所述的丢帧补偿器，其特征在于，当L2＝2时，分别用第t1帧，第t2帧表示这两帧，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点m，

所述

为第p帧在频率点m的MDCT-MDST域的相位的预测值，所述

为第t1帧在频率点m的MDCT-MDST域的相位，所述

为第t2帧在频率点m的MDCT-MDST域的相位。

22.如权利要求20所述的丢帧补偿器，其特征在于，当L2＞2时，所述相位预测子单元通过如下方法预测第p帧的MDCT-MDST域的相位：对待预测的频率点，对所选取的该L2帧在该频率点的MDCT-MDST域的相位进行线性拟合，得到第p帧在该频率点的MDCT-MDST域的相位。

23.如权利要求13至19任一所述的丢帧补偿器，其特征在于，所述多谐波丢帧补偿模块，用于使用第p-2帧、第p-3帧的MDCT-MDST域复数信号和第p-1帧的MDCT系数来获取待预测的频率点集合，对该频率点集合中的每个频率点，使用第p-2帧、第p-3帧在MDCT-MDST域的相位和幅值预测得到第p帧在MDCT-MDST域的相位和幅值。

24.如权利要求13至19任一所述的丢帧补偿器，其特征在于，所述第二补偿模块，用于采用第p-1帧的MDCT系数值的一半作为第p帧在除所述待预测的频率点集合之外的频率点的MDCT系数值。