CN1311424C

CN1311424C - 音频数据内插、关联信息制作、内插信息发送装置和方法

Info

Publication number: CN1311424C
Application number: CNB028005457A
Authority: CN
Inventors: 安田泰代; 大矢智之; 保谷早苗
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2001-03-06
Filing date: 2002-03-06
Publication date: 2007-04-18
Anticipated expiration: 2022-03-06
Also published as: KR20020087997A; KR100591350B1; CN1457484A; EP1367564A4; JPWO2002071389A1; EP1367564A1; US20030177011A1; WO2002071389A1

Abstract

本发明通过以下部分来构成判别音频数据中的误差或者损失发生的帧的声音状况并进行与该状况相对应的内插的内插装置：输入部，输入音频数据；检测部，检测音频数据的各帧的误差或者损失；状况判断部，输入或者推定误差或者损失被检出的帧的内插信息，使用该帧上输入或者推定的内插信息，判断检出的误差或者损失的声音状况；内插方法选择部，基于通过状况判断装置判断出的该帧的声音状况，对检出的误差或者损失的帧选择内插方法；内插部，使用对该帧的通过内插方法选择部对该帧选择的内插方法，来对误差或者损失被检出的帧进行内插。

Description

音频数据内插、关联信息制作、内插信息发送装置和方法

技术领域

本发明涉及音频数据内插装置及方法、音频数据关联信息制作装置及方法、和音频数据内插信息发送装置及方法。

背景技术

在现有技术中，例如，在移动通信中，当传输音频数据时，进行声音编码(AAC、AAC可扩缩)，在移动通信网(线路转接、信息分组交换等)上传输其比特流数据。

对于考虑传输误差的编码，在ISO/IEC MPEG-4 Audio中已经标准化了，但是，对于补偿残留误差的音频内插技术尚未进行规定(例如，参照ISO/IEC 14496-3，“Information technology Coding of ardio-visual objectsPart 3：Audio Amendment 1：Audio extensions”，2000)。

在现有技术中，对于在线路转接网的情况下误差产生以及在信息分组交换网的情况下分组损失产生的帧数据，进行与误差模型相对应的内插。作为内插法，具有例如称为静音(muting)、重复(repetition)、噪声置换(noise substitution)和预测(prediction)的方法。

图1A、1B、1C是表示内插的例子的图。图1A、1B、1C所示的波形是过渡(transient)的波形的例子，音源是响板。图1A表示没有误差时的波形。在此，设在图1A的虚线围绕的部分中发生了误差。图1B是通过重复来内插该部分的例子，图1C是通过噪声置换来内插该部分的例子。

图2A、2B、2C是表示内插的另一个例子的图。图2A、2B、2C所示的波形是稳态(steady)的波形的例子，音源是风笛。图2A表示没有误差时的波形。在此，设在图2A的虚线围绕的部分中发生了误差。图2B是通过重复来内插该部分的例子，图2C是通过噪声置换来内插该部分的例子。

虽然存在以上那样的内插法，但是，哪个内插法最佳，即使是相同误差模型，也取决于音源(声音的特性)。这是基于没有适合于全部音源的内插法的认识。特别是，哪个内插法最佳，即使是相同误差模型，取决于声音的瞬时特性。例如，在图1A、1B、1C的例子中，虽图1C的的噪声置换这一方优于图1B的重复，但是，在图2A、2B、2C的例子中，图2B的重复这一方优于图2C的噪声置换。

因此，在现有技术中，提出了对应于误差模型的各种音频内插法，但没有适应于音源模型的内插法(例如参照J.Herre and E.Eberlein，“Evaluation of Concealment Techniques for Compressed Digital Audio”，94th AES Convention，1993，preprint 3460)。

发明内容

因此，本发明的目的是提供能够判别(推定)音频数据中的误差或者损失发生的帧的声音状况，能进行与其状况对应的内插的音频数据内插装置及方法、和音频数据关联信息制作装置及方法。

而且，本发明的另一个目的是提供某个音频帧和与该音频帧相关的辅助信息不会一起损失的音频数据内插信息发送装置及方法。

本发明提供一种音频数据内插装置，进行由多个帧组成的音频数据的内插，其特征在于，包括：输入装置，输入上述音频数据；检测装置，检测上述音频数据的各帧的误差或者损失；状况判断装置，输入或者推定上述误差或者损失被检出的帧的内插信息，使用该帧上输入或者推定的内插信息，判断检出的上述误差或者损失的声音状况；内插方法选择装置，基于通过上述状况判断装置判断出的该帧的声音状况，对检出的上述误差或者损失的帧选择内插方法；内插装置，使用对该帧的通过上述内插方法选择装置选择的内插方法，来对上述误差或者损失被检出的帧进行内插。

而且，在本发明中，其特征在于，上述帧的各个都具有参数，上述状况判断装置根据该帧的前和/或后的帧的参数来判别上述误差或者损失被检出的帧的参数，根据该帧的参数来推定上述误差或者损失被检出的帧的声音状况。

而且，在本发明中，其特征在于，上述参数的过渡状态被预先决定，上述状况判断装置根据该帧的前和/或后的帧的参数以及上述过渡状态来判别上述误差或者损失被检出的帧的参数。

而且，在本发明中，其特征在于，上述状况判断装置根据上述误差或者损失被检出的帧的能量和该帧的前和/或后的帧的能量的相似性，来推定上述误差或者损失被检出的帧的声音状况。

而且，在本发明中，其特征在于，上述状况判断装置，通过比较以时间区域来分割上述误差或者损失被检出的帧时的各个分割区域的能量和以时间区域来分割该帧的前和/或后的帧时的各个分割区域的能量，来求出上述相似性。

而且，在本发明中，其特征在于，上述状况判断装置，通过比较以频率区域来分割上述误差或者损失被检出的帧时的各个分割区域的能量和以频率区域来分割该帧的前和/或后的帧时的各个分割区域的能量，来求出上述相似性。

而且，在本发明中，其特征在于，上述状况判断装置，根据与上述误差或者损失被检出的帧有关的、基于该帧的前和/或后的帧的可预测性，来推定上述误差或者损失被检出的帧的声音状况。

而且，在本发明中，其特征在于，上述状况判断装置，根据上述音频数据的频率区域中的分布偏移，来求出上述可预测性。

而且，在本发明中，其特征在于，上述状况判断装置，根据该帧前的帧的声音状况，来推定上述误差或者损失被检出的帧的声音状况。

进而，本发明提供一种音频数据关联信息制作装置，制作与由多个帧组成的音频数据相关联的信息，其特征在于，包括：输入装置，输入上述音频数据；制作装置，与上述音频数据的各帧相关，制作该帧的内插信息。上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

而且，在本发明中，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的能量和该帧的前和/或后的帧的能量的相似性的上述内插信息。

而且，在本发明中，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含与该帧有关的、基于与该帧的前和/或后的帧的可预测性的上述内插信息。

而且，在本发明中，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的声音状况的上述内插信息。

而且，在本发明中，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的内插法的上述内插信息。

而且，在本发明中，其特征在于，上述制作装置，对于上述音频数据的各帧，使误差发生，在误差发生的数据中使用多个内插法，根据该多个内插法的使用结果，来从该多个内插法中选择包含上述内插信息的内插法。

进而，本发明提供一种音频数据内插方法，进行由多个帧组成的音频数据的内插，其特征在于，包括下列步骤：输入上述音频数据；检测上述音频数据的各帧的误差或者损失；输入或者推定上述误差或者损失被检出的帧的内插信息，使用该帧上输入或者推定的内插信息，判断检出上述误差或者损失的帧的声音状况；基于上述判断的该帧的声音状况，对检出上述误差或者损失的帧选择内插方法；使用对该帧的上述被选择的内插方法，来对上述误差或者损失被检出的帧进行内插的步骤。

进而，本发明提供一种音频数据关联信息制作方法，制作与由多个帧组成的音频数据相关联的信息，其特征在于，包括下列步骤：输入上述音频数据；与上述音频数据的各帧相关，制作该帧的内插信息。上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

进而，本发明提供一种音频数据内插信息发送装置，发送由多个帧组成的音频数据的内插信息，其特征在于，包括：输入装置，输入上述音频数据；时间差附加装置，给与上述音频数据的各帧相对应的内插信息和该帧的音频数据之间赋予时间差；发送装置，把上述内插信息与上述音频数据一起进行发送。上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

而且，在本发明中，其特征在于，上述发送装置，仅在上述内插信息与之前的帧的内插信息不同时，与上述音频数据一起发送上述内插信息。

而且，在本发明中，其特征在于，上述发送装置通过把上述内插信息埋入音频数据中来进行发送。

而且，在本发明中，其特征在于，上述发送装置仅多次发送上述内插信息。

而且，在本发明中，其特征在于，上述发送装置仅对上述内插信息进行强力纠错后发送。

而且，在本发明中，其特征在于，上述发送装置根据再发送要求，仅对上述内插信息进行再发送。

进而，本发明提供一种音频数据内插信息发送装置，发送由多个帧组成的音频数据的内插信息，其特征在于，包括：输入装置，输入上述音频数据；发送装置，把与上述音频数据的各帧相对应的内插信息与上述音频数据分别进行发送。上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

而且，在本发明中，其特征在于，上述发送装置，用与发送上述音频数据的信道不同的可靠的其他信道来发送上述内插信息。

进而，本发明提供一种音频数据内插信息发送方法，发送由多个帧组成的音频数据的内插信息，其特征在于，包括下列步骤：输入上述音频数据；给与上述音频数据的各帧相对应的内插信息和该帧的音频数据之间赋予时间差；把上述内插信息与上述音频数据一起进行发送。

而且，在本发明中，还提供一种用于在计算机中执行上述音频数据内插方法的程序。

而且，在本发明中，还提供一种计算机可读的记录媒体，记录用于在计算机中执行上述音频数据内插信息发送方法的程序。

进而，本发明提供一种音频数据内插信息发送方法，发送由多个帧组成的音频数据的内插信息，其特征在于，包括下列步骤：输入上述音频数据；把与上述音频数据的各帧相对应的内插信息与上述音频数据分别进行发送的步骤。上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

附图说明

图1是表示现有的音频数据的内插的例子图；

图2是表示现有的音频数据的内插的另一个例子图；

图3是表示本发明的第一、第二、第三实施例的内插装置的构成例子的方框图；

图4是表示本发明的第一实施例的预定参数的过渡状态的例子图；

图5是用于说明本发明的第二实施例的能量比较图；

图6是用于说明本发明的第二实施例的能量比较的另一图；

图7是用于说明本发明的第二实施例的可预测性的计算方法的例子图；

图8是用于说明本发明的第二实施例的声音状况的判别方法的例子图；

图9是表示本发明的第二实施例的编码/内插信息制作装置的构成例子的方框图；

图10是表示本发明的第二实施例的内插装置的另一个构成例子的方框图；

图11是表示本发明的第二实施例的编码/内插信息制作装置的另一个构成例子的方框图；

图12是表示本发明的第四实施例的信息分组传输模型图；

图13是表示本发明的第四实施例的发送装置的构成例子的方框图；

图14是表示本发明的第五实施例的信息分组传输模型图；

图15是表示本发明的第六实施例的信息分组传输模型图；

图16是表示本发明的第七实施例的信息分组传输模型图。

具体实施方式

首先，参照图1～图11来对本发明所涉及的音频数据内插装置及方法、和音频数据关联信息制作装置及方法的实施例进行详细说明。

第一实施例

图3表示本发明的第一实施例的内插装置的构成例子。内插装置10的结构既可以做成接收音频数据的接收装置的一部分，也可以做成独立的部件。内插装置10包括：误差或者损失检测部14、解码部16、状况判别部18和内插法选择部20。

内插装置10对所输入的由多个帧组成的音频数据(在本实施例中为比特流)，由解码部16进行解码，生成解码音。但是，由于在音频数据中存在误差或者损失，因此，音频数据还被输入误差或者损失检测部14，检测各帧的误差或者损失。对于误差或者损失被检测出的帧，在状况判别部18中判别该帧的声音状况(在本实施例中，是过渡的或者稳态的)。在内插法选择部20中，根据所判别的声音状况，选择该帧的内插法。而且，在解码部16中，用所选择的内插法，来进行该帧(误差或者损失被检出的帧)的内插。

在本实施例中，根据该帧的前和/或后的帧的参数以及预定的参数的过渡状态来判别误差或者损失被检出的帧的参数。而且，根据该帧的参数来判别误差或者损失被检出的帧的声音状况。但是，当判别误差或者损失被检出的帧的参数时，可以不考虑参数的过渡状态，仅根据该帧的前和/或后的帧的参数来进行判别。

在本实施例中，当在送信侧对音频数据进行AAC(高级声言编码)编码时，在过渡的帧中使用short窗，在除此之外的帧中使用long窗。为了连接long窗和short窗，具有start窗和stop窗。在发送侧，在各帧上作为window_sequence信息(参数)而附加short、long、start和stop的任一个，来进行发送。

在接收(内插)侧，误差或者损失被检出的帧的window_sequence信息能够根据该帧的前和/或后的帧的window_sequence信息以及预定的window_sequence信息的过渡状态进行判别。

图4是表示预定的参数(window_sequence信息)的过渡状态的例子图。根据图4的过渡状态可知，如果前一个帧的window_sequence信息是stop，后一个帧的window_sequence信息是start，则自己的帧(误差或者损失被检出的帧)的window_sequence信息是long。而且，如果前一个帧的window_sequence信息是start，则自己的帧的window_sequence信息是short。而且，如果后一个帧的window_sequence信息是stop，则自己的帧的window_sequence信息是short。

根据这样判别的，误差或者损失被检出的帧的window_sequence信息，来判别该帧的声音状况。例如，如果所判别的window_sequence信息是short，该帧可判别为过渡的。

作为与声音状况相对应的内插法的选择方法，例如，可考虑在过渡状态中使用噪声置换法，在其他情况下使用重复或者预测法。

第二实施例

下面对本发明的第二实施例进行说明。在第二实施例中，能够使用与图1所示的第一实施例的内插装置相同的内插装置。

在本实施例中，根据误差或者损失被检出的帧的能量和该帧前的帧的能量的相似性，来判别误差或者损失被检出的帧的声音状况。进而，根据对误差或者损失被检出的帧的、及该帧前的帧的可预测性，来判别误差或者损失被检出的帧的声音状况。而且，在本实施例中，根据相似性和可预测性来判别声音状况，但是，也可以根据一方来判别声音状况。

首先，对相似性进行更具体的说明。在本实施例中，通过比较以时间区域分割误差或者损失被检出的帧时的各个分割区域的能量和以时间区域分割该帧前的帧时的各个分割区域的能量，来求出相似性。

图5是用于说明能量的比较例子图。在本实施例中，把帧分割为短的时间间隙，比较与下一帧的相同时间间隙的能量。而且，例如，如果各时间间隙的能量差(的合计)为阈值以下，就判断为「相类似」。对于相似性，可以用是否相类似(标志)来表示，也可以根据能量差而用类似度(程度)来表示。而且，进行比较的时间间隙可以是帧内的全部时间间隙，也可以是一部分时间间隙。

在本实施例中，虽可以用时间区域来分割帧进行能量的比较，但是，也可以代之以：用频率区域来分割帧进行能量的比较。

图6是用于说明能量比较例子的另一图。在图6中，用频率区域把帧分割为子带，比较与下一帧相同子带的能量。例如，如果各子带的能量差(的合计)为阈值以下，就判断为「相类似」。

在以上的说明中，是将所关注的帧的能量与其前一个帧的能量进行比较，来求出相似性；但是，也可以与前两个以上的帧的能量进行比较，来求出相似性；也可以与后面的帧的能量进行比较，来求出相似性；也可以与前和后的帧的能量进行比较，来求出相似性。

接着，对可预测性进行具体说明。在本实施例中，可预测性根据音频数据的频率区域中的分布的偏移来求出。

图7A、7B是用于说明可预测性的计算方法的例子图。在图7A、7B中，音频数据的波形表示在时间区域和频率区域中。如图7A所示的那样，预测有效的情况可认为是：时间区域中的相关性强，而频率区域中出现频谱偏移。另一方面，如图7B所示的那样，预测无效的情况可认为是：时间区域中的相关性弱(或者无关)，而频率区域中，频谱是平坦的。作为可预测性的值，例如，可以使用GP＝相加平均/相乘平均。例如，在频谱偏移为25，1的情况下(如图7A的情况)，GP如以下所示变大：

另一方面，例如，在频谱为5，5的平坦的情况下(如图7B的情况)，GP如以下所示变小：

而且，可预测性可以通过预测是否有效(标志)来表示。

根据如以上所求出的相似性和可预测性，来判别误差或者损失被检出的帧的声音状况。

图8是用于说明声音状况的判别方法的例子图。在图8的例子中，在大于具有相似性的值时，判别为是稳态的。另一方面，当小于具有相似性的值时，判别为过渡的或者其他情况。

作为与声音状况相对应的内插法的选择方法，可考虑例如，在过渡的情况下使用噪声置换法，在稳态的情况下使用重复法，在其他的情况下使用预测法。而且，例如，根据内插装置的解码器的能力(运算能力)，一般还可考虑改变成为进行运算量多的预测法(图8的)「其他」的领域。

相似性和可预测性存在能够在接收侧(内插装置侧)进行计算的情况，也存在不能计算的情况。例如，根据可扩缩编码，如果芯层能够正确接收，在该芯层与前一帧的芯层中，可以视为具有相似性。考虑在接收侧不能计算的情况，在发送侧求出相似性和可预测性，与音频数据一起进行发送。在接收侧，可以与音频数据一起接收相似性和可预测性。

图9表示本实施例的编码/内插信息制作装置的构成例子。编码/内插信息制作装置60可以作为发送音频数据的发送装置的一部分构成，也可以作为独立的部分构成。编码/内插信息制作装置60包括编码部62和内插信息制作部64。

在编码部62进行编码对象声音的编码，生成音频数据(比特流)。而且，在内插信息制作部64中，求出相似性和可预测性，作为音频数据的各帧的内插信息(关联信息)。

内插信息可以从原始声音(编码对象声音)或者编码过程中的值/参数来求出。可以与音频数据一起发送这样求出的内插信息(与音频数据不同，也可考虑仅将内插信息事先发送)。在此，例如，(1)以时间差来发送内插信息，(2)对内插信息进行强力纠错(编码)发送，(3)把内插信息发送多次，由此，几乎不会使传输信息量增加，能够进一步谋求品质的提高。

图10表示本实施例的内插装置的另一个构成例子。内插装置10’可以作为接收音频数据的接收装置的一部分构成，也可以作为独立的部件构成。内插装置10’包括误差或者损失检测部14、解码部16、状况判别部18和内插法选择部20。

内插装置10’除了音频数据(比特流)之外还接收内插信息的输入。所输入的内插信息(相似性和可预测性)用于状况判别部18中。即，根据内插信息，来判别误差或者损失被检出的帧的声音状况。

状况判别部18可以仅依赖于所输入的内插信息来判别声音状况，也可以在具有内插信息的情况下，根据该内插信息来判别声音状况，在没有内插信息的情况下，可求出自己的相似性和可预测性，来判别声音状况。

在上述图9和图10的例子中，在发送侧(编码/内插信息制作装置60侧)，求出各帧的相似性和可预测性，进行发送，但是，也可以在发送侧根据相似性和可预测性，判别各帧的声音状况，把该判别的声音状况作为内插信息来进行发送。内插装置10’可以将接收的内插信息输入内插法选择部20。内插装置10’可以仅依赖于内插信息，也可以仅在内插信息存在的情况下，使用内插信息。在仅依赖于内插信息的情况下，可以没有状况判别部18，也可以将误差/损失检测结果输入内插法选择部20。

而且，可以在发送侧根据相似性和可预测性来判别声音状况，决定各帧的内插法，把该决定的内插法作为内插信息来发送。内插装置10’可以把接收的内插信息输入解码部16。内插装置10’可以仅依赖于内插信息，也可以仅在内插信息存在的情况下使用内插信息。在仅依赖于内插信息的情况下，可以没有状况判别部18和内插法选择部20，也可以把误差/损失检测结果输入解码部16。

而且，内插法可以是：在发送侧使误差发生后，尝试多个内插法，根据其结果来进行选择。

图11表示本实施例的编码/内插信息制作装置的另一个构成例子。编码/内插信息制作装置60’可以作为发送音频数据的发送装置的一部分构成，也可以作为独立的部分构成。编码/内插信息制作装置60’包括编码部62、内插信息制作部64、模拟误差生成部66和内插部68。

对于音频数据(比特流)的各帧的数据，由模拟误差生成部66所生成的模拟误差由加法部67相加。对于这样使误差发生的各帧的数据，在内插部68中使用多个内插法(内插法A、B、C、D、…)。各个内插法的使用结果被送入内插信息制作部64。在内插信息制作部64中，进行各内插法的使用结果(数据)的解码，与原来的编码对象声音进行比较。而且，根据该比较结果来选择最佳的内插法，作为对应帧的内插信息来发送。

而且，在内插信息制作部64中，进行各个内插法的使用结果的解码，与编码对象声音进行比较，也可以代之以：把各个内插法的使用结果与误差发生前的音频数据(比特流)进行比较，选择内插法。

而且，在第一实施例中，与上述相同，在发送侧根据该帧的参数来判别各帧的声音状况，把该判别的声音状况作为内插信息进行发送。而且，在发送侧，根据该帧的参数来判别各帧的声音状况，根据该判别的声音状况来决定各帧的内插法，把该决定的内插法作为内插信息进行发送。内插法可以是：在发送侧使误差发生后，尝试多个内插法，根据其结果来进行选择。

第三实施例

下面对本发明的第三实施例进行说明。在第三实施例中，可以使用与图1所示的第一实施例的内插装置相同的内插装置。

在本实施例中，根据该帧前的帧的声音状况来判别误差或者损失被检出的帧的声音状况。但是，也可考虑根据后面的帧的声音状况，来进行判别。

例如，可以考虑预先保持帧的声音状况的履历，如果稳态长期持续，则下一帧也判别为稳态的。对于过渡的也是同样进行。

而且，例如，可以考虑预先保持帧的声音状况的过渡履历，根据该履历，来判别误差或者损失被检出的帧的声音状况。例如，根据声音状况的过渡的n次带条件的概率(例如，当三次过渡连续时，下一次成为过渡的概率，成为稳态的概率等)来进行判别。n次带条件的概率随时更新。

而且，在本实施例中，也与第二实施例相同，在发送侧，可根据该帧前的帧的声音状况来判别各帧的声音状况，把该判别的声音状况作为内插信息进行发送。而且，在发送侧，可根据该帧前的帧的声音状况，来判别各帧的声音状况，根据该判别的声音状况，来决定各帧的内插法，把该决定的内插法作为内插信息进行发送。

而且，声音状况的判别还可以把上述第一～第三实施例中的判别方法进行组合来进行。进行组合的情况下，可以对各判别方法进行加权来进行综合的判断。

下面，参照图12～图16来对本发明的音频数据内插信息发送装置及方法的实施例进行详细说明。

上述第一～第三实施例的音频数据内插装置，作为音频数据的误差补偿技术，使用误差内插信息来切换内插法，以传输前的没有误差的音源为基础，通过制作内插信息，对音频数据的损失进行最佳的内插的方法；在减少因内插信息所产生的冗余度这点上虽具有优良的效果，但是，在不涉及内插信息的传输方法，与损失的音频帧相关的内插信息也都损失的传输方法中，存在不能适当地切换内插法的问题。

因此，在以下的第四～第七实施例中，使其内插信息或者音频数据任何一方存在的可能性变高，在损失了音频数据的情况下，能够使用适当的内插法。而且，通过把内插信息埋入音频数据中，即使在与内插信息不对应的解码器中，也能进行音频数据的解码。而且，内插法仅在与前帧不同的情况下进行传输，由此，能够抑制冗余度。而且，在以下的各个实施例中，对于音频数据的各帧AD(n)、AD(n+1)、AD(n+2)、…，具有表示该帧损失时的最佳内插法的内插信息CI(n)、CI(n+1)、CI(n+2)、…。

第四实施例

图12表示在音频帧和内插信息中具有2帧的时间差来进行传输时的信息分组传输模型。在信息分组P(n)中包含帧AD(n)和内插信息CI(n+2)，在信息分组P(n+2)中包含帧AD(n+2)和内插信息CI(n+4)。在信息分组P(n+2)损失的情况下，如果能够接收信息分组P(n)，损失的帧AD(n+2)部分能够使用内插信息CI(n+2)来进行最佳的内插，可抑制解码音质的劣化。

时间差x可以是固定的，也可以对每个音频数据和每个帧是可变的。例如，通过对每个帧取为随机的，可以对突发误差具有耐性，也可以根据传输路径的错误状况来适当地变更。而且，可以对一个帧AD一起传输多个内插信息CI。在图12中，表示了对于一个帧AD，以x＝2的固定来传输一个内插信息CI的情况。

图13表示本实施例的发送装置的构成例子。发送装置80包括：编码部82、时间差附加部84、内插信息制作部86以及复用部88。

如果时间差信息“x”在发送侧和接收侧事先进行协商或者从特定的参数通过计算而求出等，在发送侧和接收侧双方是已知的，表示是哪个帧的内插信息的信息(以下称为“指示信息”)可以不进行传输。当需要表示是哪个帧的内插信息时，可考虑把时间差信息“x”或者帧ID“n+x”或者称为该帧的绝对重放时间的指示信息与内插信息CI(n+x)一起进行传输。

内插信息CI和指示信息可考虑例如作为IP信息分组的填充比特(Padding Bit)而含有。而且，当音频数据以(MPEG标准规格文件ISO/IEC13818-7或者ISO/IEC 14496-3中所公开的那样)MPEG-2或者MPEG-4的AAC进行编码时，也能够包含在data_stream_element内，如果在霍夫曼编码之前的MDCT(Modified Discrete Cosine Transform)系数中使用(Proceedings of the IEEE，Vol.87，No.7，July 1999，PP.1062-1078，“Information Hiding-A Survey”中所揭示的那样)数据埋入技术预先埋入，由于霍夫曼编码是可逆压缩，在接收侧能够完全地取出内插信息CI和指示信息。

作为埋入MDCT系数中的方法，例如，可考虑操作系数，以使特定的MDCT系数的最后位比特与内插信息相一致。埋入系数希望位于通过操作系数而引起的品质劣化极小，而通过操作系数、改变霍夫曼编码增加的总开销极少的位置。

作为公知的在接收侧进行数据埋入的方法，例如可考虑使用(IEEE标准规格文件RFC1889中所揭示那样的)RTP(Realtime TransportProtocol)的标题(Header)的标记位。而且，在数据埋入的情况下，而且仅对于内插法变化的帧传输内插信息时，在该帧中是否埋入内插信息的标志虽对每帧都是必要的，但可考虑将该标志本身也埋入音频数据中。

第五实施例

在第五实施例中，与第四实施例相同，在与帧AD具有时间差来传输内插信息CI的方法中，仅当内插法变化时，即仅在CI(n)≠CI(n+1)的情况下，发送内插信息CI(n+1)。

本实施例的发送装置可以具有与上述图13的发送装置相同的构成。

图14表示仅对内插法变化的帧来传输内插信息、并且将指示信息也一起传输时的信息分组传输模型。在发送侧和接收侧两方，如果时间差信息“x”是已知的，可以不传输指示信息。

仅在变化的情况下传输内插信息CI时，希望的是当该内插信息CI损失时，由于直到下一个内插信息CI变化之前成为错误传输，因此，与时间差一起，对内插信息CI使用损失补偿技术。

例子之一是仅对内插信息多次发送。在图14中，第五实施例的CI(n+3)虽仅包含在信息分组P(n+1)中，但是，通过又包含在信息分组P(n)或信息分组P(n+2)中，即使信息分组P(n+1)损失了，由于内插信息CI(n+3)存在，能够切换内插法。

再一个例子是仅对内插信息进行强力纠错。例如，可考虑仅在内插信息CI中使用FEC(Forward Error Correction)，FEC数据包含在其他的信息分组中。包含FEC数据的信息分组在发送侧和接收侧两方是已知的，也可以用指示信息来表示是FEC数据。

另外，也可考虑仅对内插信息进行再发送。例如，使用ARQ(Automatic Repeat Request)，通过仅对内插信息CI进行自动再发送的请求，由此，可提高内插信息CI被接收的可能性，音频数据不使用ARQ，由此能够抑制由再发送所产生的冗余度。

而且，在第四实施例中也与上述相同，对内插信息CI可使用损失补偿技术。

第六实施例

在第六实施例中，分别传输音频数据和内插信息。在此情况下，可以使RTP标题(Header)的有效负荷类型在音频数据和内插信息中是不同的。内插信息可以在一个信息分组中包含多帧。

本实施例中的发送装置可以具有与上述图9或者图11的编码/内插信息制作装置相同的构成。

图15表示仅把内插信息发送四次的情况下的信息分组传输模型。包含在一个信息分组中的多帧的内插信息可以不是连续的帧。如果需要指示信息也与内插信息CI一起进行传输。

第七实施例

在第七实施例中，在与第六实施例相同地发送帧AD和内插信息CI的方法中，与第五实施例相同，仅在内插法变化的情况下，传输内插信息CI。在此情况下，指示信息也可以与内插信息CI一起传输。

本实施例的发送装置可以具有与上述图9或者图11的编码/内插信息制作装置相同的构成。

当仅在变化的情况下发送内插信息CI时，希望的是当该内插信息CI损失时，直到下一个内插信息CI变化之前成为错误传输，因此，对内插信息CI使用损失补偿技术。在仅对内插信息进行强力纠错的情况下，与第五实施例相同，可考虑使用FEC。

图16表示仅对内插信息进行FEC、并且仅对内插法变化的帧传输内插信息时的信息分组传输模型。内插信息在一个信息分组中包含多帧，可以分别生成(IETF标准规格文件RFC2733中所揭示那样的)FEC信息分组(P_{CI_FEC})，与内插信息CI(n)和内插信息CI(n+1)相关的FEC信息可以包含在不含内插信息CI(n)和内插信息CI(n+1)的其他CI信息分组(P_CI)中进行传输。FEC的速率，对于内插信息CI，每2P_CI施加1P_{CI_FEC}的强弱；对于帧AD，每5P_AD施加1P_{CI_FEC}的强弱，也可以对帧AD都不施加FEC。

在仅再次发送内插信息的情况下，也与第五实施例相同，可考虑仅对内插信息的信息分组使用ARQ。在线路交换中，可考虑仅把内插信息预先集中起来使用ARQ发送。而且，在仅把内插信息用可靠的其他信道来传输的情况下，可考虑例如，内插信息用TCP/IP进行传输，音频数据用RTP/UDP/IP进行传输。

而且，在第六实施例中，与上述相同，可以对内插信息CI使用损失补偿技术。

而且，上述第四～第七实施例虽以信息分组交换网进行了说明，但是，本发明在线路交换网中，如果也与帧取得同步，也同样能够实现。

如上述那样，使用本发明，能够判别音频数据中的误差或者损失产生的帧的声音状况，进行与该状况相对应的内插。由此，能够提高解码音质。

而且，根据本发明，某个音频帧或者与该帧相关的辅助信息存在的可能性提高，当音频数据损失时，能够使用适当的内插法，能够以较少的冗余度提高解码品质。

而且，上述第一～第七实施例的内插装置或编码/内插信息制作装置或发送装置能够按照在自己的存储器等中所存储的程序，来进行如上所述的内插、编码、内插信息制作等动作。而且，可考虑将程序写入记录媒体(例如，CD-ROM、磁盘)，或者，从记录媒体中读出。

而且，本发明并不仅限于上述各个实施例，可以在不脱离其精神的范围内，进行各种变形来实施。

Claims

1.一种音频数据内插装置，进行由多个帧组成的音频数据的内插，其特征在于，包括：

输入装置，输入上述音频数据；

检测装置，检测上述音频数据的各帧的误差或者损失；

状况判断装置，输入或者推定上述误差或者损失被检出的帧的内插信息，使用该帧上输入或者推定的内插信息，判断检出的上述误差或者损失的声音状况；

内插方法选择装置，基于通过上述状况判断装置判断出的该帧的声音状况，对检出的上述误差或者损失的帧选择内插方法；

内插装置，使用对该帧的通过上述内插方法选择装置选择的内插方法，来对上述误差或者损失被检出的帧进行内插。

2.根据权利要求1所述的音频数据内插装置，其特征在于，上述帧的各个都具有参数，上述状况判断装置根据该帧的前和/或后的帧的参数来判别上述误差或者损失被检出的帧的参数，根据该帧的参数来推定上述误差或者损失被检出的帧的声音状况。

3.根据权利要求2所述的音频数据内插装置，其特征在于，上述参数的过渡状态被预先决定，上述状况判断装置根据该帧的前和/或后的帧的参数以及上述过渡状态来判别上述误差或者损失被检出的帧的参数。

4.根据权利要求1所述的音频数据内插装置，其特征在于，上述状况判断装置根据上述误差或者损失被检出的帧的能量和该帧的前和/或后的帧的能量的相似性，来推定上述误差或者损失被检出的帧的声音状况。

5.根据权利要求4所述的音频数据内插装置，其特征在于，上述状况判断装置，通过比较以时间区域来分割上述误差或者损失被检出的帧时的各个分割区域的能量和以时间区域来分割该帧的前和/或后的帧时的各个分割区域的能量，来求出上述相似性。

6.根据权利要求4所述的音频数据内插装置，其特征在于，上述状况判断装置，通过比较以频率区域来分割上述误差或者损失被检出的帧时的各个分割区域的能量和以频率区域来分割该帧的前和/或后的帧时的各个分割区域的能量，来求出上述相似性。

7.根据权利要求1所述的音频数据内插装置，其特征在于，上述状况判断装置，根据与上述误差或者损失被检出的帧有关的、基于该帧的前和/或后的帧的可预测性，来推定上述误差或者损失被检出的帧的声音状况。

8.根据权利要求7所述的音频数据内插装置，其特征在于，上述状况判断装置，根据上述音频数据的频率区域的分布偏移，来求出上述可预测性。

9.根据权利要求1所述的音频数据内插装置，其特征在于，上述状况判断装置，根据该帧前的帧的声音状况，来推定上述误差或者损失被检出的帧的声音状况。

10.一种音频数据关联信息制作装置，制作与由多个帧组成的音频数据相关联的信息，其特征在于，包括：

输入装置，输入上述音频数据；

制作装置，与上述音频数据的各帧相关，制作该帧的内插信息；

上述内插信息是为了判断声音状况并基于判断的声音状况选择内插方法的信息。

11.根据权利要求10所述的音频数据关联信息制作装置，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的能量和该帧的前和/或后的帧的能量的相似性的上述内插信息。

12.根据权利要求10所述的音频数据关联信息制作装置，其特征在于，上述制作装置，制作与上述的音频数据的各帧相关的，包含与该帧有关的、基于该帧的前和/或后的帧的可预测性的上述内插信息。

13.根据权利要求10所述的音频数据关联信息制作装置，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的声音状况的上述内插信息。

14.根据权利要求10所述的音频数据关联信息制作装置，其特征在于，上述制作装置，制作与上述音频数据的各帧相关的，包含该帧的内插法的上述内插信息。

15.根据权利要求14所述的音频数据关联信息制作装置，其特征在于，上述制作装置，对于上述音频数据的各帧，使误差发生，在误差发生的数据中使用多个内插法，根据该多个内插法的使用结果，来从该多个内插法中选择包含上述内插信息的内插法。

16.一种音频数据内插方法，进行由多个帧组成的音频数据的内插，其特征在于，包括下列步骤：

输入上述音频数据的步骤；

检测上述音频数据的各帧的误差或者损失的步骤；

输入或者推定上述误差或者损失被检出的帧的内插信息，使用该帧上输入或者推定的内插信息，判断检出上述误差或者损失的帧的声音状况的步骤；

基于上述判断的该帧的声音状况，对检出上述误差或者损失的帧选择内插方法的步骤；

使用对该帧的上述被选择的内插方法，来对上述误差或者损失被检出的帧进行内插的步骤。

17.一种音频数据关联信息制作方法，制作与由多个帧组成的音频数据相关联的信息，其特征在于，包括下列步骤：

输入上述音频数据的步骤；

与上述音频数据的各帧相关，制作该帧的内插信息的步骤；

18.一种音频数据内插信息发送装置，发送由多个帧组成的音频数据的内插信息，其特征在于，包括：

输入装置，输入上述音频数据；

时间差附加装置，给与上述音频数据的各帧相对应的内插信息和该帧的音频数据之间赋予时间差；

发送装置，把上述内插信息与上述音频数据一起进行发送；

19.根据权利要求18所述的音频数据内插信息发送装置，其特征在于，上述发送装置，仅在上述内插信息与之前的帧的内插信息不同时，与上述音频数据一起发送上述内插信息。

20.根据权利要求18所述的音频数据内插信息发送装置，其特征在于，上述发送装置通过把上述内插信息埋入音频数据中来进行发送。

21.根据权利要求18所述的音频数据内插信息发送装置，其特征在于，上述发送装置仅多次发送上述内插信息。

22.根据权利要求18所述的音频数据内插信息发送装置，其特征在于，上述发送装置仅对上述内插信息进行强力纠错后发送。

23.根据权利要求18所述的音频数据内插信息发送装置，其特征在于，上述发送装置根据再发送要求，仅对上述内插信息进行再发送。

24.一种音频数据内插信息发送装置，发送由多个帧组成的音频数据的内插信息，其特征在于，包括：

输入装置，输入上述音频数据；

发送装置，把与上述音频数据的各帧相对应的内插信息与上述音频数据分别进行发送；

25.根据权利要求24所述的音频数据内插信息发送装置，其特征在于，上述发送装置，仅在上述内插信息与之前的帧的内插信息不同时，与上述音频数据一起发送上述内插信息。

26.根据权利要求24所述的音频数据内插信息发送装置，其特征在于，上述发送装置仅多次发送上述内插信息。

27.根据权利要求24所述的音频数据内插信息发送装置，其特征在于，上述发送装置仅对上述内插信息进行强力纠错后发送。

28.根据权利要求24所述的音频数据内插信息发送装置，其特征在于，上述发送装置根据再发送要求，对仅上述内插信息进行再发送。

29.根据权利要求24所述的音频数据内插信息发送装置，其特征在于，上述发送装置，用与发送上述音频数据的信道不同的可靠的其他信道来发送上述内插信息。

30.一种音频数据内插信息发送方法，发送由多个帧组成的音频数据的内插信息，其特征在于，包括下列步骤：

输入上述音频数据的步骤；

给与上述音频数据的各帧相对应的内插信息和该帧的音频数据之间赋予时间差的步骤；

把上述内插信息与上述音频数据一起进行发送的步骤；

31.一种音频数据内插信息发送方法，发送由多个帧组成的音频数据的内插信息，其特征在于，包括下列步骤：

输入上述音频数据的步骤；

把与上述音频数据的各帧相对应的内插信息与上述音频数据分别进行发送的步骤；