CN101689370B - 音频分组接收器、音频分组接收方法 - Google Patents

音频分组接收器、音频分组接收方法 Download PDF

Info

Publication number
CN101689370B
CN101689370B CN2008800209594A CN200880020959A CN101689370B CN 101689370 B CN101689370 B CN 101689370B CN 2008800209594 A CN2008800209594 A CN 2008800209594A CN 200880020959 A CN200880020959 A CN 200880020959A CN 101689370 B CN101689370 B CN 101689370B
Authority
CN
China
Prior art keywords
audio
yield value
data
packet
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008800209594A
Other languages
English (en)
Other versions
CN101689370A (zh
Inventor
中泽达也
小泽一范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101689370A publication Critical patent/CN101689370A/zh
Application granted granted Critical
Publication of CN101689370B publication Critical patent/CN101689370B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种音频错误隐藏装置,其应用于当检测到分组丢失时,执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理的音频分组接收器。根据本发明的音频分组接收器包括:第一缓冲单元(101),用于从作为RTP包的音频分组提取音频编码数据,并且将提取的音频编码数据存储到缓冲器中,并且还用于检测分组丢失;距离计算单元(102),用于计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离;第一控制单元(103),用于基于通过距离计算单元(102)计算得的距离来确定生成于音频错误隐藏处理中的用于被隐藏音频的音频数据的增益值;以及解码单元(104),用于基于通过第一控制单元(103)所确定的用于被隐藏音频的音频数据的增益值来执行音频错误隐藏处理。

Description

音频分组接收器、音频分组接收方法
技术领域
本发明涉及音频错误隐藏,其中当检测到分组丢失时,在音频分组接收器中生成用于被隐藏音频的音频数据。 
背景技术
作为一种用于通信封包的音频数据的分组通信,VoIP(IP电话)已得到广泛使用。在VoIP通信中,将编码的音频数据封包成RTP(实时传输协议)分组(非专利文献1)。 
除了音频,也已经使用了包括视频、文本、文件等的多媒体数据流的分配服务及其交互通信服务。 
然而,分组通信网络可能具有分组丢失,即其中分组被丢失(或者已经消失)的事件。 
这样的事件不可避免地降低了诸如在接收音频分组的音频接收器处的音频这样的媒体的可听质量。 
因此,已经提出了一些措施,用于减轻诸如在音频分组接收器处的由分组丢失所引起的音频质量的降低。 
例如,专利文献1公开了用于当检测到分组丢失时,通过利用音频错误隐藏处理来生成用于被隐藏音频的音频数据,从而防止音频质量降低的方法。在文献1中,作为音频错误隐藏处理,就在丢失的音频分组之前或之后的分组被复制。 
作为在音频分组发送器一侧使用的音频编码方法的实例,用于生成具有编码效率的音频编码数据流的方法是已知的,其中该编码效率基于音频存在的确定而改变。 
作为在音频分组发送器侧使用的音频编码方法的另一个实例,用于周期地或者每次关于环境背景噪声(后面,将关于背景噪声的信息称为噪声)的信息更新时,生成音频编码数据流的方法也是已知的。 
作为在音频分组发送器一侧使用的音频编码方法的再一个实例,在非专利文献2中公开的基于音频存在的确定,仅仅将当音频存在或者当噪声发生时所生成的音频编码数据流封包、并且将该音频分组发送到分组通信网络、并且当没有音频出现时不发送该音频分组的方法是已知的。 
然而,在专利文献1中所公开的技术具有如下所述的问题。 
第一个问题是,因为根据音频编码方法,甚至根据在音频分组发送器侧使用的传送规范,并不一定以周期的方式发送时间轴连续的音频分组,所以,即使在检测到分组丢失之前和之后,在音频分组接收器侧复制音频分组,该技术也不足以恢复降低的音频质量。 
第二个问题是,不管在用于被隐藏音频的音频数据之后的音频数据的存在与否(即,在时间轴上的未来方向),基于预定的增益值或预定的衰减因数而执行音频错误隐藏处理。因此,过大或过小的衰减将不足以减少可听的音频质量的降低。 
[专利文献1]日本未审查专利申请公开No.2005-157045 
[非专利文献1]Schulzrinne,H.,Casner,S.,Frederick,R.,Jacobson,V.m“RTP:A Transport Protocol for Real-Time Applications”,RFC3550,2003年7月,[平成19年(2007年)6月27日检索]Internet <URL:http://www.ietf.org/rfc/rfc3550.txt
[非专利文献2]Sjoberg,J.,Westerlund,M.,Lakaniemi,A.,Xie,Q.,V.m“Real-Time Transport Protocol(RTP)Payload Format and FileStorage Format for the Adaptive Multi-Rate(AMR)and AdaptiveMulti-Rate Wideband(AMR-WB)Audio Codec”,RFC3267,2002年6月,[平成19年(2007年)6月27日检索]Internet<URL:http://www.ietf.org/rfc/rfc3267.txt
发明内容
本发明的目的是提供一种音频分组接收器、音频分组接收方法以及用于其的程序,其能够减轻在音频错误隐藏处理中的音频质量降低的上述问题。 
为了达到上述目的,根据本发明的音频分组接收器是: 
音频分组接收器,当检测到分组丢失时,该音频分组接收器执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理,其特征在于包括: 
缓冲单元,其从音频分组中提取音频编码数据,并且将所提取的音频编码数据存储到缓冲器中,并且该缓冲单元还检测分组丢失; 
距离计算单元,其计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离; 
控制单元,其基于在所述距离计算单元计算得的距离,来确定用于被隐藏音频的音频数据的增益值;以及 
解码单元,其基于通过所述控制单元确定的用于被隐藏音频的音频数据的增益值,来执行音频错误隐藏处理。 
为了达到上述目的,根据本发明的音频分组接收方法是: 
由当检测到分组丢失时,执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理的音频分组接收器所执行的音频分组接收方法,其特征在于包括: 
通过从音频分组提中取音频编码数据并且将所提取的音频编码数据存储到缓冲单元中来检测分组丢失,并且然后检测分组丢失; 
计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离; 
基于所述计算得的距离,确定用于被隐藏音频的音频数据的增益值;并且 
基于所述确定的用于被隐藏音频的音频数据的增益值,执行音频错误隐藏处理。 
为了达到上述目的,根据本发明的程序的特征在于,使得当检测到分组丢失时,执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理的计算机执行: 
通过从音频分组中提取音频编码数据并且将所提取的音频编码数据存储到缓冲单元中来检测分组丢失,并且然后检测分组丢失; 
计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离; 
基于所述计算得的距离,确定用于被隐藏音频的音频数据的增益值;并且 
基于所述确定的用于被隐藏音频的音频数据的增益值,执行音频错误隐藏处理。 
根据在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离,本发明调节当检测到分组丢失时在音频错误隐藏处理中生成的用于被隐藏音频的音频数据的增益值。 
具体地,由于本发明通过考虑到跟随在用于被隐藏音频的音频数据之后的音频数据的距离(即,在时间轴上的未来方向)来执行音频错误隐藏处理,因此其能够防止设置过大或过小的增益值。 
从而,本发明具有减轻对人耳的音频质量的降低,而不被任何音 频分组发送器的发送操作所影响的优点。 
附图说明
图1是示出了根据本发明的第一示例性实施例的音频分组接收器的结构的方框图; 
图2是用于图示出本发明的第一示例性实施例的优点的示意图; 
图3是示出了根据本发明的第二示例性实施例的音频分组接收器的结构的方框图; 
图4是示出了根据本发明的第三示例性实施例的音频分组接收器的结构的方框图。 
具体实施方式
将参考附图在下面描述用于实施本发明的最佳模式。 
(第一示例性实施例) 
如图1所示,该示例性实施例的音频分组接收器包括:第一缓冲单元101,用于从作为RTP包的音频分组中提取音频编码数据,并且将所提取的音频编码数据存储到缓冲器中,并且还用于检测分组丢失;距离计算单元102,用于计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离;第一控制单元103,用于基于由距离计算单元102计算的距离,来确定在音频错误隐藏处理中生成的用于被隐藏音频的音频数据的增益值;以及解码单元104,用于当没有检测到分组丢失时,将音频编码数据解码,并且用于当在第一缓冲单元101中检测到分组丢失时,基于用于由第一控制单元103所确定的被隐藏音频的音频数据的增益值,来执行音频错误隐藏处理。这里,所述增益值指的是与最终生成的音频数据的音量有关的参数。下文所用的衰减因数也是一种增益值。 
在该示例性实施例中,每个上述部件具体地执行下面的操作。假设通过音频分组接收器和对应的音频分组发送器之间的交互,提前确 定了用于音频分组的音频编码方法。在本发明中,不特别地限制音频分组接收器和音频分组发送器之间的交互的方法,并且可以使用诸如基于在非专利文献3(Handley,M.,Schulzrinne,H.,Schooler,E.,Rosenberg,J.,“SIP:Session Initiation Protocol”,RFC2543,March 1999,[平成19年(2007)年6月27日检索]Internet<URL:http://www.ietf.org/rfc/rfc2543.txt>)中所公开的SIP(会话初始协议),或基于H.223的方法,或者其他独特的方法。 
当第一缓冲单元101接收音频分组时,它根据预定的音频编码方法,以音频编码数据为单元,分离音频分组。第一缓冲单元101根据下面信息中的至少一条,将音频编码数据存储到缓冲器中:在音频分组的RTP报头中的RTP序列号、RTP时间戳值、标记位以及RTP载荷时间值(在下文中,将它们总称为RTP报头信息)。 
由于当没有检测到噪声时,其中分组没有被发送的音频分组发送器的操作,RTP序列号或RTP时间戳值跳过,在分组通信网络中分组丢失,或者由于分组通信网络的波动而序列变化。这里,假设在上述情况下,第一缓冲单元101具有根据在缓冲器头部的位置处的音频编码数据的存在与否(是否接收到音频编码数据)而检测分组丢失的功能。 
当第一缓冲单元101从第一控制单元103接收获取分组丢失发生信息的指令时,其将计算缓冲器头部的位置和存储的下一个音频编码数据的位置之间距离的指令输出到距离计算单元102。第一缓冲单元101校验缓冲器头部的位置。如果音频编码数据存在于头位置处,则第一缓冲单元101判断没有发生分组丢失,并且将表示没有检测到分组丢失的分组丢失发生信息输出到第一控制单元103。如果在头位置处不存在音频编码数据,那么第一缓冲单元101判断发生分组丢失,并且将表示已经检测到分组丢失的分组丢失发生信息和能够从距离计算单元102获取的距离信息输出到第一控制单元103。 
仅当已检测到分组丢失时,第一缓冲单元101向距离计算单元102输出指令。 
当没有检测到分组丢失时,第一缓冲单元101将在缓冲器头部的位置处的音频编码数据输出到解码单元104。当已检测到分组丢失时,其将指示已经检测到分组丢失的分组丢失检测信息输出到解码单元104。 
当距离计算单元102从第一缓冲单元101接收计算指令时,其计算缓冲器头部的位置和存储的下一个音频编码数据的位置之间的距离,并且将表示计算结果的距离信息输出到第一缓冲单元101。 
这里,所述距离信息是指表示RTP时间戳值的差值或相当于该差值的值的信息。具体地,该距离信息是指表示在缓冲器头部的位置处的RTP时间戳值和存储的下一个音频编码数据的RTP时间戳值之间的差值的信息。 
如果该存储的下一个音频编码数据不存在,则所述距离信息可以是表示没有音频编码数据存在的值,例如,存储在缓冲器中的范围之外的超大值。 
在相对应的音频分组发送器执行用于发送音频分组的非间断发送操作而不管音频是否存在的情况下,基于在缓冲器头部的位置处的RTP序列号和下一个存储的音频编码数据的RTP序列号之间的差值,如果能够由RTP时间戳值的差值获得相当于所述距离信息的信息,那么RTP序列号的差值可以用于距离信息。 
第一控制单元103以预定的循环向缓冲单元101输出获取分组丢失发生信息的指令。 
如果第一控制单元103从第一缓冲单元101获取表示没有检测到分组丢失的所述分组丢失发生信息,那么其输出指令到解码单元104以解码所述音频编码数据。如果第一控制单元103从第一缓冲单元101获取表示已经检测到分组丢失的所述分组丢失发生信息并且获取所述距离信息,那么其基于该距离信息来确定用于在音频错误隐藏处理中所生成的被隐藏音频的音频数据的增益值,并且输出表示确定的结果的增益值信息和解码指令到解码单元104。 
这里,假设增益值信息位于例如从0到1的范围中。如果该值是1,那么其表示音频编码数据将被解码,使得增益值变成与音频数据相对应,该音频数据是通过解码单元104先前解码所获得的。如果该值是0,那么其表示将用预定的增益值对音频编码数据解码。如果该值是0和1之间的平均值,那么其表示音频编码数据将被解码,使得增益值变成音频数据乘以该平均值,该音频数据是先前解码所获得的。 
当第一控制单元103从第一缓冲单元101获取表示已检测到分组丢失的分组丢失发生信息并且获取距离信息时,由于缓冲器头部的位置和下一个存储的音频编码数据之间的距离较短,所以其将增益值设为接近于1;且由于基于该距离信息的距离变长,其将增益值设为接近于0。 
上述增益值信息仅仅是个例子。例如,该增益值信息可以通过其相对于预先设置到解码单元104的增益值的变化率来表示(将在后面描述)或者该增益值信息可以通过相当于变化率的值来表示,而没有任何限制。 
将存在于缓冲器头部的位置处的音频编码数据或者就是分组丢失检测信息从第一缓冲单元101输入到解码单元104中。将解码指令从第一控制单元103输入到解码单元104。如果已经检测到分组丢失,那 么增益值信息也被从第一控制单元103输入到解码单元104。 
如果从第一缓冲单元101输入音频编码数据,那么解码单元104根据预定的音频编码方法来解码音频编码数据,并且输出解码的数据。如果从第一缓冲单元101输入分组丢失检测信息,那么解码单元104通过基于从第一控制单元103输入的增益值信息而执行音频错误隐藏处理,来生成用于被隐藏音频的音频数据,并且输出所生成的音频数据。 
如上所述,在该示例性实施例中,根据在缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离,调节在音频错误隐藏处理中生成的用于被隐藏音频的音频数据的增益值。 
具体地,由于该示例性实施例通过考虑到直到在用于被隐藏音频的音频数据之后的音频数据的距离(即,在时间轴上的未来方向)而执行音频错误隐藏处理,其能够防止设置过大或过小的增益值。 
从而,该示例性实施例具有减轻对人耳的音频质量的降低,而不被任何音频分组发送器的发送操作所影响的优点。 
现在,通过将本实施例与没有考虑到在缓冲器中的状态(在下文中,称作比较的对象)的情况作比较,参考图2来进一步详细描述该示例性实施例的优点。这里,当连续地执行音频错误隐藏处理时,用于逐渐减小用于被隐藏音频的音频数据的增益值的方法被作为比较对象的例子。 
图2的上部示出了音频编码数据是如何存储到第一缓冲单元101的缓冲器中的。在该实例中,假设根据在音频分组的RTP报头中的RTP时间戳值,音频编码数据被排列并且存储在缓冲器中。在该实例中,横坐标表示时间戳值。在该实例中,假设存储音频编码数据#2、#3和 #5的音频分组在它们所经过的通信网络中丢失。这里,在每个时间点处的缓冲器头部的位置用符号“·”标记出。 
图2的下部,就在各音频编码数据之下,示出了通过传统的实例以及通过示例性实施例所获得的音频数据的各实例。图2示出了用于各音频采样值的一些波形,其各个振幅值用直线连接。为了附图的简洁,仅仅第一Nth音频编码数据与波形伴随对应,而其后的每种音频数据的情况只与表示解码单元的框形(矩形)伴随对应,而省略了波形。而且,为了附图和说明书的简洁,假设将分别由接收和解码音频编码数据#1至#6得出相同的增益值(振幅)。 
比较的对象使音频编码数据#1的增益值G(B1)以及替代音频编码数据#2和#3的被隐藏音频的音频数据的增益值G(B2)和G(B3)衰减,使得增益值是G(B1)>G(B2)>G(B3)。 
相反地,该示例性实施例以下面的方式生成替代音频编码数据#2的被隐藏音频的音频数据A2:第一,其计算在时间(第N+1个周期)处缓冲器中头部的位置和下一个音频编码数据#4所存储的位置之间的距离。这里,其判断这些位置不是彼此远离,并且通过抑制增益值的衰减来生成音频数据A2。具体地,其生成音频数据A2,使得增益值结果是G(A2)>G(B2)。 
类似地,该示例性实施例以下面的方式生成替代音频编码数据#3的被隐藏音频所用的音频数据A3:第一,其计算在时间(第N+2个周期)处缓冲器中头部的位置和下一个音频编码数据#4所存储的位置之间的距离。这里,由于下一个音频编码数据#4就在缓冲器中头部的位置之后,该示例性实施例生成具有与音频数据A2的增益值相同的增益值的音频数据A3。具体地,其生成音频数据A3,使得增益值结果是G(A3)>G(B3)。该实施例还以同样的方式生成替代音频编码数据#5的被隐藏音频所用的音频数据A5。 
如上所述,通过根据与下一个音频数据A4的距离而确定用于被隐藏音频的音频数据A2和A3的增益值G(A2)和G(A3),本实施例能够抑制音频数据A2和A3的增益值G(A2)和G(A3)的过大衰减。 
(第二示例性实施例) 
如图3所示,该示例性实施例的音频分组接收器包括:第二缓冲单元201,用于从作为RTP分组的音频分组中提取音频编码数据,并且将所提取的音频编码数据存储到缓冲器中,并且还用于检测分组丢失;距离计算单元102,用于计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离;增益计算单元202,用于计算在缓冲器中的下一个存储的音频编码数据的增益值(音量);第二控制单元203,用于基于由距离计算单元102所计算的距离以及由增益计算单元202所计算的增益值,来确定在音频错误隐藏处理中生成的用于被隐藏音频的音频数据的增益值;以及解码单元104,用于当没有检测到分组丢失时,解码音频编码数据,并且用于当在第二缓冲单元201中检测到分组丢失时,基于用于由第二控制单元203所确定的被隐藏音频的音频数据的增益值来执行音频错误隐藏处理。 
在该示例性实施例中,每个上述部件具体地执行下面的操作。将主要描述与第一示例性实施例中不同的那些单元。 
当第二缓冲单元201从第二控制单元203接收指令以获取分组丢失发生信息时,在监测到缓冲器头部的位置以及在第一示例性实施例中描述的距离信息和在第一实施例中描述的分组丢失发生信息之后,其将下一个存储的音频编码数据输出到第二控制单元203。 
增益计算单元202执行如下(A)或(B)的处理。 
(A)将从第二控制单元203输入的音频编码数据解码,并且生成 音频数据。然后,计算第一增益值,其是音频数据的增益值,并且将表示计算结果的第一增益值信息输出到第二控制单元204。 
(B)通过从由第二控制单元203输入的音频编码数据中提取增益值编码信息,该增益值是音频数据的增益值,并且解码所提取的增益值编码信息,而获取第一增益值。然后,将表示该第一增益值的第一增益值信息输出到第二控制单元203。 
在(A)的情况中,一些音频编码方法存储过去的解码信息。如果使用这样的方法,当增益计算单元202将信息解码时,为了防止解码被音频中断所影响,重置过去的解码信息必须每次都被重置。 
而且,在(A)的情况中,不具体限制用于计算第一增益值的方法。 
在(B)的情况中,假设在音频分组发送器处,增益值编码信息被植入到音频编码数据中。 
第二控制单元203以预定的循环向第二缓冲单元201输出获取分组丢失发生信息的指令。 
在第二控制单元203已经从第二缓冲单元201获得分组丢失发生信息、距离信息和下一个存储的音频编码数据之后,其将下一个存储的音频编码数据输出到增益计算单元202,并且从增益计算单元202获取第一增益值信息。 
当第二控制单元203从第二缓冲单元201获得表示已经检测到分组丢失的分组丢失发生信息并且获得距离信息时,其确定第二增益值,该第二增益值是用于在音频错误隐藏处理中生成的被隐藏音频的音频数据的增益值,并且输出表示确定结果的第二增益值信息和解码指令到解码单元104。 
这里,假设第二增益值位于例如从0到1的范围中。如果该值是1,那么这表示音频编码数据将被解码,使得增益值变成与通过解码单元104在先前解码所获得的音频数据相对应。如果该值是0,那么这表示将用预定的增益值对音频编码数据解码。如果该值是0和1之间的平均值,那么表示音频编码数据将被解码,使得增益值变成音频数据与该平均值的乘积,该音频数据在先前的解码所获得的。 
当第二控制单元203从第二缓冲单元201获取表示已检测到分组丢失的分组丢失发生信息以及距离信息时,由于缓冲器头部的位置和存储的下一个音频编码数据之间的距离较短,所以其将第二增益值设为接近于1;而由于基于距离信息的距离较长,其将增益值设为接近于0。 
此外,根据第一增益值信息,如果在下一个存储的音频编码数据中普遍识别到音频的存在,那么第二控制单元203将第二增益值设置为非常接近于1;而如果在下一个存储的音频编码数据中没有识别到音频的存在,那么第二控制单元203将第二增益值保留为基于距离信息而设置的值。 
上述第二增益值信息仅仅是个例子。例如,增益值信息可以由其相对于预先设置到解码单元104的增益值的变化率来表示,或者增益值信息可以通过相当于变化率的值来表示,而没有任何限制。距离信息和第一增益值信息每个贡献于第二增益值信息的多少没有限制。 
如上所述,由于该示例性实施例通过考虑到存储在缓冲器中的下一个音频编码数据的增益值以及在第一示例性实施例中所描述的距离信息来调节在音频错误隐藏处理中的增益值,所以其具有能够进一步减轻对人耳的音频质量的降低的优点。 
(第三示例性实施例) 
如图4所示,该示例性实施例的音频分组接收器包括:第三缓冲单元301,用于从作为RTP分组的音频分组中提取音频编码数据,并且将所提取的音频编码数据存储到缓冲器中,并且还用于检测分组丢失;距离计算单元102,用于计算在所述缓冲器中检测到分组丢失的位置和存储下一个音频编码数据的位置之间的距离;音频类型确定单元302,用于确定在缓冲器中的下一个存储的音频编码数据的音频类型;第三控制单元303,用于基于由距离计算单元102所计算的距离以及由音频类型确定单元302所确定的音频类型,来确定在音频错误隐藏处理中所生成的用于被隐藏音频的音频数据的增益值(音量);以及解码单元104,用于当没有检测到分组丢失时,解码音频编码数据,并且用于当在第三缓冲单元301中检测到分组丢失时,基于用于由第三控制单元303所确定的被隐藏音频的音频数据的增益值,来执行音频错误隐藏处理。 
在该示例性实施例中,每个上述部件具体地执行下面的操作。将主要描述与第一示例性实施例中不同的那些单元。 
当第三缓冲单元301从第三控制单元303接收指令以获取分组丢失发生信息时,在监测到缓冲器头部的位置以及在第一示例性实施例中描述的距离信息和在第一实施例中描述的分组丢失发生信息之后,其将下一个存储的音频编码数据输出到第三控制单元303。 
音频类型确定单元302执行下面(C)或(D)的过程。 
(C)从由第三控制单元303输入的音频编码数据中的帧信息,获取关于音频编码数据的比特率信息。然后,基于该比特率信息,确定音频编码数据是否对应于有声、静音或噪声,并且将表示确定结果的音频类型信息输出到第三控制单元303。 
(D)依据从第三控制单元303输入的音频编码数据的数据长度,确定音频编码数据是否对应于有声、静音或噪声,并且将表示确定结果的音频类型信息输出到第三控制单元303。 
在(C)的情况下,假设在音频分组发送器处利用多个压缩率编码音频数据,假设比特率信息是对应于有声或者静音或者噪声的信息,并且假设在音频分组处将比特率信息植入音频编码数据中。例如,在诸如AMR,、G.723.1、G.729的音频编码方法中,与比特率比对应的信息被作为音频编码数据的一部分而发送。 
在(D)的情况中,假设数据长度是对应于有声或者静音或者噪声的信息。 
第三控制单元303以预定的循环向第三缓冲单元301输出获取分组丢失发生信息的指令。 
在第三控制单元303已经从第三缓冲单元301获得分组丢失发生信息、距离信息和下一个存储的音频编码数据之后,其将下一个存储的音频编码数据输出到音频类型确定单元302,并且从音频类型确定单元302获取音频类型信息。 
当第三控制单元303从第三缓冲单元301获得表示已经检测到分组丢失的分组丢失发生信息并且获得距离信息时,其基于该距离信息,确定用于在音频错误隐藏处理中生成的被隐藏音频的音频数据的增益值,并且将表示确定结果的增益值信息和解码指令输出到解码单元104。 
这里,假设该增益值信息位于例如从0到1的范围中。如果该值是1,那么其表示音频编码数据将被解码,使得增益值变成等同于通过解码单元104在先前解码所获得的音频数据。如果该值是0,那么其表示将用预定的增益值对音频编码数据解码。如果该值是0和1之间的平均值,那么其表示音频编码数据将被解码,使得增益值变成音频数据与该平均值的乘积,该音频数据是在先前解码所获得的。 
当第三控制单元303从第三缓冲单元301获取表示已检测到分组丢失的分组丢失发生信息并且获取距离信息时,由于缓冲器头部的位置和下一个存储的音频编码数据的位置之间的距离较短,所以其将增益值设为接近于1;而由于基于距离信息的距离较长,其将增益值设为接近于0。 
此外,第三控制单元303基于音频类型信息执行下面从(E)到(G)过程的任意一个。 
(E)如果音频信息类型对应于有声,则将增益值设为非常接近于1。 
(F)如果音频信息类型对应于静音,则保留根据距离信息所设置的增益值。 
(G)如果音频信息类型对应于噪声,则将增益值设为(E)、(F)或在(E)和(F)之间的任意值。 
上述增益值信息仅仅是个例子。例如,增益值信息可以通过其相对于预先设置到解码单元104的增益值的变化率来表示,或者增益值信息可以由相当于变化率的值来表示,而没有任何限制。距离信息和音频类型信息贡献于增益值信息的多少没有限制。 
如上所述,由于该示例性实施例通过考虑到存储在缓冲器中的下一个音频编码数据的增益值以及在第一示例性实施例中所描述的距离信息来调节在音频错误隐藏处理中的增益值,所以其具有能够进一步 减轻对人耳的音频质量的降低的优点。 
尽管已经参考示例性实施例描述了本发明,但是其不限于这些。可以在不脱离本发明的范围的前提下对本发明的构造和细节进行各种修改,并且能够被本领域技术人员所理解。 
例如,本发明的音频分组接收器能够作为接收单元而安装于终端设备、或者安装于网关设备,在该接收单元处,网关设备位于终端设备之间,用于转换它们之间的音频编码方法。 
除了通过如上所述的专用的硬件装置来实现,本发明的音频分组接收器可以是这样一种装置,其将用于实现音频分组接收器的功能的程序记录在计算机可读记录介质上,并且使得计算机读取并且执行记录在记录介质上的程序。计算机可读记录介质包括诸如软盘、磁性光盘和CD-ROM这样的记录介质,以及诸如集成在计算机中的硬盘设备这样的存储介质。计算机可读记录介质还包括这样一种装置,该装置在互联网(传输介质或载波)上传输程序的情况下,短时间动态地保存程序,并且在该情况下将程序以特定的周期保存在用作服务器的计算机内的易失性存储器中。 
本申请要求基于2007年7月9日提交的日本专利申请No.2007-179450的优先权,并且在此将整个已公开的专利申请结合到本专利申请中作为参考。 

Claims (8)

1.一种音频分组接收器,当检测到分组丢失时,该音频分组接收器执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理,其特征在于包括:
缓冲单元,其从音频分组中提取音频编码数据并且将所述提取的音频编码数据存储到缓冲器中,并且该缓冲单元还检测所述分组丢失;
距离计算单元,其计算在所述缓冲器中检测到所述分组丢失的位置和存储下一个音频编码数据的位置之间的距离;
控制单元,其基于在所述距离计算单元所计算的距离,来确定用于所述被隐藏音频的音频数据的增益值,当所述距离指示所述分组丢失的位置和存储下一个音频编码数据的位置不是彼此远离时,通过抑制增益值的衰减来生成用于所述被隐藏音频的音频数据的增益值;以及
解码单元,其基于通过所述控制单元所确定的所述用于被隐藏音频的音频数据的所述增益值来执行所述音频错误隐藏处理。
2.根据权利要求1所述的音频分组接收器,还包括:
增益计算单元,其计算所述下一个音频编码数据的增益值,
其中所述控制单元基于由所述距离计算单元计算的所述距离以及由所述增益计算单元计算的所述增益值,来确定所述用于被隐藏音频的音频数据的所述增益值。
3.根据权利要求1所述的音频分组接收器,还包括:
音频类型确定单元,其基于所述下一个音频编码数据的比特率或数据长度,来确定所述下一个音频编码数据对应于有声、无声或噪声中的哪一个,
其中所述控制单元基于由所述距离计算单元计算的距离和由所述音频类型确定单元所确定的音频类型,来确定所述用于被隐藏音频的音频数据的增益值。 
4.根据权利要求1所述的音频分组接收器,其中
所述音频分组是RTP分组,并且
其中所述距离计算单元基于在所述音频分组的RTP报头中的RTP时间戳值或RTP序列号来计算所述距离。
5.一种由音频分组接收器执行的音频分组接收方法,当检测到分组丢失时,该音频分组接收器执行用于生成用于被隐藏音频的音频数据的音频错误隐藏处理,其特征在于,所述音频分组接收方法包括:
通过从音频分组中提取音频编码数据并且将所提取的音频编码数据存储到缓冲器中,来检测分组丢失;
计算在所述缓冲器中的检测到所述分组丢失的位置和存储下一个音频编码数据的位置之间的距离;
基于所述计算的距离来确定用于所述被隐藏音频的音频数据的增益值;当所述距离指示所述分组丢失的位置和存储下一个音频编码数据的位置不是彼此远离时,通过抑制增益值的衰减来生成用于所述被隐藏音频的音频数据的增益值;并且
基于用于所述被隐藏音频的音频数据的所述确定的增益值,来执行所述音频错误隐藏处理。
6.根据权利要求5所述的音频分组接收方法,还包括:
计算所述下一个音频编码数据的增益值,
其中所述确定用于所述被隐藏音频的音频数据的增益值包括:基于所述计算的距离和所述计算的下一个音频编码数据的增益值,来确定用于所述被隐藏音频的音频数据的增益值。
7.根据权利要求5所述的音频分组接收方法,还包括:
确定下一个音频编码数据的音频类型的步骤,基于所述下一个音频编码数据的比特率或数据长度,来确定所述下一个音频编码数据对应于有声、无声或噪声中的哪一个, 
其中所述确定增益值包括:基于所述计算的距离和所述确定的音频类型,来确定用于所述被隐藏音频的音频数据的增益值。
8.根据权利要求5所述的音频分组接收方法,其中
所述音频分组是RTP分组,并且
其中所述距离计算包括:基于在所述音频分组的RTP报头中的RTP时间戳值或RTP序列号来计算所述距离。 
CN2008800209594A 2007-07-09 2008-05-22 音频分组接收器、音频分组接收方法 Expired - Fee Related CN101689370B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007179450 2007-07-09
JP179450/2007 2007-07-09
PCT/JP2008/059444 WO2009008220A1 (ja) 2007-07-09 2008-05-22 音声パケット受信装置、音声パケット受信方法、およびプログラム

Publications (2)

Publication Number Publication Date
CN101689370A CN101689370A (zh) 2010-03-31
CN101689370B true CN101689370B (zh) 2012-08-22

Family

ID=40228401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800209594A Expired - Fee Related CN101689370B (zh) 2007-07-09 2008-05-22 音频分组接收器、音频分组接收方法

Country Status (4)

Country Link
US (1) US20100195490A1 (zh)
JP (1) JP5012897B2 (zh)
CN (1) CN101689370B (zh)
WO (1) WO2009008220A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5668687B2 (ja) * 2009-09-18 2015-02-12 日本電気株式会社 音声品質解析装置、音声品質解析方法およびプログラム
JP5836733B2 (ja) * 2011-09-27 2015-12-24 沖電気工業株式会社 バッファ制御装置、バッファ制御プログラム及び通信装置
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369455B (zh) 2014-03-21 2020-12-15 华为技术有限公司 语音频码流的解码方法及装置
JP6826126B2 (ja) 2016-03-07 2021-02-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 異なる周波数帯域の異なる減衰係数に従って隠蔽されたオーディオフレームをフェードアウトする誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム
JP6883047B2 (ja) * 2016-03-07 2021-06-02 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 適切に復号されたオーディオフレームの復号化表現の特性を使用する誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム
RU2020114250A (ru) * 2017-11-14 2021-10-21 Сони Корпорейшн Устройство и способ обработки сигналов и программа

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435817A (zh) * 2002-01-29 2003-08-13 富士通株式会社 语音编码转换方法和装置
US6703948B1 (en) * 1999-12-08 2004-03-09 Robert Bosch Gmbh Method for decoding digital audio data

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003218932A (ja) * 2001-11-15 2003-07-31 Matsushita Electric Ind Co Ltd エラー隠蔽装置及び方法
US20050044471A1 (en) * 2001-11-15 2005-02-24 Chia Pei Yen Error concealment apparatus and method
JP4022427B2 (ja) * 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
JP2004361731A (ja) * 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
JP4214842B2 (ja) * 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
JP3965141B2 (ja) * 2003-08-15 2007-08-29 株式会社国際電気通信基礎技術研究所 音声認識装置
JP2005077889A (ja) * 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式
JP2005157045A (ja) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd 音声伝送方法
WO2007000988A1 (ja) * 2005-06-29 2007-01-04 Matsushita Electric Industrial Co., Ltd. スケーラブル復号装置および消失データ補間方法
JP2007328076A (ja) * 2006-06-07 2007-12-20 Matsushita Electric Ind Co Ltd 音声信号再生装置
JP4236675B2 (ja) * 2006-07-28 2009-03-11 富士通株式会社 音声符号変換方法および装置
US20080040498A1 (en) * 2006-08-10 2008-02-14 Nokia Corporation System and method of XML based content fragmentation for rich media streaming

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6703948B1 (en) * 1999-12-08 2004-03-09 Robert Bosch Gmbh Method for decoding digital audio data
CN1435817A (zh) * 2002-01-29 2003-08-13 富士通株式会社 语音编码转换方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JP特开2003-316670A 2003.11.07
JP特开2004-120619A 2004.04.15
JP特开2005-157045A 2005.06.16
JP特开2005-62572A 2005.03.10
JP特开2005-77889A 2005.03.24
Sanneck,H. et.al.Concealment of Lost Speech Packets Using Adaptive Packetization.《IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA COMPUTING AND SYSTEMS 1998》.1998,第140-149页. *

Also Published As

Publication number Publication date
US20100195490A1 (en) 2010-08-05
JPWO2009008220A1 (ja) 2010-09-02
WO2009008220A1 (ja) 2009-01-15
JP5012897B2 (ja) 2012-08-29
CN101689370A (zh) 2010-03-31

Similar Documents

Publication Publication Date Title
CN101689370B (zh) 音频分组接收器、音频分组接收方法
CN102449690B (zh) 用于重建被擦除语音帧的***与方法
JP6533285B2 (ja) 符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法
US7668712B2 (en) Audio encoding and decoding with intra frames and adaptive forward error correction
KR101353847B1 (ko) 반향 검출 방법 및 장치
Wang et al. Index-based selective audio encryption for wireless multimedia sensor networks
JP5587405B2 (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
KR101160218B1 (ko) 일련의 데이터 패킷들을 전송하기 위한 장치와 방법, 디코더, 및 일련의 데이터 패킷들을 디코딩하기 위한 장치
CN104040622A (zh) 用于关键性阈值控制的***、方法、设备和计算机可读媒体
KR20120115961A (ko) 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치
CN1212607C (zh) 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器
JP4870103B2 (ja) 圧縮された情報信号全体にわたって散在させられたデジタル・メッセージの伝送
CN101336450A (zh) 在无线通信***中用于语音编码的方法和装置
Tan et al. Automatic speech recognition over error-prone wireless networks
US6871175B2 (en) Voice encoding apparatus and method therefor
CN100514394C (zh) 对于语音代码进行数据嵌入/抽取方法、装置以及***
CN103905672B (zh) 音量调节方法与***
JP4022427B2 (ja) エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7949016B2 (en) Interactive communication system, communication equipment and communication control method
CN107545899A (zh) 一种基于清音基音延迟抖动特性的amr隐写方法
CN101320564B (zh) 数字语音通信***
Bakri et al. Packet loss concealment-based estimation of polynomial interpolation for improving speech quality in VoIP
Sjoberg et al. Rtp payload format for the extended adaptive multi-rate wideband (amr-wb+) audio codec
CN100562012C (zh) 对基于实时传输协议的媒体流进行干扰的实现方法
JP4060317B2 (ja) 双方向通信システム、通信機、および通信制御方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120822

Termination date: 20170522