CN108885875A - 用于改进从音频信号的隐藏音频信号部分到后继音频信号部分的转换的装置和方法 - Google Patents
用于改进从音频信号的隐藏音频信号部分到后继音频信号部分的转换的装置和方法 Download PDFInfo
- Publication number
- CN108885875A CN108885875A CN201780020242.9A CN201780020242A CN108885875A CN 108885875 A CN108885875 A CN 108885875A CN 201780020242 A CN201780020242 A CN 201780020242A CN 108885875 A CN108885875 A CN 108885875A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sample
- signal parts
- parts
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 495
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims description 55
- 238000013016 damping Methods 0.000 claims description 35
- 239000003550 marker Substances 0.000 claims description 34
- 230000005284 excitation Effects 0.000 claims description 31
- 230000006978 adaptation Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000007257 malfunction Effects 0.000 claims 1
- 238000013461 design Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 206010002953 Aphonia Diseases 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
提供了一种用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置(10)。装置(10)包括处理器(11),处理器(11)被配置为根据第一音频信号部分并且根据第二音频信号部分产生音频信号的解码音频信号部分,其中第一音频信号部分取决于隐藏音频信号部分,并且其中第二音频信号部分取决于后继音频信号部分。此外,装置(10)包括输出接口(12),用于输出解码音频信号部分。第一音频信号部分和第二音频信号部分以及解码音频信号部分中的每一个包括多个样本,其中第一音频信号部分和第二音频信号部分以及解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的。
Description
技术领域
本发明涉及音频信号处理和解码,并且特别地涉及一种用于改进隐藏音频信号部分到从音频信号的后继音频信号部分的转换的装置和方法。
背景技术
在容易出错的网络的情况下,每个编解码器都试图减轻由于这些丢失造成的伪像(artifacts)。现有技术关注借助于从简单静音或噪声替代到诸如基于过去的良好帧的预测之类的高级方法的不同方法来对丢失信息进行隐藏。由于分组丢失导致的伪像的一个明显被忽视的巨大来源位于(丢失之后的几个良好帧的)恢复处。
由于在语音编解码器的情况下经常使用的长期预测,恢复伪像可能非常严重,并且错误传播可能影响多个后面的良好帧。一些现有技术试图减轻该问题,参见例如[1]和[2]。
在通用或音频编解码器(在变换域中工作的任何编解码器)的情况下,可以找到许多关于隐藏帧丢失的文档(比如,[3]中)。然而,可用的现有技术并不关注帧的恢复。假设由于变换域编解码器的性质,重叠和添加将平滑转换伪像。一个很好的示例是在Facetime中用于在IP网络上通信的AAC-ELD(AAC-ELD=高级音频编码-增强型低延迟;参见[4])。
帧丢失后的前几帧称为“恢复帧”。现有技术的变换域编解码器似乎不提供关于一个或多个恢复帧的特殊处理。有时会出现烦人的伪像。执行恢复时可能发生的问题的示例是隐藏波信号和良好波信号在重叠和添加部分中的叠加,这有时会导致烦人的能量提升。
另一问题是帧边界上的突然音高改变。针对语音信号的情况的示例是当原始信号的音高改变并且发生帧丢失时,隐藏方法可以预测帧结尾处的音高稍微错误。这种稍微出错的预测可能会导致音高跳跃到下一良好帧中。大多数已知的隐藏方法甚至不使用预测,并且仅在最后有效音高上使用固定音高基准(pitch base),这可能导致与第一良好帧的甚至更大的不匹配。一些其它方法使用高级预测来减少偏移,例如,参见EVS(EVS=增强型语音服务)中的TD-TCX PLC(TD=时域;TCX=变换编码激励;PLC=分组丢失隐藏),参见[5]。
用于修改语音信号中的音高的现有技术方法(例如,TD-PSOLA(TD-PSOLA=时域-音调同步重叠-添加,参见[6]和[7])对语音信号执行韵律修改(例如,持续时间的扩张/收缩(称为时间拉伸))或改变基频(音高)。这是通过将语音信号分解成短期和音高同步分析信号来完成的,然后在时间轴上重新定位并逐步并置这些分析信号。然而,当隐藏帧中的音高和原始信号中的音高不同时,在重叠机制之后破坏恢复帧中的信号。TD-PSOLA机制只是在时间轴上重新定位伪像,这不适合恢复。
发明内容
因此,本发明的目的是提供用于音频信号处理和解码的改进的构思。
本发明的目的是通过根据权利要求1的装置、根据权利要求35的方法和根据权利要求36的计算机程序解决的。
提供了一种用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置。
该装置包括处理器,处理器被配置为根据第一音频信号部分并且根据第二音频信号部分产生音频信号的解码音频信号部分,其中第一音频信号部分取决于隐藏音频信号部分,并且其中第二音频信号部分取决于后继音频信号部分。
此外,该装置包括输出接口,用于输出解码音频信号部分。
第一音频信号部分和第二音频信号部分以及解码音频信号部分中的每一个包括多个样本,其中第一音频信号部分和第二音频信号部分以及解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的,其中多个样本位置被排序,使得对于多个样本位置中的第一样本位置和多个样本位置中的与第一样本位置不同的第二样本位置的每个对,第一样本位置是第二样本位置的后继或者前导。
处理器被配置为确定第一音频信号部分的第一子部分,使得与第一音频信号部分相比第一子部分包括更少的样本。
处理器被配置为使用第一音频信号部分的第一子部分并且使用第二音频信号部分或第二音频信号部分的第二子部分来产生解码音频信号部分,使得对于第二音频信号部分的两个或更多个样本中的每个样本,第二音频信号部分的两个或更多个样本中的所述样本的样本位置等于解码音频信号部分的一个样本的样本位置,并且使得第二音频信号部分的两个或更多个样本中的所述样本的样本值不同于解码音频信号部分的所述一个样本的样本值。
此外,提供了一种用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的方法。所述方法包括:
-根据第一音频信号部分并且根据第二音频信号部分产生音频信号的解码音频信号部分,其中第一音频信号部分取决于隐藏音频信号部分,并且其中第二音频信号部分取决于后继音频信号部分。以及:
-输出解码音频信号部分。
第一音频信号部分和第二音频信号部分以及解码音频信号部分中的每一个包括多个样本,其中第一音频信号部分和第二音频信号部分以及解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的,其中多个样本位置被排序,使得对于多个样本位置中的第一样本位置和多个样本位置中的与第一样本位置不同的第二样本位置的每个对,第一样本位置是第二样本位置的后继或者前导。
产生解码音频信号包括确定第一音频信号部分的第一子部分,使得与第一音频信号部分相比第一部分包括更少的样本。
此外,产生解码音频信号部分是使用第一音频信号部分的第一子部分并且使用第二音频信号部分或第二音频信号部分的第二子部分来执行的,使得对于第二音频信号部分的两个或更多个样本中的每个样本,第二音频信号部分的两个或更多个样本中的所述样本的样本位置等于解码音频信号部分的一个样本的样本位置,并且使得第二音频信号部分的两个或更多个样本中的所述样本的样本值不同于解码音频信号部分的所述一个样本的样本值。
此外,提供了一种被配置为当在计算机或信号处理器上执行时实现上述方法的计算机程序。
一些实施例提供恢复滤波器,其为一种用于平滑和修复在(例如,基于块的)音频编解码器中从丢失帧到第一良好帧的转换的工具。根据实施例,恢复滤波器可以用于在语音信号的第一良好帧中在隐藏帧期间固定音高改变,但也用于平滑噪声信号的转换。
尤其是,一些实施例基于以下发现:对于信号修改的长度是有限的,从在隐藏帧中结束的最后一个样本开始到第一良好帧的最后一个样本。长度可以增加超过第一良好帧中的最后一个样本,但是这会冒错误传播的风险,而错误传播在将来的帧中很难处理。因此,需要快速恢复。为了在丢失帧和恢复帧之间不匹配的情况下修复语音特性,恢复帧中的信号的音高应该从隐藏帧中的音高缓慢地改变到恢复帧中的音高,同时必须保持信号修改长度的限制。如果音高改变整数值的倍数,则使用TD-PSOLA算法将是可能的。由于这是一种非常罕见的情况,因此在这种情况下不能应用TD-PSOLA。
附图说明
以下参考附图更详细地描述本发明的实施例,在附图中:
图1a示出了根据实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置。
图1b示出了根据实现音高适配重叠构思的另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置。
图1c示出了根据实现激励重叠构思的另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置。
图1d示出了根据实现能量阻尼的另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置。
图1e示出了根据另一实施例的装置,其中该装置还包括隐藏单元。
图1f示出了根据另一实施例的装置,其中该装置还包括用于激活隐藏单元的激活单元。
图1g示出了根据另一实施例的装置,其中激活单元还被配置为激活处理器。
图2示出了根据实施例的汉明余弦窗。
图3示出了根据这样的实施例的隐藏帧和良好帧。
图4示出了根据实施例的实现音高适配重叠的两个原型的产生。以及:
图5示出了根据实施例的激励重叠。
图6示出了根据实施例的隐藏帧和良好帧。
图7a示出了根据实施例的***。
图7b示出了根据另一实施例的***。
图7c示出了根据另一实施例的***。
图7d示出了根据另一实施例的***。以及:
图7e示出了根据另一实施例的***。
具体实施方式
图1a示出了根据实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继(succeeding)音频信号部分的转换的装置10。
装置10包括处理器11,处理器11被配置为根据第一音频信号部分并且根据第二音频信号部分产生音频信号的解码音频信号部分,其中第一音频信号部分取决于隐藏音频信号部分,并且其中第二音频信号部分取决于后继音频信号部分。
在一些实施例中,第一音频信号部分可以例如根据隐藏音频信号部分导出,但是可以例如与隐藏音频信号部分不同,和/或第二音频信号部分可以例如根据后继音频信号部分导出,但是可以例如与后继音频信号部分不同。
在其它实施例中,第一音频信号部分可以例如是(等于)隐藏音频信号部分,并且第二音频信号部分可以例如是后继音频信号部分。
此外,装置10包括输出接口12,用于输出解码音频信号部分。
第一音频信号部分和第二音频信号部分以及解码音频信号部分中的每一个包括多个样本,其中第一音频信号部分和第二音频信号部分以及解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的,其中多个样本位置被排序,使得对于多个样本位置中的第一样本位置和多个样本位置中的与第一样本位置不同的第二样本位置的每个对,第一样本位置是第二样本位置的后继或者前导。
例如,通过样本位置和样本值来定义样本。例如,在二维坐标系中,样本位置可以定义样本的x轴值(横坐标轴值),并且样本值可以定义该样本的y轴值(纵坐标轴值)。因此,考虑到特定样本,二维坐标系内位于特定样本左侧的所有样本都是该特定样本的前导(因为它们的样本位置小于特定样本的样本位置)。二维坐标系内位于特定样本右侧的所有样本都是该特定样本的后继(因为它们的样本位置大于特定样本的样本位置)。
处理器11被配置为确定第一音频信号部分的第一子部分,使得与第一音频信号部分相比第一子部分包括更少的样本。
处理器11被配置为使用第一音频信号部分的第一子部分并且使用第二音频信号部分或第二音频信号部分的第二子部分来产生解码音频信号部分,使得对于第二音频信号部分的两个或更多个样本中的每个样本,第二音频信号部分的两个或更多个样本中的所述样本的样本位置等于解码音频信号部分的一个样本的样本位置,并且使得第二音频信号部分的两个或更多个样本中的所述样本的样本值不同于解码音频信号部分的所述一个样本的样本值。
因此,在一些实施例中,处理器11被配置为使用第一子部分并且使用第二音频信号部分来产生解码音频信号部分。
在其它实施例中,处理器11将使用第一子部分并且使用第二音频信号部分的第二子部分来产生解码音频信号部分。与第二音频信号部分相比第二子部分包括更少的样本。
实施例基于以下发现:通过修改后继音频信号部分的样本并且不仅通过调整隐藏音频信号的样本来改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换是有益的。通过还修改正确接收的帧的样本,可以改进从(例如,隐藏音频信号帧的)隐藏音频信号部分到(例如,后继音频信号帧的)后继音频信号部分的转换。
因此,使用第一音频信号部分和第二音频信号部分来产生解码音频信号部分,但是解码音频信号部分包括(至少两个或更多个)样本,该样本被指派给样本位置而作为第二音频信号部分(其取决于后继音频信号部分)中的样本值不同的样本。这意味着对于这些样本,对应样本的样本值不是按原样采用,而是被修改,以获得解码音频信号部分的对应样本。
关于第一音频信号部分和第二音频信号部分,处理器11可以例如接收第一音频信号部分和第二音频信号部分。
或者,在另一实施例中,例如,处理器11可以例如接收隐藏音频信号部分,并且可以根据隐藏音频信号部分来确定第一音频信号部分,并且处理器11可以例如接收后继音频信号部分,并且可以根据后继音频信号部分来确定第二音频信号部分。
或者,在另一实施例中,例如,处理器11可以例如接收音频信号帧;例如,处理器11可以确定第一帧丢失或第一帧被破坏。然后,处理器11可以执行隐藏,并且可以例如根据现有技术构思来产生隐藏音频信号部分。此外,处理器11可以例如接收第二音频信号帧,并且可以从第二音频信号帧获得后继音频信号部分。图1e示出了这样的实施例。
在一些实施例中,第一音频信号部分可以例如是作为相对于隐藏音频信号部分的残差信号的第一残差信号的残差信号部分。在一些实施例中,例如,第二音频信号部分可以是作为相对于后继音频信号部分的残差信号的第二残差信号的残差信号部分。
在图1e中,装置10还包括隐藏单元8,隐藏单元8被配置为对出错的或者丢失的当前帧执行隐藏,以获得隐藏音频信号部分。
根据图1e的实施例,该装置还包括隐藏单元8。隐藏单元8可以例如被配置为:如果帧丢失或被破坏,则根据现有技术执行隐藏。然后,隐藏单元8将隐藏音频信号部分递送到处理器11。在这样的实施例中,隐藏音频信号部分可以例如是被执行了隐藏的出错的或丢失的帧的隐藏音频信号部分。后继音频信号帧可以例如是未被执行隐藏的(后继)音频信号帧的后继音频信号部分。后继音频信号帧可以例如在时间上后继于出错的或丢失的帧。
图1f示出了实施例,其中装置10还包括激活单元6,激活单元6可以例如被配置为检测当前帧是否是丢失的或是出错的。例如,如果当前帧在上个接收的帧之后没有在预定义时间限制内到达,则激活单元6可以例如得出当前帧丢失的结论。或者,例如,具有比当前帧的帧号大的帧号的另一帧(例如,后继帧)达到,则激活单元可以例如得出当前帧丢失的结论。如果例如接收的校验和或接收的校验位不等于由激活单元计算出的计算的校验和或计算的校验位,则激活单元6可以例如得出帧是出错的结论。
图1f的激活单元6可以例如被配置为:如果当前帧是丢失的或者是出错的,则激活隐藏单元8以对当前帧执行隐藏。
图1g示出了实施例,其中激活单元6可以例如被配置为:如果当前帧是丢失的或者是出错的,则检测未出错的后继帧是否到达。在图1g的实施例中,激活单元6可以被配置为:如果当前帧是丢失的或者是出错的,并且如果未出错的后继帧到达,则激活处理器(8)以产生解码音频信号部分。
图1b示出了根据另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置100。图1b的装置实现了音高适配重叠构思。
图1b的装置100是图1a的装置10的特定实施例。图1b的处理器110是图1a的处理器11的特定实施例。图1b的输出接口120是图1a的输出接口12的特定实施例。
在图1b的实施例中,处理器110可以例如被配置为:确定作为第二音频信号部分的第二子部分的第二原型信号部分,使得与第二音频信号部分相比第二子部分包括更少的样本。
处理器110可以例如被配置为通过将作为第一子部分的第一原型信号部分和第二原型信号部分进行组合,确定一个或多个中间原型信号部分中的每一个,来确定一个或多个中间原型信号部分。
在图1b中,处理器110可以例如被配置为使用第一原型信号部分、使用一个或多个中间原型信号部分、并且使用第二原型信号部分来产生解码音频信号部分。
根据实施例,处理器110可以例如被配置为通过将第一原型信号部分、一个或多个中间原型信号部分、以及第二原型信号部分进行组合来产生解码音频信号部分。
在实施例中,处理器110被配置为确定三个或更多个标记样本位置,其中三个或更多个标记样本位置中的每一个是第一音频信号部分和第二音频信号部分中的至少一个的样本位置。此外,处理器110被配置为选择第二音频信号部分中的、对于第二音频信号部分的任何其它样本的任何其它样本位置来说都是后继的样本的样本位置,来作为三个或更多个标记样本位置的最终样本位置。此外,处理器110被配置为通过根据第一音频信号部分的第一子部分与第二音频信号部分的第二子部分之间的相关性从第一音频信号部分中选择样本位置,来确定三个或更多个标记样本位置的开始样本位置。此外,处理器110被配置为根据三个或更多个标记样本位置的开始样本位置并且根据三个或更多个标记样本位置的最终样本位置,来确定三个或更多个标记样本位置的一个或多个中间样本位置。此外,处理器110被配置为通过根据所述中间样本位置将第一原型信号部分和第二原型信号部分进行组合来确定一个或多个中间原型信号部分中的针对所述一个或多个中间样本位置的每一个中间样本位置的中间原型信号部分,确定一个或多个中间原型信号部分。
根据实施例,处理器110被配置为通过根据以下公式将第一原型信号部分和第二原型信号部分进行组合来确定一个或多个中间原型信号部分中的针对所述一个或多个中间样本位置的每一个中间样本位置的中间原型信号部分,来确定一个或多个中间原型信号部分:
sigi=(1-α)·sigfirst+α·siglast
其中:
其中,i是整数,并且i≥1,其中nrOfMarkers是三个或更多个标记样本位置的数量减去1,其中sigi是一个或多个中间原型信号部分中的第i个中间原型信号部分,其中sigfirst是第一原型信号部分,其中siglast是第二原型信号部分。
在实施例中,处理器110被配置为根据如下公式中的任何一个来确定三个或更多个标记样本位置的一个或多个中间样本位置:
或者
其中,
其中,δ=x1-(x0+nrOfMarkers·Tc),
其中,
其中,i是整数,并且i≥1,其中nrOfMarkers是三个或更多个标记样本位置的数量减去1,其中marki是三个或更多个标记样本位置中的第i个中间样本位置,其中marki-1是三个或更多个标记样本位置的第i-1个中间样本位置,其中marki+1是三个或更多个标记样本位置的第i+1个中间样本位置,其中x0是三个或更多个标记样本位置的开始样本位置,其中x1是三个或更多个标记样本位置的最终样本位置,并且其中Tc指示音高滞后。
根据实施例,处理器110被配置为根据隐藏音频信号部分并且根据多个第三滤波器系数来确定第一音频信号部分,其中多个第三滤波器系数取决于隐藏音频信号部分和后继音频信号部分,并且其中处理器110被配置为根据后继音频信号部分和多个第三滤波器系数来确定第二音频信号部分。
在实施例中,处理器110可以例如包括滤波器,其中处理器110被配置为对隐藏音频信号部分应用具有第三滤波器系数的滤波器以获得第一音频信号部分,并且其中处理器110被配置为对后继音频信号部分应用具有第三滤波器系数的滤波器以获得第二音频信号部分。
根据实施例,处理器110被配置为根据隐藏音频信号部分确定多个第一滤波器系数,其中处理器110被配置为根据后继音频信号部分确定多个第二滤波器系数,其中处理器110被配置为根据一个或多个第一滤波器系数和一个或多个第二滤波器系数的组合来确定每个第三滤波器系数。
在实施例中,多个第一滤波器系数的滤波器系数、多个第二滤波器系数的滤波器系数、以及多个第三滤波器系数的滤波器系数是线性预测滤波器的线性预测编码参数。
根据实施例,处理器110被配置为根据以下公式确定第三滤波器系数的每个滤波器系数:
A=0.5·Aconc+0.5·Agood
其中,A指示所述滤波器系数的滤波器系数值,其中Aconc指示多个第一滤波器系数中的滤波器系数的系数值,并且其中Agood指示多个第二滤波器系数中的滤波器系数的系数值。
在实施例中,处理器110被配置为对隐藏音频信号部分应用由以下公式定义的余弦窗,以获得隐藏加窗信号部分:
其中,处理器110被配置为对后继音频信号部分应用所述余弦窗以获得后继加窗信号部分,其中处理器110被配置为根据隐藏加窗信号部分来确定多个第一滤波器系数,其中处理器110被配置为根据后继加窗信号部分来确定多个第二滤波器系数,并且其中x、x1和x2中的每一个是多个样本位置中的样本位置。
根据实施例,处理器110可以例如被配置为根据第一音频信号的多个子部分候选项的每个子部分与第二音频信号部分的所述第二子部分的多个相关性,选择所述第一原型信号部分来作为第一音频信号部分的多个子部分候选项的子部分。处理器110可以例如被配置为选择所述第一原型信号部分的多个样本中的、对于所述第一原型信号部分的任何其它样本的任何其它样本位置来说都是前导的样本位置,来作为三个或更多个标记样本位置的开始样本位置。
在实施例中,处理器110可以例如被配置为选择所述子部分候选项中与所述第二子部分的相关性具有所述多个相关性中的最高相关值的子部分来作为所述第一原型信号部分。
根据实施例,处理器110被配置为根据以下公式来确定针对多个相关性的每个相关性的相关值:
其中,Lframe指示与第一音频信号部分的样本数量相等的第二音频信号部分的样本数量,其中r(2Lframe-i)指示第二音频信号部分中的在样本位置2Lframe-i处的样本的样本值,其中r(Lframe-i-Δ)指示第一音频信号部分中的在样本位置Lframe-i-Δ处的样本的样本值,其中对于多个子部分候选项中的子部分候选项与所述第二子部分的多个相关性的每个相关性,Δ指示编号并且取决于所述子部分候选项。
音高适配重叠用于补偿可能出现在帧丢失之后的第一个良好解码帧的开始的音高与用TD PLC隐藏的帧的结束处的音高之间的音高差。信号在LPC域中操作,以利用LPC合成滤波器在算法结束时平滑构建的信号。在LPC域中,通过如下所述的互相关性来找到具有最高相似性的瞬间,并且信号的音高从最后的音高滞后Tc缓慢演变为新的音高滞后Tg以避免突然的音高变化。
在下文中,描述了根据特定实施例的音高适配重叠。
根据这样的实施例的装置或方法可以例如如下实现:
利用汉明余弦窗来分别计算关于预加重的隐藏信号s(0:Lframe-1)和第一良好帧s(Lframe:2Lframe-1)的16阶LPC参数Aconc和Agood,汉明余弦窗例如为如下形式:
其中,对于具有480个样本的帧长度,x1=200和x2=40。
图2示出了根据实施例的这种汉明余弦窗。窗的形状可以例如以使得在分析时信号部分的最后信号样本具有最高影响的方式来设计。
在LSP域中进行插值得到A=0.5·Aconc+0.5·Agood。
利用A来计算隐藏帧的LPC残差信号:
和第一良好帧的LPC残差信号:
找到瞬间x0,它表示隐藏帧的最后部分与良好帧的最后部分之间的最大相似性,x1是2Lframe-1。
图3示出了根据这样的实施例的隐藏帧和良好帧。
得到x0是通过最大化归一化的互相关性来完成的:
通常,归一化是在相关性结束时完成的:例如,在音高搜索中,在已经找到音高值时在相关性之后进行归一化。
在相关性期间完成归一化,以抵抗信号之间的能量波动。出于复杂性原因,归一化项是根据更新方案计算的。仅对于初始值
其中Δ=0,例如可以计算完整的点积。对于Δ的下一增量,该项可以例如更新为如下:
normΔ=normΔ-1+r(Lframe-Tg-Δ)2-r(Lframe-Δ)2,Δ=1...Tc
为了使音高滞后从最后音高滞后Tc(x0)缓慢演变为新的音高滞后Tg(x1),必须设置其间的瞬间标记mark,其中:
mark0=x0
marknrOfMarkers=x1
如果nrOfMarkers低于1或高于12,则算法切换到能量阻尼。否则,如果δ>0和Tc<Tg或者δ<0和Tc>fg,其中
δ=x1-(x0+nrOfMarkers·Tc)
以及
从左向右地如下地计算标记:
否则,从右向左地构建标记:
应当注意,nrOfMarkers是所有标记数量减去1。或者,以不同的方式表示,nrOfMarkers是所有标记样本位置的数量减去1,因为x0=mark0和x1=marknrOfMarkers也是标记样本位置。例如,如果nrOfMarkers=4,则有5个标记样本位置,即mark0、mark1、mark2、mark3和mark4,
对于合成信号,切出(cutting-out)输入片段被加窗并围绕瞬间标记mark来设置(片段在时间上偏移以集中在瞬间标记上)。为了从隐藏的信号形状缓慢平滑到无重叠的良好信号,片段将是两个不重叠部分的线性组合:即,隐藏帧的结束部分和良好帧的结束部分。以下称为原型sigfirst和siglast。
原型的长度len是两倍最小标记距离-1,以防止重叠添加合成操作中能量可能会增加。如果两个标记之间的距离不在Tc和Tg之间,则会导致边界处出现问题。(因此,在特定实施例中,算法可以例如在这些情况下中止,并且可以例如切换到能量阻尼。下面将描述能量阻尼)。
以使得将x0和x1设置在sigfirst和siglast的中点上的方式来从激励信号r(x)中切出具有长度Tc和Tg的原型(参见图4中的步骤1)。然后,将原型循环延伸,以达到长度len(参见图4中的步骤2)。然后,利用汉明窗对原型进行加窗(参见图4中的步骤3),以避免重叠区域中的伪影。
如下地计算标记i的原型(参见图4中的步骤4):
sigi=(1-α)·sigfirst+α·siglast
其中
然后,按照中点将原型设置在对应标记位置处,并且将这些原型相加(参见图4中的步骤5)。
最后,首先用具有滤波器参数A的LPC合成滤波器对构建的信号进行滤波,然后用去加重滤波器对其进行滤波,使其返回到原始信号域。
对该信号与原始解码信号进行淡入淡出,以防止帧边界上的伪影。
图4示出了根据这样的实施例的两个原型的产生。
出于安全原因,应当对淡入淡出信号应用例如如下所述的能量阻尼,以消除恢复帧中能量高度增加的风险。
关于上面提到的针对x0和x1的原型的切出,x0和x1是时间点,当两个残差信号具有最高相似性时,针对x0和x1的原型sigfirst和siglast具有的长度len=“两倍最小标记距离-1”。因此,长度总是奇数,这使得sigfirst和siglast有一个中点。现在将(隐藏帧的)具有长度为Tc的残差信号和(良好帧的)具有长度为Tg的残差信号安置为使得x0位于sigfirst的中点上,并且使得x1位于siglast的中点上。之后,可以将这些残差信号循环延伸以填充从sigfirst和siglast的1到len的所有样本。
在下文中,描述了根据实施例的激励重叠。
图1c示出了根据另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的装置200。图1c的装置实现激励重叠构思。
图1c的装置200是图1a的装置10的特定实施例。图1c的处理器210是图1a的处理器11的特定实施例。图1c的输出接口220是图1a的输出接口12的特定实施例。
在图1c中,处理器210可以例如被配置为根据第一子部分产生第一扩展信号部分,使得第一扩展信号部分与第一音频信号部分不同,并且使得第一扩展信号部分具有比第一子部分所具有的样本更多的样本。
此外,图1c的处理器210可以例如被配置为使用第一扩展信号部分和使用第二音频信号部分来产生解码音频信号部分。
根据实施例,处理器210被配置为通过对第一扩展信号部分和第二音频信号部分执行淡入淡出来产生解码音频信号部分,以获得淡入淡出信号部分。
在实施例中,处理器210可以例如被配置为根据第一音频信号部分来产生第一子部分,使得第一子部分的长度等于第一音频信号部分的音高滞后(Tc)。
根据实施例,处理器210可以例如被配置为产生第一扩展信号部分,使得第一扩展信号部分的样本的数量等于第一音频信号部分的所述音高滞后的样本数量加上第二音频信号部分的样本的数量(Tc+第二音频信号部分的样本数量)。
在实施例中,处理器210可以例如被配置为根据隐藏音频信号部分并且根据多个滤波器系数来确定第一音频信号部分,其中多个滤波器系数取决于隐藏音频信号部分。此外,处理器210可以例如被配置为根据后继音频信号部分和多个滤波器系数确定第二音频信号部分。
根据实施例,处理器210可以例如包括滤波器。此外,处理器210可以例如被配置为对隐藏音频信号部分应用具有滤波器系数的滤波器以获得第一音频信号部分。此外,处理器210可以例如被配置为对后继音频信号部分应用具有滤波器系数的滤波器以获得第二音频信号部分。
在实施例中,多个滤波器系数的滤波器系数可以例如是线性预测滤波器的线性预测编码参数。
根据实施例,处理器210可以例如被配置为对隐藏音频信号部分应用由以下公式定义的余弦窗,以获得隐藏加窗信号部分。
处理器210可以例如被配置为根据隐藏加窗信号部分确定多个滤波器系数,其中x和x1和x2中的每一个是多个样本位置中的样本位置。
图5示出了根据这样的实施例的激励重叠。
实现激励重叠的装置在激励域中在隐藏帧的前向重复与解码信号之间进行淡入淡出,以在两个信号之间缓慢平滑。
根据这样的实施例的装置或方法可以例如如下实现:
首先,如在音高适配重叠方法中所做的那样,利用汉明余弦窗对先前帧的预加重结束部分进行16阶LPC分析(参见图5中的步骤1)。
应用LPC滤波器以得到隐藏帧的激励信号和第一良好帧的激励信号(参见图5中的步骤2)。
为了构建恢复帧,隐藏帧的激励的最后Tc个样本被前向重复以在全帧长度上创建(参见图5中的步骤3)。这将用于与第一良好帧重叠。
扩展的激励与第一良好帧的激励淡入淡出(参见图5中的步骤4)。
然后,对具有存储内容为隐藏帧的最后预加重样本的淡入淡出信号应用LPC合成(参见图5中的步骤5),以平滑隐藏帧和第一良好帧之间的转换。
最后,对合成信号应用去加重滤波器(参见图5中的步骤6),以将信号返回到原始域中。
对新构建的信号与原始解码信号进行淡入淡出(参见图5中的步骤7),以防止帧边界处的伪像。
在下文中,描述了根据实施例的能量阻尼。
图1d示出了实施例,其中第一音频信号部分是隐藏音频信号部分,其中第二音频信号部分是后继音频信号部分。
图1d的装置300是图1a的装置10的特定实施例。图1d的处理器310是图1a的处理器11的特定实施例。图1d的输出接口320是图1a的输出接口12的特定实施例。
图1d的处理器310可以例如被配置为确定隐藏音频信号部分的第一子部分(其为第一音频信号部分的第一子部分),使得第一子部分包括隐藏音频信号部分的一个或多个样本但与隐藏音频信号部分相比包括更少的样本,并且使得第一子部分的样本的每个样本位置是隐藏音频信号部分中的不包括在第一子部分内的任何样本的任何样本位置的后继。
此外,图1d的处理器310可以例如被配置为确定后继音频信号部分的第三子部分,使得第三子部分包括后继音频信号部分的一个或多个样本但与后继音频信号部分相比包括更少的样本,并且使得第三子部分的每个样本的每个样本位置是后继音频信号部分中的不包括在第三子部分内的任何样本的任何样本位置的后继。
此外,图1d的处理器310可以例如被配置为确定后继音频信号部分的第二子部(其为第二音频信号部分的第二子部分),使得后继音频信号部分中不包括在第三子部分内的任何样本包括在后继音频信号部分的第二子部分内。
在根据图1d的实施例中,处理器310可以例如被配置为从隐藏音频信号部分的第一子部分的样本中确定第一峰值样本,使得第一峰值样本的样本值大于或等于隐藏音频信号部分的第一子部分的任何其它样本的任何其它样本值。图1d的处理器310可以例如被配置为从后继音频信号部分的第二子部分的样本中确定第二峰值样本,使得第二峰值样本的样本值大于或等于后继音频信号部分的第二子部分的任何其它样本的任何其它样本值。此外,图1d的处理器310可以例如被配置为从后继音频信号部分的第三子部分的样本中确定第三峰值样本,使得第三峰值样本的样本值大于或等于后继音频信号部分的第三子部分的任何其它样本的任何其它样本值。
当且仅当满足条件时,图1d的处理器310可以例如被配置为修改后继音频信号部分中的作为第二峰值样本的前导的每个样本的每个样本值,以产生解码音频信号部分。
该条件可以例如是第二峰值样本的样本值大于第一峰值样本的样本值、且第二峰值样本的样本值大于第三峰值样本的样本值。
或者,该条件可以例如是第二峰值样本的样本值与第一峰值样本的样本值之间的第一比率大于第一阈值、且第二峰值样本的样本值与第三峰值样本的样本值之间的第二比率大于第二阈值。
根据实施例,该条件可以例如是第二峰值样本的样本值大于第一峰值样本的样本值、且第二峰值样本的样本值大于第三峰值样本的样本值。
在实施例中,该条件可以例如是第一比率大于第一阈值、且第二比率大于第二阈值。
根据实施例,第一阈值可以例如大于1.1,并且第二阈值可以例如大于1.1。
在实施例中,第一阈值可以例如等于第二阈值。
根据实施例,当且仅当满足条件时,处理器310可以例如被配置为根据以下公式修改后继音频信号部分中的作为第二峰值样本的前导的每个样本的每个样本值:
smodified(Lframe+i)=s(Lframe+i)·αi
其中,Lframe指示后继音频信号部分中的对于后继音频信号部分的任何其它样本的任何其它样本位置来说均是前导的样本的样本位置,
其中,Lframe+i是指示后继音频信号部分的第i+1个样本的样本位置的整数,
其中,0≤i≤Imax-1,其中Imax-1指示第二峰值样本的样本位置,
其中,s(Lframe+i)是在被处理器310修改前的后继音频信号部分的第i+1个样本的样本值,
其中,smodified(Lframe+i)是在被处理器310修改后的后继音频信号部分的第i+1个样本的样本值,
其中,0<αi<1。
在实施例中,
其中,Ecmax是第一峰值样本的样本值,其中Emax是第二峰值样本的样本值,并且其中Egmax是第三峰值的样本值。
根据实施例,当且仅当满足条件时,处理器310可以例如被配置为根据以下公式来修改后继音频信号部分的多个样本中的作为第二峰值样本的后继的两个或更多个样本的每个样本的样本值,以产生解码音频信号部分:
smodified(Imax+k)=s(Imax+k)·αi.
其中,Imax+k是指示后继音频信号部分的第Imax+k+1个样本的样本位置的整数。
图6是根据实施例的隐藏帧和良好帧的另一图示。尤其是,图6示出了隐藏音频信号部分、后继音频信号部分、第一子部分、第二子部分和第三子部分。
能量阻尼用于消除最后隐藏帧和第一良好帧之间的信号的重叠部分中的高能量增长。这是通过将信号区域缓慢地阻尼到峰值振幅值来完成的。
根据实施例的方法可以例如如下实现:
·在以下项中找到最大振幅值:
ο先前隐藏帧的最后先前隐藏帧的最后Tc样本:Ecmax
ο第一良好帧中的最后Tg样本:Egmax
ο以及,这些区域之间的样本:Emax
Ecmax是第一峰值样本,Emax是第二峰值样本,并且Egmax是第三峰值样本。
·如果Ecmax<Emax>Egmax,则将阻尼第一良好帧中的解码信号。
在其它示例中,如果满足下式,则将阻尼第一良好帧:
例如,1.1<thresholdValue1<4和1.1<thresholdValue2<4。
·将如下地阻尼解码信号的第一部分:
其中Imax是Emax的索引,并且
·将如下地阻尼第二部分:
其中
在优选实施例中,出于安全原因,可以例如对淡入淡出信号应用能量阻尼,以消除恢复帧中能量高度增加的风险。
现在,提供了根据实施例的不同的改进的转换构思的组合。
图7a示出了根据实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的***。
该***包括切换模块701、用于实现如上参考图1d所述的能量阻尼的装置300、以及用于实现如上参考图1b所述的音高适配重叠的装置100。
切换模块701被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现能量阻尼的装置300和用于实现音高适配重叠的装置100中的一个装置,以用于产生解码音频信号部分。
图7b示出了根据另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的***。
该***包括切换模块702、用于实现如上参考图1d所述的能量阻尼的装置300、以及用于实现如上参考图1c所述的激励重叠的装置200。
切换模块702被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现能量阻尼的装置300和用于实现激励重叠的装置200中的一个装置,以用于产生解码音频信号部分。
图7c示出了根据另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的***。
该***包括切换模块703、用于实现如上参考图1b所述的音高适配重叠的装置100、以及用于实现如上参考图1c所述的激励重叠的装置200。
切换模块703被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现音高适配重叠的装置100和用于实现激励重叠的装置200中的一个装置,以用于产生解码音频信号部分。
图7d示出了根据又一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的***。
该***包括切换模块701、用于实现如上参考图1d所述的能量阻尼的装置300、用于实现如上参考图1b所述的音高适配重叠的装置100、以及用于实现如上参考图1c所述的激励重叠的装置200。
切换模块701被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现能量阻尼的装置300、用于实现音高适配重叠的装置100、以及用于实现激励重叠的装置200中的一个装置,以用于产生解码音频信号部分。
根据实施例,切换模块704可以例如被配置为确定隐藏音频信号帧和后继音频信号帧中的至少一个是否包括语音。此外,切换模块704可以例如被配置为:如果隐藏音频信号帧和后继音频信号帧不包括语音,则选择用于实现能量阻尼的装置300来产生解码音频信号部分。
在实施例中,切换模块704可以例如被配置为:根据后继音频信号帧的帧长度并且根据隐藏音频信号部分的音高或者后继音频信号部分的音高中的至少一个,来选择用于实现音高适配重叠的装置100、用于实现激励重叠的装置200、以及用于实现能量阻尼的装置300中的所述一个装置,以用于产生解码音频信号部分,其中后继音频信号部分是后继音频信号帧的音频信号部分。
图7e示出了根据另一实施例的用于改进从音频信号的隐藏音频信号部分到音频信号的后继音频信号部分的转换的***。
如图7c中的那样,图7e的***包括切换模块703、用于实现如上参考图1b所述的音高适配重叠的装置100、以及用于实现如上参考图1c所述的激励重叠的装置200。
切换模块703被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现音高适配重叠的装置100和用于实现激励重叠的装置200中的一个,以用于产生解码音频信号部分。
此外,图7e的***还包括用于实现如上参考图1d所述的能量阻尼的装置300。
图7e的切换模块703可以例如被配置为根据隐藏音频信号部分并且根据后继音频信号部分,选择用于实现音高适配重叠的装置100和用于实现激励重叠的装置200中的所述一个装置,以产生中间音频信号部分。
在图7e的实施例中,用于实现能量阻尼的装置300可以例如被配置为处理中间音频信号部分以产生解码音频信号部分。
现在,描述特定实施例。特别地,提供了针对切换模块701、702、703和704的特定实现的构思。
例如,提供不同改进的转换构思的组合的第一实施例可以例如用于任何变换域编解码器:
第一步是检测信号是否是比如具有突出音高的语音(例如,干净的语音项目、具有背景噪声的语音或带音乐伴奏的语音)。
如果信号是那样的语音,则:
ο找到最后隐藏帧中的音高Tc
ο找到第一良好帧中的音高Tg
ο如果与最后隐藏帧重叠部分中的能量增加,
■如果良好帧的音高与隐藏音高相差多于三个样本,则
→执行恢复滤波器
■否则
→执行能量阻尼
·否则
→执行能量阻尼
如果以上选择了恢复滤波器,则
·如果隐藏音高Tc或良好音高Tg高于帧长度Lframe,则
→执行能量阻尼
·否则,如果隐藏音高或良好音高高于半帧长度并且归一化的互相关值xCorr小于阈值,则
→执行激励重叠
·否则,如果隐藏音高或良好音高低于半帧长度,则
→应用音高适配重叠
例如,首先,测试隐藏帧是否存在语音(例如,可以根据隐藏技术看出语音是否存在)。稍后,例如,也可以例如使用归一化互相关值xCorr来测试良好帧是否存在语音。
例如,上述重叠部分可以是例如图6中所示的第二子部分,这意味着重叠部分是从第一样本到样本“帧长度减去Tg”的良好帧。
现在,提供了提供不同改进的转换构思的组合的第二实施例。这样的第二实施例可以例如用于AAC-ELD编解码器,其中两个帧错误隐藏方法是时域方法和频域方法。
时域方法是利用音高外推法来合成丢失的帧,称为TD PLC(参见[8])。
频域方法是用于AAC-ELD编解码器的现有技术隐藏方法(称为噪声替代(NS)),其使用先前良好帧的符号加扰副本。
在第二实施例中,根据后一隐藏方法做出第一划分(division):
·如果最后帧是利用TD PLC来隐藏的:
ο找到第一良好帧中的音高
ο如果与最后隐藏帧重叠部分中的能量增加,
■如果良好帧的音高与隐藏音高相差多于三个样本,则
→执行恢复滤波器
■否则
→执行能量阻尼
·如果最后帧是利用NS来隐藏的,则
→执行能量阻尼
此外,在第二实施例中,在恢复滤波器中进行如下的第二划分:
·如果隐藏音高Tc(被隐藏的最后帧中的音高)或良好音高Tg(第一良好帧中的音高)高于帧长度Lframe
→执行能量阻尼
·如果隐藏音高或良好音高高于半帧长度并且归一化的互相关值xCorr小于阈值
→执行激励重叠
·如果隐藏音高或良好音高低于半帧长度,则
→应用音高适配重叠。
已经提供了多个实施例。
根据实施例,提供了一种用于改进变换域编码信号的隐藏丢失帧与后继于隐藏丢失帧的变换域编码信号的一个或多个帧之间的转换的滤波器。
在实施例中,还可以例如根据以上描述来配置滤波器。
根据实施例,提供了一种包括根据上述实施例之一的滤波器在内的变换域解码器。
此外,提供了一种由如上所述的变换域解码器执行的方法。
此外,提供了一种用于执行如上所述的方法的计算机程序。
尽管已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备与方法步骤或方法步骤的特征相对应。类似地,在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(比如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
根据某些实现要求,本发明的实施例可以以硬件或软件实现,或者至少部分地以硬件、或至少部分地以软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机***协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机***协作从而执行本文所述的方法之一。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,程序代码可操作用于在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其它实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括被配置为或适用于执行本文所述的方法之一的处理装置(例如,计算机或可编程逻辑器件)
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或***,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或***可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。
参考文献:
[1]Philippe Gournay:“Improved Frame Loss Recovery Using Closed-LoopEstimation of Very Low Bit Rate Side Information”,Interspeech 2008,Brisbane,Australia,22-26September,2008.
[2]Mohamed Chibani,Roch Lefebvre,Philippe Gournay:“Resynchronizationof the Adaptive Codebook in a Constrained CELP Codec after a frame erasure”,2006International Conference on Acoustics,Speech and Signal Processing(ICASSP′2006),Toulouse,FRANCE March 14-19,2006.
[3]S.-U.Ryu,E.Choy,and K.Rose,“Encoder assisted frame lossconcealment for MPEG-AAC decoder”,ICASSP IEEE Int.Conf.Acoust.Speech SignalProcess Proc.,vol.5,pp.169-172,May 2006.
[4]ISO/IEC 14496-3:2005/Amd 9:2008:Enhanced low delay AAC,availableat:
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=46457
[5]J.Lecomte,et al,“Enhanced time domain packet loss concealment inswitched speech/audio codec”,submitted to IEEE ICASSP,Brisbane,Australia,Apr.2015.
[6]E.Moulines and J.Laroche,“Non-parametric techniques for pitch-seale and time-scale modification of speech”,Speech Communication,vol.16,pp.175-205,1995.
[7]European Patent EP 363233 B1:“Method and apparatus for speechsynthesis by wave form overlapping and adding”.
[8]International Patent Application WO 2015063045 A1:“Audio Decoderand Method for Providing a Decoded Audio Information using an ErrorConcealment Modifying a Time Domain Excitation Signal”.
[9]Schnell,M.;Schmidt,M.;Jander,M.;Albert,T.;Geiger,R.;Ruoppila,V.;Ekstrand,P.;Grill,B.,,,MPEG-4enhanced low delay AAC-a new standard for highquality communication“,Audio Engineering Society:125th Audio EngineeringSociety Convention 2008;October 2-5,2008,San Francisco,USA。
Claims (43)
1.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的装置(10;100;200;300),其中,所述装置(10;100;200;300)包括:
处理器(11;110;210;310),被配置为根据第一音频信号部分并且根据第二音频信号部分产生所述音频信号的解码音频信号部分,其中所述第一音频信号部分取决于所述隐藏音频信号部分,并且其中所述第二音频信号部分取决于所述后继音频信号部分,以及
输出接口(12;120;220;320),用于输出所述解码音频信号部分,
其中,所述第一音频信号部分、所述第二音频信号部分、以及所述解码音频信号部分中的每一个包括多个样本,其中所述第一音频信号部分、所述第二音频信号部分、以及所述解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的,其中所述多个样本位置被排序,使得对于所述多个样本位置中的第一样本位置和所述多个样本位置中的与所述第一样本位置不同的第二样本位置的每个对,所述第一样本位置是所述第二样本位置的后继或者前导,
其中,所述处理器(11;110;210;310)被配置为确定所述第一音频信号部分的第一子部分,使得与所述第一音频信号部分相比所述第一子部分包括更少的样本,以及
其中,所述处理器(11;110;210;310)被配置为使用所述第一音频信号部分的第一子部分并且使用所述第二音频信号部分或所述第二音频信号部分的第二子部分来产生所述解码音频信号部分,使得对于所述第二音频信号部分的两个或更多个样本中的每个样本,所述第二音频信号部分的两个或更多个样本中的所述样本的样本位置等于所述解码音频信号部分的一个样本的样本位置,并且使得所述第二音频信号部分的两个或更多个样本中的所述样本的样本值不同于所述解码音频信号部分的所述一个样本的样本值。
2.根据权利要求1所述的装置(100),
其中,所述处理器(110)被配置为:确定作为所述第二音频信号部分的第二子部分的第二原型信号部分,使得与所述第二音频信号部分相比所述第二子部分包括更少的样本,以及
其中,所述处理器(110)被配置为通过以下方式来确定一个或多个中间原型信号部分:将作为所述第一子部分的第一原型信号部分和所述第二原型信号部分进行组合,来确定所述一个或多个中间原型信号部分中的每一个中间原型信号部分;
其中,所述处理器(110)被配置为使用所述第一原型信号部分、使用所述一个或多个中间原型信号部分、并且使用所述第二原型信号部分来产生所述解码音频信号部分。
3.根据权利要求2所述的装置(100),其中,所述处理器(110)被配置为:通过组合所述第一原型信号部分、所述一个或多个中间原型信号部分、以及所述第二原型信号部分,产生所述解码音频信号部分。
4.根据权利要求2或3所述的装置(100),
其中,所述处理器(110)被配置为确定三个或更多个标记样本位置,其中所述三个或更多个标记样本位置中的每一个标记样本位置是所述第一音频信号部分和所述第二音频信号部分中的至少一个的样本位置,
其中,所述处理器(110)被配置为选择所述第二音频信号部分中的、对于所述第二音频信号部分的任何其它样本的任何其它样本位置来说都是后继的样本的样本位置,作为所述三个或更多个标记样本位置的最终样本位置,
其中,所述处理器(110)被配置为:通过根据所述第一音频信号部分的第一子部分与所述第二音频信号部分的第二子部分之间的相关性从所述第一音频信号部分中选择样本位置,确定所述三个或更多个标记样本位置的开始样本位置,
其中,所述处理器(110)被配置为:根据所述三个或更多个标记样本位置的开始样本位置并且根据所述三个或更多个标记样本位置的最终样本位置,确定所述三个或更多个标记样本位置的一个或多个中间样本位置,以及
其中,所述处理器(110)被配置为:通过针对所述一个或多个中间样本位置的每一个中间样本位置,根据所述中间样本位置将所述第一原型信号部分和所述第二原型信号部分进行组合来确定所述一个或多个中间原型信号部分中的中间原型信号部分,确定所述一个或多个中间原型信号部分。
5.根据权利要求4所述的装置(100),
其中,所述处理器(110)被配置为:通过针对所述一个或多个中间样本位置的每一个中间样本位置,根据以下公式将所述第一原型信号部分和所述第二原型信号部分进行组合来确定所述一个或多个中间原型信号部分中的中间原型信号部分,确定所述一个或多个中间原型信号部分:
sigi=(1-α)·sigfirst+α·siglast
其中
其中,i是整数,并且i≥1,
其中,nrOfMarkers是所述三个或更多个标记样本位置的数量减去1,
其中,sigi是所述一个或多个中间原型信号部分的第i个中间原型信号部分,
其中,sigfirst是所述第一原型信号部分,
其中,siglast是所述第二原型信号部分。
6.根据权利要求4或5所述的装置(100),
其中,所述处理器(110)被配置为根据如下公式中的任一个来确定所述三个或更多个标记样本位置的一个或多个中间样本位置:
或者
其中
其中δ=x1-(x0+nrOfMarkers·Tc),
其中
其中,i是整数,并且i≥1,
其中,nrOfMarkers是所述三个或更多个标记样本位置的数量减去1,
其中,marki是所述三个或更多个标记样本位置的第i个中间样本位置,
其中,marki-1是所述三个或更多个标记样本位置的第i-1个中间样本位置,
其中,marki+1是所述三个或更多个标记样本位置的第i+1个中间样本位置,
其中,x0是所述三个或更多个标记样本位置的开始样本位置,
其中,x1是所述三个或更多个标记样本位置的最终样本位置,
其中,Tc指示音高滞后。
7.根据权利要求4至6中的任一项所述的装置(100),
其中,所述处理器(110)被配置为:根据所述第一音频信号的多个子部分候选项中的每个子部分与所述第二音频信号部分的所述第二子部分的多个相关性,选择所述第一音频信号部分的多个子部分候选项中的子部分来作为所述第一原型信号部分,
其中,所述处理器(110)被配置为:选择所述第一原型信号部分的多个样本中的、对于所述第一原型信号部分的任何其它样本的任何其它样本位置来说都是前导的样本位置,作为所述三个或更多个标记样本位置的开始样本位置。
8.根据权利要求7所述的装置(100),其中,所述处理器(110)被配置为:选择所述子部分候选项中与所述第二子部分的相关性具有所述多个相关性中的最高相关值的子部分来作为所述第一原型信号部分。
9.根据权利要求7或8所述的装置(100),
其中,所述处理器(110)被配置为根据以下公式来确定针对所述多个相关性中的每个相关性的相关值:
其中,Lframe指示与所述第一音频信号部分的样本数量相等的所述第二音频信号部分的样本数量,
其中,r(2Lframe-i)指示所述第二音频信号部分中的在样本位置2Lframe-i处的样本的样本值,
其中,r(Lframe-i-Δ)指示所述第一音频信号部分中的在样本位置Lframe-i-Δ处的样本的样本值,
其中,对于所述多个子部分候选项中的子部分候选与所述第二子部分的多个相关性中的每一个相关性,Δ指示编号并且取决于所述子部分候选项。
10.根据权利要求4至9中的任一项所述的装置(100),
其中,所述处理器(110)被配置为根据所述隐藏音频信号部分并且根据多个第三滤波器系数来确定所述第一音频信号部分,其中所述多个第三滤波器系数取决于所述隐藏音频信号部分和所述后继音频信号部分,以及
其中,所述处理器(110)被配置为根据所述后继音频信号部分和所述多个第三滤波器系数确定所述第二音频信号部分。
11.根据权利要求10所述的装置(100),
其中,所述处理器(110)包括滤波器,
其中,所述处理器(110)被配置为对所述隐藏音频信号部分应用具有所述第三滤波器系数的滤波器以获得所述第一音频信号部分,以及
其中,所述处理器(110)被配置为对所述后继音频信号部分应用具有所述第三滤波器系数的滤波器以获得所述第二音频信号部分。
12.根据权利要求10或11所述的装置(100),
其中,所述处理器(110)被配置为根据所述隐藏音频信号部分确定多个第一滤波器系数,
其中,所述处理器(110)被配置为根据所述后继音频信号部分确定多个第二滤波器系数,
其中,所述处理器(110)被配置为根据所述第一滤波器系数中的一个或多个滤波器系数与所述第二滤波器系数中的一个或多个滤波器系数的组合来确定所述第三滤波器系数中的每一个滤波器系数。
13.根据权利要求12所述的装置(100),其中,所述多个第一滤波器系数、所述多个第二滤波器系数以及所述多个第三滤波器系数中的滤波器系数是线性预测滤波器的线性预测编码参数。
14.根据权利要求12或13所述的装置(100),
其中,所述处理器(110)被配置为根据以下公式确定所述第三滤波器系数中的每个滤波器系数:
A=0.5·Aconc+0.5·Agood
其中,A指示所述滤波器系数的滤波器系数值,
其中,Aconc指示所述多个第一滤波器系数中的滤波器系数的系数值,以及
其中,Agood指示所述多个第二滤波器系数中的滤波器系数的系数值。
15.根据权利要求12至14中的任一项所述的装置(100),
其中,所述处理器(110)被配置为对所述隐藏音频信号部分应用由以下公式定义的余弦窗,以获得隐藏加窗信号部分:
其中,所述处理器(110)被配置为对所述后继音频信号部分应用所述余弦窗以获得后继加窗信号部分,
其中,所述处理器(110)被配置为根据所述隐藏加窗信号部分确定所述多个第一滤波器系数,
其中,所述处理器(110)被配置为根据所述后继加窗信号部分确定所述多个第二滤波器系数,以及
其中,x、x1和x2中的每一个是所述多个样本位置中的样本位置。
16.根据权利要求1所述的装置(200),
其中,所述处理器(210)被配置为根据所述第一子部分产生第一扩展信号部分,使得所述第一扩展信号部分与所述第一音频信号部分不同,并且使得所述第一扩展信号部分比所述第一子部分具有更多的样本,
其中,所述处理器(210)被配置为使用所述第一扩展信号部分和使用所述第二音频信号部分来产生所述解码音频信号部分。
17.根据权利要求16所述的装置(200),其中,所述处理器(210)被配置为通过对所述第一扩展信号部分和所述第二音频信号部分执行淡入淡出来获得淡入淡出信号部分,以产生所述解码音频信号部分。
18.根据权利要求16或17所述的装置(200),其中,所述处理器(210)被配置为从所述第一音频信号部分中产生所述第一子部分,使得所述第一子部分的长度等于所述第一音频信号部分的音高滞后。
19.根据权利要求18所述的装置(200),其中,所述处理器(210)被配置为产生所述第一扩展信号部分,使得所述第一扩展信号部分的样本的数量等于所述第一音频信号部分的所述音高滞后的样本数量加上所述第二音频信号部分的样本的数量。
20.根据权利要求16至19中的任一项所述的装置(200),
其中,所述处理器(210)被配置为根据所述隐藏音频信号部分并且根据多个滤波器系数来确定所述第一音频信号部分,其中所述多个滤波器系数取决于所述隐藏音频信号部分,以及
其中,所述处理器(210)被配置为根据所述后继音频信号部分和所述多个滤波器系数确定所述第二音频信号部分。
21.根据权利要求20所述的装置(200),
其中,所述处理器(210)包括滤波器,
其中,所述处理器(210)被配置为对所述隐藏音频信号部分应用具有所述滤波器系数的滤波器以获得所述第一音频信号部分,以及
其中,所述处理器(210)被配置为对所述后继音频信号部分应用具有所述滤波器系数的滤波器以获得所述第二音频信号部分。
22.根据权利要求21所述的装置(200),其中,所述多个滤波器系数中的滤波器系数是线性预测滤波器的线性预测编码参数。
23.根据权利要求20至22中的任一项所述的装置(200),
其中,所述处理器(210)被配置为对所述隐藏音频信号部分应用由以下公式定义的余弦窗,以获得隐藏加窗信号部分:
其中,所述处理器(210)被配置为根据所述隐藏加窗信号部分确定所述多个滤波器系数,
其中,x、x1和x2中的每一个是所述多个样本位置中的样本位置。
24.根据权利要求1所述的装置(300),
其中,所述第一音频信号部分是所述隐藏音频信号部分,其中所述第二音频信号部分是所述后继音频信号部分,
其中,所述处理器(310)被配置为确定所述隐藏音频信号部分的第一子部分,作为所述第一音频信号部分的第一子部分,使得所述第一子部分包括所述隐藏音频信号部分的一个或多个样本,但与所述隐藏音频信号部分相比包括更少的样本,并且使得所述第一子部分的样本的每个样本位置是所述隐藏音频信号部分中的、不包括在所述第一子部分内的任何样本的任何样本位置的后继,
其中,所述处理器(310)被配置为确定所述后继音频信号部分的第三子部分,使得所述第三子部分包括所述后继音频信号部分的一个或多个样本,但是与所述后继音频信号部分相比包括更少的样本,并且使得所述第三子部分的每个样本的每个样本位置是所述后继音频信号部分中的、不包括在所述第三子部分内的任何样本的任何样本位置的后继,
其中,所述处理器(310)被配置为确定所述后继音频信号部分的第二子部分,作为所述第二音频信号部分的第二子部分,使得所述后继音频信号部分中不包括在所述第三子部分内的任何样本包括在所述后继音频信号部分的第二子部分内,
其中,所述处理器(310)被配置为从所述隐藏音频信号部分的第一子部分的样本中确定第一峰值样本,使得所述第一峰值样本的样本值大于或等于所述隐藏音频信号部分的第一子部分的任何其它样本的任何其它样本值,其中所述处理器(310)被配置为从所述后继音频信号部分的第二子部分的样本中确定第二峰值样本,使得所述第二峰值样本的样本值大于或等于所述后继音频信号部分的第二子部分的任何其它样本的任何其它样本值,其中所述处理器(310)被配置为从所述后继音频信号部分的第三子部分的样本中确定第三峰值样本,使得所述第三峰值样本的样本值大于或等于所述后继音频信号部分的第三子部分的任何其它样本的任何其它样本值,
其中,当且仅当满足条件时,所述处理器(310)被配置为修改所述后继音频信号部分中的、作为所述第二峰值样本的前导的每个样本的每个样本值,以产生所述解码音频信号部分,
其中,所述条件是所述第二峰值样本的样本值大于所述第一峰值样本的样本值、且所述第二峰值样本的样本值大于所述第三峰值样本的样本值,或者
其中,所述条件是所述第二峰值样本的样本值与所述第一峰值样本的样本值之间的第一比率大于第一阈值、且所述第二峰值样本的样本值与所述第三峰值样本的样本值之间的第二比率大于第二阈值。
25.根据权利要求24所述的装置(300),其中,所述条件是所述第二峰值样本的样本值大于所述第一峰值样本的样本值、且所述第二峰值样本的样本值大于所述第三峰值样本的样本值。
26.根据权利要求24所述的装置(300),其中,所述条件是所述第一比率大于所述第一阈值、且所述第二比率大于所述第二阈值。
27.根据权利要求26所述的装置(300),其中,所述第一阈值大于1.1,并且其中所述第二阈值大于1.1。
28.根据权利要求26或27所述的装置(300),其中,所述第一阈值等于所述第二阈值。
29.根据权利要求24至28中的任一项所述的装置(300),
其中,当且仅当满足所述条件时,所述处理器(310)被配置为根据以下公式修改所述后继音频信号部分中的、作为所述第二峰值样本的前导的每个样本的每个样本值:
smodified(Lframe+i)=s(Lframe+i)·αi
其中,Lframe指示所述后继音频信号部分中的、对于所述后继音频信号部分的任何其它样本的任何其它样本位置来说均是前导的样本的样本位置,
其中,Lframe+i是指示所述后继音频信号部分的第i+1个样本的样本位置的整数,
其中,0≤i≤Imax-1,其中Imax-1指示所述第二峰值样本的样本位置,
其中,s(Lframe+i)是在被所述处理器(310)修改前的所述后继音频信号部分的第i+1个样本的样本值,
其中,smodified(Lframe+i)是在被所述处理器(310)修改后的所述后继音频信号部分的第i+1个样本的样本值,
其中,0<αi<1。
30.根据权利要求29所述的装置(300),
其中
其中,Ecmax是所述第一峰值样本的样本值,
其中,Emax是所述第二峰值样本的样本值,
其中,Egmax是所述第三峰值样本的样本值。
31.根据权利要求29或30所述的装置(300),
其中,当且仅当满足所述条件时,所述处理器(310)被配置为根据以下公式来修改所述后继音频信号部分的多个样本中的、作为所述第二峰值样本的后继的两个或更多个样本中的每个样本的样本值,以产生所述解码音频信号部分:
smodified(Imax+k)=s(Imax+k)·αi,
其中,Imax+k是指示所述后继音频信号部分的第Imax+k+1个样本的样本位置的整数。
32.根据前述权利要求中任一项所述的装置(10;100;200;300),其中,所述装置(10;100;200;300)还包括隐藏单元(8),所述隐藏单元(8)被配置为对出错的或者丢失的当前帧执行隐藏,以获得所述隐藏音频信号部分。
33.根据权利要求32所述的装置(10;100;200;300),
其中,所述装置(10;100;200;300)还包括激活单元(6),所述激活单元(6)被配置为检测当前帧是否丢失或出错,其中所述激活单元(6)被配置为如果当前帧丢失或出错则激活所述隐藏单元(8)以对当前帧执行隐藏。
34.根据权利要求33所述的装置(10;100;200;300),
其中,所述激活单元(6)被配置为:如果当前帧丢失或者出错,则检测未出错的后继帧是否到达,以及
其中,所述激活单元(6)被配置为:如果当前帧丢失或者出错并且如果未出错的后继帧到达,则激活所述处理器(8)以产生所述解码音频信号部分。
35.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的方法,其中所述方法包括:
根据第一音频信号部分并且根据第二音频信号部分产生所述音频信号的解码音频信号部分,其中所述第一音频信号部分取决于所述隐藏音频信号部分,并且其中所述第二音频信号部分取决于所述后继音频信号部分,以及
输出所述解码音频信号部分,
其中,所述第一音频信号部分、所述第二音频信号部分、以及所述解码音频信号部分中的每一个包括多个样本,其中所述第一音频信号部分、所述第二音频信号部分、以及所述解码音频信号部分的多个样本中的每一个样本是通过多个样本位置中的样本位置和样本值来定义的,其中所述多个样本位置被排序,使得对于所述多个样本位置中的第一样本位置和所述多个样本位置中的与所述第一样本位置不同的第二样本位置的每个对,所述第一样本位置是所述第二样本位置的后继或者前导,
其中,产生所述解码音频信号包括确定所述第一音频信号部分的第一子部分,使得与所述第一音频信号部分相比所述第一子部分包括更少的样本,
其中,产生所述解码音频信号部分是使用所述第一音频信号部分的第一子部分并且使用所述第二音频信号部分或所述第二音频信号部分的第二子部分来执行的,使得对于所述第二音频信号部分的两个或更多个样本中的每个样本,所述第二音频信号部分的两个或更多个样本中的所述样本的样本位置等于所述解码音频信号部分的一个样本的样本位置,并且使得所述第二音频信号部分的两个或更多个样本中的所述样本的样本值不同于所述解码音频信号部分的所述一个样本的样本值。
36.一种计算机程序,用于当在计算机或信号处理器上执行时实现根据权利要求35所述的方法。
37.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的***,其中所述***包括:
切换模块(701);
根据权利要求24至31中任一项所述的装置(300),作为用于实现能量阻尼的装置(300),以及
根据权利要求2至15中任一项所述的装置(100),作为用于音高适配重叠的装置(100),
其中,所述切换模块(701)被配置为根据所述隐藏音频信号部分并且根据所述后继音频信号部分来选择用于实现能量阻尼的装置(300)和用于实现音高适配重叠的装置(100)中的一个装置,以用于产生所述解码音频信号部分。
38.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的***,其中所述***包括:
切换模块(702);
根据权利要求24至31中任一项所述的装置(300),作为用于实现能量阻尼的装置(300),以及
根据权利要求16至23中任一项所述的装置(200),作为用于实现激励重叠的装置(200),
其中,所述切换模块(702)被配置为根据所述隐藏音频信号部分并且根据所述后继音频信号部分来选择用于实现能量阻尼的装置(300)和用于实现激励重叠的装置(200)中的一个装置,以用于产生所述解码音频信号部分。
39.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的***,其中所述***包括:
切换模块(703);
根据权利要求2至15中任一项所述的装置(100),作为用于实现音高适配重叠的装置(100),以及
根据权利要求16至23中任一项所述的装置(200),作为用于实现激励重叠的装置(200),
其中,所述切换模块(703)被配置为根据所述隐藏音频信号部分并且根据所述后继音频信号部分来选择用于实现音高适配重叠的装置(100)和用于实现激励重叠的装置(200)中的一个装置,以用于产生所述解码音频信号部分。
40.一种用于改进从音频信号的隐藏音频信号部分到所述音频信号的后继音频信号部分的转换的***,其中所述***包括:
切换模块(704);
根据权利要求2至15中任一项所述的装置(100),作为用于实现音高适配重叠的装置(100),
根据权利要求16至23中任一项所述的装置(200),作为用于实现激励重叠的装置(200),以及
根据权利要求24至31中任一项所述的装置(300),作为用于实现能量阻尼的装置(300),
其中,所述切换模块(704)被配置为根据所述隐藏音频信号部分并且根据所述后继音频信号部分来选择用于实现音高适配重叠的装置(100)、用于实现激励重叠的装置(200)、以及用于实现能量阻尼的装置(300)中的一个装置,以用于产生所述解码音频信号部分。
41.根据权利要求40所述的***,
其中,所述切换模块(704)被配置为确定隐藏音频信号帧和后继音频信号帧中的至少一个是否包括语音,以及
其中,所述切换模块(704)被配置为:如果所述隐藏音频信号帧和所述后继音频信号帧不包括语音,则选择用于实现能量阻尼的装置(300)来产生所述解码音频信号部分。
42.根据权利要求40或41所述的***,其中,所述切换模块(704)被配置为:根据后继音频信号帧的帧长度并且根据所述隐藏音频信号部分的音高或者所述后继音频信号部分的音高中的至少一个,选择用于实现音高适配重叠的装置(100)、用于实现激励重叠的装置(200)、以及用于实现能量阻尼的装置(300)中的所述一个装置以用于产生所述解码音频信号部分,其中所述后继音频信号部分是所述后继音频信号帧的音频信号部分。
43.根据权利要求39所述的***,
其中,所述***还包括根据权利要求24至31中任一项所述的装置(300)作为用于实现能量阻尼的装置(300),
其中,所述切换模块(703)被配置为根据所述隐藏音频信号部分并且根据所述后继音频信号部分来选择用于实现音高适配重叠的装置(100)和用于实现激励重叠的装置(200)中的所述一个装置,以产生中间音频信号部分,
其中,所述用于实现能量阻尼的装置(300)被配置为处理所述中间音频信号部分以产生所述解码音频信号部分。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16153409 | 2016-01-29 | ||
EP16153409.4 | 2016-01-29 | ||
PCT/EP2016/060776 WO2017129270A1 (en) | 2016-01-29 | 2016-05-12 | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal |
EPPCT/EP2016/060776 | 2016-05-12 | ||
PCT/EP2017/051623 WO2017129665A1 (en) | 2016-01-29 | 2017-01-26 | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108885875A true CN108885875A (zh) | 2018-11-23 |
CN108885875B CN108885875B (zh) | 2023-10-13 |
Family
ID=55300366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780020242.9A Active CN108885875B (zh) | 2016-01-29 | 2017-01-26 | 用于改进从隐藏音频信号部分的转换的装置和方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US10762907B2 (zh) |
EP (1) | EP3408852B1 (zh) |
JP (1) | JP6789304B2 (zh) |
KR (1) | KR102230089B1 (zh) |
CN (1) | CN108885875B (zh) |
CA (1) | CA3012547C (zh) |
ES (1) | ES2843851T3 (zh) |
MX (1) | MX2018009145A (zh) |
RU (1) | RU2714238C1 (zh) |
WO (1) | WO2017129270A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113544773A (zh) * | 2019-02-13 | 2021-10-22 | 弗劳恩霍夫应用研究促进协会 | 用于包括全丢帧隐藏和部分丢帧隐藏的lc3隐藏的解码器和解码方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492832A (zh) * | 2018-03-21 | 2018-09-04 | 北京理工大学 | 基于小波变换的高质量声音变换方法 |
US20220312005A1 (en) * | 2019-06-19 | 2022-09-29 | Electronics And Telecommunications Research Institute | Method, apparatus, and recording medium for encoding/decoding image |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327498A (en) * | 1988-09-02 | 1994-07-05 | Ministry Of Posts, Tele-French State Communications & Space | Processing device for speech synthesis by addition overlapping of wave forms |
US20030200083A1 (en) * | 2002-04-19 | 2003-10-23 | Masahiro Serizawa | Speech decoding device and speech decoding method |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
WO2008151410A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard |
EP2040251A1 (en) * | 2006-07-12 | 2009-03-25 | Panasonic Corporation | Audio decoding device and audio encoding device |
US20110208517A1 (en) * | 2010-02-23 | 2011-08-25 | Broadcom Corporation | Time-warping of audio signals for packet loss concealment |
US20120010882A1 (en) * | 2006-08-15 | 2012-01-12 | Broadcom Corporation | Constrained and controlled decoding after packet loss |
WO2012070370A1 (ja) * | 2010-11-22 | 2012-05-31 | 株式会社エヌ・ティ・ティ・ドコモ | 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム |
WO2015063045A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1323532C (zh) * | 2001-11-15 | 2007-06-27 | 松下电器产业株式会社 | 错误隐蔽装置和方法 |
EP1722359B1 (en) | 2004-03-05 | 2011-09-07 | Panasonic Corporation | Error conceal device and error conceal method |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8731913B2 (en) * | 2006-08-03 | 2014-05-20 | Broadcom Corporation | Scaled window overlap add for mixed signals |
KR101291193B1 (ko) * | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
JP4708446B2 (ja) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
JP5255358B2 (ja) | 2008-07-25 | 2013-08-07 | パナソニック株式会社 | 音声伝送システム |
WO2013183977A1 (ko) * | 2012-06-08 | 2013-12-12 | 삼성전자 주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
CN103714821A (zh) * | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
PT3011692T (pt) * | 2013-06-21 | 2017-09-22 | Fraunhofer Ges Forschung | Controlo jitter buffer, descodificador de áudio, método e programa de computador |
EP3107096A1 (en) * | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
-
2016
- 2016-05-12 WO PCT/EP2016/060776 patent/WO2017129270A1/en active Application Filing
-
2017
- 2017-01-26 CA CA3012547A patent/CA3012547C/en active Active
- 2017-01-26 EP EP17707475.4A patent/EP3408852B1/en active Active
- 2017-01-26 ES ES17707475T patent/ES2843851T3/es active Active
- 2017-01-26 MX MX2018009145A patent/MX2018009145A/es unknown
- 2017-01-26 KR KR1020187023876A patent/KR102230089B1/ko active IP Right Grant
- 2017-01-26 CN CN201780020242.9A patent/CN108885875B/zh active Active
- 2017-01-26 RU RU2018130662A patent/RU2714238C1/ru active
- 2017-01-26 JP JP2018539420A patent/JP6789304B2/ja active Active
-
2018
- 2018-07-27 US US16/048,166 patent/US10762907B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327498A (en) * | 1988-09-02 | 1994-07-05 | Ministry Of Posts, Tele-French State Communications & Space | Processing device for speech synthesis by addition overlapping of wave forms |
US20030200083A1 (en) * | 2002-04-19 | 2003-10-23 | Masahiro Serizawa | Speech decoding device and speech decoding method |
EP2040251A1 (en) * | 2006-07-12 | 2009-03-25 | Panasonic Corporation | Audio decoding device and audio encoding device |
US20120010882A1 (en) * | 2006-08-15 | 2012-01-12 | Broadcom Corporation | Constrained and controlled decoding after packet loss |
WO2008151410A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US20110208517A1 (en) * | 2010-02-23 | 2011-08-25 | Broadcom Corporation | Time-warping of audio signals for packet loss concealment |
WO2012070370A1 (ja) * | 2010-11-22 | 2012-05-31 | 株式会社エヌ・ティ・ティ・ドコモ | 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム |
WO2015063045A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
CN105793924A (zh) * | 2013-10-31 | 2016-07-20 | 弗朗霍夫应用科学研究促进协会 | 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法 |
Non-Patent Citations (3)
Title |
---|
J.LECOMTE: "Enhanced time domain packet loss concealment inswitched speech/audio codec", 《IEEE ICASSP》 * |
LUONG PHAM VAN: "Out-of-the-loop information hiding for HEVC video", 《2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 * |
王朝朋: "音频丢包补偿算法研究", 《中国优秀硕士学位论文全文数据库(信息科技)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113544773A (zh) * | 2019-02-13 | 2021-10-22 | 弗劳恩霍夫应用研究促进协会 | 用于包括全丢帧隐藏和部分丢帧隐藏的lc3隐藏的解码器和解码方法 |
US11875806B2 (en) | 2019-02-13 | 2024-01-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode channel coding |
US12009002B2 (en) | 2019-02-13 | 2024-06-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
US12039986B2 (en) | 2019-02-13 | 2024-07-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for LC3 concealment including full frame loss concealment and partial frame loss concealment |
Also Published As
Publication number | Publication date |
---|---|
BR112018015479A2 (pt) | 2018-12-18 |
US20190122672A1 (en) | 2019-04-25 |
CN108885875B (zh) | 2023-10-13 |
KR102230089B1 (ko) | 2021-03-19 |
WO2017129270A1 (en) | 2017-08-03 |
CA3012547C (en) | 2021-12-28 |
JP6789304B2 (ja) | 2020-11-25 |
CA3012547A1 (en) | 2017-08-03 |
US10762907B2 (en) | 2020-09-01 |
EP3408852B1 (en) | 2020-12-02 |
RU2714238C1 (ru) | 2020-02-13 |
JP2019510999A (ja) | 2019-04-18 |
ES2843851T3 (es) | 2021-07-20 |
MX2018009145A (es) | 2018-12-06 |
EP3408852A1 (en) | 2018-12-05 |
KR20180123664A (ko) | 2018-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103620672B (zh) | 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法 | |
AU2014283123B2 (en) | Audio decoding with reconstruction of corrupted or not received frames using TCX LTP | |
CN103493129B (zh) | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 | |
KR102546275B1 (ko) | 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치 | |
Janicki | Spoofing countermeasure based on analysis of linear prediction error. | |
CN109155133B (zh) | 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法 | |
TR201802808T4 (tr) | Bir zaman alan uyarma sinyalini baz alan bir hata gizleme kullanılarak kodu çözülmüş bir ses bilgisi sağlamak için ses dekoderi ve yöntem. | |
JP2004508597A (ja) | オーディオ信号における伝送エラーの抑止シミュレーション | |
JP7490894B2 (ja) | 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽 | |
CN108885875A (zh) | 用于改进从音频信号的隐藏音频信号部分到后继音频信号部分的转换的装置和方法 | |
KR20220045260A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
US20220180884A1 (en) | Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack | |
US20220392458A1 (en) | Methods and system for waveform coding of audio signals with a generative model | |
CN117935840A (zh) | 由终端设备执行的方法和设备 | |
WO2017129665A1 (en) | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal | |
MX2008008477A (es) | Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |