CN115485769A - 动态范围减小的域中增强多声道音频的方法、装置和*** - Google Patents
动态范围减小的域中增强多声道音频的方法、装置和*** Download PDFInfo
- Publication number
- CN115485769A CN115485769A CN202180031950.9A CN202180031950A CN115485769A CN 115485769 A CN115485769 A CN 115485769A CN 202180031950 A CN202180031950 A CN 202180031950A CN 115485769 A CN115485769 A CN 115485769A
- Authority
- CN
- China
- Prior art keywords
- dynamic range
- channel
- channel audio
- audio signal
- companding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 174
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 313
- 238000012549 training Methods 0.000 claims abstract description 174
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000001143 conditioned effect Effects 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000007480 spreading Effects 0.000 claims description 4
- 235000004257 Cordia myxa Nutrition 0.000 claims 1
- 244000157795 Cordia myxa Species 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 36
- 230000004913 activation Effects 0.000 description 13
- 238000001994 activation Methods 0.000 description 13
- 238000012804 iterative process Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
本文描述了一种在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法,其中,所述多声道音频信号包括两个或更多个声道,并且其中,所述方法包括使用生成式对抗网络设置的多声道生成器来联合增强动态范围减小的初始多声道音频信号的两个或更多个声道。本文进一步描述了一种用于在生成式对抗网络设置中的动态范围减小的域中训练多声道生成器的方法、一种用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置、相应的***以及一种计算机程序产品。
Description
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2020年4月30日提交的美国临时申请63/018,282(参考号:D20011USP1)和于2020年5月20日提交的欧洲申请20175654.1(参考号:D20011EP)。
技术领域
本公开总体上涉及一种在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法,并且更具体地涉及使用生成式对抗网络设置的多声道生成器来联合增强动态范围减小的初始多声道音频信号的两个或更多个声道。
尽管本文将特别参考所述公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。
背景技术
在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是众所周知的或形成本领域公知常识的一部分。
音频记录***用于将音频信号编码为适合于传输或存储的经编码信号,并且随后接收或取得所述经编码信号并进行解码以获得原始音频信号的版本以供回放。低比特率音频编码是一种允许减少带宽和存储要求的感知音频压缩技术。感知音频编码***的示例包括AC-3、高级音频编码(AAC)以及最近由ETSI标准化并且包括在ATSC 3.0中的标准化的AC-4音频编码***。
然而,低比特率音频编码引入了不可避免的编码伪像(coding artifact)。以低比特率编码的音频可能尤其经历音频信号中的细节的困扰,并且由于量化和编码引入的噪声可能降低了音频信号的质量。
迄今为止,已经开发了几种方法来增强经低比特率编码的单声道和多声道音频的质量。多声道方法包括例如波束成形和多声道维纳滤波(Wiener filter)。由于使用了空间信息,多声道方法通常可以比单声道方法表现得更好。
C.Uhle等人在其出版物“Methods for Low Bitrate Coding Enhancement PartII:Spatial Enhancement[低比特率编码增强方法第二部分:空间增强]”,AESInternational Conference on Automotive Audio[AES汽车音响国际会议],2017中回顾了感知编码技术并且讨论了常见空间编码伪像的性质和来源。进一步地,提出了各自被设计用于减轻常见类型的伪像的一套专用算法。通过这套专用算法可以构建LBCE(低比特率编码增强)引擎,所述引擎独立地适配于所编码的音频材料的底层编码器配置。
压扩是AC-4编码***中的一种编码工具,其改善了对语音和密集瞬态事件(例如,掌声)的感知编码。压扩的益处包括减少输入信号的短时动态性,从而减少编码器侧的比特率要求,同时确保解码器侧的适当时域噪声整形。
在过去几年期间,深度学习方法在包括语音增强的各种应用领域中变得越来越有吸引力。在此上下文中,D.Michelsanti和Z.-H.Tan在其于2017年的INTERSPEECH上发表的有关“Conditional Generative Adversarial Networks for Speech Enhancement andNoise-Robust Speaker Verification[用于语音增强和抗噪声语者验证的条件生成式对抗网络]”的出版物中所描述的,条件生成式对抗网络(GAN)方法的性能优于经典的短时频谱幅度最小均方误差语音增强算法,并且与用于语音增强的基于深度神经网络的方法相当。
N.Tawara、T.Kobayashi和T.Ogawa在其于2019年的INTERSPEECH上发表的有关“Multi-channel Speech Enhancement Using Time-Domain Convolutional DenoisingAutoencoder[使用时域卷积去噪自动编码器的多声道语音增强]”的出版物中进一步描述了多声道时域卷积去噪自动编码器(TCDAE),并且评估了其在多声道配置中的语音增强性能。TCDAE将嘈杂的语音信号直接映射为时域中的干净信号,从而旨在以端到端的方式了解空间信息。
A.Biswas等人的“Audio Codec Enhancement with Generative AdversarialNetworks[使用生成式对抗网络增强音频编解码器]”描述了基于GAN的编码音频增强器,其用于有效恢复被编码噪声污染的信号。所述方法直接作用于经解码的波形,因此该概念与编解码器无关。
一般而言,最近的研究主要基于深度卷积GAN。尽管GAN也越来越多地用于语音和音频相关应用,但多声道音频的应用仍然很少。此外,迄今为止大多数深度学习方法都涉及语音去噪。要注意的是,从编码噪声中恢复音频是个具有挑战性的问题。直观地说,人们可以认为编码伪像减少与去噪高度相关。然而,去除与期望声音高度相关的编码伪像/噪声似乎比去除通常不太相关的(去噪应用中的)其他噪声类型要更复杂。编码伪像的特性取决于编解码器和所采用的编码工具以及所选比特率。
因此,期望将在GAN设置中训练的生成器的益处与压扩技术的益处相结合,以显著减少多声道音频信号中的编码伪像,从而向用户提供质量增强的音频的益处。
发明内容
根据本公开的第一方面,提供了一种在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法。所述方法可以包括接收所述音频比特流的步骤。所述方法可以进一步包括以下步骤:对所述音频比特流进行核心解码,并且基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道。所述方法可以进一步包括以下步骤:将所述动态范围减小的初始多声道音频信号输入到多声道生成器中,以联合处理所述动态范围减小的初始多声道音频信号。所述方法可以进一步包括以下步骤:由所述多声道生成器在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道。并且所述方法可以包括以下步骤:获得增强的动态范围减小的多声道音频信号作为所述多声道生成器的输出,用于所述动态范围的后续扩展,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
如以上所配置的,所述方法使得能够使用在生成式对抗网络设置中训练的多声道生成器来改善动态范围减小的域中多声道音频信号的质量。这样,可以执行经编码音频和空间增强的联合恢复。
在一些实施例中,所述方法可以进一步包括:在对所述音频比特流进行核心解码之后执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
在一些实施例中,所述音频比特流可以采用AC-4格式。
在一些实施例中,所述方法可以进一步包括以下步骤:通过对所述两个或更多个声道执行扩展操作,将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
在一些实施例中,所述扩展操作可以是基于用于计算相应的增益值的频谱大小的p范数的压扩操作。
在一些实施例中,所接收到的音频比特流可以包括元数据,并且接收所述音频比特流可以进一步包括对所接收到的音频比特流进行解复用。
在一些实施例中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道可以基于所述元数据。
在一些实施例中,所述元数据可以包括一项或多项压扩控制数据。
在一些实施例中,所述压扩控制数据可以包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
在一些实施例中,所述压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
在一些实施例中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道可以取决于由所述压扩控制数据指示的压扩模式。
在一些实施例中,如果所述压扩模式是压扩关闭,则所述多声道生成器可能不执行联合增强。
在一些实施例中,所述多声道生成器可以是在生成式对抗网络设置中的所述动态范围减小的域中训练的生成器。
在一些实施例中,所述多声道生成器可以包括以镜像对称方式布置的编码器级和解码器级,其中,所述编码器级和所述解码器级各自可以包括L个层,每层N个滤波器,其中,L可以是≥1的自然数,并且其中,N可以是≥1的自然数,并且其中,所述编码器级和所述解码器级的每一层中的N个滤波器的大小可以相同,并且所述编码器级和所述解码器级中的N个滤波器中的每个滤波器都可以以>1的步幅进行操作。
在一些实施例中,在所述编码器级的至少一层和所述解码器级的至少一层中可以执行非线性运算,所述非线性运算包括ReLU、PReLU、LReLU、eLU和SeLU中的一个或多个。
在一些实施例中,所述多声道生成器可以进一步包括非跨步(意指步幅=1)卷积层,作为所述编码器级之前的输入层。
在一些实施例中,所述多声道生成器可以进一步包括非跨步(意指步幅=1)转置卷积层,作为所述解码器级之后的输出层。
在一些实施例中,在所述多声道生成器的相应同源层之间可以存在一个或多个跳跃连接。
在一些实施例中,所述多声道生成器可以在所述编码器级与所述解码器级之间包括用于至少基于动态范围减小的经编码的多声道音频特征空间在所述动态范围减小的域中修改多声道音频的级。
在一些实施例中,可以在所述动态范围减小的经编码的多声道音频特征空间中使用随机噪声向量z,以在所述动态范围减小的域中修改多声道音频。
在一些实施例中,所述随机噪声向量z的使用可以以所述音频比特流的比特率和/或所述多声道音频信号的声道数量为条件。
在一些实施例中,所述方法可以进一步包括在接收所述音频比特流之前要执行的以下步骤:将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道;由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成所述增强的动态范围减小的多声道音频训练信号;将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道以及已经从中得到所述动态范围减小的初始多声道音频训练信号的原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到一组一个或多个单声道判别器中的单声道判别器中;进一步将所述增强的动态范围减小的多声道音频训练信号和对应的原始的动态范围减小的多声道音频信号一次一个地输入到多声道判别器中;由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号;以及调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
在一些实施例中,可以基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,其中,所述原始的动态范围减小的多声道音频信号的类型可以包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
在一些实施例中,可以另外地将随机噪声向量z输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以另外地基于所述随机噪声向量z。
在一些实施例中,可以将另外的元数据输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以另外地基于所述元数据。
在一些实施例中,所述元数据可以包括一项或多项压扩控制数据。
在一些实施例中,所述压扩控制数据可以包括关于用于对所述原始的多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
在一些实施例中,所述压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
在一些实施例中,由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以取决于由所述压扩控制数据指示的压扩模式。
在一些实施例中,如果所述压扩模式是压扩关闭,则所述多声道生成器可能不执行联合增强。
根据本公开的第二方面,提供了一种用于在包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器的生成式对抗网络设置中的动态范围减小的域中训练多声道生成器的方法。所述方法可以包括以下步骤:将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道。所述方法可以进一步包括以下步骤:由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成增强的动态范围减小的多声道音频训练信号。所述方法可以进一步包括以下步骤:将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道以及已经从中得到所述动态范围减小的初始多声道音频训练信号的原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到所述一组一个或多个单声道判别器中的单声道判别器中。所述方法可以进一步包括以下步骤:进一步将所述增强的动态范围减小的多声道音频训练信号和对应的原始的动态范围减小的多声道音频信号一次一个地输入到所述多声道判别器中。所述方法可以进一步包括以下步骤:由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号。并且所述方法可以包括以下步骤:调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
在一些实施例中,可以基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,其中,所述原始的动态范围减小的多声道音频信号的类型可以包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
在一些实施例中,可以另外地将随机噪声向量z输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以另外地基于所述随机噪声向量z。
在一些实施例中,可以将另外的元数据输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以另外地基于所述元数据。
在一些实施例中,所述元数据可以包括一项或多项压扩控制数据。
在一些实施例中,所述压扩控制数据可以包括关于用于对所述原始的多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
在一些实施例中,所述压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
在一些实施例中,由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号可以取决于由所述压扩控制数据指示的压扩模式。
在一些实施例中,如果所述压扩模式是压扩关闭,则所述多声道生成器可能不执行联合增强。
根据本公开的第三方面,提供了一种用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置。所述装置可以包括用于接收所述音频比特流的接收器。所述装置可以进一步包括核心解码器,所述核心解码器用于对所述音频比特流进行核心解码,并且用于基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道。并且所述装置可以包括多声道生成器,所述多声道生成器用于在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道,并且用于获得增强的动态范围减小的多声道音频信号,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
在一些实施例中,所述装置可以进一步包括解复用器,所述解复用器用于对所接收到的音频比特流进行解复用,其中,所接收到的音频比特流可以包括元数据。
在一些实施例中,所述元数据可以包括一项或多项压扩控制数据。
在一些实施例中,所述压扩控制数据可以包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
在一些实施例中,所述压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
在一些实施例中,所述多声道生成器可以被配置成根据由所述压扩控制数据指示的压扩模式在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道。
在一些实施例中,如果所述压扩模式是压扩关闭,则所述多声道生成器可以被配置成不执行联合增强。
在一些实施例中,所述装置可以进一步包括扩展单元,所述扩展单元被配置成对所述两个或更多个声道执行扩展操作,以将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
在一些实施例中,所述装置可以进一步包括动态范围减小单元,所述动态范围减小单元被配置成在对所述音频比特流进行核心解码之后执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
根据本公开的第四方面,提供了一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行用于在包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器的生成式对抗网络设置中的动态范围减小的域中训练多声道生成器的方法。
根据本公开的第六方面,提供了一种***,所述***具有用于在动态范围减小的域中从包括多声道音频信号的音频比特流和生成式对抗网络中生成增强的多声道音频信号的装置的***,所述生成式对抗网络包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器,其中,所述***被配置成执行在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法。
根据本公开的第七方面,提供了一种***,所述***具有用于对输入的多声道音频信号应用动态范围减小并且对音频比特流中的动态范围减小的多声道音频信号进行编码的装置以及用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置。
附图说明
现在将参考附图仅通过举例的方式来描述本公开的示例实施例,在附图中:
图1图示了在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法的示例的流程图。
图2图示了包括用于在动态范围减小的域中训练多声道生成器的多声道判别器的生成式对抗网络设置的示例。
图3图示了包括用于在动态范围减小的域中训练多声道生成器的单声道判别器的生成式对抗网络设置的示例。
图4图示了用于在动态范围减小的域中训练多声道判别器的生成式对抗网络设置的示例。
图5图示了用于在动态范围减小的域中训练多声道判别器的生成式对抗网络设置的另外的示例。
图6图示了用于在动态范围减小的域中训练单声道判别器的生成式对抗网络设置的示例。
图7图示了用于在动态范围减小的域中训练单声道判别器的生成式对抗网络设置的另外的示例。
图8图示了多声道生成器架构的示例。
具体实施方式
压扩
如在美国专利US 9,947,335 B2(其通过引用以其全文结合于此)中描述的,压扩技术通过使用在QMF(正交镜像滤波器,quadrature mirror filter)域中实施的压扩算法来实现音频编解码器中的量化噪声的时域噪声整形,从而实现量化噪声的时域整形。一般而言,压扩是在QMF域中操作的一种参数编码工具,其可以用于控制量化噪声(例如,在MDCT(修正的离散余弦变换,modified discrete cosine transform)域中引入的量化噪声)的时域分布。这样,压扩技术可能涉及QMF分析步骤,随后是实际压扩操作/算法的应用、以及QMF合成步骤。
压扩可以被视为减小信号的动态范围的示例技术,以及等效地从信号中去除时域包络的示例技术。本文所述的方法、装置和***旨在改善动态范围减小的域中多声道音频信号的质量。因此,这种改善对于使用压扩技术的应用而言可能是特别有价值的。因此,一些实施例涉及压扩,并且更具体地涉及改善作为动态范围减小的域的QMF域中多声道音频信号的质量。
概述
参考图1的示例,图示了在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法。在第一步骤101中,接收包括多声道音频信号的音频比特流。音频比特流的编解码器不受限制,并且可以是有损音频压缩中使用的任何编解码器,例如AAC(高级音频编码)、AC-3、HE-AAC、USAC或AC-4。在实施例中,音频比特流可以采用AC-4格式。在第二步骤102中,对音频比特流进行核心解码,并且基于接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,动态范围减小的初始多声道音频信号包括两个或更多个声道。
例如,可以对音频比特流进行核心解码,以基于包括多声道音频信号的音频比特流获得包括两个或更多个声道的动态范围减小的初始多声道音频信号。如本文所使用的,术语核心解码通常是指在MDCT域中波形编码之后的经解码音频。在AC-4中,核心编解码器被称为音频频谱前端(ASF)或语音频谱前端(ASF)。
进一步地,如本文所使用的,与动态范围减小的多声道音频信号相关的术语初始(raw)是指在由以下进一步描述的多声道生成器(以下也简单地表示为生成器)联合增强之前的动态范围减小的多声道音频信号,即,未增强的动态范围减小的多声道音频信号。
动态范围减小的多声道音频信号可以在音频比特流中进行编码。
可替代地,可以在对音频比特流进行核心解码之前或之后执行动态范围减小。在实施例中,步骤102因此可以进一步包括在对音频比特流进行核心解码之后执行动态范围减小操作,例如压扩。
在步骤103中,将动态范围减小的初始多声道音频信号输入到多声道生成器中,以联合处理动态范围减小的初始多声道音频信号。如本文所使用的,术语联合(jointly)是指对多声道音频信号的两个或更多个声道同时执行的操作,例如处理/增强。在这种情况下,联合是指由多声道生成器同时增强动态范围减小的初始多声道音频信号的两个或更多个声道。换句话说,将动态范围减小的初始多声道音频信号的两个或更多个声道同时输入到多声道生成器中。在步骤104中,然后由多声道生成器在动态范围减小的域中联合增强动态范围减小的初始多声道音频信号的两个或更多个声道,其细节将在下文中进一步描述。由多声道生成器执行的增强过程旨在通过减少编码伪像和量化噪声来增强动态范围减小的初始多声道音频信号的质量。在步骤105中,获得用于动态范围的后续扩展的增强的动态范围减小的多声道音频信号作为多声道生成器的输出,其中,增强的动态范围减小的多声道音频信号包括两个或更多个声道。
在一个实施例中,所述方法可以进一步包括以下步骤:通过对所述两个或更多个声道执行扩展操作,以将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。在一个实施例中,扩展操作可以是基于用于计算相应的增益值的频谱大小的p范数的压扩操作。
一般而言,在压扩(压缩/扩展)中,计算用于压缩和扩展的增益值,并将其应用于滤波器组中。可以应用短原型滤波器,以解决与各个增益值的应用相关联的潜在问题。参考以上压扩操作,可以通过滤波器组来分析由多声道生成器输出的增强的动态范围减小的多声道音频信号,并且在频域中,宽带增益可以直接应用于增强的动态范围减小的多声道音频信号的两个或更多个声道。根据所应用的原型滤波器的形状,时域中的对应效果是使增益应用自然地平滑。然后,在相应的合成滤波器组中将修改的频率信号转换回时域。在此上下文中,要注意的是,可能有许多QMF工具,在从QMF转换回时域之前所述QMF工具可以随后运行,包括以非限制性的方式进行带宽扩展和参数上混中的一种或多种。使用滤波器组分析信号提供了对其频谱内容的访问,并且允许计算优先提升由于高频造成的贡献(或提升由于任何较弱的频谱内容而造成的贡献)的增益,从而提供不是由信号中的最强分量主导的增益值,因此解决了与包括不同源的混合的音频源相关联的问题。在此上下文中,可以使用频谱大小的p范数来计算增益值,其中p通常小于2,已经发现这在对量化噪声进行整形方面比基于p=2的能量更有效。
上述方法可以由任何解码器实施。如果以上方法的应用结合了压扩,则上述方法可以由AC-4解码器实施。
可替代地或另外地,以上方法也可以由具有用于在动态范围减小的域中从包括多声道音频信号的音频比特流和生成式对抗网络中生成增强的多声道音频信号的装置的***来执行,所述生成式对抗网络包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器。
所述装置可以是解码器。
以上方法也可以由用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置来执行。所述装置可以包括用于接收所述音频比特流的接收器。所述装置可以进一步包括核心解码器,所述核心解码器用于对所述音频比特流进行核心解码,并且用于基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道。并且所述装置可以包括多声道生成器,所述多声道生成器用于在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道,并且用于获得增强的动态范围减小的多声道音频信号,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。在一个实施例中,所述装置可以进一步包括解复用器。在一个实施例中,所述装置可以进一步包括扩展单元。在一个实施例中,所述装置可以进一步包括动态范围减小单元。
可替代地或另外地,所述装置可以是***的一部分,所述***具有用于对输入的多声道音频信号应用动态范围减小并且对音频比特流中的动态范围减小的多声道音频信号进行编码的装置以及用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置。
可替代地或另外地,以上方法可以由相应的计算机程序产品来实施,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法。
元数据
可替代地或另外地,以上方法可能涉及元数据。在一个实施例中,接收到的音频比特流可以包括元数据,并且步骤101可以进一步包括对接收到的音频比特流进行解复用。在一个实施例中,在如上所述的步骤104中,由多声道生成器联合增强动态范围减小的初始多声道音频信号的两个或更多个声道可以基于元数据。如上所述,如本文所述的方法、装置和***如果结合压扩应用,则其可能是有价值的。在一个实施例中,因此元数据可以包括一项或多项压扩控制数据。通常,压扩可以为语音和瞬态信号提供益处,同时会降低一些静态信号的质量,因为利用增益值单独地修改每个QMF时隙可能会导致编码期间的不连续性,所述不连续性在压扩解码器处可能会导致经整形噪声的包络的不连续性,从而导致可听见的伪像。通过相应的压扩控制数据,可以选择性地针对瞬态信号打开压扩并且针对静态信号关闭压扩,或者在适当的情况下应用平均压扩。
在此上下文中,平均压扩是指将恒定增益应用于音频帧,类似于相邻活动压扩帧的增益。可以在编码期间检测压扩控制数据并且经由音频比特流将其传输到解码器。在一个实施例中,因此压扩控制数据可以包括关于已经用于对多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。在一个实施例中,压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。在一个实施例中,在如上所述的步骤104中,由多声道生成器联合增强动态范围减小的初始多声道音频信号的两个或更多个声道可以取决于由压扩控制数据指示的压扩模式。在一个实施例中,如果压扩模式是压扩关闭,则多声道生成器可能不执行联合增强。尽管在实施例中,引用了可以包括一项或多项压扩控制数据的元数据,但是这并非旨在是限制性的。可替代地或另外地,由多声道生成器联合增强动态范围减小的初始多声道音频信号的两个或更多个声道也可以基于从其他元数据或其他元数据的组合得到的参数。
生成式对抗网络设置
如上所述,在步骤104中,多声道生成器联合增强动态范围减小的域中动态范围减小的初始多声道音频信号的两个或更多个声道。通过增强,编码伪像减少,并且与原始的未编码的动态范围减小的多声道音频信号相比,动态范围减小的多声道音频信号的质量在扩展动态范围减小的多声道音频信号的两个或更多个声道的动态范围之前就已经得到了增强。
在一个实施例中,多声道生成器可以是在生成式对抗网络设置(GAN设置)中的动态范围减小的域中训练的生成器。例如,动态范围减小的域可以是AC-4压扩域。在一些情况下(如在AC-4压扩中),动态范围减小可能等同于去除(或抑制)信号的时域包络。因此,可以说多声道生成器可以是在从信号去除了时域包络之后的域中训练的生成器。此外,尽管将在下文中描述GAN设置,但是要注意的是,这不应该理解为是限制性的,并且还可以想到其他生成式模型,并且包括在本公开的范围内。
GAN设置包括各自通过迭代过程进行训练的多声道生成器G、一组一个或多个单声道判别器Dk以及多声道判别器Dj。在生成式对抗网络设置中进行训练期间,多声道生成器G基于动态范围减小的初始多声道音频训练信号(经核心编码和核心解码)联合生成增强的动态范围减小的多声道音频训练信号x*,所述增强的动态范围减小的多声道音频训练信号包括两个或更多个声道,所述动态范围减小的初始多声道音频训练信号也包括两个或更多个声道,并且所述动态范围减小的初始多声道音频训练信号是从对应的原始(original)的动态范围减小的多声道音频信号x导出的。动态范围减小可以通过对多声道音频信号的两个或更多个声道应用压扩操作来执行。压扩操作可以是如针对AC-4编解码器所指定并且在AC-4编码器中执行的压扩操作。
在实施例中,除了动态范围减小的初始多声道音频训练信号之外,还可以将随机噪声向量z输入到多声道生成器中,并且由多声道生成器联合生成增强的动态范围减小的多声道音频训练信号x*可以另外地基于随机噪声向量z。在实施例中,另外输入的随机噪声向量z可以以包括已经从中得到动态范围减小的多声道音频训练信号的原始的多声道音频信号的音频比特流的比特率和/或动态范围减小的多声道音频训练信号的声道数量为条件。例如,在立体声信号的情况下,随机噪声向量z可以用于36kbit/s或更低。对于掌声,随机噪声向量z可以用于所有比特率。然而,也可以将随机噪声向量设置为z=0。对于不是太低的比特率,如果将随机噪声向量设置为z=0,则编码伪像降低会产生良好结果。可替代地,可以在没有输入随机噪声向量z的情况下进行训练。可替代地或另外地,在一个实施例中,可以将元数据输入到多声道生成器中,并且联合生成增强的动态范围减小的多声道音频训练信号x*可以另外地基于元数据。在训练期间,因此可以基于元数据来调节增强的动态范围减小的多声道音频训练信号x*的联合生成。在一个实施例中,元数据可以包括一项或多项压扩控制数据。在一个实施例中,压扩控制数据可以包括关于用于对音频数据进行编码的一种或多种压扩模式中的压扩模式的信息。在一个实施例中,压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。在一个实施例中,由多声道生成器联合生成增强的动态范围减小的多声道音频训练信号x*可以取决于由压扩控制数据指示的压扩模式。这样,在训练期间,多声道生成器可以以压扩模式为条件。在一个实施例中,如果压扩模式是压扩关闭,这可能指示输入的初始多声道音频训练信号并非是动态范围减小的,并且在这种情况下多声道生成器可能不执行联合增强。如上所述,可以在对多声道音频信号进行编码期间检测压扩控制数据并且使得能够选择性地应用压扩,即针对瞬态信号打开压扩,针对静态信号关闭压扩,并且在适当的情况下应用平均压扩。
在训练期间,多声道生成器尝试输出与对应的原始的动态范围减小的多声道音频信号x无法区分的增强的动态范围减小的多声道音频训练信号x*。在第一步骤中,向一组一个或多个单声道判别器中的单声道判别器Dk一次一个地馈入所生成的增强的动态范围减小的多声道音频训练信号x*的两个或更多个声道中的每个声道以及已经从中得到动态范围减小的初始多声道音频训练信号的原始的动态范围减小的多声道音频信号x的对应声道,并且以假/真方式判断所输入的数据是所生成的增强的动态范围减小的多声道音频训练信号x*的声道还是原始的动态范围减小的多声道音频信号x的对应声道。这样,单声道判别器Dk试图将原始的动态范围减小的多声道音频信号x的每个声道与增强的动态范围减小的多声道音频训练信号x*的对应声道区分开来。在迭代过程期间,多声道生成器然后调整其参数以生成与原始的动态范围减小的多声道音频信号x相比越来越好的增强的动态范围减小的多声道音频训练信号x*,并且单声道判别器Dk学会在增强的动态范围减小的多声道音频训练信号x*的两个或更多个声道与原始的动态范围减小的多声道音频信号x的对应声道之间更好地进行判断。
应该注意的是,由单声道判别器Dk以假/真方式判断所输入的数据是所生成的增强的动态范围减小的多声道音频训练信号x*的声道还是原始的动态范围减小的多声道音频信号x的对应声道的步骤可以由同一单声道判别器Dk对所生成的增强的动态范围减小的多声道音频训练信号x*的每个声道执行。可替代地或另外地,由单声道判别器Dk以假/真方式判断所输入的数据是所生成的增强的动态范围减小的多声道音频训练信号x*的声道还是原始的动态范围减小的多声道音频信号x的对应声道的步骤可以由一组单声道判别器Dk执行,其中,所生成的增强的动态范围减小的多声道音频训练信号x*的每个声道以及原始的动态范围减小的多声道音频信号x的每个对应声道被输入到在该声道上进行训练的单独的单声道判别器Dk中。在实施例中,可以基于原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器Dk,其中,所述原始的动态范围减小的多声道音频信号的类型可以包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
在第二步骤中,向多声道判别器Dj一次一个地馈入所生成的增强的动态范围减小的多声道音频训练信号x*和已经从中得到动态范围减小的初始多声道音频训练信号的对应的原始的动态范围减小的多声道音频信号x,并且以假/真方式判断所输入的数据是所生成的增强的动态范围减小的多声道音频训练信号x*还是对应的原始的动态范围减小的多声道音频信号x。这样,多声道判别器Dj尝试将原始的动态范围减小的多声道音频信号x与增强的动态范围减小的多声道音频训练信号x*区分开来。在迭代过程期间,多声道生成器然后调整其参数以生成与原始的动态范围减小的多声道音频信号x相比越来越好的增强的动态范围减小的多声道音频训练信号x*,并且多声道判别器Dj学会在增强的动态范围减小的多声道音频训练信号x*与原始的动态范围减小的多声道音频信号x之间更好地进行判断。
应该注意的是,可以首先训练单声道判别器Dk和多声道判别器Dj,以便在最终步骤中训练多声道生成器。判别器的训练和更新也可以在动态范围减小的域中执行。训练和更新判别器可以涉及使向原始的动态范围减小的多声道音频信号x分配高分并且向增强的动态范围减小的多声道音频训练信号x*分配低分的概率最大化。训练判别器的目标可以是将原始的动态范围减小的多声道音频信号x识别为真,而将增强的动态范围减小的多声道音频训练信号x*(所生成的数据)识别为假。当训练和更新判别器时,多声道生成器的参数可以保持固定。
训练和更新多声道生成器可以涉及使原始的动态范围减小的多声道音频信号x与所生成的增强的动态范围减小的多声道音频训练信号x*之间的差异最小化。训练多声道生成器的目标可以是实现单声道判别器Dk将所生成的增强的动态范围减小的多声道音频训练信号x*的两个或更多个声道中的每个声道识别为真。并且进一步地,多声道判别器Dj将所生成的增强的动态范围减小的多声道音频训练信号x*识别为真。
现在参考图2的示例,更详细地描述了在生成式对抗网络(GAN)设置中的动态范围减小的域中训练多声道生成器G,1。在图2的示例中,GAN设置包括多声道生成器G,1和多声道判别器Dj,2j。训练多声道生成器G,1可以涉及以下。
包括两个或更多个声道的原始的多声道音频信号xip,12可以经受动态范围减小comp,10以获得包括两个或更多个声道的动态范围减小的原始的多声道音频信号x,9。可以通过对两个或更多个声道中的每个声道应用压扩操作(特别是AC-4压扩操作)、然后进行QMF(正交镜像滤波器)合成步骤来执行动态范围减小。由于压扩操作是在QMF域中执行,因此需要后续的QMF合成步骤。在被输入到多声道生成器G,1之前,动态范围减小的原始的多声道音频信号x,9可以另外经受核心编码和核心解码,以获得动态范围减小的初始多声道音频训练信号8。然后将动态范围减小的初始多声道音频训练信号8以及随机噪声向量z,11输入到多声道生成器G,1中。然后,基于所述输入,多声道生成器G,1在动态范围减小的域中联合生成增强的动态范围减小的多声道音频训练信号x*,7。在实施例中,输入随机噪声向量z可以以包括已经从中得到动态范围减小的多声道音频训练信号的原始的多声道音频信号的音频比特流的比特率和/或动态范围减小的多声道音频训练信号的声道数量为条件。在实施例中,可以将随机噪声向量z,11设置为z=0。
可替代地,可以在没有输入随机噪声向量z,11的情况下进行训练。可替代地或另外地,在动态范围减小的经编码的多声道音频特征空间中,可以使用元数据作为输入来训练多声道生成器G,1,以修改增强的动态范围减小的多声道音频训练信号x*,7。将原始的动态范围减小的多声道音频信号x,9(已经从中得到动态范围减小的初始多声道音频训练信号8)以及所生成的增强的动态范围减小的多声道音频训练信号x*,7一次一个地输入6j到多声道判别器Dj,2j中。作为附加信息,每次还可以将动态范围减小的初始多声道音频训练信号8输入到多声道判别器Dj,2j中。然后,多声道判别器Dj,2j判断3j,4j所输入的数据是增强的动态范围减小的多声道音频训练信号x*,7(假)还是原始的动态范围减小的多声道音频信号x,9(真)。
在下一步骤中,然后调整多声道生成器G,1的参数,直到多声道判别器Dj,2j不再能够区分增强的动态范围减小的多声道音频训练信号x*,7与原始的动态范围减小的多声道音频信号x,9。这可以通过迭代过程5j来完成。
现在参考图3的示例,更详细地描述了在生成式对抗网络(GAN)设置中的动态范围减小的域中训练多声道生成器G,1,其中,在图3的示例中,GAN设置包括多声道生成器G,1和单声道判别器Dk,2k。训练多声道生成器G,1可以涉及以下。
可以如上所述获得动态范围减小的初始多声道音频训练信号8以及增强的动态范围减小的多声道音频训练信号x*,7。将原始的动态范围减小的多声道音频信号x,9(已经从中得到动态范围减小的初始多声道音频训练信号8)的声道k以及所生成的增强的动态范围减小的多声道音频训练信号x*,7的对应声道一次一个地输入6k到单声道判别器Dk,2k中(注意,窄线指示单独的声道,而粗线指示多声道信号)。作为附加信息,每次还可以将动态范围减小的初始多声道音频训练信号8的对应声道输入到单声道判别器Dk,2k中。然后,单声道判别器Dk,2k判断3k,4k所输入的数据是增强的动态范围减小的多声道音频训练信号x*,7的声道(假)还是原始的动态范围减小的多声道音频信号x,9的对应声道(真)。
在下一步骤中,然后调整多声道生成器G,1的参数,直到单声道判别器D,2k不再能够区分增强的动态范围减小的多声道音频训练信号x*,7的声道与原始的动态范围减小的多声道音频信号x,9的对应声道。这可以通过迭代过程5k来完成。注意,如上所述,尽管可以由同一单声道判别器Dk,2k对相应的增强的动态范围减小的多声道音频训练信号x*,7和原始的动态范围减小的多声道音频信号x,9的每个声道执行判断步骤,但是可替代地或另外地,也可以由一组一个或多个单声道判别器Dk中的相应的声道特定的单声道判别器Dk,2k对每个声道独立地执行判断步骤。可以基于原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器Dk进行选择,其中,所述原始的动态范围减小的多声道音频信号的类型可以包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
由单声道判别器Dk和多声道判别器Dj进行判断可以基于如根据以下等式(1)的感知动机目标函数中的一个或多个,其中,Nc是指多声道音频信号的声道总数:
索引LS指的是最小二乘法的结合。另外,从等式(1)中的第一项和第二项可以看出,通过将经核心解码的动态范围减小的初始多声道音频信号作为附加信息输入到单声道判别器Dk和多声道判别器Dj两者中,条件生成式对抗网络设置已经被应用了。这使得判别器能够学习条件分类任务,即判别器的输入是基于给定经编码信号的原始信号还是增强信号。
引入最后一项(即以上等式(1)中的单声道判别器Dk)有助于确保在迭代过程期间较低的频率不会被扰乱,因为这些频率通常是用较高数量的比特编码的。最后一项是由因子lambda(拉姆达)λ缩放的1-范数距离。lambda的值可以从10到100中选择,这取决于应用和/或输入到多声道生成器的信号长度。例如,lambda可以选择为λ=100。
现在参考图4和图5的示例,在生成式对抗网络设置中的动态范围减小的域中训练多声道判别器Dj,2j可以遵循与如上所述的过程相同的一般迭代过程13j,响应于将增强的动态范围减小的多声道音频训练信号x*,7和原始的动态范围减小的多声道音频信号x,9与动态范围减小的初始多声道音频训练信号8一起一次一个地输入6j,14j到多声道判别器Dj,2j而训练多声道生成器G,1,除了多声道生成器G,1的参数可能是固定的而多声道判别器Dj,2j的参数可能变化的这种情况(与图4和图5相比,在图2和图3中的判别器周围用粗线来指示)。可以通过以下等式(2)来描述多声道判别器Dj,2j的训练,所述等式使得多声道判别器Dj,2j能够将增强的动态范围减小的多声道音频训练信号x*,7确定为假:
现在参考图6和图7的示例,在生成式对抗网络设置中的动态范围减小的域中训练单声道判别器Dk,2k可以遵循与如上所述的过程相同的一般迭代过程13k,响应于将增强的动态范围减小的多声道音频训练信号x*,7的声道和原始的动态范围减小的多声道音频信号x,9的对应声道与动态范围减小的初始多声道音频训练信号8的对应声道一起一次一个地输入6k,14k到单声道判别器Dk,2k而训练多声道生成器G,1,除了多声道生成器G,1的参数也可能是固定的而单声道判别器Dk,2k的参数可能变化的这种情况(与图6和图7相比,在图2和图3中的判别器周围用粗线来指示)。可以通过以下等式(3)来描述单声道判别器Dk,2k的训练,所述等式使得单声道判别器Dk,2k能够将增强的动态范围减小的多声道音频训练信号x*,7确定为假:
在以上情况下,还通过将经核心解码的动态范围减小的初始多声道音频训练信号的对应声道作为附加信息输入到单声道判别器Dk已经应用了最小二乘法(LS)和条件生成式对抗网络设置。Nc进一步指示多声道生成器增强的多声道音频信号的声道数量。
要注意的是,基于上述训练,单声道判别器Dk可以被训练成仅将增强的动态范围减小的多声道音频训练信号x*,7的一个声道确定为假;或将增强的动态范围减小的多声道音频训练信号x*,7的每个声道都确定为假,其中,增强的动态范围减小的多声道音频训练信号可以包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
通常,用单声道判别器和多声道判别器两者进行训练实现了对单独声道以及对整体空间印象更好的控制。
除了最小二乘法,其他训练方法也可以用于在动态范围减小的域中在生成式对抗网络设置中训练多声道生成器以及多声道判别器Dj和单声道判别器Dk。本公开不限于特定训练方法。可替代地或另外地,可以使用所谓的沃瑟斯坦(Wasserstein)方法。在这种情况下,可以使用陆地移动距离(也称为沃瑟斯坦距离)代替最小方差距离。一般而言,不同的训练方法使得多声道生成器和判别器的训练更加稳定。然而,所应用的训练方法的种类不会影响在下面详述的多声道生成器的架构。
多声道生成器的架构
尽管多声道生成器的架构通常不受限制,但是在一个实施例中,多声道生成器可以包括编码器级和解码器级。多声道生成器的编码器级和解码器级可以是完全卷积的。在一个实施例中,解码器级可以镜像编码器级,并且编码器级以及解码器可以各自包括L个层,每个层L中有N个滤波器。L可以是≥1的自然数,并且N可以是≥1的自然数。N个滤波器的大小(也称为内核大小)不受限制,并且可以根据多声道生成器对动态范围减小的初始多声道音频信号的质量增强要求来选择。然而,在L个层的每个层中,滤波器大小可以是相同的。
现在参考图8的示例,所述附图图示了多声道生成器的架构的示例,在第一步骤15中,可以将包括两个或更多个声道的动态范围减小的初始多声道音频信号输入到多声道生成器中。在实施例中,此输入层15可以是编码器级之前的非跨步(例如,步幅=1意味着非跨步)卷积层。
习得的非跨步卷积层(例如,输入层15)的输出可以被视为单独输入声道的几种组合(其中,确切数量取决于滤波器或非跨步卷积层的内核的数量)。因此,这种层的输出可以被视为多声道中间侧信号。例如,对于立体声输入信号(例如,双声道输入信号),如果XL是左声道并且XR是右声道,则中间信号M=0.5*(XL+XR)并且侧信号S=0.5*(XL-XR)。因此,如果创建了多声道中间侧信号,则生成了XL与XR的多个组合。经过学习后,这样的***可以提供关于XL与XR之间的空间关系的附加暗示。例如,当考虑侧信号S=0的简单案例时,很可能XL=XR。因此,前置非跨步卷积层允许用关于音频信号(例如,原始音频信号和经编码音频信号两者)及其对应空间关系(例如,原始音频信号与经编码音频信号之间的空间关系)的信息来调节设置。因此,如果由于编码而丢失了任何空间宽度,则可以使用所提出的***对其进行恢复,从而联合执行包括空间增强的经编码音频增强。
输入层中滤波器数量N=16和滤波器大小31的示例性值产生了良好结果,例如编码伪像的量最小。非线性激活可以在输入层中执行,所述非线性激活可以是参数化整流线性单元(PReLU)。第一图示的编码器层16(层号L=1)可以包括N=16个滤波器大小为31的滤波器。第二图示的编码器层17(层号L=2)可以包括N=32个滤波器大小为31的滤波器。为了清楚和简洁起见,省略了后续图层。第三图示的编码器层18(层号L=11)可以包括N=512个滤波器大小为31的滤波器。因此,每一层中滤波器的数量可以增加。在一个实施例中,每个滤波器可以以>1的步幅对输入到每个编码器层的动态范围减小的多声道音频信号的两个或更多个声道进行操作。每个滤波器可以例如以步幅为2对输入到每个编码器层的动态范围减小的多声道音频信号的两个或更多个声道进行操作。因此,可以执行因子为2的可学习下采样。
可替代地,滤波器还可以在每个编码器层中以步幅为1进行操作,随后进行因子为2的下采样(如在已知信号处理中)。可替代地,例如,每个滤波器可以以步幅为4对输入到每个编码器层的动态范围减小的多声道音频信号的两个或更多个声道进行操作。这可以使得多声道生成器中的总层数减少一半。
在多声道生成器的至少一个编码器层和至少一个解码器层中,可以另外执行非线性操作作为激活。在一个实施例中,非线性操作可以包括以下项中的一个或多个:参数修正线性单元(PReLU)、修正线性单元(ReLU)、泄漏修正线性单元(LReLU)、指数线性单元(eLU)和缩放指数线性单元(SeLU)。在图8的示例中,非线性操作基于PReLU。
如图8所示意性图示的,相应的解码器层22、21、20镜像了编码器层16、17、18。虽然解码器级中的每一层中的滤波器数量和每一层中的滤波器宽度可以与编码器级相同,但是可以通过两种替代性方法执行解码器级中的多声道音频信号的上采样。在一个实施例中,可以在解码器级的各层20、21、22中使用小数步幅卷积(也称为转置卷积,transposedconvolution)操作。可替代地,在解码器级的每一层中,在如利用为2的上采样因子进行传统信号处理中那样执行上采样和内插之后,滤波器可以以步幅为1对输入到每一层中的多声道音频信号的两个或更多个声道进行操作。
另外,在一个实施例中,多声道生成器可以进一步包括非跨步(意指步幅=1的转置卷积)转置卷积层,作为解码器级之后的输出层23。在此示例中,输出层23可以包括N=2个滤波器大小为31的滤波器。要注意的是,输出层中的滤波器数量可以等于多声道生成器增强的多声道音频信号的声道数量Nc。例如,在立体声增强的情况下,可以针对输出层保持Nc=N=2。在输出层23中,激活可以不同于在编码器级中的至少一个编码器层以及解码器级中的至少一个解码器层中执行的激活。例如,激活可以基于tanh操作。
在编码器级与解码器级之间,可以修改动态范围减小的多声道音频信号以生成增强的动态范围减小的多声道音频信号。在一个实施例中,修改可以基于动态范围减小的经编码的多声道音频特征空间25(也称为瓶颈层)。在一个实施例中,可以在动态范围减小的经编码的多声道音频特征空间25中使用随机噪声向量z,以在动态范围减小的域中修改多声道音频信号的两个或更多个声道。动态范围减小的经编码的多声道音频特征空间25中的修改可以例如通过将随机噪声向量(z)与多声道音频信号的两个或更多个声道的向量表示(c)进行级联作为编码器级的最后一层的输出来完成。在实施例中,随机噪声向量z的使用可以以音频比特流的比特率和/或多声道音频信号的声道数量为条件。例如,随机噪声向量z可以用于36kbit/s或更低的立体声信号的情况下,并且可以在掌声的情况下用于所有比特率。然而,也可以将随机噪声向量设置为z=0。对于不是太低的比特率,如果将随机噪声向量设置为z=0,则编码伪像降低会产生良好结果。可替代地或另外地,此时可以输入元数据以修改多声道音频信号的两个或更多个声道。这样,可以基于给定的元数据来调节增强的动态范围减小的多声道音频信号的生成。
在一个实施例中,跳跃连接24可以存在于编码器级和解码器级的同源层之间以及编码器级之前的输入层与解码器级之后(附加)的输出层之间。这样,可以绕过如上所述的动态范围减小的经编码的多声道音频特征空间25,从而防止信息丢失。在一个实施例中,可以使用级联和信号相加中的一个或多个来实施跳跃连接24。由于跳跃连接24的实施,滤波器输出的数量可能“虚拟地”加倍。
参考图8的示例,多声道生成器的架构可以如下概述:
15/输入层:非跨步卷积层:滤波器数量N=16,滤波器大小=31,激活=PreLU
16/编码器层L=1:滤波器数量N=16,滤波器大小=31,激活=PreLU
17/编码器层L=2:滤波器数量N=32,滤波器大小=31,激活=PreLU
.
.
.
18/编码器层L=11:滤波器数量N=512,滤波器大小=31
19/编码器层L=12:滤波器数量N=1024,滤波器大小=31
25/动态范围减小的经编码的多声道音频特征空间
20/解码器层L=1:滤波器数量N=512,滤波器大小=31
.
.
.
21/解码器层L=10:滤波器数量N=32,滤波器大小=31,激活PreLU
22/解码器层L=11:滤波器数量N=16,滤波器大小=31,激活PreLU
23/输出层:滤波器数量N=2,滤波器大小=31,激活tanh
24/跳跃连接
以上呈现的架构仅表示示例。取决于应用,多声道生成器的编码器级和解码器级的层数可以分别按比例缩小或按比例放大。
一般而言,由于不需要执行Wavenet或sampleRNN中的复杂操作,因此以上多声道生成器架构提供了一次性减少伪像的可能性。
另外,以上多声道生成器(例如,配置有在多声道输入信号上联合操作的非跨步卷积层(并相应地利用非跨步转置卷积层来生成多声道增强输出信号))具有更好的空间冗余利用率,这使得与应用一个或多个单声道生成器相比降低了复杂性。例如,对于立体声(例如,双声道)输入信号(具有提供最佳音频质量的设置),与单声道生成器相比,立体声生成器(例如,多声道生成器)的参数可能多0.14%。此参数增加意味着与单声道生成器相比复杂度增加12.1%。然而,由于立体声输入信号现在在立体声(例如,多声道)生成器(而不是两个单独的单声道生成器)中被联合处理,因此与两个单独的单声道生成器相比,复杂性降低了44%。
判别器的架构
单声道判别器和多声道判别器两者的架构都不受限制。多声道判别器的架构可以遵循与上述多声道生成器的编码器级相同的结构。多声道判别器架构可以镜像多声道生成器的编码器级。因此,多声道判别器可以包括L个层,其中,每个层可以包括N个滤波器。L可以是≥1的自然数,并且N可以是≥1的自然数。N个滤波器的大小不受限制,并且也可以根据判别器的要求选择。然而,在L个层的每个层中,滤波器大小可以是相同的。在判别器的至少一个编码器层中执行的非线性操作可以包括LReLU。在编码器级之前,多声道判别器可以包括输入层。输入层可以是如上所述的非跨步卷积层(步幅=1意味着非跨步)。在编码器级之后,多声道判别器可以包括输出层。输出层可以具有N=1个滤波器大小为1的滤波器(判别器做出单一真/假判断)。这样,输出层的滤波器大小可以与编码器层的滤波器大小不同。因此,输出层可以是不会对隐藏激活进行下采样的一维卷积层。这意味着输出层中的滤波器可以以步幅为1进行操作,而多声道判别器的编码器级的所有先前层可以使用为2的步幅。可替代地,编码器级的先前层中的每个滤波器可以以步幅为4进行操作。这可以使得多声道判别器中的总层数减少一半。输出层中的激活可以与至少一个编码器层中的激活不同。激活可以是S形的(sigmoid)。然而,如果使用最小方差训练方法,则S形激活可能是不需要的并且因此是可选的。
虽然多声道判别器可以接受两个或更多个声道作为输入,但单声道判别器可能只接受一个声道作为输入。因此单声道判别器的架构与多声道判别器的架构略有不同,不同之处在于单声道判别器不包括上述前置层。
一般而言,多声道判别器旨在考虑跨声道的空间关系来评估整体呈现(例如,多声道信号)的质量。如果仅采用了单声道判别器,则不可能考虑声道之间的关系。然而,在一些实施例中,采用了单声道判别器和多声道判别器两者来分别评估单个声道和联合评估所有声道的质量。
解释
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理(processing)”、“计算(computing)”、“确定(determining)”、“分析(analyzing)”等术语来指代计算机或计算***或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,所述处理器接受包含一组指令的计算机可读(也称为机器可读)代码,所述一组指令在由一个或多个处理器执行时执行本文所述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理***。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理***可以进一步包括存储器子***,所述存储器子***包括主RAM和/或静态RAM和/或ROM。可以包括总线子***以用于部件之间的通信。处理***可以进一步是分布式处理***,其中,处理器通过网络耦接在一起。如果处理***需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理***还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理***还可以涵盖如磁盘驱动单元等的存储***。一些配置中的处理***可以包括声音输出设备和网络接口设备。存储器子***因此包括携带计算机可读代码(例如,软件)的计算机可读载体介质,所述计算机可读代码包括一组指令,所述一组指令在由一个或多个处理器执行时使得执行本文所述的方法中的一种或多种。应当注意的是,当所述方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机***执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器可以作为独立设备运行,或者可以在联网部署中连接到(例如,联网到)其他处理器,所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定该机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或联合地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,所述指令例如为用于在一个或多个处理器(例如,作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理***的装置、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,所述载体介质携带包含在所述介质中的计算机可读程序代码。
可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,所述一组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子***的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、包含在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,所述一组指令在被执行时实施方法;以及网络中的传输介质,所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)***中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作***。
在整个本公开中对“一个实施例”、“一些实施例”或“示例实施例”的提及意味着结合所述实施例所描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个本公开中各处出现的短语“在一个实施例中”、“在一些实施例中”或“在示例实施例中”不一定都指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的要素/特征,但不排除其他要素/特征。因此,当在权利要求中使用术语“包括”时,所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。例如,包括A和B的设备的表达的范围不应限于仅包括元件A和B的设备。如本文所使用的,术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语,其意指至少包括所述术语之后的要素/特征,但不排除其他要素/特征。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
应当理解,在以上对本公开的示例实施例的描述中,有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在所附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
本公开的各个方面和实施方式可以从以下所枚举的示例实施例(EEE)中理解,所述示例实施例不是权利要求。
EEE1.一种在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法,其中,所述方法包括以下步骤:
(a)接收所述音频比特流;
(b)对所述音频比特流进行核心解码,并且基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道;
(c)将所述动态范围减小的初始多声道音频信号输入到多声道生成器中,以联合处理所述动态范围减小的初始多声道音频信号;
(d)由所述多声道生成器在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道;以及
(e)获得增强的动态范围减小的多声道音频信号作为所述多声道生成器的输出,用于所述动态范围的后续扩展,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
EEE2.根据EEE1所述的方法,其中,步骤(b)进一步包括在对所述音频比特流进行核心解码之后执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
EEE3.根据EEE1所述的方法,其中,所述音频比特流采用AC-4格式。
EEE4.根据EEE1至EEE3中任一项所述的方法,其中,所述方法进一步包括步骤(f):通过对所述两个或更多个声道执行扩展操作,将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
EEE5.根据EEE4所述的方法,其中,所述扩展操作是基于用于计算相应的增益值的频谱大小的p范数的压扩操作。
EEE6.根据EEE1至EEE5中任一项所述的方法,其中,所述所接收到的音频比特流包括元数据,并且步骤(a)进一步包括对所述所接收到的音频比特流进行解复用。
EEE7.根据EEE6所述的方法,其中,在步骤(d)中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道基于所述元数据。
EEE8.根据EEE7所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
EEE9.根据EEE8所述的方法,其中,所述压扩控制数据包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
EEE10.根据EEE9所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
EEE11.根据EEE9或EEE10所述的方法,其中,在步骤(d)中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道取决于由所述压扩控制数据指示的压扩模式。
EEE12.根据EEE11当从属于EEE10时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
EEE13.根据EEE1至EEE12中任一项所述的方法,其中,所述多声道生成器是在生成式对抗网络设置中的动态范围减小的域中训练的生成器。
EEE14.根据EEE1至EEE13中任一项所述的方法,其中,所述多声道生成器包括以镜像对称方式布置的编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括L个层,每层N个滤波器,其中,L是≥1的自然数,并且其中,N是≥1的自然数,并且其中,所述编码器级和所述解码器级的每一层中的N个滤波器的大小相同,并且所述编码器级和所述解码器级的N个滤波器中的每个滤波器都以>1的步幅进行操作。
EEE15.根据EEE14所述的方法,其中,在所述编码器级的至少一层和所述解码器级的至少一层中执行非线性运算,所述非线性运算包括ReLU、PReLU、LReLU、eLU和SeLU中的一个或多个。
EEE16.根据EEE14或EEE15所述的方法,其中,所述多声道生成器进一步包括非跨步卷积层,所述非跨步卷积层作为所述编码器级之前的输入层。
EEE17.根据EEE14至EEE16中任一项所述的方法,其中,所述多声道生成器进一步包括非跨步转置卷积层,所述非跨步转置卷积层作为所述解码器级之后的输出层。
EEE18.根据EEE14至EEE17中任一项所述的方法,其中,在所述多声道生成器的相应同源层之间存在一个或多个跳跃连接。
EEE19.根据EEE14至EEE18中任一项所述的方法,其中,所述多声道生成器在所述编码器级与所述解码器级之间包括用于至少基于动态范围减小的经编码的多声道音频特征空间在所述动态范围减小的域中修改多声道音频的级。
EEE20.根据EEE19所述的方法,其中,在所述动态范围减小的经编码的多声道音频特征空间中使用随机噪声向量z,以在所述动态范围减小的域中修改多声道音频。
EEE21.根据EEE20所述的方法,其中,所述随机噪声向量z的使用以所述音频比特流的比特率和/或所述多声道音频信号的声道数量为条件。
EEE22.根据EEE1至EEE21中任一项所述的方法,其中,所述方法进一步包括在步骤(a)之前要执行的以下步骤:
(i)将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道;
(ii)由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成所述增强的动态范围减小的多声道音频训练信号;
(iii)将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道和原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到一组一个或多个单声道判别器中的单声道判别器中,其中,已经从所述原始的动态范围减小的多声道音频信号的所述对应声道中得到所述动态范围减小的初始多声道音频训练信号;
(iv)进一步将所述增强的动态范围减小的多声道音频训练信号和对应的原始的动态范围减小的多声道音频信号一次一个地输入到多声道判别器中;
(v)由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号;以及
(vi)调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
EEE23.根据EEE22所述的方法,其中,基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,并且其中,所述原始的动态范围减小的多声道音频信号的类型包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
EEE24.根据EEE22或EEE23所述的方法,其中,在步骤(i)中另外地将随机噪声向量z输入到所述多声道生成器中,并且在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述随机噪声向量z。
EEE25.根据EEE22至EEE24中任一项所述的方法,其中,在步骤(i)中将另外的元数据输入到所述多声道生成器中,并且在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述元数据。
EEE26.根据EEE25所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
EEE27.根据EEE26所述的方法,其中,所述压扩控制数据包括关于用于对所述原始多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
EEE28.根据EEE27所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
EEE29.根据EEE27或EEE28所述的方法,其中,在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号取决于由所述压扩控制数据指示的压扩模式。
EEE30.根据EEE29当从属于EEE28时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
EEE31.一种用于在生成式对抗网络设置中的动态范围减小的域中训练多声道生成器的方法,所述生成式对抗网络设置包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器,其中,所述方法包括以下步骤:
(a)将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道;
(b)由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成增强的动态范围减小的多声道音频训练信号;
(c)将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道和原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到所述一组一个或多个单声道判别器中的单声道判别器中,其中,已经从所述原始的动态范围减小的多声道音频信号的所述对应声道中得到所述动态范围减小的初始多声道音频训练信号;
(d)进一步将所述增强的动态范围减小的多声道音频训练信号和所述对应的原始的动态范围减小的多声道音频信号一次一个地输入到所述多声道判别器中;
(e)由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号;以及
(f)调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
EEE32.根据EEE31所述的方法,其中,基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,并且其中,所述原始的动态范围减小的多声道音频信号的类型包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
EEE33.根据EEE31或EEE32所述的方法,其中,在步骤(i)中另外地将随机噪声向量z输入到所述多声道生成器中,并且在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述随机噪声向量z。
EEE34.根据EEE31至EEE33中任一项所述的方法,其中,在步骤(i)中将另外的元数据输入到所述多声道生成器中,并且在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述元数据。
EEE35.根据EEE34所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
EEE36.根据EEE35所述的方法,其中,所述压扩控制数据包括关于用于对所述原始多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
EEE37.根据EEE36所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
EEE38.根据EEE36或EEE37所述的方法,其中,在步骤(ii)中由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号取决于由所述压扩控制数据指示的压扩模式。
EEE39.根据EEE38当从属于EEE37时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
EEE40.一种用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置,其中,所述装置包括:
(a)用于接收所述音频比特流的接收器;
(b)核心解码器,所述核心解码器用于对所述音频比特流进行核心解码,并且用于基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道;
(c)多声道生成器,所述多声道生成器用于在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道,并且用于获得增强的动态范围减小的多声道音频信号,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
EEE41.根据EEE40所述的装置,进一步包括解复用器,所述解复用器用于对所述所接收到的音频比特流进行解复用,其中,所述所接收到的音频比特流包括元数据。
EEE42.根据EEE41所述的装置,其中,所述元数据包括一项或多项压扩控制数据。
EEE43.根据EEE42所述的装置,其中,所述压扩控制数据包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
EEE44.根据EEE43所述的装置,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
EEE45.根据EEE43或EEE44所述的装置,其中,所述多声道生成器被配置成根据由所述压扩控制数据指示的压扩模式在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道。
EEE46.根据EEE45当从属于EEE44时所述的装置,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器被配置成不执行联合增强。
EEE47.根据EEE40至EEE46中任一项所述的装置,其中,所述装置进一步包括扩展单元,所述扩展单元被配置成对所述两个或更多个声道执行扩展操作,以将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
EEE48.根据EEE40至EEE47中任一项所述的装置,其中,所述装置进一步包括动态范围减小单元,所述动态范围减小单元被配置成在对所述音频比特流进行核心解码之后执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
EEE49.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据EEE1至EEE30中任一项所述的方法。
EEE50.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据EEE31至EEE39中任一项所述的方法。
EEE51.一种***,所述***具有用于在动态范围减小的域中从包括多声道音频信号的音频比特流和生成式对抗网络中生成增强的多声道音频信号的装置,所述生成式对抗网络包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器,其中,所述***被配置成执行根据EEE1至EEE30中任一项所述的方法。
EEE52.一种***,所述***具有用于对输入的多声道音频信号应用动态范围减小并且对音频比特流中的动态范围减小的多声道音频信号进行编码的装置以及根据EEE40至EEE48中任一项所述的用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置。
Claims (52)
1.一种在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的方法,其中,所述方法包括以下步骤:
接收所述音频比特流;
对所述音频比特流进行核心解码,并且基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道;
将所述动态范围减小的初始多声道音频信号输入到多声道生成器中,以联合处理所述动态范围减小的初始多声道音频信号;
由所述多声道生成器在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道;以及
获得增强的动态范围减小的多声道音频信号作为所述多声道生成器的输出,用于所述动态范围的后续扩展,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
2.根据权利要求1所述的方法,进一步包括,在对所述音频比特流进行核心解码之后,执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
3.根据权利要求1所述的方法,其中,所述音频比特流采用AC-4格式。
4.根据权利要求1至3中任一项所述的方法,其中,所述方法进一步包括以下步骤:通过对所述两个或更多个声道执行扩展操作,将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
5.根据权利要求4所述的方法,其中,所述扩展操作是基于用于计算相应的增益值的频谱大小的p范数的压扩操作。
6.根据权利要求1至5中任一项所述的方法,其中,所述所接收到的音频比特流包括元数据,并且接收所述音频比特流进一步包括对所述所接收到的音频比特流进行解复用。
7.根据权利要求6所述的方法,其中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道基于所述元数据。
8.根据权利要求7所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
9.根据权利要求8所述的方法,其中,所述压扩控制数据包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
10.根据权利要求9所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
11.根据权利要求9或权利要求10所述的方法,其中,由所述多声道生成器联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道取决于由所述压扩控制数据指示的压扩模式。
12.根据权利要求11当从属于权利要求10时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
13.根据权利要求1至12中任一项所述的方法,其中,所述多声道生成器是在生成式对抗网络设置中的动态范围减小的域中训练的生成器。
14.根据权利要求1至13中任一项所述的方法,其中,所述多声道生成器包括以镜像对称方式布置的编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括L个层,每层N个滤波器,其中,L是≥1的自然数,并且其中,N是≥1的自然数,并且其中,所述编码器级和所述解码器级的每一层中的N个滤波器的大小相同,并且所述编码器级和所述解码器级中的N个滤波器中的每个滤波器都以>1的步幅进行操作。
15.根据权利要求14所述的方法,其中,所述多声道生成器进一步包括非跨步卷积层,所述非跨步卷积层作为所述编码器级之前的输入层。
16.根据权利要求14或15所述的方法,其中,在所述编码器级的至少一层和所述解码器级的至少一层中执行非线性运算,所述非线性运算包括ReLU、PReLU、LReLU、eLU和SeLU中的一个或多个。
17.根据权利要求14至16中任一项所述的方法,其中,所述多声道生成器进一步包括非跨步转置卷积层,所述非跨步转置卷积层作为所述解码器级之后的输出层。
18.根据权利要求14至17中任一项所述的方法,其中,在所述多声道生成器的相应同源层之间存在一个或多个跳跃连接。
19.根据权利要求14至18中任一项所述的方法,其中,所述多声道生成器在所述编码器级与所述解码器级之间包括用于至少基于动态范围减小的经编码的多声道音频特征空间在所述动态范围减小的域中修改多声道音频的级。
20.根据权利要求19所述的方法,其中,在所述动态范围减小的经编码的多声道音频特征空间中使用随机噪声向量z,以在所述动态范围减小的域中修改多声道音频。
21.根据权利要求20所述的方法,其中,所述随机噪声向量z的使用以所述音频比特流的比特率和/或所述多声道音频信号的声道数量为条件。
22.根据权利要求1至21中任一项所述的方法,其中,所述方法进一步包括在接收所述音频比特流之前要执行的以下步骤:
将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道;
由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成所述增强的动态范围减小的多声道音频训练信号;
将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道和原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到一组一个或多个单声道判别器中的单声道判别器中,其中,已经从所述原始的动态范围减小的多声道音频信号的所述对应声道中得到所述动态范围减小的初始多声道音频训练信号;
进一步将所述增强的动态范围减小的多声道音频训练信号和对应的原始的动态范围减小的多声道音频信号一次一个地输入到多声道判别器中;
由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号;以及
调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
23.根据权利要求22所述的方法,其中,基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,并且其中,所述原始的动态范围减小的多声道音频信号的类型包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
24.根据权利要求22或权利要求23所述的方法,其中,另外地将随机噪声向量z输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述随机噪声向量z。
25.根据权利要求22至24中任一项所述的方法,其中,将另外的元数据输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述元数据。
26.根据权利要求25所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
27.根据权利要求26所述的方法,其中,所述压扩控制数据包括关于用于对所述原始多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
28.根据权利要求27所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
29.根据权利要求27或权利要求28所述的方法,其中,由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号取决于由所述压扩控制数据指示的压扩模式。
30.根据权利要求29当从属于权利要求28时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
31.一种用于在生成式对抗网络设置中的动态范围减小的域中训练多声道生成器的方法,所述生成式对抗网络设置包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器,其中,所述方法包括以下步骤:
将动态范围减小的初始多声道音频训练信号输入到所述多声道生成器中,其中,所述动态范围减小的初始多声道音频训练信号包括两个或更多个声道;
由所述多声道生成器基于所述动态范围减小的初始多声道音频训练信号联合生成增强的动态范围减小的多声道音频训练信号;
将所述增强的动态范围减小的多声道音频训练信号的所述两个或更多个声道中的每个声道和原始的动态范围减小的多声道音频信号的对应声道一次一个地输入到一组一个或多个单声道判别器中的单声道判别器中,其中,已经从所述原始的动态范围减小的多声道音频信号的所述对应声道中得到所述动态范围减小的初始多声道音频训练信号;
进一步将所述增强的动态范围减小的多声道音频训练信号和对应的原始的动态范围减小的多声道音频信号一次一个地输入到所述多声道判别器中;
由所述单声道判别器和所述多声道判别器判断所输入的动态范围减小的多声道音频信号是所述增强的动态范围减小的多声道音频训练信号还是所述原始的动态范围减小的多声道音频信号;以及
调整所述多声道生成器的参数,直到所述单声道判别器和所述多声道判别器不再能够区分所述增强的动态范围减小的多声道音频训练信号与所述原始的动态范围减小的多声道音频信号。
32.根据权利要求31所述的方法,其中,基于所述原始的动态范围减小的多声道音频信号的类型来选择所述一组一个或多个单声道判别器,并且其中,所述原始的动态范围减小的多声道音频信号的类型包括立体声型多声道音频信号、5.1型多声道音频信号、7.1型多声道音频信号或9.1型多声道音频信号。
33.根据权利要求31或权利要求32所述的方法,其中,另外地将随机噪声向量z输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述随机噪声向量z。
34.根据权利要求31至33中任一项所述的方法,其中,将另外的元数据输入到所述多声道生成器中,并且由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号另外地基于所述元数据。
35.根据权利要求34所述的方法,其中,所述元数据包括一项或多项压扩控制数据。
36.根据权利要求35所述的方法,其中,所述压扩控制数据包括关于用于对所述原始多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
37.根据权利要求36所述的方法,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
38.根据权利要求36或权利要求37所述的方法,其中,由所述多声道生成器联合生成所述增强的动态范围减小的多声道音频训练信号取决于由所述压扩控制数据指示的压扩模式。
39.根据权利要求38当从属于权利要求37时所述的方法,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器不执行联合增强。
40.一种用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置,其中,所述装置包括:
用于接收所述音频比特流的接收器;
核心解码器,所述核心解码器用于对所述音频比特流进行核心解码,并且用于基于所接收到的音频比特流获得动态范围减小的初始多声道音频信号,其中,所述动态范围减小的初始多声道音频信号包括两个或更多个声道;以及
多声道生成器,所述多声道生成器用于在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道,并且用于获得增强的动态范围减小的多声道音频信号,其中,所述增强的动态范围减小的多声道音频信号包括两个或更多个声道。
41.根据权利要求40所述的装置,进一步包括解复用器,所述解复用器用于对所述所接收到的音频比特流进行解复用,其中,所述所接收到的音频比特流包括元数据。
42.根据权利要求41所述的装置,其中,所述元数据包括一项或多项压扩控制数据。
43.根据权利要求42所述的装置,其中,所述压扩控制数据包括关于已经用于对所述多声道音频信号进行编码的一种或多种压扩模式中的压扩模式的信息。
44.根据权利要求43所述的装置,其中,所述压扩模式包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。
45.根据权利要求43或权利要求44所述的装置,其中,所述多声道生成器被配置成根据由所述压扩控制数据指示的压扩模式在所述动态范围减小的域中联合增强所述动态范围减小的初始多声道音频信号的所述两个或更多个声道。
46.根据权利要求45当从属于权利要求44时所述的装置,其中,如果所述压扩模式是压扩关闭,则所述多声道生成器被配置成不执行联合增强。
47.根据权利要求40至46中任一项所述的装置,其中,所述装置进一步包括扩展单元,所述扩展单元被配置成对所述两个或更多个声道执行扩展操作,以将所述增强的动态范围减小的多声道音频信号扩展到经扩展的动态范围域。
48.根据权利要求40至47中任一项所述的装置,其中,所述装置进一步包括动态范围减小单元,所述动态范围减小单元被配置成在对所述音频比特流进行核心解码之后执行动态范围减小操作,以获得所述动态范围减小的初始多声道音频信号。
49.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据权利要求1至30中任一项所述的方法。
50.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据权利要求31至39中任一项所述的方法。
51.一种***,所述***具有用于在动态范围减小的域中从包括多声道音频信号的音频比特流和生成式对抗网络中生成增强的多声道音频信号的装置,所述生成式对抗网络包括多声道生成器、一组一个或多个单声道判别器以及多声道判别器,其中,所述***被配置成执行根据权利要求1至30中任一项所述的方法。
52.一种***,所述***具有用于对输入的多声道音频信号应用动态范围减小并且对音频比特流中的动态范围减小的多声道音频信号进行编码的装置以及根据权利要求40至48中任一项所述的用于在动态范围减小的域中从包括多声道音频信号的音频比特流中生成增强的多声道音频信号的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063018282P | 2020-04-30 | 2020-04-30 | |
US63/018,282 | 2020-04-30 | ||
EP20175654.1 | 2020-05-20 | ||
EP20175654 | 2020-05-20 | ||
PCT/EP2021/061283 WO2021219798A2 (en) | 2020-04-30 | 2021-04-29 | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115485769A true CN115485769A (zh) | 2022-12-16 |
Family
ID=75639918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180031950.9A Pending CN115485769A (zh) | 2020-04-30 | 2021-04-29 | 动态范围减小的域中增强多声道音频的方法、装置和*** |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230178084A1 (zh) |
EP (1) | EP4143825A2 (zh) |
JP (1) | JP2023523763A (zh) |
CN (1) | CN115485769A (zh) |
WO (1) | WO2021219798A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985330A (zh) * | 2022-12-29 | 2023-04-18 | 南京硅基智能科技有限公司 | 一种音频编解码的***和方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12045726B2 (en) * | 2019-02-08 | 2024-07-23 | DeepSig Inc. | Adversarially generated communications |
CN114609493B (zh) * | 2022-05-09 | 2022-08-12 | 杭州兆华电子股份有限公司 | 一种信号数据增强的局部放电信号识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566183A (zh) | 2013-04-05 | 2022-05-31 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
-
2021
- 2021-04-29 US US17/921,858 patent/US20230178084A1/en active Pending
- 2021-04-29 WO PCT/EP2021/061283 patent/WO2021219798A2/en unknown
- 2021-04-29 JP JP2022565983A patent/JP2023523763A/ja active Pending
- 2021-04-29 CN CN202180031950.9A patent/CN115485769A/zh active Pending
- 2021-04-29 EP EP21720793.5A patent/EP4143825A2/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985330A (zh) * | 2022-12-29 | 2023-04-18 | 南京硅基智能科技有限公司 | 一种音频编解码的***和方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4143825A2 (en) | 2023-03-08 |
JP2023523763A (ja) | 2023-06-07 |
WO2021219798A2 (en) | 2021-11-04 |
WO2021219798A3 (en) | 2021-12-09 |
US20230178084A1 (en) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101586317B1 (ko) | 신호 처리 방법 및 장치 | |
JP6250071B2 (ja) | パラメトリック・マルチチャネル・エンコードのための方法 | |
CN115485769A (zh) | 动态范围减小的域中增强多声道音频的方法、装置和*** | |
EP3844749B1 (en) | Method and apparatus for controlling enhancement of low-bitrate coded audio | |
JP5485909B2 (ja) | オーディオ信号処理方法及び装置 | |
EP3039675B1 (en) | Parametric speech enhancement | |
Biswas et al. | Audio codec enhancement with generative adversarial networks | |
KR102089602B1 (ko) | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 | |
US20230229892A1 (en) | Method and apparatus for determining parameters of a generative neural network | |
CN115171709B (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
JP2023546145A (ja) | 正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置 | |
CN114556470A (zh) | 利用生成模型对音频信号进行波形编码的方法和*** | |
CN117935840A (zh) | 由终端设备执行的方法和设备 | |
CN116615781A (zh) | 用于使用预先配置的生成器处理音频数据的方法和装置 | |
TW202427458A (zh) | 用於音訊編碼/解碼的錯誤恢復工具 | |
WO2022129146A1 (en) | Method and apparatus for processing of audio data using a pre-configured generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |