CN115116454A - 音频编码方法、装置、设备、存储介质及程序产品 - Google Patents

音频编码方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115116454A
CN115116454A CN202210677636.4A CN202210677636A CN115116454A CN 115116454 A CN115116454 A CN 115116454A CN 202210677636 A CN202210677636 A CN 202210677636A CN 115116454 A CN115116454 A CN 115116454A
Authority
CN
China
Prior art keywords
signal
level
frequency
audio
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210677636.4A
Other languages
English (en)
Inventor
康迂勇
王蒙
黄庆博
史裕鹏
肖玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210677636.4A priority Critical patent/CN115116454A/zh
Publication of CN115116454A publication Critical patent/CN115116454A/zh
Priority to PCT/CN2023/088014 priority patent/WO2023241193A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种音频编码方法、装置、设备、存储介质及计算机程序产品;方法包括:对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征;针对N个层级中的第i层级,对音频信号和第(i‑1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征,其中,N和i为大于1的整数,i小于或等于N;对i进行遍历,得到N个层级中每个层级的信号特征,该信号特征的数据维度小于音频信号的数据维度;对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流;通过本申请,能够提高音频编码效率并保证音频编码质量。

Description

音频编码方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及音频处理技术领域,尤其涉及一种音频编码方法、音频解码方法、装置、设备、存储介质及计算机程序产品。
背景技术
音频编解码技术是应用于包括远程音视频通话在内的通信服务的一项核心技术。音频编码技术,可以理解为使用较少的网络带宽资源去尽量多的传递语音信息,音频编码是一种信源编码,信源编码的目的是在编码端尽可能的压缩用户想要传递信息的数据量,去掉信息中的冗余,同时在解码端还能够无损(或接近无损)的恢复出来。
然而,对于如何在保证音频编码质量的情况下,有效提高音频编码的效率,相关技术尚无有效的解决方案。
发明内容
本申请实施例提供一种音频编码方法、装置、设备、存储介质及计算机程序产品,能够提高音频编码效率并保证音频编码质量。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种音频编码方法,包括:
对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征;
针对N个层级中的第i层级,对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并
对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,所述N和所述i为大于1的整数,所述i小于或等于所述N;
对所述i进行遍历,得到所述N个层级中每个层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流。
本申请实施例还提供一种音频解码方法,包括:
接收对音频信号进行编码得到的多个层级分别对应的码流;
分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号;
对多个所述层级的层级音频信号进行音频合成,得到所述音频信号。
本申请实施例还提供一种音频编码装置,包括:
第一特征提取模块,用于对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征;
第二特征提取模块,用于针对N个层级中的第i层级,对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,所述N和所述i为大于1的整数,所述i小于或等于所述N;
遍历模块,用于对所述i进行遍历,得到所述N个层级中每个层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
编码模块,用于对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流。
上述方案中,所述第一特征提取模块,还用于对所述音频信号进行子带分解处理,得到所述音频信号的低频子带信号和高频子带信号;对所述低频子带信号进行第一层级的特征提取处理,得到所述第一层级的低频信号特征,并对所述高频子带信号进行第一层级的特征提取处理,得到所述第一层级的高频信号特征;将所述低频信号特征和所述高频信号特征,作为所述第一层级的信号特征。
上述方案中,所述第一特征提取模块,还用于按照第一采样频率对所述音频信号进行采样处理,得到采样信号;对所述采样信号进行低通滤波处理,得到低通滤波信号,并对所述低通滤波信号进行下采样处理,得到第二采样频率的所述低频子带信号;对所述采样信号进行高通滤波处理,得到高通滤波信号,并对所述高通滤波信号进行下采样处理,得到第二采样频率的所述高频子带信号;其中,所述第二采样频率小于所述第一采样频率。
上述方案中,所述第二特征提取模块,还用于对所述音频信号的低频子带信号和第(i-1)层级的低频信号特征进行拼接处理,得到第一拼接特征,并对所述第一拼接特征进行第i层级的特征提取处理,得到所述第i层级的低频信号特征;对所述音频信号的高频子带信号和第(i-1)层级的高频信号特征进行拼接处理,得到第二拼接特征,并对所述第二拼接特征进行第i层级的特征提取处理,得到所述第i层级的高频信号特征;将所述第i层级的低频信号特征和所述第i层级的高频信号特征,作为所述第i层级的信号特征。
上述方案中,所述第一特征提取模块,还用于对所述音频信号进行第一卷积处理,得到所述第一层级的卷积特征;对所述卷积特征进行第一池化处理,得到所述第一层级的池化特征;对所述池化特征进行第一下采样处理,得到所述第一层级的下采样特征;对所述下采样特征进行第二卷积处理,得到所述第一层级的信号特征。
上述方案中,所述第一下采样处理通过M个级联的编码层实现,所述第一特征提取模块,还用于通过所述M个级联的编码层中的第一个编码层,对所述池化特征进行第一下采样处理,得到所述第一个编码层的下采样结果;通过所述M个级联的编码层中的第j个编码层,对第(j-1)个编码层的下采样结果进行第一下采样处理,得到所述第j个编码层的下采样结果;其中,所述M和所述j为大于1的整数,所述j小于或等于所述M;对所述j进行遍历,得到第M个编码层的下采样结果,并将所述第M个编码层的下采样结果,作为所述第一层级的下采样特征。
上述方案中,所述第二特征提取模块,还用于对所述拼接特征进行第三卷积处理,得到所述第i层级的卷积特征;对所述卷积特征进行第二池化处理,得到所述第i层级的池化特征;对所述池化特征进行第二下采样处理,得到所述第i层级的下采样特征;对所述下采样特征进行第四卷积处理,得到所述第i层级的信号特征。
上述方案中,所述编码模块,还用于对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行量化处理,得到各层级的信号特征的量化结果;对所述各层级的信号特征的量化结果进行熵编码处理,得到所述音频信号在各层级的码流。
上述方案中,所述信号特征包括低频信号特征和高频信号特征,所述编码模块,还用于对所述第一层级的低频信号特征、以及所述N个层级中每个层级的低频信号特征,分别进行编码处理,得到所述音频信号在各层级的低频码流;对所述第一层级的高频信号特征、以及所述N个层级中每个层级的高频信号特征,分别进行编码处理,得到所述音频信号在各层级的高频码流;将所述音频信号在各层级的低频码流以及高频码流,作为所述音频信号在相应层级的码流。
上述方案中,所述信号特征包括低频信号特征和高频信号特征,所述编码模块,还用于按照第一编码码率,对所述第一层级的低频信号特征进行编码处理,得到第一层级的第一码流,并按照第二编码码率,对所述第一层级的高频信号特征进行编码处理,得到第一层级的第二码流;针对所述N个层级中每个层级的信号特征,分别执行如下处理:按照所述层级的第三编码码率,对所述层级的信号特征分别进行编码处理,得到各所述层级的第二码流;将所述第一层级的第二码流、以及所述N个层级中每个层级的第二码流,作为所述音频信号在各层级的码流;其中,所述第一编码码率大于所述第二编码码率,所述第二编码码率,大于所述N个层级中任一层级的第三编码码率,所述层级的编码码率与相应层级的码流的解码质量指标正相关。
上述方案中,所述编码模块,还用于针对各所述层级,分别执行如下处理:对所述音频信号在所述层级的码流配置相应的层级传输优先级;其中,所述层级传输优先级与所述层级的层级数负相关,所述层级传输优先级与相应层级的码流的解码质量指标正相关。
上述方案中,所述信号特征包括低频信号特征和高频信号特征,所述音频信号在各层级的码流包括:基于所述低频信号特征编码得到的低频码流、以及基于所述高频信号特征编码得到的高频码流;所述编码模块,还用于针对各所述层级,分别执行如下处理:为所述层级的低频码流配置第一传输优先级,并为所述层级的高频码流配置第二传输优先级;其中,所述第一传输优先级高于所述第二传输优先级,第(i-1)层级的所述第二传输优先级低于第i层级的所述第一传输优先级,所述码流的传输优先级与相应码流的解码质量指标正相关。
本申请实施例还提供一种音频解码装置,包括:
接收模块,用于接收对音频信号进行编码得到的多个层级分别对应的码流;
解码模块,用于分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
特征重建模块,用于分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号;
音频合成模块,用于对多个所述层级的层级音频信号进行音频合成,得到所述音频信号。
上述方案中,所述码流包括低频码流和高频码流,所述解码模块,还用于分别对各所述层级的低频码流进行解码处理,得到各所述层级的低频信号特征,并分别对各所述层级的高频码流进行解码处理,得到各所述层级的高频信号特征;相应的,所述特征重建模块,还用于分别对各所述层级的低频信号特征进行特征重建,得到各所述层级的层级低频子带信号,并分别对各所述层级的高频信号特征进行特征重建,得到各所述层级的层级高频子带信号;将所述层级低频子带信号和所述层级高频子带信号,作为所述层级的层级音频信号;相应的,所述音频合成模块,还用于将多个所述层级的层级低频子带信号进行相加,得到低频子带信号,并将多个所述层级的层级高频子带信号进行相加,得到高频子带信号;对所述低频子带信号和所述高频子带信号进行合成,得到所述音频信号。
上述方案中,所述音频合成模块,还用于对所述低频子带信号进行上采样处理,得到低通滤波信号;对所述高频子带信号进行上采样处理,得到高频滤波信号;对所述低通滤波信号和所述高频滤波信号进行滤波合成处理,得到所述音频信号。
上述方案中,所述特征重建模块,还用于针对各所述层级的信号特征,分别执行如下处理:对所述信号特征进行第一卷积处理,得到所述层级的卷积特征;对所述卷积特征进行上采样处理,得到所述层级的上采样特征;对所述上采样特征进行池化处理,得到所述层级的池化特征;对所述池化特征进行第二卷积处理,得到所述层级的层级音频信号。
上述方案中,所述上采样处理通过L个级联的解码层实现,所述特征重建模块,还用于通过所述L个级联的解码层中的第一个解码层,对所述池化特征进行上采样处理,得到所述第一个解码层的上采样结果;通过所述L个级联的解码层中的第k个解码层,对第(k-1)个解码层的第一上采样结果进行上采样处理,得到所述第k个解码层的上采样结果;其中,所述L和所述k为大于1的整数,所述k小于或等于所述L;对所述k进行遍历,得到第L个解码层的上采样结果,并将所述第L个解码层的上采样结果,作为所述层级的上采样特征。
上述方案中,所述解码模块,还用于针对各所述层级,分别执行如下处理:对所述层级的码流进行熵解码处理,得到所述码流的量化值;对所述码流的量化值进行逆量化处理,得到所述层级的信号特征。
本申请实施例还提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本申请实施例提供的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本申请实施例提供的方法。
本申请实施例具有以下有益效果:
实现了对音频信号的分层编码:首先,对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征;然后,针对N(N为大于1的整数)个层级中的第i(i为大于1的整数,i小于或等于N)层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征;再通过对i进行遍历,得到N个层级中每个层级的信号特征;最后,对第一层级的信号特征以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流。
第一,所提取的信号特征的数据维度小于音频信号的数据维度。如此,降低了音频编码过程中所处理数据的数据维度,提高了音频信号的编码效率;
第二,分层提取音频信号的信号特征时,每个层级的输出均作为下一层级的输入,使得每个层级均结合上一层级提取的信号特征,对音频信号进行更精确的特征提取,随着层级数量的增加,可以使音频信号在特征提取过程中的信息损失降到最低。如此,通过对该方式提取的信号特征进行编码所得到的多个码流,其包含的音频信号的信息更加接近于原始的音频信号,减少了音频信号在编码过程中的信息损失,保证了音频编码的编码质量。
附图说明
图1是本申请实施例提供的音频编码***100的架构示意图;
图2是本申请实施例提供的实施音频编码方法的电子设备500的结构示意图;
图3是本申请实施例提供的音频编码方法的流程示意图;
图4是本申请实施例提供的音频编码方法的流程示意图;
图5是本申请实施例提供的音频编码方法的流程示意图;
图6是本申请实施例提供的音频编码方法的流程示意图;
图7是本申请实施例提供的音频编码方法的流程示意图;
图8是本申请实施例提供的音频编码方法的流程示意图;
图9是本申请实施例提供的音频编码方法的流程示意图;
图10是本申请实施例提供的音频解码方法的流程示意图;
图11是本申请实施例提供的音频解码方法的流程示意图;
图12是本申请实施例提供的不同码率下的频谱比较示意图;
图13是本申请实施例提供的音频编码和音频解码的流程示意图;
图14是本申请实施例提供的语音通信链路的示意图;
图15是本申请实施例提供的滤波器组示意图;
图16A是本申请实施例提供的普通卷积网络的示意图;
图16B是本申请实施例提供的空洞卷积网络的示意图;
图17是本申请实施例提供的第一层低频分析神经网络模型的结构示意图;
图18是本申请实施例提供的第二层低频分析神经网络模型的结构示意图;
图19是本申请实施例提供的第一层低频合成神经网络模型的模型示意图;
图20是本申请实施例提供的第二层低频合成神经网络模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)客户端,终端中运行的用于提供各种服务的应用程序,例如即时通讯客户端、音频播放客户端。
2)音频编码(Audio Coding),对包含语音的数字音频信号进行数据压缩的一种应用。
3)正交镜像滤波器组(Quadrature Mirror Filters,QMF),QMF滤波器组用于将子带信号分解为多个信号,从而降低信号带宽,分解后的各路信号通过各自的通道进行滤波。
4)量化,指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程,包括矢量量化、标量量化等。
5)矢量量化,将若干个标量数据组成一个矢量,把矢量空间划分为若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量,使用对应的代表矢量代替,即,被量化为该代表矢量。
6)标量量化,将整个动态范围分为若干个小区间,每个小区间具有一个代表值,在量化时落入小区间的信号值,使用对应的代表值代替,即,将信号值量化为该代表值。
7)熵编码,即编码过程中按熵原理不丢失任何信息的编码,信息熵为信源的平均信息量,常见的熵编码有:香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。
8)神经网络(NN,Neural Network):是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠***的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
9)深度学习(DL,Deep Learning):是机器学习(ML,Machine Learning)领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
本申请实施例提供一种音频编码方法、音频解码方法、装置、设备、存储介质及计算机程序产品,能够提高音频编码效率并保证音频编码质量。
下面说明本申请实施例提供的音频编码方法的实施场景。参见图1,图1是本申请实施例提供的音频编码***100的架构示意图,为实现支撑一个示例性应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。其中,终端400-1为音频信号的发送端,终端400-2为音频信号的接收端。
在终端400-1向终端400-2发送音频信号的过程中(如终端400-1和终端400-2基于设置的客户端进行远程通话的过程中),终端400-1,用于对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征;针对N个层级中的第i层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征,N和i为大于1的整数,i小于或等于N;对i进行遍历,得到N个层级中每个层级的信号特征,信号特征的数据维度小于音频信号的数据维度;对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流;将音频信号在各层级的码流发送至服务器200;
服务器200,用于接收终端400-1对音频信号进行编码得到的多个层级分别对应的码流;将多个层级分别对应的码流发送至终端400-2;
终端400-2,用于接收服务器200发送的对音频信号进行编码得到的多个层级分别对应的码流;分别对各层级的码流进行解码处理,得到各层级的信号特征,信号特征的数据维度小于音频信号的数据维度;分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号;对多个层级的层级音频信号进行音频合成,得到音频信号。
在一些实施例中,本申请实施例提供的音频编码方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。例如终端独自执行本申请实施例提供的音频编码方法,或者,终端向服务器发送针对音频信号的编码请求,服务器根据接收的编码请求执行本申请实施例提供的音频编码方法。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在一些实施例中,本申请实施例提供的实施音频编码的电子设备可以是各种类型的终端设备或服务器。其中,服务器(例如服务器200)可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***。终端(例如终端400)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、智能家电(例如智能电视)、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限制。
在一些实施例中,本申请实施例提供的音频编码方法可以借助于云技术(CloudTechnology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源。作为示例,上述服务器(例如服务器200)可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的音频编码方法,举例来说,计算机程序可以是操作***中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作***中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在一些实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点,区块链中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。其中,本申请实施例提供的音频编码方法所相关的数据(例如音频信号在各层级的码流、用于进行特征提取的神经网络模型、)可保存于区块链上。
下面说明本申请实施例提供的实施音频编码方法的电子设备。参见图2,图2是本申请实施例提供的实施音频编码方法的电子设备500的结构示意图。以电子设备500为图1所示的终端(如终端400-1)为例,本申请实施例提供的实施音频编码方法的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550可以是可移除的,不可移除的或其组合。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。存储器550包括易失性存储器或非易失性存储器,也可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random AccessMemory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的音频编码装置可以采用软件方式实现,图2示出了存储在存储器550中的音频编码装置553,其可以是程序和插件等形式的软件,包括以下软件模块:第一特征提取模块5531、第二特征提取模块5532、遍历模块5533和编码模块5534,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
下面说明本申请实施例提供的音频编码方法。在一些实施例中,本申请实施例提供的音频编码方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。以终端实施为例,参见图3,图3是本申请实施例提供的音频编码方法的流程示意图,本申请实施例提供的音频编码方法包括:
步骤101:终端对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征。
在实际应用中,该音频信号可以是通话(如网络通话、电话)过程中的语音信号、语音消息(如即时通信客户端中发送的语音消息)、所播放的音乐、音频等等。音频信号在传输时需要进行音频信号的编码,从而音频信号的发送端可以对编码得到的码流进行传输,而码流的接收端则可以对接收到的码流进行解码以得到该音频信号。接下来对音频信号的编码过程进行说明。在本申请实施例中,采用分层编码的方式对音频信号进行编码,该分层编码的方式是通过对音频信号进行多个层级的编码实现,下面对每个层级的编码过程进行说明。首先,针对第一层级,终端可对音频信号进行第一层级的特征提取处理,得到音频信号通过第一层级提取的信号特征,即第一层级的信号特征。
在一些实施例中,音频信号包括低频子带信号和高频子带信号,在对音频信号进行处理(如特征提取处理、编码处理)时,可以对音频信号包括的低频子带信号和高频子带信号分别进行处理。基于此,参见图4,图4是本申请实施例提供的音频编码方法的流程示意图,图4示出图3的步骤101可通过步骤201-步骤203实现:步骤201,对音频信号进行子带分解处理,得到音频信号的低频子带信号和高频子带信号;步骤202,对低频子带信号进行第一层级的特征提取处理,得到第一层级的低频信号特征,并对高频子带信号进行第一层级的特征提取处理,得到第一层级的高频信号特征;步骤203,将低频信号特征和高频信号特征,作为第一层级的信号特征。
需要说明的是,在步骤201中,通过第一层级对音频信号进行特征提取的过程中,终端可以首先对音频信号进行子带分解处理,得到音频信号的低频子带信号和高频子带信号,从而分别对低频子带信号和高频子带信号进行特征提取。在一些实施例中,参见图5,图5是本申请实施例提供的音频编码方法的流程示意图,图5示出图4的步骤201可通过步骤2011-步骤2013实现:步骤2011,按照第一采样频率对音频信号进行采样处理,得到采样信号;步骤2012,对采样信号进行低通滤波处理,得到低通滤波信号,并对低通滤波信号进行下采样处理,得到第二采样频率的低频子带信号;步骤2013,对采样信号进行高通滤波处理,得到高通滤波信号,并对高通滤波信号进行下采样处理,得到第二采样频率的高频子带信号。其中,第二采样频率小于第一采样频率。
在步骤2011中,可以按照第一采样频率对音频信号进行采样处理,得到采样信号,该第一采样频率可以是预设的。在实际应用中,音频信号为连续的模拟信号,通过采用第一采样频率对音频信号进行采样,得到离散的数字信号,即采样信号,该采样信号包括从音频信号中采样得到的多个样本点(即采样值)。
在步骤2012中,对采用信号进行低通滤波处理,得到低通滤波信号,并对低通滤波信号进行下采样处理,得到第二采样频率的低频子带信号。在步骤2013中,对采样信号进行高通滤波处理,得到高通滤波信号,并对高通滤波信号进行下采样处理,得到第二采样频率的高频子带信号。在步骤202和步骤203中,该低通滤波处理和高通滤波处理可以通过QMF分析滤波器实现。在实际实施时,该第二采样频率可以为第一采样频率的二分之一,如此则可以得到频率相同的低频子带信号和高频子带信号。
在步骤202中,得到音频信号的低频子带信号和高频子带信号之后,对音频信号的低频子带信号进行第一层级的特征提取处理,得到第一层级的低频信号特征,并对高频子带信号进行第一层级的特征提取处理,得到第一层级的高频信号特征。在步骤203中,将低频信号特征和高频信号特征作为第一层级的信号特征。
在一些实施例中,参见图6,图6是本申请实施例提供的音频编码方法的流程示意图,图6示出图3的步骤101还可通过步骤301-步骤304实现:步骤301,对音频信号进行第一卷积处理,得到第一层级的卷积特征;步骤302,对卷积特征进行第一池化处理,得到第一层级的池化特征;步骤303,对池化特征进行第一下采样处理,得到第一层级的下采样特征;步骤304,对下采样特征进行第二卷积处理,得到第一层级的信号特征。
需要说明的是,在步骤301中,可以对音频信号进行第一卷积处理。在实际应用中,该第一卷积处理可以通过调用预设通道数(如24通道)的因果卷积进行处理,从而得到第一层级的卷积特征。
在步骤302中,对步骤301得到的卷积特征进行第一池化处理。在实际应用中,该第一池化处理可以预先设置池化因子(比如2),进而基于该池化因子对卷积特征进行第一池化处理,得到第一层级的池化特征。
在步骤303中,对步骤302得到的池化特征进行第一下采样处理。在实际应用中,可以预先设置下采样因子,从而基于该下采样因子进行下采样处理。该第一下采样处理可以通过一个编码层实现,也可以通过多个编码层实现。在一些实施例中,第一下采样处理通过M个级联的编码层实现。相应的,参见图7,图7是本申请实施例提供的音频编码方法的流程示意图,图7示出图6的步骤303还可通过步骤3031-步骤3033实现:步骤3031,通过M个级联的编码层中的第一个编码层,对池化特征进行第一下采样处理,得到第一个编码层的下采样结果;步骤3032,通过M个级联的编码层中的第j个编码层,对第(j-1)个编码层的下采样结果进行第一下采样处理,得到第j个编码层的下采样结果;其中,M和j为大于1的整数,j小于或等于M;步骤3033,对j进行遍历,得到第M个编码层的下采样结果,并将第M个编码层的下采样结果,作为第一层级的下采样特征。
需要说明的是,在步骤3031-步骤3033中,每个编码层的下采样因子可以是相同的,也可以是不同的。在实际应用中,下采样因子相当于池化因子,起到降采样的作用。
在步骤304中,可以对下采样特征进行第二卷积处理。在实际应用中,该第二卷积处理可以通过调用预设通道数的因果卷积进行处理,从而得到第一层级的信号特征。
在实际应用中,图6示出的步骤301-步骤304可以通过调用第一神经网络模型实现,第一神经网络模型包括第一卷积层、池化层、下采样处理层以及第二卷积层。如此,可通过调用第一卷积层对音频信号进行第一卷积处理,得到第一层级的卷积特征;调用池化层对卷积特征进行第一池化处理,得到第一层级的池化特征;调用下采样处理层对池化特征进行第一下采样处理,得到第一层级的下采样特征;调用第二卷积层对下采样特征进行第二卷积处理,得到第一层级的信号特征。
需要说明的是,在对音频信号进行第一层级的特征提取时,也可以通过图6示出的步骤301-步骤304,对音频信号的低频子带信号和高频子带信号分别进行第一层级的特征提取处理(即图4示出的步骤202)。即,对音频信号的低频子带信号进行第一卷积处理,得到第一层级的第一卷积特征;对第一卷积特征进行第一池化处理,得到第一层级的第一池化特征;对第一池化特征进行第一下采样处理,得到第一层级的第一下采样特征;对第一下采样特征进行第二卷积处理,得到第一层级的低频信号特征。对音频信号的高频子带信号进行第一卷积处理,得到第一层级的第二卷积特征;对第二卷积特征进行第一池化处理,得到第一层级的第二池化特征;对第二池化特征进行第一下采样处理,得到第一层级的第二下采样特征;对第二下采样特征进行第二卷积处理,得到第一层级的高频信号特征。
步骤102:针对N个层级中的第i层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征。
其中,N和i为大于1的整数,i小于或等于N。
在针对音频信号进行第一层级的特征提取处理后,还可以对音频信号进行剩余层级的特征提取处理。在本申请实施例中,该剩余层级包括N个层级,针对N个层级中的第i层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征。如,针对第二层级,对音频信号和第一层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第二层级的特征提取处理,得到第二层级的信号特征;针对第三层级,对音频信号和第二层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第三层级的特征提取处理,得到第三层级的信号特征;针对第四层级,对音频信号和第三层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第四层级的特征提取处理,得到第四层级的信号特征,等等。
在一些实施例中,音频信号包括低频子带信号和高频子带信号,在对音频信号进行处理(如特征提取处理、编码处理)时,可以对音频信号包括的低频子带信号和高频子带信号分别进行处理。基于此,针对N个层级中的第i层级,还可以对音频信号进行子带分解处理,得到音频信号的低频子带信号和高频子带信号。子带分解处理的过程可参见上述步骤2011-步骤2013。如此,针对N个层级中的第i层级,其执行特征提取处理输出的数据包括:第i层级的低频信号特征、以及第i层级的高频信号特征。
相应的,参见图8,图8是本申请实施例提供的音频编码方法的流程示意图,图8示出图3的步骤102可通过步骤401-步骤403实现:步骤401,对音频信号的低频子带信号和第(i-1)层级的低频信号特征进行拼接处理,得到第一拼接特征,并对第一拼接特征进行第i层级的特征提取处理,得到第i层级的低频信号特征;步骤402,对音频信号的高频子带信号和第(i-1)层级的高频信号特征进行拼接处理,得到第二拼接特征,并对第二拼接特征进行第i层级的特征提取处理,得到第i层级的高频信号特征;步骤403,将第i层级的低频信号特征和第i层级的高频信号特征,作为第i层级的信号特征。
需要说明的是,在步骤401中,得到音频信号的低频子带信号和高频子带信号之后,对音频信号的低频子带信号、以及第(i-1)层级提取得到的低频信号特征进行拼接处理,得到第一拼接特征,然后对第一拼接特征进行第i层级的特征提取处理,得到第i层级的低频信号特征。同样的,在步骤402中,对音频信号的高频子带信号、以及第(i-1)层级提取得到的高频信号特征进行拼接处理,得到第二拼接特征,然后对第二拼接特征进行第i层级的特征提取处理,得到第i层级的高频信号特征。如此,在步骤403中,将第i层级的低频信号特征和第i层级的高频信号特征,作为第i层级的信号特征。
在一些实施例中,参见图9,图9是本申请实施例提供的音频编码方法的流程示意图,图9示出图3的步骤102还可通过步骤501-步骤504实现:步骤501,对拼接特征进行第三卷积处理,得到第i层级的卷积特征;步骤502,对卷积特征进行第二池化处理,得到第i层级的池化特征;步骤503,对池化特征进行第二下采样处理,得到第i层级的下采样特征;步骤504,对下采样特征进行第四卷积处理,得到第i层级的信号特征。
需要说明的是,在步骤501中,可以对拼接特征(由音频信号和第(i-1)层级的信号特征拼接得到的)进行第三卷积处理。在实际应用中,该第三卷积处理可以通过调用预设通道数的因果卷积进行处理,从而得到第i层级的卷积特征。
在步骤502中,对步骤501得到的卷积特征进行第二池化处理。在实际应用中,该第二池化处理可以预先设置池化因子,进而基于该池化因子对卷积特征进行第二池化处理,得到第i层级的池化特征。
在步骤503中,对步骤502得到的池化特征进行第二下采样处理。在实际应用中,可以预先设置下采样因子,从而基于该下采样因子进行下采样处理。该第二下采样处理可以通过一个编码层实现,也可以通过多个编码层实现。在一些实施例中,第二下采样处理可通过X个级联的编码层实现。相应的,图9的步骤503还可通过步骤5031-步骤5033实现:步骤5031,通过X个级联的编码层中的第一个编码层,对池化特征进行第二下采样处理,得到第一个编码层的下采样结果;步骤5032,通过X个级联的编码层中的第g个编码层,对第(g-1)个编码层的下采样结果进行第二下采样处理,得到第g个编码层的下采样结果;其中,X和g为大于1的整数,g小于或等于X;步骤5033,对g进行遍历,得到第X个编码层的下采样结果,并将第X个编码层的下采样结果,作为第i层级的下采样特征。
需要说明的是,在步骤5031-步骤5033中,每个编码层的下采样因子可以是相同的,也可以是不同的。在实际应用中,下采样因子相当于池化因子,起到降采样的作用。
在步骤504中,可以对下采样特征进行第四卷积处理。在实际应用中,该第四卷积处理可以通过调用预设通道数的因果卷积进行处理,从而得到第i层级的信号特征。
在实际应用中,图9示出的步骤501-步骤504可以通过调用第二神经网络模型实现,第二神经网络模型包括第三卷积层、池化层、下采样处理层以及第四卷积层。如此,可通过调用第三卷积层对拼接进行第三卷积处理,得到第i层级的卷积特征;调用池化层对卷积特征进行第二池化处理,得到第i层级的池化特征;调用下采样处理层对池化特征进行第二下采样处理,得到第i层级的下采样特征;调用第四卷积层对下采样特征进行第四卷积处理,得到第i层级的信号特征。在实际实施时,第二神经网络输出的信号特征的特征维度,可以少于第一神经网络输入的信号特征的特征维度。
需要说明的是,在进行第i层级的特征提取时,也可以通过图9示出的步骤501-步骤504,对音频信号的低频子带信号和高频子带信号分别进行第i层级的特征提取处理。即,针对第i层级,对低频拼接特征(由低频子带信号和第(i-1)层级的低频信号特征拼接得到的)进行第三卷积处理,得到第i层级的卷积特征,对卷积特征进行第二池化处理,得到第i层级的池化特征;对池化特征进行第二下采样处理,得到第i层级的下采样特征;对下采样特征进行第四卷积处理,得到第i层级的低频信号特征。针对第i层级,对高频拼接特征(由高频子带信号和第(i-1)层级的高频信号特征拼接得到的)进行第三卷积处理,得到第i层级的卷积特征;对卷积特征进行第二池化处理,得到第i层级的池化特征;对池化特征进行第二下采样处理,得到第i层级的下采样特征;对下采样特征进行第四卷积处理,得到第i层级的高频信号特征。
步骤103:对i进行遍历,得到N个层级中每个层级的信号特征。
其中,信号特征的数据维度小于音频信号的数据维度。
在步骤102中说明了针对第i层级的特征提取过程,在实际应用中,需要对i进行遍历,以得到N个层级中每个层级的信号特征。在本申请实施例中,每个层级输出的信号特征的数据维度小于音频信号的数据维度,如此,能够降低音频编码过程中所涉及数据的数据维度,提高音频编码的编码效率。
步骤104:对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流。
在实际应用中,在得到的第一层级的信号特征、以及N个层级中每个层级的信号特征之后,则可以对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别进行编码处理,从而得到音频信号在各层级的码流。该码流可以被传输至音频信号的接收端,从而使得接收端作为解码端对音频信号进行解码处理。
需要说明的是,该N个层级中的第i层级输出的信号特征,可以理解为第(i-1)层级输出的信号特征和原始的音频信号之间的残差信号特征,如此,所提取的音频信号的信号特征,既包含了第一层级提取到的音频信号的信号特征,还包括了该N个层级中每个层级提取到的残差信号特征,使得所提取的音频信号的信号特征更加全面和精确,减少音频信号在特征提取过程中的信息损失,从而在对第一层级的信号特征、以及N个层级中每个层级的信号特征分别进行编码处理时,使得编码得到的码流质量更高,所包含的音频信号的信息更加接近于原始的音频信号,提高音频编码的编码质量。
在一些实施例中,图3示出的步骤104可通过步骤104a1-步骤104a2实现:步骤104a1,对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别进行量化处理,得到各层级的信号特征的量化结果;步骤104a2,对各层级的信号特征的量化结果进行熵编码处理,得到音频信号在各层级的码流。
需要说明的是,在步骤104a1中,可以预先设置量化表,该量化表包括信号特征和量化值之间的对应关系。在进行量化处理时,可以通过查询预设的量化表,针对第一层级的信号特征、以及N个层级中每个层级的信号特征,分别查询到相应的量化值,从而将查询得到的量化值作为量化结果。在步骤104a2中,对各层级的信号特征的量化结果分别进行熵编码处理,得到音频信号在各层级的码流。
在实际应用中,音频信号包括低频子带信号和高频子带信号,那么相应的,每个层级输出的信号特征则包括低频信号特征和高频信号特征。基于此,当信号特征包括低频信号特征和高频信号特征时,在一些实施例中,图3示出的步骤104还可通过步骤104b1-步骤104b3实现:步骤104b1,对第一层级的低频信号特征、以及N个层级中每个层级的低频信号特征,分别进行编码处理,得到音频信号在各层级的低频码流;步骤104b2,对第一层级的高频信号特征、以及N个层级中每个层级的高频信号特征,分别进行编码处理,得到音频信号在各层级的高频码流;步骤104b3,将音频信号在各层级的低频码流以及高频码流,作为音频信号在相应层级的码流。
需要说明的是,在步骤104b1中的低频信号特征的编码过程也可采用与步骤104a1-步骤104a2类似的步骤实现,即,对第一层级的低频信号特征、以及N个层级中每个层级的低频信号特征,分别进行量化处理,得到各层级的低频信号特征的量化结果;对各层级的低频信号特征的量化结果进行熵编码处理,得到音频信号在各层级的低频码流。在步骤104b2中的高频信号特征的编码过程也可采用与步骤104a1-步骤104a2类似的步骤实现,即,对第一层级的高频信号特征、以及N个层级中每个层级的高频信号特征,分别进行量化处理,得到各层级的高频信号特征的量化结果;对各层级的高频信号特征的量化结果进行熵编码处理,得到音频信号在各层级的高频码流。
在实际应用中,音频信号包括低频子带信号和高频子带信号,那么相应的,每个层级输出的信号特征则包括低频信号特征和高频信号特征。基于此,当信号特征包括低频信号特征和高频信号特征时,在一些实施例中,图3示出的步骤104还可通过步骤104c1-步骤104c3实现:步骤104c1,按照第一编码码率,对第一层级的低频信号特征进行编码处理,得到第一层级的第一码流,并按照第二编码码率,对第一层级的高频信号特征进行编码处理,得到第一层级的第二码流;步骤104c2,针对N个层级中每个层级的信号特征,分别执行如下处理:按照层级的第三编码码率,对层级的信号特征分别进行编码处理,得到各层级的第二码流;步骤104c3,将第一层级的第二码流、以及N个层级中每个层级的第二码流,作为音频信号在各层级的码流。
需要说明的是,第一编码码率大于第二编码码率,第二编码码率大于N个层级中任一层级的第三编码码率,层级的编码码率与相应层级的码流的解码质量指标正相关。在步骤104c2中,可以针对N个层级中每个层级,分别设置相应的第三编码码率。该N个层级中每个层级的第三编码码率可以是相同的,也可以是部分相同而部分不同,还可以是完全不相同。这里,层级的编码码率与相应层级的码流的解码质量指标为正相关关系,即编码码率越高,其得到的码流的解码质量指标(的值)越高,而由第一层级的低频信号特征所包含的音频信号的特征最多,因此,第一层级的低频信号特征所采用的第一编码码率最大,以保证音频信号的编码效果;同时针对第一层级的高频信号特征,采用低于第一编码码率的第二编码码率进行编码,以及针对N个层级中每个层级的信号特征,采用低于第二编码码率的第三编码码率进行编码,在增加音频信号的更多特征(包括高频信号特征、残差信号特征)的同时,通过合理分配每个层级的编码码率,提高了音频信号的编码效率。
在一些实施例中,终端在得到音频信号在各层级的码流之后,还可针对各层级,分别执行如下处理:对音频信号在层级的码流配置相应的层级传输优先级;其中,层级传输优先级与层级的层级数负相关,层级传输优先级与相应层级的码流的解码质量指标正相关。
需要说明的是,该层级的层级传输优先级,用于表征该层级的码流的传输优先级。层级传输优先级与层级的层级数负相关,即层级数越大,其对应的层级传输优先级越低,如第一层级(层级数为1)的层级传输优先级,高于第二层级(层级数为2)的层级传输优先级。基于此,在将各层级的码流传输至解码端时,可以按照配置的层级传输优先级,来传输相应层级的码流。在实际应用中,将音频信号在多个层级的码流传输至解码端时,可以传输部分层级的码流,也可以传输全部层级的码流,当传输部分层级的码流时,则可以按照配置的层级传输优先级,来传输相应层级的码流。
在一些实施例中,信号特征包括低频信号特征和高频信号特征,音频信号在各层级的码流包括:基于低频信号特征编码得到的低频码流、以及基于高频信号特征编码得到的高频码流;终端在得到音频信号在各层级的码流之后,还可针对各层级,分别执行如下处理:为层级的低频码流配置第一传输优先级,并为层级的高频码流配置第二传输优先级;其中,第一传输优先级高于第二传输优先级,第(i-1)层级的第二传输优先级低于第i层级的第一传输优先级,码流的传输优先级与相应码流的解码质量指标正相关。
需要说明的是,由于码流的传输优先级与相应码流的解码质量指标正相关,而由于高频码流的数据维度小于低频码流的数据维度,因此,每个层级的低频码流所包含的音频信号的原始信息多余高频码流所包含的音频信号的原始信息,也就是说,为保证低频码流的解码质量指标相较于高频码流的解码质量,可以针对每个层级,为层级的低频码流配置第一传输优先级,并为层级的高频码流配置第二传输优先级,该第一传输优先级高于第二传输优先级。同时,还可以配置第(i-1)层级的第二传输优先级低于第i层级的第一传输优先级,也就是说,针对每个层级,低频码流的传输优先级高于高频码流的传输优先级,如此,保证每个层级的低频码流可以优先传输;针对多个层级来说,第i层级的低频码流的传输优先级,高于第(i-1)层级的高频码流的传输优先级,如此,保证多个层级的所有低频码流可以优先传输。
应用本申请上述实施例,实现了对音频信号的分层编码:首先,对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征;然后,针对N(N为大于1的整数)个层级中的第i(i为大于1的整数,i小于或等于N)层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征;再通过对i进行遍历,得到N个层级中每个层级的信号特征;最后,对第一层级的信号特征以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流。
第一,所提取的信号特征的数据维度小于音频信号的数据维度。如此,降低了音频编码过程中所处理数据的数据维度,提高了音频信号的编码效率;
第二,分层提取音频信号的信号特征时,每个层级的输出均作为下一层级的输入,使得每个层级均结合上一层级提取的信号特征,对音频信号进行更精确的特征提取,随着层级数量的增加,可以使音频信号在特征提取过程中的信息损失降到最低。如此,通过对该方式提取的信号特征进行编码所得到的多个码流,其包含的音频信号的信息更加接近于原始的音频信号,减少了音频信号在编码过程中的信息损失,保证了音频编码的编码质量。
下面说明本申请实施例提供的音频解码方法。在一些实施例中,本申请实施例提供的音频解码方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。以终端实施为例,参见图10,图10是本申请实施例提供的音频解码方法的流程示意图,本申请实施例提供的音频解码方法包括:
步骤601:终端接收对音频信号进行编码得到的多个层级分别对应的码流。
这里,终端作为解码端,接收到对音频信号进行编码得到的多个层级分别对应的码流。
步骤602:分别对各层级的码流进行解码处理,得到各层级的信号特征。
其中,信号特征的数据维度小于音频信号的数据维度。
在一些实施例中,终端可通如下方式分别对各层级的码流进行解码处理,得到各层级的信号特征:针对各层级,分别执行如下处理:对层级的码流进行熵解码处理,得到码流的量化值;对码流的量化值进行逆量化处理,得到层级的信号特征。
在实际应用中,针对各层级的码流,可以分别执行如下处理:对该层级的码流进行熵解码处理,得到码流的量化值;然后基于对音频信号进行编码得到该码流的过程中所采用的量化表,对码流的量化值进行逆量化处理,即通过量化表,查询码流的量化值所对应的信号特征,从而得到该层级的信号特征。
在实际应用中,该接收的各层级的码流可以包括低频码流和高频码流,其中,低频码流是基于音频信号的低频信号特征编码得到的,高频码流是基于音频信号的高频信号特征编码得到的。如此,在对各层级的码流进行解码处理时,可以是对各层级的低频码流和高频码流分别进行解码处理。其中,高频码流和低频码流的解码过程,和码流的解码过程类似,即,针对各层级的低频码流,分别执行如下处理:对该层级的低频码流进行熵解码处理,得到低频码流的量化值;对低频码流的量化值进行逆量化处理,得到该层级的低频信号特征。针对各层级的高频码流,分别执行如下处理:对该层级的高频码流进行熵解码处理,得到高频码流的量化值;对高频码流的量化值进行逆量化处理,得到该层级的高频信号特征。
步骤603:分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号。
在实际应用中,在解码得到各层级的信号特征之后,分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号。在一些实施例中,终端可通如下方式分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号:针对各层级的信号特征,分别执行如下处理:对信号特征进行第一卷积处理,得到层级的卷积特征;对卷积特征进行上采样处理,得到层级的上采样特征;对上采样特征进行池化处理,得到层级的池化特征;对池化特征进行第二卷积处理,得到层级的层级音频信号。
在实际应用中,针对各层级的信号特征,分别执行如下处理:首先,对信号特征进行第一卷积处理,该第一卷积处理可以通过调用预设通道数的因果卷积进行处理,从而得到该层级的卷积特征。然后,对卷积特征进行上采样处理,可以预先设置上采样因子,从而基于该上采样因子进行上采样处理,得到该层级的上采样特征。再,对上采样特征进行池化处理,该池化处理可以预先设置池化因子,进而基于该池化因子对上采样特征进行池化处理,得到该层级的池化特征。最后,对池化特征进行第二卷积处理,该第二卷积处理可以通过调用预设通道数的因果卷积进行处理,从而得到该层级的层级音频信号。
该上采样处理可以通过一个解码层实现,也可以通过多个解码层实现。当上采样处理可以通过L(L>1)个级联的解码层实现时,终端可通如下方式对卷积特征进行上采样处理,得到层级的上采样特征:通过L个级联的解码层中的第一个解码层,对池化特征进行上采样处理,得到第一个解码层的上采样结果;通过L个级联的解码层中的第k个解码层,对第(k-1)个解码层的第一上采样结果进行上采样处理,得到第k个解码层的上采样结果;其中,L和k为大于1的整数,k小于或等于L;对k进行遍历,得到第L个解码层的上采样结果,并将第L个解码层的上采样结果,作为层级的上采样特征。
需要说明的是,每个解码层的上采样因子可以是相同的,也可以是不同的。
步骤604:对多个层级的层级音频信号进行音频合成,得到音频信号。
在实际应用中,得到各层级的层级音频信号之后,对多个层级的层级音频信号进行音频合成,得到音频信号。
在一些实施例中,码流包括低频码流和高频码流,图10示出的步骤602可通如下步骤实现:分别对各层级的低频码流进行解码处理,得到各层级的低频信号特征,并分别对各层级的高频码流进行解码处理,得到各层级的高频信号特征;相应的,图10示出的步骤603可通如下步骤实现:步骤6031,分别对各层级的低频信号特征进行特征重建,得到各层级的层级低频子带信号,并分别对各层级的高频信号特征进行特征重建,得到各层级的层级高频子带信号;步骤6032,将层级低频子带信号和层级高频子带信号,作为层级的层级音频信号;相应的,图10示出的步骤604可通如下步骤实现:步骤6041,将多个层级的层级低频子带信号进行相加,得到低频子带信号,并将多个层级的层级高频子带信号进行相加,得到高频子带信号;步骤6042,对低频子带信号和高频子带信号进行合成,得到音频信号。
在一些实施例中,步骤6042可通如下步骤实现:步骤60421,对低频子带信号进行上采样处理,得到低通滤波信号;步骤60422,对高频子带信号进行上采样处理,得到高频滤波信号;步骤60423,对低通滤波信号和高频滤波信号进行滤波合成处理,得到音频信号。需要说明的是,在步骤60423中,可以通过QMF合成滤波器进行合成处理,得到音频信号。
基于此,当码流包括低频码流和高频码流时,参见图11,图11是本申请实施例提供的音频解码方法的流程示意图,本申请实施例提供的音频解码方法包括:步骤701,接收对音频信号进行编码得到的多个层级分别对应的低频码流和高频码流;步骤702a,分别对各层级的低频码流进行解码处理,得到各层级的低频信号特征;步骤702b,分别对各层级的高频码流进行解码处理,得到各层级的高频信号特征;步骤703a,分别对各层级的低频信号特征进行特征重建,得到各层级的层级低频子带信号;步骤703b,分别对各层级的高频信号特征进行特征重建,得到各层级的层级高频子带信号;步骤704a,将多个层级的层级低频子带信号进行相加,得到低频子带信号;步骤704b,将多个层级的层级高频子带信号进行相加,得到高频子带信号;步骤705a,对低频子带信号进行上采样处理,得到低通滤波信号;步骤705b,对高频子带信号进行上采样处理,得到高频滤波信号;步骤706,对低通滤波信号和高频滤波信号进行滤波合成处理,得到音频信号。
需要说明的是,高频信号特征以及低频信号特征的特征重建过程,可以参照步骤603中的信号特征的特征重建过程。即,针对各层级的高频信号特征,分别执行如下处理:对高频信号特征进行第一卷积处理,得到层级的高频卷积特征;对高频卷积特征进行上采样处理,得到层级的高频上采样特征;对高频上采样特征进行池化处理,得到层级的高频池化特征;对高频池化特征进行第二卷积处理,得到层级的高频层级音频信号。针对各层级的低频信号特征,分别执行如下处理:对低频信号特征进行第一卷积处理,得到层级的低频卷积特征;对低频卷积特征进行上采样处理,得到层级的低频上采样特征;对低频上采样特征进行池化处理,得到层级的低频池化特征;对低频池化特征进行第二卷积处理,得到层级的低频层级音频信号。
应用本申请上述实施例,对多个层级的码流分别进行解码处理,得到各层级的信号特征,并分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号,对多个层级的层级音频信号进行音频合成,得到音频信号。由于码流中的信号特征的数据维度小于音频信号的数据维度,相较于相关技术中对原始的音频信号直接进行编码得到的码流的数据维度更小,减少了音频解码过程中所处理数据的数据维度,提高了音频信号的解码效率。
下面将说明本申请实施例在一个实际的应用场景中的示例性应用。
音频编解码技术,就是使用较少的网络带宽资源去尽量多的传递语音信息。音频编解码器的压缩率可以达到10倍以上,也就是原本10MB的语音数据经过编码器的压缩只需要1MB来传输,大大降低了传递信息所需消耗的带宽资源。在通信***中,为了保证通信的顺利,行业内部部署标准的语音编解码协议,例如来自ITU-T、3GPP、IETF、AVS、CCSA等国际国内标准组织的标准,G.711、G.722、AMR系列、EVS、OPUS等标准。图12给出一个不同码率下的频谱比较示意图,以示范压缩码率与质量的关系。曲线1201为原始语音的频谱曲线,即没有压缩的信号;曲线1202为OPUS编码器在20kbps码率下的频谱曲线;曲线1203为OPUS编码在6kbps码率下的频谱曲线。由图12可知,随着编码码率的提升,压缩后的信号更为接近原始信号。
传统音频编码可以分成时域编码和频域编码两类,均为基于信号处理的压缩方法。其中,1)时域编码,比如波形编码(waveform speech coding),直接对语音信号的波形进行编码,这种编码方式的优点是编码语音质量高,但是编码效率不高。特别地,如果是语音信号,可以使用参数编码,而编码端要做的就是提取想要传递的语音信号的对应参数,但是参数编码的优点是编码效率极高,但是恢复语音的质量很低。2)频域编码,就是将音频信号变换到频域,提取频域系数,然后,将频域系数进行编码,但是编码效率也不理想。如此,基于信号处理的压缩方法并不能在保证编码质量的情况下,提高编码效率。
基于此,本申请实施例提供一种音频编码方法以及音频解码方法,以在提高编码效率的同时,保证编码质量。在本申请实施例中,能够根据编码内容、网络带宽情况,选择不同编码方式的自由度,即使是在低码率区间;且能够在复杂度和编码质量可接受的情况下,提升编码效率。参见图13,图13是本申请实施例提供的音频编码和音频解码的流程示意图。这里,以层级的数量为两层为例(本申请不限制第三层或者更高层级的迭代操作),本申请实施例提供的音频编码方法包括:
(1)对音频信号进行子带分解处理,得到低频子带信号和高频子带信号。在实际实施时,可以按照第一采样频率对音频信号进行采样,得到采样信号,然后对采样信号进行子带分解,得到具有低于第一采样频率的子带信号,包括低频子带信号和高频子带信号。例如,对于第n帧的音频信号x(n),使用分析滤波器(如QMF滤波器)分解为低频子带信号xLB(n)和高频子带信号xHB(n)。
(2)基于第一层低频分析神经网络对低频子带信号进行分析,得到第一层低频信号特征。例如,对于低频子带信号xLB(n),调用第一层低频分析神经网络,获得低维度的第一层低频信号特征FLB(n)。需要说明的是,信号特征的维度小于低频子带信号的维度(以减少数据量),神经网络包括但不限于Dilated CNN,Autoencoder,Full-connection,LSTM,CNN+LSTM等。
(3)基于第一层高频分析神经网络对高频子带信号进行分析,得到第一层高频信号特征。例如,对于高频子带信号xHB(n),调用第一层高频分析神经网络,获得低维度的第一层高频信号特征FHB(n)。
(4)基于第二层低频分析神经网络,对低频子带信号和第一层低频信号特征进行分析,得到第二层低频信号特征(即第二层低频残差信号特征)。例如,联合xLB(n)和FLB(n),调用第二层低频分析神经网络,获得低维度的第二层低频信号特征FLB,e(n)。
(5)基于第二层高频分析神经网络,对高频子带信号和第一层高频信号特征进行分析,得到第二层高频信号特征(即第二层高频残差信号特征)。例如,联合xHB(n)和FHB(n),调用第二层高频分析神经网络,获得低维度的第二层高频信号特征FHB,e(n)。
(6)通过量化编码部分,对两层信号特征(包括第一层低频信号特征、第一层高频信号特征、第二层低频信号特征以及第二层高频信号特征)进行量化和编码,得到音频信号在每层的码流;并为每层的码流配置相应的传输优先级,如,第一层以更高优先级进行传输,第二层次之,以此类推。
在实际应用中,解码端可能仅接收到一层的码流,如图13所示,可以采用“一层解码”的方式进行解码处理。基于此,本申请实施例提供的音频解码方法包括:(1)对接收到的一层码流进行解码,得到该层的低频信号特征以及高频信号特征;(2)基于第一层低频合成神经网络,对低频信号特征进行分析,得到低频子带信号估计值。例如,基于低频信号特征的量化值F′LB(n),调用第一层低频合成神经网络,生成低频子带信号估计值x′LB(n);(3)基于第一层高频合成神经网络,对高频信号特征进行分析,得到高频子带信号估计值。例如,基于高频信号特征的量化值F′HB(n),调用第一层高频合成神经网络,生成高频子带信号估计值x′HB(n)。(4)基于低频子带信号估计值x′LB(n)和高频子带信号估计值x′HB(n),通过合成滤波器进行合成滤波,得到最终重建的原采样频率下的音频信号x′(n),以完成解码过程。
在实际应用中,解码端可能针对两层的码流均接收到,如图13所示,可以采用“二层解码”的方式进行解码处理。基于此,本申请实施例提供的音频解码方法包括:
(1)对接收到的各层的码流进行解码,得到各层的低频信号特征以及高频信号特征。
(2)基于第一层低频合成神经网络,对第一层低频信号特征进行分析,得到第一层低频子带信号估计值。例如,基于第一层低频信号特征的量化值F′LB(n),调用第一层低频合成神经网络,生成第一层低频子带信号估计值x′LB(n)。
(3)基于第一层高频合成神经网络,对第一层高频信号特征进行分析,得到第一层高频子带信号估计值。例如,基于第一层高频信号特征的量化值F′HB(n),调用第一层高频合成神经网络,生成第一层高频子带信号估计值x′HB(n)。
(4)基于第二层低频合成神经网络,对第二层低频信号特征进行分析,得到第二层低频子带残差信号估计值。例如,基于第二层低频信号特征的量化值F′LB,e(n),调用第二层低频合成神经网络,生成低频子带残差信号估计值x′LB,e(n)。
(5)基于第二层高频合成神经网络,对第二层高频信号特征进行分析,得到第二层高频子带残差信号估计值。例如,基于第二层高频信号特征的量化值F′HB,e(n),调用第二层高频合成神经网络,生成高频子带残差信号估计值x′HB,e(n)。
(6)通过低频部分,将第一层低频子带信号估计值与低频子带残差信号估计值进行求和,得到低频子带信号估计值。例如,将x′LB(n)与x′LB,e(n)求和,获得低频子带信号估计值。
(7)通过高频部分,将第一层高频子带信号估计值与高频子带残差信号估计值进行求和,得到高频子带信号估计值。例如,将x′HB(n)与x′HB,e(n)求和,获得高质量高频子带信号估计值。
(8)基于低频子带信号估计值和高频子带信号估计值,通过合成滤波器进行合成滤波,得到最终重建的原采样频率下的音频信号x′(n),以完成解码过程。
本申请实施例可以应用于各种音频场景,例如远程语音通信。以远程语音通信为例,参见图14,图14是本申请实施例提供的语音通信链路的示意图。这里,以基于网际互连协议的语音传输(VoIP,Voice over Internet Protocol)会议***为例,将本申请实施例涉及的语音编解码技术部署在编码和解码部分,以解决语音压缩的基本功能。编码器部署在上行客户端1401,解码器部署在下行客户端1402,通过上行客户端采集语音,并进行前处理增强、编码等处理,将编码得到的码流通过网络传输至下行客户端1402,通过下行客户端1402进行解码、增强等处理,以在下行客户端1402播放解码出的语音。
考虑前向兼容(即新的编码器与已有的编码器兼容),需要在***的后台(即服务器)部署转码器,以解决新的编码器与已有的编码器互联互通问题。例如,如果发送端(上行客户端)是新的NN编码器,接收端(下行客户端)是公用电话交换网(PSTN,Public SwitchedTelephone Network)的解码器(例如G.722解码器)。因此,服务器在接收到发送端发送的码流之后,首先需要执行NN解码器生成语音信号,然后调用G.722编码器生成特定码流,才能让接收端正确解码。类似的转码场景不再展开。
下面在具体介绍本申请实施例提供的音频编码方法以及音频解码方法之前,先对QMF滤波器组以及空洞卷积网络进行介绍。
QMF滤波器组是一个包含分析-合成的滤波器对。对于QMF分析滤波器,可以将输入的采样率为Fs的信号分解成两路采样率为Fs/2的信号,分别表示QMF低通信号和QMF高通信号。如图15所示的QMF滤波器的低通部分(H_Low(z))和高通部分(H_High(z))的频谱响应。基于QMF分析滤波器组的相关理论知识,可以容易地描述上述低通滤波和高通滤波的系数之间的相关性,如公式(1)所示:
hHigh(k)=-1khLow(k) (1)
其中,hLow(k)表示低通滤波的系数,hHigh(k)表示高通滤波的系数。
类似地,根据QMF相关理论,可以基于QMF分析滤波器组H_Low(z)和H_High(z),描述QMF合成滤波器组,如公式(2)所示。
GLow(z)=HLow(z)
GHigh(z)=(-1)*HHigh(z) (2)
其中,GLow(z)表示恢复出的低通信号,GHigh(z)表示恢复出的高通信号。
解码端恢复出的低通和高通信号,经过QMF合成滤波器组进行合成处理,即可以恢复出输入信号对应的采样率Fs的重建信号。
参见图16A和图16B,图16A是本申请实施例提供的普通卷积网络的示意图,图16B是本申请实施例提供的空洞卷积网络的示意图。相对普通卷积网络,空洞卷积能够增加感受野的同时保持特征图的尺寸不变,还可以避免因为上采样、下采样引起的误差。虽然图16A和图16B中示出的卷积核大小(Kernel Size)均为3×3;但是,图16A所示的普通卷积的感受野901只有3,而图16B所示的空洞卷积的感受野902达到了5。也就是说,对于尺寸为3×3的卷积核,图16A所示的普通卷积的感受野为3、扩张率(Dilation Rate)(卷积核中的点的间隔数量)为1;而图16B所示的空洞卷积的感受野为5、扩张率为2。
卷积核还可以在类似图16A或者图16B的平面上进行移动,这里是涉及移位率(Stride Rate)(步长)概念。比如,每次卷积核移位1格,则对应的移位率为1。此外,还有卷积通道数的概念,就是用多少个卷积核对应的参数去进行卷积分析。理论上,通道数越多,对信号的分析更为全面,精度越高;但是,通道越高,复杂度也越高。比如,一个1×320的张量,可以使用24通道卷积运算,输出就是24×320的张量。需要说明的是,可以根据实际应用需要,自行定义空洞卷积核大小(例如:针对语音信号,卷积核的大小可以设置为1×3)、扩张率、移位率和通道数,本申请实施例对此不作具体限定。
下面以Fs=32000Hz的音频信号为例(本申请实施例也适用于其它采样频率的场景,包括但不限于8000Hz、16000Hz、48000Hz等),其中,帧长设置为20ms,对于Fs=32000Hz,相当于每帧包含640个样本点。
接下来继续参见图13,对本申请实施例提供的音频编码方法和音频解码方法分别进行详细说明。其中,本申请实施例提供的音频编码方法包括:
第1步,输入信号的生成。
这里,将第n帧的640个样本点,记为x(n)。
第2步,QMF子带信号分解。
这里,调用QMF分析滤波器(如2通道QMF滤波器)进行滤波处理,并对滤波得到的滤波信号进行下采样,获得两部分子带信号,即低频子带信号xLB(n)和高频子带信号xHB(n)。其中,低频子带信号xLB(n)的有效带宽为0-8kHz,高频子带信号xHB(n)的有效带宽为8-16kHz,每帧样本点数为320。
第3步,第一层低频分析。
这里,调用第一层低频分析神经网络的目的是,基于低频子带信号xLB(n),生成更低维度的第一层低频信号特征FLB(n)。在本示例中,xLB(n)的数据维度为320,FLB(n)的数据维度为64,从数据量看,显然经过第一层低频分析神经网络后,起到了“降维”的作用,可以理解为数据压缩。作为示例,参见图17,图17是本申请实施例提供的第一层低频分析神经网络的结构示意图,对低频子带信号xLB(n)的处理流程包括:
(1)调用一个24通道的因果卷积,将输入的张量(即xLB(n)),扩展为24*320的张量。
(2)对24*320的张量进行预处理。在实际应用中,可以做池化因子为2的池化(Pooling)操作、且激活函数可以为ReLU,以生成24*160的张量。
(3)级连3个不同降采样因子(Down_factor)的编码块。以编码块(Do wn_factor=4)为例,可以先执行1个或者多个空洞卷积,每个卷积核大小均固定为1*3,移位率(Striderate)均为1。此外,该1个或者多个空洞卷积的扩张率(Dilation rate)可以根据需要自行设置,比如3;当然,本申请实施例也不限制不同空洞卷积设置不同的扩展率。然后,3个编码块的Down_factor分别设置为4、5、8,等效于设置了不同大小的池化因子,起到降采样作用。最后,3个编码块通道数分别设置为48、96、192。因此,经过3个级连的编码块,依次将24*160的张量分别转换成48*40、96*8和192*1的张量。
(4)对192*1的张量,经过类似预处理的因果卷积,输出一个64维的特征向量,即第一层低频信号特征FLB(n)。
第4步,第一层高频分析。
这里,调用第一层高频分析神经网络的目的是,基于高频子带信号xHB(n),生成更低维度的第一层高频信号特征FHB(n)。在本示例中,第一层高频分析神经网络的结构可以与第一层低频分析神经网络相一致,即输入(即xHB(n))的数据维度为320维,输出(即FHB(n))的数据维度为64维。考虑高频子带信号比低频子带信号的重要性较低,可以适当减少输出维度,这样可以减少第一层高频分析神经网络的复杂度,在本示例中不作限制。
第5步,第二层低频分析。
这里,调用第二层低频分析神经网络的目的是,基于低频子带信号xLB(n)和第一层低频信号特征FLB(n),得到更低维度的第二层低频信号特征FLB,e(n)。第二层低频信号特征反映了:第一层低频分析神经网络的输出在解码端的重建音频信号,相对原始音频信号的残差;因此,在解码端,可以根据FLB,e(n)预测低频子带信号的残差信号,并与通过第一层低频分析神经网络的输出预测的低频子带信号估计值进行求和,获得更高精度的低频子带信号估计值。
第二层低频分析神经网络采用与第一层低频分析神经网络类型类似的结构,参见图18,图18是本申请实施例提供的第二层低频分析神经网络的结构示意图。这里,和第一层低频分析神经网络类型的主要差异点包括:(1)第二层低频分析神经网络的输入除了包括低频子带信号xLB(n),还包括第一层低频分析神经网络的输出FLB(n),xLB(n)和FLB(n)两个变量可以拼接成384维的拼接特征。(2)考虑第二层低频分析所处理的是残差信号,第二层低频分析神经网络的输出FLB,e(n)的维度设置为28。
第6步,第二层高频分析。
这里,调用第二层高频分析神经网络的目的是,基于高频子带信号xHB(n)和第一层高频信号特征FHB(n),得到更低维度的第二层高频信号特征FHB,e(n)。第二层高频分析神经网络和结构可以和第二层低频分析神经网络的结构相同,即输入(xHB(n)和FHB(n)的拼接特征)的数据维度为384维,输出(FHB,e(n))的数据维度为28维。
第7步,量化编码。
通过查询预先设置好的量化表,对2层输出的信号特征进行量化处理,并对量化得到的量化结果进行编码,其中,量化可以采用标量量化(各分量单独量化)的方式,编码可以采用熵编码的方式。另外,本申请实施例也不限制矢量量化(相邻多个分量组合成一个矢量进行联合量化)和熵编码的技术组合。
在实际实施时,第一层低频信号特征FLB(n)为64维特征,可以使用8kbps完成编码,每帧量化一个参数的平均码率为2.5bit;第一层高频信号特征FHB(n)为64维特征,可以使用6kbps完成编码,每帧量化一个参数的平均码率为1.875bit。因此,编码第一层总共是14kbps。
在实际实施时,第二层低频信号特征FLB,e(n)为28维特征,可以使用3.5kbps完成编码,每帧量化一个参数的平均码率为2.5bit;第二层高频信号特征FHB,e(n)为28维特征,可以使用3.5kbps完成编码,每帧量化一个参数的平均码率为2.5bit。因此,编码第二层总共是7kbps。
基于此,通过分层编码的方式,可以渐进编码不同的特征向量;根据不同应用场景,本申请实施例不限制其它方式的码率分布,比如,还可以迭代地引入第三层或者更高层编码。量化编码之后可以生成码流,针对不同层的码流,可以采用不同的传输策略,保证以不同优先级的传输,如可以采用前向纠错机制(Forward Error Correction,FEC),通过冗余传输提升传输的质量,不同层的冗余倍数不一样,比如第一层的冗余倍数可以设置高一些。
以所有层的码流均被解码端接收并且准确解码为例,本申请实施例提供的音频编码方法包括:
第1步,解码。
这里,解码即为编码的逆过程。对接收到的码流进行解析,并通过查量化表,获得低频信号特征估计值和高频信号特征估计值。具体地,第一层,获得低频子带信号的64维信号特征的量化值F′LB(n),以及高频子带信号的64维信号特征的量化值F′HB(n);第二层,获得低频子带信号的28维信号特征的量化值F′LB,e(n),以及高频子带信号的28维信号特征的量化值F′HB,e(n)。
第2步,第一层低频合成。
这里,调用第一层低频合成神经网络的目的是,基于低频特征向量的量化值F′LB(n),生成第一层低频子带信号估计值x′LB(n)。作为示例,参见图19,图19是本申请实施例提供的第一层低频合成神经网络的模型示意图。这里,第一层低频合成神经网络的处理流程与第一层低频分析神经网络的处理流程类似,比如因果卷积;第一层低频合成神经网络的后处理结构类似于第一层低频分析神经网络的预处理结构;解码块结构与编码块结构是对称的:编码侧的编码块是先做空洞卷积再池化完成降采样,解码侧的解码块是先进行池化完成升采样,再做空洞卷积。
第3步,第一层高频合成。
这里,第一层高频合成神经网络的结构和第一层低频合成神经网络的结构相同,可以根据第一层低频信号特征的量化值F′HB(n),获得第一高频子带信号估计值x′HB(n)。
第4步,第二层低频合成。
这里,调用第二层低频合成神经网络的目的是,基于第二层低频信号特征的量化值F′LB,e(n),生成低频子带残差信号估计值x′LB,e(n)。参见图20,图20是本申请实施例提供的第二层低频合成神经网络的结构示意图,该第二层低频合成神经网络的结构和第一层低频合成神经网络的结果类似,差异点在于输入的数据维度为28维。
第5步,第二层高频合成。
这里,第二层低频合成神经网络的结构和第二层低频合成神经网络的结构相同,可以基于第二层低频信号特征的量化值F′HB,e(n),生成高频子带残差信号估计值x′HB,e(n)。
第6步,合成滤波。
基于前面步聚,解码端获得低频子带信号估计值x′LB(n)和高频子带信号x′HB(n),以及低频子带残差信号估计值x′LB,e(n)和高频子带信号残差估计值x′HB,e(n)。将x′LB(n)和x′LB,e(n)相加,生成高精度的低频子带信号估计值;将x′HB(n)和x′HB,e(n)相加,生成高精度的高频子带信号估计值。最后,对低频子带信号估计值以及高频子带信号估计值进行上采样,并调用QMF合成滤波器,对上采样结果进行合成滤波,则生成640点的重建音频信号x′(n)。
在本申请实施例中,可以通过采集数据对编码端和解码端的相关神经网络进行联合训练,获得最优参数,从而将训练好的网络模型投入使用。在本申请实施例中,仅公开了一种特定的网络输入、网络结构和网络输出的实施例;相关领域工程人员可根据需要进一步修改上述配置。
应用本申请上述实施例,可以完成基于信号处理和深度学习网络的低码率音频编解码方案。通过信号分解和相关信号处理技术与深度神经网络的有机结合,编码效率较相关技术有了显著提升,在复杂度可接受的情况下,编码质量也得到了提高。根据不同编码内容和带宽情况下,编码端选择不同分层传输策略进行码流的传输,解码端接收到低层码流,输出可接受质量的音频信号,如果也收到其它高层的码流,则可以输出高质量的音频。
可以理解的是,在本申请实施例中,涉及到用户信息(如用户发送的音频信号)等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的音频编码装置553的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的音频编码装置553中的软件模块可以包括:
第一特征提取模块5531,用于对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征;第二特征提取模块5532,用于针对N个层级中的第i层级,对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,所述N和所述i为大于1的整数,所述i小于或等于所述N;遍历模块5533,用于对所述i进行遍历,得到所述N个层级中每个层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;编码模块5534,用于对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流。
在一些实施例中,所述第一特征提取模块5531,还用于对所述音频信号进行子带分解处理,得到所述音频信号的低频子带信号和高频子带信号;对所述低频子带信号进行第一层级的特征提取处理,得到所述第一层级的低频信号特征,并对所述高频子带信号进行第一层级的特征提取处理,得到所述第一层级的高频信号特征;将所述低频信号特征和所述高频信号特征,作为所述第一层级的信号特征。
在一些实施例中,所述第一特征提取模块5531,还用于按照第一采样频率对所述音频信号进行采样处理,得到采样信号;对所述采样信号进行低通滤波处理,得到低通滤波信号,并对所述低通滤波信号进行下采样处理,得到第二采样频率的所述低频子带信号;对所述采样信号进行高通滤波处理,得到高通滤波信号,并对所述高通滤波信号进行下采样处理,得到第二采样频率的所述高频子带信号;其中,所述第二采样频率小于所述第一采样频率。
在一些实施例中,所述第二特征提取模块5532,还用于对所述音频信号的低频子带信号和第(i-1)层级的低频信号特征进行拼接处理,得到第一拼接特征,并对所述第一拼接特征进行第i层级的特征提取处理,得到所述第i层级的低频信号特征;对所述音频信号的高频子带信号和第(i-1)层级的高频信号特征进行拼接处理,得到第二拼接特征,并对所述第二拼接特征进行第i层级的特征提取处理,得到所述第i层级的高频信号特征;将所述第i层级的低频信号特征和所述第i层级的高频信号特征,作为所述第i层级的信号特征。
在一些实施例中,所述第一特征提取模块5531,还用于对所述音频信号进行第一卷积处理,得到所述第一层级的卷积特征;对所述卷积特征进行第一池化处理,得到所述第一层级的池化特征;对所述池化特征进行第一下采样处理,得到所述第一层级的下采样特征;对所述下采样特征进行第二卷积处理,得到所述第一层级的信号特征。
在一些实施例中,所述第一下采样处理通过M个级联的编码层实现,所述第一特征提取模块5531,还用于通过所述M个级联的编码层中的第一个编码层,对所述池化特征进行第一下采样处理,得到所述第一个编码层的下采样结果;通过所述M个级联的编码层中的第j个编码层,对第(j-1)个编码层的下采样结果进行第一下采样处理,得到所述第j个编码层的下采样结果;其中,所述M和所述j为大于1的整数,所述j小于或等于所述M;对所述j进行遍历,得到第M个编码层的下采样结果,并将所述第M个编码层的下采样结果,作为所述第一层级的下采样特征。
在一些实施例中,所述第二特征提取模块5532,还用于对所述拼接特征进行第三卷积处理,得到所述第i层级的卷积特征;对所述卷积特征进行第二池化处理,得到所述第i层级的池化特征;对所述池化特征进行第二下采样处理,得到所述第i层级的下采样特征;对所述下采样特征进行第四卷积处理,得到所述第i层级的信号特征。
在一些实施例中,所述编码模块5534,还用于对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行量化处理,得到各层级的信号特征的量化结果;对所述各层级的信号特征的量化结果进行熵编码处理,得到所述音频信号在各层级的码流。
在一些实施例中,所述信号特征包括低频信号特征和高频信号特征,所述编码模块5534,还用于对所述第一层级的低频信号特征、以及所述N个层级中每个层级的低频信号特征,分别进行编码处理,得到所述音频信号在各层级的低频码流;对所述第一层级的高频信号特征、以及所述N个层级中每个层级的高频信号特征,分别进行编码处理,得到所述音频信号在各层级的高频码流;将所述音频信号在各层级的低频码流以及高频码流,作为所述音频信号在相应层级的码流。
在一些实施例中,所述信号特征包括低频信号特征和高频信号特征,所述编码模块5534,还用于按照第一编码码率,对所述第一层级的低频信号特征进行编码处理,得到第一层级的第一码流,并按照第二编码码率,对所述第一层级的高频信号特征进行编码处理,得到第一层级的第二码流;针对所述N个层级中每个层级的信号特征,分别执行如下处理:按照所述层级的第三编码码率,对所述层级的信号特征分别进行编码处理,得到各所述层级的第二码流;将所述第一层级的第二码流、以及所述N个层级中每个层级的第二码流,作为所述音频信号在各层级的码流;其中,所述第一编码码率大于所述第二编码码率,所述第二编码码率,大于所述N个层级中任一层级的第三编码码率,所述层级的编码码率与相应层级的码流的解码质量指标正相关。
在一些实施例中,所述编码模块5534,还用于针对各所述层级,分别执行如下处理:对所述音频信号在所述层级的码流配置相应的层级传输优先级;其中,所述层级传输优先级与所述层级的层级数负相关,所述层级传输优先级与相应层级的码流的解码质量指标正相关。
在一些实施例中,所述信号特征包括低频信号特征和高频信号特征,所述音频信号在各层级的码流包括:基于所述低频信号特征编码得到的低频码流、以及基于所述高频信号特征编码得到的高频码流;所述编码模块5534,还用于针对各所述层级,分别执行如下处理:为所述层级的低频码流配置第一传输优先级,并为所述层级的高频码流配置第二传输优先级;其中,所述第一传输优先级高于所述第二传输优先级,第(i-1)层级的所述第二传输优先级低于第i层级的所述第一传输优先级,所述码流的传输优先级与相应码流的解码质量指标正相关。
应用本申请上述实施例,实现了对音频信号的分层编码:首先,对音频信号进行第一层级的特征提取处理,得到第一层级的信号特征;然后,针对N(N为大于1的整数)个层级中的第i(i为大于1的整数,i小于或等于N)层级,对音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对拼接特征进行第i层级的特征提取处理,得到第i层级的信号特征;再通过对i进行遍历,得到N个层级中每个层级的信号特征;最后,对第一层级的信号特征以及N个层级中每个层级的信号特征,分别进行编码处理,得到音频信号在各层级的码流。
第一,所提取的信号特征的数据维度小于音频信号的数据维度。如此,降低了音频编码过程中所处理数据的数据维度,提高了音频信号的编码效率;
第二,分层提取音频信号的信号特征时,每个层级的输出均作为下一层级的输入,使得每个层级均结合上一层级提取的信号特征,对音频信号进行更精确的特征提取,随着层级数量的增加,可以使音频信号在特征提取过程中的信息损失降到最低。如此,通过对该方式提取的信号特征进行编码所得到的多个码流,其包含的音频信号的信息更加接近于原始的音频信号,减少了音频信号在编码过程中的信息损失,保证了音频编码的编码质量。
下面说明本申请实施例提供的音频解码装置。本申请实施例提供的音频解码装置包括:接收模块,用于接收对音频信号进行编码得到的多个层级分别对应的码流;解码模块,用于分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;特征重建模块,用于分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号;音频合成模块,用于对多个所述层级的层级音频信号进行音频合成,得到所述音频信号。
在一些实施例中,所述码流包括低频码流和高频码流,所述解码模块,还用于分别对各所述层级的低频码流进行解码处理,得到各所述层级的低频信号特征,并分别对各所述层级的高频码流进行解码处理,得到各所述层级的高频信号特征;相应的,所述特征重建模块,还用于分别对各所述层级的低频信号特征进行特征重建,得到各所述层级的层级低频子带信号,并分别对各所述层级的高频信号特征进行特征重建,得到各所述层级的层级高频子带信号;将所述层级低频子带信号和所述层级高频子带信号,作为所述层级的层级音频信号;相应的,所述音频合成模块,还用于将多个所述层级的层级低频子带信号进行相加,得到低频子带信号,并将多个所述层级的层级高频子带信号进行相加,得到高频子带信号;对所述低频子带信号和所述高频子带信号进行合成,得到所述音频信号。
在一些实施例中,所述音频合成模块,还用于对所述低频子带信号进行上采样处理,得到低通滤波信号;对所述高频子带信号进行上采样处理,得到高频滤波信号;对所述低通滤波信号和所述高频滤波信号进行滤波合成处理,得到所述音频信号。
在一些实施例中,所述特征重建模块,还用于针对各所述层级的信号特征,分别执行如下处理:对所述信号特征进行第一卷积处理,得到所述层级的卷积特征;对所述卷积特征进行上采样处理,得到所述层级的上采样特征;对所述上采样特征进行池化处理,得到所述层级的池化特征;对所述池化特征进行第二卷积处理,得到所述层级的层级音频信号。
在一些实施例中,所述上采样处理通过L个级联的解码层实现,所述特征重建模块,还用于通过所述L个级联的解码层中的第一个解码层,对所述池化特征进行上采样处理,得到所述第一个解码层的上采样结果;通过所述L个级联的解码层中的第k个解码层,对第(k-1)个解码层的第一上采样结果进行上采样处理,得到所述第k个解码层的上采样结果;其中,所述L和所述k为大于1的整数,所述k小于或等于所述L;对所述k进行遍历,得到第L个解码层的上采样结果,并将所述第L个解码层的上采样结果,作为所述层级的上采样特征。
在一些实施例中,所述解码模块,还用于针对各所述层级,分别执行如下处理:对所述层级的码流进行熵解码处理,得到所述码流的量化值;对所述码流的量化值进行逆量化处理,得到所述层级的信号特征。
应用本申请上述实施例,对多个层级的码流分别进行解码处理,得到各层级的信号特征,并分别对各层级的信号特征进行特征重建,得到各层级的层级音频信号,对多个层级的层级音频信号进行音频合成,得到音频信号。由于信号特征的数据维度小于音频信号的数据维度,减少了音频解码过程中所处理数据的数据维度,提高了音频信号的解码效率。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例还提供一种计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (23)

1.一种音频编码方法,其特征在于,所述方法包括:
对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征;
针对N个层级中的第i层级,对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并
对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,所述N和所述i为大于1的整数,所述i小于或等于所述N;
对所述i进行遍历,得到所述N个层级中每个层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流。
2.如权利要求1所述的方法,其特征在于,所述对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征,包括:
对所述音频信号进行子带分解处理,得到所述音频信号的低频子带信号和高频子带信号;
对所述低频子带信号进行第一层级的特征提取处理,得到所述第一层级的低频信号特征,并对所述高频子带信号进行第一层级的特征提取处理,得到所述第一层级的高频信号特征;
将所述低频信号特征和所述高频信号特征,作为所述第一层级的信号特征。
3.如权利要求2所述的方法,其特征在于,所述对所述音频信号进行子带分解处理,得到所述音频信号的低频子带信号和高频子带信号,包括:
按照第一采样频率对所述音频信号进行采样处理,得到采样信号;
对所述采样信号进行低通滤波处理,得到低通滤波信号,并对所述低通滤波信号进行下采样处理,得到第二采样频率的所述低频子带信号;
对所述采样信号进行高通滤波处理,得到高通滤波信号,并对所述高通滤波信号进行下采样处理,得到第二采样频率的所述高频子带信号;
其中,所述第二采样频率小于所述第一采样频率。
4.如权利要求2所述的方法,其特征在于,所述对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,包括:
对所述音频信号的低频子带信号和第(i-1)层级的低频信号特征进行拼接处理,得到第一拼接特征,并对所述第一拼接特征进行第i层级的特征提取处理,得到所述第i层级的低频信号特征;
对所述音频信号的高频子带信号和第(i-1)层级的高频信号特征进行拼接处理,得到第二拼接特征,并对所述第二拼接特征进行第i层级的特征提取处理,得到所述第i层级的高频信号特征;
将所述第i层级的低频信号特征和所述第i层级的高频信号特征,作为所述第i层级的信号特征。
5.如权利要求1所述的方法,其特征在于,所述对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征,包括:
对所述音频信号进行第一卷积处理,得到所述第一层级的卷积特征;
对所述卷积特征进行第一池化处理,得到所述第一层级的池化特征;
对所述池化特征进行第一下采样处理,得到所述第一层级的下采样特征;
对所述下采样特征进行第二卷积处理,得到所述第一层级的信号特征。
6.如权利要求5所述的方法,其特征在于,所述第一下采样处理通过M个级联的编码层实现,所述对所述池化特征进行第一下采样处理,得到所述第一层级的下采样特征,包括:
通过所述M个级联的编码层中的第一个编码层,对所述池化特征进行第一下采样处理,得到所述第一个编码层的下采样结果;
通过所述M个级联的编码层中的第j个编码层,对第(j-1)个编码层的下采样结果进行第一下采样处理,得到所述第j个编码层的下采样结果;
其中,所述M和所述j为大于1的整数,所述j小于或等于所述M;
对所述j进行遍历,得到第M个编码层的下采样结果,并将所述第M个编码层的下采样结果,作为所述第一层级的下采样特征。
7.如权利要求1所述的方法,其特征在于,所述对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,包括:
对所述拼接特征进行第三卷积处理,得到所述第i层级的卷积特征;
对所述卷积特征进行第二池化处理,得到所述第i层级的池化特征;
对所述池化特征进行第二下采样处理,得到所述第i层级的下采样特征;
对所述下采样特征进行第四卷积处理,得到所述第i层级的信号特征。
8.如权利要求1所述的方法,其特征在于,所述对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流,包括:
对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行量化处理,得到各层级的信号特征的量化结果;
对所述各层级的信号特征的量化结果进行熵编码处理,得到所述音频信号在各层级的码流。
9.如权利要求1所述的方法,其特征在于,所述信号特征包括低频信号特征和高频信号特征,所述对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流,包括:
对所述第一层级的低频信号特征、以及所述N个层级中每个层级的低频信号特征,分别进行编码处理,得到所述音频信号在各层级的低频码流;
对所述第一层级的高频信号特征、以及所述N个层级中每个层级的高频信号特征,分别进行编码处理,得到所述音频信号在各层级的高频码流;
将所述音频信号在各层级的低频码流以及高频码流,作为所述音频信号在相应层级的码流。
10.如权利要求1所述的方法,其特征在于,所述信号特征包括低频信号特征和高频信号特征,所述对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流,包括:
按照第一编码码率,对所述第一层级的低频信号特征进行编码处理,得到第一层级的第一码流,并按照第二编码码率,对所述第一层级的高频信号特征进行编码处理,得到第一层级的第二码流;
针对所述N个层级中每个层级的信号特征,分别执行如下处理:按照所述层级的第三编码码率,对所述层级的信号特征分别进行编码处理,得到各所述层级的第二码流;
将所述第一层级的第二码流、以及所述N个层级中每个层级的第二码流,作为所述音频信号在各层级的码流;
其中,所述第一编码码率大于所述第二编码码率,所述第二编码码率,大于所述N个层级中任一层级的第三编码码率,所述层级的编码码率与相应层级的码流的解码质量指标正相关。
11.如权利要求1所述的方法,其特征在于,所述对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流之后,所述方法还包括:
针对各所述层级,分别执行如下处理:
对所述音频信号在所述层级的码流配置相应的层级传输优先级;
其中,所述层级传输优先级与所述层级的层级数负相关,所述层级传输优先级与相应层级的码流的解码质量指标正相关。
12.如权利要求1所述的方法,其特征在于,所述信号特征包括低频信号特征和高频信号特征,所述音频信号在各层级的码流包括:基于所述低频信号特征编码得到的低频码流、以及基于所述高频信号特征编码得到的高频码流;
所述方法还包括:
针对各所述层级,分别执行如下处理:为所述层级的低频码流配置第一传输优先级,并为所述层级的高频码流配置第二传输优先级;
其中,所述第一传输优先级高于所述第二传输优先级,第(i-1)层级的所述第二传输优先级低于第i层级的所述第一传输优先级,所述码流的传输优先级与相应码流的解码质量指标正相关。
13.一种音频解码方法,其特征在于,所述方法包括:
接收对音频信号进行编码得到的多个层级分别对应的码流;
分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号;
对多个所述层级的层级音频信号进行音频合成,得到所述音频信号。
14.如权利要求13所述的方法,其特征在于,所述码流包括低频码流和高频码流,所述分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,包括:
分别对各所述层级的低频码流进行解码处理,得到各所述层级的低频信号特征,并分别对各所述层级的高频码流进行解码处理,得到各所述层级的高频信号特征;
所述分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号,包括:
分别对各所述层级的低频信号特征进行特征重建,得到各所述层级的层级低频子带信号,并分别对各所述层级的高频信号特征进行特征重建,得到各所述层级的层级高频子带信号;
将所述层级低频子带信号和所述层级高频子带信号,作为所述层级的层级音频信号;
所述对多个所述层级的层级音频信号进行音频合成,得到所述音频信号,包括:
将多个所述层级的层级低频子带信号进行相加,得到低频子带信号,并将多个所述层级的层级高频子带信号进行相加,得到高频子带信号;
对所述低频子带信号和所述高频子带信号进行合成,得到所述音频信号。
15.如权利要求14所述的方法,其特征在于,所述对所述低频子带信号和所述高频子带信号进行合成,得到所述音频信号,包括:
对所述低频子带信号进行上采样处理,得到低通滤波信号;
对所述高频子带信号进行上采样处理,得到高频滤波信号;
对所述低通滤波信号和所述高频滤波信号进行滤波合成处理,得到所述音频信号。
16.如权利要求13所述的方法,其特征在于,所述分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号,包括:
针对各所述层级的信号特征,分别执行如下处理:
对所述信号特征进行第一卷积处理,得到所述层级的卷积特征;
对所述卷积特征进行上采样处理,得到所述层级的上采样特征;
对所述上采样特征进行池化处理,得到所述层级的池化特征;
对所述池化特征进行第二卷积处理,得到所述层级的层级音频信号。
17.如权利要求16所述的方法,其特征在于,所述上采样处理通过L个级联的解码层实现,所述对所述卷积特征进行上采样处理,得到所述层级的上采样特征,包括:
通过所述L个级联的解码层中的第一个解码层,对所述池化特征进行上采样处理,得到所述第一个解码层的上采样结果;
通过所述L个级联的解码层中的第k个解码层,对第(k-1)个解码层的第一上采样结果进行上采样处理,得到所述第k个解码层的上采样结果;
其中,所述L和所述k为大于1的整数,所述k小于或等于所述L;
对所述k进行遍历,得到第L个解码层的上采样结果,并将所述第L个解码层的上采样结果,作为所述层级的上采样特征。
18.如权利要求13所述的方法,其特征在于,所述分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,包括:
针对各所述层级,分别执行如下处理:
对所述层级的码流进行熵解码处理,得到所述码流的量化值;
对所述码流的量化值进行逆量化处理,得到所述层级的信号特征。
19.一种音频编码装置,其特征在于,所述装置包括:
第一特征提取模块,用于对音频信号进行第一层级的特征提取处理,得到所述第一层级的信号特征;
第二特征提取模块,用于针对N个层级中的第i层级,对所述音频信号和第(i-1)层级的信号特征进行拼接处理,得到拼接特征,并对所述拼接特征进行第i层级的特征提取处理,得到所述第i层级的信号特征,所述N和所述i为大于1的整数,所述i小于或等于所述N;
遍历模块,用于对所述i进行遍历,得到所述N个层级中每个层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
编码模块,用于对所述第一层级的信号特征、以及所述N个层级中每个层级的信号特征,分别进行编码处理,得到所述音频信号在各层级的码流。
20.一种音频解码装置,其特征在于,所述装置包括:
接收模块,用于接收对音频信号进行编码得到的多个层级分别对应的码流;
解码模块,用于分别对各所述层级的码流进行解码处理,得到各所述层级的信号特征,所述信号特征的数据维度小于所述音频信号的数据维度;
特征重建模块,用于分别对各所述层级的信号特征进行特征重建,得到各所述层级的层级音频信号;
音频合成模块,用于对多个所述层级的层级音频信号进行音频合成,得到所述音频信号。
21.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至18任一项所述的方法。
22.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时,实现权利要求1至18任一项所述的方法。
23.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至18任一项所述的方法。
CN202210677636.4A 2022-06-15 2022-06-15 音频编码方法、装置、设备、存储介质及程序产品 Pending CN115116454A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210677636.4A CN115116454A (zh) 2022-06-15 2022-06-15 音频编码方法、装置、设备、存储介质及程序产品
PCT/CN2023/088014 WO2023241193A1 (zh) 2022-06-15 2023-04-13 音频编码方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210677636.4A CN115116454A (zh) 2022-06-15 2022-06-15 音频编码方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115116454A true CN115116454A (zh) 2022-09-27

Family

ID=83327948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210677636.4A Pending CN115116454A (zh) 2022-06-15 2022-06-15 音频编码方法、装置、设备、存储介质及程序产品

Country Status (2)

Country Link
CN (1) CN115116454A (zh)
WO (1) WO2023241193A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241193A1 (zh) * 2022-06-15 2023-12-21 腾讯科技(深圳)有限公司 音频编码方法、装置、电子设备、存储介质及程序产品
CN117476024A (zh) * 2023-11-29 2024-01-30 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、装置、可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623185A (zh) * 2002-03-12 2005-06-01 诺基亚有限公司 可伸缩音频编码的有效改进
CN101548318A (zh) * 2006-12-15 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101572087A (zh) * 2008-04-30 2009-11-04 北京工业大学 嵌入式语音或音频信号编解码方法和装置
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN112420065A (zh) * 2020-11-05 2021-02-26 北京中科思创云智能科技有限公司 音频降噪处理方法和装置及设备
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN112992161A (zh) * 2021-04-12 2021-06-18 北京世纪好未来教育科技有限公司 音频编码方法、音频解码方法、装置、介质及电子设备
CN113299313A (zh) * 2021-01-28 2021-08-24 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN113470667A (zh) * 2020-03-11 2021-10-01 腾讯科技(深圳)有限公司 语音信号的编解码方法、装置、电子设备及存储介质
CN113628630A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种信息转换方法和装置、电子设备
CN113628610A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种语音合成方法和装置、电子设备
CN114582317A (zh) * 2022-03-29 2022-06-03 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601124B2 (en) * 2015-01-07 2017-03-21 Adobe Systems Incorporated Acoustic matching and splicing of sound tracks
CN113889076B (zh) * 2021-09-13 2022-11-01 北京百度网讯科技有限公司 语音识别及编解码方法、装置、电子设备及存储介质
CN115116454A (zh) * 2022-06-15 2022-09-27 腾讯科技(深圳)有限公司 音频编码方法、装置、设备、存储介质及程序产品

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623185A (zh) * 2002-03-12 2005-06-01 诺基亚有限公司 可伸缩音频编码的有效改进
CN101548318A (zh) * 2006-12-15 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101572087A (zh) * 2008-04-30 2009-11-04 北京工业大学 嵌入式语音或音频信号编解码方法和装置
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN113470667A (zh) * 2020-03-11 2021-10-01 腾讯科技(深圳)有限公司 语音信号的编解码方法、装置、电子设备及存储介质
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN112420065A (zh) * 2020-11-05 2021-02-26 北京中科思创云智能科技有限公司 音频降噪处理方法和装置及设备
CN113299313A (zh) * 2021-01-28 2021-08-24 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN112992161A (zh) * 2021-04-12 2021-06-18 北京世纪好未来教育科技有限公司 音频编码方法、音频解码方法、装置、介质及电子设备
CN113628630A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种信息转换方法和装置、电子设备
CN113628610A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种语音合成方法和装置、电子设备
CN114582317A (zh) * 2022-03-29 2022-06-03 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张波;窦维蓓;: "基于EaacPlus的可分层可分级音频编码***", 电声技术, no. 10, 17 October 2010 (2010-10-17), pages 59 - 63 *
武庭照: "基于混叠失真特性的音频对象编码技术研究", 31 December 2019 (2019-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241193A1 (zh) * 2022-06-15 2023-12-21 腾讯科技(深圳)有限公司 音频编码方法、装置、电子设备、存储介质及程序产品
CN117476024A (zh) * 2023-11-29 2024-01-30 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、装置、可读存储介质

Also Published As

Publication number Publication date
WO2023241193A1 (zh) 2023-12-21

Similar Documents

Publication Publication Date Title
JP4850837B2 (ja) 異なるサブバンド領域同士の間の通過によるデータ処理方法
CA2327627C (en) Process for processing at least one coded binary audio flux organized into frames
JP5165559B2 (ja) オーディオコーデックポストフィルタ
CN115116454A (zh) 音频编码方法、装置、设备、存储介质及程序产品
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
CN103187065B (zh) 音频数据的处理方法、装置和***
US10468045B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
WO2023241254A9 (zh) 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品
RU2408089C2 (ru) Декодирование кодированных с предсказанием данных с использованием адаптации буфера
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
JPH10512423A (ja) 音声信号をコード化、操作及びデコード化する方法及び装置
WO2009029036A1 (en) Method and device for noise filling
JPH06237183A (ja) 符号化信号を復号化する方法
WO2023241222A9 (zh) 音频处理方法、装置、设备、存储介质及计算机程序产品
WO2023241205A1 (zh) 音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
Bhatt et al. A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods
CN115116457A (zh) 音频编码及解码方法、装置、设备、介质及程序产品
CN117476024A (zh) 音频编码方法、音频解码方法、装置、可读存储介质
CN117831548A (zh) 音频编解码***的训练方法、编码方法、解码方法、装置
CN117198301A (zh) 音频编码方法、音频解码方法、装置、可读存储介质
CN117834596A (zh) 音频处理方法、装置、设备、存储介质及计算机程序产品
CN117219095A (zh) 音频编码方法、音频解码方法、装置、设备及存储介质
US11881227B2 (en) Audio signal compression method and apparatus using deep neural network-based multilayer structure and training method thereof
WO2024093588A1 (zh) 语音合成模型的训练方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination