CN114550732A - 一种高频音频信号的编解码方法和相关装置 - Google Patents

一种高频音频信号的编解码方法和相关装置 Download PDF

Info

Publication number
CN114550732A
CN114550732A CN202210395889.2A CN202210395889A CN114550732A CN 114550732 A CN114550732 A CN 114550732A CN 202210395889 A CN202210395889 A CN 202210395889A CN 114550732 A CN114550732 A CN 114550732A
Authority
CN
China
Prior art keywords
coding
frequency
audio signal
signal frame
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210395889.2A
Other languages
English (en)
Other versions
CN114550732B (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210395889.2A priority Critical patent/CN114550732B/zh
Publication of CN114550732A publication Critical patent/CN114550732A/zh
Application granted granted Critical
Publication of CN114550732B publication Critical patent/CN114550732B/zh
Priority to PCT/CN2023/081461 priority patent/WO2023197809A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开一种高频音频信号的编解码方法和相关装置,可应用于云技术、人工智能、智慧交通、辅助驾驶、车载场景等各种场景。获取多种编码方式以及获取从原始音频信号帧中分解得到的原始高频音频信号帧,编码方式具有对应的优先级,按照编码方式的优先级从高到低,编码方式的编码比特数量递增。根据编码方式的优先级,从多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,将利用目标编码方式对原始高频音频信号帧进行编码得到的高频码流发送至接收端。本申请在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。

Description

一种高频音频信号的编解码方法和相关装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种高频音频信号的编解码方法和相关装置。
背景技术
音频编解码在现代通讯***中占有重要的地位,通过对音频信号进行压缩编码处理可以降低音频信号在网络传输中的网络带宽压力,节省音频信号的存储成本和传输成本。
音频信号的高频成分(即高频音频信号)具有较丰富信息,其对音质影响比较大,高频音频信号损失将导致声音发闷,可懂度下降,保真度降低等问题。而相对于音频信号的低频成分(即低频音频信号),其具有能量占较低,谐波成分偏低、人耳分辨率较低等特点,因此具有较大的编码压缩空间。
目前的高频音频信号编码方式,要么是为了降低编码比特数量而牺牲编码质量,要么是为了提高编码质量而增大编码比特数量,难以在编码比特数量和编码质量上都达到比较满意的效果。
发明内容
为了解决上述技术问题,本申请提供了一种高频音频信号的编解码方法和相关装置,可以在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种高频音频信号的编码方法,所述方法包括:
获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
一方面,本申请实施例提供另一种高频音频信号的解码方法,所述方法包括:
接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
解析得到所述高频码流对应的编码标识;
根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
一方面,本申请实施例提供一种高频音频信号的编码装置,所述装置包括获取单元、确定单元和发送单元:
所述获取单元,用于获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
所述获取单元,还用于获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
所述确定单元,用于根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
所述发送单元,用于将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
一方面,本申请实施例提供另一种高频音频信号的解码装置,所述装置包括接收单元、解析单元和解码单元:
所述接收单元,用于接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
所述解析单元,用于解析得到所述高频码流对应的编码标识;
所述解码单元,用于根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行前述任一方面所述的方法。
一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述任一方面所述的方法。
一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一方面所述的方法。
由上述技术方案可以看出,本申请针对原始音频信号的原始高频音频信号,提出一种基于编码误差判决的多种编码方式混合的高频音频信号编解码方法,具体的,针对原始音频信号中的每个原始音频信号帧,获取多种编码方式以及获取从原始音频信号帧中分解得到的原始高频音频信号帧,编码方式具有对应的优先级,编码方式的优先级用于指示使用该编码方式进行编码的优先顺序,通常情况下,为了尽量降低音频信号传输的带宽,按照优先级从高到低的顺序,编码方式的编码比特数量递增。然后根据编码方式的优先级,从多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对原始高频音频信号帧进行编码产生的,从而可以以编码误差为判别标准,以编码比特数量最优为目标确定出目标编码方式,将利用目标编码方式对原始高频音频信号帧进行编码得到的高频码流发送至接收端,从而在编码质量允许的情况下,选择使用编码比特数量小的编码方式,降低了音频信号传输的带宽。由于高频码流具有编码标识,编码标识用于指示编码得到高频码流所使用的编码方式,以便解码端可以根据编码标识确定使用哪种编码方式对接收到的高频码流进行解码。可见,本申请可以在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种高频音频信号的编解码方法的应用场景架构图;
图2为本申请实施例提供的一种高频音频信号的编码方法的流程图;
图3为本申请实施例提供的一种SBR方式的编码流程图;
图4为本申请实施例提供的一种SBR方式的解码流程图;
图5为本申请实施例提供的一种低频音频信号复制和对高频复制信号进行校正的示意图;
图6为本申请实施例提供的一种CELP编码方式的编码流程图;
图7为本申请实施例提供的一种CELP编码方式的解码流程图;
图8为本申请实施例提供的一种编码误差的确定方法的流程图;
图9为本申请实施例提供的一种国际声学标准组织测定的声学等响曲线图;
图10为本申请实施例提供的一种计算得到的听觉感知加权系数图;
图11为本申请实施例提供的一种高频音频信号的解码方法的流程图;
图12为本申请实施例提供的一种高频音频信号的编解码方法的整体实现架构图;
图13为本申请实施例提供的一种高频音频信号的编码装置的结构图;
图14为本申请实施例提供的一种高频音频信号的解码装置的结构图;
图15为本申请实施例提供的一种终端的结构图;
图16为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
音频编解码在现代通讯***中占有重要的地位。例如在语音通话应用中,音频信号经由麦克风采集得到,通过模数转换电路将模拟音频信号转换为数字音频信号,数字音频信号经过编码器进行压缩,而后按照通信网络传输格式和协议打包发送到接收端,接收端接收到数据包后解包输出编码码流,通过解码器后重新生成音频数字信号,最后音频数字信号通过扬声器进行播放。音频编解码可以有效地降低音频信号传输的带宽,对于节省音频信号存储传输成本,保障通信网络传输过程中的音频信号完整性方面起了决定性作用。
音频信号的高频音频信号具有较丰富信息,其对音质影响比较大,并且高频音频信号相对于音频信号的低频音频信号,具有能量占较低,谐波成分偏低、人耳分辨率较低等特点,因此具有较大的编码压缩空间。
相关技术提供的高频音频信号编码方式,要么是为了降低编码比特数量而牺牲编码质量(例如盲扩方式),要么是为了提高编码质量而增大编码比特数量(例如码激励线性预测(Code-Excited Linear Prediction,CELP)编码方式),难以在编码比特数量和编码质量上都达到比较满意的效果。
为了解决上述技术问题,本申请实施例提供一种高频音频信号的编解码方法,该方法是一种基于编码误差判决的多种编码方式混合的高频音频信号编解码方法,可以在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。其中,音频信号可以为语音、音乐等等。
如图1所示,图1示出了一种高频音频信号的编解码方法的应用场景架构图。在该应用场景中可以包括发送端101和接收端102。其中,发送端101和接收端102可以都为终端,也可以发送端101为终端,接收端102为服务器,等等。其中,终端例如可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。服务器例如可以是独立的服务器,也可以是集群中的服务器或者云服务器。当发送端101为终端,接收端102为服务器时,终端和服务器可以通过有线或无线方式连接。本申请实施例将以语音通话场景为例进行介绍,此时发送端101和接收端102可以都为终端,且终端是手机。
在语音通话场景中,发送端101可以通过对应的麦克风收集原始音频信号(此时音频信号可以是发送端101对应用户的语音),发送端101在将原始音频信号发送至接收端102之前,可以对原始音频信号进行编码,本申请实施例主要介绍对原始音频信号中的原始高频音频信号进行编码。
针对原始音频信号中的每个原始音频信号帧,发送端101可以获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧,编码方式具有对应的优先级,编码方式的优先级用于指示使用该编码方式进行编码的优先顺序,通常情况下,为了尽量降低音频信号传输的带宽,按照优先级从高到低的顺序,编码方式的编码比特数量递增。
然后发送端101根据编码方式的优先级,从多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对原始高频音频信号帧进行编码产生的,从而可以以编码误差为判别标准,以编码比特数量最优为目标确定出目标编码方式。发送端101将利用目标编码方式对原始高频音频信号帧进行编码得到的高频码流发送至接收端102,从而在编码质量允许的情况下,选择使用编码比特数量小的编码方式,降低了音频信号传输的带宽。由于高频码流具有编码标识,编码标识用于指示编码得到高频码流所使用的编码方式,以接收端102可以根据编码标识确定使用哪种编码方式对接收到的高频码流进行解码。
接收端102根据编码标识确定与其所标识的编码方式对应的解码方式,从而利用对应的解码方式对高频码流进行解码得到高频音频信号帧,并通过对应的扬声器播放。
需要说明的是,本申请实施例可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、车载场景等,具体应用于这些场景中的语音通话、视频会议、人机交互场景等等。
接下来,将从发送端的角度,结合附图对本申请实施例提供的高频音频信号的编码方法进行详细介绍。
参见图2,图2示出了一种高频音频信号的编码方法的流程图,所述方法包括:
S201、获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧。
当发送端获取到原始音频信号时,有效地降低音频信号传输的带宽,可以先对原始音频信号进行编码,从而将编码码流传输至接收端。而原始音频信号中可以包括高频音频信号,基于高频音频信号的特点,高频音频信号具有较大的编码空间。而针对高频音频信号进行编码时,本申请实施例提供一种基于编码误差判决的多种编码方式混合的高频音频信号编码方法。具体的,在针对原始音频信号中的每个原始音频信号帧,发送端可以获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧。
在本申请实施例中,可供选择的多种编码方式可以是已有编码方式中任意多个编码方式,例如可以包括音频超分辨率(Speech Super Resolution,SSR)方式、频带复制(Spectral Band Replication,SBR)方式、CELP编码方式等方式中两种以上组合,其中,SSR方式是一种盲扩方式,SBR方式和CELP编码方式是一种非盲扩方式,当然多种编码方式还可以包括其他编码方式,本申请实施例对此不做限定。本申请实施例主要以多种编码方式包括SSR方式、SBR方式和CELP编码方式为例进行介绍。
下面依次对每种编码方式的编解码原理进行介绍:
SSR方式是一种盲式频带扩展方式,也可以称为盲扩方式,SSR方式在进行编码时,不会向接收端发送编码参数,因此该方式不占用编码比特数量。在接收端进行解码时,基于低频音频信号和高频音频信号是具有一定的相关性,通过一些预测的方法,例如深度学习中的神经网络模型,通过低频音频信号映射出高频音频信号。该方式旨在重建一个以较低分辨率的音频信号作为输入的高分辨率音频信号。随着深度神经网络的快速发展,SSR方式可以基于神经网络模型通过输入的低频音频信号的特征信息预测高频音频信号的特征信息,从而虚构出高频音频信号。
SBR方式是一种非盲扩方式,需要根据发送端传送的少量编码参数来重建高频音频信号。由于高频重建有辅助信息支持,因此该方式具有较佳的重建品质。如下图3和图4所示,其中图3为SBR方式的编码流程图,图4为SBR方式的解码流程图。图3中示意的是高级音频编码(Advanced Audio Coding,AAC) +SBR的编码方式,图4中示意的是对应的AAC+SBR的解码方式。在图3中,先将原始音频信号分解为高频音频信号和低频音频信号,例如通过正交镜像 (Quadrature Mirror Filter,QMF) 滤波器组得到高频音频信号,通过2:1下采样器得到低频音频信号,低频音频信号采用AAC编码器生成低频音频信号的编码参数,而高频音频信号基于SBR编码器进行编码,通过低频音频信号复制到高频频段得到高频复制信号,然后根据包络提取得到包络特征,利用包络特征对高频复制信号进行校正(该过程如图5所示),提取编码参数以发送至接收端。从图5中可以看出,图5中(a)图为直接将低频音频信号复制到高频频段得到高频复制信号501后的高频能量曲线示意图,而该高频能量与实际高频能量略有差别,包络特征更能准确的反映高频能量,故基于包络提取得到的包络特征对高频复制信号进行校正,得到高频重建信号502,此时得到的高频能量曲线可以参见图5中(b)所示。上述过程得到的编码后的高频音频信号和低频音频信号可以通过比特流复用器的组合得到对应的编码码流。
通过对上述SBR方式的编码过程的介绍,SBR方式只需要传输有限的参数到接收端。
而图4示出的接收端的解码过程,通过码流分解器将编码码流分解成编码后的低频音频信号和编码后的高频音频信号。先是解码编码后的低频音频信号,编码后的低频音频信号通过AAC解码器生成低频音频信号,将其通过QMF分析滤波器后参与高频重建。高频重建过程为,通过SBR解码器解码得到所需的编码参数,将低频音频信号复制到高频频段,得到高频复制信号。包络提取得到的包络特征对高频复制信号进行校正生成高频重建信号,最终经过一定延时使高低频信号对齐并通过综合滤波器进行合并成全带的音频信号。
CELP编码方式是一种有效的中低编码比特数量的语音压缩编码方式,是以码本为激励源,具***率低、合成语音质量高、抗噪能力强等优点,在4.8~16kbps码率上得到广泛应用,目前采用CELP编码方式的编码器有多种型号等等。图6和图7分别为CELP编码方式的编码流程图和CELP编码方式的解码流程图。在图6中,原始音频信号经过预处理例如高通滤波后,通过线性预测编码(Linear Predictive Coding,LPC)得到一组线性预测滤波系数,并将LPC参数(例如线性预测滤波系数)转换为LSP参数并量化,从而便于向接收端传输。预处理后的原始音频信号s(n)与LPC预测滤波结果
Figure 816413DEST_PATH_IMAGE001
(n)的差为残差信号,残差信号经过感觉加权滤波器后,得到滤波后的残差信号,基于滤波后的残差信号e(n),并以最小感知加权误差为原则,搜索最佳的固定码本、自适应码本,以计算固定码本增益(Gc)和自适应码本增益(Ga)。这些编码过程中得到的编码参数经过封装打包并通过传输到接收端。
在解码过程中,参见图7所示,接收端通过解码器从接收的数据包中解析出所有编码参数,同时基于固定码本和固定码本增益生成固定码本激励信号,而基于自适应码本和自适应码本增益生成自适应码本激励信号,两种激励之和经过合成滤波器进行滤波和后处理后得到最终的音频信号。其中,合成滤波器的滤波器系数是对LSP参数内插得到的。
S202、获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增。
在本申请实施例中,编码方式具有对应的优先级,编码方式的优先级用于指示使用该编码方式进行编码的优先顺序,通常情况下,为了尽量降低音频信号传输的带宽,按照优先级从高到低的顺序,编码方式的编码比特数量递增,即传输的带宽占用或者压缩存储空间递增。
当多种编码方式包括SSR方式、SBR方式和CELP编码方式时,由于编码比特数量从小到大依次是SSR方式SBR方式和CELP编码方式,故优先级从高到低依次是SSR方式SBR方式和CELP编码方式。
S203、根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的。
相关技术中,在使用盲扩方式时,具有不占用编码比特数量的优势进行高频重建,其高频音频信号帧完全基于低频音频信号帧的特征信息进行预测,虽然高低频音频信号帧具有一定的相关性,但没有绝对的对应关系,所以高频重建得到的高频音频信号帧与原始高频音频信号帧存在较大误差;SBR方式仅能保证包络匹配,无法进一步降低误差,且占用较少编码比特数量;基于CELP编码方式的高频重建通过LSP参数确保重建得到的高频音频信号帧与原始高频音频信号帧具有一致的包络,同时通过码本激励进一步降低重建得到的高频音频信号帧与原始高频音频信号帧的误差,但是占用较多编码比特数量。基于上述分析,本申请实施例的目标是在编码比特数量和编码质量(即误差较小)上都达到比较满意的效果,为此本申请实施例基于编码误差判决和编码方式的优先级(优先级体现了编码比特数量),选择合适的编码方式对当前的原始高频音频信号帧进行编码。具体的,发送端根据编码方式的优先级,从多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对原始高频音频信号帧进行编码产生的。
其中,编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的,可以是重建得到的高频音频信号帧(即高频重建信号帧)与原始高频音频信号帧之间的误差,可以体现编码质量,编码误差越小,编码质量越高。综合考虑优先级和编码质量,可以在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。误差预设区间可以为大于误差阈值(Thrd),此时编码误差小于或等于Thrd,可以认为编码误差在误差预设区间内,否则,则编码误差超出误差预设区间。
需要说明的是,本申请实施例提供了多种实现S203的方式。在一种可能的实现方式中,可以分别确定多种编码方式中每种编码方式的编码误差,若存在编码误差在误差预设区间内的编码方式,从编码误差在误差预设区间内的编码方式中,确定优先级最高的编码方式作为目标编码方式。以多种编码方式包括SSR方式、SBR方式和CELP编码方式为例,按照优先级从高到低依次是SSR方式、SBR方式和CELP编码方式,分别确定SSR方式、SBR方式和CELP编码方式的编码误差,若SSR方式和SBR方式的编码误差在误差预设区间内的编码方式中,由于SSR方式的优先级高于SBR方式的优先级,则将SSR方式作为目标编码方式。当然若仅存在SSR方式的编码误差在误差预设区间内的编码方式中,则直接将SSR方式作为目标编码方式,或者若仅存在SBR方式的编码误差在误差预设区间内的编码方式中,则直接将SBR方式作为目标编码方式。
若不存在编码误差在误差预设区间内的编码方式,则可以根据实际情况选择编码方式。例如对于质量要求较高的场景,则将编码误差最小的编码方式作为目标编码方式,从而保证编码质量。又如对于带宽要求较高的场景,则将优先级最高的编码方式作为目标编码方式。继续以多种编码方式包括SSR方式、SBR方式和CELP编码方式为例,按照优先级从高到低依次是SSR方式、SBR方式和CELP编码方式,分别确定SSR方式、SBR方式和CELP编码方式的编码误差,任一编码方式的编码误差都超出误差预设区间,对于质量要求较高的场景,由于CELP编码方式的编码误差最小,其编码质量最高,则将CELP编码方式作为目标编码方式;对于带宽要求较高的场景,由于SSR方式的优先级最高,则将SSR方式作为目标编码方式。
在另一种可能的实现方式中,可以按照优先级从高到低进行阶梯尝试,依次判断编码方式的编码误差是否在误差预设区间内,当前选择的编码方式的编码误差在误差预设区间内,则停止尝试并选用当前选择的编码方式作为目标编码方式进行编码。具体的,发送端按照优先级从高到低的顺序,依次从多种编码方式中选择待定编码方式,确定待定编码方式的编码误差,若待定编码方式的编码误差在误差预设区间内,则将待定编码方式确定为目标编码方式,并停止继续选择待定编码方式。若待定编码方式为多种编码方式中的最后一种编码方式(即优先级最低的编码方式),则说明之前尝试的编码方式的编码误差都超出误差预设区间,则对于最后一种编码方式可以无需执行确定编码方式的编码误差的步骤,直接将最后一种编码方式作为目标编码方式。
继续以多种编码方式包括SSR方式、SBR方式和CELP编码方式为例,按照优先级从高到低依次是SSR方式、SBR方式和CELP编码方式,则首先选择SSR方式作为待定编码方式,确定SSR方式的编码误差,若SSR方式的编码误差在误差预设区间,则将SSR方式确定为目标编码方式;若SSR方式的编码误差超出误差预设区间,则继续选择SBR方式作为待定编码方式,确定SBR方式的编码误差,若SBR方式的编码误差在误差预设区间,则将SBR方式确定为目标编码方式;若SBR方式的编码误差超出误差预设区间,则将CELP编码方式直接作为目标编码方式。
S204、将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
当确定出目标编码方式后,可以将利用目标编码方式对原始高频音频信号帧进行编码得到的高频码流发送至接收端,高频码流具有编码标识,编码标识用于指示编码得到高频码流所使用的编码方式,以便接收端可以知晓通过何种编码方式对应的解码方式进行解码。其中,编码标识可以是用于唯一标识编码方式,编码标识可以是各种可能的形式,例如数字、符号、字母等。
可以理解的是,由于针对每个原始高频音频信号帧进行编码时,都需要依据编码方式的优先级和编码误差选择合适的编码方式进行编码,因此,不同原始高频音频信号帧之间的编码方式可能不同,从而实现多种编码方式混合编码。
针对原始高频音频信号选择编码方式时,确定编码误差是比较关键的一步。接下来,将任一编码方式的编码误差的确定方法进行介绍。参见图8所示,所述方法包括:
S801、获取从所述原始音频信号帧中分解得到的原始低频音频信号帧。
S802、根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧。
需要说明的是,根据前述介绍的不同编码方式的编解码原理,针对不同的编码方式,高频重建的方法可能有所不同。若任一编码方式为音频超分辨率方式,S802的实现方式可以是获取音频超分辨率方式对应的神经网络模型,根据原始低频音频信号帧,通过神经网络模型进行预测得到高频重建信号帧。其中,神经网络模型是通过对训练样本进行训练得到的,训练样本为带有标签的样本低频音频信号帧,在训练阶段可以将样本低频音频信号帧对应的低频特征作为神经网络模型的输入,将高频重建信号帧作为神经网络模型的输出,经过大规模训练样本的训练得到可以根据样本低频音频信号帧预测高频重建信号帧的神经网络模型。在使用时,将原始低频音频信号帧作为神经网络模型的输入,通过神经网络模型提取低频特征,进而根据低频特征预测高频重建信号帧。在一些情况下,也可以将通过其他方式提取原始低频音频信号帧的低频特征,将低频特征作为神经网络模型的输入,从而输出高频重建信号帧。神经网络模型可以是卷积神经网络(Convolutional NeuralNetworks,CNN)、 长短期记忆网络(Long Short-Term Memory,LSTM)等等,本申请实施例对此不做限定。
若任一编码方式为频带复制方式,S802的实现方式可以是将原始低频音频信号帧复制到高频频段,得到高频复制信号帧。直接将低频音频信号帧复制到高频频段,得到的高频复制信号帧的高频能量与实际高频能量略有差别,而包络特征更能准确的反映高频能量,故可以提取原始高频音频信号帧的包络特征,进而利用包络特征对高频复制信号帧进行校正,得到高频重建信号帧。
若任一编码方式为码激励线性预测方式,S802的实现方式可以是从高频码流中获取编码参数,以及获取原始低频音频信号帧的基音周期(pitch),进而根据编码参数和基音周期进行高频重建,得到高频重建信号帧。其中,编码参数可以包括LSP参数、码本数据(例如固定码本和自适应码本)、增益数据(例如固定码本增益和自适应码本增益)。
S803、基于所述高频重建信号帧和所述原始高频音频信号帧进行误差分析,得到对应的编码误差。
在得到高频重建信号帧之后,可以基于高频重建信号帧和原始高频音频信号帧进行误差分析,得到对应的编码误差,编码误差可以体现高频重建信号帧和原始高频音频信号帧之间的误差,从而通过该编码误差衡量该编码方式的编码质量。
基于编码误差的作用,可以理解,在一种可能的实现方式中,S803的实现方式可以是计算高频重建信号帧和原始高频音频信号帧之间的差值信号,进而利用差值信号确定编码误差。若高频重建信号帧表示为S’,原始高频音频信号帧表示为S,则S’与S相减得到差值信号,差值信号可以表示为Err。
由于差值信号已经可以体现出高频重建信号帧和原始高频音频信号帧之间的误差,故在一种可能的实现方式中,可以将差值信号作为编码误差,从而较为准确的体现出编码方式的编码误差。
在一些情况下,差值信号所体现的误差为信号本身的误差,而信号通常需要播放给用户,而用户的听觉感知层面的误差可能与信号本身的误差有所不同,因此,在另一种可能的实现方式中,可以对误差信号采用心理声学感知分析的方法,通过心理声学感知来量化听觉感知层面的误差大小。基于此,在计算编码误差时,可以对差值信号进行听觉感知加权能量计算得到差值能量,以及对原始高频音频信号帧进行听觉感知加权能量计算得到原始能量,将差值能量和原始能量的比值作为编码误差。其中,差值能量和原始能量为听觉感知加权能量。若差值能量表示为EP_err(i),原始能量表示为EP_s(i),则编码误差的计算公式可以为:
Figure 638876DEST_PATH_IMAGE002
(1)
其中,w(i)为编码误差,EP_err(i)为差值能量,EP_s(i)为原始能量。将w(i)和误差预设区间Thrd进行对比,当w(i)> Thrd,则说明编码误差超出误差预设区间,相反则在误差预设区间内。
通过这种方式,可以从听觉感知方面衡量编码误差,从而实现在听觉感知层面保证编码质量。
听觉感知主要的依据是“响度”,“响度”是随音频信号的强度而变化,但也受频率的影响,即相同强度、不同频率的音频信号对于人耳有着不一样的听觉感知。图9为本申请实施例提供的一种国际声学标准组织测定的声学等响曲线图,声学等响曲线是描述等响条件下声压响度与频率的关系曲线,是重要的听觉特征之一。即在不同频率下的音频信号需要达到何种声压级强度,才能获得对用户来说一致的听觉响度。为了说明该曲线的含义,接下来举例说明,如图9上的任一条等响曲线,可以看到对于中低频(1kHz以下)来说,频率越低,等响需要的声压强度(即能量)越大,简单而言即需要更大的能量才能让用户有相同听觉感受。而对于中高频(1kHz以上)来说,不同频段的音频有着不同的声学听觉感知特征。在这种情况下,听觉感知加权能量的计算过程可以为:
1)分帧加窗:
对于输入的音频信号(例如本申请实施例的差值信号或原始高频音频信号帧)通常使用20ms为一帧(与编码器帧定义一致)的分析窗,窗函数可以选用汉宁窗或汉明窗。
2)功率谱计算:
对加窗分帧后得到的音频信号做傅里叶变换,并求出第i帧各频点的能量
Figure 217494DEST_PATH_IMAGE003
,其中,K为总频点数。
3)计算听觉感知加权能量:
将每个频点k的能量乘以不同的听觉感知加权系数后进行累加得到的本帧音频信号的听觉感知加权能量值,计算公式如下:
Figure 416394DEST_PATH_IMAGE004
(2)
其中,EP(i)为第i帧音频信号的听觉感知加权能量,i为帧序号,k为频点序号,cof(k)为第k个频点的听觉感知加权系数。
这样,当第i帧音频信号为当前的原始高频音频信号帧时,计算得到的EP(i)表示为原始能量EP_s(i);当第i帧音频信号为对应的差值信号时,计算得到的EP(i)表示为差值能量EP_err(i)。
对于听觉感知加权系数,本申请实施例采用的是基于BS3383标准的心理声学等响曲线数据计算得到,计算公式如下所示:
cof(freq) =(10^loud/20)/1000 (3)
其中,freq表示频点,cof(freq)相当于第k个频点的听觉感知加权系数,loud表示频点freq的响度值。
需要说明的是,频点freq的响度值loud可以通过以下公式进行计算:
loud=4.2+afy*(dB-cfy)/(1+bfy*(dB-cfy)) (4)
afy=af(j-1)+(freq-ff(j-1))*(af(j)-af(j-1))/(ff(j)-ff(j-1)) (5)
bfy=bf(j-1)+(freq-ff(j-1))*(bf(j)-bf(j-1))/(ff(j)-ff(j-1)) (6)
cfy=cf(j-1)+(freq-ff(j-1))*(cf(j)-cf(j-1))/(ff(j)-ff(j-1)) (7)
其中,ff、af、bf、cf对应BS3383标准中公开的等响曲线数据表内的数据,是可以通过等响曲线数据表查询得到的,j为等响曲线数据表中的编号,freq是需要计算响度值loud的频点,其响度值loud计算是采用线性插值法对等响曲线数据表内的数据进行插值得到的。
可以理解的是,通过上述公式计算响度值的freq通常是j-1与j之间的编号所对应的频点。基于上述公式计算得到的听觉感知加权系数图可以参见图10所示,体现了不同频点对应的听觉感知加权系数。
本申请实施例还提供一种高频音频信号的解码方法,该方法为从接收端的角度进行介绍的,参见图11,所述方法包括:
S1101、接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
S1102、解析得到所述高频码流对应的编码标识。
S1103、根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
接收端接收到高频码流后,可以解析得到高频码流和对应的编码标识,进而根据编码标识所指示的编码方式对应的解码方式对高频码流进行解码,得到高频音频信号帧。
由上述技术方案可以看出,本申请针对原始音频信号的原始高频音频信号,提出一种基于编码误差判决的多种编码方式混合的高频音频信号编解码方法,具体的,针对原始音频信号中的每个原始音频信号帧,获取从原始音频信号帧中分解得到的原始高频音频信号帧以及多种编码方式,编码方式具有对应的优先级,编码方式的优先级用于指示使用该编码方式进行编码的优先顺序,通常情况下,为了尽量降低音频信号传输的带宽,按照优先级从高到低的顺序,编码方式的编码比特数量递增。然后根据编码方式的优先级,从多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对原始高频音频信号帧进行编码产生的,从而可以以编码误差为判别标准,以编码比特数量最优为目标确定出目标编码方式,将利用目标编码方式对原始高频音频信号帧进行编码得到的高频码流发送至接收端,从而在编码质量允许的情况下,选择使用编码比特数量小的编码方式,降低了音频信号传输的带宽。由于高频码流具有编码标识,编码标识用于指示编码得到高频码流所使用的编码方式,以便解码端可以根据编码标识确定使用哪种编码方式对接收到的高频码流进行解码。可见,本申请可以在编码质量允许的情况下,选择使用编码比特数量小的编码方式,实现在编码比特数量和编码质量上都达到比较满意的效果,具有更低的编码比特数量和优质的音频。
本申请还提供一种高频音频信号的编解码方法,该方法从发送端和接收端整体架构角度进行介绍。本申请实施例以多种编码方式包括SSR方式、SBR方式和CELP编码方式,优先级从高到低依次是SSR方式、SBR方式和CELP编码方式为例,高频音频信号的编解码的整体实现架构可以参见图12所示。
其中,输入原始高频音频信号帧和原始低频音频信号帧(参见图12中1201所示),原始高频音频信号帧和原始低频音频信号帧是原始音频信号帧经过高低频分解(例如通过QMF滤波器组分解)得到的,原始低频音频信号帧可以用于后续高频重建。
在高频音频编码环节中,首先尝试通过SSR方式进行编码得到高频码流(参见图12中1202所示),然后进行高频重建(参见图12中1203所示),基于高频重建出来的高频重建信号帧和原始高频音频信号帧,确定编码误差是否在误差预设区间(参见图12中1204所示),若是,则执行将高频码流发送至接收端(参见图12中1209所示)的步骤,若否,则尝试通过SBR方式进行编码得到高频码流(参见图12中1205所示),然后进行高频重建(参见图12中1206所示),确定编码误差是否在误差预设区间(参见图12中1207所示),若是,则执行将高频码流发送至接收端(参见图12中1209所示)的步骤,若否,则继续尝试CELP编码方式(参见图12中1208所示),执行将高频码流发送至接收端(参见图12中1209所示)的步骤,其中,高频码流具有对应的编码标识。在高频音频解码环节,解析得到高频码流和编码标识(参见图12中1210所示),利用编码标识所指示的编码方式对应的解码方式对高频码流进行解码(参见图12中1211所示),经过上述流程,解码得到高频音频信号帧(参见图12中1212所示)。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于图2对应实施例提供的高频音频信号的编码方法,本申请实施例还提供一种高频音频信号的编码装置1300。参见图13,所述高频音频信号的编码装置1300包括获取单元1301、确定单元1302和发送单元1303:
所述获取单元1301,用于获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
所述获取单元1301,还用于获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
所述确定单元1302,用于根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
所述发送单元1303,用于将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
在一种可能的实现方式中,所述确定单元1302,具体用于:
按照所述优先级从高到低的顺序,依次从所述多种编码方式中选择待定编码方式;
确定所述待定编码方式的编码误差;
若所述待定编码方式的编码误差在所述误差预设区间内,将所述待定编码方式确定为所述目标编码方式,停止继续选择待定编码方式。
在一种可能的实现方式中,所述确定单元1302,具体用于:
分别确定所述多种编码方式中每种编码方式的编码误差;
从编码误差在所述误差预设区间内的编码方式中,确定优先级最高的编码方式作为所述目标编码方式。
在一种可能的实现方式中,对于所述多种编码方式的任一编码方式,所述装置还包括重建单元和误差分析单元:
所述获取单元1301,还用于获取从所述原始音频信号帧中分解得到的原始低频音频信号帧;
所述重建单元,用于根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧;
所述误差分析单元,用于基于所述高频重建信号帧和所述原始高频音频信号帧进行误差分析,得到对应的编码误差。
在一种可能的实现方式中,所述误差分析单元,具体用于:
计算所述高频重建信号帧和所述原始高频音频信号帧之间的差值信号;
利用所述差值信号确定所述编码误差。
在一种可能的实现方式中,所述误差分析单元,具体用于:
将所述差值信号作为所述编码误差;
或者,
对所述差值信号进行听觉感知加权能量计算得到差值能量,以及对所述原始高频音频信号帧进行听觉感知加权能量计算得到原始能量;
将所述差值能量和所述原始能量的比值作为所述编码误差。
在一种可能的实现方式中,若所述任一编码方式为音频超分辨率方式,所述重建单元,具体用于:
获取所述音频超分辨率方式对应的神经网络模型;
对所述原始低频音频信号帧进行特征提取,得到低频特征;
根据所述低频特征,通过所述神经网络模型进行预测得到所述高频重建信号帧。
在一种可能的实现方式中,若所述任一编码方式为频带复制方式,所述重建单元,具体用于:
将所述原始低频音频信号帧复制到高频频段,得到高频复制信号帧;
提取所述原始高频音频信号帧的包络特征;
利用所述包络特征对所述高频复制信号帧进行校正,得到所述高频重建信号帧。
在一种可能的实现方式中,若所述任一编码方式为码激励线性预测编码方式,所述重建单元,具体用于:
从所述高频码流中获取编码参数,以及获取所述原始低频音频信号帧的基音周期;
根据所述编码参数和所述基音周期进行高频重建,得到所述高频重建信号帧。
基于图11对应实施例提供的高频音频信号的解码方法,本申请实施例还提供了一种高频音频信号的解码装置1400。参见图14,所述高频音频信号的解码装置1400包括接收单元1401、解析单元1402和解码单元1403:
所述接收单元1401,用于接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
所述解析单元1402,用于解析得到所述高频码流对应的编码标识;
所述解码单元1403,用于根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
本申请实施例还提供了一种计算机设备,该计算机设备可以执行高频音频信号的编解码方法。该计算机设备例如可以是终端,以终端为智能手机为例:
图15示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图15,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文缩写:WiFi)模块1570、处理器1580、以及电源1590等部件。输入单元1530可包括触控面板1531以及其他输入设备1532,显示单元1540可包括显示面板1541,音频电路1560可以包括扬声器1561和传声器1562。可以理解的是,图15中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
在本实施例中,智能手机中的处理器1580可以执行以下步骤:
获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
或,
接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
解析得到所述高频码流对应的编码标识;
根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
本申请实施例还提供一种服务器,请参见图16所示,图16为本申请实施例提供的服务器1600的结构图,服务器1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,简称CPU)1622(例如,一个或一个以上处理器)和存储器1632,一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中,存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1622可以设置为与存储介质1630通信,在服务器1600上执行存储介质1630中的一系列指令操作。
服务器1600还可以包括一个或一个以上电源1626,一个或一个以上有线或无线网络接口1650,一个或一个以上输入输出接口1658,和/或,一个或一个以上操作***1641,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
在本实施例中,由服务器1600中的中央处理器1622执行的步骤可以基于图16所示的结构实现。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的高频音频信号的编解码方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种高频音频信号的编码方法,其特征在于,所述方法包括:
获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
2.根据权利要求1所述的方法,其特征在于,所述根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,包括:
按照所述优先级从高到低的顺序,依次从所述多种编码方式中选择待定编码方式;
确定所述待定编码方式的编码误差;
若所述待定编码方式的编码误差在所述误差预设区间内,将所述待定编码方式确定为所述目标编码方式,停止继续选择待定编码方式。
3.根据权利要求1所述的方法,其特征在于,所述根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,包括:
分别确定所述多种编码方式中每种编码方式的编码误差;
从编码误差在所述误差预设区间内的编码方式中,确定优先级最高的编码方式作为所述目标编码方式。
4.根据权利要求1所述的方法,其特征在于,对于所述多种编码方式的任一编码方式,所述任一编码方式的编码误差的确定方式包括:
获取从所述原始音频信号帧中分解得到的原始低频音频信号帧;
根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧;
基于所述高频重建信号帧和所述原始高频音频信号帧进行误差分析,得到对应的编码误差。
5.根据权利要求4所述的方法,其特征在于,所述基于所述高频重建信号帧和所述原始高频音频信号帧进行误差分析,得到所述编码误差,包括:
计算所述高频重建信号帧和所述原始高频音频信号帧之间的差值信号;
利用所述差值信号确定所述编码误差。
6.根据权利要求5所述的方法,其特征在于,所述利用所述差值确定所述编码误差,包括:
将所述差值信号作为所述编码误差;
或者,
对所述差值信号进行听觉感知加权能量计算得到差值能量,以及对所述原始高频音频信号帧进行听觉感知加权能量计算得到原始能量;
将所述差值能量和所述原始能量的比值作为所述编码误差。
7.根据权利要求4-6任一项所述的方法,其特征在于,若所述任一编码方式为音频超分辨率方式,所述根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧,包括:
获取所述音频超分辨率方式对应的神经网络模型;
对所述原始低频音频信号帧进行特征提取,得到低频特征;
根据所述低频特征,通过所述神经网络模型进行预测得到所述高频重建信号帧。
8.根据权利要求4-6任一项所述的方法,其特征在于,若所述任一编码方式为频带复制方式,所述根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧,包括:
将所述原始低频音频信号帧复制到高频频段,得到高频复制信号帧;
提取所述原始高频音频信号帧的包络特征;
利用所述包络特征对所述高频复制信号帧进行校正,得到所述高频重建信号帧。
9.根据权利要求4-6任一项所述的方法,其特征在于,若所述任一编码方式为码激励线性预测编码方式,所述根据所述原始低频音频信号帧,利用所述任一编码方式进行高频重建,得到高频重建信号帧,包括:
从所述高频码流中获取编码参数,以及获取所述原始低频音频信号帧的基音周期;
根据所述编码参数和所述基音周期进行高频重建,得到所述高频重建信号帧。
10.一种高频音频信号的解码方法,其特征在于,所述方法包括:
接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
解析得到所述高频码流对应的编码标识;
根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
11.一种高频音频信号的编码装置,其特征在于,所述装置包括获取单元、确定单元和发送单元:
所述获取单元,用于获取多种编码方式,以及获取从原始音频信号帧中分解得到的原始高频音频信号帧;
所述获取单元,还用于获取所述多种编码方式分别对应的优先级,按照所述优先级从高到低的顺序,编码方式的编码比特数量递增;
所述确定单元,用于根据编码方式的优先级,从所述多种编码方式中确定编码误差在误差预设区间内的编码方式作为目标编码方式,编码方式的编码误差是利用编码方式对所述原始高频音频信号帧进行编码产生的;
所述发送单元,用于将利用所述目标编码方式对所述原始高频音频信号帧进行编码得到的高频码流发送至接收端,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式。
12.一种高频音频信号的解码装置,其特征在于,所述装置包括接收单元、解析单元和解码单元:
所述接收单元,用于接收发送端发送的高频码流,所述高频码流具有编码标识,所述编码标识用于指示编码得到所述高频码流所使用的编码方式;
所述解析单元,用于解析得到所述高频码流对应的编码标识;
所述解码单元,用于根据所述编码标识所指示的编码方式对应的解码方式对所述高频码流进行解码,得到高频音频信号帧。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码当被处理器执行时使所述处理器执行权利要求1-10任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
CN202210395889.2A 2022-04-15 2022-04-15 一种高频音频信号的编解码方法和相关装置 Active CN114550732B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210395889.2A CN114550732B (zh) 2022-04-15 2022-04-15 一种高频音频信号的编解码方法和相关装置
PCT/CN2023/081461 WO2023197809A1 (zh) 2022-04-15 2023-03-14 一种高频音频信号的编解码方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210395889.2A CN114550732B (zh) 2022-04-15 2022-04-15 一种高频音频信号的编解码方法和相关装置

Publications (2)

Publication Number Publication Date
CN114550732A true CN114550732A (zh) 2022-05-27
CN114550732B CN114550732B (zh) 2022-07-08

Family

ID=81666757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210395889.2A Active CN114550732B (zh) 2022-04-15 2022-04-15 一种高频音频信号的编解码方法和相关装置

Country Status (2)

Country Link
CN (1) CN114550732B (zh)
WO (1) WO2023197809A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116348952A (zh) * 2023-02-09 2023-06-27 北京小米移动软件有限公司 一种音频信号处理、装置、设备及存储介质
WO2023197809A1 (zh) * 2022-04-15 2023-10-19 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置
WO2023241254A1 (zh) * 2022-06-15 2023-12-21 腾讯科技(深圳)有限公司 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101662288A (zh) * 2008-08-28 2010-03-03 华为技术有限公司 音频编码、解码方法及装置、***
CN101710489A (zh) * 2009-11-09 2010-05-19 清华大学 可分级音频编码、解码的方法和装置以及编解码***
US20160111103A1 (en) * 2013-06-11 2016-04-21 Panasonic Intellectual Property Corporation Of America Device and method for bandwidth extension for audio signals
CN106409305A (zh) * 2010-12-29 2017-02-15 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
JP2019049745A (ja) * 2014-03-24 2019-03-28 ソニー株式会社 復号装置および方法、並びにプログラム
JP2019133184A (ja) * 2019-04-05 2019-08-08 株式会社Nttドコモ 音声復号装置、音声復号方法、および音声復号プログラム
CN111489758A (zh) * 2014-03-24 2020-08-04 索尼公司 解码装置、解码方法及存储介质
CN111933159A (zh) * 2017-11-10 2020-11-13 弗劳恩霍夫应用研究促进协会 调适最低有效比特的编码与解码的音频编码器、音频解码器、方法及计算机程序
US20210082448A1 (en) * 2019-09-12 2021-03-18 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112530444A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 音频编码方法和装置
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
US20210151062A1 (en) * 2018-04-25 2021-05-20 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN113841197A (zh) * 2019-03-14 2021-12-24 博姆云360公司 具有优先级的空间感知多频带压缩***
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN114333861A (zh) * 2021-11-18 2022-04-12 腾讯科技(深圳)有限公司 音频处理方法、装置、存储介质、设备及产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11133999A (ja) * 1997-10-29 1999-05-21 Ricoh Co Ltd 音声符号化・復号化装置
CN102074242B (zh) * 2010-12-27 2012-03-28 武汉大学 语音音频混合分级编码中核心层残差提取***及方法
CN113470667A (zh) * 2020-03-11 2021-10-01 腾讯科技(深圳)有限公司 语音信号的编解码方法、装置、电子设备及存储介质
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101662288A (zh) * 2008-08-28 2010-03-03 华为技术有限公司 音频编码、解码方法及装置、***
CN101710489A (zh) * 2009-11-09 2010-05-19 清华大学 可分级音频编码、解码的方法和装置以及编解码***
CN106409305A (zh) * 2010-12-29 2017-02-15 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
US20160111103A1 (en) * 2013-06-11 2016-04-21 Panasonic Intellectual Property Corporation Of America Device and method for bandwidth extension for audio signals
JP2019049745A (ja) * 2014-03-24 2019-03-28 ソニー株式会社 復号装置および方法、並びにプログラム
CN111489758A (zh) * 2014-03-24 2020-08-04 索尼公司 解码装置、解码方法及存储介质
CN111933159A (zh) * 2017-11-10 2020-11-13 弗劳恩霍夫应用研究促进协会 调适最低有效比特的编码与解码的音频编码器、音频解码器、方法及计算机程序
US20210151062A1 (en) * 2018-04-25 2021-05-20 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
CN113841197A (zh) * 2019-03-14 2021-12-24 博姆云360公司 具有优先级的空间感知多频带压缩***
JP2019133184A (ja) * 2019-04-05 2019-08-08 株式会社Nttドコモ 音声復号装置、音声復号方法、および音声復号プログラム
US20210082448A1 (en) * 2019-09-12 2021-03-18 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112530444A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 音频编码方法和装置
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN114333861A (zh) * 2021-11-18 2022-04-12 腾讯科技(深圳)有限公司 音频处理方法、装置、存储介质、设备及产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENHAO HU ET AL: "SPATIAL AUDIO OBJECT CODING BASED ON TIME-FREQUENCY SHIFTING AND SCHEDULING", 《2021 ICME》 *
CHI-MIN LIU ET AL: "HIGH FREQUENCY RECONSTRUCTION FOR BAND-LIMITED AUDIO SIGNALS", 《PROC. OF THE 6TH INT. CONFERENCE ON DIGITAL AUDIO EFFECTS》 *
姜林: "基于非线性映射模型的音频带宽扩展编码研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197809A1 (zh) * 2022-04-15 2023-10-19 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置
WO2023241254A1 (zh) * 2022-06-15 2023-12-21 腾讯科技(深圳)有限公司 音频编解码方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN116348952A (zh) * 2023-02-09 2023-06-27 北京小米移动软件有限公司 一种音频信号处理、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114550732B (zh) 2022-07-08
WO2023197809A1 (zh) 2023-10-19

Similar Documents

Publication Publication Date Title
KR102636424B1 (ko) 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
US11727946B2 (en) Method, apparatus, and system for processing audio data
JP5165559B2 (ja) オーディオコーデックポストフィルタ
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
JP6251773B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
JP2009539132A (ja) オーディオ信号の線形予測符号化
EP3080804A1 (en) Bandwidth extension mode selection
US20190198033A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
AU2023254936A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
RU2667973C2 (ru) Способы и системы переключения технологий кодирования в устройстве
WO2016209541A1 (en) Random noise seed value generation
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
JP2017515155A (ja) 音声情報を用いる改善されたフレーム消失補正
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
CN114863942A (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
WO2011114192A1 (en) Method and apparatus for audio coding
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
JP2000132195A (ja) 信号符号化装置及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070387

Country of ref document: HK