CN107731238B - 多声道信号的编码方法和编码器 - Google Patents
多声道信号的编码方法和编码器 Download PDFInfo
- Publication number
- CN107731238B CN107731238B CN201610652506.XA CN201610652506A CN107731238B CN 107731238 B CN107731238 B CN 107731238B CN 201610652506 A CN201610652506 A CN 201610652506A CN 107731238 B CN107731238 B CN 107731238B
- Authority
- CN
- China
- Prior art keywords
- current frame
- channel
- parameter
- parameters
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 230000003595 spectral effect Effects 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供一种多声道信号的编码方法和编码器,该编码方法包括:获取当前帧的多声道信号;确定当前帧的初始多声道参数;根据当前帧的初始多声道参数,以及当前帧的前K帧的多声道参数,确定差异参数,差异参数用于表征当前帧的初始多声道参数与前K帧的多声道参数的差异,其中,K为大于或等于1的整数;根据差异参数和当前帧的特征参数,确定当前帧的多声道参数;根据当前帧的多声道参数对多声道信号进行编码。本发明能够更好地保证多声道信号的声道间信息的准确性。
Description
技术领域
本发明涉及音频信号编码领域,并且更为具体地,涉及一种多声道信号的编码方法和编码器。
背景技术
随着生活质量的提高,人们对高质量音频的需求不断增大。相对于单声道信号,立体声具有各声源的方位感和分布感,能够提高声音的清晰度、可懂度及临场感,因而备受人们青睐。
立体声处理技术主要有和差(Mid/Sid,MS)编码、强度立体声(Intensity Stereo,IS)编码以及参数立体声(Parametric Stereo,PS)编码。
MS编码基于声道间相关性将两路信号作和、差变换,各声道能量主要集中在和声道,使声道间冗余得以去除。在MS编码技术中,码率的节省依赖于输入信号的相关性,当左右声道信号的相关性差时,需分别传输左声道信号和右声道信号。
IS编码基于人耳听觉***对声道的高频成分(例如,大于2kHz的成分)的相位差异不敏感的特性,将左右两路信号的高频分量进行简化处理。但IS编码技术仅对高频成分有效,如将IS编码技术扩展到低频,将会引起严重的人为噪声。
PS编码是基于双耳听觉模型的编码方式。如图1所示(图1中的xL为左声道时域信号,xR为右声道时域信号),在PS编码过程中,编码端会将立体声信号转换成单声道信号和少量描述空间声场的空间参数(或称空间感知参数)。如图2所示,解码端得到单声道信号和空间参数之后,会结合空间参数恢复立体声信号。相对于MS编码,PS编码压缩比高,因此,PS编码可以在保持较好音质的前提下,获得更高的编码增益。此外,PS编码可以工作在全音频带宽中,能够很好地还原立体声的空间感知效果。
PS编码中,多声道参数(也可称为空间参数)包括声道间相关性(Inter-channelCoherent,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel Time Difference,ITD),整体相位差(Overall Phase Difference,OPD)以及声道间相位差(Inter-channel Phase Difference,IPD)等。IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号的空间感和声响稳定性。ILD用于分辨立体声源的水平方向角度,描述了声道间的能量差别,该参数将影响整个频谱的频率成分。ITD和IPD为表示声源水平方位的空间参数,描述了声道间的时间和相位的差别。ILD、ITD和IPD能够决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重要作用。
在立体声的录音过程中,受到背景噪声、混响、多人同时讲话等因素的影响,按照现有的PS编码方式计算出的多声道参数经常会出现不稳定(多声道参数取值来回跳变)的现象。如果基于这样的多声道参数计算下混合信号,就会导致下混合信号不连续,从而导致解码端得到的立体声质量差,如解码端播放的立体声的声像会频繁晃动,甚至出现听感上的卡顿。
发明内容
本申请提供一种多声道信号的编码方法和编码器,以提升PS编码中的多声道参数的稳定性,从而提升音频信号的编码质量。
第一方面,提供一种多声道信号的编码方法,包括:
获取当前帧的多声道信号;
确定所述当前帧的初始多声道参数;
根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;
根据所述差异参数和所述当前帧的特征参数,确定所述当前帧的多声道参数;
根据所述当前帧的多声道参数对所述多声道信号进行编码。
当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
结合第一方面,在第一方面的某些实现方式中,所述根据所述差异参数和所述当前帧的特征参数,确定所述当前帧的多声道参数,包括:
在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数。
结合第一方面,在第一方面的某些实现方式中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
结合第一方面,在第一方面的某些实现方式中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
结合第一方面,在第一方面的某些实现方式中,所述根据所述当前帧的特征参数,确定所述当前帧的多声道参数,包括:
根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
结合第一方面,在第一方面的某些实现方式中,所述根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数,包括:
根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数中的至少一个。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
结合第一方面,在第一方面的某些实现方式中,所述根据所述当前帧的特征参数,确定所述当前帧的多声道参数,包括:
在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
结合第一方面,在第一方面的某些实现方式中,所述根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,包括:
将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
结合第一方面,在第一方面的某些实现方式中,所述根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,包括:
根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
结合第一方面,在第一方面的某些实现方式中,所述特征参数包括所述当前帧的相关性参数和峰均比参数中的至少一个,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设阈值。
结合第一方面,在第一方面的某些实现方式中,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
结合第一方面,在第一方面的某些实现方式中,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述相关性参数用于表征所述当前帧与所述前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
第二方面,提供一种编码器,包括:
获取单元,用于获取当前帧的多声道信号;
第一确定单元,用于确定所述当前帧的初始多声道参数;
第二确定单元,用于根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;
第三确定单元,用于根据所述差异参数和所述当前帧的特征参数,确定所述当前帧的多声道参数;
编码单元,用于根据所述当前帧的多声道参数对所述多声道信号进行编码。
当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
结合第二方面,在第二方面的某些实现方式中,所述第三确定单元具体用于在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数。
结合第二方面,在第二方面的某些实现方式中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
结合第二方面,在第二方面的某些实现方式中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
结合第二方面,在第二方面的某些实现方式中,所述第三确定单元具体用于根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
结合第二方面,在第二方面的某些实现方式中,所述编码器还包括:
第四确定单元,用于根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
结合第二方面,在第二方面的某些实现方式中,所述第四确定单元具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数中的至少一个。
结合第二方面,在第二方面的某些实现方式中,所述编码器还包括:
第五确定单元,用于根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
结合第二方面,在第二方面的某些实现方式中,所述第三确定单元具体用于在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
结合第二方面,在第二方面的某些实现方式中,所述第三确定单元具体用于将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
结合第二方面,在第二方面的某些实现方式中,所述第三确定单元具体用于根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
结合第二方面,在第二方面的某些实现方式中,所述特征参数包括所述当前帧的相关性参数和峰均比参数中的至少一个,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设阈值。
结合第二方面,在第二方面的某些实现方式中,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
结合第二方面,在第二方面的某些实现方式中,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述相关性参数用于表征所述当前帧与所述前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
第三方面,提供一种编码器,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行第一方面中的方法。
第四方面,提供一种计算机可读介质,所述计算机可读介质存储用于编码器执行的程序代码,所述程序代码包括用于执行第一方面中的方法的指令。
本申请中,当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的PS编码的流程图。
图2是现有技术中的PS解码的流程图。
图3是现有技术中的基于时域的ITD参数提取方法的示例性流程图。
图4是现有技术中的基于频域的ITD参数提取方法的示例性流程图。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。
图6是图5中的步骤540的详细流程图。
图7是本发明实施例的多声道信号的编码方法的示意性流程图。
图8是本发明实施例的编码器的示意性框图。
图9是本发明实施例的编码器的示意性结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
需要说明的是,立体声信号也可称为多声道信号。上文简单介绍了多声道信号的多声道参数ILD、ITD以及IPD的作用和含义,为了便于理解,下文以第一个麦克拾取到的信号为第一声道信号,第二个麦克拾取到的信号为第二声道信号为例,对ILD、ITD以及IPD进行更为详细的说明。
ILD描述了第一声道信号和第二声道信号之间的能量差别,一般情况下,通过左右声道的能量的比值计算,然后转换到对数域。例如,如果ILD值大于0,表示第一声道信号的能量高于第二声道信号的能量;如果ILD值等于0,表示第一声道信号的能量等于第二声道信号的能量;如果ILD值小于0,表示第一声道信号的能量小于第二声道信号的能量。又如,如果ILD小于0,表示第一声道信号的能量高于第二声道信号的能量;如果ILD等于0,表示第一声道信号的能量等于第二声道信号的能量;如果ILD大于0,表示第一声道信号的能量小于第二声道信号的能量。应理解,以上数值仅是举例,ILD的取值与第一声道信号和第二声道信号之间的能量差别的关系可以根据经验或实际需要定义。
ITD描述了第一声道信号和第二声道信号之间的时间差别,即声源产生的声音到达第一个麦克和第二个麦克的时间差异。例如,如果ITD值大于0,表示声源产生的声音到达第一个麦克的时间早于声源产生的声音到达第二个麦克的时间;如果ITD值等于0,表示声源产生的声音同时到达第一个麦克和第二个麦克;如果ITD值小于0,表示声源产生的声音达到第一个麦克的时间晚于声源产生的声音到达第二个麦克的时间。又如,如果ITD小于0,表示声源产生的声音到达第一个麦克的时间早于声源产生的声音到达第二个麦克的时间;如果ITD等于0,表示声源产生的声音同时到达第一个麦克和第二个麦克;如果ITD大于0,表示声源产生的声音达到第一个麦克的时间晚于声源产生的声音到达第二个麦克的时间。应理解,以上数值仅是举例ITD的取值与第一声道信号和第二声道信号之间的时间差别的关系可以根据经验或实际需要定义。
IPD描述了第一声道信号和第二声道信号的相位差别,该参数通常和ITD结合在一起,用于解码端恢复多声道信号的相位信息。
由上文可知,现有的多声道参数的计算方式会引起多声道参数不连续的现象,为了便于理解,下文结合图3和图4,以多声道信号为左右声道信号,多声道参数为ITD值为例,详细描述现有多声道参数的计算方式及其缺点。
在现有技术中,ITD值的计算方式可以有多种,例如,可以在时域进行ITD值的计算,也可以在频域进行ITD值的计算。
图3是基于时域的ITD值计算方法的示例性流程图。图3的方法包括:
310、基于左右声道时域信号计算ITD值。
具体而言,可以基于左右声道时域信号,采用时域互相关函数计算ITD参数,例如:在0≤i≤Tmax范围内,计算:
如果则T1取max(Cn(i))对应的索引值的相反数;否则T1取max(Cp(i))对应的索引值;其中,i为计算互相关函数的索引值,xR为右声道时域信号,xL为左声道时域信号,Tmax对应于不同采样率下ITD取值的最大值,Length为帧长。
320、对ITD值进行量化处理。
图4是基于频域的ITD值计算方法的示例性流程图。图4的方法包括:
410、对左右声道时域信号进行时频变换,得到左右声道频域信号。
具体而言,时频变换可以采用离散傅里叶变换(Discrete FourierTransformation,DFT)、修正的离散余弦变换(Modified Discrete Cosine Transform,MDCT)等技术,将时域信号变换为频域信号。
例如,对于输入的左右声道的时域信号,时频变换可以采用DFT变换,具体地,可以采用如下公式进行DFT变换。
其中,n为时域信号的样点的索引值,k为频域信号的频点的索引值,L为时频变换长度。x(n)为左声道时域信号或右声道时域信号。
420、基于左右声道频域信号计算ITD值。
具体地,可以将频域信号的L个频点(Frequency Bin)划分为多个子带,对于第b个子带,其包含的频点为Ab-1≤k≤Ab-1。在搜索范围-Tmax≤j≤Tmax,可以采用如下公式计算幅值:
430、对ITD值进行量化处理。
现有技术中,如果当前帧的多声道信号的互相关系数峰值较小,计算出的ITD值被认为是不准确的,在这种情况下,当前帧的ITD值将被置零。受到背景噪声、混响、多人同时讲话等因素的影响,按照现有的PS编码方式计算出的ITD值会出现被频繁置零的情况,从而导致ITD值来回跳变,利用这样的ITD值计算出的下混合信号会出现帧间不连续的现象,从而导致多声道信号的听觉质量差。
为了解决多声道参数来回跳变的问题,一种可行处理方式如下:当计算出的当前帧的多声道参数被认为不准确时,可以复用当前帧的前一帧的多声道参数。这种处理方式可以很好地解决多声道参数来回跳变的问题,但是,这种处理方式可能会引起如下问题:如果当前帧中的信号质量较好,计算出的当前帧的多声道参数一般是比较准确的。在这种情况下,如果仍沿用上述处理方式,当前帧的多声道参数可能仍会复用前一帧的多声道参数,而舍弃自身的比较准确的多声道参数,这样会导致多声道信号的声道间信息的不准确。
下文结合图5至图6,详细描述根据本发明实施例的音频信号的编码方法。
图5是本发明实施例的多声道信号的编码方法的示意性流程图。图5的方法包括:
510、获取当前帧的多声道信号。
需要说明的是,本发明实施例对多声道信号的数量不作具体限定。具体地,多声道信号可以是双声道信号,也可以是三声道信号,也可以是三个以上声道的信号。例如,多声道信号可以包括左声道信号和右声道信号。又如,多声道信号可以包括左声道信号、中声道信号、右声道信号和后声道信号。
520、确定当前帧的初始多声道参数。
在一些实施例中,当前帧的初始多声道参数可用于表征多声道信号之间的相关性。
在一些实施例中,当前帧的初始多声道参数包括以下中的至少一种:当前帧的初始IC值,当前帧的初始ITD值,当前帧的初始IPD值,当前帧的初始OPD值以及当前帧的初始ILD值等。
当前帧的初始多声道参数的计算方式可以有多种,具体可以参照现有技术。以多声道参数是ITD值为例,步骤520可以采用图3所示的基于时域的ITD值计算方式,也可以采用图4所述的基于频域的ITD值计算方式,还可以基于下式,采用基于混合域(时域+频域)的ITD值计算方式:
530、根据当前帧的初始多声道参数,以及当前帧的前K帧的多声道参数,确定差异参数,差异参数用于表征当前帧的初始多声道参数与前K帧的多声道参数的差异,其中,K为大于或等于1的整数。
应理解,当前帧的前K帧是指:待编码的音频信号的所有帧中的与当前帧紧邻的前K帧。例如,假设待编码的音频信号包括10帧,K=1,如果当前帧为10帧中的第5帧,那么当前帧的前K帧指该10帧中的第4帧。又如,假设待编码的音频信号包括10帧,K=2,如果当前帧为10帧中的第7帧,那么当前帧的前K帧指该10帧中的第5帧和第6帧。
除非特别说明,下文中出现的前K帧均指当前帧的前K帧,下文出现的前一帧均指当前帧的前一帧。
540、根据差异参数和当前帧的特征参数,确定当前帧的多声道参数。
需要说明的是,多声道参数(包括初始多声道参数)的表现形式可以是数值,因此,多声道参数也可称为多声道参数值。
在一些实施例中,当前帧的特征参数可包含当前帧的单声道参数,所述单声道参数可用于表征所述当前帧的多声道信号中的某个声道的信号的特性。
在一些实施例中,步骤540描述的确定当前帧的多声道参数可包括对初始多声道参数进行修正以获得当前帧的多声道参数。以当前帧的特征参数为当前帧的单声道参数为例,步骤540可以包括:根据差异参数和当前帧的单声道参数,对当前帧的初始多声道参数进行修正以获得当前帧的多声道参数。
在一些实施例中,当前帧的特征参数包括当前帧的以下参数中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数。其中,相关性参数用于表征当前帧与前一帧的相关程度,峰均比参数用于表征当前帧的多声道信号中的至少一个声道的信号的峰均比,信噪比参数用于表征当前帧的多声道信号中的至少一个声道的信号的信噪比,谱倾斜参数用于表征当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度或频谱能量变化趋势。
550、根据当前帧的多声道参数对多声道信号进行编码。
例如,可以执行图1所示的单声道音频编码、空间参数编码、比特流复用等操作,具体编码方式可以参照现有技术。
本发明实施例中,当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
下面详细描述步骤540的实现方式。
可选地,在一些实施例中,步骤540可以包括:在差异参数满足第一预设条件的情况下,根据当前帧的特征参数的大小对当前帧的初始多声道参数的大小进行调整,得到当前帧的多声道参数。
可选地,在一些实施例中,步骤540可以包括:在当前帧的特征参数满足第一预设条件的情况下,根据差异参数的大小对当前帧的初始多声道参数的大小进行调整,得到当前帧的多声道参数。
应理解,上述第一预设条件可以是一个条件,也可以是多个条件的组合,此外,在第一预设条件满足的情况下,还可以结合其他条件继续进行判断,当所有条件都满足的情况下,再执行后续步骤。
可选地,在一些实施例中,如图6所示,步骤540可包括:
542、确定差异参数是否满足第一预设条件;
544、在差异参数满足第一预设条件的情况下,根据当前帧的特征参数,确定当前帧的多声道参数。
应理解,差异参数的定义方式有多种,不同的差异参数的定义方式可以对应不同的第一预设条件。下面对差异参数及其对应的第一预设条件进行详细描述。
可选地,在一些实施例中,差异参数可以是当前帧的初始多声道参数和前一帧的多声道参数的差值或差值的绝对值;第一预设条件可以是差异参数大于预设的第一阈值,该第一阈值可以是目标值的0.3-0.7倍,例如,该第一阈值可以是目标值的0.5倍,其中目标值为前一帧的多声道参数和当前帧的初始多声道参数中的绝对值较大的多声道参数。
可选地,在一些实施例中,差异参数可以是当前帧的初始多声道参数和前K帧的多声道参数的均值的差值或差值的绝对值;第一预设条件可以是差异参数大于预设的第一阈值,该第一阈值可以是目标值的0.3-0.7倍,例如,该第一阈值可以是目标值的0.5倍,其中目标值为前一帧的多声道参数和当前帧的初始多声道参数中的绝对值较大的多声道参数。
可选地,在一些实施例中,差异参数可以是当前帧的初始多声道参数和前一帧的多声道参数的乘积;第一预设条件可以是差异参数小于或等于0。
下文对步骤544的具体实现方式进行详细描述。
可选地,在一些实施例中,步骤544可包括:根据当前帧的相关性参数和/或谱倾斜参数,确定当前帧的多声道参数,其中,相关性参数用于表征当前帧与前一帧的相关程度,谱倾斜参数用于表征当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度或频谱能量变化趋势。
可选地,在一些实施例中,步骤544可包括:根据当前帧的相关性参数和/或峰均比参数,确定当前帧的多声道参数,其中,相关性参数用于表征当前帧与前一帧的相关程度,峰均比参数用于表征当前帧的多声道信号中的至少一个声道的信号的峰均比。
下文对当前帧的相关性参数进行详细描述。
具体地,相关性参数可用于表征当前帧与前一帧的相关程度。当前帧与前一帧的相关程度的表征方式可以有多种,不同的表征方式可以对应不同的相关性参数的计算方式,下面结合具体的实施例进行详细描述。
可选地,在一些实施例中,当前帧与前一帧的相关程度可以通过当前帧和前一帧的多声道信号中的目标声道信号的相关程度进行表征。应理解,当前帧的目标声道信号和前一帧的目标声道信号相互对应,即:如果当前帧的目标声道信号为左声道信号,前一帧的目标声道信号为左声道信号;如果当前帧的目标声道信号为右声道信号,前一帧的目标声道信号为右声道信号;如果当前帧的目标声道信号为左右声道信号,前一帧的目标声道信号为左右声道信号。还应理解,目标声道信号可以是目标声道时域信号或目标声道频信号。
以目标声道信号是频域信号为例,上述根据当前帧和前一帧的多声道信号中的目标声道信号,确定相关性参数,具体可以包括:根据当前帧和前一帧的多声道信号中的目标声道信号的频域参数,确定相关性参数,目标声道信号的频域参数包括目标声道信号的频域幅度值和/或频域系数。
在一些实施例中,目标声道信号的频域幅度值可以是指目标声道信号的部分或全部子带的频域幅度值。例如,可以是目标声道信号的低频部分的子带的频域幅度值。
具体地,以目标声道信号是左声道频域信号为例,假设左声道频域信号的低频部分的频域幅度值包括M个子带,每个子带包括N个频域幅度值,可以根据下式计算当前帧和前一帧的各子带的频域幅度值的归一化互相关值,得到M个子带一一对应的M个归一化互相关值:
其中,|L(i*N+j)|表征当前帧的左声道频域信号的低频部分的第i个子带的第j个频域幅度值,|L(-1)(i*N+j)|表征前一帧的左声道频域信号的低频部分的第i个子带的第j个频域幅度值,cor(i)表征M个子带中的第i个子带的归一化互相关值。
然后,可以将M个归一化互相关值确定为当前帧和前一帧的相关性参数;或者,可以将M个归一化互相关值之和或M个归一化互相关值的平均值确定为当前帧的相关性参数。
在一些实施例中,可以将上文的基于频域幅度值计算相关性参数的方式替换为基于频域系数计算相关性参数。
在一些实施例中,可以将上文的基于频域幅度值计算相关性参数的方式替换为基于频域系数的绝对值计算相关性参数。
应理解,当前帧的多声道信号可以指当前帧的一个或多个子帧的多声道信号;同理,前一帧的多声道信号可以指前一帧的一个或多个子帧的多声道信号。也就是说,相关性参数既可以基于当前帧和前一帧的所有多声道信号进行计算,也可以基于当前帧和前一帧中的一个或一些子帧的多声道信号进行计算。
以目标声道信号为左右声道时域信号为例,可以根据下式计算当前帧的左右声道时域信号与前一帧的左右声道时域信号在每个样点的归一化互相关值,得到N个归一化互相关值,并从该N个归一化互相关值中搜索出最大的归一化互相关值:
其中,L(n)表征左声道时域信号,R(n)表征右声道时域信号,N为左声道时域信号的总样点数,L为右声道时域信号的第n个样点与左声道时域信号的第n个样点之间偏移的样点数。
在一些实施例中,可以将上式计算出的最大归一化互相关值作为当前帧的相关性参数。
应理解,当前帧的多声道信号可以指当前帧的一个或多个子帧的多声道信号;同理,前一帧的多声道信号可以指前一帧的一个或多个子帧的多声道信号。例如,可以以子帧为单位,通过上式计算出多个子帧一一对应的多个最大归一化互相关值,然后将该多个最大归一化互相关值,该多个最大归一化互相关值之和,或该多个最大归一化互相关值的均值中的一个或多个作为当前帧的相关性参数。
上文给出的是基于时频信号的相关性参数计算方式,下文详细描述基于基音周期的相关性参数计算方式。
可选地,在一些实施例中,当前帧与前一帧的相关程度可以通过当前帧和前一帧的基音周期的相关程度进行表征。在这种情况下,可以根据当前帧的基音周期,以及前一帧的基音周期,确定相关性参数。
在一些实施例中,当前帧或前一帧的基音周期可以包括当前帧或前一帧的各个子帧的基音周期。
具体地,可以根据现有的基音周期算法,计算当前帧或当前帧内各子帧的基音周期,并计算前一帧或前一帧内各子帧的基音周期。然后,计算当前帧或前一帧内各子帧的基音周期的偏差值,或者,计算当前帧内各子帧与前一帧内各子帧间的基音周期的偏差值。然后,可以将计算得到的基音周期的偏差值作为当前帧和前一帧的相关性参数。
下文对当前帧的峰均比参数进行详细描述。
当前帧的峰均比参数可用于表征当前帧的多声道信号中的至少一个声道的信号的峰均比。
例如,多声道信号包括左声道信号和右声道信号,峰均比参数可以是左声道信号的峰均比,也可以是右声道信号的峰均比,也可以是左声道信号的峰均比和右声道信号的峰均比的混合。
峰均比参数的计算方式可以有多种。例如,可以基于频域信号的频域幅度值计算。又如,可以基于频域信号的频域系数或频域系数的绝对值计算。
在一些实施例中,频域信号的频域幅度值可以是指频域信号的部分或全部子带的频域幅度值。例如,可以是频域信号的低频部分的子带的频域幅度值。
以左声道频域信号为例,假设左声道频域信号的低频部分包括M个子带,每个子带包括N个频域幅度值,可以计算各子带的N个频域幅度值的峰均比,得到M个子带一一对应的M个峰均比,然后将该M个峰均比,或M个峰均比之和,或M个峰均比的均值作为当前帧的峰均比参数。需要说明的是,在计算各子带的峰均比的过程中,为了减少计算复杂度,可以将各子带的最大频域幅度值与每个子带的N个频域幅度值之和的比值作为峰均比。在峰均比与预设阈值做比较时,可以通过最大频域幅度值与预设阈值和每个子带的N个频域幅度值之和的乘积做比较;也可以通过最大频域幅度值与预设阈值和每个子带的N个频域幅度值的平均值的乘积做比较。
在一些实施例中,当前帧的多声道信号可以指当前帧的一个或多个子帧的多声道信号。
当前帧的特征参数还可以包括当前帧的信噪比参数,下面对信噪比参数进行详细描述。
当前帧的信噪比参数可用于表征当前帧的多声道信号中的至少一个声道的信噪比或信噪比特性。
应理解,当前帧的信噪比参数可以包括一个或多个参数,本发明实施例对参数的具体选取方式不作限定。例如,当前帧的信噪比参数可以包括多声道信号的子带信噪比、修正的子带信噪比、分段信噪比、修正的分段信噪比、全带信噪比、修正的全带信噪比以及可以表征多声道信号的信噪比特性的其他参数中的至少一种。
需要说明的是,本发明实施例对信噪比参数的确定方式不作具体限定。
例如,可以采用多声道信号的全部信号计算当前帧的信噪比参数。
又如,可以采用多声道信号中的部分信号计算当前帧的信噪比参数。
又如,可以自适应选择多声道信号中的任意一个声道的信号进行计算当前帧的信噪比参数。
又如,可以先对表征多声道信号的数据进行加权平均,形成新的信号,然后利用新的信号的信噪比表征该当前帧的信噪比参数。
当前帧的特征参数还可以包括当前帧的谱倾斜参数,下面对谱倾斜参数进行详细描述。
当前帧的谱倾斜参数可用于表征当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度或频谱能量变化趋势。应理解,频谱倾斜程度越大,表示信号浊音性越弱;频谱倾斜程度越小,表示信号的浊音性越强。
下面详细描述步骤544中的根据当前帧的特征参数,确定当前帧的多声道参数的方式。
可选地,在一些实施例中,可以根据当前帧的特征参数,确定当前帧是否复用前一帧的多声道参数。
例如,可以在特征参数满足第二预设条件的情况下,当前帧复用前一帧的多声道参数。或者,可以在特征参数不满足该第二预设条件的情况下,将当前帧的初始多声道参数作为当前帧的多声道参数,应理解,本发明实施例对特征参数不满足该第二预设条件时的处理方式不作具体限定,例如,还可采用现有的其他方式对初始多声道参数进行修正。
可选地,在一些实施例中,可以根据当前帧的特征参数,确定是否根据前T帧的多声道参数的变化趋势,确定当前帧的多声道参数,其中,T大于或等于2。
例如,可以在特征参数满足第二预设条件的情况下,根据前T帧的多声道参数的变化趋势,确定当前帧的多声道参数。或者,可以在特征参数不满足该第二预设条件的情况下,将当前帧的初始多声道参数作为当前帧的多声道参数,应理解,本发明实施例对特征参数不满足该第二预设条件时的处理方式不作具体限定,例如,还可采用现有的其他方式对初始多声道参数进行修正。
应理解,上述第二预设条件可以是一个条件,也可以是多个条件的组合,此外,在第二预设条件满足的情况下,还可以结合其他条件继续进行判断,当所有条件都满足的情况下,再执行后续步骤。
应理解,当前帧的前T帧是指:待编码的音频信号的所有帧中的与当前帧紧邻的前T帧。例如,待编码的音频信号包括10帧,T=2,当前帧为10帧中的第5帧,那么当前帧的前T帧指该10帧中的第3帧和第4帧。
应理解,根据前T帧的多声道参数的变化趋势,确定当前帧的多声道参数的方式可以有多种。以多声道参数为ITD值为例,当前帧的ITD值ITD[i]可以通过如下方式计算得到:
ITD[i]=ITD[i-1]+delta
其中,delta=ITD[i-1]–ITD[i-2],ITD[i-1]表征当前帧的前一帧的ITD值,ITD[i-2]表征当前帧的前一帧的前一帧的ITD值。
下面对上文中的第二预设条件进行详细描述。
应理解,第二预设条件的定义方式可以有多种,且第二预设条件的设定与特征参数的选取有关,本发明实施例对此不作具体限定。
以特征参数为相关性参数和/或峰均比参数,相关性参数为当前帧和前一帧的多声道信号在各个子带的相关值的均值,峰均比参数为当前帧的多声道信号在各个子带的峰均比的均值为例,第二预设条件可以是以下条件中的一个或多个:
相关性参数大于第二阈值,其中,第二阈值的取值范围例如可以是0.6-0.95,例如可以是0.85;
峰均比参数大于第三阈值,第三阈值的取值范围例如可以是0.4-0.8,例如可以是0.6;
相关性参数大于第四阈值且某个子带的相关值大于第五阈值,其中第四阈值的取值范围可以是0.6~0.85,例如可以是0.7;第五阈值的取值范围可以为0.8~0.95,例如可以是0.9;
峰均比参数大于第六阈值且某个子带的峰均比大于第七阈值,第六阈值的取值范围可以为0.4~0.75,例如可以是0.55;第七阈值的取值范围可以是0.6~0.9,例如可以是0.7;
上文中的第二阈值可以大于第四阈值,第四阈值可以小于第五阈值;或者,第三阈值可以大于第六阈值,第六阈值可以小于第七阈值。
需要说明的是,在特征参数包括峰均比参数,第二预设条件包括峰均比参数大于或等于某个预设阈值的情况下,需要确定峰均比参数与预设阈值的大小关系,为了简化计算,可以将峰均比参数与预设阈值的比较过程转换成峰均比中的峰值与目标值进行比较,目标值可以是预设阈值与峰均比的均值的乘积,也可以是预设阈值与用于计算峰均比的参数的和的乘积。以用于计算峰均比的参数为子带的频域幅度值,每个子带包括N个频域幅度值为例,在峰均比与预设阈值做比较时,可以通过每个子带的最大频域幅度值与预设阈值和每个子带的N个频域幅度值之和的乘积做比较;也可以通过每个子带的最大频域幅度值与预设阈值和每个子带的N个频域幅度值的平均值的乘积做比较。
下面结合图7的例子,更加详细地描述本发明实施例。图7主要是以当前帧的多声道信号包括左声道信号和右声道信号,多声道参数是ITD值为例进行说明的,应注意,图7的例子仅仅是为了帮助本领域技术人员理解本发明实施例,而非要将本发明实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的图7的例子,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本发明实施例的范围内。
图7是本发明实施例的多声道信号的编码方法的示意性流程图。应理解,图7示出的处理步骤或操作仅是示例,本发明实施例还可以执行其它操作或者图7中的各种操作的变形。此外,图7中的各个步骤可以按照与图7呈现的不同的顺序来执行,并且有可能并非要执行图7中的全部操作。
图7的方法包括:
710、对当前帧的左右声道时域信号进行时频变换,得到左右声道频域信号。
720、对左右声道频域信号进行归一化互相关运算,得到目标频域信号。
730、对目标频域信号进行频时变换,得到目标时域信号。
740、根据所述目标时域信号,确定当前帧的初始ITD值。
步骤720-740描述的过程可以通过下式表示:
750、进行ITD精细控制,以计算当前帧的ITD值。
760、根据当前帧的ITD值,对左右声道时域信号进行相位偏移。
770、对左右声道时域信号进行下混合。
步骤760-770的实现方式可以参照现有技术,此处不再详述。
步骤750对应于图5中的步骤530,可以采用步骤530给出的任一种实现方式,下文列举几种可选的实现方式。
实现方式一:
步骤一,可以将当前帧的左声道频域信号的低频部分分成M个子带,每个子带包含N个频域幅度值。
步骤二,可以根据下式计算当前帧与前一帧的相关性参数:
其中,|L(i*N+j)|表征当前帧的左声道频域信号的低频部分的第i个子带的第j个频域幅度值,|L(-1)(i*N+j)|表征前一帧的左声道频域信号的低频部分的第i个子带的第j个频域幅度值,cor(i)表征M个子带中的第i个子带对应的归一化互相关值。
应理解,通过步骤二的计算,得到当前帧与前一帧的相关性参数,该相关性参数可以是各子带的归一化互相关值,也可以是各子带的归一化互相关值的均值。
步骤三,计算当前帧的各子带的峰均比。
应理解,步骤二和步骤三可以同时执行,也可以先后执行。此外,每个子带的峰均比可以用每个子带的频域幅度值的峰值和均值的比值表示,也可以用每个子带的频域幅度值的峰值和该子带内的频域幅度值之和的比值表示,这样可以减少计算复杂度。
应理解,通过步骤三的计算,可以得到当前帧的多声道信号的峰均比参数,该峰均比参数可以是各子带的峰均比,也可以是各子带的峰均比之和或各子带的峰均比的均值。
步骤四、如果当前帧的初始ITD值与前一帧的ITD值满足第一预设条件,则根据当前帧的相关性参数和/或峰均比参数,判断当前帧是否复用前一帧的ITD值。
第一预设条件例如可以是:
前一帧的ITD值与当前帧的初始ITD值的乘积为0;或者,
前一帧的ITD值与当前帧的初始ITD值的乘积为负;或者,
前一帧的ITD值与当前帧的初始ITD值的差值的绝对值大于目标值的一半,其中,目标值是前一帧的ITD值和当前帧的初始ITD值中的绝对值较大的ITD值。
需要说明的是,上述第一预设条件可以是一个条件,也可以是多个条件的组合,此外,在第一预设条件满足的情况下,还可以结合其他条件继续进行判断,当所有条件都满足的情况下,再执行后续步骤。
根据当前帧的相关性参数和/或峰均比参数,判断当前帧是否复用前一帧的ITD值具体可以指:判断当前帧的相关性参数和/或峰均比参数是否满足第二预设条件,在当前帧的相关性参数和/或峰均比参数满足第二预设条件的情况下,当前帧复用前一帧的ITD值。
第二预设条件例如可以是:
各子带的归一化互相关值的均值大于第一阈值;或者,
各子带的峰均比的均值大于第二阈值;或者,
各子带的归一化互相关值的均值大于第三阈值且某个子带的归一化互相关值大于第四阈值;或者,
各子带的峰均比的均值大于第五阈值且某个子带的峰均比大于第六阈值;
其中,上述第一阈值大于第三阈值,第三阈值小于第四阈值;第二阈值大于第五阈值,第五阈值小于第六阈值。
需要说明的是,上述第二预设条件可以是一个条件,也可以是多个条件的组合,此外,在第二预设条件满足的情况下,还可以结合其他条件继续进行判断,当所有条件都满足的情况下,再执行后续步骤。
需要说明的是,上文中描述的当前帧的左声道频域信号可以是当前帧中的某一子帧或某一些子帧的左声道频域信号,上文中描述的前一帧的左声道频域信号可以是前一帧中的某一子帧或某一些子帧的左声道频域信号。换句话说,相关性参数可以通过当前帧和前一帧的参数计算得到,也可以通过当前帧和前一帧中的某一子帧或某些子帧的参数计算得到。同理,峰均比参数可以通过当前帧的参数计算得到,也可以通过当前帧中的某一子帧或某些子帧计算得到。
实现方式二:
实现方式二与上述实现方式的不同之处在于:上述实现方式是基于子带的频域幅度值计算当前帧和前一帧的相关性参数,实现方式二是基于子带的频域系数或频域系数的绝对值计算当前帧和前一帧的相关性参数。实现方式二与上述实现方式的具体实现过程类似,此处不再详述。
实现方式三:
实现方式三与上述实现方式的不同之处在于:上述实现方式是基于子带的频域幅度值计算峰均比参数,实现方式三是基于子带的频域系数的绝对值计算峰均比参数。实现方式三与上述实现方式的具体实现过程类似,此处不再详述。
实现方式四:
实现方式四与上述实现方式的不同之处在于:上述实现方式是基于左声道频域信号计算相关性参数和/或峰均比参数,实现方式四是基于右声道频域信号计算相关性参数和/或峰均比参数。实现方式四与上述实现方式的具体实现过程类似,此处不再详述。
实现方式五:
实现方式五与上述实现方式的不同之处在于:上述实现方式是基于左声道频域信号或右声道频域信号计算相关性参数和/或峰均比参数,实现方式五是基于左右声道频域信号计算相关性参数和/或峰均比参数。
具体实现时,可以根据左声道频域信号计算一组相关性参数和/或峰均比参数;再利用右声道频域信号计算一组相关性参数和/或峰均比参数。然后,可以选取两组参数中取值较大的一组作为最终的相关性参数和/或峰均比参数。实现方式五的其他过程与上述实现方式类似,此处不再详述。
实现方式六:
实现方式六与上述实现方式的不同之处:上述实现方式是基于频域信号计算相关性参数,实现方式六是基于时域信号计算相关性参数。
具体地,可以通过下式计算当前帧和前一帧的相关性参数:
其中,L(n)表征左声道时域信号,R(n)表征右声道时域信号,N为左声道时域信号的总样点数,L为右声道信号的第n个样点与左声道的第n个样点之间偏移的样点数。
应理解,这里的左声道时域信号和右声道时域信号可以是当前帧中的所有左声道信号和右声道信号,也可以是当前帧中的某个或某些子帧的左声道信号和右声道信号。
实现方式六的其他实现过程与上述实现方式类似,此处不再详述。
实现方式七:
实现方式七与上述实现方式的不同之处在于:上述实现方式是要判断当前帧是否复用前一帧的ITD值,实现方式七是要判断当前帧的ITD值是否通过当前帧的前T帧的ITD值的变化趋势进行估计,T为大于或等于2的整数。
当前帧的ITD值ITD[i]可以通过如下方式计算得到:
ITD[i]=ITD[i-1]+delta,
其中,delta=ITD[i-1]–ITD[i-2],ITD[i-1]表征当前帧的前一帧的ITD值,ITD[i-2]表征当前帧的前一帧的前一帧的ITD值。
实现方式八:
实现方式八和上述实现方式的不同之处在于:上述实现方式是基于当前帧和前一帧的时频信号计算当前帧和前一帧的相关性参数,实现方式八是基于当前帧和前一帧的基音周期计算该相关性参数。
具体地,可以根据现有的基音周期算法,计算当前帧或当前帧的基音周期;同时计算相应的前一帧的基音周期;计算当前帧与前一帧的基音周期的偏差;将当前帧和前一帧的基音周期的偏差作为当前帧和前一帧的相关性参数。
应理解,当前帧和前一帧的基音周期的偏差可以是当前帧和前一帧整体的基音周期的偏差,也可以是当前帧和前一帧中的某个或某些子帧的基音周期的偏差,也可以是当前帧和前一帧中的某些子帧的基音周期的偏差之和,也可以是当前帧和前一帧中的某些子帧的基音周期的偏差的均值。
实现方式九:
实现方式九和上述实现方式的不同之处在于:上述实现方式是基于相关性参数和/或峰均比参数确定当前帧的ITD值,实现方式九是基于相关性参数和/或频谱倾斜参数确定当前帧的ITD值。
此时,第二预设条件可以是:当前帧和前一帧的相关性参数中的相关值大于某个阈值,和/或频谱斜率参数中的频谱斜率值小于某个阈值(应理解,谱斜率值越大,表示信号的浊音性越弱;频谱斜率值越小,表示信号的浊音性越强)。
实现方式九的其他过程与上述实现方式类似,此处不再详述。
实现方式十:
实现方式十与上述实现方式的区别在于:上述实现方式计算的是当前帧的ITD值,实现方式十计算的是当前帧的IPD值。应理解,步骤710-770中的ITD值相关的计算过程均需要替换成IPD值相关的过程,IPD值的计算方式可以参照现有技术,此处不再详述。
实现方式十的其他过程与上述实现方式大致类似,此处不再详述。
应理解,以上十种实现方式仅是举例说明,实际中,这些实现方式可以相互替换或相互组合,以得到新的实现方式,为了简洁,此处不再一一列举。
下面对本发明的装置实施例进行描述,由于装置实施例可以执行上述方法,因此未详细描述的部分可以参见前面各方法实施例。
图8是本发明实施例的编码器的示意性框图。图8的编码器800包括:
获取单元810,用于获取当前帧的多声道信号;
第一确定单元820,用于确定所述当前帧的初始多声道参数;
第二确定单元830,用于根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;
第三确定单元840,用于根据所述差异参数和所述当前帧的特征参数,确定所述当前帧的多声道参数;
编码单元850,用于根据所述当前帧的多声道参数对所述多声道信号进行编码。
本发明实施例中,当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
可选地,在一些实施例中,所述第三确定单元840具体用于在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数。
可选地,在一些实施例中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
可选地,在一些实施例中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
可选地,在一些实施例中,所述第三确定单元840具体用于根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
可选地,在一些实施例中,所述第三确定单元840具体用于根据所述当前帧的峰均比参数,确定所述当前帧的多声道参数,其中所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比。
可选地,在一些实施例中,所述第三确定单元840具体用于根据所述当前帧的相关性参数和峰均比参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比。
可选地,在一些实施例中,所述编码器还包括:
第四确定单元,用于根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
可选地,在一些实施例中,所述第四确定单元具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数中的至少一个。
可选地,在一些实施例中,所述编码器还包括:
第五确定单元,用于根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
可选地,在一些实施例中,所述第三确定单元840具体用于在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
可选地,在一些实施例中,所述第三确定单元840具体用于将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
可选地,在一些实施例中,所述第三确定单元840具体用于根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
可选地,在一些实施例中,所述特征参数包括所述当前帧的相关性参数和/或峰均比参数,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设的阈值。
可选地,在一些实施例中,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
可选地,在一些实施例中,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述相关性参数用于表征所述当前帧与所述前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
图9是本发明实施例的编码器的示意性框图。图9的编码器900包括:
存储器910,用于存储程序;
处理器920,用于执行程序,当所述程序被执行时,所述处理器920用于获取当前帧的多声道信号;确定所述当前帧的初始多声道参数;根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;根据所述差异参数和所述当前帧的特征参数,确定所述当前帧的多声道参数;根据所述当前帧的多声道参数对所述多声道信号进行编码。
本发明实施例中,当前帧的多声道参数是在综合考虑了当前帧与前K帧之间的差异以及当前帧的特征参数之后确定的,这样的确定方式更加合理,与当前帧直接复用前一帧的多声道参数的方式相比,能够更好地保证多声道信号的声道间信息的准确性。
可选地,在一些实施例中,所述处理器920具体用于在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数。
可选地,在一些实施例中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
可选地,在一些实施例中,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的峰均比参数,确定所述当前帧的多声道参数,其中,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的相关性参数和峰均比参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比。
可选地,在一些实施例中,所述处理器920还用于根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域系数。
可选地,在一些实施例中,所述处理器920具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数。
可选地,在一些实施例中,所述处理器920还用于根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
可选地,在一些实施例中,所述处理器920具体用于在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
可选地,在一些实施例中,所述处理器920具体用于将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
可选地,在一些实施例中,所述处理器920具体用于根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
可选地,在一些实施例中,所述特征参数包括所述当前帧的相关性参数和/或峰均比参数,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设的阈值。
可选地,在一些实施例中,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
可选地,在一些实施例中,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述相关性参数用于表征所述当前帧与所述前一帧的相关程度,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
本文中术语“和/或”表示可以存在三种关系。例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中的字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (26)
1.一种多声道信号的编码方法,其特征在于,包括:
获取当前帧的多声道信号;
确定所述当前帧的初始多声道参数;
根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;
在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数;
根据所述当前帧的多声道参数对所述多声道信号进行编码。
2.如权利要求1所述的方法,其特征在于,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
3.如权利要求1所述的方法,其特征在于,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
4.如权利要求1所述的方法,其特征在于,所述根据所述当前帧的特征参数,确定所述当前帧的多声道参数,包括:
根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
6.如权利要求5所述的方法,其特征在于,所述根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数,包括:
根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数中的至少一个。
7.如权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
8.如权利要求1-7中任一项所述的方法,其特征在于,所述根据所述当前帧的特征参数,确定所述当前帧的多声道参数,包括:
在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
9.如权利要求8所述的方法,其特征在于,所述根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,包括:
将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
10.如权利要求8所述的方法,其特征在于,所述根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,包括:
根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
11.如权利要求8所述的方法,其特征在于,所述当前帧的特征参数包括所述当前帧的相关性参数和峰均比参数中的至少一个,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设阈值。
12.如权利要求1-7中任一项所述的方法,其特征在于,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
13.如权利要求1-7中任一项所述的方法,其特征在于,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
14.一种编码器,其特征在于,包括:
获取单元,用于获取当前帧的多声道信号;
第一确定单元,用于确定所述当前帧的初始多声道参数;
第二确定单元,用于根据所述当前帧的初始多声道参数,以及所述当前帧的前K帧的多声道参数,确定差异参数,所述差异参数用于表征所述当前帧的初始多声道参数与所述前K帧的多声道参数的差异,其中,K为大于或等于1的整数;
第三确定单元,用于在所述差异参数满足第一预设条件的情况下,根据所述当前帧的特征参数,确定所述当前帧的多声道参数;
编码单元,用于根据所述当前帧的多声道参数对所述多声道信号进行编码。
15.如权利要求14所述的编码器,其特征在于,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的差值的绝对值,所述第一预设条件为所述差异参数大于预设的第一阈值。
16.如权利要求14所述的编码器,其特征在于,所述差异参数为所述当前帧的初始多声道参数和所述当前帧的前一帧的多声道参数的乘积,所述第一预设条件为所述差异参数小于或等于0。
17.如权利要求14所述的编码器,其特征在于,所述第三确定单元具体用于根据所述当前帧的相关性参数,确定所述当前帧的多声道参数,其中,所述相关性参数用于表征所述当前帧与所述当前帧的前一帧的相关程度。
18.如权利要求17所述的编码器,其特征在于,所述编码器还包括:
第四确定单元,用于根据所述当前帧的多声道信号中的目标声道信号,以及所述前一帧的多声道信号中的目标声道信号,确定所述相关性参数。
19.如权利要求18所述的编码器,其特征在于,所述第四确定单元具体用于根据所述当前帧的多声道信号中的目标声道信号的频域参数,以及所述前一帧的多声道信号中的目标声道信号的频域参数,确定所述相关性参数,所述频域参数为所述目标声道信号的频域幅度值和频域系数中的至少一个。
20.如权利要求17所述的编码器,其特征在于,所述编码器还包括:
第五确定单元,用于根据所述当前帧的基音周期,以及所述前一帧的基音周期,确定所述相关性参数。
21.如权利要求14至20任一项所述的编码器,其特征在于,所述第三确定单元具体用于在所述特征参数满足第二预设条件的情况下,根据所述当前帧的前T帧的多声道参数,确定所述当前帧的多声道参数,T为大于或等于1的整数。
22.如权利要求21所述的编码器,其特征在于,所述第三确定单元具体用于将所述前T帧的多声道参数确定为所述当前帧的多声道参数,其中,T等于1。
23.如权利要求21所述的编码器,其特征在于,所述第三确定单元具体用于根据所述前T帧的多声道参数的变化趋势,确定所述当前帧的多声道参数,其中,T大于或等于2。
24.如权利要求21所述的编码器,其特征在于,所述特征参数包括所述当前帧的相关性参数和峰均比参数中的至少一个,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述第二预设条件为所述特征参数大于预设阈值。
25.如权利要求14-21中任一项所述的编码器,其特征在于,所述当前帧的初始多声道参数包括以下中的至少一种:所述当前帧的初始声道间相关性IC值,所述当前帧的初始声道间时间差ITD值,所述当前帧的初始声道间相位差IPD值,当前帧的初始整体相位差OPD值,以及所述当前帧的初始声道间电平差ILD值。
26.如权利要求14-21中任一项所述的编码器,其特征在于,所述当前帧的特征参数包括所述当前帧的以下中的至少一种:相关性参数,峰均比参数,信噪比参数,以及谱倾斜参数,所述峰均比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的峰均比,所述信噪比参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的信噪比,所述谱倾斜参数用于表征所述当前帧的多声道信号中的至少一个声道的信号的频谱倾斜程度。
Priority Applications (21)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610652506.XA CN107731238B (zh) | 2016-08-10 | 2016-08-10 | 多声道信号的编码方法和编码器 |
EP22179454.8A EP4120252A1 (en) | 2016-08-10 | 2017-02-22 | Multi-channel signal encoder and computer readable medium |
BR112019002656A BR112019002656A2 (pt) | 2016-08-10 | 2017-02-22 | método de codificação de sinal de canal múltiplo, meio de armazenamento legível por computador e codificador |
ES17838306T ES2928335T3 (es) | 2016-08-10 | 2017-02-22 | Método para codificar señales multicanal y codificador |
KR1020197005937A KR102205596B1 (ko) | 2016-08-10 | 2017-02-22 | 다중 채널 신호 인코딩 방법 및 인코더 |
JP2019507137A JP6768924B2 (ja) | 2016-08-10 | 2017-02-22 | マルチチャネル信号の符号化方法およびエンコーダ |
KR1020227005726A KR102486604B1 (ko) | 2016-08-10 | 2017-02-22 | 다중 채널 신호 인코딩 방법 및 인코더 |
KR1020217001206A KR102367538B1 (ko) | 2016-08-10 | 2017-02-22 | 다중 채널 신호 인코딩 방법 및 인코더 |
PCT/CN2017/074419 WO2018028170A1 (zh) | 2016-08-10 | 2017-02-22 | 多声道信号的编码方法和编码器 |
AU2017310759A AU2017310759B2 (en) | 2016-08-10 | 2017-02-22 | Multi-channel signal encoding method and encoder |
RU2019106315A RU2705427C1 (ru) | 2016-08-10 | 2017-02-22 | Способ кодирования многоканального сигнала и кодировщик |
CA3033225A CA3033225C (en) | 2016-08-10 | 2017-02-22 | Multi-channel signal encoding method and encoder |
EP17838306.3A EP3493203B1 (en) | 2016-08-10 | 2017-02-22 | Method for encoding multi-channel signal and encoder |
US16/272,397 US11133014B2 (en) | 2016-08-10 | 2019-02-11 | Multi-channel signal encoding method and encoder |
JP2020158348A JP7091411B2 (ja) | 2016-08-10 | 2020-09-23 | マルチチャネル信号の符号化方法およびエンコーダ |
AU2020267256A AU2020267256B2 (en) | 2016-08-10 | 2020-11-12 | Multi-channel signal encoding method and encoder |
US17/408,116 US11935548B2 (en) | 2016-08-10 | 2021-08-20 | Multi-channel signal encoding method and encoder |
JP2022096616A JP7443423B2 (ja) | 2016-08-10 | 2022-06-15 | マルチチャネル信号の符号化方法およびエンコーダ |
AU2022218507A AU2022218507B2 (en) | 2016-08-10 | 2022-08-17 | Multi-channel signal encoding method and encoder |
US18/419,794 US20240161756A1 (en) | 2016-08-10 | 2024-01-23 | Multi-Channel Signal Encoding Method and Encoder |
JP2024024588A JP2024063059A (ja) | 2016-08-10 | 2024-02-21 | マルチチャネル信号の符号化方法およびエンコーダ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610652506.XA CN107731238B (zh) | 2016-08-10 | 2016-08-10 | 多声道信号的编码方法和编码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107731238A CN107731238A (zh) | 2018-02-23 |
CN107731238B true CN107731238B (zh) | 2021-07-16 |
Family
ID=61161463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610652506.XA Active CN107731238B (zh) | 2016-08-10 | 2016-08-10 | 多声道信号的编码方法和编码器 |
Country Status (11)
Country | Link |
---|---|
US (3) | US11133014B2 (zh) |
EP (2) | EP3493203B1 (zh) |
JP (4) | JP6768924B2 (zh) |
KR (3) | KR102486604B1 (zh) |
CN (1) | CN107731238B (zh) |
AU (3) | AU2017310759B2 (zh) |
BR (1) | BR112019002656A2 (zh) |
CA (1) | CA3033225C (zh) |
ES (1) | ES2928335T3 (zh) |
RU (1) | RU2705427C1 (zh) |
WO (1) | WO2018028170A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015271774B2 (en) | 2014-06-02 | 2020-04-16 | Cala Health, Inc. | Systems and methods for peripheral nerve stimulation to treat tremor |
CA2988586A1 (en) | 2015-06-10 | 2016-12-15 | Cala Health, Inc. | Neuromodulation system for peripheral nerve stimulation with detachable therapy unit |
EP3352843B1 (en) | 2015-09-23 | 2021-06-23 | Cala Health, Inc. | Device for peripheral nerve stimulation in the finger to treat hand tremors |
US11344722B2 (en) | 2016-01-21 | 2022-05-31 | Cala Health, Inc. | Systems, methods and devices for peripheral neuromodulation for treating diseases related to overactive bladder |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
EP3606604A4 (en) | 2017-04-03 | 2020-12-16 | Cala Health, Inc. | PERIPHERAL NEUROMODULATION SYSTEMS, METHODS AND DEVICES FOR THE TREATMENT OF DISEASES ASSOCIATED WITH BLADDER HYPERACTIVITY |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
US11857778B2 (en) | 2018-01-17 | 2024-01-02 | Cala Health, Inc. | Systems and methods for treating inflammatory bowel disease through peripheral nerve stimulation |
CN110556118B (zh) * | 2018-05-31 | 2022-05-10 | 华为技术有限公司 | 立体声信号的编码方法和装置 |
CN110556116B (zh) * | 2018-05-31 | 2021-10-22 | 华为技术有限公司 | 计算下混信号和残差信号的方法和装置 |
EP4338662A3 (en) * | 2018-09-26 | 2024-04-17 | Cala Health, Inc. | Predictive therapy neurostimulation systems |
CN109243471B (zh) * | 2018-09-26 | 2022-09-23 | 杭州联汇科技股份有限公司 | 一种快速编码广播用数字音频的方法 |
CN112233682A (zh) * | 2019-06-29 | 2021-01-15 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
US11890468B1 (en) | 2019-10-03 | 2024-02-06 | Cala Health, Inc. | Neurostimulation systems with event pattern detection and classification |
CN114365509B (zh) * | 2021-12-03 | 2024-03-01 | 北京小米移动软件有限公司 | 一种立体声音频信号处理方法及设备/存储介质/装置 |
CN115691515A (zh) * | 2022-07-12 | 2023-02-03 | 南京拓灵智能科技有限公司 | 一种音频编解码方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089812A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以使用混叠切换方案将音频信号编码/解码的装置与方法 |
CN102157151A (zh) * | 2010-02-11 | 2011-08-17 | 华为技术有限公司 | 一种多声道信号编码方法、解码方法、装置和*** |
CN102307323A (zh) * | 2009-04-20 | 2012-01-04 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法 |
CN104246873A (zh) * | 2012-02-17 | 2014-12-24 | 华为技术有限公司 | 用于编码多声道音频信号的参数编码器 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6168568B1 (en) * | 1996-10-04 | 2001-01-02 | Karmel Medical Acoustic Technologies Ltd. | Phonopneumograph system |
WO2001082293A1 (en) * | 2000-04-24 | 2001-11-01 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
CN1647156B (zh) * | 2002-04-22 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备 |
DE60317203T2 (de) * | 2002-07-12 | 2008-08-07 | Koninklijke Philips Electronics N.V. | Audio-kodierung |
KR101079066B1 (ko) * | 2004-03-01 | 2011-11-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 멀티채널 오디오 코딩 |
US8843378B2 (en) | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
RU2393550C2 (ru) * | 2005-06-30 | 2010-06-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ кодирования и декодирования звукового сигнала |
RU2376656C1 (ru) * | 2005-08-30 | 2009-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ кодирования и декодирования аудиосигнала и устройство для его осуществления |
WO2007052612A1 (ja) * | 2005-10-31 | 2007-05-10 | Matsushita Electric Industrial Co., Ltd. | ステレオ符号化装置およびステレオ信号予測方法 |
US7839948B2 (en) * | 2005-12-02 | 2010-11-23 | Qualcomm Incorporated | Time slicing techniques for variable data rate encoding |
CN101506874B (zh) * | 2006-09-13 | 2011-12-07 | 日本电信电话株式会社 | 情感检测方法、情感检测装置 |
KR101505831B1 (ko) * | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
CN101188878B (zh) * | 2007-12-05 | 2010-06-02 | 武汉大学 | 立体声音频信号的空间参数量化及熵编码方法和所用*** |
US8239210B2 (en) * | 2007-12-19 | 2012-08-07 | Dts, Inc. | Lossless multi-channel audio codec |
US8258849B2 (en) * | 2008-09-25 | 2012-09-04 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
US8666752B2 (en) * | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
CN101582262B (zh) * | 2009-06-16 | 2011-12-28 | 武汉大学 | 一种空间音频参数帧间预测编解码方法 |
CN102025892A (zh) * | 2009-09-16 | 2011-04-20 | 索尼株式会社 | 镜头转换检测方法及装置 |
WO2011034374A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
KR101391110B1 (ko) * | 2009-09-29 | 2014-04-30 | 돌비 인터네셔널 에이비 | 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림 |
PL2491551T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
ES2656815T3 (es) * | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
US9112591B2 (en) * | 2010-04-16 | 2015-08-18 | Samsung Electronics Co., Ltd. | Apparatus for encoding/decoding multichannel signal and method thereof |
US8305099B2 (en) | 2010-08-31 | 2012-11-06 | Nxp B.V. | High speed full duplex test interface |
EP2609589B1 (en) * | 2010-09-28 | 2016-05-04 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
CN103180899B (zh) * | 2010-11-17 | 2015-07-22 | 松下电器(美国)知识产权公司 | 立体声信号的编码装置、解码装置、编码方法及解码方法 |
US9424852B2 (en) * | 2011-02-02 | 2016-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
EP2710588B1 (en) * | 2011-05-19 | 2015-09-09 | Dolby Laboratories Licensing Corporation | Forensic detection of parametric audio coding schemes |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
KR101662681B1 (ko) * | 2012-04-05 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 |
CN104380376B (zh) * | 2012-06-14 | 2017-03-15 | 杜比国际公司 | 解码***、重构方法和设备、编码***、方法和设备及音频发布*** |
US20140086416A1 (en) * | 2012-07-15 | 2014-03-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
WO2014013294A1 (en) | 2012-07-19 | 2014-01-23 | Nokia Corporation | Stereo audio signal encoder |
KR20140017338A (ko) * | 2012-07-31 | 2014-02-11 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 장치 및 방법 |
CN108074579B (zh) | 2012-11-13 | 2022-06-24 | 三星电子株式会社 | 用于确定编码模式的方法以及音频编码方法 |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
US9715880B2 (en) * | 2013-02-21 | 2017-07-25 | Dolby International Ab | Methods for parametric multi-channel encoding |
US9659569B2 (en) * | 2013-04-26 | 2017-05-23 | Nokia Technologies Oy | Audio signal encoder |
WO2014191793A1 (en) * | 2013-05-28 | 2014-12-04 | Nokia Corporation | Audio signal encoder |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
CN104282309A (zh) * | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理*** |
EP2830051A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2838086A1 (en) * | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
CN104681029B (zh) * | 2013-11-29 | 2018-06-05 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
US9595269B2 (en) * | 2015-01-19 | 2017-03-14 | Qualcomm Incorporated | Scaling for gain shape circuitry |
EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP6721977B2 (ja) * | 2015-12-15 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法 |
CN117238300A (zh) * | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
-
2016
- 2016-08-10 CN CN201610652506.XA patent/CN107731238B/zh active Active
-
2017
- 2017-02-22 JP JP2019507137A patent/JP6768924B2/ja active Active
- 2017-02-22 RU RU2019106315A patent/RU2705427C1/ru active
- 2017-02-22 ES ES17838306T patent/ES2928335T3/es active Active
- 2017-02-22 BR BR112019002656A patent/BR112019002656A2/pt active Search and Examination
- 2017-02-22 EP EP17838306.3A patent/EP3493203B1/en active Active
- 2017-02-22 CA CA3033225A patent/CA3033225C/en active Active
- 2017-02-22 KR KR1020227005726A patent/KR102486604B1/ko active IP Right Grant
- 2017-02-22 WO PCT/CN2017/074419 patent/WO2018028170A1/zh unknown
- 2017-02-22 KR KR1020197005937A patent/KR102205596B1/ko active IP Right Grant
- 2017-02-22 KR KR1020217001206A patent/KR102367538B1/ko active IP Right Grant
- 2017-02-22 AU AU2017310759A patent/AU2017310759B2/en active Active
- 2017-02-22 EP EP22179454.8A patent/EP4120252A1/en active Pending
-
2019
- 2019-02-11 US US16/272,397 patent/US11133014B2/en active Active
-
2020
- 2020-09-23 JP JP2020158348A patent/JP7091411B2/ja active Active
- 2020-11-12 AU AU2020267256A patent/AU2020267256B2/en active Active
-
2021
- 2021-08-20 US US17/408,116 patent/US11935548B2/en active Active
-
2022
- 2022-06-15 JP JP2022096616A patent/JP7443423B2/ja active Active
- 2022-08-17 AU AU2022218507A patent/AU2022218507B2/en active Active
-
2024
- 2024-01-23 US US18/419,794 patent/US20240161756A1/en active Pending
- 2024-02-21 JP JP2024024588A patent/JP2024063059A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089812A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以使用混叠切换方案将音频信号编码/解码的装置与方法 |
CN102307323A (zh) * | 2009-04-20 | 2012-01-04 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法 |
CN102157151A (zh) * | 2010-02-11 | 2011-08-17 | 华为技术有限公司 | 一种多声道信号编码方法、解码方法、装置和*** |
CN104246873A (zh) * | 2012-02-17 | 2014-12-24 | 华为技术有限公司 | 用于编码多声道音频信号的参数编码器 |
Non-Patent Citations (1)
Title |
---|
ISO/IEC 14496-3:2009(E),fourth edition,part 8;MOTION PICTURE EXPERT GROUP;《82th.MPEG MEETING》;20090515;1、12-15、26-28 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731238B (zh) | 多声道信号的编码方法和编码器 | |
US9449603B2 (en) | Multi-channel audio encoder and method for encoding a multi-channel audio signal | |
EP2834814B1 (en) | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder | |
CN107742521B (zh) | 多声道信号的编码方法和编码器 | |
CN110462733B (zh) | 多声道信号的编解码方法和编解码器 | |
WO2017206794A1 (zh) | 一种声道间相位差参数的提取方法及装置 | |
CN107358959B (zh) | 多声道信号的编码方法和编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |