CN105632505B - 主成分分析pca映射模型的编解码方法及装置 - Google Patents
主成分分析pca映射模型的编解码方法及装置 Download PDFInfo
- Publication number
- CN105632505B CN105632505B CN201410710991.2A CN201410710991A CN105632505B CN 105632505 B CN105632505 B CN 105632505B CN 201410710991 A CN201410710991 A CN 201410710991A CN 105632505 B CN105632505 B CN 105632505B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- vector
- coefficient
- mapping
- mapping matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 147
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 121
- 238000013139 quantization Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 109
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种主成分分析PCA映射模型的编解码方法及装置,该编码方法包括:对频带划分后的各频带进行频带组合处理,获得各频带组;为所述各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;对所述第一映射矩阵进行量化编码。由上可见,本发明实施例在对PCA映射模型进行编码时,不是对频带划分后的每个频带对应的映射矩阵进行编码,而是通过频带组合处理,将需要编码的映射矩阵数量由原来的每个频带对应的映射矩阵减少为每个频带组对应的映射矩阵,从而有效地降低了编码码率。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及主成分分析(PCA,PrincipalComponents Analysis)映射模型的编解码方法及装置。
背景技术
随着科技的发展,出现了多种对声音信号的编码技术,上述声音通常指的是语音、音乐、自然声音和人工合成声音等人耳可感知的信号在内的数字声音。其中,在对多声道声音信号进行编码时,通常会涉及到PCA映射模型的编码。
现有技术中,在对多声道声音信号进行编码时,先要对多声道声音信号进行频带划分,相应地,在对PCA映射模型进行编码时,要对划分后的每个频带对应的映射矩阵进行量化编码,由于需要编码的映射矩阵数量较多,因此导致PCA映射模型的编码码率过高。
发明内容
本发明提供了一种PCA映射模型的编解码方法及装置,有效降低了PCA映射模型的编码码率。
为实现上述目的,第一方面,本发明提供了一种PCA映射模型的编码方法,所述方法包括:
对频带划分后的各频带进行频带组合处理,获得各频带组;
为所述各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;
对所述第一映射矩阵进行量化编码。
第二方面,本发明提供了一种PCA映射模型的解码方法,所述方法包括:
确定被编码的映射矩阵中被编码的矢量;
对所述矢量中的被编码的系数进行解码获得所述系数的重建值;
根据所述系数的重建值重建所述矢量;
根据所述矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
第三方面,本发明提供了一种PCA映射模型的编码装置,所述装置包括:
频带组合单元,用于对频带划分后的各频带进行频带组合处理,获得各频带组;
矩阵确定单元,用于为所述频带组合单元获得的各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;
编码单元,用于对所述矩阵确定单元确定的第一映射矩阵进行量化编码。
第四方面,本发明提供了一种PCA映射模型的解码装置,所述装置包括:
矢量确定单元,用于确定被编码的映射矩阵中被编码的矢量;
解码单元,用于对所述矢量确定单元确定的矢量中的被编码的系数进行解码获得所述系数的重建值;
矢量重建单元,用于根据所述解码单元获得的系数的重建值重建所述矢量;
矩阵重建单元,用于根据所述矢量重建单元重建的矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
本发明实施例的PCA映射模型的编码方法,先要对频带划分后的各频带进行频带组合处理,获得各频带组,然后为各频带组中的每个频带组确定第一映射矩阵,第一映射矩阵为频带组中的各频带共用的一组PCA映射模型的映射矩阵,再对第一映射矩阵进行量化编码。由上可见,本发明实施例在对PCA映射模型进行编码时,不是对频带划分后的每个频带对应的映射矩阵进行编码,而是通过频带组合处理,将需要编码的映射矩阵数量由原来的每个频带对应的映射矩阵减少为每个频带组对应的映射矩阵,从而有效地降低了编码码率。
附图说明
图1为本发明一个实施例中PCA映射模型的编码方法流程图;
图2为本发明另一个实施例中PCA映射模型的编码装置结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明一个实施例中PCA映射模型的编码方法流程图,该实施例中首先对频带划分后的各频带的映射矩阵进行频带组合处理,然后对选定编码的映射矩阵进行量化编码,该方法包括:
步骤101,对频带划分后的各频带进行频带组合处理,获得各频带组。
其中,可以根据频带信号的特点和/或心理声学模型和/或模型参数相似度对频带划分后的各频带进行频带组合处理,获得各频带组。
本发明实施例中,可以具体采用下述任意一种方式或者下述方式的任意组合来进行频带组合处理:第一种方式,比较相邻两个频带的能量大小,当一个频带的能量低于根据相邻频带能量计算得出的能量阈值时,对这两个频带进行组合,将这两个频带划分到一个频带组;第二种方式,根据心理声学模型计算某一频带的掩蔽阈值,当频带的能量低于掩蔽阈值时,将这一频带与相邻频带进行组合,将这两个频带划分到一个频带组;第三种方式,计算相邻两个或几个频带的映射矩阵之间的距离,当最大距离小于距离阈值时,将这两个或几个频带进行组合,将这两个或几个频带划分到一个频带组。
步骤102,为所述各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵。
其中,为频带组确定第一映射矩阵时,可以在该频带组中的每个频带对应的映射矩阵中选取一个映射矩阵作为第一映射矩阵,例如,可以选取频带能量最高的频带对应的映射矩阵作为第一映射矩阵;也可以针对该频带组重新计算获得映射矩阵。本发明实施例中,可以采取多种方式来为每个频带组确定第一映射矩阵。
步骤103,对所述第一映射矩阵进行量化编码。
其中,映射矩阵由一系列系数组成,为了进一步降低编码码率,本发明实施例中不对第一映射矩阵中的所有系数进行量化编码,而是根据PCA映射模型的特点,从中选取部分系数进行量化编码。
具体地,可以根据PCA分析的维度和多声道声音信号进行编码的分组个数,从所述第一映射矩阵中选择需要进行编码的系数并进行量化编码。
进一步地,可以根据PCA分组数和多声道声音信号中被选择进行编码的分组情况,确定第一映射矩阵中需要被编码的矢量;对矢量中需要编码的系数进行量化编码。
下面针对映射矩阵的量化编码进行详细说明。
由于映射矩阵由一系列系数组成,本发明实施例中可以根据PCA分析的维度和多声道声音信号进行编码的分组个数,从映射矩阵中选择需要进行编码的系数并进行量化编码。根据映射矩阵的系数之间的关系可知,并不是所有的矩阵系数都需要进行量化编码,有些不需要进行编码,可以根据已经编码的系数值运算得到,有些则只需要编码符号位。通过对系数进行组织和选择,可以达到降低编码码率的目的。
当对两个声道信号进行PCA分析时,映射矩阵W(t,k)是2*2的矩阵,有4个系数,其中,t为帧(或子帧)序号,k为频率序号。
W(t,k)可以通过下式来表示:
W(t,k)为单位正交矩阵,满足:
因此,W(t,k)可表达为
由上可见,只需要对β或其转换形式如cosβ或sinβ等进行编码。
当对四个声道信号进行PCA分析时,映射矩阵W(t,k)是4*4的矩阵,有16个系数,W(t,k)可以通过下式来表示:
W(t,k)为单位正交矩阵,满足:
当只对多声道声音信号中的第一主成分进行编码时,只需要对a11、a12、a13、a14进行编码。因为满足所以可从a11、a12、a13、a14四个系数中选择三个重要的系数进行量化编码,而第四个系数仅进行符号位编码或不编码,其绝对值由前三个系数求解得到。选择的依据可以是系数的绝对值大小或位置关系等。比如选择a14仅编码符号位,而其余系数进行量化编码,a14的绝对值可由公式计算得到。比如选择绝对值最大的系数只进行符号编码,而其余系数进行量化编码;若W(t,k)的求解过程中保证了每个向量中绝对值最大的系数是正值或负值,则对绝对值最大的系数不进行编码,而对其余系数进行量化编码。
当对第二多声道声音信号中的第一、第二主成分进行编码时,则需要对a11、a12、a13、a14、a21、a22、a23、a24进行编码。因为满足
所以有
因此可从a11、a12、a13、a14中选择一个系数仅仅进行符号位编码或不编码,而对其余3个系数进行量化编码;而对于a21、a22、a23、a24可选择2个系数进行量化编码,另外2个系数则利用上述关系式推导得出,比如选择a21、a22进行量化编码,则a23、a24满足:
求解此方程式可得一组解或两组解当得到两组解时,则需要判断哪组解符合原数据a23、a24,若符合,则令selectflag=0;否则,令selectflag=1,Selectflag也需要进行编码。由于系数量化过程中存在误差,有时会使得上述方程式组无解,或者求解得到的与原始数据存在较大误差。此时,可不利用条件
而仅仅利用
从a11、a12、a13、a14及a21、a22、a23、a24中分别选择一个系数仅仅进行符号位编码,而对其余6个系数进行量化编码,比如选择对a14和a24仅进行符号位编码时,a14绝对值由a11、a12、a13求解得到,a24绝对值由a21、a22、a23求解得到。
普遍地,当对M个声道信号进行PCA分析时,W(t,k)是M*M的矩阵,有M*M个系数,W(t,k)为单位正交矩阵,具体可以表示为下式:
当对多声道声音信号中的u组信号进行编码时,则只需对的系数进
行编码。利用矩阵系数满足的条件:降低所需要量化的系数的个数,
对一些系数仅编码符号位或不编码。
本发明实施例中,对映射矩阵W(t,k)的系数进行量化编码可以采用标量编码方式,也可以采用矢量编码的方法;既可以直接对W(t,k)的系数进行编码,也可在W(t,k)的某变换形式进行编码。
对映射矩阵W(t,k)进行量化编码的步骤可以包括:
步骤1,根据PCA分组数M和多声道声音信号中被选择进行编码的分组情况,确定映射矩阵W(t,k)中需要被编码的矢量
步骤2,对矢量中需要编码的系数进行量化编码。
本发明实施例中,当PCA分组数为2时,编码方法还可以包括:确定位置标识,所述位置标识用于指示所述第一系数;在所述对所述第一系数进行量化编码时,对所述位置标识进行量化编码。例如,当PCA分组数M=2时,选择对矢量进行编码,具体步骤如下:
步骤1,确定位置标识Dataposflag,如果a11绝对值小于a12的绝对值,则Dataposflag为1,待量化数据aq=a11,否则Dataposflag为0,待量化数据aq=a12;
步骤2,对Dataposflag和aq进行量化编码。
本发明实施例中,当PCA分组数为3时,对矢量中需要编码的系数进行量化编码,具体可以包括:根据所述矢量中各系数的大小关系,确定第一位置信息和第二位置信息,所述第一位置信息用于指示绝对值最小的系数的位置,所述第二位置信息用于指示绝对值次小的系数的位置;对所述矢量中绝对值最小的系数、绝对值次小的系数、所述第一位置信息和所述第二位置信息进行量化编码。
例如,当PCA分组数M=3、多声道声音信号中第一和第二主成分被选择编码时,具体步骤如下:
步骤1,对中的a11、a12,以及中的a21进行量化编码,并得到重建值
步骤2,对a13的符号位sign13进行编码,并计算得到a13的重建值如果a13是正数,则sign13=1,否则sign13=0;的计算公式如下:
步骤3,求解如下方程式组得到两组解
步骤4,比较{a22、a23}与如果更接近{a22、a23},则selectflag=0;否则,selectflag=1。对selectflag进行编码。
本发明实施例中,上述过程利用了映射矩阵的系数矢量和都是单位矢量且相互正交的性质,由于量化过程存在误差,可能会使得方程式组无解或者使得{a22、a23}量化误差很大,带来映射矩阵不稳定等问题,因此可以选择只利用系数矢量和都是单位矢量这一性质,而不利用矢量相互正交的性质,此时具体编码步骤如下:
步骤1,对中的a11、a12,以及中的a21、a22进行量化编码;
步骤2,对a13和a23的符号位sign13、sign23进行编码,如果a13是正数,则sign13=1,否则sign13=0;如果a23是正数,则sign23=1,否则sign23=0。
当PCA分组数M=3、多声道声音信号中第一和第二主成分被选择编码时,选择对映射矩阵W(t,k)中的矢量和进行编码,还可以先对系数进行排序然后再进行量化,具体步骤如下:
步骤1,根据中各系数的大小关系,确定位置信息minindex11和minindex12,其中,minindex11是绝对值最小的系数的位置,minindex12是绝对值次小的系数的位置;根据中各系数的大小关系,确定位置信息minindex21和minindex22,其中,minindex21是绝对值最小的系数的位置,minindex22是绝对值次小的系数的位置;
步骤2,对minindex11、minindex12、minindex21和minindex22进行编码,并对绝对值最小和次小的系数进行量化编码;
其中,为提高编码效率,minindex11、minindex12、minindex21和minindex22可以两个或多个组合在一起进行量化,也可以采用哈夫曼编码等熵编码方法来降低码率。
此时,也可以进一步利用和正交的性质来进一步减少需要量化编码的系数的个数,具体过程与前述按照原始顺序进行编码的过程中类似,在此不再赘述。
由上述处理过程可知,本发明实施例的PCA映射模型的编码方法,先要对频带划分后的各频带进行频带组合处理,获得各频带组,然后为各频带组中的每个频带组确定第一映射矩阵,第一映射矩阵为频带组中的各频带共用的一组PCA映射模型的映射矩阵,再对第一映射矩阵进行量化编码。由上可见,本发明实施例在对PCA映射模型进行编码时,不是对频带划分后的每个频带对应的映射矩阵进行编码,而是通过频带组合处理,将需要编码的映射矩阵数量由原来的每个频带对应的映射矩阵减少为每个频带组对应的映射矩阵,从而有效地降低了编码码率。
与本发明实施例提供的PCA映射模型的编码方法向适应,本发明实施例还提供了PCA映射模型的解码方法,该解码方法具体可以包括下述处理过程:
步骤一,确定被编码的映射矩阵中被编码的矢量;
步骤二,对所述矢量中的被编码的系数进行解码获得所述系数的重建值;
步骤三,根据所述系数的重建值重建所述矢量;
步骤四,根据所述矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
优选地,当所述PCA分组数为2时,所述根据所述系数的重建值重建所述矢量之前,所述解码方法还可以包括:对位置标识的编码进行解码获得位置标识,所述位置标识用于指示被编码的系数在所述矢量中的位置;所述根据所述系数的重建值重建所述矢量,具体可以包括:根据所述位置标识和所述系数的重建值重建所述矢量。
优选地,当所述PCA分组数为3,所述系数包括所述矢量中绝对值最小的系数和绝对值次小的系数时,所述根据所述系数的重建值重建所述矢量之前,所述方法还可以包括:对第一位置信息的编码和第二位置信息的编码进行解码获得第一位置信息和第二位置信息,所述第一位置信息用于指示绝对值最小的系数的位置,所述第二位置信息用于指示绝对值次小的系数的位置;所述根据所述系数的重建值重建所述矢量,具体可以包括:根据所述矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述第一位置信息和所述第二位置信息确定所述矢量中绝对值最大的系数的重建值;根据所述矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述矢量中绝对值最大的系数的重建值、所述第一位置信息和所述第二位置信息重建所述矢量。
具体地,映射矩阵W(t,k)的解码可以包括如下步骤:
步骤1,对矢量中需要编码的系数进行解码;
步骤2,根据解码的矢量重构映射矩阵W(t,k)。
例如,当PCA分组数M=2时,具体解码步骤如下:
步骤1,对位置标识Dataposflag和aq进行解码;
步骤2,根据Dataposflag和aq,确定若Dataposflag为1,则否则
步骤3,重构W(t,k)。
当PCA分组数M=3,多声道声音信号中第一和第二主成分被选择编码时,解码具体步骤如下:
步骤1,解码得到中的中的a21,sign13以及符号位selectflag;
步骤2,根据sign13运算得到
步骤3,求解如下方程式组得到两组解
步骤4,如果selectflag=1,则用替换
步骤5,得到并重构W(t,k)。
当选择只利用系数矢量和都是单位矢量这一性质,而不利用矢量相互正交的性质进行量化编码时,对应的解码具体步骤如下:
步骤1,解码得到中的中的以及符号位sign13、sign23;
步骤2,根据sign13、sign23运算得到和并重构
步骤3,根据重构W(t,k);
当选择先对系数进行排序然后量化编码的方法时,对应的解码具体步骤如下:
步骤1,解码得到minindex11、minindex12、minindex21、minindex22,以及绝对值最小和次小的系数的重建值aq11、aq12、aq21、aq22;
步骤2,根据重建值aq11、aq12、aq21、aq22,计算和中各自的绝对值最大值的系数aq13、aq23。
步骤3,根据解码得到的位置信息inindex11、minindex12、minindex21、minindex22及aq11、aq12、aq21、aq22、aq13、aq23来重构
步骤4,根据重构W(t,k)。
图2为本发明一个实施例中PCA映射模型的编码装置结构示意图,该装置包括:
频带组合单元201,用于对频带划分后的各频带进行频带组合处理,获得各频带组;
矩阵确定单元202,用于为所述频带组合单元201获得的各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;
编码单元203,用于对所述矩阵确定单元202确定的第一映射矩阵进行量化编码。
优选地,所述频带组合单元201,具体用于根据频带信号的特点和/或心理声学模型和/或模型参数相似度对频带划分后的各频带进行频带组合处理,获得各频带组。
优选地,所述频带组合单元201具体包括:
第一频带组合子单元,用于比较相邻两个频带的能量大小,当一个频带的能量低于根据相邻频带能量计算得出的能量阈值时,对这两个频带进行组合,将这两个频带划分到一个频带组;和/或
第二频带组合子单元,用于根据心理声学模型计算某一频带的掩蔽阈值,当频带的能量低于掩蔽阈值时,将这一频带与相邻频带进行组合,将这两个频带划分到一个频带组;和/或
第三频带组合子单元,用于计算相邻两个或几个频带的映射矩阵之间的距离,当最大距离小于距离阈值时,将这两个或几个频带进行组合,将这两个或几个频带划分到一个频带组。
优选地,映射矩阵由一系列系数组成,所述编码单元203,具体用于根据PCA分析的维度和多声道声音信号进行编码的分组个数,从所述第一映射矩阵中选择需要进行编码的系数并进行量化编码。
优选地,所述编码单元203具体包括:
矢量确定子单元,用于根据PCA分组数M和多声道声音信号中被选择进行编码的分组情况,确定映射矩阵W(t,k)中需要被编码的矢量;
编码子单元,用于对所述矢量确定子单元确定的矢量中需要编码的系数进行量化编码。
相应地,本发明实施例还提供了PCA映射模型的解码装置,所述装置包括:
矢量确定单元,用于确定被编码的映射矩阵中被编码的矢量;
解码单元,用于对所述矢量确定单元确定的矢量中的被编码的系数进行解码获得所述系数的重建值;
矢量重建单元,用于根据所述解码单元获得的系数的重建值重建所述矢量;
矩阵重建单元,用于根据所述矢量重建单元重建的矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
优选地,所述解码单元还用于:当所述PCA分组数为2时,在所述矢量重建单元根据所述系数的重建值重建所述矢量之前,对位置标识的编码进行解码获得位置标识,所述位置标识用于指示被编码的系数在所述矢量中的位置;
所述矢量重建单元具体用于:根据所述解码单元获得的位置标识和所述系数的重建值重建所述矢量。
优选地,所述解码单元还用于:当所述PCA分组数为3,所述系数包括所述矢量中绝对值最小的系数和绝对值次小的系数时,在所述矢量重建单元根据所述系数的重建值重建所述矢量之前,对第一位置信息的编码和第二位置信息的编码进行解码获得第一位置信息和第二位置信息,所述第一位置信息用于指示绝对值最小的系数的位置,所述第二位置信息用于指示绝对值次小的系数的位置;
所述矢量重建单元具体用于:根据所述解码单元获得的矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述第一位置信息和所述第二位置信息确定所述矢量中绝对值最大的系数的重建值;根据所述矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述矢量中绝对值最大的系数的重建值、所述第一位置信息和所述第二位置信息重建所述矢量。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种主成分分析PCA映射模型的编码方法,其特征在于,所述方法包括:
对频带划分后的各频带进行频带组合处理,获得各频带组;
为所述各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;
映射矩阵由一系列系数组成,对所述第一映射矩阵进行量化编码;其中,根据PCA分组数和多声道声音信号中被选择进行编码的分组情况,确定所述第一映射矩阵中需要被编码的矢量,对所述矢量中需要编码的系数进行量化编码。
2.如权利要求1所述的方法,其特征在于,所述对频带划分后的各频带进行频带组合处理,获得各频带组,具体包括:
根据频带信号的特点和/或心理声学模型和/或模型参数相似度对频带划分后的各频带进行频带组合处理,获得各频带组。
3.如权利要求1所述的方法,其特征在于,所述对频带划分后的各频带进行频带组合处理,获得各频带组,具体包括:
比较相邻两个频带的能量大小,当一个频带的能量低于根据相邻频带能量计算得出的能量阈值时,对这两个频带进行组合,将这两个频带划分到一个频带组;和/或
根据心理声学模型计算某一频带的掩蔽阈值,当频带的能量低于掩蔽阈值时,将这一频带与相邻频带进行组合,将这两个频带划分到一个频带组;和/或
计算相邻两个或几个频带的映射矩阵之间的距离,当最大距离小于距离阈值时,将这两个或几个频带进行组合,将这两个或几个频带划分到一个频带组。
4.如权利要求1所述的方法,其特征在于,所述对所述矢量中需要编码的系数进行量化编码,具体包括:
根据所述第一映射矩阵为单位正交矩阵的性质或者根据所述第一映射矩阵为单位矩阵的性质,从所述矢量中选择第一系数,对所述第一系数进行量化编码,对所述矢量中其余的系数不编码或只进行符号位编码。
5.如权利要求4所述的方法,其特征在于,所述PCA分组数为2,所述方法还包括:
确定位置标识,所述位置标识用于指示所述第一系数;
在所述对所述第一系数进行量化编码时,对所述位置标识进行量化编码。
6.如权利要求1~4任一权利要求所述的方法,其特征在于,所述PCA分组数为3,所述对所述矢量中需要编码的系数进行量化编码,具体包括:
根据所述矢量中各系数的大小关系,确定第一位置信息和第二位置信息,所述第一位置信息用于指示绝对值最小的系数的位置,所述第二位置信息用于指示绝对值次小的系数的位置;
对所述矢量中绝对值最小的系数、绝对值次小的系数、所述第一位置信息和所述第二位置信息进行量化编码。
7.一种主成分分析PCA映射模型的解码方法,其特征在于,所述方法包括:
确定被编码的映射矩阵中被编码的矢量;
对所述矢量中的被编码的系数进行解码获得所述系数的重建值;
根据所述系数的重建值重建所述矢量;
根据所述矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
8.如权利要求7所述的方法,其特征在于,所述PCA分组数为2,所述根据所述系数的重建值重建所述矢量之前,所述方法还包括:
对位置标识的编码进行解码获得位置标识,所述位置标识用于指示被编码的系数在所述矢量中的位置;
所述根据所述系数的重建值重建所述矢量,具体包括:根据所述位置标识和所述系数的重建值重建所述矢量。
9.如权利要求7所述的方法,其特征在于,所述PCA分组数为3,所述系数包括所述矢量中绝对值最小的系数和绝对值次小的系数,所述根据所述系数的重建值重建所述矢量之前,所述方法还包括:
对第一位置信息的编码和第二位置信息的编码进行解码获得第一位置信息和第二位置信息,所述第一位置信息用于指示绝对值最小的系数的位置,所述第二位置信息用于指示绝对值次小的系数的位置;
所述根据所述系数的重建值重建所述矢量,具体包括:
根据所述矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述第一位置信息和所述第二位置信息确定所述矢量中绝对值最大的系数的重建值;
根据所述矢量中绝对值最小的系数的重建值、绝对值次小的系数的重建值、所述矢量中绝对值最大的系数的重建值、所述第一位置信息和所述第二位置信息重建所述矢量。
10.一种主成分分析PCA映射模型的编码装置,其特征在于,所述装置包括:
频带组合单元,用于对频带划分后的各频带进行频带组合处理,获得各频带组;
矩阵确定单元,用于为所述频带组合单元获得的各频带组中的每个频带组确定第一映射矩阵,所述第一映射矩阵为所述频带组中的各频带共用的一组PCA映射模型的映射矩阵;
编码单元,用于对所述矩阵确定单元确定的第一映射矩阵进行量化编码其中,映射矩阵由一系列系数组成,根据PCA分组数和多声道声音信号中被选择进行编码的分组情况,确定所述第一映射矩阵中需要被编码的矢量,对所述矢量中需要编码的系数进行量化编码。
11.如权利要求10所述的装置,其特征在于,所述频带组合单元,具体用于根据频带信号的特点和/或心理声学模型和/或模型参数相似度对频带划分后的各频带进行频带组合处理,获得各频带组。
12.如权利要求10所述的装置,其特征在于,所述频带组合单元具体包括:
第一频带组合子单元,用于比较相邻两个频带的能量大小,当一个频带的能量低于根据相邻频带能量计算得出的能量阈值时,对这两个频带进行组合,将这两个频带划分到一个频带组;和/或
第二频带组合子单元,用于根据心理声学模型计算某一频带的掩蔽阈值,当频带的能量低于掩蔽阈值时,将这一频带与相邻频带进行组合,将这两个频带划分到一个频带组;和/或
第三频带组合子单元,用于计算相邻两个或几个频带的映射矩阵之间的距离,当最大距离小于距离阈值时,将这两个或几个频带进行组合,将这两个或几个频带划分到一个频带组。
13.一种主成分分析PCA映射模型的解码装置,其特征在于,所述装置包括:
矢量确定单元,用于确定被编码的映射矩阵中被编码的矢量;
解码单元,用于对所述矢量确定单元确定的矢量中的被编码的系数进行解码获得所述系数的重建值;
矢量重建单元,用于根据所述解码单元获得的系数的重建值重建所述矢量;
矩阵重建单元,用于根据所述矢量重建单元重建的矢量重建所述映射矩阵,所述映射矩阵为对频带划分后的各频带进行频带组合处理,获得各频带组后,为所述各频带组中的每个频带组确定的映射矩阵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410710991.2A CN105632505B (zh) | 2014-11-28 | 2014-11-28 | 主成分分析pca映射模型的编解码方法及装置 |
PCT/CN2014/095393 WO2016082278A1 (zh) | 2014-11-28 | 2014-12-29 | 主成分分析pca映射模型的编解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410710991.2A CN105632505B (zh) | 2014-11-28 | 2014-11-28 | 主成分分析pca映射模型的编解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632505A CN105632505A (zh) | 2016-06-01 |
CN105632505B true CN105632505B (zh) | 2019-12-20 |
Family
ID=56047346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410710991.2A Active CN105632505B (zh) | 2014-11-28 | 2014-11-28 | 主成分分析pca映射模型的编解码方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105632505B (zh) |
WO (1) | WO2016082278A1 (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1208541A (zh) * | 1996-11-15 | 1999-02-17 | 菲利浦电子有限公司 | 单声道-立体声转换设备、利用该设备的还音***以及单声道-立体声转换方法 |
EP0987827A2 (en) * | 1998-09-17 | 2000-03-22 | Matsushita Electric Industrial Co., Ltd. | Audio signal encoding method without transmission of bit allocation information |
CN1427989A (zh) * | 2000-05-08 | 2003-07-02 | 诺基亚有限公司 | 在具有多带宽能力的电信连接中改变源信号带宽的方法和装置 |
CN1669359A (zh) * | 2002-07-12 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN1909381A (zh) * | 2005-08-03 | 2007-02-07 | 上海杰得微电子有限公司 | 宽带音频压缩编码器的频带组划分方法 |
CN1942929A (zh) * | 2004-04-05 | 2007-04-04 | 皇家飞利浦电子股份有限公司 | 多信道编码器 |
CN1311426C (zh) * | 2002-04-10 | 2007-04-18 | 皇家飞利浦电子股份有限公司 | 立体声信号的编码、解码方法和装置及其传输设备 |
CN1969318A (zh) * | 2004-09-17 | 2007-05-23 | 松下电器产业株式会社 | 音频编码装置、解码装置、方法、以及程序 |
CN101053017A (zh) * | 2004-11-04 | 2007-10-10 | 皇家飞利浦电子股份有限公司 | 多通道音频信号的编码和解码 |
CN101105940A (zh) * | 2007-06-27 | 2008-01-16 | 北京中星微电子有限公司 | 音频编解码的量化方法、反变换方法及音频编解码装置 |
CN101151659A (zh) * | 2005-03-30 | 2008-03-26 | 皇家飞利浦电子股份有限公司 | 可扩缩多通道音频编码 |
JP2008185845A (ja) * | 2007-01-30 | 2008-08-14 | National Institute Of Advanced Industrial & Technology | 1次元信号の変換値からのhlac特徴抽出方法および装置 |
CN101371447A (zh) * | 2006-01-20 | 2009-02-18 | 微软公司 | 使用扩展带频率编码的复变换信道编码 |
CN101401152A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 通过多通道音频信号的主分量分析进行编码的设备和方法 |
CN101401151A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 根据主分量分析的多通道音频信号的可分级编码的设备和方法 |
EP2287836A1 (en) * | 2008-05-30 | 2011-02-23 | Panasonic Corporation | Encoder, decoder, and the methods therefor |
CN102027535A (zh) * | 2008-04-11 | 2011-04-20 | 诺基亚公司 | 信号处理 |
CN102150207A (zh) * | 2008-07-24 | 2011-08-10 | Dts(英属维尔京群岛)有限公司 | 通过二维变换压缩音频比例因子 |
CN102682779A (zh) * | 2012-06-06 | 2012-09-19 | 武汉大学 | 面向3d音频的双声道编解码方法和编解码器 |
WO2014008786A1 (zh) * | 2012-07-13 | 2014-01-16 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
-
2014
- 2014-11-28 CN CN201410710991.2A patent/CN105632505B/zh active Active
- 2014-12-29 WO PCT/CN2014/095393 patent/WO2016082278A1/zh active Application Filing
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1208541A (zh) * | 1996-11-15 | 1999-02-17 | 菲利浦电子有限公司 | 单声道-立体声转换设备、利用该设备的还音***以及单声道-立体声转换方法 |
EP0987827A2 (en) * | 1998-09-17 | 2000-03-22 | Matsushita Electric Industrial Co., Ltd. | Audio signal encoding method without transmission of bit allocation information |
CN1427989A (zh) * | 2000-05-08 | 2003-07-02 | 诺基亚有限公司 | 在具有多带宽能力的电信连接中改变源信号带宽的方法和装置 |
CN1311426C (zh) * | 2002-04-10 | 2007-04-18 | 皇家飞利浦电子股份有限公司 | 立体声信号的编码、解码方法和装置及其传输设备 |
CN1669359A (zh) * | 2002-07-12 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN1942929A (zh) * | 2004-04-05 | 2007-04-04 | 皇家飞利浦电子股份有限公司 | 多信道编码器 |
CN1969318A (zh) * | 2004-09-17 | 2007-05-23 | 松下电器产业株式会社 | 音频编码装置、解码装置、方法、以及程序 |
CN101053017A (zh) * | 2004-11-04 | 2007-10-10 | 皇家飞利浦电子股份有限公司 | 多通道音频信号的编码和解码 |
CN101151659A (zh) * | 2005-03-30 | 2008-03-26 | 皇家飞利浦电子股份有限公司 | 可扩缩多通道音频编码 |
CN1909381A (zh) * | 2005-08-03 | 2007-02-07 | 上海杰得微电子有限公司 | 宽带音频压缩编码器的频带组划分方法 |
CN101371447A (zh) * | 2006-01-20 | 2009-02-18 | 微软公司 | 使用扩展带频率编码的复变换信道编码 |
CN101401152A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 通过多通道音频信号的主分量分析进行编码的设备和方法 |
CN101401151A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 根据主分量分析的多通道音频信号的可分级编码的设备和方法 |
JP2008185845A (ja) * | 2007-01-30 | 2008-08-14 | National Institute Of Advanced Industrial & Technology | 1次元信号の変換値からのhlac特徴抽出方法および装置 |
CN101105940A (zh) * | 2007-06-27 | 2008-01-16 | 北京中星微电子有限公司 | 音频编解码的量化方法、反变换方法及音频编解码装置 |
CN102027535A (zh) * | 2008-04-11 | 2011-04-20 | 诺基亚公司 | 信号处理 |
EP2287836A1 (en) * | 2008-05-30 | 2011-02-23 | Panasonic Corporation | Encoder, decoder, and the methods therefor |
CN102150207A (zh) * | 2008-07-24 | 2011-08-10 | Dts(英属维尔京群岛)有限公司 | 通过二维变换压缩音频比例因子 |
CN102682779A (zh) * | 2012-06-06 | 2012-09-19 | 武汉大学 | 面向3d音频的双声道编解码方法和编解码器 |
WO2014008786A1 (zh) * | 2012-07-13 | 2014-01-16 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105632505A (zh) | 2016-06-01 |
WO2016082278A1 (zh) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10841584B2 (en) | Method and apparatus for pyramid vector quantization de-indexing of audio/video sample vectors | |
EP1514355B1 (en) | Method and system for multi-rate lattice vector quantization of a signal | |
ES2635327T3 (es) | Compresión de las representaciones descompuestas de un campo sonoro | |
TWI584271B (zh) | 編碼裝置及其編碼方法、解碼裝置及其解碼方法、電腦程式 | |
BR112020016948A2 (pt) | Métodos e dispositivos para gerar ou decodificar um fluxo de bits compreendendo sinais de áudio imersivos | |
CN110249384B (zh) | 具有索引编码和位安排的量化器 | |
CN111316353A (zh) | 确定空间音频参数编码和相关联的解码 | |
US10789964B2 (en) | Dynamic bit allocation methods and devices for audio signal | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
KR102613282B1 (ko) | 디지털 오디오 신호들에서의 가변 알파벳 크기 | |
US10699721B2 (en) | Encoding and decoding of digital audio signals using difference data | |
US9691397B2 (en) | Device and method data for embedding data upon a prediction coding of a multi-channel signal | |
US8473288B2 (en) | Quantizer, encoder, and the methods thereof | |
CN105632505B (zh) | 主成分分析pca映射模型的编解码方法及装置 | |
CN103119649B (zh) | 用于基于上下文进行无损编码和解码的方法和设备 | |
GB2574873A (en) | Determination of spatial audio parameter encoding and associated decoding | |
JPWO2020089510A5 (zh) | ||
CN110660400B (zh) | 立体声信号的编码、解码方法、编码装置和解码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |