CN1514994A - 用于编码语音信号中连续基音周期的方法和装置 - Google Patents

用于编码语音信号中连续基音周期的方法和装置 Download PDF

Info

Publication number
CN1514994A
CN1514994A CNA028117263A CN02811726A CN1514994A CN 1514994 A CN1514994 A CN 1514994A CN A028117263 A CNA028117263 A CN A028117263A CN 02811726 A CN02811726 A CN 02811726A CN 1514994 A CN1514994 A CN 1514994A
Authority
CN
China
Prior art keywords
signal
pitch
lattice structure
represented
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028117263A
Other languages
English (en)
Other versions
CN1262993C (zh
Inventor
A
A·海基宁
V·罗皮拉
S·皮蒂莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1514994A publication Critical patent/CN1514994A/zh
Application granted granted Critical
Publication of CN1262993C publication Critical patent/CN1262993C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Selective Calling Equipment (AREA)

Abstract

一种对语音信号的连续基音周期编码的方法和装置。基于连续语音周期统计特性的先有知识,设计一种定形的点阵结构,以覆盖基音空间中的最大概率的阵点。考虑所有维,密码本索引搜索开始于发现基音空间中的开环估计,基于定形的点阵结构在每一维中分别地在闭环搜索中精确化开环估计。对第一子帧的闭环搜索是为获得绝对基音周期或者增量周期,而对其他每一子帧的闭环搜索是为获得各自子帧的增量基音。

Description

用于编码语音信号中连续基音周期的方法和装置
发明领域
本发明总体上涉及语音编码领域,特别涉及连续基音周期的量化。
发明背景
基于人类语音处理机制,浊音语音的基音周期轨迹在时间上进展缓慢。通过对连续基音周期之间的差值进行编码而将这个现象应用在许多当前的语音编码器中,从而提高了编码效率。在一种基于子帧工作的典型的编码器中,比如码激励线性预测(CELP)编码器中,每帧至少发射一次绝对基音周期。
连续基音周期之间的差值一般称为一个增量周期。在现有技术中,增量周期可以从有限的范围内获得均匀分布值,为它们的编码提供便利。这能被解释为一个由定义了帧上的增量周期的点均匀排列得到的多维矩形点阵。相应地,通过使用均匀量化器来完成对增量周期的编码。更确切地说,用相似的量化器独立地对几个连续的增量周期进行编码。使用这种方法的编码器也被认为是一种多维矩形点阵量化器。在一个多维点阵量化器中,每一维代表相应子帧中的一个基音周期。通常,点阵的第一维表示第一子帧中的绝对基音周期,而其余维中的每一个代表当前和在前子帧的基音周期之间的差值。因此,在一个语音编码方案中,为了进行语音处理,将语音帧分成四个子帧,将连续基音周期量化中所用的编码器称为四维点阵量化器,第一维中的绝对基音周期和在其余三维中的增量周期用四维基音空间中的点(p,d1,d2,d3)表示。在本发明中,对包含仅适于增量周期(d1,d2,d3,......dn)的维的点阵结构要给予特别的注意。
在大多数利用差分编码的现有技术语音编码器中,将n个增量周期的点阵结构记述为在n维基音空间中规则排列的一组阵点,从而使这些点在整个基音空间均匀地间隔开。除了在基音空间中这些点的均匀间隔,现有技术语音编码器的关键特征是点阵的阵点在二维平面上投影的矩形形状。点阵的结构通常是恒定的,而不必考虑前面的段中的基音周期。一种典型的增量周期的二维点阵的实例在附图1中示出,其中点阵L通过下式定义
L={(d1,d2)|d1min≤d1≤d1max∧d2min≤d2≤d2max}    (1)
点阵包含了d1和d2在各自的最小和最大值之间的所有可能的组合。虽然在图1中示出的点阵是二维的,但是根据二维情况能够很容易地派生更高维的点阵。一般而言,第j维的最小和最大可能增量周期分别由djmin和djmax表示。
一旦定义了点阵量化器的形状和区域,一个重要的参数就是点阵的密度,这是由于密度决定编码器的比特率。比特率是密度的单调递增函数。因此,点阵量化器的密度反映用于基音周期信息的精确度。通常地,使用分数值代替整数以提高合成语音的质量。
在一种典型的用于增量周期的点阵量化器中,当点阵的矩形形状保持恒定时,通常注意点阵的边界值(djmin,djmax)。而不注意选择一组合适的点阵点以覆盖包含最大源概率的基音空间区域。
众所周知在语音信号中,基音是个有意义的参数,由于人类语音处理机制的性质,基音的发展很顺利。大体上,浊音语音的基音周期轨迹在时间上进展缓慢,并且轨迹的突然改变是非常不可能发生的。已经发现矩形点阵结构远不是最理想的关于覆盖基音空间区域的点阵点的选择。此外,在现有技术中,每一维中差分基音值的搜索是独立地进行的。矩形点阵和搜索方法的使用还没有被优化以反映出人类语音的已知特性。
利用基音空间的源概率以改进合成语音的质量,从而为语音编码器中连续基音周期的量化提供一种改进的方法和***是有利并且十分需要的。
发明概述
本发明的主要目的是提高对连续基音周期编码的效率,从而改进利用差分编码对连续基音周期之间的差值进行编码的语音编码器中的合成语音的质量。基于现有技术中的浊音语音中连续增量周期的特性,可以通过定义一个优化的或者更有效率的点阵结构来达到这个目的,其点阵结构定形为覆盖了有最大概率的点位于其内的基音空间区域。此外,能够将具有表示基音周期的不同时间分辨率的不同点密度的区域,定义在优化的点阵结构之中。利用这样一种优化的点阵结构,就可以提供一种为优化的点阵结构中的阵点分配索引以及在密码本中搜索索引的新方法。
因此,根据本发明的第一个方面,一种对多个信号帧中的声音信号编码的方法,多个信号帧中的每一个具有一个表示各个信号帧中声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段代表在基音空间中的一维,并且每个信号段中的声音信号的特征在于具有一个基音值,其中基音值能通过点阵结构中声音信号的阵点分布图形特性表示,从而定义了基音空间中密码本索引,所述的方法的特征在于
根据阵点分布图形定形点阵结构,以及
对应于定形的点阵结构,提供表示基音空间的每一维中基音值的密码本索引,以便促进声音信号的编码。
根据本发明的第一个方面,该方法的特征还在于
考虑到基音空间的全部维,通过对定形的点阵结构的开环搜索获得基音周期的开环估计,以及
通过对定形的点阵结构中的闭环搜索,分别对基音空间中每一维的开环估计进行精确化(refine),以获得表示各个信号段中基音值的闭环搜索值。
根据本发明,基音值表示差分基音周期或者绝对基音周期。
根据本发明,在至少一个信号段中的基音值表示绝对基音周期,并且在其余的每个信号段中的基音值表示差分基音周期。
相应地,当信号段顺序地包括一个第一信号段和三个第二信号段时,第一信号段中的基音值表示一个绝对基音周期,并且在每个第二信号段中的基音值表示一个差分基音周期。
可以作为选择地,每个信号帧包括四个信号段,并且四个信号段中每一个的基音值表示一个差分基音周期。
根据本发明,信号段可以设置在连续的子帧中。这样,第一子帧中的基音值可以是绝对基音周期或者是差分基音周期,并且在其余的每个子帧中的基音值是差分基音周期。
优选地,点阵结构中的每个阵点表示到基音空间中参考点的距离,并且将点阵结构定形以消除超出预定距离的点。
特别的,本发明的定形的点阵结构由不重叠的超立方体结合组成,定形点阵结构由增量周期范围和基音空间每一维中的时间分辨率定义,并且其中每个超立方体能够由包括许多阵点的多个边表示。根据本发明,优化的点阵的索引表示超立方体边上的点阵点数量。
值得注意的是由编码装置提供并传送到译码装置的密码本索引具有指示定形的点阵的信息,并且其中解码装置基于定形点阵从密码本索引中合成语音信号。
根据本发明的第二个方面,对多个信号帧中的声音信号进行编码的装置,每一信号帧具有表示各自信号帧中声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段表示基音空间中的一维,并且每个信号段中的声音信号的特征在于具有一个基音值,其中基音值可通过点阵结构中声音信号的阵点分布图形特性表示,用于定义基音空间中的密码本索引,点阵结构根据阵点分布图形而定形,用于定义一个定形点阵结构,所述装置的特征在于
装置,该装置响应于声音信号,考虑基音空间的全部维,通过对定形的点阵结构的开环搜索以获得基音周期的开环估计,用于提供表示开环估计的开环搜索值,以及
装置,响应于开环搜索值,通过对定形的点阵结构的闭环搜索分别对基音空间中每一维的开环估计进行精确化,以获得表示各个信号段中基音值的闭环搜索值。
根据本发明的第三个方面,对多个信号帧中的声音信号进行编码的***,每一信号帧具有表示各自信号帧中的声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段表示基音空间中的一维,并且每个信号段中的声音信号的特征在于具有一个基音值,其中基音值可通过点阵结构中声音信号的阵点分布图形特性表示,从而定义了基音空间中密码本索引,点阵结构根据阵点分布图形而定形从而定义了一个定形点阵结构,所述***的特征在于
一编码器,具有:
装置,响应于声音信号,考虑到基音空间的全部维,通过对定形的点阵的开环搜索从而获得基音周期的开环估计,以提供表示开环估计的开环搜索值,以及
装置,响应于开环搜索值,通过对定形的点阵结构中的闭环搜索,分别对基音空间中每一维的开环估计进行精确化,以获得表示各个信号段中基音值的闭环搜索值,从而提供指示定形的点阵结构的信息以及密码本索引,以及
解码器,具有响应于该信息根据定形的点阵结构从密码本索引中合成进一步的声音信号的装置。
通过对结合附图2到6的描述的阅读,本发明将会变得更加清楚。
附图的简要说明
图1是矩形点阵的图形表示。
图2是定形的点阵结构的图形表示。
图3a是一个超立方体在一个二维平面上投影的图形表示。
图3b是该超立方体在另一个二维平面上投射的图形表示。
图4a是在一个二维平面内的点密度分布的柱状图。
图4b是在另一个二维平面内的点密度分布的柱状图。
图5是根据本发明的编码器的图形表示。
图6是根据本发明对语音信号编码的方法的流程图。
实施本发明的最好的方式
根据本发明,建立一个定形的点阵结构的原理在图2中示出。通常,基音空间中的阵点不是均匀分布的。相反地,分布是由具有表示基音周期不同时间分辨率的不同点密度的多个区域定义的。如图2所示,具有不同点密度的两个子点阵,用S1和S2表示,存在于基音空间中。这两个子点阵的并集S,或者S1∪S2,表示优化的点阵结构S,定义了定形的点阵结构。
如早先提到的,众所周知,浊音语音的基音周期轨迹在时间上进展缓慢,轨迹上突然的变化是很不可能发生的。因此,在一个相同的语音帧之内,很不可能有两个很大的增量周期。比如图1和2中示出的,角点(d1min,d2min),(d1max,d2min),(d1min,d2max)和(d1max,d2max)以及点阵L中邻近的点表示d1中的增量周期和d2中的增量周期都很大的情况。由于这种情况在浊音语音中不太可能发生,因此不太可能将这些点用在密码索引搜索中。相应地,如图2所示,能够将这些点从定形点阵S中去掉,而不会对产生的语音质量产生显著的影响。如图2所示,当基音周期平稳进展而没有显著提高比特率时,子点阵S1中更高的点密度允许利用更高的基音分辨率。
由于利用基音周期差分编码的大多数现存编码器的闭环结构,点阵中的索引搜索是基于子帧完成的。因此,在时间上沿着点阵的一个坐标轴连续地进行搜索。通常,这是通过首先为包含绝对基音周期和之后的增量周期的子帧确定一个单一开环基音周期估计完成的。典型地,将整数值用在开环搜索中以减少复杂性。其后,对每一维连续地以闭环方式完成索引搜索。对于第一子帧,这是在所选的开环基音周期附近完成的。对于其他子帧,搜索区域包括在前选择的基音周期的相邻区域。
根据本发明,采用优化的点阵,这种方法不可行是由于每一维中可能的阵点组通常实质上依赖于在以前的维中所选的阵点。
根据本发明所优选的方法,定形的点阵中的所估计的开环阵点是在多维空间中决定的。包括第一维的每一维中最优的索引是之后在估计的开环阵点的邻近区域中以闭环方式决定的,每次决定一个维。如图2所示的p点表示估计的开环阵点,最优的索引是从阴影区域C中搜索出来的。闭环搜索对属于定形的点阵S和以开环基音估计p为中心的搜索区域C交集的点进行检查。闭环搜索确定的索引唯一地定义了点阵覆盖的子帧上的基音周期。在图2中,定形的点阵S是点阵L的子集。一般而言,这不是必要的情形。
为了说明目的,定形的点阵结构定形为不重叠的超立方体Di的并集,每个超立方体由增量周期范围和相应维中所用的时间分辨率确定。每个超立方体Di是超立方体矩阵D的一行。在四维基音空间中,如果一个语音帧分为四个子帧并且每个子帧由一维表示,那么矩阵D的第i行定义了一个唯一的四维超立方体,如下:
D(i,:)=[pimin pimax ri0 di1min di1max ri1 di2min di2max ri2 di3min di3max ri3](2)
其中pimin,pimax和ri0定义了基音周期范围和第一子帧的分辨率。最后三个子帧中增量周期的范围由dijmin和dijmax定义,其中j是子帧索引。每个子帧中相应的分辨率由rij表示。
采用上面描述的点阵结构,编码的过程十分简单。为了对定形的点阵中的某点的索引进行编码,获得一个起始索引和每个超立方体每一单一边中阵点的数目。编码过程从找到超立方体的索引开始,已找到的基音周期组合(p,d1,d2,d3)属于该超立方体。包含点(p,d1,d2,d3)的超立方体Di定义为
Di={(p,d1,d2,d3)|pimin≤p≤pimax∧djimin≤dj≤dijmax,j=1,2,3}(3)
图3a图示了投影在二维平面d1,d2上的四个超立方体D0,D1,D2,D3。图3b图示了相同的超立方体投影在二维平面d2,d3上的情况。应该注意的是,通常,一个超立方体的阵点密度可以与另一个的阵点密度不同。为了简化,如图3a和3b中示出的圆圈是均匀分布的。在图3a和3b中,不同的超立方体示为封闭的矩形,它们中的每个可以由其唯一的边确定。比如,超立方体D2由边a2,b2和c2确定。
根据本发明,优化或定形的点阵已经结合附图2到3b进行了描述。根据本发明,采用优化的点阵结构,可以定义如以下所描述的用于语音合成的一组将传送到解码器的索引。能够通过首先定义超立方体Di内每维的坐标,为超立方体中阵点的索引赋值。第(j+1)个子帧的坐标pj由以下公式给出
p0=(p-pimin)ri0                                     (4)
pj=(dj-djimin)rij,其中j=1,2,3                   (5)
因此,在定形的点阵中的阵点(p,d1,d2,d3)的索引s能够根据下式赋值
s=sDi+p0+p1ni0+p2ni1ni0+p3ni2ni1ni0                  (6)
其中sDi是超立方体Di的偏移(of fset)。在第(j+1)维中Di的各边中的阵点的数目用nij表示。在以适当方式描述了点阵之后,下一个问题就是为其找到恰当的边界值。
需要理解的是,如上所述的定形的点阵结构仅仅是为了说明的目的。定形的点阵结构不局限于那些由超立方体组成的结构。通常,点阵结构通过选择表示多维基音空间中的语音帧和子帧中语音信号的阵点分布图形特性的子点阵而定形。
已经在修正过的IS-641语音编码器中实现了根据本发明的编码方法。在修正过的IS-641编码器中,以通常方法对第一维编码,以至在第一子帧中发送一个绝对基音周期。然而,使用包括四个超立方体的定形的点阵结构对其余三维编码。值得注意的是,在常规IS-641编码器中,只为子帧2和4发送两个增量周期。在修正了的IS-641编码器中,取而代之发送三个增量周期。基于一个使用由许多谈话者讲述的美语-英语语音的39434帧的试验,使用修正过的IS-641语音编码器从语音段中获得的增量周期分布如图4a和4b所示。为了简化,增量周期的范围限制在±6样本。第(i+1)子帧和第i子帧的基音周期之差值由di表示。对图4a和4b中的增量周期四舍五入得到整数值,尽管在模拟中使用了1/3的分辨率。在d1,d2平面中的以及在d2,d3平面中的阵点密度分布分别在图4a和4b中示出。如图4a和4b所示,两个大的增量值的组合很罕见。也就是说,当d1很大时,d2和d3就很小。但是当d2或者d3很大时,d1就很小。因此,子帧中增量周期之间存在相关性。在现有技术的编码器中,每一维都相互独立看待,而忽视子帧中增量周期之间的相关性。根据本发明,在修正了的IS-641中,开环基音值是帧的平均基音。在使用整数分辨率的每一维中共同地估计开环基音值。在每一维中顺序地使用闭环搜索来使该开环估计精确化。比如,在估计的开环基音值周围搜索第一子帧的闭环值。在第一子帧的四舍五入的、优化的闭环基音周围选择第二子帧的闭环值等等。第一子帧的可能整数值范围从20-147,如图4a和4b所示,所使用的点阵结构关于轴d1,d2和d3对称。因此,关于增量周期的三维点阵能够清楚地由D0在轴d1和d2上的投影的一个角点确定。在试验中,三个不同的优化的点阵(定形点阵SA,定形点阵SB和定形点阵SC)分别由作为偏移量sDi使用的角点
Figure A0281172600123
实现。作为参考,使用了两个具有最大增量周期 的立方量化器(点阵L1,点阵L2)。这些范围是根据出现在图4a和4b中的分布选出的。模拟结果在表1中示出。结果表示为输入语音和合成语音的浊音段之间的段信噪比(SegSNR),以及每一帧中对增量周期的编码所需要的比特数。使用一个段长度为64的样本,并且在SegSNR的计算中去除了无声段。所有模拟中使用的语音样本包括由两个男性和两个女性讲话者在安静(clean)条件下讲述的四个句子。样本的总长度是782帧。如从表1中可以看出的,根据本发明,通过使用优化的点阵结构能够提高连续基音周期的编码效率。
表1
点阵L1  点阵L2     定形点阵SA     定形点阵SB     定形点阵SC
SegSNR/dB 8.24  8.09     8.28     8.11     8.05
比特数 12.26  10.38     11.78     10.00     9.17
根据本发明,语音编码器1如图5所示。它是基于公知为合成分析(AbS)的编码技术,采用了线性预测编码(LPC)技术。典型的是,使用了一种时变基音预测器和LPC滤波器的级连。如图5所示,LPC分析单元10被用来根据输入语音信号决定LPC滤波器的系数102。通常地,语音信号在预处理步骤中经过高通滤波。经过预处理的语音信号继而窗口化(windowed),并且计算窗口化语音的自相关。比如使用Levinson-Durbin算法确定LPC滤波器系数102。在大多数编码器中,不是在每个子帧中都确定系数。这种情况下,能够为中间的子帧***系数。预处理步骤和LPC分析步骤在本领域中是公知的。输入语音进而通过反向滤波器A(q,s)12滤波以产生一个剩余信号104。剩余信号104有时称为理想激励。根据从先前关于连续基音值的分布的知识确定的定形点阵,使用开环搜索单元14为整个帧决定开环延迟估计矢量106。通常,矢量106的长度和子帧的数量相同,具有对应于单个子帧的延迟估计的成分。使用语音信号代替LPC剩余信号104搜索估计矢量106也是可能的。由于全部子帧组成了多维基音空间的维,所以对于估计矢量106的搜索要考虑到所有这些维。开环估计106为基音空间中的每一维提供开环延迟值。基于定形点阵,搜索区域定义单元16用来为基音空间的每一维中的闭环延迟矢量定义闭环搜索区域108。比如,如图2中所示的,单元16对属于定形点阵S和以开环基音估计p为中心的搜索区域C的交集的点进行检查。根据输入语音信号,考虑LPC滤波器10的初始状态的影响,在计算单元18中通过从输入语音信号中减去LPC滤波器10的零输入响应计算出为了闭环延迟搜索的目标信号110。闭环搜索单元20用来精确化开环估计106,每次精确化一个维,基于使用该维中的定形点阵中的阵点的相应开环延迟值,从而获得密码本索引。信号112中包含密码本索引。特别是,闭环搜索单元20通过使为闭环延迟搜索的目标信号110和由LPC系数102和LPC激励信号表示的合成语音信号之间的平方和(sum-squared)误差最小化来搜索闭环延迟和增益。在所定义的搜索区域108内,在相应开环延迟值周围搜索每个子帧中的闭环延迟。由于延迟值小于子帧长度,所以必须将LTP(长期预测器)存储器扩展。这可以通过使用剩余信号104,或通过复制旧的LTP激励而实现。LTP存储器的扩展是现有技术中已知的。在新方案密码本搜索单元22中,通过从闭环延迟搜索的目标信号112中减去LTP滤波器的影响110,计算出用于激励搜索的目标信号114。激励信号和它的增益共同由参考数字116表示,通过将为激励搜索的目标信号114和由LPC系数102和激励信号表示的合成语音信号之间的平方和误差最小化,在计算单元24中搜索激励信号和它的增益。通常,使用一些探试性的规则以避免对所有可能备选的激励信号进行穷举的搜索。最后,在更新单元26中更新编码器1中的滤波器状态,以使它们与解码器中的滤波器状态保持一致。密码本搜索单元22、计算单元24和更新单元26在现有技术中均是已知的。以上描述的编码器1可应用于典型的AbS或CELP编码器,比如IS-641。
必须注意的是,当解码器接收来自编码器的语音参数时,通过基于对解码器已知的相同定形的点阵所接收到的索引和增益,确定LTP激励信号。
图6是一个流程图,图示了依照本发明的语音信号编码的方法。如图6中所示,当编码器在步骤210中接收到语音信号时,如现有技术中已知的,在语音帧和子帧中处理语音信号。在步骤220中,为了获得语音帧中基音周期的开环估计,考虑基音空间中的所有维,实施开环搜索。在步骤230中,分别对每个维实施闭环搜索,以精确化开环估计,从而获得基音值。基于对每一维的闭环搜索中所获得的基音值,在步骤240获得密码本索引。如步骤250所表示的,对每一维的闭环搜索一直持续到获得了语音帧中所有子帧的密码本索引为止。值得注意的是,基音空间的第一维(每个语音帧的第一子帧)中的基音值能表示绝对基音周期或不同基音周期(增量周期)。然而,其余每个维的基音值表示各个子帧中的不同基音周期。
应该了解,结合语音信号的编码描述了本发明。然而,本发明也可以应用于非语音信号,比如音乐。
此外,虽然优选把语音帧分为多个子帧并在每个子帧中搜索闭环基音值,但搜索语音帧不同段的闭环基音值也是可能的。通常,可以在每个语音帧向解码器发送许多次不同的参数。
因此,尽管本发明已经通过其中优选的实施方案进行了描述,但本领域的技术人员将会理解在形式和细节上的前述的以及其他不同的改变、省略和偏差都可以在不背离本发明的精神和范围的情况下获得。

Claims (19)

1.一种对多个信号帧中的声音信号进行编码的方法,每个信号帧具有表示各个信号帧中的声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段代表基音空间中的一维,并且每个信号段中的声音信号由基音值表征,其中基音值能通过点阵结构中声音信号的阵点分布图形特性表示,从而定义基音空间中的密码本索引,所述的方法的特征在于:
根据阵点分布图形来定形点阵结构,以及
根据定形的点阵结构,提供表示基音空间的每一维中的基音值的密码本索引,以助于声音信号编码。
2.根据权利要求1的方法,特征还在于:
考虑到基音空间的全部维,通过对定形的点阵结构的开环搜索获得基音周期的开环估计,以及
通过对定形的点阵结构中的闭环搜索,分别对基音空间中每一维的开环估计进行精确化,以获得表示各个信号段中基音值的闭环搜索值。
3.根据权利要求2的方法,特征在于基音值表示差分基音周期。
4.根据权利要求2的方法,特征在于在至少一个信号段中的基音值表示绝对基音周期,并且在其余的每个信号段中的基音值表示差分基音周期。
5.根据权利要求2的方法,特征在于连续信号段顺序地包括第一信号段和三个第二信号段,其中第一信号段中的基音值表示绝对基音周期,并且在每个第二信号段中的基音值表示差分基音周期。
6.根据权利要求2的方法,特征在于将信号段设置在子帧中。
7.根据权利要求6的方法,特征在于每个信号帧包括四个子帧,并且其中四个子帧的每一个中的基音值表示差分基音周期。
8.根据权利要求6的方法,特征在于子帧顺序地包括第一子帧和三个第二子帧,其中第一子帧中的基音值是绝对基音周期,每个第二子帧中的基音值是差分基音周期。
9.根据权利要求1的方法,特征在于阵点密度图形包括定形的点阵结构中的多个区域,并且每个区域可由超立方体表示,每个超立方体具有多条包括定形的点阵结构的一个或多个阵点的边,并且其中密码本索引表示超立方体的边上的阵点的数目。
10.根据权利要求1的方法,特征在于由编码装置提供给译码装置的密码本索引具有表示定形的点阵结构的信息,从而允许解码装置根据定形的点阵结构从密码本索引中合成语音信号。
11.根据权利要求1的方法,特征在于声音信号包括语音信号。
12.一种对多个信号帧中的声音信号进行编码的设备,每一信号帧具有表示各个信号帧中的声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段表示基音空间中的一维,并且每个信号段中的声音信号由基音值表征,其中基音值能通过点阵结构中的声音信号的阵点分布图形特性表示,从而定义了基音空间中的密码本索引,点阵结构根据阵点分布图形而定形,从而定义定形点阵结构,所述设备的特征在于:
装置,该装置响应于声音信号,考虑基音空间的全部维,通过对定形的点阵结构的开环搜索以获得基音周期的开环估计,用于提供表示开环估计的开环搜索值,以及
装置,该装置响应于开环搜索值,通过对定形的点阵结构的闭环搜索来分别精确化基音空间中每一维的开环估计,以获得表示各个信号段中基音值的闭环搜索值。
13.根据权利要求12的设备,特征在于基音值表示差分基音周期。
14.根据权利要求12的设备,特征在于在至少一个信号段中的基音值表示绝对基音周期,并且在其余的每个信号段中的基音值表示差分基音周期。
15.根据权利要求12的设备,特征在于将信号段设置在连续子帧中。
16.根据权利要求15的设备,特征在于连续子帧顺序地包括第一子帧和三个第二子帧,其中第一子帧中的基音值表示绝对基音周期,每个第二子帧中的基音值表示差分基音周期。
17.根据权利要求15的设备,特征在于每个信号帧包括四个子帧,并且其中四个子帧的每一个中的基音值表示差分基音周期。
18.根据权利要求12的设备,特征在于阵点密度图形包括定形的点阵结构中的多个区域,并且每个区域可由超立方体表示,每个超立方体具有多条包括定形的点阵结构的一个或多个阵点的边,并且其中密码本索引表示超立方体的边上的阵点的数目。
19.一种对多个信号帧中的声音信号进行编码的***,每一信号帧具有表示各个信号帧中的声音信号的基音周期,其中每个信号帧包括多个信号段,每个信号段表示基音空间中的一维,并且每个信号段中的声音信号由基音值表征,其中基音值能通过点阵结构中声音信号的阵点分布图形特性表示,从而定义了基音空间中的密码本索引,点阵结构根据阵点分布图形而定形,从而定义定形点阵结构,所述***的特征在于:
编码器,具有:
装置,该装置响应于声音信号,考虑到基音空间的全部维,通过对定形的点阵结构的开环搜索来获得基音周期的开环估计,以提供表示开环估计的开环搜索值,以及
装置,该装置响应于开环搜索值,通过对定形的点阵结构中的闭环搜索,分别对基音空间中每一维的开环估计进行精确化,以获得表示各个信号段中基音值的闭环搜索值,从而提供表示定形的点阵结构的信息以及密码本索引,以及
解码器,具有响应于该信息根据定形的点阵结构从密码本索引中合成进一步的声音信号的装置。
CNB028117263A 2001-06-11 2002-06-07 用于编码语音信号中连续基音周期的方法和装置 Expired - Fee Related CN1262993C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/878,762 2001-06-11
US09/878,762 US6584437B2 (en) 2001-06-11 2001-06-11 Method and apparatus for coding successive pitch periods in speech signal

Publications (2)

Publication Number Publication Date
CN1514994A true CN1514994A (zh) 2004-07-21
CN1262993C CN1262993C (zh) 2006-07-05

Family

ID=25372784

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028117263A Expired - Fee Related CN1262993C (zh) 2001-06-11 2002-06-07 用于编码语音信号中连续基音周期的方法和装置

Country Status (8)

Country Link
US (1) US6584437B2 (zh)
EP (1) EP1428202B1 (zh)
KR (1) KR100896944B1 (zh)
CN (1) CN1262993C (zh)
AT (1) ATE438911T1 (zh)
AU (1) AU2002258104A1 (zh)
DE (1) DE60233238D1 (zh)
WO (1) WO2002101718A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506873B (zh) * 2006-03-20 2012-08-15 曼德斯必德技术公司 开环基音跟踪平滑
CN110390953A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 啸叫语音信号的检测方法、装置、终端及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60232560D1 (de) * 2001-08-31 2009-07-16 Kenwood Hachioji Kk Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
DE60218068T2 (de) * 2001-11-30 2007-11-22 Koninklijke Philips Electronics N.V. Signalkodierung
US7376553B2 (en) * 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
DE602005023503D1 (de) * 2004-10-28 2010-10-21 Panasonic Corp Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür
US20080097757A1 (en) * 2006-10-24 2008-04-24 Nokia Corporation Audio coding
JP5241509B2 (ja) * 2006-12-15 2013-07-17 パナソニック株式会社 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法
EP2116995A4 (en) * 2007-03-02 2012-04-04 Panasonic Corp APPARATUS FOR ADAPTIVE SOUND SOURCE VECTOR QUANTIZATION AND ADAPTIVE SOUND SOUND VECTOR QUANTIZATION METHOD
CA2729751C (en) * 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
JP7337966B2 (ja) * 2019-06-29 2023-09-04 華為技術有限公司 ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置
CN112151045B (zh) * 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58215822A (ja) 1982-06-10 1983-12-15 Toshiba Corp 音声信号の予測符号化装置
WO1984004989A1 (en) 1983-06-03 1984-12-20 Variable Speech Control Method and apparatus for pitch period controlled voice signal processing
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
JPH0632021B2 (ja) 1987-07-15 1994-04-27 シャープ株式会社 日本語音声認識装置
JPH0451200A (ja) 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
JP3226180B2 (ja) * 1992-04-09 2001-11-05 日本電信電話株式会社 音声のピッチ周期符号化法
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5388124A (en) * 1992-06-12 1995-02-07 University Of Maryland Precoding scheme for transmitting data using optimally-shaped constellations over intersymbol-interference channels
CA2135629C (en) 1993-03-26 2000-02-08 Ira A. Gerson Multi-segment vector quantizer for a speech coder suitable for use in a radiotelephone
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
WO1997017692A1 (en) * 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6009394A (en) * 1996-09-05 1999-12-28 The Board Of Trustees Of The University Of Illinois System and method for interfacing a 2D or 3D movement space to a high dimensional sound synthesis control space
US6185527B1 (en) 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506873B (zh) * 2006-03-20 2012-08-15 曼德斯必德技术公司 开环基音跟踪平滑
CN110390953A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 啸叫语音信号的检测方法、装置、终端及存储介质
CN110390953B (zh) * 2019-07-25 2023-11-17 腾讯科技(深圳)有限公司 啸叫语音信号的检测方法、装置、终端及存储介质

Also Published As

Publication number Publication date
KR100896944B1 (ko) 2009-05-14
ATE438911T1 (de) 2009-08-15
US20030004709A1 (en) 2003-01-02
EP1428202B1 (en) 2009-08-05
CN1262993C (zh) 2006-07-05
EP1428202A4 (en) 2005-10-26
WO2002101718A3 (en) 2003-04-10
KR20040028774A (ko) 2004-04-03
US6584437B2 (en) 2003-06-24
DE60233238D1 (de) 2009-09-17
WO2002101718A2 (en) 2002-12-19
EP1428202A2 (en) 2004-06-16
AU2002258104A1 (en) 2002-12-23

Similar Documents

Publication Publication Date Title
CN1262993C (zh) 用于编码语音信号中连续基音周期的方法和装置
EP1905011B1 (en) Modification of codewords in dictionary used for efficient coding of digital media spectral data
CA2895916C (en) Frequency segmentation to obtain bands for efficient coding of digital media
CN1154086C (zh) Celp转发
JP5188990B2 (ja) Celp技術における、デジタルオーディオ信号の改善された符号化/復号化
CN1271597C (zh) 对声源信号进行编码/解码的方法和装置
CN1735925A (zh) 使用网格降低mpeg-2高级音频编码的比例因子传输成本
US20010053972A1 (en) Method and apparatus for an encoding and decoding a speech signal by adaptively changing pulse position candidates
CN101849258A (zh) 在可缩放语音和音频编解码器中的用于经量化的mdct频谱的码簿索引的编码/解码的技术
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN1445752A (zh) 用于特征域中信道与加性噪声联合补偿的方法与装置
CN1173938A (zh) 综合分析语音编码方法
CN1145925C (zh) 具有改进语音编码器和解码器的发射机
EP2546994B1 (en) Coding method, decoding method, apparatus, program and recording medium
CN1240050C (zh) 一种用于语音编码的固定码本快速搜索方法
CN1231050A (zh) 具有改进谐波语音编码器的发射机
CN101572092A (zh) 编解码端的固定码本激励的搜索方法及装置
CN1318190A (zh) 线性预测分析合成的编码方法和编码器
CN1760975A (zh) 增强的amr编码器快速固定码本搜索方法
CN101059958A (zh) 利用缓存来加快量化数据取得的编码和解码方法
JP5799824B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN1608285A (zh) 增强的编码语音
Heikkinen et al. Coding Method for Successive Pitch Periods
JPH07118658B2 (ja) 信号符号化方法
Choi et al. On Reducing the Complexity of the VSELP Coder

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: QUALCOMM INC.

Free format text: FORMER OWNER: NOKIA CO., LTD.

Effective date: 20100419

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ESPOO, FINLAND TO: CALIFORNIA STATE, U.S.A.

TR01 Transfer of patent right

Effective date of registration: 20100419

Address after: American California

Patentee after: Qualcomm Inc.

Address before: Espoo, Finland

Patentee before: Nokia Oyj

Effective date of registration: 20100419

Address after: American California

Patentee after: Qualcomm Inc.

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060705

Termination date: 20190607

CF01 Termination of patent right due to non-payment of annual fee