CN1163870C - 声音编码装置和方法,声音译码装置,以及声音译码方法 - Google Patents

声音编码装置和方法,声音译码装置,以及声音译码方法 Download PDF

Info

Publication number
CN1163870C
CN1163870C CNB971913501A CN97191350A CN1163870C CN 1163870 C CN1163870 C CN 1163870C CN B971913501 A CNB971913501 A CN B971913501A CN 97191350 A CN97191350 A CN 97191350A CN 1163870 C CN1163870 C CN 1163870C
Authority
CN
China
Prior art keywords
pulse
sound source
sound
pitch period
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB971913501A
Other languages
English (en)
Other versions
CN1205097A (zh
Inventor
江原宏幸
森井利幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP03672697A external-priority patent/JP4063911B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1205097A publication Critical patent/CN1205097A/zh
Application granted granted Critical
Publication of CN1163870C publication Critical patent/CN1163870C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本发明旨在提高CELP型声音编码装置和CELP型声音译码装置的声源生成部的音质,由音调峰值位置计算器(12)计算自适应编码矢量的音调峰值位置,由振幅增强窗生成器(13)生成用于增强音调峰值位置的振幅的窗,由振幅增强加窗器(16)增强与音调峰值位置对应的噪音编码矢量的振幅。将脉冲的搜索位置确定为在音调峰值位置附近紧密而在除此之外的部分稀疏,根据所确定的搜索位置进行脉冲位置搜索。利用此前的子帧的音调峰值位置、音调周期信息以及当前的子帧的音调周期信息反向自适应地切换声源结构,提高音质,同时抑制传送路线错误的影响的传播。

Description

声音编码装置和方法、 声音译码装置、以及声音译码方法
技术领域
本发明涉及将声音信号编码后进行传送的跳动通信***等的CELP(Code Excited Linear Predicion)型声音编码装置和CELP型声音译码装置以及移动通信装置。
背景技术
CELP型声音编码装置是将声音分割为某一一定的帧长、对各帧进行声音的线性预测、使用由已知的波形构成的自适应编码矢量和噪音编码矢量对各帧的线性预测的预测残差(激励信号)进行编码的装置。自适应编码矢量和噪音编码矢量有时如图34所示的那样分别直接使用自适应编码表1和噪音编码表2存储的自适应编码矢量和噪音编码矢量,有时如图35所示的那样使用自适应编码表1的自适应编码矢量和使噪音编码表2的噪音编码矢量与自适应编码表1的音调周期L同步的噪音编码矢量。图35是特开平5-19795号公报和特开平5-19796号公报所公开的CELP型声音编码装置的噪音声源矢量生成部的结构。在图35中,从自适应编码表1中选择自适应编码矢量,同时,输出音调周期L,从噪音编码表2中选择的噪音编码矢量由周期化器3使用音调周期L进行周期化。周期化是通过将噪音编码矢量从开头分割出音调周期、并反复多次进行连接直至使其达到子帧长而进行的。
但是,在上述先有的使噪音编码矢量实现音调周期化的CELP型声音编码装置中,由于是通过利用音调周期使噪音编码矢量实现周期化而去除在去除自适应编码矢量成分之后残留的音调周期成分的,所以,没有积极地使用在1音调波形内存在的相位信息、即在何处存在音调脉冲的峰值的信息,从而对于提高声音品质有限制。
本发明就是为了解决这种先有的问题而提案,其目的在于提供可以进一步提高声音品质的声音编码装置。
发明内容
为了达到上述目的,本发明通过强调与自适应编码矢量的音调峰值位置对应的噪音编码矢量的振幅,利用在1音调波形内存在的相位信息来提高音质。
另外,本发明通过使用仅限于自适应编码矢量的音调峰值附近的噪音编码矢量,即使在分配给噪音编码矢量的位数少时,也可以减少音质劣化。
另外,本发明通过使用自适应编码矢量的音调峰值的位置和音调周期限定脉冲位置的搜索范围,即使在表示脉冲位置的位数少时,也可以减少音质劣化,缩小搜索范围。
另外,本发明在使用自适应编码矢量的音调峰值的位置和音调周期限定脉冲位置的搜索范围时,特别是通过使1~2音调波形的脉冲位置搜索精度精细化,来提高音调周期短的声音的有声部的音质。
另外,本发明通过根据音调周期的值改变脉冲声源的脉冲条数,来提高音质。
另外,本发明通过在预先决定自适应编码矢量的音调峰值位置附近和除此以外的部分的脉冲振幅后进行脉冲声源搜索,来提高音质。
另外,本发明通过将音调增益进行多级量化并在自适应编码表搜索之后进行初级的量化信息,可以将音调增益的初级量化信息作为噪音编码表切换用的模式信息来利用,以此提高编码效率。
另外,本发明通过使用量化音调周期信息或此前的子帧或当前子帧的量化音调增益信息进行切换脉冲声源的搜索位置的控制,来提高声音品质。
另外,本发明通过反向判断子帧间的相位的连续性并仅对判定为相位连续的子帧应用相位自适应处理,不增加所传送的信息量而进行相位自适应处理的切换,来提高声音品质。如果在不进行相位自适应处理时使用固定编码表,还可以获得防止传送路线错误的传播的效果。
另外,本发明根据自适应编码矢量中信号功率向音调峰值位置附近的集中度确定是应用还是不应用相位自适应处理,不增加所传送的信息量而进行相位自适应处理的切换,来提高声音品质。若在不进行相位自适应处理时使用固定编码表,还可以获得防止传送路线错误的传播的效果。
另外,本发明在利用音调峰值位置的相对位置进行声源脉冲搜索的CELP型声音编码装置中,通过从子帧的开头一侧顺序加上脉冲位置的索引,防止在某一帧中发生的传送路线错误的影响传播到后续的没有传送路线错误的帧中。
另外,本发明在利用音调峰值位置的相对位置进行声源脉冲搜索的CELP型声音编码装置中,通过从子帧的开头一侧顺序加上脉冲位置的索引,同时即使是在相同索引的不同脉冲中,通过从子帧的开头一侧顺序加上脉冲序号,防止在某一帧中发生的传送路线错误的影响传播到后续的没有传送路线错误的帧中。
另外,本发明在利用音调峰值位置的相对位置进行声源脉冲搜索的CELP型声音编码装置中,不是用相对位置表示全部脉冲搜索位置,而仅用相对位置表现音调峰值附近的一部分,通过使其余的部分成为预先确定的固定位置,防止在某一帧中发生的传送路线错误的影响传播到后续的没有传送路线错误的帧中。
另外,本发明在求音调峰值位置时,不是对作为对象的信号全体进行音调峰值位置的搜索,通过具有在所分割出的音调周期长的信号中进行音调峰值位置的搜索的装置,便可更正确地抽出开头的音调峰值位置。
另外,本发明在子帧间音调周期连续的部分即认为是有声稳定部的部分,使用此前的子帧中的音调峰值位置、此前的子帧中的音调周期以及当前的子帧中的音调周期,预测当前的子帧中的音调峰值位置,通过根据所预测的音调峰值位置限定当前的子帧中的音调峰值位置的存在范围,便可抽出音调峰值位置而不会发生有声稳定部的相位的不连续。
另外,本发明在子帧长具有10ms左右以上并且分配给噪音编码表信息的信息量如每1子帧约15位那样比较少、作为噪音编码表应用脉冲声源时,通过采用使减少脉冲数而充分获得各脉冲的位置信息的模式和用增加脉冲数来取代粗略地采集各脉冲的位置信息的模式分别具有至少1个模式以上(总计2个模式以)的结构,提高声音信号的有声前沿部分的品质,另外,通过增加脉冲数、可以抑制由于粗略地采集各脉冲的位置信息而引起的声音品质的劣化。
本发明的第1方面是具有强调与自适应编码矢量的音调峰值位置对应的噪音编码矢量的振幅的声源生成部的CELP型声音编码装置,可以利用在1音调波形中存在的相位信息提高音质。
本发明的第2方面是在第1方面所述的声音编码装置中、声音生成部通过将与自适应编码矢量的音调周期同步的振幅强调窗乘以噪音编码矢量,来增强与自适应编码矢量的音调峰值的位置对应的噪音编码矢量的振幅,通过与音调周期同步地增强噪音声源矢量的振幅,可以提高音质。
本发明的第3方面是在第2方面所述的声音编码装置中、声音生成部将以自适应编码矢量的音调峰值位置为中心的三角窗作为振幅增强窗使用,可以很容易地进行振幅增强窗长度的控制。
本发明的第4方面是CELP型声音编码装置中具有使用仅限定自适应编码矢量的音调峰值附近的噪音编码矢量的声源生成部的声音编码装置,通过使用仅限定自适应编码矢量的音调峰值附近的噪音编码矢量,即使在分配给噪音编码矢量的位数少时,也可以减少音质劣化,从而可以由残差功率集中在音调脉冲附近的有声部提高音质。
本发明的第5方面是在噪音编码表中使用脉冲声源的CELP型声音编码装置中具有由自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索范围的声源生成部的声音编码装置,即使在分配给脉冲位置的位数少时,也可以减少音质劣化。
本发明的第6方面是第5方面所述的声音编码装置中、声源生成部在自适应编码矢量的音调峰值位置附近密、而在除此之外的部分疏地确定脉冲位置的搜索范围,由于精细地搜索产生脉冲的概率高的部分,所以,可以提高音质。
本发明的第7方面是根据音调周期切换脉冲位置的搜索范围的第5或第6方面所述的声音编码装置,由于根据音调周期缩放脉冲位置的搜索范围,所以,在音调周期短时,可以更精细地表现1~2音调的波形,从而可以提高音质。
本发明的第8方面是在自适应编码矢量中存在多个音调峰值时、使在搜索范围内包含至少2个音调峰值位置而限定脉冲位置的搜索范围的第7方面所述的声音编码装置,可以缓和所检测的开头的音调峰值的位置错误时的影响,另外,由于也可以与开头的音调峰值附近的波形和第2个音调峰值附近的波形的形状变化对应,所以,可以提高声音品质。
本发明的第9方面是CELP型声音编码装置中具有根据声音的分析结果切换噪音编码表的声源生成部的声音编码装置,由于可以根据输入声音的特征切换噪音编码表,所以,可以提高声音品质。
本发明的第10方面是CELP型声音编码装置中具有使用在进行噪音编码表搜索之前抽出的传送参量切换噪音编码表的声源生成部的声音编码装置,由于使用确定已传送的内容的信息来切换噪音编码表,所以,不增加信息量便可进行噪音编码表的切换。
本发明的第11方面是根据声音信号的分析结果切换脉冲条数的结构的第5~8方面的任一方面所述的声音编码装置,由于根据输入声音的特征切换脉冲条数,所以,可以提高声音品质。
本发明的第12方面就是使用在进行噪音编码表搜索眼前抽出的信息切换脉冲条数的结构的第5~8或11方面的任一方面所述的声音编码装置,由于使用确定声音传送的内容的信息切换脉冲条数,所以,不增加所传送的信息量便可进行脉冲条数的切换。
本发明的第13方面是具有根据音调周期切换脉冲条数的声源生成部的、第5~8或11、12方面的任一方面所述的声音编码装置,由于使用音调周期切换脉冲数,所以,不增加传送信息便可切换脉冲条数。另外,由于最佳的脉冲条数随音调周期而不同,所以,可以提高声音品质。
本发明的第14方面是在连续的子帧间音调周期的变化小时和不小时切换脉冲条数的、第13方面所述的声音编码装置,由于切换在声音信号的有声部的前沿部分和稳定部分使用的脉冲的条数,所以,可以提高声音品质。
本发明的第15方面是在作为噪音声源使用脉冲声源的噪音编码矢量生成部中、在脉冲位置搜索之前确定脉冲振幅的第5~8、11~14方面的任一方面所述的声音编码装置,由于使脉冲声源具有振幅的变化,所以,可以提高声音品质。另外,由于在脉冲搜索之前确定振幅,所以,可以对其振幅确定最佳的脉冲位置。
本发明的第16方面是在作为噪音声源使用脉冲声源的噪音编码矢量生成部中、使脉冲振幅在自适应编码矢量的音调峰值附近及其以外的部分改变的、第15方面所述的声音编码装置,由于使声源信号的音调峰值附近及其以外的部分的振幅变化,所以,可以有效地表现声源信号的音调结构的形状,从而可以提高声音品质和提高脉冲振幅信息的量化效率。
本发明的第17方面是,通过统计上或学习而根据音调周期确定使用的脉冲声源的脉冲数的、第13方面所述的声音编码装置,由于根据统计上或其他学习方法确定对各音调周期的最佳脉冲条数,所以,可以提高声音品质。
本发明的第18方面是,CELP型声音编码装置中具有将音调增益进行多级量化的声源生成部、在初级量化中将在自适应编码表搜索之后求出的值作为量化目标、而在第2级之后的量化中将声源搜索全部结束后由闭环搜索确定的音调增益与在初级量化中量化处理后的值的差分作为量化目标的声音编码装置,在利用自适应编码表与固定编码表(噪音编码表)之和生成驱动声源矢量的CELP型声音编码装置中,由于将在固定编码表(噪音编码表)搜索之前得到的信息量化后进行传送,所以,可以不增加独立的模式信息进行固定编码表(噪音编码表)的切换等,从而可以对声音信息高效率地进行编码。
本发明的第19方面是第18方面所述的声音编码装置中具有使用在自适应编码表搜索之后求出的音调增益的量化值切换固定编码表的结构的、第9~12、15~17方面的任一方面所述的声音编码装置,利用在固定编码表搜索之前求出的音调增益和在固定编码表搜索之后求出的音调增益的值没有大的不同的情况,不用附加模式信息便可进行固定编码表的模式切换,从而可以提高声音品质。
本发明的第20方面是根据音调周期的子帧间变化切换固定编码表的第9~12、15~19方面的任一方面所述的声音编码装置,通过利用音调周期的子帧间的连续性等判断是否为有声/有声稳定部、进行有声/有声稳定部的有效的声源和除此以外的部分(无声/前沿部等)的有效的声源的切换,可以提高声音品质。
本发明的第21方面是使用在此前的子帧中进行了量化处理的音调增益切换固定编码表的第9~12、15~17方面的任一方面所述的声音编码装置,通过利用音调增益的子帧间的连续性等判断是否为有声/有声稳定部、进行有声/有声稳定部的有效的声源和除此以外的部分(无声/前沿部等)的有效的声源的切换,可以提高声音品质。
本发明的第22方面是根据音调周期的子帧间变化和量化音调增益切换固定编码表的、第9~12、15~17方面的任一方面所述的声音编码装置,通过使用作为传送参量的音调周期和音调增益的信息判断是否为有声/有声稳定部、进行有声/有声稳定部的有效的声源和除此以外的部分(无声/前沿部等)的有效的声源的切换,可以提高声音品质。
本发明的第23方面是,对固定编码表使用脉冲声源编码表的第19~22方面的任一方面所述的声音编码装置,由于对噪音编码表使用脉冲声音,所以,可以减少噪音编码表所需要的存储量及噪音编码表搜索时的运算量,进而可以提高有声部的前沿的表现性。
本发明的第24方面是,对具有指定的时间长度的各子帧进行声音编码处理的CELP型声音编码装置中判断当前的子帧的相位和此前的子帧的相位是否连续、并切换在判定连续时和判定不连续时使用的声源的声音编码装置,可以实现区分有声(稳定)部和除此以外的部分的声源结构,从而可以提高音质。
本发明的第25方面是使用此前的子帧的音调峰值位置、和此前的子帧的音调周期以及当前的子帧的音调周期预测当前的子帧的音调峰值位置、根据通过该预测而得到的当前的子帧的音调峰值位置是否接近仅仅根据当前的子帧的数据所求出的音调峰值位置判断此前的子帧的相位和当前的子帧的相位是否连续、并根据该判断结果切换声源的编码处理方法的第24方面所述的CELP型声音编码装置,由于使用已传送的或正在传送的信息获得判断结果,所以,不必使用新的传送信息传送判断结果。
本发明的第26方面是在判定此前的子帧的相位和当前的子帧的相位连续时对噪音编码表进行相位自适应处理、在判定此前的子帧的相位和当前的子帧的相位不连续时对噪音编码表不进行相位自适应处理的第24或25方面所述的声音编码装置,可以进行有效的相位自适应处理。由于反向判断子帧间的相位的连续性,所以,也不必重新传送应用相位自适应处理或不进行相位自适应处理的切换信息。此外,在不应用相位自适应处理时,通过使用固定编码表,也可以获得抑制传送路线错误的影响的传播的效果。
本发明的第27方面是对具有指定的时间长度的各子帧进行声音编码处理的CELP型声音编码装置中、以当前的子帧的自适应编码矢量的音调峰值附近的信号功率的集中度为基准切换声源信号的编码处理方法的声音编码装置,为了声源结构(声源信号的编码处理方法)的切换不需要新的传送信息便可自适应地进行声源结构的切换。
本发明的第28方面是当前的子帧的自适应编码矢量的音调峰值附近的信号功率在1音调周期长度的信号总体中所占的比例大于指定值时就对噪音编码表进行相位自适应处理、而在不足指定值时就不对噪音编码表进行相位自适应处理的、第27方面所述的声音编码装置,可以根据自适应编码矢量的脉冲性的强度自适应地控制(切换)相位自适应处理,从而可以提高声音品质。另外,也不需要用于相位自适应处理的控制(切换)的新的传送信息。此外,如果在不进行相位自适应处理时使用固定编码表,还可以获得抑制传送路线错误的影响的传播的效果。
本发明的第29方面是作为相位自适应处理在音调峰值附近加密地进行脉冲位置搜索、而在音调峰值附近以外的部分稀疏地进行脉冲位置搜索的将脉冲声源应用于噪音声源的、第26或28方面所述的声音编码装置,由于在噪音编码表中使用脉冲声源,所以,可以减少噪音编码表所需要的存储量及噪音编码表搜索时的运算量,进而可以提高有声部的前沿的表现性。
本发明的第30方面是从子帧的开头一侧顺序排列而加上表示脉冲的位置的索引的、第5~8、11~17、23、29方面的任一方面所述的声音编码装置,通过从子帧的开头加上表示脉冲的位置的索引以使索引的序号越小越位于子帧的开头附近,可以减小在音调峰值位置错误时发生的脉冲位置的偏离,从而可以缓和传送路线错误的影响的传播。
本发明的第31方面是在相同的索引序号时从子帧的开头一侧顺序加上脉冲的序号、并进而在音调峰值位置附近加密地而在音调峰值附近以外的部分稀疏地确定各脉冲的搜索位置的第30方面所述的声音编码装置,由于在相同的索引序号时使脉冲的序号越小越位于子帧的开头一侧来确定各脉冲的序号,所以,除了脉冲的索引外,还定义了附加的脉冲序号,可以进一步减小音调峰值位置错误时发生的脉冲位置的偏离,从而可以进一步减小传送路线错误的影响的传播。
本发明的第32方面是根据音调峰值位置确定脉冲搜索位置的一部分、而其他的脉冲搜索位置是与音调峰值位置无关的预先确定的固定位置的、第5~8、11~17、23、29方面的任一方面所述的声音编码装置,即使在音调峰值位置错误时,也可以减少使声源脉冲的位置错误的概率,所以,可以抑制传送路线错误的影响的传播。
本发明的第33方面是具有在求具有指定的时间长度的声音或声源信号的音调峰值位置时、只从该信号中分离出音调周期长度并在分离出的信号内确定音调峰值位置的音调峰值位置计算单元的、第1~8、11~17、19~23、25~32方面的任一方面所述的声音编码装置,由于从1音调波形中选择音调峰值,所以,可以单纯地搜索振幅值(绝对值)成为最大的点,即使在子帧中包含超过1音调周期的波形,也可以正确地求出音调峰值位置。
本发明的第34方面是在从该信号中只分离出音调周期长度时先不分离出1周期长度而使用该信号全体确定音调峰值位置、将该确定的音调峰值位置作为分离的开始点分离出1音调周期长度、并在分离出的信号内确定音调峰值位置的、第33方面所述的声音编码装置,可以避免在使用该信号全体确定音调峰值位置时发生的、将1音调波形内的次峰值作为音调峰值位置的现象。即,可以避免音调周期与子帧长度不同步而引起的音调峰值位置的抽出错误。
本发明的第35方面是对具有指定的时间长度的各子帧进行声音编码处理的CELP型声音编码装置中计算当前的子帧的音调峰值位置时、此前的子帧的音调周期与当前的子帧的音调周期之差在预先确定的范围内时就使用此前的子帧的音调峰值位置、此前的子帧的音调周期和当前的子帧的音调周期预测当前的子帧的音调峰值位置、使用通过该预测而得到的当前的子帧的音调峰值位置预先限定当前的子帧的音调峰值位置的存在范围并在该范围内进行音调峰值位置搜索的、第1~8、11~17、19~23、25~32方面的任一方面所述的声音编码装置,由于考虑此前的子帧的音调峰值位置来确定当前的子帧的音调峰值位置,所以,对于仅根据当前的子帧求音调峰值位置和错误地检测1音调峰值波形内的次峰值位置的情况,是避免错误地检测的方法。
本发明的第36方面是对具有指定的时间长度的子帧进行声音编码处理的CELP型声音编码装置中作为噪音编码表使用脉冲声源、至少具有2模式以上的噪音编码表的模式从而可以通过切换模式而改变声源脉冲的条数、并且至少1个模式是充分取得各脉冲的位置信息的脉冲条数少的模式而其他模式则是各脉冲的位置信息不足的脉冲数多的模式、并传送模式的切换信息而进行模式的切换的声音编码装置,通过具有位置信息不充分的声源脉冲数多的模式,可以提高声音信号的有声前沿部的品质,另外,可以有效地利用位置信息不充分的声源脉冲数多的模式。
本发明的第37方面是在音调周期短时与音调周期对应地通过将声源脉冲的搜索范围限定在狭窄的范围内、减少声源脉冲的位置信息而增加声源脉冲的条数的、第36方面所述的声音编码装置,对具有短音调周期的音调周期性的声源信号,可以充分保持着每1音调周期的声源脉冲的位置信息而增加声源脉冲的条数,从而可以提高声音品质。
本发明的第38方面是在各脉冲的位置信息不足的脉冲数多的模式中在音调峰值位置附近使声源脉冲的搜索位置密而在除此之外的部分使声源脉冲的搜索位置疏地确定脉冲位置的搜索范围的、第36或37方面所述的声音编码装置,由于将声源脉冲的位置信息集中在发生声源脉冲的概率高的部分,所以,可以提高声源脉冲的位置信息不充分的声源脉冲疏多的模式的利用效率。
本发明的第39方面是第36~38方面的任一方面所述的CELP型声音编码装置中、在脉冲数少、位置信息充分的声源模式中将位置信息的一部分分配给表示噪音性的声源代码矢量的索引的声音编码装置,不设置新的模式便可与无声子音部及噪音的输入信号对应。
本发明的第40方面是记录用于执行第1~39方面的任一方面所述的声音编码装置的功能的程序的、计算机可读取的记录媒体,通过用计算机读取这种记录媒体,可以实现声音编码装置的功能。
本发明的第41~79方面是与第1~39方面的声音编码装置对应的、作为基本上相同内容的声音编码方法的发明,分别具有相同的效果。
本发明的第80方面是记录用于执行第41~79方面的任一方面所述的声音编码方法的程序的、计算机可以读取的记录媒体,通过用计算机读取这种记录媒体,可以实现声音编码装置的功能。
本发明的第81~119方面是作为具有与由第1~39方面所规定的内容基本上相同结构的声源生成部的声音译码装置,分别具有相同的效果。
本发明的第120方面是记录用于执行第81~119方面的任一方面所述的声音译码装置的功能的程序的、计算机可以读取的记录媒体,通过用计算机读取这种记录媒体,可以实现声音编码装置的功能。
本发明的第121~159方面是作为具有与第41~79方面所规定的内容基本上相同结构的声源生成方法的声音译码方法,分别具有相同的效果。
本发明的第160方面是记录用于执行第121~159方面任一方面所述的声音译码方法的程序的、计算机可以读取的记录媒体,通过读取这种记录媒体,可以实现声音编码装置的功能。
本发明的第161方面所述的移动通信装置是作为结构要素具有第1~41方面的任一方面所述的声音编码装置的通信装置,具有相同的效果。
附图说明
图1是表示本发明实施例1的CELP型声音编码装置的声源生成部的结构的框图。
图2是表示本发明实施例1的振幅强调窗的形状与自适应编码矢量和音调脉冲位置的关系的模式图。
图3是表示本发明实施例1的变形例的CELP型声音编码装置的声源生成部的结构的框图。
图4是表示本发明实施例2的CELP型声音编码装置的声源生成部的结构的框图。
图5是表示本发明实施例3的CELP型声音编码装置的声源生成部的结构的框图。
图6(a)、6(b)是表示本发明实施例3的脉冲位置附近限定矢量的配置情形的前半部的模式图。
图7(a)、7(b)是表示本发明实施例3的脉冲位置附近限定矢量的配置情形的后半部的模式图。
图8是表示本发明实施例4的CELP型声音编码装置的声源生成部的结构的框图。
图9(a)、9(b)是表示本发明实施例4的脉冲声源搜索范围的模式图的一部分。
图10是表示本发明实施例4的脉冲声源搜索范围的模式图的其余部分。
图11(a)是表示本发明实施例5的搜索位置计算器的结构的框图。
图11(b)和图11(c)分别表示脉冲搜索位置模式的一例的模式图。
图12是表示本发明实施例6的CELP型声音编码装置的声源生成部的结构的框图。
图13(a)~13(d)是表示用本发明实施例6的搜索位置计算器计算的脉冲搜索位置的一例的模式图。
图14是表示本发明实施例7的CELP型声音编码装置的声源生成部的结构的框图。
图15是表示本发明实施例8的CELP型声音编码装置的声源生成部的结构的框图。
图16(a)、16(b)是表示本发明实施例8使用的规定搜索位置模式的一例的一览图。
图17是表示本发明实施例9的CELP型声音编码装置的声源生成部的结构的框图。
图18是表示本发明实施例10的CELP型声音编码装置的声源生成部的结构的框图。
图19是表示本发明实施例10的音调峰值位置预测器的预测原理的模式图。
图20是表示本发明实施例11的CELP型声音编码装置的声源生成部的结构的框图。
图21是表示本发明实施例12的CELP型声音编码装置的声源生成部的结构的框图。
图22是分别表示本发明实施例12的搜索位置计算器输出的某一声源脉冲的搜索位置模式、与不具有索引更新手段时的各位置对应的索引和与具有索引更新手段时的各位置对应的索引的模式图。
图23是表示本发明实施例13的CELP型声音编码装置的声源生成部的结构的框图。
图24(a)是表示与本发明实施例13的搜索位置计算器输出的声源脉冲搜索位置的模式和各位置对应的相对位置与绝对位置的对应的模式图。
图24(b)是表示在不具有本发明实施例13的脉冲序号和索引的更新手段时分配给各声源脉冲的脉冲序号和索引的模式图。
图24(c)是表示在具有本发明实施例13的脉冲序号和索引的更新手段时分配给各声源脉冲的脉冲序号和索引的模式图。
图25是表示本发明实施例14的CELP型声音编码装置的声源生成部的结构的框图。
图26(a)是表示在本发明实施例14中使用的固定搜索位置模式的一例的模式图。
图26(b)、26(c)分别表示用在本发明实施例14中使用的搜索位置计算器计算的声源脉冲搜索位置的模式的一例的模式图。
图26(d)是表示在本发明实施例14的脉冲位置搜索器中使用的声源脉冲搜索位置的模式的一例的模式图。
图27是表示本发明实施例15的CELP型声音编码装置的声源生成部的结构的框图。
图28(a)、28(b)是分别表示在音调峰值计算器中使音调峰值和次峰值错误的自适应编码矢量波形的一例的模式图。
图28(c)是表示在音调峰值位置修正器中图示搜索音调峰值位置的范围的、自适应编码矢量波形的一例的模式图。
图29是表示本发明实施例16的CELP型声音编码装置的声源生成部的结构的框图。
图30是表示本发明实施例17的CELP型声音编码装置的声源生成部的结构的框图。
图31是与先有的声源生成部一起示出本发明的CELP型声音编码装置的优选实施例的整体结构的框图。
图32是与先有的声源生成部一起示出本发明的CELP型声音译码装置的优选实施例的整体结构的框图。
图33是使用本发明的CELP型声音编码装置的移动通信装置的优选实施例的框图。
图34是表示先有的一般的CELP声音编码装置的声源生成部的结构的框图。
图35是表示先有的具有噪音声源的音调周期化部的CELP声音编码装置的声音生成部的结构的框图。
用于实施发明的最佳的形式
下面,通过声音编码装置的声源生成部的几个实施例,使用图1~图10说明用于实施本发明的最佳形式。如后面所述,这些声源生成部在本发明的声音译码装置中也使用相同的结构。
(实施例1)
图1表示本发明的实施例1,表示增强与自适应编码矢量的音调峰值位置对应的噪音编码矢量的振幅的声音编码装置的声源生成部。在图1中,11是将自适应编码矢量向音调峰值位置计算器12输出的自适应编码表,12是是将从自适应编码表11输出的自适应编码矢量作为输入而将音调峰值位置向振幅增强窗生成器13输出的音调峰值位置计算器,13是将从音调峰值位置计算器12输出的音调峰值位置作为输入而将振幅增强窗向振幅增强加窗器16输出的振幅增强窗生成器,14是存储噪音编码矢量并向周期化器15输出的噪音编码表,15是将从噪音编码表14输出的噪音编码矢量和音调周期L作为输入并将噪音编码矢量进行音调周期化处理后向振幅增强加窗器16输出的周期化器,16是将从振幅增强窗生成器13输出的振幅增强窗和从周期化器15输出的噪音编码矢量作为输入、并将噪音编码矢量乘以振幅增强窗而输出最终的噪音编码矢量的振幅增强加窗器。
下面,使用图1说明上述结构的CELP型声音编码装置的声源生成部的动作。音调峰值位置计算器12使用输入的自适应编码矢量,确定在自适应编码矢量内存在的音调脉冲的位置。音调脉冲的位置可以通过使按音调周期排列的脉冲串和自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器与自适应编码矢量通过合成滤波器的误差最小化而进行。
振幅增强窗生成器13根据由音调峰值位置计算器12确定的音调脉冲位置生成振幅增强窗。作为振幅增强窗,可以使用各种各样的窗,例如,以音调脉冲位置为中心的三角窗在容易进行窗长度的控制这一方面是有利的。
图2表示从振幅增强窗生成器13输出的振幅增强窗的形状与自适应编码矢量的形状的对应。图中,虚线位置是由音调峰值位置计算器12确定的音调脉冲位置。
周期化器15使从噪音编码表14输出的噪音编码矢量进行音调周期化处理。音调周期化是按音调周期对噪音编码矢量进行周期化处理,将噪音编码表的存储矢量从开头只分离出音调周期L部分,在达到子帧长之前通过多次反复将其连接而进行。但是,进行音调周期化处理的只是音调周期小于子帧长的情况。
振幅增强加窗器16将从周期化器15输出的噪音编码矢量乘以从振幅增强窗生成器13输出的振幅增强窗。
这样,按照上述实施例1,利用在1音调波形内存在的相位信息,可以提高音质。
以上,虽然用图1说明了进行噪音编码矢量的周期化的CELP型声音编码装置的声源部分,但是,对于直接使用图11所示的噪音编码表存储的噪音编码矢量的一般的CELP型声音编码装置的声源部分也可以实施,该例示于图3。在图3中,21是自适应编码表,22是音调峰值位置计算器,23是振幅增强窗生成器,24是噪音编码表,25是振幅增强加窗器,只是不使噪音声源与音调周期同步这一点与图1的声源生成部不同。
(实施例2)
图4表示本发明的实施例2,对于具有对声音信号的有声部的前沿部分应用将脉冲串声源与噪音声源组合的声源的结构的CELP型声音编码装置,示出了增强与脉冲串声源的脉冲位置对应的噪音编码矢量的振幅的声音编码装置的声源生成部。在图4中,31是向振幅增强窗生成器32和加法器33输出的、置于音调脉冲的位置的、由按音调周期L的间隔排列的脉冲串构成的脉冲串声源,32是生成用于增强与脉冲串的脉冲位置对应的位置的噪音编码矢量振幅的振幅增强窗并向乘法器35输出的振幅增强窗生成器,33是将脉冲串声源与从乘法器35输出的加振幅增强窗后的噪音编码矢量相加并作为激励矢量而输出的加法器,34是用噪音编码矢量表现的向乘法器35输出的噪音声源,35是对从噪音声源34输出的噪音声源矢量乘以从振幅增强窗生成器32输出的振幅增强窗的乘法器。
下面,对上述结构的声源生成部使用图4说明其动作。脉冲串声源31是根据音调周期L和初始相位P确定脉冲的位置和间隔的脉冲串,音调周期L和初相位P在声源生成部的外部通过别的方式进行计算。脉冲串声源虽然可以是将脉冲排列的声源,但是,还是可以表现在采样点与采样点之间存在的脉冲的声源的性能为好。同样,对于初始相位(最初的脉冲的位置),也是用可以表现采样点与采样点之间的分数精度进行表示的性能好,在可以分配给该信息的位数不充分时,即使可以用整数精度得到良好的性能,用于位置确定的搜索也是容易的。
振幅增强窗生成器32是用于增强与脉冲串声源矢量的脉冲的位置对应的位置的噪音声源矢量的振幅的窗,和在实施例1中说明的振幅增强窗相同。可以使用以脉冲的位置为中心的三角窗等。
加法器33将脉冲串声源矢量31与由乘法器35乘以振幅增强窗的噪音声源矢量34相加,并作为激励声源矢量而输出。
图4中虽然未示出,但是,如果采用在输入加法器33之前对脉冲串声源矢量和噪音声源矢量分别乘以适当的增益的结构,将成为表现性更高的声源生成部。但是,这时则需要另外传送增益信息。另外,将脉冲串声源矢量和噪音声源矢量的增益固定时,则必须进行将脉冲串声源矢量的功率调整为与噪音声源矢量的功率相等从而使脉冲串声源矢量不致湮没到噪音声源矢量中等增益调整。
这样,按照上述实施例2,通过使噪音声源矢量的振幅与音调周期同步地进行增强,可以提高音质。
(实施例3)
图5表示本发明的实施例3,在CELP型声音编码装置中,示出了使用仅限定自适应编码矢量的音调峰值附近的噪音编码矢量的声音编码装置的声源生成部。
在图5中,41是输出自适应编码矢量的自适应编码表,42是将从自适应编码表41输出的自适应编码矢量和音调周期L作为输入并将音调峰值的位置(相位信息)向噪音编码矢量生成器44输出的相位搜索器,43是存储仅在音调峰值的附近限定矢量长的噪音编码矢量并将音调脉冲位置附近的噪音编码矢量向噪音编码矢量生成器44输出的音调脉冲位置附近限定型噪音编码表,44是将从音调脉冲位置附近限定型噪音编码表43输出的噪音编码矢量和从相位搜索器42输出的相位信息以及音调周期L作为输入、并将噪音编码矢量向周期化器45输出的噪音编码矢量生成器,45是将从噪音编码矢量生成器44输出的噪音编码矢量和音调周期L作为输入并输出最终的噪音编码矢量的周期化器。
下面,对上述结构的声音编码装置的声源生成部使用图5说明其动作。相位搜索器42使用从自适应编码表41输出的自适应编码矢量,确定在自适应编码矢量内存在的音调脉冲的位置(相位)。音调脉冲的位置可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化而精度更高地求出。
音调脉冲位置附近限定型噪音编码表43存储用于应用于自适应编码矢量的音调峰值附近的噪音编码矢量,矢量长为固定长度,与音调周期和帧(子帧)长无关。作为音调峰值附近的范围,可以是以音调峰值为中心前后相等的长度的范围,但是,将音调峰值之后的范围取得比音调峰值之前的范围大的音质劣化还是少。例如,将附近的范围取为5msec时,将音调峰值之前取为0.625msec、将音调峰值之后取为4.375msec比将音调峰值前后各取为2.5msec要好。另外,作为矢量长,在子帧长为10msec时,如果是5msec左右,则可实现与使矢量长大于10msec的情况基本上相同的音质。
噪音编码矢量生成器44将从音调脉冲位置限定型噪音编码表43输出的噪音编码矢量配置到由相位搜索器42确定的音调脉冲的位置。
图6(a)、6(b)和图7(a)、7(b)是图解将从音调脉冲位置限定型噪音编码表43输出的噪音编码矢量配置到与由噪音编码矢量生成器44确定的音调脉冲位置对应的位置处的方法的图。如图6(a)所示,基本上是将音调脉冲位置限定噪音编码矢量配置到音调脉冲位置的附近。在图6(a)、6(b)中,表示为音调周期化范围的部分(斜线部)是在周期化部45中进行音调周期化处理时作为对象的部分。对于图6(a)那样的情况,在噪音编码矢量生成器44中,不需要进行音调周期化处理,但是,对于图6(b)所示的情况,由于音调脉冲的位置位于子帧边界的附近,所以,在周期化部45中,不能对从音调脉冲位置限定型噪音编码表43输出的噪音编码矢量的前半部分(子帧边界之前的部分)进行周期化处理(在周期化部45中,从子帧边界开始将只分离出音调周期长的矢量按音调周期反复进行排列),于是,在噪音编码矢量生成器44中,便预先进行音调周期化处理的动作。另外,在子帧边界之前有音调脉冲位置时,如果从子帧的开头只分离出音调周期进行周期化处理,由于音调脉冲位置附近限定矢量的后半部分未适当地进行音调周期化处理,所以,如图7(a)所示的那样,噪音矢量生成器44在时间轴的负方向上也进行音调周期化处理。但是,音调脉冲位置从子帧开头开始在音调周期长的期间不存在时,就不必进行该周期化处理。这样,通过在音调周期化部45之前预先进行音调周期化处理,便可利用音调周期化部45进行有效地使用音调位置附近限定矢量的所有部分的音调周期化处理。在音调周期小于限定在音调脉冲位置附近的矢量长时,就从限定矢量中只分离出音调周期长进行音调周期化处理。这时,对于分离方式,进行了各种各样的考虑,分离为音调脉冲位置包含在所分离出的矢量中。例如,从音调脉冲位置开始,使用音调脉冲位置和音调周期确定分离的开始点,以使从四分之一音调周期前的点开始分离出1音调周期。
图7(b)示出了音调周期小于限定矢量长时的噪音编码矢量的分离方法的一例。这时,从音调脉冲位置附近限定噪音编码矢量的开头分离出音调周期长。这样,就不必每次计算分离的开始点。即,如上所述,从音调脉冲位置开始,从四分之一音调周期前的点开始分离1音调周期时,由于音调周期是变量,所以,必须每次计算四分之一音调周期,但是,由于音调脉冲位置附近限定噪音编码矢量的开头位置是固定值,所以,不必进行计算。但是,在从音调脉冲位置附近限定噪音编码矢量的开头只分离出音调周期长的矢量中不包含与音调脉冲位置对应的部分时,就必须错开开始进行分离的位置,以使其中包含与音调脉冲位置对应的部分。
周期化器45对从噪音编码矢量生成器44输出的噪音编码矢量进行音调周期化处理。音调周期化就是按音调周期将噪音编码矢量进行周期化处理,将噪音编码矢量从开头只分离出音调周期L的量,通过在达到子帧长之前多次反复将其连接而进行。但是,进行音调周期化处理的只是音调周期小于子帧长的情况。对于分数精度的音调周期的情况,则连接通过内插计算分数精度的点而得到的矢量。
这样,按照上述实施例3,通过使用只限定适应编码矢量的音调峰值附近的噪音编码矢量,即使在分配给噪音编码矢量的位数少的情况下,也可以减少音质劣化,从而可以在残差功率集中在音调脉冲附近的有声部提高音质。
(实施例4)
图8表示本发明的实施例4,示出了根据自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索范围的声音编码装置的声源生成部。在图8中,51是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器52和音调增益乘法器55输出的自适应编码表,52是将从自适应编码表输出的自适应编码矢量和音调周期L作为输入计算音调峰值位置并向搜索范围计算器53输出的音调峰值位置计算器,53是将从音调峰值位置计算器52输出的音调峰值位置和音调周期L作为输入计算搜索脉冲声源的范围并向脉冲声源搜索器54输出的搜索范围计算器,54是将从搜索范围计算器53输出的搜索范围和音调周期L作为输入搜索脉冲声源并将脉冲声源矢量向脉冲声源增益乘法器56输出的脉冲声源搜索器,55是将从自适应编码表输出的自适应编码矢量乘以音调增益并向加法器57输出的乘法器,56是将从脉冲声源搜索器输出的脉冲声源矢量乘以脉冲声源增益并向加法器57输出的乘法器,57是将乘法器55的输出和乘法器56的输出作为输入进行相加并作为激励声源矢量而输出的加法器。
下面,使用图8说明上述结构的声源生成部的动作。在图8中,自适应编码表51从在声源生成部的外部预先计算的追溯到过去的音调周期L的点将自适应编码矢量只分离出子帧长,作为自适应编码矢量而输出。在音调周期L不满子帧长时,在达到子帧长之前,将分离出的音调周期L的矢量反复连接的矢量作为自适应编码矢量而输出。
音调峰值位置计算器52使用从自适应编码表51输出的自适应编码矢量确定在自适应编码矢量内存在的音调脉冲的位置。音调脉冲的位置可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化而精度更高地求出。
搜索范围计算器53使用输入的音调峰值位置和音调周期L计算搜索脉冲声源的范围。即,根据音调峰值的位置信息计算在1音调波形中在听觉上重要的范围,并将该范围确定为搜索范围。由搜索范围计算器53确定的具体的搜索范围示于图9和图10。在图9(a)中,示出了根据音调峰值位置从5个采样点前的位置开始将32个采样点的范围确定为搜索范围的情况。在有声部中,如果使用预先按音调周期排列的脉冲串作为脉冲声源,则在第2个脉冲的搜索范围的相同位置发生脉冲,从而可以有效地表现声源。图9(b)表示音调周期大于图9(a)时的情况所确定的搜索范围的一例。音调周期长时,如图9(a)所示的那样,如果集中地搜索音调脉冲附近,则对1音调波形的相对的搜索范围变窄,从而所能表现的频带狭窄,有时特定的频带的频率成分的表现性恶化。这时,如图9(b)所示,通过设置不搜索所有的采样点而搜索隔1个或隔2个的采样点的部分取代根据音调周期扩大搜索范围,便可不增加搜索的位置的数量而避免特定频带的频率成分的表现性恶化。
另外,在图10中示出了使在音调脉冲位置附近加密而在除此之外的部分稀疏地限定脉冲位置搜索范围的方法。该限定方法基于脉冲发生的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部,在音调脉冲附近脉冲发生的概率比在其他部分发生的概率高。但是,在其他部分,脉冲发生的概率并不是小到可以忽略的程度。图10所示的脉冲位置搜索范围限定方法可以说是在图9(b)所示的方法中根据脉冲发生的概率分布进行搜索范围限定的一例。在图9(a)中,在音调周期短、最初的脉冲的搜索范围与第2个脉冲的搜索范围重合时,为了不与第2个脉冲的搜索范围重合,代之以将最初的脉冲的搜索范围变窄的方法,有增加脉冲数的方法及在与第2个脉冲的搜索范围重合的搜索范围内进行确定的方法(和图9(a)相同的搜索范围确定方法)。
脉冲位置搜索器54在由搜索范围计算器53确定的搜索范围(位置)内设立脉冲声源,输出合成声音与输入声音最接近的位置。特别是在子帧长为包含多个音调脉冲的长度并且是有声稳定部中,将按音调周期间隔排列的脉冲串作为脉冲声源、从搜索范围中确定脉冲串的第1条的脉冲位置是有效的。作为脉冲的发生方法,考虑了很多种,在搜索范围的例如32个位置的某处发生了常数条(例如4条)脉冲时,则有将32个位置分为4组搜索所有的组合(8×8×8×8种)用以确定分配1条脉冲的8个位置中的1个位置的方法和对从32个位置中选择4个位置的所有的组合进行搜索的方法等。除了振幅1的脉冲的组合外,也可能是通过将多条(例如2条)脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
通过乘法器55和56相乘而得到的增益是使用从自适应编码表51输出的自适应编码矢量和从脉冲位置搜索器54输出的脉冲声源矢量进行声音合成以使与输入声音的误差为最小而对各矢量所确定的值。这里,假定乘以自适应编码矢量的增益为音调增益、乘以脉冲声源矢量的增益为脉冲声源增益,乘法器55将自适应编码矢量乘以音调增益并向加法器57输出。乘法器56将脉冲声源矢量乘以脉冲声源增益并向加法器57输出。
加法器57将从乘法器55输出的最佳增益乘法运算后的自适应编码矢量与从乘法器56输出的最佳增益乘法运算后的脉冲声源矢量相加,作为激励声源矢量而输出。
这样,按照上述实施例4,即使分配给脉冲的位数少时,也可以减少音质劣化。
(实施例5)
图11(a)表示本发明的实施例5,示出了根据自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索范围的声源生成部的脉冲搜索位置确定部,是将图8的搜索范围计算器53进一步详细表示的图。在图11(a)中,61是将音调周期L作为输入并将脉冲搜索位置模式向脉冲搜索位置确定器62输出的脉冲搜索位置模式选择器,62是分别从脉冲搜索位置模式选择器61输入脉冲搜索位置模式、从音调峰值位置计算器52输入音调峰值位置并将搜索范围(脉冲搜索位置)向脉冲位置搜索器54输出的脉冲搜索位置确定器。
下面,使用图11(a)、11(b)、11(c)说明上述结构的声源生成部的搜索范围计算器53的动作。脉冲搜索位置模式选择器61预先具有多个种类的脉冲搜索位置模式(该脉冲搜索位置模式由进行脉冲搜索的采样点的位置的集合构成,用以音调峰值位置为0的相对位置表现采样点),使用通过音调分析而得到的音调周期L,确定使用哪个脉冲搜索位置模式,并将脉冲搜索位置模式向脉冲搜索位置确定器62输出。
图11(b)、11(c)是表示脉冲搜索位置模式选择器61预先具有的脉冲搜索位置模式的一例。图中的标度表示采样点的位置,带箭头的采样点是脉冲搜索位置(不带箭头的部分不进行搜索)。标度的数值是表示以根据自适应编码矢量求出的音调峰值位置为0的相对位置的数值。另外,在图11(b)、11(c)中,示出了1子帧80采样的情况。在图11(b)中,示出了音调周期L长(例如大于45采样)时的搜索位置模式,在图11(c)中,示出了音调周期L短(例如小于44采样)时的搜索位置模式。音调周期L短时,不进行整个子帧的搜索,但是,通过进行音调周期化处理,在整个子帧中可以发生脉冲。音调周期化可以通过使用下式(1)很容易地进行(ITU-T STUDY GROUPl5-CONTRIBUTION 152,“G.729-CODINGOF SPEECH AT8 KBIT/S USING CONJUGATE-STRUCTUREALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”,COM15-152-E July 1995)。
code(i)=code(i)+β×code(i-L)…(1)
在式(1)中,code()表示脉冲声源矢量,i表示采样序号(在图11的例中,为0~79)。另外,β是表示周期化的强度的增益值,周期性强时数值大,周期性弱时数值小(通常,使用0~1.0的值)。在图11(c)中,在(-4)~48采样的范围(53采样的范围)内进行脉冲搜索。因此,音调周期L小于53(或54)时,也可以使用图11(c)的搜索范围模式。但是,通过音调周期L采用小于45采样的情况,可以使2个音调峰值位置包含在搜索范围内,从而可以与第1个周期的音调脉冲波形和第2个周期的音调脉冲波形变化的情况以及将所求出的音调峰值位置错误地检测为实际的音调峰值位置的1周期前的位置的情况对应。
脉冲搜索位置确定器62使用从脉冲搜索位置模式选择器输出的脉冲搜索位置模式确定当前的子帧的脉冲搜索位置,并向脉冲位置搜索器54输出。由于从脉冲搜索位置模式选择器62输出的脉冲搜索位置模式使用以音调峰值位置为0的相对位置进行表现,所以,不能直接用于进行脉冲搜索。因此,在变换为以子帧的开头为0的绝对位置后,向脉冲位置搜索器54输出。
(实施例6)
图12表示本发明的实施例6,示出了根据自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索位置、同时具有切换脉冲声源使用的脉冲数的结构的声音编码装置的声源生成部。在图12中,71是将自适应编码矢量向音调峰值位置计算器72和乘法器76输出的自适应编码表,72是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从自适应编码表输出的自适应编码矢量作为输入并将音调峰值位置向搜索位置计算器74输出的音调峰值位置计算器,73是将通过音调分析或自适应编码表搜索在外部求出的音调周期L作为输入并将脉冲数向搜索位置计算器74输出的脉冲数确定器,74是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从脉冲数确定器73输出的脉冲数以及从音调峰值位置计算器72输出的音调峰值位置作为输入、并将脉冲的搜索位置向脉冲位置搜索器75输出的搜索位置计算器,75是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从搜索位置计算器7 4输出的脉冲搜索位置作为输入、确定发生在脉冲声源中使用的脉冲的位置组合并将根据该组合而生成的脉冲声源矢量向乘法器77输出的脉冲位置搜索器,76是将从自适应编码表输出的自适应编码矢量作为输入、乘以自适应编码矢量增益并向加法器78输出的乘法器,77是将从脉冲位置搜索器输出的脉冲声源矢量作为输入、乘以脉冲声源矢量增益并向加法器78输出的乘法器,78是将从乘法器76和77输出的矢量作为输入进行矢量相加并作为声源矢量而输出的加法器。
下面,参照图12说明上述结构的CELP型声音编码装置的声源生成部的动作。从自适应编码表71输出的自适应编码矢量向乘法器76输出,乘以自适应编码矢量增益后向加法器78输出。音调峰值位置计算器72根据自适应编码矢量检测音调峰值,并将该位置向搜索位置计算器74输出。音调峰值位置的检测(计算)可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应卷积到按音调周期L排列的脉冲串矢量上的矢量与将合成滤波器的脉冲响应卷积到自适应编码矢量上的矢量的内积最大化而更高精度地进行音调峰值位置的检测。
脉冲数确定器73根据音调周期L的值确定在脉冲声源中使用的脉冲的条数,并向搜索位置计算器74输出。脉冲数与音调周期的关系预先根据学习或统计进行确定,可以根据音调周期的数值的范围确定各范围的脉冲条数,例如音调周期小于45采样时为5条、大于45采样小于80采样时为4条、大于80采样时为3条。音调周期短时,通过使用音调周期化处理,可以将脉冲搜索范围限定为1~2音调周期,所以,可以通过增加脉冲数来取代减少位置信息。另外,在波形上,对于音调周期短的女声和音调周期长的男声,波形的特征不同,分别存在适当的脉冲数。
通常,用于男声的脉冲性强,所以,有脉冲位置比脉冲数重要的倾向,在女声中,由于脉冲性弱,所以,有增加脉冲数避免功率集中的方法比较好的倾向。根据上述情况,在音调周期长时就减少脉冲数、在音调周期短时就增多某种程度的脉冲数是有效的。此外,如果在考虑了连续的子帧间的脉冲条数的变化以及音调周期L的变化等确定脉冲数,便可缓和连续的子帧间的不连续性和提高有声部的前沿部的品质。具体而言,在连续的子帧中,根据音调周期L确定的脉冲数从5条减少为3条时,通过使脉冲数的减少具有滞后现象,不是从5条急剧地减少为3条而是通过使之成为4条,便可避免在子帧间脉冲数发生大的变化,或者,在连续的子帧间音调周期L大不相同时,则是有声部的前沿的可能性大,所以,减少脉冲数提高脉冲位置的精度可以提高声音品质,因此,在前一子帧的音调周期L与当前子帧的音调周期L大不相同时,不论当前子帧的音调周期L的值如何,通过使脉冲数成为3条等方法进行脉冲数的确定,可以进一步提高声音品质。使用这些方法时,容1易受音调分析的倍音调错误或半音调错误等的影响,所以,如果采取缓和这些要素的影响的脉冲数确定法(例如,考虑了半音调或倍音调的可能性后判断音调周期的连续性等),或者尽可能提高音调分析的精度,是非常有效的。
搜索位置计算器74根据音调峰值位置和脉冲条数确定进行脉冲搜索的位置。脉冲的搜索位置,在音调峰值附近分布得紧密,在除此之外的部分分布得稀疏(在没有搜索所有的采样点的足够的位分配时是有效的)。即,在音调峰值位置附近,所有的采样点都是脉冲位置搜索的对象,但是,在远离音调峰值位置的部分,则扩大脉冲位置搜索的间隔,成为每2采样或3采样进行搜索(例如,如图11(b)、11(c)所示的那样确定搜索位置)。另外,在脉冲数多时,分配给每1条脉冲的位数少,所以,稀疏部分的间隔比脉冲数少时宽(脉冲位置的精度降低)。音调周期短时,如实施例5所示的那样,如果将搜索范围只限定为从子帧内的最初的音调峰值开始的1音调周期强的范围内,就可以进一步提高声音品质。
脉冲位置搜索器75根据由搜索位置计算器74确定的搜索位置确定发生脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T STUDYGROUP15-CONTRIBUTION 152,“G.729-CODING OF SPEECH AT 8KBIT/S USING CONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITEDLINEAR-PREDICTION(CS-ACELP)”,COM 15-152-E July 1995」所示,例如脉冲数为4条时,使式(2)实现最大化来确定i0~i3的组合。
(DN×DN)/RR
DN=dn(i0)+dn(i1)+dn(i2)+dn(i3)
RR=rr(i0,i0)+
    rr(i1,i1)+2×rr(i0,i1)+
    rr(i2,i2)+2×(rr(i0,i2)+
                   rr(i1,i2))+
    rr(i3,i3)+2×(rr(i0,i3)+
                   rr(i1,i3)+
                   rr(i2,i3))
                         …(2)
其中,dn(i)(i=0~79:子帧长80采样的情况)是将脉冲声源成分的目标矢量x’(i)按照合成滤波器的脉冲响应进行反向滤波后的矢量,rr(i,i)如式(3)所示的那样是脉冲响应的自相关矩阵。另外,i0、i1、i2、i3所能取得的位置的范围是由搜索位置计算器74求出的范围。具体而言,在脉冲数为4条时,就成为图13(a)~13(d)所示的那样(图中带箭头的部分所能取得的位置,标度的数值是以音调峰值位置为0的相对值)。
dn ( i ) = Σ l = n 79 x ′ ( i ) h ( i - n ) , n = 0,1 , . . . , 79
rr ( i , j ) = Σ n = j 79 h ( n - i ) h ( n - j ) , i = 0,1 , . . . , 79 , j = i , i + 1 , . . . , 79 - - - ( 3 )
如果利用脉冲位置搜索器75确定了最佳脉冲位置的组合,则由该组合生成的脉冲声源矢量便向乘法器77输出,进行脉冲编码矢量增益的乘法运算,并向加法器78输出。
加法器78将自适应编码矢量成分与脉冲声源矢量成分相加,作为激励声源矢量而输出。
(实施例7)
图14表示本发明的实施例7,具有在脉冲搜索之前确定脉冲的振幅的结构。示出了CELP型声音编码装置的声源生成部。在图14中,81是由过去的激励声源信号的缓冲器构成的、将自适应编码矢量向音调峰值位置计算器82和乘法器88输出的自适应编码表,82是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从自适应编码表81输出的自适应编码矢量作为输入、并将音调峰值位置向搜索位置计算器84和脉冲振幅计算器87输出的音调峰值位置计算器,83是将通过音调分析或自适应编码表搜索在外部求出的音调周期L作为输入、并将脉冲数向搜索位置计算器84输出的脉冲数确定器,84是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从脉冲数确定器83输出的脉冲数以及从音调峰值位置计算器82输出的音调峰值位置作为输入、并将脉冲的搜索位置向脉冲位置搜索器85输出的搜索位置计算器,85是将通过音调分析或自适应编码表搜索在外部求出的音调周期L和从搜索位置计算器84输出的脉冲搜索位置以及从脉冲振幅计算器87输出的脉冲振幅作为输入、确定发生在脉冲声源中使用的脉冲的位置组合并将由该组合而生成的脉冲声源矢量向乘法器89输出的脉冲位置搜索器,86是将从乘法器88输出的(进行乘法增益运算后的)自适应编码矢量从通过由外部的LPC分析和LPC量化器确定的线性预测滤波器而得到的预测残差信号中减去、并将该差分信号向脉冲振幅计算器87输出的加法器,87是将从加法器86输出的差分信号作为输入并将脉冲振幅信息向脉冲位置搜索器85输出的脉冲振幅计算器,88是将从自适应编码表81输出的自适应编码矢量作为输入进行自适应编码矢量增益运算并向加法器90和86输出的乘法器,89是将从脉冲位置搜索器85输出的脉冲声源矢量作为输入进行脉冲声源矢量增益运算并向加法器90输出的乘法器,90是进行从乘法器88和89输出的矢量的加法运算并作为激励声源矢量而输出的加法器。
下面,使用图14说明上述结构的CELP型声音编码装置的声源生成部的动作。从自适应编码表81输出的自适应编码矢量向乘法器88输出,进行自适应编码矢量增益乘法运算后向加法器90和86输出。
音调峰值位置计算器82根据自适应编码矢量检测音调峰值,并将该位置向搜索位置计算器84和脉冲振幅计算器87输出。音调峰值位置的检测(计算)可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。
脉冲数确定器83根据音调周期L的值确定在脉冲声源中使用的脉冲的条数,并向搜索位置计算器84输出。脉冲数与音调周期的关系预先通过学习或统计进行确定,可以根据音调周期的数值的范围确定各范围的脉冲条数,例如,音调周期小于45采样时为5条,大于45采样小于80采样时为4条,大于80采样时为3条。此外,如果考虑了连续的子帧间的脉冲条数的变化及音调周期L的变化等确定脉冲数,则可缓和连续的子帧间的不连续性和提高有声部的前沿部的品质。具体而言,在连续的子帧中,根据音调周期L确定的脉冲数从5条减少为3条时,通过使脉冲数的减少具有滞后现象、不是急剧地从5条减少为3条而是成为4条来避免在子帧间脉冲数发生大的变化,或者,在连续的子帧间音调周期L大不相同时,是有声部的前沿的可能性大,所以,通过减少脉冲数提高脉冲位置的精度来提高声音品质,于是,在前一子帧的音调周期L与当前子帧的音调周期L大不相同时,不论当前子帧的音调周期L的值如何,利用使脉冲数成为3条的等方法来确定脉冲数可以进一步提高声音品质。使用这些方法时,由于容易受音调分析的倍音调错误或半音调错误等的影响,所以,采用缓和这些影响的脉冲数确定法(例如,在考虑了半音调或倍音调的可能性后判断音调周期的连续性等)或者尽可能提高音调分析的精度,都是很有效的。
搜索位置计算器84根据音调峰值位置和脉冲条数确定进行脉冲搜索的位置。脉冲的搜索位置在音调峰值附近分配得紧密,在除此之外的部分分配得稀疏(在搜索所有的采样点没有足够的位分配时是有效的)。即,在音调峰值位置附近,所有的采样点都是脉冲位置搜索的对象,但是,在远离音调峰值位置的部分,则扩大脉冲位置搜索的间隔,成为每2采样或3采样进行搜索(例如,如图11(b)、11(c)所示的那样确定搜索位置)。另外,在脉冲数多时,分配给每1条脉冲的位数少,所以,稀疏部分的间隔比脉冲数少时宽(脉冲位置的精度降低)。音调周期短时,如实施例5所示的那样,如果将搜索范围只限定为从子帧内的最初的音调峰值开始的1音调周期强的范围内,就可以进一步提高声音品质。
脉冲位置搜索器85根据由搜索位置计算器84确定的搜索位置和由后面所述的脉冲振幅计算器87确定的脉冲振幅信息确定发生脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T STUDY GROUP15-CONTRIBUTION 152,“G.729-CODING OF SPEECH AT 8 KBIT/S USINGCONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”,COM 15-152-E July 1995」所示,例如脉冲数为4条时,使式(4)实现最大化来确定i0~i3的组合。
    DN×DN/RR
DN=a0×dn(i0)+a1×dn(i1)+a2×dn(i2)+a3
×dn(i3)
RR=a0×a0×rr(i0,i0)+
a1×a1×rr(i1,i1)+2×a0×a1×rr(i0,i1)+
a2×a2×rr(i2,i2)+2×(a0×a2×rr(i0,i2)+
           a1×a2×rr(i1,i2))+
a3×a3×rr(i3,i3)+2×(a0×a3×rr(i0,i3)+
           a1×a3×rr(i1,i3)+
           a2×a3×rr(i2,i3))
                                       …(4)
其中,dn(i)(i=0~79:子帧长80采样的情况)是将脉冲声源成分的目标矢量与合成滤波器的脉冲响应进行卷积后的矢量,rr(i,i)如式(3)所示的那样是脉冲响应的自相关矩阵。另外,i0、i1、i2、i3所能取得的位置的范围是由搜索位置计算器84求出的范围。具体而言,在脉冲数为4条时,就成为图13(a)~13(d)所示的那样(图中带箭头的部分所能取得的位置,标度的数值是以音调峰值位置为0的相对值)。另外,a0、a1、a2、a3是由脉冲振幅计算器87求出的脉冲振幅。
由脉冲位置搜索器85确定了最佳脉冲位置的组合时,根据该组合而生成的脉冲声源矢量向乘法器89输出,进行脉冲表矢量增益乘法运算,并向加法器90输出。
加法器86将自适应编码矢量成分(将自适应编码矢量乘以自适应编码矢量增益后的矢量成分)从通过在外部进行的LPC分析而得到的线性预测残差信号(预测残差矢量)中减去,并将该差分信号向脉冲振幅计算器87输出。在CELP型声音编码装置的声源部中,通常,自适应编码矢量增益和噪音编码矢量(在本发明中,相当于脉冲声源矢量)增益在自适应编码表搜索和噪音编码表搜索都结束之后进行确定,所以,在脉冲位置搜索之前不可能得到将自适应编码矢量乘以自适应编码矢量增益后的矢量。因此,在加法器86中进行减法运算使用的自适应编码矢量成分就是对自适应编码矢量乘以在进行自适应编码表搜索时根据式(5)求出的自适应编码矢量增益(不是最终的最佳自适应编码矢量增益)后的矢量成分。
gp = Σ n = 0 79 x ( n ) y ( n ) Σ n = 0 79 y ( n ) y ( n ) . . . ( 5 )
其中,x(n)是所谓的目标矢量,这里,就是从进行了听觉加权后的输入信号中除去当前子帧的LPC合成滤波器的零输入响应后的矢量。另外,y(n)是合成声音信号中由自适应编码矢量生成的成分,这里,就是把将当前子帧的LPC合成滤波器和听觉加权滤波器纵向连接的滤波器的脉冲响应与自适应编码矢量卷积后的成分。
脉冲振幅计算器87使用由音调峰值位置计算器82求出的音调峰值位置,将从加法器86输出的差分信号分割为音调峰值位置附近和除此之外的部分,求这些部分的功率的平均值或包含在各部分的采样点的信号振幅的绝对值的平均值,并将这些振幅作为音调峰值位置附近的脉冲振幅和除此之外的部分的脉冲振幅向脉冲位置搜索器85输出。在脉冲位置搜索器85中,使用音调脉冲附近的脉冲和除此之外的部分的脉冲中不同的振幅进行式(4)的评价,从而进行脉冲位置搜索。从脉冲位置搜索器85输出由通过脉冲位置搜索确定的脉冲位置和分配给该位置的脉冲的脉冲振幅所表现的脉冲声源矢量。
加法器90将自适应编码矢量成分与脉冲声源矢量成分相加并作为激励声源矢量而输出。
(实施例8)
图15表示本发明的实施例8,示出了具有根据音调周期的连续性的判断结果切换在脉冲搜索中使用的搜索位置的结构的CELP型声音编码装置的声源生成部。在图15中,91是将自适应编码矢量向音调峰值位置计算器92和乘法器99输出的自适应编码表,92是将从自适应编码表91输出的自适应编码矢量和音调周期L作为输入、并将自适应编码矢量内的音调峰值位置向搜索位置计算器94输出的音调峰值位置计算器,93是将音调周期L作为输入并将脉冲声源的脉冲数向搜索位置计算器94输出的脉冲数确定器,94是将音调周期L和从音调峰值位置计算器92输出的音调峰值位置以及从脉冲数确定器93输出的脉冲数作为输入、并将脉冲的搜索位置通过开关98向脉冲位置搜索器97输出的搜索位置计算器,95是将当前子帧的音调周期L作为输入并延迟1子帧后向判断器96输出的延迟器,96是将当前子帧的音调周期L和从延迟器95输出的前一子帧的音调周期作为输入并将音调周期的连续性的判断结果向开关98输出的判断器,97是分别将通过开关98从搜索位置计算器94输入的脉冲的搜索位置、通过开关98输入的固定搜索位置和通过开关98输入的音调周期L作为输入、使用输入的搜索位置和音调周期L进行脉冲位置的搜索并将脉冲声源矢量向乘法器100输出的脉冲位置搜索器。98是根据从判断器96输入的判断结果而切换的连动的2***的开关,一个***的开关用于切换由搜索位置计算器94计算脉冲的搜索位置的搜索位置和预先确定的固定搜索位置,另一个***的开关用于控制将音调周期L输入还是不输入脉冲位置搜索器97的通/断(ON/OFF)。99是将从自适应编码表91输出的自适应编码矢量作为输入、乘以自适应编码矢量增益并向加法器101输出的乘法器,100是将从脉冲位置搜索器97输出的脉冲声源矢量作为输入、乘以脉冲声源矢量增益并向加法器101输出的乘法器,101是将从乘法器99和100输出的矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图15说明上述结构的CELP型声音编码装置的声源生成部的动作。自适应编码表91由过去的激励声源的缓冲器构成,根据通过外部的音调分析或由自适应编码表搜索装置求出的音调周期或音调延迟从激励声源的缓冲器中取出相应的部分,作为自适应编码矢量,向音调峰值位置计算器92和乘法器99输出。从自适应编码表91向乘法器99输出的自适应编码矢量乘以自适应编码矢量增益后向加法器101输出。
音调峰值位置计算器92根据自适应编码矢量检测音调峰值,并将该位置向搜索位置计算器94输出。音调峰值位置的检测(计算),可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。
脉冲数确定器93根据音调周期L的值确定在脉冲声源中使用的脉冲的条数,并向搜索位置计算器94输出。脉冲数与音调周期的关系预先通过学习或统计进行确定,可以根据音调周期的数值的范围确定各范围的脉冲条数,例如,音调周期小于45采样时为5条,大于45采样小于80采样时为4条,大于80采样时为3条。
搜索位置计算器94根据音调峰值位置和脉冲条数确定进行脉冲搜索的位置。脉冲的搜索位置在音调峰值附近分配得紧密,在除此之外的部分分配得稀疏(在搜索所有的采样点没有足够的位分配时是有效的)。即,在音调峰值位置附近,所有的采样点都是脉冲位置搜索的对象,但是,在远离音调峰值位置的部分,则扩大脉冲位置搜索的间隔,成为按每2采样或3采样进行搜索(例如,如图11(b)、11(c)所示的那样确定搜索位置)。另外,在脉冲数多时,分配给每1条脉冲的位数少,所以,稀疏部分的间隔比脉冲数少时宽(脉冲位置的精度降低)。音调周期短时,如实施例5所示的那样,如果将搜索范围只限定为从子帧内的最初的音调峰值开始的1音调周期多的范围内,就可以进一步提高声音品质。
脉冲位置搜索器97根据由搜索位置计算器94确定的搜索位置或预先确定的固定搜索位置以及音调周期L确定发生脉冲的位置的最佳的组合。脉冲搜索的方法如「ITU-T STUDY GROUP15-CONTRIBUTION 152,“G.729-CODING OF SPEECH AT 8 KBIT/S USINGCONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”,COM 15-152-E July 1995」所示,例如脉冲数为4条时,使式(2)实现最大化来确定i0~i3的组合。
开关98的切换根据判断器96的判断结果进行。判断器96使用当前子帧的音调周期L和从延迟器95输入的此前的子帧的音调周期判断音调周期是否连续。具体而言,在当前子帧的音调周期值与此前的子帧的音调周期值之差小于预先确定的或通过计算求出的阈值时,就判定音调周期连续。判定音调周期连续时,当前子帧就被视为是有声·有声稳定部,开关98将搜索位置计算器94与脉冲位置搜索器97连接,将音调周期L输入脉冲位置搜索器97(开关98的一个***切换为搜索位置计算器94,另一个***成为接通(ON)状态,将音调周期L输入脉冲位置搜索器97)。判定音调周期不连续时(当前子帧的音调周期与此前的子帧的音调周期之差超过阈值),当前子帧就被视为不是有声·有声稳定部(是无声部·有声前沿部),开关98将预先确定的固定搜索位置输入脉冲搜索器97,音调周期L不输入脉冲位置搜索器(开关98的一个***切换为固定搜索位置,另一个***成为断开(OFF)状态,音调周期L不输入脉冲位置搜索器97)。
由脉冲位置搜索器97确定了最佳脉冲位置的组合时,通过该组合而生成的脉冲声源矢量向乘法器100输出,乘以脉冲编码矢量增益后向加法器101输出。
加法器101将自适应编码矢量成分与脉冲声源矢量成分相加,作为激励声源矢量而输出。
图16所示的表示出了图15的固定搜索位置的内容的一例。图16(b)和图13所示的搜索位置一样在每1脉冲分配8个位置时将搜索位置固定为使搜索位置均等地分布在整个子帧中(不是在音调峰值附近紧密而在其他部分稀疏,在总体上以均匀的密度分布)。另外,图16(a)是表示代之以4个脉冲中分配给2脉冲的搜索位置减少为4个的情况而将搜索位置的种类分为4种、子帧内的所有的采样点包含在某个搜索位置组中的图(用于表现脉冲位置的位数,图16(a)、16(b)都和图13完全相同)。这样,如图16(b)所示,由于没有完全不搜索的位置,所以,即使位数相同,通常也是图16(a)的性能好。
在本实施例中,示出了具有脉冲数确定器93的脉冲数可变型的声音编码装置的声源生成部,但是,在不具有脉冲数确定器93的脉冲数固定型的声音编码装置的声源生成部中,使用了音调周期的连续性的脉冲搜索位置切换也是有效的。另外,在本实施例中,只根据此前的子帧与当前子帧的音调周期来判断音调周期的连续性,但是,通过进而利用过去的子帧的音调周期,也可以提高判断的准确度。
(实施例9)
图17表示本发明的实施例9,音调增益(自适应编码矢量增益)的量化为2级量化结构,示出了初级的目标是在进行自适应编码表搜索之后计算的音调增益、具有根据该初级的量化音调增益切换在脉冲搜索中使用的搜索位置的结构的CELP型声音编码装置的声源生成部。在图17中,111是将自适应编码矢量向音调峰值位置计算器112和音调增益计算器116以及乘法器123输出的自适应编码表,112是将从自适应编码表111输出的自适应编码矢量和音调周期L作为输入并将自适应编码矢量内的音调峰值位置向搜索位置计算器114输出的音调峰值位置计算器,113是将音调周期L作为输入并将脉冲声源的脉冲数向搜索位置计算器114输出的脉冲数确定器,114是将音调周期L和从音调峰值位置计算器112输出的音调峰值位置以及从脉冲数确定器113输出的脉冲数作为输入、并将脉冲的搜索位置通过开关115向脉冲位置搜索器119输出的搜索位置计算器,115是根据从判断器118输入的判断结果而切换的连动的2***的开关,一个***的开关用于切换由搜索位置计算器114计算脉冲的搜索位置的搜索位置和预先确定的固定搜索位置,另一个***的开关用于将音调周期L输入脉冲位置搜索器119还是不输入的通/断(ON/OFF)控制。116是将从自适应编码表111输出的自适应编码矢量和当前帧的目标矢量以及脉冲响应作为输入、并将音调增益向量化器117输出的音调增益计算器,117是将从音调增益计算器116输出的音调增益量化并向判断器118和加法器120及122输出的量化器,118是将从量化器117输出的初级量化音调增益作为输入并将音调周期性的判断结果向开关115输出的判断器,119是分别将通过开关115从搜索位置计算器114输入的脉冲的搜索位置、通过开关115输入的固定搜索位置和通过开关115输入的音调周期L作为输入、使用输入的搜索位置和音调周期L进行脉冲位置的搜索并将脉冲声源矢量向乘法器124输出的脉冲位置搜索器,120是将从量化器117输出的初级量化音调增益和从差分量化器121输出的差分量化音调增益作为输入并将加法结果作为最佳量化音调增益(自适应编码矢量增益)向乘法器123输出的加法器,121是将从加法器122输出的差分值作为输入并将其量化值向加法器120输出的差分量化器,122是将在确定自适应编码矢量和脉冲声源矢量后在外部计算的最佳音调增益(自适应编码矢量增益)和从量化器117输出的初级量化音调增益(自适应编码矢量增益)作为输入并将它们的差分向差分量化器121输出的加法器,123是将从自适应编码表111输出的自适应编码矢量作为输入、乘以从加法器120输出的量化音调增益(自适应编码矢量增益)并向加法器125输出的乘法器,124是将从脉冲位置搜索器119输出的脉冲声源矢量作为输入、乘以脉冲声源矢量增益并向加法器125输出的乘法器,125是将从乘法器123和124输入的矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图17说明上述结构的声音编码装置的声源生成部的动作。自适应编码表111由过去的激励声源的缓冲器构成,根据外部的音调分析或通过自适应编码表搜索装置求出的音调周期或音调延迟,从激励声源的缓冲器中取出相应的部分,并作为自适应编码矢量向音调峰值位置计算器112和音调增益计算器116以及乘法器123输出。从自适应编码表111向乘法器输出的自适应编码矢量乘以从加法器120输出的量化音调增益(自适应编码矢量增益)后向加法器125输出。
音调峰值位置计算器112根据自适应编码矢量检测音调峰值,并将该位置向搜索位置计算器114输出。音调峰值位置的检测(计算)可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。
脉冲数确定器113根据音调周期L的值确定在脉冲声源中使用的脉冲的条数,并向搜索位置计算器114输出。脉冲数与音调周期的关系预先通过学习或统计进行确定,可以根据音调周期的数值的范围确定各范围的脉冲条数,例如,音调周期小于45采样时为5条,大于45采样小于80采样时为4条,大于80采样时为3条。
搜索位置计算器114根据音调峰值位置和脉冲条数确定进行脉冲搜索的位置。脉冲的搜索位置在音调峰值附近分配得紧密,在除此之外的部分分配得稀疏(在搜索所有的采样点没有足够的位分配时是有效的)。即,在音调峰值位置附近,所有的采样点都是脉冲位置搜索的对象,但是,在远离音调峰值位置的部分,则扩大脉冲位置搜索的间隔,成为按每2采样或3采样进行搜索(例如,如图11(b)、11(c)所示的那样确定搜索位置)。另外,在脉冲数多时,分配给每1条脉冲的位数少,所以,稀疏部分的间隔比脉冲数少时宽(脉冲位置的精度降低)。音调周期短时,如实施例5所示的那样,如果将搜索范围只限定为从子帧内的最初的音调峰值开始的1音调周期多的范围内,就可以进一步提高声音品质。
脉冲位置搜索器119根据由搜索位置计算器114确定的搜索位置或预先确定的固定搜索位置以及音调周期L确定发生脉冲的位置的最佳的组合。脉冲搜索的方法如「ITU-T STUDY GROUP15-CONTRIBUTION 152,“G.729-CODING OF SPEECH AT 8 KBIT/S USINGCONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”,COM 15-152-E July 1995」所示,例如脉冲数为4条时,使式(2)实现最大化来确定i0~i3的组合。
开关115的切换根据判断器118的判断结果进行。判断器118使用从量化器117输出的初级量化音调增益判断当前子帧是否为音调周期性强的子帧。具体而言,在初级量化音调增益处于预先确定的或通过计算求出的范围内时,就判定音调周期性强。判定音调周期性强时,当前子帧就被视为是有声·有声稳定部,开关115将搜索位置计算器114与脉冲位置搜索器119连接,将音调周期L输入脉冲位置搜索器119(开关115的一个***切换为搜索位置计算器114,另一个***成为接通(ON)状态,将音调周期L输入脉冲位置搜索器119)。判定音调周期不连续时(当前子帧的音调周期与此前的子帧的音调周期之差超过阈值),当前子帧就被视为不是有声·有声稳定部(是无声部·有声前沿部),开关115将预先确定的固定搜索位置输入脉冲搜索器119,音调周期L不输入脉冲位置搜索器(开关115的一个***切换为固定搜索位置,另一个***成为断开(OFF)状态,音调周期L不输入脉冲位置搜索器119)。
由脉冲位置搜索器119确定了最佳脉冲位置的组合时,通过该组合而生成的脉冲声源矢量向乘法器124输出,乘以脉冲编码矢量增益后向加法器125输出。
音调增益计算器116使用将把当前子帧的量化LPC合成滤波器与听觉加权滤波器纵向连接的滤波器的脉冲响应、目标矢量以及从自适应编码表输出的自适应编码矢量,利用式(5)计算音调增益(自适应编码矢量增益)。计算的音调增益由量化器117进行量化,并向判断音调周期性的强度的判断器118和加法器120及122输出。在加法器122中,计算在声源编码表搜索(自适应编码表搜索和噪音编码表搜索(在本实施例中为脉冲位置搜索))全部结束之后计算的最佳量化音调增益与从量化器117输出的(初级)量化音调增益的差分,并向差分量化器121输出。由加法器120将由差分量化器121所量化的差分值与从量化器117输出的初级量化音调增益相加,作为最佳量化音调增益向乘法器123输出。
乘法器123将从自适应编码表111输出的自适应编码矢量乘以最佳量化音调增益并向加法器125输出。
加法器125将自适应编码矢量成分与脉冲声源矢量成分相加,并作为激励声源矢量而输出。
在本实施例中,作为判断器118的输入,使用了当前子帧的初级量化音调增益,但是,在使用通常的增益量化的情况下(不是使用本实施例所示的多级量化的情况),也可以将此前的子帧的量化音调增益(自适应编码矢量增益)作为判断器118的输入。另外,在本实施例中,示出了具有脉冲数确定器的脉冲数可变型的声音编码装置的声源生成部,但是,在不具有脉冲数确定器的脉冲数固定型的声音编码装置的声源生成部中,使用音调增益的值判断周期性的强度进行脉冲搜索位置切换也是有效的。
(实施例10)
图18表示本发明的实施例10,示出了利用连续的子帧间的声源信号波形的相位的连续性反向对噪音编码表进行相位自适应处理的切换的声音编码装置的声源生成部。在图18中,1801是将自适应编码矢量向音调峰值位置计算器1802和乘法器1810输出的自适应编码表,1802是将从自适应编码表1801输出的自适应编码矢量和音调周期L作为输入、并将自适应编码矢量内的音调峰值位置向延迟器1803和判断器1806以及搜索位置计算器1807输出的音调峰值位置计算器,1803是将从音调峰值位置计算器1802输出的音调峰值位置作为输入并延迟1子帧后向音调峰值位置预测器1805输出的延迟器,1804是将音调周期L作为输入并延迟1子帧后向音调峰值位置预测器1805输出的延迟器,1805是将从延迟器1803输出的此前的子帧的音调峰值位置和从延迟器1804输出的此前的子帧的音调周期以及当前的子帧的音调周期L作为输入、并将预测音调峰值位置向判断器1806输出的音调峰值位置预测器,1806是将从音调峰值位置计算器1802输出的音调峰值位置和从音调峰值位置预测器1805输出的预测音调峰值位置作为输入、判断在此前的子帧与当前的子帧中是否有相位的连续性并将判断结果向开关1808输出的判断器,1807是将从音调峰值位置计算器1802输出的音调峰值位置和音调周期L作为输入、并将声源脉冲的搜索位置通过开关1808向脉冲位置搜索器1809输出的搜索位置计算器,1808是根据从判断器1806输出的判断结果进行切换的开关,用于切换从搜索位置计算器输出的搜索位置和预先确定的固定搜索位置。1809是分别将通过开关1808从搜索位置计算器1807输出的声源脉冲的搜索位置或通过开关1808输入的固定搜索位置和音调周期L作为输入、使用输入的声源脉冲搜索位置和音调周期L搜索声源脉冲的位置并将脉冲声源矢量向乘法器1812输出的脉冲位置搜索器,1810是将从自适应编码表1801输出的自适应编码矢量作为输入并乘以量化自适应编码矢量增益后向加法器1811输出的乘法器,1812是将从脉冲位置搜索器1809输出的脉冲声源矢量作为输入并乘以量化脉冲声源矢量增益后向加法器1811输出的乘法器,1811是分别将从乘法器1810和1812输出的矢量作为输入、将输入的矢量相加作为激励声源矢量而输出的加法器。
下面,使用图18说明上述结构的声音编码装置的声源生成部的动作。自适应编码表1801由过去的激励声源的缓冲器构成,根据通过外部的音调分析或由自适应编码表搜索装置求出的音调周期或音调延迟,从激励声源的缓冲器中取出相应的部分,并作为自适应编码矢量向音调峰值位置计算器1802和乘法器1810输出。从自适应编码表1801向乘法器1810输出的自适应编码矢量乘以由外部的增益量化器所量化的量化自适应编码矢量增益后,向加法器1811输出。
音调峰值位置计算器1802根据自适应编码矢量检测音调峰值,并将其位置向延迟器1803和判断器1806以及搜索位置计算器1807输出。音调峰值位置的检测(计算)可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。此外,如果增加将包含所检测的音调峰值位置的1音调周期波形中振幅值最大的位置作为音调峰值的后处理,也可以避免错误地检测1音调周期波形内的次峰值。
延迟器1803将由音调峰值位置计算器1802计算的音调峰值位置延迟1子帧后,向音调峰值位置预测器1805输出。即,此前的子帧的音调峰值位置从延迟器1803输入音调峰值位置预测器1805。延迟器1804将音调周期L延迟1子帧后向音调峰值位置计算器1805输出。即,此前的子帧的音调周期从延迟器1804输入音调峰值位置预测器1805。
音调峰值位置预测器1805将从延迟器1803输入的此前的子帧的音调峰值位置和从延迟器1804输入的此前的子帧的音调周期以及当前的子帧的音调周期L作为输入、预测当前的子帧的音调峰值位置并将预测音调峰值位置向判断器1806输出。预测音调峰值位置可以根据(6)式求出(参见图19)。
φ(N)=φ(N-1)+n×T(N-1)+T(N)-L,
     n=INT((L-φ(N-1))/T(N-1))
                                          …(6)
在上式中,φ(k)是以该子帧的开头为0而表示第k个子帧的最初的音调峰值位置的,T(k)是第k个子帧的声源(声音)信号的音调周期,L是子帧长。另外,n是表示在第k个子帧中从最初的音调峰值位置(φ(k))到第k个子帧的最后之间包含几个音调周期长(小数点以后舍去)的整数值(k=0,1,2,…)。
判断器1806将从音调峰值位置计算器1802输出的音调峰值位置和从音调峰值位置预测器1805输出的预测音调峰值位置作为输入,在音调峰值位置与预测音调峰值位置距离不大时,就判定相位连续,音调峰值位置与预测音调峰值位置大不相同时,就判定相位不连续。并且,将判断结果向开关1808输出。将音调峰值位置与预测音调峰值位置进行比较时,音调峰值位置或预测音调峰值位置位于子帧边界附近时,也考虑1音调周期后的位置是音调峰值位置的可能性,进行音调峰值与预测音调峰值位置的比较,来判断相位的连续性。
搜索位置计算器1807以音调峰值位置为基准确定声源脉冲的搜索位置,并通过开关1808将搜索位置向脉冲位置搜索器1809输出。作为搜索位置的确定方法,例如,如实施例6或实施例8所示的那样,搜索位置在音调峰值附近分布得紧密,在除此之外的部分分布得稀疏。如实施例6或实施例8所示,也适用于使用音调周期信息改变声源脉冲数或应用限定声源脉冲的搜索范围的情形。
开关1808根据判断器1806的判断结果,切换进行相位自适应型的声源脉冲搜索或进行固定位置的声源脉冲搜索(或一般的噪音编码表搜索)。即,判断器1806的判断结果为「有相位的连续性」时,就将搜索位置计算器1807与脉冲位置搜索器1809连接,将由搜索位置计算器1807计算的声源脉冲搜索位置输入脉冲位置搜索器1809(即,进行相位自适应型的声源脉冲搜索)。相反,判断器1806的判断结果为「无相位的连续性」时,就切换为将固定搜索位置输入脉冲位置搜索器1809(切换为一般的噪音编码表搜索时,采用另外具有噪音编码表搜索器的结构或切换为脉冲位置搜索器1809而使用的结构)。
脉冲位置搜索器1809使用由搜索位置计算器1807确定的声源脉冲搜索位置或预先确定的固定搜索位置和另外输入的音调周期L确定发生声源脉冲的位置的最佳的组合。脉冲搜索的方法如「ITU-T Recommendation G.729:Coding of speech at 8 kbits/susing Conjugate-structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器1812输出。从脉冲位置搜索器1809向乘法器1812输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器1811输出。
加法器1811将从乘法器1810输出的自适应编码矢量成分与从乘法器1812输出的脉冲声源矢量成分相加,并作为激励声源矢量而输出。
在本发明的声音编码装置中,在有声稳定部以外的部分容易发生继续选择固定搜索位置的状态,所以,在传播传送路线错误的影响时,也可以获得进行复位的效果。(用以音调峰值位置为0的相对位置表现脉冲位置时,一旦发生传送路线错误而使编码器一侧和译码器一侧的自适应编码表的内容大不相同时,在后续的帧中即使没有传送路线错误,有时也会发生音调峰值位置在编码器一侧和译码器一侧继续而不一致的现象,从而延长错误的影响。)
另外,作为脉冲的发生方法,在搜索范围例如32个位置的某个位置发生常数条例如4条脉冲时,除了如上述那样将32个位置分为4组并像分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条(例如2条)脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例11)
图20表示本发明的实施例11,示出了根据在自适应编码矢量的形状中是否存在强的脉冲性而切换进行相位自适应处理和不进行相位自适应处理的CELP型声音编码装置的声源生成部。在图20中,2001是将自适应编码矢量向音调峰值位置计算器2002和脉冲性判断器2003以及乘法器2007输出的自适应编码表,2002是将从自适应编码表2001输出的自适应编码矢量和音调周期L作为输入、并将自适应编码矢量内的音调峰值位置向脉冲性判断器2003和搜索位置计算器2004输出的音调峰值位置计算器,2003是将从自适应编码表2001输出的自适应编码矢量和从音调峰值位置计算器2002输出的音调峰值位置以及从外部输入的音调周期L作为输入、判断在自适应编码矢量中是否存在好的脉冲性并将判断结果向开关2005输出的脉冲性判断器,2004是将从外部输入的音调周期L和从音调峰值位置计算器2002输出的音调峰值位置作为输入并将声源脉冲的搜索位置通过开关2005向脉冲位置搜索器2006输出的搜索位置计算器,2005是根据从脉冲性判断器2003输出的判断结果进行切换的开关,用于切换从搜索位置计算器2004输出的搜索位置和预先确定的固定搜索位置。2006是分别将通过开关2005从搜索位置计算器2004输入的声源脉冲的搜索位置或通过开关2005输入的固定搜索位置以及从外部输入的音调周期L作为输入、使用输入的声源脉冲搜索位置和音调周期L搜索声源脉冲的位置并将脉冲声源矢量向乘法器2009输出的脉冲位置搜索器,2007是将从自适应编码表2001输出的自适应编码矢量作为输入、乘以量化自适应编码矢量增益后向加法器2008输出的乘法器,2009是将从脉冲位置搜索器2006输出的脉冲声源矢量作为输入、乘以量化脉冲声源矢量增益后向加法器2008输出的乘法器,2008是分别将从乘法器2007和2009输出的矢量作为输入、将输入的矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图20说明上述结构的声音编码装置的声源生成部的动作。自适应编码表2001由过去的激励声源的缓冲器构成,根据通过外部的音调分析或由自适应编码表搜索装置求出的音调周期或音调延迟,从激励声源的缓冲器中取出相应的部分,作为自适应编码矢量,向音调峰值位置计算器2002和脉冲性判断器2003以及乘法器2007输出。从自适应编码表2001向乘法器2007输出的自适应编码矢量乘以由外部的增益量化器所量化的量化自适应编码矢量增益后,向加法器2008输出。
音调峰值位置计算器2002根据自适应编码矢量检测音调峰值,并将其位置分别向脉冲性判断器2003和搜索位置计算器2004输出。音调峰值位置的检测(计算)可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。此外,如果增加将包含所检测的音调峰值位置的1音调周期波形中振幅值最大的位置作为音调峰值的后处理,也可以避免错误地检测1音调周期波形内的次峰值。
脉冲性判断器2003判断自适应编码矢量的信号功率是否集中在由音调峰值位置计算器2002计算的音调峰值位置附近,有信号功率的集中时,就将「有脉冲性」的判断结果向开关2005输出,看不到信号功率的集中时,就将「无脉冲性」的判断结果向开关2005输出。作为检查信号功率是否集中的方法,例如,可以考虑以下一些方法。首先,分离出包含音调峰值位置的1音调周期长的自适应编码矢量,计算所分离出信号全体的功率,并设该功率为PW0。其次,分离出音调峰值位置的附近的1/2~1/3音调长的自适应编码矢量,计算该分离出的信号功率,并设该功率为PW1。PW1/PW0的值小于指定的值(例如,约0.5~0.6)时,则信号功率集中在音调峰值附近,所以,可以判定脉冲性高。另外,作为别的判断方法,还有使用在音调峰值位置按发生最初的脉冲的音调周期间隔排列的脉冲串矢量来近似自适应编码矢量时的脉冲串矢量与自适应编码矢量的误差进行判断的判断方法。此外,还有在通过使将合成滤波器的脉冲响应与按音调周期L排列的脉冲串矢量卷积的矢量和将合成滤波器的脉冲响应与自适应编码矢量卷积的矢量的正规化相互相关函数最大化来求音调峰值位置时、使用将合成滤波器的脉冲响应与按音调周期L排列的脉冲串矢量卷积和将合成滤波器的脉冲响应与自适应编码矢量卷积的矢量的误差进行判断的判断方法。作为评价这些矢量间的误差的方法,是利用式(7)所示的预测增益及式(8)所示的正规化相互相关函数等。在式(7)和式(8)中,x(n)是自适应编码矢量或将合成滤波器的脉冲响应与自适应编码矢量卷积的矢量,y(n)是脉冲串矢量或将合成滤波器的脉冲响应与脉冲串矢量卷积的矢量。不管在哪个式中,如果数值大于例如0.3~0.4,就可以判定为在自适应编码矢量中存在某种程度的强的脉冲性。
( Σ n = 0 79 x ( n ) y ( n ) ) 2 Σ n = 0 79 x ( n ) x ( n ) × Σ n = 0 79 y ( n ) y ( n ) . . . ( 7 )
搜索位置计算器2004以音调峰值位置为基准确定声源脉冲的搜索位置,并将搜索位置通过开关2005向脉冲位置搜索器2006输出。作为搜索位置的确定方法,例如,如实施例6和实施例8所示的那样,将搜索位置定为在音调峰值附近分布得紧密、在除此之外的部分分布得稀疏。如实施例6和实施例8所示,使用音调周期信息改变声源脉冲数或应用限定声源脉冲的搜索范围也是有效的。
开关2005根据脉冲性判断器2003的判断结果切换进行相位自适应型的声源脉冲搜索或进行利用固定位置的声源脉冲搜索。即,脉冲性判断器2003的判断结果为「有脉冲性」时,就将搜索位置计算器2004与脉冲位置搜索器2006连接,将由搜索位置计算器2004计算的声源脉冲搜索位置向脉冲位置搜索器2006输入。(即,进行相位自适应型的声源脉冲搜索)。相反,脉冲性判断器2003的判断结果为「无脉冲性」时,就切换为将固定搜索位置输入脉冲位置搜索器2006。
脉冲位置搜索器2006使用由搜索位置计算器2004确定的声源脉冲搜索位置或预先确定的固定搜索位置和另外输入的音调周期L,确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T Recommendation G.729:Coding of Speech at 8 kbits/susing Conjugate-structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置中按照所确定的各声源脉冲的极性发生脉冲,通过使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器2009输出。从脉冲位置搜索器2006向乘法器2009输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2008输出。
加法器2008将从乘法器2007输出的自适应编码矢量成分与从乘法器2009输出的脉冲声源矢量成分相加,并作为激励声源矢量而输出。
在本发明的声音编码装置中,在有声稳定部以外的部分,容易发生继续选择固定搜索位置的状态,所以,在传播传送路线错误的影响时,也可以获得进行复位的效果。(用以音调峰值位置为0的相对位置表现脉冲位置时,一旦发生传送路线错误而使编码器一侧和译码器一侧的自适应编码表的内容大不相同时,在后续的帧中即使没有传送路线错误,有时也会发生音调峰值位置在编码器一侧和译码器一侧继续不一致的现象,从而延长错误的影响。)
另外,作为脉冲的发生方法,在搜索范围(例如32个位置)的某个位置发生常数条(例如4条)脉冲时,除了如上述那样将32个位置分为4组并像分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是利用多条(例如2条)脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例12)
图21表示本发明的实施例12,示出了具有更换脉冲搜索位置的索引的索引更新装置、并根据自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索范围的CELP型声音编码装置的编码器一侧的声源生成部。更具体地说,就是示出了在按照音调峰值位置的相对位置进行声源脉冲搜索的CELP型声音编码装置中、通过从子帧的开头一侧开始顺序加上脉冲位置的索引来防止在某一帧中发生的传送路线错误的影响向后续的没有传送路线错误的帧中传播的声源生成部。
在图21中,2101是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器2102和音调增益乘法器2106输出的自适应编码表,2102是将从自适应编码表2101输出的自适应编码矢量和音调周期L作为输入计算音调峰值位置并向搜索位置计算器2103输出的音调峰值位置计算器,2103是将从音调峰值位置计算器2102输出的音调峰值位置和音调周期L作为输入计算进行搜索的范围并向索引更新单元2104输出的搜索位置计算器,2104是更换从搜索位置计算器2103输出的各声源脉冲的各位置的索引并向脉冲位置搜索器2105输出的索引更新单元,2105是将从索引更新单元2104输出的搜索位置(更新了表示脉冲位置的索引)和在声源生成部的外部另外计算的音调周期L作为输入搜索脉冲声源、将脉冲声源矢量向脉冲声源增益乘法器2107输出、和作为编码输出而将表示脉冲声源矢量的索引向声源生成部的外部输出的脉冲位置搜索器,2106是将从自适应编码表2101输出的自适应编码矢量乘以自适应编码矢量增益后向加法器2108输出的乘法器,2107是将从脉冲位置搜索器2105输出的脉冲声源矢量乘以脉冲声源矢量增益后向加法器2108输出的乘法器,2108是将乘法器2106的输出和乘法器2107的输出作为输入进行矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图21和图22说明上述结构的声源生成部的动作。在图21中,自适应编码表2101从追溯到过去在声源生成部的外部预先计算的音调周期L的点开始,将自适应编码矢量分离出子帧长,作为自适应编码矢量而输出。在音调周期L不足子帧长时,将分离出的音调周期L的矢量反复连接直至达到子帧长并作为自适应编码矢量而输出。
音调峰值位置计算器2102使用从自适应编码表2101输出的自适应编码矢量,确定在自适应编码矢量中存在的音调峰值的位置。音调峰值的位置可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行检测。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化而更高精度地求出。
搜索位置计算器2103以音调峰值位置为基准确定声源脉冲的搜索位置,并向索引更新单元2104输出。作为搜索位置的确定方法,例如,如实施例5或实施例6所示的那样,将搜索位置确定为在音调峰值附近分布得紧密,在除此之外的部分分布得稀疏。如实施例6和实施例8所示,使用音调周期信息改变声源脉冲数或应用限定声源脉冲的搜索范围也是有效的。由搜索位置计算器2103确定的具体的搜索位置的例子示于图10、图11(b)、图11(c)和图13。例如,在图10中,具体地示出了将脉冲位置搜索范围限定为在音调脉冲位置附近分布得紧密而在除此之外的部分分布得稀疏的方法。该限定方法基于发生脉冲的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部,在音调脉冲附近发生脉冲的概率比在其他部分发生的概率高。由搜索位置计算器计算的是使用到音调峰值位置的相对位置的声源脉冲的搜索位置,在该时刻,从以音调峰值位置为0的相对位置的数值小的位置开始顺序加上索引(参见图22,在图22中,示出了与使脉冲数为4时的图13(a)对应的情况)。
索引更新单元2104将从音调峰值位置的相对位置小的位置开始顺序加上了索引(图22的相对位置)的声源脉冲搜索位置变换为以子帧的开头为0的绝对位置后,从绝对位置小的位置开始顺序更新索引(图22的绝对位置),并向脉冲位置搜索器2105输出。通过这样处理,在发生传送路线错误等而使得在编码器一侧和译码器一侧计算的音调峰值位置不同时,可以减小脉冲位置的偏离。
脉冲位置搜索器2105使用由索引更新单元2104更新了表示各搜索位置的索引的声源脉冲搜索位置和另外输入的音调周期L确定发生音调脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-TRecommendation G.729:Coding of Speech at 8 kbits/s usingConjugate-structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置,按照所确定的各声源脉冲的极性发生脉冲,如果使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器2107输出。从脉冲位置搜索器2105向乘法器2107输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2108输出。在脉冲位置搜索器2105中,表示脉冲声源矢量的各声源脉冲的极性和索引信息与脉冲声源矢量一起另外向声源生成部的外部输出。该声源脉冲的极性和索引信息通过编码器及多路器等变换为向传送路线输出的数据序列串后,向传送路线传出。
加法器2108将从乘法器2106输出的自适应编码矢量成分和从乘法器2107输出的脉冲声源矢量成分进行矢量相加,并作为激励声源矢量而输出。
基于本实施例的索引的分配方法可以应用于声源的位置信息用相对的值表现的所有情况,仅仅是索引的分配方式不同,所以,对性能完全没有影响,可以获得抑制传送路线错误的传播的效果。
不论译码器一侧还是编码器一侧都具有同样的索引更新单元。另外,作为脉冲的发生方法,在搜索范围(例如32个位置)的某个位置发生常数条(例如4条)脉冲时,除了如上述那样将32个位置分为4组并象分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是利用多条(例如2条)脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例13)
图23表示本发明的实施例13,示出了具有进行脉冲搜索位置的索引和脉冲序号的分配的脉冲序号和索引的更新单元的、根据自适应编码矢量的音调周期和音调峰值位置确定脉冲位置的搜索范围的CELP型声音编码装置的编码器一侧的声源生成部。更具体地说,就是示出了在按照离开音调峰值位置的相对位置进行声源脉冲搜索的CELP型声音编码装置中,通过从子帧的开头一侧开始顺序加上脉冲位置的索引、同时对作为相同的索引序号的不同序号的脉冲从子帧的开头一侧开始顺序加上脉冲的序号,即在相同的索引序号时将各脉冲的序号确定为使脉冲的序号越小越靠近子帧的开头一侧,防止在某一帧中发生的传送路线错误的影响向后续的没有传送路线错误的帧传播的声源生成部。
在图23中,2301是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器2302和音调增益乘法器2306输出的自适应编码表,2302是将从自适应编码表2301输出的自适应编码矢量和音调周期L作为输入计算音调峰值位置并向搜索位置计算器2303输出的音调峰值位置计算器,2303是将从音调峰值位置计算器2302输出的音调峰值位置和音调周期L作为输入计算搜索脉冲声源的范围并向脉冲序号和索引的更新单元2304输出的搜索位置计算器,2304是更换从搜索位置计算器2303输出的各声源脉冲的序号和各声源脉冲的各位置的索引、并向脉冲位置搜索器2305输出的脉冲序号和索引的更新单元,2305是将从脉冲序号和索引的更新单元2304输出的搜索位置(已更新了脉冲的序号和表示脉冲位置的索引)和在声源生成部的外部另外计算的音调周期L作为输入、搜索脉冲声源并将脉冲声源矢量向脉冲声源增益乘法器2307输出和将表示脉冲声源矢量的索引作为编码输出向声源生成部的外部输出的脉冲位置搜索器,2306是将从自适应编码表2301输出的自适应编码矢量乘以自适应编码矢量增益后向加法器2308输出的乘法器,2307是将从脉冲位置搜索器2305输出的脉冲声源矢量乘以脉冲声源矢量增益后向加法器2308输出的乘法器,2308是将乘法器2306的输出和乘法器2307的输出作为输入进行矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图23和图24说明上述结构的声源生成部的动作。在图23中,自适应编码表2301从追溯到过去在声源生成部的外部预先计算的音调周期L的点将自适应编码矢量分离出子帧长、作为自适应编码矢量而输出。在音调周期L不足子帧长时,将分离出的音调周期L的矢量反复连接直至达到子帧长并作为自适应编码矢量而输出。
音调峰值位置计算器2302使用从自适应编码表2301输出的自适应编码矢量,确定在自适应编码矢量中存在的音调峰值的位置。音调峰值的位置可以通过使按音调周期L排列的脉冲串矢量与自适应编码矢量的内积最大化而进行检测。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化而更高精度地求出。
搜索位置计算器2303以音调峰值位置为基准确定声源脉冲的搜索位置并向脉冲序号和索引的更新单元2304输出。作为搜索位置的确定方法,例如,如实施例5或实施例6所示的那样,将搜索位置确定为在音调峰值附近分布得紧密、在除此之外的部分分布得稀疏。如实施例6和实施例8所示,使用音调周期信息改变声源脉冲数或应用限定声源脉冲的搜索范围也是有效的。由搜索位置计算器2103确定的具体的搜索位置的例子示于图10、图11(b)、图11(c)和图13。例如,在图10中,具体地示出了限定脉冲位置搜索范围在音调脉冲位置附近分布得紧密而在除此之外的部分分布得稀疏的方法。该限定方法基于发生脉冲的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部中,在音调脉冲位置发生脉冲的概率比在其他部分发生的概率高。由搜索位置计算器计算的是使用到音调峰值位置的相对位置的声源脉冲的搜索位置,在该时刻,从以音调峰值位置为0的相对位置的数值小的位置开始顺序加上脉冲序号和索引(参见图24(b))。在图24中,示出了与令脉冲数为4条时的图11(b)、图13对应的情况。图24(a)表示令脉冲数为4条时由搜索位置计算器2103确定的声源脉冲搜索位置,箭头的长短、向上向下表示4种各声源脉冲搜索位置。另外,图24(a)的相对位置以音调峰值位置为0、用-4~+75的数值表示各采样点,-4之前的点通过弯折突出到子帧边界之后的点,用正(+)的数值来表现。
脉冲序号和索引的更新单元2304在将从离开音调峰值位置的相对位置小的位置开始顺序加上了索引(图24(b))的声源脉冲搜索位置变换为以子帧的开头为0的绝对位置后,从绝对位置小的位置开始顺序更新脉冲序号和索引(图24(c))并向脉冲位置搜索器2305输出。通过这样处理后,在因发生传送路线错误等而在编码器一侧和译码器一侧计算的音调峰值位置不同时,便可减小脉冲位置的偏离。
脉冲位置搜索器2305使用由脉冲序号和索引的更新单元2304进行了表示各搜索位置的索引更新的声源脉冲搜索位置和另外输入的音调周期L,确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T Recommendation G.729:Coding of Speech at8 kbits/s using Conjugate-structure Algebraic-Code-ExcitedLinear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,通过使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器2307输出。从脉冲位置搜索器2305向乘法器2307输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2308输出。在脉冲位置搜索器2305中,表示脉冲声源矢量的各声源脉冲的极性和索引信息与脉冲声源矢量一起另外向声源生成部的外部输出。该声源脉冲的极性和索引信息通过编码器及多路器等变换为向传送路线输出的数据系列串后,向传送路线传出。
加法器2308将从乘法器2306输出的自适应编码矢量成分和从乘法器2307输出的脉冲声源矢量成分进行矢量相加,并作为激励声源矢量而输出。
基于本实施例的索引的分配方法可以应用于声源的位置信息用相对的值表现的所有的情况,仅仅是脉冲序号和索引的分配方式不同,所以,对性能完全没有影响,可以获得抑制传送路线错误传播的效果。另外,如果可以与固定搜索位置的脉冲声源切换使用,也可以进一步抑制传送路线错误的影响的传播。
译码器一侧也具有同样的脉冲序号和索引更新单元2304。另外,作为脉冲的发生方法,在搜索范围(例如32个位置)的某个位置发生常数条(例如4条)脉冲时,除了如上述那样将32个位置分为4组并象分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条(例如2条)脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例14)
图25是表示本发明的实施例14,示出了使用根据固定搜索位置和相位自适应型搜索位置而生成的声源脉冲搜索位置进行脉冲搜索的CELP型声音编码装置的声源生成部。
在图25中,2501是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器2502和音调增益乘法器2506输出的自适应编码表,2502是将从自适应编码表2501输出的自适应编码矢量和从外部输入的音调周期L作为输入计算音调峰值位置并向搜索位置计算器2503输出的音调峰值位置计算器,2503是将从音调峰值位置计算器2502输出的音调峰值位置和从外部输入的音调周期L作为输入计算搜索脉冲声源的位置并向加法器2504输出的搜索位置计算器,2504是将从搜索位置计算器2503输出的、用以音调峰值位置为0的相对位置表示的搜索位置与按固定位置进行搜索的搜索位置组合(不是进行数值相加、而是求2种搜索位置的集合之和)并向脉冲位置搜索器2505输出的加法器,2505是将从加法器2504输出的搜索位置和在声源生成部的外部另外计算的音调周期L作为输入搜索脉冲声源并将脉冲声源矢量向脉冲声源增益乘法器2507输出的脉冲位置搜索器,2506是将从自适应编码表2501输出的自适应编码矢量乘以自适应编码矢量增益后向加法器2508输出的乘法器,2507是将从脉冲位置搜索器2505输出的脉冲声源矢量乘以脉冲声源矢量增益后向加法器2508输出的乘法器,2508是将乘法器2506的输出和乘法器2507的输出作为输入、进行矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图25和图26说明上述结构的声源生成部的动作。在图25中,自适应编码表2501从追溯到过去在声源生成部的外部预先计算的音调周期L的点开始,将自适应编码矢量分离出子帧长,并作为自适应编码矢量而输出。在音调周期L不足子帧长时,将分离出的音调周期L的矢量反复连接直至达到子帧长的矢量,作为自适应编码矢量而输出。
音调峰值位置计算器2502使用从自适应编码表2501输出的自适应编码矢量,确定在自适应编码矢量内存在的音调峰值的位置。音调峰值的位置可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化(使正规化相互相关函数最大化)而更高精度地求出。
搜索位置计算器2503以音调峰值位置为基准确定声源脉冲的搜索位置,并向加法器2504输出。作为搜索位置的确定方法,例如,如图26所示的那样,使用输出与音调峰值附近的固定搜索位置不卷积的点的确定方法。如实施例6或实施例8所示的那样,使用音调周期信息改变声源脉冲或限定声源脉冲的搜索范围的情况是相同的。由搜索位置计算器2503确定的具体的搜索位置的例子示于图26(b)、26(c)。在图26中,示出了将固定搜索位置设定为奇数采样点(图26(a))、搜索位置计算器2503将搜索位置设定在音调峰值附近的偶数采样点的情形(图26(b)、26(c))。图26(b)表示音调峰值位置位于偶数采样点(音调峰值位置不包含在固定搜索位置中)的情况,图26(c)表示音调峰值位置位于奇数采样点(音调峰值位置包含在固定搜索位置中)的情况。根据图26(b)、26(c)的比较可知,若干搜索位置(以音调峰值位置为0的相对位置)随音调峰值位置的场所而不同。
加法器2504计算从搜索位置计算器2503输出的声源脉冲搜索位置的集合(图26(b)、26(c))与预先确定的固定搜索位置的集合(图26(a))的并集(图26(d)),并向脉冲位置搜索器2505输出。通过这样处理,限定声源脉冲的搜索位置在音调峰值附近紧密、而在除此之外的部分稀疏。该限定方法基于发生脉冲的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部中,在音调脉冲附近发生脉冲的概率比在其他部分发生的概率高。由于传送路线错误等的影响而使译码器一侧的音调峰值位置的计算发生错误时,由搜索位置计算器2503计算的声源脉冲的搜索位置在编码器一侧和在译码器一侧将不同,但由于输入到脉冲位置搜索器2505的声源脉冲搜索位置的一部分为固定搜索位置,所以,可以降低编码器一侧和译码器一侧的脉冲位置不同的概率,从而可以缓和传送路线错误的影响。
脉冲位置搜索器2505使用从加法器2504输出的声源脉冲搜索位置和另外输入的音调周期L,确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T Recommendation G.729:CodingSpeech at 8 kbits/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置,按照所确定的各声源脉冲的极性发生脉冲,若使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向法器2507输出。从脉冲位置搜索器2505向乘法器2507输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2508输出。在图25中省略了,但在脉冲位置搜索器2505中,表示脉冲声源矢量的各声源脉冲的极性和索引信息与脉冲声源矢量一起另外向声源生成部的外部输出。该声源脉冲的极性和索引信息通过编码器及多路器等变换为向传送路线输出的数据系列串后,向传送路线传出。
加法器2508将从乘法器2506输出的自适应编码矢量成分和从乘法器2507输出的脉冲声源矢量成分进行矢量相加,并作为激励声源矢量而输出。
若与固定搜索位置的脉冲声源切换使用,则可以进一步抑制传送路径错误影响的传播。
作为脉冲的发生方法,在搜索范围例如32个位置的某个位置发生常数条例如4条脉冲时,除了如上述那样将32个位置分为4组、并象分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条例如2条脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例15)
图27表示本发明的实施例15,示出了具有音调峰值位置修正器的实施例5所述的CELP型声音编码装置的声源生成部。
在图27中,2701是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器2702、音调峰值位置修正器2703以及音调增益乘法器2706输出的自适应编码表,2702是将从自适应编码表2701输出的自适应编码矢量和从外部输入的音调周期L作为输入计算音调峰值位置并向音调峰值位置修正器2703输出的音调峰值位置计算器,2703是将从自适应编码表2701输出的自适应编码矢量和从音调峰值位置计算器2702输出的音调峰值位置以及从外部输入的音调周期L作为输入、修正音调峰值位置并向搜索位置计算器2704输出的音调峰值位置修正器,2704是将从音调峰值位置修正器2703输出的音调峰值位置和另外输入的音调周期L作为输入、并将声源脉冲的搜索位置向脉冲位置搜索器2705输出的搜索位置计算器,2705是将从搜索位置计算器2704输出的搜索位置和在声源生成部的外部另外计算的音调周期L作为输入、搜索脉冲声源并将脉冲声源矢量向脉冲声源增益乘法器2707输出的脉冲位置搜索器,2706是将自适应编码表2701输出的自适应编码矢量乘以自适应编码矢量增益后向加法器2708输出的乘法器,2707是将从脉冲位置搜索器2705输出的脉冲声源矢量乘以脉冲声源矢量增益后向加法器2708输出的乘法器,2708是将乘法器2706的输出和乘法器2707的输出作为输入进行矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图27和图28说明上述结构的声源生成部的动作。在图27中,自适应编码表2701从追溯到过去在声源生成部的外部预先计算的音调周期L的点开始将自适应编码矢量分离出子帧长,并作为自适应编码矢量而输出。在音调周期L不足子帧长时,将分离出的音调周期L的矢量反复连接直至达到子帧长后的矢量作为自适应编码矢量而输出。
音调峰值位置计算器2702使用从自适应编码表2701输出的自适应编码矢量确定在自适应编码矢量内存在的音调峰值的位置。音调峰值的位置可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化(使正规化相互相关函数最大化)而更高精度地求出。
音调峰值位置修正器2703从自适应编码表2701输出的自适应编码矢量中分离出包含由音调峰值位置计算器2702计算的音调峰值位置的点的、具有1音调周期长L的长度的矢量,从该分离出的波形中搜索振幅值成为最大的点,并向搜索位置计算器2704输出。该处理仅对音调周期L比子帧长短的情况进行。音调周期L大于子帧长时,就将音调峰值位置计算器2702输出的音调峰值位置直接向脉冲位置搜索器2705输出。1子帧长相当于约1音调周期的长度时,从音调峰值位置计算器2702输出的音调峰值位置有可能成为1音调波形内的第2个振幅高的地方(图28(a)、28(b):在1子帧内只在1个地方存在音调峰值,但是,由于在1音调周期波形内,有第2个大的振幅值的点(次峰值)在1个子帧内存在2个地方,所以,将把次峰值错误地检测为音调峰值)。因此,由音调峰值位置修正器2703根据从音调峰值位置计算器2702输出的音调峰值位置检查在1音调周期长以内是否存在具有更大的振幅值的点,存在具有比从音调峰值位置计算器2702输出的音调峰值位置附近的点的振幅值大的振幅值的点时,就将具有该大的振幅值的点定为音调峰值位置。例如,在图28(c)中,音调峰值位置计算器2702输出次峰值时,根据该次峰值,将在1音调周期的自适应编码矢量(图28(c)的粗线部)中振幅成为最大的位置定为音调峰值。
搜索位置计算器2704以从音调峰值位置修正器2703输出的音调峰值位置为基准确定声源脉冲的搜索位置,并向脉冲位置搜索器2705输出。作为搜索位置的确定方法,如实施例5或实施例6或者实施例14等那样,有限定声源脉冲的搜索位置在音调峰值位置附近紧密而在除此之外的部分稀疏的方法。该限定方法基于发生脉冲的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部中,是利用在音调脉冲附近发生脉冲的概率比在其他部分发生的概率高的结果。
脉冲位置搜索器2705使用从搜索位置计算器2704输出的声源脉冲搜索位置和另外输入的音调周期L确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法如「ITU-T Recommendation G.729:Coding of Speech at 8 kbits/s using Conjugate-structureAlgebraic-Code-Excited Linear-Prediction(CS-ACELP),March1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,则使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器2707输出。从脉冲位置搜索器2705向乘法器2707输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2708输出。在图27中省略了,但在脉冲位置搜索器2705中,表示脉冲声源矢量的各声源脉冲的极性和索引信息与脉冲声源矢量一起另外向声源生成部的外部输出。该声源脉冲的极性和索引信息通过编码器及多路器等变换为向传送路线输出的数据系列串后向传送路线传出。
加法器2708将从乘法器2706输出的自适应编码矢量成分和从乘法器2707输出的脉冲声源矢量成分进行矢量相加,并作为激励声源矢量而输出。
在本实施例中,如实施例12或实施例13或实施例14所示的那样,如果将索引更新单元或脉冲序号和索引的更新单元同时取入固定搜索位置和相位自适应搜索位置,就可以缓和传送路线错误的影响。另外,如果可以与固定搜索位置的脉冲声源切换使用,则可进一步抑制传送路线错误影响的传播。
另外,本发明的音调峰值位置修正器也可以应用于实施例3~实施例11的任意一个实施例的声音编码装置。
作为脉冲的发生方法,在搜索范围例如32个位置的某个位置发生常数条例如4条脉冲时,除了如上述那样将32个位置分为4组并像分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条例如2条脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例16)
图29表示本发明的实施例16,示出了利用连续的子帧间的声源信号波形的相位的连续性而在音调峰值位置计算之前预先限定音调峰值位置的存在范围的CELP型声音编码装置的声源生成部。在图29中,2901是将自适应编码矢量向音调峰值位置计算器2902和乘法器2908输出的自适应编码表,2902是将从自适应编码表2901输出的自适应编码矢量和从声源生成部的外部输入的音调周期L以及从音调峰值搜索范围限定器2903输出的音调峰值搜索范围作为输入、计算自适应编码矢量内的音调峰值位置并向延迟器2904和搜索位置计算器2906输出的音调峰值位置计算器,2903是将从延迟器2904输出的此前的子帧的音调峰值位置和从延迟器2905输出的此前的子帧的音调周期以及从声源生成部的外部输入的当前的子帧的音调周期L作为输入、预测当前的子帧的音调峰值位置、根据所预测的音调峰值位置限定搜索音调峰值位置的范围并将该范围向音调峰值位置计算器2902输出的音调峰值搜索范围限定器,延迟器2904是将从音调峰值位置计算器输出的音调峰值位置作为输入、延迟1子帧后向音调峰值搜索范围限定器2903输出的延迟器,2905是将从声源生成部的外部输入的音调周期L作为输入、延迟1子帧后向音调峰值搜索范围限定器2903输出的延迟器,2906是将从音调峰值位置计算器2902输出的音调峰值位置和从声源生成部的外部输入的音调周期L作为输入、并将声源脉冲的搜索位置向脉冲位置搜索器2907输出的搜索位置计算器,2907是将从搜索位置计算器2906输出的声源脉冲的搜索位置和从声源生成部的外部输入的音调周期L作为输入、使用所输入的声源脉冲搜索位置和音调周期L搜索声源脉冲的位置并将脉冲声源矢量向乘法器2909输出的脉冲位置搜索器,2908是将从自适应编码表输出的自适应编码矢量作为输入、乘以量化自适应编码矢量增益后向加法器2910输出的乘法器,2909是将从脉冲位置搜索器2907输出的脉冲声源矢量作为输入、乘以量化脉冲声源矢量增益后向加法器2910输出的乘法器,2910是分别将从乘法器2908和2909输出的矢量作为输入、进行所输入的矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图29说明上述结构的声音编码装置的声源生成部的动作。自适应编码表2901由过去的激励声源的缓冲器构成,根据通过外部的音调分析或由自适应编码表搜索单元求出的音调周期或音调延迟,从激励声源的缓冲器中取出相应的部分,作为自适应编码矢量向音调峰值位置计算器2902和乘法器2908输出。从自适应编码表2901向乘法器2908输出的自适应编码矢量乘以由外部的增益量化器所量化的量化自适应编码矢量增益后,向加法器2910输出。
音调峰值位置计算器2902根据自适应编码矢量检测音调峰值,并将该位置分别向延迟器2904和搜索位置计算器2906输出。音调峰值位置的检测(计算)可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行。另外,也可以通过使将合成滤波器的脉冲响应和按音调周期L排列脉冲串矢量卷积的矢量与将合成滤波器的脉冲响应和自适应编码矢量卷积的矢量的内积最大化而进行更高精度的音调峰值位置的检测。此外,如果增加将包含所检测的音调峰值位置的1音调周期波形中振幅值最大的位置作为音调峰值的后处理,也可以避免错误地检测1音调周期波形内的次峰值。
延迟器2904将由音调峰值位置计算器2902计算的音调峰值位置延迟1子帧后,向音调峰值搜索范围限定器2903输出。即,将此前的子帧的音调峰值位置从延迟器2904输入音调峰值搜索范围限定器2903。延迟器2905将从声源生成部的外部输入的音调周期L延迟1子帧后向音调峰值搜索范围限定器2903输出。即,此前的子帧的音调周期从延迟器2905输入音调峰值搜索范围限定器2903。
音调峰值搜索范围限定器2903首先进行从延迟器2905输入的此前的子帧的音调周期与当前的子帧的音调周期的比较,判断当前的子帧是否为有声(稳定)部。具体而言,就是在此前的子帧的音调周期与当前的子帧的音调周期之差小时(例如,在±5个采样以内时),就判定为有声(稳定)部。增加延迟器、使用数子帧前的音调周期也可以进行有声判断。判定为有声部时,音调峰值搜索范围限定器2903将从延迟器2904输入的此前的子帧的音调峰值位置和从延迟器2905输入的此前的子帧的音调周期以及当前的子帧的音调周期L作为输入,预测当前的子帧的音调峰值位置,并将该预测位置的前后(例如,10个采样)假定为进行音调峰值位置的搜索的范围。预测的音调峰值位置位于子帧开头附近时,1音调周期后的附近也被加到搜索范围中,预测的音调峰值位置位于从子帧的开头开始的1音调周期后的位置附近时,子帧开头附近也加到搜索范围中。判定不是有声(稳定)部时,就不进行音调峰值搜索范围的限定,而将整个子帧作为音调峰值搜索范围。这样,将由音调峰值搜索范围限定器2903求出的音调峰值搜索范围向音调峰值位置计算器2902输出。在开始进行声音编码处理的时刻(最初的子帧),由于不存在过去输入的(此前的子帧)音调周期L,所以,延迟器2905预先输出适当的常数(例如,音调周期的最大值、最小值或者不可能为0等的音调周期)。对于延迟器2904也一样。预测音调峰值位置可以根据实施例10所示的式(6)求出(参见图19)。
搜索位置计算器2906以音调峰值位置为基准确定声源脉冲的搜索位置,并将搜索位置向脉冲位置搜索器2907输出。作为搜索位置的确定方法,例如,如实施例6或实施例8所示的那样,将搜索位置确定为在音调峰值附近分布得紧密、在除此之外的部分分布得稀疏。如实施例6和实施例8所示,使用音调周期信息改变声源脉冲数或限定声源脉冲的搜索范围也是有效的。另外,如果像实施例12~实施例14的任一实施例所示的那样确定搜索位置,也可以缓和传送路线错误的影响。
脉冲位置搜索器2907使用由搜索位置计算器2906确定的声源脉冲搜索位置或预先确定的固定搜索位置以及另外输入的音调周期L,确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法,如「ITU-T Recommendation G.729:Coding of speech at 8 kbits/susing Conjugate-structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP),March 1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,则使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量向乘法器2909输出。从脉冲位置搜索器2907向乘法器2909输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后,向加法器2910输出。
加法器2910将从乘法器2908输出的自适应编码矢量成分和从乘法器2909输出的脉冲声源矢量成分进行矢量相加,并作为激励声源矢量而输出。
作为脉冲的发生方法,在搜索范围例如32个位置的某个位置发生常数条例如4条脉冲时,除了如上述那样将32个位置分为4组并象分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条例如2条脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
(实施例17)
图30表示本发明的实施例17,示出了具有使用脉冲条数少而分配给各脉冲的位置信息足够的固定搜索位置的脉冲搜索器、使用脉冲条数多而分配各脉冲的位置信息不一定够的声源脉冲搜索位置的脉冲搜索器和从这些多个脉冲搜索器输出的脉冲声源矢量中选择最佳的脉冲声源矢量的选择器的CELP型声音编码装置的声源生成部。
在图30中,3001是保存过去的激励声源矢量并将所选择的自适应编码矢量向音调峰值位置计算器3002和音调增益乘法器3007输出的自适应编码表,3002是将从自适应编码表3001输出的自适应编码矢量和从外部输入的音调周期L作为输入、计算音调峰值位置并向搜索位置计算器3003输出的音调峰值位置计算器,3003是将从音调峰值位置计算器3002输出的音调峰值位置和从声源生成部的外部输入的音调周期L作为输入、并将声源脉冲的搜索位置向脉冲位置搜索器3004输出的搜索位置计算器,3004是将从搜索位置计算器3003输出的搜索位置和在声源生成部的外部另外计算的音调周期L作为输入搜索脉冲声源并将脉冲声源矢量1向选择器3005输出的脉冲位置搜索器,8005是将从脉冲位置搜索器3004输出的脉冲声源矢量1和从脉冲位置搜索器3006输出的脉冲声源矢量2作为输入选择最佳的脉冲声源矢量并向乘法器3008输出的选择器,3006是将预先确定的固定搜索位置和从声源生成部的外部输入的音调周期L作为输入搜索脉冲声源、并作为脉冲声源矢量2向选择器3005输出的脉冲位置搜索器,3007是将从自适应编码表3001输出的自适应编码矢量乘以自适应编码矢量增益后向加法器3009输出的乘法器,3008是将从选择器3005输出的脉冲声源矢量乘以脉冲声源矢量增益后向加法器3009输出的乘法器,3009是将乘法器3007的输出和乘法器3008的输出作为输入进行矢量相加并作为激励声源矢量而输出的加法器。
下面,使用图30说明上述结构的声源生成部的动作。在图30中,自适应编码表3001从追溯到过去在声源生成部的外部预先计算的音调周期L的点开始将自适应编码矢量分离出子帧长,并作为自适应编码矢量而输出。音调周期L不足子帧长时,就将反复连接分离出的音调周期L的矢量直至达到子帧长的矢量后,作为自适应编码矢量而输出。
音调峰值位置计算器3002使用从自适应编码表3001输出的自适应编码矢量,确定在自适应编码矢量内存在的音调峰值的位置。音调峰值的位置可以通过使按音调周期排列的脉冲串与自适应编码矢量的正规化相互相关最大化而进行确定。另外,也可以通过使按音调周期排列的脉冲串通过合成滤波器后与自适应编码矢量通过合成滤波器后的误差最小化(使正规化相互相关函数最大化)而更高精度地求出。如果具有实施例15所示的音调峰值修正器,就可以减少音调峰值位置的计算错误。
搜索位置计算器3003以从音调峰值位置计算器3002输出的音调峰值位置为基准,确定声源脉冲的搜索位置并向脉冲位置搜索器3004输出。作为搜索位置的方法,如实施例5或实施例6或者实施例14等那样,有限定声源脉冲的搜索位置在音调峰值位置附近紧密而在除此之外的部分稀疏的方法。该限定方法基于发生脉冲的概率高的位置集中在音调脉冲附近的统计结果。不限定脉冲位置搜索范围时,在有声部中,是利用在音调脉冲附近发生脉冲的概率比在其他部分发生的概率高的结果。如果使用实施例12~实施例14的任一实施例所示的声源脉冲搜索位置所确定方法,还可以缓和传送路线错误的影响。
脉冲位置搜索器3004使用从搜索位置计算器3003输出的声源脉冲搜索位置和另外输入的音调周期L确定发生声源脉冲的位置的最佳组合。脉冲搜索的方法,如「ITU-T Recommendation G.729:Coding of Speech 8 kbits/s using Conjugate-structureAlgebraic-Code-Excited Linear-Prediction(CS-ACELP),March1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,则使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量作为脉冲声源矢量1向选择器3005输出。在脉冲位置搜索器3004中使用的声源脉冲搜索位置增多了声源脉冲数,所以,分配给各声源脉冲的位置信息不一定够。即,使用脉冲位置搜索器3004的模式虽然脉冲数多,但是,却是不一定能够严密地表示各脉冲的位置的模式。在这种各脉冲的位置信息不足时,可以获得使用由搜索位置计算器3003进行的脉冲搜索位置的确定方法的效果。
脉冲位置搜索器3006使用预先确定的固定搜索位置和从声源生成部的外部另外输入的音调周期L确定发生声源脉冲的位置的最佳的组合。脉冲搜索的方法,如「ITU-T Recommendation G.729:Coding of Speech at 8 kbits/s using Conjugate-structureA1gebraic-Code-Excited Linear-Prediction(CS-ACELP),March1996」所示的那样,例如,脉冲数为4条时,以使在实施例6中所示的式(2)最大化那样确定i0~i3的组合。这时的各声源脉冲的极性在进行脉冲位置搜索之前预先确定,以使之与噪音编码表成分的目标矢量(即从进行听觉加权后的输入声音中减去听觉加权合成滤波器的零输入响应信号和自适应编码表成分的信号后的信号矢量)在各位置的极性相等。另外,音调周期小于子帧长时,如实施例5所示的那样,通过加上音调周期化滤波器,使声源脉冲不是成为脉冲而是成为音调周期的脉冲串。进行这样的音调周期化处理时,如果预先对听觉加权合成滤波器的脉冲响应矢量加上音调周期化滤波器,便可和不进行音调周期化处理的情况一样,通过式(2)的最大化而进行声源脉冲的搜索。如果在这样确定的各声源脉冲的位置按照所确定的各声源脉冲的极性发生脉冲,则使用音调周期L加上音调周期化滤波器,便可生成脉冲声源矢量。所生成的脉冲声源矢量作为脉冲声源矢量2向选择器3005输出。这里,输入脉冲位置搜索器3006的固定搜索位置必须加入声源脉冲的数以使分配给各声源脉冲的位置信息足够(具体而言,就是使子帧内的所有的点包含在该固定搜索位置的模式中)。通过减少脉冲数、准确地表示发生该脉冲的位置,可以提高有声前沿部分等的合成声音品质。另外,通过设定这种位置信息足够的模式,也可以避免使用位置信息不足的模式时发生的劣化现象。
在图30中,脉冲位置搜索器示出了2种情况,但是,增加到3种以上时,还可以进行与输入信号的特征相应的切换。另外,即使是将输入到脉冲位置搜索器3004的声源脉冲搜索位置采用预先确定的固定搜索位置取代从搜索位置计算器3003输出的搜索位置的结构,也可以获得具有分配给各脉冲的位置信息不足的脉冲数少的模式的结构、提高了有声前沿部分等的合成声音品质的效果和避免只在使用位置信息不足的模式时发生的合成声音品质劣化的效果。但是,脉冲位置搜索器3004使用由搜索位置计算器3003确定的声源脉冲搜索位置进行脉冲位置搜索的方式,在具有容易在音调峰值附近发生声源脉冲的有声部分,可以提高脉冲数多的模式的利用效率。
选择器3005将从脉冲位置搜索器3004输出的脉冲声源矢量1与从脉冲位置搜索器3006输出的脉冲声源矢量2进行比较,将合成声音的失真小的一方作为最佳脉冲声源矢量向乘法器3008输出。从选择器3005向乘法器3008输出的脉冲声源矢量乘以由外部的增益量化器所量化的量化脉冲声源矢量增益后向加法器3009输出。虽然在图30中省略了,但在编码器的脉冲位置搜索器3004和3006中,表示各脉冲声源矢量的各声源脉冲的极性和索引信息与脉冲声源矢量1、2一起另外向选择器3005输出。此外,将表示选择器3005选择了脉冲声源矢量1、2中的哪个矢量的信息、所选择的脉冲声源矢量的各脉冲的极性和索引向声源生成部的外部输出。该选择信息和声源脉冲的极性以及索引信息通过编码器及多路器等变换为向传送路线输出的数据系列后,向传送路线发送。
加法器3009进行从乘法器3007输出的自适应编码矢量成分与从乘法器3008输出的脉冲声源矢量成分的矢量相加,并作为激励声源矢量而输出。
在本实施例中,如果像实施例12或实施例13或实施例14那样,在脉冲位置搜索器3004的前级具有索引更新单元或脉冲序号和索引的更新单元、或同时使用固定搜索位置和相位自适应搜索位置,就可以改善容易接受使用搜索位置计算器所引起的传送路线错误的影响的性质。
另外,作为脉冲的发生方法,在搜索范围例如32个位置的某个位置发生常数条例如4条脉冲时,除了如上述那样将32个位置分为4组并象分配了1条脉冲的8个位置中的1个位置确定的那样搜索所有的组合(8×8×8×8种组合)的方法外,还有对从32个位置中选择4个位置的全部组合进行搜索的方法等。除了振幅1的脉冲的组合外,还可以是将多条例如2条脉冲组合的脉冲对的组合或振幅不同的脉冲的组合而发生脉冲的方法。
在脉冲数少、脉冲位置信息足够的模式中,在脉冲位置信息不足的范围内,通过将脉冲位置信息的一部分分配给表示噪音代码矢量的索引,不仅可以提高有声前沿部的、而且可以提高对无声噪音部或噪音的输入信号的性能。
另外,上述实施例1~实施例17所示的声音编码装置和声音译码装置的声源生成功能可以作为程序记录到磁盘、光磁盘、CD及DVD等光盘、IC卡、ROM、RAM等记录媒体或存储装置中。因此,通过由计算机从记录媒体或存储装置中读取记录数据,便可实现声音编码装置的功能。
以上,说明了本发明的声音编码装置和声音译码装置的声源生成部,该声源生成部通过使用于如下所示的CELP型声音编码装置和CELP型声音译码装置,就可以发挥其效果。
图31是表示本发明的CELP型声音编码装置的最佳的实施例的总体结构的框图。在该框图中,假定在用虚线包围的编码表框和用点划线包围的声源矢量框中使用上述各实施例的结构。即,如图1、图3等那样,生成自适应编码矢量和噪音编码矢量的结构的实施例可以作为图31的编码表框而使用,另一方面,如图8、图12、图14、图15、图17、图18、图20、图21、图23、图25、图27、图29、图30等那样,生成激励声源矢量的结构的实施例可以作为图31的声源矢量框而使用。在图31中,声源矢量框及其一部分编码表框本身示出了先有的结构。
在图31中,将自适应编码表3401的输出数据即时间序列代码输入到矢量乘法器3403,与增益编码G0相乘。另一方面,将噪音编码表3402的输出数据即时间序列代码输入到矢量乘法器3404,与增益编码G1相乘。矢量乘法器3403、3404的输出在加法器3405中相互相加,其结果通过合成滤波器3407供给加法器3410的一输入端。输入声音信号被输入线性预测分析器3406,同时,被供给加法器3410的正输入端。在线性预测分析器3406中,进行输入声音的线性预测分析,进而进行量化处理,作为预测系数L成为编码输出的一部分,同时设定为合成滤波器3407的系数。加法器3410的输出数据供给失真最小化器3409,生成控制在自适应编码表3401和噪声编码表3402的矢量分割的信号,以使合成滤波器3407的合成波形失真成为最小。即,失真最小化器3409生成分别控制自适应编码表3401、噪音编码表3402以及增益量化器3408的控制信号,以使失真最小,并向它们的电路发送。
图31和后面所述的图32中表示数据的符号A、S、G、L的意义如下:
A:指示由失真最小化器3409最终选择的自适应编码矢量的索引信息(从编码装置向译码装置传送)
S:指示由失真最小化器3409最终选择的噪音编码矢量的索引信息(从编码装置向译码装置传送)
G:表示由失真最小化器3409最终确定的量化增益的量化信息(从编码装置向译码装置传送)
L:表示由线性预测分析器3406所量化的线性预测系数的信息(从编码装置向译码装置传送)
在上述各实施例中,说明了实现本发明的声音编码装置的情况,但是,在本发明中,声源矢量的生成方法具有特征,该特征也可以直接应用于声音译码装置。因此,上述各实施例可以直接利用于CELP型声音译码装置的声源矢量的生成部分。为了明白这一点,下面,说明本发明的CELP型声音译码装置。
图32是表示本发明的CELP型声音译码装置的优选实施例的总体结构的框图。在该框图中,假定在用虚线包围的编码表框和用点划线包围的声源矢量框中使用上述各实施例的结构。即,如图1、图3等那样,生成自适应编码矢量和噪音编码矢量的结构的实施例可以作为图32的编码表框而使用,另一方面,如图8、图12、图14、图15、图17、图18、图20、图21、图23、图25、图27、图29、图30等那样,生成激励声源矢量的结构的实施例可以作为图32的声源矢量框而使用。在图32中,声源矢量框及其一部分编码表框本身示出了先有的结构。
在图32中,将自适应编码表3501的输出数据即时间序列代码输入矢量乘法器3503,与增益编码G0相乘。另一方面,将噪音编码表3502的输出数据即时间序列代码输入矢量乘法器3404,与增益编码G1相乘。矢量乘法器3503、3504的输出在加法器3505中相互相加,其结果通过合成滤波器3407作为译码声音而输出。合成滤波器3507的滤波系数由对线性预测系数进行译码的线性预测系数译码器3506生成。增益编码G1、G0由增益译码器3508生成。
如上所述,本发明的CEPL型声音编码装置和/或CELP型声音译码装置在进行声音的编码时和/或译码时,通过增强与自适应编码矢量的音调峰值位置对应的噪音编码矢量的振幅,利用在1音调波形内存在的相位信息,可以提高音质,所以,本发明极适合于应用于例如以数字信号进行无线通信、光无线通信的声音通信装置。
图33是表示使用本发明的CELP型声音编码装置3301的移动无线终端的概略结构的框图。声音编码装置3301的输出信号由调制器3302进行例如四相差分移相键控(QPSK,QuadratureDifferential Phase Shift Keying)的数字调制,同时调制为适合于例如码分多址(CDMA)方式或时分多址(TDMA)方式等指定存取方式的信号形式,最后,由放大器3303放大后,从天线3304发射出去。图中虽然未示出,但是,本发明的声音译码装置同样也可以在移动无线终端应用。
产业上利用的可能性
根据上述实施例可知,本发明是将用于增强与自适应编码矢量的音调峰值位置对应的噪音编码矢量的振幅的振幅增强窗复合到噪音编码矢量上,所以,利用在1音调波形内存在的相位信息便可提高音质。
另外,本发明使用仅限定在自适应编码矢量的音调峰值附近的噪音编码矢量,所以,即使在分配给噪音编码矢量的位数少的情况下,也可以减小音质劣化、提高功率集中在音调峰值附近的有声部的声音品质。
另外,本发明根据自适应编码矢量的音调峰值位置和音调周期确定脉冲位置的搜索范围,所以,可以在1音调波形内进行与音调周期对应的脉冲位置搜索,即使在分配给脉冲位置的位数少的情况下,也可以抑制声音品质的劣化。
另外,本发明通过将脉冲搜索的范围限定为比1音调周期长的长度,可以有效地表现有音调周期性的声源信号。另外,由于在搜索范围内包含2个音调峰值,所以,可以和第1个音调峰值与第2个音调峰值的形式不同的情况或者错误地检测了第1个音调峰值的位置的情况对应。
另外,本发明具有根据输入声音信号的音调周期自适应地改变脉冲数的结构,所以,不需要用于切换脉冲数的新的信息,便可提高声音品质。
另外,本发明在进行脉冲位置搜索之前确定音调峰值附近和除此之外的部分的脉冲振幅,所以,可以有效地表现1音调波形的形状。
另外,本发明通过利用音调周期的连续性切换脉冲的搜索位置,可以进行分别适用于有声的前沿部·无声部和有声稳定部·有声部的脉冲声源搜索,所以,可以提高声音品质。
另外,本发明通过使用在自适应编码表搜索之后求出的音调增益,对当前子帧的音调增益(自适应编码矢量增益)进行初级量化处理,对在声源搜索的最后求出的最佳音调增益与初级量化音调增益的差分进行第2级量化处理,在利用自适应编码表和固定编码表(噪音编码表)之和生成驱动声源矢量的CELP型声音编码装置中,将在固定编码表(噪音编码表)搜索之前得到的信息量化后进行传送,所以,不附加独立的模式信息便可进行固定编码表(噪音编码表)的切换等,从而可以有效地对声音信息进行编码。
另外,本发明根据过去编码的音调周期的连续性或过去编码的音调增益的大小(或连续性)判断当前子帧的声音信号的音调周期性,切换脉冲声源的搜索位置,在音调周期性高的地方和低的地方的判断中,不附加新的信息就可以进行应用于这些部分的脉冲声源搜索,所以,可以提高在相同信息量下的声音品质。
另外,本发明通过使用此前的子帧的音调峰值位置、此前的子帧的音调周期以及当前的子帧的音调周期,可以反向预测当前的子帧的音调峰值位置,并使用该预测音调峰值位置切换是否进行相位自适应处理,所以,没有切换信息的新的传送就可以进行相位自适应处理的切换,从而可以提高相同信息量下的声音品质。在不进行相位自适应处理的模式中,可以使用固定编码表,通过发生在无声部继续使用固定编码表的状态,也可以获得使对相位自适应型声源的错误传播复位的效果。
另外,本发明使用自适应编码矢量向音调峰值附近的信号功率集中度切换是否进行相位自适应,所以,没有切换信息的新的传送便可进行相位自适应处理的切换,从而可以提高在相同信息量下的声音品质。在不进行相位自适应处理的模式中,可以使用固定编码表,通过发生在无声部等继续使用固定编码表的状态,也可以获得使对相位自适应型声源的错误传播复位的效果。
另外,本发明在用以音调峰值位置为0的相对位置表现声源脉冲的位置的CELP型声音编码装置中,通过加上表示声源脉冲的各位置的索引用以从子帧开头开始顺序排列,在由于传送路线错误的影响等而使音调峰值位置错误时,可以使声源脉冲位置的偏离不太大。
另外,本发明在用以音调峰值位置为0的相对位置表现声源脉冲的位置的CELP型声音编码装置中,通过加上表示声源脉冲的各位置的索引用以从子帧开头开始顺序排列,同时将加到用相同的索引序号表示的各脉冲上的序号定义为从子帧的开头顺序排列,在由于传送路线错误的影响等而使音调峰值位置错误时,可以使声源脉冲位置的偏离不太大。
另外,本发明在用以音调峰值位置为0的相对位置表现声源脉冲的位置的CELP型声音编码装置中,通过不是用相对位置表现全部声源脉冲的搜索位置而仅用相对位置表现一部分、其余的搜索位置则为预先确定的固定位置,在由于传送路线错误的影响等而使音调峰值位置错误时,通过减少声源脉冲的位置发生偏离的概率,便可防止传送路线错误的影响传播很长。
另外,本发明将1音调波形内的峰值位置作为音调峰值位置而搜索,所以,可以防止将由于子帧长与音调周期不一致而引起的次峰值作为音调峰值的错误检测。
另外,本发明在连续的有声稳定部中使用此前的子帧中的音调峰值的位置、在此前的子帧中的音调周期以及在当前的子帧中的音调周期的信息限定当前的音调峰值位置的存在范围,通过采用在该范围内搜索音调峰值位置,仅使用当前的子帧的信号便可防止将在搜索音调峰值位置时发生的1音调波形内的次峰值作为音调峰值的错误检测。
另外,本发明在将脉冲声源应用于噪音编码表的CELP型声音编码装置中,采用具有取代声源脉冲数少的各声源脉冲的位置信息充分的模式和取代各声源脉冲的位置信息稀疏的声源脉冲数多的模式的噪音编码表结构,所以,可以提高有声前沿部分的声音品质和有效利用声源脉冲数多的模式。
按照本发明,利用上述结构或单元生成声源,所以,不仅在CELP型声音编码装置、而且在CELP型声音译码装置中也可以获得同样的效果。另外,本发明的CELP型声音编码装置和CELP型声音译码装置可以广泛地应用于将移动通信装置等的声音进行编码而传送、或将已编码的传送的声音译码、再生原来的声音的通信装置或声音记录装置等。

Claims (52)

1.一种CELP型声音编码装置,将脉冲声源使用于噪声编码表,并具有按照自适应编码矢量的音调周期和音调峰值位置决定脉冲位置的搜索范围的声源生成部;
上述声源生成部以这种方式决定上述脉冲位置的搜索范围,即在上述自适应编码矢量的音调峰值位置附近紧密而在除此之外的部分稀疏。
2.按权利要求1所述的CELP型声音编码装置,其特征在于:根据上述音调周期切换上述脉冲位置的搜索范围。
3.按权利要求2所述的CELP型声音编码装置,其特征在于:在上述自适应编码矢量中存在多个音调峰值时,上述脉冲位置的搜索范围以这种方式限定,即在搜索范围中至少包含两个音调峰值的位置。
4.按权利要求1所述的CELP型声音编码装置,其特征在于:所述声源生成部根据声音信号的分析结果切换所述脉冲数目。
5.按权利要求1所述的CELP型声音编码装置,其特征在于:所述声源生成部使用在进行上述噪音编码表搜索之前抽出的传送参量切换所述脉冲数目。
6.按权利要求1所述的CELP型声音编码装置,其特征在于:所述声源生成部根据上述音调周期切换上述脉冲的数目。
7.按权利要求6所述的CELP型声音编码装置,其特征在于:上述脉冲的切换数目取决于上述音调周期的变化在全部连续的子帧内是否都是小的。
8.按权利要求6所述的CELP型声音编码装置,其特征在于:通过统计或学习,根据音调周期决定所使用的脉冲声源的脉冲数。
9.按权利要求1所述的CELP型声音编码装置,其特征在于:作为噪音声源而使用脉冲声源的噪音编码矢量生成部在搜索所述脉冲位置之前决定脉冲振幅。
10.按权利要求9所述的CELP型声音编码装置,其特征在于:在作为噪音声源而使用脉冲声源的所述噪音编码矢量生成部中,在上述自适应编码矢量音调峰值附近和除此之外的部分改变上述脉冲的振幅。
11.按权利要求1所述的CELP型声音编码装置,其特征在于:将表示上述脉冲的位置的索引从子帧的开头一侧开始顺序排列。
12.按权利要求11所述的CELP型声音编码装置,其特征在于:在索引序号相同时,从子帧的开头一侧顺序加上脉冲的序号,并进而将各脉冲的搜索位置以这种方式决定,即在音调峰值位置附近紧密而在音调峰值附近以外的部分稀疏。
13.按权利要求1所述的CELP型声音编码装置,其特征在于:根据上述音调峰值位置决定上述脉冲的搜索位置的一部分,而其他的脉冲搜索位置与音调峰值位置无关,是预先决定的固定位置。
14.一种将脉冲声源应用于噪音编码表的声音编码方法,其特征在于:具有根据自适应编码矢量的音调周期和音调峰值位置决定脉冲位置的搜索范围的步骤;
声源生成部将上述脉冲位置的搜索范围以这种方式决定,即在上述自适应编码矢量的音调峰值位置附近紧密而在除此之外的部分稀疏。
15.按权利要求14所述的声音编码方法,其特征在于:根据上述音调周期切换上述脉冲位置的搜索范围。
16.按权利要求15所述的声音编码方法,其特征在于:在上述自适应编码矢量中存在多个音调峰值时,将上述脉冲位置的搜索范围以这种方式限定,即至少2个音调峰值的位置包含在搜索范围中。
17.按权利要求14所述的声音编码方法,其特征在于:所述声源生成部根据声音信号的分析结果切换所述脉冲数目。
18.按权利要求14所述的声音编码方法,其特征在于:所述声源生成部使用在进行所述噪音编码表搜索之前抽出的传送参量切换所述脉冲数目。
19.按权利要求14所述的声音编码方法,其特征在于:所述声源生成部根据所述音调周期切换上述脉冲数目。
20.按权利要求19所述的声音编码方法,其特征在于:在连续的子帧间上述音调周期的变化小时和不小时切换上述脉冲的数目。
21.按权利要求19所述的声音编码方法,其特征在于:通过统计或学习,根据音调周期决定所使用的脉冲声源的脉冲数。
22.按权利要求14所述的声音编码方法,其特征在于:作为噪音声源而使用脉冲声源的噪音编码矢量生成部在搜索所述脉冲位置之前决定脉冲振幅。
23.按权利要求22所述的声音编码方法,其特征在于:作为噪音声源而使用脉冲声源的所述噪音编码矢量生成部,在上述自适应编码矢量音调峰值附近和除此之外的部分改变上述脉冲的振幅。
24.按权利要求14所述的声音编码方法,其特征在于:将表示上述脉冲的位置的索引从子帧的开头一侧开始顺序排列。
25.按权利要求24所述的声音编码方法,其特征在于:在索引序号相同时,从子帧的开头一侧顺序加上脉冲的序号,并进而将各脉冲的搜索位置以这种方式决定,即在音调峰值位置附近紧密而在音调峰值附近以外的部分稀疏。
26.按权利要求14所述的声音编码方法,其特征在于:根据上述音调峰值位置决定上述脉冲的搜索位置的一部分,而其他的脉冲搜索位置与音调峰值位置无关,是预先决定的固定位置。
27.一种CELP型声音译码装置,将脉冲声源使用于噪声编码表,其特征在于:具有按照自适应编码矢量的音调周期和音调峰值位置决定脉冲位置的搜索范围的声源生成部;
上述声源生成部将上述脉冲位置的搜索范围以这种方式决定,即在上述自适应编码矢量的音调峰值位置附近紧密而在除此之外的部分稀疏。
28.权利要求27所述的CELP型声音译码装置,其特征在于:根据上述音调周期切换上述脉冲位置的搜索范围。
29.按权利要求28所述的CELP型声音译码装置,其特征在于:在上述自适应编码矢量中存在多个音调峰值时,将上述脉冲位置的搜索范围以这种方式限定,即至少2个音调峰值的位置包含在搜索范围中。
30.按权利要求27所述的CELP型声音译码装置,其特征在于:所述声源生成部根据声音信号的分析结果切换所述脉冲数目。
31.按权利要求27所述的CELP型声音译码装置,其特征在于:所述声源生成部使用在进行所述噪音编码表搜索之前抽出的传送参量译码的结果切换所述脉冲数目。
32.按权利要求27所述的CELP型声音译码装置,其特征在于:所述声源生成部根据所述音调周期切换上述脉冲的数目。
33.按权利要求32所述的CELP型声音译码装置,其特征在于:在连续的子帧间上述音调周期的变化小时和不小时切换上述脉冲的数目。
34.按权利要求32所述的CELP型声音译码装置,其特征在于:通过统计或学习,根据音调周期决定所使用的脉冲声源的脉冲数。
35.按权利要求27所述的CELP型声音译码装置,其特征在于:作为噪音声源而使用脉冲声源的噪音编码矢量生成部决定所述脉冲位置和脉冲振幅。
36.按权利要求35所述的CELP型声音译码装置,其特征在于:在作为噪音声源而使用脉冲声源的所述噪音编码矢量生成部中,在上述自适应编码矢量音调峰值附近和除此之外的部分改变上述脉冲的振幅。
37.按权利要求27所述的CELP型声音译码装置,其特征在于:将表示上述脉冲的位置的索引从子帧的开头一侧开始顺序排列。
38.按权利要求37所述的CELP型声音译码装置,其特征在于:在索引序号相同时,从子帧的开头一侧顺序加上脉冲的序号,并进而将各脉冲的存在位置以这种方式决定,即在音调峰值位置附近紧密而在音调峰值附近以外的部分稀疏。
39.按权利要求27所述的CELP型声音译码装置,其特征在于:根据上述音调峰值位置决定上述脉冲的存在位置的一部分,而其他的脉冲存在位置与音调峰值位置无关,是预先决定的固定位置。
40.一种声音译码方法,将脉冲声源应用于噪声编码表,其特征在于:具有根据自适应编码矢量的音调周期和音调峰值位置决定脉冲位置的搜索范围的步骤;
声源生成部将上述脉冲位置的搜索范围以这种方式决定,即在上述自适应编码矢量的音调峰值位置附近紧密而在除此之外的部分稀疏。
41.按权利要求40所述的声音译码方法,其特征在于:根据上述音调周期切换上述脉冲位置的搜索范围。
42.按权利要求41所述的声音译码方法,其特征在于:在上述自适应编码矢量中存在多个音调峰值时,将上述脉冲位置的搜索范围以这种方式限定,即至少2个音调峰值的位置包含在搜索范围中。
43.按权利要求40所述的声音译码方法,其特征在于:所述声源生成部根据声音信号的分析结果切换所述脉冲数目。
44.按权利要求40所述的声音译码方法,其特征在于:所述声源生成部使用在进行噪音编码表搜索之前抽出的传送参量译码的结果切换所述脉冲数目。
45.按权利要求40所述的声音译码方法,其特征在于:所述声源生成部根据所述音调周期切换上述脉冲的数目。
46.按权利要求45所述的声音译码方法,其特征在于:在连续的子帧间上述音调周期的变化小时和不小时切换上述脉冲的数目。
47.按权利要求45所述的声音译码方法,其特征在于:通过统计或学习,根据音调周期决定所使用的脉冲声源的脉冲数。
48.按权利要求40所述的声音译码方法,其特征在于:作为噪音声源而使用脉冲声源的噪音编码矢量生成部决定所述脉冲位置和脉冲振幅。
49.按权利要求48所述的声音译码方法,其特征在于:作为噪音声源而使用脉冲声源的所述噪音编码矢量生成部,在上述自适应编码矢量音调峰值附近和除此之外的部分改变上述脉冲的振幅。
50.按权利要求40所述的声音译码方法,其特征在于:将表示上述脉冲的位置的索引从子帧的开头一侧开始顺序排列。
51.按权利要求50所述的声音译码方法,其特征在于:在索引序号相同时,从子帧的开头一侧顺序加上脉冲的序号,并进而将各脉冲的搜索位置以这种方式决定,即在音调峰值位置附近紧密而在音调峰值附近以外的部分稀疏。
52.按权利要求40所述的声音译码方法,其特征在于:根据上述音调峰值位置决定上述脉冲的搜索位置的一部分,而其他的脉冲位置与音调峰值位置无关,是预先决定的固定位置。
CNB971913501A 1996-08-02 1997-08-04 声音编码装置和方法,声音译码装置,以及声音译码方法 Expired - Lifetime CN1163870C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP20443996 1996-08-02
JP204439/1996 1996-08-02
JP204439/96 1996-08-02
JP36726/1997 1997-02-20
JP03672697A JP4063911B2 (ja) 1996-02-21 1997-02-20 音声符号化装置
JP36726/97 1997-02-20

Publications (2)

Publication Number Publication Date
CN1205097A CN1205097A (zh) 1999-01-13
CN1163870C true CN1163870C (zh) 2004-08-25

Family

ID=26375818

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971913501A Expired - Lifetime CN1163870C (zh) 1996-08-02 1997-08-04 声音编码装置和方法,声音译码装置,以及声音译码方法

Country Status (6)

Country Link
US (4) US6226604B1 (zh)
EP (2) EP0858069B1 (zh)
CN (1) CN1163870C (zh)
AU (1) AU3708597A (zh)
DE (1) DE69737012T2 (zh)
WO (1) WO1998006091A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2338630B (en) * 1998-06-20 2000-07-26 Motorola Ltd Speech decoder and method of operation
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
JP4008607B2 (ja) * 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
US6480821B2 (en) * 2001-01-31 2002-11-12 Motorola, Inc. Methods and apparatus for reducing noise associated with an electrical speech signal
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
JP3888097B2 (ja) * 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
JP2004101588A (ja) * 2002-09-05 2004-04-02 Hitachi Kokusai Electric Inc 音声符号化方法及び音声符号化装置
FR2865310A1 (fr) * 2004-01-20 2005-07-22 France Telecom Procede de restauration de partiels d'un signal sonore
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
US7240252B1 (en) * 2004-06-30 2007-07-03 Sprint Spectrum L.P. Pulse interference testing in a CDMA communication system
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US8766995B2 (en) * 2006-04-26 2014-07-01 Qualcomm Incorporated Graphics system with configurable caches
US20070268289A1 (en) * 2006-05-16 2007-11-22 Chun Yu Graphics system with dynamic reposition of depth engine
US8884972B2 (en) * 2006-05-25 2014-11-11 Qualcomm Incorporated Graphics processor with arithmetic and elementary function units
US8869147B2 (en) * 2006-05-31 2014-10-21 Qualcomm Incorporated Multi-threaded processor with deferred thread output control
US8644643B2 (en) * 2006-06-14 2014-02-04 Qualcomm Incorporated Convolution filtering in a graphics processor
US8766996B2 (en) * 2006-06-21 2014-07-01 Qualcomm Incorporated Unified virtual addressed register file
US20080276359A1 (en) * 2007-05-09 2008-11-13 Morgan Terra J Drain clog remover
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
CN101903945B (zh) * 2007-12-21 2014-01-01 松下电器产业株式会社 编码装置、解码装置以及编码方法
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
JP5269914B2 (ja) * 2009-01-22 2013-08-21 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US20120203548A1 (en) * 2009-10-20 2012-08-09 Panasonic Corporation Vector quantisation device and vector quantisation method
WO2011065741A2 (ko) * 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
ES2950794T3 (es) 2011-12-21 2023-10-13 Huawei Tech Co Ltd Detección y codificación de altura tonal muy débil
CN104254886B (zh) 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
BR112015007137B1 (pt) 2012-10-05 2021-07-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho para codificar um sinal de fala que emprega acelp no domínio de autocorrelação
US9208775B2 (en) 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US4924517A (en) * 1988-02-04 1990-05-08 Nec Corporation Encoder of a multi-pulse type capable of controlling the number of excitation pulses
DE68922134T2 (de) * 1988-05-20 1995-11-30 Nippon Electric Co Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
JP2588963B2 (ja) 1989-03-07 1997-03-12 日本電信電話株式会社 音声合成装置
WO1990013112A1 (en) * 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Voice encoder
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
EP0443548B1 (en) * 1990-02-22 2003-07-23 Nec Corporation Speech coder
JP2736157B2 (ja) 1990-07-17 1998-04-02 シャープ株式会社 符号化装置
JP2626223B2 (ja) * 1990-09-26 1997-07-02 日本電気株式会社 音声符号化装置
US5235670A (en) * 1990-10-03 1993-08-10 Interdigital Patents Corporation Multiple impulse excitation speech encoder and decoder
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
JP2538450B2 (ja) 1991-07-08 1996-09-25 日本電信電話株式会社 音声の励振信号符号化・復号化方法
JP3194481B2 (ja) * 1991-10-22 2001-07-30 日本電信電話株式会社 音声符号化法
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
IT1264766B1 (it) * 1993-04-09 1996-10-04 Sip Codificatore della voce utilizzante tecniche di analisi con un'eccitazione a impulsi.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
JP3199142B2 (ja) 1993-09-22 2001-08-13 日本電信電話株式会社 音声の励振信号符号化方法および装置
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JP3179291B2 (ja) * 1994-08-11 2001-06-25 日本電気株式会社 音声符号化装置
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3292227B2 (ja) * 1994-12-28 2002-06-17 日本電信電話株式会社 符号励振線形予測音声符号化方法及びその復号化方法
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
TW307960B (en) * 1996-02-15 1997-06-11 Philips Electronics Nv Reduced complexity signal transmission system
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法

Also Published As

Publication number Publication date
US6687666B2 (en) 2004-02-03
AU3708597A (en) 1998-02-25
DE69737012D1 (de) 2007-01-11
US6549885B2 (en) 2003-04-15
EP0858069A1 (en) 1998-08-12
EP0858069A4 (en) 2000-08-23
US6226604B1 (en) 2001-05-01
US20010001142A1 (en) 2001-05-10
US20010003812A1 (en) 2001-06-14
WO1998006091A1 (fr) 1998-02-12
EP1553564A2 (en) 2005-07-13
EP1553564A3 (en) 2005-10-19
EP0858069B1 (en) 2006-11-29
CN1205097A (zh) 1999-01-13
US20010001139A1 (en) 2001-05-10
DE69737012T2 (de) 2007-06-06
US6421638B2 (en) 2002-07-16

Similar Documents

Publication Publication Date Title
CN1163870C (zh) 声音编码装置和方法,声音译码装置,以及声音译码方法
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1265355C (zh) 音源矢量生成装置及语音编码/解码装置
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1154976C (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1338096A (zh) 用于分析-合成celp型语音编码的自适应窗
CN1223994C (zh) 声源矢量生成装置以及声音编码装置和声音解码装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1248195C (zh) 语音编码转换方法和装置
CN1245706C (zh) 多模式语音编码器
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN1331826A (zh) 可变速率语音编码
CN101067931A (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与***
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1078779C (zh) 分集接收机
CN1438613A (zh) 编解码坐标内插符关键字数据和关键值数据的装置及介质
CN1226039A (zh) 指数计算装置和解码装置
CN1160704C (zh) 音程变换装置
CN1383614A (zh) 压缩方法及装置、扩展方法及装置、压缩扩展***、存储媒体、程序
CN1669071A (zh) 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质
CN1898724A (zh) 语音/乐音编码设备及语音/乐音编码方法
CN1890713A (zh) 用于数字信号压缩编码的多脉冲字典的索引间的编码转换
CN1426628A (zh) 压缩方法及装置,展开方法及装置压缩展开***,记录媒体
CN1393066A (zh) 无线通信接收装置及接收方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140724

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140724

Address after: Seaman Avenue Torrance in the United States of California No. 20000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Japan Osaka kamato City

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170531

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: Seaman Avenue Torrance in the United States of California No. 20000 room 200

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040825