CN1216367C - 数据处理装置 - Google Patents

数据处理装置 Download PDF

Info

Publication number
CN1216367C
CN1216367C CN028007395A CN02800739A CN1216367C CN 1216367 C CN1216367 C CN 1216367C CN 028007395 A CN028007395 A CN 028007395A CN 02800739 A CN02800739 A CN 02800739A CN 1216367 C CN1216367 C CN 1216367C
Authority
CN
China
Prior art keywords
data
speech data
grade
sample value
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN028007395A
Other languages
English (en)
Other versions
CN1459093A (zh
Inventor
近藤哲二郎
木村裕人
渡边勉
服部正明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1459093A publication Critical patent/CN1459093A/zh
Application granted granted Critical
Publication of CN1216367C publication Critical patent/CN1216367C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及能够得到高音质的合成音等的数据处理装置。分支生成部121从对以CELP方式进行编码的语音的编码数据解码后的合成音数据中正在关注的关注数据的子帧中的40个样值的合成音数据和以从关注子帧过去其关注子帧中配置的L码所表明的延迟量的位置为起点的40个样值的合成音数据生成预测分支。然后,预测部125通过用其预测分支和系数存储器124所记忆的分支系数进行规定的预测运算来对高音质的语音数据解码。本发明可应用于对语音进行收发信的使携式电话机。

Description

数据处理装置
技术领域
本发明涉及数据处理装置,尤其涉及能够将以例如CELP(CodeExcited Liner Prediction coding)方式被编码了的语音解码为高音质的语音的数据处理装置。
技术背景
图1及图2表示现有的便携式电话机一例的结构。
在该便携式电话机中进行将语音根据CELP方式编码为规定的编码并发送的发送处理和接收其他便携式电话机所发送的编码并将其解码为语音的接收处理,图1表示进行发送处理的发送部,图2表示进行接收处理的接收部。
在图1所示的发送部,用户讲话的语音输入至话筒(麦克风)1,在此转换成作为电信号的语音信号并供给至A/D(Analog/Digital)转换部2。A/D转换部2将来自话筒1的模拟的语音信号例如通过以8KHz等的采样频率进行采样A/D转换成数字的语音信号,再以规定的比特数进行量子化并供给至运算器3和LPC(Liner PredictionCoefficient)分析部4。
LPC分析部4将来自A/D转换部2的语音信号例如以160个样值长度为1帧,并将该1帧分割为各40个样值的子帧,按各子帧进行LPC分析,求出P次的线性预测系数α1,α2,...,αP。然后,LPC分析部4将以该P次的线性预测系数αp(p=1、2、...、P)为要素的矢量作为语音的特征矢量供给至矢量量子化部5。
矢量量子化部5记忆使以线性预测系数为要素的编码矢量与编码相互对应的码簿,并根据该码簿将来自LPC分析部4的特征矢量α矢量量子化,并将该矢量量子化的结果所得的编码(以下适当称之为A编码(A_code))供给至码决定部15。
再有,矢量量子化部5将成为构成与A编码对应的编码矢量α’的要素的线性预测系数α1’、α2’、...、αP’供给至语音合成滤波器6。
语音合成滤波器6例如在IIR(Infinite Impulse Response)型的数字滤波器将来自矢量量子化部5的线性系数αp’(p=1、2、...、P)作为IIR滤波器的分支系数,同时将运算器14所供给的残留信号e作为输入信号并进行语音合成。
即,LPC分析部4所进行的LPC分析为:假设在当前时刻n的语音信号(的样值)sn及与其相邻的过去的P个样值sn-1、sn-2、...、sn-P中,下式
sn1sn-12sn-2+......+αpsn-P=en      ......(1)所表示的线性一次结合成立,并用过去的P个样值值sn-1、sn-2、...、sn-P将当前时刻n的样值sn的预测值(线性预测值)sn’根据下式
sn’=-(α1sn-12sn-2+......+αPsn-P)     ......(2)进行线性预测后,求出令实际的样值sn与线性预测值sn’之间的平方误差最小的线性预测系数αP
在此,式(1)中,{en}(...、en-1、en、en+1、...)的平均值为0、偏离为规定值σ2的互不相关的概率变量。
根据式(1),样值sn可由下式
sn=en-(α1sn-12sn-2+......+αPsn-P)      ......(3)
表示,将其进行Z转换则下式成立。
S=E/(1+α1z-12z-2+......+αPz-P)       ......(4)
不过在式(4)中,S和E分别表示式(3)的sn和en的Z转换。
在此,根据式(1)及式(2),en可由下式
en=sn-sn’    ......(5)
表示,并称之为实际的样值sn与线性预测值sn’之间的残留信号。
因而,根据式(4),可以通过将线性预测系数αP作为IIR滤波器的分支系数,同时将残留信号en作为IIR滤波器的输入信号而求出语音信号sn
因此,语音合成滤波器6如上述将来自矢量量子化部5的线性预测系数αP’作为分支系数时,同时将运算器14所供给的残留信号e作为输入信号,进行式(4)的运算并求出语音信号(合成音数据)ss。
另外,因为语音合成滤波器6不是采用LPC分析部4的LPC分析的结果所得的线性预测系数αP,而是采用作为与该矢量量子化的结果所得的编码对应的编码矢量的线性预测系数αP’,所以语音合成滤波器6输出的合成音信号与A/D转换部2输出的语音信号基本上不相同。
语音合成滤波器6输出的合成音数据ss供给至运算器3。运算器3从来自语音合成滤波器6的合成音数据ss减去A/D转换部2输出的语音信号s(从合成音数据ss的各样值减去对应于该样值的语音数据s的样值),并将该相减值供给至平方误差运算部7。平方误差运算部7对来自运算器3的相减值的平方和(关于第k子帧的各样值的相减值的平方和)进行运算,并将其结果所得的平方误差供给至平方误差最小判定部8。
平方误差最小判定部8与平方误差运算部7输出的平方误差相对应,记忆有作为表示长期预测延迟的编码的L码(L_code)、作为表示增益的编码的G码(G_code)及作为表示码语(激励码簿)的编码的I码(I_code),并输出对应于平方误差运算部7所输出的平方误差的L码、G码及L码。L码供给至自适应码簿记忆部9,G码供给至增益解码器10,I码供给至激励码簿记忆部11。再有,L码、G码及I码也供给至码决定部15。
自适应码簿记忆部9例如对7比特的L码与规定的延迟时间(延迟)相互对应的自适应码簿进行记忆,其将运算器14所供给的残留信号e延迟与平方误差最小判定部8所供给的L码相对应的延时时间(长期预测延迟)量,并输出至运算器12。
在此,因为自适应码簿记忆部9将残留信号e延迟对应于L码的时间量后输出,所以该输出信号将成为以该延迟时间为周期的周期信号。在利用了线性预测系数的语音合成中,该信号主要成为用以生成语言声的合成音的驱动信号。因而,L码在概念上表示语音的节拍周期。另外,根据CELP的规格,L码取20至146的范围的整数值。
增益解码器10记忆G码与规定的增益β及γ相对应的表格,并输出对应于平方误差最小判定部8所供给的G码的增益β及γ。增益β和γ分别供给至运算器12和13。在此,增益β被称为长期滤波状态输出增益,另外,增益γ被称为激励码簿增益。
激励码簿记忆部11例如对9比特的I码与规定的激励信号相对应的激励码簿进行记忆,并将对应于平方误差最小判定部8所供给的I码的激励信号输出至运算器13。
在此,记忆于激励码簿的激励信号例如为与白澡声等相近的信号,其在利用了线性预测系数的语音合成中主要成为用以生成非语言声的合成音的驱动信号。
运算器12将自适应码簿记忆部9的输出信号与增益解码器10输出的增益β相乘,并将该相乘值1供给至运算器14。运算器13将激励码簿记忆部11的输出信号与增益解码器10输出的增益γ相乘并将该相乘值n供给至运算器14。运算器14将来自运算器12的相乘值1与来自运算器13的相乘值n相加,并将该相加值作为残留信号e供给至语音合成滤波器6和自适应码簿记忆部9。
在语音合成滤波器6中,如上所述,用以矢量量子化部5所供给的线性预测系数αp’为分支系数的IIR滤波器将运算器14所供给的残留信号e滤波,并将其结果所得的合成音数据供给至运算器3。然后,在运算器3及平方误差运算部7中进行与上述情况同样的处理,并将其结果所得的平方误差供给至平方误差最小判定部8。
平方误差最小判定部8判定来自平方误差运算部7的平方误差是否为最小(极小)。而且,当平方误差最小判定部8判定为平方误差非最小时,如上述输出对应于该平方误差的L码、G码及I码,以下重复同样的处理。
另一方面,当平方误差最小判定部8判定为平方误差最小时,将确定信号输出至码决定部15。码决定部15在锁存矢量量子化部5所供给的A码的同时,依次锁存平方误差最小判定部8所供给的L码、G码及I码,并在从平方误差最小判定部8接收到确定信号时将此时锁存的A码、L码、G码及I码供给至信道解码器16。信道解码器16将来自码决定部15的A码、L码、G码及I码复用,并作为编码数据输出。该编码数据通过传送路被发送。
根据以上,编码数据为按子帧单位具有用于解码的信息的A码、L码、G码及I码的编码数据。
另外,在此,A码、L码、G码及I码为按各子帧所求得者,例如关于A码,有时按各帧求得,这时,相同的A码将用于构成该帧的四个子帧的解码。但是,即使在这种情况下,也可以视为构成该一个帧的四个子帧分别具有相同的A码,通过这样考虑,可以认为编码数据成了按子帧单位具有为用于解码的信息的A码、L码、G码及I码的编码数据。
在此,在图1(下述图2、图5、图9、图11、图16、图18及图21中也同样)中,各变量被赋予值[k]并被作为排列变量。该k值表示子帧数,在说明书中适当省略其记述。
接下来,如上所述,从其他便携式电话机的发送部发送到的编码数据由图2所示的接收部的信道解码器21所接收,信道解码器21从编码数据分离出L码、G码、I码、A码,并将其分别供给至自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、滤波系数解码器25。
自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、运算器26至28分别与图1中的自适应码簿记忆部9、增益解码器10、激励码簿记忆部11、运算器12至14为同样构成者,通过进行与图1中说明的情况同样的处理,L码、G码及I码被解码为残留信号e。该残留信号e将作为输入信号提供给语音合成滤波器29。
滤波系数解码器25记忆有与图1的矢量量子化部5所记忆相同的码簿,其将A码解码为线性预测系数αp’并供给至语音合成滤波器29。
语音合成滤波器29与图1的语音合成滤波器6为同样构成,其在将来自滤波系数解码器25的线性预测系数αp’作为分支数的同时,将运算器28所供给的残留信号e作为输入信号并进行式(4)的运算,据此,生成在图1的平方误差最小判定部8判定为平方误差最小时的合成音数据。该合成音数据供给至D/A(Digital/Analog)转换部30。D/A转换部30将来自语音合成滤波器29的合成音数据从数字信号D/A转换成模拟信号,并供给至扬声器31输出。
另外,在编码数据中,当A码不是以子帧单位而是以帧单位进行配置时,在图2的接收部,除了可以将与配置于该帧的A码对应的线性预测系数用于构成帧的四个子帧的全部解码之外,还可以关于子帧用与相邻的帧的A码对应的线性预测系数进行插补,并将该插被的结果所得的线性预测系数用于各子帧的解码。
如上,在便携式电话机的发送部将作为提供给接收部的语音合成滤波器29的输入信号的残留信号和线性预测系数进行编码而发送,所以在接收部该编码被解码为残留信号和线性预测系数。但是,由于该解码后的残留信号和线性预测系数(以下适当分别称之为解码残留信号和解码线性预测系数)中含有量子化误差等误差,所以与对语音进行LPC分析所得到的残留信号和线性预测系数不一致。
因此,接收部的语音合成滤波器29输出的合成音数据为有失真等的音质劣化者。
发明内容
本发明是鉴于这种状况而完成的,可得到高音质的合成音等。
本发明第1种数据处理装置以具备通过关于规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用于规定处理的分支的分支生成单元;用分支对关注数据进行规定处理的处理单元为特征。
本发明第1种数据处理方法以具备通过关于规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用于规定处理的分支的分支生成步骤;用分支对关注数据进行规定处理的处理步骤为特征。
本发明第1种程序以具备通过关于规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用于规定处理的分支的分支生成步骤;用分支对关注数据进行规定处理的处理步骤为特征。
本发明第1种记录载体以记录有具备通过关于规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用于规定处理的分支的分支生成步骤;用分支对关注数据进行规定处理的处理步骤的程序为特征。
本发明第2种数据处理装置以具备作为成为学习的学生的学生数据,从成为学习的教师的教师数据生成规定数据和周期信息的学生数据生成单元;通过关于作为学生数据的规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用以预测教师数据的预测分支的预测分支生成单元;为使通过用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小而进行学习,求出分支系数的学习单元为特征。
本发明第2种数据处理方法以具备作为成为学习的学生的学生数据,从成为学习的教师的教师数据生成规定数据和周期信息的学生数据生成步骤;通过关于作为学生数据的规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用以预测教师数据的预测分支的预测分支生成步骤;为使通过用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小而进行学习,求出分支系数的学习步骤为特征。
本发明第2种程序以具备作为成为学习的学生的学生数据,从成为学习的教师的教师数据生成规定数据和周期信息的学生数据生成步骤;通过关于作为学生数据的规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用以预测教师数据的预测分支的预测分支生成步骤;为使通过用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小而进行学习,求出分支系数的学习步骤为特征。
本发明第2种记录载体以记录有具备作为成为学习的学生的学生数据,从成为学习的教师的教师数据生成规定数据和周期信息的学生数据生成步骤;通过关于作为学生数据的规定数据中的正在关注的关注数据根据周期信息抽出规定数据来生成用以预测教师数据的预测分支的预测分支生成步骤;为使通过用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小而进行学习,求出分支系数的学习步骤的程序为特征。
本发明第1种数据处理装置及数据处理方法,以及,程序及记录载体,通过关于规定数据中正在关注的关注数据根据周期信息抽出规定数据来生成用于规定处理的分支,用其分支,关于关注数据进行规定的处理。
本发明第2种数据处理装置及数据处理方法,以及,程序及记录载体,作为成为学习的学生的学生数据从成为学习的教师的教师数据生成规定数据和周期信息。然后,通过关于作为学生数据的规定数据中正在关注的关注数据根据周期信息抽出规定数据来生成用于预测教师数据的预测分支,为使通过用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小而进行学习,求出分支系数。
附图说明
图1所示为现有的便携式电话机发送部一例的结构框图。
图2所示为现有的便携式电话机接收部一例的结构框图。
图3为应用了本发明的传输***的一实施方式的结构例图。
图4所示为便携式电话机1011和1012的结构例框图。
图5所示为接收部114的第1结构例框图。
图6为说明图5的接收部114的处理的流程图。
图7为预测分支和等级分支的生成方法的说明图。
图8为预测分支和等级分支的生成方法的说明图。
图9所示为应用了本发明的学习装置的实施方式1的结构例框图。
图10为说明图9的学习装置处理的流程图。
图11所示为接收部114的第2结构例框图。
图12A~图12C所示为合成音数据的波形推移说明图。
图13所示为分支生成部301和302的结构例框图。
图14为说明分支生成部301和302的处理的流程图。
图15所示为分支生成部301和302的其他结构例框图。
图16所示为应用了本发明的学习装置的实施方式2的结构例框图。
图17所示为分支生成部321和322的结构例框图。
图18所示为接收部114的第3结构例框图。
图19为说明图18的接收部114的处理的流程图。
图20所示为分支生成部341和342的结构例框图。
图21所示为应用了本发明的学习装置的实施方式3的结构例框图。
图22为说明图21的学习装置的处理的流程图。
图23所示为应用了本发明的计算机的一实施方式的结构例框图。
实施方式
图3所示为应用了本发明的传输***(所谓***是指复数个装置在理论上的集合体,而不论其各构成的装置是否在同一箱体中)的一实施方式的结构。
在该传输***中,在便携式电话机1011和1012分别与基站1021和1022进行无线收发信的同时,通过基站1021和1022分别与交换站103之间进行收发信,最终通过基站1021及1022以及交换站103在便携式电话机1011和1012之间实现语音的收发信。另外,基站1021和1022可以是同一基站,也可以是不同基站。
在此,以下只要无需进行特别区分,将便携式电话机1011和1012表述为便携式电话机101。
接下来,图4表示图3的便携式电话机101的结构例。
在该便携式电话机101中依据CELP方式进行语音的收发信。
即,天线111接收来自基站1021或1022的电波,并在将该接收信号供给至调制解调部112的同时,用电波将来自调制解调部112的信号发送给基站1021或1022。调制解调部112将来自天线111的信号解调,并将其结果所得如图1所说明的编码数据供给至接收部114。另外,调制解调部112对发送部113所供给的如图1所说明的编码数据加以调制,并将其结果所得的调制信号供给至天线111。发送部113与图1所示发送部结构相同,其依据CELP方式将输入至此的用户的语音编码为编码数据后供给至调制解调部112。接收部114接收来自调制解调部112的编码数据后依据CELP方式进行解码,再解码出高音质的语音后输出。
即,在接收部114,例如利用等级分类适应处理,以CELP方式所解码的合成音再被解码为真实的高音质的语音(的预测值)。
在此,等级分类适应处理由等级分类处理和适应处理组成,通过等级分类处理,将数据根据其性质分出等级并按各等级施以适应处理;适应处理则为如下技法。
即,在适应处理中,例如通过合成音与规定的分支系数的线性结合求得高音质的语音的预测值。
具体地说,考虑如下:例如现在将高音质语音(的样值值)作为教师数据的同时,依据CELP方式将该高音质语音编码为L码、G码、I码及A码,并将通过在图2所示的接收部对这些编码进行解码所得的合成音作为学生数据,然后根据通过若干个合成音(的样值值)x1、x2、...的集合与规定的分支系数w1、w2、...的线性结合所规定的线性一次结合模型求得作为教师数据的高音质语音y的预测值E[y]。这时,预测值E[y]可由下式表达。
E[y]=w1x1+w2x2+......
为使式(6)一般化,若将由分支系数wj的集合构成的矩阵W、由学生数据xij的集合构成的矩阵X、及由预测值E[yj]的集合构成的矩阵Y’定义如下:
[数1]
X = x 11 x 12 · · · x 1 J x 21 x 22 · · · x 2 J · · · · · · · · · · · · x I 1 x I 2 · · · x IJ
W = W 1 W 2 · · · W J , Y ′ = E [ y 1 ] E [ y 2 ] · · · E [ y I ]
则如下观测方程式成立。
XW=Y’...(7)
在此,矩阵X的成分xij意味着第i项学生数据的集合(用于第i项教师数据yj的预测的学生数据的集合)中的第j个学生数据;矩阵W的成分wj表示与学生数据的集合中的第j个学生数据进行乘积运算的分支系数。另外,yi表示第i项教师数据,因而E[yi]表示第i项教师数据的预测值。另外,位于式(6)左侧的y为矩阵Y的成分yi的省略后缀i者;另外,位于式(6)右侧的x1、x2...亦为矩阵X的成分xij的省略后缀i者。
然后,考虑将最小平方法应用于该观测方程式以求得接近于真实的高音质语音y的预测值E[y]。这时,若将由成为教师数据的真实的高音质语音y的集合构成的矩阵Y及由对应于高音质语音y的预测值E[y]的残留e的集合构成的矩阵E定义如下:
[数2]
E = e 1 e 2 · · · e T , Y = y 1 y 2 · · · y T
根据式(7),则如下残留方程式成立。
XW=Y+E...(8)
这时,用于求得接近于原始的高音质语音y的预测值E[y]的分支系数wj可以通过使平方误差
[数3]
Figure C0280073900161
最小而求得。
因而,当以分支系数Wj对上述平方误差求微分所得为0时,即满足于下式的分支系数Wj将成为用于求得接近于原始的高音质语音y的预测值E[y]的最佳值。
[数4]
e 1 ∂ e 1 ∂ w j + e 2 ∂ e 2 ∂ w j + · · · + e I ∂ e I ∂ w j = 0 ( j = 1,2 , · · · , J ) - - - ( 9 )
因此,首先通过以分支系数wj对式(8)求微分,下式成立。
[数5]
∂ e i ∂ w 1 = x i 1 , ∂ e i ∂ w 2 = x i 2 , · · · , ∂ e i ∂ w J = x iJ , ( i = 1,2 , · · · , I ) - - - ( 10 )
由式(9)及(10)可得式(11)。
[数6]
Σ i = 1 I e i x i 1 = 0 , Σ i = 1 I e i x i 2 = 0 , · · · Σ i = 1 I e i x iJ = 0 - - - ( 11 )
进而,考虑式(8)的残留方程式中的学生数据xij、分支系数wj、教师数据yi及误差ei的关系,则从式(11)可得如下的正规方程式。
[数7]
( Σ i = 1 I x i 1 x i 1 ) w 1 + ( Σ i = 1 I x i 1 x i 2 ) w 2 + · · · + ( Σ i = 1 I x i 1 x iJ ) w J = ( Σ i = 1 I x i 1 y i ) ( Σ i = 1 I x i 2 x i 1 ) w 1 + ( Σ i = 1 I x i 2 x i 2 ) w 2 + · · · + ( Σ i = 1 I x i 2 x iJ ) w J = ( Σ i = 1 I x i 2 y i ) · · · ( Σ i = 1 I x iJ x i 1 ) w 1 + ( Σ i = 1 I x iJ x i 2 ) w 2 + · · · + ( Σ i = 1 I x iJ x iJ ) w J = ( Σ i = 1 I x iJ y i ) - - - ( 12 )
另外,若将矩阵(协方差矩阵)A及矢量v定义如下:
[数8]
A = Σ i = 1 I x i 1 x i 1 Σ i = 1 I x i 1 x i 2 · · · Σ i = 1 I x i 1 x iJ Σ i = 1 I x i 2 x i 1 Σ i = 1 I x i 2 x i 2 · · · Σ i = 1 I x i 2 x iJ Σ i = 1 I x iJ x i 1 Σ i = 1 I x iJ x i 2 · · · Σ i = 1 I x iJ x iJ
v = Σ i = 1 I x i 1 y i Σ i = 1 I x i 2 y i · · · Σ i = 1 I x iJ y i
同时将矢量w如数1所示定义,则式(12)所示正规方程式可以下式
AW=v...(13)进行表示。
式(12)中的各正规方程式可通过准备某种程度数量的学生数据xij及教师数据yi的集合,以与应求得的分支系数wj的数J相同数量建立,因而,通过关于矢量W对式(13)求解(但,若对式(13)求解,式(13)中的矩阵A需为正则),可求得最佳分支系数(在此为令平方误差最小的分支系数)wj。另外,在解式(13)之际可以利用例如扫除法(Gauss-Jordan的消除法)等。
如上,求出最佳分支系数wj,再利用其分支系数wj,根据式(6)求得接近于真实的高音质语音y的预测值E[y],这就是适应处理。
另外,例如在这样的情况下,作为教师数据采用了以高采样频率采样的语音信号或分配有多比特的语音信号,同时,作为学生数据采用了将对作为该教师数据的语音信号加以疏间或以低比特再量子化后的语音信号以CELP方式编码并将该编码结果解码所得的合成音,则作为分支系数,对于生成以高采样频率采样的语音信号或分配有多比特的语音信号,将得到预测误差在统计学上为最小的高音质的语音。因而,这时可以得到较高音质的合成音。
在图4的接收部114,通过如上等级分类适应处理,将对编码数据进行解码所得的合成音再解码为高音质的语音。
即,图5表示图4的接收部114的第1结构例。另外,在图中关于与图2的情况相对应的部分赋予同一代码,以下适当省略其说明。
语音合成滤波器29输出的各子帧的合成音数据和信道解码器21输出的各子帧的L码、G码、I码、A码中的L码将供给至分支生成部121和122。根据L码,分支生成部121和122从供给至此的合成音数据中分别抽出作为用于预测高音质语音的预测值的预测分支者和作为用于等级分类的等级分支者。预测分支供给至预测部125,等级分支供给至等级分类部123。
根据分支生成部122所供给的等级分支,等级分类部123进行等级分类,并将作为其等级分类结果的等级码供给至系数存储器124。
在此,作为等级分类部123的等级分类方法,例如有利用了K比特ADRC(Adaptive Dynamic Range Coding)处理的方法等。
在此,在K比特ADRC处理中,例如将检测出构成等级分支的数据的最大值MAX和最小值MIN,并将DR=MAX-MIN作为集合的局部动态范围,并根据该动态范围DR将构成等级分支的各数据再量子化为K比特。即,从构成等级分支的各数据中减去最小值MIN,并将该相减值以DR/2k相除(量子化)。然后,将如上所得的构成等级分支的各数据的K比特的值按规定的顺序排列后的比特列将作为ADRC编码被输出。
在将这种K比特ADRC处理利用于等级分类时,例如可以将该K比特ADRC处理的结果所得的ADRC编码作为等级码。
另外,等级分类也可以通过其他例如将等级分支看作以其各构成的数据为要素的矢量,并将作为该矢量的等级分支加以矢量量子化等来进行。
系数存储器124对通过在下述图9的学习装置进行学习处理而得的各等级的分支系数进行记忆,并将在与等级分类部123输出的等级码对应的地址上记忆的分支系数供给至预测部125。
预测部125取得分支生成部121所输出的预测分支和系数存储器124所输出的分支系数,并用其预测分支和分支系数进行式(6)所示的线性预测运算。据此,预测部125关于正在关注的关注子帧求得高音质的语音(的预测值)并供给至D/A转换部30。
接下来,参照图6的流程图,就图5的接收部114的处理进行说明。
信道解码器21从供给至此的编码数据分离出L码、G码、I码、A码并将其分别供给至自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、滤波器系数解码器25。再有,L码也供给至分支生成部121及122。
然后,自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、运算器26至28进行与图2的情况同样的处理,据此,L码、G码及I码被解码为残留信号e。该残留信号供给至语音合成滤波器29。
进而,滤波器系数解码器25,如图2所述,将供给至此的A码解码为线性预测系数,向语音合成滤波器29供给。语音合成滤波器29用来自运算器28的残留信号和来自滤波器系数解码器25的线性预测系数进行语音合成,并将其结果所得的合成音供给至分支生成部121和122。
分支生成部121将语音合成滤波器29依次输出的合成音的子帧依次作为关注子帧,在步骤S1,通过在抽出其关注子帧的合成音数据的同时,根据供给至此的L码将从其关注子帧观察在时间上为过去方向或未来方向的合成音数据抽出,生成预测分支并供给至预测部125。再有,在步骤S1,分支生成部122例如还是通过在抽出关注子帧的合成音数据的同时,根据供给至此的L码将从其关注子帧观察在时间上为过去方向或未来方向的合成音数据抽出,生成等级分支并供给至等级分类部123。
然后进入步骤S2,等级分类部123根据分支生成部122所供给的等级分支进行等级分类,并将其结果所得的等级码供给至系数存储器124,然后进入步骤S3。
在步骤S3,系数存储器124从与等级分类部123所供给的等级码相对应的地址读出分支系数并供给至预测部125。
然后进入步骤S4,预测部125取得系数存储器124输出的分支系数,并用其分支系数和来自分支生成部121的预测分支进行式(6)所示的积和运算,得出关注子帧的高音质语音数据(的预测值)。
另外,步骤S1至S4的处理将关注子帧的合成音数据的样值值分别作为关注数据而被进行。即,子帧的合成音数据根据上述由40个样值构成,所以分别就该40个样值的合成音数据进行步骤S1至S4的处理。
如上所得的高音质语音数据从预测部125通过D/A转换部30被供给至扬声器31,据此由扬声器31输出高音质的语音。
步骤S4的处理之后,进入步骤S5,判定是否还有应该作为关注子帧进行处理的子帧,若判定为有则返回步骤S1,将下一个应该作为关注子帧的子帧重新作为关注子帧,以下重复同样的处理。另外,在步骤S5若判定没有应该作为关注子帧进行处理的子帧,则结束处理。
接下来,参照图7及图8就在图5的分支生成部121的预测分支的生成方法加以说明。
分支生成部121例如如图7所示,在抽出关注子帧的40个样值的合成音数据的同时,从关注子帧抽出以配置于其关注子帧的L码所表明的延迟量的过去的位置为起点的40个样值的合成音数据(以下适当称之为延迟对应的过去数据),并作为关于关注数据的预测分支。
或者,分支生成部121例如如图8所示,在抽出关注子帧的40个样值的合成音数据的同时,抽出配置有L码所表明的延迟量的过去的位置为关注子帧内的合成音数据(例如关注数据等)的位置的L码的、从关注子帧观察为未来方向的子帧中所配置的40个样值的合成音数据(以下适当称之为延迟对应的未来数据),并作为关于关注数据的预测分支。
另外,分支生成部121例如抽出关注子帧的合成音数据、延迟对应的过去数据及延迟对应的未来数据,并作为关于关注数据的预测分支。
在此可以认为,当通过等级分类适应处理预测关注数据时,通过在关注子帧的合成音数据之外采用关注子帧以外的子帧的合成音数据作为预测分支,可以得到更高音质的语音。而且,这时可以考虑预测分支例如简单地由除关注子帧的合成音数据之外,还有关注子帧的紧前和紧后的子帧的合成音数据构成。
但是,象这样在简单地由关注子帧的合成音数据及关注子帧的紧前和紧后的子帧的合成音数据构成预测分支时,在预测分支的构成方法上几乎没有考虑合成音数据的波形特性,所以相应地将对高音质化产生影响。
因此,分支生成部121如上述将作为预测分支的合成音数据根据L码进行抽出。
即,由于配置于子帧的L码所表明的延迟(长期预测延迟)表明关注数据部分的合成音的波形与过去的哪一时点上的合成音的波形类似,所以关注数据的部分的波形与延迟对应的过去数据和延迟对应的未来数据的部分的波形有很大相关性。
因而,通过由关注子帧的合成音数据和对于该合成音数据具有很大相关的延迟对应的过去数据或延迟对应的未来数据中的一方或双方构成预测分支,可以得到更高音质的语音。
在此,在图5的分支生成部122例如也与分支生成部121的情况同样,可以从关注子帧的合成音数据和延迟对应的过去数据或延迟对应的未来数据中的一方或双方生成等级分支,在图5的实施方式中则为如此。
另外,预测分支和等级分支的构成模式并不限定于上述模式。即,在预测分支和等级分支中除了含有关注子帧的所有的合成音数据之外,还可以只含有隔一个样值等的合成音数据,或含有从配置于关注子帧的L码所表明的仅延迟量的过去的位置的子帧起,为配置于该子帧的L码所表明的仅延迟量的过去的位置的子帧的合成音数据等。
另外,在上述情况,令等级分支与预测分支为同一结构,但可以令等级分支与预测分支为不同结构。
再有,在上述情况,将配置有L码所表明的仅延迟量的过去的位置为关注子帧内的合成音数据(例如关注数据等)的位置的L码的、从关注子帧观察为未来方向的子帧中所配置的40个样值的合成音数据作为延迟对应的未来数据含有于预测分支,但作为延迟对应的未来数据也可以采用其他例如如下的合成音数据。
即,在CELP方式包含于编码数据的L码如上述表示与配置有该L码的子帧的合成音数据的波形类似的过去的合成音数据的位置,但在编码数据中,除了表示那种过去的类似波形的位置的L码,还可以含有表示未来的类似波形的位置的L码(以下适当称之为未来L码)。这时,作为关于关注数据的延迟对应的未来数据,可以采用以位于配置于关注子帧的未来L码所表明的仅延迟量的未来的位置的合成音数据为起点的1个以上的样值。
接下来,图9表示进行记忆于图5的系数存储器124的分支系数的学习处理的学习装置的一实施方式的结构例。
话筒201至码决定部215与图1的话筒1至码决定部15分别为同样结构。话筒1输入学习用的语音信号,因而在话筒201至码决定部215对该学习用的语音信号施以与图1的情况同样的处理。
但是,在L码、G码、I码及A码中,码决定部215只输出用于抽出在本实施方式中构成预测分支和等级分支的合成音数据。
然后,在平方误差最小判定部208判定平方误差为最小时的语音合成滤波器206所输出的合成音数据供给至分支生成部131和132。再有,码决定部215在从平方误差最小判定部208接收到确定信号时所输出的L码也供给至分支生成部131和132。另外,作为教师数据,A/D转换部202输出的语音数据将供给至正规方程式加法电路134。
分支生成部131根据码决定部215输出的L码从语音合成滤波器206所输出的合成音数据生成与图5的分支生成部121的情况相同的预测分支,并作为学生数据供给至正规方程式加法电路134。
分支生成部132也根据码决定部215输出的L码从语音合成滤波器206所输出的合成音数据生成与图5的分支生成部122的情况相同的等级分支,并供给到等级分类部133。
等级分类部133根据来自分支生成部132的等级分支进行与图5的等级分类部123的情况同样的等级分类,并将其结果所得的等级码供给至正规方程式加法电路134。
正规方程式加法电路134作为教师数据接收来自A/D转换部202的语音数据,同时作为学生数据接收来自分支生成部131的预测分支,并以该教师数据及学生数据为对象按来自等级分类部133的各等级码进行添加。
即,正规方程式加法电路134按对应于等级分类部133所供给的等级码的各等级,利用预测分支(学生数据)进行为式(13)的矩阵A中各成分的学生数据之间的相乘(xinxim)和相当于求和(∑)的运算。
再有,正规方程式加法电路134仍按对应于等级分类部133所供给的等级码的各等级,利用学生数据及教师数据进行为式(13)的矢量v中各成分的学生数据和教师数据的相乘(xinyi)和相当于求和(∑)的运算。
正规方程式加法电路134将供给至此的学习用语音数据的所有子帧作为关注子帧,且将其关注子帧的所有语音数据作为关注数据进行以上的添加,据此关于各等级建立式(13)所示的正规方程式。
分支系数决定电路135通过对在正规方程式加法电路134中按各等级生成的正规方程式求解,按各等级求出分支系数,并供给至系数存储器136的对应于各等级的地址。
另外,根据作为学习用的语音信号而准备的语音信号,有时会产生在正规方程式加法电路134不能得到求分支系数所需数的正规方程式的等级,但关于这种等级,分支系数决定电路135例如输出缺省的分支系数。
系数存储器136将分支系数决定电路135所供给的各等级的分支系数记忆于与该等级对应的地址。
接下来,参照图10的流程图,就在图9的学习装置进行的、求得用以对高音质的语音进行解码的分支系数的学习处理加以说明。
学习用的语音信号供给至学习装置,在步骤S11从该学习用的语音信号生成教师数据和学生数据。
即,学习用的语音信号输入至话筒201,话筒201至码决定部215进行与图1的话筒1至码决定部15的情况分别同样的处理。
其结果,在A/D转换部202所得到的数字信号的语音数据作为教师数据被供给至正规方程式加法电路134。另外,在平方误差最小判定部208判定平方误差为最小时语音合成滤波器206输出的合成音数据作为学生数据被供给至分支生成部131和132。再有,在平方误差最小判定部208判定平方误差为最小时码决定部215输出的L码也作为学生数据被供给至分支生成部131和132。
之后,进入步骤S12,分支生成部131将作为学生数据从语音合成滤波器206所供给的合成音的子帧作为关注子帧,进而将其关注子帧的合成音数据依次作为关注数据,并根据来自码决定部215的L码,利用来自语音合成滤波器206的合成音数据,与图5的分支生成部121的情况同样,关于各关注数据生成预测分支并供给至正规方程式加法电路134。再有,在步骤S12,分支生成部132仍根据L码,利用合成音数据与图5的分支生成部122的情况同样生成等级分支并供给至等级分类部133。
步骤S12的处理之后进入步骤S13,等级分类部133根据来自分支生成部132的等级分支进行等级分类,并将其结果所得的等级码供给至正规方程式加法电路134。
然后进入步骤S14,正规方程式加法电路134以来自A/D转换器202的作为教师数据的高音质的语音数据即学习用语音数据中的对应于关注数据者及来自分支生成部132的作为学生数据的预测分支为对象,按关于来自等级分类部133的关注数据的各等级码进行式(13)的矩阵A和矢量v的、如上述的添加,并进入步骤S15。
在步骤S15,首先判定是否有应该作为关注子帧进行处理的子帧。若在步骤S15判定还有应作为关注子帧进行处理的子帧时,返回步骤S11,将下一个子帧重新作为关注子帧,以下重复同样的处理。
另外,若在步骤S15判定没有应作为关注子帧进行处理的子帧时,进入步骤S16,分支系数决定电路135通过对在正规方程式加法电路134按各等级所生成的正规方程式求解,按各等级求得分支系数并供给至系数存储器136的对应于各等级的地址进行记忆,并结束处理。
如上,系数存储器136所记忆的各等级的分支系数被记忆于图5的系数存储器124。
如上,因为图5的系数存储器124所记忆的分支系数为通过进行学***方误差)在统计上变为最小而求得者,所以图5的预测部125输出的语音为高音质者。
另外,例如在图5及图9的实施方式中,由语音合成滤波器206输出的合成音数据构成了预测分支和等级分支,但如图5及图9中虚线所示,预测分支和等级分支可以含有I码和L码、G码、A码、从A码得到的线性预测系数αp、从G码得到的增益β、γ、其他从L码、G码、I码或A码所得到的信息(例如残留信号e和求得残留信号e的1,n、再有1/β、n/γ等)中的1种以上而构成。另外,在CELP方式中有时在作为编码数据的编码数据中含有列表插补比特和帧能量等,这种情况下预测分支和等级分支也可以含有软插补比特和帧能量等而构成。
接下来,图11表示图4的接收部114的第2结构例。另外,关于与图5中的情况对应的部分,在图中赋予同一代码,以下适当省略其说明。即,除了取代分支生成部121和122,图11的接收部114分别设置了分支生成部301和302之外,其与图5中的情况为同样构成。
在图5的实施方式中,在分支生成部121和122(在图9的分支生成部131和132也同样),预测分支和等级分支除了关注子帧的40个样值的合成音数据之外还由延迟对应的过去数据或延迟对应的未来数据中的一方或双方所构成,但是预测分支和等级分支中是只含有延迟对应的过去数据,还是只含有延迟对应的未来数据,或是含有其双方中的任一方,对此没有特别的控制,所以需要预先决定含有哪一方并予以固定。
但是,在含有关注子帧的帧(以下适当称之为关注帧)等例如为相当于发话开始时等的情况下,如图12A所示,可以考虑比关注帧过去的帧等为无音状态(等同于只存在杂音的状态)。同样,在关注帧例如为相当于发话结束时等的情况下,如图12B所示,可以考虑比关注帧未来的帧等为无音状态。而且,关于这种无音部分,即使包含于预测分支和等级分支也几乎无助于音质的提高,在恶劣的情况反倒会妨碍音质的提高。
另一方面,当关注帧为相当于进行发话开始时和结束时等以外的恒常发话的状态时,如图12C所示,可以考虑在关注帧的过去方向及未来方向的哪一方都存在相当于恒常语音的合成音数据。而且在这种情况下,通过不只将延迟对应的过去数据和延迟对应的未来数据中的任一方,而将其双方包含于预测分支和等级分支,可以谋求音质的进一步提高。
因此,图11的分支生成部301和302判定合成音数据的波形推移例如为图12A至图12C所示的任一种,并根据该判定结果分别生成预测分支和等级分支。
即,图13表示图11的分支生成部301的结构例。
语音合成滤波器29(图11)输出的合成音数据依次供给至合成音存储器311,合成音存储器311依次记忆该合成音数据。另外,合成音存储器311至少具有能够记忆在关于作为关注数据的合成音数据有可能作为预测分支的合成音数据中的、从最过去的样值到最未来的样值之间的合成音数据的记忆容量。另外,合成音存储器311只记忆该记忆容量的合成音数据,则将接下来所供给的合成音数据以覆盖最旧的记忆值的形式进行记忆。
信道解码器21(图11)输出的子帧单位的L码依次供给至L码存储器312,L码存储器312依次记忆该L码。另外,L码存储器312至少具有能够记忆在关于作为关注数据的合成音数据有可能作为预测分支的合成音数据中的、从配置有最过去的样值的子帧到配置有最未来的样值的子帧之间的L码的记忆容量,并只记忆该记忆容量的L码,则将接下来所供给的L码以覆盖最旧的记忆值的形式进行记忆。
帧功率计算部313用合成音存储器311所记忆的合成音数据以规定的帧单位求出该帧的合成音数据的功率并供给至缓存器314。另外,在帧功率计算部313求得功率的单位的帧可以与CELP方式中的帧和子帧一致也可以不一致。因而,在帧功率计算部313求得功率的单位的帧可以由CELP方式中构成帧的160个样值和构成子帧的40个样值以外的值例如由128个样值等构成。但是,在本实施方式中为简化说明,令在帧功率计算部313求得功率的单位的帧与CELP方式中的帧一致。
缓存器314依次记忆从帧功率计算部313所依次供给的合成音数据的功率。另外,缓存器314至少能够记忆关注帧及其紧前和紧后的帧的合计3帧的合成音数据的功率,并只记忆该记忆容量的功率,则将接下来由帧功率计算部313所供给的功率以覆盖最旧的记忆值的形式进行记忆。
状态判定部315根据缓存器314所记忆的功率判定关注数据附近的合成音数据的波形推移。即,状态判定部315判定关注数据附近的合成音数据的波形推移为如图12A所示之关注帧的紧前的帧为无音的状态(以下适当称之为升起状态)、如图12B所示之关注帧的紧后的帧为无音的状态(以下适当称之为落下状态)或如图12C所示之从关注帧的紧前至紧后为恒常的状态(以下适当称之为恒常状态)中的哪一个状态。然后,状态判定部315将该判定结果供给至数据抽出部316。
数据抽出部316通过从合成音存储器311将关注子帧的合成音数据读出进行抽出。进而,数据抽出部316根据来自状态判定部315的波形推移的判定结果并参照L码存储器312,通过从合成音存储器311将延迟对应的过去数据或延迟对应的未来数据中的一方或双方读出而进行抽出。然后,数据抽出部316将从合成音存储器311读出的关注子帧的合成音数据和延迟对应的过去数据或延迟对应的未来数据中的一方或双方作为预测分支而输出。
接下来,参照图14的流程图就图13的分支生成部301的处理加以说明。
语音合成滤波器29(图11)输出的合成音数据依次供给至合成音存储器311,合成音存储器311依次记忆该合成音数据。另外,信道解码器21(图11)输出的子帧单位的L码依次供给至L码存储器312,L码存储器312依次记忆其L码。
另一方面,帧功率计算部313将合成音存储器311所记忆的合成音数据以帧单位依次读出,并求得各帧中的合成音数据的功率,并记忆于缓存器314。
然后,状态判定部315在步骤S21从缓存器314读出关注帧的功率Pn、其紧前的帧的功率Pn-1及其紧后的帧的功率Pn+1,并计算关注帧的功率Pn与紧前的帧的功率Pn-1的差分值Pn-Pn-1,同时计算紧后的帧的功率Pn+1与关注帧的功率Pn的差分值Pn+1-Pn,然后进入步骤S22。
在步骤S22,状态判定部315判定差分值Pn-Pn-1的绝对值及差分值Pn+1-Pn的绝对值是否都大于规定的阈值ε(是否在其以上)。
在步骤S22,当判定为差分值Pn-Pn-1的绝对值或差分值Pn+1-Pn的绝对值中的至少一方不大于规定的阈值ε时,状态判定部315判定为关注数据附近的合成音数据的波形推移为如图12C所示之从关注帧的紧前至紧后为恒常的恒常状态,并将表明其旨意的“恒常状态”消息供给至数据抽出部316,然后进入步骤S23。
在步骤S23,数据抽出部316从状态判定部315接收“恒常状态”消息后从合成音存储器311读出关注子帧的合成音数据,同时再参照L码存储器312读出作为延迟对应的过去数据及延迟对应的未来数据的合成音数据。然后,数据抽出部316将这些合成音数据作为预测分支输出并结束处理。
另外,在步骤S22,当判定为差分值Pn-Pn-1的绝对值及差分值Pn+1-Pn的绝对值都大于规定的阈值ε时,进入步骤S24,状态判定部315判定差分值Pn-Pn-1和差分值Pn+1-Pn是否都为正。在步骤S24,当判定为差分值Pn-Pn-1和差分值Pn+1-Pn都为正时,状态判定部315判定为关注数据附近的合成音数据的波形推移为如图12A所示之关注帧的紧前的帧为无音状态的升起状态,并将表明其旨意的“升起状态”消息供给至数据抽出部316后进入步骤S25。
在步骤S25,数据抽出部316从状态判定部315接收“升起状态”消息后从合成音存储器311读出关注子帧的合成音数据,同时再参照L码存储器312读出作为延迟对应的未来数据的合成音数据。然后,数据抽出部316将这些合成音数据作为预测分支输出并结束处理。
另一方面,在步骤S24,当判定为差分值Pn-Pn-1和差分值Pn+1-Pn中至少一方非正时,进入步骤S26,状态判定部315判定差分值Pn-Pn-1和差分值Pn+1-Pn是否都为负。在步骤S26,当判定为差分值Pn-Pn-1和差分值Pn+1-Pn中至少一方为非负时,状态判定部315判定为关注数据附近的合成音数据的波形推移为恒常状态,并将表明其旨意的“恒常状态”消息供给至数据抽出部316后进入步骤S23。
在步骤S23,数据抽出部316如上述从合成音存储器311读出关注子帧的合成音数据和延迟对应的过去数据及延迟对应的未来数据并作为预测分支输出后结束处理。
另外,在步骤S26,当判定为差分值Pn-Pn-1和差分值Pn+1-Pn都为负时,状态判定值315判定为关注数据附近的合成音数据的波形推移为如图12B所示之关注帧的紧后的帧为无音状态的落下状态,并将表明其旨意的“落下状态”消息供给至数据抽出部316后进入步骤S27。
在步骤S27,数据抽出部316从状态判定部315接收“落下状态”消息后从合成音存储器311读出关注子帧的合成音数据,同时再参照L码存储器312读出作为延迟对应的过去数据的合成音数据。然后,数据抽出部316将这些合成音数据作为预测分支输出后结束处理。
另外,图11的分支生成部302可以与图13所示之分支生成部301为同样构成,这时,如图14中所说明,可以使其构成等级分支。但是,在图13中,合成音存储器311、L码存储器312、帧功率计算部313、缓存器314及状态判定部315可以以分支生成部301和302兼用。
另外,在上述情况为对关注帧和其紧前或紧后的帧各自的功率进行比较以判定关注数据附近的合成音数据的波形推移,但对关注数据数据附近的合成音数据的波形推移的判定也可以比较其他例如关注帧与更为过去或未来的帧各自的功率而进行。
再有,在上述情况中,将关注数据附近的合成音数据的波形推移判定为“恒常状态”、“升起状态”或“落下状态”三种状态中的任一种,但也可以判定为四种以上的状态的任一种。即,例如在图14中,在步骤S22将差分值Pn-Pn-1的绝对值及差分值Pn+1-Pn的绝对值都与1个阈值ε作比较而判定其大小关系,但可以通过将差分值Pn-Pn-1的绝对值和差分值Pn+1-Pn的绝对值与复数个阈值作比较来判定关注数据附近的合成音数据的波形推移为四种以上的状态的任一种。
而且,在如此判定关注数据附近的合成音数据的波形推移为四种以上的状态的任一种时,除了关注子帧的合成音数据和延迟对应的过去数据或延迟对应的未来数据之外,预测分支还可以含有例如在将该延迟对应的过去数据或延迟对应的未来数据作为关注数据时成为延迟对应的过去数据或延迟对应的未来数据的合成音数据等而构成。
可是,在分支生成部301,在如上生成预测分支时构成其预测分支的生成音数据的样值数将变化。这种情况关于在分支生成部302所生成的等级分支也为同样。
关于预测分支,即使构成其的数据的数(分支数)变化也没关系,因为只要在下述图16的学习装置对与其预测分支为同一数的分支系数进行学习并记忆于系数存储器124就行了。
另一方面,关于等级分支,若构成其的分支数变化,则按各分支数的各等级分支所得的总等级数将变化,所以处理恐怕复杂化。因此,理想的是进行这样的分类:即使等级分支的分支数变化,由该等级分支所得的等级数也不变化。
作为进行象这样即使等级分支的分支数变化由该等级分支所得的等级数也不变化的等级分类的方法,有在等级分类中例如考虑等级分支的结构的方法。
即,在本实施方式中,根据等级分支除了由关注子帧的合成音数据还由含有延迟对应的过去数据或延迟对应的未来数据的一方或双方而构成,等级分支的分支数将有增减。因此,例如现在等级分支由关注子帧的合成音数据和延迟对应的过去数据或延迟对应的未来数据的一方构成时,设其分支数为S个;当等级分支由关注子帧的合成音数据和延迟对应的过去数据及延迟对应的未来数据的双方构成时,设其分支数为L(>S)个。而且,设在分支数为S个时得到n比特的等级码,在分支数为L个时得到n+m比特的等级码。
这时,在作为等级码采用n+m+2比特的同时,将该n+m+2比特中的例如高位比特的2比特在等级分支含有延迟对应的过去数据的情况、含有延迟对应的未来数据的情况、含有其双方的情况的3种情况下分别设定为例如“00”、“01”、“10”,由此,不论分支数为S个和L个的哪一方,总等级数皆为2n+m+2等级的等级分类是可能的。
即,在等级分支含有延迟对应的过去数据和延迟对应的未来数据的双方且其分支数为L个时,进行得到n+m比特的等级码的等级分类,并将表示等级分支含有延迟对应的过去数据和延迟对应的未来数据的双方的“10”附加于该n+m比特的等级码且作为其高位2比特,将得到的n+m+2比特作为最终的等级码就可以了。
另外,在等级分支含有延迟对应的过去数据且其分支数为S个时,进行得到n比特的等级码的等级分类,并将m比特的“0”附加于该n比特的等级码且作为其高位比特而令其为n+m比特,再将表示等级分支含有延迟对应的过去数据的“00”附加于该n+m比特且作为高位比特,将得到的n+m+2比特作为最终的等级码就可以了。
再有,在等级分支含有延迟对应的未来数据且其分支数为S个时,进行得到n比特的等级码的等级分类,并将m比特的“0”附加于该n比特的等级码且作为其高位比特而令其为n+m比特,再将表示等级分支含有延迟对应的未来数据的“01”附加于该n+m比特且作为高位比特,将得到的n+m+2比特作为最终的等级码就可以了。
接下来,在图13的分支生成部301中,在帧功率计算部313从合成音数据计算该帧单位的功率,但根据CELP方式,将语音编码后的编码数据(编码数据)中如上述有时含有帧能量,这时可以将该帧能量用作该帧的合成音的功率。
图15表示在将帧能量用作该帧的合成音的功率时的、图11的分支生成部301的结构例。另外,关于与图13的情况对应的部分,在图中赋予同一代码。即,除了未设置帧功率计算部313之外,图15的分支生成部301与图13的情况为同样构成。
但是,供给至接收部114(图11)的编码数据(编码数据)所包含的、各帧的帧能量被供给至缓存器314,缓存器314则记忆该帧能量。然后,状态判定部315与用上述的从合成音数据所求得的帧单位的功率同样用该帧能量判定关注数据附近的合成音数据的波形推移。
在此,编码数据所包含的、各帧的帧能量在信道编码器21被从编码数据中分离并供给至分支生成部301。
另外,分支生成部302也可为如图15所示结构。
接下来,图16表示在接收部114为如图11所示结构时对该系数存储器124所记忆的分支系数进行学习的学习装置的一实施方式的结构例。另外,关于与图9的情况对应的部分,在图中赋予同一代码,以下适当省略其说明。即,除了取代分支生成部131和132而分别设置了分支生成部321和322之外,图16的学习装置与图9的情况为同样构成。
分支生成部321和322与图11的分支生成部301和302的情况分别同样地构成预测分支和等级分支。
因而,这种情况下可以得到能够解码更高音质的语音的分支系数。
另外,在学习装置中,在生成预测分支和等级分支时如图15中说明用各帧的帧能量进行关注数据附近的合成音数据的波形推移的判定时,可以用LPC分析部204的LPC分析过程所得的自相关系数计算该帧能量。
因此,图17表示根据自相关系数求帧能量时的图16的分支生成部321的结构例。另外,关于与图13的分支生成部301的情况对应的部分,在图中赋予同一代码,以下适当省略其说明。即,除了取代帧功率计算部313而设置帧能量计算部331之外,图17的分支生成部321与图13的分支生成部301为同样构成。
图16的LPC分析部204进行LPC分析的过程所求出的语音的自相关系数供给至帧能量计算部331,帧能量计算部331根据该自相关系数计算编码数据(编码数据)所包含的帧能量并供给至缓存器314。
因而,在图17的实施方式中,状态判定部315与用上述从合成音数据所求出的帧单位的功率同样用该帧能量判定关注数据附近的合成音数据的波形推移。
另外,图16的生成等级分支的分支生成部322也可为如图17所示构成。
接下来,图18表示图4的接收部114的第3结构例。另外,关于与图5或图11的情况对应的部分,在图中赋予同一代码而适当省略其说明。
图5和图11的接收部114通过对语音合成滤波器29输出的合成音数据施以等级分类适应处理解码出高音质的语音,但图18的接收部114通过对输入至语音合成滤波器29的残留信号(解码残留信号)和线性预测系数(解码线性预测系数)施以等级分类适应处理解码出高音质的语音。
即,在自适应码簿记忆部22、增益解码器23、激励码簿记忆部24及运算器26至28从L码、G码及I码解码的作为残留信号的解码残留信号和在滤波系数解码器25从A码解码的作为线性预测系数的解码线性预测系数如上述其为含有误差者,若将其原样输入至语音合成滤波器29,从语音合成滤波器29所输出的合成音数据的音质将劣化。
因此,在图18的接收部114中,将通过进行采用了通过学习求得的分支系数的预测运算求出真实的残留信号和线性预测系数的预测值,并将其提供给语音合成滤波器29而生成高音质的合成音。
即,在图18的接收部114中,例如利用等级分类适应处理将解码残留信号解码为真实的残留信号(的预测值),同时将解码线性预测系数解码为真实的线性预测系数(的预测值),并通过将该残留信号和线性预测系数提供给语音合成滤波器29求出高音质的合成音数据。
因此,运算器28输出的解码残留信号供给至分支生成部341和342。另外,信道解码器21输出的L码也供给至分支生成部341和342。
然后,与图5的分支生成部121和图11的分支生成部301同样,分支生成部341根据L码从供给至此的解码残留信号抽出作为预测分支的样值并供给至预测部345。
与图5的分支生成部122和图11的分支生成部302同样,分支生成部342也根据L码从供给至此的解码残留信号抽出作为等级分支的样值并供给至等级分类部343。
等级分类部343根据分支生成部342所供给的等级分支进行等级分类,并将作为其等级分类结果的等级码供给至系数存储器344。
系数存储器344对通过下述图21的学习装置中的学习处理所得的、关于各等级的残留信号的分支系数W(e)进行记忆,并将记忆于与等级分类部343所输出的等级码相对应的地址的分支系数供给至预测部345。
预测部345取得分支生成部341输出的预测分支和系数存储器344输出的关于残留信号的分支系数,并用其预测分支和分支系数进行式(6)所示的线性预测运算。据此,预测部345求出关注子帧的残留信号(的预测值)em并作为输入信号供给至语音合成滤波器29。
滤波系数解码器25输出的、各子帧的解码线性预测系数αp’被供给至分支生成部351和352,分支生成部351和352从该解码线性预测系数分别抽出作为预想分支和等级分支者。在此,分支生成部351和352例如将关注子帧的线性预测系数全部分别作为预测分支和等级分支。预测分支由分支生成部351供给至预测部355,等级分支由分支生成部352提供至等级分类部353。
等级分类部353根据分支生成部352所供给的等级分支进行等级分类,并将作为其等级分类结果的等级码供给至系数存储器354。
系数存储器354对通过下述图21的学习装置中的学习处理所得的、关于各等级的线性预测系数的分支系数W(a)进行记忆,并将记忆于与等级分类部353所输出的等级码相对应的地址的分支系数供给至预测部355。
预测部355取得分支生成部351输出的预测分支和系数存储器354输出的关于线性预测系数的分支系数,并用其预测分支和分支系数进行式(6)所示的线性预测运算。据此,预测部355求出关注子帧的线性预测系数(的预测值)mαp并供给至语音合成滤波器29。
接下来,参照图19的流程图,就图18的接收部114的处理加以说明。
信道解码器21从供给至此的编码数据分离出L码、G码、I码、A码并将其分别供给至自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、滤波系数解器25。再有,L码也供给至分支生成部341和342。
然后,在自适应码簿记忆部22、增益解码器23、激励码簿记忆部24、运算器26至28进行与图1的自适应码簿记忆部9、增益解码器10、激励码簿记忆部11、运算器12至14的情况同样的处理,据此,L码、G码及I码被解码为残留信号e。该解码残留信号由运算器28供给至分支生成部341和342。
再有,滤波系数解码器25如图2所说明将供给至此的A码解码为解码线性预测系数并供给至分支生成部351和352。
然后,在步骤S31生成预测分支和等级分支。
即,分支生成部341将供给至此的解码残留信号的子帧依次作为关注子帧,再将其关注子帧的解码残留信号的样值依次作为关注数据,并在抽出关注子帧的解码残留信号的同时,根据信道解码器21输出的配置于关注子帧的L码等抽出关注子帧以外的解码残留信号,即,其抽出以配置于关注子帧的L码所表明的延迟量的过去的位置为起点的40个样值的解码残留信号(以下也适当称之为延迟对应的过去数据)或配置有L码所表明的延迟量的过去的位置为关注数据的位置的L码的、配置于从关注子帧观察为未来方向的子帧的40个样值的解码残留信号(以下也适当称之为延迟对应的未来数据)并生成预测分支。分支生成部342也与分支生成部341同样生成等级分支。
再有,在步骤S31,分支生成部351和352将滤波系数解码器35输出的关注子帧的解码线性预测系数分别作为预测分支和等级分支抽出。
然后,分支生成部341所得出的预测分支供给至预测部345,分支生成部342所得出的等级分支供给至等级分类部343,分支生成部351所得出的预测分支供给至预测部355,分支生成部352所得出的等级分支供给至等级分类部353。
然后进入步骤S32,等级分类部343根据分支生成部342所供给的等级分支进行等级分类并将其结果所得的等级码供给至系数存储器344,同时等级分类部353根据分支生成部352所供给的等级分支进行等级分类并将其结果所得的等级码供给至系数存储器354,然后进入步骤S33。
在步骤S33,系数存储器344从与等级分类部343所供给的等级码相对应的地址读出关于残留信号的分支系数并供给至预测部345,同时系数存储器354从与等级分类部343所供给的等级码相对应的地址读出关于线性预测系数的分支系数并供给至预测部355。
然后进入步骤S34,预测部345取得系数存储器344输出的关于残留信号的分支系数并用其分支系数和来自分支生成部341的预测分支进行式(6)所示的积和运算,并得到关注子帧的真实的残留信号(的预测值)。再有,在步骤S34,预测部355取得系数存储器344输出的关于线性预测系数的分支系数并用其分支系数和来自分支生成部351的预测分支进行式(6)所示的积和运算,并得到关注子帧的真实的线性预测系数(的预测值)。
如上所得的残留信号及线性预测系数被供给至语音合成滤波器29,在语音合成滤波器29中通过用该残留信号及线性预测系数进行式(4)的运算生成与关注子帧的关注数据对应的合成音数据。通过D/A转换部30,该合成音数据从语音合成滤波器29供给至扬声器31,据此,从扬声器31输出与该合成音数据对应的合成音。
在预测部345和355分别得到残留信号和线性预测系数之后进入步骤S35,判定是否还有应作为关注子帧进行处理的子帧的L码、G码、I码及A码。在步骤S35,若判定还有应作为关注子帧进行处理的帧的L码、G码、I码及A码则返回步骤S31,将接下来应作为关注子帧的子帧重新作为关注子帧,以下重复同样处理。另外,在步骤S35若判定没有应作为关注子帧进行处理的帧的L码、G码、I码及A码则结束处理。
接下来,在图18的分支生成部341(关于生成等级分支的分支生成部342也同样),预测分支由关注子帧的解码残留信号和延迟对应的过去数据或延迟对应的未来数据中的一方或双方构成,但该构成可为固定也可根据残留信号的波形推移而为可变。
图20表示根据残留信号的波形推移令预测分支的构成为可变时的分支生成部341的结构例。另外,关于与图13的情况对应的部分,在图中赋予同一代码,以下适当省略其说明。即,除了取代合成音存储器311和帧功率计算部313而设置残留信号存储器361和帧功率计算部363之外,图20的分支生成部341与图13的分支生成部301为同样构成。
运算器28(图18)输出的解码残留信号依次供给至残留信号存储器361,残留信号存储器361依次记忆该解码残留信号。另外,残留信号存储器361至少具有能够记忆关于关注数据有可能作为预测分支的解码残留信号中的、从最过去的样值到最未来的样值之间的解码残留信号的记忆容量。另外,残留信号存储器361只记忆该记忆容量的解码残留信号,则将接下来所供给的解码残留信号的样值以覆盖最旧的记忆值的形式进行记忆。
帧功率计算部363用残留信号存储器361所记忆的残留信号以规定的帧单位求出该帧的残留信号的功率并供给至缓存器314。另外,在帧功率计算部363求得功率的单位的帧与图13的帧功率计算部313的情况同样,可以与CELP方式中的帧和子帧一致也可以不一致。
在图20的分支生成部341,不是求合成音数据的功率,而是求解码残留信号的功率,并根据该功率判定残留信号的波形推移例如为如图12中说明的升起状态、落下状态、恒常状态中的哪一种。然后,根据该判定结果,除了抽出关注子帧的解码残留信号之外,还抽出延迟对应的过去数据或延迟对应的未来数据中的一方或双方并生成预测分支。
另外,图18的分支生成部342也可与图20所示分支生成部341同样地构成。
另外,在图18的实施方式中只关于解码残留信号根据L码生成预测分支和等级分支,但关于解码线性预测系数也可根据L码抽出关注子帧以外的解码线性预测系数并生成预测分支和等级分支。这时,如图18中虚线所示,只要将信道解码器21输出的L码供给至分支生成部351和352就可以了。
再有,在上述情况,当从合成音数据生成预测分支和等级分支时,求出合成音数据的功率并根据该功率判定合成音数据的波形推移,另外当从解码残留信号生成时,求出解码残留信号的功率并根据该功率判定合成音数据的波形推移,但是合成音数据的波形推移可以根据残留信号的功率进行判定,同样,残留信号的波形推移可以根据合成音数据的功率进行判定。
接下来,图21表示进行图18的系数存储器344和354所记忆的分支系数的学习处理的学习装置的一实施方式的结构例。另外,关于与图16的情况对应的部分,在图中赋予同一代码,以下适当省略其说明。
A/D转换部202输出的作为数字信号的学习用的语音信号和LPC分析部204输出的线性预测系数供给至预测滤波器370。另外,运算器214输出的解码残留信号(与供给至语音合成滤波器206者相同的残留信号)及码决定部215输出的L码供给至分支生成部371和372;矢量量子化部205输出的解码线性预测系数(构成用于矢量量子化的码簿的编码矢量(质心矢量)的线性预测系数)供给至分支生成部381和382。再有,LPC分析部204输出的线性预测系数供给至正规方程式加法电路384。
预测滤波器370将A/D转换部202所供给的学习用语音信号的子帧依次作为关注子帧并用其关注子帧的语音信号和LPC分析部204所供给的线性预测系数例如通过进行依照式(1)的运算求出关注帧的残留信号。该残留信号作为教师数据供给至正规方程式加法电路374。
分支生成部371根据码决定部215输出的L码用运算器214所供给的解码残留信号生成与图18的分支生成部341的情况相同的预测分支并供给至正规方程式加法电路374。分支生成部372也根据码决定部215输出的L码用运算器214所供给的解码残留信号生成与图18的分支生成部342的情况相同的等级分支并供给至等级分类部373。
等级分类部373根据分支生成部371所供给的等级分支进行与图18的等级分类部343的情况同样的等级分类,并将其结果所得的等级码供给至正规方程式加法电路374。
正规方程式加法电路374在作为教师数据接收来自预测滤波器370的关注子帧的残留信号的同时,作为学生数据接收来自分支生成部371的预测分支,并以该教师数据及学生数据为对象按来自等级分类部373的各等级码进行与图9和图16的正规方程式加法电路134的情况同样的添加,由此关于各等级建立关于残留信号的式(13)所示的正规方程式。
分支系数决定电路375通过对在正规方程式加法电路374按各等级生成的正规方程式分别求解,按各等级分别求出关于残留信号的分支系数并分别供给至系数存储器376的与各等级对应的地址。
系数存储器376记忆分支系数决定电路375所供给的关于各等级的残留信号的分支系数。
分支生成部381用矢量量子化部205所供给的成为编码矢量的要素的线性预测系数即解码线性预测系数生成与图18的分支生成部351的情况相同的预测分支并供给至正规方程式加法电路384。分支生成部382也用矢量量子化部205所供给的解码线性预测系数生成与图18的分支生成部352的情况相同的等级分支并供给至等级分类部383。
另外,在图18的实施方式中,关于解码线性预测系数,根据L码抽出关注子帧以外的解码线性预测系数而生成预测分支和等级分支,这时在图21的分支生成部381和382也同样有必要生成预测分支和等级分支,这时,如图21的虚线所示将码决定部215输出的L码供给至分支生成部381和382。
等级分类部383与图18的等级分类部353的情况同样,根据来自分支生成部382的等级分支进行等级分类并将其结果所得的等级码供给至正规方程式加法电路384。
正规方程式加法电路384在作为教师数据接收来自LPC分析部204的关注子帧的线性预测系数的同时,作为学生数据接收来自分支生成部381的预测分支,并以该教师数据及学生数据为对象按来自等级分类部383的各等级码进行与图9和图16的正规方程式加法电路134的情况同样的添加,由此关于各等级建立关于线性预测系数的式(13)所示的正规方程式。
分支系数决定电路385通过对在正规方程式加法电路384按各等级生成的正规方程式求解,按各等级分别求出关于线性预测系数的分支系数并供给至系数存储器386的与各等级对应的地址。
系数存储器386记忆分支系数决定电路385所供给的关于各等级的线性预测系数的分支系数。
另外,根据作为学习用的语音信号而准备的语音信号,有时会产生在正规方程式加法电路374和378不能得到求分支系数所需数的正规方程式的等级,但关于这种等级,分支系数决定电路375和385例如输出缺省的分支系数。
接下来,参照图22的流程图就图21的学习装置进行的求得分别关于残留信号和线性预测系数的分支系数的学习处理加以说明。
学习用的语音信号供给至学习装置,在步骤S41,从该学习用的语音信号生成教师数据和学生数据。
即,学习用的语音信号输入至话筒201,话筒201至码决定部215进行与图1的话筒1至码决定部15的情况分别同样的处理。
其结果,在LPC分析部204所得到的线性预测系数作为教师数据供给至正规方程式加法电路384。另外,该线性预测系数也供给至预测滤波器370。再有,在运算器214所得到的解码残留信号作为学生数据供给至分支生成部371及372。
另外,A/D转换部202输出的数字语音信号供给至预测滤波器370,矢量量子化部205输出的解码线性预测系数作为学生数据供给至分支生成部381及382。再有,码决定部215将从平方误差最小判定部208接收到确定信号时的、来自平方误差最小判定部208的L码供给至分支生成部371及372。
然后,预测滤波器370通过将A/D转换部202所供给的学习用语音信号的子帧依次作为关注子帧并用其关注子帧的语音信号和LPC分析部204所供给的线性预测系数(从关注子帧的语音信号求得的线性预测系数)进行依照式(1)的运算求出关注子帧的残留信号。在该预测滤波器370所得到的残留信号作为教师数据供给至正规方程式加法电路374。
如上所述,得到教师数据和学生数据之后,进入步骤S42,分支生成部371和372用运算器214所供给的解码残留信号根据来自码决定部215的L码分别生成关于残留信号的预测分支和等级分支。即,分支生成部371和372从来自运算器214的关注子帧的解码残留信号和延迟对应的过去数据或延迟对应的未来数据分别生成关于残留信号的预测分支和等级分支。
再有,在步骤S42,分支生成部381和382从矢量量子化部205所供给的关注子帧的线性预测系数生成关于线性预测系数的预测分支和等级分支。
然后,关于残留信号的预测分支从分支生成部371供给至正规方程式加法电路374,关于残留信号的等级分支从分支生成部372供给至等级分类部373。另外,关于线性预测系数的预测分支从分支生成部381供给至正规方程式加法电路384,关于线性预测系数的等级分支从分支生成部382供给至等级分类电路383。
之后,在步骤S43,等级分类部373和383根据供给至此的等级分支进行等级分类并将其结果所得的等级码分别供给至正规方程式加法电路384和374。
然后,进入步骤S44,正规方程式加法电路374以来自预测滤波器370的作为教师数据的关注子帧的残留信号及来自分支生成部371的作为学生数据的预测分支为对象,按来自等级分类部373的各等级码进行式(13)的矩阵A和矢量V的上述添加。再有,在步骤S44,正规方程式加法电路384以来自LPC分析部204的作为教师数据的关注子帧的线性预测系数及来自分支生成部381的作为学生数据的预测分支为对象,按来自等级分类部383的各等级码进行式(13)的矩阵A和矢量V的上述添加,进入步骤S45。
在步骤S45,判定是否还有应作为关注子帧进行处理的帧的学习用语音信号。在步骤S45,若判定还有应作为关注子帧进行处理的子帧的学习用语音信号则返回步骤S41,将接下来的子帧重新作为关注子帧,以下重复同样的处理。
另外,在步骤S45,若判定没有应作为关注子帧进行处理的子帧的学习用语音信号则进入步骤S46,分支系数决定电路375通过对按各等级生成的正规方程式求解,按各等级求出关于残留信号的分支系数并供给至系数存储器376的与各等级对应的地址进行记忆。再有,分支系数决定电路385也通过对按各等级生成的正规方程式求解,按各等级求出关于线性预测系数的分支系数并供给至系数存储器386的与各等级对应的地址进行记忆并结束处理。
如上述,系数存储器376所记忆的关于各等级的残留信号的分支系数被记忆于图18的系数存储器344,系数存储器386所记忆的关于各等级的线性预测系数的分支系数被记忆于图18的系数存储器354。
因而,因为图18的系数存储器344和354所记忆的分支系数分别为通过进行学***方误差)在统计上变为最小而求得者,所以图18的预测部345和355输出的残留信号和线性预测系数为分别与真实的残留信号和线性预测系数大体一致,其结果,根据该残留信号和线性预测系数生成的合成音为失真少、高音质者。
接下来,上述一系列处理可以通过硬件进行,也可以通过软件进行。在通过软件进行一系列的处理时,构成该软件的程序将被安装于通用的计算机等。
因此,图23表示安装有执行上述一系列处理的程序的计算机的一实施方式的结构例。
程序可以预先记录在内置于计算机的作为记录载体的硬盘405和ROM403中。
或者,还可以将程序暂时或永久地存放(记录)于软盘、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)盘、DVD(Digital Versatile Disc)、磁盘、半导体存储器等可移动的记录载体411。这种可移动的记录载体411可以作为所谓的软件包提供。
另外,除了从上述可移动的记录载体411将程序安装于计算机之外,还可以通过数字卫星广播用的人造卫星从下载站点无线传送给计算机或者通过LAN(Local Area Network)、因特网这些网络有线传送给计算机,在计算机中以通信部408接收如此传送到的程序并安装于内置的硬盘405。
计算机内置有CUP(CENTRAL Processing Unit)402。输入输出接口410通过总线401连接于CUP402,当用户通过对由键盘、鼠标、话筒等构成的输入部407的操作等并通过输入输出接口410输入指令时,CPU402按该指令执行存放于ROM(Read Only Memory)403中的程序。或者,CPU402将存放于硬盘405的程序、从卫星或网络传送并由通信部408接收后安装于硬盘405的程序、或从装载于驱动器409的可移动的记录载体411读出后安装于硬盘405的程序载入RAM(Random Access Memory)404后执行。据此,CPU402进行依照上述流程的处理或由上述框图的结构所进行的处理。然后,CPU402根据需要将该处理结果例如通过输入输出接口410从由LCD(Liquid CrystalDisplay)和扬声器等构成的输出部406输出或从通信部408发送亦或记录于硬盘405等。
在此,在本说明书中,对用以使计算机执行各种处理的程序进行描述的处理步骤也包括不一定需要按作为流程所记载的顺序进行时间序列处理而并列或个别地执行的处理(例如并列处理或对象处理)。
另外,程序可以由一台计算机进行处理也可以由复数台计算机进行分散处理。再有,也可以将程序传送给远方的计算机以执行。
另外,在本实施方式中没有特别提及关于作为学习用的语音信号用何种信号,但作为学习用的语音信号除了人类讲话的语音,还可以采用例如乐曲(音乐)等。而且,依据上述学习处理,作为学习用的语音信号在用人类的讲话时将得到提高这种人类讲话的语音的音质的分支系数,在用乐曲时将得到提高乐曲的音质的分支系数。
另外,令系数存储器124等预先记忆了分支系数,但记忆于系数存储器124等的分支系数可以在便携式电话机101中从图3的基站102(或交换站103)和图中未示的WWW(World Wide Web)服务器等下载。即,如上述,分支系数可以通过学习得到象人类讲话用和乐曲用等适于某种语音信号者。再有,根据用于学习的教师数据及学生数据可以得到在合成音的音质上产生差别的分支系数。因而,可以将这样的各种分支系数记忆于基站102等,使用户下载自己所需的分支系数。而且,这样的分支系数的下载服务可以免费进行也可以收费进行。再有,当收费进行分支系数的下载服务时,作为对于下载分支系数的报酬的费用例如可以与便携式电话机101的通话费等一同索取。
另外,系数存储器124等可以由可拆装于便携式电话机101的存储卡等构成。这时,若提供分别记忆有上述各种分支系数的不同的存储卡,用户可以根据情况将记忆有所需分支系数的存储卡装载于便携式电话机101而进行使用。
再有,本发明可以广泛应用于例如从依据VSELP(Vector SumExcited Prediction)、PSI-CELP(Pitch Synchronous InnovationCELP)、CS-ACELP(Conjugate Structure Algebraic CELP)等的CELP方式进行编码化的结果所得编码生成合成音的情况。
另外,本发明不局限于从依据CELP方式进行编码化的结果所得的编码生成合成音的情况,还可广泛应用于从某种编码得出残留信号和线性预测系数而生成合成音的情况。
再有,本发明不局限于语音,例如还可应用于图像等。即,本发明可以广泛应用利用L码这样表示周期的周期信息所处理的数据。
另外,在本实施方式中,通过利用了分支系数的线性一次预测运算来求出高音质的语音和残留信号、线性预测系数的预测值,但该预测值也可通过其他二次以上的高次预测运算求得。
再有,在本实施方式中,将分支系数本身记忆于系数存储器124等,但可以将其他例如作为将成为可无级调整的(可模拟式变化的)分支系数源(种)的信息的系数种记忆于系数存储器124等,并根据用户的操作从该系数种生成可得到用户所需音质的语音的分支系数。
产业利用的可行性
根据本发明第1种数据处理装置及数据处理方法以及程序及记录载体,通过关于规定数据中的正在关注的关注数据,根据周期信息抽出规定数据以生成用于规定处理的分支,并用其分支关于关注数据进行规定的处理。因而,例如可以进行质量良好的数据的解码等。
根据本发明第2种数据处理装置及数据处理方法以及程序及记录载体,作为成为学习的学生的学生数据,从成为学习的教师的教师数据生成规定数据和周期信息。然后,通过关于作为学生数据的规定数据中的正在关注的关注数据根据周期信息抽出规定数据而生成用于预测教师数据的预测分支,并进行学习以使通过利用预测分支和分支系数进行规定的预测运算所得到的教师数据的预测值的预测误差在统计上变为最小,并求出分支系数。因而,例如可以得到用以得到质量良好的数据的分支系数。

Claims (28)

1.一种对语音数据和表示周期的周期信息进行处理的数据处理装置,其特征为:具备
将根据利用了高品质语音数据的学习求出的预测系数进行输出的预测系数输出单元;
通过关于所述语音数据中的正在关注的关注语音数据,根据所述周期信息从所述语音数据抽出样本来输出所述语音数据的样本值的样本值输出单元;
通过用所述样本值和所述预测系数进行预测运算,求出在所述学习中使用的与所述高品质语音数据对应的预测值的处理单元。
2.权利要求1中记载的数据处理装置,其特征为:
所述处理单元通过用所述样本值和所述预测系数进行线性一次预测运算来求出所述预测值。
3.权利要求1中记载的数据处理装置,其特征为:
所述样本值输出单元还输出用以进行对所述关注语音数据区分等级的等级分类的等级用样本值,
所述处理单元根据所述等级用样本值进一步对所述关注语音数据进行等级分类。
4.权利要求3中记载的数据处理装置,其特征为:
所述处理单元通过用等级分类的结果所得的与等级对应的所述预测系数和所述样本值进行所述预测运算来求出所述预测值。
5.权利要求1中记载的数据处理装置,其特征为:
所述语音数据和所述周期信息是从对语音进行编码后的编码数据得到的。
6.权利要求5中记载的数据处理装置,其特征为:
所述编码数据由CELP(Code Excited Liner Prediction coding)方式将语音进行编码。
7.权利要求6中记载的数据处理装置,其特征为:
所述周期信息为以CELP方式所规定的长期预测延迟。
8.权利要求5中记载的数据处理装置,其特征为:
所述语音数据为将所述编码数据解码后的解码语音数据。
9.权利要求5中记载的数据处理装置,其特征为:
所述语音数据为用以将所述编码数据解码为语音数据的残留信号。
10.权利要求1中记载的数据处理装置,其特征为:
所述语音数据为时间序列的数据,
所述样本值输出单元通过从所述关注语音数据抽出相隔与所述周期信息对应的时间的位置的所述语音数据来输出所述样本值。
11.权利要求10中记载的数据处理装置,其特征为:
所述样本值输出单元通过从所述关注语音数据抽出在过去方向或未来方向相隔与所述周期信息对应的时间的位置的所述语音数据中的一方或双方来输出所述样本值。
12.权利要求11中记载的数据处理装置,其特征为:
还具备:
对所述语音数据的波形推移进行判定的判定单元;
所述样本值输出单元根据所述判定单元的判定结果抽出在过去方向或未来方向相隔与所述周期信息对应的时间的位置的所述语音数据中的一方或双方。
13.权利要求12中记载的数据处理装置,其特征为:
所述判定单元根据所述语音数据的功率判定其波形推移。
14.一种对语音数据和表示周期的周期信息进行处理的数据处理方法,其特征为:具备
将根据利用了高品质语音数据的学习求出的预测系数进行输出的预测系数输出步骤;
通过关于所述语音数据中的正在关注的关注语音数据,根据所述周期信息从所述语音数据抽出样本来输出所述语音数据的样本值的所述语音数据的样本值的样本值输出步骤;
通过用所述样本值和所述预测系数进行预测运算,求出在所述学习中使用的与所述高品质语音数据对应的预测值的处理步骤。
15.一种对被用以处理语音数据和表示周期的周期信息的预测系数进行学习的数据处理装置,其特征为:具备
从学习用的高品质语音数据,生成作为学习数据的所述语音数据和所述周期信息的学习数据生成单元;
通过关于作为所述学习数据的语音数据中的正在关注的关注语音数据,根据所述周期信息抽出所述语音数据的样本来输出用以预测所述学习用的高品质语音的预测样本值的预测样本值输出单元;
为使通过用所述预测样本值和预测系数进行预测运算所得到的所述学习用的高品质语音的预测值的预测误差在统计上变为最小而进行学习,求出所述预测系数的学习单元。
16.权利要求15中记载的数据处理装置,其特征为:
所述学习单元为使通过用所述预测样本值和所述预测系数进行线性一次预测运算所得到的所述学习用的高品质语音的预测值的预测误差在统计上变为最小而进行学习。
17.权利要求15中记载的数据处理装置,其特征为:
还具备:
从作为所述学习数据的语音数据输出用以进行对所述关注语音数据区分等级的等级分类的等级用样本值的等级用样本值输出单元;
根据所述等级用样本值对所述关注语音数据进行等级分类的等级分类单元,
所述学习单元按所述等级分类单元的等级分类结果所得到的各等级求出所述预测系数。
18.权利要求17中记载的数据处理装置,其特征为:
所述等级用样本值输出单元通过关于所述关注语音数据根据所述周期信息抽出所述语音数据的样本来输出所述等级用样本值。
19.权利要求15中记载的数据处理装置,其特征为:
所述语音数据和所述周期信息是从将所述学习用的高品质语音进行编码后的编码数据得到的。
20.权利要求19中记载的数据处理装置,其特征为:
所述编码数据由CELP(Code Excited Liner Prediction coding)方式将语音数据编码。
21.权利要求20中记载的数据处理装置,其特征为:
所述周期信息为以CELP方式所规定的长期预测延迟。
22.权利要求19中记载的数据处理装置,其特征为:
所述语音数据为将所述编码数据解码后的解码语音数据。
23.权利要求19中记载的数据处理装置,其特征为:
所述语音数据为用以将所述编码数据解码为语音数据的残留信号。
24.权利要求15中记载的数据处理装置,其特征为:
所述语音数据为时间序列的数据,
所述预测样本值输出单元通过从所述关注语音数据抽出相隔与所述周期信息对应的时间的位置的所述语音数据的样本来输出所述预测样本值。
25.权利要求24中记载的数据处理装置,其特征为:
所述预测样本值输出单元通过从所述关注语音数据抽出在过去方向或未来方向相隔与所述周期信息对应的时间的位置的所述语音数据的样本中的一方或双方来生成所述预测样本值。
26.权利要求25中记载的数据处理装置,其特征为:
还具备:
对所述语音数据的波形推移进行判定的判定单元,
所述预测样本值输出单元根据所述判定单元的判定结果抽出在过去方向或未来方向相隔与所述周期信息对应的时间的位置的所述语音数据的样本中的一方或双方。
27.权利要求26中记载的数据处理装置,其特征为:
所述判定单元根据所述语音数据的功率判定其波形推移。
28.一种对被用以处理语音数据和表示周期的周期信息的预测系数进行学习的数据处理方法,其特征为:具备
从学习用的高品质语音,生成作为学习数据的所述语音数据和所述周期信息的学习数据生成步骤;
通过关于作为所述学习数据的语音数据中的正在关注的关注语音数据,根据所述周期信息抽出所述语音数据的样本来输出用以预测所述学习用的高品质语音的预测样本值的预测样本值输出步骤;
为使通过用所述预测样本值和预测系数进行预测运算所得到的所述学习用的高品质语音的预测值的预测误差在统计上变为最小而进行学习,求出所述预测系数的学习步骤。
CN028007395A 2001-01-25 2002-01-24 数据处理装置 Expired - Fee Related CN1216367C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP16870/2001 2001-01-25
JP2001016870A JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
CN1459093A CN1459093A (zh) 2003-11-26
CN1216367C true CN1216367C (zh) 2005-08-24

Family

ID=18883165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN028007395A Expired - Fee Related CN1216367C (zh) 2001-01-25 2002-01-24 数据处理装置

Country Status (7)

Country Link
US (1) US7269559B2 (zh)
EP (1) EP1355297B1 (zh)
JP (1) JP4857468B2 (zh)
KR (1) KR100875784B1 (zh)
CN (1) CN1216367C (zh)
DE (1) DE60222627T2 (zh)
WO (1) WO2002059877A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1308927B9 (en) * 2000-08-09 2009-02-25 Sony Corporation Voice data processing device and processing method
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
WO2003077425A1 (fr) * 2002-03-08 2003-09-18 Nippon Telegraph And Telephone Corporation Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
WO2008114075A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation An encoder
JP5084360B2 (ja) * 2007-06-13 2012-11-28 三菱電機株式会社 音声符号化装置及び音声復号装置
CN101604526B (zh) * 2009-07-07 2011-11-16 武汉大学 基于权重的音频关注度计算***和方法
US9308618B2 (en) * 2012-04-26 2016-04-12 Applied Materials, Inc. Linear prediction for filtering of data during in-situ monitoring of polishing

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
JPS63214032A (ja) 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
DK0450064T4 (da) 1989-09-01 2006-09-04 Motorola Inc Digital talekoder med forbedret langtidsforudsigter med subsampleoplösning
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
JP3102015B2 (ja) 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
JP3077944B2 (ja) 1990-11-28 2000-08-21 シャープ株式会社 信号再生装置
JP3077943B2 (ja) 1990-11-29 2000-08-21 シャープ株式会社 信号符号化装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JP2800599B2 (ja) 1992-10-15 1998-09-21 日本電気株式会社 基本周期符号化装置
CA2102080C (en) 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
CA2135629C (en) * 1993-03-26 2000-02-08 Ira A. Gerson Multi-segment vector quantizer for a speech coder suitable for use in a radiotelephone
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
JP3435310B2 (ja) 1997-06-12 2003-08-11 株式会社東芝 音声符号化方法および装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3095133B2 (ja) * 1997-02-25 2000-10-03 日本電信電話株式会社 音響信号符号化方法
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
EP1308927B9 (en) 2000-08-09 2009-02-25 Sony Corporation Voice data processing device and processing method

Also Published As

Publication number Publication date
DE60222627D1 (de) 2007-11-08
US7269559B2 (en) 2007-09-11
EP1355297B1 (en) 2007-09-26
EP1355297A4 (en) 2005-09-07
KR100875784B1 (ko) 2008-12-26
JP4857468B2 (ja) 2012-01-18
EP1355297A1 (en) 2003-10-22
WO2002059877A1 (fr) 2002-08-01
CN1459093A (zh) 2003-11-26
DE60222627T2 (de) 2008-07-17
US20030163317A1 (en) 2003-08-28
JP2002222000A (ja) 2002-08-09
KR20020088088A (ko) 2002-11-25

Similar Documents

Publication Publication Date Title
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1245706C (zh) 多模式语音编码器
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1167047C (zh) 声源矢量生成装置及方法
CN1205603C (zh) 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备
CN1163870C (zh) 声音编码装置和方法,声音译码装置,以及声音译码方法
CN1242380C (zh) 利用原型波形的周期性语音编码
CN100346392C (zh) 编码设备、解码设备、编码方法和解码方法
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1338096A (zh) 用于分析-合成celp型语音编码的自适应窗
CN1248195C (zh) 语音编码转换方法和装置
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN1216367C (zh) 数据处理装置
CN1842702A (zh) 声音合成装置和声音合成方法
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1302457C (zh) 信号处理***、信号处理设备和方法
CN1271216A (zh) 语音声音通信***
CN1669071A (zh) 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质
CN1898724A (zh) 语音/乐音编码设备及语音/乐音编码方法
CN1679084A (zh) 发送设备和发送方法、接收设备和接收方法、收发器设备、通信设备和方法、记录媒体、和程序
CN1465149A (zh) 发送设备及方法、接收设备及方法和发送/接收设备
CN1708908A (zh) 数字信号处理方法、处理器、程序及存储了该程序的记录介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050824

Termination date: 20140124