JPH096397A - 音声信号の再生方法、再生装置及び伝送方法 - Google Patents

音声信号の再生方法、再生装置及び伝送方法

Info

Publication number
JPH096397A
JPH096397A JP7153723A JP15372395A JPH096397A JP H096397 A JPH096397 A JP H096397A JP 7153723 A JP7153723 A JP 7153723A JP 15372395 A JP15372395 A JP 15372395A JP H096397 A JPH096397 A JP H096397A
Authority
JP
Japan
Prior art keywords
parameter
audio signal
encoding
coding parameter
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7153723A
Other languages
English (en)
Other versions
JP3747492B2 (ja
Inventor
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP15372395A priority Critical patent/JP3747492B2/ja
Priority to US08/664,512 priority patent/US5926788A/en
Priority to CA002179228A priority patent/CA2179228C/en
Priority to MYPI96002452A priority patent/MY116532A/en
Priority to DE69614782T priority patent/DE69614782T2/de
Priority to AU56054/96A priority patent/AU721596B2/en
Priority to CNB961110422A priority patent/CN1154976C/zh
Priority to SG1996010099A priority patent/SG54343A1/en
Priority to AT96304568T priority patent/ATE205011T1/de
Priority to MX9602391A priority patent/MX9602391A/es
Priority to EP96304568A priority patent/EP0751493B1/en
Priority to RU96111955/09A priority patent/RU2255380C2/ru
Priority to ES96304568T priority patent/ES2159688T3/es
Priority to BRPI9602835-1A priority patent/BR9602835B1/pt
Priority to TR96/00519A priority patent/TR199600519A2/xx
Priority to KR1019960022517A priority patent/KR100472585B1/ko
Priority to TW085109383A priority patent/TW412719B/zh
Publication of JPH096397A publication Critical patent/JPH096397A/ja
Application granted granted Critical
Publication of JP3747492B2 publication Critical patent/JP3747492B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【構成】 符号化部2は、入力端子10から入力された
音声信号をフレーム単位で区分しこのフレーム単位で符
号化して線スペクトル対(LSP)パラメータや、ピッ
チや、有声音(V)/無声音(UV)や、スペクトル振
幅Amのような符号化パラメータを出力する。変更符号
化パラメータ算出部3は、上記符号化パラメータを補間
処理して所望の時刻に対応する変更符号化パラメータを
算出する。復号化部6は、上記変更符号化パラメータに
基づいてサイン波及びノイズを合成し、出力端子37か
ら合成音声信号を出力する。 【効果】 広いレンジにわたる任意のレートのスピード
コントロールを簡単にかつ音韻,ピッチを不変として高
品質に行える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力音声信号をフレー
ム単位で区分し、符号化して求めた符号化パラメータに
基づいて、少なくともサイン波を合成することにより音
声信号を再生する音声信号の再生方法、再生装置及び上
記符号化パラメータに応じたパラメータを用いて音声信
号を伝送する音声信号の伝送方法に関する。
【0002】
【従来の技術】オーディオ信号(音声信号や音響信号を
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
【0003】
【発明が解決しようとする課題】ところで、符号励起線
形予測(CELP:Code Excited Linear Predictio
n)符号化に代表されるような上記時間軸上の処理によ
る音声高能率符号化方法では、時間軸のスピード変換
(Modify)処理が困難であった。これは、デコーダ出力
の後にかなりの演算を行う必要があったためである。
【0004】また、デコードした線形領域でスピードコ
ントロールを行うため、例えばビットレートの変換など
には使えなかった。
【0005】本発明は、上記実情に鑑みてなされたもの
であり、広いレンジにわたる任意のレートのスピードコ
ントロールを簡単にかつ音韻,ピッチを不変として高品
質に行える音声信号の再生方法、再生装置及び伝送方法
の提供を目的とする。
【0006】
【課題を解決するための手段】本発明に係る音声信号の
再生方法は、上記課題を解決するために、入力音声信号
が時間軸上の所定フレーム単位で区分され、各フレーム
単位で符号化されることにより求められた符号化パラメ
ータに基づいて、少なくともサイン波を合成することに
より音声信号を再生する音声信号の再生方法において、
上記符号化パラメータを補間処理して所望の時刻に対応
する変更符号化パラメータを求め、この変更符号化パラ
メータに基づいて、少なくともサイン波を合成すること
により音声信号を再生する。
【0007】また、本発明に係る音声信号の再生装置
は、上記課題を解決するために、入力音声信号が時間軸
上の所定フレーム単位で区分され、各フレーム単位で符
号化されることにより求められた符号化パラメータに基
づいて、少なくともサイン波を合成することにより音声
信号を再生する音声信号の再生装置において、上記所定
フレーム毎に得られる符号化パラメータの時間軸を圧縮
伸張して上記パラメータの出力周期を変更する周期変更
手段と、この周期変更されたパラメータを補間処理して
上記所定フレーム毎の時刻に対応する変更符号化パラメ
ータを求める補間処理手段と、この変更符号化パラメー
タに基づいてサイン波及びノイズを合成する音声合成手
段とを有する。
【0008】また、本発明に係る音声信号の伝送方法
は、上記課題を解決するために、入力音声信号を時間軸
上の所定フレーム単位で区分し、各フレーム単位で符号
化することにより符号化パラメータを求める工程と、求
められた符号化パラメータを補間処理して所望の時刻に
対応する変更符号化パラメータを求める工程と、補間処
理された変更符号化パラメータを伝送する工程とを有す
る。
【0009】
【作用】入力音声信号を時間軸上の所定フレーム単位で
区分し、各フレーム単位で符号化して求めた符号化パラ
メータを補間処理して所望の時刻に対応する変更符号化
パラメータを求め、この変更符号化パラメータに基づい
て少なくともサイン波を合成して音声信号を再生するの
で、任意のレートのスピードコントロールを可能とす
る。
【0010】
【実施例】以下、本発明に係る音声信号の再生方法、再
生装置及び伝送方法を適用できるいくつかの実施例につ
いて図面を参照しながら説明する。
【0011】先ず、本発明に係る音声信号の再生方法、
再生装置に関する実施例を第1実施例として図1に示
す。この第1実施例は、入力音声信号を時間軸上の所定
フレーム単位で区分し、各フレーム単位で符号化して求
めた符号化パラメータに基づいて、サイン波及びノイズ
を合成することにより音声信号を再生する音声信号再生
装置1である。
【0012】特に、この音声信号再生装置1は、上記符
号化パラメータを補間処理して所望の時刻に対応する変
更符号化パラメータを求め、この変更符号化パラメータ
に基づいて、サイン波及びノイズを合成している。な
お、ここでは、上記変更符号化パラメータに基づいてサ
イン波及びノイズを合成しているが、少なくともサイン
波を合成するだけでもよい。
【0013】この音声信号再生装置1は、入力端子10
から入力された音声信号をフレーム単位で区分しこのフ
レーム単位で符号化して線スペクトル対(LSP)パラ
メータや、ピッチや、有声音(V)/無声音(UV)
や、スペクトル振幅Amのような符号化パラメータを出
力する符号化部2と、上記符号化パラメータを補間処理
して所望の時刻に対応する変更符号化パラメータを求め
る変更符号化パラメータ算出部3と、上記変更符号化パ
ラメータに基づいてサイン波及びノイズを合成し、出力
端子37から合成音声信号を出力する復号化部6とを備
えてなる。ここで、符号化部2と、変更符号化パラメー
タ算出部3と、復号化部6は、図示しない制御部によ
り、制御される。
【0014】特に、この音声信号再生装置1の変更符号
化パラメータ算出部3は、図2に示すように、所定フレ
ーム毎に得られる上記符号化パラメータの時間軸を圧縮
伸張して上記パラメータの出力周期を変更する周期変更
回路4と、この周期変更されたパラメータを補間処理し
て上記所定フレーム毎の時刻に対応する変更符号化パラ
メータとする補間処理回路5とからなる。なお、この変
更符号化パラメータ算出部3については後述する。
【0015】先ず、符号化部2について説明するが、こ
の符号化部2と復号化部6では、短期予測残差、例えば
LPC残差(線形予測残差)を、ハーモニクスコーディ
ングとノイズで表現する、あるいはマルチバンド励起
(MBE)符号化あるいはMBE分析する。
【0016】従来の符号励起線形予測(CELP)符号
化においては、LPC残差を直接時間波形としてベクト
ル量子化していたが、符号化部2では、残差をハーモニ
クスコーディングやMBE分析で符号化するため、少な
いビット数でハーモニクスのスペクトルエンベロープの
振幅をベクトル量子化しても比較的滑らかな合成波形が
得られ、LPC合成波形フィルタ出力も非常に聴きやす
い音質となる。なお、上記スペクトルエンベロープの振
幅の量子化には、本件発明者等が先に提案した特開平6
−51800号公報に記載の次元変換あるいはデータ数
変換の技術を用い、一定の次元数にしてベクトル量子化
を行っている。
【0017】図3に示す符号化部において、入力端子1
0に供給された音声信号は、フィルタ11にて不要な帯
域の信号を除去するフィルタ処理が施された後、LPC
(線形予測符号化)分析回路12及び逆フィルタリング
回路21に送られる。
【0018】LPC分析回路12は、入力信号波形の2
56サンプル程度の長さを1ブロックとしてハミング窓
をかけて、自己相関法により線形予測係数、いわゆるα
パラメータを求める。データ出力の単位となるフレーミ
ングの間隔は、160サンプル程度とする。サンプリン
グ周波数fsが例えば8kHzのとき、1フレーム間隔は
160サンプルで20msec となる。
【0019】LPC分析回路12からのαパラメータ
は、α→LSP変換回路13に送られて、線スペクトル
対(LSP)パラメータに変換される。これは、直接型
のフィルタ係数として求まったαパラメータを、例えば
10個、すなわち5対のLSPパラメータに変換する。
変換は例えばニュートン−ラプソン法等を用いて行う。
このLSPパラメータに変換するのは、αパラメータよ
りも補間特性に優れているからである。
【0020】α→LSP変換回路13からのLSPパラ
メータは、LSPベクトル量子化器14によりベクトル
量子化される。このとき、フレーム間差分をとってから
ベクトル量子化してもよい。あるいは、複数フレーム分
をまとめてマトリクス量子化してもよい。ここでの量子
化では、20msec を1フレームとし、20msec 毎に
算出されるLSPパラメータをベクトル量子化してい
る。
【0021】このLSPベクトル量子化器14からの量
子化出力、すなわちLSPベクトル量子化のインデクス
は、端子15を介して取り出され、また量子化済みのL
SPベクトルは、LSP補間回路16に送られる。
【0022】LSP補間回路16は、上記20msec 毎
にベクトル量子化されたLSPのベクトルを補間し、8
倍のレートにする。すなわち、2.5msec 毎にLSP
ベクトルが更新されるようにする。これは、残差波形を
MBE符号化復号化方法により分析合成すると、その合
成波形のエンベロープは非常になだらかでスムーズな波
形になるため、LPC係数が20msec 毎に急激に変化
すると、異音を発生することがあるからである。すなわ
ち、2.5msec 毎にLPC係数が徐々に変化してゆく
ようにすれば、このような異音の発生を防ぐことができ
る。
【0023】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路17により、L
SPパラメータを例えば10次程度の直接型フィルタの
係数であるαパラメータに変換する。このLSP→α変
換回路17からの出力は、上記逆フィルタリング回路2
1に送られ、この逆フィルタリング回路21では、2.
5msec 毎に更新されるαパラメータにより逆フィルタ
リング処理を行って、滑らかな出力を得るようにしてい
る。この逆フィルタリング回路21からの出力は、ハー
モニクス/ノイズ符号化回路22、具体的には例えばマ
ルチバンド励起(MBE)分析回路、に送られる。
【0024】ハーモニクス/ノイズ符号化回路あるいは
MBE分析回路22では、逆フィルタリング回路21か
らの出力を、例えばMBE分析と同様の方法で分析す
る。すなわち、ピッチ検出、各ハーモニクスの振幅Am
の算出、有声音(V)/無声音(UV)の判別を行い、
ピッチによって変化するハーモニクスの振幅Amの個数
を次元変換して一定数にしている。なお、ピッチ検出に
は、後述するように、入力されるLPC残差の自己相関
を用いている。
【0025】この回路22として、マルチバンドエクサ
イテイション(MBE)符号化の分析回路の具体例につ
いて、図4を参照しながら説明する。
【0026】この図4に示すMBE分析回路において
は、同時刻(同じブロックあるいはフレーム内)の周波
数軸領域に有声音(Voiced)部分と無声音(Unvoiced)
部分とが存在するという仮定でモデル化している。
【0027】図4の入力端子111には、上記逆フィル
タリング回路21からのLPC残差あるいは線形予測残
差が供給されており、このLPC残差の入力に対してM
BE分析符号化処理を施すわけである。
【0028】入力端子111から入力されたLPC残差
は、ピッチ抽出部113、窓かけ処理部114、及び後
述するサブブロックパワー計算部126にそれぞれ送ら
れる。
【0029】ピッチ抽出部113では、入力がすでにL
PC残差となっているので、この残差の自己相関の最大
値を検出することにより、ピッチ検出が行える。このピ
ッチ抽出部113ではオープンループによる比較的ラフ
なピッチのサーチが行われ、抽出されたピッチデータは
高精度(ファイン)ピッチサーチ部116に送られて、
クローズドループによる高精度のピッチサーチ(ピッチ
のファインサーチ)が行われる。
【0030】窓かけ処理部114では、1ブロックNサ
ンプルに対して所定の窓関数、例えばハミング窓をか
け、この窓かけブロックを1フレームLサンプルの間隔
で時間軸方向に順次移動させている。窓かけ処理部11
4からの時間軸データ列に対して、直交変換部115に
より例えばFFT(高速フーリエ変換)等の直交変換処
理が施される。
【0031】サブブロックパワー計算部126では、ブ
ロック内の全バンドが無声音(UV)と判別されたとき
に、該ブロックの無声音信号の時間波形のエンベロープ
を示す特徴量を抽出する処理が行われる。
【0032】高精度(ファイン)ピッチサーチ部116
には、ピッチ抽出部113で抽出された整数(インテジ
ャー)値の粗(ラフ)ピッチデータと、直交変換部11
5により例えばFFTされた周波数軸上のデータとが供
給されている。この高精度ピッチサーチ部116では、
上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±
数サンプルずつ振って、最適な小数点付き(フローティ
ング)のファインピッチデータの値へ追い込む。このと
きのファインサーチの手法として、いわゆる合成による
分析 (Analysis by Synthesis)法を用い、合成されたパ
ワースペクトルが原音のパワースペクトルに最も近くな
るようにピッチを選んでいる。
【0033】すなわち、上記ピッチ抽出部113で求め
られたラフピッチを中心として、例えば0.25きざみで上
下に数種類ずつ用意する。これらの複数種類の微小に異
なるピッチの各ピッチに対してそれぞれエラー総和値Σ
εm を求める。この場合、ピッチが定まるとバンド幅が
決まり、周波数軸上データのパワースペクトルと励起信
号スペクトルとを用いて上記エラーεm を求め、その全
バンドの総和値Σεmを求めることができる。このエラ
ー総和値Σεm を各ピッチ毎に求め、最小となるエラー
総和値に対応するピッチを最適のピッチとして決定する
わけである。以上のようにして高精度ピッチサーチ部で
最適のファイン(例えば 0.25 きざみ)ピッチが求めら
れ、この最適ピッチに対応する振幅|Am |が決定され
る。このときの振幅値の計算は、有声音の振幅評価部1
18Vにおいて行われる。
【0034】以上ピッチのファインサーチの説明におい
ては、全バンドが有声音(Voiced)の場合を想定してい
るが、上述したようにMBE分析合成系においては、同
時刻の周波数軸上に無声音(Unvoiced)領域が存在する
というモデルを採用していることから、上記各バンド毎
に有声音/無声音の判別を行うことが必要とされる。
【0035】上記高精度ピッチサーチ部116からの最
適ピッチ及び振幅評価部(有声音)118Vからの振幅
|Am |のデータは、有声音/無声音判別部117に送
られ、上記各バンド毎に有声音/無声音の判別が行われ
る。この判別のためにNSR(ノイズtoシグナル比)
を利用する。
【0036】ところで、上述したように基本ピッチ周波
数で分割されたバンドの数(ハーモニックスの数)は、
声の高低(ピッチの大小)によって約8〜63程度の範
囲で変動するため、各バンド毎のV/UVフラグの個数
も同様に変動してしまう。そこで、本実施例において
は、固定的な周波数帯域で分割した一定個数のバンド毎
にV/UV判別結果をまとめる(あるいは縮退させる)
ようにしている。具体的には、音声帯域を含む所定帯域
(例えば0〜4000Hz)をNB 個(例えば12個)の
バンドに分割し、各バンド内の上記NSR値に従って、
例えば重み付き平均値を所定の閾値Th2 で弁別して、当
該バンドのV/UVを判断している。
【0037】次に、無声音の振幅評価部118Uには、
直交変換部115からの周波数軸上データ、ピッチサー
チ部116からのファインピッチデータ、有声音振幅評
価部118Vからの振幅|Am |のデータ、及び上記有
声音/無声音判別部117からのV/UV(有声音/無
声音)判別データが供給されている。この振幅評価部
(無声音)118Uでは、有声音/無声音判別部117
において無声音(UV)と判別されたバンドに関して、
再度振幅を求めている。すなわち振幅再評価を行ってい
る。なお、振幅評価部118Uでは、有声音(V)と判
別されたバンドに関しては、有声音の振幅評価部118
Vから入力された値をそのまま出力している。
【0038】この振幅評価部(無声音)118Uからの
データは、データ数変換(一種のサンプリングレート変
換)部119に送られる。このデータ数変換部119
は、上記ピッチに応じて周波数軸上での分割帯域数が異
なり、データ数(特に振幅データの数)が異なることを
考慮して、一定の個数にするためのものである。すなわ
ち、例えば有効帯域を3400kHzまでとすると、この
有効帯域が上記ピッチに応じて、8バンド〜63バンド
に分割されることになり、これらの各バンド毎に得られ
る上記振幅|Am |(UVバンドの振幅|Am UVも含
む)データの個数mMX+1も8〜63と変化することに
なる。このためデータ数変換部119では、この可変個
数mMX+1の振幅データを一定個数M(例えば44個)
のデータに変換している。
【0039】ここで、データ数変換部119において
は、例えば、周波数軸上の有効帯域1ブロック分の振幅
データに対して、ブロック内の最後のデータからブロッ
ク内の最初のデータまでの値を補間するようなダミーデ
ータを付加してデータ個数をNF 個に拡大した後、帯域
制限型のOS 倍(例えば8倍)のオーバーサンプリング
を施すことによりOS 倍の個数の振幅データを求め、こ
のOS 倍の個数((mMX+1)×OS 個)の振幅データ
を直線補間してさらに多くのNM 個(例えば2048
個)に拡張し、このNM 個のデータを間引いて上記一定
個数M(例えば44個)のデータに変換している。
【0040】このデータ数変換部119からのデータ
(上記一定個数M個の振幅データ)が上記ベクトル量子
化器23に送られて、M個のデータから成るベクトルと
されるか、あるいは所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。
【0041】高精度のピッチサーチ部116からのピッ
チデータについては、上記切換スイッチ27の被選択端
子aを介して出力端子28に送っている。これは、ブロ
ック内の全バンドがUV(無声音)となってピッチ情報
が不要となる場合に、無声音信号の時間波形を示す特徴
量の情報をピッチ情報と切り換えて送っているものであ
り、本件発明者等が特願平5−185325号の明細書
及び図面において開示した技術である。
【0042】なお、これらの各データは、上記Nサンプ
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。また、上記有声音/無声音判別部117から
のV/UV判別データについては、上述したように、必
要に応じて12バンド程度に低減(縮退)したデータを
用いてもよく、全バンド中で1箇所以下の有声音(V)
領域と無声音(UV)領域との区分位置を表すデータを
用いるようにしてもよい。あるいは、全バンドをV又は
UVのどちらかで表現してもよく、また、フレーム単位
のV/UV判別としてもよい。
【0043】ここで、ブロック全体がUV(無声音)と
判別された場合には、ブロック内の時間波形を表す特徴
量を抽出するために、1ブロック(例えば256サンプ
ル)を、複数個(8個)の小ブロック(サブブロック、
例えば32サンプル)に分割して、サブブロックパワー
計算部126に送っている。
【0044】サブブロックパワー計算部126において
は、各サブブロック毎の1サンプル当りの平均パワー、
あるいはいわゆる平均RMS(Root Mean Square)値に
ついての、ブロック内全サンプル(例えば256サンプ
ル)の平均パワーあるいは平均RMS値に対する割合
(比率、レシオ)を算出している。
【0045】すなわち、例えばk番目のサブブロックの
平均パワーを求め、次に1ブロック全体の平均パワーを
求めた後、この1ブロックの平均パワーと上記k番目の
サブブロックの平均パワーp(k) との比の平方根を算出
する。
【0046】このようにして得られた平方根値を、所定
次元のベクトルとみなし、次のベクトル量子化部127
においてベクトル量子化を行う。
【0047】このベクトル量子化部127では、例え
ば、8次元8ビット(コードブックサイズ=256)の
ストレートベクトル量子化を行う。このベクトル量子化
の出力インデクス(代表ベクトルのコード)UV_Eを、切
換スイッチ27の被選択端子bに送っている。この切換
スイッチ27の被選択端子aには、上記高精度ピッチサ
ーチ部116からのピッチデータが送られており、切換
スイッチ27からの出力は、出力端子28に送られてい
る。
【0048】切換スイッチ27は、有声音/無声音判別
部117からの判別出力信号により切換制御されるよう
になっており、通常の有声音伝送時、すなわち上記ブロ
ック内の全バンドの内の1つでもV(有声音)と判別さ
れたときには被選択端子aに、ブロック内の全バンドが
UV(無声音)と判別されたときには被選択端子bに、
それぞれ切換接続される。
【0049】従って、上記サブブロック毎の正規化され
た平均RMS値のベクトル量子化出力は、本来はピッチ
情報を伝送していたスロットに入れ込んで伝送されるこ
とになる。すなわち、ブロック内の全バンドがUV(無
声音)と判別されたときにはピッチ情報は不要であり、
上記有声音/無声音判別部117からのV/UV判別フ
ラグを見て、全てUVのときに限って、ベクトル量子化
出力インデクスUV_Eをピッチ情報の代わりに伝送するよ
うにしている。
【0050】次に、図3に戻って、ベクトル量子化器2
3におけるスペクトルエンベロープ(Am)の重み付け
ベクトル量子化について説明する。
【0051】ベクトル量子化器23は、L次元、例えば
44次元の2ステージ構成とする。
【0052】すなわち、44次元でコードブックサイズ
が32のベクトル量子化コードブックからの出力ベクト
ルの和に、ゲインgi を乗じたものを、44次元のスペ
クトルエンベロープベクトルの量子化値として使用す
る。これは、図5に示すように、2つのシェイプコード
ブックをCB0、CB1とし、その出力ベクトルを
0i 1j、ただし0≦i,j≦31、とする。また、
ゲインコードブックCBgの出力をgl 、ただし0≦l
≦31、とする。gl はスカラ値である。この最終出力
は、gi 0i 1j) となる。
【0053】LPC残差について上記MBE分析によっ
て得られたスペクトルエンベロープAmを一定次元に変
換したものをとする。このとき、をいかに効率的に
量子化するかが重要である。
【0054】ここで、量子化誤差エネルギEを、 E=‖W{H−Hgl 0i 1j)}‖2 ・・・ (1) =‖WH{−gl 0i 1j)}‖2 と定義する。この(1)式において、HはLPCの合成
フィルタの周波数軸上での特性であり、Wは聴覚重み付
けの周波数軸上での特性を表す重み付けのための行列で
ある。
【0055】現フレームのLPC分析結果によるαパラ
メータを、αi (1≦i≦P)として、
【0056】
【数1】
【0057】の周波数特性からL次元、例えば44次元
の各対応する点の値をサンプルしたものである。
【0058】算出手順としては、一例として、1、
α1、α2、・・・、αp に0詰めして、すなわち、1、
α1、α2、・・・、αp 、0、0、・・・、0として、
例えば256点のデータにする。その後、256点FF
Tを行い、(re 2+Im 21/2 を0〜πに対応する点に
対して算出して、その逆数をとる。それをL点、すなわ
ち例えば44点に間引いたものを対角要素とする行列
を、
【0059】
【数2】
【0060】とする。
【0061】聴覚重み付け行列Wは、
【0062】
【数3】
【0063】とする。この(3)式で、αi は入力のL
PC分析結果である。また、λa、λbは定数であり、
一例として、λa=0.4、λb=0.9が挙げられ
る。
【0064】行列あるいはマトリクスWは、上記(3)
式の周波数特性から算出できる。一例として、1、α1
λb、α2λb2、・・・、αpλbp、0、0、・・・、0
として256点のデータとしてFFTを行い、0以上π
以下の区間に対して(re 2[i]+Im 2[i])1/2 、0≦
i≦128、を求める。次に、1、α1λa、α2λa2
・・・、αpλap 、0、0、・・・、0として分母の周
波数特性を256点FFTで0〜πの区間を128点で
算出する。これを(re'2[i]+Im'2[i])1/2、0≦
i≦128、とする。
【0065】
【数4】
【0066】として、上記(3)式の周波数特性が求め
られる。
【0067】これをL次元、例えば44次元ベクトルの
対応する点について、以下の方法で求める。より正確に
は、直線補間を用いるべきであるが、以下の例では最も
近い点の値で代用している。
【0068】すなわち、 ω[i]=ω0[nint(128i/L)] 1≦i≦L ただし、nint(x)は、xに最も近い整数を返す関数で
ある。
【0069】また、上記Hに関しても同様の方法で、h
(1)、h(2)、・・・、h(L)を求めている。すなわち、
【0070】
【数5】
【0071】となる。
【0072】ここで、他の例として、FFTの回数を減
らすのに、H(z)W(z)を先に求めてから、周波数特性
を求めてもよい。すなわち、
【0073】
【数6】
【0074】この(5)式の分母を展開した結果を、
【0075】
【数7】
【0076】とする。ここで、1、β1、β2、・・・、
β2p、0、0、・・・、0として、例えば256点のデ
ータにする。その後、256点FFTを行い、振幅の周
波数特性を、
【0077】
【数8】
【0078】とする。これより、
【0079】
【数9】
【0080】これをL次元ベクトルの対応する点につい
て求める。上記FFTのポイント数が少ない場合は、直
線補間で求めるべきであるが、ここでは最寄りの値を使
用している。すなわち、
【0081】
【数10】
【0082】である。これを対角要素とする行列をW’
とすると、
【0083】
【数11】
【0084】となる。(6)式は上記(4)式と同一の
マトリクスとなる。
【0085】このマトリクス、すなわち重み付き合成フ
ィルタの周波数特性を用いて、上記(1)を書き直す
と、
【0086】
【数12】
【0087】となる。
【0088】ここで、シェイプコードブックとゲインコ
ードブックの学習法について説明する。
【0089】先ず、CB0に関しコードベクトル 0c
選択する全てのフレームkに関して歪の期待値を最小化
する。そのようなフレームがM個あるとして、
【0090】
【数13】
【0091】を最小化すればよい。この(8)式中で、
W'kはk番目のフレームに対する重み、 k はk番目の
フレームの入力、gk はk番目のフレームのゲイン、
1kはk番目のフレームについてのコードブックCB1か
らの出力、をそれぞれ示す。
【0092】この(8)式を最小化するには、
【0093】
【数14】
【0094】
【数15】
【0095】次に、ゲインに関しての最適化を考える。
【0096】ゲインのコードワードgc を選択するk番
目のフレームに関しての歪の期待値Jg は、
【0097】
【数16】
【0098】上記(11)式及び(12)式は、シェイ
0i 1i及びゲインgi 、0≦i≦31の最適なセ
ントロイドコンディション(Centroid Condition)、すな
わち最適なデコーダ出力を与えるものである。なお、
1iに関しても 0iと同様に求めることができる。
【0099】次に、最適エンコード条件(Nearest Neig
hbour Condition )を考える。
【0100】歪尺度の上記(7)式、すなわち、E=‖
W'(x−gl 0i 1j))‖2を最小化する 0i
1jを、入力、重みマトリクスW' が与えられる毎
に、すなわち毎フレームごとに決定する。
【0101】本来は、総当り的に全てのgl (0≦l≦
31)、 0i (0≦i≦31)、 1j (0≦j≦3
1)の組み合せの、32×32×32=32768通り
についてEを求めて、最小のEを与えるgl 0i
1jの組を求めるべきであるが、膨大な演算量となるの
で、この符号化部2では、シェイプとゲインのシーケン
シャルサーチを行っている。なお、 0i 1jとの組み
合せについては、総当りサーチを行うものとする。これ
は、32×32=1024通りである。以下の説明で
は、簡単化のため、 0i 1j m と記す。
【0102】上記(7)式は、E=‖W'(−g
lm)‖2 となる。さらに簡単のため、 w=W'
w=W' m とすると、
【0103】
【数17】
【0104】となる。従って、gl の精度が充分にとれ
ると仮定すると、
【0105】
【数18】
【0106】という2つのステップに分けてサーチする
ことができる。元の表記を用いて書き直すと、
【0107】
【数19】
【0108】となる。この(15)式が最適エンコード
条件(Nearest Neighbour Condition)である。
【0109】ここで上記(11)、(12)式の条件
(Centroid Condition)と、(15)式の条件を用い
て、一般化ロイドアルゴリズム(Generalize
d Lloyd Algorithm:GLA)により
コードブック(CB0、CB1、CBg)を同時にトレ
ーニングできる。
【0110】ところで、図3において、ベクトル量子化
器23は、切換スイッチ24を介して、有声音用コード
ブック25Vと、無声音用コードブック25Uとに接続
されており、回路22からのV/UV判別出力に応じて
切換スイッチ24が切換制御されることにより、有声音
時には有声音用コードブック25Vを用いたベクトル量
子化が、無声音時には無声音用コードブック25Uを用
いたベクトル量子化がそれぞれ施されるようになってい
る。
【0111】このように有声音(V)/無声音(UV)
の判断によってコードブックを切り換える意味は、上記
(11)、(12)式の新たなセントロイドの算出にお
いて、W’とgl とによる重み付き平均を行っている
ため、著しく異なるW'kとglとを同時に平均化してし
まうのは好ましくないからである。
【0112】なお、この符号化部2では、W’として、
入力のノルムで割り込んだW’を使用している。すな
わち、上記(11)、(12)、(15)式において、
事前にW’にW'/‖‖ を代入して使用している。
【0113】V/UVでコードブックを切り換える場合
は、同様の方法でトレーニングデータを振り分けて各々
のトレーニングデータからV(有声音)用、UV(無声
音)用のコードブックを作ればよい。
【0114】また、この符号化部2では、V/UVのビ
ット数を減らすため、単一バンド励起(SBE)とし、
Vの含有率が5割を越える場合は有声音(V)フレー
ム、それ以外は無声音(UV)フレームとしている。
【0115】なお、図6、図7に入力x及び重みW'/
‖ の平均値を、V(有声音)のみ、UV(無声
音)のみでまとめたものと、VとUVとを区別せずにひ
とまとめにしたものとを示す。
【0116】図6より、自体のf軸上のエネルギ分布
は、V、UVで大きく差はなく、ゲインの(‖‖)平
均値が大きく異なるのみであるように見える。しかし、
図7から明らかなように、VとUVでは重みの形が異な
り、VではUVに比べより低域にビットアサインを増や
すような重みとなっている。これが、VとUVとを分け
てトレーニングすることでより高性能なコードブックが
作成される根拠である。
【0117】次に、図8は、V(有声音)のみ、UV
(無声音)のみ、VとUVとをまとめたものの3つの例
について、それぞれのトレーニングの様子を示してい
る。すなわち、図8の曲線aがVのみの場合で終値が
3.72であり、曲線bがUVのみで終値が7.011
であり、曲線cがVとUVとをまとめたもので終値が
6.25である。
【0118】この図8から明らかなように、VとUVと
の各コードブックのトレーニングを分離することで出力
の歪の期待値が減少する。曲線bのUVのみの場合で若
干悪化しているが、V/UVの頻度としては、Vの区間
が長いので、トータルとしては改善される。ここで、V
とUVの頻度の一例として、V及びUVのトレーニング
データ長を1としたとき、実測によるとVのみの割合が
0.538、UVのみの割合が0.462であり、図8
の各曲線a、bの終値より、 3.72×0.538+7.011×0.462=5.24 がトータルの歪の期待値となり、VとUVとをまとめて
トレーニングする場合の歪の期待値の6.25に比べ
て、上記値5.24は、約0.76dBの改善がなされ
たことになる。
【0119】トレーニングの様子から判断すると、前述
のように0.76dB程度の改善であるが、実際にトレ
ーニングセット外の音声(男女4人ずつ)を処理し、量
子化を行わないときとのSNRあるいはSN比をとる
と、コードブックをV、UVに分割することで平均して
1.3dB程度のセグメンタルSNRの向上が確認され
た。これは、Vの比率がUVに比べてかなり高いためと
考えられる。
【0120】ところで、ベクトル量子化器23でのベク
トル量子化の際の聴覚重み付けに用いられる重みW’に
ついては、上記(6)式で定義されているが、過去の
W’も加味して現在のW’を求めることにより、テンポ
ラルマスキングも考慮したW’が求められる。
【0121】上記(6)式中のwh(1),wh(2),・・・,wh
(L)に関して、時刻n、すなわち第nフレームで算出さ
れたものをそれぞれwhn(1),whn(2),・・・,whn(L) とす
る。
【0122】時刻nで過去の値を考慮した重みをA
n(i)、1≦i≦L と定義すると、 An(i)=λAn-1(i)+(1−λ)whn(i) (whn(i)≦An-1(i)) =whn(i) (whn(i)>An-1(i)) とする。ここで、λは例えばλ=0.2とすればよい。
このようにして求められたAn(i)、1≦i≦L につい
て、これを対角要素とするマトリクスを上記重みとして
用いればよい。
【0123】次に、図1に戻り変更符号化パラメータ算
出部3について説明する。音声信号再生装置1は、符号
化部2が出力した上記符号化パラメータを変更符号化パ
ラメータ算出部3によりスピード変換して変更符号化パ
ラメータを算出し、復号化部6でデコードして、例えば
固体録音した内容をリアルタイムの倍のスピードで再生
する。このとき、再生スピードを高速にしてもピッチ、
音韻が不変であるため、かなりの高速再生を行っても内
容を聞きとることができる。
【0124】変更符号化パラメータ算出部3は、上記符
号化パラメータをスピード変換しているため、デコーダ
出力後の処理が不要で、かつ同様のアルゴリズムで異な
るレートでの固定レートに容易に対応することもでき
る。
【0125】以下、図9及び図11のフローチャートを
参照しながらこの音声信号再生装置1の変更符号化パラ
メータ算出部3の動作を説明する。変更符号化パラメー
タ算出部3は、図2を参照して上述したように、周期変
更回路4と補間処理回路5からなる。
【0126】先ず、図9のステップS1に示すように、
周期変更回路4には、入力端子15,28,29,26
を介してLSP,ピッチ,V/UV,Amのような符号
化パラメータが供給される。ここで、ピッチをp
ch[n],V/UVをvuv[n],Amをam[n][l],L
SPをlsp[n][i]とする。また、変更符号化パラメー
タ算出部3で最終的に算出される変更符号化パラメータ
をmod_pch[m],mod_vuv[m],mod_am[m][l],mo
d_lsp[m][i]とする。lはハーモニクス数、iはLS
P次数である。n,mは、時間軸のインデクスに相当す
るフレームナンバーに対応する。nは時間軸変更前、m
は時間軸変更後である。なお、0≦n<N1,0≦m<
2であり、n,mともに例えば20msecをフレームイ
ンターバルとするフレームのインデクスである。
【0127】上述したようにlはハーモニクス数である
が、真のハーモニクスの数に対応するam[n][l]に戻
してから実行しても、あるいはデータ数変換で一定の個
数のam[n][l](l=0〜43)の状態で行っても良
い。つまり、データ数変換をデコータで解く前でも後で
もよい。
【0128】次に、周期変更回路4は、ステップS2に
示すように、オリジナルの時間長となるフレーム数をN
1とし、変更後の時間長となるフレーム数をN2としてか
ら、ステップS3に示すように、N1の音声をN2の音声
に時間軸圧縮する。すなわち、周期変更回路4での時間
軸圧縮の比をspdとすると、spdをN2/N1として求め
る。
【0129】次に、補間処理回路5は、ステップS4に
示すように、時間軸変更後の時間軸のインデクスに相当
するフレームナンバーに対応するmを2とする。
【0130】次に、補間処理回路5はステップS5に示
すように、二つのフレームfr0,fr1と、該二つのフレ
ームfr0,fr1とm/spdとの差left,rightとを求め
る。上記符号化パラメータのpch,vuv,am,lsp
*とするときmod_*[m]は、 mod_*[m]=*[m/spd] (0≦m<N2) という一般式で表せる。しかし、m/spdは、整数には
ならないので、 fr0=L m/spd 」 fr1=f0+1 の2フレームから補間して、m/spdにおける変更符号
化パラメータを作る。ここで、フレームfr0とm/spd
とフレームfr1との間には、図10に示すような関係、
すなわち、 left=m/spd−fr0 right=fr1−m/spd が成立する。
【0131】この図10におけるm/spdのときの符号
化パラメータ、すなわち変更符号化パラメータをステッ
プS6に示すように、補間処理によって作ればよい。単
純に直線補間により求めると、 mod_*[m]=*[fr0]×right+*[fr1]×left となる。
【0132】しかし、2つのフレームfr0,fr1間での
補間では、それらのフレームが有声音(V)と,無声音
(UV)というように異なる場合には、上記一般式を適
用できない。このため、2つのフレームfr0,fr1間に
おける有声音(V)と,無声音(UV)との関係によっ
て、補間処理回路5は、図11のステップS11以降に
示すように、上記符号化パラメータの求め方を変える。
【0133】先ず、ステップS11に示すように2つの
フレームfr0,fr1が有声音(V),有声音(V)であ
るか否かを判断する。ここで、2つのフレームfr0,f
r1が共に、有声音(V)であると判断すると、ステップ
S12に進み、全てのパラメータを線形補間して以下の
ように表す。
【0134】 mod_pch[m]=pch[fr0]×right+pch[fr1]×left mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left ただし、0≦l<Lである。ここで、Lはハーモニクス
としてとりうる最大の数である。また、am[n][l]
は、ハーモニクスの存在しない位置では0を入れてお
く。フレームfr0とフレームfr1とで、ハーモニクスの
数が異なる時には、余った方のハーモニクスは、相方を
0として補間する。または、デコーダ側でデータ数変換
器を通す前であれば、0≦l<LのL=43といった固
定の値でもよい。
【0135】 mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left ただし、0≦i<Iである。ここで、IはLSPの次数
であり、通常は10を使用する。
【0136】mod_vuv[m]=1 VUVの判定で1は有声音(V)を、0は無声音(U
V)を意味する。
【0137】次に、ステップS11で2つのフレームf
r0,fr1が共に有声音(V)でないと判断すると、ステ
ップS13に示すような判断、すなわち、2つのフレー
ムfr0,fr1が共に無声音(UV)であるか否かを判断
する。ここで、YES(共に無声音である。)となる
と、補間処理回路5は、ステップS14に示すように、
chを固定値とし、またamとlspを線形補間により以
下のように求める。
【0138】mod_pch[m]=MaxPitch このように無声音のときは、Pitchの値を例えばM
axPitch=148のように、最大値等の固定値に
はりつける。
【0139】 mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left ただし、0≦l<MaxPitch/2である。
【0140】 mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left ただし、0≦i<Iである。
【0141】mod_vuv[m]=0 次に、2つのフレームfr0,fr1が共に、無声音でない
場合、ステップS15に進み、フレームfr0が有声音
(V)で,fr1が無声音(UV)であるか否かを判断す
る。ここでYES(フレームfr0が有声音(V)で,f
r1が無声音(UV)である。)となると、ステップS1
6に進み、NO(フレームfr0が無声音(UV)であ
り、fr1が有声音(V)である。)となると、ステップ
S17に進む。
【0142】ステップS16以降の処理では、二つのフ
レームfr0,fr1が、例えば有声音(V),無声音(U
V)のように、異なった場合について説明している。こ
れは、例えば有声音(V),無声音(UV)のように、
異なった2つのフレームfr0,fr1間でパラメータを補
間すると意味のないものになってしまうためである。こ
の場合、補間は行わずに、時刻m/spdに近い方のフレ
ームのパラメータの値を用いる。
【0143】フレームfr0が有声音(V),フレームf
r1が無声音(UV)である場合、ステップ16に進む。
このステップS16では、図10に示す上記left(=m
/spd−fr0)と上記right(=fr1−m/spd)の大き
さを比較している。これにより、m/spdに対してどち
らのフレームfr0またはフレームfr1が近いのかを判断
している。そして、上述したように近い方のパラメータ
の値を用いて変更符号化パラメータを算出する。
【0144】すなわち、ステップS16でYESを判断
すると、上記rightが大きいのであるから、フレームf
r1の方が遠いので、ステップS18に示すように近い方
のフレームfr0側のパラメータを用いて、 mod_pch[m]=pch[fr0] mod_am[m][l]=am[fr0][l] ,(ただし、0≦l
<Lである。) mod_lsp[m][i]=lsp[fr0][i] ,(ただし、0≦
i<Iである。) mod_vuv[m]=1 とする。
【0145】また、ステップS16でNOを判断する
と、left≧rightとなり、フレームfr 1の方が近いの
で、ステップS19に進み、ピッチを最大値にし、他の
パラメータについてはfr1側のパラメータを用いて、 mod_pch[m]=MaxPitch mod_am[m][l]=am[fr1][l] ,(ただし、0≦l
<MaxPitch/2である。) mod_lsp[m][i]=lsp[fr1][i],(ただし、0≦i
<Iである。) mod_vuv[m]=0 とする。
【0146】次に、ステップS17では、ステップS1
5で2つのフレームfr0,fr1が無声音(UV),有声
音(V)であるという判断を受けて、上記ステップS1
6と同様の判断を行う。すなわち、この場合も、補間は
行わずに、時刻m/spdに近い方のフレームのパラメー
タの値を用いる。
【0147】ステップS17でYESを判断すると、ス
テップS20に示すように、ピッチを最大値にし、他の
パラメータについては近い方のフレームfr0側のパラメ
ータを用いて、 mod_pch[m]=MaxPitch mod_am[m][l]=am[fr0][l],(ただし、0≦l<
MaxPitch/2である。) mod_lsp[m][i]=lsp[fr0][i],(ただし、0≦i
<Iである。) mod_vuv[m]=0 とする。
【0148】また、ステップS17でNOを判断する
と、left≧rightとなり、フレームfr 1の方が近いの
で、ステップS21に進み、fr1側のパラメータを用い
て、 mod_pch[m]=pch[fr1] mod_am[m][l]=am[fr1][l],(ただし、0≦l<
Lである。) mod_lsp[m][i]=lsp[fr1][i] ,(ただし、0≦
i<Iである。) mod_vuv[m]=1 とする。
【0149】このように2つのフレームfr0,fr1間に
おける有声音(V)と,無声音(UV)との関係によっ
て、補間処理回路5は、図9に示すステップS6の補間
処理を異ならせる。このステップS6の補間処理が終了
すると、ステップS7に進み、mをインクリメントす
る。そして、このmがN2に等しくなるまで、ステップ
S5,ステップS6の処理を繰り返す。
【0150】なお、本来は、これ以外にも、UV部分の
短時間rmsのシーケンスを、ノイズのゲインコントロ
ールに用いているが、ここではこのパラメータは1で固
定する。
【0151】以上に説明したような変更符号化パラメー
タ算出部3の動作をまとめると、図12に示すようにな
る。例えば20msecで符号化部2が抽出している符号化
パラメータのモデルを図12の(A)に示す。変更符号
化パラメータ算出部3の周期変更回路4は、図12の
(B)に示すように、15msecとし、図12の(B)に
示すように、時間圧縮する。そして、上述したように、
二つのフレームfR0,f r1のV/UVの状態に応じた補
間処理により、図12の(C)に示すような変更符号化
パラメータを算出する。
【0152】変更符号化パラメータ算出部3は、周期変
更回路4と補間処理回路5を逆の順番として、図13の
(A)に示す符号化パラメータを先ず図13の(B)に
示すように補間してから、図13の(C)に示すように
圧縮して変更符号化パラメータを算出してもよい。
【0153】変更符号化パラメータ算出部3からの変更
符号化パラメータは、図1に示す復号化部6に供給され
る。この復号化部6は、上記変更符号化パラメータに基
づいてサイン波及びノイズを合成し、合成音を出力端子
37から導出する。
【0154】以下、復号化部6について図14及び図1
5を参照しながら説明する。先ず、復号化部6に供給さ
れてくるパラメータが通常の符号化パラメータであると
して説明しておく。
【0155】この図14において、端子31には、上記
図3の端子15からの出力に相当するLSPのベクトル
量子化出力、いわゆるインデクスが供給されている。
【0156】この入力信号は、LSP逆ベクトル量子化
器32に送られてLSP(線スペクトル対)データに逆
ベクトル量子化され、LSP補間回路33に送られてL
SPの補間処理が施された後、LSP→α変換回路34
でLPC(線形予測符号)のαパラメータに変換され、
このαパラメータが合成フィルタ35に送られる。
【0157】また、図14の端子41には、上記図3の
エンコーダ側の端子26からの出力に対応するスペクト
ルエンベロープ(Am)の重み付けベクトル量子化され
たコードワードのインデックスデータが供給され、端子
43には、上記図3の端子28からのピッチ情報やUV
時のブロック内の時間波形の特徴量を表すデータが供給
され、端子46には、上記図3の端子29からのV/U
V判別データが供給されている。
【0158】端子41からのAmのベクトル量子化され
たデータは、逆ベクトル量子化器42に送られて逆ベク
トル量子化が施され、スペクトルエンベロープのデータ
となって、ハーモニクス/ノイズ合成回路、あるいはマ
ルチバンド励起(MBE)合成回路45に送られてい
る。この合成回路45には、端子43からのデータが上
記V/UV判別データに応じて切換スイッチ44により
上記ピッチデータとUV時の波形の特徴量データとに切
り換えられて供給されており、また、端子46からのV
/UV判別データも供給されている。
【0159】この合成回路45の具体例としてのMBE
合成回路の構成については、図15を参照しながら後述
する。
【0160】合成回路45からは、上述した図3の逆フ
ィルタリング回路21からの出力に相当するLPC残差
データが取り出され、これが合成フィルタ回路35に送
られてLPCの合成処理が施されることにより時間波形
データとなり、さらにポストフィルタ36でフィルタ処
理された後、出力端子37より再生された時間軸波形信
号が取り出される。
【0161】次に、上記合成回路45の一例としてのM
BE合成回路構成の具体例について、図15を参照しな
がら説明する。
【0162】この図15において、入力端子131に
は、図14のスペクトルエンベロープの逆ベクトル量子
化器42からのスペクトルエンベロープデータ、実際に
はLPC残差のスペクトルエンベロープデータが供給さ
れている。各端子43、46に供給されるデータは図1
4と同様である。なお端子43に送られたデータは、切
換スイッチ44で切換選択され、ピッチデータが有声音
合成部137へ、UV波形の特徴量データが逆ベクトル
量子化器152へそれぞれ送られている。
【0163】端子131からの上記LPC残差のスペク
トル振幅データは、データ数逆変換部136に送られて
逆変換される。このデータ数逆変換部136では、上述
した図4のデータ数変換部119と対照的な逆変換が行
われ、得られた振幅データが有声音合成部137及び無
声音合成部138に送られる。端子43から切換スイッ
チ44の被選択端子aを介して得られた上記ピッチデー
タは、有声音合成部137及び無声音合成部138に送
られる。また端子46からの上記V/UV判別データ
も、有声音合成部137及び無声音合成部138に送ら
れる。
【0164】有声音合成部137では例えば余弦(cosin
e)波合成あるいは正弦(sine)波合成により時間軸上の有
声音波形を合成し、無声音合成部138では例えばホワ
イトノイズをバンドパスフィルタでフィルタリングして
時間軸上の無声音波形を合成し、これらの各有声音合成
波形と無声音合成波形とを加算部141で加算合成し
て、出力端子142より取り出すようにしている。
【0165】また、V/UV判別データとして上記V/
UVコードが伝送された場合には、このV/UVコード
に応じて全バンドを1箇所の区分位置で有声音(V)領
域と無声音(UV)領域とに区分することができ、この
区分に応じて、各バンド毎のV/UV判別データを得る
ことができる。ここで、分析側(エンコーダ側)で一定
数(例えば12程度)のバンドに低減(縮退)されてい
る場合には、これを解いて(復元して)、元のピッチに
応じた間隔で可変個数のバンドとすることは勿論であ
る。
【0166】以下、無声音合成部138における無声音
合成処理を説明する。
【0167】ホワイトノイズ発生部143からの時間軸
上のホワイトノイズ信号波形を窓かけ処理部144に送
って、所定の長さ(例えば256サンプル)で適当な窓
関数(例えばハミング窓)により窓かけをし、STFT
処理部145によりSTFT(ショートタームフーリエ
変換)処理を施すことにより、ホワイトノイズの周波数
軸上のパワースペクトルを得る。このSTFT処理部1
45からのパワースペクトルをバンド振幅処理部146
に送り、上記UV(無声音)とされたバンドについて上
記振幅|Am UVを乗算し、他のV(有声音)とされた
バンドの振幅を0にする。このバンド振幅処理部146
には上記振幅データ、ピッチデータ、V/UV判別デー
タが供給されている。
【0168】バンド振幅処理部146からの出力は、I
STFT処理部147に送られ、位相は元のホワイトノ
イズの位相を用いて逆STFT処理を施すことにより時
間軸上の信号に変換する。ISTFT処理部147から
の出力は、パワー分布整形部156を介し、後述する乗
算部157を介して、オーバーラップ加算部148に送
られ、時間軸上で適当な(元の連続的なノイズ波形を復
元できるように)重み付けをしながらオーバーラップ及
び加算を繰り返し、連続的な時間軸波形を合成する。こ
のオーバーラップ加算部148からの出力信号が上記加
算部141に送られる。
【0169】ブロック内のバンドの少なくとも1つがV
(有声音)の場合には、上述したような処理が各合成部
137、138にて行われるわけであるが、ブロック内
の全バンドがUV(無音声)と判別されたときには、切
換スイッチ44が被選択端子b側に切換接続され、ピッ
チ情報の代わりに無声音信号の時間波形に関する情報が
逆ベクトル量子化部152に送られる。
【0170】すなわち、逆ベクトル量子化部152に
は、上記図4のベクトル量子化部127からのデータに
相当するデータが供給される。これを逆ベクトル量子化
することにより、上記無音声信号波形の特徴量抽出デー
タが取り出される。
【0171】ここで、ISTFT処理部147からの出
力は、パワー分布整形部156により時間軸方向のエネ
ルギ分布の整形処理を行った後、乗算部157に送られ
ている。この乗算部157では、上記逆ベクトル量子化
部152からスムージング部(スムージング処理部)1
53を介して得られた信号と乗算されている。なお、ス
ムージング部153でスムージング処理を施すことで、
耳障りな急激なゲイン変化を抑えることができる。
【0172】以上のようにして合成された無声音信号が
無声音合成部138から取り出され、上記加算部141
に送られて、有声音合成部137からの信号と加算さ
れ、出力端子142よりMBE合成出力としてのLPC
残差信号が取り出される。
【0173】このLPC残差信号が、上記図14の合成
フィルタ35に送られることにより、最終的な再生音声
信号が得られるわけである。
【0174】この音声信号再生装置1は、図示しない制
御部の制御に応じて、上記変更符号化パラメータ算出部
3に変更符号化パラメータを算出させ、この変更符号化
パラメータを用いて元の音声信号の時間軸を圧縮伸長し
た音声を合成している。この場合、変更符号化パラメー
タ算出部3からの上記mod_lsp[m][i]は、LSP逆ベ
クトル量子化回路32の出力の代わりに使用される。上
記mod_lsp[m][i]を本来の逆ベクトル量子化値の代わ
りに使用する。上記mod_lsp[m][i]は、LSP補間回
路33に送られてLSPの補間処理が施された後、LS
P→α変換回路34でLPC(線形予測符号)のαパラ
メータに変換され、このαパラメータが合成フィルタ3
5に送られる。
【0175】また、データ数変換回路136の出力又は
入力の代わりに上記mod_am[m][l]が、端子43にはm
od_pch[m]が、端子46には上記mod_vuv[m]が供給
される。
【0176】上記mod_am[m][l]は、スペクトルエン
ベロープのデータとして、ハーモニクス/ノイズ合成回
路45に送られている。この合成回路45には、端子4
3からのmod_pch[m]が判別データに応じて切換スイッ
チ44により供給されており、また、端子46からの上
記mod_vuv[m]も供給されている。
【0177】合成回路45は、上述したような図15に
示すような構成により、上記変更符号化パラメータを用
いて、元の音声信号の時間軸を圧縮伸長した音声を合成
し、端子37から導出している。
【0178】このように、この音声信号再生装置1は、
変更符号化パラメータmod_*[m]の配列(0≦m<
2)を本来の配列*[n](0≦n<N1)のかわりにデ
コードしている。デコード時のフレーム間隔は従来通り
例えば20msecのように固定である。このため、N2
1の時には、時間軸圧縮となり、スピードアップとな
る。他方、N2>N1の時には、時間軸伸長となり、スピ
ードダウンとなる。
【0179】上記時間軸変更を行っても、瞬時スペクト
ル、ピッチが不変である為、0.5≦spd≦2程度以上
の広い範囲の変更を行っても劣化が少ない。
【0180】この方式では、最終的に得られたパラメー
タ列を本来のスペーシング(20msec)に並べてデコ
ードするため、任意のスピードコントロール(上下)が
簡単に実現できる。又、スピードアップとスピードダウ
ンが区別なしに、同一の処理で可能である。
【0181】このため、例えば固体録音した内容をリア
ルタイムの倍のスピードで再生できる。このとき、再生
スピードを高速にしてもピッチ、音韻が不変であるた
め、かなりの高速再生を行っても内容を聞きとることが
できる。また、音声コーデックとして、上記符号励起線
形予測(CELP)符号化を用いたときに必要とされた
デコード出力後の演算処理のような付加的な処理を不要
とする。
【0182】なお、上記第1実施例では、変更符号化パ
ラメータ算出部3を復号化部6と切り離した構成とした
が、復号化部6内に設けてもよい。
【0183】なお、上記第1実施例の音声信号再生装置
1の変更符号化パラメータ算出部3が行うパラメータ算
出において、amに関する補間処理は、ベクトル量子化
の値、もしくはベクトル量子化された値を逆ベクトル量
子化して得られた値に対して行われる。
【0184】次に、本発明に係る音声信号の伝送方法に
関する実施例を第2実施例として説明する。この第2実
施例は、図16に示すように、入力音声信号を時間軸上
の所定フレーム単位で区分し、各フレーム単位で符号化
することにより符号化パラメータを求め、この符号化パ
ラメータを補間処理して求めた変更符号化パラメータを
伝送する送信側51と、上記変更符号化パラメータを受
信して、サイン波及びノイズを合成する受信側56とか
らなる音声信号伝送装置50である。
【0185】すなわち、この音声信号伝送装置50は、
送信側51に、入力端子52から入力された入力音声信
号を時間軸上の所定フレーム単位で区分し、各フレーム
単位で符号化することにより符号化パラメータを抽出す
る符号化部53と、上記符号化パラメータを補間処理し
て変更符号化パラメータを求める補間部54と、上記変
更符号化パラメータを送信する送信部55とを備え、ま
た、受信側56に、受信部57と、上記変更符号化パラ
メータを補間する補間部58と、補間されたパラメータ
に基づいてサイン波及びノイズを合成することにより出
力端子60から合成音声信号を出力する復号化部59と
を備える。
【0186】符号化部53と復号化部59の基本的な動
作は、上記第1実施例の音声信号再生装置のそれと同様
であるので、ここでは詳細な説明を省略する。
【0187】送信側51の動作について図17のフロー
チャートを参照しながら説明する。なお、このフローチ
ャートは、符号化部53の符号化処理と、補間部54の
補間処理とをまとめて示している。
【0188】符号化部53は、ステップS31及びステ
ップS33に示すように、LSP、ピッチPch、V/
UV、amからなる符号化パラメータを抽出している。
特に、LSPについては、ステップS31に示すように
補間部54で補間,リアレンジしてから、ステップS3
2に示すように量子化し、また、ピッチPch、V/U
V、amについては、ステップS34で補間,リアレン
ジしてから、ステップS35に示すように量子化してい
る。これらの量子化データは、送信部55を介して受信
側56に伝送される。
【0189】受信側56で受信部57を介して受け取っ
た上記量子化データは、補間部58に供給され、ステッ
プS36に示すようにパラメータの補間,リアレンジが
行われた後、ステップS37に示すように復号化部59
で合成される。
【0190】このように、音声信号伝送装置50は、時
間軸圧縮によるスピードアップについては、パラメータ
の補間を行い、伝送時におけるパラメータのフレームイ
ンターバルを変更している。なお、受信時に例えば20
msecのような固定フレームインターバルにおけるパラメ
ータを求めることによって再生処理を行っているため、
スピードコントロールのためのアルゴリズムが即ビット
レートの変更に使える。
【0191】すなわち、スピードコントロールとして上
記パラメータ補間を使う時は、パラメータ補間はデコー
ド内で行われることを想定しているが、もしこの処理を
エンコーダで行い時間軸圧縮した(間引いた)データを
エンコードし、デコーダで時間軸伸長(補間)を行え
ば、spdの割合で伝送ビットレートを調節できる。
【0192】例えば、1.975kbpsの伝送レート
の場合、spd=0.5とセットして倍速にしてエンコー
ドすると、本来10秒のスピードが5秒のものとして、
エンコードされるので、伝送レートは1.975×0.
5kbpsとなる。
【0193】また、図18に示すように、符号化部53
で得られた図18の(A)に示す符号化パラメータを、
補間部54で図18の(B)に示すように、例えば30
msecのように、任意の間隔となるように補間,リアレン
ジしなおしてから量子化し、受信側56の補間部58で
図18の(C)に示すように20msecとなるようにパラ
メータの補間,リアレンジを行い、復号化部59で合成
している。
【0194】デコーダ内に同様のスキームを持っていれ
ば、スピードを元に戻して(オリジナルのスピード)で
再生することもできるし、高速(低速)のまま聞くこと
ももちろんできる。すなわち、スピードコントロールを
可変ビットレートコーデックとして使うこともできる。
【0195】
【発明の効果】本発明に係る音声信号の再生方法は、入
力音声信号が時間軸上の所定フレーム単位で区分され、
各フレーム単位で符号化されることにより求められた符
号化パラメータを補間処理して所望の時刻に対応する変
更符号化パラメータを求め、この変更符号化パラメータ
に基づいて、少なくともサイン波を合成することにより
音声信号を再生するので、広いレンジにわたる任意のレ
ートのスピードコントロールを簡単にかつ音韻,ピッチ
を不変として高品質に行える。
【0196】また、本発明に係る音声信号再生装置は、
入力音声信号が時間軸上の所定フレーム単位で区分さ
れ、各フレーム単位で符号化されることにより求められ
た符号化パラメータの時間軸を圧縮伸張して上記パラメ
ータの出力周期を変更する周期変更手段と、この周期変
更されたパラメータを補間処理して上記所定フレーム毎
の時刻に対応する変更符号化パラメータを求める補間処
理手段と、この変更符号化パラメータに基づいてサイン
波及びノイズを合成する音声合成手段とを有するので、
広いレンジにわたる任意のレートのスピードコントロー
ルを簡単にかつ音韻,ピッチを不変として高品質に行え
る。
【0197】また、本発明に係る音声信号の伝送方法
は、入力音声信号を時間軸上の所定フレーム単位で区分
し、各フレーム単位で符号化することにより符号化パラ
メータを求める工程と、求められた符号化パラメータを
補間処理して所望の時刻に対応する変更符号化パラメー
タを求める工程と、補間処理された変更符号化パラメー
タを伝送する工程とを有するので、伝送ビットレートを
調節できる。
【図面の簡単な説明】
【図1】本発明の第1実施例となる音声信号再生装置の
概略構成を示すブロック図である。
【図2】上記音声信号再生装置の概略構成を示すブロッ
ク図である。
【図3】上記音声信号再生装置の符号化部を示すブロッ
ク図である。
【図4】上記符号化部のハーモニクス/ノイズ符号化回
路の具体例としてのマルチバンドエクサイテイション
(MBE)分析回路の構成を示すブロック図である。
【図5】ベクトル量子化器の構成を説明するための図で
ある。
【図6】入力の平均を有声音、無声音、有声音と無声
音をまとめたものについてそれぞれ示すグラフである。
【図7】重みW’/‖‖の平均を有声音、無声音、有
声音と無声音をまとめたものについてそれぞれ示すグラ
フである。
【図8】ベクトル量子化に用いられるコードブックにつ
いて、有声音、無声音、有声音と無声音をまとめた場合
のそれぞれのトレーニングの様子を示すグラフである。
【図9】上記音声信号再生装置に用いられる変更符号化
パラメータ算出回路のおおまかな動作を示すフローチャ
ートである。
【図10】変更符号化パラメータ算出回路で得られる変
更符号化パラメータを時間軸上で表現するための模式図
である。
【図11】上記音声信号再生装置に用いられる変更符号
化パラメータ算出回路の詳細な動作を示すフローチャー
トである。
【図12】上記変更符号化パラメータ算出部の具体的動
作を説明するための模式図である。
【図13】上記変更符号化パラメータ算出部の他の具体
的動作を説明するための模式図である。
【図14】上記音声信号再生装置に用いる復号化部の概
略構成を示すブロック図である。
【図15】上記復号化部に用いられるハーモニクス/ノ
イズ合成回路の具体例としてのマルチバンドエクサイテ
イション(MBE)合成回路の構成を示すブロック図で
ある。
【図16】本発明の第2実施例となる音声信号伝送装置
の概略構成を示すブロック図である。
【図17】上記音声信号伝送装置の送信側の動作を示す
フローチャートである。
【図18】上記音声信号伝送装置の動作を説明するため
の模式図である。
【符号の説明】
1 音声信号再生装置 2 符号化部 3 変更符号化パラメータ算出部 4 周期変更回路 5 補間処理回路 6 復号化部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号が時間軸上の所定フレーム
    単位で区分され、各フレーム単位で符号化されることに
    より求められた符号化パラメータに基づいて、少なくと
    もサイン波を合成することにより音声信号を再生する音
    声信号の再生方法において、 上記符号化パラメータを補間処理して所望の時刻に対応
    する変更符号化パラメータを求め、この変更符号化パラ
    メータに基づいて、少なくともサイン波を合成すること
    により音声信号を再生することを特徴とする音声信号の
    再生方法。
  2. 【請求項2】 上記所定フレーム毎に得られる符号化パ
    ラメータの時間軸を圧縮伸張して上記パラメータの出力
    周期を変更する周期変更工程と、 この周期変更されたパラメータを補間処理して上記所定
    フレーム毎の時刻に対応する変更符号化パラメータを求
    める補間処理工程と、 この変更符号化パラメータに基づいてサイン波及びノイ
    ズを合成する音声合成工程とを有することを特徴とする
    請求項1記載の音声信号の再生方法。
  3. 【請求項3】 上記符号化パラメータとして、上記入力
    音声信号についての短期予測残差をサイン合成波とノイ
    ズとで表現し、これらのサイン合成波とノイズとのそれ
    ぞれの周波数スペクトル情報を符号化して得られたもの
    を用いることを特徴とする請求項1記載の音声信号の再
    生方法。
  4. 【請求項4】 入力音声信号が時間軸上の所定フレーム
    単位で区分され、各フレーム単位で符号化されることに
    より求められた符号化パラメータに基づいて、少なくと
    もサイン波を合成することにより音声信号を再生する音
    声信号の再生装置において、 上記符号化パラメータを補間処理して所望の時刻に対応
    する変更符号化パラメータを求め、この変更符号化パラ
    メータに基づいて、少なくともサイン波を合成すること
    により音声信号を再生することを特徴とする音声信号の
    再生装置。
  5. 【請求項5】 上記所定フレーム毎に得られる符号化パ
    ラメータの時間軸を圧縮伸張して上記パラメータの出力
    周期を変更する周期変更手段と、 この周期変更されたパラメータを補間処理して上記所定
    フレーム毎の時刻に対応する変更符号化パラメータを求
    める補間処理手段と、 この変更符号化パラメータに基づいてサイン波及びノイ
    ズを合成する音声合成手段とを有することを特徴とする
    請求項4記載の音声信号の再生装置。
  6. 【請求項6】 上記符号化パラメータとして、上記入力
    音声信号についての短期予測残差をサイン合成波とノイ
    ズとで表現し、これらのサイン合成波とノイズとのそれ
    ぞれの周波数スペクトル情報を符号化して得られたもの
    を用いることを特徴とする請求項4記載の音声信号の再
    生装置。
  7. 【請求項7】 入力音声信号を時間軸上の所定フレーム
    単位で区分し、各フレーム単位で符号化することにより
    符号化パラメータを求める工程と、 求められた符号化パラメータを補間処理して所望の時刻
    に対応する変更符号化パラメータを求める工程と、 補間処理された変更符号化パラメータを伝送する工程と
    を有することを特徴とする音声信号の伝送方法。
  8. 【請求項8】 上記符号化パラメータとして、上記入力
    音声信号についての短期予測残差をサイン合成波とノイ
    ズとで表現し、これらのサイン合成波とノイズとのそれ
    ぞれの周波数スペクトル情報を符号化して得られたもの
    を用いることを特徴とする請求項7記載の音声信号の伝
    送方法。
JP15372395A 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置 Expired - Lifetime JP3747492B2 (ja)

Priority Applications (17)

Application Number Priority Date Filing Date Title
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置
US08/664,512 US5926788A (en) 1995-06-20 1996-06-17 Method and apparatus for reproducing speech signals and method for transmitting same
CA002179228A CA2179228C (en) 1995-06-20 1996-06-17 Method and apparatus for reproducing speech signals and method for transmitting same
MYPI96002452A MY116532A (en) 1995-06-20 1996-06-18 Method and apparatus for reproducing speech signals and method for transmitting same
AT96304568T ATE205011T1 (de) 1995-06-20 1996-06-19 Verfahren und einrichtung zur wiedergabe von sprachsignalen und verfahren zu seiner übertragung
AU56054/96A AU721596B2 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting the same
CNB961110422A CN1154976C (zh) 1995-06-20 1996-06-19 再现语音信号的方法和装置以及传输该信号的方法
SG1996010099A SG54343A1 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting same
DE69614782T DE69614782T2 (de) 1995-06-20 1996-06-19 Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung
MX9602391A MX9602391A (es) 1995-06-20 1996-06-19 Metodo y aparato para reproducir señales de conversacion y metodo para transmitirlas.
EP96304568A EP0751493B1 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting same
RU96111955/09A RU2255380C2 (ru) 1995-06-20 1996-06-19 Способ и устройство воспроизведения речевых сигналов и способ их передачи
ES96304568T ES2159688T3 (es) 1995-06-20 1996-06-19 Metodo y aparato para reproducir señales de voz y metodo para transmitirlas.
BRPI9602835-1A BR9602835B1 (pt) 1995-06-20 1996-06-19 processo e aparelho para reproduzir um sinal de voz, e, processo para transmitir o mesmo.
KR1019960022517A KR100472585B1 (ko) 1995-06-20 1996-06-20 음성신호의재생방법및장치와그전송방법
TR96/00519A TR199600519A2 (tr) 1995-06-20 1996-06-20 Konusma sinyallerinin olusturulmasina mahsus yöntem ve cihaz ve sinyallerin iletilmesine mahsus yöntem.
TW085109383A TW412719B (en) 1995-06-20 1996-08-03 Method and apparatus for reproducing speech signals and method for transmitting same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置

Publications (2)

Publication Number Publication Date
JPH096397A true JPH096397A (ja) 1997-01-10
JP3747492B2 JP3747492B2 (ja) 2006-02-22

Family

ID=15568696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15372395A Expired - Lifetime JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置

Country Status (17)

Country Link
US (1) US5926788A (ja)
EP (1) EP0751493B1 (ja)
JP (1) JP3747492B2 (ja)
KR (1) KR100472585B1 (ja)
CN (1) CN1154976C (ja)
AT (1) ATE205011T1 (ja)
AU (1) AU721596B2 (ja)
BR (1) BR9602835B1 (ja)
CA (1) CA2179228C (ja)
DE (1) DE69614782T2 (ja)
ES (1) ES2159688T3 (ja)
MX (1) MX9602391A (ja)
MY (1) MY116532A (ja)
RU (1) RU2255380C2 (ja)
SG (1) SG54343A1 (ja)
TR (1) TR199600519A2 (ja)
TW (1) TW412719B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
WO2006137425A1 (ja) 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2010520505A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 非因果性ポストフィルタ
RU2546324C2 (ru) * 2010-03-17 2015-04-10 Сони Корпорейшн Кодирущее устройство и способ кодирования, декодирующее устройство и способ декодирования, и программа

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
FR2796191B1 (fr) * 1999-07-05 2001-10-05 Matra Nortel Communications Procedes et dispositifs de codage et de decodage audio
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6535843B1 (en) * 1999-08-18 2003-03-18 At&T Corp. Automatic detection of non-stationarity in speech signals
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003003345A1 (fr) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Dispositif et procede d'interpolation des composantes de frequence d'un signal
US6907632B2 (en) * 2002-05-28 2005-06-21 Ferno-Washington, Inc. Tactical stretcher
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
JP4937753B2 (ja) * 2004-09-06 2012-05-23 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
BRPI0808198A8 (pt) * 2007-03-02 2017-09-12 Panasonic Corp Dispositivo de codificação e método de codificação
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
JP5449133B2 (ja) * 2008-03-14 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
WO2010111841A1 (zh) * 2009-04-03 2010-10-07 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
AU2014336357B2 (en) * 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
KR101849613B1 (ko) 2013-10-18 2018-04-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
CN107369454B (zh) 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
CN108899008B (zh) * 2018-06-13 2023-04-18 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和***
KR101971478B1 (ko) 2018-09-27 2019-04-23 박기석 차량용 차광막 장치
KR102150192B1 (ko) 2019-04-04 2020-08-31 박기석 차량용 차광막 장치
KR20230114981A (ko) 2022-01-26 2023-08-02 주식회사 스마트름뱅이 차량용 태양광 차단 및 발전 수행 장치
CN114511474B (zh) * 2022-04-20 2022-07-05 天津恒宇医疗科技有限公司 血管内超声图像的降噪方法、***、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
JPH07117562B2 (ja) * 1988-10-18 1995-12-18 株式会社ケンウッド スペクトラムアナライザ
JP2823023B2 (ja) * 1990-09-10 1998-11-11 富士通株式会社 リンク配線用マトリクスプリント板におけるコネクタ接続方法
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
FR2863874B1 (fr) * 2003-12-18 2006-03-17 Oreal Composition demaquillante

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
US7191120B2 (en) 1997-01-23 2007-03-13 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
WO2006137425A1 (ja) 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US7974837B2 (en) 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US7711557B2 (en) 2005-11-28 2010-05-04 Sony Corporation Audio signal noise reduction device and method
JP2010520505A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 非因果性ポストフィルタ
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
RU2546324C2 (ru) * 2010-03-17 2015-04-10 Сони Корпорейшн Кодирущее устройство и способ кодирования, декодирующее устройство и способ декодирования, и программа

Also Published As

Publication number Publication date
MX9602391A (es) 1997-02-28
SG54343A1 (en) 1998-11-16
BR9602835B1 (pt) 2009-05-05
AU5605496A (en) 1997-01-09
CA2179228A1 (en) 1996-12-21
KR970003109A (ko) 1997-01-28
EP0751493A3 (en) 1998-03-04
DE69614782D1 (de) 2001-10-04
TW412719B (en) 2000-11-21
BR9602835A (pt) 1998-04-22
ES2159688T3 (es) 2001-10-16
AU721596B2 (en) 2000-07-06
CN1145512A (zh) 1997-03-19
ATE205011T1 (de) 2001-09-15
CN1154976C (zh) 2004-06-23
EP0751493B1 (en) 2001-08-29
CA2179228C (en) 2004-10-12
JP3747492B2 (ja) 2006-02-22
DE69614782T2 (de) 2002-05-02
RU2255380C2 (ru) 2005-06-27
MY116532A (en) 2004-02-28
US5926788A (en) 1999-07-20
KR100472585B1 (ko) 2005-06-21
TR199600519A2 (tr) 1997-01-21
EP0751493A2 (en) 1997-01-02

Similar Documents

Publication Publication Date Title
JP3747492B2 (ja) 音声信号の再生方法及び再生装置
JP3707116B2 (ja) 音声復号化方法及び装置
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP3680380B2 (ja) 音声符号化方法及び装置
JP4005154B2 (ja) 音声復号化方法及び装置
KR100487136B1 (ko) 음성복호화방법및장치
JP3707153B2 (ja) ベクトル量子化方法、音声符号化方法及び装置
US6532443B1 (en) Reduced length infinite impulse response weighting
US5983173A (en) Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech
JPH10124094A (ja) 音声分析方法、音声符号化方法および装置
US4945565A (en) Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
JPH10214100A (ja) 音声合成方法
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JPH08234795A (ja) 音声符号化装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
JPH10111700A (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JPH01233499A (ja) 音声信号符号化復号化方法及びその装置
JPS60224341A (ja) 音声符号化方法
JP2000132195A (ja) 信号符号化装置及び方法
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置
JPH09297597A (ja) 高能率音声伝送方法及び高能率音声伝送装置
JPH09127997A (ja) 音声符号化方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131209

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term