JPH09244695A

JPH09244695A - 音声符号化装置及び復号化装置

Info

Publication number: JPH09244695A
Application number: JP8046191A
Authority: JP
Inventors: Yoshiro Nishimoto; 善郎西元; Tetsuya Takahashi; 哲也高橋; Toshiaki Shimoda; 敏章下田; Toru Sakatani; 亨坂谷; Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 1996-03-04
Filing date: 1996-03-04
Publication date: 1997-09-19

Abstract

(57)【要約】【課題】携帯電話等の電話通信時における背景音によ
る耳障りな雑音のない音声の符号化及び復号化を達成す
ること。【解決手段】音声信号からその特徴量を計算し，その
パラメータを圧縮（符号化）すると共に，受信側で原音
に近い音声信号を合成するための音声合成用駆動信号に
対応するインデックスを選択し，上記圧縮されたパラメ
ータとインデックスを送信すると共に，上記パラメータ
とインデックスを受信した受信側では，上記パラメータ
とインデックスから音声特徴量と駆動信号を復元し，音
声を合成する音声符号装置及び復号化装置において，送
信側（符号化時）においては，音声の無音区間における
音声の特徴量の変動を時間的に平滑化すると共に，受信
側（復号化時）においては音声の無音区間における音声
の特徴量の変動を時間的に平滑化するとともに駆動信号
の一部を他の信号に置きかえることにより，背景音を符
号及び復号化した時の上記耳障りな雑音を抑制するよう
にした符号化装置及び復号化装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，携帯電話等で問題
となる背景雑音に基づく異音を抑制するための音声符号
化装置及び復号化装置に関するものである。

【０００２】

【従来の技術】本発明の適用対象となる音声圧縮・復元
（符号化・復号化）装置の一例として, ＣＥＬＰ（Code
Excited Linear Prediction) に基づく携帯電話の基本
構成は，図１０及び図１１に示されている。図１０は音
声符号化装置，図１１は音声復号化装置の構成例を示
す。図１０に示す符号化装置は，入力された原音声から
音声の特徴量を計算する「特徴量計算部」と，それらを
量子化してデータ圧縮する「パラメータ量子化部」と，
後に音声を合成するために用いる駆動信号に対応するイ
ンデックスを複数記憶している「コードブック部」と，
原音と近い音を再現するための最適なコードブック内の
インデックスを選択する「最適駆動信号選択部」とを具
備して構成されている。上記最適駆動信号選択部では，
合成される音声が原音声に近い音声になるような駆動信
号に対応するインデックスが上記コードブックの中の複
数のインデックスの内から選択される。即ち，最適駆動
信号選択部は，入力音声を受信すると，コードブック内
のインデックスから複数のインデックスを選択し，これ
を順次音声合成フィルタに入力して合成音を作成する手
順を選択したインデックスの数だけ繰り返し，選択され
たインデックスの数の合成音の中から入力音声に最も近
い合成音を生成するインデックスを抽出して出力する。
この時，音声合成フィルタは，前記音声特徴量に対応す
る係数に応じて駆動される。

【０００３】符号化されたデータを復号化するには，量
子化された音声特徴量や選ばれたインデックス等が図１
１の復号化装置に送信され，「音声特徴量復号部」にお
いて特徴量の値が復号化され，「駆動信号生成部」で
は，符号化装置から送信されたインデックスに基づいて
コードブックからの駆動信号が作成される。また，音声
のスペクトル包絡形状を表す特徴量を用いて，「音声合
成フィルタ」の係数が決められ，そのフィルタに駆動信
号を入力することにより音声が合成される。ここで，駆
動信号は人間の声帯の振動等の音源に対応し，スペクト
ル包絡形状を作りだす合成フィルタは声道の形状等によ
り音源から発せられるまでの伝達関数に対応する。従っ
て，音声特徴量を量子化する際の量子化テーブル並びに
コードブックに格納されているインデックスは，人間の
音声を合成するのに適したものが，種々の規格に基づい
て用意されている。

【０００４】その一方で，このような方式で低ビットレ
ートに音声を圧縮する音声圧縮・復元方式では，人間の
声以外の音が入力された場合には，必ずしも元の音を忠
実に再現することが出来ず，特に空調音や雨音等，ごく
身近に存在する背景雑音が混在した場合でも，極めて音
質が劣化することが知られている。その一つはswirling
noiseと呼ばれるものであり, 背景雑音が「キュルキュ
ル」いったふうに変動する極めて不快な音になるという
現象である。この原因は, スペクトル包絡形状を表す音
声特徴量等を計算するのに通常使われるフレームでは,
雑音の特徴量を安定して計算するためにはデータが少な
すぎ, 音声パラメータが変動するためであることが, 論
文“Improvement of Background Sound coding in Line
ar Predictive Speech Codes",Proc. ICASSP 1995 等に
明らかにされている。

【０００５】

【発明が解決しようとする問題点】このような問題を解
決するための従来技術の一つとしては、特開平7-152395
号公報に記載のように, 無声区間において背景雑音のス
ペクトル特徴量を求め, それに基づいて雑音スペクトル
を抑圧するフィルタにより雑音を減衰させる方式があ
る。しかし, この方式ではS/N 比は改良されるが, 雑音
を完全に無くすことは不可能であり, 残った雑音から計
算される特徴量が変動して不快に聞こえるため, 問題の
本質は解決できていない。また, 電話等においては背景
雑音も周囲の臨場感を伝える情報であり，背景の音が無
くなってしまうことにより, かえって不自然な印象を与
えるという別の問題も発生する。

【０００６】また別の従来技術として特開平7-160294号
公報では, 復号化装置側で雑音のコードブックを用意し
ておき, 符号化装置から送信されるインデックス等によ
って生成される信号の代わりに，無声区間では「雑音コ
ードブック」から選んだ別の信号を使う。この場合「雑
音コードブック」からの信号を，合成フィルタに入力す
る前の駆動信号と置き換える方法と，合成フィルタの出
力である合成信号と置き換える方法とが示されている
が，そのいずれもが問題を有している。先ず，合成フィ
ルタ前の信号を変えても，合成フィルタの係数はスペク
トル包絡形状の音声特徴量からきめられるため，swirli
ng noiseの原因が音声パラメータの変動である以上，結
局はフィルタから出力される合成音声には不快な変動が
生じることになる。逆に，合成フィルタ後の音声を「雑
音コードブック」からの信号に置き換える方法では，存
在する可能性のあるスペクトル特性を持った雑音信号を
全てコードブックとして用意しておかなければ，原音を
再現できないという問題がある。さらに、コードブック
の探索は，ＣＥＬＰ方式において最も計算量を必要とす
る部分であり，符号化装置だけでなく復号化装置におい
てもコードブック探索を行うことは，極めて高速な信号
処理用演算装置が必要となってしまう。

【０００７】また，別の従来技術として特開平7-036485
号公報では, 過去の音声信号を記憶しておくバッファを
設けておき, 無声区間では通常の音声区間の計算よりも
多いフレーム数のデータを用いて音声特徴量を計算する
ことにより, 計算結果を安定にして特徴量の変動を抑え
ようとしている。しかし, 前述の論文によれば, 計算結
果を安定させるために320ms 程度の音声データを使用し
ており,8Khz サンプリングのディジタル音声データで
は,2560 サンプルものデータが必要となる。従って, こ
の方法では, バッファだけのために多くのメモリ資源が
必要となってしまう。従って本発明の目的は, 大きいメ
モリ容量を必要とすることなく, また高速の演算装置を
用いることなく, 前記背景雑音に基づく不快音を生じる
ことのない音声符号化装置及び復号化装置を提供するこ
とである。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に本願が採用する音声符号化装置は，音声信号から音声
特徴量を計算し，上記音声特徴量を構成するパラメータ
を圧縮して送信すると共に，上記音声信号に応じて音声
合成用の駆動信号に対応するインデックスをコードブッ
クから選択して上記圧縮されたパラメータと共に送出す
る音声符号化装置において，上記音声信号内における有
声・無声区間を識別する符号化有声・無声区間識別手段
と，上記無声区間内においてのみ上記音声特徴量の変動
を時間的に平滑化するか，無声区間においては有声区間
よりも強い平滑化を行うかのいずれかの平滑化処理を行
う符号化平滑化手段とを具備してなることを特徴とする
音声符号化装置として構成されている。この場合, 上記
音声特徴量としては, 線スペクトル対を計算し，無声区
間では各線スペクトル対の値を時間的に平滑化した後に
音声特徴量を量子化するものが挙げられる。

【０００９】また本願における音声復号化装置に関する
第１発明は，音声符号化装置からの出力である圧縮され
たパラメータ及び駆動信号生成のためのインデックス等
を受信し，これらのパラメータ及びインデックス等から
音声特徴量及び駆動信号を復元し，それらを用いて音声
を合成する音声復号装置において，上記音声符号化装置
からの圧縮されたパラメータから上記音声信号内の有声
・無声部分を識別する復号化有声・無声区間識別手段
と，上記無声区間内においてのみ上記音声特徴量の変動
を時間的に平滑化するか，無声区間においては有声区間
よりも強い平滑化を行うかのいずれかの平滑化処理を行
う復号化平滑化手段と，平滑化した後の各音声特徴量を
用いて音声を合成する音声合成手段とを具備してなるこ
とを特徴とする音声復号化装置として構成されている。
この場合，上記音声特徴量として線スペクトル対を計算
し，無声区間では各線スペクトル対の値を時間的に平滑
化した後に上記駆動信号を計算し，音声を合成すること
ができる。

【００１０】また第２発明は，音声符号化装置からの出
力である圧縮されたパラメータ及び駆動信号生成のため
のインデックス等を受信し，これらのパラメータ及びイ
ンデックス等から音声特徴量及び駆動信号を復元し，そ
れらを用いて音声を合成する音声復号装置において，符
号化装置からからの圧縮されたパラメータから上記音声
信号内の有声・無声部分を識別する復号化有声・無声区
間識別手段と，無声区間と判断された部分では，上記イ
ンデックスを元に上記コードブックから復元された第１
の駆動信号の一部若しくは全てを他の方法で生成された
第２の駆動信号で置き換えた第３の駆動信号を作成し，
この第３の駆動信号に基づいて音声を合成することを特
徴とする音声復号化装置として構成されている。ここに
上記第２の駆動信号を，乱数等によって発生される雑音
信号を用い，第３の駆動信号をコードブックから復元さ
れた第１の駆動信号と第２の駆動信号の重み付け加算に
より作成することができる。また，有声・無声の切り替
わり境界部では，上記第３の駆動信号を作成する際に，
重み付け加算する第１の駆動信号と乱数等の第２の駆動
信号との割合を連続的に変化させるようにしても良い。
さらに，上記無声部分では，音声特徴量の変動を時間的
に平滑化し，平滑化した後の特徴量と上記駆動信号を用
いて音声を合成するようにしても良い。

【００１１】

【発明の実施の形態】続いて，添付図面を参照して本発
明を具体化した実施例につき説明し，本発明の理解に供
する。尚，以下に示す実施例は本発明を具体化した一例
であって，本発明の技術的範囲を限定するものではな
い。ここに，図１は，本発明の一実施形態に係る音声符
号化装置の一構成を示すブロック図，図２は，本発明の
一実施形態に係る音声復号化装置の一構成を示すブロッ
ク図，図３は，特徴量に関する線スペクトル対の変動を
示すグラフ，図４は，図３に示した線スペクトル対の量
子化後の変動を示すグラフ（平滑化なし），図５は，図
３に示した線スペクトル対の量子化後の変動を示すグラ
フ（平滑化あり），図６は，本発明の一実施例に係る音
声復号化装置の構成を示すブロック図，図７は，上記図
６に示した音声復号化装置における特徴量のパラメータ
の平滑化を行う構成を示すブロック図，図８は，原音声
の背景雑音のスペクトルを示すグラフ，図９は，合成さ
れた背景雑音のスペクトルを示すグラフ，図１０は，従
来のＣＥＬＰ符号化装置の構成を示すブロック図，図１
１は，従来のＣＥＬＰ復号化装置の構成を示すブロック
図である。

【００１２】図１および図２は，本発明の一実施形態に
係る音声符号化装置及び音声復号化装置の構成を示す。
まず音声符号化装置（図１）では入力された音声信号か
ら「特徴量計算部」にて音声の特徴量となる各種パラメ
ータが計算される。次に「有声・無声区間識別部」にお
いて上記特徴量に基づいて，入力信号が現時点で音声を
含んだ有声区間か，背景雑音のみの無声区間かを判断す
る。無声区間と判断された場合には，計算された特徴量
は「特徴量平滑化部」において変動を抑制される。逆
に，有声区間と判断された場合には，特徴量の平滑化は
行わずに計算値をそのまま使う。これ以降は，前記従来
技術で説明した図１０のＣＥＬＰ方式の符号化装置等と
同様であり，特徴量は「パラメータ量子化部」において
量子化（圧縮）される。また音声が入力されると，最適
駆動信号選択部においてコードブック部を検索し，複数
のインデックスの中から，原音に近い音を再現するため
の最適なインデックスを「コードブック部」から検索す
る。こうして符号化装置の出力である量子化された特徴
量パラメータと，コードブック探索結果であるインデッ
クスが復号化装置に送信される。

【００１３】復号化装置では，図２に示すように，それ
らに基づいて音声合成を行う。すなわち，まず「音声特
徴量復号部」では，量子化されているパラメータを音声
特徴量の値に逆変換する。次に，「有声・無声区間識別
部」では，特徴量に基づいて，音声の状態が有声区間
か，無声区間かを判断する。もちろん，符号化装置の
「有声，無声区間識別部」で識別された結果を，陽にパ
ラメータとして含んでいてもよい。無声区間と判断され
た場合には，計算された特徴量は「特徴量平滑化部」に
おいて変動を抑制される。逆に，有声区間と判断された
場合には，特徴量はの平滑化は行わずに計算値をそのま
ま使う。このような平滑化処理を受けた音声のスペクト
ル包絡形状の特徴量から，音声を合成するための音声合
成フィルタのパラメータが決定される。また，合成のた
めの入力に使う駆動信号もインデックスから復元され，
前記特徴量パラメータにより決定される「合成フィルタ
部」に駆動信号を入力することにより，原音に近い音声
が合成される。多くの場合，音声の復号化装置は，音声
合成フィルタ部の後に「ポストフィルタ部」（不図示）
を有し，合成された音声の聴覚上の品質を高めて出力さ
れる。

【００１４】続いて各部分の具体的計算手法を示すが，
一般的に用いられる音声信号処理のアルゴリズムの説明
に関しては「音声情報処理の基礎（オーム社）」等の参
考書に記載されており，一般的なＣＥＬＰ方式と同様な
処理部分に関しては「ＲＣＲ規格２７Ｃ」等の規格書等
に詳しく記載されているので，ここでは省略する。「特
徴量計算部」で計算される主なパラメータには，音声の
音量，スペクトル包絡形状，ピッチ等がある。特徴量の
計算は，フレームと呼ばれる時間的に連続した音声デー
タＸ（ｎ），ｎ＝１，２，…Ｎ_Aを用いた分析によって
行う。先ず音量のパラメータとしては，次式のようなフ
レーム内での音声信号の平均振幅Ａ等が採用可能であ
る。

【００１５】

【数１】また，スペクトル包絡形状の特徴量としては，下の方程
式を解いて得られる線形予測係数α_i，ｉ＝１，２，
…，Ｍがある。

【００１６】

【数２】ここで，Ｒ_i,ｉ＝０，１，２，…，Ｍは連続した音声デ
ータＸ（ｎ），ｎ＝１，２，…Ｎ_aを用いて次式により
計算した自己相関である。ただし，通常ここでＲ_iの計
算に用いられるＮ_a個の音声データは，ハミングウイン
ドウなどを施されたものが使われる。

【００１７】

【数３】この方程式を解く方法としては，Durbinの再帰的解法等
を用いれば効率的であることが, よく知られている。ま
た, ピッチを求める手法としては, 自己相関法等があ
る。下式のＺ変換で表されるような逆合成フィルタに音
声Ｘ（ｎ）を通した出力として得られる予測残差信号の
自己相関関数を計算すれば，音声のピッチに対応する部
分で自己相関関数がピークを持つことが知られている。

【００１８】

【数４】ピッチに関してはこのような計算方法以外に，後で述べ
るコードブック探索において駆動信号が最適な周期性を
持つように評価関数で選択する方法もよく知られてい
る。「有声／無声区間識別」において無声部を検出する
手段としては，音声に基づく方法や信号の周期性に着目
した方法などが用いられる。つまり，比較的小さい音量
で変動が少ないフレームが続いた場合に，無声区間と判
定する方法や，有声部分ではピッチによる周期性を持っ
た信号になるということから周期性の少ない部分を無声
区間と判定する方法などが知られている。周期性を表わ
すパラメータとしては，特徴量の計算で求められた線形
予測係数による予測残差信号の自己相関関数のピーク値
などがよく使われる。

【００１９】「特徴量平滑化部」においては，特に背景
雑音で生じる不快な音の変動に大きく寄与しているスペ
クトル包絡パラメータを時間的に平滑化する。ただし，
上述の線形予測係数をそのまま平滑化した場合には，平
滑化後のパラメータによって構成される合成フィルタが
安定である保証はない。合成フィルタが不安定になる
と，合成される出力信号は発振音になってしまい，極め
て不都合である。この問題を解決する方法として，線形
予測係数αｉ，ｉ＝１，２，…，Ｍを線スペクトル対ω
ｉ，ｉ＝１，２，…，Ｍと呼ばれる等価なパラメータに
変換した後に平滑化すればよい。線スペクトル対への変
換はＭが偶数であれば，αｉから決まる下式の多項式の
根を求めることで行える。Ｐ（ｚ）＝１＋（α₁＋α₁₀）ｚ^-1＋（α₂＋α₁₀）ｚ
^-2・・・＋（α₁₀＋α₁）ｚ^-10＋ｚ^-11 Ｑ（ｚ）＝１＋（α₁−α₁₀）ｚ^-1＋（α₂−α₁₀）ｚ
^-2・・・＋（α₁₀−α₁）ｚ^-10＋ｚ^-11

【００２０】この２個の多項式Ｐ（ｚ）及びＱ（ｚ）の
根は安定であれば，ｚｉ＝ｅ^-j.wiの形の根を持ち，こ
のときのＰ（ｚ）の根０＜ω₁＜ω₃＜ω₅＜…＜ω
_M-1＜πおよび０＜ω₂＜ω₄＜ω₆＜…＜ω_M＜πが
線スペクトル対と呼ばれる。線スペクトル対は０＜ω_i
＜ω_j＜π（ｉ＜ｊ）という条件を満たす限りは安定で
あることが知られているので，元のパラメータが安定で
あれば平滑化後も容易に安定性を維持できる。例えば，
第ｋフレームの線スペクトル対をωｉ（ｋ），ｉ＝１，
２，…，Ｍとすれば，次式のように平滑化を行うことが
できる。 Ω_i（ｋ）＝β・Ω_i（ｋ−１）＋（１−β）・ω
_i（ｋ）（ただし，初期状態としてΩ_i（１）＝ω_i（１）とす
る）０＜β＜１であり，βが大きいほど平滑化は強く行われ
る。明らかに，平滑化前の線スペクトル対ω_i（ｋ）が
上記の安定条件を満たせば，平滑化後のΩ_i（ｋ）も安
定条件を満たす。

【００２１】無声区間においては，このようにして得ら
れる平滑化された線スペクトル対Ω _i（ｋ），ｉ＝１，
２，…，Ｍにもとづいて合成フィルタを構成すれば，背
景雑音部における音質の不快な変動が軽減される。平滑
化後の線スペクトル対に対応する合成フィルタの係数
は，ｅ^-j.Qiを根に持つ多項式を展開して作り出せば上
記の多項式Ｐ（ｚ），Ｑ（ｚ）が構成できることから，
αｉに対応する量子化後の線形予測係数ａ_i，ｉ＝１，
２，…Ｍを以下のように求めることができる。

【００２２】

【数５】有声区間においてパラメータを平滑化してしまうと，人
の声のスペクトルを歪めてしまうことになるので平滑化
せずに元のω_iを用いるか，もしくは声が歪まない程度
で雑音によるパラメータ変動を軽減させる目的でβの小
さな軽い平滑化を行ってもよい。

【００２３】平滑化の効果は，スペクトル包絡形状を表
わす特徴量に対して施すのが最も効果的であるが，もち
ろん音量やピッチなどの他の特徴量に対して行ってもよ
い。「パラメータ量子化」「コードブック」「コードブ
ック探索」に関しては，各種の規格において様々なもの
が用いられており，本実施例でもそれらに準拠したもの
を使うことができる。例えば，「パラメータ量子化部」
ではスカラー量子化や「ベクトル量子化」によってパラ
メータのビット数を削減し，データの圧縮がされる。ま
た，通常「コードブック」は，過去の駆動信号を記憶し
ておき周期波形を作り出す適応コードブックと，周期波
形だけでは表わしきれない部分を補償するための固定的
なコードブックから成るのが一般的である。

【００２４】このコードブックから生成可能な駆動信号
のうち，入力の原音に近い音声を合成する最適な駆動信
号を選択するのが「コードブック探索」である。ここで
は，聴覚重み付けされた歪みを表わす評価関数が最小と
なるような波形を選択する方法が通常用いられている。
その際に，周期波形を作り出す適応コードブックに対し
ては過去に選ばれた駆動信号から周期波形を作り出すた
めのピッチやゲインが決定されインデックスとして出力
され，固定的な信号波形をテーブルとして持っているコ
ードブック部では，それらの信号の中から選ばれた最適
な波形の組み合せや符号・ゲインなどがインデックスと
して出力される。符号化装置から出力された量子化後の
パラメータやコードブックのインデックスは，復号化装
置への入力となり，「特徴量複号部」において特徴量の
値が復元される。また，コードブックのインデックスか
らは符号化装置で選択された駆動信号が生成される。復
元された特徴量は，符号化装置と同様に復号化装置にお
いても平滑化することが可能である。これにより，デー
タ送信元の符号化装置が特徴量平滑化の機能を持たない
ものであっても，復号化装置において平滑化による効果
を与えることができる。「合成フィルタ」の特性は，複
号スペクトル包絡形状を表わす特徴量によって設定され
る。本実施例では，平滑化された線スペクトル対を線形
予測係数に変換したａ_i，ｉ＝１，２，…，Ｍを用い，
次式のｚ変換で表わされるフィルタに駆動信号を入力す
ることにより音声を合成する。

【００２５】

【数６】このように合成された音声は，より聴覚的な音質を向上
させるために通常なんらかの「ポストフィルタ」で処理
する。ポストフィルタとしては，高域強調，スペクトル
整形，ピッチ強調などのフィルタがよく用いられる。

【００２６】以上述べた実施の形態では複号化装置に，
符号化装置から送られてきた音声パラメータなどに基づ
き無声区間／有声区間を判定する機能を持たせ，無性と
判断された区間においては符号化装置から送られてきた
インデックスなどによってコードブックから生成される
駆動信号をそのまま使用しているので，コードブックか
ら生成される駆動信号が人の声に適したものだけであ
り，背景雑音に対して使用した際に不自然な音となる。
これをより自然な雑音に聞こえる音に変えることができ
る実施例を次に示す。この際，有声部分と無声部分とで
背景雑音の質が急に変化する不自然感を緩和するため
に，境界部分ではコードブックから復元した第１の駆動
信号と乱数などの他の方法で発生させた第２の駆動信号
から重み付け加算などによって第３の駆動信号を作り出
す際に，両者を加え合わせる重み付けを連続的に変化さ
せてもよい。さらに，無声部分において，符号化装置か
ら送られてきた音声特徴量を時間的に平滑化して背景雑
音に起因して発生する特徴量の変動を抑える方法と，上
記の駆動信号の加工処理とを併用することにより，背景
雑音の不快感をさらに軽減できる。

【００２７】

【実施例】まず，符号化装置からは元の音声から計算さ
れた音声特徴量を量子化したパラメータや，コードブッ
クから駆動信号を生成するためのインデックスが出力さ
れ，復号化装置への入力となる。復号化装置「特徴量復
号」部において特徴量の値が復元される。また，コード
ブックのインデックスからは符号化装置で選択された駆
動信号が生成される。復号化装置の場合には，図６に示
す如く，符号化装置から送られてきた量子化された音量
のパラメータから音量による有声・無声区間の判断が可
能である。また，コードブックから生成される駆動信号
は人の声帯などで発生するピッチ周期の振動に対応して
おり，この駆動信号の自己相関関数から周期性を検出す
ることが可能であり，有声・無声の判定に用いることが
できる。

【００２８】「駆動信号生成部」では符号化装置で選ば
れたコードブックのインデックスに基づいて「コードブ
ック」部から第１の駆動信号が生成される。また，本実
施例では乱数などによる「ランダム雑音発生部」を設
け，第１の駆動信号とは異なり，より通常の背景雑音と
して自然な音源波形により第２の駆動信号を作り出す。
無声部分と識別された場合には，「駆動信号加工部」に
おいて第１の駆動信号の全部もしくは一部を第２の駆動
信号と置き換えて第３の駆動信号を作り出す。具体例と
しては，第１の駆動信号をｅ１（ｉ），第２の駆動信号
をｅ２（ｉ），ｉ＝１，２，…，Ｎ（Ｎはフレームのサ
イズ）とすれば，以下のような重み付き線形和で第３の
駆動信号を作ることができる。ｅ₃（ｉ）＝ｇ１・ｅ₁（ｉ）＋ｇ２・ｅ₂（ｉ）ｇ１とｇ２はｅ１とｅ２を加え合わせるための重みであ
り，例えばｅ１とｅ２が独立で相関がないとすると，次
式のようにすれば元の駆動信号ｅ１と同じ程度のパワー
を持ったｅ３を作ることができる。

【００２９】

【数７】もちろん，ｇ１とｇ２の値をこれよりも少なめにして，
無声部における背景雑音を抑えぎみに出力することもで
きる。有声部では，基本的に第１の駆動信号をそのまま
（Ｋ＝０）で使用するが，このような駆動信号の置き換
えによる有声部と無声部の境界での背景雑音の質の急激
な変化を軽減するために，有声部と無声部の切り換えの
際にＫを連続的に変化させることも可能である。生成さ
れた駆動信号は，「合成フィルタ」を通すことにより音
声が合成される。合成フィルタの特徴は，復号されたス
ペクトル包絡形状を表わす特徴量によって設定される。
よく知られたパラメータとしては，線形予測係数とよば
れるパラメータａ_i，ｉ＝１，２，…，Ｍがある。これ
を用い，次式のｚ変換で表わされるフィルタに駆動信号
を入力することにより音声を合成する。

【００３０】

【数８】合成フィルタに使われるスペクトル包絡を表わすパラメ
ータは，符号化装置において元の音声から計算され量子
化されて復号化装置に渡されるが，その際に量子化誤差
の影響を受けにくくするなどの目的で，ＰＡＲＣＯＲ係
数や線スペクトル対といったようなパラメータに変換さ
れた後に量子化するものが多い。これらは，線形予測係
数と等価なパラメータなので，互いに変換することが可
能である。これらの音声信号処理の基礎に関しては，参
考書等（“音声情報処理の基礎”，オーム社などを参
照）に詳しく記載されているので，ここでは詳細説明を
省く。

【００３１】特に，線スペクトル対の場合，時間的に平
滑化しても安定性が保証されるので，無声部分などにお
いてパラメータを平滑化することによって，背景雑音の
不自然な変動が抑制され，さらに不快感を軽減させるこ
とも可能である。図７には，そのようなパラメータの平
滑化も行う実施例が示してある。合成された音声は，よ
り聴覚的な音質を向上させるために通常なんらかの「ポ
ストフィルタ」（不図示）で処理する。ポストフィルタ
としては，高域強調，スペクトル整形，ピッチ強調など
のフィルタがよく用いられる。（ＲＣＲ規格２７Ｃなど
を参照）

【００３２】

【発明の効果】本発明によって得られる効果を以下に示
す。また，図３には２０ｄＢ程度の雨音が背景雑音とし
て存在している入力音声から計算された線スペクトル対
の値が示されている。線スペクトル対は，フレームの前
後のデータも含めて２０ｍｓ（１６０サンプル）のデー
タを使って計算した。この値に対して，平滑化を行わな
い従来の方式で線スペクトル対を量子化すると，例えば
図４のようになる。これに対し，本発明によれば，符号
化装置ならびに複号化装置において線スペクトル対は平
滑化され，図５のようになる。これにより，無声区間に
おける背景雑音部の特徴量変動が抑制されていることが
分かり，聴覚による官能試験でも，音質の不自然な変動
による不快感が軽減されている。

【００３３】無声部分における合成フィルタの特性は，
背景雑音スペクトル特性を表わすことになる。したがっ
て，ｅ３を入力として音声を合成した場合にも，出力の
スペクトルは図８，図９でみるように，元の背景雑音と
類似したものとなる。図８と図９は，背景雑音である空
調騒音のスペクトルと，本発明の複合化装置によって合
成された後の音のスペクトルである。もちろん，この方
式によって合成された背景雑音は元の音とは異なるもの
となるが，官能試験によれば，第１の駆動信号をそのま
ま使う従来の方法によって出力される音よりも，第３の
駆動信号によって合成された音のほうが，より自然で不
快感がないという結果が得られた。

【図面の簡単な説明】

【図１】本発明の実施の形態にかかる符号化装置の構
成を示すブロック図。

【図２】本発明の実施の形態にかかる複号化装置の構
成を示すブロック図。

【図３】線スペクトル対（特徴量計算部での値）の変
動を示すグラフ。

【図４】量子化後の線スペクトル対（平滑化しなかっ
た場合の値）の変動を示すグラフ。

【図５】量子化後の線スペクトル対（平滑化した値）
の変動を示すグラフ。

【図６】本発明の一実施例に係る音声復号化装置の構
成を示すブロック図。

【図７】図６に示した音声復号化装置における特徴量
のパラメータの平滑化を行う構成を示すブロック図。

【図８】原音声の背景雑音のスペクトルを示すグラ
フ。

【図９】合成された背景雑音のスペクトルを示すグラ
フ。

【図１０】従来のＣＥＬＰ符号化装置の構成を示すブ
ロック図。

【図１１】従来のＣＥＬＰ復号化装置の構成を示すブ
ロック図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者坂谷亨兵庫県神戸市西区高塚台１丁目５番５号株式会社神戸製鋼所神戸総合技術研究所内 (72)発明者稗方孝之兵庫県神戸市西区高塚台１丁目５番５号株式会社神戸製鋼所神戸総合技術研究所内

Claims

【特許請求の範囲】

【請求項１】音声信号から音声特徴量を計算し，上記
音声特徴量を構成するパラメータを圧縮して送信すると
共に，上記音声信号に応じて音声合成用の駆動信号に対
応するインデックスをコードブックから選択して上記圧
縮されたパラメータと共に送出する音声符号化装置にお
いて，上記音声信号内における有声・無声区間を識別す
る符号化有声・無声区間識別手段と，上記無声区間内に
おいてのみ上記音声特徴量の変動を時間的に平滑化する
か，無声区間においては有声区間よりも強い平滑化を行
うかのいずれかの平滑化処理を行う符号化平滑化手段と
を具備してなることを特徴とする音声符号化装置。
【請求項２】上記音声特徴量として線スペクトル対を
計算し，無声区間では各線スペクトル対の値を時間的に
平滑化した後に音声特徴量を量子化する請求項１記載の
音声符号化装置。
【請求項３】音声符号化装置からの出力である圧縮さ
れたパラメータ及び駆動信号生成のためのインデックス
等を受信し，これらのパラメータ及びインデックス等か
ら音声特徴量及び駆動信号を復元し，それらを用いて音
声を合成する音声復号装置において，上記音声符号化装
置からの圧縮されたパラメータから上記音声信号内の有
声・無声部分を識別する復号化有声・無声区間識別手段
と，上記無声区間内においてのみ上記音声特徴量の変動
を時間的に平滑化するか，無声区間においては有声区間
よりも強い平滑化を行うかのいずれかの平滑化処理を行
う復号化平滑化手段と，平滑化した後の各音声特徴量を
用いて音声を合成する音声合成手段とを具備してなるこ
とを特徴とする音声復号化装置。
【請求項４】上記音声特徴量として線スペクトル対を
計算し，無声区間では各線スペクトル対の値を時間的に
平滑化した後に上記駆動信号を計算し，音声を合成する
請求項３記載の音声復号化装置。
【請求項５】音声符号化装置からの出力である圧縮さ
れたパラメータ及び駆動信号生成のためのインデックス
等を受信し，これらのパラメータ及びインデックス等か
ら音声特徴量及び駆動信号を復元し，それらを用いて音
声を合成する音声復号装置において，符号化装置からか
らの圧縮されたパラメータから上記音声信号内の有声・
無声部分を識別する復号化有声・無声区間識別手段と，
無声区間と判断された部分では，上記インデックスを元
に上記コードブックから復元された第１の駆動信号の一
部若しくは全てを他の方法で生成された第２の駆動信号
で置き換えた第３の駆動信号を作成し，この第３の駆動
信号に基づいて音声を合成することを特徴とする音声復
号化装置。
【請求項６】第２の駆動信号として乱数等によって発
生される雑音信号を用い，第３の駆動信号をコードブッ
クから復元された第１の駆動信号と第２の駆動信号の重
み付け加算により作成する請求項５記載の音声復号化装
置。
【請求項７】有声・無声の切り替わり境界部では，上
記第３の駆動信号を作成する際に重み付け加算する第１
の駆動信号と乱数等の第２の駆動信号との割合を連続的
に変化させる請求項５もしくは請求項６のいずれかに記
載の音声復号化装置。
【請求項８】無声部分では音声特徴量の変動を時間的
に平滑化し，平滑化した後の特徴量と上記駆動信号を用
いて音声を合成する請求項５，請求項６若しくは請求項
７のいずれか１つに記載の音声復号化装置。