JPH07248794A

JPH07248794A - 音声信号処理方法

Info

Publication number: JPH07248794A
Application number: JP6039979A
Authority: JP
Inventors: Masayuki Nishiguchi; 正之西口; Atsushi Matsumoto; 淳松本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-03-10
Filing date: 1994-03-10
Publication date: 1995-09-26
Anticipated expiration: 2017-09-09
Also published as: US5953696A; JP3321971B2

Abstract

(57)【要約】【目的】ピッチの低い音の再生時の鼻詰まり感を抑
え、明瞭度の高いクリアな再生音を得る。【構成】ステップＳ１の第１の強調処理として、高域
側の周波数スペクトルエンベロープの山谷を強調する高
域フォルマント強調処理を施し、次のステップＳ２の第
２の強調処理として、全帯域に渡って、特に低域側〜中
域側に対して、周波数スペクトルエンベロープの谷を深
くするような処理を施している。次のステップＳ３の第
３の強調処理として、音声信号の立ち上がり部分での有
声音（Ｖ）フレームのフォルマントのピーク値を強調す
るような処理を施している。次のステップＳ４の第４の
強調処理として、無条件に高域側のスペクトルエンベロ
ープを強調するような高域強調処理を施している。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声合成系に用いられ
る音声信号処理方法に関し、特に、マルチバンド励起符
号化（ＭＢＥ）の音声復号装置の音声合成系の後置フィ
ルタ（ポストフィルタ）に適用して好ましい音声信号処
理方法に関する。

【０００２】

【従来の技術】音声信号の時間領域や周波数領域におけ
る統計的性質と人間の聴感上の特性を利用して信号圧縮
を行うような符号化方法が種々知られている。この音声
符号化方法としては、大別して、時間領域での符号化、
周波数領域での符号化、合成分析符号化等が挙げられ
る。

【０００３】この音声信号の符号化の具体的な例として
は、ＭＢＥ（Multiband Excitation: マルチバンド励
起）符号化、ＳＢＥ（Singleband Excitation:シングル
バンド励起）符号化、ハーモニック（Harmonic）符号
化、ＳＢＣ（Sub-band Coding:帯域分割符号化）、ＬＰ
Ｃ（Linear Predictive Coding: 線形予測符号化）、あ
るいはＤＣＴ（離散コサイン変換）、ＭＤＣＴ（モデフ
ァイドＤＣＴ）、ＦＦＴ（高速フーリエ変換）等があ
る。

【０００４】

【発明が解決しようとする課題】ところで、上記ＭＢＥ
符号化等のように、周波数領域での処理を中心とする音
声の分析・合成系においては、量子化誤差によりスペク
トル歪が生じ、特に通常ビット割り当てが少ない高域で
の劣化が著しくなることが多い。結果として、このスペ
クトルから合成された音声は、高域フォルマントの消失
もしくはパワー不足、及び高域全体でのパワー不足等に
より明瞭度が失われ、いわゆる鼻のつまったような感じ
が耳につくようになってくる。これは、特にピッチの低
い男声で、ハーモニックスが多い場合に、コサイン合成
の際に０位相で加算すると、ピッチ周期毎に鋭いピーク
が生じ、鼻詰まり感のある再生音となってしまう。

【０００５】これを補正するためには、時間領域でその
補償処理を行うような例えばＩＩＲ（無限インパルス応
答）フィルタ等を用いたフォルマント強調フィルタが用
いられていたが、この場合には音声処理フレーム毎にフ
ォルマントを強調するためのフィルタ係数を算出しなけ
ればならず、実時間処理が困難である。またフィルタの
安定性についても留意する必要があり、演算処理量の割
には効果が大きくないという欠点があった。

【０００６】ここで、低域側のスペクトルの谷間の抑圧
を常時行うと、無声音（ＵＶ）部でシュルシュルという
ノイズが発生し、また、フォルマント強調を常時行う
と、いわゆるサイドエフェクトにより二重話者的に聞こ
えてしまう歪を発生することがあった。

【０００７】本発明は、上記実情に鑑みてなされたもの
であり、音声合成系でのフォルマント強調のような処理
が簡単化され、容易に実時間処理が行えるような音声信
号処理方法の提供を目的とする。

【０００８】また本発明の他の目的は、谷間の抑圧によ
るノイズ発生や、二重話者的な歪の発生等の副作用を抑
えつつ、ポストフィルタ効果による明瞭度の高いクリア
な再生音をひき出すことができるような音声信号処理方
法を提供することである。

【０００９】

【課題を解決するための手段】本発明に係る音声信号処
理方法は、上述した課題を解決するために、周波数領域
での処理を中心とする音声合成系に用いられる音声信号
処理方法において、伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施すことを特徴としている。

【００１０】ここで、上記平滑化は、周波数スペクトル
の強度を示す情報について、周波数軸上で移動平均をと
ることにより行うことが挙げられる。また、上記伝送さ
れた周波数スペクトルの強度を示す信号と、その信号を
周波数軸上で平滑化したものとの差に基づいて、上記ス
ペクトルのフォルマント間の谷部分を深くする処理を施
すことが挙げられ、この場合、上記差の大きさに従っ
て、上記スペクトルのフォルマント間の谷部分を深くす
る減衰量を変化させることが好ましい。

【００１１】また、上記伝送された周波数スペクトルの
強度を示す信号が、有声音区間のものか無声音区間のも
のかを判別し、有声音区間のときのみ上記処理を行うこ
とが挙げられる。

【００１２】また、本発明に係る音声信号処理方法は、
周波数領域での処理を中心とする音声合成系に用いられ
る音声信号処理方法において、音声信号の立ち上がりの
部分における周波数スペクトルのフォルマントを周波数
領域のパラメータを直接操作して強調処理することによ
り、上述の課題を解決する。

【００１３】ここで、有声音区間のときのみ上記処理を
施すことが好ましい。また、上記周波数スペクトルの低
域側のみに対して上記処理を施すことが好ましい。さら
に、上記周波数スペクトルのピーク点のみに対してレベ
ルを増大させる処理を施すことが好ましい。

【００１４】これらの強調処理は、周波数領域のパラメ
ータを直接操作して行っている。このような特徴を有す
る音声信号処理方法は、マルチバンド励起符号化（ＭＢ
Ｅ）方式の音声復号装置の音声合成系の後置フィルタに
適用することが好ましい。

【００１５】

【作用】周波数領域で直接そのパラメータを操作して強
調処理を行うことにより、簡単な構成及び簡単な操作
で、強調したい部分だけを正確に強調でき、実時間処理
が容易に行える。また、中〜低域におけるスペクトルの
谷を深くすることで、鼻詰まり感を低減し、さらに信号
の立ち上がり部分でフォルマント強調することで、より
明瞭度の高いクリアな再生音を得ることができる。この
ような処理を有声音区間でのみ行うことにより、無声音
強調による副作用を抑え、また、フォルマント強調を信
号の立ち上がり部分に限定することで、二重話者的な副
作用を抑えることができる。

【００１６】

【実施例】以下、本発明に係る音声信号処理方法の実施
例について、図面を参照しながら説明する。

【００１７】図１は、本発明に係る音声信号処理方法の
実施例の要部の概略的な動作を説明するためのフローチ
ャートである。この実施例は、符号化側あるいはエンコ
ーダ側で時間軸上の音声信号が周波数軸に変換されて伝
送された周波数領域の情報を処理するような、周波数領
域での処理を中心とする音声合成系に用いられる音声信
号処理方法を前提としている。具体的には、例えば、マ
ルチバンド励起符号化（ＭＢＥ）方式の音声復号装置の
音声合成系の後置フィルタに適用して好ましいものであ
る。この図１に示す実施例の音声信号処理方法において
は、音声スペクトルの周波数軸上のデータを直接操作す
ることで処理を行っている。

【００１８】図１において、ステップＳ１においては、
第１の強調処理として、高域側の周波数スペクトルエン
ベロープの山谷を強調するような高域フォルマント強調
処理を施している。次のステップＳ２においては、第２
の強調処理として、全帯域に渡って、特に低域側〜中域
側に対して、周波数スペクトルエンベロープの谷を深く
するような処理を施している。次のステップＳ３におい
ては、第３の強調処理として、音声信号の立ち上がり部
分での有声音（Ｖ）フレームのフォルマントのピーク値
を強調するような処理を施している。次のステップＳ４
においては、第４の強調処理として、無条件に高域側の
スペクトルエンベロープを強調するような高域強調処理
を施している。

【００１９】これらの各ステップＳ１〜Ｓ４において
は、周波数領域のパラメータである各バンド毎の振幅値
あるいは周波数軸上でピッチ単位で繰り返すハーモニッ
クスのスペクトル強度を直接操作することで、上述した
ような第１〜第４の強調処理を実現している。なお、こ
れらのステップＳ１〜Ｓ４における第１〜第４の強調処
理は、いずれかを任意に省略したり、順序を入れ替えて
もよい。

【００２０】次に、各ステップＳ１〜Ｓ４での強調処理
のより詳細な説明に先立って、本実施例が適用される音
声合成系としてのマルチバンド励起（ＭＢＥ）符号化方
式の音声復号装置の概略構成について、図２を参照しな
がら説明する。

【００２１】この図２の入力端子１１には、後述するＭ
ＢＥ方式の音声符号化装置、いわゆるＭＢＥボコーダか
ら伝送されてきた量子化振幅データが供給されている。
この量子化振幅データは、上記ＭＢＥボコーダにおい
て、入力音声信号の処理フレーム毎のスペクトルを該音
声信号のピッチを単位として分割した各バンド毎の振幅
値を、ピッチの値によらない一定のデータ数に変換し、
ベクトル量子化して得られたデータである。入力端子１
２及び１３には、上記ＭＢＥボコーダにおいて符号化さ
れたピッチデータ及び各バンド毎に有声音か無声音かを
示すＶ／ＵＶ判別データがそれぞれ供給されている。

【００２２】入力端子１１からの上記量子化振幅データ
は、逆ベクトル量子化部１４に送られて逆量子化され、
データ数逆変換部１５に送られて逆変換されて上記バン
ド毎の振幅値とされた後、本発明実施例の要部となる強
調処理部１６に送られる。この強調処理部１６において
は、上記図１の各ステップＳ１〜Ｓ４にそれぞれ対応す
る第１〜第４の強調処理が施される。すなわち、高域側
のスペクトルの山谷を強調する高域フォルマント強調処
理としての第１の強調処理と、全帯域、特に低域側〜中
域スペクトルの谷を深くするような第２の強調処理と、
信号の立ち上がりでの有声音フレームのフォルマントの
ピーク値を強調する第３の強調処理と、無条件に高域側
のスペクトルを強調する第４の強調処理とが、強調処理
部１６において施される。この場合の各強調処理は、周
波数領域のパラメータを直接操作することで実現してい
る。これら第１〜第４の強調処理は、いずれかを任意に
省略したり、順序を入れ替えてもよい。

【００２３】強調処理部１６において上述のような強調
処理が施されて得られた振幅データは、有声音合成部１
７及び無声音合成部２０に送られる。

【００２４】入力端子１２からの上記符号化ピッチデー
タは、ピッチ復号化部１８で復号化され、データ数逆変
換部１５、有声音合成部１７及び無声音合成部２０に送
られる。また入力端子１３からのＶ／ＵＶ判別データ
は、有声音合成部１７及び無声音合成部２０に送られ
る。有声音合成部１７では例えば余弦(cosine)波合成に
より時間軸上の有声音波形を合成して、加算部３１に送
る。

【００２５】無声音合成部２０においては、先ず、ホワ
イトノイズ発生部２１からの時間軸上のホワイトノイズ
信号波形を、所定の長さ（例えば２５６サンプル）で適
当な窓関数（例えばハミング窓）により窓かけをし、Ｓ
ＴＦＴ処理部２２によりＳＴＦＴ（ショートタームフー
リエ変換）処理を施すことにより、ホワイトノイズ信号
の周波数軸上のパワースペクトルを得る。このＳＴＦＴ
処理部２２からのパワースペクトルをバンド振幅処理部
２３に送り、ＵＶ（無声音）とされたバンドについて上
記振幅を乗算し、他のＶ（有声音）とされたバンドの振
幅を０にする。このバンド振幅処理部２３には上記振幅
データ、ピッチデータ、Ｖ／ＵＶ判別データが供給され
ている。バンド振幅処理部２３からの出力は、ＩＳＴＦ
Ｔ処理部２４に送られ、位相は元のホワイトノイズの位
相を用いて逆ＳＴＦＴ処理を施すことにより時間軸上の
信号に変換する。ＩＳＴＦＴ処理部２４からの出力は、
オーバーラップ加算部２５に送られ、時間軸上で適当な
（元の連続的なノイズ波形を復元できるように）重み付
けをしながらオーバーラップ及び加算を繰り返し、連続
的な時間軸波形を合成する。オーバーラップ加算部２５
からの出力信号が上記加算部３１に送られる。

【００２６】このように、各合成部１７、２０において
合成されて時間軸上に戻された有声音部及び無声音部の
各信号を、加算部３１により適当な固定の混合比で加算
することにより、出力端子３２より再生された音声信号
を取り出す。

【００２７】次に、上記強調処理部１６での各種強調処
理、すなわち、上記図１の各ステップＳ１〜Ｓ４で行う
ような各強調処理について、それぞれ図面を参照しなが
ら詳細に説明する。

【００２８】先ず、上記図１のステップＳ１において行
う第１の強調処理、すなわち、スペクトルの高域側の山
谷を強調する高域フォルマント強調処理の具体例を、図
３のフローチャートに示している。

【００２９】ここで、上記データ数変換部１５からのス
ペクトルエンベロープ情報をａ_m[k]とする。このａ_m[k]
は、ピッチ周期に対応するピッチ角周波数ω₀毎のスペ
クトル、すなわちハーモニックスの強度あるいは振幅値
を示し、（ｆｓ／２）πまでにＰ／２本存在する。ここ
で、ｋはいわゆるハーモニックスの番号あるいはバンド
のインデックス番号であり、周波数軸上でピッチ周期で
インクリメントされる整数値である。ｆｓはサンプリン
グ周波数、Ｐはピッチラグ、すなわちピッチ周期に相当
するサンプル数を表す値である。また、ａ_m[k]は、ｄＢ
領域のデータであり、リニアの値に戻される前のものと
する。

【００３０】図３のステップＳ１１においては、スペク
トルの概形を得るために、ａ_m[k]を円滑化あるいはスム
ージングしたものの移動平均を算出している。この移動
平均ave[j]は、次の式で表される。

【００３１】

【数１】

【００３２】これらの式において、Ｌ＋１は有効なハー
モニクスの本数であり、通常はＬ＝Ｐ／２、又は、Ｌ＝
（Ｐ／２）×（3400／4000）である。

【００３３】上記（１）式は、移動平均を計算するため
に使用するデータの端点が、０以上Ｌ以下の範囲に入る
場合である。また、上記（２）式は０側が、上記（３）
式はＬ側がデータの端点にひっかかる場合、すなわち計
算のためのデータがｗ個そろわない場合である。このよ
うな場合は、存在するデータのみを使用して移動平均を
求める。例えば、０番目の移動平均ave[0]や１番目の移
動平均ave[1]は、上記（２）式より、次の計算を行って
求めるわけである。

【００３４】

【数２】

【００３５】次のステップＳ１２では、上記各バンド毎
の振幅値の内の最大値を検出する。すなわち、上記ａ
_m[k]の０≦ｋ＜ｌ区間におけるピーク値を検出する。ｌ
は例えば２５であり、このピーク値をpkとする。

【００３６】次のステップＳ１３で、この最大値あるい
はピーク値pkが所定の閾値Th₁よりも大きいか否かを判
別し、ＮＯのときにはステップＳ１４ａ〜Ｓ１４ｄによ
り高域フォルマント強調処理を何も行わないで、終了あ
るいはリターンする。ピーク値pkが所定の閾値Th₁より
も大きいＹＥＳのときには、ステップＳ１５ａ以降に進
んで、以下に説明するような高域フォルマント強調処理
を行う。これは、もともとスペクトルの値（各バンド毎
の振幅値）が小さいときには、強調を行うとかえって不
自然な感じになることを考慮して、ピーク値pkが上記閾
値Th₁よりも大きいときのみ、以下のような強調処理を
行うものである。上記閾値Th₁は、例えば６５としてい
る。

【００３７】この高域フォルマント強調処理において
は、０≦ｋ≦Ｌの範囲のｋについて、ステップＳ１６で
ａ_m[k]がpk−αより小さいか否かを検出し、ＹＥＳのと
きにはステップＳ１７に、ＮＯのときにはステップＳ１
８に進む。このαは例えば２３としている。

【００３８】ステップＳ１７では、出力されるスペクト
ルエンベロープの振幅値をａ_{m_e}[k]とするとき、ａ_{m_e}[k]＝ａ_m[k]＋lim(ａ_m[k]−ave[k])・ｗ[k] ・・・（４）のようなフォルマント強調が行われる。

【００３９】この（４）式中のｗ[k] は、強調処理に周
波数特性を持たせるための重み付け関数であり、低域か
ら高域に向かって徐々に０→１の重み付けがなされるよ
うな係数である。これは高域で上記フォルマント強調を
効かすためのものである。また、上記（４）式中の関数
lim( )は、入力をｘとするとき、 lim(ｘ) ＝ sgn(ｘ)（｜ｘ｜／β）^1/2γ ；｜ｘ｜≦βのとき lim(ｘ) ＝ sgn(ｘ)・γ ；｜ｘ｜＞βのとき・・・（５）となる関数を用いることができる。ここで、sgn(ｘ) は
ｘの符号を返す関数であり、ｘ≧０のとき sgn(ｘ)＝
１、ｘ＜０のとき sgn(ｘ)＝−１となる。この関数lim
(ｘ) の例を図４に示す。図中の括弧内の数値は、β＝
８、γ＝４としたときの例である。

【００４０】これに対して、ａ_m[k]≧pk−αのときに進
むステップＳ１８では、ａ_{m_e}[k]＝ａ_m[k] ・・・（６）のように入力データをそのまま出力している。

【００４１】ステップＳ１５ａ、Ｓ１５ｃ、Ｓ１５ｄ
は、上記ｋを０から１ずつインクリメントしてＬまで計
算を行わせるための処理である。

【００４２】このような処理によって得られた出力ａ
_{m_e}[k]は、高域側のスペクトルの山谷が強調されたもの
となる。

【００４３】なお、ステップＳ１４ａ〜Ｓ１４ｄにおい
ては、上記ｋを０からＬまでの範囲で１ずつインクリメ
ントしながら、上記（６）式のように出力値ａ_{m_e}[k]を
そのままａ_m[k]で置き換える処理を０≦ｋ≦Ｌの範囲の
全てのｋについて行って、上述のような高域側フォルマ
ント強調処理が行われていない出力を得ている。

【００４４】次に、図１のステップＳ２の第２の強調処
理である全帯域のスペクトルの谷を深くする処理の具体
例を、図５のフローチャートに示す。

【００４５】図５の最初のステップＳ２１においては、
現在処理を行っているフレームが有声音（Ｖ）であるか
無声音（ＵＶ）であるかを判別している。このＶ／ＵＶ
判別は、例えば、エンコーダ側に後述するようなマルチ
バンド励起（ＭＢＥ）符号化を用いたＭＢＥボコーダを
用いる場合には、各バンド毎のＶ／ＵＶ判別データを用
いて行うことができる。例えば、各バンド毎のＶ／ＵＶ
判別フラグの内、Ｖとなるフラグの個数をＮ_V 、ＵＶと
なるフラグの個数をＮ_UVとするとき、全帯域、例えば２
００〜３４００HzにおけるＶ判別フラグの含有率Ｎ_V ／
（Ｎ_V ＋Ｎ_UV）を求め、これがある閾値、例えば０．
６、を超える場合に、有声音（Ｖ）フレームであると判
別すればよい。また、Ｖ／ＵＶ判別バンド数を例えば１
２バンド程度にまとめるあるいは縮退させる場合には、
上記Ｎ_V ＋Ｎ_UVは１２程度となる。さらに、低域側を
Ｖ、高域側をＵＶとするようにバンドのＶ／ＵＶの切換
点あるいはトランジエントを１箇所で表す場合には、こ
のトランジエント位置が、有効帯域（例えば２００〜３
４００Hz）の６割（約２０４０Hz）程度より高域側に存
在する場合を有声音（Ｖ）フレームであると判別するよ
うにしてもよい。

【００４６】このようなステップＳ２１にて現在フレー
ムが有声音（Ｖ）フレームであると判別されたときに
は、ステップＳ２２〜Ｓ２５に進んで、後述するような
強調処理を施している。これらの各ステップＳ２２〜Ｓ
２５の内、ステップＳ２２、Ｓ２４、Ｓ２５は、ｋを０
からＬまでインクリメントするための処理を行うための
ものであり、ステップＳ２３において、スペクトルの谷
を深くする処理を行っている。すなわち、この第２の強
調処理は、出力信号であるスペクトルエンベロープをａ
_{m_2e}[k] とするとき、０≦ｋ≦Ｌに対して、ａ_{m_2e}[k]＝ａ_{m_e}[k]＋lim₂(ａ_m[k]-ave[k])・ｗ₂[int(kM/L)] …（７）のような処理を行うものである。

【００４７】この（７）式において、ａ_{m_e}[k]は上記第
１の強調処理を受けたスペクトルエンベロープで、ａ
_m[k]は強調処理を一切受けていないもの、ave[k]は先に
求めた移動平均をそのまま用いるものである。

【００４８】上記（７）式中の関数ｗ₂[ ]は、低域側で
強調処理を効かせるための重み付け係数であり、配列の
長さあるいは要素の数を、ｗ₂[0]〜ｗ₂[M]のＭ＋１個に
している。ここで、ｋは何番目のハーモニックスである
かを示すインデックスであるので、ω₀をピッチに対応
する基本角周波数とするとき、ｋ×ω₀が角周波数を表
す。すなわちｋの値そのものは周波数とは直接一致しな
い。そこで、Ｌはω₀によって変わることを考慮し、ｋ
の最大値Ｌでｋを正規化（ノーマライズ）して、Ｌの値
に拘らず０〜Ｍの間で変化するようにし、周波数と対応
するようにしたのが、int(kM/L) の意味である。ここで
Ｍは固定値、例えば４４であり、ＤＣ分も含めたＭ＋１
は４５となる。従って、ｗ₂[i]は、０≦ｉ≦Ｍの範囲
で、周波数と１対１に対応している。int( )は、最も近
い整数を返す関数であり、ｗ₂[i]は、ｉの増加に従って
１→０へと変化してゆく。

【００４９】次に、上記（７）式中の関数lim₂( ) は、
入力ｘに対して、 lim₂(ｘ)＝０：ｘ≧０のとき lim₂(ｘ)＝−ｃ（−ｘ／ｃ）^1/2：０＞ｘ≧−ｃのとき lim₂(ｘ)＝−ｃ：−ｃ＞ｘのとき・・・（８）を出力するようなものである。ここでｃ＝２０とした例
を、図６に示す。

【００５０】図５のステップＳ２１において無声音（Ｕ
Ｖ）フレームであると判別されたときには、ステップＳ
２６〜Ｓ２９に進んで、入力ａ_{m_e}[k]に対して何ら強調
を行わずに出力ａ_{m_2e}[k] を得ている。すなわち、ＵＶ
フレームでは、０≦ｋ≦Ｌに対して、ａ_{m_2e}[k] ＝ａ_{m_e}[k] としている。このような出力をそのまま入力で置き換え
る処理は、ステップＳ２７にて行っており、他のステッ
プＳ２６、Ｓ２８、Ｓ２９では、インデックス値ｋを０
からＬまでインクリメントしている。

【００５１】このようにして、第２の強調処理工程を経
た出力ａ_{m_2e}[k] を得ている。この実施例では、有声音
（Ｖ）フレームのみ、スペクトルの谷を深くする現実の
強調を行っている。このとき、上記ｃの値として、例え
ば２０とかなり大きな値を選んで、大きな変形を行って
いるが、Ｖフレームのみに実際の強調を施しているた
め、何ら問題はない。なお、有声音（Ｖ）フレームと無
声音（ＵＶ）フレームとを区別せずに一律にこの強調を
施すと、シャリシャリと異音を発することがあるため、
上記ｃを小さくする等の対策が必要とされる。

【００５２】以上の第１、第２の強調処理により、ピッ
チの低い男声等における鼻詰まり感はかなり解消され、
クリアな音質となるが、さらにメリハリのある音質とす
るために、上記図１のステップＳ３の第３の強調処理を
施す。これは、信号の立ち上がり部分における有声音
（Ｖ）フレームのフォルマント強調を行うものであり、
図７に示すフローチャートを参照しながら説明する。

【００５３】図７の最初のステップＳ３１では信号の立
ち上がり部分か否かの判別を、次のステップＳ３２では
有声音（Ｖ）フレームか否かの判別をそれぞれ行ってお
り、いずれもＹＥＳとされたときに、ステップＳ３３〜
Ｓ４０の強調処理を行っている。

【００５４】ステップＳ３１での信号の立ち上がり部分
か否かの判別は、種々の方法があるが、本実施例におい
ては、次のようにして行っている。すなわち、先ず、現
在フレームの信号の大きさをＳａ_{m_c}として、次式によ
り定義する。

【００５５】

【数３】

【００５６】この（９）式のａ_m[k]は、対数スペクトル
強度の値を用いるものとしている。ここで、１フレーム
前の信号の大きさを同様にＳａ_{m_p}とし、Ｓａ_{m_c}／Ｓａ_{m_p}＞ｔｈ_a ・・・（１０）のときが信号の立ち上がり部分であるとして、トランジ
エントフラグｔr をセットし、ｔr ＝１とする。それ以
外ではｔr ＝０である。上記閾値ｔｈ_aの具体的な値と
しては、例えば、ｔｈ_a＝１．２とする。なお、log の
対数値で１．２倍は、リニア値に換算して約２倍程度に
相当する。

【００５７】上記（９）式では、簡便に信号の大きさを
大まかに表す量を算出するために、対数スペクトル強度
ａ_m[k]を単に足し合わせているが、この他、リニア領域
で求めたエネルギやｒｍｓ値等を用いてもよい。また、
上記（９）式の代わりに、

【００５８】

【数４】

【００５９】を用い、上記（１０）式の代わりに、Ｓａ_{m_c}−Ｓａ_{m_p}＞ｔｈ_b のときに上記フラグｔr をセット、すなわちｔr ＝１、
としてもよい。この場合の閾値ｔｈ_bの具体例は、ｔｈ
_b＝２．０、である。

【００６０】図７のステップＳ３１においては、上記ト
ランジエントフラグｔr が１であるか否かを判別し、Ｙ
ＥＳのときステップＳ３２に進み、ＮＯのときステップ
Ｓ４１に進んでいる。ステップＳ３２の有声音（Ｖ）フ
レームか否かの判別においては、例えば上記図５のステ
ップＳ２１と同様な方法により判別を行えばよく、さら
に、上記第２の強調処理が先に行われている場合には、
上記ステップＳ２１で行われたＶフレーム判別結果をそ
のまま用いればよい。

【００６１】ステップＳ３２でＹＥＳと判別されたとき
に進むステップＳ３３〜Ｓ４０の処理工程において、実
際の強調処理はステップＳ３７にて行われる。これは、
０≦ｋ≦Ｌにおいて、ａ_m[k]がフォルマントのピークの
とき、第３の強調処理された出力ａ_{m_e3}[k] を、ａ_{m_e3}[k] ＝ａ_{m_e2}[k]＋３.０・・・（１１）とし、その他のａ_m[k]では、ステップＳ３８にて何も処
理せずに、ａ_{m_e3}[k] ＝ａ_{m_e2}[k] としている。ここで、ａ_{m_e2}[k] は、上記第２の強調処
理工程を経て第３の強調処理工程に供給される入力を示
している。

【００６２】ここで、フォルマントのピーク、すなわち
スペクトルエンベロープにおいて上に凸となる曲線の頂
点の検出は、ステップＳ３４、Ｓ３５で行っている。す
なわち、１≦ｋ≦Ｌの範囲で、（ａ_m[k]−ａ_m[k-1]）（ａ_m[k+1]−ａ_m[k]）＜０かつ、ａ_m[k]−ａ_m[k-1]＞０・・・（１２）を満たすようなｋがピーク位置となり、低域側から
ｋ₁、ｋ₂、・・・、ｋ_Nとすると、ｋ₁が第１フォル
マント、ｋ₂が第２フォルマント、・・・、ｋ_Nが第Ｎ
フォルマントにそれぞれ対応することになる。

【００６３】本実施例においては、低域側から３箇所に
ついて上記（１２）式の条件を満たしたところまでで上
記フォルマントピークの検出及び上記（１１）式の処理
を打ち切っている。これは、初期設定ステップＳ３３で
Ｎ＝３とし、ピーク検出後のステップＳ３６でＮ＝０と
なったか否かを検出し、ステップＳ３７では上記（１
２）式の計算と同時にＮ＝Ｎ−１のデクリメントを行う
ことで実現している。

【００６４】なお、ステップＳ３３でのｋ＝１の初期設
定、ステップＳ３９でのｋ＝ｋ＋１のインクリメント、
ステップＳ４０でのｋ＞Ｌか否かの判別により、１≦ｋ
≦Ｌの範囲での処理を順次行わせている。

【００６５】また、ステップＳ３１、Ｓ３２の一方でＮ
Ｏと判別されたとき、すなわち、信号の立ち上がりでな
い（ｔr ＝０）とき、又は有声音（Ｖ）フレームでない
ときには、ステップＳ４１〜Ｓ４４により、０≦ｋ≦Ｌ
の範囲で出力ａ_{m_3e}[k] をそのまま入力ａ_{m_2e}[k] で置
き換える処理、すなわち、ａ_{m_3e}[k] ＝ａ_{m_2e}[k] のような処理を行わせている。

【００６６】このような第３の強調処理として、有声音
（Ｖ）フレームのフォルマントピークを高めるような強
調を行うことで、さらにメリハリのある音質にすると共
に、このフォルマント強調を立ち上がり部に限定するこ
とで、二重話者的になってしまう副作用を抑えている。

【００６７】なお、この第３の強調処理では、上記（１
２）式により、ピーク点のみについて３ｄＢ大きくして
いるが、凸部を全体的に強調してもよく、強調量も３ｄ
Ｂに限定されない。また、低域側から３箇所のピーク点
についてのみ強調を行っているが、２箇所以下あるいは
４箇所以上行うようにしてもよい。

【００６８】次に、上記図１のステップＳ４の第４の強
調処理としての高域強調処理について、図８のフローチ
ャートを参照しながら説明する。

【００６９】この第４の強調処理は、無条件に高域側の
スペクトルを強調するものである。すなわち、図８の最
初のステップＳ４６で初期設定としてｋ＝０とし、次の
ステップＳ４７で、ａ_{m_e4}[k] ＝ａ_{m_3e}[k] ＋ Emp[int(kM/L)] ・・・（１３）のような強調を行っている。ここでも上述した（７）式
と同様に、ｋの最大値Ｌでｋを正規化（ノーマライズ）
して、Ｌの値に拘らず０〜Ｍの間で変化するようにし、
周波数と対応するようにしたのが、int(kM/L) の意味で
ある。

【００７０】配列Emp[i]は、０〜Ｍ、Ｍは例えば４４、
のＭ＋１個の要素から成り、０≦ｉ≦Ｍであり、ｉの増
加に伴って、０から３〜４程度増加するような、すなわ
ち、３〜４ｄＢ程度の高域強調を行うようなものであ
る。

【００７１】ステップＳ４８ではｋをインクリメント
し、ステップＳ４９ではｋ＞Ｌか否かを判別し、ＮＯの
ときはステップＳ４７に戻り、ＹＥＳのときはメインル
ーチンにリターンしている。

【００７２】次に、図９、図１０は、上記第１〜第４の
強調処理前のスペクトルエンベロープの振幅あるいは強
度ａ_m[k]と、上記移動平均ave[k]と、上記第１〜第４の
強調処理を行って得られた振幅あるいは強度ａ_{m_e4}[k]
との具体例を示す図であり、図９は信号の定常部での一
例を、図１０は信号の立ち上がり部での一例をそれぞれ
示している。

【００７３】図９の例においては、定常部であるため、
上記第３の強調処理である信号立ち上がりでの有声音フ
レームのフォルマント強調処理が行われていないのに対
して、図１０の例においては、信号の立ち上がり部であ
るため、上記第３の強調処理を含む全ての処理が施され
ている。

【００７４】次に、本発明に係る音声信号処理方法が適
用される音声合成系に信号を供給するためのエンコーダ
側の一例として、音声信号の合成分析符号化装置（いわ
ゆるボコーダ）の一種のＭＢＥ（Multiband Excitatio
n: マルチバンド励起）ボコーダの具体例について、図
面を参照しながら説明する。このＭＢＥボコーダは、
「マルチバンド励起ボコーダ」（"Multiband Excitatio
n Vocoder", D.W.Griffinand J.S. Lim, IEEE Trans. A
coustics, Speech, and Signal Processing, vol.36, N
o.8, pp.1223-1235, Aug.1988）に開示されているもの
であり、従来のＰＡＲＣＯＲ（PARtial auto-CORrelati
on: 偏自己相関）ボコーダ等では、音声のモデル化の際
に有声音区間と無声音区間とをブロックあるいはフレー
ム毎に切り換えていたのに対し、ＭＢＥボコーダでは、
同時刻（同じブロックあるいはフレーム内）の周波数軸
領域に有声音（Voiced）区間と無声音（Unvoiced）区間
とが存在するという仮定でモデル化している。

【００７５】図１１は、上記ＭＢＥボコーダの全体の概
略構成を示すブロック図である。この図１１において、
入力端子１０１には音声信号が供給されるようになって
おり、この入力音声信号は、ハイパスフィルタ（ＨＰ
Ｆ）等のフィルタ１０２に送られて、いわゆる直流（Ｄ
Ｃ）オフセット分の除去や帯域制限、例えば２００〜３
４００Hzに制限、のための少なくとも低域成分、例えば
２００Hz以下の除去が行われる。このフィルタ１０２を
介して得られた信号は、ピッチ抽出部１０３及び窓かけ
処理部１０４にそれぞれ送られる。ピッチ抽出部１０３
では、入力音声信号データが所定サンプル数Ｎ、例えば
Ｎ＝２５６、の単位でブロック分割、あるいは方形窓に
よる切り出しが行われ、このブロック内の音声信号につ
いてのピッチ抽出が行われる。このような切り出しブロ
ック（２５６サンプル）を、例えばＬサンプル（例えば
Ｌ＝１６０）のフレーム間隔で時間軸方向に移動させて
おり、各ブロック間のオーバラップはＮ−Ｌサンプル
（例えば９６サンプル）となっている。また、窓かけ処
理部１０４では、１ブロックＮサンプルに対して所定の
窓関数、例えばハミング窓をかけ、この窓かけブロック
を１フレームＬサンプルの間隔で時間軸方向に順次移動
させている。窓かけ処理された出力信号のデータ列に対
して、直交変換部１０５により例えば高速フーリエ変換
ＦＦＴ等の直交変換処理が施される。

【００７６】ピッチ抽出部１０３では、例えばセンタク
リップ波形の自己相関法を用いて、ピーク周期を決めて
いる。このとき、現在フレームに属する自己相関データ
（自己相関は１ブロックＮサンプルのデータを対象とし
て求められる）から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±２０％の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部１０３ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度（ファイン）ピッチサーチ部１０
６に送られて、クローズドループによる高精度のピッチ
サーチ、すなわちピッチのファインサーチが行われる。

【００７７】高精度ピッチサーチ部１０６には、ピッチ
抽出部１０３で抽出された整数値の粗ピッチデータと、
直交変換部１０５により例えばＦＦＴされた周波数軸上
のデータとが供給されている。この高精度ピッチサーチ
部１０６では、上記粗ピッチデータ値を中心に、0.２〜
0.５きざみで±数サンプルずつ振って、最適な小数点付
き、いわゆるフローティング表示のファインピッチデー
タの値へ追い込む。このときのファインサーチの手法と
して、いわゆる合成による分析（Analysis bySynthesis
）法を用い、合成されたパワースペクトルが原音のパ
ワースペクトルに最も近くなるようにピッチを選んでい
る。

【００７８】上記高精度ピッチサーチ部１０６からの最
適ピッチ及び振幅｜Ａ_m｜のデータは、有声音／無声音
判別部１０７に送られ、上記各バンド毎に有声音／無声
音の判別が行われる。この判別のために、ＮＳＲ（ノイ
ズｔｏシグナル比）を利用する。すなわち、このＮＳＲ
値が所定の閾値（例えば0.３）より大のとき、すなわち
エラーが大きいときには、当該バンドをＵＶ（Unvoice
d、無声音）と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをＶ
（Voiced、有声音）と判別する。

【００７９】次に、振幅再評価部１０８には、直交変換
部１０５からの周波数軸上データ、高精度ピッチサーチ
部１０６からのファインピッチと評価された振幅｜Ａ_m
｜との各データ、及び上記有声音／無声音判別部１０７
からのＶ／ＵＶ（有声音／無声音）判別データが供給さ
れている。この振幅再評価部１０８では、有声音／無声
音判別部１０７において無声音（ＵＶ）と判別されたバ
ンドに関して、再度振幅｜Ａ_m｜_UVを求めている。

【００８０】この振幅再評価部１０８からのデータは、
一種のサンプリングレート変換部であるデータ数変換部
１０９に送られる。このデータ数変換部１０９は、上記
ピッチに応じて周波数軸上での分割帯域数が異なり、デ
ータ数、特に振幅データの数が異なることを考慮して、
一定の個数にするためのものである。すなわち、例えば
有効帯域を３４００Hzまでとすると、この有効帯域が上
記ピッチに応じて、８バンド〜６３バンドに分割される
ことになり、これらの各バンド毎に得られる上記振幅｜
Ａ_m｜（ＵＶバンドの振幅｜Ａ_m｜_UVも含む）データの
個数も８〜６３と変化することになる。このためデータ
数変換部１０９では、この可変個数の振幅データを一定
個数Ｎ_C（例えば４４個）のデータに変換している。

【００８１】ここで本具体例においては、周波数軸上の
有効帯域１ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をＮ_F個に拡大した後、帯域制限型のＫ_OS倍（例えば８
倍）のオーバーサンプリングを施すことによりＫ_OS倍の
個数の振幅データを求め、このＫ_OS倍の個数（( ｍ_MX＋
１）×Ｋ_OS個）の振幅データを直線補間してさらに多く
のＮ_M個（例えば２０４８個）に拡張し、このＮ_M個の
データを間引いて上記一定個数Ｎ_C（例えば４４個）の
データに変換する。

【００８２】このデータ数変換部１０９からのデータ
（上記一定個数Ｎ_Cの振幅データ）がベクトル量子化部
１１０に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部１１０からの量子化出力データは、出力端子１
１１を介して取り出される。また、上記高精度のピッチ
サーチ部１０６からの高精度（ファイン）ピッチデータ
は、ピッチ符号化部１１５で符号化され、出力端子１１
２を介して取り出される。さらに、上記有声音／無声音
判別部１０７からの有声音／無声音（Ｖ／ＵＶ）判別デ
ータは、出力端子１１３を介して取り出される。これら
の各出力端子１１１〜１１３からのデータは、所定の伝
送フォーマットの信号とされて伝送される。

【００８３】なお、これらの各データは、上記Ｎサンプ
ル（例えば２５６サンプル）のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Ｌサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、Ｖ／ＵＶ判別データ、振幅データが更新されるこ
とになる。

【００８４】なお、上記図１１の音声分析側（エンコー
ド側）の構成や図２の音声合成側（デコード側）の構成
については、各部をハードウェア的に記載しているが、
いわゆるＤＳＰ（ディジタル信号プロセッサ）等を用い
てソフトウェアプログラムにより実現することも可能で
ある。

【００８５】なお、本発明は上記実施例のみに限定され
るものではなく、例えば、上記第１〜第４の強調処理は
順序を入れ替えてもよく、また全ての処理を行わせずに
一部を省略してもよい。また、本発明に係る音声信号処
理方法が適用される音声合成装置は図２の例に限定され
ず、例えば、データ数逆変換前の信号に対して強調処理
を行うようにしたり、エンコード側でのデータ数変換や
デコード側でのデータ数逆変換を行わずに強調処理を行
うようにしてもよい。

【００８６】

【発明の効果】本発明に係る音声信号処理方法によれ
ば、周波数領域のパラメータを直接操作して強調してい
るため、簡単な構成及び簡単な操作で、強調したい部分
だけを正確に強調でき、自然感を損なうことなく合成音
の明瞭度を向上させることができる。これは、時間軸方
向の高域強調フィルタ（例えばＩＩＲフィルタ）等を用
いて時間領域で処理するときに不可欠とされたフィルタ
のポール（極）の位置の計算が不要となるので、容易に
実時間処理を行うことができ、フィルタの不安定さによ
る悪影響等を完全に回避できるという利点にも結び付く
ものである。

【００８７】また、伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施しているため、再生音の鼻詰まり感を低
減することができる。

【００８８】ここで、上記平滑化を周波数軸上で移動平
均をとることにより行い、周波数スペクトルの強度を示
す信号と、その信号を周波数軸上で平滑化したものとの
差に基づいて、上記スペクトルのフォルマント間の谷部
分を深くする処理を施すことにより、簡単な計算処理で
有効な強調が行える。また、有声音区間のときのみ強調
処理を行わせることにより、無声音強調によるシュルシ
ュルというノイズ発生の副作用を抑えることができる。

【００８９】さらに、本発明に係る音声信号処理方法に
よれば、周波数領域での処理を中心とする音声合成系に
用いられる音声信号処理方法において、音声信号の立ち
上がりの部分における周波数スペクトルのフォルマント
を周波数領域のパラメータを直接操作して強調処理する
ことにより、より明瞭度の高いクリアな音質で、メリハ
リのきいた再生音を得ることができ、しかも二重話者的
な副作用を低減することができる。

【００９０】この場合も、有声音区間についてのみ行う
ことにより、無声音強調による副作用を低減でき、上記
周波数スペクトルのピーク点のみに対してレベルを増大
させる処理を施すことにより、フォルマントの形状が細
くなり、他の強調処理でスペクトルの谷部分を下げた効
果を損なうことなく、再生音がクリアとなる。

【図面の簡単な説明】

【図１】本発明に係る音声信号処理方法の一実施例の基
本動作を説明するためのフローチャートである。

【図２】本発明に係る音声信号処理方法の一実施例が適
用可能な装置の具体例としての音声合成分析符号化装置
の合成側（デコード側）の音声復号装置の概略構成を示
す機能ブロック図である。

【図３】上記実施例の第１の強調処理動作を説明するた
めのフローチャートである。

【図４】上記第１の強調処理の際の強調の仕方の関数を
示す図である。

【図５】上記実施例の第２の強調処理動作を説明するた
めのフローチャートである。

【図６】上記第２の強調処理に用いられる関数を示す図
である。

【図７】上記実施例の第３の強調処理動作を説明するた
めのフローチャートである。

【図８】上記実施例の第４の強調処理動作を説明するた
めのフローチャートである。

【図９】信号の定常部での強調処理を説明するための波
形図である。

【図１０】信号の立ち上がり部での強調処理を説明する
ための波形図である。

【図１１】本発明に係る音声信号処理方法の上記実施例
が適用される音声復号装置に信号を送る音声合成分析符
号化装置の分析側（エンコード側）の概略構成を示す機
能ブロック図である。

【符号の説明】

１１量子化振幅データ入力端子１２符号化ピッチデータ入力端子１３Ｖ／ＵＶ判別データ入力端子１６強調処理部

Claims

【特許請求の範囲】

【請求項１】周波数領域での処理を中心とする音声合
成系に用いられる音声信号処理方法において、伝送された周波数スペクトルの強度を示す信号と、その
信号を周波数軸上で平滑化したものに基づいて、スペク
トルのフォルマント間の谷部分を深くする処理を施すこ
とを特徴とする音声信号処理方法。
【請求項２】上記平滑化は、周波数スペクトルの強度
を示す情報について、周波数軸上で移動平均をとること
により行うことを特徴とする請求項１記載の音声信号処
理方法。
【請求項３】上記伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
との差に基づいて、上記スペクトルのフォルマント間の
谷部分を深くする処理を施すことを特徴とする請求項１
又は２記載の音声信号処理方法。
【請求項４】上記差の大きさに従って、上記スペクト
ルのフォルマント間の谷部分を深くする減衰量を変化さ
せることを特徴とする請求項３記載の音声信号処理方
法。
【請求項５】上記伝送された周波数スペクトルの強度
を示す信号が、有声音区間のものか無声音区間のものか
を判別し、有声音区間のときのみ上記処理を行うことを
特徴とする請求項１又は２記載の音声信号処理方法。
【請求項６】周波数領域での処理を中心とする音声合
成系に用いられる音声信号処理方法において、音声信号の立ち上がりの部分における周波数スペクトル
のフォルマントを周波数領域のパラメータを直接操作し
て強調処理することを特徴とする音声信号処理方法。
【請求項７】有声音区間のときのみ上記処理を施すこ
とを特徴とする請求項６記載の音声信号処理方法。
【請求項８】上記周波数スペクトルの低域側のみに対
して上記処理を施すことを特徴とする請求項６記載の音
声信号処理方法。
【請求項９】上記周波数スペクトルのピーク点のみに
対してレベルを増大させる処理を施すことを特徴とする
請求項６記載の音声信号処理方法。