JPH07248794A - 音声信号処理方法 - Google Patents

音声信号処理方法

Info

Publication number
JPH07248794A
JPH07248794A JP6039979A JP3997994A JPH07248794A JP H07248794 A JPH07248794 A JP H07248794A JP 6039979 A JP6039979 A JP 6039979A JP 3997994 A JP3997994 A JP 3997994A JP H07248794 A JPH07248794 A JP H07248794A
Authority
JP
Japan
Prior art keywords
frequency
processing method
spectrum
processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6039979A
Other languages
English (en)
Other versions
JP3321971B2 (ja
Inventor
Masayuki Nishiguchi
正之 西口
Atsushi Matsumoto
淳 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP03997994A priority Critical patent/JP3321971B2/ja
Publication of JPH07248794A publication Critical patent/JPH07248794A/ja
Priority to US08/935,695 priority patent/US5953696A/en
Application granted granted Critical
Publication of JP3321971B2 publication Critical patent/JP3321971B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 ピッチの低い音の再生時の鼻詰まり感を抑
え、明瞭度の高いクリアな再生音を得る。 【構成】 ステップS1の第1の強調処理として、高域
側の周波数スペクトルエンベロープの山谷を強調する高
域フォルマント強調処理を施し、次のステップS2の第
2の強調処理として、全帯域に渡って、特に低域側〜中
域側に対して、周波数スペクトルエンベロープの谷を深
くするような処理を施している。次のステップS3の第
3の強調処理として、音声信号の立ち上がり部分での有
声音(V)フレームのフォルマントのピーク値を強調す
るような処理を施している。次のステップS4の第4の
強調処理として、無条件に高域側のスペクトルエンベロ
ープを強調するような高域強調処理を施している。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声合成系に用いられ
る音声信号処理方法に関し、特に、マルチバンド励起符
号化(MBE)の音声復号装置の音声合成系の後置フィ
ルタ(ポストフィルタ)に適用して好ましい音声信号処
理方法に関する。
【0002】
【従来の技術】音声信号の時間領域や周波数領域におけ
る統計的性質と人間の聴感上の特性を利用して信号圧縮
を行うような符号化方法が種々知られている。この音声
符号化方法としては、大別して、時間領域での符号化、
周波数領域での符号化、合成分析符号化等が挙げられ
る。
【0003】この音声信号の符号化の具体的な例として
は、MBE(Multiband Excitation: マルチバンド励
起)符号化、SBE(Singleband Excitation:シングル
バンド励起)符号化、ハーモニック(Harmonic)符号
化、SBC(Sub-band Coding:帯域分割符号化)、LP
C(Linear Predictive Coding: 線形予測符号化)、あ
るいはDCT(離散コサイン変換)、MDCT(モデフ
ァイドDCT)、FFT(高速フーリエ変換)等があ
る。
【0004】
【発明が解決しようとする課題】ところで、上記MBE
符号化等のように、周波数領域での処理を中心とする音
声の分析・合成系においては、量子化誤差によりスペク
トル歪が生じ、特に通常ビット割り当てが少ない高域で
の劣化が著しくなることが多い。結果として、このスペ
クトルから合成された音声は、高域フォルマントの消失
もしくはパワー不足、及び高域全体でのパワー不足等に
より明瞭度が失われ、いわゆる鼻のつまったような感じ
が耳につくようになってくる。これは、特にピッチの低
い男声で、ハーモニックスが多い場合に、コサイン合成
の際に0位相で加算すると、ピッチ周期毎に鋭いピーク
が生じ、鼻詰まり感のある再生音となってしまう。
【0005】これを補正するためには、時間領域でその
補償処理を行うような例えばIIR(無限インパルス応
答)フィルタ等を用いたフォルマント強調フィルタが用
いられていたが、この場合には音声処理フレーム毎にフ
ォルマントを強調するためのフィルタ係数を算出しなけ
ればならず、実時間処理が困難である。またフィルタの
安定性についても留意する必要があり、演算処理量の割
には効果が大きくないという欠点があった。
【0006】ここで、低域側のスペクトルの谷間の抑圧
を常時行うと、無声音(UV)部でシュルシュルという
ノイズが発生し、また、フォルマント強調を常時行う
と、いわゆるサイドエフェクトにより二重話者的に聞こ
えてしまう歪を発生することがあった。
【0007】本発明は、上記実情に鑑みてなされたもの
であり、音声合成系でのフォルマント強調のような処理
が簡単化され、容易に実時間処理が行えるような音声信
号処理方法の提供を目的とする。
【0008】また本発明の他の目的は、谷間の抑圧によ
るノイズ発生や、二重話者的な歪の発生等の副作用を抑
えつつ、ポストフィルタ効果による明瞭度の高いクリア
な再生音をひき出すことができるような音声信号処理方
法を提供することである。
【0009】
【課題を解決するための手段】本発明に係る音声信号処
理方法は、上述した課題を解決するために、周波数領域
での処理を中心とする音声合成系に用いられる音声信号
処理方法において、伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施すことを特徴としている。
【0010】ここで、上記平滑化は、周波数スペクトル
の強度を示す情報について、周波数軸上で移動平均をと
ることにより行うことが挙げられる。また、上記伝送さ
れた周波数スペクトルの強度を示す信号と、その信号を
周波数軸上で平滑化したものとの差に基づいて、上記ス
ペクトルのフォルマント間の谷部分を深くする処理を施
すことが挙げられ、この場合、上記差の大きさに従っ
て、上記スペクトルのフォルマント間の谷部分を深くす
る減衰量を変化させることが好ましい。
【0011】また、上記伝送された周波数スペクトルの
強度を示す信号が、有声音区間のものか無声音区間のも
のかを判別し、有声音区間のときのみ上記処理を行うこ
とが挙げられる。
【0012】また、本発明に係る音声信号処理方法は、
周波数領域での処理を中心とする音声合成系に用いられ
る音声信号処理方法において、音声信号の立ち上がりの
部分における周波数スペクトルのフォルマントを周波数
領域のパラメータを直接操作して強調処理することによ
り、上述の課題を解決する。
【0013】ここで、有声音区間のときのみ上記処理を
施すことが好ましい。また、上記周波数スペクトルの低
域側のみに対して上記処理を施すことが好ましい。さら
に、上記周波数スペクトルのピーク点のみに対してレベ
ルを増大させる処理を施すことが好ましい。
【0014】これらの強調処理は、周波数領域のパラメ
ータを直接操作して行っている。このような特徴を有す
る音声信号処理方法は、マルチバンド励起符号化(MB
E)方式の音声復号装置の音声合成系の後置フィルタに
適用することが好ましい。
【0015】
【作用】周波数領域で直接そのパラメータを操作して強
調処理を行うことにより、簡単な構成及び簡単な操作
で、強調したい部分だけを正確に強調でき、実時間処理
が容易に行える。また、中〜低域におけるスペクトルの
谷を深くすることで、鼻詰まり感を低減し、さらに信号
の立ち上がり部分でフォルマント強調することで、より
明瞭度の高いクリアな再生音を得ることができる。この
ような処理を有声音区間でのみ行うことにより、無声音
強調による副作用を抑え、また、フォルマント強調を信
号の立ち上がり部分に限定することで、二重話者的な副
作用を抑えることができる。
【0016】
【実施例】以下、本発明に係る音声信号処理方法の実施
例について、図面を参照しながら説明する。
【0017】図1は、本発明に係る音声信号処理方法の
実施例の要部の概略的な動作を説明するためのフローチ
ャートである。この実施例は、符号化側あるいはエンコ
ーダ側で時間軸上の音声信号が周波数軸に変換されて伝
送された周波数領域の情報を処理するような、周波数領
域での処理を中心とする音声合成系に用いられる音声信
号処理方法を前提としている。具体的には、例えば、マ
ルチバンド励起符号化(MBE)方式の音声復号装置の
音声合成系の後置フィルタに適用して好ましいものであ
る。この図1に示す実施例の音声信号処理方法において
は、音声スペクトルの周波数軸上のデータを直接操作す
ることで処理を行っている。
【0018】図1において、ステップS1においては、
第1の強調処理として、高域側の周波数スペクトルエン
ベロープの山谷を強調するような高域フォルマント強調
処理を施している。次のステップS2においては、第2
の強調処理として、全帯域に渡って、特に低域側〜中域
側に対して、周波数スペクトルエンベロープの谷を深く
するような処理を施している。次のステップS3におい
ては、第3の強調処理として、音声信号の立ち上がり部
分での有声音(V)フレームのフォルマントのピーク値
を強調するような処理を施している。次のステップS4
においては、第4の強調処理として、無条件に高域側の
スペクトルエンベロープを強調するような高域強調処理
を施している。
【0019】これらの各ステップS1〜S4において
は、周波数領域のパラメータである各バンド毎の振幅値
あるいは周波数軸上でピッチ単位で繰り返すハーモニッ
クスのスペクトル強度を直接操作することで、上述した
ような第1〜第4の強調処理を実現している。なお、こ
れらのステップS1〜S4における第1〜第4の強調処
理は、いずれかを任意に省略したり、順序を入れ替えて
もよい。
【0020】次に、各ステップS1〜S4での強調処理
のより詳細な説明に先立って、本実施例が適用される音
声合成系としてのマルチバンド励起(MBE)符号化方
式の音声復号装置の概略構成について、図2を参照しな
がら説明する。
【0021】この図2の入力端子11には、後述するM
BE方式の音声符号化装置、いわゆるMBEボコーダか
ら伝送されてきた量子化振幅データが供給されている。
この量子化振幅データは、上記MBEボコーダにおい
て、入力音声信号の処理フレーム毎のスペクトルを該音
声信号のピッチを単位として分割した各バンド毎の振幅
値を、ピッチの値によらない一定のデータ数に変換し、
ベクトル量子化して得られたデータである。入力端子1
2及び13には、上記MBEボコーダにおいて符号化さ
れたピッチデータ及び各バンド毎に有声音か無声音かを
示すV/UV判別データがそれぞれ供給されている。
【0022】入力端子11からの上記量子化振幅データ
は、逆ベクトル量子化部14に送られて逆量子化され、
データ数逆変換部15に送られて逆変換されて上記バン
ド毎の振幅値とされた後、本発明実施例の要部となる強
調処理部16に送られる。この強調処理部16において
は、上記図1の各ステップS1〜S4にそれぞれ対応す
る第1〜第4の強調処理が施される。すなわち、高域側
のスペクトルの山谷を強調する高域フォルマント強調処
理としての第1の強調処理と、全帯域、特に低域側〜中
域スペクトルの谷を深くするような第2の強調処理と、
信号の立ち上がりでの有声音フレームのフォルマントの
ピーク値を強調する第3の強調処理と、無条件に高域側
のスペクトルを強調する第4の強調処理とが、強調処理
部16において施される。この場合の各強調処理は、周
波数領域のパラメータを直接操作することで実現してい
る。これら第1〜第4の強調処理は、いずれかを任意に
省略したり、順序を入れ替えてもよい。
【0023】強調処理部16において上述のような強調
処理が施されて得られた振幅データは、有声音合成部1
7及び無声音合成部20に送られる。
【0024】入力端子12からの上記符号化ピッチデー
タは、ピッチ復号化部18で復号化され、データ数逆変
換部15、有声音合成部17及び無声音合成部20に送
られる。また入力端子13からのV/UV判別データ
は、有声音合成部17及び無声音合成部20に送られ
る。有声音合成部17では例えば余弦(cosine)波合成に
より時間軸上の有声音波形を合成して、加算部31に送
る。
【0025】無声音合成部20においては、先ず、ホワ
イトノイズ発生部21からの時間軸上のホワイトノイズ
信号波形を、所定の長さ(例えば256サンプル)で適
当な窓関数(例えばハミング窓)により窓かけをし、S
TFT処理部22によりSTFT(ショートタームフー
リエ変換)処理を施すことにより、ホワイトノイズ信号
の周波数軸上のパワースペクトルを得る。このSTFT
処理部22からのパワースペクトルをバンド振幅処理部
23に送り、UV(無声音)とされたバンドについて上
記振幅を乗算し、他のV(有声音)とされたバンドの振
幅を0にする。このバンド振幅処理部23には上記振幅
データ、ピッチデータ、V/UV判別データが供給され
ている。バンド振幅処理部23からの出力は、ISTF
T処理部24に送られ、位相は元のホワイトノイズの位
相を用いて逆STFT処理を施すことにより時間軸上の
信号に変換する。ISTFT処理部24からの出力は、
オーバーラップ加算部25に送られ、時間軸上で適当な
(元の連続的なノイズ波形を復元できるように)重み付
けをしながらオーバーラップ及び加算を繰り返し、連続
的な時間軸波形を合成する。オーバーラップ加算部25
からの出力信号が上記加算部31に送られる。
【0026】このように、各合成部17、20において
合成されて時間軸上に戻された有声音部及び無声音部の
各信号を、加算部31により適当な固定の混合比で加算
することにより、出力端子32より再生された音声信号
を取り出す。
【0027】次に、上記強調処理部16での各種強調処
理、すなわち、上記図1の各ステップS1〜S4で行う
ような各強調処理について、それぞれ図面を参照しなが
ら詳細に説明する。
【0028】先ず、上記図1のステップS1において行
う第1の強調処理、すなわち、スペクトルの高域側の山
谷を強調する高域フォルマント強調処理の具体例を、図
3のフローチャートに示している。
【0029】ここで、上記データ数変換部15からのス
ペクトルエンベロープ情報をam[k]とする。このam[k]
は、ピッチ周期に対応するピッチ角周波数ω0 毎のスペ
クトル、すなわちハーモニックスの強度あるいは振幅値
を示し、(fs/2)πまでにP/2本存在する。ここ
で、kはいわゆるハーモニックスの番号あるいはバンド
のインデックス番号であり、周波数軸上でピッチ周期で
インクリメントされる整数値である。fsはサンプリン
グ周波数、Pはピッチラグ、すなわちピッチ周期に相当
するサンプル数を表す値である。また、am[k]は、dB
領域のデータであり、リニアの値に戻される前のものと
する。
【0030】図3のステップS11においては、スペク
トルの概形を得るために、am[k]を円滑化あるいはスム
ージングしたものの移動平均を算出している。この移動
平均ave[j]は、次の式で表される。
【0031】
【数1】
【0032】これらの式において、L+1は有効なハー
モニクスの本数であり、通常はL=P/2、又は、L=
(P/2)×(3400/4000)である。
【0033】上記(1)式は、移動平均を計算するため
に使用するデータの端点が、0以上L以下の範囲に入る
場合である。また、上記(2)式は0側が、上記(3)
式はL側がデータの端点にひっかかる場合、すなわち計
算のためのデータがw個そろわない場合である。このよ
うな場合は、存在するデータのみを使用して移動平均を
求める。例えば、0番目の移動平均ave[0]や1番目の移
動平均ave[1]は、上記(2)式より、次の計算を行って
求めるわけである。
【0034】
【数2】
【0035】次のステップS12では、上記各バンド毎
の振幅値の内の最大値を検出する。すなわち、上記a
m[k]の0≦k<l区間におけるピーク値を検出する。l
は例えば25であり、このピーク値をpkとする。
【0036】次のステップS13で、この最大値あるい
はピーク値pkが所定の閾値Th1 よりも大きいか否かを判
別し、NOのときにはステップS14a〜S14dによ
り高域フォルマント強調処理を何も行わないで、終了あ
るいはリターンする。ピーク値pkが所定の閾値Th1 より
も大きいYESのときには、ステップS15a以降に進
んで、以下に説明するような高域フォルマント強調処理
を行う。これは、もともとスペクトルの値(各バンド毎
の振幅値)が小さいときには、強調を行うとかえって不
自然な感じになることを考慮して、ピーク値pkが上記閾
値Th1 よりも大きいときのみ、以下のような強調処理を
行うものである。上記閾値Th1 は、例えば65としてい
る。
【0037】この高域フォルマント強調処理において
は、0≦k≦Lの範囲のkについて、ステップS16で
m[k]がpk−αより小さいか否かを検出し、YESのと
きにはステップS17に、NOのときにはステップS1
8に進む。このαは例えば23としている。
【0038】ステップS17では、出力されるスペクト
ルエンベロープの振幅値をam_e[k]とするとき、 am_e[k]=am[k]+lim(am[k]−ave[k])・w[k] ・・・(4) のようなフォルマント強調が行われる。
【0039】この(4)式中のw[k] は、強調処理に周
波数特性を持たせるための重み付け関数であり、低域か
ら高域に向かって徐々に0→1の重み付けがなされるよ
うな係数である。これは高域で上記フォルマント強調を
効かすためのものである。また、上記(4)式中の関数
lim( )は、入力をxとするとき、 lim(x) = sgn(x)(|x|/β)1/2γ ;|x|≦βのとき lim(x) = sgn(x)・γ ;|x|>βのとき ・・・(5) となる関数を用いることができる。ここで、sgn(x) は
xの符号を返す関数であり、x≧0のとき sgn(x)=
1、x<0のとき sgn(x)=−1となる。この関数lim
(x) の例を図4に示す。図中の括弧内の数値は、β=
8、γ=4としたときの例である。
【0040】これに対して、am[k]≧pk−αのときに進
むステップS18では、 am_e[k]=am[k] ・・・ (6) のように入力データをそのまま出力している。
【0041】ステップS15a、S15c、S15d
は、上記kを0から1ずつインクリメントしてLまで計
算を行わせるための処理である。
【0042】このような処理によって得られた出力a
m_e[k]は、高域側のスペクトルの山谷が強調されたもの
となる。
【0043】なお、ステップS14a〜S14dにおい
ては、上記kを0からLまでの範囲で1ずつインクリメ
ントしながら、上記(6)式のように出力値am_e[k]を
そのままam[k]で置き換える処理を0≦k≦Lの範囲の
全てのkについて行って、上述のような高域側フォルマ
ント強調処理が行われていない出力を得ている。
【0044】次に、図1のステップS2の第2の強調処
理である全帯域のスペクトルの谷を深くする処理の具体
例を、図5のフローチャートに示す。
【0045】図5の最初のステップS21においては、
現在処理を行っているフレームが有声音(V)であるか
無声音(UV)であるかを判別している。このV/UV
判別は、例えば、エンコーダ側に後述するようなマルチ
バンド励起(MBE)符号化を用いたMBEボコーダを
用いる場合には、各バンド毎のV/UV判別データを用
いて行うことができる。例えば、各バンド毎のV/UV
判別フラグの内、Vとなるフラグの個数をNV 、UVと
なるフラグの個数をNUVとするとき、全帯域、例えば2
00〜3400HzにおけるV判別フラグの含有率NV
(NV +NUV)を求め、これがある閾値、例えば0.
6、を超える場合に、有声音(V)フレームであると判
別すればよい。また、V/UV判別バンド数を例えば1
2バンド程度にまとめるあるいは縮退させる場合には、
上記NV +NUVは12程度となる。さらに、低域側を
V、高域側をUVとするようにバンドのV/UVの切換
点あるいはトランジエントを1箇所で表す場合には、こ
のトランジエント位置が、有効帯域(例えば200〜3
400Hz)の6割(約2040Hz)程度より高域側に存
在する場合を有声音(V)フレームであると判別するよ
うにしてもよい。
【0046】このようなステップS21にて現在フレー
ムが有声音(V)フレームであると判別されたときに
は、ステップS22〜S25に進んで、後述するような
強調処理を施している。これらの各ステップS22〜S
25の内、ステップS22、S24、S25は、kを0
からLまでインクリメントするための処理を行うための
ものであり、ステップS23において、スペクトルの谷
を深くする処理を行っている。すなわち、この第2の強
調処理は、出力信号であるスペクトルエンベロープをa
m_2e[k] とするとき、0≦k≦Lに対して、 am_2e[k]=am_e[k]+lim2(am[k]-ave[k])・w2[int(kM/L)] …(7) のような処理を行うものである。
【0047】この(7)式において、am_e[k]は上記第
1の強調処理を受けたスペクトルエンベロープで、a
m[k]は強調処理を一切受けていないもの、ave[k]は先に
求めた移動平均をそのまま用いるものである。
【0048】上記(7)式中の関数w2[ ]は、低域側で
強調処理を効かせるための重み付け係数であり、配列の
長さあるいは要素の数を、w2[0]〜w2[M]のM+1個に
している。ここで、kは何番目のハーモニックスである
かを示すインデックスであるので、ω0 をピッチに対応
する基本角周波数とするとき、k×ω0 が角周波数を表
す。すなわちkの値そのものは周波数とは直接一致しな
い。そこで、Lはω0によって変わることを考慮し、k
の最大値Lでkを正規化(ノーマライズ)して、Lの値
に拘らず0〜Mの間で変化するようにし、周波数と対応
するようにしたのが、int(kM/L) の意味である。ここで
Mは固定値、例えば44であり、DC分も含めたM+1
は45となる。従って、w2[i]は、0≦i≦Mの範囲
で、周波数と1対1に対応している。int( )は、最も近
い整数を返す関数であり、w2[i]は、iの増加に従って
1→0へと変化してゆく。
【0049】次に、上記(7)式中の関数lim2( ) は、
入力xに対して、 lim2(x)=0 :x≧0のとき lim2(x)=−c(−x/c)1/2 :0>x≧−cのとき lim2(x)=−c :−c>xのとき ・・・ (8) を出力するようなものである。ここでc=20とした例
を、図6に示す。
【0050】図5のステップS21において無声音(U
V)フレームであると判別されたときには、ステップS
26〜S29に進んで、入力am_e[k]に対して何ら強調
を行わずに出力am_2e[k] を得ている。すなわち、UV
フレームでは、0≦k≦Lに対して、 am_2e[k] =am_e[k] としている。このような出力をそのまま入力で置き換え
る処理は、ステップS27にて行っており、他のステッ
プS26、S28、S29では、インデックス値kを0
からLまでインクリメントしている。
【0051】このようにして、第2の強調処理工程を経
た出力am_2e[k] を得ている。この実施例では、有声音
(V)フレームのみ、スペクトルの谷を深くする現実の
強調を行っている。このとき、上記cの値として、例え
ば20とかなり大きな値を選んで、大きな変形を行って
いるが、Vフレームのみに実際の強調を施しているた
め、何ら問題はない。なお、有声音(V)フレームと無
声音(UV)フレームとを区別せずに一律にこの強調を
施すと、シャリシャリと異音を発することがあるため、
上記cを小さくする等の対策が必要とされる。
【0052】以上の第1、第2の強調処理により、ピッ
チの低い男声等における鼻詰まり感はかなり解消され、
クリアな音質となるが、さらにメリハリのある音質とす
るために、上記図1のステップS3の第3の強調処理を
施す。これは、信号の立ち上がり部分における有声音
(V)フレームのフォルマント強調を行うものであり、
図7に示すフローチャートを参照しながら説明する。
【0053】図7の最初のステップS31では信号の立
ち上がり部分か否かの判別を、次のステップS32では
有声音(V)フレームか否かの判別をそれぞれ行ってお
り、いずれもYESとされたときに、ステップS33〜
S40の強調処理を行っている。
【0054】ステップS31での信号の立ち上がり部分
か否かの判別は、種々の方法があるが、本実施例におい
ては、次のようにして行っている。すなわち、先ず、現
在フレームの信号の大きさをSam_c として、次式によ
り定義する。
【0055】
【数3】
【0056】この(9)式のam[k]は、対数スペクトル
強度の値を用いるものとしている。ここで、1フレーム
前の信号の大きさを同様にSam_p とし、 Sam_c /Sam_p >tha ・・・(10) のときが信号の立ち上がり部分であるとして、トランジ
エントフラグtr をセットし、tr =1とする。それ以
外ではtr =0である。上記閾値tha の具体的な値と
しては、例えば、tha =1.2とする。なお、log の
対数値で1.2倍は、リニア値に換算して約2倍程度に
相当する。
【0057】上記(9)式では、簡便に信号の大きさを
大まかに表す量を算出するために、対数スペクトル強度
m[k]を単に足し合わせているが、この他、リニア領域
で求めたエネルギやrms値等を用いてもよい。また、
上記(9)式の代わりに、
【0058】
【数4】
【0059】を用い、上記(10)式の代わりに、 Sam_c −Sam_p >thb のときに上記フラグtr をセット、すなわちtr =1、
としてもよい。この場合の閾値thb の具体例は、th
b =2.0、である。
【0060】図7のステップS31においては、上記ト
ランジエントフラグtr が1であるか否かを判別し、Y
ESのときステップS32に進み、NOのときステップ
S41に進んでいる。ステップS32の有声音(V)フ
レームか否かの判別においては、例えば上記図5のステ
ップS21と同様な方法により判別を行えばよく、さら
に、上記第2の強調処理が先に行われている場合には、
上記ステップS21で行われたVフレーム判別結果をそ
のまま用いればよい。
【0061】ステップS32でYESと判別されたとき
に進むステップS33〜S40の処理工程において、実
際の強調処理はステップS37にて行われる。これは、
0≦k≦Lにおいて、am[k]がフォルマントのピークの
とき、第3の強調処理された出力am_e3[k] を、 am_e3[k] =am_e2[k]+3.0 ・・・ (11) とし、その他のam[k]では、ステップS38にて何も処
理せずに、 am_e3[k] =am_e2[k] としている。ここで、am_e2[k] は、上記第2の強調処
理工程を経て第3の強調処理工程に供給される入力を示
している。
【0062】ここで、フォルマントのピーク、すなわち
スペクトルエンベロープにおいて上に凸となる曲線の頂
点の検出は、ステップS34、S35で行っている。す
なわち、1≦k≦Lの範囲で、 (am[k]−am[k-1])(am[k+1]−am[k])<0 かつ、am[k]−am[k-1]>0 ・・・ (12) を満たすようなkがピーク位置となり、低域側から
1 、k2 、・・・、kN とすると、k1 が第1フォル
マント、k2 が第2フォルマント、・・・、kN が第N
フォルマントにそれぞれ対応することになる。
【0063】本実施例においては、低域側から3箇所に
ついて上記(12)式の条件を満たしたところまでで上
記フォルマントピークの検出及び上記(11)式の処理
を打ち切っている。これは、初期設定ステップS33で
N=3とし、ピーク検出後のステップS36でN=0と
なったか否かを検出し、ステップS37では上記(1
2)式の計算と同時にN=N−1のデクリメントを行う
ことで実現している。
【0064】なお、ステップS33でのk=1の初期設
定、ステップS39でのk=k+1のインクリメント、
ステップS40でのk>Lか否かの判別により、1≦k
≦Lの範囲での処理を順次行わせている。
【0065】また、ステップS31、S32の一方でN
Oと判別されたとき、すなわち、信号の立ち上がりでな
い(tr =0)とき、又は有声音(V)フレームでない
ときには、ステップS41〜S44により、0≦k≦L
の範囲で出力am_3e[k] をそのまま入力am_2e[k] で置
き換える処理、すなわち、 am_3e[k] =am_2e[k] のような処理を行わせている。
【0066】このような第3の強調処理として、有声音
(V)フレームのフォルマントピークを高めるような強
調を行うことで、さらにメリハリのある音質にすると共
に、このフォルマント強調を立ち上がり部に限定するこ
とで、二重話者的になってしまう副作用を抑えている。
【0067】なお、この第3の強調処理では、上記(1
2)式により、ピーク点のみについて3dB大きくして
いるが、凸部を全体的に強調してもよく、強調量も3d
Bに限定されない。また、低域側から3箇所のピーク点
についてのみ強調を行っているが、2箇所以下あるいは
4箇所以上行うようにしてもよい。
【0068】次に、上記図1のステップS4の第4の強
調処理としての高域強調処理について、図8のフローチ
ャートを参照しながら説明する。
【0069】この第4の強調処理は、無条件に高域側の
スペクトルを強調するものである。すなわち、図8の最
初のステップS46で初期設定としてk=0とし、次の
ステップS47で、 am_e4[k] =am_3e[k] + Emp[int(kM/L)] ・・・ (13) のような強調を行っている。ここでも上述した(7)式
と同様に、kの最大値Lでkを正規化(ノーマライズ)
して、Lの値に拘らず0〜Mの間で変化するようにし、
周波数と対応するようにしたのが、int(kM/L) の意味で
ある。
【0070】配列Emp[i]は、0〜M、Mは例えば44、
のM+1個の要素から成り、0≦i≦Mであり、iの増
加に伴って、0から3〜4程度増加するような、すなわ
ち、3〜4dB程度の高域強調を行うようなものであ
る。
【0071】ステップS48ではkをインクリメント
し、ステップS49ではk>Lか否かを判別し、NOの
ときはステップS47に戻り、YESのときはメインル
ーチンにリターンしている。
【0072】次に、図9、図10は、上記第1〜第4の
強調処理前のスペクトルエンベロープの振幅あるいは強
度am[k]と、上記移動平均ave[k]と、上記第1〜第4の
強調処理を行って得られた振幅あるいは強度am_e4[k]
との具体例を示す図であり、図9は信号の定常部での一
例を、図10は信号の立ち上がり部での一例をそれぞれ
示している。
【0073】図9の例においては、定常部であるため、
上記第3の強調処理である信号立ち上がりでの有声音フ
レームのフォルマント強調処理が行われていないのに対
して、図10の例においては、信号の立ち上がり部であ
るため、上記第3の強調処理を含む全ての処理が施され
ている。
【0074】次に、本発明に係る音声信号処理方法が適
用される音声合成系に信号を供給するためのエンコーダ
側の一例として、音声信号の合成分析符号化装置(いわ
ゆるボコーダ)の一種のMBE(Multiband Excitatio
n: マルチバンド励起)ボコーダの具体例について、図
面を参照しながら説明する。このMBEボコーダは、
「マルチバンド励起ボコーダ」("Multiband Excitatio
n Vocoder", D.W.Griffinand J.S. Lim, IEEE Trans. A
coustics, Speech, and Signal Processing, vol.36, N
o.8, pp.1223-1235, Aug.1988)に開示されているもの
であり、従来のPARCOR(PARtial auto-CORrelati
on: 偏自己相関)ボコーダ等では、音声のモデル化の際
に有声音区間と無声音区間とをブロックあるいはフレー
ム毎に切り換えていたのに対し、MBEボコーダでは、
同時刻(同じブロックあるいはフレーム内)の周波数軸
領域に有声音(Voiced)区間と無声音(Unvoiced)区間
とが存在するという仮定でモデル化している。
【0075】図11は、上記MBEボコーダの全体の概
略構成を示すブロック図である。この図11において、
入力端子101には音声信号が供給されるようになって
おり、この入力音声信号は、ハイパスフィルタ(HP
F)等のフィルタ102に送られて、いわゆる直流(D
C)オフセット分の除去や帯域制限、例えば200〜3
400Hzに制限、のための少なくとも低域成分、例えば
200Hz以下の除去が行われる。このフィルタ102を
介して得られた信号は、ピッチ抽出部103及び窓かけ
処理部104にそれぞれ送られる。ピッチ抽出部103
では、入力音声信号データが所定サンプル数N、例えば
N=256、の単位でブロック分割、あるいは方形窓に
よる切り出しが行われ、このブロック内の音声信号につ
いてのピッチ抽出が行われる。このような切り出しブロ
ック(256サンプル)を、例えばLサンプル(例えば
L=160)のフレーム間隔で時間軸方向に移動させて
おり、各ブロック間のオーバラップはN−Lサンプル
(例えば96サンプル)となっている。また、窓かけ処
理部104では、1ブロックNサンプルに対して所定の
窓関数、例えばハミング窓をかけ、この窓かけブロック
を1フレームLサンプルの間隔で時間軸方向に順次移動
させている。窓かけ処理された出力信号のデータ列に対
して、直交変換部105により例えば高速フーリエ変換
FFT等の直交変換処理が施される。
【0076】ピッチ抽出部103では、例えばセンタク
リップ波形の自己相関法を用いて、ピーク周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ、すなわちピッチのファインサーチが行われる。
【0077】高精度ピッチサーチ部106には、ピッチ
抽出部103で抽出された整数値の粗ピッチデータと、
直交変換部105により例えばFFTされた周波数軸上
のデータとが供給されている。この高精度ピッチサーチ
部106では、上記粗ピッチデータ値を中心に、0.2〜
0.5きざみで±数サンプルずつ振って、最適な小数点付
き、いわゆるフローティング表示のファインピッチデー
タの値へ追い込む。このときのファインサーチの手法と
して、いわゆる合成による分析(Analysis bySynthesis
)法を用い、合成されたパワースペクトルが原音のパ
ワースペクトルに最も近くなるようにピッチを選んでい
る。
【0078】上記高精度ピッチサーチ部106からの最
適ピッチ及び振幅|Am |のデータは、有声音/無声音
判別部107に送られ、上記各バンド毎に有声音/無声
音の判別が行われる。この判別のために、NSR(ノイ
ズtoシグナル比)を利用する。すなわち、このNSR
値が所定の閾値(例えば0.3)より大のとき、すなわち
エラーが大きいときには、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
【0079】次に、振幅再評価部108には、直交変換
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部107
からのV/UV(有声音/無声音)判別データが供給さ
れている。この振幅再評価部108では、有声音/無声
音判別部107において無声音(UV)と判別されたバ
ンドに関して、再度振幅|Am UVを求めている。
【0080】この振幅再評価部108からのデータは、
一種のサンプリングレート変換部であるデータ数変換部
109に送られる。このデータ数変換部109は、上記
ピッチに応じて周波数軸上での分割帯域数が異なり、デ
ータ数、特に振幅データの数が異なることを考慮して、
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400Hzまでとすると、この有効帯域が上
記ピッチに応じて、8バンド〜63バンドに分割される
ことになり、これらの各バンド毎に得られる上記振幅|
m |(UVバンドの振幅|Am UVも含む)データの
個数も8〜63と変化することになる。このためデータ
数変換部109では、この可変個数の振幅データを一定
個数NC (例えば44個)のデータに変換している。
【0081】ここで本具体例においては、周波数軸上の
有効帯域1ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をNF 個に拡大した後、帯域制限型のKOS倍(例えば8
倍)のオーバーサンプリングを施すことによりKOS倍の
個数の振幅データを求め、このKOS倍の個数(( mMX
1)×KOS個)の振幅データを直線補間してさらに多く
のNM 個(例えば2048個)に拡張し、このNM 個の
データを間引いて上記一定個数NC (例えば44個)の
データに変換する。
【0082】このデータ数変換部109からのデータ
(上記一定個数NC の振幅データ)がベクトル量子化部
110に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部110からの量子化出力データは、出力端子1
11を介して取り出される。また、上記高精度のピッチ
サーチ部106からの高精度(ファイン)ピッチデータ
は、ピッチ符号化部115で符号化され、出力端子11
2を介して取り出される。さらに、上記有声音/無声音
判別部107からの有声音/無声音(V/UV)判別デ
ータは、出力端子113を介して取り出される。これら
の各出力端子111〜113からのデータは、所定の伝
送フォーマットの信号とされて伝送される。
【0083】なお、これらの各データは、上記Nサンプ
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
【0084】なお、上記図11の音声分析側(エンコー
ド側)の構成や図2の音声合成側(デコード側)の構成
については、各部をハードウェア的に記載しているが、
いわゆるDSP(ディジタル信号プロセッサ)等を用い
てソフトウェアプログラムにより実現することも可能で
ある。
【0085】なお、本発明は上記実施例のみに限定され
るものではなく、例えば、上記第1〜第4の強調処理は
順序を入れ替えてもよく、また全ての処理を行わせずに
一部を省略してもよい。また、本発明に係る音声信号処
理方法が適用される音声合成装置は図2の例に限定され
ず、例えば、データ数逆変換前の信号に対して強調処理
を行うようにしたり、エンコード側でのデータ数変換や
デコード側でのデータ数逆変換を行わずに強調処理を行
うようにしてもよい。
【0086】
【発明の効果】本発明に係る音声信号処理方法によれ
ば、周波数領域のパラメータを直接操作して強調してい
るため、簡単な構成及び簡単な操作で、強調したい部分
だけを正確に強調でき、自然感を損なうことなく合成音
の明瞭度を向上させることができる。これは、時間軸方
向の高域強調フィルタ(例えばIIRフィルタ)等を用
いて時間領域で処理するときに不可欠とされたフィルタ
のポール(極)の位置の計算が不要となるので、容易に
実時間処理を行うことができ、フィルタの不安定さによ
る悪影響等を完全に回避できるという利点にも結び付く
ものである。
【0087】また、伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施しているため、再生音の鼻詰まり感を低
減することができる。
【0088】ここで、上記平滑化を周波数軸上で移動平
均をとることにより行い、周波数スペクトルの強度を示
す信号と、その信号を周波数軸上で平滑化したものとの
差に基づいて、上記スペクトルのフォルマント間の谷部
分を深くする処理を施すことにより、簡単な計算処理で
有効な強調が行える。また、有声音区間のときのみ強調
処理を行わせることにより、無声音強調によるシュルシ
ュルというノイズ発生の副作用を抑えることができる。
【0089】さらに、本発明に係る音声信号処理方法に
よれば、周波数領域での処理を中心とする音声合成系に
用いられる音声信号処理方法において、音声信号の立ち
上がりの部分における周波数スペクトルのフォルマント
を周波数領域のパラメータを直接操作して強調処理する
ことにより、より明瞭度の高いクリアな音質で、メリハ
リのきいた再生音を得ることができ、しかも二重話者的
な副作用を低減することができる。
【0090】この場合も、有声音区間についてのみ行う
ことにより、無声音強調による副作用を低減でき、上記
周波数スペクトルのピーク点のみに対してレベルを増大
させる処理を施すことにより、フォルマントの形状が細
くなり、他の強調処理でスペクトルの谷部分を下げた効
果を損なうことなく、再生音がクリアとなる。
【図面の簡単な説明】
【図1】本発明に係る音声信号処理方法の一実施例の基
本動作を説明するためのフローチャートである。
【図2】本発明に係る音声信号処理方法の一実施例が適
用可能な装置の具体例としての音声合成分析符号化装置
の合成側(デコード側)の音声復号装置の概略構成を示
す機能ブロック図である。
【図3】上記実施例の第1の強調処理動作を説明するた
めのフローチャートである。
【図4】上記第1の強調処理の際の強調の仕方の関数を
示す図である。
【図5】上記実施例の第2の強調処理動作を説明するた
めのフローチャートである。
【図6】上記第2の強調処理に用いられる関数を示す図
である。
【図7】上記実施例の第3の強調処理動作を説明するた
めのフローチャートである。
【図8】上記実施例の第4の強調処理動作を説明するた
めのフローチャートである。
【図9】信号の定常部での強調処理を説明するための波
形図である。
【図10】信号の立ち上がり部での強調処理を説明する
ための波形図である。
【図11】本発明に係る音声信号処理方法の上記実施例
が適用される音声復号装置に信号を送る音声合成分析符
号化装置の分析側(エンコード側)の概略構成を示す機
能ブロック図である。
【符号の説明】
11 量子化振幅データ入力端子 12 符号化ピッチデータ入力端子 13 V/UV判別データ入力端子 16 強調処理部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 周波数領域での処理を中心とする音声合
    成系に用いられる音声信号処理方法において、 伝送された周波数スペクトルの強度を示す信号と、その
    信号を周波数軸上で平滑化したものに基づいて、スペク
    トルのフォルマント間の谷部分を深くする処理を施すこ
    とを特徴とする音声信号処理方法。
  2. 【請求項2】 上記平滑化は、周波数スペクトルの強度
    を示す情報について、周波数軸上で移動平均をとること
    により行うことを特徴とする請求項1記載の音声信号処
    理方法。
  3. 【請求項3】 上記伝送された周波数スペクトルの強度
    を示す信号と、その信号を周波数軸上で平滑化したもの
    との差に基づいて、上記スペクトルのフォルマント間の
    谷部分を深くする処理を施すことを特徴とする請求項1
    又は2記載の音声信号処理方法。
  4. 【請求項4】 上記差の大きさに従って、上記スペクト
    ルのフォルマント間の谷部分を深くする減衰量を変化さ
    せることを特徴とする請求項3記載の音声信号処理方
    法。
  5. 【請求項5】 上記伝送された周波数スペクトルの強度
    を示す信号が、有声音区間のものか無声音区間のものか
    を判別し、有声音区間のときのみ上記処理を行うことを
    特徴とする請求項1又は2記載の音声信号処理方法。
  6. 【請求項6】 周波数領域での処理を中心とする音声合
    成系に用いられる音声信号処理方法において、 音声信号の立ち上がりの部分における周波数スペクトル
    のフォルマントを周波数領域のパラメータを直接操作し
    て強調処理することを特徴とする音声信号処理方法。
  7. 【請求項7】 有声音区間のときのみ上記処理を施すこ
    とを特徴とする請求項6記載の音声信号処理方法。
  8. 【請求項8】 上記周波数スペクトルの低域側のみに対
    して上記処理を施すことを特徴とする請求項6記載の音
    声信号処理方法。
  9. 【請求項9】 上記周波数スペクトルのピーク点のみに
    対してレベルを増大させる処理を施すことを特徴とする
    請求項6記載の音声信号処理方法。
JP03997994A 1994-03-10 1994-03-10 音声信号処理方法 Expired - Fee Related JP3321971B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP03997994A JP3321971B2 (ja) 1994-03-10 1994-03-10 音声信号処理方法
US08/935,695 US5953696A (en) 1994-03-10 1997-09-23 Detecting transients to emphasize formant peaks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03997994A JP3321971B2 (ja) 1994-03-10 1994-03-10 音声信号処理方法

Publications (2)

Publication Number Publication Date
JPH07248794A true JPH07248794A (ja) 1995-09-26
JP3321971B2 JP3321971B2 (ja) 2002-09-09

Family

ID=12568073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03997994A Expired - Fee Related JP3321971B2 (ja) 1994-03-10 1994-03-10 音声信号処理方法

Country Status (2)

Country Link
US (1) US5953696A (ja)
JP (1) JP3321971B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002261553A (ja) * 2001-03-02 2002-09-13 Ricoh Co Ltd 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
WO2003015080A1 (en) * 2001-08-02 2003-02-20 Matsushita Electric Industrial Co., Ltd. Pitch cycle search range setting device and pitch cycle search device
JP2005208627A (ja) * 2003-12-25 2005-08-04 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP2005528647A (ja) * 2002-05-31 2005-09-22 ヴォイスエイジ・コーポレーション 合成発話の周波数選択的ピッチ強調方法およびデバイス
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP2010008922A (ja) * 2008-06-30 2010-01-14 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2014219567A (ja) * 2013-05-08 2014-11-20 日本放送協会 音声強調装置、及びプログラム
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2017167008A (ja) * 2016-03-17 2017-09-21 国立研究開発法人防災科学技術研究所 出力周波数補正方法、津波警報装置、及び、津波警報システム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
US6574334B1 (en) 1998-09-25 2003-06-03 Legerity, Inc. Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
AUPQ366799A0 (en) * 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
US7117147B2 (en) * 2004-07-28 2006-10-03 Motorola, Inc. Method and system for improving voice quality of a vocoder
US20070118361A1 (en) * 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
US20090222268A1 (en) * 2008-03-03 2009-09-03 Qnx Software Systems (Wavemakers), Inc. Speech synthesis system having artificial excitation signal
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US9640185B2 (en) 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US9548067B2 (en) 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4566117A (en) * 1982-10-04 1986-01-21 Motorola, Inc. Speech synthesis system
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4548953B2 (ja) * 2001-03-02 2010-09-22 株式会社リコー 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP2002261553A (ja) * 2001-03-02 2002-09-13 Ricoh Co Ltd 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
US7542898B2 (en) 2001-08-02 2009-06-02 Panasonic Corporation Pitch cycle search range setting apparatus and pitch cycle search apparatus
WO2003015080A1 (en) * 2001-08-02 2003-02-20 Matsushita Electric Industrial Co., Ltd. Pitch cycle search range setting device and pitch cycle search device
US7177802B2 (en) 2001-08-02 2007-02-13 Matsushita Electric Industrial Co., Ltd. Pitch cycle search range setting apparatus and pitch cycle search apparatus
CN100354927C (zh) * 2001-08-02 2007-12-12 松下电器产业株式会社 解码自适应声源向量产生装置及其语音解码装置
JP2005528647A (ja) * 2002-05-31 2005-09-22 ヴォイスエイジ・コーポレーション 合成発話の周波数選択的ピッチ強調方法およびデバイス
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP4513556B2 (ja) * 2003-12-25 2010-07-28 カシオ計算機株式会社 音声分析合成装置、及びプログラム
JP2005208627A (ja) * 2003-12-25 2005-08-04 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP2010008922A (ja) * 2008-06-30 2010-01-14 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2014219567A (ja) * 2013-05-08 2014-11-20 日本放送協会 音声強調装置、及びプログラム
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2017167008A (ja) * 2016-03-17 2017-09-21 国立研究開発法人防災科学技術研究所 出力周波数補正方法、津波警報装置、及び、津波警報システム

Also Published As

Publication number Publication date
US5953696A (en) 1999-09-14
JP3321971B2 (ja) 2002-09-09

Similar Documents

Publication Publication Date Title
JP3321971B2 (ja) 音声信号処理方法
JP3653826B2 (ja) 音声復号化方法及び装置
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
JP3475446B2 (ja) 符号化方法
KR100452955B1 (ko) 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체
JP3137805B2 (ja) 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
JP4040126B2 (ja) 音声復号化方法および装置
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
US5983173A (en) Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JPH09281996A (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH11177434A (ja) 音声符号化復号方式
US5812966A (en) Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair
JP3237178B2 (ja) 符号化方法及び復号化方法
JP3297751B2 (ja) データ数変換方法、符号化装置及び復号化装置
JP3158434B2 (ja) 低減されたスペクトルひずみを有するポストフィルタを備えたデジタル音声デコーダ
JPH06202695A (ja) 音声信号処理装置
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3297750B2 (ja) 符号化方法
JP3218680B2 (ja) 有声音合成方法
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP2002049398A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3218681B2 (ja) 背景雑音検出方法及び高能率符号化方法
JP2003216189A (ja) 符号化装置及び復号装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020528

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080628

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080628

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110628

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120628

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130628

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees