JPH07248794A - 音声信号処理方法 - Google Patents
音声信号処理方法Info
- Publication number
- JPH07248794A JPH07248794A JP6039979A JP3997994A JPH07248794A JP H07248794 A JPH07248794 A JP H07248794A JP 6039979 A JP6039979 A JP 6039979A JP 3997994 A JP3997994 A JP 3997994A JP H07248794 A JPH07248794 A JP H07248794A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- processing method
- spectrum
- processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012545 processing Methods 0.000 title claims description 91
- 230000008569 process Effects 0.000 claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 238000003672 processing method Methods 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 28
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 230000000630 rising effect Effects 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000001965 increasing effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000005284 excitation Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011867 re-evaluation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100454869 Rattus norvegicus Lhx5 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
え、明瞭度の高いクリアな再生音を得る。 【構成】 ステップS1の第1の強調処理として、高域
側の周波数スペクトルエンベロープの山谷を強調する高
域フォルマント強調処理を施し、次のステップS2の第
2の強調処理として、全帯域に渡って、特に低域側〜中
域側に対して、周波数スペクトルエンベロープの谷を深
くするような処理を施している。次のステップS3の第
3の強調処理として、音声信号の立ち上がり部分での有
声音(V)フレームのフォルマントのピーク値を強調す
るような処理を施している。次のステップS4の第4の
強調処理として、無条件に高域側のスペクトルエンベロ
ープを強調するような高域強調処理を施している。
Description
る音声信号処理方法に関し、特に、マルチバンド励起符
号化(MBE)の音声復号装置の音声合成系の後置フィ
ルタ(ポストフィルタ)に適用して好ましい音声信号処
理方法に関する。
る統計的性質と人間の聴感上の特性を利用して信号圧縮
を行うような符号化方法が種々知られている。この音声
符号化方法としては、大別して、時間領域での符号化、
周波数領域での符号化、合成分析符号化等が挙げられ
る。
は、MBE(Multiband Excitation: マルチバンド励
起)符号化、SBE(Singleband Excitation:シングル
バンド励起)符号化、ハーモニック(Harmonic)符号
化、SBC(Sub-band Coding:帯域分割符号化)、LP
C(Linear Predictive Coding: 線形予測符号化)、あ
るいはDCT(離散コサイン変換)、MDCT(モデフ
ァイドDCT)、FFT(高速フーリエ変換)等があ
る。
符号化等のように、周波数領域での処理を中心とする音
声の分析・合成系においては、量子化誤差によりスペク
トル歪が生じ、特に通常ビット割り当てが少ない高域で
の劣化が著しくなることが多い。結果として、このスペ
クトルから合成された音声は、高域フォルマントの消失
もしくはパワー不足、及び高域全体でのパワー不足等に
より明瞭度が失われ、いわゆる鼻のつまったような感じ
が耳につくようになってくる。これは、特にピッチの低
い男声で、ハーモニックスが多い場合に、コサイン合成
の際に0位相で加算すると、ピッチ周期毎に鋭いピーク
が生じ、鼻詰まり感のある再生音となってしまう。
補償処理を行うような例えばIIR(無限インパルス応
答)フィルタ等を用いたフォルマント強調フィルタが用
いられていたが、この場合には音声処理フレーム毎にフ
ォルマントを強調するためのフィルタ係数を算出しなけ
ればならず、実時間処理が困難である。またフィルタの
安定性についても留意する必要があり、演算処理量の割
には効果が大きくないという欠点があった。
を常時行うと、無声音(UV)部でシュルシュルという
ノイズが発生し、また、フォルマント強調を常時行う
と、いわゆるサイドエフェクトにより二重話者的に聞こ
えてしまう歪を発生することがあった。
であり、音声合成系でのフォルマント強調のような処理
が簡単化され、容易に実時間処理が行えるような音声信
号処理方法の提供を目的とする。
るノイズ発生や、二重話者的な歪の発生等の副作用を抑
えつつ、ポストフィルタ効果による明瞭度の高いクリア
な再生音をひき出すことができるような音声信号処理方
法を提供することである。
理方法は、上述した課題を解決するために、周波数領域
での処理を中心とする音声合成系に用いられる音声信号
処理方法において、伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施すことを特徴としている。
の強度を示す情報について、周波数軸上で移動平均をと
ることにより行うことが挙げられる。また、上記伝送さ
れた周波数スペクトルの強度を示す信号と、その信号を
周波数軸上で平滑化したものとの差に基づいて、上記ス
ペクトルのフォルマント間の谷部分を深くする処理を施
すことが挙げられ、この場合、上記差の大きさに従っ
て、上記スペクトルのフォルマント間の谷部分を深くす
る減衰量を変化させることが好ましい。
強度を示す信号が、有声音区間のものか無声音区間のも
のかを判別し、有声音区間のときのみ上記処理を行うこ
とが挙げられる。
周波数領域での処理を中心とする音声合成系に用いられ
る音声信号処理方法において、音声信号の立ち上がりの
部分における周波数スペクトルのフォルマントを周波数
領域のパラメータを直接操作して強調処理することによ
り、上述の課題を解決する。
施すことが好ましい。また、上記周波数スペクトルの低
域側のみに対して上記処理を施すことが好ましい。さら
に、上記周波数スペクトルのピーク点のみに対してレベ
ルを増大させる処理を施すことが好ましい。
ータを直接操作して行っている。このような特徴を有す
る音声信号処理方法は、マルチバンド励起符号化(MB
E)方式の音声復号装置の音声合成系の後置フィルタに
適用することが好ましい。
調処理を行うことにより、簡単な構成及び簡単な操作
で、強調したい部分だけを正確に強調でき、実時間処理
が容易に行える。また、中〜低域におけるスペクトルの
谷を深くすることで、鼻詰まり感を低減し、さらに信号
の立ち上がり部分でフォルマント強調することで、より
明瞭度の高いクリアな再生音を得ることができる。この
ような処理を有声音区間でのみ行うことにより、無声音
強調による副作用を抑え、また、フォルマント強調を信
号の立ち上がり部分に限定することで、二重話者的な副
作用を抑えることができる。
例について、図面を参照しながら説明する。
実施例の要部の概略的な動作を説明するためのフローチ
ャートである。この実施例は、符号化側あるいはエンコ
ーダ側で時間軸上の音声信号が周波数軸に変換されて伝
送された周波数領域の情報を処理するような、周波数領
域での処理を中心とする音声合成系に用いられる音声信
号処理方法を前提としている。具体的には、例えば、マ
ルチバンド励起符号化(MBE)方式の音声復号装置の
音声合成系の後置フィルタに適用して好ましいものであ
る。この図1に示す実施例の音声信号処理方法において
は、音声スペクトルの周波数軸上のデータを直接操作す
ることで処理を行っている。
第1の強調処理として、高域側の周波数スペクトルエン
ベロープの山谷を強調するような高域フォルマント強調
処理を施している。次のステップS2においては、第2
の強調処理として、全帯域に渡って、特に低域側〜中域
側に対して、周波数スペクトルエンベロープの谷を深く
するような処理を施している。次のステップS3におい
ては、第3の強調処理として、音声信号の立ち上がり部
分での有声音(V)フレームのフォルマントのピーク値
を強調するような処理を施している。次のステップS4
においては、第4の強調処理として、無条件に高域側の
スペクトルエンベロープを強調するような高域強調処理
を施している。
は、周波数領域のパラメータである各バンド毎の振幅値
あるいは周波数軸上でピッチ単位で繰り返すハーモニッ
クスのスペクトル強度を直接操作することで、上述した
ような第1〜第4の強調処理を実現している。なお、こ
れらのステップS1〜S4における第1〜第4の強調処
理は、いずれかを任意に省略したり、順序を入れ替えて
もよい。
のより詳細な説明に先立って、本実施例が適用される音
声合成系としてのマルチバンド励起(MBE)符号化方
式の音声復号装置の概略構成について、図2を参照しな
がら説明する。
BE方式の音声符号化装置、いわゆるMBEボコーダか
ら伝送されてきた量子化振幅データが供給されている。
この量子化振幅データは、上記MBEボコーダにおい
て、入力音声信号の処理フレーム毎のスペクトルを該音
声信号のピッチを単位として分割した各バンド毎の振幅
値を、ピッチの値によらない一定のデータ数に変換し、
ベクトル量子化して得られたデータである。入力端子1
2及び13には、上記MBEボコーダにおいて符号化さ
れたピッチデータ及び各バンド毎に有声音か無声音かを
示すV/UV判別データがそれぞれ供給されている。
は、逆ベクトル量子化部14に送られて逆量子化され、
データ数逆変換部15に送られて逆変換されて上記バン
ド毎の振幅値とされた後、本発明実施例の要部となる強
調処理部16に送られる。この強調処理部16において
は、上記図1の各ステップS1〜S4にそれぞれ対応す
る第1〜第4の強調処理が施される。すなわち、高域側
のスペクトルの山谷を強調する高域フォルマント強調処
理としての第1の強調処理と、全帯域、特に低域側〜中
域スペクトルの谷を深くするような第2の強調処理と、
信号の立ち上がりでの有声音フレームのフォルマントの
ピーク値を強調する第3の強調処理と、無条件に高域側
のスペクトルを強調する第4の強調処理とが、強調処理
部16において施される。この場合の各強調処理は、周
波数領域のパラメータを直接操作することで実現してい
る。これら第1〜第4の強調処理は、いずれかを任意に
省略したり、順序を入れ替えてもよい。
処理が施されて得られた振幅データは、有声音合成部1
7及び無声音合成部20に送られる。
タは、ピッチ復号化部18で復号化され、データ数逆変
換部15、有声音合成部17及び無声音合成部20に送
られる。また入力端子13からのV/UV判別データ
は、有声音合成部17及び無声音合成部20に送られ
る。有声音合成部17では例えば余弦(cosine)波合成に
より時間軸上の有声音波形を合成して、加算部31に送
る。
イトノイズ発生部21からの時間軸上のホワイトノイズ
信号波形を、所定の長さ(例えば256サンプル)で適
当な窓関数(例えばハミング窓)により窓かけをし、S
TFT処理部22によりSTFT(ショートタームフー
リエ変換)処理を施すことにより、ホワイトノイズ信号
の周波数軸上のパワースペクトルを得る。このSTFT
処理部22からのパワースペクトルをバンド振幅処理部
23に送り、UV(無声音)とされたバンドについて上
記振幅を乗算し、他のV(有声音)とされたバンドの振
幅を0にする。このバンド振幅処理部23には上記振幅
データ、ピッチデータ、V/UV判別データが供給され
ている。バンド振幅処理部23からの出力は、ISTF
T処理部24に送られ、位相は元のホワイトノイズの位
相を用いて逆STFT処理を施すことにより時間軸上の
信号に変換する。ISTFT処理部24からの出力は、
オーバーラップ加算部25に送られ、時間軸上で適当な
(元の連続的なノイズ波形を復元できるように)重み付
けをしながらオーバーラップ及び加算を繰り返し、連続
的な時間軸波形を合成する。オーバーラップ加算部25
からの出力信号が上記加算部31に送られる。
合成されて時間軸上に戻された有声音部及び無声音部の
各信号を、加算部31により適当な固定の混合比で加算
することにより、出力端子32より再生された音声信号
を取り出す。
理、すなわち、上記図1の各ステップS1〜S4で行う
ような各強調処理について、それぞれ図面を参照しなが
ら詳細に説明する。
う第1の強調処理、すなわち、スペクトルの高域側の山
谷を強調する高域フォルマント強調処理の具体例を、図
3のフローチャートに示している。
ペクトルエンベロープ情報をam[k]とする。このam[k]
は、ピッチ周期に対応するピッチ角周波数ω0 毎のスペ
クトル、すなわちハーモニックスの強度あるいは振幅値
を示し、(fs/2)πまでにP/2本存在する。ここ
で、kはいわゆるハーモニックスの番号あるいはバンド
のインデックス番号であり、周波数軸上でピッチ周期で
インクリメントされる整数値である。fsはサンプリン
グ周波数、Pはピッチラグ、すなわちピッチ周期に相当
するサンプル数を表す値である。また、am[k]は、dB
領域のデータであり、リニアの値に戻される前のものと
する。
トルの概形を得るために、am[k]を円滑化あるいはスム
ージングしたものの移動平均を算出している。この移動
平均ave[j]は、次の式で表される。
モニクスの本数であり、通常はL=P/2、又は、L=
(P/2)×(3400/4000)である。
に使用するデータの端点が、0以上L以下の範囲に入る
場合である。また、上記(2)式は0側が、上記(3)
式はL側がデータの端点にひっかかる場合、すなわち計
算のためのデータがw個そろわない場合である。このよ
うな場合は、存在するデータのみを使用して移動平均を
求める。例えば、0番目の移動平均ave[0]や1番目の移
動平均ave[1]は、上記(2)式より、次の計算を行って
求めるわけである。
の振幅値の内の最大値を検出する。すなわち、上記a
m[k]の0≦k<l区間におけるピーク値を検出する。l
は例えば25であり、このピーク値をpkとする。
はピーク値pkが所定の閾値Th1 よりも大きいか否かを判
別し、NOのときにはステップS14a〜S14dによ
り高域フォルマント強調処理を何も行わないで、終了あ
るいはリターンする。ピーク値pkが所定の閾値Th1 より
も大きいYESのときには、ステップS15a以降に進
んで、以下に説明するような高域フォルマント強調処理
を行う。これは、もともとスペクトルの値(各バンド毎
の振幅値)が小さいときには、強調を行うとかえって不
自然な感じになることを考慮して、ピーク値pkが上記閾
値Th1 よりも大きいときのみ、以下のような強調処理を
行うものである。上記閾値Th1 は、例えば65としてい
る。
は、0≦k≦Lの範囲のkについて、ステップS16で
am[k]がpk−αより小さいか否かを検出し、YESのと
きにはステップS17に、NOのときにはステップS1
8に進む。このαは例えば23としている。
ルエンベロープの振幅値をam_e[k]とするとき、 am_e[k]=am[k]+lim(am[k]−ave[k])・w[k] ・・・(4) のようなフォルマント強調が行われる。
波数特性を持たせるための重み付け関数であり、低域か
ら高域に向かって徐々に0→1の重み付けがなされるよ
うな係数である。これは高域で上記フォルマント強調を
効かすためのものである。また、上記(4)式中の関数
lim( )は、入力をxとするとき、 lim(x) = sgn(x)(|x|/β)1/2γ ;|x|≦βのとき lim(x) = sgn(x)・γ ;|x|>βのとき ・・・(5) となる関数を用いることができる。ここで、sgn(x) は
xの符号を返す関数であり、x≧0のとき sgn(x)=
1、x<0のとき sgn(x)=−1となる。この関数lim
(x) の例を図4に示す。図中の括弧内の数値は、β=
8、γ=4としたときの例である。
むステップS18では、 am_e[k]=am[k] ・・・ (6) のように入力データをそのまま出力している。
は、上記kを0から1ずつインクリメントしてLまで計
算を行わせるための処理である。
m_e[k]は、高域側のスペクトルの山谷が強調されたもの
となる。
ては、上記kを0からLまでの範囲で1ずつインクリメ
ントしながら、上記(6)式のように出力値am_e[k]を
そのままam[k]で置き換える処理を0≦k≦Lの範囲の
全てのkについて行って、上述のような高域側フォルマ
ント強調処理が行われていない出力を得ている。
理である全帯域のスペクトルの谷を深くする処理の具体
例を、図5のフローチャートに示す。
現在処理を行っているフレームが有声音(V)であるか
無声音(UV)であるかを判別している。このV/UV
判別は、例えば、エンコーダ側に後述するようなマルチ
バンド励起(MBE)符号化を用いたMBEボコーダを
用いる場合には、各バンド毎のV/UV判別データを用
いて行うことができる。例えば、各バンド毎のV/UV
判別フラグの内、Vとなるフラグの個数をNV 、UVと
なるフラグの個数をNUVとするとき、全帯域、例えば2
00〜3400HzにおけるV判別フラグの含有率NV /
(NV +NUV)を求め、これがある閾値、例えば0.
6、を超える場合に、有声音(V)フレームであると判
別すればよい。また、V/UV判別バンド数を例えば1
2バンド程度にまとめるあるいは縮退させる場合には、
上記NV +NUVは12程度となる。さらに、低域側を
V、高域側をUVとするようにバンドのV/UVの切換
点あるいはトランジエントを1箇所で表す場合には、こ
のトランジエント位置が、有効帯域(例えば200〜3
400Hz)の6割(約2040Hz)程度より高域側に存
在する場合を有声音(V)フレームであると判別するよ
うにしてもよい。
ムが有声音(V)フレームであると判別されたときに
は、ステップS22〜S25に進んで、後述するような
強調処理を施している。これらの各ステップS22〜S
25の内、ステップS22、S24、S25は、kを0
からLまでインクリメントするための処理を行うための
ものであり、ステップS23において、スペクトルの谷
を深くする処理を行っている。すなわち、この第2の強
調処理は、出力信号であるスペクトルエンベロープをa
m_2e[k] とするとき、0≦k≦Lに対して、 am_2e[k]=am_e[k]+lim2(am[k]-ave[k])・w2[int(kM/L)] …(7) のような処理を行うものである。
1の強調処理を受けたスペクトルエンベロープで、a
m[k]は強調処理を一切受けていないもの、ave[k]は先に
求めた移動平均をそのまま用いるものである。
強調処理を効かせるための重み付け係数であり、配列の
長さあるいは要素の数を、w2[0]〜w2[M]のM+1個に
している。ここで、kは何番目のハーモニックスである
かを示すインデックスであるので、ω0 をピッチに対応
する基本角周波数とするとき、k×ω0 が角周波数を表
す。すなわちkの値そのものは周波数とは直接一致しな
い。そこで、Lはω0によって変わることを考慮し、k
の最大値Lでkを正規化(ノーマライズ)して、Lの値
に拘らず0〜Mの間で変化するようにし、周波数と対応
するようにしたのが、int(kM/L) の意味である。ここで
Mは固定値、例えば44であり、DC分も含めたM+1
は45となる。従って、w2[i]は、0≦i≦Mの範囲
で、周波数と1対1に対応している。int( )は、最も近
い整数を返す関数であり、w2[i]は、iの増加に従って
1→0へと変化してゆく。
入力xに対して、 lim2(x)=0 :x≧0のとき lim2(x)=−c(−x/c)1/2 :0>x≧−cのとき lim2(x)=−c :−c>xのとき ・・・ (8) を出力するようなものである。ここでc=20とした例
を、図6に示す。
V)フレームであると判別されたときには、ステップS
26〜S29に進んで、入力am_e[k]に対して何ら強調
を行わずに出力am_2e[k] を得ている。すなわち、UV
フレームでは、0≦k≦Lに対して、 am_2e[k] =am_e[k] としている。このような出力をそのまま入力で置き換え
る処理は、ステップS27にて行っており、他のステッ
プS26、S28、S29では、インデックス値kを0
からLまでインクリメントしている。
た出力am_2e[k] を得ている。この実施例では、有声音
(V)フレームのみ、スペクトルの谷を深くする現実の
強調を行っている。このとき、上記cの値として、例え
ば20とかなり大きな値を選んで、大きな変形を行って
いるが、Vフレームのみに実際の強調を施しているた
め、何ら問題はない。なお、有声音(V)フレームと無
声音(UV)フレームとを区別せずに一律にこの強調を
施すと、シャリシャリと異音を発することがあるため、
上記cを小さくする等の対策が必要とされる。
チの低い男声等における鼻詰まり感はかなり解消され、
クリアな音質となるが、さらにメリハリのある音質とす
るために、上記図1のステップS3の第3の強調処理を
施す。これは、信号の立ち上がり部分における有声音
(V)フレームのフォルマント強調を行うものであり、
図7に示すフローチャートを参照しながら説明する。
ち上がり部分か否かの判別を、次のステップS32では
有声音(V)フレームか否かの判別をそれぞれ行ってお
り、いずれもYESとされたときに、ステップS33〜
S40の強調処理を行っている。
か否かの判別は、種々の方法があるが、本実施例におい
ては、次のようにして行っている。すなわち、先ず、現
在フレームの信号の大きさをSam_c として、次式によ
り定義する。
強度の値を用いるものとしている。ここで、1フレーム
前の信号の大きさを同様にSam_p とし、 Sam_c /Sam_p >tha ・・・(10) のときが信号の立ち上がり部分であるとして、トランジ
エントフラグtr をセットし、tr =1とする。それ以
外ではtr =0である。上記閾値tha の具体的な値と
しては、例えば、tha =1.2とする。なお、log の
対数値で1.2倍は、リニア値に換算して約2倍程度に
相当する。
大まかに表す量を算出するために、対数スペクトル強度
am[k]を単に足し合わせているが、この他、リニア領域
で求めたエネルギやrms値等を用いてもよい。また、
上記(9)式の代わりに、
としてもよい。この場合の閾値thb の具体例は、th
b =2.0、である。
ランジエントフラグtr が1であるか否かを判別し、Y
ESのときステップS32に進み、NOのときステップ
S41に進んでいる。ステップS32の有声音(V)フ
レームか否かの判別においては、例えば上記図5のステ
ップS21と同様な方法により判別を行えばよく、さら
に、上記第2の強調処理が先に行われている場合には、
上記ステップS21で行われたVフレーム判別結果をそ
のまま用いればよい。
に進むステップS33〜S40の処理工程において、実
際の強調処理はステップS37にて行われる。これは、
0≦k≦Lにおいて、am[k]がフォルマントのピークの
とき、第3の強調処理された出力am_e3[k] を、 am_e3[k] =am_e2[k]+3.0 ・・・ (11) とし、その他のam[k]では、ステップS38にて何も処
理せずに、 am_e3[k] =am_e2[k] としている。ここで、am_e2[k] は、上記第2の強調処
理工程を経て第3の強調処理工程に供給される入力を示
している。
スペクトルエンベロープにおいて上に凸となる曲線の頂
点の検出は、ステップS34、S35で行っている。す
なわち、1≦k≦Lの範囲で、 (am[k]−am[k-1])(am[k+1]−am[k])<0 かつ、am[k]−am[k-1]>0 ・・・ (12) を満たすようなkがピーク位置となり、低域側から
k1 、k2 、・・・、kN とすると、k1 が第1フォル
マント、k2 が第2フォルマント、・・・、kN が第N
フォルマントにそれぞれ対応することになる。
ついて上記(12)式の条件を満たしたところまでで上
記フォルマントピークの検出及び上記(11)式の処理
を打ち切っている。これは、初期設定ステップS33で
N=3とし、ピーク検出後のステップS36でN=0と
なったか否かを検出し、ステップS37では上記(1
2)式の計算と同時にN=N−1のデクリメントを行う
ことで実現している。
定、ステップS39でのk=k+1のインクリメント、
ステップS40でのk>Lか否かの判別により、1≦k
≦Lの範囲での処理を順次行わせている。
Oと判別されたとき、すなわち、信号の立ち上がりでな
い(tr =0)とき、又は有声音(V)フレームでない
ときには、ステップS41〜S44により、0≦k≦L
の範囲で出力am_3e[k] をそのまま入力am_2e[k] で置
き換える処理、すなわち、 am_3e[k] =am_2e[k] のような処理を行わせている。
(V)フレームのフォルマントピークを高めるような強
調を行うことで、さらにメリハリのある音質にすると共
に、このフォルマント強調を立ち上がり部に限定するこ
とで、二重話者的になってしまう副作用を抑えている。
2)式により、ピーク点のみについて3dB大きくして
いるが、凸部を全体的に強調してもよく、強調量も3d
Bに限定されない。また、低域側から3箇所のピーク点
についてのみ強調を行っているが、2箇所以下あるいは
4箇所以上行うようにしてもよい。
調処理としての高域強調処理について、図8のフローチ
ャートを参照しながら説明する。
スペクトルを強調するものである。すなわち、図8の最
初のステップS46で初期設定としてk=0とし、次の
ステップS47で、 am_e4[k] =am_3e[k] + Emp[int(kM/L)] ・・・ (13) のような強調を行っている。ここでも上述した(7)式
と同様に、kの最大値Lでkを正規化(ノーマライズ)
して、Lの値に拘らず0〜Mの間で変化するようにし、
周波数と対応するようにしたのが、int(kM/L) の意味で
ある。
のM+1個の要素から成り、0≦i≦Mであり、iの増
加に伴って、0から3〜4程度増加するような、すなわ
ち、3〜4dB程度の高域強調を行うようなものであ
る。
し、ステップS49ではk>Lか否かを判別し、NOの
ときはステップS47に戻り、YESのときはメインル
ーチンにリターンしている。
強調処理前のスペクトルエンベロープの振幅あるいは強
度am[k]と、上記移動平均ave[k]と、上記第1〜第4の
強調処理を行って得られた振幅あるいは強度am_e4[k]
との具体例を示す図であり、図9は信号の定常部での一
例を、図10は信号の立ち上がり部での一例をそれぞれ
示している。
上記第3の強調処理である信号立ち上がりでの有声音フ
レームのフォルマント強調処理が行われていないのに対
して、図10の例においては、信号の立ち上がり部であ
るため、上記第3の強調処理を含む全ての処理が施され
ている。
用される音声合成系に信号を供給するためのエンコーダ
側の一例として、音声信号の合成分析符号化装置(いわ
ゆるボコーダ)の一種のMBE(Multiband Excitatio
n: マルチバンド励起)ボコーダの具体例について、図
面を参照しながら説明する。このMBEボコーダは、
「マルチバンド励起ボコーダ」("Multiband Excitatio
n Vocoder", D.W.Griffinand J.S. Lim, IEEE Trans. A
coustics, Speech, and Signal Processing, vol.36, N
o.8, pp.1223-1235, Aug.1988)に開示されているもの
であり、従来のPARCOR(PARtial auto-CORrelati
on: 偏自己相関)ボコーダ等では、音声のモデル化の際
に有声音区間と無声音区間とをブロックあるいはフレー
ム毎に切り換えていたのに対し、MBEボコーダでは、
同時刻(同じブロックあるいはフレーム内)の周波数軸
領域に有声音(Voiced)区間と無声音(Unvoiced)区間
とが存在するという仮定でモデル化している。
略構成を示すブロック図である。この図11において、
入力端子101には音声信号が供給されるようになって
おり、この入力音声信号は、ハイパスフィルタ(HP
F)等のフィルタ102に送られて、いわゆる直流(D
C)オフセット分の除去や帯域制限、例えば200〜3
400Hzに制限、のための少なくとも低域成分、例えば
200Hz以下の除去が行われる。このフィルタ102を
介して得られた信号は、ピッチ抽出部103及び窓かけ
処理部104にそれぞれ送られる。ピッチ抽出部103
では、入力音声信号データが所定サンプル数N、例えば
N=256、の単位でブロック分割、あるいは方形窓に
よる切り出しが行われ、このブロック内の音声信号につ
いてのピッチ抽出が行われる。このような切り出しブロ
ック(256サンプル)を、例えばLサンプル(例えば
L=160)のフレーム間隔で時間軸方向に移動させて
おり、各ブロック間のオーバラップはN−Lサンプル
(例えば96サンプル)となっている。また、窓かけ処
理部104では、1ブロックNサンプルに対して所定の
窓関数、例えばハミング窓をかけ、この窓かけブロック
を1フレームLサンプルの間隔で時間軸方向に順次移動
させている。窓かけ処理された出力信号のデータ列に対
して、直交変換部105により例えば高速フーリエ変換
FFT等の直交変換処理が施される。
リップ波形の自己相関法を用いて、ピーク周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ、すなわちピッチのファインサーチが行われる。
抽出部103で抽出された整数値の粗ピッチデータと、
直交変換部105により例えばFFTされた周波数軸上
のデータとが供給されている。この高精度ピッチサーチ
部106では、上記粗ピッチデータ値を中心に、0.2〜
0.5きざみで±数サンプルずつ振って、最適な小数点付
き、いわゆるフローティング表示のファインピッチデー
タの値へ追い込む。このときのファインサーチの手法と
して、いわゆる合成による分析(Analysis bySynthesis
)法を用い、合成されたパワースペクトルが原音のパ
ワースペクトルに最も近くなるようにピッチを選んでい
る。
適ピッチ及び振幅|Am |のデータは、有声音/無声音
判別部107に送られ、上記各バンド毎に有声音/無声
音の判別が行われる。この判別のために、NSR(ノイ
ズtoシグナル比)を利用する。すなわち、このNSR
値が所定の閾値(例えば0.3)より大のとき、すなわち
エラーが大きいときには、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部107
からのV/UV(有声音/無声音)判別データが供給さ
れている。この振幅再評価部108では、有声音/無声
音判別部107において無声音(UV)と判別されたバ
ンドに関して、再度振幅|Am |UVを求めている。
一種のサンプリングレート変換部であるデータ数変換部
109に送られる。このデータ数変換部109は、上記
ピッチに応じて周波数軸上での分割帯域数が異なり、デ
ータ数、特に振幅データの数が異なることを考慮して、
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400Hzまでとすると、この有効帯域が上
記ピッチに応じて、8バンド〜63バンドに分割される
ことになり、これらの各バンド毎に得られる上記振幅|
Am |(UVバンドの振幅|Am |UVも含む)データの
個数も8〜63と変化することになる。このためデータ
数変換部109では、この可変個数の振幅データを一定
個数NC (例えば44個)のデータに変換している。
有効帯域1ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をNF 個に拡大した後、帯域制限型のKOS倍(例えば8
倍)のオーバーサンプリングを施すことによりKOS倍の
個数の振幅データを求め、このKOS倍の個数(( mMX+
1)×KOS個)の振幅データを直線補間してさらに多く
のNM 個(例えば2048個)に拡張し、このNM 個の
データを間引いて上記一定個数NC (例えば44個)の
データに変換する。
(上記一定個数NC の振幅データ)がベクトル量子化部
110に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部110からの量子化出力データは、出力端子1
11を介して取り出される。また、上記高精度のピッチ
サーチ部106からの高精度(ファイン)ピッチデータ
は、ピッチ符号化部115で符号化され、出力端子11
2を介して取り出される。さらに、上記有声音/無声音
判別部107からの有声音/無声音(V/UV)判別デ
ータは、出力端子113を介して取り出される。これら
の各出力端子111〜113からのデータは、所定の伝
送フォーマットの信号とされて伝送される。
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
ド側)の構成や図2の音声合成側(デコード側)の構成
については、各部をハードウェア的に記載しているが、
いわゆるDSP(ディジタル信号プロセッサ)等を用い
てソフトウェアプログラムにより実現することも可能で
ある。
るものではなく、例えば、上記第1〜第4の強調処理は
順序を入れ替えてもよく、また全ての処理を行わせずに
一部を省略してもよい。また、本発明に係る音声信号処
理方法が適用される音声合成装置は図2の例に限定され
ず、例えば、データ数逆変換前の信号に対して強調処理
を行うようにしたり、エンコード側でのデータ数変換や
デコード側でのデータ数逆変換を行わずに強調処理を行
うようにしてもよい。
ば、周波数領域のパラメータを直接操作して強調してい
るため、簡単な構成及び簡単な操作で、強調したい部分
だけを正確に強調でき、自然感を損なうことなく合成音
の明瞭度を向上させることができる。これは、時間軸方
向の高域強調フィルタ(例えばIIRフィルタ)等を用
いて時間領域で処理するときに不可欠とされたフィルタ
のポール(極)の位置の計算が不要となるので、容易に
実時間処理を行うことができ、フィルタの不安定さによ
る悪影響等を完全に回避できるという利点にも結び付く
ものである。
を示す信号と、その信号を周波数軸上で平滑化したもの
に基づいて、スペクトルのフォルマント間の谷部分を深
くする処理を施しているため、再生音の鼻詰まり感を低
減することができる。
均をとることにより行い、周波数スペクトルの強度を示
す信号と、その信号を周波数軸上で平滑化したものとの
差に基づいて、上記スペクトルのフォルマント間の谷部
分を深くする処理を施すことにより、簡単な計算処理で
有効な強調が行える。また、有声音区間のときのみ強調
処理を行わせることにより、無声音強調によるシュルシ
ュルというノイズ発生の副作用を抑えることができる。
よれば、周波数領域での処理を中心とする音声合成系に
用いられる音声信号処理方法において、音声信号の立ち
上がりの部分における周波数スペクトルのフォルマント
を周波数領域のパラメータを直接操作して強調処理する
ことにより、より明瞭度の高いクリアな音質で、メリハ
リのきいた再生音を得ることができ、しかも二重話者的
な副作用を低減することができる。
ことにより、無声音強調による副作用を低減でき、上記
周波数スペクトルのピーク点のみに対してレベルを増大
させる処理を施すことにより、フォルマントの形状が細
くなり、他の強調処理でスペクトルの谷部分を下げた効
果を損なうことなく、再生音がクリアとなる。
本動作を説明するためのフローチャートである。
用可能な装置の具体例としての音声合成分析符号化装置
の合成側(デコード側)の音声復号装置の概略構成を示
す機能ブロック図である。
めのフローチャートである。
示す図である。
めのフローチャートである。
である。
めのフローチャートである。
めのフローチャートである。
形図である。
ための波形図である。
が適用される音声復号装置に信号を送る音声合成分析符
号化装置の分析側(エンコード側)の概略構成を示す機
能ブロック図である。
Claims (9)
- 【請求項1】 周波数領域での処理を中心とする音声合
成系に用いられる音声信号処理方法において、 伝送された周波数スペクトルの強度を示す信号と、その
信号を周波数軸上で平滑化したものに基づいて、スペク
トルのフォルマント間の谷部分を深くする処理を施すこ
とを特徴とする音声信号処理方法。 - 【請求項2】 上記平滑化は、周波数スペクトルの強度
を示す情報について、周波数軸上で移動平均をとること
により行うことを特徴とする請求項1記載の音声信号処
理方法。 - 【請求項3】 上記伝送された周波数スペクトルの強度
を示す信号と、その信号を周波数軸上で平滑化したもの
との差に基づいて、上記スペクトルのフォルマント間の
谷部分を深くする処理を施すことを特徴とする請求項1
又は2記載の音声信号処理方法。 - 【請求項4】 上記差の大きさに従って、上記スペクト
ルのフォルマント間の谷部分を深くする減衰量を変化さ
せることを特徴とする請求項3記載の音声信号処理方
法。 - 【請求項5】 上記伝送された周波数スペクトルの強度
を示す信号が、有声音区間のものか無声音区間のものか
を判別し、有声音区間のときのみ上記処理を行うことを
特徴とする請求項1又は2記載の音声信号処理方法。 - 【請求項6】 周波数領域での処理を中心とする音声合
成系に用いられる音声信号処理方法において、 音声信号の立ち上がりの部分における周波数スペクトル
のフォルマントを周波数領域のパラメータを直接操作し
て強調処理することを特徴とする音声信号処理方法。 - 【請求項7】 有声音区間のときのみ上記処理を施すこ
とを特徴とする請求項6記載の音声信号処理方法。 - 【請求項8】 上記周波数スペクトルの低域側のみに対
して上記処理を施すことを特徴とする請求項6記載の音
声信号処理方法。 - 【請求項9】 上記周波数スペクトルのピーク点のみに
対してレベルを増大させる処理を施すことを特徴とする
請求項6記載の音声信号処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03997994A JP3321971B2 (ja) | 1994-03-10 | 1994-03-10 | 音声信号処理方法 |
US08/935,695 US5953696A (en) | 1994-03-10 | 1997-09-23 | Detecting transients to emphasize formant peaks |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03997994A JP3321971B2 (ja) | 1994-03-10 | 1994-03-10 | 音声信号処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07248794A true JPH07248794A (ja) | 1995-09-26 |
JP3321971B2 JP3321971B2 (ja) | 2002-09-09 |
Family
ID=12568073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03997994A Expired - Fee Related JP3321971B2 (ja) | 1994-03-10 | 1994-03-10 | 音声信号処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5953696A (ja) |
JP (1) | JP3321971B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
WO2003015080A1 (en) * | 2001-08-02 | 2003-02-20 | Matsushita Electric Industrial Co., Ltd. | Pitch cycle search range setting device and pitch cycle search device |
JP2005208627A (ja) * | 2003-12-25 | 2005-08-04 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
JP2005528647A (ja) * | 2002-05-31 | 2005-09-22 | ヴォイスエイジ・コーポレーション | 合成発話の周波数選択的ピッチ強調方法およびデバイス |
JP2009237589A (ja) * | 2003-12-25 | 2009-10-15 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
JP2010008922A (ja) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | 音声処理装置、音声処理方法及びプログラム |
JP2014219567A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 音声強調装置、及びプログラム |
JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
JP2017167008A (ja) * | 2016-03-17 | 2017-09-21 | 国立研究開発法人防災科学技術研究所 | 出力周波数補正方法、津波警報装置、及び、津波警報システム |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
US6574334B1 (en) | 1998-09-25 | 2003-06-03 | Legerity, Inc. | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors |
GB2342829B (en) * | 1998-10-13 | 2003-03-26 | Nokia Mobile Phones Ltd | Postfilter |
AUPQ366799A0 (en) * | 1999-10-26 | 1999-11-18 | University Of Melbourne, The | Emphasis of short-duration transient speech features |
US7353169B1 (en) * | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
US7970144B1 (en) | 2003-12-17 | 2011-06-28 | Creative Technology Ltd | Extracting and modifying a panned source for enhancement and upmix of audio signals |
US7117147B2 (en) * | 2004-07-28 | 2006-10-03 | Motorola, Inc. | Method and system for improving voice quality of a vocoder |
US20070118361A1 (en) * | 2005-10-07 | 2007-05-24 | Deepen Sinha | Window apparatus and method |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US8121835B2 (en) * | 2007-03-21 | 2012-02-21 | Texas Instruments Incorporated | Automatic level control of speech signals |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
US20090222268A1 (en) * | 2008-03-03 | 2009-09-03 | Qnx Software Systems (Wavemakers), Inc. | Speech synthesis system having artificial excitation signal |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
US9640185B2 (en) | 2013-12-12 | 2017-05-02 | Motorola Solutions, Inc. | Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder |
US9548067B2 (en) | 2014-09-30 | 2017-01-17 | Knuedge Incorporated | Estimating pitch using symmetry characteristics |
US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
EP3107097B1 (en) * | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
US9847093B2 (en) * | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4566117A (en) * | 1982-10-04 | 1986-01-21 | Motorola, Inc. | Speech synthesis system |
US4586193A (en) * | 1982-12-08 | 1986-04-29 | Harris Corporation | Formant-based speech synthesizer |
EP0243479A4 (en) * | 1985-10-30 | 1989-12-13 | Central Inst Deaf | LANGUAGE PROCESSING ARRANGEMENT AND METHOD. |
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5479560A (en) * | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
US5536902A (en) * | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
-
1994
- 1994-03-10 JP JP03997994A patent/JP3321971B2/ja not_active Expired - Fee Related
-
1997
- 1997-09-23 US US08/935,695 patent/US5953696A/en not_active Expired - Lifetime
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4548953B2 (ja) * | 2001-03-02 | 2010-09-22 | 株式会社リコー | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
US7542898B2 (en) | 2001-08-02 | 2009-06-02 | Panasonic Corporation | Pitch cycle search range setting apparatus and pitch cycle search apparatus |
WO2003015080A1 (en) * | 2001-08-02 | 2003-02-20 | Matsushita Electric Industrial Co., Ltd. | Pitch cycle search range setting device and pitch cycle search device |
US7177802B2 (en) | 2001-08-02 | 2007-02-13 | Matsushita Electric Industrial Co., Ltd. | Pitch cycle search range setting apparatus and pitch cycle search apparatus |
CN100354927C (zh) * | 2001-08-02 | 2007-12-12 | 松下电器产业株式会社 | 解码自适应声源向量产生装置及其语音解码装置 |
JP2005528647A (ja) * | 2002-05-31 | 2005-09-22 | ヴォイスエイジ・コーポレーション | 合成発話の周波数選択的ピッチ強調方法およびデバイス |
JP2009237589A (ja) * | 2003-12-25 | 2009-10-15 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
JP4513556B2 (ja) * | 2003-12-25 | 2010-07-28 | カシオ計算機株式会社 | 音声分析合成装置、及びプログラム |
JP2005208627A (ja) * | 2003-12-25 | 2005-08-04 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
JP2010008922A (ja) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | 音声処理装置、音声処理方法及びプログラム |
JP2014219567A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 音声強調装置、及びプログラム |
JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
JP2017167008A (ja) * | 2016-03-17 | 2017-09-21 | 国立研究開発法人防災科学技術研究所 | 出力周波数補正方法、津波警報装置、及び、津波警報システム |
Also Published As
Publication number | Publication date |
---|---|
US5953696A (en) | 1999-09-14 |
JP3321971B2 (ja) | 2002-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3321971B2 (ja) | 音声信号処理方法 | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
JP3475446B2 (ja) | 符号化方法 | |
KR100452955B1 (ko) | 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체 | |
JP3137805B2 (ja) | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 | |
JPH096397A (ja) | 音声信号の再生方法、再生装置及び伝送方法 | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JPH0869299A (ja) | 音声符号化方法、音声復号化方法及び音声符号化復号化方法 | |
US5983173A (en) | Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech | |
KR20050049103A (ko) | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 | |
JPH09281996A (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
JPH11177434A (ja) | 音声符号化復号方式 | |
US5812966A (en) | Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JP3158434B2 (ja) | 低減されたスペクトルひずみを有するポストフィルタを備えたデジタル音声デコーダ | |
JPH06202695A (ja) | 音声信号処理装置 | |
JP2002049399A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP3297750B2 (ja) | 符号化方法 | |
JP3218680B2 (ja) | 有声音合成方法 | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
JP2002049398A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP3218681B2 (ja) | 背景雑音検出方法及び高能率符号化方法 | |
JP2003216189A (ja) | 符号化装置及び復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020528 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080628 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080628 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090628 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090628 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100628 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100628 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110628 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120628 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130628 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |