JP3789503B2

JP3789503B2 - 音声処理装置

Info

Publication number: JP3789503B2
Application number: JP33541094A
Authority: JP
Inventors: 雅美三浦
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-12-22
Filing date: 1994-12-22
Publication date: 2006-06-28
Anticipated expiration: 2021-06-28
Also published as: JPH08179792A

Description

【０００１】
【産業上の利用分野】
本発明は、例えば補聴器、電話、拡声器、音声通信などの各種分野に利用できる音声処理装置に関するものである。
【０００２】
【従来の技術】
音響再生装置や通信装置その他の各種の音声信号伝送系を有する機器において、音声信号についての残響成分やエコー成分が多いと、出力される音声が聞き取りにくくなることがある。
このような場合、出力音声について速度を遅くしたり、音声波形が比較的連続した状態となる発声語音成分を細かく分解して、できるだけ音声単位で区切りをつけて出力するような処理を行なうことがある。
【０００３】
例えば難聴者や老人のための補聴器については、難聴者や老人は発声語音として各連続発声音がつながってしまうと健聴者に比べて語音認識がかなり困難になるということもあり、補聴器において連続発声語音を細かく分解して出力するという処理は聞き取り易さを向上させる有効な手段となる。
また健聴者が使用する機器であっても、ノイズの多い環境下で用いる通信機などの場合、このような処理は有効である。
【０００４】
【発明が解決しようとする課題】
ところが、このような発話速度を遅くしたり連続音声語音を分解する音声処理については、次のような各種問題があった。
まず、発話速度を遅くする場合は、当然ながら原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。また聞き終えるまでの時間が長くなってしまう。
【０００５】
また連続音声語音を分解する場合については、連続音声の区切りを検出し、その出力タイミングで出力レベルのアッテネートを行なうという方法を実行することになる。従って、まず区切りタイミングを検出してから、遅延させておいた出力信号について区切りとなる部分でレベルを減衰させるということになるため、この場合も遅延分だけ原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。
このように即時性が無くなることは、会話等に使用する場合、特に補聴器等では大きな問題となってしまう。
また、入力音声と出力音声に数ミリ秒以上の遅れがあり、さらに出力された音声がマイクロホン（入力系）にフィードバックされるような音響結合を持つ場合には、残響やエコーのような状態で知覚されてしまい、逆に聞き取りにくくなってしまう場合もある。
【０００６】
また、語音の知覚判断には、音声成分の変化速度も重要な手掛かりとなっている。このため、音声の速度を遅くする処理を行なうと、変化速度情報が損なわれ、別の語音に知覚されてしまうことが発生する場合もある。
【０００７】
また、語音をばらばらにしてゆっくり出力するような処理を行なうと、語音のまとまりとしての情報や、過渡的変化部分の情報が失われてしまうため、出力される音声の明瞭度が悪くなる場合も発生する。
【０００８】
【課題を解決するための手段】
本発明はこのような問題点に鑑みて、入力−出力系での時間ずれをなくし即時性を確保するとともに、より聞きやすい音声出力を行なうことができる音声処理装置を提供することを目的とする。
【０００９】
このため音声処理装置として、入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段を設ける。そして振幅抑圧手段に対する制御系として、前記フィルタ手段の出力についてまとまった音声部分である連続音声の区切りとなる終端を予測する終端予測判定手段と、前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、振幅制御手段を設ける。この振幅制御手段は終端予測判定手段による終端予測に応じて振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また開始判別手段による開始判別に応じて振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができるようにする。
これにより、即時性を損なうことなく、まとまった音声部分の区切りの部分で振幅を抑え、各まとまった音声部分の認識のための明瞭度を向上させる。
【００１０】
ここで終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するようにする。
【００１１】
また終端予測判定手段における信号レベルピーク値の判別動作としては、まず判別される信号レベルピーク値の上限及び下限が設定されているものとする。そして、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルがしきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別する。また前記フィルタ手段の出力の信号レベルがしきい値より大きい場合は、信号レベルがしきい値より小さかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別するようにする。
【００１２】
また終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成する。
【００１３】
上記構成の音声処理装置における開始判別手段としては、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成する。
【００１５】
また音声処理装置としては、入力音声信号から子音成分を抽出する第２のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第２のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成する。
【００１６】
また、前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給するように構成する。
【００１７】
また上記各構成の音声処理装置において、出力音声信号について周波数特性を補正する特性補正フィルタ手段を設るようにする。
【００１８】
【作用】
このような構成の音声処理装置では、会話音声波形に対して各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。これは継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることにつながる。
これらの作用による、音声言語認識上の有用性ついてここで簡単に説明しておく。
【００１９】
通常の会話音声は、ある程度のまとまりをもって発音されており、人間の音声言語知覚も各音の知覚と、まとまった語音の特徴知覚の両方から行なわれているといわれている。ここで、健聴者に関しては、雑音が少なく受聴環境が良いという条件さえ整っていれば、音声伝送機器において特別な音声処理を行なわなくても十分に出力音声を聞き取ることができる。
ところが雑音環境下であったり、もしくは難聴者の場合は、音声言語の知覚が難しくなり、この原因としては継時マスキングの影響や、短時間音声記憶がスムースに実行できないということが考えられている。
【００２０】
継時マスキングとしては、特に前の母音音声が次の音の子音部分をマスクしてしまうということがあり、これによって子音の聴覚的感度が悪くなり、聞き取りにくいものとなる。
また人間が音声を知覚判断するときには、まとまった音声を短時間、一時的に記憶しておき、その間に分析識別を行なうといわれている。このときに雑音があった場合や、または難聴者の場合では、まとまった音声の区切りがはっきりしなくなる。このため短時間音声記憶と分析識別がスムースに実行できず、明瞭度が悪くなると考えられている。これに似た例としては、健聴者でも外国語の聞き取りが難しい原因の一つとして、短時間音声記憶と分析識別がスムースに実行できないためであるといわれている。
【００２１】
一方、まとまって発声された音の最後部の１０数ミリ秒は音声情報としては冗長であることが多い。つまり、この最後部の１０数ミリ秒については音声情報が失われても明瞭度の悪化には殆どつながらない。
そこで、上記構成の本発明では、音声のまとまりの終端をみつけて、その直前の数ミリ〜数１０ミリ秒の間の振幅を抑圧するようにすることで、音声のまとまり（連続音声）毎の区切りをはっきりさせるようにしている。即ちこれによって、継時マスキングを減少させて子音に対する聴覚的感度を向上させるとともに、短時間音声記憶を助けることになる。
【００２２】
そしてさらに、音声のまとまりの終端をみつける処理として、終端を予測するという処理を実行するようにすることにより、入力から出力までの系において遅延処理を不要とし、即時性を保持する。また即時性を保持することにより、出力系から入力系までの音響結合状態に関わらず、残響やエコーとして聞こえてしまうことも解消する。
また、音声出力をゆっくり行なう処理ではないため、音声成分の変化速度の情報も損なわれず、さらに音声情報の過渡的変化部分の情報も失われない。
【００２３】
【実施例】
以下、図１〜図５を用いて本発明の実施例を説明する。
図１は実施例の音声処理装置のブロック図である。１は音声信号の入力端子を示す。入力端子１から入力された音声信号は子音成分分離フィルタ２及びフォルマント成分分離フィルタ３に供給される。
子音成分分離フィルタ２では音声信号から子音成分を抽出して出力する。またフォルマント成分分離フィルタ３は例えば１５０〜１０００Ｈｚの通過帯域が設定されることで、音声信号からピッチ成分とフォルマント成分を抽出して出力する。
【００２４】
４は振幅抑圧回路であり、例えばアッテネータ回路として形成される。振幅抑圧回路４にはフォルマント成分分離フィルタ３の出力が供給されており、この出力を制御係数ｗに基づいて減衰させて出力することができる。
５は音声レベル算出部であり、フォルマント成分分離フィルタ３の出力が供給されて音声レベル検出を行なう。音声レベル算出部５は例えばフォルマント成分分離フィルタ３の出力に対して全波整流したのち、例えば６０Ｈｚ以下を通過帯域とする低域通過フィルタで処理を行なえばよい。音声レベル算出部に供給される音声信号がピッチ成分とフォルマント成分のみであることにより、音声レベル算出部５のレベル検出出力ｅはノイズの影響を受けにくいものとすることができる。
【００２５】
音声レベル算出部５によるレベル検出出力ｅは振幅制御信号発生部６に供給される。振幅制御信号発生部６は例えばマイクロコンピュータで構成され、レベル検出出力ｅをデジタルデータに変換して取り込む。そしてレベル検出データに応じて所要の演算処理を行ない、振幅抑圧回路４に対する制御係数ｗを発生させる。
【００２６】
子音分離フィルタ２の出力と振幅抑圧回路４の出力は、周波数特性補正フィルタ７に供給され、混合処理されるとともに所要の周波数特性補正処理（イコライジング処理）が施されて、出力端子８から出力される。周波数特性補正フィルタ７は、この音声処理装置を搭載する機器、考えられる使用状況、使用者の状況（例えば補聴器に搭載する場合の使用者の聴覚周波数特性等）などに応じてフィルタ係数や処理帯域が設定される。また、このフィルタ特性は使用に際して設定を可変調整できるようにしておいてもよい。
【００２７】
この実施例の音声処理装置は、特に振幅制御信号発生部６が、音声レベル算出部５からのレベル検出出力ｅを用いて、連続音声（まとまって発声された音）の終端が近づいていることを予測し、また連続音声が開始されたことを検出する。そして、これらの判断に応じて振幅抑圧回路４の制御を行なう。つまり、連続音声の終端間際のタイミングで振幅抑圧が行なわれるようにして、各連続音声の間の区切りが明確となるようにするものである。
【００２８】
この動作を図３で説明する。
図３（ａ）は入力端子１から入力された音声信号とし、この音声信号がフォルマント成分分離フィルタ３を介して音声レベル検出部３に供給され、図３（ｂ）のようなレベル検出信号ｅが得られたとする。
【００２９】
このレベル検出信号ｅに対して、振幅制御信号発生部６は所定のサンプリング周期でＡ／Ｄ変換して取り込んでいくことになる。そして振幅制御信号発生部６の演算処理としては、概略的に述べれば、取り込んだレベル検出信号ｅについてまずピーク値ＰＫを判別し、そのピーク値ＰＫからしきい値ｔｈを設定する。例えばピーク値ＰＫに対して係数を乗算し、ピーク値ＰＫのｎ％となるしきい値ｔｈを設定する。
そして、取り込んだレベル検出信号ｅ_(i) （ｉは或るサンプルタイミングを示す）について逐次しきい値ｔｈと比較し、また前回のレベル検出信号ｅ_(i-1) と比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
【００３０】
このような判別動作を行なっていて、或る時点でレベル検出信号ｅ_(i) が、しきい値ｔｈより小さくなり、かつ減少傾向にあると判別されたら、連続音声の終端が近づいていると予測判断を行なう。例えば図３（ｂ）に示すようにｔ₀ 時点で連続音声の終端が近づいているという予測判断が行なわれることになる。
このような終端予測が行なわれたら、振幅抑圧回路４に対する制御係数を変化させ、図３（ｃ）から分かるように利得レベルを下げていく。つまりアッテネーション量を徐々に大きくしていく。
【００３１】
また、図３の場合ｔ₁ 時点で音声レベルが増加傾向に転じることになる。このような場合、連続音声の発声が開始されたと判断し、振幅抑圧回路４に対する制御係数を変化させ、図３（ｃ）から分かるように利得レベルを上げていく。つまりアッテネーション量を徐々に小さくしていく。
このような処理を行なうことで、出力端子８から出力される音声信号は、例えば図３（ｄ）のようになり、つまり音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。
【００３２】
なお図３はあくまで説明のための概略的な波形であり、実際には振幅制御信号発生部６では、音声レベル検出値として取り込んだｅ_(i) に対して図２で示す演算処理が行なわれて振幅抑圧回路４に対する制御係数ｗが設定されるものとなる。
図２に示す振幅制御信号発生部６の処理は、音声レベル検出出力ｅがデジタルデータｅ_(i) としてに取り込まれる毎に、ステップF101に進む。
【００３３】
まずステップF101では音声レベルｅ_(i) としきい値ｔｈを比較する。しきい値ｔｈは、それ以前において、ステップF110又はF117で設定された値である。
そしてステップF101でｅ_(i) ＞ｔｈと判断されればステップF111に進み、ダウンフラグＤＷを１とする。ダウンフラグＤＷとは、それ以前は音声レベルが減少傾向にあった場合、もしくは減少傾向にあったと見なす場合に『１』とセットされるフラグである。
【００３４】
続いてステップF112でフラグＢＹを確認する。フラグＢＹは、前回入力された音声レベルｅ_(i-1) がしきい値ｔｈより小さかった場合にステップF102で『０』とされるフラグである。従って、しきい値ｔｈより高い音声レベルｅ_(i) がはじめて入力された場合は、そのときフラグＢＹは『０』であり、従ってステップF112からF118に進む。また前回の音声レベルｅ_(i-1) もしきい値ｔｈより高いレベルであった場合は、ステップF112からF113に進むことになる。
【００３５】
最初にしきい値ｔｈより高い音声レベルｅ_(i) が入力され、ステップF112からF118に進んだ場合は、音声レベルｅ_(i) がピーク値ＰＫの下限として設定されている下限値ＬｉｍＬと比較する。ピーク値ＰＫについては上限値ＬｉｍＨと下限値ＬｉｍＬが設定されており、入力された音声レベルのピーク値ＰＫをこの間において可変設定するものとなる。もし、入力された音声レベルのピーク値ＰＫが上限値ＬｉｍＨ又は下限値ＬｉｍＬをこえた場合は、その上限値ＬｉｍＨ又は下限値ＬｉｍＬがピーク値ＰＫと設定される。
【００３６】
ステップF118では音声レベルｅ_(i) が下限値ＬｉｍＬを越えて小さいものとなっているか否かを判断することになる。下限値ＬｉｍＬを越えていなければ、しきい値ｔｈをピーク値ＰＫとして設定する(F120)。一方、下限値ＬｉｍＬを越えていた場合は、ピーク値ＰＫを下限値ＬｉｍＬより小さいものとはしないようにするため下限値ＬｉｍＬをピーク値ＰＫとして設定する(F119)。
ステップF119又はF120でピーク値ＰＫを設定したら、フラグＢＹを１にセットする(F120)。つまり、今回の音声レベルｅ_(i) は、それまでしきい値ｔｈより小さかったものが、しきい値を越えたものになるため、次回の音声レベルｅ_(i) の入力時の処理に備えて、音声レベルがしきい値ｔｈを越えていたことを識別するフラグＢＹをオンとする。
【００３７】
続いて、ステップF122で音声レベルｅ_(i) と前回の音声レベルｅ_(i-1) を比較し、つまり現在音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
これまでのステップをたどった場合、つまり最初にしきい値ｔｈを越えた時点では、当然増加傾向にあるため、ステップF123に進んで制御係数ｗをｗ＋ｄ２の値に更新する。ｄ２とは制御係数ｗを増加させる場合、つまり振幅抑圧回路４において減衰量を少なくしていく場合のステップ幅である。
ただし、制御係数ｗの値は、０≦ｗ≦１の範囲内となる。従って、例えばｗ＝１であった場合は（減衰量０の場合）、ステップF123に進んでも制御係数ｗは更新されない。
【００３８】
続いて次のタイミングで音声レベルｅ_(i) が入力され、これも音声レベルｅ_(i) はしきい値ｔｈより大きかったとする。するとステップF111,F112 と進むが、この時点、つまり最初にしきい値ｔｈを越えた場合以外ではフラグＢＹ＝１であるため、ステップF113に進む。
ここで、ピーク値ＰＫと音声レベルｅ_(i) を比較し、音声レベルｅ_(i) がピーク値ＰＫを越えていなければ、そのままステップF122に進む。
【００３９】
一方、音声レベルｅ_(i) がピーク値ＰＫを越えていれば、ピーク値ＰＫの更新処理を行なう。まずステップF114で音声レベルｅ_(i) と、ピーク値ＰＫの上限値ＬｉｍＨと比較する。もし音声レベルｅ_(i) が上限値ＬｉｍＨを越えていた場合は、ピーク値ＰＫを上限値ＬｉｍＨより大きいものとはしないようにするため上限値ＬｉｍＨをピーク値ＰＫとして設定する(F115)。
【００４０】
また音声レベルｅ_(i) がピーク値ＰＫを越えており、さらに音声レベルｅ_(i) が上限値ＬｉｍＨを越えていない場合は、新たなピーク値ＰＫが検出されたことになるため、ピーク値ＰＫの値を音声レベルｅ_(i) にセットする(F116)。
ステップF115又はF116でピーク値ＰＫを更新したら、ステップF117でしきい値ｔｈを更新する。本実施例では、しきい値ｔｈはピーク値ＰＫに基づいて、その何％という値に設定されているものとしており、このためピーク値ＰＫが更新された場合は、ピーク値ＰＫに所定の値に設定されている係数ＲＴを乗算してを新たなしきい値を設定する。
係数ＲＴは例えば、しきい値ｔｈがピーク値ＰＫの数〜数１０パーセントの値となるようなある係数値に設定されている。
【００４１】
以上は、音声レベルｅ_(i) がしきい値ｔｈより大きい場合の処理である。
音声レベルｅ_(i) がしきい値ｔｈより低いものとなっていた場合は、処理はステップF101からF102に進む。そしてまず、音声レベルｅ_(i) がしきい値ｔｈより低いこととなったために、フラグＢＹを『０』にする。
次に、今回の音声レベルｅ_(i) と前回の音声レベルｅ_(i-1) を比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する(F103)。
【００４２】
減少傾向とされた場合、ステップF105でダウンフラグＤＷを確認する。ダウンフラグＤＷが『０』でない場合、つまり、これ以前が音声レベルが減少していたか、ステップF111で減少しているとみなされる状態となっていた場合は、ステップF106へ進む。この場合は、即ち、音声レベルがしきい値より低くなり、かつ減少傾向にあることが判別されたことになるため、連続音声の終端が近づいているという予測判断が行なわれたことになる。従ってステップF106では、制御変数ｗを、ｗ−ｄ１の値に更新する。ｄ１とは制御係数ｗを減少させる場合、つまり振幅抑圧回路４において減衰量を大きくしていく場合のステップ幅である。
【００４３】
以降、入力されてくる音声レベルｅ_(i) が連続音声の終端に向かって減少しつづけている場合は、図２の処理は音声レベルｅ_(i) の入力毎にステップF106に進むことになり、従って徐々に減衰量が大きくなっていく。つまり図３（ｃ）にｔ₀ 時点から示すように、振幅抑圧回路４の利得レベルが小さくされていくことになる。
なお、この場合も制御係数ｗの値は、０≦ｗ≦１の範囲内で更新されるものとなるため、ｗ＝０となった以降は、ステップF106に進んでもｗ＝０の状態が維持される。つまり、図３（ｃ）において、利得レベルが０に達してからｔ₁ 時点に至までの期間に相当する状態となる。
【００４４】
一方、ステップF105でダウンフラグＤＷ＝０と判断された場合は、それ以前は音声レベルが減少している状態ではなかったことになる。この場合は、それまで音声レベルがしきい値より大きい状態であったのが、最初にしきい値より下がった場合となる。
この場合、単にステップF103での減少傾向の判別がなされても、実際には連続音声の終端に近づいているものではない場合も存在すると考えられるため、まずピーク値ＰＫの更新処理を行なう。
【００４５】
まず音声レベルｅ_(i) とピーク値ＰＫとしての下限値ＬｉｍＬを比較し、下限値ＬｉｍＬを越えていなければ、音声レベルｅ_(i) をピーク値ＰＫとして設定する(F108)。また、音声レベルｅ_(i) が下限値ＬｉｍＬを越えていた場合は、下限値ＬｉｍＬをピーク値ＰＫとして設定する(F109)。
そしてステップF108又はF109でピーク値ＰＫを更新したら、それに応じてしきい値ｔｈを、ピーク値ＰＫに係数ＲＴを乗算した値として更新する(F110)。
また、処理がステップF110に進むときは、実際に終端に近づいている場合も含まれるため、制御変数ｗをｗ−ｄ１の値に更新する。また、このときは音声レベルは減少しているものであるため、ダウンフラグＤＷを『１』にセットする。
【００４６】
このように最初に音声レベルがしきい値ｔｈより小さくなった場合は、しきい値を更新することにより、次に入力される音声レベルｅ_(i) の処理によってより正確な終端予測が行なわれる。例えば実際には終端に近づいているのではない場合は、次の音声レベルｅ_(i) はしきい値ｔｈより大きくなる確率が高くなり、その場合はステップF111以降の処理となるため、終端予測による動作は行なわれなくなる。
また、実際に終端に近づいているのであれば、次の音声レベルｅ_(i) についての処理は再びステップF105まで進み、さらにステップF106に進むことになるため、上述したように連続音声の終端付近で振幅レベルを抑圧する処理が行なわれることになる。
【００４７】
ところで、例えば図３のｔ₁ 時点のように、連続音声が開始される時点の処理としては、入力される音声レベルｅ_(i) に対してステップF103で否定結果が出てステップF104に進むことになる。この場合は、制御変数ｗをｗ＋ｄ２の値に更新し、またダウンフラグＤＷを『０』とする。つまり、連続音声が開始されて音声レベルｅ_(i) が増加している場合は、しきい値ｔｈに達するまでの間は、ステップF104の処理に進むたびに振幅抑圧が段階的に解除されていくことになる。また、しきい値ｔｈを越えた場合はステップF123で振幅抑圧が段階的に解除されていく。つまり、利得レベルは図３（ｃ）のように回復されていく。
【００４８】
以上のように振幅制御信号発生部６で、図２の処理によって制御変数ｗが設定されることで図３で示したような動作が実現され、音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間が作られる。
【００４９】
このような処理を行なう実施例の音声処理装置に対する入力信号波形と、音声処理装置からの出力信号波形の例を図４（ａ）（ｂ）に示す。
この図４は、話者が『親譲りの無鉄砲で子供のときから損ばかりしている』という発音を行なった場合の音声信号波形である。
図４（ａ）のような処理前の波形に対し、音声処理装置から出力される波形は図４（ｂ）のようになった。ここでは、図４（ｂ）に矢印を付した部分において、各まとまった語音の間が小振幅とされて区間によって区切られていることが顕著に表われている。
【００５０】
本実施例では、このような処理を行なうことにより、継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることができる。そしてさらに音声伝送系に遅延回路等は使用しておらず、即ち即時性は損なわれないものとしている。
【００５１】
なお、以上の実施例では子音成分については振幅抑圧が行なわれないように構成しているが、もちろん子音伝送系にも同様に振幅抑圧回路を設けて制御を行なってもよい。また回路構成や、終端予測のための処理方式などはさらに各種変形例が考えられることはいうまでもない。
【００５２】
【発明の効果】
以上説明したように本発明の音声処理装置は、連続音声の終端を予測し、そのタイミングで振幅を抑圧するようにしているため、出力音声は音声のまとまり（連続音声）単位で区切られ、従って継時マスキングが生じにくく、また聴者の短時間音声記憶を助けるものとなり、聞き取りやすい音声出力が実現されるという効果がある。
また、連続音声単位での区切りであるため、発声音声の過渡部分に含まれる音声知覚判断のための情報は損なわれない。さらに連続音声の終端付近は、音声言語認識にさほど必要ない冗長な情報が多いため、この部分の振幅を抑圧して情報量を削っても、その悪影響は殆どない。また、語音の知覚判断の手掛かりの１つとなる音声成分の変化速度情報も損なわれない。
これらのことからも、出力音声の明瞭度はより向上されることになる。
【００５３】
さらに本発明では、処理音声について即時性が損なわれないため、会話に使用する補聴器等の機器に搭載することも好適であり、また放送などの聞き取りに時間が余分にかかるということも解消される。
さらに、時間遅れが無いことからどのような音響結合状態でも、処理音声出力がハウリングやエコー、残響音などの原因となって、明瞭度を阻害するということはなくなる。そしてこれによって音響機器でのマイクロホンやスピーカの配置条件などの自由度が増すことにもつながる。
【００５４】
また終端予測判定手段においては、入力音声の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることを検出して終端予測を行なうことで、終端予測を容易に実行できることになる。
また、しきい値は検出された音声レベルピーク値に応じて設定するようにすること、音声レベルピーク値に上限及び下限を設定しておくこと、音声レベルピーク値の判別は信号レベルがしきい値より小さい場合と大きい場合で異なる方式で行なうこと、音声ピッチ成分とフォルマント成分を抽出して終端予測判定及び開始判別に用いること、などにより連続音声の終端予測や開始判別をより正確に行なうことができる。
【図面の簡単な説明】
【図１】本発明の実施例の音声処理装置のブロック図である。
【図２】実施例の振幅制御信号発生処理のフローチャートである。
【図３】実施例の振幅抑圧動作の説明図である。
【図４】実施例による連続音声の区切り部分の振幅抑圧状態の説明図である。
【符号の説明】
１入力端子
２子音成分分離フィルタ
３フォルマント成分分離フィルタ
４振幅抑圧回路
５音声レベル算出部
６振幅制御信号発生部
７周波数特性補正フィルタ
８出力端子

Claims

入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、
前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段と、
前記フィルタ手段の出力について連続音声の区切りとなる終端を予測する終端予測判定手段と、
前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、
前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができる振幅制御手段と、を備え、
前記終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するように構成されていることを特徴とする音声処理装置。
前記終端予測判定手段における信号レベルピーク値の判別動作として、判別される信号レベルピーク値の上限及び下限が設定されているとともに、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルが前記しきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別し、また前記フィルタ手段の出力の信号レベルが前記しきい値より大きい場合は、信号レベルがしきい値より小さかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別することを特徴とする請求項１に記載の音声処理装置。
前記終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成されていることを特徴とする請求項２に記載の音声処理装置。
前記開始判別手段は、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成されていることを特徴とする請求項３に記載の音声処理装置。
入力音声信号から子音成分を抽出する第２のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第２のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成されていることを特徴とする請求項１、請求項２、請求項３、又は請求項４に記載の音声処理装置。
前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給することを特徴とする請求項１、請求項２、請求項３、請求項４、又は請求項５に記載の音声処理装置。
出力音声信号について周波数特性を補正する特性補正フィルタ手段が設けられていることを特徴とする請求項１、請求項２、請求項３、請求項４、請求項５、又は請求項６に記載の音声処理装置。