JP3789503B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP3789503B2
JP3789503B2 JP33541094A JP33541094A JP3789503B2 JP 3789503 B2 JP3789503 B2 JP 3789503B2 JP 33541094 A JP33541094 A JP 33541094A JP 33541094 A JP33541094 A JP 33541094A JP 3789503 B2 JP3789503 B2 JP 3789503B2
Authority
JP
Japan
Prior art keywords
output
signal level
amplitude
signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33541094A
Other languages
English (en)
Other versions
JPH08179792A (ja
Inventor
雅美 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP33541094A priority Critical patent/JP3789503B2/ja
Publication of JPH08179792A publication Critical patent/JPH08179792A/ja
Application granted granted Critical
Publication of JP3789503B2 publication Critical patent/JP3789503B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、例えば補聴器、電話、拡声器、音声通信などの各種分野に利用できる音声処理装置に関するものである。
【0002】
【従来の技術】
音響再生装置や通信装置その他の各種の音声信号伝送系を有する機器において、音声信号についての残響成分やエコー成分が多いと、出力される音声が聞き取りにくくなることがある。
このような場合、出力音声について速度を遅くしたり、音声波形が比較的連続した状態となる発声語音成分を細かく分解して、できるだけ音声単位で区切りをつけて出力するような処理を行なうことがある。
【0003】
例えば難聴者や老人のための補聴器については、難聴者や老人は発声語音として各連続発声音がつながってしまうと健聴者に比べて語音認識がかなり困難になるということもあり、補聴器において連続発声語音を細かく分解して出力するという処理は聞き取り易さを向上させる有効な手段となる。
また健聴者が使用する機器であっても、ノイズの多い環境下で用いる通信機などの場合、このような処理は有効である。
【0004】
【発明が解決しようとする課題】
ところが、このような発話速度を遅くしたり連続音声語音を分解する音声処理については、次のような各種問題があった。
まず、発話速度を遅くする場合は、当然ながら原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。また聞き終えるまでの時間が長くなってしまう。
【0005】
また連続音声語音を分解する場合については、連続音声の区切りを検出し、その出力タイミングで出力レベルのアッテネートを行なうという方法を実行することになる。従って、まず区切りタイミングを検出してから、遅延させておいた出力信号について区切りとなる部分でレベルを減衰させるということになるため、この場合も遅延分だけ原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。
このように即時性が無くなることは、会話等に使用する場合、特に補聴器等では大きな問題となってしまう。
また、入力音声と出力音声に数ミリ秒以上の遅れがあり、さらに出力された音声がマイクロホン(入力系)にフィードバックされるような音響結合を持つ場合には、残響やエコーのような状態で知覚されてしまい、逆に聞き取りにくくなってしまう場合もある。
【0006】
また、語音の知覚判断には、音声成分の変化速度も重要な手掛かりとなっている。このため、音声の速度を遅くする処理を行なうと、変化速度情報が損なわれ、別の語音に知覚されてしまうことが発生する場合もある。
【0007】
また、語音をばらばらにしてゆっくり出力するような処理を行なうと、語音のまとまりとしての情報や、過渡的変化部分の情報が失われてしまうため、出力される音声の明瞭度が悪くなる場合も発生する。
【0008】
【課題を解決するための手段】
本発明はこのような問題点に鑑みて、入力−出力系での時間ずれをなくし即時性を確保するとともに、より聞きやすい音声出力を行なうことができる音声処理装置を提供することを目的とする。
【0009】
このため音声処理装置として、入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、 前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段を設ける。そして振幅抑圧手段に対する制御系として、前記フィルタ手段の出力についてまとまった音声部分である連続音声の区切りとなる終端を予測する終端予測判定手段と、前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、振幅制御手段を設ける。この振幅制御手段は終端予測判定手段による終端予測に応じて振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また開始判別手段による開始判別に応じて振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができるようにする。
これにより、即時性を損なうことなく、まとまった音声部分の区切りの部分で振幅を抑え、各まとまった音声部分の認識のための明瞭度を向上させる。
【0010】
ここで終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するようにする。
【0011】
また終端予測判定手段における信号レベルピーク値の判別動作としては、まず判別される信号レベルピーク値の上限及び下限が設定されているものとする。そして、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルがしきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別する。また前記フィルタ手段の出力の信号レベルがしきい値より大きい場合は、信号レベルがしきい値よりさかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別するようにする。
【0012】
また終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成する。
【0013】
上記構成の音声処理装置における開始判別手段としては、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成する。
【0015】
また音声処理装置としては、入力音声信号から子音成分を抽出する第2のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第2のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成する。
【0016】
また、前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給するように構成する。
【0017】
また上記各構成の音声処理装置において、出力音声信号について周波数特性を補正する特性補正フィルタ手段を設るようにする。
【0018】
【作用】
このような構成の音声処理装置では、会話音声波形に対して各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。これは継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることにつながる。
これらの作用による、音声言語認識上の有用性ついてここで簡単に説明しておく。
【0019】
通常の会話音声は、ある程度のまとまりをもって発音されており、人間の音声言語知覚も各音の知覚と、まとまった語音の特徴知覚の両方から行なわれているといわれている。ここで、健聴者に関しては、雑音が少なく受聴環境が良いという条件さえ整っていれば、音声伝送機器において特別な音声処理を行なわなくても十分に出力音声を聞き取ることができる。
ところが雑音環境下であったり、もしくは難聴者の場合は、音声言語の知覚が難しくなり、この原因としては継時マスキングの影響や、短時間音声記憶がスムースに実行できないということが考えられている。
【0020】
継時マスキングとしては、特に前の母音音声が次の音の子音部分をマスクしてしまうということがあり、これによって子音の聴覚的感度が悪くなり、聞き取りにくいものとなる。
また人間が音声を知覚判断するときには、まとまった音声を短時間、一時的に記憶しておき、その間に分析識別を行なうといわれている。このときに雑音があった場合や、または難聴者の場合では、まとまった音声の区切りがはっきりしなくなる。このため短時間音声記憶と分析識別がスムースに実行できず、明瞭度が悪くなると考えられている。これに似た例としては、健聴者でも外国語の聞き取りが難しい原因の一つとして、短時間音声記憶と分析識別がスムースに実行できないためであるといわれている。
【0021】
一方、まとまって発声された音の最後部の10数ミリ秒は音声情報としては冗長であることが多い。つまり、この最後部の10数ミリ秒については音声情報が失われても明瞭度の悪化には殆どつながらない。
そこで、上記構成の本発明では、音声のまとまりの終端をみつけて、その直前の数ミリ〜数10ミリ秒の間の振幅を抑圧するようにすることで、音声のまとまり(連続音声)毎の区切りをはっきりさせるようにしている。即ちこれによって、継時マスキングを減少させて子音に対する聴覚的感度を向上させるとともに、短時間音声記憶を助けることになる。
【0022】
そしてさらに、音声のまとまりの終端をみつける処理として、終端を予測するという処理を実行するようにすることにより、入力から出力までの系において遅延処理を不要とし、即時性を保持する。また即時性を保持することにより、出力系から入力系までの音響結合状態に関わらず、残響やエコーとして聞こえてしまうことも解消する。
また、音声出力をゆっくり行なう処理ではないため、音声成分の変化速度の情報も損なわれず、さらに音声情報の過渡的変化部分の情報も失われない。
【0023】
【実施例】
以下、図1〜図5を用いて本発明の実施例を説明する。
図1は実施例の音声処理装置のブロック図である。1は音声信号の入力端子を示す。入力端子1から入力された音声信号は子音成分分離フィルタ2及びフォルマント成分分離フィルタ3に供給される。
子音成分分離フィルタ2では音声信号から子音成分を抽出して出力する。またフォルマント成分分離フィルタ3は例えば150〜1000Hzの通過帯域が設定されることで、音声信号からピッチ成分とフォルマント成分を抽出して出力する。
【0024】
4は振幅抑圧回路であり、例えばアッテネータ回路として形成される。振幅抑圧回路4にはフォルマント成分分離フィルタ3の出力が供給されており、この出力を制御係数wに基づいて減衰させて出力することができる。
5は音声レベル算出部であり、フォルマント成分分離フィルタ3の出力が供給されて音声レベル検出を行なう。音声レベル算出部5は例えばフォルマント成分分離フィルタ3の出力に対して全波整流したのち、例えば60Hz以下を通過帯域とする低域通過フィルタで処理を行なえばよい。音声レベル算出部に供給される音声信号がピッチ成分とフォルマント成分のみであることにより、音声レベル算出部5のレベル検出出力eはノイズの影響を受けにくいものとすることができる。
【0025】
音声レベル算出部5によるレベル検出出力eは振幅制御信号発生部6に供給される。振幅制御信号発生部6は例えばマイクロコンピュータで構成され、レベル検出出力eをデジタルデータに変換して取り込む。そしてレベル検出データに応じて所要の演算処理を行ない、振幅抑圧回路4に対する制御係数wを発生させる。
【0026】
子音分離フィルタ2の出力と振幅抑圧回路4の出力は、周波数特性補正フィルタ7に供給され、混合処理されるとともに所要の周波数特性補正処理(イコライジング処理)が施されて、出力端子8から出力される。周波数特性補正フィルタ7は、この音声処理装置を搭載する機器、考えられる使用状況、使用者の状況(例えば補聴器に搭載する場合の使用者の聴覚周波数特性等)などに応じてフィルタ係数や処理帯域が設定される。また、このフィルタ特性は使用に際して設定を可変調整できるようにしておいてもよい。
【0027】
この実施例の音声処理装置は、特に振幅制御信号発生部6が、音声レベル算出部5からのレベル検出出力eを用いて、連続音声(まとまって発声された音)の終端が近づいていることを予測し、また連続音声が開始されたことを検出する。そして、これらの判断に応じて振幅抑圧回路4の制御を行なう。つまり、連続音声の終端間際のタイミングで振幅抑圧が行なわれるようにして、各連続音声の間の区切りが明確となるようにするものである。
【0028】
この動作を図3で説明する。
図3(a)は入力端子1から入力された音声信号とし、この音声信号がフォルマント成分分離フィルタ3を介して音声レベル検出部3に供給され、図3(b)のようなレベル検出信号eが得られたとする。
【0029】
このレベル検出信号eに対して、振幅制御信号発生部6は所定のサンプリング周期でA/D変換して取り込んでいくことになる。そして振幅制御信号発生部6の演算処理としては、概略的に述べれば、取り込んだレベル検出信号eについてまずピーク値PKを判別し、そのピーク値PKからしきい値thを設定する。例えばピーク値PKに対して係数を乗算し、ピーク値PKのn%となるしきい値thを設定する。
そして、取り込んだレベル検出信号e(i) (iは或るサンプルタイミングを示す)について逐次しきい値thと比較し、また前回のレベル検出信号e(i-1) と比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
【0030】
このような判別動作を行なっていて、或る時点でレベル検出信号e(i) が、しきい値thより小さくなり、かつ減少傾向にあると判別されたら、連続音声の終端が近づいていると予測判断を行なう。例えば図3(b)に示すようにt0 時点で連続音声の終端が近づいているという予測判断が行なわれることになる。
このような終端予測が行なわれたら、振幅抑圧回路4に対する制御係数を変化させ、図3(c)から分かるように利得レベルを下げていく。つまりアッテネーション量を徐々に大きくしていく。
【0031】
また、図3の場合t1 時点で音声レベルが増加傾向に転じることになる。このような場合、連続音声の発声が開始されたと判断し、振幅抑圧回路4に対する制御係数を変化させ、図3(c)から分かるように利得レベルを上げていく。つまりアッテネーション量を徐々に小さくしていく。
このような処理を行なうことで、出力端子8から出力される音声信号は、例えば図3(d)のようになり、つまり音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。
【0032】
なお図3はあくまで説明のための概略的な波形であり、実際には振幅制御信号発生部6では、音声レベル検出値として取り込んだe(i) に対して図2で示す演算処理が行なわれて振幅抑圧回路4に対する制御係数wが設定されるものとなる。
図2に示す振幅制御信号発生部6の処理は、音声レベル検出出力eがデジタルデータe(i) としてに取り込まれる毎に、ステップF101に進む。
【0033】
まずステップF101では音声レベルe(i) としきい値thを比較する。しきい値thは、それ以前において、ステップF110又はF117で設定された値である。
そしてステップF101でe(i) >thと判断されればステップF111に進み、ダウンフラグDWを1とする。ダウンフラグDWとは、それ以前は音声レベルが減少傾向にあった場合、もしくは減少傾向にあったと見なす場合に『1』とセットされるフラグである。
【0034】
続いてステップF112でフラグBYを確認する。フラグBYは、前回入力された音声レベルe(i-1) がしきい値thより小さかった場合にステップF102で『0』とされるフラグである。従って、しきい値thより高い音声レベルe(i) がはじめて入力された場合は、そのときフラグBYは『0』であり、従ってステップF112からF118に進む。また前回の音声レベルe(i-1) もしきい値thより高いレベルであった場合は、ステップF112からF113に進むことになる。
【0035】
最初にしきい値thより高い音声レベルe(i) が入力され、ステップF112からF118に進んだ場合は、音声レベルe(i) がピーク値PKの下限として設定されている下限値LimLと比較する。ピーク値PKについては上限値LimHと下限値LimLが設定されており、入力された音声レベルのピーク値PKをこの間において可変設定するものとなる。もし、入力された音声レベルのピーク値PKが上限値LimH又は下限値LimLをこえた場合は、その上限値LimH又は下限値LimLがピーク値PKと設定される。
【0036】
ステップF118では音声レベルe(i) が下限値LimLを越えて小さいものとなっているか否かを判断することになる。下限値LimLを越えていなければ、しきい値thをピーク値PKとして設定する(F120)。一方、下限値LimLを越えていた場合は、ピーク値PKを下限値LimLより小さいものとはしないようにするため下限値LimLをピーク値PKとして設定する(F119)。
ステップF119又はF120でピーク値PKを設定したら、フラグBYを1にセットする(F120)。つまり、今回の音声レベルe(i) は、それまでしきい値thより小さかったものが、しきい値を越えたものになるため、次回の音声レベルe(i) の入力時の処理に備えて、音声レベルがしきい値thを越えていたことを識別するフラグBYをオンとする。
【0037】
続いて、ステップF122で音声レベルe(i) と前回の音声レベルe(i-1) を比較し、つまり現在音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
これまでのステップをたどった場合、つまり最初にしきい値thを越えた時点では、当然増加傾向にあるため、ステップF123に進んで制御係数wをw+d2の値に更新する。d2とは制御係数wを増加させる場合、つまり振幅抑圧回路4において減衰量を少なくしていく場合のステップ幅である。
ただし、制御係数wの値は、0≦w≦1の範囲内となる。従って、例えばw=1であった場合は(減衰量0の場合)、ステップF123に進んでも制御係数wは更新されない。
【0038】
続いて次のタイミングで音声レベルe(i) が入力され、これも音声レベルe(i) はしきい値thより大きかったとする。するとステップF111,F112 と進むが、この時点、つまり最初にしきい値thを越えた場合以外ではフラグBY=1であるため、ステップF113に進む。
ここで、ピーク値PKと音声レベルe(i) を比較し、音声レベルe(i) がピーク値PKを越えていなければ、そのままステップF122に進む。
【0039】
一方、音声レベルe(i) がピーク値PKを越えていれば、ピーク値PKの更新処理を行なう。まずステップF114で音声レベルe(i) と、ピーク値PKの上限値LimHと比較する。もし音声レベルe(i) が上限値LimHを越えていた場合は、ピーク値PKを上限値LimHより大きいものとはしないようにするため上限値LimHをピーク値PKとして設定する(F115)。
【0040】
また音声レベルe(i) がピーク値PKを越えており、さらに音声レベルe(i) が上限値LimHを越えていない場合は、新たなピーク値PKが検出されたことになるため、ピーク値PKの値を音声レベルe(i) にセットする(F116)。
ステップF115又はF116でピーク値PKを更新したら、ステップF117でしきい値thを更新する。本実施例では、しきい値thはピーク値PKに基づいて、その何%という値に設定されているものとしており、このためピーク値PKが更新された場合は、ピーク値PKに所定の値に設定されている係数RTを乗算してを新たなしきい値を設定する。
係数RTは例えば、しきい値thがピーク値PKの数〜数10パーセントの値となるようなある係数値に設定されている。
【0041】
以上は、音声レベルe(i) がしきい値thより大きい場合の処理である。
音声レベルe(i) がしきい値thより低いものとなっていた場合は、処理はステップF101からF102に進む。そしてまず、音声レベルe(i) がしきい値thより低いこととなったために、フラグBYを『0』にする。
次に、今回の音声レベルe(i) と前回の音声レベルe(i-1) を比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する(F103)。
【0042】
減少傾向とされた場合、ステップF105でダウンフラグDWを確認する。ダウンフラグDWが『0』でない場合、つまり、これ以前が音声レベルが減少していたか、ステップF111で減少しているとみなされる状態となっていた場合は、ステップF106へ進む。この場合は、即ち、音声レベルがしきい値より低くなり、かつ減少傾向にあることが判別されたことになるため、連続音声の終端が近づいているという予測判断が行なわれたことになる。従ってステップF106では、制御変数wを、w−d1の値に更新する。d1とは制御係数wを減少させる場合、つまり振幅抑圧回路4において減衰量を大きくしていく場合のステップ幅である。
【0043】
以降、入力されてくる音声レベルe(i) が連続音声の終端に向かって減少しつづけている場合は、図2の処理は音声レベルe(i) の入力毎にステップF106に進むことになり、従って徐々に減衰量が大きくなっていく。つまり図3(c)にt0 時点から示すように、振幅抑圧回路4の利得レベルが小さくされていくことになる。
なお、この場合も制御係数wの値は、0≦w≦1の範囲内で更新されるものとなるため、w=0となった以降は、ステップF106に進んでもw=0の状態が維持される。つまり、図3(c)において、利得レベルが0に達してからt1 時点に至までの期間に相当する状態となる。
【0044】
一方、ステップF105でダウンフラグDW=0と判断された場合は、それ以前は音声レベルが減少している状態ではなかったことになる。この場合は、それまで音声レベルがしきい値より大きい状態であったのが、最初にしきい値より下がった場合となる。
この場合、単にステップF103での減少傾向の判別がなされても、実際には連続音声の終端に近づいているものではない場合も存在すると考えられるため、まずピーク値PKの更新処理を行なう。
【0045】
まず音声レベルe(i) とピーク値PKとしての下限値LimLを比較し、下限値LimLを越えていなければ、音声レベルe(i) をピーク値PKとして設定する(F108)。また、音声レベルe(i) が下限値LimLを越えていた場合は、下限値LimLをピーク値PKとして設定する(F109)。
そしてステップF108又はF109でピーク値PKを更新したら、それに応じてしきい値thを、ピーク値PKに係数RTを乗算した値として更新する(F110)。
また、処理がステップF110に進むときは、実際に終端に近づいている場合も含まれるため、制御変数wをw−d1の値に更新する。また、このときは音声レベルは減少しているものであるため、ダウンフラグDWを『1』にセットする。
【0046】
このように最初に音声レベルがしきい値thより小さくなった場合は、しきい値を更新することにより、次に入力される音声レベルe(i) の処理によってより正確な終端予測が行なわれる。例えば実際には終端に近づいているのではない場合は、次の音声レベルe(i) はしきい値thより大きくなる確率が高くなり、その場合はステップF111以降の処理となるため、終端予測による動作は行なわれなくなる。
また、実際に終端に近づいているのであれば、次の音声レベルe(i) についての処理は再びステップF105まで進み、さらにステップF106に進むことになるため、上述したように連続音声の終端付近で振幅レベルを抑圧する処理が行なわれることになる。
【0047】
ところで、例えば図3のt1 時点のように、連続音声が開始される時点の処理としては、入力される音声レベルe(i) に対してステップF103で否定結果が出てステップF104に進むことになる。この場合は、制御変数wをw+d2の値に更新し、またダウンフラグDWを『0』とする。つまり、連続音声が開始されて音声レベルe(i) が増加している場合は、しきい値thに達するまでの間は、ステップF104の処理に進むたびに振幅抑圧が段階的に解除されていくことになる。また、しきい値thを越えた場合はステップF123で振幅抑圧が段階的に解除されていく。つまり、利得レベルは図3(c)のように回復されていく。
【0048】
以上のように振幅制御信号発生部6で、図2の処理によって制御変数wが設定されることで図3で示したような動作が実現され、音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間が作られる。
【0049】
このような処理を行なう実施例の音声処理装置に対する入力信号波形と、音声処理装置からの出力信号波形の例を図4(a)(b)に示す。
この図4は、話者が『親譲りの無鉄砲で子供のときから損ばかりしている』という発音を行なった場合の音声信号波形である。
図4(a)のような処理前の波形に対し、音声処理装置から出力される波形は図4(b)のようになった。ここでは、図4(b)に矢印を付した部分において、各まとまった語音の間が小振幅とされて区間によって区切られていることが顕著に表われている。
【0050】
本実施例では、このような処理を行なうことにより、継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることができる。そしてさらに音声伝送系に遅延回路等は使用しておらず、即ち即時性は損なわれないものとしている。
【0051】
なお、以上の実施例では子音成分については振幅抑圧が行なわれないように構成しているが、もちろん子音伝送系にも同様に振幅抑圧回路を設けて制御を行なってもよい。また回路構成や、終端予測のための処理方式などはさらに各種変形例が考えられることはいうまでもない。
【0052】
【発明の効果】
以上説明したように本発明の音声処理装置は、連続音声の終端を予測し、そのタイミングで振幅を抑圧するようにしているため、出力音声は音声のまとまり(連続音声)単位で区切られ、従って継時マスキングが生じにくく、また聴者の短時間音声記憶を助けるものとなり、聞き取りやすい音声出力が実現されるという効果がある。
また、連続音声単位での区切りであるため、発声音声の過渡部分に含まれる音声知覚判断のための情報は損なわれない。さらに連続音声の終端付近は、音声言語認識にさほど必要ない冗長な情報が多いため、この部分の振幅を抑圧して情報量を削っても、その悪影響は殆どない。また、語音の知覚判断の手掛かりの1つとなる音声成分の変化速度情報も損なわれない。
これらのことからも、出力音声の明瞭度はより向上されることになる。
【0053】
さらに本発明では、処理音声について即時性が損なわれないため、会話に使用する補聴器等の機器に搭載することも好適であり、また放送などの聞き取りに時間が余分にかかるということも解消される。
さらに、時間遅れが無いことからどのような音響結合状態でも、処理音声出力がハウリングやエコー、残響音などの原因となって、明瞭度を阻害するということはなくなる。そしてこれによって音響機器でのマイクロホンやスピーカの配置条件などの自由度が増すことにもつながる。
【0054】
また終端予測判定手段においては、入力音声の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることを検出して終端予測を行なうことで、終端予測を容易に実行できることになる。
また、しきい値は検出された音声レベルピーク値に応じて設定するようにすること、音声レベルピーク値に上限及び下限を設定しておくこと、音声レベルピーク値の判別は信号レベルがしきい値より小さい場合と大きい場合で異なる方式で行なうこと、音声ピッチ成分とフォルマント成分を抽出して終端予測判定及び開始判別に用いること、などにより連続音声の終端予測や開始判別をより正確に行なうことができる。
【図面の簡単な説明】
【図1】本発明の実施例の音声処理装置のブロック図である。
【図2】実施例の振幅制御信号発生処理のフローチャートである。
【図3】実施例の振幅抑圧動作の説明図である。
【図4】実施例による連続音声の区切り部分の振幅抑圧状態の説明図である。
【符号の説明】
1 入力端子
2 子音成分分離フィルタ
3 フォルマント成分分離フィルタ
4 振幅抑圧回路
5 音声レベル算出部
6 振幅制御信号発生部
7 周波数特性補正フィルタ
8 出力端子

Claims (7)

  1. 入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、
    前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段と、
    前記フィルタ手段の出力について連続音声の区切りとなる終端を予測する終端予測判定手段と、
    前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、
    前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができる振幅制御手段と、を備え、
    前記終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するように構成されていることを特徴とする音声処理装置。
  2. 前記終端予測判定手段における信号レベルピーク値の判別動作として、判別される信号レベルピーク値の上限及び下限が設定されているとともに、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルが前記しきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別し、また前記フィルタ手段の出力の信号レベルが前記しきい値より大きい場合は、信号レベルがしきい値よりさかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別することを特徴とする請求項1に記載の音声処理装置。
  3. 前記終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成されていることを特徴とする請求項2に記載の音声処理装置。
  4. 前記開始判別手段は、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成されていることを特徴とする請求項3に記載の音声処理装置。
  5. 入力音声信号から子音成分を抽出する第2のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第2のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成されていることを特徴とする請求項1、請求項2、請求項3、又は請求項に記載の音声処理装置。
  6. 前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給することを特徴とする請求項1、請求項2、請求項3、請求項4、又は請求項5に記載の音声処理装置。
  7. 出力音声信号について周波数特性を補正する特性補正フィルタ手段が設けられていることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項5、又は請求項に記載の音声処理装置。
JP33541094A 1994-12-22 1994-12-22 音声処理装置 Expired - Fee Related JP3789503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Publications (2)

Publication Number Publication Date
JPH08179792A JPH08179792A (ja) 1996-07-12
JP3789503B2 true JP3789503B2 (ja) 2006-06-28

Family

ID=18288240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33541094A Expired - Fee Related JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Country Status (1)

Country Link
JP (1) JP3789503B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
JP4895418B2 (ja) * 1999-08-24 2012-03-14 ソニー株式会社 音声再生方法および音声再生装置
JP5038417B2 (ja) * 2006-08-09 2012-10-03 ドルビー ラボラトリーズ ライセンシング コーポレイション 緩慢段階と急速段階の音声ピーク値制限
JP5109050B2 (ja) * 2007-07-13 2012-12-26 学校法人早稲田大学 音声処理装置およびプログラム
JP2008102551A (ja) * 2007-12-27 2008-05-01 Sony Corp 音声信号の処理装置およびその処理方法
JP5177657B2 (ja) 2008-08-08 2013-04-03 国立大学法人九州工業大学 音響特性制御装置
JP4950971B2 (ja) * 2008-09-18 2012-06-13 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP6229869B2 (ja) * 2012-12-04 2017-11-15 三星電子株式会社Samsung Electronics Co.,Ltd. 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム
JP6536320B2 (ja) * 2015-09-28 2019-07-03 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN110364145B (zh) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
JP7113719B2 (ja) * 2018-10-19 2022-08-05 日本放送協会 発話末タイミング予測装置およびプログラム

Also Published As

Publication number Publication date
JPH08179792A (ja) 1996-07-12

Similar Documents

Publication Publication Date Title
EP2383732B1 (en) Hearing aid and hearing aiding method
EP0727768B1 (en) Method of and apparatus for reducing noise in speech signal
EP2265039B1 (en) Hearing aid
JP3789503B2 (ja) 音声処理装置
EP1791393A1 (en) Sound processing apparatus
JP5737808B2 (ja) 音響処理装置およびそのプログラム
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
CN111327985A (zh) 一种耳机降噪方法和装置
EP1751740A1 (en) System and method for babble noise detection
JP3334353B2 (ja) 聴覚補助装置
JP4876245B2 (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
JP4774255B2 (ja) 音声信号処理方法、装置及びプログラム
JP3411648B2 (ja) 車載用オーディオ装置
JPH0968997A (ja) 音声処理方法及び装置
CN102860047A (zh) 助听器以及助听器的控制方法
US10136227B2 (en) Method of sound processing in a hearing aid and a hearing aid
JP3134557B2 (ja) ハウリング抑制装置
EP1241921A2 (en) Acoustic signal processor
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP3303446B2 (ja) 音声信号処理装置
JP4079478B2 (ja) 音声信号の処理回路および処理方法
JPH06276599A (ja) 衝撃音抑圧装置
JP3596580B2 (ja) 音声信号の処理回路
JP4005166B2 (ja) 音声信号の処理回路
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040216

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060329

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees