JP3789503B2 - Audio processing device - Google Patents

Audio processing device Download PDF

Info

Publication number
JP3789503B2
JP3789503B2 JP33541094A JP33541094A JP3789503B2 JP 3789503 B2 JP3789503 B2 JP 3789503B2 JP 33541094 A JP33541094 A JP 33541094A JP 33541094 A JP33541094 A JP 33541094A JP 3789503 B2 JP3789503 B2 JP 3789503B2
Authority
JP
Japan
Prior art keywords
output
signal level
amplitude
signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33541094A
Other languages
Japanese (ja)
Other versions
JPH08179792A (en
Inventor
雅美 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP33541094A priority Critical patent/JP3789503B2/en
Publication of JPH08179792A publication Critical patent/JPH08179792A/en
Application granted granted Critical
Publication of JP3789503B2 publication Critical patent/JP3789503B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、例えば補聴器、電話、拡声器、音声通信などの各種分野に利用できる音声処理装置に関するものである。
【0002】
【従来の技術】
音響再生装置や通信装置その他の各種の音声信号伝送系を有する機器において、音声信号についての残響成分やエコー成分が多いと、出力される音声が聞き取りにくくなることがある。
このような場合、出力音声について速度を遅くしたり、音声波形が比較的連続した状態となる発声語音成分を細かく分解して、できるだけ音声単位で区切りをつけて出力するような処理を行なうことがある。
【0003】
例えば難聴者や老人のための補聴器については、難聴者や老人は発声語音として各連続発声音がつながってしまうと健聴者に比べて語音認識がかなり困難になるということもあり、補聴器において連続発声語音を細かく分解して出力するという処理は聞き取り易さを向上させる有効な手段となる。
また健聴者が使用する機器であっても、ノイズの多い環境下で用いる通信機などの場合、このような処理は有効である。
【0004】
【発明が解決しようとする課題】
ところが、このような発話速度を遅くしたり連続音声語音を分解する音声処理については、次のような各種問題があった。
まず、発話速度を遅くする場合は、当然ながら原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。また聞き終えるまでの時間が長くなってしまう。
【0005】
また連続音声語音を分解する場合については、連続音声の区切りを検出し、その出力タイミングで出力レベルのアッテネートを行なうという方法を実行することになる。従って、まず区切りタイミングを検出してから、遅延させておいた出力信号について区切りとなる部分でレベルを減衰させるということになるため、この場合も遅延分だけ原音声と処理後の出力音声について時間のずれが生じ、即時性が無くなる。
このように即時性が無くなることは、会話等に使用する場合、特に補聴器等では大きな問題となってしまう。
また、入力音声と出力音声に数ミリ秒以上の遅れがあり、さらに出力された音声がマイクロホン(入力系)にフィードバックされるような音響結合を持つ場合には、残響やエコーのような状態で知覚されてしまい、逆に聞き取りにくくなってしまう場合もある。
【0006】
また、語音の知覚判断には、音声成分の変化速度も重要な手掛かりとなっている。このため、音声の速度を遅くする処理を行なうと、変化速度情報が損なわれ、別の語音に知覚されてしまうことが発生する場合もある。
【0007】
また、語音をばらばらにしてゆっくり出力するような処理を行なうと、語音のまとまりとしての情報や、過渡的変化部分の情報が失われてしまうため、出力される音声の明瞭度が悪くなる場合も発生する。
【0008】
【課題を解決するための手段】
本発明はこのような問題点に鑑みて、入力−出力系での時間ずれをなくし即時性を確保するとともに、より聞きやすい音声出力を行なうことができる音声処理装置を提供することを目的とする。
【0009】
このため音声処理装置として、入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、 前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段を設ける。そして振幅抑圧手段に対する制御系として、前記フィルタ手段の出力についてまとまった音声部分である連続音声の区切りとなる終端を予測する終端予測判定手段と、前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、振幅制御手段を設ける。この振幅制御手段は終端予測判定手段による終端予測に応じて振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また開始判別手段による開始判別に応じて振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができるようにする。
これにより、即時性を損なうことなく、まとまった音声部分の区切りの部分で振幅を抑え、各まとまった音声部分の認識のための明瞭度を向上させる。
【0010】
ここで終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するようにする。
【0011】
また終端予測判定手段における信号レベルピーク値の判別動作としては、まず判別される信号レベルピーク値の上限及び下限が設定されているものとする。そして、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルがしきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別する。また前記フィルタ手段の出力の信号レベルがしきい値より大きい場合は、信号レベルがしきい値よりさかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別するようにする。
【0012】
また終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成する。
【0013】
上記構成の音声処理装置における開始判別手段としては、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成する。
【0015】
また音声処理装置としては、入力音声信号から子音成分を抽出する第2のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第2のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成する。
【0016】
また、前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給するように構成する。
【0017】
また上記各構成の音声処理装置において、出力音声信号について周波数特性を補正する特性補正フィルタ手段を設るようにする。
【0018】
【作用】
このような構成の音声処理装置では、会話音声波形に対して各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。これは継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることにつながる。
これらの作用による、音声言語認識上の有用性ついてここで簡単に説明しておく。
【0019】
通常の会話音声は、ある程度のまとまりをもって発音されており、人間の音声言語知覚も各音の知覚と、まとまった語音の特徴知覚の両方から行なわれているといわれている。ここで、健聴者に関しては、雑音が少なく受聴環境が良いという条件さえ整っていれば、音声伝送機器において特別な音声処理を行なわなくても十分に出力音声を聞き取ることができる。
ところが雑音環境下であったり、もしくは難聴者の場合は、音声言語の知覚が難しくなり、この原因としては継時マスキングの影響や、短時間音声記憶がスムースに実行できないということが考えられている。
【0020】
継時マスキングとしては、特に前の母音音声が次の音の子音部分をマスクしてしまうということがあり、これによって子音の聴覚的感度が悪くなり、聞き取りにくいものとなる。
また人間が音声を知覚判断するときには、まとまった音声を短時間、一時的に記憶しておき、その間に分析識別を行なうといわれている。このときに雑音があった場合や、または難聴者の場合では、まとまった音声の区切りがはっきりしなくなる。このため短時間音声記憶と分析識別がスムースに実行できず、明瞭度が悪くなると考えられている。これに似た例としては、健聴者でも外国語の聞き取りが難しい原因の一つとして、短時間音声記憶と分析識別がスムースに実行できないためであるといわれている。
【0021】
一方、まとまって発声された音の最後部の10数ミリ秒は音声情報としては冗長であることが多い。つまり、この最後部の10数ミリ秒については音声情報が失われても明瞭度の悪化には殆どつながらない。
そこで、上記構成の本発明では、音声のまとまりの終端をみつけて、その直前の数ミリ〜数10ミリ秒の間の振幅を抑圧するようにすることで、音声のまとまり(連続音声)毎の区切りをはっきりさせるようにしている。即ちこれによって、継時マスキングを減少させて子音に対する聴覚的感度を向上させるとともに、短時間音声記憶を助けることになる。
【0022】
そしてさらに、音声のまとまりの終端をみつける処理として、終端を予測するという処理を実行するようにすることにより、入力から出力までの系において遅延処理を不要とし、即時性を保持する。また即時性を保持することにより、出力系から入力系までの音響結合状態に関わらず、残響やエコーとして聞こえてしまうことも解消する。
また、音声出力をゆっくり行なう処理ではないため、音声成分の変化速度の情報も損なわれず、さらに音声情報の過渡的変化部分の情報も失われない。
【0023】
【実施例】
以下、図1〜図5を用いて本発明の実施例を説明する。
図1は実施例の音声処理装置のブロック図である。1は音声信号の入力端子を示す。入力端子1から入力された音声信号は子音成分分離フィルタ2及びフォルマント成分分離フィルタ3に供給される。
子音成分分離フィルタ2では音声信号から子音成分を抽出して出力する。またフォルマント成分分離フィルタ3は例えば150〜1000Hzの通過帯域が設定されることで、音声信号からピッチ成分とフォルマント成分を抽出して出力する。
【0024】
4は振幅抑圧回路であり、例えばアッテネータ回路として形成される。振幅抑圧回路4にはフォルマント成分分離フィルタ3の出力が供給されており、この出力を制御係数wに基づいて減衰させて出力することができる。
5は音声レベル算出部であり、フォルマント成分分離フィルタ3の出力が供給されて音声レベル検出を行なう。音声レベル算出部5は例えばフォルマント成分分離フィルタ3の出力に対して全波整流したのち、例えば60Hz以下を通過帯域とする低域通過フィルタで処理を行なえばよい。音声レベル算出部に供給される音声信号がピッチ成分とフォルマント成分のみであることにより、音声レベル算出部5のレベル検出出力eはノイズの影響を受けにくいものとすることができる。
【0025】
音声レベル算出部5によるレベル検出出力eは振幅制御信号発生部6に供給される。振幅制御信号発生部6は例えばマイクロコンピュータで構成され、レベル検出出力eをデジタルデータに変換して取り込む。そしてレベル検出データに応じて所要の演算処理を行ない、振幅抑圧回路4に対する制御係数wを発生させる。
【0026】
子音分離フィルタ2の出力と振幅抑圧回路4の出力は、周波数特性補正フィルタ7に供給され、混合処理されるとともに所要の周波数特性補正処理(イコライジング処理)が施されて、出力端子8から出力される。周波数特性補正フィルタ7は、この音声処理装置を搭載する機器、考えられる使用状況、使用者の状況(例えば補聴器に搭載する場合の使用者の聴覚周波数特性等)などに応じてフィルタ係数や処理帯域が設定される。また、このフィルタ特性は使用に際して設定を可変調整できるようにしておいてもよい。
【0027】
この実施例の音声処理装置は、特に振幅制御信号発生部6が、音声レベル算出部5からのレベル検出出力eを用いて、連続音声(まとまって発声された音)の終端が近づいていることを予測し、また連続音声が開始されたことを検出する。そして、これらの判断に応じて振幅抑圧回路4の制御を行なう。つまり、連続音声の終端間際のタイミングで振幅抑圧が行なわれるようにして、各連続音声の間の区切りが明確となるようにするものである。
【0028】
この動作を図3で説明する。
図3(a)は入力端子1から入力された音声信号とし、この音声信号がフォルマント成分分離フィルタ3を介して音声レベル検出部3に供給され、図3(b)のようなレベル検出信号eが得られたとする。
【0029】
このレベル検出信号eに対して、振幅制御信号発生部6は所定のサンプリング周期でA/D変換して取り込んでいくことになる。そして振幅制御信号発生部6の演算処理としては、概略的に述べれば、取り込んだレベル検出信号eについてまずピーク値PKを判別し、そのピーク値PKからしきい値thを設定する。例えばピーク値PKに対して係数を乗算し、ピーク値PKのn%となるしきい値thを設定する。
そして、取り込んだレベル検出信号e(i) (iは或るサンプルタイミングを示す)について逐次しきい値thと比較し、また前回のレベル検出信号e(i-1) と比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
【0030】
このような判別動作を行なっていて、或る時点でレベル検出信号e(i) が、しきい値thより小さくなり、かつ減少傾向にあると判別されたら、連続音声の終端が近づいていると予測判断を行なう。例えば図3(b)に示すようにt0 時点で連続音声の終端が近づいているという予測判断が行なわれることになる。
このような終端予測が行なわれたら、振幅抑圧回路4に対する制御係数を変化させ、図3(c)から分かるように利得レベルを下げていく。つまりアッテネーション量を徐々に大きくしていく。
【0031】
また、図3の場合t1 時点で音声レベルが増加傾向に転じることになる。このような場合、連続音声の発声が開始されたと判断し、振幅抑圧回路4に対する制御係数を変化させ、図3(c)から分かるように利得レベルを上げていく。つまりアッテネーション量を徐々に小さくしていく。
このような処理を行なうことで、出力端子8から出力される音声信号は、例えば図3(d)のようになり、つまり音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間を作ることになる。
【0032】
なお図3はあくまで説明のための概略的な波形であり、実際には振幅制御信号発生部6では、音声レベル検出値として取り込んだe(i) に対して図2で示す演算処理が行なわれて振幅抑圧回路4に対する制御係数wが設定されるものとなる。
図2に示す振幅制御信号発生部6の処理は、音声レベル検出出力eがデジタルデータe(i) としてに取り込まれる毎に、ステップF101に進む。
【0033】
まずステップF101では音声レベルe(i) としきい値thを比較する。しきい値thは、それ以前において、ステップF110又はF117で設定された値である。
そしてステップF101でe(i) >thと判断されればステップF111に進み、ダウンフラグDWを1とする。ダウンフラグDWとは、それ以前は音声レベルが減少傾向にあった場合、もしくは減少傾向にあったと見なす場合に『1』とセットされるフラグである。
【0034】
続いてステップF112でフラグBYを確認する。フラグBYは、前回入力された音声レベルe(i-1) がしきい値thより小さかった場合にステップF102で『0』とされるフラグである。従って、しきい値thより高い音声レベルe(i) がはじめて入力された場合は、そのときフラグBYは『0』であり、従ってステップF112からF118に進む。また前回の音声レベルe(i-1) もしきい値thより高いレベルであった場合は、ステップF112からF113に進むことになる。
【0035】
最初にしきい値thより高い音声レベルe(i) が入力され、ステップF112からF118に進んだ場合は、音声レベルe(i) がピーク値PKの下限として設定されている下限値LimLと比較する。ピーク値PKについては上限値LimHと下限値LimLが設定されており、入力された音声レベルのピーク値PKをこの間において可変設定するものとなる。もし、入力された音声レベルのピーク値PKが上限値LimH又は下限値LimLをこえた場合は、その上限値LimH又は下限値LimLがピーク値PKと設定される。
【0036】
ステップF118では音声レベルe(i) が下限値LimLを越えて小さいものとなっているか否かを判断することになる。下限値LimLを越えていなければ、しきい値thをピーク値PKとして設定する(F120)。一方、下限値LimLを越えていた場合は、ピーク値PKを下限値LimLより小さいものとはしないようにするため下限値LimLをピーク値PKとして設定する(F119)。
ステップF119又はF120でピーク値PKを設定したら、フラグBYを1にセットする(F120)。つまり、今回の音声レベルe(i) は、それまでしきい値thより小さかったものが、しきい値を越えたものになるため、次回の音声レベルe(i) の入力時の処理に備えて、音声レベルがしきい値thを越えていたことを識別するフラグBYをオンとする。
【0037】
続いて、ステップF122で音声レベルe(i) と前回の音声レベルe(i-1) を比較し、つまり現在音声レベルが増加傾向にあるか減少傾向にあるかを判別する。
これまでのステップをたどった場合、つまり最初にしきい値thを越えた時点では、当然増加傾向にあるため、ステップF123に進んで制御係数wをw+d2の値に更新する。d2とは制御係数wを増加させる場合、つまり振幅抑圧回路4において減衰量を少なくしていく場合のステップ幅である。
ただし、制御係数wの値は、0≦w≦1の範囲内となる。従って、例えばw=1であった場合は(減衰量0の場合)、ステップF123に進んでも制御係数wは更新されない。
【0038】
続いて次のタイミングで音声レベルe(i) が入力され、これも音声レベルe(i) はしきい値thより大きかったとする。するとステップF111,F112 と進むが、この時点、つまり最初にしきい値thを越えた場合以外ではフラグBY=1であるため、ステップF113に進む。
ここで、ピーク値PKと音声レベルe(i) を比較し、音声レベルe(i) がピーク値PKを越えていなければ、そのままステップF122に進む。
【0039】
一方、音声レベルe(i) がピーク値PKを越えていれば、ピーク値PKの更新処理を行なう。まずステップF114で音声レベルe(i) と、ピーク値PKの上限値LimHと比較する。もし音声レベルe(i) が上限値LimHを越えていた場合は、ピーク値PKを上限値LimHより大きいものとはしないようにするため上限値LimHをピーク値PKとして設定する(F115)。
【0040】
また音声レベルe(i) がピーク値PKを越えており、さらに音声レベルe(i) が上限値LimHを越えていない場合は、新たなピーク値PKが検出されたことになるため、ピーク値PKの値を音声レベルe(i) にセットする(F116)。
ステップF115又はF116でピーク値PKを更新したら、ステップF117でしきい値thを更新する。本実施例では、しきい値thはピーク値PKに基づいて、その何%という値に設定されているものとしており、このためピーク値PKが更新された場合は、ピーク値PKに所定の値に設定されている係数RTを乗算してを新たなしきい値を設定する。
係数RTは例えば、しきい値thがピーク値PKの数〜数10パーセントの値となるようなある係数値に設定されている。
【0041】
以上は、音声レベルe(i) がしきい値thより大きい場合の処理である。
音声レベルe(i) がしきい値thより低いものとなっていた場合は、処理はステップF101からF102に進む。そしてまず、音声レベルe(i) がしきい値thより低いこととなったために、フラグBYを『0』にする。
次に、今回の音声レベルe(i) と前回の音声レベルe(i-1) を比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判別する(F103)。
【0042】
減少傾向とされた場合、ステップF105でダウンフラグDWを確認する。ダウンフラグDWが『0』でない場合、つまり、これ以前が音声レベルが減少していたか、ステップF111で減少しているとみなされる状態となっていた場合は、ステップF106へ進む。この場合は、即ち、音声レベルがしきい値より低くなり、かつ減少傾向にあることが判別されたことになるため、連続音声の終端が近づいているという予測判断が行なわれたことになる。従ってステップF106では、制御変数wを、w−d1の値に更新する。d1とは制御係数wを減少させる場合、つまり振幅抑圧回路4において減衰量を大きくしていく場合のステップ幅である。
【0043】
以降、入力されてくる音声レベルe(i) が連続音声の終端に向かって減少しつづけている場合は、図2の処理は音声レベルe(i) の入力毎にステップF106に進むことになり、従って徐々に減衰量が大きくなっていく。つまり図3(c)にt0 時点から示すように、振幅抑圧回路4の利得レベルが小さくされていくことになる。
なお、この場合も制御係数wの値は、0≦w≦1の範囲内で更新されるものとなるため、w=0となった以降は、ステップF106に進んでもw=0の状態が維持される。つまり、図3(c)において、利得レベルが0に達してからt1 時点に至までの期間に相当する状態となる。
【0044】
一方、ステップF105でダウンフラグDW=0と判断された場合は、それ以前は音声レベルが減少している状態ではなかったことになる。この場合は、それまで音声レベルがしきい値より大きい状態であったのが、最初にしきい値より下がった場合となる。
この場合、単にステップF103での減少傾向の判別がなされても、実際には連続音声の終端に近づいているものではない場合も存在すると考えられるため、まずピーク値PKの更新処理を行なう。
【0045】
まず音声レベルe(i) とピーク値PKとしての下限値LimLを比較し、下限値LimLを越えていなければ、音声レベルe(i) をピーク値PKとして設定する(F108)。また、音声レベルe(i) が下限値LimLを越えていた場合は、下限値LimLをピーク値PKとして設定する(F109)。
そしてステップF108又はF109でピーク値PKを更新したら、それに応じてしきい値thを、ピーク値PKに係数RTを乗算した値として更新する(F110)。
また、処理がステップF110に進むときは、実際に終端に近づいている場合も含まれるため、制御変数wをw−d1の値に更新する。また、このときは音声レベルは減少しているものであるため、ダウンフラグDWを『1』にセットする。
【0046】
このように最初に音声レベルがしきい値thより小さくなった場合は、しきい値を更新することにより、次に入力される音声レベルe(i) の処理によってより正確な終端予測が行なわれる。例えば実際には終端に近づいているのではない場合は、次の音声レベルe(i) はしきい値thより大きくなる確率が高くなり、その場合はステップF111以降の処理となるため、終端予測による動作は行なわれなくなる。
また、実際に終端に近づいているのであれば、次の音声レベルe(i) についての処理は再びステップF105まで進み、さらにステップF106に進むことになるため、上述したように連続音声の終端付近で振幅レベルを抑圧する処理が行なわれることになる。
【0047】
ところで、例えば図3のt1 時点のように、連続音声が開始される時点の処理としては、入力される音声レベルe(i) に対してステップF103で否定結果が出てステップF104に進むことになる。この場合は、制御変数wをw+d2の値に更新し、またダウンフラグDWを『0』とする。つまり、連続音声が開始されて音声レベルe(i) が増加している場合は、しきい値thに達するまでの間は、ステップF104の処理に進むたびに振幅抑圧が段階的に解除されていくことになる。また、しきい値thを越えた場合はステップF123で振幅抑圧が段階的に解除されていく。つまり、利得レベルは図3(c)のように回復されていく。
【0048】
以上のように振幅制御信号発生部6で、図2の処理によって制御変数wが設定されることで図3で示したような動作が実現され、音声波形に対して、各まとまった語音の間に振幅の小さい区間又は無音区間が作られる。
【0049】
このような処理を行なう実施例の音声処理装置に対する入力信号波形と、音声処理装置からの出力信号波形の例を図4(a)(b)に示す。
この図4は、話者が『親譲りの無鉄砲で子供のときから損ばかりしている』という発音を行なった場合の音声信号波形である。
図4(a)のような処理前の波形に対し、音声処理装置から出力される波形は図4(b)のようになった。ここでは、図4(b)に矢印を付した部分において、各まとまった語音の間が小振幅とされて区間によって区切られていることが顕著に表われている。
【0050】
本実施例では、このような処理を行なうことにより、継時マスキングを生じにくくさせたり、音声言語理解に大切な聴者の短時間音声記憶を助けたりして、音声明瞭度を向上させることができる。そしてさらに音声伝送系に遅延回路等は使用しておらず、即ち即時性は損なわれないものとしている。
【0051】
なお、以上の実施例では子音成分については振幅抑圧が行なわれないように構成しているが、もちろん子音伝送系にも同様に振幅抑圧回路を設けて制御を行なってもよい。また回路構成や、終端予測のための処理方式などはさらに各種変形例が考えられることはいうまでもない。
【0052】
【発明の効果】
以上説明したように本発明の音声処理装置は、連続音声の終端を予測し、そのタイミングで振幅を抑圧するようにしているため、出力音声は音声のまとまり(連続音声)単位で区切られ、従って継時マスキングが生じにくく、また聴者の短時間音声記憶を助けるものとなり、聞き取りやすい音声出力が実現されるという効果がある。
また、連続音声単位での区切りであるため、発声音声の過渡部分に含まれる音声知覚判断のための情報は損なわれない。さらに連続音声の終端付近は、音声言語認識にさほど必要ない冗長な情報が多いため、この部分の振幅を抑圧して情報量を削っても、その悪影響は殆どない。また、語音の知覚判断の手掛かりの1つとなる音声成分の変化速度情報も損なわれない。
これらのことからも、出力音声の明瞭度はより向上されることになる。
【0053】
さらに本発明では、処理音声について即時性が損なわれないため、会話に使用する補聴器等の機器に搭載することも好適であり、また放送などの聞き取りに時間が余分にかかるということも解消される。
さらに、時間遅れが無いことからどのような音響結合状態でも、処理音声出力がハウリングやエコー、残響音などの原因となって、明瞭度を阻害するということはなくなる。そしてこれによって音響機器でのマイクロホンやスピーカの配置条件などの自由度が増すことにもつながる。
【0054】
また終端予測判定手段においては、入力音声の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることを検出して終端予測を行なうことで、終端予測を容易に実行できることになる。
また、しきい値は検出された音声レベルピーク値に応じて設定するようにすること、音声レベルピーク値に上限及び下限を設定しておくこと、音声レベルピーク値の判別は信号レベルがしきい値より小さい場合と大きい場合で異なる方式で行なうこと、音声ピッチ成分とフォルマント成分を抽出して終端予測判定及び開始判別に用いること、などにより連続音声の終端予測や開始判別をより正確に行なうことができる。
【図面の簡単な説明】
【図1】本発明の実施例の音声処理装置のブロック図である。
【図2】実施例の振幅制御信号発生処理のフローチャートである。
【図3】実施例の振幅抑圧動作の説明図である。
【図4】実施例による連続音声の区切り部分の振幅抑圧状態の説明図である。
【符号の説明】
1 入力端子
2 子音成分分離フィルタ
3 フォルマント成分分離フィルタ
4 振幅抑圧回路
5 音声レベル算出部
6 振幅制御信号発生部
7 周波数特性補正フィルタ
8 出力端子
[0001]
[Industrial application fields]
The present invention relates to a speech processing apparatus that can be used in various fields such as hearing aids, telephones, loudspeakers, and voice communications.
[0002]
[Prior art]
In a sound reproduction device, a communication device, and other devices having various audio signal transmission systems, if there are many reverberation components and echo components in the audio signal, the output audio may be difficult to hear.
In such a case, it is possible to perform processing such as reducing the speed of the output speech or finely dissociating the uttered speech sound component in which the speech waveform is relatively continuous, and outputting it by separating the speech units as much as possible. is there.
[0003]
For example, for hearing aids for the hearing impaired and the elderly, it may be difficult for the hearing impaired or the elderly to recognize the speech as compared to the normal hearing if the continuous speech sounds are connected as speech speech. The process of finely decomposing and outputting speech sounds is an effective means for improving ease of hearing.
In addition, even for a device used by a normal hearing person, such processing is effective for a communication device used in a noisy environment.
[0004]
[Problems to be solved by the invention]
However, there are the following various problems with speech processing that slows down the speech rate and decomposes continuous speech speech.
First, when the utterance speed is slowed, naturally, there is a time lag between the original voice and the output voice after processing, and the immediacy is lost. Also, it takes a long time to finish listening.
[0005]
In the case of disassembling continuous speech speech, a method of detecting a break of continuous speech and performing output level attenuation at the output timing is executed. Therefore, since the division timing is first detected and the level of the output signal that has been delayed is attenuated at the portion to be separated, in this case as well, the original audio and the processed output audio are timed by the delay. Deviation occurs, and immediacy is lost.
Such loss of immediacy becomes a big problem when used for conversation or the like, particularly in a hearing aid.
In addition, when there is a delay of several milliseconds or more between the input sound and the output sound, and there is an acoustic coupling such that the output sound is fed back to the microphone (input system), it is in a state like reverberation or echo. It may be perceived and difficult to hear.
[0006]
In addition, the speed of change of the voice component is also an important clue for the perception judgment of the word sound. For this reason, when the process of reducing the speed of the voice is performed, the change speed information may be lost and may be perceived by another word sound.
[0007]
In addition, when processing is performed to output speech slowly and in pieces, information as a unit of speech and information on transitional changes will be lost, and the clarity of the output speech may deteriorate. appear.
[0008]
[Means for Solving the Problems]
SUMMARY OF THE INVENTION In view of the above problems, the present invention has an object to provide an audio processing device that can eliminate a time lag in an input-output system, ensure immediacy, and perform an audio output that is easier to hear. .
[0009]
  Therefore, as an audio processing device, the input audio signalFilter means for extracting a voice pitch component and a formant component from  Output of the filter meansIs provided with amplitude suppression means capable of performing amplitude suppression. And as a control system for the amplitude suppression means,Output of the filter meansAn end prediction judging means for predicting an end that becomes a break of continuous speech that is a speech portion ofOutput of the filter meansA start discriminating unit for discriminating a start portion of continuous speech and an amplitude control unit are provided. The amplitude control means supplies a control signal for suppressing the amplitude to the amplitude suppression means in accordance with the end prediction by the end prediction determination means, and the amplitude to the amplitude suppression means in accordance with the start determination by the start determination means. A control signal for canceling the suppression can be supplied.
  Thereby, without impairing immediacy, the amplitude is suppressed at the segmented portion of the speech portion, and the clarity for recognizing each speech portion is improved.
[0010]
  Here, the terminal prediction determination means isOutput of the filter meansWhen it is detected that the signal level is smaller than the set threshold value and the signal level tends to decrease, the termination is predicted as the continuous speech enters the process of reaching the termination.
[0011]
  In the end prediction determination meanssignalFirst, the level peak value is discriminated.signalIt is assumed that the upper and lower limits of the level peak value are set. And within this range from the upper limit to the lower limit,Output of the filter meansIf the signal level is less than the threshold, the maximum signal level for the period from when the signal level starts to increase until it starts decreasingsignalJudged as level peak value. AlsoOutput of the filter meansIf the signal level is greater than the threshold, the signal levelsmallThe maximum value of the signal level after when the value exceeds the thresholdsignalDiscriminate from the level peak value.
[0012]
  Also, the end prediction determination means is used during the audio signal existence period.signalDetermine the level peak value and detect the threshold valuesignalIt is configured to set according to the level peak value.
[0013]
  As the start determination means in the speech processing apparatus having the above configuration,Output of the filter meansWhen it is detected that the signal level tends to increase, it is determined that continuous speech has started.
[0015]
  Also as a voice processing deviceEnterSecond filter hand for extracting consonant components from speech signalFurther stepsPrepared,SaidThe output of the filter means;thisOne or both of the outputs of the second filter means are configured to be supplied to the amplitude suppression means as processing target signals.
[0016]
  The amplitude control means supplies a control signal for gradually increasing the amplitude suppression amount to the amplitude suppression means according to the end prediction by the end prediction determination means, and the start determination by the start determination means. A control signal for gradually reducing the amplitude suppression amount is supplied to the amplitude suppression means according toConfigure as follows.
[0017]
In the audio processing apparatus having the above-described configurations, characteristic correction filter means for correcting the frequency characteristic of the output audio signal is provided.
[0018]
[Action]
In the speech processing apparatus having such a configuration, a section having a small amplitude or a silent section is formed between each speech unit for the conversation speech waveform. This makes it difficult to cause continuous masking and helps the listener to memorize the voice for a short time, which is important for understanding the spoken language, leading to an improvement in speech intelligibility.
The usefulness of these actions in speech language recognition will be briefly described here.
[0019]
Ordinary conversational speech is pronounced with a certain degree of unity, and it is said that human speech language perception is performed from both perception of each sound and perception of the features of a collective speech. Here, regarding a normal hearing person, as long as the condition that the listening environment is low and the listening environment is good is satisfied, the output sound can be sufficiently heard without performing special sound processing in the sound transmission device.
However, in a noisy environment or a hearing-impaired person, it is difficult to perceive the spoken language, and this is thought to be due to the effect of successive masking and the fact that short-term speech storage cannot be performed smoothly. .
[0020]
As the successive masking, in particular, the previous vowel sound masks the consonant part of the next sound, which deteriorates the auditory sensitivity of the consonant and makes it difficult to hear.
It is also said that when a human perceives and judges speech, the collected speech is temporarily stored for a short time, and analysis and identification are performed during that time. When there is noise at this time or in the case of a hearing-impaired person, the division of the voice is not clear. For this reason, it is considered that short-time voice storage and analysis / discrimination cannot be performed smoothly, resulting in poor clarity. As a similar example, it is said that one of the reasons why it is difficult for a normal hearing person to hear a foreign language is that short-time speech storage and analysis identification cannot be performed smoothly.
[0021]
On the other hand, the last 10 or more milliseconds of the sounds uttered together are often redundant as voice information. That is, for the last 10 milliseconds, even if the voice information is lost, the clarity is hardly deteriorated.
Therefore, in the present invention having the above-described configuration, the end of the speech unit is found and the amplitude for several milliseconds to several tens of milliseconds immediately before is suppressed, so that each speech unit (continuous speech) is suppressed. The separation is made clear. That is, it reduces the masking at the time of passage and improves the auditory sensitivity to the consonant, and also helps the voice memory for a short time.
[0022]
Further, as a process for finding the end of a speech unit, a process for predicting the end is executed, so that no delay process is required in the system from input to output, and immediacy is maintained. In addition, by maintaining immediacy, it is possible to eliminate reverberation and echoing regardless of the acoustic coupling state from the output system to the input system.
In addition, since it is not a process of performing voice output slowly, information on the change speed of the voice component is not lost, and information on a transient change portion of the voice information is not lost.
[0023]
【Example】
Hereinafter, embodiments of the present invention will be described with reference to FIGS.
FIG. 1 is a block diagram of a speech processing apparatus according to an embodiment. Reference numeral 1 denotes an audio signal input terminal. The audio signal input from the input terminal 1 is supplied to the consonant component separation filter 2 and the formant component separation filter 3.
The consonant component separation filter 2 extracts a consonant component from the audio signal and outputs it. The formant component separation filter 3 extracts a pitch component and a formant component from the audio signal by setting a pass band of, for example, 150 to 1000 Hz, and outputs the result.
[0024]
Reference numeral 4 denotes an amplitude suppression circuit, which is formed as an attenuator circuit, for example. The output of the formant component separation filter 3 is supplied to the amplitude suppression circuit 4, and this output can be attenuated based on the control coefficient w and output.
Reference numeral 5 denotes an audio level calculation unit, which receives the output of the formant component separation filter 3 and detects the audio level. For example, the sound level calculation unit 5 may perform full-wave rectification on the output of the formant component separation filter 3 and then perform processing with a low-pass filter having a pass band of 60 Hz or less, for example. Since the audio signal supplied to the audio level calculation unit is only the pitch component and the formant component, the level detection output e of the audio level calculation unit 5 can be made less susceptible to noise.
[0025]
The level detection output e from the sound level calculation unit 5 is supplied to the amplitude control signal generation unit 6. The amplitude control signal generator 6 is constituted by a microcomputer, for example, and converts the level detection output e into digital data and takes it in. Then, a required calculation process is performed according to the level detection data, and a control coefficient w for the amplitude suppression circuit 4 is generated.
[0026]
The output of the consonant separation filter 2 and the output of the amplitude suppression circuit 4 are supplied to the frequency characteristic correction filter 7, subjected to mixing processing and subjected to necessary frequency characteristic correction processing (equalizing processing), and output from the output terminal 8. The The frequency characteristic correction filter 7 has a filter coefficient and a processing band according to a device on which the sound processing device is mounted, a possible use situation, a user situation (for example, a user's auditory frequency characteristic when mounted on a hearing aid), and the like. Is set. The filter characteristics may be variably adjusted during use.
[0027]
In the audio processing apparatus according to this embodiment, in particular, the amplitude control signal generator 6 receives the level from the audio level calculator 5.detectionThe output e is used to predict that the end of continuous speech (sounds uttered together) is approaching, and detect that continuous speech has started. Then, the amplitude suppression circuit 4 is controlled according to these determinations. In other words, amplitude suppression is performed at a timing just before the end of continuous speech so that a break between each continuous speech becomes clear.
[0028]
This operation will be described with reference to FIG.
FIG. 3A shows an audio signal input from the input terminal 1, and this audio signal is supplied to the audio level detection unit 3 via the formant component separation filter 3, and the level detection signal e as shown in FIG. Is obtained.
[0029]
For this level detection signal e, the amplitude control signal generator 6 performs A / D conversion and captures it at a predetermined sampling period. As a calculation process of the amplitude control signal generator 6, generally speaking, the peak value PK is first discriminated from the acquired level detection signal e, and the threshold value th is set from the peak value PK. For example, the threshold value th that is n% of the peak value PK is set by multiplying the peak value PK by a coefficient.
The captured level detection signal e(i) (I indicates a certain sample timing) is sequentially compared with the threshold value th, and the previous level detection signal e(i-1) It is determined whether or not the audio level is increasing or decreasing.
[0030]
When such a determination operation is performed, the level detection signal e at a certain point in time(i) Is smaller than the threshold value th and is determined to be decreasing, a prediction determination is made that the end of the continuous speech is approaching. For example, as shown in FIG.0 A prediction determination is made that the end of the continuous speech is approaching at the time.
When such termination prediction is performed, the control coefficient for the amplitude suppression circuit 4 is changed, and the gain level is lowered as can be seen from FIG. In other words, the attenuation amount is gradually increased.
[0031]
In the case of FIG.1 At that point, the voice level will start to increase. In such a case, it is determined that continuous speech has been started, the control coefficient for the amplitude suppression circuit 4 is changed, and the gain level is increased as can be seen from FIG. In other words, the attenuation amount is gradually reduced.
By performing such processing, the speech signal output from the output terminal 8 becomes, for example, as shown in FIG. 3D, that is, a section having a small amplitude between each speech unit or a speech waveform. A silent section will be created.
[0032]
Note that FIG. 3 is a schematic waveform for explanation only. Actually, the amplitude control signal generator 6 captures e as a sound level detection value.(i) 2 is performed, and the control coefficient w for the amplitude suppression circuit 4 is set.
The processing of the amplitude control signal generator 6 shown in FIG.(i) Every time it is taken in, the process proceeds to Step F101.
[0033]
First, in step F101, the audio level e(i) And the threshold th. The threshold th is a value set in step F110 or F117 before that.
And e in step F101(i) If it is determined that> th, the process proceeds to step F111 and the down flag DW is set to 1. The down flag DW is a flag that is set to “1” when the audio level has been in a decreasing trend or is considered to have been decreasing before that time.
[0034]
Subsequently, the flag BY is confirmed in step F112. The flag BY indicates the sound level e input last time.(i-1) Is a flag that is set to “0” in step F102 when is smaller than the threshold th. Therefore, the sound level e higher than the threshold th(i) Is input for the first time, the flag BY is “0” at that time, and therefore the process proceeds from step F112 to F118. Also, the previous audio level e(i-1) If the level is higher than the threshold value th, the process proceeds from step F112 to F113.
[0035]
Audio level e higher than threshold th(i) Is input, and if the process proceeds from step F112 to F118, the sound level e(i) Is compared with the lower limit value LimL set as the lower limit of the peak value PK. For the peak value PK, an upper limit value LimH and a lower limit value LimL are set, and the peak value PK of the input voice level is variably set during this period. If the peak value PK of the input audio level exceeds the upper limit value LimH or the lower limit value LimL, the upper limit value LimH or the lower limit value LimL is set as the peak value PK.
[0036]
In step F118, sound level e(i) Is determined to be smaller than the lower limit value LimL. If the lower limit value LimL is not exceeded, the threshold value th is set as the peak value PK (F120). On the other hand, if the lower limit value LimL is exceeded, the lower limit value LimL is set as the peak value PK so as not to make the peak value PK smaller than the lower limit value LimL (F119).
When the peak value PK is set in step F119 or F120, the flag BY is set to 1 (F120). In other words, the current audio level e(i) Is less than the threshold th until then exceeds the threshold, so that the next audio level e(i) In preparation for processing at the time of input, the flag BY for identifying that the sound level has exceeded the threshold value th is turned on.
[0037]
Then, in step F122, the sound level e(i) And the previous audio level e(i-1) Are compared, that is, it is determined whether the current voice level is increasing or decreasing.
When the steps up to now are followed, that is, when the threshold value th is first exceeded, naturally there is a tendency to increase, so the process proceeds to step F123 and the control coefficient w is updated to the value of w + d2. d2 is a step width when the control coefficient w is increased, that is, when the attenuation amount is decreased in the amplitude suppression circuit 4.
However, the value of the control coefficient w falls within the range of 0 ≦ w ≦ 1. Therefore, for example, when w = 1 (when the attenuation is 0), the control coefficient w is not updated even if the process proceeds to step F123.
[0038]
Next, the audio level e at the next timing(i) Is input, and this is also the audio level e(i) Is greater than the threshold th. Then, the process proceeds to steps F111 and F112. At this point, that is, except when the threshold value th is first exceeded, the flag BY = 1, so the process proceeds to step F113.
Here, the peak value PK and the sound level e(i) The audio level e(i) If the value does not exceed the peak value PK, the process proceeds to step F122.
[0039]
On the other hand, sound level e(i) If the value exceeds the peak value PK, the peak value PK is updated. First, in step F114, the audio level e(i) And the upper limit value LimH of the peak value PK. If sound level e(i) Is over the upper limit value LimH, the upper limit value LimH is set as the peak value PK so as not to make the peak value PK larger than the upper limit value LimH (F115).
[0040]
Audio level e(i) Exceeds the peak value PK, and the audio level e(i) When the value does not exceed the upper limit value LimH, a new peak value PK has been detected.(i) Set to (F116).
When the peak value PK is updated in step F115 or F116, the threshold value th is updated in step F117. In this embodiment, the threshold value th is set to a value of what percentage based on the peak value PK. Therefore, when the peak value PK is updated, a predetermined value is added to the peak value PK. A new threshold value is set by multiplying the coefficient RT set to.
For example, the coefficient RT is set to a certain coefficient value such that the threshold value th is a value of several to several tens percent of the peak value PK.
[0041]
The above is the audio level e(i) Is a process when is larger than the threshold th.
Audio level e(i) Is lower than the threshold value th, the process proceeds from step F101 to F102. And first, the audio level e(i) Is lower than the threshold value th, the flag BY is set to “0”.
Next, the current audio level e(i) And the previous audio level e(i-1) Are compared to determine whether the voice level is increasing or decreasing (F103).
[0042]
If it is determined to be decreasing, the down flag DW is confirmed in step F105. If the down flag DW is not “0”, that is, if the audio level has been decreased before this or is considered to have decreased in step F111, the process proceeds to step F106. In this case, that is, since it is determined that the voice level is lower than the threshold value and tends to decrease, a prediction determination is made that the end of the continuous voice is approaching. Accordingly, in step F106, the control variable w is updated to the value of w−d1. d1 is a step width when the control coefficient w is decreased, that is, when the attenuation amount is increased in the amplitude suppression circuit 4.
[0043]
Thereafter, the input audio level e(i) 2 continues to decrease toward the end of continuous speech, the process of FIG.(i) The process proceeds to step F106 for each input, and the attenuation amount gradually increases. That is, t in FIG.0 As shown from the time, the gain level of the amplitude suppression circuit 4 is reduced.
In this case as well, the value of the control coefficient w is updated within the range of 0 ≦ w ≦ 1, so after w = 0, the state of w = 0 is maintained even if the process proceeds to step F106. Is done. In other words, in FIG. 3C, after the gain level reaches 0, t1 A state corresponding to the period up to the time is reached.
[0044]
On the other hand, if it is determined in step F105 that the down flag DW = 0, it means that the audio level has not been reduced before that. In this case, the state in which the sound level has been larger than the threshold value until then is the case where it first falls below the threshold value.
In this case, even if the decrease tendency is simply determined in step F103, it may be considered that there is actually no case of approaching the end of continuous speech, so the peak value PK is first updated.
[0045]
Voice level e(i) Is compared with the lower limit value LimL as the peak value PK, and if the lower limit value LimL is not exceeded, the voice level e(i) Is set as the peak value PK (F108). Also, the sound level e(i) Is over the lower limit value LimL, the lower limit value LimL is set as the peak value PK (F109).
When the peak value PK is updated in step F108 or F109, the threshold value th is updated accordingly as a value obtained by multiplying the peak value PK by the coefficient RT (F110).
Further, when the process proceeds to step F110, the case where the process is actually approaching the end is also included, so the control variable w is updated to the value of w−d1. At this time, since the audio level is decreasing, the down flag DW is set to “1”.
[0046]
As described above, when the sound level first becomes smaller than the threshold value th, the sound level e to be input next is updated by updating the threshold value.(i) More accurate end prediction is performed by this process. For example, if it is not actually approaching the end, the next audio level e(i) Has a higher probability of becoming larger than the threshold th, and in this case, the processing after step F111 is performed, so that the operation based on the end prediction is not performed.
If the end is actually approaching, the next audio level e(i) Since the process proceeds to step F105 again and further proceeds to step F106, the process of suppressing the amplitude level near the end of the continuous speech is performed as described above.
[0047]
By the way, for example, t in FIG.1 As the process at the time when the continuous sound is started like the time, the input sound level e(i) In contrast, a negative result is obtained in step F103, and the process proceeds to step F104. In this case, the control variable w is updated to the value of w + d2, and the down flag DW is set to “0”. That is, the continuous sound is started and the sound level e(i) Is increased, the amplitude suppression is canceled step by step every time the process proceeds to step F104 until the threshold value th is reached. On the other hand, if the threshold value th is exceeded, the amplitude suppression is canceled step by step in step F123. That is, the gain level is recovered as shown in FIG.
[0048]
As described above, the amplitude control signal generation unit 6 sets the control variable w by the processing of FIG. 2 to realize the operation as shown in FIG. 3. A section having a small amplitude or a silent section is created.
[0049]
4A and 4B show examples of input signal waveforms and output signal waveforms from the sound processing apparatus according to the embodiment performing such processing.
FIG. 4 shows an audio signal waveform when the speaker makes a pronunciation of “I have been losing much since I was a child with a handed-off gun”.
The waveform output from the speech processing apparatus is as shown in FIG. 4B with respect to the waveform before processing as shown in FIG. Here, in the part which attached | subjected the arrow to FIG.4 (b), it is notably showing that between the whole speech is made into the small amplitude and is divided by the area.
[0050]
In the present embodiment, by carrying out such processing, it is possible to improve the speech intelligibility by making it difficult for successive masking to occur or helping the listener to memorize the voice for a short time that is important for understanding the spoken language. . Furthermore, no delay circuit or the like is used in the voice transmission system, that is, the immediacy is not impaired.
[0051]
In the above embodiment, the consonant component is configured not to perform amplitude suppression. Of course, the consonant transmission system may be similarly controlled by providing an amplitude suppression circuit. It goes without saying that various modifications can be considered for the circuit configuration, the processing method for terminal prediction, and the like.
[0052]
【The invention's effect】
As described above, since the speech processing apparatus of the present invention predicts the end of continuous speech and suppresses the amplitude at that timing, the output speech is divided in units of speech (continuous speech). Masking at the time of occurrence is less likely to occur, and it helps the listener to store voice for a short time, and has the effect of realizing a voice output that is easy to hear.
Further, since the segmentation is performed in units of continuous speech, information for speech perception determination included in the transitional portion of the uttered speech is not impaired. Furthermore, since there is a lot of redundant information near the end of continuous speech that is not so necessary for speech language recognition, even if the amplitude of this portion is suppressed to reduce the amount of information, there is almost no adverse effect. In addition, the change rate information of the speech component, which is one of the clues for the perceptual judgment of the speech, is not impaired.
From these facts, the clarity of the output voice is further improved.
[0053]
Furthermore, in the present invention, since the immediacy of the processed voice is not impaired, it is suitable to be mounted on a device such as a hearing aid used for conversation, and it is also possible to eliminate the time required for listening to broadcasts and the like. .
In addition, since there is no time delay, the processed speech output does not interfere with intelligibility due to howling, echo, reverberation, etc. in any acoustic coupling state. This also leads to an increase in the degree of freedom of microphone and speaker arrangement conditions in the audio equipment.
[0054]
Also, the end prediction determination means facilitates end prediction by detecting that the signal level of the input voice is lower than the set threshold value and the signal level tends to decrease, and performing end prediction. It can be executed.
Also, the threshold value should be set according to the detected audio level peak value, the upper limit and the lower limit should be set for the audio level peak value, and the audio level peak value can be determined by the signal level threshold. Use different methods for smaller and larger values, extract speech pitch components and formant components, and use them for termination prediction determination and start determination, etc. to perform continuous speech end prediction and start determination more accurately Can do.
[Brief description of the drawings]
FIG. 1 is a block diagram of an audio processing apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart of an amplitude control signal generation process according to the embodiment.
FIG. 3 is an explanatory diagram of an amplitude suppression operation according to the embodiment.
FIG. 4 is an explanatory diagram of an amplitude suppression state of a continuous voice segment according to an embodiment.
[Explanation of symbols]
1 Input terminal
2 Consonant component separation filter
3 Formant component separation filter
4 Amplitude suppression circuit
5 Audio level calculator
6 Amplitude control signal generator
7 Frequency characteristic correction filter
8 Output terminals

Claims (7)

入力された音声信号から音声ピッチ成分とフォルマント成分を抽出するフィルタ手段と、
前記フィルタ手段の出力に対して振幅抑圧を行なうことができる振幅抑圧手段と、
前記フィルタ手段の出力について連続音声の区切りとなる終端を予測する終端予測判定手段と、
前記フィルタ手段の出力について連続音声の開始部分を判別する開始判別手段と、
前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅を抑圧するための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧を解除するための制御信号を供給することができる振幅制御手段と、を備え、
前記終端予測判定手段は、前記フィルタ手段の出力の信号レベルが設定されているしきい値より小さくなり、かつ信号レベルが減少傾向にあることが検出されたら、連続音声が終端に至る過程に入ったとして終端を予測するように構成されていることを特徴とする音声処理装置。
Filter means for extracting an audio pitch component and a formant component from an input audio signal ;
Amplitude suppression means capable of performing amplitude suppression on the output of the filter means ;
Terminal prediction determination means for predicting the terminal end of continuous speech for the output of the filter means ;
Start determining means for determining a start portion of continuous sound for the output of the filter means ;
A control signal for suppressing the amplitude is supplied to the amplitude suppression unit according to the end prediction by the end prediction determination unit, and the amplitude suppression is performed to the amplitude suppression unit according to the start determination by the start determination unit. Amplitude control means capable of supplying a control signal for canceling
When the signal level of the output of the filter unit becomes smaller than a set threshold value and the signal level tends to decrease, the end prediction determination unit enters a process in which continuous speech reaches the end. A speech processing apparatus configured to predict a termination as a result.
前記終端予測判定手段における信号レベルピーク値の判別動作として、判別される信号レベルピーク値の上限及び下限が設定されているとともに、この上限から下限の範囲内において、前記フィルタ手段の出力の信号レベルが前記しきい値より小さい場合は、信号レベルが増加傾向に入ってから減少傾向に入るまでの期間の信号レベルの最大値を信号レベルピーク値と判別し、また前記フィルタ手段の出力の信号レベルが前記しきい値より大きい場合は、信号レベルがしきい値よりさかったものがしきい値を超えたとき以降の信号レベルの最大値を信号レベルピーク値と判別することを特徴とする請求項1に記載の音声処理装置。As the determination operation of the signal level peak value in the terminal prediction determination means, an upper limit and a lower limit of the signal level peak value to be determined are set, and within the range from the upper limit to the lower limit, the signal level of the output of the filter means Is smaller than the threshold value, the maximum value of the signal level during the period from when the signal level starts to increase until it starts decreasing is determined as the signal level peak value, and the signal level of the output of the filter means If is greater than the threshold value, characterized in that what signal level is bought smaller than the threshold value is determined to the signal level peak value the maximum value of the subsequent signal level when the threshold is exceeded The speech processing apparatus according to claim 1. 前記終端予測判定手段は、音声信号存在期間中の信号レベルピーク値を判別するとともに、前記しきい値を、検出された信号レベルピーク値に応じて設定するように構成されていることを特徴とする請求項2に記載の音声処理装置。The termination prediction determination means is configured to determine a signal level peak value during an audio signal existence period, and to set the threshold value according to the detected signal level peak value. The voice processing apparatus according to claim 2. 前記開始判別手段は、前記フィルタ手段の出力の信号レベルが増加傾向にあることが検出されたら、連続音声が開始されたと判別するように構成されていることを特徴とする請求項3に記載の音声処理装置。4. The start determination unit according to claim 3, wherein the start determination unit is configured to determine that continuous sound has started when it is detected that the signal level of the output of the filter unit tends to increase. Audio processing device. 入力音声信号から子音成分を抽出する第2のフィルタ手段をさらに備え、前記フィルタ手段の出力と、この第2のフィルタ手段の出力の一方又は両方が処理対象信号として前記振幅抑圧手段に供給されるように構成されていることを特徴とする請求項1、請求項2、請求項3、又は請求項に記載の音声処理装置。 Input further comprising a second filter means to extract the consonant component from the audio signal, an output of the filter means, one or both of the output of the second filter means is supplied to said amplitude suppressing means as a processing target signal claim 1, characterized in that it is configured to so that, claim 2, claim 3, or the audio processing apparatus according to claim 4. 前記振幅制御手段は、前記終端予測判定手段による終端予測に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に大きくするための制御信号を供給し、また前記開始判別手段による開始判別に応じて前記振幅抑圧手段に対して振幅抑圧量を徐々に小さくするための制御信号を供給することを特徴とする請求項1、請求項2、請求項3、請求項4、又は請求項5に記載の音声処理装置。 The amplitude control means supplies a control signal for gradually increasing the amount of amplitude suppression to the amplitude suppression means according to the end prediction by the end prediction determination means, and according to the start determination by the start determination means 6. The control signal according to claim 1, 2, 3, 4, or 5, wherein a control signal for gradually decreasing the amplitude suppression amount is supplied to the amplitude suppression means. Voice processing device. 出力音声信号について周波数特性を補正する特性補正フィルタ手段が設けられていることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項5、又は請求項に記載の音声処理装置。Claim 1, characterized in that characteristic correction filter means for correcting the frequency characteristic is provided for the output audio signal, according to claim 2, claim 3, claim 4, claim 5, or claim 6 Voice processing device.
JP33541094A 1994-12-22 1994-12-22 Audio processing device Expired - Fee Related JP3789503B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (en) 1994-12-22 1994-12-22 Audio processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (en) 1994-12-22 1994-12-22 Audio processing device

Publications (2)

Publication Number Publication Date
JPH08179792A JPH08179792A (en) 1996-07-12
JP3789503B2 true JP3789503B2 (en) 2006-06-28

Family

ID=18288240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33541094A Expired - Fee Related JP3789503B2 (en) 1994-12-22 1994-12-22 Audio processing device

Country Status (1)

Country Link
JP (1) JP3789503B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191415A (en) * 1999-08-24 2010-09-02 Sony Corp Method and apparatus regenerating voice
JP4895418B2 (en) * 1999-08-24 2012-03-14 ソニー株式会社 Audio reproduction method and audio reproduction apparatus
CN101501988B (en) * 2006-08-09 2012-03-28 杜比实验室特许公司 Audio-peak limiting in slow and fast stages
JP5109050B2 (en) * 2007-07-13 2012-12-26 学校法人早稲田大学 Voice processing apparatus and program
JP2008102551A (en) * 2007-12-27 2008-05-01 Sony Corp Apparatus for processing voice signal and processing method thereof
JP5177657B2 (en) 2008-08-08 2013-04-03 国立大学法人九州工業大学 Acoustic characteristic control device
JP4950971B2 (en) * 2008-09-18 2012-06-13 日本電信電話株式会社 Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium
JP6229869B2 (en) * 2012-12-04 2017-11-15 三星電子株式会社Samsung Electronics Co.,Ltd. Speech processing apparatus, speech recognition system, speech processing method, and speech processing program
JP6536320B2 (en) * 2015-09-28 2019-07-03 富士通株式会社 Audio signal processing device, audio signal processing method and program
CN110364145B (en) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 Voice recognition method, and method and device for sentence breaking by voice
JP7113719B2 (en) * 2018-10-19 2022-08-05 日本放送協会 Speech end timing prediction device and program

Also Published As

Publication number Publication date
JPH08179792A (en) 1996-07-12

Similar Documents

Publication Publication Date Title
EP2383732B1 (en) Hearing aid and hearing aiding method
EP0727768B1 (en) Method of and apparatus for reducing noise in speech signal
EP2265039B1 (en) Hearing aid
JP3789503B2 (en) Audio processing device
EP1791393A1 (en) Sound processing apparatus
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
JP2013050604A (en) Acoustic processing device and program thereof
US20090257609A1 (en) Method for Noise Reduction and Associated Hearing Device
CN111327985A (en) Earphone noise reduction method and device
EP1751740A1 (en) System and method for babble noise detection
JP3334353B2 (en) Hearing aid
JP4876245B2 (en) Consonant processing device, voice information transmission device, and consonant processing method
JP4774255B2 (en) Audio signal processing method, apparatus and program
JP3411648B2 (en) Automotive audio equipment
CN102860047A (en) Hearing aid and hearing aid control method
US10136227B2 (en) Method of sound processing in a hearing aid and a hearing aid
JP3134557B2 (en) Howling suppression device
EP1241921A2 (en) Acoustic signal processor
JP2008102551A (en) Apparatus for processing voice signal and processing method thereof
JP3303446B2 (en) Audio signal processing device
JP4079478B2 (en) Audio signal processing circuit and processing method
JPH06276599A (en) Impulsive sound suppressing device
JP3596580B2 (en) Audio signal processing circuit
JP4005166B2 (en) Audio signal processing circuit
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040216

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060329

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees