JPH08179792A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JPH08179792A
JPH08179792A JP6335410A JP33541094A JPH08179792A JP H08179792 A JPH08179792 A JP H08179792A JP 6335410 A JP6335410 A JP 6335410A JP 33541094 A JP33541094 A JP 33541094A JP H08179792 A JPH08179792 A JP H08179792A
Authority
JP
Japan
Prior art keywords
voice
signal
level
amplitude
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6335410A
Other languages
English (en)
Other versions
JP3789503B2 (ja
Inventor
Masami Miura
雅美 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP33541094A priority Critical patent/JP3789503B2/ja
Publication of JPH08179792A publication Critical patent/JPH08179792A/ja
Application granted granted Critical
Publication of JP3789503B2 publication Critical patent/JP3789503B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 即時性を確保するとともに、より聞きやすい
音声出力を行なうことができる音声処理装置を実現す
る。 【構成】 音声信号に対して振幅抑圧回路を設ける。振
幅抑圧動作は、音声信号についてまとまった音声部分
(連続音声)の区切りとなる部分を予測し、それに応じ
て振幅を抑圧していくようにする。また連続音声の開始
部分を判別したら振幅抑圧を解除していくようにする。
これにより、即時性を損なうことなく、まとまった音声
部分の区切りの部分で振幅を抑え、各まとまった音声部
分の認識のための明瞭度を向上させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば補聴器、電話、
拡声器、音声通信などの各種分野に利用できる音声処理
装置に関するものである。
【0002】
【従来の技術】音響再生装置や通信装置その他の各種の
音声信号伝送系を有する機器において、音声信号につい
ての残響成分やエコー成分が多いと、出力される音声が
聞き取りにくくなることがある。このような場合、出力
音声について速度を遅くしたり、音声波形が比較的連続
した状態となる発声語音成分を細かく分解して、できる
だけ音声単位で区切りをつけて出力するような処理を行
なうことがある。
【0003】例えば難聴者や老人のための補聴器につい
ては、難聴者や老人は発声語音として各連続発声音がつ
ながってしまうと健聴者に比べて語音認識がかなり困難
になるということもあり、補聴器において連続発声語音
を細かく分解して出力するという処理は聞き取り易さを
向上させる有効な手段となる。また健聴者が使用する機
器であっても、ノイズの多い環境下で用いる通信機など
の場合、このような処理は有効である。
【0004】
【発明が解決しようとする課題】ところが、このような
発話速度を遅くしたり連続音声語音を分解する音声処理
については、次のような各種問題があった。まず、発話
速度を遅くする場合は、当然ながら原音声と処理後の出
力音声について時間のずれが生じ、即時性が無くなる。
また聞き終えるまでの時間が長くなってしまう。
【0005】また連続音声語音を分解する場合について
は、連続音声の区切りを検出し、その出力タイミングで
出力レベルのアッテネートを行なうという方法を実行す
ることになる。従って、まず区切りタイミングを検出し
てから、遅延させておいた出力信号について区切りとな
る部分でレベルを減衰させるということになるため、こ
の場合も遅延分だけ原音声と処理後の出力音声について
時間のずれが生じ、即時性が無くなる。このように即時
性が無くなることは、会話等に使用する場合、特に補聴
器等では大きな問題となってしまう。また、入力音声と
出力音声に数ミリ秒以上の遅れがあり、さらに出力され
た音声がマイクロホン(入力系)にフィードバックされ
るような音響結合を持つ場合には、残響やエコーのよう
な状態で知覚されてしまい、逆に聞き取りにくくなって
しまう場合もある。
【0006】また、語音の知覚判断には、音声成分の変
化速度も重要な手掛かりとなっている。このため、音声
の速度を遅くする処理を行なうと、変化速度情報が損な
われ、別の語音に知覚されてしまうことが発生する場合
もある。
【0007】また、語音をばらばらにしてゆっくり出力
するような処理を行なうと、語音のまとまりとしての情
報や、過渡的変化部分の情報が失われてしまうため、出
力される音声の明瞭度が悪くなる場合も発生する。
【0008】
【課題を解決するための手段】本発明はこのような問題
点に鑑みて、入力−出力系での時間ずれをなくし即時性
を確保するとともに、より聞きやすい音声出力を行なう
ことができる音声処理装置を提供することを目的とす
る。
【0009】このため音声処理装置として、入力された
音声信号に対して振幅抑圧を行なうことができる振幅抑
圧手段を設ける。そして振幅抑圧手段に対する制御系と
して、入力音声信号についてまとまった音声部分である
連続音声の区切りとなる終端を予測する終端予測判定手
段と、入力音声信号について連続音声の開始部分を判別
する開始判別手段と、振幅制御手段を設ける。この振幅
制御手段は終端予測判定手段による終端予測に応じて振
幅抑圧手段に対して振幅を抑圧するための制御信号を供
給し、また開始判別手段による開始判別に応じて振幅抑
圧手段に対して振幅抑圧を解除するための制御信号を供
給することができるようにする。これにより、即時性を
損なうことなく、まとまった音声部分の区切りの部分で
振幅を抑え、各まとまった音声部分の認識のための明瞭
度を向上させる。
【0010】ここで終端予測判定手段は、入力音声の信
号レベルが設定されているしきい値より小さくなり、か
つ信号レベルが減少傾向にあることが検出されたら、連
続音声が終端に至る過程に入ったとして終端を予測する
ようにする。
【0011】また終端予測判定手段は、音声信号存在期
間中の音声レベルピーク値を判別するとともに、終端予
測のためのしきい値としては、検出された音声レベルピ
ーク値に応じて設定するように構成する。
【0012】また終端予測判定手段における音声レベル
ピーク値の判別動作としては、まず判別される音声レベ
ルピーク値の上限及び下限が設定されているものとす
る。そして、この上限から下限の範囲内において、入力
音声の信号レベルがしきい値より小さい場合は、信号レ
ベルが増加傾向に入ってから減少傾向に入るまでの期間
の信号レベルの最大値を音声レベルピーク値と判別す
る。また入力音声の信号レベルがしきい値より大きい場
合は、信号レベルの最大値を音声レベルピーク値と判別
するようにする。
【0013】上記構成の音声処理装置における開始判別
手段としては、入力音声の信号レベルが増加傾向にある
ことが検出されたら、連続音声が開始されたと判別する
ように構成する。
【0014】また音声処理装置としては上記構成に加
え、入力音声信号から音声ピッチ成分とフォルマント成
分を抽出するフィルタ手段を備え、このフィルタ手段の
出力を終端予測判定手段及び開始判別手段に供給して終
端予測及び開始判別を実行させるようにする。
【0015】また音声処理装置としては、入力音声信号
から音声ピッチ成分とフォルマント成分を抽出する第1
のフィルタ手段と、入力音声信号から子音成分を抽出す
る第2のフィルタ手段とを備え、この第1のフィルタ手
段の出力と、第2のフィルタ手段の出力の一方又は両方
が処理対象信号として振幅抑圧手段に供給されるように
構成する。
【0016】もしくは音声処理装置としては、入力音声
信号から音声ピッチ成分とフォルマント成分を抽出する
第1のフィルタ手段と、入力音声信号から子音成分を抽
出する第2のフィルタ手段とを備え、第1のフィルタ手
段の出力のみが処理対象信号として振幅抑圧手段に供給
されるように構成する。
【0017】また上記各構成の音声処理装置において、
出力音声信号について周波数特性を補正する特性補正フ
ィルタ手段を設るようにする。
【0018】
【作用】このような構成の音声処理装置では、会話音声
波形に対して各まとまった語音の間に振幅の小さい区間
又は無音区間を作ることになる。これは継時マスキング
を生じにくくさせたり、音声言語理解に大切な聴者の短
時間音声記憶を助けたりして、音声明瞭度を向上させる
ことにつながる。これらの作用による、音声言語認識上
の有用性ついてここで簡単に説明しておく。
【0019】通常の会話音声は、ある程度のまとまりを
もって発音されており、人間の音声言語知覚も各音の知
覚と、まとまった語音の特徴知覚の両方から行なわれて
いるといわれている。ここで、健聴者に関しては、雑音
が少なく受聴環境が良いという条件さえ整っていれば、
音声伝送機器において特別な音声処理を行なわなくても
十分に出力音声を聞き取ることができる。ところが雑音
環境下であったり、もしくは難聴者の場合は、音声言語
の知覚が難しくなり、この原因としては継時マスキング
の影響や、短時間音声記憶がスムースに実行できないと
いうことが考えられている。
【0020】継時マスキングとしては、特に前の母音音
声が次の音の子音部分をマスクしてしまうということが
あり、これによって子音の聴覚的感度が悪くなり、聞き
取りにくいものとなる。また人間が音声を知覚判断する
ときには、まとまった音声を短時間、一時的に記憶して
おき、その間に分析識別を行なうといわれている。この
ときに雑音があった場合や、または難聴者の場合では、
まとまった音声の区切りがはっきりしなくなる。このた
め短時間音声記憶と分析識別がスムースに実行できず、
明瞭度が悪くなると考えられている。これに似た例とし
ては、健聴者でも外国語の聞き取りが難しい原因の一つ
として、短時間音声記憶と分析識別がスムースに実行で
きないためであるといわれている。
【0021】一方、まとまって発声された音の最後部の
10数ミリ秒は音声情報としては冗長であることが多
い。つまり、この最後部の10数ミリ秒については音声
情報が失われても明瞭度の悪化には殆どつながらない。
そこで、上記構成の本発明では、音声のまとまりの終端
をみつけて、その直前の数ミリ〜数10ミリ秒の間の振
幅を抑圧するようにすることで、音声のまとまり(連続
音声)毎の区切りをはっきりさせるようにしている。即
ちこれによって、継時マスキングを減少させて子音に対
する聴覚的感度を向上させるとともに、短時間音声記憶
を助けることになる。
【0022】そしてさらに、音声のまとまりの終端をみ
つける処理として、終端を予測するという処理を実行す
るようにすることにより、入力から出力までの系におい
て遅延処理を不要とし、即時性を保持する。また即時性
を保持することにより、出力系から入力系までの音響結
合状態に関わらず、残響やエコーとして聞こえてしまう
ことも解消する。また、音声出力をゆっくり行なう処理
ではないため、音声成分の変化速度の情報も損なわれ
ず、さらに音声情報の過渡的変化部分の情報も失われな
い。
【0023】
【実施例】以下、図1〜図5を用いて本発明の実施例を
説明する。図1は実施例の音声処理装置のブロック図で
ある。1は音声信号の入力端子を示す。入力端子1から
入力された音声信号は子音成分分離フィルタ2及びフォ
ルマント成分分離フィルタ3に供給される。子音成分分
離フィルタ2では音声信号から子音成分を抽出して出力
する。またフォルマント成分分離フィルタ3は例えば1
50〜1000Hzの通過帯域が設定されることで、音
声信号からピッチ成分とフォルマント成分を抽出して出
力する。
【0024】4は振幅抑圧回路であり、例えばアッテネ
ータ回路として形成される。振幅抑圧回路4にはフォル
マント成分分離フィルタ3の出力が供給されており、こ
の出力を制御係数wに基づいて減衰させて出力すること
ができる。5は音声レベル算出部であり、フォルマント
成分分離フィルタ3の出力が供給されて音声レベル検出
を行なう。音声レベル算出部5は例えばフォルマント成
分分離フィルタ3の出力に対して全波整流したのち、例
えば60Hz以下を通過帯域とする低域通過フィルタで
処理を行なえばよい。音声レベル算出部に供給される音
声信号がピッチ成分とフォルマント成分のみであること
により、音声レベル算出部5のレベル検出出力eはノイ
ズの影響を受けにくいものとすることができる。
【0025】音声レベル算出部5によるレベル検出出力
eは振幅制御信号発生部6に供給される。振幅制御信号
発生部6は例えばマイクロコンピュータで構成され、レ
ベル検出出力eをデジタルデータに変換して取り込む。
そしてレベル検出データに応じて所要の演算処理を行な
い、振幅抑圧回路4に対する制御係数wを発生させる。
【0026】子音分離フィルタ2の出力と振幅抑圧回路
4の出力は、周波数特性補正フィルタ7に供給され、混
合処理されるとともに所要の周波数特性補正処理(イコ
ライジング処理)が施されて、出力端子8から出力され
る。周波数特性補正フィルタ7は、この音声処理装置を
搭載する機器、考えられる使用状況、使用者の状況(例
えば補聴器に搭載する場合の使用者の聴覚周波数特性
等)などに応じてフィルタ係数や処理帯域が設定され
る。また、このフィルタ特性は使用に際して設定を可変
調整できるようにしておいてもよい。
【0027】この実施例の音声処理装置は、特に振幅制
御信号発生部6が、音声レベル算出部5からのレベル演
出出力eを用いて、連続音声(まとまって発声された
音)の終端が近づいていることを予測し、また連続音声
が開始されたことを検出する。そして、これらの判断に
応じて振幅抑圧回路4の制御を行なう。つまり、連続音
声の終端間際のタイミングで振幅抑圧が行なわれるよう
にして、各連続音声の間の区切りが明確となるようにす
るものである。
【0028】この動作を図3で説明する。図3(a)は
入力端子1から入力された音声信号とし、この音声信号
がフォルマント成分分離フィルタ3を介して音声レベル
検出部3に供給され、図3(b)のようなレベル検出信
号eが得られたとする。
【0029】このレベル検出信号eに対して、振幅制御
信号発生部6は所定のサンプリング周期でA/D変換し
て取り込んでいくことになる。そして振幅制御信号発生
部6の演算処理としては、概略的に述べれば、取り込ん
だレベル検出信号eについてまずピーク値PKを判別
し、そのピーク値PKからしきい値thを設定する。例
えばピーク値PKに対して係数を乗算し、ピーク値PK
のn%となるしきい値thを設定する。そして、取り込
んだレベル検出信号e(i) (iは或るサンプルタイミン
グを示す)について逐次しきい値thと比較し、また前
回のレベル検出信号e(i-1) と比較して、音声レベルが
増加傾向にあるか減少傾向にあるかを判別する。
【0030】このような判別動作を行なっていて、或る
時点でレベル検出信号e(i) が、しきい値thより小さ
くなり、かつ減少傾向にあると判別されたら、連続音声
の終端が近づいていると予測判断を行なう。例えば図3
(b)に示すようにt0 時点で連続音声の終端が近づい
ているという予測判断が行なわれることになる。このよ
うな終端予測が行なわれたら、振幅抑圧回路4に対する
制御係数を変化させ、図3(c)から分かるように利得
レベルを下げていく。つまりアッテネーション量を徐々
に大きくしていく。
【0031】また、図3の場合t1 時点で音声レベルが
増加傾向に転じることになる。このような場合、連続音
声の発声が開始されたと判断し、振幅抑圧回路4に対す
る制御係数を変化させ、図3(c)から分かるように利
得レベルを上げていく。つまりアッテネーション量を徐
々に小さくしていく。このような処理を行なうことで、
出力端子8から出力される音声信号は、例えば図3
(d)のようになり、つまり音声波形に対して、各まと
まった語音の間に振幅の小さい区間又は無音区間を作る
ことになる。
【0032】なお図3はあくまで説明のための概略的な
波形であり、実際には振幅制御信号発生部6では、音声
レベル検出値として取り込んだe(i) に対して図2で示
す演算処理が行なわれて振幅抑圧回路4に対する制御係
数wが設定されるものとなる。図2に示す振幅制御信号
発生部6の処理は、音声レベル検出出力eがデジタルデ
ータe(i) としてに取り込まれる毎に、ステップF101に
進む。
【0033】まずステップF101では音声レベルe(i)
しきい値thを比較する。しきい値thは、それ以前に
おいて、ステップF110又はF117で設定された値である。
そしてステップF101でe(i) >thと判断されればステ
ップF111に進み、ダウンフラグDWを1とする。ダウン
フラグDWとは、それ以前は音声レベルが減少傾向にあ
った場合、もしくは減少傾向にあったと見なす場合に
『1』とセットされるフラグである。
【0034】続いてステップF112でフラグBYを確認す
る。フラグBYは、前回入力された音声レベルe(i-1)
がしきい値thより小さかった場合にステップF102で
『0』とされるフラグである。従って、しきい値thよ
り高い音声レベルe(i) がはじめて入力された場合は、
そのときフラグBYは『0』であり、従ってステップF1
12からF118に進む。また前回の音声レベルe(i-1) もし
きい値thより高いレベルであった場合は、ステップF1
12からF113に進むことになる。
【0035】最初にしきい値thより高い音声レベルe
(i) が入力され、ステップF112からF118に進んだ場合
は、音声レベルe(i) がピーク値PKの下限として設定
されている下限値LimLと比較する。ピーク値PKに
ついては上限値LimHと下限値LimLが設定されて
おり、入力された音声レベルのピーク値PKをこの間に
おいて可変設定するものとなる。もし、入力された音声
レベルのピーク値PKが上限値LimH又は下限値Li
mLをこえた場合は、その上限値LimH又は下限値L
imLがピーク値PKと設定される。
【0036】ステップF118では音声レベルe(i) が下限
値LimLを越えて小さいものとなっているか否かを判
断することになる。下限値LimLを越えていなけれ
ば、しきい値thをピーク値PKとして設定する(F12
0)。一方、下限値LimLを越えていた場合は、ピーク
値PKを下限値LimLより小さいものとはしないよう
にするため下限値LimLをピーク値PKとして設定す
る(F119)。ステップF119又はF120でピーク値PKを設定
したら、フラグBYを1にセットする(F120)。つまり、
今回の音声レベルe(i) は、それまでしきい値thより
小さかったものが、しきい値を越えたものになるため、
次回の音声レベルe(i) の入力時の処理に備えて、音声
レベルがしきい値thを越えていたことを識別するフラ
グBYをオンとする。
【0037】続いて、ステップF122で音声レベルe(i)
と前回の音声レベルe(i-1) を比較し、つまり現在音声
レベルが増加傾向にあるか減少傾向にあるかを判別す
る。これまでのステップをたどった場合、つまり最初に
しきい値thを越えた時点では、当然増加傾向にあるた
め、ステップF123に進んで制御係数wをw+d2の値に
更新する。d2とは制御係数wを増加させる場合、つま
り振幅抑圧回路4において減衰量を少なくしていく場合
のステップ幅である。ただし、制御係数wの値は、0≦
w≦1の範囲内となる。従って、例えばw=1であった
場合は(減衰量0の場合)、ステップF123に進んでも制
御係数wは更新されない。
【0038】続いて次のタイミングで音声レベルe(i)
が入力され、これも音声レベルe(i ) はしきい値thよ
り大きかったとする。するとステップF111,F112 と進む
が、この時点、つまり最初にしきい値thを越えた場合
以外ではフラグBY=1であるため、ステップF113に進
む。ここで、ピーク値PKと音声レベルe(i) を比較
し、音声レベルe(i) がピーク値PKを越えていなけれ
ば、そのままステップF122に進む。
【0039】一方、音声レベルe(i) がピーク値PKを
越えていれば、ピーク値PKの更新処理を行なう。まず
ステップF114で音声レベルe(i) と、ピーク値PKの上
限値LimHと比較する。もし音声レベルe(i) が上限
値LimHを越えていた場合は、ピーク値PKを上限値
LimHより大きいものとはしないようにするため上限
値LimHをピーク値PKとして設定する(F115)。
【0040】また音声レベルe(i) がピーク値PKを越
えており、さらに音声レベルe(i)が上限値LimHを
越えていない場合は、新たなピーク値PKが検出された
ことになるため、ピーク値PKの値を音声レベルe(i)
にセットする(F116)。ステップF115又はF116でピーク値
PKを更新したら、ステップF117でしきい値thを更新
する。本実施例では、しきい値thはピーク値PKに基
づいて、その何%という値に設定されているものとして
おり、このためピーク値PKが更新された場合は、ピー
ク値PKに所定の値に設定されている係数RTを乗算し
てを新たなしきい値を設定する。係数RTは例えば、し
きい値thがピーク値PKの数〜数10パーセントの値
となるようなある係数値に設定されている。
【0041】以上は、音声レベルe(i) がしきい値th
より大きい場合の処理である。音声レベルe(i) がしき
い値thより低いものとなっていた場合は、処理はステ
ップF101からF102に進む。そしてまず、音声レベルe
(i) がしきい値thより低いこととなったために、フラ
グBYを『0』にする。次に、今回の音声レベルe(i)
と前回の音声レベルe(i-1) を比較して、音声レベルが
増加傾向にあるか減少傾向にあるかを判別する(F103)。
【0042】減少傾向とされた場合、ステップF105でダ
ウンフラグDWを確認する。ダウンフラグDWが『0』
でない場合、つまり、これ以前が音声レベルが減少して
いたか、ステップF111で減少しているとみなされる状態
となっていた場合は、ステップF106へ進む。この場合
は、即ち、音声レベルがしきい値より低くなり、かつ減
少傾向にあることが判別されたことになるため、連続音
声の終端が近づいているという予測判断が行なわれたこ
とになる。従ってステップF106では、制御変数wを、w
−d1の値に更新する。d1とは制御係数wを減少させ
る場合、つまり振幅抑圧回路4において減衰量を大きく
していく場合のステップ幅である。
【0043】以降、入力されてくる音声レベルe(i)
連続音声の終端に向かって減少しつづけている場合は、
図2の処理は音声レベルe(i) の入力毎にステップF106
に進むことになり、従って徐々に減衰量が大きくなって
いく。つまり図3(c)にt0 時点から示すように、振
幅抑圧回路4の利得レベルが小さくされていくことにな
る。なお、この場合も制御係数wの値は、0≦w≦1の
範囲内で更新されるものとなるため、w=0となった以
降は、ステップF106に進んでもw=0の状態が維持され
る。つまり、図3(c)において、利得レベルが0に達
してからt1 時点に至までの期間に相当する状態とな
る。
【0044】一方、ステップF105でダウンフラグDW=
0と判断された場合は、それ以前は音声レベルが減少し
ている状態ではなかったことになる。この場合は、それ
まで音声レベルがしきい値より大きい状態であったの
が、最初にしきい値より下がった場合となる。この場
合、単にステップF103での減少傾向の判別がなされて
も、実際には連続音声の終端に近づいているものではな
い場合も存在すると考えられるため、まずピーク値PK
の更新処理を行なう。
【0045】まず音声レベルe(i) とピーク値PKとし
ての下限値LimLを比較し、下限値LimLを越えて
いなければ、音声レベルe(i) をピーク値PKとして設
定する(F108)。また、音声レベルe(i) が下限値Lim
Lを越えていた場合は、下限値LimLをピーク値PK
として設定する(F109)。そしてステップF108又はF109で
ピーク値PKを更新したら、それに応じてしきい値th
を、ピーク値PKに係数RTを乗算した値として更新す
る(F110)。また、処理がステップF110に進むときは、実
際に終端に近づいている場合も含まれるため、制御変数
wをw−d1の値に更新する。また、このときは音声レ
ベルは減少しているものであるため、ダウンフラグDW
を『1』にセットする。
【0046】このように最初に音声レベルがしきい値t
hより小さくなった場合は、しきい値を更新することに
より、次に入力される音声レベルe(i) の処理によって
より正確な終端予測が行なわれる。例えば実際には終端
に近づいているのではない場合は、次の音声レベルe
(i) はしきい値thより大きくなる確率が高くなり、そ
の場合はステップF111以降の処理となるため、終端予測
による動作は行なわれなくなる。また、実際に終端に近
づいているのであれば、次の音声レベルe(i) について
の処理は再びステップF105まで進み、さらにステップF1
06に進むことになるため、上述したように連続音声の終
端付近で振幅レベルを抑圧する処理が行なわれることに
なる。
【0047】ところで、例えば図3のt1 時点のよう
に、連続音声が開始される時点の処理としては、入力さ
れる音声レベルe(i) に対してステップF103で否定結果
が出てステップF104に進むことになる。この場合は、制
御変数wをw+d2の値に更新し、またダウンフラグD
Wを『0』とする。つまり、連続音声が開始されて音声
レベルe(i) が増加している場合は、しきい値thに達
するまでの間は、ステップF104の処理に進むたびに振幅
抑圧が段階的に解除されていくことになる。また、しき
い値thを越えた場合はステップF123で振幅抑圧が段階
的に解除されていく。つまり、利得レベルは図3(c)
のように回復されていく。
【0048】以上のように振幅制御信号発生部6で、図
2の処理によって制御変数wが設定されることで図3で
示したような動作が実現され、音声波形に対して、各ま
とまった語音の間に振幅の小さい区間又は無音区間が作
られる。
【0049】このような処理を行なう実施例の音声処理
装置に対する入力信号波形と、音声処理装置からの出力
信号波形の例を図4(a)(b)に示す。この図4は、
話者が『親譲りの無鉄砲で子供のときから損ばかりして
いる』という発音を行なった場合の音声信号波形であ
る。図4(a)のような処理前の波形に対し、音声処理
装置から出力される波形は図4(b)のようになった。
ここでは、図4(b)に矢印を付した部分において、各
まとまった語音の間が小振幅とされて区間によって区切
られていることが顕著に表われている。
【0050】本実施例では、このような処理を行なうこ
とにより、継時マスキングを生じにくくさせたり、音声
言語理解に大切な聴者の短時間音声記憶を助けたりし
て、音声明瞭度を向上させることができる。そしてさら
に音声伝送系に遅延回路等は使用しておらず、即ち即時
性は損なわれないものとしている。
【0051】なお、以上の実施例では子音成分について
は振幅抑圧が行なわれないように構成しているが、もち
ろん子音伝送系にも同様に振幅抑圧回路を設けて制御を
行なってもよい。また回路構成や、終端予測のための処
理方式などはさらに各種変形例が考えられることはいう
までもない。
【0052】
【発明の効果】以上説明したように本発明の音声処理装
置は、連続音声の終端を予測し、そのタイミングで振幅
を抑圧するようにしているため、出力音声は音声のまと
まり(連続音声)単位で区切られ、従って継時マスキン
グが生じにくく、また聴者の短時間音声記憶を助けるも
のとなり、聞き取りやすい音声出力が実現されるという
効果がある。また、連続音声単位での区切りであるた
め、発声音声の過渡部分に含まれる音声知覚判断のため
の情報は損なわれない。さらに連続音声の終端付近は、
音声言語認識にさほど必要ない冗長な情報が多いため、
この部分の振幅を抑圧して情報量を削っても、その悪影
響は殆どない。また、語音の知覚判断の手掛かりの1つ
となる音声成分の変化速度情報も損なわれない。これら
のことからも、出力音声の明瞭度はより向上されること
になる。
【0053】さらに本発明では、処理音声について即時
性が損なわれないため、会話に使用する補聴器等の機器
に搭載することも好適であり、また放送などの聞き取り
に時間が余分にかかるということも解消される。さら
に、時間遅れが無いことからどのような音響結合状態で
も、処理音声出力がハウリングやエコー、残響音などの
原因となって、明瞭度を阻害するということはなくな
る。そしてこれによって音響機器でのマイクロホンやス
ピーカの配置条件などの自由度が増すことにもつなが
る。
【0054】また終端予測判定手段においては、入力音
声の信号レベルが設定されているしきい値より小さくな
り、かつ信号レベルが減少傾向にあることを検出して終
端予測を行なうことで、終端予測を容易に実行できるこ
とになる。また、しきい値は検出された音声レベルピー
ク値に応じて設定するようにすること、音声レベルピー
ク値に上限及び下限を設定しておくこと、音声レベルピ
ーク値の判別は信号レベルがしきい値より小さい場合と
大きい場合で異なる方式で行なうこと、音声ピッチ成分
とフォルマント成分を抽出して終端予測判定及び開始判
別に用いること、などにより連続音声の終端予測や開始
判別をより正確に行なうことができる。
【図面の簡単な説明】
【図1】本発明の実施例の音声処理装置のブロック図で
ある。
【図2】実施例の振幅制御信号発生処理のフローチャー
トである。
【図3】実施例の振幅抑圧動作の説明図である。
【図4】実施例による連続音声の区切り部分の振幅抑圧
状態の説明図である。
【符号の説明】
1 入力端子 2 子音成分分離フィルタ 3 フォルマント成分分離フィルタ 4 振幅抑圧回路 5 音声レベル算出部 6 振幅制御信号発生部 7 周波数特性補正フィルタ 8 出力端子

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号に対して振幅抑圧を
    行なうことができる振幅抑圧手段と、 入力音声信号について連続音声の区切りとなる終端を予
    測する終端予測判定手段と、 入力音声信号について連続音声の開始部分を判別する開
    始判別手段と、 前記終端予測判定手段による終端予測に応じて前記振幅
    抑圧手段に対して振幅を抑圧するための制御信号を供給
    し、また前記開始判別手段による開始判別に応じて前記
    振幅抑圧手段に対して振幅抑圧を解除するための制御信
    号を供給することができる振幅制御手段と、 を備えて構成されることを特徴とする音声処理装置。
  2. 【請求項2】 前記終端予測判定手段は、入力音声の信
    号レベルが設定されているしきい値より小さくなり、か
    つ信号レベルが減少傾向にあることが検出されたら、連
    続音声が終端に至る過程に入ったとして終端を予測する
    ように構成されていることを特徴とする請求項1に記載
    の音声処理装置。
  3. 【請求項3】 前記終端予測判定手段は、音声信号存在
    期間中の音声レベルピーク値を判別するとともに、前記
    しきい値を、検出された音声レベルピーク値に応じて設
    定するように構成されていることを特徴とする請求項2
    に記載の音声処理装置。
  4. 【請求項4】 前記終端予測判定手段における音声レベ
    ルピーク値の判別動作として、判別される音声レベルピ
    ーク値の上限及び下限が設定されているとともに、この
    上限から下限の範囲内において、入力音声の信号レベル
    が前記しきい値より小さい場合は、信号レベルが増加傾
    向に入ってから減少傾向に入るまでの期間の信号レベル
    の最大値を音声レベルピーク値と判別し、また入力音声
    の信号レベルが前記しきい値より大きい場合は、信号レ
    ベルの最大値を音声レベルピーク値と判別することを特
    徴とする請求項3に記載の音声処理装置。
  5. 【請求項5】 前記開始判別手段は、入力音声の信号レ
    ベルが増加傾向にあることが検出されたら、連続音声が
    開始されたと判別するように構成されていることを特徴
    とする請求項1、請求項2、請求項3、又は請求項4に
    記載の音声処理装置。
  6. 【請求項6】 入力音声信号から音声ピッチ成分とフォ
    ルマント成分を抽出するフィルタ手段を備え、このフィ
    ルタ手段の出力を前記終端予測判定手段及び前記開始判
    別手段に供給するように構成されていることを特徴とす
    る請求項1、請求項2、請求項3、請求項4、又は請求
    項5に記載の音声処理装置。
  7. 【請求項7】 入力音声信号から音声ピッチ成分とフォ
    ルマント成分を抽出する第1のフィルタ手段と、入力音
    声信号から子音成分を抽出する第2のフィルタ手段とを
    備え、この第1のフィルタ手段の出力と、第2のフィル
    タ手段の出力の一方又は両方が処理対象信号として前記
    振幅抑圧手段に供給されるように構成されていることを
    特徴とする請求項1、請求項2、請求項3、請求項4、
    請求項5、又は請求項6に記載の音声処理装置。
  8. 【請求項8】 入力音声信号から音声ピッチ成分とフォ
    ルマント成分を抽出する第1のフィルタ手段と、入力音
    声信号から子音成分を抽出する第2のフィルタ手段とを
    備え、前記第1のフィルタ手段の出力のみが処理対象信
    号として前記振幅抑圧手段に供給されるように構成され
    ていることを特徴とする請求項1、請求項2、請求項
    3、請求項4、請求項5、又は請求項6に記載の音声処
    理装置。
  9. 【請求項9】 出力音声信号について周波数特性を補正
    する特性補正フィルタ手段が設けられていることを特徴
    とする請求項1、請求項2、請求項3、請求項4、請求
    項5、請求項6、請求項7、又は請求項8に記載の音声
    処理装置。
JP33541094A 1994-12-22 1994-12-22 音声処理装置 Expired - Fee Related JP3789503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33541094A JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Publications (2)

Publication Number Publication Date
JPH08179792A true JPH08179792A (ja) 1996-07-12
JP3789503B2 JP3789503B2 (ja) 2006-06-28

Family

ID=18288240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33541094A Expired - Fee Related JP3789503B2 (ja) 1994-12-22 1994-12-22 音声処理装置

Country Status (1)

Country Link
JP (1) JP3789503B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
JP2008102551A (ja) * 2007-12-27 2008-05-01 Sony Corp 音声信号の処理装置およびその処理方法
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2010500613A (ja) * 2006-08-09 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 緩慢段階と急速段階の音声ピーク値制限
WO2010016455A1 (ja) * 2008-08-08 2010-02-11 国立大学法人九州工業大学 音響特性制御装置
JP2010074531A (ja) * 2008-09-18 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
JP2014109770A (ja) * 2012-12-04 2014-06-12 Samsung R&D Institute Japan Co Ltd 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム
JP2017067862A (ja) * 2015-09-28 2017-04-06 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN110364145A (zh) * 2018-08-02 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
JP2020064248A (ja) * 2018-10-19 2020-04-23 日本放送協会 発話末タイミング予測装置およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
JP2010500613A (ja) * 2006-08-09 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 緩慢段階と急速段階の音声ピーク値制限
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2008102551A (ja) * 2007-12-27 2008-05-01 Sony Corp 音声信号の処理装置およびその処理方法
WO2010016455A1 (ja) * 2008-08-08 2010-02-11 国立大学法人九州工業大学 音響特性制御装置
US8242836B2 (en) 2008-08-08 2012-08-14 Kyushu Institute Of Technology Acoustic characteristic control apparatus
JP2010074531A (ja) * 2008-09-18 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP2014109770A (ja) * 2012-12-04 2014-06-12 Samsung R&D Institute Japan Co Ltd 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム
JP2017067862A (ja) * 2015-09-28 2017-04-06 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN110364145A (zh) * 2018-08-02 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
JP2020064248A (ja) * 2018-10-19 2020-04-23 日本放送協会 発話末タイミング予測装置およびプログラム

Also Published As

Publication number Publication date
JP3789503B2 (ja) 2006-06-28

Similar Documents

Publication Publication Date Title
EP2383732B1 (en) Hearing aid and hearing aiding method
JP5737808B2 (ja) 音響処理装置およびそのプログラム
JP3789503B2 (ja) 音声処理装置
JP5115818B2 (ja) 音声信号強調装置
JP4876245B2 (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
JP3334353B2 (ja) 聴覚補助装置
JP2016110050A (ja) 音声処理装置及び音声明瞭化装置並びに音声処理方法
JP4774255B2 (ja) 音声信号処理方法、装置及びプログラム
JP3411648B2 (ja) 車載用オーディオ装置
JPH0968997A (ja) 音声処理方法及び装置
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
EP1241921A2 (en) Acoustic signal processor
JP2006333396A (ja) 音声信号拡声装置
JPH064088A (ja) 音声音楽判別装置
JP3303446B2 (ja) 音声信号処理装置
JP4079478B2 (ja) 音声信号の処理回路および処理方法
JP3219892B2 (ja) リアルタイム話速変換装置
JP3596580B2 (ja) 音声信号の処理回路
JP4005166B2 (ja) 音声信号の処理回路
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same
JP3292098B2 (ja) 聴覚補助装置
CN112399004B (zh) 声音输出的调整方法及执行该调整方法的电子装置
JPH08317496A (ja) ディジタル音声信号処理装置
JP3210509B2 (ja) 車載用オーディオ装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040216

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060329

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees