JPH08185196A

JPH08185196A - 音声区間検出装置

Info

Publication number: JPH08185196A
Application number: JP6329161A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Kazuo Ishii; 和夫石井; Hiroaki Ogawa; 浩明小川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-12-28
Filing date: 1994-12-28
Publication date: 1996-07-16

Abstract

(57)【要約】【構成】制御部１０は、フレーム音声信号に対して、
有音声と無音声とを常に判定しながら、一方でスイッチ
操作によるスイッチ信号で指定される検出範囲よりも広
い範囲で記憶部２０に記憶されている上記音声信号から
一つだけ音声区間を抽出し、出力する。【効果】スイッチが押されるより早いタイミングで発
声が行われた場合でも、語頭を欠くことなく音声区間を
検出できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力された音声信号か
ら、有音声部と無音声部を識別し、スイッチ操作と連動
させて必要な音声区間のみを検出する音声区間検出装置
に関する。

【０００２】

【従来の技術】従来、音声区間を検出するには、音声信
号のパワーがあるしきい値を越えれば有音声部、そのし
きい値を越えなければ無音声部と判定し、ある一定長以
上の有音声部が得られたときに、これを音声区間として
検出するという方法がある。また、有音声部と無音声部
の判別に、零交差数を用いたり、周波数分解したスペク
トルパワーを用いたりする方法、さらに、これらを組み
合わせて判別する方法もある。また、環境雑音の平均エ
ネルギーに応じてしきい値を変動させたり、環境雑音の
平均スペクトルと入力信号のスペクトルとの類似性や相
関などを調べることで、雑音環境下でも音声区間が頑強
に検出できるようにした方法等もある。これらの方法を
そのまま音声認識システムや音声通信システムの前処理
として適用した場合、うまく音声区間を検出することが
できれば、後段の処理が正常に動作することが期待でき
るわけだが、実際には、その音声区間の前後に発生され
る不要な音声も検出されてしまい、システム全体の動作
に悪影響を及ぼすという問題が生じる。例えば、地名を
認識する音声認識システムでは、話者が「しながわ」と
発声すれば、その発声に対して認識を行うようにしたい
わけだが、その発声の前に「えーっと、」などと発声し
た場合にはこれも音声区間として検出されてしまい、そ
の発声に対して認識が行われることになってしまう。同
様に、「しながわ」と発声した後しばらくしてから「・
・・だよね？」などと横にいる話し手に話しかけた場
合、話者はシステムに話したつもりはなくても、やはり
これが音声区間として検出されてしまい、その発声に対
しても認識が行われることになってしまう。

【０００３】これらの問題は、音声認識システムがユー
ザの発声した音声の中で、必要な音声区間だけを選ぶこ
とができないことに起因する。

【０００４】そこで、スイッチを付け、必要な音声区間
をユーザが直接指定するようにすることで、この問題を
解決する方法が考えられる。一つは、スイッチが押され
ている間を音声区間として抽出する方法、一つは、スイ
ッチが一度押された後、一定時間の間に発声された音声
区間を前述の有音声と無音声の判別方法を用いて抽出す
る方法などである。

【０００５】

【発明が解決しようとする課題】ところで、これらの方
法においては、ユーザが発声より少しでも遅れてスイッ
チを押した場合に、抽出すべき音声区間の最初の部分が
欠けてしまうという問題が生じてしまう。また、環境雑
音の平均エネルギーに応じてしきい値を変動させたり、
環境雑音の平均スペクトルを用いるなどするような雑音
環境下にも適応できる区間検出方法を用いた場合、従来
は、その環境雑音を抽出するためにスイッチを押してか
ら一定時間環境雑音を観測するということを行うため、
その間ユーザは話せないなどの煩わしさを伴うという問
題があった。

【０００６】本発明は、上記実情に鑑みてなされたもの
であり、ユーザにスイッチを押すタイミングと発声のタ
イミングを意識させるような煩わしさを不要とさせ、必
要な音声区間だけをうまく検出し、かつ雑音環境下でも
安定した音声区間検出を実現できる音声区間検出装置の
提供を目的とする。

【０００７】

【課題を解決するための手段】本発明に係る音声区間検
出装置は、音声信号が入力され、検出範囲を指定するス
イッチ操作に応じて音声区間を抽出して出力する音声区
間検出装置において、上記入力音声信号を一定時間分記
憶する記憶手段と、上記スイッチ操作で指定される検出
範囲よりも広い範囲で上記記憶手段に記憶されている上
記入力音声信号から一つだけ音声区間を抽出し、出力す
る制御手段とを有することにより上記課題を解決する。

【０００８】この場合、上記制御手段は、上記記憶手段
から上記音声区間を抽出し、該音声区間を入力信号から
一定時間遅らせて送信する。

【０００９】また、上記制御手段は、上記入力された音
声信号を周波数分析して信号パワースペクトルを求め、
環境雑音のパワースペクトルの定数倍に対する該信号パ
ワースペクトルの大小に応じて入力時の雑音を除去す
る。

【００１０】また、上記制御手段は、上記信号パワース
ペクトルの積算値が所定のしきい値以上ならば有音声、
未満ならば無音声と判定する。

【００１１】また、上記制御手段は、上記有音声と判定
される区間が所定長以上続いたときに、これを音声区間
として検出し、その後に上記無音声と判定される区間が
所定長以上続いたときに、上記音声区間が終了したと見
なす。

【００１２】また、上記制御手段は、短い有音声部の後
に無音声部が続き、その後再び有音声部が続くような場
合、上記短い有音声部と上記無音声部の長さの比に応じ
て上記短い有音声部を音声区間とするか否かを判定す
る。

【００１３】また、上記制御手段は、一定の長さの有音
声部の後に、無音声部が続き、その後短い有音声が続く
ような場合、上記無音声部と上記短い有音声部の長さの
比に応じて上記短い有音声部を音声区間とするか否かを
判定する。

【００１４】また、上記制御手段は、上記音声区間と判
定された区間の前後にマージンを付加して、音声区間を
引き延ばす。

【００１５】また、上記制御手段は、上記有音声／無音
声の判定のためのしきい値や、上記マージンのようなパ
ラメータを環境雑音の平均エネルギーに応じて変動させ
る。

【００１６】また、上記制御手段は、上記パラメータと
上記環境雑音の平均エネルギーとの関係を比例関係とし
て予め決めておき、さらにそのパラメータの上限と下限
も決めておくことで、上記環境雑音の平均エネルギーか
ら上記パラメータを決定する。

【００１７】また、上記制御部は、環境雑音の平均エネ
ルギーや環境雑音の平均パワースペクトルを無音声区間
で更新する。

【００１８】また、上記制御部は、連続して無音声と判
定され続け、かつ更新前の環境雑音の平均エネルギーか
ら緩やかに変化するようなエネルギーを持つ区間におい
てのみ、環境雑音の平均エネルギーや環境雑音の平均パ
ワースペクトルを更新する。

【００１９】また、上記制御部は、一定時間以上有音声
と判定され続けるような場合には、強制的に環境雑音の
平均エネルギーや環境雑音の平均パワースペクトルを更
新する。

【００２０】また、上記制御部は、上記音声区間の抽出
を常に行う。

【００２１】また、上記制御部は、上記環境雑音の平均
エネルギー、上記環境雑音の平均パワースペクトル及び
上記パラメータの更新を常に行う。

【００２２】

【作用】有音声と無音声の判別による音声区間判定を常
に行いながら、その判定結果と一定時間前までの入力信
号を記憶しておくことで、スイッチが押されるより早い
タイミングで発声が行われた場合でも、語頭を欠くこと
なく音声区間を検出することが可能と成る。又、一つの
スイッチ指定区間に対して一つの音声区間だけを検出し
送信するようにしたことで、話者が発声の少し前や、少
し後に関係のない言葉を発声したとしても、これを音声
区間として検出することがなくなるため、例えば音声認
識装置に適用した場合などに誤動作を起こしにくくな
る。

【００２３】さらに、入力信号を周波数分析して得られ
るパワースペクトルを用いること、及び、環境雑音の平
均エネルギーに適応させてパラメータを更新することな
どを行うことで、環境雑音下においても安定した音声区
間検出が行えるようにすると共に、その適応化を音声区
間の判定と平行して常に行っておくようにすることで、
スイッチを押してから雑音環境の観測を行う必要が特に
なくなるため、ユーザが発声するのを待たされることも
なくなる。つまり、ユーザは、単純にスイッチを押せば
一回だけ発話することができるということだけを覚えて
おけばよく、その発話とスイッチのタイミングをそれほ
ど意識しなくてよいものとなる。しかも、システムは、
必要な音声区間だけを検出することが可能となる。

【００２４】そして、この音声区間検出装置を音声認識
システムや音声通信システムに組み込めば、入力信号の
なかから認識処理を行うべき音声区間や送信すべき音声
区間を抽出することができるようになる。

【００２５】

【実施例】以下、本発明に係る音声区間検出装置の実施
例について説明する。この実施例となる音声区間検出装
置は、話者にスイッチを押すタイミングと発声のタイミ
ングとをあまり意識させることなく、必要な音声区間を
検出できる。この音声区間検出装置は、例えば図１に示
すような音声認識システムに適用され、検出した音声区
間は音声認識のために使われる。先ず、本実施例の音声
区間検出装置を説明する前に、図１に示す音声認識シス
テムについて説明する。

【００２６】マイクロホン１で収音された音声信号は、
Ａ／Ｄ変換器２でディジタル信号に変換され、本実施例
の音声区間検出装置３に供給される。この音声区間検出
装置３には、話者が押した区間指定スイッチ４からのオ
ン、オフ信号も供給される。そして、音声区間検出装置
３は、上記ディジタル信号と、上記オン、オフ信号を用
いることで、必要な音声区間の音声信号を検出し、これ
を音声認識部５に送る。音声認識部５は、音声区間検出
装置３が検出した音声信号に対して認識処理、すなわち
音響分析やベクトル量子化などによる特徴量の抽出と、
ダイナミックプログラミング（以下、ＤＰという。）マ
ッチングやＨＭＭなどによるスコア計算を行ない、その
認識結果を出力する。このような音声認識システムは、
さまざまな機器のコントロールを音声で行う場合や、キ
ーボードなどに変わる入力手段の一つとして、広く用い
られることが期待できる。

【００２７】このような音声認識システムにおいて、話
者にあまり煩わしさを与えることなく、必要な音声区間
を抽出することが重要となる。このため、本実施例とな
る音声区間検出装置３が必要となる。

【００２８】この音声区間検出装置３は、図２に示すよ
うに、制御部１０と、例えばメモリのような記憶部２０
とを有して成る。制御部１０は、上記図１に示したＡ／
Ｄ変換器２でディジタル信号とされたマイクロホン１か
らの音声信号に対して、有音声と無音声とを常に判定し
ながら、一方で区間指定スイッチ４のスイッチ操作で指
定される検出範囲よりも広い範囲で記憶部２０に記憶さ
れている上記音声信号から一つだけ音声区間を抽出し、
出力する。また、制御部１０は、環境雑音の観測、内部
パラメータの更新なども行うようにする。記憶部２０
は、ある一定時間分の入力音声信号を常に保存してお
く。

【００２９】制御部１０に入力されるＡ／Ｄ変換器２か
らのディジタル入力音声信号は、サンプリングされたデ
ータであり、例えば１２８サンプルをまとめて１フレー
ムとされ、１フレームずつ順に送られて来るものとす
る。なお、以下では、時刻ｔに制御部１０に入力される
フレーム信号をＦ_tと表す。

【００３０】この制御部１０は、図３に示すフローチャ
ートに基づいた動作を行う。

【００３１】先ず、このフローチャートが開始される
と、この制御部１０は、ステップＳ１に示すように、上
記フレーム信号Ｆ_tを記憶部２０に保存する。ここで、
この記憶部２０には、常にｋフレーム前までの入力信号
を記憶しておくようにする。すなわち、記憶部２０は、
時刻ｔにはｋ時刻前までのフレーム信号Ｆ_t、Ｆ_t-1、Ｆ
_t-2・・・Ｆ_t-kを記憶している。

【００３２】次に、この制御部１０は、ステップＳ２か
らステップＳ５までに示すような動作を行い、時刻ｔの
入力フレーム信号Ｆ_tに音声が含まれるかどうか、つま
り有音声か無音声かを判別する。ステップＳ２からステ
ップＳ５までに示す動作は、周波数分析を用いる方法を
適用している。

【００３３】ステップＳ２では、入力されたフレーム信
号Ｆ_tの周波数分析を行う。具体的には、入力されたサ
ンプル信号に、ハミングウィンドウをかけ、高速フーリ
エ変換（以下、ＦＦＴという。）を施すことで、パワー
スペクトルを求めたり、バンドパスフィルタを用いて各
帯域毎のパワースペクトルを抽出する。

【００３４】ステップＳ３では、環境雑音の平均パワー
スペクトルを用いて、雑音除去を行う。具体的に、雑音
除去後のパワースペクトルＸ（ω）は、入力信号のパワ
ースペクトルをＳ（ω）、環境雑音の推定パワースペク
トルをＮ（ω）、オフセットをＲ、環境雑音の推定パワ
ースペクトルＮ（ω）にかける重み係数をαとすると、

【００３５】

【数１】

【００３６】のように求められる。したがって、この制
御部１０は、ある帯域ωにおいて、入力信号のパワース
ペクトルＳ（ω）が環境雑音の推定パワースペクトルＮ
（ω）のα倍以上ならば、その帯域ωには雑音以外のパ
ワースペクトルが多く含まれていると見なしオフセット
Ｒを付加して上記入力信号のパワースペクトルＳ（ω）
をそのまま残し、逆に、もし上記入力信号のパワースペ
クトルＳ（ω）が上記環境雑音の推定パワースペクトル
Ｎ（ω）のα倍よりも小さいならば、その帯域には雑音
しか含まれていないと見なしオフセットＲのみとするこ
とで、雑音のパワースペクトルを除去している。これに
より、環境雑音と周波数成分の異なる信号がある程度の
大きさで入力されれば、その周波数成分の存在する帯域
において、入力信号のパワースペクトルＳ（ω）が残る
ことになる。例えば、静かな環境、ファンノイズの環
境、自動車走行雑音の環境など、さまざまな雑音環境下
において音声が発声された場合、環境雑音が多少大きな
ときでも、音声帯域と環境雑音の帯域の相違から、雑音
除去後のパワースペクトルＸ（ω）の音声帯域における
入力信号のパワースペクトルＳ（ω）は除去されずに残
ることになる。

【００３７】そこで、制御部１０は、ステップＳ４に示
すように、ステップＳ３で得られたパワースペクトルＸ
（ω）からエネルギーＥを、

【００３８】

【数２】

【００３９】のように求めた後、このエネルギーＥがあ
るしきい値ｒより大きいか否かを判定し、ステップＳ５
に示すように有音声／無音声の判定を行っている。上記
（２）式のエネルギーＥが上記しきい値ｒ以上ならば有
音声、上記しきい値未満ならば無音声と判定する。ここ
で、しきい値ｒとしては、例えば、

【００４０】

【数３】

【００４１】のような一定値を用いたり、あるいは後述
するような、環境雑音の平均エネルギーに適応して変動
させた値を用いればよい。ただし、δは定数である。

【００４２】なお、ここでは、有音声／無音声判定部の
判定方法として、周波数分析により得たパワースペクト
ルを用いる方法を述べたが、これに代わる方法として、
従来のパワーや零交差数などによる判定方法を用いても
よい。

【００４３】次に、制御部１０は、ステップＳ６に示す
ように、音声区間の判定を行う。音声区間の判定は、上
述したような有音声と無音声の判定に基づき、有音声部
が最低ｍフレーム（例えば、３０フレーム）以上続く場
合の有音声部の始端から終端までを、基本的に音声区間
として判定するようにする。また、ｎフレーム（例えば
２５フレーム）以上の無音声部が続けば、これを無音声
区間と判定し、上記音声区間が終了したと見なす。

【００４４】この時、音声区間の始端をできるだけ早く
検出するため、図４の（Ａ）に示すように、フレームＦ
_tが入力されたときに、フレームＦ_t-mが音声区間のフレ
ームであるかどうかを判定し、その結果を記憶部２０に
書き込むようにする。すなわち、時刻ｔに右端のフレー
ムＦ_tが入力されたときに、ｍ時刻前のフレームＦ_t-mが
音声区間かどうかを判定し、その結果を記憶部２０に書
き込ませる。図４の（Ａ）の斜線部分は、有音声部を表
す。また、後述する図４の（Ｂ）乃至図４の（Ｇ）にお
いて、示される斜線部分も有音声部を表し、それを除く
部分は無音声部を表す。

【００４５】以下、図４の（Ｂ）乃至図４の（Ｇ）を参
照しながらステップＳ６の音声区間判定の動作の詳細を
説明する。図４の（Ｂ）は、音声が入力されておらず、
無音声区間中にさらに無音声フレームが入力された場合
であり、Ｆ_t-mは無音声区間として判定される。図４の
（Ｃ）は、音声が入力され始め、有音声フレームが数フ
レーム連続して入力された場合であるが、まだｍフレー
ム以上の有音声部が続いていないので、やはりＦ_t-mは
無音声区間として判定される。図４の（Ｄ）は、フレー
ムＦ_tが有音声部として判定され、有音声部がちょうど
ｍフレーム続いたときを示し、このときフレームＦ_t-m
が音声区間の始まりとして検出される。その後、図４の
（Ｅ）のように、しばらく入力フレームが有音声と判定
された場合、フレームＦ_t-mは音声区間として判定され
続ける。しばらくして、音声の入力が終了すれば、図４
の（Ｆ）のように無音声フレームが入力され始める。し
かし、フレームＦ_t-mはまだ音声区間として判定された
ままとなる。そして、図４の（Ｇ）のようにｎフレーム
の無音声フレームが続けて入力された場合に、音声区間
の終了が検出される。ただし、図４の（Ｇ）はｎ≦ｍの
場合を示しており、この場合は、その後ｍ−ｎフレーム
が音声区間として判定されることになる。そしてしばら
くして、再び図４の（Ｂ）に示す状態に戻る。

【００４６】また、ｎ＞ｍの場合は、図４の（Ｇ）が少
し変わり、音声の入力が終了し、連続してｍフレーム無
音声フレームが入力されても、フレームＦ_t-mは音声区
間として判定されたままとなる。そこで、ｎフレームの
連続した無音声フレームが入力された時点で、Ｆ_t-mを
無音声区間と判定し、同時に、そのｎ−ｍフレーム前ま
での音声区間と判定されたフレームＦ_t-m-1、Ｆ_t-m-2・
・・Ｆ_t-nの判定結果を無音声区間と書き換えるように
する。

【００４７】なお、音声区間の判定結果として、音声区
間の始端や終端が検出された時に、どのフレームが始端
であるとか、どのフレームが終端であるとかの情報も記
憶部２０に書き込むようにするものとする。

【００４８】このステップＳ６に示すような音声区間の
判定を制御部１０が行う場合、連続して有音声部と判定
されるような図５の（Ａ）に示す音声信号に対しては問
題ないが、図５の（Ｂ）に示すような音声区間Ｖの前部
において無音声部Ｕに分離された短い有音声部ｖが存在
する場合や、図５の（Ｃ）に示すように音声区間Ｖ終了
後に無音声部Ｕが一旦入力され、続いて短い有音声部ｖ
が入力された場合などに、これらを音声区間として含め
るかどうかという問題に対処できない。このような前後
に付加された短い有音声部ｖは、音声区間として含めた
方が良いものもあれば、誤って有音声部と判定された非
定常ノイズなど、音声区間に含めない方が良いものもあ
る。

【００４９】そこで、ステップＳ６の音声区間判定時
に、以下に述べるような処理を追加する。先ず、問題と
なるのは、ｍフレーム未満しか連続しない有音声部の後
に無音声部が入力され、その後再び有音声部が入力され
た場合の処理である。そこで、このｍフレーム未満の有
音声部のフレーム数とその後に続く無音声部のフレーム
数をカウントするようにし、ｍフレーム未満の有音声部
の後に、無音声フレームが連続して入力された場合に、
音声区間と見なすか見なさないかを図６の（Ａ）のよう
な関係に基づいて判定する。すなわち、もし、ｍ_preフ
レーム（例えば３フレーム）未満の有音声部ｖの後にｎ
_preフレーム以上の無音声部Ｕが入力された場合は、そ
のｍ_preフレーム未満の有音声部ｖは音声区間から除去
するものとする。ただし、ｍ_pre＜ｍとする。また、ｘ
フレーム（ｍ_preフレーム以上ｍフレーム未満）の有音
声部の後に、

【００５０】

【数４】

【００５１】フレーム以上の無音声が連続して入力され
れば、そのｘフレームの有音声部も音声区間から除去す
る。つまり、図６の（Ａ）に示すように、横軸を有音声
部の入力フレーム数、縦軸をその後に続く無音声部のフ
レーム数としたとき、斜線部の関係の場合は、その有音
声部を音声区間に含めず、斜線部より下の関係の場合
は、その有音声部との間にはさまった無音声部を音声区
間に含めるようにする。

【００５２】以上のような処理を追加することにより、
図５（Ｂ）に示されるような音声区間Ｖの前部の短い有
音声部ｖの扱いとして、挿入された無音声部Ｕが短い時
には該短い有音声部ｖを音声区間に含め、長い時には該
短い有音声部ｖを音声区間に含めないようにすることが
可能となる。

【００５３】同様に、図５の（Ｃ）のような音声区間Ｖ
の最後に無音声部Ｕで分離された短い有音声部ｖが存在
する場合の処理も同じように行う。すなわち、図６の
（Ｂ）に示されるように、ｍフレーム以上の有音声部の
後に発生した無音声部のフレーム数（縦軸）とその後に
表れるｍフレーム未満の有音声部のフレーム数（横軸）
をカウントするようにし、無音声フレームが連続して入
力された後に、ｍフレーム未満の有音声部ｖが入力され
た場合に、音声区間と見なすか見なさないかを判定して
いる。つまり、図６の（Ｂ）に示す斜線部のような関係
にあれば、その最後の有音声部分は音声区間から除去
し、斜線部の下のような関係にあればその最後の有音声
部分との間に挟まった無音声部を音声区間に含めるよう
にする。すなわち、ｎ_postフレーム以上の無音声部Ｕが
入力された後に、ｍ_postフレーム（例えば３フレーム）
未満の有音声部ｖが入力された場合は、そのｍ_postフレ
ーム未満の有音声部ｖは音声区間から除去する。ただ
し、ｍ_post＜ｍとする。また、ｘフレーム（ｍ_postフレ
ーム以上ｍフレーム未満）の有音声部の前に、上記
（４）式と同様の式、すなわち上記（４）式のｎ_preを
ｎ_post、ｍ_preをｍ_postと変更した式によって表される
フレーム以上の無音声部が連続して入力されていれば、
そのｘフレームの有音声部も音声区間から除去する。

【００５４】次に、制御部１０は、ステップＳ７に示す
ように、ステップＳ６で音声区間と判定されたフレーム
の前後に、さらに音声区間としてのマージンを付加し、
実際の音声区間より少し長めの音声区間を抽出する。こ
れは、ステップＳ６の検出誤り、すなわち音声区間の始
端が遅れて検出されてしまったり、終端が速く検出され
てしまうのを防ぐために行う。

【００５５】例えば、図４の（Ｄ）に示すように、音声
区間の始端が検出された時点、すなわち、時刻ｔにフレ
ームＦ_tが入力され、そのｍ時刻前のフレームＦ_t-mが音
声区間の始まりとして検出されたときに、記憶部２０に
フレームＦ_t-mが音声区間であると書き込むと同時に、
そこからさらにｐフレーム前までのフレームに対しても
音声区間であったことを追加して書き込むようにすれば
よい。

【００５６】同様に、図４の（Ｅ）のような音声区間の
終了が検出され、その終了フレームの判定結果が記憶部
２０に書き込まれてから、さらにｑフレーム後まで音声
区間とみなして、記憶部２０に書き込み続けるようにす
る。以上のようにして、ステップＳ６において、判定さ
れた音声区間のフレームの前にｐフレーム、後ろにｑフ
レームのマージンを付加したものが最終的な音声区間と
して記憶部２０に記憶されていくことになる。その際、
音声区間の始端や終端の情報も、対応したものに変更し
ておくようにする。ここで、マージンｐ、ｑは一定値を
用いたり、あるいは後述するような、環境雑音の平均エ
ネルギーに応じて変動させた値を用いてもよい。

【００５７】次に、制御部１０は、ステップＳ８に示す
ように、音声区間の判定のためのパラメータを環境の変
化に応じて更新する。音声区間の判定のためのパラメー
タ、すなわち環境雑音の推定パワースペクトルＮ（ω）
や環境雑音の平均エネルギーＥ_n、さらに、有音声・無
音声の判定のためのしきい値ｒや音声区間のマージン
ｐ，ｑは、環境の変化に応じて変動させることが、耐雑
音性能の向上のために必要となってくる。そこで、これ
らのパラメータの更新は毎フレーム行うことにし、一つ
のフレームの処理が終了した時点で、次フレームの処理
のために新しく更新を行うようにする。

【００５８】まず、環境雑音の推定パワースペクトルＮ
（ω）と環境雑音の平均エネルギーＥ_nの更新について
説明する。これは基本的には、音声区間外において、環
境雑音の推定パワースペクトルＮ（ω）や環境雑音の平
均エネルギーＥ_nを平均化したものを求めるようにす
る。その求めかたとしては、先ず、入力フレームから求
められるパワースペクトルＳ（ω）からエネルギーＥ_S
を、

【００５９】

【数５】

【００６０】のように求め、そして、前フレームにおい
て求められた上記環境雑音の推定パワースペクトルＮ
（ω）と上記環境雑音の平均エネルギーＥ_nを用いて、
例えば、

【００６１】

【数６】

【００６２】

【数７】

【００６３】のように更新する。

【００６４】ここで、ｈ（例えば、２０）は重み係数で
あり、更新前の値に（ｈ−１）／ｈ、入力フレームの値
に１／ｈの重みをかけて加え合わせることによって、時
間的に新しいフレームに重みをおいて平均化を行った結
果が得られることになる。

【００６５】なお、上記の更新は、音声区間外のフレー
ムにおいてのみ行うものとし、例えば、図４の（Ｂ）
や、図４の（Ｇ）のように、ｎフレーム前から連続して
無音声と判定されつづけ、しかも前フレームで求められ
た環境雑音の平均エネルギーＥ_nに比べて入力フレーム
のエネルギーＥ_Sが急激に大きくなり過ぎないような入
力フレーム、例えば、Ｅ_nとＥ_Sを比較したとき、Ｅ_n／Ｅ_S＞０．５・・・（８）を満たすような入力フレームにおいてのみ更新を行うよ
うにする。つまり、有音声と判定されるフレームや、既
に求めてある環境雑音の平均エネルギーから大きく離れ
たエネルギーをもつようなフレームにおいては、環境雑
音のパラメータ更新を行わないようにすることで、ある
程度安定した環境雑音の推定パワースペクトルＮ（ω）
や環境雑音の平均エネルギーＥ_nが得られることにな
る。

【００６６】このようにして得られた環境雑音の平均エ
ネルギーＥ_nに適応させて、他のパラメータを更新する
方法に関して説明する。あるパラメータＰを、環境雑音
の平均エネルギーＥ_nが大きなときには大きく、Ｅ_nが小
さいときには小さくしたい場合、簡単には、パラメータ
Ｐを環境雑音の平均エネルギーＥ_nやその対数に比例さ
せて変動させる方法が考えられる。この際、パラメータ
Ｐの変動の範囲を制限するため、パラメータＰの上限下
限を設定する。これを示したのが図７の（Ａ）である。
横軸が環境雑音の平均対数エネルギーＨであり、この平
均対数エネルギーＨは、

【００６７】

【数８】

【００６８】のように求められる。また、縦軸がパラメ
ータＰである。Ｐ_max、Ｐ_minは、パラメータＰの下限上
限を示している。また、比例定数は、例えば、パラメー
タＰを環境雑音がＨ_a［ｄＢ］の場合にＰ_a、Ｈ_b［ｄ
Ｂ］の場合にＡ_bに設定したい場合、

【００６９】

【数９】

【００７０】のようにして求めることができる。このよ
うにして、図７の（Ａ）のような関係を予め決めておけ
ば、環境雑音の平均エネルギーＥ_nからパラメータＰを
求めることが可能となる。同様に、パラメータＰを、環
境雑音の平均エネルギーＥ_nが大きいときに小さく、環
境雑音の平均エネルギーＥ_nが小さいときに大きくした
い場合には、図７の（Ｂ）のような関係に基づいて求め
れば良い。比例定数はやはり上記（１０）式で求められ
る。

【００７１】このような環境雑音の平均エネルギーＥ_n
に適応させたパラメータＰの更新方法は、例えば、音声
区間の前後に付加するマージンｐ、ｑのように、環境雑
音が大きい場合には音声区間の判定の精度が悪くなるの
で大きくし、環境雑音が小さい場合には音声区間の判定
精度が良いので小さくしたいというときなどに用いるこ
とができる。また、上記（１）式の重み係数αや、有音
声・無音声の判定のためのしきい値ｒなどを、環境雑音
が大きい時には大きく、小さいときには小さくしたい場
合、あるいは逆に、環境雑音が大きいときには小さく、
小さいときには大きくしたい場合などに適用することが
できる。

【００７２】以上、環境雑音の平均エネルギーＥ_nの更
新方法と、該エネルギーＥ_nに応じた他のパラメータＰ
の更新方法に関して述べた。基本的には、あるパラメー
タＰを環境に適応させて変動させたい場合、パラメータ
Ｐと環境雑音の平均エネルギーＥ_nの対応関係であるＰ＝ｆ（Ｅ_n）を予め決めておき、環境雑音の平均エネルギーＥ_nから
パラメータＰを求めるようにすればよい。

【００７３】なお、パラメータＰを一定にすることは、
Ｐ_max＝Ｐ_min＝constantとすることに対応する。

【００７４】次に、制御部１０は、ステップＳ８で示し
たパラメータ更新の例外として、音声区間が一定以上長
く続くような場合に、ステップＳ９に示すように強制的
なパラメータ更新を行う。

【００７５】上記ステップＳ８のパラメータ更新におい
て、環境雑音の推定パワースペクトルＮ（ω）や環境雑
音の平均エネルギーＥ_nは、音声区間外のフレームにお
いてのみ更新を行うものとしたが、例外として、音声区
間がある一定以上長く続くような場合には、強制的に更
新を行うようにしておく。つまり、図４の（Ｅ）のよう
な状態が長く続き、音声区間として判定されるフレーム
がＱ（例えば５００）フレーム以上続いた場合に、上記
Ｎ（ω）や上記Ｅ_nを強制的に更新するようにする。こ
れは、環境雑音が急激に大きくなった場合などに、誤っ
て有音声と判定し続け、しかも、環境雑音の推定パワー
スペクトルＮ（ω）や環境雑音の平均エネルギーＥ_nが
これに追従できないという問題が生じるのを避けるため
である。このような処理を付加しておくことで、環境雑
音の変動に対してさらに強くすることが可能となる。

【００７６】次に、制御部１０は、ステップＳ１０に示
すように、最終的に音声区間を検出し、送信を行う。

【００７７】上述したステップＳ９までの処理が終了し
たとき、図２の記憶部２０には入力フレームＦ_tからｋ
フレーム前までのフレーム信号と、その時点までの判定
結果、すなわち、Ｆ_t-m、Ｆ_t-m-1、・・・Ｆ_t-kに対し
て付けられた音声区間の判定結果、及び音声区間の始端
・終端情報が記憶されていることになる。ここで、ｋは
音声区間として判定するために最低必要なフレーム数ｍ
に、音声区間の始端を前にずらすためのマージンｐの最
大値を加えたものより大きく、かつ無音声の区間を判定
するために最低必要なフレーム数ｎよりも大きいものと
する。これは、音声区間の判定が行われるのが入力され
てからｍフレーム後であり、しかもマージンが付加され
る場合は、さらにｐフレーム後となるため、そのフレー
ムの判定が確定するのは入力されてからｍにｐの最大値
を加えたフレーム分だけ遅れてからとなること、及び、
音声区間の終了が検知できるのは入力されてからｎフレ
ーム遅れてからとなることから要求される。

【００７８】そして、制御部１０は、この記憶部２０か
ら、ステップＳ１０に示すように、必要な音声区間を検
出して出力する。図１の区間指定スイッチ４が押された
場合、図２の制御部１０に対してスイッチ信号が送られ
て来る。これには、ほとんど遅延がない。この区間指定
スイッチ４のスイッチ信号の送られてくる様子を示した
のが、図８の（Ａ）である。横軸が時間、縦軸がスイッ
チ信号であり、区間指定スイッチ４が押されている間
は、“１”、押されていないときは“０”の信号が送ら
れて来るものとする。これに対して、入力フレーム信号
は図８の（Ｂ）に示すようにΔ時間毎に送られてくる。
つまり、区間指定スイッチ４が押され出した時点ｔ_sと
区間指定スイッチ４が離された時点ｔ_eは、図８の
（Ｃ）に示されるように、あるフレームが入力されてか
ら次のフレームが入力されるまでのΔの間に検知される
はずである。

【００７９】そこで、区間指定スイッチ４の押され出し
た時点ｔ_sの直後に入力されたフレーム（図８の（Ｃ）
の場合Ｆ_t+1）を区間指定スイッチ４のオンの起点と
し、区間指定スイッチ４が離された時点ｔ_eの直後のフ
レーム（図８の（Ｃ）の場合Ｆ_t+4）を区間指定スイッ
チ４のオフの起点とする。そして、図９の（Ａ）に示す
ように、区間指定スイッチ４のオンの起点のｋフレーム
前から、区間指定スイッチ４のオフの起点のＬフレーム
後ろまでの区間をスイッチ指定区間とする。このとき、
各フレーム信号が入力される度に、区間指定スイッチ４
のオン、オフの起点となるかどうかを調べることがで
き、これを基にして記憶されているｋフレーム前から入
力フレームまでの信号がスイッチ指定区間に含まれるか
否かを判定できるので、その判定結果も記憶部２０に書
き込むことにする。この際、スイッチ指定区間の始端と
終端の情報も記憶するようにしておく。そして、このス
イッチ指定区間の中に、音声区間の始端が検出されれ
ば、その音声区間の始端から終端までを必要な音声区間
として図１０の（Ａ）に示す範囲で検出し、これを送信
する。ここで、音声区間がスイッチ指定区間終了後も続
くような場合でも、図１０の（Ｂ）に示すように、その
音声区間の終了までは送信するものとする。

【００８０】送信の仕方は、図１１に示すようにする。
すなわち、送信すべき音声区間の信号を入力させてか
ら、ｋ時刻遅れて送信する。時刻ｔにおいては、図２の
記憶部２０に記憶されているｋ時刻前のフレームＦ_t-k
を常に着目し、そのフレームが送信すべき音声区間のフ
レームであるときのみ送信し、そうでないときは送信し
ない。こうすることによって、送信すべき音声区間のフ
レームは、入力フレームＦ_tに同期して、ｋ時刻遅れで
送信されることになるわけである。

【００８１】次に、送信すべきか否かの判断について述
べる。時刻ｔにおいて着目するのは、ｋ時刻前のフレー
ムＦ_t-kである。この時点において、記憶部２０には、
フレーム信号Ｆ_t-kが記憶されていると同時に、これが
スイッチ指定区間であるかどうか、音声区間であるかど
うかも既に判定され記憶されていることになる。また、
音声区間であれば、音声区間の始端・終端であるかどう
かも記憶されていることになる。そこで、図１２に示す
ような状態遷移図にしたがって、着目フレームＦ_t-kが
どの状態からどの状態に遷移するかを調べ、その状態遷
移に応じて送信すべきかどうかを決定するようにする。

【００８２】先ず最初、状態(i)から始める。そして、
区間指定スイッチ４のオンの起点が検知されるまで、状
態(i)で自己遷移する。もし、区間指定スイッチ４のオ
ンの起点が検知されれば、着目フレームＦ_t-kが音声区
間の始端のフレームかどうかを調べ、ＮＯならば状態(i
i)に、ＹＥＳならば状態(iii)に遷移する。状態(ii)に
遷移した後は、着目フレームＦ_t-kが音声区間の始端の
フレームかどうかを調べ、ＹＥＳならば状態(iii)へ遷
移する。着目フレームが音声区間の始端でない場合は、
さらに着目フレームがスイッチ指定区間の終了フレーム
かどうかを調べ、ＮＯならば状態(ii)で自己遷移し、Ｙ
ＥＳならば再び状態(i)に戻る。状態(iii)においては、
着目フレームが音声区間の終端フレームかどうかを調
べ、ＮＯならば状態(iii)で自己遷移する。もし、着目
フレームが音声区間の終端フレームとなった場合は、そ
の時点からｋ時刻前まで、つまりフレームＦ_t-k-1から
Ｆ_tが入力された間に区間指定スイッチ４のオンの起点
が検知されたかどうかを調べ、ＹＥＳならば状態(ii)
に、ＮＯならば状態(i)に遷移する。そして、このよう
な状態遷移において、状態(iii)への遷移時と状態(iii)
からの遷移時、すなわち、状態(i)から状態(iii)、状態
(ii)から状態(iii)、状態(iii)における自己遷移、状態
(iii)から状態(i)、状態(iii)から状態(ii)の遷移時に
おいて、着目フレームＦ_t-kを送信するようにする。逆
に、それ以外の遷移時には、送信を行わないようにす
る。

【００８３】以上のような処理により、着目フレームが
スイッチ指定区間に入った後、音声区間の始端が検知さ
れてから終端が検知されるまで送信が行われるようにな
る。もし、スイッチ指定区間が終了するまでに、音声区
間の始端が検知されないような場合は、何も送信されな
いままとなる。（状態(ii)から状態(i)）。また、区間
指定スイッチ４のオンの起点が検出されない限り、状態
(i)から他の状態への遷移は起こらないため、一つのス
イッチ指定区間に送信される音声区間は一つまでとな
る。つまり、区間指定スイッチを一度押しただけで、２
つ以上の発話を行ったとしても、送信されるのは最初に
検出された音声区間だけとなる。ただし、発話終了後、
すぐに、区間指定スイッチ４を押して、再び発話した場
合に、最初の発話に対応する音声区間も二つ目の発話に
対応する音声区間も送信するようにするため、状態(ii
i)から状態(ii)への遷移を設けておく。つまり、音声区
間の信号は、入力時刻よりｋ時刻遅れてから送信される
ことを考慮して、音声区間の終端のフレームが入力され
てから送信されるまでの間に区間指定スイッチ４のオン
の起点が検出された場合は、状態(iii)から状態(ii)へ
遷移するようにしておく。

【００８４】なお、着目フレームがスイッチ指定区間と
して終了していないにも関わらず、再びスイッチが押さ
れるようなことがあれば、スイッチ指定区間を延長し、
再度押された区間指定スイッチ４のオフの起点からさら
にＬフレーム後ろまでを図９の（Ｂ）に示すように、新
たなスイッチ指定区間とする。

【００８５】なお、上述した実施例となる音声区間検出
装置は、音声通信システムに組み込むこともでくる。こ
の場合、音声信号の送受信を行う制御部を図１の音声認
識部５の代わりに設ければよい。このため、入力された
音声信号の中から必要な音声区間だけを抽出し、送信す
ることが可能となる。

【００８６】

【発明の効果】本発明に係る音声区間検出装置は、音声
信号が入力され、検出範囲を指定するスイッチ操作に応
じて音声区間を抽出して出力する音声区間検出装置にお
いて、上記入力音声信号を一定時間分記憶する記憶手段
と、上記スイッチ操作で指定される検出範囲よりも広い
範囲で上記記憶手段に記憶されている上記入力音声信号
から一つだけ音声区間を抽出し、出力する制御手段とを
有するので、有音声と無音声の判別による音声区間判定
を常に行いながら、その判定結果と一定時間前までの入
力信号を記憶しておくことで、スイッチが押されるより
早いタイミングで発声が行われた場合でも、語頭を欠く
ことなく音声区間を検出することが可能と成る。又、一
つのスイッチ指定区間に対して一つの音声区間だけを検
出し送信するようにしたことで、話者が発声の少し前
や、少し後に関係のない言葉を発声したとしても、これ
を音声区間として検出することがなくなるため、例えば
音声認識装置に適用した場合などに誤動作を起こしにく
くなる。

【００８７】さらに、入力信号を周波数分析して得られ
るパワースペクトルを用いること、及び、環境雑音の平
均エネルギーに適応させてパラメータを更新することな
どを行うことで、環境雑音下においても安定した音声区
間検出が行えるようにすると共に、その適応化を音声区
間の判定と平行して常に行っておくようにすることで、
スイッチを押してから雑音環境の観測を行う必要が特に
なくなるため、ユーザが発声するのを待たされることも
なくなる。つまり、ユーザは、単純にスイッチを押せば
一回だけ発話することができるということだけを覚えて
おけばよく、その発話とスイッチのタイミングをそれほ
ど意識しなくてよいものとなる。しかも、システムは、
必要な音声区間だけを検出することが可能となる。

【００８８】そして、この音声区間検出装置を音声認識
システムや音声通信システムに組み込めば、入力信号の
なかから認識処理を行うべき音声区間や送信すべき音声
区間を抽出することができるようになる。

【図面の簡単な説明】

【図１】本発明の音声区間検出装置を音声認識システム
に適用した例を示したブロック図である。

【図２】本発明の実施例の音声区間検出装置のブロック
図である。

【図３】上記実施例の音声区間検出装置の動作を説明す
るためのフローチャートである。

【図４】上記実施例の音声区間検出装置の制御部の音声
区間の判定について説明するための図である。

【図５】無音声部によって音声信号の一部が分離された
状態を示す図である。

【図６】図５に示した分離された音声区間の判定基準を
説明するための図である。

【図７】パラメータ更新における環境雑音のエネルギー
と環境雑音のパラメータの関係を示した図である。

【図８】スイッチ信号と入力フレーム信号の時間的関係
を示した図である。

【図９】スイッチ指定区間を説明するための図である。

【図１０】スイッチ指定区間と音声区間の関係を示した
図である。

【図１１】音声区間信号の送信の仕方を説明するための
図である。

【図１２】音声区間信号の送信の判定について示した図
である。

【符号の説明】

３音声区間検出装置１０制御部２０記憶部

Claims

【特許請求の範囲】

【請求項１】音声信号が入力され、検出範囲を指定す
るスイッチ操作に応じて音声区間を抽出して出力する音
声区間検出装置において、上記入力音声信号を記憶する記憶手段と、上記スイッチ操作で指定される検出範囲よりも広い範囲
で上記記憶手段に記憶されている上記入力音声信号から
一つだけ音声区間を抽出し、出力する制御手段とを有す
ることを特徴とする音声区間検出装置。
【請求項２】上記制御手段は、上記記憶手段から上記
音声区間を抽出し、該音声区間を入力信号から一定時間
遅らせて送信することを特徴とする請求項１記載の音声
区間検出装置。
【請求項３】上記制御手段は、上記入力された音声信
号を周波数分析して信号パワースペクトルを求め、環境
雑音のパワースペクトルの定数倍に対する該信号パワー
スペクトルの大小に応じて入力時の雑音を除去すること
を特徴とする請求項１記載の音声区間検出装置。
【請求項４】上記制御手段は、上記信号パワースペク
トルの積算値が所定のしきい値以上ならば有音声、未満
ならば無音声と判定することを特徴とする請求項３記載
の音声区間検出装置。
【請求項５】上記制御手段は、上記有音声と判定され
る区間が所定長以上続いたときに、これを音声区間とし
て検出し、その後に上記無音声と判定される区間が所定
長以上続いたときに、上記音声区間が終了したと見なす
ことを特徴とする請求項４記載の音声区間検出装置。
【請求項６】上記制御手段は、短い有音声部の後に無
音声部が続き、その後再び有音声部が続くような場合、
上記短い有音声部と上記無音声部の長さの比に応じて上
記短い有音声部を音声区間とするか否かを判定すること
を特徴とする請求項５記載の音声区間検出装置。
【請求項７】上記制御手段は、一定の長さの有音声部
の後に、無音声部が続き、その後短い有音声が続くよう
な場合、上記無音声部と上記短い有音声部の長さの比に
応じて上記短い有音声部を音声区間とするか否かを判定
することを特徴とする請求項５記載の音声区間検出装
置。
【請求項８】上記制御手段は、上記音声区間と判定さ
れた区間の前後にマージンを付加して、音声区間を引き
延ばすことを特徴とする請求項５、６又は７記載の音声
区間検出装置。
【請求項９】上記制御手段は、上記有音声／無音声の
判定のためのしきい値や、上記マージンのようなパラメ
ータを環境雑音の平均エネルギーに応じて変動させるこ
とを特徴とする請求項４又は８記載の音声区間検出装
置。
【請求項１０】上記制御手段は、上記パラメータと上
記環境雑音の平均エネルギーとの関係を比例関係として
予め決めておき、さらにそのパラメータの上限と下限も
決めておくことで、上記環境雑音の平均エネルギーから
上記パラメータを決定することを特徴とする請求項９記
載の音声区間検出装置。
【請求項１１】上記制御部は、環境雑音の平均エネル
ギーや環境雑音の平均パワースペクトルを無音声区間で
更新することを特徴とする請求項９又は１０記載の音声
区間検出装置。
【請求項１２】上記制御部は、連続して無音声と判定
され続け、かつ更新前の環境雑音の平均エネルギーから
緩やかに変化するようなエネルギーを持つ区間において
のみ、環境雑音の平均エネルギーや環境雑音の平均パワ
ースペクトルを更新することを特徴とする請求項１１記
載の音声区間検出装置。
【請求項１３】上記制御部は、一定時間以上有音声と
判定され続けるような場合には、強制的に環境雑音の平
均エネルギーや環境雑音の平均パワースペクトルを更新
することを特徴とする請求項９、１０、１１又は１２記
載の音声区間検出装置。
【請求項１４】上記制御部は、上記音声区間の抽出を
常に行うことを特徴とする請求項１記載の音声区間検出
装置。
【請求項１５】上記制御部は、上記環境雑音の平均エ
ネルギー、上記環境雑音の平均パワースペクトル及び上
記パラメータの更新を常に行うことを特徴とする請求項
９、１０、１１、１２又は１３記載の音声区間検出装
置。