JPWO2005125273A1

JPWO2005125273A1 - ハウリング検出装置およびその方法

Info

Publication number: JPWO2005125273A1
Application number: JP2006514765A
Authority: JP
Inventors: 河村　岳; 岳河村; 丈郎金森
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-06-16
Filing date: 2005-06-15
Publication date: 2008-04-17
Anticipated expiration: 2025-06-15
Also published as: US7912230B2; US20080021703A1; CN1951147B; WO2005125273A1; CN1951147A; JP4675888B2

Abstract

ハウリング検出装置は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出する。ハウリング検出装置は、複数の音声信号のレベルをそれぞれ検出するレベル検出部と、スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、レベル検出部が検出した複数の音声信号のレベルからそれぞれ語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を音声信号それぞれの支配率として算出する支配率算出部とを備える。

Description

本発明は、ハウリング検出装置およびその方法に関し、より特定的には、複数の音声信号を混合して拡声する拡声システムにおいて、当該複数の音声信号それぞれについて、ハウリングを発生させる危険度を検出するハウリング検出装置およびその方法に関する。

従来、マイクロフォンで収音した音声信号を拡声する拡声システムにおいて、ハウリングの発生を検出し、当該ハウリングを抑制するハウリング抑制装置が開発されている。従来のハウリング抑制装置としては、適用フィルタやノッチフィルタなどを用いたハウリング抑制装置が知られている（例えば、特許文献１および特許文献２参照）。

以下、図１０を参照して、複数の音声信号を入力として当該複数の音声信号を混合して拡声する拡声システムにおいて、従来のハウリング抑制装置を採用した場合について説明する。図１０は、複数の音声信号を混合して拡声する拡声システム９において上記特許文献１および特許文献２に開示されたハウリング抑制装置を採用した構成例を示す図である。なお、図１０では、スピーカと複数のマイクロフォンとが同一の音場にあるときに発生するハウリングを抑制する場合の構成例を示している。また、ここでは複数の音声信号として、２つのマイクロフォンから２つの音声信号が入力されるとする。

図１０において、拡声システム９は、第１のマイクロフォン９１ａ、第２のマイクロフォン９１ｂ、音特性調整部９２、音混合部９３、ハウリング抑制部９４、およびスピーカ９５を有する。音特性調整部９２は、第１のマイクロフォン９１ａで収音して生成された音声信号を入力とし、当該音声信号の周波数やゲインの特性を調整する。同様に、第２のマイクロフォン９１ｂで収音して生成された音声信号は、音特性調整部９２において周波数やゲインの特性が調整される。そして、調整された各音声信号は、音混合部９３において混合される。なお、音特性調整部９２および音混合部９３は、例えば図１１に示すような市販のミキサなどに相当する。図１１は、音特性調整部９２および音混合部９３の構成例を示すブロック図である。図１１において、音特性調整部９２は、例えばイコライザ９２１ａ、イコライザ９２１ｂ、増幅部９２２ａ、および増幅部９２２ｂを有する。イコライザ９２１ａは、第１のマイクロフォン９１ａで収音して生成された音声信号の周波数特性を調整する。増幅部９２２ａは、イコライザ９２１ａで調整された音声信号のゲインを調整する。同様に、イコライザ９２１ｂおよび増幅部９２２ｂは、第２のマイクロフォン９１ｂで収音して生成された音声信号の周波数やゲインの特性を調整する。このように音特性調整部９２では、通常のミキサと同様に、第１および第２のマイクロフォン９１ａおよび９２ｂで収音された各音声信号の周波数やゲインの特性がそれぞれ独立して調整される。音混合部９３において混合された音声信号は、ハウリング抑制部９４に入力される。

ハウリング抑制部９４は、音混合部９３において混合された音声信号に対して、ハウリングを抑制する信号処理を行う。そして、信号処理された音声信号は、適宜増幅されてスピーカ９５によって拡声される。なお、ハウリング抑制部９４は、ハウリングを抑制するハウリング抑制装置に相当する。そして、上述したように、当該拡声システムは、上記特許文献１または特許文献２で開示されたハウリング抑制方式を採用している例であるため、ハウリング抑制部９４として適応フィルタまたはノッチフィルタを用いている。

図１２は、適応フィルタ９４１を用いたハウリング抑制部９４の構成例を示すブロック図である。この場合、ハウリング抑制部９４は、ハウリング抑制部９４から出力される音声信号（拡声対象である音声信号）に基づいて、当該音声信号が出力されたときのみ、空間伝達特性などの伝達特性を推定する。そして、適用フィルタ９４１は、推定した伝達特性を拡声対象である音声信号に乗じて、音混合部９３から出力された音声信号から減算する。これにより、ハウリングの発生を抑制することができる。

また、ハウリング抑制部９４としてノッチフィルタを用いる場合もある。図１３は、音混合部９３から出力された音声信号のパワースペクトルＸ（ω）のハウリング発生時の変化を示す図である。例えば、特定周波数ｆにおいてハウリングが発生すると仮定する。このとき、図１３に示すパワースペクトルＸ（ω）は、特定周波数ｆにおいてパワーが急激に増加するように変化する。そこで、隣接する帯域間のパワーの差分を常に観察することで、特定周波数ｆが含まれる帯域のパワーが急激に増加したことが検出される。つまり、ハウリングが発生する周波数を検出することができる。このとき、ノッチフィルタの減衰する周波数を特定周波数ｆに設定する。そして、音混合部９３から出力された音声信号を特定周波数ｆで減衰するノッチフィルタに通過させることで、特定周波数ｆのパワーは減衰する。その結果、ハウリングの発生が抑制される。
特許第２０３９８４６号公報特許第２５６０９２３号公報

ここで、図１４を参照して、適用フィルタを用いたハウリング抑制部９４が推定するべき理想的な伝達特性について考える。図１４は、１入力時の拡声システム９において、伝達特性に関係する各構成の特性を模式的に示した図である。ここでは、まずマイクロフォン９１が１つの場合について考える。また、図１４において、マイクロフォン９１の収音対象となる音声をＳ（ω）、マイクロフォン９１で収音して生成された音声信号をＸ（ω）、音特性調整部９２において調整される周波数やゲインの特性をＭ（ω）、ハウリング抑制部９４で推定するべき理想的な伝達特性をＨｈａｔ（ω）、ハウリング抑制部９４から出力される音声信号をＹ（ω）、スピーカ９５からマイクロフォン９１までの空間伝達特性をＲ（ω）とする。このとき、マイクロフォン９１で収音して生成された音声信号Ｘ（ω）は数式（１）で表現される。

なお、Ｒ（ω）には、上記空間の伝達特性だけでなく、マイクロフォン９１自体の特性、スピーカ９５自体の特性、およびハウリング抑制部９４の出力とスピーカ９５との間で適宜増幅された場合のその増幅特性などが含まれてもよい。また、ハウリング抑制部９４では、音特性調整部９２において調整された音声信号Ｍ（ω）＊Ｘ（ω）がハウリング抑制部９４の出力音声信号Ｙ（ω）に伝達特性Ｈｈａｔ（ω）を乗じたもので減算する処理が行われ、数式（２）が成立する。

数式（１）および数式（２）を変形すると、数式（３）が得られる。

数式（３）において、第２項がハウリングに起因する項である。したがって、理想的な伝達特性Ｈｈａｔ（ω）は、数式（４）を満たす伝達特性となる。

伝達特性Ｈｈａｔ（ω）が数式（４）の関係を満たすことによって、数式（３）の第２項がほぼゼロとなる。これにより、ハウリング抑制部９４は、ハウリングの発生を抑制することができる。

次に、図１５を参照して、複数の音声信号を混合する場合について考える。図１５は、複数入力時の拡声システム９において、伝達特性と関係する各構成の特性を模式的に示した図である。図１５において、第１のマイクロフォン９１ａの収音対象となる音声をＳ１（ω）、音特性調整部９２において調整される周波数やゲインの特性をＭ１（ω）、スピーカ９５から第１のマイクロフォン９１ａまでの空間伝達特性をＲ１（ω）とする。同様に、第ｎのマイクロフォンの収音対象となる音声をＳｎ（ω）、音特性調整部９２において調整される周波数やゲインの特性をＭｎ（ω）、スピーカ９５から第ｎのマイクロフォン９２ｃまでの空間伝達特性をＲｎ（ω）とする。このとき、数式（３）は数式（５）と表現される。なお、ｎは自然数であり、マイクロフォンの本数を示す。

数式（５）において、第２項がハウリングに起因する項である。したがって、推定されるべき理想的な伝達特性Ｈｈａｔ（ω）は、数式（６）を満たす伝達特性となる。

数式（６）に示すように、複数の音声信号がもつ空間伝達特性Ｒ（ω）は、それぞれ固有の値である。また、空間伝達特性Ｒ（ω）は、マイクロフォンの位置によって変化する値である。つまり、理想的な伝達特性を適切に推定するためには、複数の音声信号それぞれの空間伝達特性Ｒ（ω）を考慮する必要がある。しかしながら、従来においては、伝達特性はハウリング抑制部９４の出力信号に基づいて推定される。つまり、ハウリング抑制部９４の出力信号は、複数の音声信号が混合された音声信号に基づく信号であり、複数のマイクロフォンそれぞれの空間伝達特性Ｒ（ω）が考慮された信号ではない。したがって、従来においては、空間伝達特性Ｒ（ω）の変化に対して上記伝達特性の推定速度が追いつかず、ハウリングの発生を適切に抑制することができないという問題があった。

また、数式（６）に示すように、推定されるべき理想的な伝達特性Ｈｈａｔ（ｔ）は、複数のマイクロフォンそれぞれのＭ（ω）やＲ（ω）によって決まる値である。つまり、理想的な伝達特性Ｈｈａｔ（ω）は、Ｍ（ω）が変化すると、それに伴い変化する値である。ここで、上記適用フィルタ９４１では、ハウリング抑制部９４の出力信号に基づいて、収束しながら伝達特性が推定される。このため、Ｍ（ω）が急激に変化して理想的な伝達特性Ｈｈａｔ（ω）も急激に変化した場合には、上記伝達特性の推定速度が追いつかず、ハウリングの発生を適切に抑制することが困難であった。

また、複数のマイクロフォンを有する場合、上述したようにＭ（ω）およびＲ（ω）の値は、マイクロフォンが１つのときと比べて変化しやすいので、ハウリングが発生する特定周波数ｆも変化しやすい。これにより、ハウリング抑制部９４として上記ノッチフィルタを用いた場合にも、この特定周波数ｆの変化にノッチフィルタの減衰する周波数の設定が追いつかず、ハウリングの発生を適切に抑制することが困難であった。

このように、複数の音声信号を混合して拡声する拡声システムにおいては、複数の音声信号それぞれについて、ハウリングの発生する危険度（例えば、上記Ｍ（ω）やＲ（ω）の変化など）を考慮しなければ、ハウリングの発生を適切に抑制することができないという課題があった。

また、従来においてハウリングの発生をユーザに警告する場合、入力された音声信号のパワースペクトルにおいて、隣接する帯域間のパワーの差分を常に観察してハウリングの発生を検出し、ユーザに警告する方法が知られている。しかしながら、複数の音声信号を混合して拡声する拡声システムにおいては、混合された音声信号のパワースペクトルに基づいてハウリングの発生を検出することとなる。したがって、従来においては、複数入力される音声信号のうちどの音声信号がハウリングを発生させたのか、もしくは発生させる危険があるのかを特定して警告することが不可能であった。

それ故、本発明においては、複数の音声信号を混合して拡声する拡声システムにおいて、当該複数の音声信号それぞれについて、ハウリングを発生させる危険度を検出することを目的とする。さらに、本発明においては、当該危険度の情報に基づいて適切な伝達特性を推定し、音特性調整部による伝達特性の急激な変化に対してロバストなハウリングの発生の抑制を行うことを目的とする。また、本発明においては、複数入力される音声信号のうちどの音声信号がハウリングを発生させたのか、もしくは発生させる危険があるのかを特定して警告する方法を提供することを目的とする。

本発明の第１の局面は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える。

本発明の第２の局面は、上記第１の局面において、前記ハウリング検出装置は、前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部を、さらに備える。

本発明の第３の局面は、上記第２の局面において、前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を算出することを特徴とする。

本発明の第４の局面は、上記第３の局面において、前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第５の局面は、上記第３の局面において、前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第６の局面は、上記第１の局面において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第７の局面は、上記第１の局面において、ハウリング検出装置であって、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第８の局面は、上記第１の局面において、前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする。

本発明の第９の局面は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出部と、前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える。

本発明の第１０の局面は、上記第９の局面において、前記ハウリング検出装置は、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部とを、さらに備える。

本発明の第１１の局面は、上記第１０の局面において、前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を前記語尾の区間が検出されたときに設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を前記ハウリングの発生が検出されたときに算出することを特徴とする。

本発明の第１２の局面は、上記第１１の局面において、前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第１３の局面は、上記第１１の局面において、前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第１４の局面は、上記第９の局面において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第１５の局面は、上記第９の局面において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第１６の局面は、上記第９の局面において、前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする。

本発明の第１７の局面は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出ステップと、前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む。

本発明の第１８の局面は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出ステップと、前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む。

上記第１の局面によれば、語尾の区間にはハウリングの発生原因となる信号成分のみが含まれおり、支配率が当該語尾の区間に応じたレベルを用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度を検出することができる。また、支配率は音混合部で混合される前の音声信号のレベルに基づいて算出される。これにより、本局面によれば、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更されても、その変更に対応した上記危険度を検出することができる。

上記第２の局面によれば、伝達特性が支配率を用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度に応じたハウリングの抑制を行うことができる。また、伝達特性が支配率を用いて算出されることで、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更され、伝達特性が急激に変化しても、その変化に対応したロバストなハウリングの抑制を行うことができる。

上記第３の局面によれば、伝達特性が支配率に応じた総和の変化率に基づいて算出されることで、複数の音声信号のハウリングを発生させる危険度を考慮したロバストなハウリング抑制を実現することができる。

上記第４の局面によれば、複数の音声信号のうち、ハウリングを発生させる危険度が相対的に高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。

上記第５の局面によれば、複数の音声信号のうち、ハウリングを発生させる危険度が最も高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。例えばユーザのミキサ操作として、複数の音声信号のレベルを全て同時に変更したりする操作は稀であるため、支配率の最も高いものだけに追随するものであっても、ロバストなハウリングの抑制を行うことができる。

上記第６の局面によれば、支配率が相対的に高い音声信号を特定することによって、ユーザに対して、複数の音声信号のうち、どの音声信号がハウリングを発生させる危険度が相対的に高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第７の局面によれば、支配率が最も高い音声信号を特定することによって、ユーザに対して、複数の音声信号のうち、どの音声信号がハウリングを発生させる危険度が最も高いかを通知することができる。また、例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第８の局面によれば、複数の音声信号のレベルがパワースペクトルで算出されることで、ハウリングを発生させる危険度を周波数帯域ごとに検出することができる。

上記第９の局面によれば、ハウリングが発生したとき、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度を検出することができる。また、支配率は音混合部で混合される前の音声信号のレベルに基づいて算出される。これにより、本局面によれば、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更されても、その変更に対応した上記危険度を検出することができる。

上記第１０の局面によれば、伝達特性が支配率を用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度に応じたハウリングの抑制を行うことができる。また、伝達特性が支配率を用いて算出されることで、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更され、伝達特性が急激に変化しても、その変化に対応したロバストなハウリングの抑制を行うことができる。

上記第１１の局面によれば、伝達特性が支配率に応じた総和の変化率に基づいて算出されることで、語尾の区間が到来する前に、複数の音声信号のハウリングを発生させる危険度を考慮したロバストなハウリング抑制を実現することができる。

上記第１２の局面によれば、複数の音声信号のうち、ハウリングを発生させる危険度が相対的に高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。

上記第１３の局面によれば、複数の音声信号のうち、ハウリングを発生させる危険度が最も高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。例えばユーザのミキサ操作として、複数の音声信号のレベルを全て同時に変更したりする操作は稀であるため、支配率の最も高いものだけに追随するものであっても、ロバストなハウリングの抑制を行うことができる。

上記第１４の局面によれば、ハウリングが発生した場合において、ユーザに対して、複数の音声信号のうちどの音声信号がハウリングを発生させる危険度が相対的に高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第１５の局面によれば、ハウリングが発生した場合において、ユーザに対して、複数の音声信号のうちどの音声信号がハウリングを発生させる危険度が最も高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第１６の局面によれば、複数の音声信号のレベルがパワースペクトルで算出されることで、ハウリングを発生させる危険度を周波数帯域ごとに検出することができる。

図１は、拡声システム１の構成例を示すブロック図である。図２は、音特性調整部１２および音混合部１３の構成例を示すブロック図である。図３は、雑音参照信号Ｙ（ｔ）および音声信号Ｘｍ（ｔ）の波形を示す図である。図４は、ループゲインＧ１（ω）、Ｇ２（ω）、およびループゲインの和（Ｇ１（ω）＋Ｇ２（ω））のスペクトラムの一例を示す図である。図５は、ハウリング抑制部１７の構成の一例を示すブロック図である。図６は、拡声システム２の構成例を示すブロック図である。図７は、第２の実施形態におけるハウリング抑制部２２の構成の一例を示すブロック図である。図８は、ハウリング警告装置の構成例を示すブロック図である。図９は、ハウリング発生検出部２１を用いたハウリング警告装置の構成例を示すブロック図である。図１０は、複数の音声信号を混合して拡声する拡声システム９において上記特許文献１および特許文献２に開示されたハウリング抑制装置を採用した構成例を示す図である。図１１は、音特性調整部９２および音混合部９３の構成例を示すブロック図である。図１２は、適応フィルタ９４１を用いたハウリング抑制部９４の構成例を示すブロック図である。図１３は、音混合部９３から出力された音声信号のパワースペクトルＸ（ω）のハウリング発生時の変化を示す図である。図１４は、１入力時の拡声システム９において、伝達特性に関係する各構成の特性を模式的に示した図である。図１５は、複数入力時の拡声システム９において、伝達特性と関係する各構成の特性を模式的に示した図である。

符号の説明

１、２拡声システム
３ハウリング警告装置
１１ａ第１のマイクロフォン
１１ｂ第２のマイクロフォン
１２音特性調整部
１３音混合部
１４レベル検出部
１５、１７６語尾検出部
１６支配率算出部
１７、２２ハウリング抑制部
１８スピーカ
２１ハウリング発生検出部
３１ハウリング警告部
１２１イコライザ
１２２増幅部
１７１第１のパワースペクトル算出部
１７２第２のパワースペクトル算出部
１７３伝達特性算出部
１７４逆フーリエ変換部
１７５畳み込み部

（第１の実施形態）
図１を参照して、本発明の第１の実施形態に係るハウリング検出方法および抑制方法を採用した拡声システム１について説明する。図１は、拡声システム１の構成例を示すブロック図である。図１において、拡声システム１は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、音特性調整部１２、音混合部１３、レベル検出部１４、語尾検出部１５、支配率算出部１６、ハウリング抑制部１７、およびスピーカ１８を有する。なお、拡声システム１は３つ以上のマイクロフォンを用いて拡声するシステムでもよいが、ここでは２つのマイクロフォンを用いて拡声する場合を想定して説明する。図１において、第１のマイクロフォン１１ａは、スピーカ１８において拡声するための音声を収音して音声信号を生成する。この第１のマイクロフォン１１ａで生成された音声信号をＸ１（ｔ）とする。また、第２のマイクロフォン１１ｂでも同様に、拡声するための音声を収音して音声信号Ｘ２（ｔ）を生成する。

音特性調整部１２は、音声信号Ｘ１（ｔ）およびＸ２（ｔ）を入力とし、当該音声信号の周波数やゲインの特性をそれぞれ調整する。なお、音特性調整部１２で調整された音声信号Ｘ１（ｔ）をＸｍ１（ｔ）とする。同様に音特性調整部１２で調整された音声信号Ｘ２（ｔ）をＸｍ２（ｔ）とする。音特性調整部１２で調整された音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）は、レベル検出部１４と音混合部１３とにそれぞれ出力される。音混合部１３に入力された音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）は、当該音混合部１３において混合される。この混合された音声信号をＸｍ（ｔ）とする。そして、音混合部１３において混合された音声信号Ｘｍ（ｔ）は、語尾検出部１５およびハウリング抑制部９４に出力される。なお、音特性調整部１２および音混合部１３は、例えば図２に示すような市販のミキサなどである。

図２は、音特性調整部１２および音混合部１３の構成例を示すブロック図である。図２において、音特性調整部１２は、例えばイコライザ１２１ａ、イコライザ１２１ｂ、増幅部１２２ａ、および増幅部１２２ｂを有する。イコライザ１２１ａは、第１のマイクロフォン１１ａで収音して生成された音声信号Ｘ１（ｔ）の周波数特性を調整する。増幅部１２２ａは、イコライザ１２１ａで調整された音声信号のゲインを調整する。同様に、イコライザ１２１ｂおよび増幅部１２２ｂは、第２のマイクロフォン１１ｂで収音して生成された音声信号Ｘ２（ｔ）の周波数やゲインの特性を調整する。このように音特性調整部１２では、通常のミキサと同様に、第１および第２のマイクロフォン１１ａおよび１２ｂで収音された各音声信号の周波数やゲインの特性がそれぞれ独立して調整される。

レベル検出部１４は、音特性調整部１２から出力される音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）の各レベルを検出する。具体的な検出方法としては、例えば所定時間毎にパワースペクトルを算出して、帯域毎のレベルを検出する。レベル検出部１４で検出された各所定時間における帯域毎のレベルの情報は、全て支配率算出部１６に出力される。

語尾検出部１５は、音混合部１３から入力される音声信号Ｘｍ（ｔ）と、雑音参照信号Ｙ（ｔ）とに基づいて、雑音参照信号Ｙ（ｔ）に対する音声信号Ｘｍ（ｔ）の音声区間の遅延区間を語尾として検出する。なお、雑音参照信号Ｙ（ｔ）は、スピーカで拡声される音響に関する信号であり、例えばスピーカ１８において拡声される直前の音声信号である。このとき、ハウリング抑制部１７には、スピーカ１８の直前の入力から雑音参照信号Ｙ（ｔ）が入力される。また例えば、スピーカ１８の近傍で拡声された音声を別のマイクロフォンなどで収音して生成される音声信号であってもよい。このとき、ハウリング抑制部１７は、当該別のマイクロフォンと接続され、当該別のマイクロフォンから出力される音声信号を雑音参照信号Ｙ（ｔ）として入力する。

ここで、図３を参照して、語尾部分の信号成分について説明する。図３は、雑音参照信号Ｙ（ｔ）および音声信号Ｘｍ（ｔ）の波形を示す図である。図３に示すように、音声信号Ｘｍ（ｔ）の音声区間は、雑音参照信号Ｙ（ｔ）に対して遅延している。これは、図１３および数式１に示したように、マイクロフォンで収音して生成される音声信号には、話者が発声する音声Ｓ（ω）の他に、スピーカで拡声され、空間伝播してマイクロフォンに再び混入する音声Ｙ（ω）＊Ｒ（ω）が含まれるためである。つまり、混入する音声Ｙ（ω）＊Ｒ（ω）は、空間伝播する分だけスピーカ１８の拡声音より遅延しているためである。これは、第１のマイクロフォン１１ａおよび第２のマイクロフォン１１ｂから音声信号が入力される場合ついても同様である。このように、音声信号Ｘｍ（ｔ）には、空間伝播して第１のマイクロフォン１１ａおよび／または第２のマイクロフォン１１ｂに再び混入される遅延した音声Ｙ（ω）＊Ｒ（ω）の信号成分が含まれている。つまり、図３に示す語尾部分には、空間伝播して第１のマイクロフォン１１ａおよび／または第２のマイクロフォン１１ｂに再び混入する信号成分のみが含まれていることになる。語尾検出部１５が上記語尾部分を検出することで、後述する支配率算出部１６は、空間伝播して第１のマイクロフォン１１ａおよび／または第２のマイクロフォン１１ｂに再び混入される信号成分のみに基づいた支配率を算出することができる。語尾検出部１５の具体的な検出方法としては、例えば音声信号Ｘｍ（ｔ）および雑音参照信号Ｙ（ｔ）の波形のパワーエンベロープを用いる方法がある。各パワーエンベロープ（立ち上がり部分を除く）を用いて、その比率を常に観察することで、語尾部分を検出することができる。また例えば、語尾検出部１５が雑音参照信号Ｙ（ｔ）および音声信号Ｘｍ（ｔ）を時系列的に比較する。そして、語尾検出部１５が各パワーエンベロープの立ち下がりを検出して、それらの差分を語尾部分としてもよい。語尾検出部１５において検出された語尾（遅延した部分）の情報は、支配率算出部１６およびハウリング抑制部１７に送られる。

支配率算出部１６は、レベル検出部１４から出力された各音声信号のレベルと、語尾検出部１５において検出された語尾とに基づいて、入力された複数の音声信号（図１では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））の支配率をそれぞれ算出する。なお、支配率算出部１６は、語尾検出部１５で検出された語尾の区間でのみ支配率の算出処理を行う。以下、支配率の算出方法について具体的に説明する。なお、支配率とは、複数の音声信号それぞれについてハウリングを発生させる危険度を示すものである。

レベル検出部１４で算出されたレベルのうち、語尾の区間のパワースペクトルをループゲインＧとする。そして、音声信号Ｘｍ１（ｔ）のループゲインをＧ１（ω）、音声信号Ｘｍ２（ｔ）のループゲインをＧ２（ω）とする。同様に、第ｎ（ｎは自然数）のマイクロフォンから入力され、音特性調整部１２で周波数やゲイン特性を調整された音声信号Ｘｍｎ（ｔ）とする。このとき、当該Ｘｍｎ（ｔ）のループゲインＧｎ（ω）は、数式７と表現できる。

そして、支配率算出部１６は、各音声信号のレベルから語尾の区間のレベルであるループゲインＧを抽出し、各音声信号に対する支配率として例えば全音声信号のループゲインの和と各音声信号のループゲインとの比をそれぞれ算出する。例えば、図１では、ループゲインの和はＧ１（ω）＋Ｇ２（ω）である。したがって、音声信号Ｘｍ１（ｔ）に対する支配率は、和（Ｇ１（ω）＋Ｇ２（ω））とＧ１（ω）との比として表現される。また、音声信号Ｘｍ２（ｔ）に対する支配率は、和（Ｇ１（ω）＋Ｇ２（ω））とＧ２（ω）との比として表現される。このように支配率算出部１６は、図４に示すように、語尾の区間において、帯域毎にどの音声信号のループゲインが支配的であるかを、帯域毎のループゲインの大小をもとに支配率として判定することができる。図４は、ループゲインＧ１（ω）、Ｇ２（ω）、およびループゲインの和（Ｇ１（ω）＋Ｇ２（ω））のスペクトラムの一例を示す図である。図４の一例では、周波数ｆより大きい周波数帯域でＧ２（ω）の支配率が高くなり、Ｇ２（ω）が支配的であることが判定される。また、周波数ｆ未満の周波数帯域ではＧ１（ω）の支配率が高くなり、Ｇ１（ω）が支配的であることが判定される。

このように、空間伝播される信号成分のみが含まれる語尾の区間に対して、支配率算出部１６は、各音声信号の支配率が算出することによってどの音声信号が支配的であるかを検出することができる。ここで、空間伝播される信号成分は、ハウリングの発生原因となる信号成分である。したがって、支配率算出部１６は、例えば図１３に示すＲ１（ω）の経路で伝わる音が支配的なのか、あるいはＲ２（ω）の経路で伝わる音が支配的なのかをハウリング発生前に検出することができる。そして、支配的である音声信号ほどハウリングを発生させる危険度が高い。なお、音特性調整部１２、音混合部１３、レベル検出部１４、語尾検出部１５、および支配率算出部１６は、本発明におけるハウリング検出装置に相当するものである。そして、本発明におけるハウリング検出装置は、上記支配率を算出することで、複数の音声信号それぞれについてハウリングを発生させる危険度を検出することができる。

なお、算出された支配率が語尾を検出するたびに所定の方式によって学習し更新される仕組みにすれば、マイクロフォンの位置変化などによる支配率の逐次変化にも対応できるようになる。また、支配率を学習するタイミングとしては、語尾が検出されるたびに行うことに限定されず、推定の逐次性および正確性を考慮して適宜調整されてもよい。

ハウリング抑制部１７は、音混合部１３において混合された音声信号Ｘｍ（ｔ）に対して、ハウリングを抑制する信号処理を行う。信号処理された音声信号は、適宜増幅されてスピーカ１８によって拡声される。以下、図５を参照して、ハウリング抑制部１７の処理方法について具体的に説明する。図５は、ハウリング抑制部１７の構成の一例を示すブロック図である。ここでは、図５に示すように、２入力型サブトラクション構成を採用している。２入力型サブトラクション構成は、雑音参照信号として拡声対象の音声信号を用いることで、拡声対象の音声信号に含まれる語尾に応じて伝達特性を学習しながら、ハウリングの発生を抑圧することができる。図５において、ハウリング抑制部１７は、第１のパワースペクトル算出部１７１、第２のパワースペクトル算出部１７２、伝達特性算出部１７３、逆フーリエ変換部１７４、および畳み込み部１７５を有する。

図５において、第１のパワースペクトル算出部１７１は、音混合部１３から出力された音声信号Ｘｍ（ｔ）を入力とし、音声信号Ｘｍ（ｔ）のパワースペクトルＸ（ω）を算出する。第２のパワースペクトル算出部１７２は、雑音参照信号Ｙ（ｔ）を入力とし、雑音参照信号Ｙ（ｔ）のパワースペクトルＹ（ω）を算出する。なお、雑音参照信号Ｙ（ｔ）とする拡声対象の音声信号は、例えばスピーカ１８において拡声される直前の音声信号である。また例えば、スピーカ１８の近傍で拡声された音声をマイクロフォンなどで収音して生成される音声信号であってもよい。

伝達特性算出部１７３は、まず、音声信号Ｘｍ（ω）と雑音参照信号Ｙ（ω）とに基づいて、パワースペクトル比率Ｈｒ（ω）を語尾検出部１５において検出された語尾の区間でのみ推定する。パワースペクトル比率Ｈｒ（ω）は数式（８）で表現される。

なお、εは平均を意味する。そして、伝達特性算出部１７３は、数式（８）で推定したパワースペクトル比率Ｈｒ（ω）に基づいて、数式（９）に示す伝達特性Ｈｓｕｐ（ω）を算出する。

このように、本発明において、Ｈｓｕｐ（ω）は、語尾の区間に含まれる信号と同じ成分を有する信号を除いた音声信号Ｘｍ（ｔ）を推定する関数である。

次に、伝達特性算出部１７３は、数式９で算出したＨｓｕｐ（ω）に、支配率算出部１６で算出された各音声信号のループゲインおよび支配率に基づいて得られるループゲインの和の変化率を乗算して、Ｈｓｕｐ（ω）を算出する。以下、Ｈｓｕｐ（ω）の算出方法について説明する。

例えば、ユーザが音特性調整部１２および音混合部１３においてミキサ操作を行って、音声信号Ｘ１（ｔ）およびＸ２（ｔ）の周波数やゲインの特性をそれぞれ変更したとする。この操作に応じて、音声信号Ｘｍ１（ｔ）における周波数やゲインの特性Ｍ１（ω）と、音声信号Ｘｍ２（ｔ）における周波数やゲインの特性Ｍ２（ω）とが変化する。このとき、数式７に示すように、ループゲインＧ１（ω）およびＧ２（ω）も変化する。ここで、ミキサ操作前に支配率算出部１６で算出されたループゲインＧ１（ω）の支配率がループゲインＧ２（ω）よりも高いとする。また、ミキサ操作後に支配率算出部１６で算出されたループゲインＧ１（ω）をループゲインＧ１ｎｅｗ（ω）とし、ミキサ操作前に支配率算出部１６で算出されたループゲインＧ１（ω）をループゲインＧ１ｏｌｄ（ω）とする。また、ミキサ操作後に支配率算出部１６で算出されたループゲインＧ２（ω）をループゲインＧ２ｎｅｗ（ω）とし、ミキサ操作前に支配率算出部１６で算出されたループゲインＧ２（ω）をループゲインＧ２ｏｌｄ（ω）とする。

このとき、ミキサ操作前に支配率算出部１６で算出されたループゲインの和は、Ｇ１ｏｌｄ（ω）＋Ｇ２ｏｌｄ（ω）となる。これに対し、ミキサ操作後に支配率算出部１６で算出されるループゲインの和は、ミキサ操作前に算出された支配率のうち、最も高い支配率のループゲインのみを考慮した和とする。つまり上述では、ループゲインＧ１（ω）の支配率がループゲインＧ２（ω）より高いとしたので、ミキシング操作後に支配率算出部１６で算出されたループゲインの和はＧ１ｎｅｗ（ω）＋Ｇ２ｏｌｄ（ω）となる。このとき、ループゲインの和の変化率Ｌｒ（ω）は、数式１０となる。

このように、支配率算出部１６で算出された各音声信号のループゲインおよび支配率に基づいて、ループゲインの和の変化率Ｌｒ（ω）が求まる。つまり、ループゲインの和の変化率Ｌｒ（ω）としては、支配率が最も高いループゲインＧ１（ω）の変化に応じて、ループゲインの和（Ｇ１（ω）ｏｌｄ＋Ｇ２（ω）ｏｌｄ）が和（Ｇ１（ω）ｎｅｗ＋Ｇ２（ω）ｏｌｄ）に変化したことが予想できる。なお、上述では支配率が最も高いループゲインのみ、ループゲインの和に反映させるとした。これは、ユーザのミキサ操作として、２つ以上の音声信号のゲインを同時に変更したりする操作は稀であるため、ループゲインの和の変化率Ｌｒ（ω）が支配率の高いものだけに追随するものであっても、ロバストなハウリングの抑制を行うことができることに基づいている。このように、支配率が最も高いループゲインを、ループゲインの和に反映させることで、複数の音声信号が入力される場合であっても、ハウリングを発生させる危険度が高い音声信号のみを考慮した効率的、かつロバストなハウリング抑制を実現することができる。

伝達特性算出部１７３は、数式（１０）に示すループゲインの和の変化率を数式（９）で算出した伝達特性Ｈｓｕｐ（ω）に乗じて、和の変化率に応じた伝達特性Ｈｓｕｐ＿ｎｅｗ（ω）を算出する。なお、伝達特性Ｈｓｕｐ（ω）をＨｓｕｐ＿ｏｌｄ（ω）とし、和の変化率に応じた伝達特性をＨｓｕｐ＿ｎｅｗ（ω）とする。このとき、和の変化率に応じた伝達特性Ｈｓｕｐ＿ｎｅｗ（ω）は、数式（１１）で表現される。

このように、本発明においては、和の変化率に応じた伝達特性Ｈｓｕｐ＿ｎｅｗ（ω）は、推定された関数であるＨｓｕｐ（ω）＿ｏｌｄに和の変化率が乗算された伝達特性である。

数式（１１）で更新されたＨｓｕｐ＿ｎｅｗ（ω）は、逆フーリエ変換部１７４において、時間軸上に変換される。このＨｓｕｐ＿ｎｅｗ（ω）の時間軸上に変換されたものをフィルタ係数Ｈｓｕｐ＿ｎｅｗ（ｔ）とする。畳み込み部１７５は、フィルタ係数Ｈｓｕｐ＿ｎｅｗ（ｔ）を音混合部１３から入力される音声信号Ｘｍ（ｔ）に畳み込みこむことで、上記語尾検出部１５において検出された語尾の区間のみの信号と同じ成分のみを含む信号を音声信号Ｘｍ（ｔ）から減算する。なお、Ｈｓｕｐ（ω）の算出（数式９）および更新（数式１１）は、語尾検出部１５において語尾が検出されたときに行われる。また、Ｈｓｕｐ（ω）の算出（数式（９）および数式（１１））の学習は、例えば語尾を検出するたびに所定の方式によって行うようにしてもよい。

以上のように、本実施形態によれば、支配率算出部１６において各音声信号のループゲインおよび支配率を算出して、当該支配率に基づいたループゲインの和の変化率を用いた伝達特性を算出する。また、当該支配率は、音特性調整部１２の出力信号に基づいて算出されるので、音特性調整部１２において調整される周波数やゲインの特性に連動した値である。これにより、複数の音声信号を混合して拡声する拡声システムにおいて、上記支配率に基づいてハウリング抑制に用いる伝達特性を算出することで、音特性調整部１２よる伝達特性の急激な変化に対してロバストなハウリングの抑制を行うことができる。つまり、ユーザのミキサ操作によるＭ（ω）の急激な変化に対して、ロバストなハウリングの抑制を実現することができる。

なお、上述では、ミキサ操作前に支配率算出部１６で算出した支配率のうち、最も高い支配率であるループゲインのみの時間変化分からループゲインの和を推定するとしたが、これに限定されない。例えば、支配率が相対的に高い複数のループゲインをループゲインの和に反映させてもよい。例えば、マイクロフォンが３つあるとし、それぞれのループゲインをＧ１（ω）、Ｇ２（ω）、およびＧ３（ω）とする。そして、ミキサ操作前の支配率の関係が、ループゲインＧ１（ω）およびＧ２（ω）がループゲインＧ３（ω）より高いとする。そして、ループゲインＧ１（ω）およびＧ２（ω）をループゲインの和（Ｇ１（ω）＋Ｇ２（ω）＋Ｇ３（ω））に反映させてもよい。このとき、ループゲインの和の変化率Ｌｒ（ω）は、数式１２となる。

また、伝達特性算出部１７３は、支配率算出部１６で算出された支配率を用いて、当該支配率を各音声信号のループゲインそれぞれに反映させて、ループゲインの和の変化率を求めてもよい。また例えば、伝達特性算出部１７３は、支配率に基づいて、ループゲインの和の変化率以外の他の方法でハウリング抑制に用いる伝達特性を算出してもよい。

なお、上述した拡声システム１においては、２つの音声信号が入力された場合について説明したが、これに限定されない。例えば、３つ以上のマイクロフォンを有して３つ以上の音声信号が入力される場合であってもよい。また、上述したハウリング抑制部１７において、サブトラクションの具体的構成を図５に示したが、これに限定されない。畳み込みによるフィルタ方式以外のサブトラクション手法も数多く知られており、これらの手法を用いる構成であってもよい。

また、上述では、レベル検出部１４では、各音声信号についてそれぞれ周波数分析を行って、レベルをパワースペクトルとして算出したが、これに限定されない。例えば、レベル検出部１４では、所定時間毎の各音声信号のパワーをスカラー値として算出されてもよい。この場合、支配率算出部１６では、各音声信号の支配率はスカラー値で算出される。また、ループゲインの和の変化率Ｌｒ（ω）もスカラー値で表現される。

（第２の実施形態）
図６を参照して、本発明における第２の実施形態に係るハウリング検出方法および抑制方法を採用した拡声システム２について説明する。図６は、拡声システム２の構成例を示すブロック図である。図６において、拡声システム２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、音特性調整部１２、音混合部１３、レベル検出部１４、ハウリング発生検出部２１、支配率算出部１６、ハウリング抑制部２２、およびスピーカ１８を有する。なお、第１の実施形態においては、各音声信号の支配率を語尾区間でのみ算出するとしたが、本実施形態ではハウリングが検出されたときに算出する点で異なる。以下、異なる点を中心に説明する。また、第１の実施形態と同様に、拡声システム２は３つ以上のマイクロフォンを用いて拡声するシステムでもよいが、ここでは２つのマイクロフォンを用いて拡声する場合を想定して説明する。

図６において、第１のマイクロフォン１１ａは、スピーカ１８において拡声するための音声を収音して音声信号を生成する。この第１のマイクロフォン１１ａで生成された音声信号をＸ１（ｔ）とする。また、第２のマイクロフォン１１ｂでも同様に、拡声するための音声を収音して音声信号Ｘ２（ｔ）を生成する。音特性調整部１２は、音声信号Ｘ１（ｔ）およびＸ２（ｔ）を入力とし、当該音声信号の周波数やゲインの特性をそれぞれ調整する。そして、周波数やゲインの特性を調整された音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）は、当該音混合部１３において混合される。また、レベル検出部１４は、音特性調整部１２から出力される音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）の各レベルを検出する。そして、レベル検出部１４で検出された各所定時間における帯域毎のレベルの情報は、全て支配率算出部１６に出力される。ここまでの処理は、上述した第１の実施形態と同様である。

ハウリング発生検出部２１は、音混合部１３で混合された音声信号Ｘｍ（ｔ）のパワースペクトルＸｍ（ω）を算出して、ハウリングの発生を検出する。例えば特定周波数ｆにおいてハウリングが発生すると仮定すると、音声信号Ｘｍ（ｔ）のパワースペクトルＸ（ω）は、図１３で示したように特定周波数ｆにおいてパワーが急激に増加するように変化する。そこで、隣接する帯域間のパワーの差分を常に観察することで、特定周波数ｆが含まれる帯域のパワーが急激に増加したことが検出される。つまり、音声信号Ｘｍ（ｔ）のパワースペクトルＸ（ω）を観察して、ハウリングの初期発生（ハウリングが起こりかかっている状態）を検出する。そして、ハウリング発生検出部２１で検出されたハウリングの初期発生時の情報は、支配率算出部１６に出力される。

支配率算出部１６は、レベル検出部１４から出力された各音声信号のレベルと、ハウリング発生検出部２１において検出された情報とに基づいて、入力された複数の音声信号（図６では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））の支配率をそれぞれ算出する。なお、支配率算出部１６は、ハウリング発生検出部２１においてハウリングの初期発生が検出されたときの支配率の算出処理を行う。そして、レベル検出部１４で算出されたレベルのうち、ハウリングの初期発生が検出されたときのパワースペクトルがループゲインＧとなる。以下、支配率の具体的な算出方法は、第１の実施形態と同様であるので説明を省略する。また、本実施形態においては、支配率算出部１６において各音声信号の支配率が算出されることで、ハウリングの初期発生時において、どの音声信号が支配的であるかを検出することができる。また、本実施形態における支配率とは、上述した第１の実施形態と同様に、複数の音声信号それぞれについてハウリングを発生させる危険度を示すものである。このように、音特性調整部１２、音混合部１３、レベル検出部１４、ハウリング発生検出部２１、および支配率算出部１６は、本発明におけるハウリング検出装置に相当するものである。つまり、本発明におけるハウリング検出装置は、上記支配率を算出することで、複数の音声信号それぞれについてハウリングを発生させる危険度を検出することができる。

ハウリング抑制部２２は、音混合部１３において混合された音声信号Ｘｍ（ｔ）に対して、ハウリングを抑制する信号処理を行う。そして、信号処理された音声信号は、適宜増幅されてスピーカ１８によって拡声される。以下、図７を参照して、ハウリング抑制部２２の処理方法について説明する。図７は、第２の実施形態におけるハウリング抑制部２２の構成の一例を示すブロック図である。図７において、ハウリング抑制部２２は、第１のパワースペクトル算出部１７１、第２のパワースペクトル算出部１７２、伝達特性算出部１７３、逆フーリエ変換部１７４、畳み込み部１７５、および語尾検出部１７６を有する。なお、上述したハウリング抑制部１７においては語尾検出部１５から語尾情報を参照していたが、ハウリング抑制部２２は、語尾検出部１７６を新たに備え、当該語尾検出部１７６から語尾情報を参照する点で異なる。以下、異なる点を中心に説明する。

図７において、第１のパワースペクトル算出部１７１は、音混合部１３から出力された音声信号Ｘｍ（ｔ）を入力とし、音声信号Ｘｍ（ｔ）のパワースペクトルＸ（ω）を算出する。第２のパワースペクトル算出部１７２は、雑音参照信号Ｙ（ｔ）を入力とし、雑音参照信号Ｙ（ｔ）のパワースペクトルＹ（ω）を算出する。

語尾検出部１７６は、上述した語尾検出部１５と同様の機能を有する。語尾検出部１７６は、音混合部１３から入力される音声信号Ｘｍ（ｔ）と、雑音参照信号Ｙ（ｔ）とに基づいて、雑音参照信号Ｙ（ｔ）に対する音声信号Ｘｍ（ｔ）の音声区間の遅延区間を語尾として検出する。なお、雑音参照信号Ｙ（ｔ）としては、上述した第１の実施形態と同様に、例えばスピーカ１８において拡声される直前の音声信号などである。また、図７において、語尾検出部１７６は、ハウリング抑制部１７の内部に構成するものとしたが、ハウリング抑制部１７の外部にあってもよい。また、ハウリング抑制部１７と語尾検出部１７６は別体として、ハウリング抑制部１７が語尾検出部１７６で検出される情報を入力するようにしてもよい。

伝達特性算出部１７３は、まず、音声信号Ｘｍ（ω）と雑音参照信号Ｙ（ω）とに基づいて、数式８で示すパワースペクトル比率Ｈｒ（ω）を語尾検出部１７６において検出された語尾の区間でのみ推定する。そして、伝達特性算出部１７３は、数式８で推定したパワースペクトル比率Ｈｒ（ω）に基づいて、数式（９）に示す伝達特性Ｈｓｕｐ（ω）を算出する。次に、伝達特性算出部１７３は、数式（９）で算出した伝達特性Ｈｓｕｐ（ω）に、支配率算出部１６で算出された各音声信号のループゲインおよび支配率に基づいて得られるループゲインの和の変化率を乗算して、変化率に応じた伝達特性Ｈｓｕｐ（ω）＿ｎｅｗを算出する。そして、数式１１で算出された変化率に応じた伝達特性Ｈｓｕｐ＿ｎｅｗ（ω）は、逆フーリエ変換部１７４において、時間軸上に変換される。畳み込み部１７５は、この時間軸上に変換されたフィルタ係数Ｈｓｕｐ＿ｎｅｗ（ｔ）を音混合部１３から入力される音声信号Ｘｍ（ｔ）に畳み込み、上記語尾検出部１５において検出された語尾の区間のみの信号と同じ成分のみを含む信号を音声信号Ｘｍ（ｔ）から減算する。この場合、変化率に応じた伝達特性Ｈｓｕｐ（ω）＿ｎｅｗは、ハウリングの初期発生時のループゲインを用いて求められるループゲインの和の変化率に基づいている。このため、ハウリングの初期発生が起こっている音声信号およびその周波数成分を考慮したハウリング抑制を行うことができる。

なお、本実施形態においては、Ｈｓｕｐ（ω）の算出（数式（９））は、語尾検出部１７６において語尾が検出されたときに行われる。支配率に基づいたループゲインの和の変化率によるＨｓｕｐ（ω）の更新（数式（１１））は、ハウリング発生検出部２１でハウリングの初期発生が検出されたときに行われる。また、数式９で算出されたＨｓｕｐ（ω）の学習は、例えば語尾が検出されるたびに所定の方式によって行うようにしてもよい。また、数式１１で算出されるＨｓｕｐ（ω）の学習は、例えばハウリングの初期発生を検出するたびに所定の方式によって行うようにしてもよい。

以上のように、本実施形態によれば、支配率算出部１６においてハウリングの初期発生時の各音声信号のループゲインおよび支配率を算出する。そして、当該支配率に基づいたループゲインの和の変化率で伝達特性を算出する。また、当該支配率は、音特性調整部１２の出力信号に基づいて算出されるので、音特性調整部１２において調整される周波数やゲインの特性に連動した値である。これにより、複数の音声信号を混合して拡声する拡声システムにおいて、上記支配率に基づいてハウリング抑制に用いる伝達特性を算出することで、音特性調整部１２よる伝達特性の急激な変化で発生するハウリングに対して、ロバストなハウリングの抑制を行うことができる。つまり、ユーザのミキサ操作によるＭ（ω）の急激な変化によってハウリングが発生しかかっても、ロバストなハウリングの抑制を実現することで、結果的にハウリングの発生を防止することができる。

（第３の実施形態）
図８および図９を参照して、本発明における第３の実施形態に係るハウリング検出方法を採用したハウリング警告装置について説明する。図８は、ハウリング警告装置の構成例を示すブロック図である。図８において、ハウリング警告装置は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、音特性調整部１２、音混合部１３、レベル検出部１４、語尾検出部１５、支配率算出部１６、スピーカ１８、およびハウリング警告部３１を有する。

図９は、ハウリング発生検出部２１を用いたハウリング警告装置の構成例を示すブロック図である。図９において、ハウリング警告装置は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、音特性調整部１２、音混合部１３、レベル検出部１４、ハウリング発生検出部２１、支配率算出部１６、スピーカ１８、およびハウリング警告部３１を有する。図８および図９に示すように、本実施形態では、上述した第１および第２の実施形態におけるハウリング抑制部１７および２２に代わって、ハウリング警告部３１を備える点で異なる。換言すれば、上述した本発明におけるハウリング検出装置にハウリング警告部３１を備えたものである。以下、異なる点を中心に説明する。また、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、音特性調整部１２、音混合部１３、レベル検出部１４、語尾検出部１５、支配率算出部１６、ハウリング発生検出部２１、およびスピーカ１８は、上述した第１および第２の実施形態と同様であるので、同一の符号を付して説明を省略する。

図８において、ハウリング警告部３１は、支配率算出部１６において算出された語尾区間に基づく支配率に応じて、どの音声信号が原因でハウリングが発生する危険があるかをユーザに警告する。警告するための表示手段としては、例えば音声信号の周波数やゲインの特性を調整するミキサの各チャンネルにランプを設置して、ハウリングが発生する可能性があるチャンネルに対して点滅などさせる手段などがある。そして、例えば支配率が最も高い（ハウリングを発生させる危険度が高い）音声信号のチャンネルのランプを点滅させる。また、例えば支配率が高い複数のチャンネルのランプを点滅させてもよい。また、支配率が周波数帯域毎に算出される場合には、各チャンネルに対して周波数帯域ごとのランプを設け、帯域毎にランプを点滅させてもよい。また、表示手段としては、上記ランプに限らず、ディスプレイ上に表示するものであってもよいし、その他の表示手段であってもよい。また、警告するだけではなく、警告に応じて自動的に音特性調整部１２で音特性を変更し（例えば、ゲインが下げ）、ハウリングを未然に防止するようにしてもよい。

また、図９に示すように、ハウリングの初期発生に基づく支配率に応じて、どの音声信号が原因でハウリングが発生する危険があるかをユーザに警告するものであってもよい。図９において、ハウリング警告部３１は、支配率算出部１６において算出されたハウリングの初期発生に基づく支配率を参照することで、どの音声信号でハウリングの初期発生が起きているかをユーザに警告することができる。

以上のように、本実施形態では、ハウリング警告部３１において、支配率算出部１６において算出された支配率に応じて、どの音声信号が原因でハウリングが発生する危険があるか、またはどの音声信号でハウリングの初期発生が起きているかをユーザに警告する。これにより、ユーザは、入力される音声信号が複数あっても、ハウリングの発生を未然に防止しながら、ミキサ操作などを各音声信号に対して行うことができる。

また、上述した第１〜第３の実施形態で説明した各構成部のうち少なくとも一部の構成は、集積回路でも実現可能である。以下、各実施形態について具体例を説明する。上述した第１の実施形態で説明したレベル検出部１４、語尾検出部１５、支配率算出部１６、およびハウリング抑制部１７は、例えば、音特性調整部１２から出力される音声信号（図１では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））、音混合部１３から出力される音声信号（図１では、Ｘｍ（ｔ））、および雑音参照信号（図１では、Ｙ（ｔ））を入力とし、音声信号処理結果を適宜増幅部などで増幅して、スピーカ１８へ出力する集積回路でも実現可能である。また、上述した第２の実施形態で説明したレベル検出部１４、ハウリング発生検出部２１、支配率算出部１６、およびハウリング抑制部１７は、例えば、音特性調整部１２から出力される音声信号（図６では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））、音混合部１３から出力される音声信号（図６では、Ｘｍ（ｔ））、および雑音参照信号（図６では、Ｙ（ｔ））を入力とし、音声信号処理結果を適宜増幅部などで増幅して、スピーカ１８へ出力する集積回路でも実現可能である。また、上述した第３の実施形態の図８において説明したレベル検出部１４、語尾検出部１５、および支配率算出部１６は、例えば、音特性調整部１２から出力される音声信号（図８では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））と、音混合部１３から出力される音声信号（図８では、Ｘｍ（ｔ））とを入力とし、音声信号処理結果をハウリング警告部３１へ出力する集積回路でも実現可能である。また、上述した第３の実施形態の図９において説明したレベル検出部１４、ハウリング発生検出部２１、および支配率算出部１６は、例えば、音特性調整部１２から出力される音声信号（図９では、Ｘｍ１（ｔ）およびＸｍ２（ｔ））と、音混合部１３から出力される音声信号（図９では、Ｘｍ（ｔ））とを入力とし、音声信号処理結果をハウリング警告部３１へ出力する集積回路でも実現可能である。このように上述した第１〜第３の実施形態では、上述した各機能を果たす電気回路を１つの小型パッケージに集積して、例えば音声信号処理回路ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等を構成することによって、本発明の実現が可能となる。

本発明にかかるハウリング検出装置およびその方法は、支配率を算出することで、複数の音声信号それぞれについて、ハウリングを発生させる危険度を検出することが可能な複数の音声信号を混合して拡声する拡声システムや、音声ミキサ機能つきＰＡ装置等にも有用である。

本発明の第１の発明は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える。

本発明の第２の発明は、上記第１の発明において、前記ハウリング検出装置は、前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部を、さらに備える。

本発明の第３の発明は、上記第２の発明において、前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を算出することを特徴とする。

本発明の第４の発明は、上記第３の発明において、前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第５の発明は、上記第３の発明において、前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第６の発明は、上記第１の発明において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第７の発明は、上記第１の発明において、ハウリング検出装置であって、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第８の発明は、上記第１の発明において、前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする。

本発明の第９の発明は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出部と、前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える。

本発明の第１０の発明は、上記第９の発明において、前記ハウリング検出装置は、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部とを、さらに備える。

本発明の第１１の発明は、上記第１０の発明において、前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を前記語尾の区間が検出されたときに設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を前記ハウリングの発生が検出されたときに算出することを特徴とする。

本発明の第１２の発明は、上記第１１の発明において、前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第１３の発明は、上記第１１の発明において、前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする。

本発明の第１４の発明は、上記第９の発明において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第１５の発明は、上記第９の発明において、前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える。

本発明の第１６の発明は、上記第９の発明において、前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする。

本発明の第１７の発明は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出ステップと、前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む。

本発明の第１８の発明は、複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出ステップと、前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む。

上記第１の発明によれば、語尾の区間にはハウリングの発生原因となる信号成分のみが含まれおり、支配率が当該語尾の区間に応じたレベルを用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度を検出することができる。また、支配率は音混合部で混合される前の音声信号のレベルに基づいて算出される。これにより、本発明によれば、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更されても、その変更に対応した上記危険度を検出することができる。

上記第２の発明によれば、伝達特性が支配率を用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度に応じたハウリングの抑制を行うことができる。また、伝達特性が支配率を用いて算出されることで、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更され、伝達特性が急激に変化しても、その変化に対応したロバストなハウリングの抑制を行うことができる。

上記第３の発明によれば、伝達特性が支配率に応じた総和の変化率に基づいて算出されることで、複数の音声信号のハウリングを発生させる危険度を考慮したロバストなハウリング抑制を実現することができる。

上記第４の発明によれば、複数の音声信号のうち、ハウリングを発生させる危険度が相対的に高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。

上記第５の発明によれば、複数の音声信号のうち、ハウリングを発生させる危険度が最も高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。例えばユーザのミキサ操作として、複数の音声信号のレベルを全て同時に変更したりする操作は稀であるため、支配率の最も高いものだけに追随するものであっても、ロバストなハウリングの抑制を行うことができる。

上記第６の発明によれば、支配率が相対的に高い音声信号を特定することによって、ユーザに対して、複数の音声信号のうち、どの音声信号がハウリングを発生させる危険度が相対的に高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第７の発明によれば、支配率が最も高い音声信号を特定することによって、ユーザに対して、複数の音声信号のうち、どの音声信号がハウリングを発生させる危険度が最も高いかを通知することができる。また、例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第８の発明によれば、複数の音声信号のレベルがパワースペクトルで算出されることで、ハウリングを発生させる危険度を周波数帯域ごとに検出することができる。

上記第９の発明によれば、ハウリングが発生したとき、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度を検出することができる。また、支配率は音混合部で混合される前の音声信号のレベルに基づいて算出される。これにより、本発明によれば、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更されても、その変更に対応した上記危険度を検出することができる。

上記第１０の発明によれば、伝達特性が支配率を用いて算出されることで、複数の音声信号のうちどの音声信号がハウリングを発生させるのかという危険度に応じたハウリングの抑制を行うことができる。また、伝達特性が支配率を用いて算出されることで、音混合部で混合される前において、例えば複数の音声信号の周波数および／またはゲインの特性がそれぞれ変更され、伝達特性が急激に変化しても、その変化に対応したロバストなハウリングの抑制を行うことができる。

上記第１１の発明によれば、伝達特性が支配率に応じた総和の変化率に基づいて算出されることで、語尾の区間が到来する前に、複数の音声信号のハウリングを発生させる危険度を考慮したロバストなハウリング抑制を実現することができる。

上記第１２の発明によれば、複数の音声信号のうち、ハウリングを発生させる危険度が相対的に高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。

上記第１３の発明によれば、複数の音声信号のうち、ハウリングを発生させる危険度が最も高い音声信号に対応した伝達特性が算出されるので、高効率なハウリング抑制を実現することができる。例えばユーザのミキサ操作として、複数の音声信号のレベルを全て同時に変更したりする操作は稀であるため、支配率の最も高いものだけに追随するものであっても、ロバストなハウリングの抑制を行うことができる。

上記第１４の発明によれば、ハウリングが発生した場合において、ユーザに対して、複数の音声信号のうちどの音声信号がハウリングを発生させる危険度が相対的に高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第１５の発明によれば、ハウリングが発生した場合において、ユーザに対して、複数の音声信号のうちどの音声信号がハウリングを発生させる危険度が最も高いかを通知することができる。また、ユーザが例えばミキサなどの操作において収音される音声信号が複数あっても、ユーザは上記危険度を参照することでハウリングの発生を未然に防止しながら操作を行うことができる。

上記第１６の発明によれば、複数の音声信号のレベルがパワースペクトルで算出されることで、ハウリングを発生させる危険度を周波数帯域ごとに検出することができる。

音特性調整部１２は、音声信号Ｘ１（ｔ）およびＸ２（ｔ）を入力とし、当該音声信号の周波数やゲインの特性をそれぞれ調整する。なお、音特性調整部１２で調整された音声信号Ｘ１（ｔ）をＸｍ１（ｔ）とする。同様に音特性調整部１２で調整された音声信号Ｘ２（ｔ）をＸｍ２（ｔ）とする。音特性調整部１２で調整された音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）は、レベル検出部１４と音混合部１３とにそれぞれ出力される。音混合部１３に入力された音声信号Ｘｍ１（ｔ）およびＸｍ２（ｔ）は、当該音混合部１３において混合される。この混合された音声信号をＸｍ（ｔ）とする。そして、音混合部１３において混合された音声信号Ｘｍ（ｔ）は、語尾検出部１５およびハウリング抑制部１７に出力される。なお、音特性調整部１２および音混合部１３は、例えば図２に示すような市販のミキサなどである。

図２は、音特性調整部１２および音混合部１３の構成例を示すブロック図である。図２において、音特性調整部１２は、例えばイコライザ１２１ａ、イコライザ１２１ｂ、増幅部１２２ａ、および増幅部１２２ｂを有する。イコライザ１２１ａは、第１のマイクロフォン１１ａで収音して生成された音声信号Ｘ１（ｔ）の周波数特性を調整する。増幅部１２２ａは、イコライザ１２１ａで調整された音声信号のゲインを調整する。同様に、イコライザ１２１ｂおよび増幅部１２２ｂは、第２のマイクロフォン１１ｂで収音して生成された音声信号Ｘ２（ｔ）の周波数やゲインの特性を調整する。このように音特性調整部１２では、通常のミキサと同様に、第１および第２のマイクロフォン１１ａおよび１１ｂで収音された各音声信号の周波数やゲインの特性がそれぞれ独立して調整される。

このように、空間伝播される信号成分のみが含まれる語尾の区間に対して、支配率算出部１６は、各音声信号の支配率が算出することによってどの音声信号が支配的であるかを検出することができる。ここで、空間伝播される信号成分は、ハウリングの発生原因となる信号成分である。したがって、支配率算出部１６は、例えば図１５に示すＲ１（ω）の経路で伝わる音が支配的なのか、あるいはＲ２（ω）の経路で伝わる音が支配的なのかをハウリング発生前に検出することができる。そして、支配的である音声信号ほどハウリングを発生させる危険度が高い。なお、音特性調整部１２、音混合部１３、レベル検出部１４、語尾検出部１５、および支配率算出部１６は、本発明におけるハウリング検出装置に相当するものである。そして、本発明におけるハウリング検出装置は、上記支配率を算出することで、複数の音声信号それぞれについてハウリングを発生させる危険度を検出することができる。

語尾検出部１７６は、上述した語尾検出部１５と同様の機能を有する。語尾検出部１７６は、音混合部１３から入力される音声信号Ｘｍ（ｔ）と、雑音参照信号Ｙ（ｔ）とに基づいて、雑音参照信号Ｙ（ｔ）に対する音声信号Ｘｍ（ｔ）の音声区間の遅延区間を語尾として検出する。なお、雑音参照信号Ｙ（ｔ）としては、上述した第１の実施形態と同様に、例えばスピーカ１８において拡声される直前の音声信号などである。また、図７において、語尾検出部１７６は、ハウリング抑制部２２の内部に構成するものとしたが、ハウリング抑制部２２の外部にあってもよい。また、ハウリング抑制部２２と語尾検出部１７６は別体として、ハウリング抑制部２２が語尾検出部１７６で検出される情報を入力するようにしてもよい。

伝達特性算出部１７３は、まず、音声信号Ｘｍ（ω）と雑音参照信号Ｙ（ω）とに基づいて、数式８で示すパワースペクトル比率Ｈｒ（ω）を語尾検出部１７６において検出された語尾の区間でのみ推定する。そして、伝達特性算出部１７３は、数式８で推定したパワースペクトル比率Ｈｒ（ω）に基づいて、数式（９）に示す伝達特性Ｈｓｕｐ（ω）を算出する。次に、伝達特性算出部１７３は、数式（９）で算出した伝達特性Ｈｓｕｐ（ω）に、支配率算出部１６で算出された各音声信号のループゲインおよび支配率に基づいて得られるループゲインの和の変化率を乗算して、変化率に応じた伝達特性Ｈｓｕｐ（ω）＿ｎｅｗを算出する。そして、数式１１で算出された変化率に応じた伝達特性Ｈｓｕｐ＿ｎｅｗ（ω）は、逆フーリエ変換部１７４において、時間軸上に変換される。畳み込み部１７５は、この時間軸上に変換されたフィルタ係数Ｈｓｕｐ＿ｎｅｗ（ｔ）を音混合部１３から入力される音声信号Ｘｍ（ｔ）に畳み込み、上記語尾検出部１７６において検出された語尾の区間のみの信号と同じ成分のみを含む信号を音声信号Ｘｍ（ｔ）から減算する。この場合、変化率に応じた伝達特性Ｈｓｕｐ（ω）＿ｎｅｗは、ハウリングの初期発生時のループゲインを用いて求められるループゲインの和の変化率に基づいている。このため、ハウリングの初期発生が起こっている音声信号およびその周波数成分を考慮したハウリング抑制を行うことができる。

拡声システム１の構成例を示すブロック図音特性調整部１２および音混合部１３の構成例を示すブロック図雑音参照信号Ｙ（ｔ）および音声信号Ｘｍ（ｔ）の波形を示す図ループゲインＧ１（ω）、Ｇ２（ω）、およびループゲインの和（Ｇ１（ω）＋Ｇ２（ω））のスペクトラムの一例を示す図ハウリング抑制部１７の構成の一例を示すブロック図拡声システム２の構成例を示すブロック図第２の実施形態におけるハウリング抑制部２２の構成の一例を示すブロック図ハウリング警告装置の構成例を示すブロック図ハウリング発生検出部２１を用いたハウリング警告装置の構成例を示すブロック図複数の音声信号を混合して拡声する拡声システム９において上記特許文献１および特許文献２に開示されたハウリング抑制装置を採用した構成例を示す図音特性調整部９２および音混合部９３の構成例を示すブロック図適応フィルタ９４１を用いたハウリング抑制部９４の構成例を示すブロック図音混合部９３から出力された音声信号のパワースペクトルＸ（ω）のハウリング発生時の変化を示す図１入力時の拡声システム９において、伝達特性に関係する各構成の特性を模式的に示した図複数入力時の拡声システム９において、伝達特性と関係する各構成の特性を模式的に示した図

符号の説明

Claims

複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、
複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、
前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、
前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える、ハウリング検出装置。
前記ハウリング検出装置は、前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部を、さらに備える、請求項１に記載のハウリング検出装置。
前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を算出することを特徴とする、請求項２に記載のハウリング検出装置。
前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする、請求項３に記載のハウリング検出装置。
前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする、請求項３に記載のハウリング検出装置。
前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える、請求項１に記載のハウリング検出装置。
前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える、請求項１に記載のハウリング検出装置。
前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする、請求項１に記載のハウリング検出装置。
複数のマイクロフォンから収音されたそれぞれの音声信号を音混合部で混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出装置であって、
複数の前記音声信号のレベルをそれぞれ検出するレベル検出部と、
前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出部と、
前記レベル検出部が検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出部とを備える、ハウリング検出装置。
前記ハウリング検出装置は、
前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出部と、
前記支配率を用いて算出された伝達特性に基づいて、前記語尾の区間に含まれる信号と同じ成分を有する信号を前記混合信号から減算して前記スピーカに出力するハウリング抑制部とを、さらに備える、請求項９に記載のハウリング検出装置。
前記ハウリング抑制部は、前記語尾の区間に含まれる信号と同じ成分を有する信号を除いた前記混合信号を推定する関数を前記語尾の区間が検出されたときに設定し、前記支配率に応じて前記総和を更新し、当該更新前後の総和の変化率を前記関数に乗じて前記伝達特性を前記ハウリングの発生が検出されたときに算出することを特徴とする、請求項１０に記載のハウリング検出装置。
前記ハウリング抑制部は、相対的に高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする、請求項１１に記載のハウリング検出装置。
前記ハウリング抑制部は、最も高い支配率を示す音声信号のレベルのみを更新して前記総和を更新することを特徴とする、請求項１１に記載のハウリング検出装置。
前記ハウリング検出装置は、前記支配率算出部において算出された支配率が相対的に高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える、請求項９に記載のハウリング検出装置。
前記ハウリング検出装置は、前記支配率算出部において算出された支配率が最も高い音声信号を特定して、ユーザに通知するハウリング警告部をさらに備える、請求項９に記載のハウリング検出装置。
前記レベル検出部は、複数の前記音声信号レベルをパワースペクトルでそれぞれ検出することを特徴とする、請求項９に記載のハウリング検出装置。
複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、
複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、
前記スピーカで拡声される音響に関する信号を雑音参照信号として当該雑音参照信号と前記混合信号とを時系列的に比較し、当該雑音参照信号がたち下がった後に当該混合信号が入力される時間を語尾の区間として検出する語尾検出ステップと、
前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記語尾の区間に応じたレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む、ハウリング検出方法。
複数のマイクロフォンから収音されたそれぞれの音声信号を音混合ステップで混合した混合信号をスピーカで拡声するときに発生するハウリングに対して、当該音声信号それぞれに対してハウリングを発生させる危険度を示す支配率を検出するハウリング検出方法であって、
複数の前記音声信号のレベルをそれぞれ検出するレベル検出ステップと、
前記混合信号のパワースペクトルを算出して、当該パワースペクトルの変化に基づいてハウリングの発生を検出するハウリング発生検出ステップと、
前記レベル検出ステップが検出した複数の前記音声信号のレベルからそれぞれ前記ハウリングの発生が検出されたときのレベルのみを抽出し、当該複数の音声信号のレベルの総和に対する各音声信号のレベルの比率を前記音声信号それぞれの支配率として算出する支配率算出ステップとを含む、ハウリング検出方法。