JP5130895B2

JP5130895B2 - 音声処理装置、音声処理システム、音声処理プログラム及び音声処理方法

Info

Publication number: JP5130895B2
Application number: JP2007322517A
Authority: JP
Inventors: 洋平櫻庭; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-13
Filing date: 2007-12-13
Publication date: 2013-01-30
Anticipated expiration: 2027-12-13
Also published as: JP2009147654A; US8194851B2; US20090154692A1

Description

本発明は、例えば複数の話者が発話する会議室のような環境において収音された音声を処理することによって、エコーやハウリングの影響を抑える音声処理装置、音声処理システム及び音声処理プログラムに関する。

従来、例えば、離れた場所で同時に開催される会議を円滑に進めるため、互いの会議室（第１及び第２の会議室と言う。）に設置されたビデオ会議システムを用いて、話者が相互に発言したり、話者の様子を映し出したりすることが可能なビデオ会議システムが用いられている。このビデオ会議システム（以下、拡声通話系とも称する。）は、互いの会議室内の様子を映したり、話者の発言内容を放音したりすることが可能な複数の映像／音声処理装置を備える。以下の説明において、映像／音声処理装置は、それぞれ第１及び第２の会議室に設置されているとする。

映像／音声処理装置は、会議中の音声を収音するマイクロホンと、話者を撮影するカメラと、マイクロホンで収音した話者の音声に所定の処理を施す信号処理部と、他の会議室で発話する話者の様子を映し出す表示部と、話者の発話内容を放音するスピーカ等を備える。
それぞれの会議室に設置された映像／音声処理装置は、通信回線を介して接続される。そして、記録した映像／音声データを互いに送受信することによって、それぞれの会議室の様子を表示し、発話内容を放音する。

このようなビデオ会議システムにおいて、スピーカが放音した音声は、壁等に反射して、マイクロホンに入力される。この入力した音声に対して、何も処理を行わない場合、音声データは、再び映像／音声処理装置へ送られる。このため、第２の会議室にいる話者にとってみると、こだまのように自分の発声が少し遅れてスピーカから聞こえる現象が引き起こされる。このような現象を、「エコー」という。エコーが大きくなると、スピーカで放音された音声が再びマイクロホンに入力され、拡声通話系をループするため、ハウリングを引き起こす。

従来、エコーやハウリングを防止するために、エコーキャンセラと呼ばれる技術が用いられている。一般的に、エコーキャンセラでは、まず、適応フィルタを用いて、スピーカとマイクロホン間のインパルスレスポンスを測定する。そして、マイクロホンに入力されるスピーカからの音声に対して、スピーカから放音されるリファレンス信号にインパルスレスポンスを畳み込んだ擬似エコーを生成する。そして、マイクロホンに入力された音声から疑似エコーを差し引く。疑似エコーを差し引くことによって、エコーやハウリングの発生要因となる不要な音声を除くことができる。

特許文献１には、収音時にチャネル相互に混合されたステレオ信号を低いＳＮ比で、かつ、少ない演算量で本来のチャネル信号に分離する技術について開示されている。
特開２００３−２７１１６７号公報

ところで、ビデオ会議の出席者が体を動かすなどして、音声の反射の関係が変わるだけで、スピーカとマイクロホン間のインパルスレスポンスは容易に変化する。このため、適応フィルタが追従して、インパルスレスポンスを演算し、疑似エコーを生成するにはある程度の時間が必要である。つまり、スピーカからの直接音や壁からの反射音から、音源が発する音声と疑似エコーを求める時間は、例えば１０秒程度かかってしまう。そして、拡声通話系が変化してから（例えば、ピン型のマイクロホン等を装着した話者が移動する場合）適応フィルタでエコーキャンセル可能となるまでの間は、擬似エコーを正確に生成できない。このため、インパルスレスポンスが変化すると、エコーが大きく戻ることがあり、ひどい場合にはハウリングが引き起こされてしまう。

また、一般に適応フィルタの演算量は、高速フーリエ変換(ＦＦＴ：Fast Fourier Transform)やフィルタバンクに比べて大きくなる。このため、処理性能が低い信号処理装置で適応フィルタを用いると、高速に演算できない。また、例えば、体育館等の広い場所で、適応フィルタを用いてエコーキャンセルしようとしても、スピーカからマイクロホンまでの距離が大きくなったり、残響時間が長くなったり、適応フィルタに長いタップ長が必要となったりするため、さらに演算量が増加してしまい、有効な解決策が求められていた。

また、適応フィルタを用いる処理以外に、特許文献１に記載されているような技術も提案されている。しかしながら、従来の技術では、行列パラメータを求める際に瞬時値を用いているが、行列パラメータに瞬時値を直接あてはめると、瞬時値がばらついてしまう。このため、音源（例えば、発話する話者）から収音した音声からエコーやノイズを分離する音源分離処理を精度よく実現できない。

本発明はこのような状況に鑑みて成されたものであり、収音した音声に含まれるエコー成分を精度よく取り除くことを目的とする。

本発明は、第１の音源が発する音声を複数のマイクロホンによって収音し、収音された第１の音源が発する音声がエコー成分として含まれる第２の音源が発する音声を、複数のマイクロホンが収音する場合に、複数のマイクロホンによって生成された音声信号を処理する場合に好適である。すなわち、複数のマイクロホンのうち、少なくとも第１のマイクロホンによって生成された第１の音声信号と、第２のマイクロホンによって生成された第２の音声信号を、所定の周波数帯域に分割する。そして、第１及び第２のマイクロホンが収音した音声のパワーに基づいて、所定の周波数帯域に分割された第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離し、定常信号に含まれるノイズ成分を抑え、非定常信号から第２の音源が発する音声に含まれる第１の音源が発する音声のエコー成分を分離する。そして、第１の音源のエコー成分が分離された第１及び第２の音声信号を、第１の音源が発する音声を含む音声信号に合成し、分離された第１の音源のエコー成分を含む音声信号に合成する。

このようにしたことで、エコー成分を取り除いた音声信号が得られる。

本発明によれば、例えば、第１の音源である話者の音声と、第２の音源であるスピーカが放音する音声を、複数のマイクロホンによって収音する場合に、話者の音声をエコー成分として含むスピーカから収音した音声からエコー成分を取り除くことができる。このため、従来、収音した音声にエコーが生じていた通話系であっても、エコーやハウリングが起こることなく、第１の音源である話者の音声のみからなる音声信号が得られる。このため、得られる音声信号の品質が高まるという効果がある。

以下、本発明の一実施の形態について、添付図面を参照して説明する。本実施の形態では、映像データと音声データの処理を行う映像／音声処理システムとして、遠隔地間で映像データと音声データをリアルタイムで送受信可能なビデオ会議システム１０に適用した例として説明する。

図１は、ビデオ会議システム１０の構成例を示すブロック図である。
互いに離れた場所に位置する第１及び第２の会議室には、映像データと音声データを処理することが可能な映像／音声処理装置１，２１が設置される。映像／音声処理装置１，２１は、イーサネット（登録商標）等からなるディジタルデータを通信可能なディジタル通信回線９によって互いに接続される。そして、映像／音声処理装置１，２１は、通信回線９を介して、データの伝送タイミング等を制御する制御装置３１によって集中制御される。以下、映像／音声処理装置１，２１が２つの拠点（第１及び第２の会議室）に設置された場合について説明するが、映像／音声処理装置は３つ以上の拠点に設置されていてもよい。

以下、映像／音声処理装置１の内部構成例について説明する。ただし、映像／音声処理装置２１は、映像／音声処理装置１とほぼ同じ構成であるため、映像／音声処理装置２１の内部ブロックの記載と、詳細な説明は省略する。

映像／音声処理装置１は、話者が発話する音声を収音してアナログ音声データを生成する第１のマイクロホン２ａ，第２のマイクロホン２ｂを備える。そして、映像／音声処理装置１は、第１のマイクロホン２ａ，第２のマイクロホン２ｂから供給されるアナログ音声データを、アンプ（不図示）で増幅し、ディジタル音声データに変換するアナログ／ディジタル（Ａ／Ｄ：Analog/Digital）変換部３ａ，３ｂと、アナログ／ディジタル（Ａ／Ｄ：Analog/Digital）変換部３ａ，３ｂから供給されるディジタル音声データに所定の処理を施す音声用の信号処理部４と、を備える。

話者の近くに置かれた第１のマイクロホン２ａと、スピーカ７の近くに置かれた第２のマイクロホン２ｂは、それぞれ収音した音声より、アナログ音声データを生成する。第１のマイクロホン２ａ，第２のマイクロホン２ｂは、第１の会議室に参加する話者が発話する音声を収音するとともに、スピーカ７から放音される音声も空間を介して重畳して収音する。第１のマイクロホン２ａ，第２のマイクロホン２ｂから供給されるアナログ音声データは、アナログ／ディジタル変換部３ａ，３ｂによって、例えば４８ｋＨｚサンプリング１６ビットＰＣＭ（Pulse-Code Modulation）のディジタル音声データに変換される。変換されたディジタル音声データは、信号処理部４に１サンプルずつ供給される。

ところで、本例では、話者（不図示）を第１の音源Ｓ１とし、スピーカ７を第２の音源Ｓ２として擬似的に示している。話者が発話した音声は、映像／音声処理装置１をループしてスピーカ７から放音される。つまり、複数の拠点のうち、第１の拠点（第１の会議室）に設置される第２の音源Ｓ２が発する音声は、第１の拠点で収音された音声が放音される第２の拠点（第２の会議室）で収音された音声を含む。
そして、第１の音源Ｓ１が発する音声を収音する第２のマイクロホン２ｂの第１の伝達特性Ｈ_２１（ω）と、第１の音源Ｓ１が発する音声を収音する第１のマイクロホン２ａの第２の伝達特性Ｈ_１１（ω）とを定める。また、第２の音源Ｓ２が発する音声を収音する第１のマイクロホン２ａの第３の伝達特性Ｈ_１２（ω）と、第２の音源Ｓ２が発する音声を収音する第２のマイクロホン２ｂの第４の伝達特性Ｈ_２２とを定める。これら第１〜第４の伝達特性は、後述する信号処理部４で音声分離に用いられるパラメータである。

信号処理部４は、ディジタル・シグナル・プロセッサ（ＤＳＰ：Digital Signal Processor）で構成される。信号処理部４が行う処理の詳細は、後述する。

また、映像／音声処理装置１は、信号処理部４から供給されるディジタル音声データをビデオ会議システム１０の通信で標準的に定められている符号に符号化する音声コーデック部５を備える。音声コーデック部５は、通信インタフェースである通信部８を介して映像／音声処理装置２１から受け取る符号化されたディジタル音声データをデコードする機能も有する。また、映像／音声処理装置１は、音声コーデック部５から供給されるディジタル音声データをアナログ音声データに変換するディジタル／アナログ（Ｄ／Ａ：Digital/Analog）変換部６と、ディジタル／アナログ変換部６から供給されるアナログ音声データをアンプ（不図示）で増幅し、放音するスピーカ７と、を備える。

また、映像／音声処理装置１は、話者を撮影して、アナログ映像データを生成するカメラ１１と、カメラ１１から供給されるアナログ映像データをディジタル映像データに変換するアナログ／ディジタル変換部１４と、を備える。アナログ／ディジタル変換部１４で変換されたディジタル映像データは、映像用の信号処理部４ａに供給されて、所定の処理が施される。

また、映像／音声処理装置１は、信号処理部４ａで所定の処理が施されたディジタル映像データを符号化する映像コーデック部１５と、映像コーデック部１５から供給されるディジタル映像データをアナログ映像データに変換するディジタル／アナログ変換部１６と、ディジタル／アナログ変換部１６から供給されるアナログ映像データをアンプ（不図示）で増幅し、映像を表示する表示部１７と、を備える。

通信部８は、相手側機器である映像／音声処理装置２１と制御装置３１に対して、ディジタル映像／音声データの通信を制御する。通信部８は、音声コーデック部５で所定の符号化方式（例えば、ＭＰＥＧ（Moving Picture Experts Group）−４ＡＡＣ（Advanced Audio Coding）方式、Ｇ．７２８方式）に符号化されたディジタル音声データと、映像コーデック部１５で所定の方式に符号化されたディジタル映像データを所定のプロトコルでパケットに分割する。そして、通信回線９を介して映像／音声処理装置２１に伝送する。

また、映像／音声処理装置１は、音声処理装置２１からディジタル映像／音声データのパケットを受け取る。通信部８は、受け取ったパケットを組立て、音声コーデック部５と映像コーデック部１５でデコードする。デコードされたディジタル音声データは、信号処理部４で所定の処理が施された後、Ｄ／Ａ変換部６を介して、アンプ（不図示）で増幅され、スピーカ７で放音される。同様に、デコードされたディジタル映像データは、信号処理部４で所定の処理が施された後、Ｄ／Ａ変換部１６を介して、アンプ（不図示）で増幅され、表示部１７で映像が表示される。

表示部１７は、画面分割することによって、第１及び第２の会議室に集まっている話者の様子を表示する。このため、第１及び第２の会議室が遠くに離れていても、各話者は、互いの距離を感じることなく、会議を行うことができる。

次に、信号処理部４の内部構成例について、図２のブロック図を参照して説明する。本実施の形態に係る信号処理部４は、ディジタル音声データに対して所定の処理を施すことを特徴とする。

信号処理部４は、アナログ／ディジタル変換部３ａ，３ｂからそれぞれ供給されるディジタル音声データに含まれる音声信号を、時間領域から周波数領域に変換し、１０２４チャンネルに帯域分割する帯域分割部４１ａ，４１ｂと、帯域分割された音声信号から、収音した音声に含まれるエコー成分とノイズ成分を取り除く音源分離を行う音源分離部４２−１〜４２−１０２４と、エコー成分とノイズ成分を取り除いた音声信号を帯域毎に合成して、ディジタル音声データを生成する帯域合成部４３と、を備える。ただし、音声信号からエコー成分だけを取り除く場合についても音源分離という。帯域合成部４３で合成されたディジタル音声データは、音声コーデック部５に供給され、所定の処理が施される。

第１のマイクロホン２ａ，第２のマイクロホン２ｂから供給されるアナログ音声データは、アナログ／ディジタル変換部３ａ，３ｂによって、ディジタル音声データに変換される。変換されたディジタル音声データは、帯域分割部４１ａ，４１ｂに送られる。

帯域分割部４１ａ，４１ｂは、ディジタル音声データに含まれる音声信号を、所定の周波数帯域毎に分割する帯域分割処理を行う。帯域分割処理には、例えば、フーリエ変換を用いる。フーリエ変換により、時間領域から周波数領域への変換をし、処理を加えた後に、フーリエ逆変換をすることで時間領域のデータに再合成できる。ただし、帯域分割部４１ａ，４１ｂが行う帯域分割処理として、公知文献１（渡口和信著「完全再構成ＤＦＴフィルタバンクを用いたサブバンド適応フィルタ」電子情報通信学会論文誌、1996年8月、Vol.J79-A No.8 pp.1385-1393）に記載されているＤＦＴ（Discrete Fourier Transform：離散フーリエ変換）フィルタバンク等の技術を用いても構わない。また、本例において、第１のマイクロホン２ａ，第２のマイクロホン２ｂのそれぞれに対応して、帯域分割部４１ａ，４１ｂを設けているが、１つの帯域分割部を用いて、複数のマイクロホンが生成する音声信号を所定の周波数帯域毎に分割するようにしてもよい。

帯域分割部４１ａ，４１ｂによって帯域分割された音声信号には、例えば、最も低域のチャンネルが第１チャンネルとし、最も高域のチャンネルが第１０２４チャンネルとするよう帯域の順に番号が振られる。そして、帯域分割部４１ａ，４１ｂが出力する同じチャンネル（例えば、第ｎチャンネル）の音声信号は、音源分離部４２−ｎに供給される。このため、第１チャンネルの音声信号は、音源分離部４２−１に供給される。また、第２チャンネルの音声信号は、音源分離部４２−２に供給される。以下、同様に、帯域分割部４１ａ，４１ｂが出力する第１０２４チャンネルの音声信号は、音源分離部４２−１０２４に供給される。

音源分離部４２−１〜４２−１０２４は、第１のマイクロホン２ａ，第２のマイクロホン２ｂのパワーに基づいて音源分離を行う。つまり、帯域分割部４１ａ，４１ｂで分割された音声信号の所定の周波数帯域毎に、第２の音源Ｓ２が発する音声に含まれる第１の音源が発する音声のエコー成分を分離する。

また、音源分離部４２−１〜４２−１０２４は、時間の変動が少なく定常的に生じる定常ノイズを除く機能も有する。この場合、音源分離部４２−１〜４２−１０２４は、収音した音声から定常ノイズを取り除くため、第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離する。そして、定常信号に含まれるノイズ成分を抑え、非定常信号から第２の音源が発する音声に含まれる第１の音源が発する音声のエコー成分を分離する。

帯域合成部４３は、音源分離部４２−１〜４２−１０２４によって音源分離された音声信号を受取る。そして、音源分離された音声信号のうち、所定の周波数帯域毎に第１の音源が発する音声を含む音声信号に合成する。さらに、所定の周波数帯域毎に分離された第１の音源のエコー成分を含む音声信号に合成する。そして、帯域合成部４３は、合成した音声信号を、他の処理部で処理可能な形式のディジタル音声データとして、音声コーデック部５へ送る。

従来の音源分離部（本例の音源分離部４２−１〜４２−１０２４に相当する。）は、音源分離方式ＳＡＦＩＡ（sound source Segregation based on estimating incident Angle of each Frequency component of Input signals Acquired by multiple microphones）を基にした技術を用いて、音声信号に含まれるエコーを分離し、話者が発する音声のみとする音源分離を行っていた。音源分離方式ＳＡＦＩＡの基本的な処理は、公知文献２（青木真理子共著「残響下における音源分離方式ＳＡＦＩＡの性能改善」2004年9月、電子情報通信学会論文誌 Vol.J87-A No.9 pp.1171-1186）や、公知文献３（青木真理子共著「音源分離方式ＳＡＦＩＡを用いた高騒音下における近接音源の分離抽出」2005年4月、電子情報通信学会論文誌 Vol.J88-A No.4 pp.468-479）に記載されている。しかし、従来の音源分離方式は、マイクロホン間のパワー差だけを基に周波数を選択する方式であり、適応処理のように室内のインパルス応答を求めていない。このため、求められるパラメータ数が少なくなり、拡声通話系が変動しても影響を受けにくい。

従来の音源分離方式ＳＡＦＩＡを用いて音源分離を行う場合、次式（１）を用いて、行列パラメータＨ（ω）を求める。各変数のうち、ωは周波数、ｉは第１のマイクロホン２ａと第２のマイクロホン２ｂが、第１の音源Ｓ１と第２の音源Ｓ２が発する音声を収音する時間、Ｔｈ_１は第１の閾値、Ｔｈ_２は第２の閾値、Ｅは期待値を示す関数である。そして、行列パラメータＨ（ω）は、音源Ｓ_ｍからマイクロホンｎへの伝達特性（周波数応答）Ｈ_ｎｍ（ω）を要素とする（２×２）の混合行列である。
Ｈ_１１（ω，ｉ）は、第１の音源Ｓ１から第１のマイクロホン２ａへの第１の伝達特性を示す。
Ｈ_２１（ω，ｉ）は、第１の音源Ｓ１から第２のマイクロホン２ｂへの第２の伝達特性を示す。
Ｈ_１２（ω，ｉ）は、第２の音源Ｓ２から第１のマイクロホン２ａへの第３の伝達特性を示す。
Ｈ_２２（ω，ｉ）は、第２の音源Ｓ２から第２のマイクロホン２ｂへの第４の伝達特性を示す。

次に、第１のマイクロホン２ａが生成する音声信号から求められるパワーを第１のパワーＸ_１（ｎ）とし、第２のマイクロホン２ｂが生成する音声信号から求められる第２のパワーＸ_２（ｎ）とする。第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）は、時間変化する値であり、所定の期間で時間平均される。

そして、次式（２），（３）より、第１の音源Ｓ１が発する音声である時間変化する第１の音声信号Ｙ_１（ω，ｉ）と、第２の音源Ｓ２が発する音声である第２の音声信号Ｙ_２（ω，ｉ）を求めることによって音声分離を行う。第１の音声信号Ｙ_１（ω，ｉ）は、目的音である話者の音声を含む音声信号である。第２の音声信号Ｙ_２（ω，ｉ）は、エコー成分の音声を含む音声信号である。

式（２）は、第１の音声信号Ｙ_１（ω，ｉ）と、第２の音声信号Ｙ_２（ω，ｉ）の瞬時値を求める式である。

式（３）は、式（１）で求めた行列パラメータＨ（ω）を時間平均することによって、第１の音声信号Ｙ_１（ω，ｉ）と、第２の音声信号Ｙ_２（ω，ｉ）を求める式である。

ところで、実際の環境下で音源分離方式ＳＡＦＩＡを用いても、話者の音声からエコー成分を精度よく分離できない。このため、従来の音源分離処理に対し、本例の音源分離部４２−１〜４２−１０２４を用いて音源分離処理を行う際には、次式（４）〜（６）が用いる。各変数は、上述した従来の音源分離処理を行う式（１）〜（３）で定義したものと同様である。ただし、周波数ωは、帯域分割部４１ａ，４１ｂによって、分割される所定の周波数帯域毎に定まる値である。また、第１のパワーＸ_１（ω）を、第２のパワーＸ_２（ω）で除した値が第１の閾値ＴＨ_１より大きくなる値の平均を求める関数Ｅと、第１のパワーＸ_１（ω）を、第２のパワーＸ_２（ω）で除した値が第２の閾値ＴＨ_２より大きくなる値の平均を求める関数Ｅが用いられる。

式（４）は、第１の伝達特性Ｈ_２１（ω）と第２の伝達特性Ｈ_１１（ω）の比と、第３の伝達特性Ｈ_１２（ω）と第４の伝達特性Ｈ_２２（ω）の比を求める式である。
式（４）で求まる行列パラメータＨ（ω）は、時間変動する値である。式（４）では、時間平均された第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比を、さらに時間平均することによって値を得る。このため、本例の音源分離部４２−１〜４２−１０２４で得られる、時間平均された第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比は、従来の音源分離方式における第１のパワーＸ_１（ｎ）と第２のパワーＸ_２（ｎ）の比を時間平均した値とは異なる。

式（５）は、式（４）で求めた行列パラメータＨ（ω）と、第１のパワーＸ_１（ｎ）と、第１の音声信号Ｙ_１（ω）と、第２のパワーＸ_２（ｎ）より、第１の音源Ｓ１が発する音声である時間平均された第１の音声信号Ｙ_１（ω）と、第２の音源Ｓ２が発する音声である時間平均された第２の音声信号Ｙ_２（ω）を求める式である。

式（６）は、と、式（５）で求めた第１の音声信号Ｙ_１（ω）と第２の音声信号Ｙ_２（ω）と、第１のパワーＸ_１（ｎ）と第１のパワーＸ_２（ω）に基づいて、第１の音源Ｓ１が発する音声である時間変化する第１の音声信号Ｙ_１（ω，ｉ）と、第２の音源Ｓ２が発する音声である時間変化する第２の音声信号Ｙ_２（ω，ｉ）を求める式である。

本例においては、行列パラメータＨ（ω）を求める式（４）に、第１のマイクロホン２ａ，第２のマイクロホン２ｂのパワー値を用いる。このため、行列パラメータＨ（ω）を求める精度が高い。さらに、音源分離を行う式（５），（６）においては、パワー値で求めた抑圧量を瞬時値に適用しているため、瞬時値のばらつきの影響を受けにくい。

ここで、実際の環境下において、従来の技術を用いて得られるディジタル音声データと、本例の信号処理部４を介して得られるディジタル音声データからに基づいて、音源分離処理の性能を評価した結果の例を次表１に示す。

表１に示す評価要素のうち、ＳＤＲ（Signal to Distortion Ratio）は、話者の音声を目的音（Signal）とした場合に、目的音と、音源分離を施した結果、目的音に生じる歪み量（Distortion）との比を示す。ＳＤＲの値が大きいほど、目的音の歪み量が少ないことを意味する。

また、ＮＲＲ（Noise Reduction Ratio）は、音源分離後のＳＮ比から音源分離前のＳＮ比を減算した値であり、音源分離によるＳＮ比の改善量を示す。ＮＲＲも値が大きいほど、目的音以外のエコーが抑圧され、音源分離性能が高いことを意味する。

つまり、従来の方式では、音源分離を施しても音声の音質が悪く、エコーが残っていた。しかしながら、本例の信号処理部４を用いて音源分離を行った結果、目的音からエコーを確実に分離しており、音源分離性能が高まることが示された。

ところで、従来の音源分離方式ＳＡＦＩＡでは、時間の変動が少なく定常的に生じる定常ノイズを除いていない。このため、再生音声には、定常ノイズが含まれてしまい、音質が悪かった。また、実際の環境には、突発的に発生する非定常ノイズも含まれており、再生音声に非定常ノイズが含まれることもあった。定常ノイズと非定常ノイズが生じる原因としては、従来、行列パラメータＨ（ω）を求める際には、瞬時値を用いており、さらに瞬時値から求められる行列パラメータＨ（ω）を直接求めていることが挙げられる。つまり、ノイズ成分を分離するための変数が時間毎にばらつくためである。

本例においては、定常ノイズと非定常ノイズが生じる実際の環境に対応するため、式（４）〜（６）を、次式（７）〜（９）のように拡張する。式（７）〜（９）は、定常ノイズと非定常ノイズの影響を取り除くために用いる式である。各変数は、上述した従来の音源分離処理を行う式（１）〜（３）で定義したものと同様である。

式（７）は、第１の伝達特性Ｈ_２１（ω）と第２の伝達特性Ｈ_１１（ω）の比と、第３の伝達特性Ｈ_１２（ω）と第４の伝達特性Ｈ_２２（ω）の比を求める式である。
式（７）で求まる行列パラメータＨ（ω）は、時間変動する値である。式（７）においては、第１のパワーＸ_１（ｎ）から第１のマイクロホン２ａに入力される第１のノイズ成分Ｎ_１（ω）を減じる。同様に、第２のパワーＸ_２（ｎ）から第２のマイクロホン２ｂに入力される第２のノイズ成分Ｎ_２（ω）を減ずることを特徴としている。

式（８）は、式（７）で求めた行列パラメータＨ（ω）と、第１のパワーＸ_１（ｎ）と、第１の音声信号Ｙ_１（ω）と、第２のパワーＸ_２（ｎ）より、第１の音源Ｓ１が発する音声である時間平均された第１の音声信号Ｙ_１（ω）と、第２の音源Ｓ２が発する音声である時間平均された第２の音声信号Ｙ_２（ω）を求める式である。

式（９）は、と、式（８）で求めた第１の音声信号Ｙ_１（ω）と第２の音声信号Ｙ_２（ω）と、第１のパワーＸ_１（ｎ）と第１のパワーＸ_２（ω）に基づいて、第１の音源Ｓ１が発する音声である時間変化する第１の音声信号Ｙ_１（ω，ｉ）と、第２の音源Ｓ２が発する音声である時間変化する第２の音声信号Ｙ_２（ω，ｉ）を求める式である。

このように、式（７）〜（９）では、定常ノイズ（第１のノイズ成分Ｎ_１（ω）と第２のノイズ成分Ｎ_２（ω））の影響を除いて計算する。このため、計算した結果得られる音声信号に定常ノイズ成分の影響がない。また、音源分離を行う式（８），式（９）において、定常ノイズ成分を除去してから非定常ノイズ成分を除去する逆行列を掛けている。このため、定常ノイズ成分と非定常ノイズ成分を同時に除去することが可能である。

以上説明した本実施の形態によれば、エコーやハウリングを防ぐエコーキャンセラにおいて、適応処理を基にした従来の技術と比べて、低演算量かつ短時間で、収音した話者の音声に含まれるエコーを抑えることができる。このため、話者は、自身の発話内容がエコーとして聞こえてこないため、発話が妨げられないという効果がある。

また、エコーキャンセルする際に、時間平均した第１のマイクロホン２ａと第２のマイクロホン２ｂのパワー比に基づいて、行列パラメータＨを求めている。従来、瞬間毎に２本のマイクロホンのパワー比を求めて、行列パラメータＨを求めていた場合に比べて、本例の音源分離処理は、時間変化のばらつきが少ない。つまり、衝撃音や突発音等の影響を除くことができる。このため、安定して求められた行列パラメータＨにより、音源分離を精度よく行うことができるという効果がある。

また、パワー値を求めてから平均をとることで、瞬間的な大きな値や小さな値の影響を取り除くことができる。これも含めて、実験結果（表１）に示したように、再生音声のＳＤＲ，ＮＲＲの性能差が生じる。つまり、式（１）では、瞬時値の比のばらつきが大きく、平均時間を十分大きくとらないとパラメータが正しく求められない。しかし、式（４）では、第１のマイクロホン２ａと第２のマイクロホン２ｂのパワー比の平均をとることで、安定してパラメータが求めることができる。このようにパラメータが安定することによって、音質が大きく改善する。

また、適応フィルタのように拡声通話系が変化した場合に収束するまでの時間、エコーが戻らない。さらに、フィルタバンク、あるいはフーリエ変換を用いて実現することができ、これらには計算量の削減方法が既に提案されており、適応フィルタを用いた場合に比べ少ない計算量で実現可能である。また、本発明では使用する部屋の残響時間にはよらず、適応フィルタを用いた場合の長い残響時間に対応するために計算量を増加しないという効果がある。

また、定常ノイズ成分とエコー成分とを同時除去することが可能になる。従来、収音した音声から定常ノイズ成分を除くことは難しかったが、本実施の形態に係る音声分離処理を行うことで、定常ノイズ成分とエコー成分が除かれた音声を得ることができる。このため、聴取者にとっては、再生音声が聞きやすくなるという効果がある。

また、第２の音源Ｓ２であるスピーカ７の近くに第２のマイクロホン２ｂを置くだけで、容易に収音した音声からエコー成分と定常ノイズ成分を除くことができる。この場合、話者用のマイクロホンを用意するだけでよく、システム構成が簡単に実現できる。また、本例の音源分離部４２−１〜４２−１０２４で行う音源分離処理は、第１のマイクロホン２ａと第２のマイクロホン２ｂとのパワー差に基づいて行う処理である。このため、実環境に適用できるようにパラメータ誤差や定常ノイズについての考慮がされており、品質の高い再生音声（話者の音声のみ）を得ることができる。

なお、上述した実施の形態例では、双方向に音声を送受信するテレビ会議システムに適用した例として説明したが、双方向通信を用いるシステムであれば、例えば、電話での音声通信等に適用してもよい。

また、上述した実施の形態例における一連の処理は、ハードウェアにより実行することができるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムを、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに所望のソフトウェアを構成するプログラムをインストールして実行させる。

また、上述した実施の形態例の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵ等の制御装置）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。

この場合のプログラムコードを供給するための記録媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ（Compact Disc）−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、上述した実施の形態例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（Operating System）などが実際の処理の一部又は全部を行い、その処理によって上述した実施の形態例の機能が実現される場合も含まれる。

さらに、本発明は上述した実施の形態例に限られるものではなく、本発明の要旨を逸脱することなくその他種々の構成を取り得ることは勿論である。例えば、映像／音声処理装置１，２１は、制御装置３１によって制御される構成としたが、ピアツーピア方式で、映像／音声処理装置１，２１が互いにディジタル映像／音声データを送受信するタイミングを制御するようにしてもよい。

本発明の一実施の形態におけるビデオ会議システムの内部構成例を示すブロック図である。本発明の一実施の形態における信号処理部の内部構成例を示すブロック図である。

符号の説明

１…映像／音声処理装置、２ａ，２ｂ…マイクロホン、３ａ，３ｂ…アナログ／ディジタル変換部、４…信号処理部、５…音声コーデック部、６…ディジタル／アナログ変換部、７…スピーカ、８…通信部、９…通信回線、１０…ビデオ会議システム、２１…映像／音声処理装置、３１…制御装置、４１ａ，４１ｂ…帯域分割部、４２−１〜４２−１０２４…音源分離部、４３…帯域合成部

Claims

第１の音源が発する音声を複数のマイクロホンによって収音し、前記収音された第１の音源が発する音声がエコー成分として含まれる第２の音源が発する音声を、前記複数のマイクロホンが収音する場合に、前記複数のマイクロホンによって生成された音声信号を処理する音声処理装置であって、
前記複数のマイクロホンのうち、少なくとも第１のマイクロホンによって生成された第１の音声信号と、第２のマイクロホンによって生成された第２の音声信号を、所定の周波数帯域に分割する帯域分割部と、
前記第１及び第２のマイクロホンが収音した音声のパワーに基づいて、前記帯域分割部によって所定の周波数帯域に分割された前記第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離し、前記定常信号に含まれる前記ノイズ成分を抑え、前記非定常信号から前記第２の音源が発する音声に含まれる前記第１の音源が発する音声のエコー成分を分離する音源分離部と、
前記音源分離部によって前記第１の音源のエコー成分が分離された前記第１及び第２の音声信号を、前記第１の音源が発する音声を含む音声信号に合成し、前記分離された第１の音源のエコー成分を含む音声信号に合成する帯域合成部と、を備える
音声処理装置。
請求項１に記載の音声処理装置において、
前記音源分離部は、
前記所定の周波数帯域における周波数ωと、
前記第１及び第２のマイクロホンが、前記第１及び第２の音源が発する音声を収音する時間ｉと、
前記第１の音源が発する音声を収音する前記第１のマイクロホンの第１の伝達特性Ｈ_１１（ω）と、前記第１の音源が発する音声を収音する前記第２のマイクロホンの第２の伝達特性Ｈ_２１（ω）と、前記第２の音源が発する音声を収音する前記第１のマイクロホンの第３の伝達特性Ｈ_１２（ω）と、前記第２の音源が発する音声を収音する前記第２のマイクロホンの第４の伝達特性Ｈ_２２（ω）と、
前記第１のマイクロホンのパワーを時間平均して得られる第１のパワーＸ_１（ω）と、前記第２のマイクロホンのパワーを時間平均して得られる第２のパワーＸ_２（ω）と、
前記第１のマイクロホンに入力される第１の定常信号Ｎ_１（ω）と、前記第２のマイクロホンに入力される第２の定常信号Ｎ_２（ω）とを定め、
前記第２のパワーＸ_２（ω）から前記第２の定常信号Ｎ_２（ω）を減じた値から、前記第１のパワーＸ_１（ω）から前記第１の定常信号Ｎ_１（ω）を減じた値を除した値が、第１の閾値ＴＨ_１より大きくなる値の平均を求める関数Ｅと、
前記第１のパワーＸ_１（ω）から前記第１の定常信号Ｎ_１（ω）を減じた値から、前記第２のパワーＸ_２（ω）から前記第２の定常信号Ｎ_２（ω）を減じた値を除した値が、第２の閾値ＴＨ_２より大きくなる値の平均を求める関数Ｅを用いて、

により、前記第１の伝達特性Ｈ_２１（ω）と前記第２の伝達特性Ｈ_１１（ω）の比と、前記第３の伝達特性Ｈ_１２（ω）と前記第４の伝達特性Ｈ_２２（ω）の比を求め、

により、前記第１の音源が発する音声であって時間平均された第１の音声信号Ｙ_１（ω）と、前記第２の音源が発する音声であって時間平均された第２の音声信号Ｙ_２（ω）を求め、

により、前記第１の音源が発する音声であって時間変化する第１の音声信号Ｙ_１（ω，ｉ）と、前記第２の音源が発する音声であって時間変化する第２の音声信号Ｙ_２（ω，ｉ）を求める
音声処理装置。
複数の拠点に設置され、第１の音源が発する音声を複数のマイクロホンによって収音し、前記収音された第１の音源が発する音声がエコー成分として含まれる第２の音源が発する音声を、前記複数のマイクロホンが収音する場合に、前記複数のマイクロホンによって生成された音声信号を処理する音声処理システムであって、
前記複数のマイクロホンのうち、少なくとも第１のマイクロホンによって生成された第１の音声信号と、第２のマイクロホンによって生成された第２の音声信号を、所定の周波数帯域に分割する帯域分割部と、
前記第１及び第２のマイクロホンが収音した音声のパワーに基づいて、前記帯域分割部によって所定の周波数帯域に分割された前記第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離し、前記定常信号に含まれる前記ノイズ成分を抑え、前記非定常信号から前記第２の音源が発する音声に含まれる前記第１の音源が発する音声のエコー成分を分離する音源分離部と、
前記音源分離部によって前記第１の音源のエコー成分が分離された前記第１及び第２の音声信号を、前記第１の音源が発する音声を含む音声信号に合成し、前記分離された第１の音源のエコー成分を含む音声信号に合成する帯域合成部と、を備える
音声処理システム。
請求項３に記載の音声処理システムにおいて、
前記第２の音源は、スピーカであり、
前記複数の拠点のうち、第１の拠点に設置される前記第２の音源が発する音声は、前記第１の拠点で収音された音声が放音される第２の拠点で収音された音声を含む
音声処理システム。
第１の音源が発する音声を複数のマイクロホンによって収音し、前記収音された第１の音源が発する音声がエコー成分として含まれる第２の音源が発する音声を、前記複数のマイクロホンが収音する場合に、前記複数のマイクロホンによって生成された音声信号を処理する音声処理プログラムであって、
前記複数のマイクロホンのうち、少なくとも第１のマイクロホンによって生成された第１の音声信号と、第２のマイクロホンによって生成された第２の音声信号を、所定の周波数帯域に分割する手順、
前記第１及び第２のマイクロホンが収音した音声のパワーに基づいて、前記所定の周波数帯域に分割された前記第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離し、前記定常信号に含まれる前記ノイズ成分を抑え、前記非定常信号から前記第２の音源が発する音声に含まれる前記第１の音源が発する音声のエコー成分を分離する手順、
前記第１の音源のエコー成分が分離された前記第１及び第２の音声信号を、前記第１の音源が発する音声を含む音声信号に合成し、前記分離された第１の音源のエコー成分を含む音声信号に合成する手順、を
コンピュータに実行させるための音声処理プログラム。
第１の音源が発する音声を複数のマイクロホンによって収音し、前記収音された第１の音源が発する音声がエコー成分として含まれる第２の音源が発する音声を、前記複数のマイクロホンが収音する場合に、前記複数のマイクロホンによって生成された音声信号を処理する音声処理方法であって、
前記複数のマイクロホンのうち、少なくとも第１のマイクロホンによって生成された第１の音声信号と、第２のマイクロホンによって生成された第２の音声信号を、所定の周波数帯域に分割する帯域分割ステップと、
前記第１及び第２のマイクロホンが収音した音声のパワーに基づいて、前記帯域分割ステップによって所定の周波数帯域に分割された前記第１及び第２の音声信号を、ノイズ成分を含む定常信号と、ノイズ成分を含まない非定常信号に分離し、前記定常信号に含まれる前記ノイズ成分を抑え、前記非定常信号から前記第２の音源が発する音声に含まれる前記第１の音源が発する音声のエコー成分を分離する音源分離ステップと、
前記音源分離ステップによって前記第１の音源のエコー成分が分離された前記第１及び第２の音声信号を、前記第１の音源が発する音声を含む音声信号に合成し、前記分離された第１の音源のエコー成分を含む音声信号に合成する帯域合成ステップと、を行う
音声処理方法。