JP7060905B1

JP7060905B1 - 収音システム、収音方法及びプログラム

Info

Publication number: JP7060905B1
Application number: JP2022502563A
Authority: JP
Inventors: 圭司松永
Original assignee: Audio Technica KK
Current assignee: Audio Technica KK
Priority date: 2020-11-11
Filing date: 2021-10-12
Publication date: 2022-04-27
Anticipated expiration: 2041-10-12
Also published as: EP4207196A4; EP4207196A1; JPWO2022102322A1; US20230247361A1; CN116490924A

Abstract

収音システムＳは、複数のマイクロフォン２を含むマイクロホンアレイ１と、複数のマイクロフォン２に到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する第１ビームフォーマ１５２と、複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する第２ビームフォーマ１５３と、複数のマイクロフォン２に到来した音を発した音源方向を検出する音源方向検出部１５１と、第１ビームフォーマ１５２が第１信号を出力している間に、音源方向検出部１５１が検出した音源の方向の単位時間あたりの変化角度が閾値以上と判定した場合、第２ビームフォーマ１５３に第２信号を出力させる指向性制御部１５５と、を有する。

Description

本発明は、収音システム、収音方法及びプログラムに関する。

複数のマイクで観測された音声信号の位相差を利用してビームフォーミング処理をすることにより、音源方向に指向性がある状態で収音するためのビームフォーミング処理装置が知られている（例えば、特許文献１を参照）。

特開２０１３－２０１５２５号公報

従来のビームフォーミング処理装置においては、音源が一つであることが想定されていた。したがって、従来のビームフォーミング処理装置では、１人の話者の方向に指向性がある状態で収音しているときに別の話者が発言すると、別の話者の音声を収音できないという問題が生じていた。

そこで、本発明はこれらの点に鑑みてなされたものであり、複数の話者の音声の収音を可能にすることを目的とする。

本発明の第１の態様に係る収音システムは、複数のマイクロフォンを含むマイクロホンアレイと、前記複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する第１ビームフォーマと、前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する第２ビームフォーマと、前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部と、前記第１ビームフォーマが前記第１信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第２ビームフォーマに前記第２信号を出力させる指向性制御部と、を有する。

前記指向性制御部は、前記第１ビームフォーマが前記第１信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合に、前記第１範囲を変更した状態で前記第１ビームフォーマに前記第１信号を継続して出力させてもよい。

前記指向性制御部は、前記第１ビームフォーマが前記第１信号を出力している間に前記変化角度が閾値以上であると判定した場合に、前記第１信号の出力レベルを減少させてもよい。

前記指向性制御部は、前記変化角度が閾値以上であると判定してからの経過時間に基づく減衰率で前記第１信号の出力レベルを減少させてもよい。

前記指向性制御部は、前記第１信号の出力レベルを減少させる間に前記第２信号の出力レベルを増加させてもよい。

前記指向性制御部は、前記第１信号の出力レベルを減少させる変化速度よりも大きい変化速度で前記第２信号の出力レベルを増加させてもよい。

前記指向性制御部は、前記音源の方向が前記第１範囲に含まれていないと判定した場合に、前記第２ビームフォーマに前記第２信号を出力させてもよい。

前記指向性制御部は、前記第２ビームフォーマに前記第２信号を出力させる前に、前記音源の方向を含むように前記第２範囲を決定してもよい。

前記指向性制御部は、前記第２ビームフォーマが前記第２信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第１ビームフォーマに前記第１信号を出力させてもよい。

前記収音システムは、前記音源方向検出部が検出した前記音源の方向と、ビームフォーマ係数とを関連付けて記憶する記憶部をさらに有し、前記指向性制御部は、前記音源方向検出部が検出した前記音源の方向に関連付けて前記記憶部に記憶された前記ビームフォーマ係数を用いて前記第１ビームフォーマ又は前記第２ビームフォーマに前記第１信号又は前記第２信号を出力させてもよい。

前記記憶部は、前記音源方向検出部が過去に検出した音源の方向と、当該方向に基づいて指向性制御部が過去の算出したビームフォーマ係数と、を関連付けて記憶し、前記指向性制御部は、前記音源方向検出部が新たに検出した音源の方向と前記記憶部が記憶している前記過去に検出した音源の方向とが同じであると判定した場合に、前記過去に検出した音源の方向に関連付けて記憶された前記ビームフォーマ係数を使用してもよい。

本発明の第２の態様に係る収音方法は、複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力するステップと、前記複数のマイクロフォンに到来した音を発した音源の方向を検出するステップと、前記第１信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力するステップと、を有する。

本発明の第３の態様に係るプログラムは、コンピュータを、複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する第１ビームフォーマ、前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する第２ビームフォーマ、前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部、及び前記第１ビームフォーマが前記第１信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第２ビームフォーマに前記第２信号を出力させる指向性制御部、として機能させる。

本発明によれば、複数の話者の音声の収音を可能にするという効果を奏する。

本実施形態に係る収音システムＳの概要を説明するための図である。複数の話者が発した複数の音声を収音システムＳが収音する動作を時系列で示した図である。収音システムＳの構成を説明するための図である。第１ビームフォーマ１５２の構成を説明するための図である。新しい音源を検出したか否かをビームフォーミング処理部１５が判定する処理の流れを示すフローチャートである。新しい音源を検出したことに基づいてビームフォーミング処理部１５がビームフォーマを制御する処理の流れを示すフローチャートである。

＜本実施形態に係る収音システムＳの概要＞
図１は、本実施形態に係る収音システムＳの概要を説明するための図である。図１は、空間Ｒの側面から空間Ｒの内部を見た図である。空間Ｒは、例えば、建物内の部屋であるが、これに限らず、建物内の廊下、ラウンジ、階段スペース等であってもよい。図１に示すように、空間Ｒの上面には収音システムＳが設置されており、空間Ｒには話者Ａ１、話者Ａ２、及び話者Ａ３が滞在している。図１における音声Ｂ１、Ｂ２、Ｂ３は、それぞれ話者Ａ１、Ａ２、Ａ３が発する音声である。図１においては、収音システムＳは空間Ｒの上面に設置されている。なお、収音システムＳは空間Ｒの側面又は底面に設置されていてもよい。

収音システムＳは、複数のマイクロフォンを含むマイクロホンアレイと、信号処理装置とを有する。信号処理装置は、マイクロホンアレイに到達した音を信号処理する複数のビームフォーマを有する。収音システムＳは、複数のビームフォーマそれぞれが検出した音源方向に対応するビームフォーマ係数を用いることでビームフォーミングを行い、複数の指向性マイクロフォンを疑似的に構成する。ビームフォーマ係数については後述する。

図２は、複数の話者が発した複数の音声を収音システムＳが収音する動作を時系列で示した図である。図２の横軸は時刻を示している。図２の縦軸に示す「話者Ａ１」、「話者Ａ２」、「話者Ａ３」は、それぞれ話者Ａ１、Ａ２、Ａ３が音声Ｂ１、Ｂ２、Ｂ３を発している期間を示している。図２の縦軸に示す「第１ビームフォーマ」及び「第２ビームフォーマ」は、収音システムＳが有する第１ビームフォーマ及び第２ビームフォーマがビームフォーミング処理を実行する期間とビームフォーミング処理により特定した音源方向の音声とを示している。「出力音」は、収音システムＳが収音して外部装置に出力する音声を示している。外部装置は、例えば通信ネットワークに接続されたルータ又は記憶媒体を有するコンピュータである。

図２に示すように、時刻Ｔ１から時刻Ｔ３において、話者Ａ１は音声Ｂ１を発し、時刻Ｔ２から時刻Ｔ５において、話者Ａ２は音声Ｂ２を発し、時刻Ｔ４から時刻Ｔ６において話者Ａ３は音声Ｂ３を発する。時刻Ｔ１において、収音システムＳは、音声Ｂ１を検出することで、第１ビームフォーマによりビームフォーミング処理を開始し、音声Ｂ１の音源方向を特定する。時刻Ｔ２において、収音システムＳは、音声Ｂ１とは異なる方向である音声Ｂ２を検出し、第２ビームフォーマによりビームフォーミング処理を開始することで音声Ｂ２の音源方向を特定する。時刻Ｔ３において、収音システムＳは、第１ビームフォーマのビームフォーミング処理を停止する。

時刻Ｔ４において、収音システムＳは、音声Ｂ３の音源方向を検出し、第１ビームフォーマによるビームフォーミング処理を開始する。時刻Ｔ５において、収音システムＳは、第２ビームフォーマによるビームフォーミング処理を停止する。その結果、収音システムＳは、時刻Ｔ１から時刻Ｔ２において音声Ｂ１を収音し、時刻Ｔ２から時刻Ｔ３において音声Ｂ１と音声Ｂ２とを収音する。収音システムＳは、時刻Ｔ３から時刻Ｔ４において音声Ｂ２を収音し、時刻Ｔ４から時刻Ｔ５において音声Ｂ２と音声Ｂ３とを収音する。時刻Ｔ５から時刻Ｔ６において、収音システムＳは、音声Ｂ３を収音する。

収音システムＳがこのように複数のビームフォーマを有することで、収音システムＳは、複数の狭指向性マイクロフォンをそれぞれの音源方向に向けた状態と同じ状況を疑似的に実現し、収音する。さらに、収音システムＳは、複数のビームフォーマを切り替えることで、ビームフォーマの数よりも多い数の話者がいる状況であって音声を発する話者が切り替わる場合にも、途切れることなく複数の話者の音声を収音することができる。

なお、図２における収音システムＳは、話者が発する音声の停止とともにビームフォーミング処理を停止しているが、話者が発する音声が停止した後もビームフォーミング処理を継続してもよい。例えば、収音システムＳは、時刻Ｔ１に開始した第１ビームフォーマのビームフォーミング処理を、時刻Ｔ３ではなく時刻Ｔ３から一定時間が経過した後の時刻に停止してもよい。また、収音システムＳは、時刻Ｔ３において第１ビームフォーマによるビームフォーミング処理を停止せずに、ビームフォーミング処理を継続してもよい。この場合、収音システムＳは、時刻Ｔ４において音声Ｂ３の音源方向を検出すると、第１ビームフォーマによるビームフォーミングの方向を音声Ｂ３の音源方向に切り替える。

＜収音システムＳの構成＞
図３は、収音システムＳの構成を説明するための図である。収音システムＳは、マイクロホンアレイ１と信号処理装置１０とを有する。マイクロホンアレイ１は、複数のマイクロフォン２（マイクロフォン２ａ，２ｂ，２ｃ，２ｄ）を含む。複数のマイクロフォン２は、到来した音に基づく電気信号を出力する。信号処理装置１０は、複数のマイクロフォン２が出力する電気信号を処理して音源方向の指向性を高めることにより、音源が発した音を強調して出力する。

信号処理装置１０は、入力部１１、第１減衰部１２、第２減衰部１３、出力部１４、及びビームフォーミング処理部１５を有する。入力部１１は、例えばプリアンプとＡ／Ｄ（アナログ／デジタル）変換器とを備えている。入力部１１は、複数のマイクロフォン２それぞれから入力された複数のアナログ電気信号を複数のデジタル信号に変換することにより複数の音信号を生成する。入力部１１は、例えば複数のマイクロフォン２それぞれから入力されるアナログ電気信号を増幅した複数の増幅信号を生成する。入力部１１は、複数の増幅信号を複数のデジタル信号に変換することにより、複数の音信号を生成する。入力部１１は、生成した複数の音信号をビームフォーミング処理部１５に出力する。

第１減衰部１２及び第２減衰部１３は、ビームフォーミング処理部１５から入力された信号のレベルを減少又は増加させる。第１減衰部１２及び第２減衰部１３は、ビームフォーミング処理部１５から取得したアッテネータゲインに基づいて、ビームフォーミング処理部１５が出力した信号のレベルを減少又は増加させる。アッテネータゲインは、第１減衰部１２及び第２減衰部１３において信号のレベルを減少又は増加させる前の信号のレベルに対する信号のレベルの減少量又は増加量である減衰率に対応する。第１減衰部１２及び第２減衰部１３は、信号のレベルを減少又は増加させた後の信号を出力部１４に出力する。

出力部１４は、第１減衰部１２及び第２減衰部１３から入力された信号を出力する。出力部１４は、第１減衰部１２が出力した信号と第２減衰部１３が出力した信号とを加算した出力音信号を生成し、生成した出力音信号を出力する。出力部１４は、例えば、Ｄ／Ａ（デジタル／アナログ）変換器を備えており、デジタルの出力音信号をアナログ信号に変換し、変換後のアナログ信号を出力する。

ビームフォーミング処理部１５は、音源方向検出部１５１、第１ビームフォーマ１５２、第２ビームフォーマ１５３、記憶部１５４、及び指向性制御部１５５を有する。ビームフォーミング処理部１５は、例えばデジタル信号処理用プロセッサにより構成されている。

音源方向検出部１５１は、複数のマイクロフォン２に到来した音を発した音源の方向を検出する。音源の方向は、例えば、マイクロホンアレイ１が空間の上面に設置されている場合、マイクロホンアレイ１の中心位置から鉛直方向に進む直線と、マイクロフォン２の位置と音源の位置とを結んだ直線と、の角度により表される。音源方向検出部１５１は、例えば、複数のマイクロフォン２それぞれに音が到来した時刻の差に基づいて、遅延和アレイ法を用いることにより音源の方向を検出する。音源方向検出部１５１は、検出した音源の方向を指向性制御部１５５に通知する。

第１ビームフォーマ１５２は、複数のマイクロフォン２が収音した音に基づく複数の音信号のうち、第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する。第１範囲は、音源方向検出部１５１から通知された第１の音源の方向を中心とする範囲である。第１範囲の大きさは、例えば、複数のマイクロフォン２の数、及び第１ビームフォーマ１５２に設定されるビームフォーマ係数によって定まる。

第１ビームフォーマ１５２は、入力部１１から入力された複数の音信号を合成することにより第１信号を生成する。第１ビームフォーマ１５２は、指向性制御部１５５から入力されるビームフォーマ係数を用いて、第１範囲内の方向から到来した音に基づく音信号のレベルが他の方向から到来した音に基づく音信号のレベルよりも大きくなるように複数の音信号を生成する。第１ビームフォーマ１５２は、生成した複数の音信号を合成することにより、第１信号を生成する。第１ビームフォーマ１５２は、生成した第１信号を第１減衰部１２に出力する。

図４は、第１ビームフォーマ１５２の構成を説明するための図である。第１ビームフォーマ１５２は、複数の可変遅延部１６１（可変遅延部１６１ａ，１６１ｂ，１６１ｃ，１６１ｄ）、複数のゲイン調整部１６２（ゲイン調整部１６２ａ，１６２ｂ，１６２ｃ，１６２ｄ）、及び加算部１６３を有する。

可変遅延部１６１は、入力部１１から取得した複数の音信号を、指向性制御部１５５から入力された遅延量に基づいて遅延させる。ビームフォーマ係数は、音源から複数のマイクロフォン２のそれぞれまでの距離（以下、「伝搬距離」という）の差に対応する時間である遅延量に対応しており、可変遅延部１６１は、例えばビームフォーマ係数の遅延量に基づいて音信号を遅延させる。可変遅延部１６１が、伝搬距離の差に対応する時間だけ音信号を遅延させることで、複数のマイクロフォン２に複数の音が到来したタイミングの差が補正され、第１ビームフォーマ１５２の指向性が最も強い方向からの複数の音信号が同相になる。

ゲイン調整部１６２は、可変遅延部１６１が遅延させた後の信号のゲインを調整する。ビームフォーマ係数はゲインに対応しており、ゲイン調整部１６２は、例えばビームフォーマ係数に対応するゲインに基づいて、可変遅延部１６１が遅延させた後の信号を増幅又は減衰させる。複数のゲイン調整部１６２それぞれのゲインは、ビームフォーマ係数に応じて定められる。

加算部１６３は、複数のゲイン調整部１６２が生成した複数の信号を加算する。第１範囲内の方向に対応するゲイン調整部１６２が出力する信号は、他のゲイン調整部１６２が出力する信号よりも大きい。したがって、加算部１６３は、複数の信号を加算することで、第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を生成する。

図３に戻って、第２ビームフォーマ１５３は、入力部１１から入力された複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する。第２範囲は、音源方向検出部１５１から通知された第２の音源の方向を中心とする範囲である。第２範囲の大きさは、例えば、複数のマイクロフォン２の数、及び第２ビームフォーマ１５３に設定されるビームフォーマ係数によって定まる。

第２ビームフォーマ１５３は、入力部１１から入力された複数の音信号を合成することにより第２信号を生成する。第２ビームフォーマ１５３は、指向性制御部１５５から入力されるビームフォーマ係数を用いて、第２範囲内の方向から到来した音に基づく音信号のレベルが他の方向から到来した音に基づく音信号のレベルよりも大きくなるように複数の音信号を生成する。第２ビームフォーマ１５３は、生成した複数の音信号を合成することにより、第２信号を生成する。第２ビームフォーマ１５３は、生成した第２信号を第２減衰部１３に出力する。第２ビームフォーマ１５３の構成は、図４に示した第１ビームフォーマ１５２の構成の構成と同等である。

記憶部１５４は、ＲＡＭ（Random Access Memory）及びＳＳＤ（Solid State Drive）等の記憶媒体を有する。記憶部１５４は、第１減衰部１２及び第２減衰部１３が用いるアッテネータゲインを算出するための減衰係数を記憶している。また、記憶部１５４は、音源の方向に関連付けてビームフォーマ係数を記憶している。

記憶部１５４は、音源方向検出部１５１が検出した音源の方向と、ビームフォーマ係数とを関連付けて記憶してもよい。記憶部１５４は、例えば、過去に音源方向検出部１５１が検出した音源の方向と、当該方向に基づいて指向性制御部１５５が過去に算出したビームフォーマ係数とを関連付けて記憶する。

また、記憶部１５４は、音源方向検出部１５１、第１ビームフォーマ１５２、第２ビームフォーマ１５３及び指向性制御部１５５として機能するプロセッサを機能させるためのプログラムを記憶している。

指向性制御部１５５は、音源方向検出部１５１から通知された音源の方向に基づいて、第１ビームフォーマ１５２及び第２ビームフォーマ１５３のビームフォーマ係数を決定し、第１ビームフォーマ１５２及び第２ビームフォーマ１５３を制御する。指向性制御部１５５は、例えば、音源方向検出部１５１が検出した音源の方向に関連付けて記憶部１５４に記憶されたビームフォーマ係数を用いて第１ビームフォーマ１５２又は第２ビームフォーマ１５３に第１信号又は第２信号を出力させる。また、指向性制御部１５５は、第１減衰部１２及び第２減衰部１３の減衰率を制御する。

指向性制御部１５５は、音源方向検出部１５１から通知された音源の方向に基づいて、音を発している音源が変化したと判定した場合に、第１ビームフォーマ１５２及び第２ビームフォーマ１５３に設定するビームフォーマ係数、並びに第１減衰部１２及び第２減衰部１３の減衰率を変化させる。指向性制御部１５５は、音源が変化又は移動したことを検出するために、音源方向検出部１５１から通知された音源の方向を示す角度情報を記憶部１５４に記憶させる。指向性制御部１５５は、現在の時刻において音源方向検出部１５１が検出した角度と記憶部１５４が記憶している単位時間前の角度情報が示す角度（以下、「直前の角度」という）との差である変化角度を算出する。

現在の時刻と直前の時刻との時刻の差である単位時間あたりの変化角度が閾値以上である場合、指向性制御部１５５は、音を発している音源が変化したと判定する。一方、変化角度が閾値未満である場合、指向性制御部１５５は、音を発している音源が移動したと判定する。単位時間は、例えば０．１秒である。閾値は、複数の音源の最小方向差に基づいて設定された値であり、例えば１０度である。

指向性制御部１５５は、新しい音源を検出したと判定した場合、複数のビームフォーマのうち使用していないビームフォーマを用いて、新しい音源を含む範囲の信号処理を実行する。具体的には、指向性制御部１５５は、第１ビームフォーマ１５２が第１信号を出力している間に、音源方向検出部１５１が検出した音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、第２ビームフォーマ１５３に第２信号を出力させる。すなわち、指向性制御部１５５は、音源方向検出部１５１が検出した音源の方向が第１範囲に含まれていない新たな音源の方向であると判定した場合に、第２ビームフォーマ１５３に第２信号を出力させる。

指向性制御部１５５は、第２ビームフォーマ１５３に第２信号を出力させる前に、新たに検出された音源の方向を含むように第２範囲を決定する。指向性制御部１５５は、決定した第２範囲に対応するビームフォーマ係数を算出し、算出したビームフォーマ係数を複数のゲイン調整部１６２に設定することで第２ビームフォーマ１５３に第２信号を出力させる。指向性制御部１５５がこのように動作することで、信号処理装置１０は、新たな音源が音を発し始めた場合に、新たな音源の方向にも指向性がある状態で収音できる。

一方、指向性制御部１５５は、第１ビームフォーマ１５２が第１信号を出力している間に、音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合に、第１範囲を変更した状態で第１ビームフォーマ１５２に第１信号を継続して出力させる。すなわち、指向性制御部１５５は、現在の時刻において直前の時刻と同じ音源を検出したと判定し、検出した音源を含む範囲に指向性がある状態で収音しているビームフォーマを継続して用いる。

このように、指向性制御部１５５は、検出した音源が直前の時刻と異なる位置であると判定した場合であっても、音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合、動作させるビームフォーマを切り替えない。すなわち、指向性制御部１５５は、音源の位置が変わっていても、音源の方向の単位時間あたりの変化角度が閾値未満である場合、直前の時刻と同じ音源を検出したと判定する。そして、指向性制御部１５５は、変化した角度に基づいて、動作中のビームフォーマに設定するビームフォーマ係数を変更することにより指向方向を変化させる。このように指向性制御部１５５が動作することで、信号処理装置１０は、例えば、話者が移動しながら音声を発する場合にはビームフォーマを切り替えることなく収音できるので、収音した音のレベルの変動を抑制できる。

指向性制御部１５５は、第２ビームフォーマ１５３が第２信号を出力している間に、さらに新しい音源（第３方向の音源）を検出した場合、第１ビームフォーマ１５２を用いて、検出した新しい音源が発した音を収音する。指向性制御部１５５は、第２ビームフォーマ１５３が第２信号を出力している間に、音源方向検出部１５１が検出した音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、第１ビームフォーマ１５２に第１信号を出力させる。

指向性制御部１５５は、検出された新しい音源の方向が過去に検出された音源の方向と同じである場合、過去に検出した音源の方向に関連付けられたビームフォーマ係数を使用してもよい。具体的には、指向性制御部１５５は、音源方向検出部１５１が新たに検出した音源の方向（第３方向）が過去に検出した第１方向と同じであると判定した場合に、第１方向に関連付けて記憶部１５４に記憶されたビームフォーマ係数を用いて第１ビームフォーマ１５２に第１信号を出力させる。指向性制御部１５５が、記憶部１５４に記憶されたビームフォーマ係数を用いることにより、ビームフォーマが動作を開始するまでに要する時間を短縮することができる。

このように、指向性制御部１５５は、新しい音源を検出する度に第１ビームフォーマ１５２と第２ビームフォーマ１５３とを交互に使用する。その結果、信号処理装置１０は、音源が切り替わる際に複数の音源から同時に音が発せられる期間がある場合であっても、複数の音源が発する音を収音することができる。

続いて、指向性制御部１５５が、第１減衰部１２及び第２減衰部１３を制御する動作を説明する。指向性制御部１５５は、新しい音源を検出した時刻からの経過時間に基づいて、第１減衰部１２及び第２減衰部１３のアッテネータゲインを算出する。指向性制御部１５５は、算出したアッテネータゲインを第１減衰部１２及び第２減衰部１３に設定することで、第１減衰部１２及び第２減衰部１３が出力する信号のレベルを調整する。

指向性制御部１５５は、新しい音源を検出した場合、新しい音源を含む範囲に対応するビームフォーマの後段の減衰部の出力レベルを増加させる。一方、指向性制御部１５５は、新しい音源を含まない範囲に対応するビームフォーマの後段の減衰部の出力レベルを減少させる。以下に、第１ビームフォーマが出力する第１信号に対応する第１範囲が時間の経過とともに音源を含まなくなるとともに、第２ビームフォーマが出力する第２信号に対応する第２範囲が時間の経過とともに新しい音源を含むように変化する場合を例示する。この場合、第１ビームフォーマの後段の減衰部であって信号のレベルを減少させる減衰部は第１減衰部１２であり、第２ビームフォーマの後段の減衰部であって信号のレベルを増加させる減衰部は第２減衰部１３である。

指向性制御部１５５は、第１ビームフォーマ１５３が第１信号を出力している間に変化角度が閾値以上であると判定した場合に第１信号の出力レベルを減少させる。指向性制御部１５５は、第１信号の出力レベルを減少させる場合、変化角度が閾値以上であると判定してからの経過時間に基づく減衰率で第１信号の出力レベルを減少させる。指向性制御部１５５は、減衰係数及び経過時間に基づいて定められるアッテネータゲインに対応する減衰率で第１減衰部１２を動作させる。

アッテネータゲインは、例えば、減衰係数Ｃと経過時間Ｔとを乗算することにより定められる。減衰係数Ｃは、例えば負の固定値である。このように、経過時間に基づいて算出したアッテネータゲインを第１減衰部１２に設定することで、指向性制御部１５５は、第１信号を段階的に減衰させることができるので、音源が発している音が急に消えてしまうことを防げる。

また、指向性制御部１５５は、第２ビームフォーマ１５３が出力する第２信号の出力レベルを増加させる。指向性制御部１５５は、例えば、第１信号の出力レベルを減少させる変化速度よりも大きい変化速度で第２信号の出力レベルを増加させる。変化速度は、単位時間あたりの出力レベルの変化量により定められる。このように、指向性制御部１５５が、第１信号の出力レベルを減少させる変化速度よりも大きい変化速度で第２信号の出力レベルを増加させることで、第２信号の出力レベルが短時間で増加するので、信号処理装置１０は、発言を始めた人の声を最初から十分な大きさで出力することができる。指向性制御部１５５は、第１信号の出力レベルを減少させる間に第２信号の出力レベルを増加させてもよい。このように指向性制御部１５５が動作することで、信号処理装置１０は、第１信号と第２信号を切り替えて出力する場合、第１信号と第２信号との間に無音の期間が生じることを防止できる。

＜新しい音源の検出処理の流れ＞
図５は、新しい音源を検出したか否かをビームフォーミング処理部１５が判定する処理の流れを示すフローチャートである。音源方向検出部１５１は、入力部１１が増幅した後の複数の音信号を取得する（Ｓ１１）。音源方向検出部１５１は、取得した複数の音信号に基づいて音源方向を検出する（Ｓ１２）。

指向性制御部１５５は、音源方向検出部１５１が検出した現在の時刻の音源方向と直前の時刻の音源方向との差を算出する（Ｓ１３）。算出した音源方向の差が閾値以上である場合（Ｓ１４のＹＥＳ）、指向性制御部１５５は、新しい音源を検出したと判定する（Ｓ１５）。算出した音源方向の差が閾値未満である場合（Ｓ１４のＮＯ）、指向性制御部１５５は、直前の時刻と同じ音源を検出したと判定する（Ｓ１６）。

新しい音源の検出処理を終了するための操作が行われていない場合（Ｓ１７のＮＯ）、ビームフォーミング処理部１５は、Ｓ１１からＳ１７までの処理を繰り返す。新しい音源の検出処理を終了するための操作が行われた場合（Ｓ１７のＹＥＳ）、ビームフォーミング処理部１５は、新しい音源の検出処理を終了する。

＜ビームフォーマの制御処理の流れ＞
図６は、新しい音源を検出したことに基づいてビームフォーミング処理部１５がビームフォーマを制御する処理の流れを示すフローチャートである。図６は、信号処理装置１０が有する複数のビームフォーマのうち１つのビームフォーマを指向性制御部１５５が制御する際の処理の流れを示している。図６に示すフローチャートは、第１ビームフォーマ１５２が第１音源の方向に指向性がある状態で第１信号を出力している時点から開始している。

第１ビームフォーマ１５２は、第１音源用のビームフォーマ係数で動作している（Ｓ２１）。指向性制御部１５５は、第２音源を検出していない場合（Ｓ２２のＮＯ）、第２音源を検出する処理を繰り返す。指向性制御部１５５は、第２音源を検出した場合（Ｓ２２のＹＥＳ）、経過時間の計測を開始する（Ｓ２３）。指向性制御部１５５は、計測した経過時間に基づいて第１音源用のアッテネータゲインを算出し、第１音源用のアッテネータゲインを減衰させる（Ｓ２４）。

第１ビームフォーマ１５２が動作していない状態で、指向性制御部１５５が第２音源以外の音源（例えば第３音源）を検出した場合（Ｓ２５のＹＥＳ）、指向性制御部１５５は、第３音源用に算出したビームフォーマ係数を第１ビームフォーマ１５２に適用する（Ｓ２６）。指向性制御部１５５は、記憶部１５４を参照することにより、第３音源用のビームフォーマ係数を取得してもよい。第１ビームフォーマ１５２は、指向性制御部１５５が適用した第３音源用のビームフォーマ係数に基づいて動作を開始する（Ｓ２７）。指向性制御部１５５は、第３音源用のアッテネータゲインを増加させる（Ｓ２８）。

第１ビームフォーマ１５２が動作していない状態で、指向性制御部１５５が第３音源を検出していない場合（Ｓ２５のＮＯ）、指向性制御部１５５は、第３音源を検出する処理を繰り返す。ビームフォーマを制御する処理を終了するための操作が行われていない場合（Ｓ２９のＮＯ）、ビームフォーミング処理部１５は、Ｓ２１からＳ２８までの処理を繰り返す。ビームフォーマを制御する処理を終了するための操作が行われた場合（Ｓ２９のＹＥＳ）、ビームフォーミング処理部１５は、ビームフォーマを制御する処理を終了する。

＜収音システムＳの効果＞
以上のとおり、収音システムＳは、複数のマイクロフォン２に到来した音に基づく音信号のうち第１範囲内の方向から到来した音に基づく音信号を強調させた第１信号を出力する第１ビームフォーマ１５２と、複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を強調させた第２信号を出力する第２ビームフォーマ１５３とを有する。そして、指向性制御部１５５が、音源の方向に基づいて、ビームフォーミング処理を行わせるビームフォーマを切り替える。

収音システムＳは、複数の話者のうち音声を発する話者が切り替わった場合であっても、複数の話者が発する音声が途切れることなく、複数の音声を収音することができる。

なお、図１においては３人の話者がいる場合を例示したが、収音システムＳは４人以上の話者がいる環境においても使用可能である。また、以上の説明においては、収音システムＳが備える２つのビームフォーマを用いて説明したが、収音システムＳは、３つ以上のビームフォーマを備えることにより、３つ以上の音源方向それぞれに指向性がある状態で収音してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１マイクロホンアレイ
２マイクロフォン
１０信号処理装置
１１入力部
１２第１減衰部
１３第２減衰部
１４出力部
１５ビームフォーミング処理部
１５１音源方向検出部
１５２第１ビームフォーマ
１５３第２ビームフォーマ
１５４記憶部
１５５指向性制御部
１６１可変遅延部
１６２ゲイン調整部
１６３加算部

Claims

複数のマイクロフォンを含むマイクロホンアレイと、
前記複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する第１ビームフォーマと、
前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する第２ビームフォーマと、
前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部と、
前記第１ビームフォーマが前記第１信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第２ビームフォーマに前記第２信号を出力させる指向性制御部と、
を有する収音システム。
前記指向性制御部は、前記第１ビームフォーマが前記第１信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合に、前記第１範囲を変更した状態で前記第１ビームフォーマに前記第１信号を継続して出力させる、
請求項１に記載の収音システム。
前記指向性制御部は、前記第１ビームフォーマが前記第１信号を出力している間に前記変化角度が閾値以上であると判定した場合に、前記第１信号の出力レベルを減少させる、
請求項１又は２に記載の収音システム。
前記指向性制御部は、前記変化角度が閾値以上であると判定してからの経過時間に基づく減衰率で前記第１信号の出力レベルを減少させる、
請求項３に記載の収音システム。
前記指向性制御部は、前記第１信号の出力レベルを減少させる間に前記第２信号の出力レベルを増加させる、
請求項３又は４に記載の収音システム。
前記指向性制御部は、前記第１信号の出力レベルを減少させる変化速度よりも大きい変化速度で前記第２信号の出力レベルを増加させる、
請求項３から５のいずれか一項に記載の収音システム。
前記指向性制御部は、前記音源の方向が前記第１範囲に含まれていないと判定した場合に、前記第２ビームフォーマに前記第２信号を出力させる、
請求項１から６のいずれか一項に記載の収音システム。
前記指向性制御部は、前記第２ビームフォーマに前記第２信号を出力させる前に、前記音源の方向を含むように前記第２範囲を決定する、
請求項１から７のいずれか一項に記載の収音システム。
前記指向性制御部は、前記第２ビームフォーマが前記第２信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第１ビームフォーマに前記第１信号を出力させる、
請求項１から８のいずれか一項に記載の収音システム。
前記音源方向検出部が検出した前記音源の方向と、ビームフォーマ係数とを関連付けて記憶する記憶部をさらに有し、
前記指向性制御部は、前記音源方向検出部が検出した前記音源の方向に関連付けて前記記憶部に記憶された前記ビームフォーマ係数を用いて前記第１ビームフォーマ又は前記第２ビームフォーマに前記第１信号又は前記第２信号を出力させる、
請求項１から９のいずれか一項に記載の収音システム。
前記記憶部は、前記音源方向検出部が過去に検出した音源の方向と、当該方向に基づいて指向性制御部が過去の算出したビームフォーマ係数と、を関連付けて記憶し、
前記指向性制御部は、前記音源方向検出部が新たに検出した音源の方向と前記記憶部が記憶している前記過去に検出した音源の方向とが同じであると判定した場合に、前記過去に検出した音源の方向に関連付けて記憶された前記ビームフォーマ係数を使用する、
請求項１０に記載の収音システム。
複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力するステップと、
前記複数のマイクロフォンに到来した音を発した音源の方向を検出するステップと、
前記第１信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力するステップと、
を有する収音方法。
コンピュータを、
複数のマイクロフォンに到来した音に基づく複数の音信号のうち第１範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第１信号を出力する第１ビームフォーマ、
前記複数の音信号のうち第２範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第２信号を出力する第２ビームフォーマ、
前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部、及び
前記第１ビームフォーマが前記第１信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第２ビームフォーマに前記第２信号を出力させる指向性制御部、
として機能させるためのプログラム。