JP2008048342A

JP2008048342A - 収音装置

Info

Publication number: JP2008048342A
Application number: JP2006224405A
Authority: JP
Inventors: 拓弥 ▲高▼橋; Takuya Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-08-21
Filing date: 2006-08-21
Publication date: 2008-02-28

Abstract

【課題】収音した音声から、装置周囲の任意の位置に存在する話者の音声だけを的確に話速変換し、背景音は話速変換しない収音装置を提供する。
【解決手段】音声信号処理部４は、各マイク２で収音した音声信号に所定の遅延を付与し、マイク２の周囲に収音ビームを形成する。コントローラ８は、最もレベルの高い収音ビームに対応する領域に基づいて、話者の存在領域を示す情報（話者位置情報）を生成し、これを記憶部３に出力して記録させる。話者位置情報に対応する収音ビームを話者音声信号として話速変換部５に出力し、これ以外の収音ビームを背景音声信号としてミキサ６に出力する。これにより、話者の音声だけを話速変換し、背景音は話速変換しないで音声を放音、録音することができる。
【選択図】図１

Description

この発明は、会議などに用いられ、会議参加者の発話音声を収音する収音装置に関するものである。

従来から、入力音声信号を時間軸に伸長し、話速変換をすることで、発言内容を聴きとり易くする装置が提案されている。しかし、入力音声信号を伸長すると、話者の音声以外の音（例えばＢＧＭ）も同時に伸長されてしまう。また、話者の音声が入力されていない場合にもＢＧＭが伸長されてしまう。聴者が、話者の音声と同時に（並行して）そのＢＧＭも聞いている場合、ＢＧＭまで伸長されてしまうと、元の楽音の雰囲気を感じることができないという問題が発生する。

そこで、入力音声信号を分析し、話者音声と判断した場合にのみ話速変換処理を行う装置が提案されている（例えば特許文献１参照）。

また、マイクを複数設置し、各マイクから距離が等しい地点からの（同位相の）収音音声を発話音声とし、それ以外の収音音声を背景音として分離する装置が提案されている（例えば特許文献２参照）。

また、音声と背景音を独立した複数のチャンネルで扱い、音声チャンネルのみ話速変換処理を行うように構成した装置も提案されている（例えば特許文献３参照）。
特開２０００−１５２３９４号公報特開２００５−２０８１７３号公報特開２００４−２４４０８１号公報

しかしながら、特許文献１の装置では、発話音声と同タイミングで収音される背景音については、発話音声と同様に話速変換されてしまうという問題が有った。

また、特許文献２の装置では、各マイクからの距離が等しい地点からの音声しか発話音声として処理できないため、この地点以外に発話者が存在した場合に、その話者の音声について話速変換できないという問題点が有った。

また、特許文献３の装置では、録音するときに発話音声と背景音を別チャンネルで録音する必要があり、発話者には特定チャンネルに割り当てられたマイクに対し発声する必要があった。

本発明は、収音した音声から、装置周囲の任意の位置に存在する話者の音声だけを的確に話速変換し、背景音は話速変換しない収音装置を提供することを目的とする。

この発明の収音装置は、複数のマイクを配列してなるマイクアレイと、
複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、前記発話音声信号を話速変換する話速変換手段と、前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、を備えたことを特徴とする。

この発明では、各マイクの収音音声信号にそれぞれ所定の遅延を付与し、特定の方向に強い指向性を有する収音ビームを複数形成する。これらの収音ビームのレベルを比較することで話者方位を同定する。例えば、最もレベルが高い収音ビームの方向を話者方位とする。話者方位の収音ビームを発話者音声信号として、これを話速変換してからミキサに出力し、他の方向の収音ビームは話速変換せずにそのままミキサに出力する。

また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択した収音ビーム以外の方向ついて、所定レベル以上の収音ビームが存在する場合、その方向の収音ビームのみを背景音声信号として選択することを特徴とする。

この発明では、発話者が存在すると判定した方向以外に高いレベルの収音ビームが存在する場合、その方向に背景音声の音源が存在するとして、その方向の収音ビームを背景音声信号としてミキサに出力する。これにより、背景音声についても的確に収音することができる。

また、この発明の収音装置は、前記音声信号選択手段は、前記発話音声信号として選択された収音ビームと、前記発話音声信号として選択された収音ビームに隣接する方向の収音ビームと、の差分信号を発話音声信号として前記話速変換手段に入力することを特徴とする。

この発明では、発話者音声信号として選択した収音ビームから、隣接する方向の収音ビームを差分する。これにより、発話者音声信号として選択した収音ビームに含まれていた背景音声のレベルを低減し、より的確に発話者の音声のみを話速変換することができる。

また、この発明の収音装置は、前記収音制御部が形成した複数の収音ビームから発話音声の音声信号を抽出する発話音声信号抽出手段をさらに備え、前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定することを特徴とする。

この発明では、各収音ビームから発話音声の音声信号を抽出する。例えば収音ビームの音声特徴量を抽出し、予め記憶してある発話音声の音声特徴量と比較し、一致すれば発話音声と推定する。収音制御部は、最もレベルが高く、かつ発話音声と推定される音声信号が含まれる収音ビームについて発話者音声信号として選択するので、より的確に発話者の音声のみを話速変換することができる。

この発明によれば、マイクアレイにより形成した収音ビームで発話者の方向を判定し、発話者の方向に対する収音ビームについてのみ話速変換し、他の方向の収音ビームについてそのまま出力することで、発話者の音声だけを的確に話速変換し、背景音は話速変換しないで音声を収音することができる。

図面を参照して、本発明の実施形態に係る放収音装置について説明する。この放収音装置は、会議において、拡声機、録音機等として用いられる。図１は、放収音装置の構成を示すブロック図である。同図に示すように、この放収音装置は、スピーカ１、複数のマイク２Ａ〜２Ｍ、記憶部３、音声信号処理部４、話速変換部５、ミキサ６、録音・再生部７、コントローラ８、および入出力Ｉ／Ｆ９を備えている。

複数のマイク２Ａ〜２Ｍは、一定の間隔で直線状（またはマトリクス状、ハニカム状）に配列され、マイクアレイを構成する。各マイク２は、一般的にはダイナミックマイクを用いるが、コンデンサマイク等、その他の形式を用いてもよい。また、マイク配列個数、配列間隔は、この放収音装置を設置する環境や、必要とする周波数帯域等により適宜設定する。

マイク２Ａ〜２Ｍの周囲のある位置で音声が発せられると、各マイク２がこれを収音する。マイク２は、収音した音声から音声信号を音声信号処理部４に出力する。なお、図１においてはフロントエンドのアンプやアナログ音声信号をディジタル音声信号に変換するＡ／Ｄ変換器等は省略している。各マイク２から出力される音声信号は、音声信号処理部４にて合成され、話速変換部５、またはミキサ６に出力される。音声信号処理部４は、コントローラ８の指示に従って、各マイク２から出力された音声信号を選択的に出力する。各マイク２で音声を収音した際、音声は各マイク２と音源との距離に応じた伝搬時間で伝搬されるので、各マイク２では収音タイミングに時間差が生じる。

ここで、例えば全てのマイク２に前方から同タイミングで音波が到来したとすると、各マイク２から出力された音声信号は、合成によって強められる。一方で、これ以外の方向から音波が到来すると、各マイク２から出力される音声信号はそれぞれ位相が異なるために合成されることによって弱められる。したがって、アレイマイクの感度はビーム状に絞り込まれて前方にのみ主感度（収音ビーム）を形成する。

音声信号処理部４は、各マイク２が出力した音声信号にそれぞれ所定の遅延時間を付与することで収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端部マイク２から所定時間が経過する毎に順次隣のマイク２から音声信号を出力するように設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、音声信号処理部４は、この伝搬時間差を補正するように各マイク２の音声信号に遅延時間を付与した後合成する。これにより、この方向の音声信号を合成によって強められる。したがって、一列に並んでいるマイク２から出力する音声信号を一端から他端に向けて順次遅延することにより、収音ビームは、その遅延時間に応じて傾斜する。

また、この収音ビームは複数を同時に形成することも可能である。図２は、音声信号処理部４のうち、マイク２に接続される主要部の構成を示すブロック図である。マイク２Ａ〜２Ｍは、それぞれ音声信号処理部４のディジタルフィルタ４１Ａ〜４１Ｍに接続される。マイク２Ａ〜２Ｍで収音した音声は、ディジタル音声信号としてディジタルフィルタ４１Ａ〜４１Ｍに入力される。なお、図２においては、ディジタルフィルタ４１Ａ〜４１Ｍの内、ディジタルフィルタ４１Ａについてのみ詳細なブロック図を図示するが、他のディジタルフィルタ４１Ｂ〜４１Ｍについても同様の構造であり、同様の動作を行うものである。

ディジタルフィルタ４１Ａは、複数段の出力を有するディレイバッファ４２Ａを備えている。ディレイバッファ４２Ａの各段の遅延量は、マイクアレイのマイク２の配置、およびマイクアレイ前方の領域（発話者を検出する領域）に応じて設定される。この例においてディレイバッファ４２Ａは４段の出力を有しており、これらの出力信号がＦＩＲフィルタ４３１Ａ〜４３４Ａに入力される。

ディレイバッファ４２Ａは、マイク２Ａが出力した音声信号に対してそれぞれ異なる遅延時間を付与した音声信号を各段にバッファし、ＦＩＲフィルタ４３１Ａ〜４３４Ａに各遅延音声信号を出力する。ここでＦＩＲフィルタ４３１Ａ〜４３４Ａに出力する遅延音声信号は、マイクアレイ前方の各領域に対応するものである。図３は音源方向検出方法の例を示す図である。同図（Ａ）は音源とマイクとの位置関係と、音源から発生した音が各マイクで収音される際のディレイとの関係を示した図であり、同図（Ｂ）、（Ｃ）は収音された音声信号のディレイに基づくディレイ補正量の形成概念を示す図である。

同図に示すように、この放収音装置においてはマイクアレイ前方に４つの部分領域１０１〜１０４を設定している。部分領域１０１で発生した音は最も近いマイク２Ａで最初に収音される。そして、部分領域１０１とマイク２との距離に応じて順に、各マイクで収音され、最も遠いマイク（同図においてマイク２Ｌ）で最後に収音される。一方、部分領域１０４で発生した音は最も近いマイク２Ｌで最初に収音され、部分領域１０４とマイク２との距離に応じて順に、各マイクで収音され、最も遠いマイク２Ａで最後に収音される。このように、各領域で発生する音はマイクとの距離に応じた遅延時間（ディレイ）で収音される。

ここで、部分領域１０１に対しては、図３（Ｂ）に示すように、各マイク２Ａ〜２Ｌで収音される音声信号を遅延処理する。すなわち、図３（Ａ）に示すディレイを補正するように対応するディレイ補正量を設定する。一方で部分領域１０４に対しては、図３（Ｃ）に示すように各マイク２Ａ〜２Ｌで収音される音声信号を遅延処理する。

部分領域１０１に対応する収音ビームを構成するための遅延音声信号がディレイバッファ４２Ａにおいて生成され、ＦＩＲフィルタ４３１Ａに出力される。また、部分領域１０２に対応する収音ビームを構成するための遅延音声信号がＦＩＲフィルタ４３２Ａに出力される。同様に、部分領域１０３に対応する収音ビームを構成するための遅延音声信号がＦＩＲフィルタ４３３Ａに出力され、部分領域１０４に対応する収音ビームを構成するための遅延音声信号がＦＩＲフィルタ４３４Ａに出力される。これらの遅延音声信号の遅延量は、図３に示すようにマイク２と各領域との距離に応じて設定される。例えば部分領域１０１に対応する遅延音声信号は、マイク２Ａと部分領域１０１との距離が近いため遅延量が大きく、部分領域１０４に対応する遅延音声信号は、マイク２Ａと部分領域１０４との距離が最も遠いために遅延量が小さい。

図２において、ＦＩＲフィルタ４３１Ａ〜４３４Ａは全て同じ構成からなり、それぞれに入力された遅延音声信号をフィルタリングして出力する。ＦＩＲフィルタ４３１Ａ〜４３４Ａは、ディレイバッファ４２Ａでは実現できない詳細な遅延時間を設定することができる。すなわち、ＦＩＲフィルタのサンプリング周期とタップ数とを所望の値に設定することにより、例えばディレイバッファ４２Ａでのサンプリング周期を遅延時間の整数部分とする場合にこの遅延時間の小数点部分を実現することができる。

ＦＩＲフィルタ４３１Ａ〜４３４Ａから出力された遅延音声信号は、それぞれのアンプ４４１Ａ〜４４４Ａで増幅されて、加算器４５Ａ〜４５Ｄに入力される。他のディジタルフィルタ４１Ｂ〜４１Ｍにおいてもディジタルフィルタ４１Ａと同じ構成からなり、それぞれに予め設定された遅延条件にしたがって遅延音声信号を加算器４５Ａ〜４５Ｄに出力する。

加算器４５Ａは、各ディジタルフィルタ４１Ａ〜４１Ｍから入力される遅延音声信号を合成して、図３における部分領域１０１に対応する収音ビームを生成する。同様に、加算器４５Ｂは、各ディジタルフィルタ４１Ａ〜４１Ｍから入力される遅延音声信号を合成して、図３における部分領域１０２に対応する収音ビームを生成し、加算器４５Ｃは、各ディジタルフィルタ４１Ａ〜４１Ｍから入力される遅延音声信号を合成して、図３における部分領域１０３に対応する収音ビームを生成する。また、加算器４５Ｄは、各ディジタルフィルタ４１Ａ〜４１Ｍから入力される遅延音声信号を合成して、図３における部分領域１０４に対応する収音ビームを生成する。

各加算器４５Ａ〜４５Ｄから出力される収音ビームは、バンドパスフィルタ（ＢＰＦ）４６に出力される。ＢＰＦ４６は、各収音ビームをフィルタリングして所定の周波数帯域の収音ビームをレベル判定部４７に出力する。ここで、ＢＰＦ４６は、マイクアレイの幅やマイク２の設置間隔に応じてビーム化される周波数帯域が異なることを利用し、各収音ビームで収音したい音声に対応する周波数帯域を通過帯域に設定する。例えば収音したい音声が話者の発話音声であれば、人の音声帯域に相当する周波数帯域を通過帯域に設定すればよい。

レベル判定部４７は、各収音ビームのレベルを示す情報をコントローラ８に出力する。コントローラ８は、入力された各収音ビームのレベルを比較し、最もレベルが高い収音ビームを選択する。収音ビームのレベルが高いということは、この収音ビームに対応する領域に音源（話者）が存在することとなり、図３において示した４つの領域に区分した場合における話者の存在領域を検出することができる。

ここで、コントローラ８は、最もレベルの高い収音ビームに対応する領域に基づいて、話者の存在領域を示す情報（以下、話者位置情報と言う。）を生成する。なお、コントローラ８は、最もレベルの高い収音ビームのレベル（絶対レベル）が所定の閾値（例えば一般的な発話音声のレベル）未満である場合は、話者が存在しないとして話者位置情報を生成しないようにしてもよい。

コントローラ８は、生成した話者位置情報に基づいて、信号選択部４８に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部５に出力するように設定する。また、コントローラ８は、信号選択部４８に、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ６に出力するように設定する。なお、コントローラ８は、信号選択部４８に、話者位置情報の示す領域以外の方向に対応する収音ビームを複数選択し、これらを合成してミキサ６に出力するように設定してもよい。無論、話者位置情報の示す領域以外の方向に対応する収音ビームを全て合成してミキサ６に出力するようにしてもよい。

ここで、各収音ビームのレベルによって、出力される話者音声信号、および背景音声信号には以下の２パターンが考えられる。
（１）背景音が点音源である場合
この場合、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか１つについて、高いレベルを示すものが含まれる。従って、コントローラ８は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれか１つに所定値以上のレベル（ただし、上記所定の閾値未満のレベル）を検出した場合、この方向の収音ビームを背景音声信号として出力するように信号選択部４８に設定する。
（２）背景音が無定位である場合
この場合、話者位置情報の示す領域以外の方向に対応する収音ビームの複数について高いレベルを示す。従って、コントローラ８は、各収音ビームのレベルを比較した結果、話者位置情報の示す領域以外の方向に対応する収音ビームで、所定数以上（例えば過半数以上）に所定値以上のレベル（ただし、上記所定の閾値未満）を検出した場合、これらの収音ビームのうち最もレベルの高いものを背景音声信号として出力するように信号選択部４８に設定する。このとき、話者位置情報に対応する収音ビームにも当該背景音の成分が含まれているため、コントローラ８は、話者位置情報に対応する収音ビームと、隣接する収音ビームとの差分について話者音声信号として出力するように信号選択部４８に設定する。

以上のようにして、音声信号処理部４は、話者の音声と、それ以外の音声とを分離して後段に出力することができる。

なお、図２においては、マイクアレイ前方に４つの部分領域１０１〜１０４を設定し、各領域について収音ビームを形成する例を示したが、図２に示したディレイバッファ４２の出力段数を増やし、ＦＩＲフィルタ、アンプ、加算器をディレイバッファ４２の出力段数分設定することで、さらに多数の領域について収音ビームを形成することができる。また、マイクアレイを２列背反に配列し、それぞれの列に図２に示した音声信号処理部を接続することで、各マイクアレイの正面方向に対して収音ビームを形成し、マイクアレイ両面方向（すなわち略３６０度方向）に収音ビームを形成することも可能である。

また、コントローラ８は、各収音ビームから音声特徴量を抽出し、発話音声、楽音音声（例えば歌声等も含まれる）の区別をするようにしてもよい。音声特徴量は、典型的には話者のフォルマント、ピッチ等を表し、音声データをフーリエ変換した周波数スペクトル（パワースペクトル）、およびこのパワースペクトルを対数変換後に逆フーリエ変換したケプストラムから抽出する。発話音声の音声特徴量、楽音音声の音声特徴量を予め記憶部３に記録しておき、各収音ビームの音声特徴量が発話音声の音声特徴量に一致するようであればこれを話者音声信号として選択し、楽音音声の音声特徴量に一致するようであればこれを背景音声信号として選択すればよい。また、レベルの高い収音ビームが複数存在した場合、各収音ビームの音声特徴量を分析し、発話音声の音声特徴量と一致するものについて、発話者の収音ビームとして判定すればよい。

なお、会議に先立って、議長などが放収音装置を操作し、各会議参加者に発言してもらうことで事前に話者位置情報を生成し、記憶部３に記録しておくようにしてもよい。この場合、コントローラ８は、会議中には、記憶部３に記憶されている話者位置情報に基づいて、信号選択部４８に、話者位置情報に対応する収音ビームを選択してこれを話者音声信号として話速変換部５に出力するように設定する。また、コントローラ８は、信号選択部４８に、記憶部３に記憶されている話者位置情報の示す領域以外の方向に対応する収音ビームのうちいずれかを選択してこれを背景音声信号としてミキサ６に出力するように設定する。

次に、話速変換部５は、コントローラ８の指示に従って、入力された話者音声信号について話速変換処理を行う。話速変換処理は、単に音声を低速で出力するのではなく、以下のようにして行う。すなわち、話速変換処理は、音声信号を１周期の波形に切りわけ、各周期波形の前後１区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間軸伸長する処理である。

図４（Ａ）は伸長処理の手順を示すフローチャートである。また、同図（Ｂ）は伸長方法を説明する図である。同図（Ａ）において、まず入力音声信号の先頭部分の１周期のサンプル数（サンプリング周波数×１／信号周波数）を検出する（Ｓ９１）。この１周期分のサンプルデータである周期波形を２つ取り出して、同図（Ｂ）に示すように、１つめの周期波形Ａに対して減衰利得係数を乗算することによって減衰波を作成し、２つめの周期波形Ｂに対して増加利得係数を乗算することによって増加波を作成する（Ｓ９２）。そして、これらを加算合成することによってＡとＢの中間の形状の周期波形を合成する（Ｓ９３）。この合成波形を図５（Ａ）に示すように周期波形Ａと周期波形Ｂとの間に挿入して出力する（Ｓ９４）することによって音響的に自然な時間軸伸長を行う。

なお、音声データを圧縮する場合には、図５（Ｂ）に示すように、上記Ｓ９３で合成したＡとＢの中間の形状の合成波形を周期波形Ａ，Ｂに代えて出力することにより、音声データを時間軸方向に１／２倍に圧縮することができる。

また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図５（Ｃ）に示すように、周期毎に周期波形を２つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に２倍に伸長することができ、同図（Ｄ）に示すように、２周期毎に周期波形を２つ合成することで、３／２倍に伸長することができる。

また、話速変換は、音声区間の先頭部分（例えば７００ｍｓｅｃ）のみを伸長して、それ以後を通常速度で出力するようにし、必要以上に伸長しないようにする。なお、先頭部分を伸長し、それ以後を圧縮するようにしてもよい。音声区間、雑音区間の区別は、音声信号の周期性から判断すればよい。例えば、音声信号を所定長に分割して対応するサンプルデータを乗算または減算するなどして相関値を算出する。図６に示すように、この相関値が所定閾値よりも低い場合に雑音区間、高い場合に音声区間と判断する。音声等の周期性の多い音声信号の場合相関値は高くなり、雑音等の周期性の少ない音声信号の場合相関値は低くなる。

なお、本実施形態では、音声区間の先頭部分７００ｍｓｅｃについて話速変換する例を示したが、さらに長い区間長を話速変換するようにしてもよいし、短い区間長を話速変換するようにしてもよい。また、話速変換を行う区間中に伸長率を変更するようにしてもよい。例えば、区間長が７００ｍｓｅｃであった場合に、最初の６００ｍｓｅｃを２倍伸長、続く１００ｍｓｅｃを３／２倍伸長といった伸長率で話速変換するようにしてもよい。

以上のようにして話速変換部５で話速変換された話者音声信号は、ミキサ６に入力され、ミキサ６において音声信号処理部４から入力される背景音声信号とミキシングされる。このミキシングされた音声信号が録音・再生部７に入力される。録音・再生部７は、入力された音声信号をスピーカ１、および入出力Ｉ／Ｆ９に供給するとともに、音声信号を音声データ（例えばＭＰ３等の圧縮データ）に変換して記憶部３に入力する。また、録音・再生部７は、記憶部３に記録されている音声データを読み出し、この音声データに基づく音声信号をスピーカ１、および入出力Ｉ／Ｆ９に供給する。

スピーカ１は、録音・再生部７から入力された音声信号を放音する。スピーカ１には、一般的にはコーン型スピーカを用いるが、ホーン型スピーカ等、その他の形式を用いてもよい。なお、図１においては、ディジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換器や信号を増幅するアンプ等は省略している。

記憶部３は、録音・再生部７から入力された音声データを記録する。また、上述したようにコントローラ８から入力される話者位置情報も記録する。

これにより、放収音装置が収音した音声のうち、発話者の音声のみが話速変換され、背景音は話速変換されずにそのまま放音、または録音される。

入出力Ｉ／Ｆ９は、音声信号を他の機器に供給する。入出力Ｉ／Ｆ９は、供給先の機器に応じたインタフェースを備えており、例えば音声信号をネットワーク送信に適した情報に変換し、ネットワークインタフェース、およびネットワークを介して接続される他の放収音装置に音声信号を出力する。また、入出力Ｉ／Ｆ９は、ネットワークを介して接続される他の放収音装置から音声信号を入力し、これを録音・再生部７に入力する。録音・再生部７は、自装置で収音した音声と、他装置から入力した音声と、を記憶部３に記録する。

なお、上記実施形態では、放音側として単一のスピーカ１を示したが、スピーカ１を直線状に複数配列して、スピーカアレイを構成するようにしてもよい。この場合、各スピーカに供給する音声信号を順次遅延させることにより、音声ビームに焦点を持たせることができ、音声が発話者の位置から発せられたかのような音像定位をさせることができる。

また、収音した音声信号を他の装置に出力し、他の装置側においてスピーカアレイを構成する場合、上述の話者位置情報も出力することで、他の装置においても音声が発話者の位置から発せられたかのような音像定位をさせることができる。

また、ネットワークを介して、上記実施形態の放収音装置を複数接続する場合、以下のような応用例が可能である。図７は、ネットワークを介して上記実施形態の放収音装置を複数接続し、音声会議システムを構成する例について示す図である。この音声会議システムは、ネットワーク１００を介して接続される放収音装置１１１Ａ〜１１１Ｃを有する。放収音装置１１１Ａ〜１１１Ｃは、上記実施形態で説明した放収音装置と同一の構成、機能を有するため、それぞれの構成、および機能の詳細な説明は省略する。

放収音装置１１１Ａ〜１１１Ｃは、それぞれ離れた地点ａ〜ｃに配置されている。地点ａには放収音装置１１１Ａが配置され、地点ｂには放収音装置１１１Ｂが配置され、地点ｃには放収音装置１１１Ｃが配置されている。

地点ａでは、会議者Ａ、Ｂが、放収音装置１１１Ａに対してそれぞれ方位Ｄｉｒ１１、Ｄｉｒ１３で在席している。地点ｂでは、音源Ａが、放収音装置１１１Ｂに対して、方位Ｄｉｒ２２で存在している。地点ｃでは、会議者Ｃ、Ｄが放収音装置１１１Ｃに対して、それぞれ方位Ｄｉｒ３１、Ｄｉｒ３２で在席している。なお、方位Ｄｉｒ１１〜Ｄｉｒ１４、方位Ｄｉｒ２１〜Ｄｉｒ２４、および方位Ｄｉｒ３１〜Ｄｉｒ３４は、それぞれ、上記実施形態における４つの部分領域１０１〜１０４に対応し、放収音装置は、これらの方位の音声を収音する。

この音声会議システムでは、各放収音装置は、自身の装置で収音した音声を他の全ての放収音装置に送信する。また、各放収音装置は、自身の装置で収音した音声とともに、他の装置から送信された音声を記録する。

放収音装置１１１Ａは、会議者Ａ、および会議者Ｂが発話した場合、これらの音声を話速変換してから他装置に送信する。また、放収音装置１１１Ｃは、会議者Ｃ、および会議者Ｄが発話した場合、これらの音声を話速変換してから他装置に送信する。

ここで、放収音装置１１１Ｂは、音源Ａが発する楽音を話速変換せずに他装置に出力する。この際、放収音装置１１１Ｂは、音源Ａが発する楽音のレベルが非常に大きい場合であっても話速変換せずに送信する。例えば、上述した所定の閾値（一般的な発話音声のレベル）を超えるレベルであっても話速変換しない。すなわち、図１において、コントローラ８は、図示しない操作部等から話速変換をしない旨の指示を与えられると、音声信号処理部４に対し、収音した音声を常にミキサ６に出力するように設定する。これにより、この放収音装置においては、常に話速変換しない音声が出力されることとなる。この場合、コントローラ８は、最もレベルが高い収音ビームを出力するため、収音ビームのレベルの絶対値（一般的な発話音声のレベル以上であるか）を判定しなくともよい。

なお、コントローラ８は、音声信号処理部４に対し、収音した音声を常に話速変換部５に出力するように設定してもよい。この場合、この放収音装置においては、常に話速変換済みの音声が出力されることとなる。

このように、音声会議システム内の任意の放収音装置を背景音出力専用の装置（話速変換しない放収音装置）とすることでも、各地点の会議者は、楽音等の背景音は通常の速度で聴きながら、話者の音声だけをゆっくりと聴くことができる。また、各音声会議装置では、背景音は通常速度で記録され、発話者の音声のみが話速変換されて記録される。

本発明の実施形態の放収音装置の構成を示すブロック図音声信号処理部の主要部の構成を示すブロック図音源検出領域を示す図話速変換処理を示す図伸長率を変更する場合の話速変換処理を示す図入力音声データの相関値の計算例を示す図ネットワークを介して上記実施形態の放収音装置を複数接続し、音声会議システムを構成する例について示す図

符号の説明

１−スピーカ
２−マイク
３−記憶部
４−音声信号処理部
５−話速変換部
６−ミキサ
７−録音・再生部
８−コントローラ

Claims

複数のマイクを配列してなるマイクアレイと、
複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定する収音制御部と、
前記話者方位の収音ビームを発話音声信号として選択するとともに、話者方位の収音ビーム以外の収音ビームを背景音声信号として選択する音声信号選択手段と、
前記発話音声信号を話速変換する話速変換手段と、
前記話速変換手段で変換された発話音声信号と、前記音声信号選択手段が選択した背景音声信号と、をミキシングするミキサと、
を備えた収音装置。
前記音声信号選択手段は、前記発話音声信号として選択した収音ビーム以外の方向ついて、所定レベル以上の収音ビームが存在する場合、その方向の収音ビームのみを背景音声信号として選択する請求項１に記載の収音装置。
前記音声信号選択手段は、前記発話音声信号として選択された収音ビームと、前記発話音声信号として選択された収音ビームに隣接する方向の収音ビームと、の差分信号を発話音声信号として前記話速変換手段に入力する請求項１、または請求項２に記載の収音装置。
前記収音制御部が形成した複数の収音ビームから発話音声の音声信号を抽出する発話音声信号抽出手段をさらに備え、
前記収音制御部は、複数の収音ビームのうち最もレベルが高く、かつ前記発話音声信号抽出手段が発話音声の音声信号を抽出した収音ビームの方向を話者方位と判定する請求項１、請求項２、または請求項３に記載の収音装置。