JP2013183315A

JP2013183315A - ハンズフリー通話装置

Info

Publication number: JP2013183315A
Application number: JP2012046229A
Authority: JP
Inventors: Daisuke Sugii; 大介杉井
Original assignee: NEC Casio Mobile Communications Ltd
Current assignee: NEC Casio Mobile Communications Ltd
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2013-09-12

Abstract

【課題】簡単な演算処理で、話者の声を選択的に通話相手へ送話する。
【解決手段】ハンズフリー通話装置１００は、受話部１１０と、超音波スピーカ１２０と、マイクロホンアレー１３０と、ＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）処理部１４０と、送話部１５０と、を有する。受話部１１０は、受話音声を受信する。超音波スピーカ１２０は、受話部１１０が受信した受話音声を出力する。マイクロホンアレー１３０は、音声を集音する。ＢＳＳ処理部１４０は、マイクロホンアレー１３０により集音された音声から送話音声を抽出する。送話部１５０は、ＢＳＳ処理部１４０により抽出される送話音声を送信する。
【選択図】図１

Description

本発明は、ハンズフリー通話装置に関する。

装置と話者とが近接していなくても通話が可能なハンズフリー通話装置としては、例えば、特許文献１及び２の技術がある。

特許文献１のハンズフリー通話装置では、画像認識により話者の位置を検出し、その検出結果を、マイクロホン及びスピーカの指向性制御に利用する。マイクロホンの指向性制御は、複数のマイクロホンのうち話者の方向に対応するマイクロホンを選択的に使用すること、又は、駆動部によりマイクロホンの向きを変えることにより行う。

特許文献２のハンズフリー通話装置では、超音波センサにより話者の位置を検出し、その検出結果を、マイクロホン及びスピーカの指向性制御に利用する。特許文献２の技術では、複数のマイクロホンの音声入力の位相と振幅を制御することによって、特定した方向にマイクロホンの指向性を高める。

なお、特許文献３には、画像認識により話者の位置を認識し、パラメトリックスピーカアレイにより特定の方向に音声を出力し、前方に向かって指向性を有するマイクロホンにより集音する移動体（ロボット等）について記載されている。

また、特許文献４には、電話端末における着信時に、電話端末に設けた複数のマイクロホンで集音して音声信号を得て、この音声信号から着信音成分を除去したものを雑音信号と推定する技術が記載されている。

特開２０１０−２３２７５５号公報特開２００１−３５９１８７号公報国際公開第２００５／０７６６６１号パンフレット特開２００９−１５３０５３号公報

ハンズフリー通話装置において、話者の声を選択的に通話相手へ送話するためには、多くのマイクロホンを用いる必要がある。しかし、携帯通信端末装置などにおいては、実装スペースが限られているため、多くのマイクロホンを実装することが困難な場合もある。特許文献１において、駆動部によりマイクロホンの向きを変える場合も、駆動部が必要となるため、実装スペースが大型化する。

また、ハンズフリー通話装置における演算処理が複雑であると、消費電力が多くなるなどの弊害があるため、演算処理がなるべく簡単であることが望まれる。

本発明は、以下の何れかの課題を解決することが可能なハンズフリー通話装置を提供することにある。
１つ目の課題は、簡単な演算処理で、話者の声を選択的に通話相手へ送話することである。
２つ目の課題は、なるべく少ない数のマイクロホンを用いて、話者の声を選択的に通話相手へ送話することである。

本発明は、受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するマイクロホンアレーと、
前記マイクロホンアレーにより集音された音声から、送話音声を抽出するＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）処理部と、
前記ＢＳＳ処理部により抽出される送話音声を送信する送話部と、
を有することを特徴とするハンズフリー通話装置を提供する。

また、本発明は、受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒＮＯｉｓｅＲｅｄｕｃｔｉｏｎ）方式のマイクロホンアレーと、
前記マイクロホンアレーにより集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部と、
を有することを特徴とするハンズフリー通話装置を提供する。

本発明によれば、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。または、本発明によれば、なるべく少ない数のマイクロホンを用いて、話者の声を選択的に通話相手へ送話することができる。

第１の実施形態に係るハンズフリー通話装置の構成を示すブロック図である。第１の実施形態に係るハンズフリー通話装置のより具体的な構成を示すブロック図である。超音波スピーカの構成を示す模式的な平面図である。超音波スピーカの個々の超音波振動子の構成を示す模式的な断面図である。第１の実施形態の動作を説明するための模式図である。超音波スピーカの超音波振動子の共振周波数の特性を示す図である。超音波スピーカの指向性制御の例を説明するための模式図である。話者が複数人の場合のハンズフリー通話装置の動作を説明するためのフローチャートである。第２の実施形態に係るハンズフリー通話装置の構成を示すブロック図である。第２の実施形態に係るハンズフリー通話装置のより具体的な構成を示すブロック図である。第２の実施形態の動作を説明するための模式図である。

以下、本発明の実施形態について、図面を用いて説明する。なお、すべての図面において、同様の構成要素には同一の符号を付し、適宜に説明を省略する。

〔第１の実施形態〕
図１は第１の実施形態に係るハンズフリー通話装置１００の構成を示すブロック図である。

本実施形態に係るハンズフリー通話装置１００は、受話部１１０と、超音波スピーカ１２０と、マイクロホンアレー１３０と、ＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）処理部１４０と、送話部１５０と、を有する。受話部１１０は、受話音声を受信する。超音波スピーカ１２０は、受話部１１０が受信した受話音声を出力する。マイクロホンアレー１３０は、音声を集音する。ＢＳＳ処理部１４０は、マイクロホンアレー１３０により集音された音声から送話音声を抽出する。送話部１５０は、ＢＳＳ処理部１４０により抽出される送話音声を送信する。

ＢＳＳ処理部１４０は、ブラインド信号源分離（ブラインド音源分離）と呼ばれる処理を行う。この処理は、複数の音源が混在する環境下で集音された音声データから、それぞれの音源に由来する音声データを分離する処理である。

ハンズフリー通話装置１００の使用者である話者の声以外に、何らかの雑音源が存在する場合、マイクロホンアレー１３０は、話者の声以外に、雑音源からの雑音を集音する。ＢＳＳ処理部１４０は、マイクロホンアレー１３０により集音された音声（音声データ）を、話者の声と、雑音と、に分離する。更に、ＢＳＳ処理部１４０は、分離した音声から、話者の声を送話音声として抽出する。送話部１５０は、ＢＳＳ処理部１４０により抽出された話者の声を送話音声として、通話の相手方の通話装置へ送信する。

このように、本実施形態に係るハンズフリー通話装置１００によれば、マイクロホンアレー１３０により集音された音声から、ＢＳＳ処理部１４０により送話音声を抽出する。よって、話者の声を選択的に通話相手へ送話することができる。

ここで、ハンズフリー通話装置１００においては、超音波スピーカ１２０により受話音声を出力する。このため、超音波スピーカ１２０から（ひいてはハンズフリー通話装置１００から）ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー１３０が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、ＢＳＳ処理部１４０は、受話音声の音響エコーを分離する処理と、その音響エコーを雑音と判定する処理と、の何れも行う必要がない。つまり、ＢＳＳ処理部１４０の処理が簡単になる。
要するに、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。

以下、第１の実施形態をより詳細に説明する。

図２は第１の実施形態に係るハンズフリー通話装置１００のより具体的な構成を示すブロック図である。

ハンズフリー通話装置１００は、無線通信又は有線通信により、他の通話装置との間で通話を行うための装置である。受話部１１０は、他の通話装置から送信された受話音声を受信する。送話部１５０は、他の通話装置へ送話音声を送信する。

ハンズフリー通話装置１００は、携帯電話機或いはその他の携帯通信端末装置であることが好ましい例であるが、固定電話などであっても良い。

図２に示すように、ハンズフリー通話装置１００は、上記の構成に加えて、入力部２０と、撮像部１７０と、位置特定部１８０と、画像判定部１９０と、を有している。

入力部２０は、超音波スピーカ１２０にパラメトリックスピーカ用の変調信号を入力することによって、超音波スピーカ１２０より超音波を発振（出力）させる。超音波スピーカ１２０より出力された超音波は、ハンズフリー通話装置１００からある程度離れた位置で復調し、可聴音として再生される。これにより、話者は、ハンズフリー状態、すなわち話者の口をハンズフリー通話装置１００に近接させない状態（典型的には、ハンズフリー通話装置１００を手で持たない状態）で、通話相手の通話装置（図示略）から送信された音声を聞くことができる。

入力部２０は、超音波スピーカ１２０の指向性の制御を行う指向性制御部２１を有している。

撮像部１７０は、話者等の画像を撮像するカメラである。

位置特定部１８０は、撮像部１７０による撮像結果に基づいて、話者の位置を特定する。すなわち、位置特定部１８０は、撮像部１７０により撮像された画像について、顔認識等の所定の画像認識処理を行うことによって、ハンズフリー通話装置１００を基準とした話者の位置（方向及び距離）を判定する。

入力部２０の指向性制御部２１は、位置特定部１８０により特定された話者の位置で音声が再生されるように超音波スピーカ１２０の指向性を制御する。

画像判定部１９０は、撮像部１７０による撮像結果に基づいて、話者の発声タイミングを判定する。より具体的には、画像判定部１９０は、位置特定部１８０により特定された位置における画像（つまり話者の画像）について、口の動きを判定する。口が所定の動作を行っているタイミング（開閉を繰り返している場合など）を、話者の発声タイミングであると判定する。

ＢＳＳ処理部１４０は、画像判定部１９０により判定された話者の発声タイミングにてマイクロホンアレー１３０により集音された音声から、送話音声を抽出する。このため、送話音声、つまり話者の音声を効率的に抽出することができる。

マイクロホンアレー１３０は、複数のマイクロホン１３１を備えて構成されている（図５参照）。

図３は超音波スピーカ１２０の構成を示す模式的な平面図である。

図３に示すように、超音波スピーカ１２０は、それぞれ超音波を出力する複数の超音波振動子３０を有している。つまり、超音波スピーカ１２０は、複数の超音波振動子３０からなる振動子アレーを含んで構成されている。入力部２０は、各超音波振動子３０にそれぞれ変調信号を入力することにより、各超音波振動子３０からそれぞれ超音波を放射させる。

複数の超音波振動子３０は、例えば、マトリクス状に配置されている。図３の例では、縦４列、横４列で合計１６個の超音波振動子３０がマトリクス状に配置されている。ただし、超音波スピーカ１２０が有する超音波振動子３０の数や配置は、この例に限らない。

超音波スピーカ１２０は、例えば、複数の超音波振動子３０を支持する枠状の支持部７０を有している。

図４は超音波スピーカ１２０の個々の超音波振動子３０の構成を示す模式的な断面図である。

超音波振動子３０は、例えば、シート状の振動部材６２と、振動子６３と、を備えている。振動子６３は圧電振動子であり、振動部材６２の一方の面に取り付けられている。振動子６３は、振動部材６２に対向する面の全面が接着剤によって振動部材６２に固定されている。これにより、振動子６３の片面の全面が振動部材６２によって拘束されている。
振動部材６２の縁は支持部７０により支持されている。

振動部材６２を構成する材料は、金属や樹脂など、脆性材料である振動子６３に対して高い弾性率を持つ材料であれば特に限定されないが、加工性やコストの観点からリン青銅やステンレスなどが好ましい。振動部材６２は、振動子６３から発生した振動によって振動し、例えば周波数が２０ｋＨｚ以上の音波を発振する。振動子６３も、自身が振動することによって、例えば周波数が２０ｋＨｚ以上の音波を発振する。

振動子６３は、圧電セラミック（図示略）と、圧電セラミックの両方の面にそれぞれ形成された電極膜と、からなる。

入力部２０は、各超音波振動子３０の振動子６３を発振させる発振器として機能する。入力部２０は、振動子６３に入力する電気信号、すなわちパラメトリックスピーカ用の変調信号（発振信号）を生成する。変調信号の輸送波は、例えば、周波数が２０ｋＨｚ以上の超音波であり、具体的には、例えば１００ｋＨｚの超音波である。入力部２０は、所定の発振出力となるように超音波振動子３０を制御する。

パラメトリックスピーカは、複数の発振源それぞれからＡＭ変調やＤＳＢ変調、ＳＳＢ変調、ＦＭ変調をかけた超音波（輸送波）を空気中に放射し、超音波が空気中に伝播する際の非線形特性により、可聴音を出現させるものである。ここでの非線形とは、流れの慣性作用と粘性作用の比で示されるレイノルズ数が大きくなると、層流から乱流に推移することを示す。音波は、流体内で微少にじょう乱しているため、非線形で伝播している。特に超音波周波数帯では音波の非線形性が容易に観察できる。そして超音波を空気中に放射した場合、音波の非線形性に伴う高調波が顕著に発生する。また音波は、空気中において分子密度に濃淡が生じる疎密状態である。そして空気分子が圧縮よりも復元するのに時間が生じた場合、圧縮後に復元できない空気が、連続的に伝播する空気分子と衝突し、衝撃波が生じる。この衝撃波により可聴音が発生する。可聴音、すなわち受話音声は、超音波スピーカ１２０から（ひいてはハンズフリー通話装置１００から）ある程度の距離だけ離れた位置で再生される。

入力部２０は、例えば、複数の超音波振動子３０が互いに個別の位相で発振するように、複数の超音波振動子３０を制御することができる。複数の超音波振動子３０を互いに個別の位相で発振させることにより、指向性を高めたり、指向性を任意に制御したりすることができる。ただし、入力部２０は、複数の超音波振動子３０を互いに同一の位相で発振させても良い。

図５は第１の実施形態の動作を説明するための模式図である。

例えば図５に示すように、話者として第１話者２１０及び第２話者２２０の２人の話者が存在するものとする。また、ハンズフリー通話装置１００の外部に、他のスピーカ５０が存在し、このスピーカ５０から雑音が放音されているものとする。

先ず、撮像部１７０が第１話者２１０及び第２話者２２０を含む画像を撮像する。位置特定部１８０は、撮像部１７０による撮像結果に基づいて、第１話者２１０及び第２話者２２０の位置を特定する。入力部２０の指向性制御部２１は、位置特定部１８０により特定された第１話者２１０及び第２話者２２０の位置で受話音声が再生されるように超音波スピーカ１２０の指向性を制御する。つまり、第１話者２１０及び第２話者２２０の近傍でのみ受話音声が再生されるように、超音波スピーカ１２０の指向性を制御する。その結果、図５に示す可聴領域４０にて受話音声を聴くことが可能となる。

また、マイクロホンアレー１３０は、第１話者２１０及び第２話者２２０の発声と、スピーカ５０からの雑音と、を含む音声（音声データ）を集音する。

ＢＳＳ処理部１４０は、マイクロホンアレー１３０により集音された音声から、各音源（第１話者２１０、第２話者２２０及びスピーカ５０）に由来する音声を分離する。

更に、ＢＳＳ処理部１４０は、相互に分離された複数の音声から、雑音を判定し、雑音を除く音声を送話音声として抽出する。よって、送話部１５０は、第１話者２１０及び第２話者２２０の声を選択的に、通話相手の通話装置へ送信することができる。

ここで、ＢＳＳ処理部１４０は、例えば、着信時にマイクロホンアレー１３０により集音された音声から着信音を除去した音声を雑音として認識するように構成されている。これにより、着信以前からスピーカ５０から音声が放音されている場合に、その音声を容易に雑音と認識することができる。

また、画像判定部１９０は、撮像部１７０による撮像結果に基づいて、第１話者２１０及び第２話者２２０の発声タイミングを判定する。そして、ＢＳＳ処理部１４０は、画像判定部１９０により判定された発声タイミングにて集音された音声から、送話音声を抽出する。このため、送話音声を効率的に抽出することができる。

次に、図６及び図７を参照して、超音波スピーカ１２０の指向性制御の一例を説明する。図６は超音波スピーカ１２０の超音波振動子３０の共振周波数の特性を示す図である。図７（ａ）、（ｂ）及び（ｃ）は超音波スピーカ１２０の指向性制御の例を説明するための模式図である。

本実施形態の場合、指向性制御部２１は、例えば、入力部２０から超音波スピーカ１２０に入力される変調信号を調節することによって、超音波スピーカ１２０の共振周波数を変化させることにより、超音波スピーカ１２０の指向性を制御する。すなわち、入力部２０から各超音波振動子３０に入力される変調信号を調節することによって、各超音波振動子３０の共振周波数を変化させることにより、超音波スピーカ１２０の指向性を制御する。

図６に示すように、超音波振動子３０は、複数の共振周波数をもつ。すなわち、超音波振動子３０は、キャリア周波数ａ１（例えば２０ｋＨｚ）、キャリア周波数ａ１の２倍の周波数の倍波周波数ａ２（例えば４０ｋＨｚ）、及び、キャリア周波数ａ１の３倍の周波数の３倍波周波数ａ３（例えば６０ｋＨｚ）を持つ。

超音波スピーカ１２０の指向性は、共振周波数が高域となるほど、つまり搬送波の周波数が高域となるほど高くなる。また、超音波スピーカ１２０の指向性は、共振周波数及び搬送波の周波数が低域となるほど低くなる。図７（ａ）は超音波振動子３０の共振周波数をキャリア周波数ａ１としたときの指向性（可聴音が復調される領域の角度範囲）を模式的に示す。同様に、図７（ｂ）は超音波振動子３０の共振周波数を倍波周波数ａ２としたときの指向性を模式的に示し、図７（ｃ）は超音波振動子３０の共振周波数を３倍波周波数ａ３としたときの指向性を模式的に示す。図７（ａ）〜（ｃ）において、θ１＞θ２＞θ３である。

従って、ハンズフリー通話装置１００と話者との位置関係や話者の数に応じて、共振周波数をキャリア周波数ａ１、倍波周波数ａ２及び３倍波周波数ａ３の中から適宜選択することによって、超音波スピーカ１２０の指向性を適切に制御することができる。

次に、上記のように複数の話者が存在する場合のＢＳＳ処理部１４０の処理について、より詳細に説明する。

上記のように、ＢＳＳ処理部１４０は、マイクロホンアレー１３０により集音された音声から、各音源に由来する音声を分離する。このため、ＢＳＳ処理部１４０は、第１話者２１０の声と、第２話者２２０の声も、相互に分離する。このため、第１話者２１０の声と第２話者２２０の声とを合成（同期加算）することにより、送話音声を生成する。

図８は話者が複数人の場合のハンズフリー通話装置１００の動作を説明するためのフローチャートである。

先ず、マイクロホンアレー１３０により音声を集音する（ステップＳ１１）。次に、ＢＳＳ処理部１４０により、各音源に由来する音声を分離する（ステップＳ１２）。次に、ＢＳＳ処理部１４０は、話者が複数であるか否かを判定する（ステップＳ１３）。この処理は、相互に分離された複数の音声の中に、複数の声が存在するか否かを判定することにより行う。更に、この処理の補助として、撮像部１７０により撮像された画像中に複数の人物が存在するか否かの判定結果を利用しても良い。

話者が複数の場合（ステップＳ１３のＹ）、複数の話者の音声（声）を合成することにより、送話音声を生成する（ステップＳ１４）。一方、話者が１人だけの場合、その話者の音声（声）を送話音声とする（ステップＳ１５）。

以上のような第１の実施形態によれば、ハンズフリー通話装置１００は、受話部１１０と、受話部１１０が受信した受話音声を出力する超音波スピーカ１２０を有する。更に、ハンズフリー通話装置１００は、音声を集音するマイクロホンアレー１３０と、マイクロホンアレー１３０により集音された音声から送話音声を抽出するＢＳＳ処理部１４０と、ＢＳＳ処理部１４０により抽出される送話音声を送信する送話部１５０と、を有する。
よって、話者の声を選択的に通話相手へ送話することができる。
ここで、ハンズフリー通話装置１００においては、超音波スピーカ１２０により受話音声を出力する。このため、超音波スピーカ１２０から（ひいてはハンズフリー通話装置１００から）ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー１３０が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、ＢＳＳ処理部１４０は、受話音声の音響エコーを分離する処理と、その音響エコーを雑音と判定する処理と、の何れも行う必要がない。つまり、ＢＳＳ処理部１４０の処理が簡単になる。
要するに、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。

ハンズフリー通話装置１００は、画像を撮像する撮像部１７０と、撮像部１７０による撮像結果に基づいて話者の発声タイミングを判定する画像判定部１９０と、を有している。そして、ＢＳＳ処理部１４０は画像判定部１９０により判定された発声タイミングに集音された音声から、送話音声を抽出する。よって、送話音声の抽出処理を効率的に行うことができる。

ＢＳＳ処理部１４０は、複数の話者による発声をそれぞれ送話音声の一部分ずつとして抽出し、抽出した複数の話者による発声を合成することにより、送話音声を生成する。よって、話者が複数の場合には、複数の話者の声を選択的に通話相手へ送話することができる。

ハンズフリー通話装置１００は、撮像部１７０と、撮像部１７０による撮像結果に基づいて話者の位置を特定する位置特定部１８０と、指向性制御部２１と、を有している。指向性制御部２１は、位置特定部１８０により特定された話者の位置で音声が再生されるように超音波スピーカの指向性を制御する。よって、話者の位置において選択的に、音声を再生することができる。

〔第２の実施形態〕
図９は第２の実施形態に係るハンズフリー通話装置２００の構成を示すブロック図である。図１０は第２の実施形態に係るハンズフリー通話装置２００のより具体的な構成を示すブロック図である。図１１は第２の実施形態の動作を説明するための模式図である。

本実施形態に係るハンズフリー通話装置１００は、受話部１１０と、超音波スピーカ１２０と、マイクロホンアレー２３０と、送話部１５０と、を有する。受話部１１０は、受話音声を受信する。超音波スピーカ１２０は、受話部１１０が受信した受話音声を出力する。マイクロホンアレー２３０は、音声を集音する。マイクロホンアレー２３０は、ＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒＮＯｉｓｅＲｅｄｕｃｔｉｏｎ）方式のものである。送話部１５０は、マイクロホンアレー２３０により集音される音声に基づいて送話音声を生成し、該送話音声を送話する。

ＡＭＮＯＲ方式のマイクロホンアレー２３０は、雑音の方向に対するマイクロホンアレー２３０の指向性を低くする。雑音の方向に指向性の谷を形成する。その結果、話者の声を選択的に、送話部１５０より通話相手へ送話することができる。なお、ＡＭＮＯＲ方式のマイクロホンアレー２３０は、目的音方向に感度は高い。ただし、ＡＭＮＯＲ方式のマイクロホンアレー２３０は、目的音方向に鋭い指向性を形成する訳ではない。

ここで、ＡＭＮＯＲ方式のマイクロホンアレー２３０においては、雑音の音源数が多いほど、多くのマイクロホン１３１（図１１参照）が必要となる。形成可能な指向性の谷の数は、（マイクロホン１３１の個数−１）となるためである。

これに対し、本実施形態に係るハンズフリー通話装置２００においては、超音波スピーカ１２０により受話音声を出力する。このため、超音波スピーカ１２０から（ひいてはハンズフリー通話装置２００から）ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー２３０が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、マイクロホンアレー２３０は、その音響エコーを雑音として判定する処理と、音響エコーの方向に対する指向性を低くする処理と、の何れも行う必要がない。つまり、マイクロホンアレー２３０の処理が簡単になる。
また、スピーカとして可聴音を出力する通常のスピーカを用いる場合と比べて、雑音の音源数が減るため、マイクロホンアレー２３０が必要とするマイクロホン１３１の数を低減することができる。
要するに、なるべく少ない数のマイクロホンを用いて、簡単な演算処理で、且つ、話者の声を選択的に通話相手へ送話することができる。

以下、第２の実施形態についてのより詳細な説明を、第１の実施形態との相違点を中心に行う。

ハンズフリー通話装置２００は、ハンズフリー通話装置１００と同様に、無線通信又は有線通信により、他の通話装置との間で通話を行うための装置である。受話部１１０は、他の通話装置から送信された受話音声を受信する。送話部１５０は、他の通話装置へ送話音声を送信する。ハンズフリー通話装置２００は、携帯電話機或いはその他の携帯通信端末装置であることが好ましい例であるが、固定電話などであっても良い。

図１０に示すように、本実施形態に係るハンズフリー通話装置２００は、上記の第１の実施形態における画像判定部１９０及びＢＳＳ処理部１４０を有していない。

マイクロホンアレー２３０は、複数のマイクロホン１３１（図１１）と、ＡＭＮＯＲ処理部２３５（図１０）と、を備えて構成されている。ＡＭＮＯＲ処理部２３５は、雑音の音源（以下、雑音源）の方向に対して、マイクロホンアレー２３０の指向性を低くする処理を行う。すなわち、雑音源の方向に指向性の谷２４１、２４２（図１１）を形成する。

以下、図１１を参照して、本実施形態の動作を説明する。

ＡＭＮＯＲにおいては、目的音方向が既知である事、及び、雑音のみを含んだ信号の受音が可能な事が必要（前提条件）である。

本実施形態の場合も、撮像部１７０は、第１話者２１０及び第２話者２２０を含む画像を撮像する。位置特定部１８０は、撮像部１７０による撮像結果に基づいて、第１話者２１０及び第２話者２２０の位置を目的音方向として特定する。ＡＭＮＯＲ処理部２３５は、目的音方向については、マイクロホンアレー２３０の指向性を低くせず、目的音方向以外の方向について、マイクロホンアレー２３０の指向性を低くする。

マイクロホンアレー２３０は、位置特定部１８０により特定された第１話者２１０及び第２話者２２０の方向とは異なる方向からの音声を雑音と判定する。例えば、撮像部１７０の視野に写らない人物（図１１の話者以外の発声者２５０）が存在する場合、ＡＭＮＯＲ処理部２３５は、その人物（その方向の音源）については、雑音源と判定することができる。

なお、ＡＭＮＯＲ処理部２３５は、予め顔の画像情報が登録されている人物（例えば第１話者２１０及び第２話者２２０）のみを話者と判定し、それ以外の人物（話者以外の発声者２５０）については、雑音源と判定するようにしても良い。

また、ＡＭＮＯＲ処理部２３５は、着信時にマイクロホンアレー２３０により集音された音声から着信音を除去した音声を雑音として認識するように構成されている。これにより、着信以前からスピーカ５０から音声が放音されている場合、ＡＭＮＯＲ処理部２３５は、そのスピーカ５０を雑音源と判定することができる。

これにより、ＡＭＮＯＲ処理部２３５は、スピーカ５０の方向、及び、話者以外の発声者２５０の方向に、それぞれ指向性の谷２４１、２４２が形成されるように、マイクロホンアレー２３０を制御する。その結果、第１話者２１０及び第２話者２２０の発声を含む音声が、送話音声として送話部１５０より通話相手の通話装置へ送信される。

以上のような第２の実施形態によれば、ハンズフリー通話装置２００は、受話部１１０と、受話部１１０が受信した受話音声を出力する超音波スピーカ１２０と、を有する。ハンズフリー通話装置２００は、更に、音声を集音するＡＭＮＯＲ方式のマイクロホンアレー２３０と、マイクロホンアレー２３０により集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部１５０と、を有する。
ＡＭＮＯＲ方式のマイクロホンアレー２３０は、雑音の方向に対するマイクロホンアレー２３０の指向性を低くする。その結果、話者の声を選択的に、送話部１５０より通話相手へ送話することができる。
また、超音波スピーカ１２０により受話音声を出力するため、超音波スピーカ１２０から（ひいてはハンズフリー通話装置１００から）ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー２３０が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、マイクロホンアレー２３０は、その音響エコーを雑音として判定する処理と、音響エコーの方向に対する指向性を低くする処理と、の何れも行う必要がない。つまり、ＡＭＮＯＲ処理部２３５の処理が簡単になる。
また、スピーカとして可聴音を出力する通常のスピーカを用いる場合と比べて、雑音の音源数が減るため、マイクロホンアレー２３０が必要とするマイクロホン１３１の数を低減することができる。よって、限られた実装スペースにマイクロホンアレー２３０を容易に実装できるため、本実施形態に係るハンズフリー通話装置２００は、携帯通信端末装置としても容易に実現することができる。

２０入力部
２１指向性制御部
３０超音波振動子
４０可聴領域
５０スピーカ
６２振動部材
６３振動子
７０支持部
１００ハンズフリー通話装置
１１０受話部
１２０超音波スピーカ
１３０マイクロホンアレー
１３１マイクロホン
１４０ＢＳＳ処理部
１５０送話部
１７０撮像部
１８０位置特定部
１９０画像判定部
２００ハンズフリー通話装置
２１０第１話者（話者）
２２０第２話者（話者）
２３０マイクロホンアレー
２３５ＡＭＮＯＲ処理部
２４１指向性の谷
２４２指向性の谷
２５０話者以外の発声者
ａ１キャリア周波数
ａ２倍波周波数
ａ３３倍波周波数

Claims

受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するマイクロホンアレーと、
前記マイクロホンアレーにより集音された音声から、送話音声を抽出するＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）処理部と、
前記ＢＳＳ処理部により抽出される送話音声を送信する送話部と、
を有することを特徴とするハンズフリー通話装置。
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の発声タイミングを判定する画像判定部と、
を有し、
前記ＢＳＳ処理部は、前記画像判定部により判定された前記発声タイミングに集音された音声から、前記送話音声を抽出することを特徴とする請求項１に記載のハンズフリー通話装置。
前記ＢＳＳ処理部は、複数の話者による発声をそれぞれ前記送話音声の一部分ずつとして抽出し、抽出した前記複数の話者による発声を合成することにより、前記送話音声を生成することを特徴とする請求項１又は２に記載のハンズフリー通話装置。
受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒＮＯｉｓｅＲｅｄｕｃｔｉｏｎ）方式のマイクロホンアレーと、
前記マイクロホンアレーにより集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部と、
を有することを特徴とするハンズフリー通話装置。
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の位置を特定する位置特定部と、
を有し、
前記マイクロホンアレーは、前記位置特定部により特定された前記話者の方向とは異なる方向に対する指向性を、前記話者の方向の指向性よりも低くすることを特徴とする請求項４に記載のハンズフリー通話装置。
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の位置を特定する位置特定部と、
前記位置特定部により特定された前記話者の位置で音声が再生されるように前記超音波スピーカの指向性を制御する指向性制御部と、
を有することを特徴とする請求項１乃至５の何れか一項に記載のハンズフリー通話装置。
前記指向性制御部は、前記超音波スピーカに入力する変調信号を調節することによって、前記超音波スピーカの共振周波数を変化させることにより、前記超音波スピーカの指向性を制御することを特徴とする請求項６に記載のハンズフリー通話装置。