JP6665379B2

JP6665379B2 - 聴覚支援システムおよび聴覚支援装置

Info

Publication number: JP6665379B2
Application number: JP2015221387A
Authority: JP
Inventors: イシイ・カルロス・トシノリ; 超然劉; イアニ・エヴァン
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2020-03-13
Anticipated expiration: 2035-11-11
Also published as: JP2017092732A

Description

この発明は、音源定位および音源分離技術を用いて、使用者の聴覚の支援をするための技術に関する。

世界各国で共通して、その国における人口の1割〜2割程度が難聴・聴覚障害を持っているといわれている。２００９年の日本補聴器販売店協会による「補聴器供給システムの在り方に関する研究」報告書の中で、日本の難聴者人口は15.7％ (1944万人)と報告されている。そのうち、自覚のない難聴者(7.2％)、自覚がある難聴者(4.5％)、ほとんど使用しない補聴器所有者(1.0％)、常時または随時使用の補聴器所有者(2.7％)に分かれる。

高齢者の難聴は、神経細胞などの老化現象としての老人性難聴で、65歳以上では25〜40％、75歳以上では40〜66％の割合で見られる。高齢化に伴い、難聴者数は更に増加すると予想される。

日本で補聴器を使っている人は400万人程度であり、難聴者のうち５人に１人しか補聴器を使っていないことになる。補聴器を途中で使わなくなる難聴者も多い。

その理由としては、たとえば、一般の補聴器は、マイクが補聴器に埋め込まれているため、周囲の雑音も増幅されてしまうという根本的な問題があることが挙げられる。また、ハウリング（ピーピー音）も起きやすく利用者に苦痛を感じさせる。最近の補聴器は、デジタル処理の導入により、周波数帯域ごとの音量調整や騒音抑制などの機能が埋め込まれ、性能は上がっている。ハウリング防止の信号処理も施しているものがあるが、その分、音量を抑える必要があり、重度難聴には十分な音量が出力できない。

利用者が補聴器を止める原因は、多くの場合、利用者に合った補聴器を選べていない、または設定が難しく誤った設定で使用しているためとされているが、それらが適切であっても補聴器単体による快適さ（聞こえやすさ）には限界がある。

また、特許文献１には、選択可能な知覚空間的な音源の位置決めを備える聴覚装置が開示されている。特許文献１に開示の技術では、聴覚装置システムは、聴覚装置（右耳用の第１の補聴器と、左耳用の第２の補聴器とを備えるバイノーラル補聴器）と、聴覚装置に送信される選択された音声信号の到来の知覚方向をユーザが選択可能にする制御装置（スマートフォン）を備えている。このような構成により、会話キューを聞き取れるようにすることにより、患者の聴力が改善する。

このように補聴器への応用においては、バイノーラル処理（両耳に装着した補聴器のマイクを利用した信号処理）が、国内外で多く研究されている。例えば、非特許文献１には、バイノーラル信号を用いてブラインド信号処理とポストフィルタリングを中心に，両耳補聴器に適用した研究が開示されている。非特許文献２では、「聞き耳」型補聴システムの研究開発が報告されており、非特許文献３では、高齢者の聴覚機能の低下に向けた聴覚支援システムに関する研究が報告されている。

さらに、ピンマイクやペン型などの遠隔マイクにより、ＦＭ経由で遠隔の声を送受信する機能を持つ補聴器もあるが、遠隔のマイク周辺の雑音も増幅する問題や、音の方向を感知するための空間的情報も保たれない問題が残る。

空間的情報の伝達においては、マイク埋め込みの補聴器を両耳にかけることにより、ある程度解決されるが、自分の声も大きく聞こえる問題は残る。

聴覚を支援するための遠隔センサ・遠隔マイクによる空間的情報の伝達における問題点は、センサと音源の相対的角度が利用者と音源の相対的角度と異なることが原因で、音の方向情報を取得できる多チャンネルの場合でも生じる。聴覚支援を目的に多チャンネルのマイクロホンアレイ技術を活用した研究は国内外多数あるが、ほとんどが一つの音源を強調させ、モノラル信号を出力する仕組みで、空間的情報が失われる。

一方で、上述したような音の空間的情報を取得するには、マイクロホンアレイを用いた音源定位と、音源分離の技術を利用することができる。

音源定位に関して、実環境を想定した従来技術として特許文献２または特許文献３に記載のものがある。特許文献２または特許文献３に記載の技術は、分解能が高いＭＵＳＩＣ法と呼ばれる公知の音源定位の手法を用いている。

特許文献２または特許文献３に記載の発明では、マイクロホンアレイを用い、マイクロホンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを求める。さらに、マイクロホンアレイのうち、１つのマイクロホンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、ＭＵＳＩＣ法により音源の方向を推定する。

さらに、特許文献４では、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と雑音とを精度高く分離することを目的として、音源定位および音源分離をするシステムが開示されている。ここでは、音源定位装置は、人の位置を検出するＬＲＦ（レーザレンジファインダ）群と、マイクロホンアレイ群の出力から得られる複数チャンネルの音源信号の各々と、マイクロホンアレイに含まれる各マイクロホンの間の位置関係と、ＬＲＦ群の出力とに基づいて、複数の方向の各々について、所定時間ごとにＭＵＳＩＣパワーを算出し、そのピークを音源位置として所定時間ごとに検出する音源定位処理部と、マイクロホンアレイの出力信号から、音源定位処理部により検出された音源位置からの音声信号を分離する音源分離処理部と、分離された音声信号の属性を人位置計測装置の出力を用いて高精度で判定する音源種類同定処理部とを含む。

特開２０１５−１３６１００号公報明細書特開２００８−１７５７３３号公報明細書特開２０１１−２２０７０１号公報明細書特開２０１２−２１１７６８号公報明細書

高藤、森、猿渡、鹿野 (2008). SIMOモデルに基づくICAと頭部伝達関数の影響を受けないバイナリマスク処理を組み合わせた両耳聴覚補助システム、電子情報通信学会技術研究報告. EA, 応用音響 108(143), 25-30, 2008. 鵜木祐史. 「聞き耳」型補聴システムの研究開発．「戦略的情報通信研究開発推進事業SCOPE）」平成25年度新規採択課題 http://www.soumu.go.jp/main_content/000242634.pdf 高齢者の聴覚機能の低下に向けた聴覚支援システムに関する研究、文部科学省科学研究費基盤研究(C)、2014年04月〜 2017年03月

しかしながら、たとえば、上述した特許文献１の技術では、ユーザがディスプレイ上で、音声を発している対象を表すシンボルを、自身の現在の環境に併せて、自分で移動させて知覚空間的な音源の位置決めを行う必要がある。このため、ユーザの負担が大きく、また、ユーザの頭の方向等が変化すると、聞こえてくる音の到来方向が、現実の空間中の音源の方向とはずれてしまい、違和感があるという問題がある。

また、特許文献２〜４に開示の技術でも、単に、音源からの音の到来方向の推定と音源からの音の分離を行うのみであるので、ユーザの耳に聞こえてくる音の到来方向と、現実に視覚的に把握される音源の方向とのずれについては、何ら検討がなされていない。

また、従来の補聴器では、以下のような問題点がある。

（１）利用者に必要な音と不要な音を選択することができない。

（２）音の空間的情報が失われる。

（３）設定が複雑で使いにくい。

この発明は、このような問題点を解決するためになされたものであって、その目的は、観測された３次元的な音環境を、聴覚を支援する人の頭の位置・姿勢に応じて再現することで、違和感のない聴覚の支援を実現することが可能な聴覚支援システムを提供することである。

この発明の他の目的は、環境内の個々の音を分離することにより、利用者に対して必要な音と不要な音を取捨選択的に制御することができる聴覚支援システムを提供することである。

この発明の１つの局面に従うと、対象空間内の利用者の聴覚を補助するための聴覚支援システムであって、対象空間に設置される音源定位装置を備え、音源定位装置は、対象空間における対象物の位置を検出する位置検出手段と、対象空間内に設置されるマイクロホンアレイからの出力に応じて、マイクロホンアレイについて音の到来方向を推定し、位置検出手段の検出結果と統合して、対象空間内での音源の位置を特定して出力する音源定位手段と、特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、利用者の顔姿勢に応じて、対象空間内の音声を再構成するための空間感覚合成装置をさらに備え、空間感覚合成装置は、対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、利用者に装着され、利用者の両耳に対して対象空間の音環境を再現するための音再現手段と、音源定位手段から、音源の位置を受信し、検出された顔姿勢に応じて、対象空間の音源の位置から利用者の各耳への頭部伝達関数を用いて、音源分離手段からの分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含み、音空間再構成手段は、利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する。

好ましくは、空間感覚合成装置は、利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える。

好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、ヘッドホンに装着されたジャイロおよびコンパスを含む。

好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、撮像された利用者の画像から利用者の顔姿勢を推定する。

好ましくは、音源定位手段は、マイクロホンアレイに基づく音の到来方向と位置検出手段で検出された音源の位置が、交差することに応じて、音源の位置を特定する。

好ましくは、音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、対象空間において、対象空間の音源の位置から利用者の各耳への頭部伝達関数をデータベースから選択して、各耳へ空間的感覚を再現するための音信号を合成する。

この発明の他の局面に従うと、対象空間の音環境に関する情報を送信する環境センサ装置からの情報に基づき、対象空間の音環境を利用者の顔姿勢に応じて再現するための聴覚支援装置であって、環境センサ装置からは、対象空間における音源の位置を示す位置情報と、位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、利用者に装着され、利用者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源位置の位置情報を受信し、検出された顔姿勢に応じて、対象空間の音源の位置から利用者の各耳への頭部伝達関数を用いて、分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備え、音空間再構成手段は、利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する。

好ましくは、利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える。

本発明によれば、観測された３次元的な音環境を、聴覚を支援する人の頭の位置・姿勢に応じて再現することで、違和感のない聴覚の支援を実現することが可能である。

また、本発明によれば、環境内の個々の音を分離することにより、利用者に対して必要な音と不要な音を取捨選択的に制御することができる。

本実施の形態の聴覚支援システム１０００の利用場面のイメージ図である。本実施の形態の聴覚支援システム１０００の構成を説明するためのブロック図である。音源定位装置３００の構成を説明するための機能ブロック図である。音源分離処理を説明するための機能ブロック図である。空間感覚合成部５００を説明するための機能ブロック図である。音源定位装置３００のハードウェア構成を説明するためのブロック図である。インタフェースの画面表示例を示す図である。

以下、本発明の実施の形態の聴覚支援システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

なお、以下の説明では、音センサとしては、いわゆるマイクロホン、より特定的にはエレクトレットコンデンサマイクロホンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。

そして、操作者側の音環境の再生には、ステレオヘッドホンを例として説明することにする。もちろん、右耳と左耳に別々に音声を再生するイヤホンであってもよい。

図１は、本実施の形態の聴覚支援システム１０００の利用場面のイメージ図である。

老人ホームや介護施設などの供用空間で複数の利用者が環境センサを共用し、聴覚支援システム１０００は、ドアの音や足音、食器の音、エアコンの音など、不要・不快な音を抑圧し、利用者が注意している対話相手の声やテレビの音（利用者指向の注意対象）と利用者に背後から話しかけられた声（利用者向けの発話対象）を強調し、利用者に応じてその場で聞くべき音のみを提供する。

ここで、環境センサとは、後に説明するような音源定位と音源分離を行うための「マイクロホンアレイ」、対象物（特に、人）の空間内の位置をトラッキングするための「距離センサ（たとえば、レーザレンジファインダ：ＬＲＦ）」を含む。特に、距離センサは、固定されたものだけでなく、自律移動可能なロボットに搭載されて、空間内を移動するものを含んでも良い。

図２は、本実施の形態の聴覚支援システム１０００の構成を説明するためのブロック図である。

図２では、ユーザのいる空間の座標系は、（ｘ，ｙ，ｚ）であるものとする。

聴覚支援システム１０００において、環境音の観測などを実行する環境センサネットワークでは、１つ以上のマイクロホンアレイ１０．１〜１０．Ｍを含むマイクロホンアレイ群１００と、複数のレーザレンジファインダ（ＬＲＦ：Laser Range Finder）２０．１〜２０．Ｌを含むＬＲＦ群２００と、マイクロホンアレイ群１００とＬＲＦ群２００との出力に基づいて、ユーザのいる環境に存在する音源の定位・トラッキングと音源の分離を行う音源定位装置３００とを備える。

音源定位装置３００において、人位置検出追跡部３１０は、ＬＲＦ群２００の出力を用いて、どの位置に人間が存在するかを示す情報（人位置情報と呼ぶ）を検出し、人の動きに応じて、非発声期間においても人位置の追跡を行う。音源定位部３２０は、マイクロホンアレイ群５２の出力および人位置検出追跡部３１０から出力される人位置情報を受けて、マイクロホンアレイ群５２から出力される音声信号に基づいて音源定位を行ない、音源分離部３３０は、音源を分離して分離した各音源からの音を収集し、分離音を出力する。また、音源定位部からの音源の方向および位置の情報（方向・位置情報と呼ぶ）も出力される。

聴覚支援システム１０００の空間感覚合成部５００は、音源分離部３３０からの分離音を受信して音量を正規化するための音量制御部５１０と、ユーザ２が装着したヘッドホン上のセンサ６００からの情報を基に、ユーザ２の顔の向きを推定する顔姿勢推定部５２０と、受信した方向・位置情報と推定されたユーザ２の顔の向きに応じて、音源の位置および顔の向きから、左右のチャンネルに対応した頭部伝達関数（ＨＲＴＦ：Head Relative Transfer Function）をデータベース５３０から選択し、分離した音声に畳み込み演算を行い、ステレオヘッドホン６１０でユーザ２に再生する音声を再構成して合成する音空間再構成部５４０とを備える。

ユーザ２の頭部回転トラッキングのためのセンサ６００としては、ヘッドホン６１０の上部に取り付けたジャイロセンサーおよびコンパスを用いることができる。

また、音量制御部５１０においては、分離した各音源のボリュームについては、ユーザ２が、表示部６５０に表示されるユーザインタフェースにて独立して調節することが可能な構成としてもよい。

図３は、音源定位装置３００の構成を説明するための機能ブロック図である。

図３を参照して、音源定位部３２０は、各マイクロホンアレイ１０．１〜１０．Ｍからの信号によって、それぞれ、音の３次元到来方向（ＤＯＡ：Direction Of Arrival）を推定する３次元空間ＤＯＡ評価部３２０２．１〜３２０２．Ｍと、３次元空間地図を格納する３次元空間地図格納部３２０４とを備え、空間情報統合部３２０６は、３次元空間地図で表現される環境とマイクロホンアレイの位置関係、各音源のＤＯＡ、および人位置検出追跡部３１０からの情報を統合することで、３次元上での人位置情報を取得する。この人位置情報は、ヒューマントラッキングシステムを構成する人位置検出追跡部３１０により、非発声時にも常時追跡されている。

音源分離部３３０において、音源分離処理部３３０２．１〜３３０２．ｊ（ｊ：話者または注目する音源の数）は、推定した人位置情報に基づいて各人の音声を分離し、空間情報統合部３２０６からの位置情報と合わせて空間感覚合成部５００に送信する。

以下、各部の動作について、さらに詳しく説明する。
（３次元音源定位）
音源定位に関しては、まず、３次元空間ＤＯＡ評価部３２０２．１〜３２０２．Ｍが、各マイクロホンアレイ１０．１〜１０．Ｍのそれぞれに対してＤＯＡ推定を行う。空間情報統合部３２０６は、１つ以上のアレイによるＤＯＡ情報と人位置検出追跡部３１０からの人位置情報を統合することで、音源の３次元空間内の位置を推定する。
実環境での音のＤＯＡ推定は広く研究されてきており、ＭＵＳＩＣ法は、複数のソースを高い分解能で定位できる最も有効な手法の一つであり、たとえば、上述した特許文献２，３にも開示されている。音源数を固定した数値に仮定し、しきい値を超えたＭＵＳＩＣスペクトルのピークを音源として認識する。ここでは、たとえば、ＭＵＳＩＣ法の実装にあたり、１００ｍｓごとに１度の分解能を有するように構成したとしても、動作クロック周波数２ＧＨｚのシングルコアＣＰＵで、リアルタイムに音源の方向を探索することができる。
さらに、聴覚支援システム１０００にとって、最も重要な音源は人の音声である。そこで、音源定位装置３００では、人の声を漏れ無く抽出するために、複数の２次元ＬＲＦで構成したヒューマントラッキングシステムを使用する。空間情報統合部３２０６は、マイクロホンアレイからのＤＯＡ推定出力とＬＲＦのトラッキング結果が同じ位置（または所定の距離以内の位置）で交差すれば、そこに音源がある可能性が高いと判断する。

ここで、音源定位装置３００のように、２次元のＬＲＦを用いている場合は、人位置情報は２次元に限られる。ここでは、検出された音源の位置が口元の高さの範囲内にあるかの制限（たとえば、ｚ＝１〜１．６ｍ）もかけて音源の特定を行う。無音区間や音源方向推定が不十分な区間では、最後に推定された口元の高さと最新の２次元位置情報を用いて、音源分離を行う。
（音源分離）
音源分離部３３０では、選択された複数の人物（および注目する音源）（個数：ｊ）をパラレルに分離している。

図４は、このような音源分離処理を説明するための機能ブロック図である。

音源分離では，選択された複数の人物を並列に分離する。

ここで、マイクロホン（Ｍｉｃ）は、Ｎ本であるものとする。ｉは、１≦ｉ≦Ｎとする。

まず、分離の第１ステップとして、定常雑音推定部３３１０．ｋは、エアコンなどの定常雑音抑圧（noise suppression）をマイクロホンのチャンネル毎に行う。雑音抑圧部３３１２．ｉは、定常雑音抑圧手法として、以下の式（１）に示すようにウィーナーフィルタ（Wiener filter）を用いる。

Ｘ_i（ｆ）は、観測信号の周波数成分を表す。定常雑音（Ｎ_i（ｆ））は、対象となる人の声が存在しない区間での平均スペクトルとして推定される。

雑音抑圧部３３１２．iによる定常雑音抑圧処理は、ポストフィルタとして、ビームフォーマを施した後に行うことも可能であるが、ここでは、musicalノイズの発生を抑えるため、ビームフォーマの前に施すものとする。

ＤＳビームフォーマー部３３１４．１〜３３１４．ｊでは、音源定位部から得られる方向（方位角、仰角）と距離情報を基に、ビームフォーマを施す。ここでは、計算量が少なく且つロバストな遅延和ビームフォーマ（Delay-Sum Beamformer）を用いて、目的方向の人の声を分離・強調する。フレーム長は２０ｍｓで、シフト長は１０ｍｓである。
なお、話者または注目する音源の個数ｊについては、予め所定の値が設定されているものとする。

ここで、遅延和ビームフォーマについては、たとえば、以下の文献に開示がある。

文献１：国際公開ＷＯ２００４／０３４７３４公報（再表2004-034734号公報）
ビームフォーミングの基本原理を、２マイクロホンの場合を例に簡単に説明する。

特性が全く等しい２個の全指向性マイクロホンを間隔ｄで配置し、これらに対して平面波が方向θから到来する状況を考える。この平面波は各マイクロホンにおいて、経路差ｄｓｉｎθの分だけ、伝搬遅延時間が異なる信号として受信される。ビームフォーミングを行う装置であるビームフォーマでは、或る方向θ０から到来する信号に関する伝搬遅延を補償するように、δ＝ｄｓｉｎθ_０／ｃ（ｃは音速）だけ、一方のマイクロホン信号を遅延させ、その出力信号を他方のマイクロホン信号と加算または減算する。

加算器の入力では、方向θ_０から到来する信号の位相が一致する。従って、加算器の出力において、方向θ_０から到来した信号は強調される。一方、θ_０以外の方向から到来した信号は、互いに位相が一致しないため、θ_０から到来した信号ほど強調されることはない。その結果、加算器出力を用いるビームフォーマは、θ_０にビーム（Ｂｅａｍ：特に感度の高い方向）を有する指向性を形成する。対照的に、減算器では、方向θ_０から到来する信号が完全にキャンセルされる。従って、減算器出力を用いるビームフォーマは、θ_０にヌル（Ｎｕｌｌ：特に感度の低い方向）を有する指向性を形成する。このように遅延と加算のみを行うビームフォーマを、「遅延和ビームフォーマ」と呼ぶ。

ここで、より一般に、空間に指向性音源Ｓと無指向性雑音源Ｎが存在すると仮定すると、遅延和ビームフォーマの出力は以下の形になる：

Ｙ_DS（ｆ）は周波数ｆに対応したビームフォーマの出力で、Sdirは信号の方向、ｗ_SdirはSdir方向のビームフォーマレスポンスを指す。式の二つ目の項目は、分離音声に混在する雑音を表している。この雑音成分を低減させるために、各周波数に以下のようなウェイトを掛ける。

Ｙ_iはウェイト掛けした後のビームフォーマ出力である。ここでは、改めて、１≦ｉ≦ｊとする。

また、チャネル間抑圧部３３１６は、ＤＳビームフォーマのみでは、十分な音源分離が出来ず、チャンネル間の信号（妨害音）の漏れを抑えるための処理（inter-channel suppression）を行う。妨害音抑圧処理には、以下の式（５）に示すようにウィーナーフィルタ（Wiener filtering）を用いる。

Ｉ_i(f)は式（６）に示すように、分離された対象音以外の音源の中で、最も強い周波数成分を表す。上述の妨害音抑圧処理の一つの問題点として、同じ方向に対象音と妨害音が存在する場合、対象音に歪みが生じる可能性が高い。

そこで、ここでは対象音の方向（ｄｉｒ₁）と妨害音の方向（ｄｉｒ₂）の差が、所定の角度、たとえば５度以内であれば、以下の式（７）に従って、抑圧処理を行わない制約を設ける。

最後に、ゲイン正規化部３３１８．１〜３３１８．ｊは、音源とマイクロホンアレイの距離ｒ_iによって、観測される音圧が異なるため、以下のようなゲインｇ_iをかけることにより、距離による振幅の正規化（gain normalization）を施す。

図５は、空間感覚合成部５００を説明するための機能ブロック図である。

空間感覚合成部５００は、環境センサ側から提供される分離音を受信し、利用者と対象音源の相対的位置関係を考慮して、音の空間的感覚を再構築する。処理としては、複数音源に対する音量調整と、頭部伝達関数（HRTF）を用いた音像の合成となる。

音量制御部５１０は、音源分離部３３０からの分離音をそれぞれ受信して音量をそれぞれ正規化するための音量制御処理部５１０２．１〜５１０２．ｊを備える。

音量制御部５１０は、各音源とアレイの間の距離による違いを補正するため、分離した各音声に対して距離によって以下のように正規化を行う。

このうち、Ｎは音源の数で、dist_nはｎ番目の音源とアレイの距離を表す。ｇ_iはｉ番目の音源からの分離音Ｙ_PF,iに掛ける正規化ファクタで、Ｙiはｉ番目の音源の分離結果を示している。

顔姿勢推定部５２０は、ユーザ２が装着したヘッドホン上のセンサ６００からの情報を基に、ユーザ２の顔の向きを推定する。

ただし、たとえば、ユーザ２の顔の向きを推定する方法は、このような構成に限定されるわけでなく、たとえば、ユーザ２の画像を撮像し、この撮像データからユーザ２の頭部姿勢を推定することとしてもよい。このような撮像画像による頭部姿勢の推定については、特に限定されないが、たとえば、以下の文献に開示がある。

文献２：特開２０１４−９３００６号公報
音空間再構成部５４０において、空間再構成部５５０は、環境センサ側から受信した方向・位置情報と推定されたユーザ２の顔の向きに応じて、座標系（ｘ，ｙ，ｚ）における音源の位置を再構成し、推定された顔の向きから、左右のチャンネルに対応した正確な頭部伝達関数（ＨＲＴＦ：Head Relative Transfer Function）をデータベース５３０から選択する。

ここで、頭部伝達関数ＨＲＴＦとは、任意に配置された音源から発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答であり、たとえば、以下の文献にも開示がある。

文献３：特開２０１０−１１８９７８号公報
音空間再構成部５４０において、ＨＲＴＦ処理部５５０２．１〜５５０２．ｊは、分離され音量が制御された音声に、選択された頭部伝達関数との畳み込み演算を行い、左耳音合成部５５０４．１および右耳音合成部５５０４．２は、それぞれ左耳周波数特性補正部５５０６．１および右耳周波数特性補正部５５０６．２を通して、ステレオヘッドホン６１０の左右のスピーカでユーザ２に再生する左耳用音および右耳用音をそれぞれ合成する。

左耳周波数特性補正部５５０６．１および右耳周波数特性補正部５５０６．２は、予め測定されたユーザ２の難聴特性に合わせて、右耳および左耳のそれぞれについて、周波数帯域ごとの音量の制御を行う。たとえば、一例として、ユーザ２の右耳の高音域での聴覚能力が落ちているのであれば、これに併せて、右耳の高音域の音声を強調して補正する処理を実行する。

ヘッドホンを用いた３Ｄ音場の再現においては、日常、人は両耳に到達した音波の違いによって音源定位を行っていることを利用する。ヘッドホン６１０で、この違いを再現することで、ステレオヘッドホンで３Ｄ音場を合成することが可能になる。

頭部伝達関数ＨＲＴＦは、空間内の音源から発した音波が人の両耳に到達する時点の違いを表現する関数であって、３Ｄ音場のバイナル再現に多く使われる。しかし、ヘッドホンを使って空間上に存在する音源を再現する際には、バーチャルな音源が聴者の頭部・体の動きと共に動いてしまうという問題点がある。人の日常経験を考えると、外部音源の位置は聴者の体の動きに関連せず、固定されている。ヘッドホンによる３Ｄ音場の再現ではこの経験と異なるため、臨場感にマイナスに働き、不自然な印象の原因となってしまう。さらに、頭部伝達関数を使った場合、前後の誤判断が起こるという問題がある。これは、前方にある音源が後方にあるように聞こえる、もしくはその逆の現象である。日常生活では音源を定位するために意識的・無意識的に頭部を回し、その効果を定位の補助に用いている。

これらを考慮し、聴覚支援システム１０００では、ユーザ２の頭部回転をトラッキングすることで、頭部の向きに合わせたＨＲＴＦを用いてステレオ音声を合成する。正確なＨＲＴＦを選択するのに必要な連続的音源位置情報は、複数のマイクロホンアレイのＤＯＡ推定結果、および、人位置推定システムから取得されている。

すなわち、一つの音声を特定の方向から聞こえるようにするため、その方向に対応したＨＲＴＦによってフィルタリングしてステレオ化する。ＨＲＴＦを表す係数のデータベースとしては、特に限定されないが、たとえば、一般公開されているＫＥＭＡＲ(Knowles Elec-tronics Manikin for Acoustic Research) ダミーヘッドのＨＲＴＦデータベースを利用することができる。ＫＥＭＡＲは、ＨＲＴＦ研究のために一般的な頭部サイズを使って作られたダミーヘッドで、データベースには空間からのインパルス信号に対するダミーヘッドの左右耳のレスポンスとして、仰角−４０度から９０度までの総計７１０方向のインパルス応答が含まれている。各インパルス応答の長さは５１２サンプルで、サンプリング周波数は４４．１ｋＨｚである。なお、被験者の頭部の形状に対応したＨＲＴＦを合成しておき、これをデータベースとして使用することも可能である。

ＨＲＴＦを用いてダイナミックに音場を合成するには、頭部の向きのリアルタイム検出が必要であるため、上述のように、ヘッドホンの上部にジャイロセンサーとコンパスを取り付け、頭部回転のトラッキングを行う構成とすることができる。このとき、角度情報はシリアルおよびブルートゥース経由のいずれかでシステムに送られる。音場の合成に使う方向は音源方向から頭部角度を引いたもので、この方向に対応した左右チャンネルのインパルス応答がデータベースから選出され、分離結果と畳み込み演算を行った音声がユーザの両耳に再生される。

図６は、音源定位装置３００のハードウェア構成を説明するためのブロック図である。

なお、空間感覚合成部５００も、基本的には、同様の構成を有する。すなわち、図３〜図５に示した各機能ブロックの機能は、以下に説明するようなハードウェア上で動作するソフトウェアにより実現される。

図６に示されるように、音源定位装置３００は、外部記録媒体６４に記録されたデータを読み取ることができるドライブ装置５２と、バス６６に接続された中央演算装置（ＣＰＵ：Central Processing Unit）５６と、ＲＯＭ（Read Only Memory) ５８と、ＲＡＭ（Random Access Memory）６０と、不揮発性記憶装置５４と、マイクフォンアレイ１０．１〜１０．Ｍからの音声データおよびレーザレンジファインダ２０．１〜２０．Ｌからの測距データを取込むためのデータ入力インタフェース（以下、データ入力Ｉ／Ｆ）６８とを含んでいる。

外部記録媒体６４としては、たとえば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような光ディスクやメモリカードを使用することができる。ただし、記録媒体ドライブ５２の機能を実現する装置は、光ディスクやフラッシュメモリなどの不揮発性の記録媒体に記憶されたデータを読み出せる装置であれば、対象となる記録媒体は、これらに限定されない。また、不揮発性記憶装置５４の機能を実現する装置も、不揮発的にデータを記憶し、かつ、ランダムアクセスできる装置であれば、ハードディスクのような磁気記憶装置を使用してもよいし、フラッシュメモリなどの不揮発性半導体メモリを記憶装置として用いるソリッドステートドライブ（ＳＳＤ：Solid State Drive）を用いることもできる。

このような音源定位装置３００の主要部は、コンピュータハードウェアと、ＣＰＵ５６により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアは、マスクＲＯＭやプログラマブルＲＯＭなどにより、音源定位装置３００の製造時に記録されており、これが実行時にＲＡＭ６０に読みだされる構成としてもよいし、ドライブ装置５２により記録媒体６４から読取られて不揮発性記憶装置５４に一旦格納され、実行時にＲＡＭ６０に読みだされる構成としてもよい。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから、一旦、不揮発性記憶装置５４にコピーされ、不揮発性記憶装置５４からＲＡＭ６０に読出されてＣＰＵ５６により実行される構成であってもよい。

図６に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分の１つは、不揮発性記憶装置５４等の記録媒体に記憶されたソフトウェアである。

また、空間感覚合成部５００の場合は、不揮発性記憶装置５４にデータベース５３０も格納される構成とできる。
（音源ボリュームの調整）
聴覚支援システム１０００では、選択されたすべての音源に対して、位置情報を反映したステレオ音声を合成し、足し合わせて、音場を表現する出力が再生される。しかし、これでは選択された各音源のボリュームが予測できない。もし、ユーザ側で各音源のボリュームを各々独立して操作することができれば、自分にとって注目したい音源に焦点をあてた音環境を作ることができる。
以下では、音場をコントロールするための２つの異なる操作パターンのユーザインタフェースについて説明する。

図７は、このようなインタフェースの画面表示例を示す図である。

まず、前提として、インターフェース画面では、音源定位装置３００により特定された発話者（他の注目対象の音源も含む）の位置が、画面上に２次元マップとして表示されるものとする。また、ユーザ自身の位置は、斜線の入った丸で示す。

図７（ａ）に示す１つ目のインタフェースでは、ユーザが、周りにいる人のうち、強調したい人をマウスの左クリックで選択し、抑圧したい人を右マウスで選択する機能を設ける。強調したい人は黒丸で、抑圧したい人は、白丸で表現されている。

図７（ｂ）に示す２つ目のインタフェースでは、ユーザの顔の向きによって各音源のボリュームが調整される。ユーザの顔方向を利用して音源の音量を操作するため、両手が解放される。ユーザの顔の前方の所定範囲内にある音源は強調され、所定範囲外にある音源は減衰される。ボリュームを調節するファクタはユーザの顔正面方向からの角度の大きさと比例するようにしてもよい。
図７（ｂ）中では、ユーザの顔の向きは、斜線の入った丸に付随する矢印で示されている。

このような構成により、ユーザが注目する対象を指示するすることができ、音量制御部５１０２．１〜５１０２．ｊは、音源分離された分離音の信号の音量を、ユーザが注目する対象の音源からの音声が強調されるように個別に制御する。

以上説明したように、本実施の形態の聴覚支援システムでは、環境内の個々の音を分離することにより、これまで補聴器単体では出来なかった、利用者に対して必要な音と不要な音を取捨選択的に制御することができる。環境センサの利用により、対象音の強調と不要音の抑圧に加え、ハウリングの問題および自分の声が大きく聞こえる問題も解決できる。これにより、従来の補聴器より音量を上げることができ、対象となる音や声が聞きやすくなる。

また、本実施の形態の聴覚支援システムでは、環境センサにより分解された個々の音源に対し、センサと利用者の相対的な位置や向きに応じた音像（音の空間的情報の感覚）を再構築することができる。これにより、どの方向から音が鳴ったのか、といった空間的情報の知覚を可能にする。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

２ユーザ、１０．１〜１０．Ｍマイクロホンアレイ、２０．１〜２０．ＬＬＲＦ、１００マイクロホンアレイ群、２００ＬＲＦ群、３００音源定位装置、３１０人位置検出追跡部、３２０音源定位部、３３０音源分離部、５００音声合成装置、５１０音量制御部、５２０顔姿勢推定部、５３０データベース、５４０音空間再構成部、５５０空間再構成部、６００センサ、６１０ヘッドホン、６５０表示部。

Claims

対象空間内の利用者の聴覚を補助するための聴覚支援システムであって、
前記対象空間に設置される音源定位装置を備え、前記音源定位装置は、
前記対象空間における対象物の位置を検出する位置検出手段と、
前記対象空間内に設置されるマイクロホンアレイからの出力に応じて、前記マイクロホンアレイについて音の到来方向を推定し、前記位置検出手段の検出結果と統合して、前記対象空間内での音源の位置を特定して出力する音源定位手段と、
特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、
前記利用者の顔姿勢に応じて、対象空間内の音声を再構成するための空間感覚合成装置をさらに備え、前記空間感覚合成装置は、
前記対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、
前記利用者に装着され、前記利用者の両耳に対して前記対象空間の音環境を再現するための音再現手段と、
前記音源定位手段から、前記音源の位置を受信し、検出された顔姿勢に応じて、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を用いて、前記音源分離手段からの分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含み、
前記音空間再構成手段は、前記利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する、聴覚支援システム。
前記空間感覚合成装置は、前記利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える、請求項１に記載の聴覚支援システム。
前記音再現手段は、ヘッドホンまたはイヤホンであり、
前記顔姿勢検出手段は、前記ヘッドホンに装着されたジャイロおよびコンパスを含む、請求項２記載の聴覚支援システム。
前記音再現手段は、ヘッドホンまたはイヤホンであり、
前記顔姿勢検出手段は、撮像された前記利用者の画像から前記利用者の顔姿勢を推定する、請求項２記載の聴覚支援システム。
前記音源定位手段は、マイクロホンアレイに基づく音の到来方向と前記位置検出手段で検出された音源の位置が、交差することに応じて、前記音源の位置を特定する、請求項１〜４のいずれか１項に記載の聴覚支援システム。
音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記対象空間において、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ空間的感覚を再現するための音信号を合成する、請求項１〜５のいずれか１項に記載の聴覚支援システム。
対象空間の音環境に関する情報を送信する環境センサ装置からの情報に基づき、前記対象空間の音環境を利用者の顔姿勢に応じて再現するための聴覚支援装置であって、前記環境センサ装置からは、前記対象空間における音源の位置を示す位置情報と、前記位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、
前記対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、
前記利用者に装着され、前記利用者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
前記音源位置の前記位置情報を受信し、検出された顔姿勢に応じて、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を用いて、前記分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備え、
前記音空間再構成手段は、前記利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する、聴覚支援装置。
前記利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える、請求項７記載の聴覚支援装置。
前記音再現手段は、ヘッドホンまたはイヤホンであり、
前記顔姿勢検出手段は、前記ヘッドホンに装着されたジャイロおよびコンパスを含む、請求項７または８記載の聴覚支援装置。
前記音再現手段は、ヘッドホンまたはイヤホンであり、
前記顔姿勢検出手段は、撮像された前記利用者の画像から前記利用者の顔姿勢を推定する、請求項８記載の聴覚支援装置。
音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記対象空間において、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ空間的感覚を再現するための音信号を合成する、請求項７〜１０のいずれか１項に記載の聴覚支援装置。