JP6177480B1

JP6177480B1 - 音声強調装置、音声強調方法、及び音声処理プログラム

Info

Publication number: JP6177480B1
Application number: JP2017520547A
Authority: JP
Inventors: 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2017-08-09
Anticipated expiration: 2036-12-08
Also published as: US20190287547A1; JPWO2018105077A1; CN110024418A; US10997983B2; WO2018105077A1; CN110024418B

Abstract

音声強調装置は、入力信号から音声の基本周波数（Ｆ０）を含む成分を抽出し、第１のフィルタ信号として出力する第１のフィルタ（２１）と、入力信号から音声の第１フォルマント（Ｆ１）を含む成分を抽出し、第２のフィルタ信号として出力する第２のフィルタ（２２）と、入力信号から音声の第２フォルマント（Ｆ２）を含む成分を抽出し、第３のフィルタ信号として出力する第３のフィルタ（２３）と、第１のフィルタ信号と第２のフィルタ信号とを混合して第１の混合信号を出力する第１の混合部（３１）と、第１のフィルタ信号と第３のフィルタ信号とを混合して第２の混合信号を出力する第２の混合部（３２）と、第１の混合信号を第１の遅延量（Ｄ１）遅延させて第１の音声信号を生成する第１の遅延制御部（４１）と、第２の混合信号を第２の遅延量（Ｄ２）遅延させて第２の音声信号を生成する第２の遅延制御部（４２）とを有する。

Description

本発明は、入力信号から一方の耳用の第１の音声信号と他方の耳用の第２の音声信号とを生成する音声強調装置、音声強調方法、及び音声処理プログラムに関する。

近年、自動車の運転補助に供するＡＤＡＳ（先進運転支援システム）の研究が進められている。ＡＤＡＳの重要機能として、例えば、高齢運転者にも明瞭で聴き取り易い案内音声を提供する機能、及び高騒音下でも快適なハンズフリー通話を供する機能がある。また、テレビ受信機の分野では、高齢者がテレビを視聴する際にテレビから流れる放送音声の聴き取り易さを改善するための研究も進められている。

ところで、聴覚心理において、通常であれば明瞭に聞こえる音が、別の音でマスク（妨害）されることで聞き取りにくくなる聴覚マスキングという現象が知られている。聴覚マスキングとして、ある周波数成分の音が、近傍の周波数を持つ他の周波数成分の大きな音によってマスクされることで聞き取りにくくなる周波数マスキングと、後続する音が、先行する音によってマスクされることで聞き取りにくくなる時間マスキングとがある。特に、高齢者は、聴覚マスキングの影響を受け易く、母音及び後続音を聞き取る能力が低下している傾向がある。

この対策として、聴覚の周波数分解能及び時間分解能が低下した人のための補聴方法が提案されている（例えば、非特許文献１及び特許文献１参照）。これらの補聴方法では、聴覚マスキング（同時マスキング）の影響を低減させるために、入力信号を周波数軸上において分割し、分割によって生成された２つの信号を、左耳と右耳のそれぞれに異なる信号特性で提示することで、ユーザ（聞く人）の脳内で一つの音が知覚されるようにする両耳分離補聴という補聴方法が用いられる。

両耳分離補聴により、ユーザにとって、音声の明瞭度が高くなることが報告されている。これは、マスクする周波数帯域の音響信号（又は時間領域の音響信号）と、マスクされる周波数帯域の音響信号（又は時間領域の音響信号）とを、それぞれ別の耳に提示することで、ユーザは、マスクされていた音声を知覚しやすくなるためであると考えられる。

Ｄ．Ｓ．ＣｈａｕｄｈａｒｉａｎｄＰ．Ｃ．Ｐａｎｄｅｙ， "ＤｉｃｈｏｔｉｃＰｒｅｓｅｎｔａｔｉｏｎｏｆＳｐｅｅｃｈＳｉｇｎａｌＵｓｉｎｇＣｒｉｔｉｃａｌＦｉｌｔｅｒＢａｎｋｆｏｒＢｉｌａｔｅｒａｌＳｅｎｓｏｒｉｎｅｕｒａｌＨｅａｒｉｎｇＩｍｐａｉｒｍｅｎｔ"，Ｐｒｏｃ．１６ｔｈＩＣＡ，ＳｅａｔｔｌｅＷａｓｈｉｎｇｔｏｎＵＳＡ，Ｊｕｎｅ１９９８，ｖｏｌ．１，ｐｐ．２１３−２１４

特許第５３５１２８１号公報（第８〜１２頁、図７）

しかしながら、上記従来の補聴方法では、音声の基本周波数の成分であるピッチ周波数成分が両耳へ提示されていないため、この方法が適用された補聴器を軽度の難聴者又は聴覚が健常である者が使用すると、一方の耳側に音声が偏って聴こえたり、音声が二重に聴こえたりするなど、左耳と右耳との間の聴感的なバランスの崩れによって音声が聞き取りにくくなるという課題がある。

また、上記従来の補聴方法は、聴覚障害者向けのイヤホン装着型の補聴器に適用されるものであり、イヤホン装着型の補聴器以外の装置への適用は考慮されていない。つまり、上記従来の補聴方法は、拡声音声システムでの適用は考慮されておらず、例えば、２チャンネルのステレオスピーカを用いて拡声音声を受聴させるシステムでは、左右スピーカが放出した音が左右の耳にそれぞれ到達する時間が僅かに異なり両耳分離補聴の効果が低減する場合がある。

本発明は、上記のような課題を解決するためになされたものであり、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる音声強調装置、音声強調方法、及び音声処理プログラムを提供することを目的とする。

本発明に係る音声強調装置は、入力信号を受け取り、前記入力信号から第１の耳用の第１の音声信号と前記第１の耳の反対側の第２の耳用の第２の音声信号とを生成する音声強調装置であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第１の帯域成分を抽出し、前記第１の帯域成分を第１の混合部と第２の混合部の両方に入力される共通の信号である第１のフィルタ信号として出力する第１のフィルタと、前記入力信号から音声の第１フォルマントを含む予め決められた周波数帯域の第２の帯域成分を抽出し、前記第２の帯域成分を第２のフィルタ信号として出力する第２のフィルタと、前記入力信号から音声の第２フォルマントを含む予め決められた周波数帯域の第３の帯域成分を抽出し、前記第３の帯域成分を第３のフィルタ信号として出力する第３のフィルタと、前記第１のフィルタ信号と前記第２のフィルタ信号とを混合することによって第１の混合信号を出力する前記第１の混合部と、前記第１のフィルタ信号と前記第３のフィルタ信号とを混合することによって第２の混合信号を出力する前記第２の混合部と、前記第１の混合信号を予め決められた第１の遅延量、遅延させることによって、前記第１の音声信号を生成する第１の遅延制御部と、前記第２の混合信号を予め決められた第２の遅延量、遅延させることによって、前記第２の音声信号を生成する第２の遅延制御部とを有するものである。

本発明に係る音声強調方法は、入力信号を受け取り、前記入力信号から第１の耳用の第１の音声信号と前記第１の耳の反対側の第２の耳用の第２の音声信号とを生成する音声強調方法であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第１の帯域成分を抽出し、前記第１の帯域成分を第１の混合ステップと第２の混合ステップの両方において用いられる共通の信号である第１のフィルタ信号として出力するステップと、前記入力信号から音声の第１フォルマントを含む予め決められた周波数帯域の第２の帯域成分を抽出し、前記第２の帯域成分を第２のフィルタ信号として出力するステップと、前記入力信号から音声の第２フォルマントを含む予め決められた周波数帯域の第３の帯域成分を抽出し、前記第３の帯域成分を第３のフィルタ信号として出力するステップと、前記第１のフィルタ信号と前記第２のフィルタ信号とを混合することによって第１の混合信号を出力する前記第１の混合ステップと、前記第１のフィルタ信号と前記第３のフィルタ信号とを混合することによって第２の混合信号を出力する前記第２の混合ステップと、前記第１の混合信号を予め決められた第１の遅延量、遅延させることによって、前記第１の音声信号を生成するステップと、前記第２の混合信号を予め決められた第２の遅延量、遅延させることによって、前記第２の音声信号を生成するステップとを有するものである。

本発明によれば、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる。

本発明の実施の形態１に係る音声強調装置の概略構成を示す機能ブロック図である。図２（ａ）は、第１のフィルタの周波数特性を示す説明図、図２（ｂ）は、第２のフィルタの周波数特性を示す説明図、図２（ｃ）は、第３のフィルタの周波数特性を示す説明図、図２（ｄ）は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。図３（ａ）は、第１の混合信号の周波数特性を示す説明図、図３（ｂ）は、第２の混合信号の周波数特性を示す説明図である。実施の形態１に係る音声強調装置によって実行される音声強調処理（音声強調方法）の一例を示すフローチャートである。実施の形態１に係る音声強調装置のハードウェア構成（集積回路を用いる場合）を概略的に示すブロック図である。実施の形態１に係る音声強調装置のハードウェア構成（コンピュータにより実行されるプログラムを用いる場合）を概略的に示すブロック図である。本発明の実施の形態２に係る音声強調装置（カーナビシステムに適用された場合）の概略構成を示す図である。本発明の実施の形態３に係る音声強調装置（テレビ受信機に適用された場合）の概略構成を示す図である。本発明の実施の形態４に係る音声強調装置の概略構成を示す機能ブロック図である。本発明の実施の形態５に係る音声強調装置の概略構成を示す機能ブロック図である。実施の形態５に係る音声強調装置によって実行される音声強調処理（音声強調方法）の一例を示すフローチャートである。

以下に、本発明の実施の形態を添付の図面を参照しながら説明する。なお、図面全体において同一符号を付された構成要素は、同一構成及び同一機能を有するものとする。

《１》実施の形態１．
《１−１》構成
図１は、本発明の実施の形態１に係る音声強調装置１００の概略構成を示す機能ブロック図である。音声強調装置１００は、実施の形態１に係る音声強調方法及び実施の形態１に係る音声処理プログラムを実施することができる装置である。

図１に示されように、音声強調装置１００は、主要な構成として、信号入力部１１と、第１のフィルタ２１と、第２のフィルタ２２と、第３のフィルタ２３と、第１の混合部３１と、第２の混合部３２と、第１の遅延制御部４１と、第２の遅延制御部４２とを備える。図１において、１０は、入力端子、５１は、第１の出力端子、５２は、第２の出力端子である。

音声強調装置１００は、入力端子１０を介して入力信号を受け取り、この入力信号から一方（第１）の耳用の第１の音声信号と他方（第２）の耳用の第２の音声信号とを生成し、第１の音声信号を第１の出力端子５１から出力し、第２の音声信号を第２の出力端子５２から出力する。

音声強調装置１００の入力信号は、例えば、マイクロホン（図示せず）及び音波振動センサ（図示せず）などの音響トランスデューサを通じて取り込まれた音声、音楽、雑音などの音響信号、又は、無線電話機、有線電話機、テレビ受像機などの外部機器から出力される電気的な音響信号を、ラインケーブルなどを通じて取り込んだ信号である。ここでは、１チャンネル（モノラル）のマイクロホンで集音された音声信号を音響信号の一例として説明する。

以下に、図１に基づいて、実施の形態１に係る音声強調装置１００の動作原理を説明する。

信号入力部１１は、入力信号に含まれる音響信号をＡ／Ｄ（アナログ／デジタル）変換した後、所定のサンプリング周波数（例えば、１６ｋＨｚ）でサンプリング処理を行い、所定のフレーム間隔（例えば、１０ｍｓ）で取り込み、時間領域の離散信号である入力信号ｘ_ｎ（ｔ）として第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３へそれぞれ出力する。ここで、ｎは、入力信号をフレーム分割したときにフレーム毎に割り当てられたフレーム番号、ｔは、サンプリングにおける離散時間番号（０以上の整数）を示す。

図２（ａ）は、第１のフィルタ２１の周波数特性を示す説明図、図２（ｂ）は、第２のフィルタ２２の周波数特性を示す説明図、図２（ｃ）は、第３のフィルタ２３の周波数特性を示す説明図、図２（ｄ）は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。

第１のフィルタ２１は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）から音声の基本周波数（ピッチ周波数とも言う）Ｆ０を含む予め決められた周波数帯域（通過帯域）の第１の帯域成分を抽出し、第１の帯域成分を第１のフィルタ信号ｙ１_ｎ（ｔ）として出力する。言い換えれば、第１のフィルタ２１は、入力信号ｘ_ｎ（ｔ）中の音声の基本周波数Ｆ０を含む周波数帯域の第１の帯域成分を通過させ、第１の帯域成分以外の周波数成分を通過させないことで第１のフィルタ信号ｙ１_ｎ（ｔ）を出力する。第１のフィルタ２１は、例えば、図２（ａ）に示されるような特性を持つ帯域通過型フィルタで構成される。図２（ａ）において、ｆｃ０は、第１のフィルタ２１を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、ｆｃ１は、通過帯域の上限のカットオフ周波数である。また、図２（ａ）において、Ｆ０は、基本周波数のスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、ＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｃｅ）型フィルタ、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｃｅ）型フィルタなどを用いることが可能である。

第２のフィルタ２２は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）から音声の第１フォルマントＦ１を含む予め決められた周波数帯域（通過帯域）の第２の帯域成分を抽出し、第２の帯域成分を第２のフィルタ信号ｙ２_ｎ（ｔ）として出力する。言い換えれば、第２のフィルタ２２は、入力信号ｘ_ｎ（ｔ）中の音声の第１フォルマントＦ１を含む周波数帯域の第２の帯域成分を通過させ、第２の帯域成分以外の周波数成分を通過させないことで第２のフィルタ信号ｙ２_ｎ（ｔ）を出力する。第２のフィルタ２２は、例えば、図２（ｂ）に示されるような特性を持つ帯域通過型フィルタで構成される。図２（ｂ）において、ｆｃ１は、第２のフィルタ２２を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、ｆｃ２は、通過帯域の上限のカットオフ周波数である。また、図２（ｂ）において、Ｆ１は、第１フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、ＦＩＲ型フィルタ、ＩＩＲ型フィルタなどを用いることが可能である。

第３のフィルタ２３は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）から音声の第２フォルマントＦ２を含む予め決められた周波数帯域（通過帯域）の第３の帯域成分を抽出し、第３の帯域成分を第３のフィルタ信号ｙ３_ｎ（ｔ）として出力する。言い換えれば、第３のフィルタ２３は、入力信号ｘ_ｎ（ｔ）中の音声の第２フォルマントＦ２を含む周波数帯域の第３の帯域成分を通過させ、第３の帯域成分以外の周波数成分を通過させないことで第３のフィルタ信号ｙ３_ｎ（ｔ）を出力する。第３のフィルタ２３は、例えば、図２（ｃ）に示されるような特性を持つ帯域通過型フィルタで構成される。図２（ｃ）において、ｆｃ２は、第３のフィルタ２３を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数である。図２（ｃ）の例では、第３のフィルタ２３は、カットオフ周波数ｆｃ２以上の周波数成分を通過帯域としている。ただし、第３のフィルタ２３は、上限のカットオフ周波数を持つ帯域通過フィルタとすることも可能である。また、図２（ｃ）において、Ｆ２は、第２フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、ＦＩＲ型フィルタ、ＩＩＲ型フィルタなどを用いることが可能である。

性差及び個人差により若干の違いがあるが、音声の基本周波数Ｆ０は、概ね１２５Ｈｚ〜４００Ｈｚの帯域に分布し、第１フォルマントＦ１は、概ね５００Ｈｚ〜１２００Ｈｚの帯域に分布し、第２フォルマントＦ２は、概ね１５００Ｈｚ〜３０００Ｈｚの帯域に分布することが知られている。このため、実施の形態１における好適な一例では、ｆｃ０＝５０Ｈｚ、ｆｃ１＝４５０Ｈｚ、ｆｃ２＝１３５０Ｈｚである。ただし、これらの値は、上記例示に限定されることはなく、入力信号に含まれる音声信号の状態に応じて、調整することが可能である。また、第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３の遮断特性について、実施の形態１における好適な例としては、ＦＩＲ型フィルタの場合では、フィルタタップ数が９６程度のフィルタであり、ＩＩＲ型フィルタの場合では、６次のバタワース（Ｂｕｔｔｅｒｗｏｒｔｈ）特性を持つフィルタである。ただし、第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３は、これらの例示に限定されず、実施の形態１に係る音声強調装置１００の第１及び第２の出力端子５１，５２に接続されるスピーカなどの外部装置、及び、ユーザ（聞く人）の聴感特性に合わせて、適宜調整することが可能である。

以上のように、第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３を用いることで、図２（ｄ）に示されるように、入力信号ｘ_ｎ（ｔ）から、音声の基本周波数Ｆ０を含む帯域成分、第１フォルマントＦ１を含む帯域成分、第２フォルマントＦ２含む帯域成分をそれぞれ分離することができる。

図３（ａ）は、第１の混合信号ｓ１_ｎ（ｔ）の周波数特性を示す説明図、図３（ｂ）は、第２の混合信号ｓ２_ｎ（ｔ）の周波数特性を示す説明図である。

第１の混合部３１は、第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ信号ｙ２_ｎ（ｔ）とを混合することによって、図３（ａ）に示されるような、第１の混合信号ｓ１_ｎ（ｔ）を生成する。具体的に言えば、第１の混合部３１は、第１のフィルタ２１から出力される第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ２２から出力される第２のフィルタ信号ｙ２_ｎ（ｔ）とを受け取り、次式（１）に従って第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ信号ｙ２_ｎ（ｔ）とを混合して、第１の混合信号ｓ１_ｎ（ｔ）を出力する。
ｓ１_ｎ（ｔ）＝α・ｙ１_ｎ（ｔ）＋β・ｙ２_ｎ（ｔ）（１）
０≦ｔ＜１６０

式（１）において、α及びβは、混合信号の聴感的な音量補正を行うために予め決められた定数（係数）である。第１の混合信号ｓ１_ｎ（ｔ）では、第２フォルマント成分Ｆ２が減衰しているため、定数α及びβにより高域の音量不足を補正することが望ましい。実施の形態１における好適な一例では、α＝１．０、β＝１．２である。つまり、第１の混合部３１は、予め決められた第１の混合割合（すなわち、α：β）で第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ信号ｙ２_ｎ（ｔ）とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態１に係る音声強調装置１００の第１及び第２の出力端子５１，５２に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。

第２の混合部３２は、第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ信号ｙ３_ｎ（ｔ）とを混合することによって、図３（ｂ）に示されるような、第２の混合信号ｓ２_ｎ（ｔ）を生成する。具体的に言えば、第２の混合部３２は、第１のフィルタ２１から出力される第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ２３から出力される第３のフィルタ信号ｙ３_ｎ（ｔ）とを受け取り、次式（２）に従って第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ信号ｙ３_ｎ（ｔ）とを混合して、第２の混合信号ｓ２_ｎ（ｔ）を出力する。
ｓ２_ｎ（ｔ）＝α・ｙ１_ｎ（ｔ）＋β・ｙ３_ｎ（ｔ）（２）
０≦ｔ＜１６０

式（２）において、α及びβは、混合信号の聴感的な音量補正を行うための予め設定された定数である。式（２）における定数α及びβは、式（１）におけるものと異なる値であってもよい。第１の混合信号ｓ１_ｎ（ｔ）と同様に、第２の混合信号ｓ２_ｎ（ｔ）では、第２フォルマント成分Ｆ２が減衰しているため、この２つの定数により高域の音量不足を補正する。実施の形態１における好適な一例としては、α＝１．０、β＝１．２である。つまり、第２の混合部３２は、予め決められた第２の混合割合（すなわち、α：β）で第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ信号ｙ３_ｎ（ｔ）とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態１に係る音声強調装置１００の第１及び第２の出力端子５１，５２に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。

第１の遅延制御部４１は、第１の混合信号ｓ１_ｎ（ｔ）を予め決められた第１の遅延量、遅延させることによって、第１の音声信号ｓ~１_ｎ（ｔ）を生成する。言い換えれば、第１の遅延制御部４１は、第１の混合部３１から出力される第１の混合信号ｓ１_ｎ（ｔ）の遅延量である第１の遅延量を制御し、すなわち、第１の混合信号ｓ１_ｎ（ｔ）の時間遅れを制御する。具体的には、第１の遅延制御部４１は、例えば、次式（３）に従って、Ｄ_１サンプルだけ時間遅れを追加した第１の音声信号ｓ~１_ｎ（ｔ）を出力する。

第２の遅延制御部４２は、第２の混合信号ｓ２_ｎ（ｔ）を予め決められた第２の遅延量、遅延させることによって、第２の音声信号ｓ~２_ｎ（ｔ）を生成する。言い換えれば、第２の遅延制御部４２は、第２の混合部３２から出力される第２の混合信号ｓ２_ｎ（ｔ）の遅延量である第２の遅延量を制御し、すなわち、第２の混合信号ｓ２_ｎ（ｔ）の時間遅れを制御する。具体的には、第２の遅延制御部４２は、例えば、次式（４）に従って、Ｄ_２サンプルだけ時間遅れを追加した第２の音声信号ｓ~２_ｎ（ｔ）を出力する。

実施の形態１では、第１の遅延制御部４１から出力される第１の音声信号ｓ~１_ｎ（ｔ）は、第１の出力端子５１を介して外部装置に出力され、第２の遅延制御部４２から出力される第２の音声信号ｓ~２_ｎ（ｔ）は、第２の出力端子５２を介して外部装置に出力される。外部装置は、例えば、テレビ受像機、ハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。また、強調処理が行われた音声信号を、ＩＣ（集積回路）レコーダなどの録音装置へ出力して録音した場合には、録音された音声信号を、別の音声音響処理装置にて出力することも可能である。

なお、第１の遅延量Ｄ_１（Ｄ_１サンプル）は、０以上の時間であり、第２の遅延量Ｄ_２（Ｄ_２サンプル）は、０以上の時間であり、第１の遅延量Ｄ_１と第２の遅延量Ｄ_２とは異なる値であることができる。第１の遅延制御部４１と第２の遅延制御部４２の役割は、第１の出力端子５１に接続される第１のスピーカ（例えば、左スピーカ）からユーザの第１の耳（例えば、左耳）までの距離と、第２の出力端子５２に接続される第２のスピーカ（例えば、右スピーカ）からユーザの第２の耳（第１の耳の反対側の耳であり、例えば、右耳）までの距離とが異なる場合において、第１の音声信号ｓ~１_ｎ（ｔ）の第１の遅延量Ｄ_１と第２の音声信号ｓ~２_ｎ（ｔ）の第２の遅延量Ｄ_２を制御することである。実施の形態１では、ユーザが第１の耳で第１の音声信号ｓ~１_ｎ（ｔ）に基づく音を聞く時刻と、第２の耳で第２の音声信号ｓ~２ｎ（ｔ）に基づく音を聞く時刻とを近づけるように（望ましくは一致するように）、第１の遅延量Ｄ_１と第２の遅延量Ｄ_２とを調整することが可能である。

《１−２》動作
次に、音声強調装置１００の動作（アルゴリズム）の例について説明する。図４は、実施の形態１に係る音声強調装置１００によって実行される音声強調処理（音声強調方法）の一例を示すフローチャートである。

信号入力部１１は、音響信号を所定のフレーム間隔で取り込み（ステップＳＴ１Ａ）、時間領域の信号である入力信号ｘ_ｎ（ｔ）として第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３へ出力する処理を実行する。サンプル番号ｔが、予め決められた値Ｔ以下の場合（ステップＳＴ１ＢにおいてＹＥＳ）、ステップＳＴ１Ａの処理をサンプル番号ｔが値Ｔになるまで繰り返す。例えば、Ｔ＝１６０である。ただし、Ｔは１６０以外の値に設定することも可能である。

第１のフィルタ２１は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）中の音声の基本周波数Ｆ０を含む周波数帯域の第１の帯域成分（低域成分）のみを通過させて、第１のフィルタ信号ｙ１_ｎ（ｔ）を出力する第１のフィルタ処理を実行する（ステップＳＴ２）。

第２のフィルタ２２は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）中の音声の第１フォルマントＦ１を含む周波数帯域の第２の帯域成分（中域成分）のみを通過させて、第２のフィルタ信号ｙ２_ｎ（ｔ）を出力する第２のフィルタ処理を実行する（ステップＳＴ３）。

第３のフィルタ２３は、入力信号ｘ_ｎ（ｔ）を受け取り、入力信号ｘ_ｎ（ｔ）中の音声の第２フォルマントＦ２を含む周波数帯域の第３の帯域成分（高域成分）のみを通過させて、第３のフィルタ信号ｙ３_ｎ（ｔ）を出力する第３のフィルタ処理を実行する（ステップＳＴ４）。

第１から第３のフィルタ処理の順番は、上記順番に限定されず、順不同でよい。例えば、第１から第３のフィルタ処理（ステップＳＴ２、ＳＴ３、及びＳＴ４）が同時並列に実行されてもよいし、第１のフィルタ処理（ステップＳＴ２）の実行前に第２及び第３のフィルタ処理（ステップＳＴ３又はＳＴ４）が実行されてもよい。

第１の混合部３１は、第１のフィルタ２１から出力される第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ２２から出力される第２のフィルタ信号ｙ２_ｎ（ｔ）とを受け取り、第１のフィルタ信号ｙ１_ｎ（ｔ）と第２のフィルタ２２とを混合して、第１の混合信号ｓ１_ｎ（ｔ）を出力する第１の混合処理を実行する（ステップＳＴ５Ａ）。サンプル番号ｔが値Ｔ以下の場合（ステップＳＴ５ＢにおいてＹＥＳ）、ステップＳＴ５Ａの処理を、サンプル番号ｔがＴ＝１６０になるまで繰り返す。

第２の混合部３２は、第１のフィルタ２１から出力される第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ２３から出力される第３のフィルタ信号ｙ３_ｎ（ｔ）とを受け取り、第１のフィルタ信号ｙ１_ｎ（ｔ）と第３のフィルタ信号ｙ３_ｎ（ｔ）とを混合して、第２の混合信号ｓ２_ｎ（ｔ）を出力する処理を実行する（ステップＳＴ６Ａ）。サンプル番号ｔが値Ｔ以下の場合（ステップＳＴ６ＢにおいてＹＥＳ）、ステップＳＴ６Ａの処理を、サンプル番号ｔがＴ＝１６０になるまで繰り返す。

上記第１及び第２の混合処理の順番は、上記例に限定されず、順不同でよい。例えば、上記第１及び第２の混合処理（ステップＳＴ５Ａ及びＳＴ６Ａ）が同時並列に実行されてもよいし、第１の混合処理（ステップＳＴ５Ａ及びＳＴ５Ｂ）の実行前に第２の混合処理（ステップＳＴ６Ａ及びＳＴ６Ｂ）が実行されてもよい。

第１の遅延制御部４１は、第１の混合部３１から出力される第１の混合信号ｓ１_ｎ（ｔ）の第１の遅延量Ｄ_１を制御、すなわち、信号の時間遅れを制御する。具体的には、第１の遅延制御部４１は、第１の混合信号ｓ１_ｎ（ｔ）にＤ_１サンプルだけ時間遅れを追加した第１の音声信号ｓ~１_ｎ（ｔ）を出力する処理を実行する（ステップＳＴ７Ａ）。サンプル番号ｔが値Ｔ以下の場合（ステップＳＴ７ＢにおいてＹＥＳ）、ステップＳＴ７Ａの処理をサンプル番号ｔがＴ＝１６０になるまで繰り返す。

第２の遅延制御部４２は、第２の混合部３２から出力される第２の混合信号ｓ２_ｎ（ｔ）の第２の遅延量Ｄ_２を制御、すなわち、信号の時間遅れを制御する。具体的には、第２の遅延制御部４２は、第２の混合信号ｓ２_ｎ（ｔ）にＤ_２サンプルだけ時間遅れを追加した第２の音声信号ｓ~２_ｎ（ｔ）を出力する処理を実行する（ステップＳＴ８Ａ）。サンプル番号ｔが値Ｔ以下の場合（ステップＳＴ８ＢにおいてＹＥＳ）、ステップＳＴ８Ａの処理をサンプル番号ｔがＴ＝１６０になるまで繰り返す。

なお、上述の２つの遅延制御処理の順番は順不同でよい。例えば、ステップＳＴ７Ａ及びＳＴ８Ａが同時並列に実行されてもよいし、ステップＳＴ７Ａ及びＳＴ７Ｂの実行前にステップＳＴ８Ａ及びＳＴ８Ｂが実行されてもよい。

ステップＳＴ７Ａ及びＳＴ８Ａの処理後、音声強調処理が続行される場合（ステップＳＴ９におけるＹＥＳ）、処理は、ステップＳＴ１Ａに戻る。一方、音声強調処理が続行されない場合（ステップＳＴ９におけるＮＯ）、音声強調処理は終了する。

《１−３》ハードウェア構成
音声強調装置１００のハードウェア構成は、例えば、ワークステーション、メインフレーム、パーソナルコンピュータ、又は機器組み込み用途のマイクロコンピュータなどのような、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内蔵のコンピュータで実現可能である。或いは、音声強調装置１００のハードウェア構成は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又はＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）により実現されてもよい。

図５は、実施の形態１に係る音声強調装置１００のハードウェア構成（集積回路を用いる場合）を概略的に示すブロック図である。図５は、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡなどのＬＳＩを用いて構成される音声強調装置１００のハードウェア構成の一例を示す。図５の例では、音声強調装置１００は、音響トランスデューサ１０１、信号入出力部１１２、信号処理回路１１１、情報を記憶する記録媒体１１４、及びバスなどの信号路１１５により構成されている。信号入出力部１１２は、音響トランスデューサ１０１及び外部装置１０２との接続機能を実現するインタフェース回路である。音響トランスデューサ１０１としては、例えば、マイクロホン又は音波振動センサなどの音響振動を捉えて電気信号へ変換する装置を使用することができる。

図１に示される信号入力部１１、第１のフィルタ２１、第２のフィルタ２２、第３のフィルタ２３、第１の混合部３１、第２の混合部３２、第１の遅延制御部４１、及び第２の遅延制御部４２の各機能は、信号処理回路１１１及び記録媒体１１４で実現することができる。

記録媒体１１４は、信号処理回路１１１の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体１１４としては、例えば、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ）などの揮発性メモリ、ＨＤＤ（ハードディスクドライブ）又はＳＳＤ（ソリッドステートドライブ）などの不揮発性メモリを使用することが可能であり、これに各フィルタの初期状態及び各種設定データを記憶しておくことができる。

音声強調装置１００による強調処理が行われた第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）は、信号入出力部１１２を経て外部装置１０２に送出される。外部装置１０２としては、例えば、テレビ受像機又はハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。

図６は、実施の形態１に係る音声強調装置１００のハードウェア構成（コンピュータにより実行されるプログラムを用いる場合）を概略的に示すブロック図である。図６は、コンピュータなどの演算装置を用いて構成される音声強調装置１００のハードウェア構成の一例を示す。図６の例では、音声強調装置１００は、信号入出力部１２２、ＣＰＵ１２１を内蔵するプロセッサ１２０、メモリ１２３、記録媒体１２４及びバスなどの信号路１２５により構成される。信号入出力部１２２は、音響トランスデューサ１０１及び外部装置１０２との接続機能を実現するインタフェース回路である。メモリ１２３は、実施の形態１の音声強調処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリなどとして使用するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶手段である。

図１に示される信号入力部１１、第１のフィルタ２１、第２のフィルタ２２、第３のフィルタ２３、第１の混合部３１、第２の混合部３２、第１の遅延制御部４１、及び第２の遅延制御部４２の各機能は、プロセッサ１２０及び記録媒体１２４で実現することができる。

記録媒体１２４は、プロセッサ１２０の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体１２４としては、例えば、ＳＤＲＡＭなどの揮発性メモリ、ＨＤＤ又はＳＳＤを使用することが可能である。ＯＳ（オペレーティングシステム）を含むプログラム及び、各種設定データ、フィルタの内部状態など音響信号データなどの各種データを蓄積することができる。なお、この記録媒体１２４に、メモリ１２３内のデータを蓄積しておくこともできる。

プロセッサ１２０は、メモリ１２３中のＲＡＭを作業用メモリとして使用し、メモリ１２３中のＲＯＭから読み出されたコンピュータプログラム（実施の形態１に係る音声処理プログラム）に従って動作することにより、図１に示される信号入力部１１、第１のフィルタ２１、第２のフィルタ２２、第３のフィルタ２３、第１の混合部３１、第２の混合部３２、第１の遅延制御部４１、及び第２の遅延制御部４２と同様の信号処理を実行することができる。

上記音声強調処理が行われた第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）は、信号入出力部１１２又は１２２を経て外部装置１０２に送出される。外部装置としては、例えば、補聴装置、音声蓄積装置、ハンズフリー通話装置などの各種音声信号処理装置が相当する。また、音声強調処理が行われた第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）を録音し、この録音した第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）を別の音声出力装置で出力することも可能である。なお、実施の形態１に係る音声強調装置１００は、上記他の装置と共にソフトウエアプログラムとして実行することで実現することも可能である。

実施の形態１に係る音声強調装置１００を実行する音声処理プログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、ＣＤ−ＲＯＭ（光学式情報記録媒体）などの記憶媒体にて配布される形式でもよい。また、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。さらに、実施の形態１に係る音声強調装置１００に接続される音響トランスデューサ１０１及び外部装置１０２に関しても、無線及び有線ネットワークを通じて各種データを送受信してもよい。

《１−５》効果
以上に説明したように、実施の形態１に係る音声強調装置１００、音声強調方法、及び音声処理プログラムによれば、音声の基本周波数Ｆ０を両耳へ提示しつつ、両耳分離補聴を行うことができるので、明瞭で聞き取りやすい拡声音声を出力させる第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）を生成することができる。

また、実施の形態１に係る音声強調装置１００、音声強調方法、及び音声処理プログラムによれば、第１のフィルタ信号と第２のフィルタ信号とを適切な割合で混合して第１の混合信号とし、第１のフィルタ信号と第３のフィルタ信号とを適切な割合で混合して第２の混合信号とし、第１の混合信号に基づく第１の音声信号ｓ~１_ｎ（ｔ）と、第２の混合信号に基づく第２の音声信号ｓ~２_ｎ（ｔ）とにより左スピーカと右スピーカとからそれぞれ音声を出力させることができる。このため、片側に音声が偏って聴こえたり、左右の聴感的なバランスが崩れて違和感が生じたりすることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。

また、実施の形態１に係る音声強調装置１００、音声強調方法、及び音声処理プログラムによれば、第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）の第１及び第２の遅延量Ｄ_１，Ｄ_２を制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。

さらに、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少ない上、スピーカなどを用いるような拡声装置に適用した場合であっても両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置１００を提供可能となる。

《２》実施の形態２．
図７は、本発明の実施の形態２に係る音声強調装置２００（カーナビゲーションシステムに適用された場合）の概略構成を示す図である。図７において、図１に示される構成要素と同一又は対応する構成要素には、図１に示される符号と同じ符号が付される。音声強調装置２００は、実施の形態２に係る音声強調方法及び実施の形態２に係る音声処理プログラムを実施することができる装置である。図７に示されるように、実施の形態２に係る音声強調装置２００は、入力端子１０を介して信号入力部１１に入力信号を提供しているカーナビゲーションシステム６００を有する点と、左スピーカ６１及び右スピーカ６２を有する点において、実施の形態１に係る音声強調装置１００と相違する。

実施の形態２に係る音声強調装置２００は、車内ハンズフリー通話機能と、音声ガイド機能とを有するカーナビゲーションシステムの音声を処理する。図７に示されるように、カーナビゲーションシステム６００は、電話機６０１と、運転者に音声メッセージを提供する音声ガイド装置６０２とを有する。その他の構成については、実施の形態２は、実施の形態１と同様である。

電話機６０１は、例えば、カーナビゲーションシステム６００に内蔵されている装置、又は、有線若しくは無線により接続された外付けの装置である。音声ガイド装置６０２は、例えば、カーナビゲーションシステム６００に内蔵されている装置である。カーナビゲーションシステム６００は、電話機６０１又は音声ガイド装置６０２から出力された受話音声を入力端子１０へ出力する。

また、音声ガイド装置６０２は、地図案内情報などのガイド音声を入力端子１０へ出力する。第１の遅延制御部４１から出力される第１の音声信号ｓ~１_ｎ（ｔ）は、第１の出力端子５１を介してＬ（左）スピーカ６１に供給され、Ｌスピーカ６１は第１の音声信号ｓ~１_ｎ（ｔ）に基づく音を出力する。第２の遅延制御部４２から出力される第２の音声信号ｓ~２_ｎ（ｔ）は、第２の出力端子５２を介してＲ（右）スピーカ６２に供給され、Ｒスピーカ６２は、第２の音声信号ｓ~２_ｎ（ｔ）に基づく音を出力する。

図７において、例えば、ユーザ（運転者）は、左ハンドル車の運転席に座っており、運転席に座るユーザの左耳とＬスピーカ６１との最短距離が約１００ｃｍ、同ユーザの右耳とＲスピーカ６２との最短距離が約１３４ｃｍである場合、Ｌスピーカ６１とＲスピーカ６２との距離差は、約３４ｃｍである。常温での音速は、約３４０ｍ／秒であるから、Ｌスピーカ６１からの音の出力を１ｍｓｅｃ遅らせることで、Ｌスピーカ６１とＲスピーカ６２から出力される音、つまり、電話の受話音声或いはガイド音声が、左耳に到達する時刻と右耳に到達する時刻とを一致させることができる。具体的には、第１の遅延制御部４１から提供される第１の音声信号ｓ~１_ｎ（ｔ）の第１の遅延量Ｄ_１を１ｍｓｅｃとし、第２の遅延制御部４２から提供される第２の音声信号ｓ~２_ｎ（ｔ）の第２の遅延量Ｄ_２を０ｍｓｅｃ（遅延無し）とすればよい。なお、第１の遅延量Ｄ_１及び第２の遅延量Ｄ_２の値は、上述の例に限定されず、ユーザの耳の位置に対するＬスピーカ６１とＲスピーカ６２の位置などの利用状況に応じて適宜変更することができる。具体的には、スピーカ６１から左耳までの距離とＲスピーカ６２から右耳までの距離などの利用状況に応じて、適宜変更することができる。

以上に説明したように、実施の形態２に係る音声強調装置２００、音声強調方法、及び音声処理プログラムによれば、第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）の第１及び第２の遅延量Ｄ_１，Ｄ_２を制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。

また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置２００を提供可能となる。上記以外の点に関して、実施の形態２は、実施の形態１と同じである。

《３》実施の形態３．
図８は、本発明の実施の形態３に係る音声強調装置３００（テレビ受像機に適用された場合）の概略構成を示す図である。図８において、図１に示される構成要素と同一又は対応する構成要素には、図１に示される符号と同じ符号が付される。音声強調装置３００は、実施の形態３に係る音声強調方法及び実施の形態３に係る音声処理プログラムを実施することができる装置である。図８に示されるように、実施の形態３に係る音声強調装置３００は、入力端子１０を介して信号入力部１１に入力信号を提供しているテレビ受信機７０１及び疑似モノラル化部７０２を有する点と、左スピーカ６１及び右スピーカ６２を有する点と、テレビ受信機７０１のステレオ音声のＬ（左）チャンネル信号がＬスピーカ６１に供給されステレオ音声のＲ（右）チャンネル信号がＲスピーカ６２に供給される点において、実施の形態１に係る音声強調装置１００と相違する。

テレビ受信機７０１は、例えば、放送波を受信する外付けのビデオレコーダ、又は、テレビ受信機に内蔵されるビデオレコーダで録画されたビデオコンテンツを用い、Ｌチャンネル信号とＲチャンネル信号から構成されるステレオ信号を出力する。テレビの音声は、一般に２チャンネルのステレオ信号に限らず、３チャンネル以上のマルチステレオ信号の場合もあるが、ここでは、説明を簡略化するため、２チャンネルのステレオ信号の場合を説明する。

疑似モノラル化部７０２は、テレビ受信機７０１から出力されたステレオ信号を受け取り、（Ｌ＋Ｒ）信号に（Ｌ−Ｒ）信号の逆位相信号を加算するなどの公知の手法により、例えば、ステレオ信号の中央に定位するアナウンサの音声だけを抽出する。ここで、（Ｌ＋Ｒ）信号とは、Ｌチャンネル信号とＲチャンネル信号を加算した疑似モノラル信号、（Ｌ−Ｒ）信号とは、Ｌチャンネル信号からＲチャンネル信号を減算した信号、言い換えると、中央に定位する信号を減衰させた疑似モノラル信号である。

疑似モノラル化部７０２で抽出したアナウンサの音声を入力端子１０に入力し、実施の形態１で述べたと同様の処理を行い、テレビ受信機７０１から出力されるＬチャンネル信号及びＲチャンネル信号をそれぞれ加算した後、Ｌスピーカ６１及びＲスピーカ６２から両耳分離補聴処理を行った音を出力する。このような構成をなすことで、従来のステレオ音声を維持したまま、ステレオ信号の中央に定位するアナウンサの声だけを強調することが可能となる。

実施の形態３では、説明の簡略化のために２チャンネルのステレオ信号で例示したが、実施の形態３の方法は、例えば、５．１チャンネルステレオなどの３チャンネル以上のマルチステレオ信号にも適用可能であり、実施の形態３で述べたのと同様の効果を奏功する。

実施の形態３では、Ｌスピーカ６１及びＲスピーカ６２をテレビ受信機７０１の外部装置として説明しているが、例えば、テレビ受信機が内蔵するスピーカ或いは、ヘッドホンなどの音響装置を用いてもよい。また、疑似モノラル化部７０２を入力端子１０に入力する前の処理として説明しているが、テレビ受信機７０１から出力されるステレオ信号を入力端子１０に入力し、その後に疑似モノラル化処理を行ってもよい。

以上に説明したように、実施の形態３に係る音声強調装置３００、音声強調方法、及び音声処理プログラムによれば、ステレオ信号であっても中央に定位するアナウンサの声を強調するような両耳分離補聴方法を実現することができる。

また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置３００を提供可能となる。上記以外の点に関して、実施の形態３は、実施の形態１と同じである。

《４》実施の形態４．
上記実施の形態１から３では、第１の音声信号ｓ~１_ｎ（ｔ）と第２の音声信号ｓ~２_ｎ（ｔ）とがＬスピーカ６１とＲスピーカ６２とに直接出力される場合を説明した。これに対し、実施の形態４に係る音声強調装置４００は、第１の音声信号ｓ~１_ｎ（ｔ）及び第２の音声信号ｓ~２_ｎ（ｔ）に、クロストークキャンセル処理を行うクロストークキャンセラ７０を備えている。

図９は、実施の形態４に係る音声強調装置４００の概略構成を示す機能ブロック図である。図９において、図１に示される構成要素と同一又は対応する構成要素には、図１に示される符号と同じ符号が付される。音声強調装置４００は、実施の形態４に係る音声強調方法及び実施の形態４に係る音声処理プログラムを実施することができる装置である。図９に示されるように、実施の形態４に係る音声強調装置４００は、２つのクロストークキャンセラ（ＣＴＣ）７０が備えられている点において、実施の形態１に係る音声強調装置１００と相違する。その他の構成については、実施の形態４は実施の形態１と同様である。

例えば、第１の音声信号ｓ~１ｎ（ｔ）がＬチャンネル音声（左耳だけに提示したい音声）信号であり、第２の音声信号ｓ~２ｎ（ｔ）がＲチャンネル音声（右耳だけに提示したい音声）信号である場合を考える。Ｌチャンネル音声は、左耳だけに到達させたい音声であるが、実際には、Ｌチャンネル音声のクロストーク成分が右耳にも到達する。また、Ｒチャンネル音声は、右耳だけに到達させたい音声であるが、実際には、Ｒチャンネル音声のクロストーク成分が左耳にも到達する。そこで、クロストークキャンセラ７０は、Ｌチャンネル音声のクロストーク成分に相当する信号を第１の音声信号ｓ~１ｎ（ｔ）から減算し、Ｒチャンネル音声のクロストーク成分に相当する信号を第２の音声信号ｓ~２ｎ（ｔ）から減算することで、クロストーク成分を打ち消している。クロストーク成分をキャンセルするためのクロストークキャンセル処理は、適応フィルタなどの公知の方法である。

以上に説明したように、実施の形態４に係る音声強調装置４００、音声強調方法、及び音声処理プログラムによれば、第１及び第２の出力端子から出力される信号のクロストーク成分を打ち消す処理を行うので、両耳に届く２つの音の相互の分離効果を高めることができる。このため、拡声装置に適用した場合に両耳分離補聴効果を更に高めることができ、更に高品質な音声強調装置４００を提供可能となる。

《５》実施の形態５．
上記実施の形態４では、入力信号の様態によらず両耳分離補聴処理を行う場合を説明したが、実施の形態５では、入力信号を分析し、この分析の結果に応じた内容の両耳分離補聴処理を行う場合を説明する。実施の形態５に係る音声強調装置は、入力信号が母音の場合に両耳分離補聴処理を行う。

図１０は、実施の形態５に係る音声強調装置５００の概略構成を示す機能ブロック図である。図１０において、図９に示される構成要素と同一又は対応する構成要素には、図９に示される符号と同じ符号が付される。音声強調装置５００は、実施の形態５に係る音声強調方法及び実施の形態５に係る音声処理プログラムを実施することができる装置である。実施の形態５に係る音声強調装置５００は、信号分析部８０を備える点において、実施の形態４に係る音声強調装置４００と相違する。

信号分析部８０は、信号入力部１１から出力される入力信号ｘ_ｎ（ｔ）に対し、例えば、自己相関係数分析などの公知の分析手法により、入力信号が母音を示す信号であるか又は母音以外の音（子音又は雑音）を示す信号であるかどうかの分析を行う。入力信号の分析の結果、入力信号が子音又は雑音を示す信号である場合、信号分析部８０は、第１の混合部３１と第２の混合部３２の出力を停止させ（すなわち、フィルタ処理を行った信号の出力を停止し）、第１の遅延制御部４１及び第２の遅延制御部４２に入力信号ｘ_ｎ（ｔ）を直接入力する。上記以外の構成及び動作に関して、実施の形態５は、実施の形態４と同じである。

図１１は、実施の形態５に係る音声強調装置５００によって実行される音声強調処理（音声強調方法）の一例を示すフローチャートである。図１１において、図４と同一の処理ステップには、図４に示されるステップ番号と同じステップ番号が付される。実施の形態５に係る音声強調装置５００によって実行される音声強調処理は、入力信号が母音の音声信号であるか否かの判断ステップＳＴ５１を有する点、及び、入力信号が母音の音声信号でない場合に、処理をステップＳＴ７Ａに進める点が、実施の形態１の処理と異なる。この点を除いて、実施の形態５における処理は、実施の形態１における処理と同じである。

以上に説明したように、実施の形態５に係る音声強調装置５００、音声強調方法、及び音声処理プログラムによれば、入力信号の様態に応じて両耳分離補聴処理を行うことができるので、補聴の必要のない子音及び雑音などを不要に強調することがなくなり、更に高品質な音声強調装置５００を提供可能となる。

《６》変形例
上記実施の形態１から５では、第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３は、時間軸上におけるフィルタ処理を実行している。しかし、第１のフィルタ２１、第２のフィルタ２２、及び第３のフィルタ２３の各々を、ＦＦＴ部（高速フーリエ変換部）と、周波数軸上におけるフィルタ処理を行うフィルタ処理部と、ＩＦＦＴ部（逆高速フーリエ変換部）とで構成することも可能である。この場合には、第１のフィルタ２１のフィルタ処理部、第２のフィルタ２２のフィルタ処理部、及び第３のフィルタ２３のフィルタ処理部の各々は、通過帯域のスペクトルのゲインを１とし、減衰させる帯域のスペクトルのゲインを０とすることで実現することができる。

上記実施の形態１から５では、サンプリング周波数が１６ｋＨｚである場合を説明したが、サンプリング周波数はこの値に限定されない。例えば、サンプリング周波数を、８ｋＨｚ又は４８ｋＨｚのような他の周波数に設定することも可能である。

上記実施の形態２及び３では、音声強調装置がカーナビゲーションシステム及びテレビ受信機に適用された例を説明した。しかし、実施の形態１から５に係る音声強調装置は、カーナビゲーションシステム及びテレビ受信機以外のシステム又は装置であって、複数のスピーカを備えるシステム又は装置に適用可能である。実施の形態１から５に係る音声強調装置は、例えば、展示会場などにおける音声ガイドシステム、テレビ会議システム、及び列車内における音声案内システムなどに適用可能である。

上記実施の形態１から５は、本発明の範囲内において、構成要素の種々の変形、構成要素の追加及び省略が可能である。

上記実施の形態１から５に係る音声強調装置、音声強調方法、及び音声処理プログラムは、音声通信システム、音声蓄積システム、及び音声拡声システムに適用可能である。

音声通信システムに適用される場合には、音声通信システムは、実施の形態１から５のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を送信及び音声強調装置に入力される信号を受信するための通信装置を備える。

音声蓄積システムに適用される場合には、音声蓄積システムは、実施の形態１から５のいずれかの音声強調装置に加えて、情報を記憶する記憶装置と、音声強調装置から出力された第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）を記憶装置に記憶させる書き込み装置と、記憶装置から第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）を読み出して音声強調装置に入力させる読み出し装置とを備える。

音声拡声システムに適用される場合には、音声拡声システムは、実施の形態１から５のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を増幅する増幅回路と、増幅された第１及び第２の音声信号ｓ~１_ｎ（ｔ），ｓ~２_ｎ（ｔ）に基づく音を出力する複数のスピーカとを備える。

また、実施の形態１から５に係る音声強調装置、音声強調方法、及び音声処理プログラムは、カーナビゲーションシステム、携帯電話、インターフォン、テレビ受像機、ハンズフリー電話システム、ＴＶ会議システムに適用可能である。これらのシステム又は装置に適用される場合には、これらのシステム又は装置から出力される音声信号から、一方の耳用の第１の音声信号ｓ~１_ｎ（ｔ）と他方の耳用の第２の音声信号ｓ~２_ｎ（ｔ）とが生成される。実施の形態１から５が適用されたシステム又は装置のユーザは、明瞭な音声を知覚することができる。

１０入力端子、１１信号入力部、２１第１のフィルタ、２２第２のフィルタ、２３第３のフィルタ、３１第１の混合部、３２第２の混合部、４１第１の遅延制御部、４２第２の遅延制御部、５１第１の出力端子、５２第２の出力端子、６１Ｌスピーカ、６２Ｒスピーカ、１００，２００，３００，４００，５００音声強調装置、１０１音響トランスデューサ、１１１信号処理回路、１１２信号入出力部、１１４記録媒体、１１５信号路、１２０プロセッサ、１２１ＣＰＵ、１２２信号入出力部、１２３メモリ、１２４記録媒体、１２５信号路、６００カーナビゲーションシステム、６０１電話機、６０２音声ガイド装置、７０１テレビ受信機、７０２疑似モノラル化部。

Claims

入力信号を受け取り、前記入力信号から第１の耳用の第１の音声信号と前記第１の耳の反対側の第２の耳用の第２の音声信号とを生成する音声強調装置であって、
前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第１の帯域成分を抽出し、前記第１の帯域成分を第１の混合部と第２の混合部の両方に入力される共通の信号である第１のフィルタ信号として出力する第１のフィルタと、
前記入力信号から音声の第１フォルマントを含む予め決められた周波数帯域の第２の帯域成分を抽出し、前記第２の帯域成分を第２のフィルタ信号として出力する第２のフィルタと、
前記入力信号から音声の第２フォルマントを含む予め決められた周波数帯域の第３の帯域成分を抽出し、前記第３の帯域成分を第３のフィルタ信号として出力する第３のフィルタと、
前記第１のフィルタ信号と前記第２のフィルタ信号とを混合することによって第１の混合信号を出力する前記第１の混合部と、
前記第１のフィルタ信号と前記第３のフィルタ信号とを混合することによって第２の混合信号を出力する前記第２の混合部と、
前記第１の混合信号を予め決められた第１の遅延量、遅延させることによって、前記第１の音声信号を生成する第１の遅延制御部と、
前記第２の混合信号を予め決められた第２の遅延量、遅延させることによって、前記第２の音声信号を生成する第２の遅延制御部と
を有することを特徴とする音声強調装置。
前記第１の混合部は、予め決められた第１の混合割合で前記第１のフィルタ信号と前記第２のフィルタ信号とを混合し、
前記第２の混合部は、予め決められた第２の混合割合で前記第１のフィルタ信号と前記第３のフィルタ信号とを混合する
ことを特徴とする請求項１に記載の音声強調装置。
前記第１の遅延量は、０以上の時間であり、
前記第２の遅延量は、０以上の時間であり、
前記第１の遅延量と前記第２の遅延量とは異なる
ことを特徴とする請求項１又は２に記載の音声強調装置。
前記第１の音声信号に基づく音を出力する第１のスピーカと、
前記第２の音声信号に基づく音を出力する第２のスピーカと、
をさらに有し、
前記第１の遅延量及び前記第２の遅延量は、前記第１のスピーカから前記第１の耳までの距離と前記第２のスピーカから前記第２の耳までの距離とに基づいて、予め決定される
ことを特徴とする請求項１から３のいずれか１項に記載の音声強調装置。
前記第１の音声信号に基づく音を出力する第１のスピーカと、
前記第２の音声信号に基づく音を出力する第２のスピーカと、
前記第２のスピーカから前記第１の耳に到達する前記第２の音声信号に基づく音のクロストーク成分と、前記第１のスピーカから前記第２の耳に到達する前記第１の音声信号に基づく音のクロストーク成分とを打ち消すクロストークキャンセラと
をさらに有することを特徴とする請求項１から３のいずれか１項に記載の音声強調装置。
前記入力信号の状態を分析する信号分析部をさらに有し、
前記信号分析部による分析の結果に応じて、前記第１及び第２の遅延制御部にそれぞれ入力される信号を、前記第１及び第２の混合信号から前記入力信号に切り替える
ことを特徴とする請求項１から５のいずれか１項に記載の音声強調装置。
前記信号分析部は、前記入力信号が母音を示す信号でない場合に、前記第１及び第２の遅延制御部にそれぞれ入力される信号を、前記第１及び第２の混合信号から前記入力信号に切り替える
ことを特徴とする請求項６に記載の音声強調装置。
入力信号を受け取り、前記入力信号から第１の耳用の第１の音声信号と前記第１の耳の反対側の第２の耳用の第２の音声信号とを生成する音声強調方法であって、
前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第１の帯域成分を抽出し、前記第１の帯域成分を第１の混合ステップと第２の混合ステップの両方において用いられる共通の信号である第１のフィルタ信号として出力するステップと、
前記入力信号から音声の第１フォルマントを含む予め決められた周波数帯域の第２の帯域成分を抽出し、前記第２の帯域成分を第２のフィルタ信号として出力するステップと、
前記入力信号から音声の第２フォルマントを含む予め決められた周波数帯域の第３の帯域成分を抽出し、前記第３の帯域成分を第３のフィルタ信号として出力するステップと、
前記第１のフィルタ信号と前記第２のフィルタ信号とを混合することによって第１の混合信号を出力する前記第１の混合ステップと、
前記第１のフィルタ信号と前記第３のフィルタ信号とを混合することによって第２の混合信号を出力する前記第２の混合ステップと、
前記第１の混合信号を予め決められた第１の遅延量、遅延させることによって、前記第１の音声信号を生成するステップと、
前記第２の混合信号を予め決められた第２の遅延量、遅延させることによって、前記第２の音声信号を生成するステップと
を有することを特徴とする音声強調方法。
コンピュータに、
入力信号から第１の耳用の第１の音声信号と前記第１の耳の反対側の第２の耳用の第２の音声信号とを生成する処理を実行するために、
前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の音声成分である第１の帯域成分を抽出し、前記第１の帯域成分を第１の混合処理と第２の混合処理の両方において用いられる共通の信号である第１のフィルタ信号として出力する処理と、
前記入力信号から音声の第１フォルマントを含む予め決められた周波数帯域の第２の帯域成分を抽出し、前記第２の帯域成分を第２のフィルタ信号として出力する処理と、
前記入力信号から音声の第２フォルマントを含む予め決められた周波数帯域の第３の帯域成分を抽出し、前記第３の帯域成分を第３のフィルタ信号として出力する処理と、
前記第１のフィルタ信号と前記第２のフィルタ信号とを混合することによって第１の混合信号を出力する前記第１の混合処理と、
前記第１のフィルタ信号と前記第３のフィルタ信号とを混合することによって第２の混合信号を出力する前記第２の混合処理と、
前記第１の混合信号を予め決められた第１の遅延量、遅延させることによって、前記第１の音声信号を生成する処理と、
前記第２の混合信号を予め決められた第２の遅延量、遅延させることによって、前記第２の音声信号を生成する処理と
を実行させるための音声処理プログラム。