JP2012244336A

JP2012244336A - 音声信号処理装置、音声信号処理方法および音響再生装置

Info

Publication number: JP2012244336A
Application number: JP2011111338A
Authority: JP
Inventors: Shiro Suzuki; 志朗鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-18
Filing date: 2011-05-18
Publication date: 2012-12-10

Abstract

【課題】スピーカから出力される音が周囲の物体に反射した後に到達する反射音を良好に受聴可能とする。
【解決手段】入力音声信号Ｄｉに基づいて、キャンセル用音声信号を生成する。そして、このキャンセル用音声信号を、入力音声信号に加算して、出力音声信号Ｄｉ″を得る。キャンセル用音声信号は、スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音（主とする音）が到達した後に到達する所定の第２の反射音（副とする音）をキャンセルするための信号である。この出力音声信号をスピーカに供給することで、スピーカから出力されて受聴点に到達する反射音に、上述の第２の反射音をキャンセルする反射音が含まれるようになり、結果的に受聴点において第２の反射音がキャンセルされる。スピーカは、例えばテレビ受信機等の表示機器の筐体の背面側に下向きに取り付けられている。
【選択図】図１０

Description

本技術は、音声信号処理装置、音声信号処理方法および音響再生装置に関する。特に、本技術は、スピーカから出力される音が周囲の物体に反射した後に到達する音、つまり反射音を受聴する音響再生装置に適用し得る音声信号処理装置等に関する。

近年、プラズマ、液晶などの表示デバイスが広く一般化し、テレビ受信機は薄型化、大型化の一途を辿っている。このようなテレビ受信機においては、薄型化によってスピーカサイズは大きな制約を受け、また、画面の大型化、狭縁化によって、画面両端へのスピーカ設置が困難になってきている。その結果、テレビ受信機に設置されるスピーカに関しては、サイズが小さく、かつ設置位置が背面に移設され、さらには下向きに設置されることが多くなっている（例えば、特許文献１参照）。

そのため、使用者に届く音はとても「良い音」と呼べるものではなくなってきている。なお、ここで言う「良い音」とは、個々人の主観的なものではなく、物理的に理想的な特性、つまりフラットな周波数特性を持つスピーカがあったとして、これを受聴点に向けて正面に配置して視聴者が受聴する場合を想定する。つまり、再生されるべき記録された音の周波数特性が、できる限りそのままに受聴できる場合を「良い音」が実現できている、とする。

さて、使用者からみてスピーカが下向きになっただけで、大抵の人は音が良くきこえないことは容易に想像がつく。その原因の客観的な一例を挙げる。すなわち、音の低域成分は指向性が鋭くないため、スピーカが下向きでも使用者に届きやすいので、比較的聞こえやすい。しかし、高域成分になればなるほど指向性が強くなるため、使用者には聞こえづらくなる。このため、音としては高域がないようないわゆる「こもった音」になる。この対策として、高域を持ち上げる信号処理を施すことで周波数特性をフラットに近づけて十分な高域再生を実現し、「こもった音」を解消することで「良い音」を実現するための努力がなされている。

特開２０１０−２３９２４９号公報

しかし、信号処理で周波数特性を調整するといっても、設計段階では、テレビが使用者環境でどのように設置されるのかは不明である。例えば、テレビ受信機の筐体にスピーカを下向きに取り付けた場合、使用者の受聴点においてどのような周波数特性を持つか、設計者には把握できない。この場合、テレビ受信機が低いテレビ台に置かれるのか、あるいは高さが１ｍ位もあるテレビスタンドに設置されるのかによって、周波数特性が大きく異なってくるからである。

結局、設計段階では、信号処理でどの程度高域を上げるべきかなど、周波数特性をフラット化するための逆フィルタの特性をはっきりと決めることができない。そのため、設計者は使用者の環境を「推測」し、あるいは特定の環境を想定した「仮定」で、信号処理の内容を決めなくてはならない。したがって、その信号処理機能をテレビ受信機に実装しても、使用者がその恩恵を受けることができるかは曖昧といわざるを得ない。

また、大局的に低域、高域といった２点の周波数特性を調整しただけではフラット化は困難であり、「良い音」が実現できるわけではない。低域、高域で大雑把にでも周波数特性を調整すれば、多少なりとも音質は改善する。しかし、それでも「音声が聞き取りにくい」、「楽器ごとのバランスがおかしい」といった、細かい音質問題は容易に改善しないことが多い。

本技術の目的は、スピーカから出力される音が周囲の物体に反射した後に使用者に到達する反射音を良好に受聴可能とすることにある。

本技術の概念は、
スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、入力音声信号に基づいて生成するキャンセル用音声信号生成部と、
上記入力音声信号に、上記キャンセル用音声信号生成部で生成されたキャンセル用音声信号を加算して出力音声信号を得る音声信号加算部と
を備える音声信号処理装置にある。

本技術において、キャンセル用音声信号生成部により、キャンセル用音声信号が生成される。そして、音声信号加算部により、このキャンセル用音声信号が入力音声信号に加算されて出力音声信号が得られる。キャンセル用音声信号は、スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのものである。スピーカは、例えばテレビ受信機等の表示機器の筐体の背面側に下向きに取り付けられている。この場合、使用者は、スピーカから出力されて受聴点に到達する反射音を受聴する。この反射音は、スピーカから出力される音が周囲の物体に反射した後に到達する音である。

このように本技術においては、出力音声信号は、入力音声信号に、キャンセル用音声信号が加算されたものとなる。そのため、この出力音声信号をスピーカに供給することで、スピーカから出力して受聴点に到達する反射音に、上述の第２の反射音をキャンセルする反射音が含まれるようになり、結果的に受聴点において第２の反射音がキャンセルされる。したがって、使用者は、受聴点において、第１の反射音を、上述の第２の反射音に影響されることなく、良好に受聴可能となる。

なお、本技術において、例えば、キャンセル用音声信号生成部は、入力音声信号を、受聴点に到達する第１の反射音と第２の反射音との時間差に対応する時間だけ遅延させる遅延部と、この遅延部の出力信号のゲインを反射量に応じて調整してキャンセル用音声信号を得るゲイン調整部とを有する、ようにされてもよい。

そして、本技術において、例えば、遅延部における遅延量を調整するための情報としてスピーカの設置位置から壁までの距離の情報をユーザが入力するためのユーザインタフェースと、このユーザインタフェースで入力される距離の情報に基づいて、遅延部における遅延量を制御する制御部とをさらに備える、ようにされてもよい。この場合、ユーザインタフェースは、距離の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、表示部に表示されたＧＵＩ表示を用いて距離の情報をユーザが入力するためのユーザ入力部とを有する、ようにされてもよい。このようにユーザインタフェースが備えられることで、実際のスピーカの設置位置から壁までの距離に応じて、遅延部における遅延量を最適に調整することが可能となる。

また、本技術において、例えば、スピーカの設定位置から壁までの距離の情報を得る距離センサと、この距離センサで得られる距離の情報に基づいて、遅延部における遅延量を制御する制御部とをさらに備える、ようにされてもよい。この場合、実際のスピーカの設置位置から壁までの距離の情報が距離センサにより得られるので、使用者の手間を必要とすることなく、遅延部における遅延量を最適に調整することが可能となる。

また、本技術において、例えば、ゲイン調整部におけるゲインを調整するための情報として反射量の情報をユーザが入力するためのユーザインタフェースと、このユーザインタフェースで入力される反射量の情報に基づいて、ゲイン調整部におけるゲインを制御する制御部とをさらに備える、ようにされてもよい。この場合、ユーザインタフェースは、反射量の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、表示部に表示されたＧＵＩ表示を用いて反射量の情報をユーザが入力するためのユーザ入力部とを有する、ようにされてもよい。このようにユーザインタフェースが備えられることで、ゲイン調整部におけるゲインを最適に調整することが可能となる。

本技術によれば、スピーカから出力される音が周囲の物体に反射した後に到達する反射音を良好に受聴できるようになる。

スピーカＳＰがテレビ受信機（ＴＶ）の筐体の前面側に配置されている例を示す図である。スピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置されている例を示す図である。受聴点Ｐに届く反射音の周波数特性を説明するための図である。音響再生装置の一例を示すブロック図である。スピーカＳＰがテレビ受信機（ＴＶ）の筐体の前面側に配置され、さらに、音の反射を考慮した一例を示す図である。スピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置され、受聴するための主とする音に関する反射が考慮され、さらに主とする音以外の反射をも考慮した一例を示す図である。主とする音と副とする音が混じり合った際の、周波数特性のシミュレーション結果のグラフの一例を示す図である。主とする音と副とする音が混じり合った際の、周波数特性のシミュレーション結果のグラフの他の例を示す図である。本技術による課題解決方法の一例を示す図である。第１の実施の形態としての音響再生装置の構成例を示すブロック図である。本技術における音響再生装置の効果を説明するための図である。テレビ受信機（ＴＶ）を、台の受聴点Ｐよりに設置した場合を示す図である。テレビ受信機（ＴＶ）を、台の壁よりに設置した場合を示す図である。第２の実施の形態としての音響再生装置の構成例を示すブロック図である。表示部に、距離情報をユーザが入力するためのＧＵＩ表示が行われることを示す図である。テレビ受信機（ＴＶ）の筐体の背面側に距離センサを設置することを説明するための図である。第３の実施の形態としての音響再生装置の構成例を示すブロック図である。表示部に、反射量情報をユーザが入力するためのＧＵＩ表示が行われることを示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．第３の実施の形態
４．変形例

＜１．第１の実施の形態＞
最初に、本技術の原理について説明する。
［スピーカが前面側にある場合］
図１は、スピーカＳＰがテレビ受信機（ＴＶ）の筐体の前面側に配置されている例を示している。この場合、使用者は、主に、テレビ受信機の正面側に位置して視聴する。そのため、スピーカＳＰから出力された音Ｄｏが直接に受聴点Ｐに音Ｄｐとして届く。

この音Ｄｐは、本来であれば空間伝播時になんらかの減衰や周波数特性の変化を受ける可能性がある。しかし、ここでは、説明の簡単化のため、空間伝播時の減衰や周波数特性の変化は非常に小さく、無視できるものとして説明する。ただし、伝播経路長が異なる場合には、時間遅れは発生するものと仮定する。

［スピーカが背面側にある場合］
図２は、スピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置されている例を示している。この場合、使用者は、主に、テレビ受信機の正面側に位置して視聴する。この場合、スピーカＳＰから出力された音Ｄｏは、テレビ受信機を載せた台のＳ点でまず反射し、その後、受聴点Ｐに音Ｄｐ′として届く。本技術では、この反射に着目しており、反射による減衰はあるものとする。

一般的には、物体による音の反射率は、全ての周波数成分で均一ではない。そのため、反射音はＳ点において周波数特性の変化を受けたのち、Ｐ点に音Ｄｐ′として届く。この際、たとえば高域が大きく減衰することなどにより、Ｐ点に届くのは「こもった音」になる場合がある。その結果、音楽においてきらびやかさがなくなってつまらなくなってしまう、あるいは音声では明瞭度が下がって聞き取りにくくなってしまう、といった問題がある。

［理想周波数特性Ｄと、実際の周波数特性Ｄ′の違い］
図３（ａ）は、一例として、図１のＰ点に届く音Ｄｐの周波数特性ｆ（Ｄｐ）と、図２のＰ点に届く音Ｄｐ′の周波数特性ｆ（Ｄｐ′）の比較を示している。ここでは、説明の簡単化のため、ｆ（Ｄｐ）を基準として、これを平坦化して評価するものとする。ｆ（Ｄｐ′）はＳ点における反射により周波数特性の変化を受け、例えば、図示のように、全体的に大きさＧが小さくなったり、山谷ができたりする。

全体的に大きさが小さくなるのは直感的に理解できるが、これは物体における反射率が１００％でないために生じる現象である。また、周波数によって減衰率が異なるのは、反射を起こす物体表面の材質や内部損失率が周波数によって均一でないために生じる現象である。その結果、ｆ（Ｄｐ′）は、ｆ（Ｄｐ）に比べ、高域が減衰していわゆる「こもった音」になる。このような現象は当該業者間ではよく知られている。そのため、これ以上の説明は省略する。

［ｆ（Ｄｐ′）を理想特性ｆ（Ｄｐ）に近づける信号処理を実施してｆ（Ｄｐ″）に調整］
このように、同じスピーカＳＰから同じ音を出したとしても、スピーカＳＰの配置によってＰ点では大きな音の違いが出ることは従来からよく知られている。そこで、ｆ（Ｄｐ′）の音のきらびやかさや明瞭度を回復させるために、図３（ｂ）に示すように、Ｄｐ′の周波数特性ｆ（Ｄｐ′）を、ｆ（Ｄｐ″）のように調整する技術が一般的に用いられてきた。具体的には、アナログ信号処理、あるいはデジタル信号処理によってフィルタ処理を行い、ｆ（Ｄｐ′）をｆ（Ｄｐ″）のように調整する。

アナログ、デジタルに関わらず、用いられる信号処理は、ある周波数領域ごとに大きさを調整するものである。現在はデジタル信号処理が広く用いられており、例えばＦＩＲ（Finite Impulse Response）フィルタやＩＩＲ（InfiniteImpulse Response）フィルタを使うことで、このような調整は容易に実現可能となっている。

ただし、ｆ（Ｄｐ′）を完全にｆ（Ｄｐ）の周波数特性に戻すことは困難である。その理由は、ＦＩＲ／ＩＩＲでも、製品においてはそのリソース（演算量、ＲＯＭ／ＲＡＭ容量）に制限があるためであり、例えば、いくら調整したとしても、ｆ（Ｄｐ″）のように若干のズレは残ったままとなる。ｆ（Ｄｐ）に近づけようとすればするほど、リソースは巨大化し、コストや使用電力量の増加を招き、製品の価格を上昇させてしまう要因となる。よって、使用者におけるメリット、デメリットと、設計者側のメリット、デメリットの適切なバランスを取ることが常に求められることとなる。

図４（ａ）には、図３（ａ）のｆ（Ｄｐ）を実現する音響再生装置の一例を示している。入力音声信号Ｄｉはアンプにて電力増幅されたのちスピーカＳＰに送られ、このスピーカＳＰから音Ｄｏとして再生され、Ｐ点に音Ｄｐとして到達する。ここでは、説明の都合上、このときのＰ点での再生音Ｄｐの周波数特性と、入力音声信号Ｄｉの周波数特性は等しいと定義する。

図４（ｂ）には、図３（ａ）のｆ（Ｄｐ′）を実現する音響再生装置の一例を示している。入力音声信号Ｄｉの特性は、図４（ａ）と同じであり、これがアンプにて電力増幅されたのちスピーカＳＰに送られ、このスピーカＳＰから音Ｄｏとして再生される。しかし、この音Ｄｏは、Ｐ点に届くまでに、図２および図３（ａ）で説明したように、Ｓ点での反射により周波数特性に変化が生じ、ＤｐではなくＤｐ′となる。

図４（ｃ）には、図３（ｂ）のｆ（Ｄｐ″）を実現する音響再生装置の一例を示している。入力音声信号Ｄｉの特性は、図４（ａ）、図４（ｂ）と同じである。しかし、アンプで電力増幅される前に、フィルタにて周波数調整が実施されてＤｉ′に変化させられた後、アンプに伝送される。このように周波数調整された音声信号は、アンプで電力増幅された後、スピーカから音Ｄｏ′として再生され、Ｐ点に音Ｄｐ″として到達する。

周波数調整の内容は、図３（ｂ）の説明で詳細を示したのでここでは省略する。その結果、Ｐ点におけるＤｐ″の周波数特性ｆ（Ｄｐ″）を、Ｄｐの周波数特性ｆ（Ｄｐ）に近い形に調整することが可能となり、本来再生されるべきである周波数特性に近い音質を実現できることとなる。この調整方法を実施するためには、周波数特性が変化した原因は必要とされず、ｆ（Ｄｐ）とｆ（Ｄｐ″）ができるだけ一致するように、結果だけをみてフィルタの周波数調整を設定すればよい。

［スピーカが前面側にある場合＋反射を考慮］
上述の図１にはスピーカＳＰがテレビ受信機（ＴＶ）の筐体の前面側に配置されている例を示したが、音の反射という現象が考慮されていない。図５は、スピーカＳＰがテレビ受信機（ＴＶ）の筐体の前面側に配置され、さらに、音の反射を考慮した一例を示している。

この図５では、図１と同様に、Ｐ点に届く受聴のための主とする音は、スピーカＳＰから届く直接音Ｄｐであるが、それ以外に、例えば、天井のＳ１点からの反射音Ｒｐ１や、床のＳ２点からの反射音Ｒｐ２が存在するものとする。現実的には反射は至るところからあるが、説明の簡単化のため、反射率の大きそうな、上述の２点に絞って説明を続ける。ここで、Ｄｐを「主とする音」と呼ぶことに対し、Ｒｐ１とＲｐ２は本来不要なものであるため「副とする音」と呼ぶこととする。この場合、Ｐ点に、Ｄｐ以外にもＲｐ１やＲｐ２が届くことになるため、スピーカＳＰからどんなに理想的な周波数特性で音を出したとしても、Ｐ点に届く際にはなんらかの周波数特性の変化を受けることとなる。

［スピーカが背面側にある場合＋反射を考慮］
上述の図２にはスピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置されている例を示した。この例では、受聴するための主とする音に関する反射は考慮されているが、図１と同様に、主とする音以外の反射音は考慮されていない。図６は、スピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置され、受聴するための主とする音に関する反射が考慮され、さらに主とする音以外の反射をも考慮した一例を示している。

この図６では、図２と同様に、受聴のための主とする音は、スピーカＳＰから出た音ＤｏがＳ１点で反射してＰ点に届くＤｐである。それに加え、例えば同じスピーカＳＰから出た音ＤｏはＳ２点で反射し、さらに壁のＳ３点で反射したのち、ＲｐとしてＰ点に到達する。ここでも、実際には反射は至るところからあるが、説明の簡単化のため、スピーカＳＰに対しＳ１点とは対称位置にあるＳ２点からの反射のみがある、として説明を続ける。上述の図５と同様に、Ｄｐを「主とする音」と呼ぶことに対し、Ｒｐを「副とする音」と呼ぶこととする。この場合、Ｐ点ではＤｐ以外にもＲｐが届くことになるため、やはりスピーカＳＰからどんなに理想的な周波数特性で音を出したとしても、Ｐ点に届く際にはなんらかの周波数特性の変化を受けることとなる。

［スピーカが前面側にあり、反射を考慮した場合の周波数特性］
図７は、図５における、主とする音と副とする音が混じり合った際の、周波数特性のシミュレーション結果のグラフを示す。このシミュレーションでは、音源としては特性を評価しやすい白色雑音を１０秒間再生するものとし、この１０秒間の全体的な周波数特性を調べるものとした。なお、図４（ａ）に示したように、ここでも再生装置の周波数特性は平坦であることとする。

まず、スピーカＳＰからＰ点までの直接の伝達特性をｔｆ０とおく。説明の簡単化のため、この伝達特性は大きさ及び周波数特性の変化をもたらさないものと仮定する。ｔｆ０が持つ時間遅れ量ｘを括弧内に反映させるとすると、Ｄｐは、以下の（１）式で表すことができる。なお、演算子「＊」は、伝達特性を反映させるものとして、以下使用する。
Ｄｐ＝Ｄｏ（０）＊ｔｆ０＝Ｄｏ（ｘ）・・・（１）

Ｄｏ（０）はスピーカＳＰから出たばかりの音である。この括弧内の「０」を基準の時間とすると、伝達特性ｔｆ０によって周波数特性の変化は生じないものの、スピーカＳＰからＰ点までの距離に応じた時間遅れ量ｘが生じるので、ＤｐはＤｏ（ｘ）となる。なお、この括弧内の数字は、Ｄｏ（０）の「０」を基準とした時間遅れ量を示しており、デジタルデータなどのサンプルを特定するためのインデックスではない。図７（ａ）は、Ｄｏ（ｘ）の周波数特性を示しており、白色雑音の平坦な特性が見て取れる。

次に、スピーカＳＰからＳ１点を経由しＰ点までの伝達特性をｔｆ１とおく。説明の簡単化のため、この伝達特性は周波数特性の変化をもたらさないものの、Ｓ１点での反射の影響で大きさは１／１０になるものと仮定する。ｔｆ１が持つ時間遅れ量をｘ＋ｙとおくと、Ｐ点に到達するＲｐ１は、以下の（２）式で表すことができる。なお、ｔｆ１の時間遅れ量がｘ＋ｙとなるのは、ｔｆ０に比べｔｆ１の経路が長い分、ｔｆ０よりもｙ分だけ増加するためである。
Ｒｐ１＝Ｄｏ（０）＊ｔｆ１
＝Ｄｏ（ｘ＋ｙ）＊１／１０・・・（２）

同様に、スピーカＳＰからＳ２点を経由しＰ点までの伝達特性をｔｆ２とおき、反射による大きさが１／１０になるものとし、時間遅れ量をｘ＋ｚとすると、Ｐ点に到達するＲｐ１は、以下の（３）式で表すことができる。
Ｒｐ２＝Ｄｏ（０）＊ｔｆ２
＝Ｄｏ（ｘ＋ｚ）＊１／１０・・・（３）

また、説明の簡単化のため、ｚ＝ｙと仮定すると、Ｐ点に到達する全ての音Ｐａｌｌは、以下の（４）式で表すことができる。
Ｐａｌｌ＝Ｄｐ＋Ｒｐ１＋Ｒｐ２
＝Ｄｏ（ｘ）＋Ｄｏ（ｘ＋ｙ）＊１／５・・・（４）

つまり、本来のＤｏに加え、不要な成分がＤｏの１／５の大きさで混じり合っていることになる。さらに、この不要な成分は、Ｄｏ（ｘ）に比べｙ分だけ遅れている。この時間遅れ量は経路の長さによってまちまちである。例えば、部屋のサイズ感から考えて、説明の簡単化のために、余分な経路の長さＬを３．４ｍとすると、音速を３４０ｍ／ｓとすれば、その時間遅れ量は１０ｍｓｅｃとなる。図７（ｂ）は、このようにＲｐ１とＲｐ２を定義した場合の、ＤｐとＲｐ１およびＲｐ２が混じり合った際の周波数特性を示している。

この図７（ｂ）に示す周波数特性においては、Ｄｏのみの場合の図７（ａ）に示す周波数特性と比べると、一定の細かい間隔で±２ｄＢ程度の山谷が発生していることがわかる。この現象はＤｐとＲｐ１およびＲｐ２の干渉により現実的によく起きていることである。しかし、実際には、Ｒｐ１とＲｐ２の大きさがもっと小さいことが多いため、図７（ａ）の周波数特性と、図７（ｂ）の周波数特性の違いは、それほど大きなものとはならない場合が殆どである。そのため、音質に与える影響は少なく、問題になることはまれである。

［スピーカが背面にあり反射を考慮した場合の周波数特性］
図８は、図６における、主とする音と副とする音が混じり合った際の、周波数特性のシミュレーション結果のグラフを示す。このシミュレーションも、図７と同様に、音源としては特性を評価しやすい白色雑音を約１０秒間再生するものとし、この１０秒間の全体的な周波数特性を調べるものとする。

まず、スピーカＳＰからＳ１点を経由してＰ点までの伝達特性をｔｆ１とおく。説明の簡単化のため、この伝達特性は周波数特性の変化をもたらさないものの反射の影響で大きさが１／２になると仮定する。ｔｆ１が持つ時間遅れ量ｘを括弧内に反映させるとすると、Ｄｐは、以下の（５）式で表すことができる。
Ｄｐ＝Ｄｏ（０）＊ｔｆ１＝Ｄｏ（ｘ）＊１／２・・・（５）

Ｄｏ（０）はスピーカＳＰから出たばかりの音である。この括弧内の「０」を基準の時間とすると、伝達特性ｔｆ１によって周波数特性の変化は生じないものの、大きさの変化とスピーカからＰ点までの距離に応じた時間遅れ量ｘが生じるので、ＤｐはＤｏ（ｘ）＊１／２と表現される。

図８（ａ）は、Ｄｏ（ｘ）の周波数特性を示しており、白色雑音の平坦な特性が見て取れる。ただし、現実的には周波数ごとに反射率が異なることがあり、図３（ａ），（ｂ）で示したように、その周波数特性は平坦にならないことがある。つまり、図７（ａ）と図８（ａ）は一致しないことがある。しかし、本技術では、次に述べる反射時における干渉問題の改善が主眼であるので、上述したように伝達特性ｔｆ１による周波数特性変化がないもの同士で効果を比較しても良い。

次に、スピーカＳＰからＳ２点までの伝達特性をｔｆ２、さらにＳ２点からＳ３点を経由してＰ点までの伝達特性をｔｆ３とおく。説明の簡単化のため、この伝達特性は周波数特性の変化をもたらさないものの、Ｓ２点、Ｓ３点では反射の影響で大きさはそれぞれ１／２になるものと仮定する。説明の簡単化のため、ｔｆ２およびｔｆ３が持つ時間遅れ量を合わせてｘ＋ｙとおくと、Ｐ点に到達するＲｐは、以下の（６）式で表すことができる。なお、時間遅れ量がｘ＋ｙとなるのは、ｔｆ１に比べｔｆ２とｔｆ３の経路が長い分、ｔｆ１よりもｙ分だけ増加するためである。
Ｒｐ＝Ｄｏ（０）＊ｔｆ２＊ｔｆ３
＝Ｄｏ（ｘ＋ｙ）＊１／２＊１／２
＝Ｄｏ（ｘ＋ｙ）＊１／４・・・（６）

よって、Ｐ点に到達する全ての音Ｐａｌｌは、以下の（７）式で表すことができる。
Ｐａｌｌ＝Ｄｐ＋Ｒｐ
＝Ｄｏ（ｘ）＊１／２＋Ｄｏ（ｘ＋ｙ）＊１／４・・・（７）

つまり、本来のＤｏに加え、本来不要な成分がＤｏの１／２の大きさで混じり合っていることになる。さらに、この本来不要な成分は、Ｄｏ（ｘ）に比べｙ分だけ遅れている。この時間遅れ量は経路の長さによってまちまちである。テレビ受信機（ＴＶ）と壁の距離感から考えて、説明の簡単化のために、余分な経路の長さＬを３４ｃｍとすると、音速を３４０ｍ／ｓとすれば、その時間遅れ量は１ｍｓｅｃとなる。図８（ｂ）は、このようにＲｐを定義した場合の、ＤｐとＲｐが混じり合った際の周波数特性を示している。

この図８（ｂ）に示す周波数特性においては、Ｄｏのみの場合の図８（ａ）に示す周波数特性と比べると、一定の間隔で±６ｄＢ程度の山谷が発生していることがわかる。これは、そもそもＤｐ，Ｒｐともに反射成分であるため、主とする音であるＤｐ自体が小さくなり、さらに反射成分であるＲｐの大きさに近く、しかもＲｐの時間遅れ量も比較的に短いために生じる現象である。よって、図７（ｂ）に比べると、特定の周波数においてはＤｐとＲｐが強めあい、また別の周波数においてはＤｐとＲｐが弱めあうという干渉作用が顕著にでて、違和感を生じることがある。

この干渉作用による山谷の間隔は、ＤｐとＲｐの時間遅れ量ｙが大きいほど間隔が短くなるものであり、図７（ｂ）と比べ、図８（ｂ）では山谷の間隔が長く、かつ山谷が大きいことがわかる。この現象は、単に２つの音を加算することを考えるとよくわかる。例えば、時間遅れのない同一の２つの信号を加算すれば、信号の大きさは２倍になる。次に、この信号がデジタル信号であるとし、片方の信号のみ１サンプルだけ遅らせて加算すると、低域では位相差が小さいため大きさはほぼ２倍近くになるが、高域になるにつれ大きさは小さくなっていく。

これは、ナイキスト周波数ギリギリの信号を１サンプルずらして加算すれば、完全に符号の異なる信号同士を加算するわけであるから、大きさは０になる、というローパス特性を有することから直感的に理解できる。時間遅れを２サンプル、３サンプルと遅らせていくと、単なるローパス特性ではなく、櫛歯状のフィルタ特性を有するようになり、時間遅れ量が大きいほど、櫛歯は細かくなってゆく。

さて、上述の違和感の原因としては、例えば音声の特徴である山の部分（フォルマント）と、干渉によって発生した谷が一致して、山を潰してしまうことが挙げられる。図７（ｂ）のように、干渉による山谷が細かく、音声の特徴の山や谷の１つ１つに干渉の山谷が複数個分入ったりしても、干渉の影響が山や谷ごとに平均化されるため音声の特徴は大きく崩れない。しかし、図８（ｂ）のように、干渉による山谷の間隔が大きいと、音声の特徴である特定の山が大きく潰れ、逆に谷の部分が不用に増強され、音声の特徴が大きく崩されてしまう。

このように音声の特徴が崩されてしまうと、「もぞもぞしゃべっているような感じ」や「しゃべっている内容が聞き取りにくい」といった音質劣化が生じる。これは、いわゆるフォルマントの構造が崩されるためである。フォルマントを取り除いて再生すると母音が認識でなくなることは良く知られた事実である。また、音楽においては、山に当たった特定の楽器のみが大きく聞こえ、谷に当たった別の楽器については小さく聞こえるようになり、楽曲全体のバランスがおかしくなる、といった音質劣化を生じる。

上述の問題は、周波数特性が単に低域が強いとか高域が弱いといった大局的な従来の視点からみたものではなく、周波数特性の微細構造に着目した、新しい問題の捉え方といえる。このような微細構造を放置したまま、低域や高域を大局的に調整しても、音質劣化は改善しないことがある。

［本技術による問題解決方法］
図９は、上述の問題に対する本技術による解決方法の一例を示している。まず、図６に示したように、スピーカＳＰがテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置されているものとする。そして、Ｐ点にはスピーカＳＰから出た音がＳ１点で反射した主とする音Ｄｐと、スピーカＳＰから出た音がＳ２点およびＳ３点にて反射した副とする音Ｒｐの２つが届くこととする。ここで、図８で説明したように、ＤｐとＲｐの干渉によって、聴感上の違和感が発生しているとする。

違和感の主な原因は本来不要なＲｐがＤｐに対して悪影響を及ぼすためである。そのため、本技術では、図に示すようにＲｐをキャンセルするための音Ｃｐを生成するキャンセル信号Ｃｉを予め生成して入力音声信号Ｄｉに重畳する。そして、スピーカＳＰから合成音Ｄｏ″（＝Ｄｏ＋Ｃｏ）として再生することで、Ｐ点におけるＲｐをキャンセルする。この処理を数式で表現すると、以下のようになる。

まず、スピーカＳＰから発生させる音Ｄｏ″を、以下の（８）式のように定義する。この（８）式において、Ｃｏは、新たに加えられてスピーカＳＰから発生するキャンセル音である。また、ｙは、図６、図８で示した、スピーカＳＰからＳ１点を経由してＰ点に到達するまでの時間遅れと、スピーカＳＰからＳ２点およびＳ３点を経由してＰ点に到達するまでの時間遅れの差分である。
Ｄｏ″（０）＝Ｄｏ（０）＋Ｃｏ（ｙ）・・・（８）

次に、Ｄｐを、以下の（９）式のように表現する。
Ｄｐ＝Ｄｏ″（０）＊ｔｆ１
＝Ｄｏ（ｘ）＊１／２＋Ｃｏ（ｘ＋ｙ）＊１／２・・・（９）

さらに、Ｒｐを、以下の（１０）式のように表現する。
Ｒｐ＝Ｄｏ″（０）＊ｔｆ２＊ｔｆ３
＝Ｄｏ（ｘ＋ｙ）＊１／４＋Ｃｏ（ｘ＋２ｙ）＊１／４・・・（１０）

よって、Ｐ点に到達する全ての音Ｐａｌｌは、以下の（１１）式のように表すことができる。
Ｐａｌｌ＝Ｄｐ＋Ｒｐ
＝Ｄｏ（ｘ）＊１／２＋Ｃｏ（ｘ＋ｙ）＊１／２
＋Ｄｏ（ｘ＋ｙ）＊１／４＋Ｃｏ（ｘ＋２ｙ）＊１／４
・・・（１１）

ここで、Ｃｏ（ｘ＋ｙ）＝ −Ｄｏ（ｘ＋ｙ）＊１／２、Ｃｏ（ｘ＋２ｙ）＝ −Ｄｏ（ｘ＋２ｙ）＊１／２とおくと、中間の２項がキャンセルされ、（１１）式は、以下の（１２）式のようになる。
Ｐａｌｌ＝Ｄｏ（ｘ）＊１／２− Ｄｏ（ｘ＋ｙ）＊１／４
＋Ｄｏ（ｘ＋ｙ）＊１／４− Ｄｏ（ｘ＋２ｙ）＊１／８
＝Ｄｏ（ｘ）＊１／２ −Ｄｏ（ｘ＋２ｙ）＊１／８
・・・（１２）

つまり、スピーカＳＰから、Ｄｏに加え、Ｄｏを１／２の大きさにして時間遅れ量ｙを与えたのち位相を反転した音を出せば、中間の２項がキャンセルされることとなる。この結果、従来は主とする音に対して１／２の大きさを持つ副とする音がｙ時間だけ遅れて加算されていたものが、本技術を用いることで主とする音の１／４の大きさを持つ副とする音が２ｙ時間だけ遅れて減算されるようになる。

この場合、スピーカＳＰからの出力音Ｄｏ″は、以下の（１３）式で表される。このようにＤｏ″を設定すれば、Ｐ点にてＲｐを１／２の大きさに低減することが可能となる。
Ｄｏ″（０）＝Ｄｏ（０）＋Ｃｏ（ｙ）
＝Ｄｏ（０） − Ｄｏ（ｙ）＊１／２・・・（１３）

［反射率を一般化してαとした場合の式］
なお、上述は、（５）式に示したように、反射率（反射量）を１／２とした場合である。反射率を一般化して、１／αとおくと、（５）式は、以下の（１４）式のように変形される。
Ｄｐ＝Ｄｏ（０）＊ｔｆ１＝Ｄｏ（ｘ）＊１／α ・・・（１４）

さらに、（６）式は、以下の（１５）式のように変形される。
Ｒｐ＝Ｄｏ（０）＊ｔｆ２＊ｔｆ３
＝Ｄｏ（ｘ＋ｙ）＊１／α ＊１／α
＝Ｄｏ（ｘ＋ｙ）＊（１／α）^２・・・（１５）

よって、Ｐ点に到達する全ての音Ｐａｌｌは、以下の（１６）式で表すことができる。つまり、本来のＤｏに加え、本来不要な成分がＤｏの１／α倍の大きさで混じり合っていることになる。
Ｐａｌｌ＝Ｄｐ＋Ｒｐ
＝Ｄｏ（ｘ）＊１／α ＋Ｄｏ（ｘ＋ｙ）＊（１／α）^２
・・・（１６）

ここで、図９で示したように、ＲｐをキャンセルさせるためにスピーカＳＰから発生させる音Ｄｏ″を、以下の（１７）式のように定義する。この（１７）式において、Ｃｏは、新たに加えられてスピーカＳＰから発生するキャンセル音である。また、ｙは、図６、図８で示した、スピーカＳＰからＳ１点を経由してＰ点に到達するまでの時間遅れと、スピーカＳＰからＳ２点およびＳ３点を経由してＰ点に到達するまでの時間遅れの差分である。
Ｄｏ″（０）＝Ｄｏ（０）＋Ｃｏ（ｙ）・・・（１７）

次に、Ｄｐを、以下の（１８）式のように表現する。
Ｄｐ＝Ｄｏ″（０）＊ｔｆ１
＝Ｄｏ（ｘ）＊１／α ＋Ｃｏ（ｘ＋ｙ）＊１／α
・・・（１８）

さらに、Ｒｐを、以下の（１９）式のように表現する。
Ｒｐ＝Ｄｏ″（０）＊ｔｆ２＊ｔｆ３
＝Ｄｏ（ｘ＋ｙ）＊（１／α）^２
＋Ｃｏ（ｘ＋２ｙ）＊（１／α）^２・・・（１９）

よって、Ｐ点に到達する全ての音Ｐａｌｌは、以下の（２０）式のように表すことができる。
Ｐａｌｌ＝Ｄｐ＋Ｒｐ
＝Ｄｏ（ｘ）＊１／α ＋Ｃｏ（ｘ＋ｙ）＊１／α
＋Ｄｏ（ｘ＋ｙ）＊（１／α）^２
＋Ｃｏ（ｘ＋２ｙ）＊（１／α）^２・・・（２０）

ここで、Ｃｏ（ｘ＋ｙ）＝ −Ｄｏ（ｘ＋ｙ）＊１／α、Ｃｏ（ｘ＋２ｙ）＝ −Ｄｏ（ｘ＋２ｙ）＊１／αとおくと、中間の２項がキャンセルされ、（２０）式は、以下の（２１）式のようになる。
Ｐａｌｌ＝Ｄｏ（ｘ）＊１／α− Ｄｏ（ｘ＋ｙ）＊（１／α）^２
＋Ｄｏ（ｘ＋ｙ）＊（１／α）^２− Ｄｏ（ｘ＋２ｙ）＊（１／α）^３
＝Ｄｏ（ｘ）＊１／α − Ｄｏ（ｘ＋２ｙ）＊（１／α）^３
・・・（２１）

つまり、スピーカＳＰから、Ｄｏに加え、Ｄｏを１／α倍の大きさにして時間遅れ量ｙを与えたのち位相を反転した音を出せば、中間の２項がキャンセルされることとなる。この結果、従来は主たる音に対して１／α倍の大きさを持つ副たる音がｙ時間だけ遅れて加算されていたものが、本技術を用いることで主たる音の（１／α）^２倍の大きさを持つ副たる音が２ｙ時間だけ遅れて減算されるようになる。

この場合、スピーカＳＰからの出力音Ｄｏ″は、以下の（２２）式で表される。このようにＤｏ″を設定すれば、Ｐ点にてＲｐを１／α倍の大きさに低減することが可能となる。つまり、α＞１という条件を満たせば、反射音の影響を低減できる、ということになる。
Ｄｏ″（０）＝Ｄｏ（０）＋Ｃｏ（ｙ）
＝Ｄｏ（０） − Ｄｏ（ｙ）＊１／α ・・・（２２）

［音響再生装置の構成例］
図１０は、第１の実施の形態としての音響再生装置１００の構成例を示している。この音響再生装置１００は、デジタルシグナルプロセッサ（ＤＳＰ：Digital Signal Processor）１０１と、アンプ１０２と、スピーカ１０３を有している。デジタルシグナルプロセッサ１０１は、音声信号処理部を構成している。また、アンプ１０２は、音声信号増幅部を構成している。

デジタルシグナルプロセッサ１０１は、入力音声信号Ｄｉを処理して、出力音声信号Ｄｉ″を得る。このデジタルシグナルプロセッサ１０１は、遅延部１１１、ゲイン調整部１１２および加算部１１３により構成されている。遅延部１１１およびゲイン調整部１１２は、キャンセル用音声信号を生成するキャンセル用音声信号生成部を構成している。加算部１１３は、入力音声信号Ｄｉにキャンセル用音声信号を加算して、出力音声信号Ｄｉ″を得る。

キャンセル用音声信号は、スピーカ１０３から出力されて受聴点Ｐに到達する反射音のうち、第１の反射音（主とする音）が到達した後に到達する所定の第２の反射音（副とする音）をキャンセルするための音声信号である。すなわち、遅延部１１１は、入力音声信号Ｄｉを、受聴点Ｐに到達する第１の反射音と第２の反射音との時間差に対応する時間だけ遅延させる。また、ゲイン調整部１１２は、遅延部１１１の出力信号のゲインを反射量に応じて調整してキャンセル用音声信号を得る。ここで、第１の反射音は図９のＤｐに同等し、第２の反射音は図９のＲｐに相当する。

アンプ１０２は、デジタルシグナルプロセッサ１０１で得られた出力音声信号Ｄｉ″を増幅してスピーカ１０３に供給する。スピーカ１０３は、電子機器、例えばテレビ受信機（ＴＶ）の筐体の背面側に下向きで配置されている（図９のスピーカＳＰ参照）。そのため、使用者は、このスピーカ１０３から出力されて受聴点Ｐに到達する反射音を受聴する。なお、アンプ１０２はアナログである場合が多い。アンプ１０２がアナログである場合、Ｄｉ″はデジタル信号からアナログ信号に変換されてからアンプ１０２に供給される必要がある。しかし、昨今はデジタルアンプも一般化しているし、説明の簡単化のために、アンプ１０２にはデジタル信号をそのまま伝送可能ということにする。スピーカ１０３は、アンプ１０２から供給される音声信号による音声を出力する

図１０に示す音響再生装置１００の動作を説明する。入力音声信号Ｄｉは、デジタルシグナルプロセッサ１０１に供給される。すなわち、この音声信号Ｄｉは、加算部１１３に供給されると共に、遅延部１１１に供給される。遅延部１１１では、入力音声信号Ｄｉが遅延される。ここで、入力音声信号をＤｉ（ｔ）とするとき、遅延部１１１では入力音声信号Ｄｉがｎサンプル分保持され、遅延音声信号Ｄｉ（ｔ＋ｎ）が出力される。

次に、この遅延音声信号Ｄｉ（ｔ＋ｎ）は、ゲイン調整部１１２に供給される。このゲイン調整部１１２では、ゲインＧｉが調整され、ゲイン調整された音声信号Ｄｉ（ｔ＋ｎ）＊Ｇｉが得られる。この音声信号Ｄｉ（ｔ＋ｎ）＊Ｇｉは、加算部１１３に供給される。そして、加算部１１３では、出力音声信号Ｄｉ″として、Ｄｉ（ｔ）＋Ｄｉ（ｔ＋ｎ）＊Ｇｉが得られる。この出力音声信号Ｄｉ″は、アンプ１０２で電力増幅されたのちスピーカ１０３に送られ、このスピーカ１０３からは、音Ｄｏ″が出力される。

ここで、以下の（２３）式が成り立っている。
Ｄｉ″ ＝Ｄｉ（ｔ）＋Ｄｉ（ｔ＋ｎ）＊Ｇｉ・・・（２３）

ｔ＝０、ｎ＝ｙ、さらに、Ｇｉ＝ − １／２とすれば、（２３）式は、以下の（２４）式となる。この（２４）式のＤｉ″を、図９で得られたＤｏ″（（１３）式参照）と比較すれば、これが正にＤｏ″を出力するための入力信号Ｃｉであることがわかる。
Ｄｉ″ ＝Ｄｉ（０） −Ｄｉ（ｙ）＊１／２・・・（２４）

上述したように、図１０に示す音響再生装置１００においては、スピーカ１０３（スピーカＳＰ）から出力される音が周囲の物体に反射した後に受聴点Ｐに到達する反射音Ｄｐを良好に受聴可能となる。また、図１０に示す音響再生装置１００においては、従来の信号処理技術と比べて平易、かつ低コストにも関わらず、効果的な音質調整を実現し、音質的に不利なスピーカ設置位置であっても、「良い音」を楽しめるようになる。

図１１は、図１０に示す音響再生装置１００の効果を示している。図１１（ａ）は、本技術の適用前のＰａｌｌの周波数特性を示している。図１１（ｂ）は、本技術の適用後のＰａｌｌの周波数特性を示している。干渉によって生じる山谷の大きさが適用の前後で±６ｄＢから±３ｄＢ程に減少していることがわかる。これにより、干渉によって生じる山谷が音声の特徴を崩すことを効果的に低減させることが可能であり、またその山谷の間隔も密にすることで影響が平均化されやすくなる。そのため、音質劣化を効果的に抑制することが可能となる。

＜２．第２の実施の形態＞
［遅延量の調整］
図８、図１１において、本技術の有効性を説明した。しかし、例えば、テレビ受信機（ＴＶ）を、台の上のどこにおくかで主とする音Ｄｐと副とする音Ｒｐの関係は変化する。例えば、図１２は、テレビ受信機（ＴＶ）を台のＰ点よりに設置した場合を示している。この場合、Ｒｐは、図９のＲｐに比べて、Ｄｐを基準とすると、相対的により遅く届く。図１３は、テレビ受信機（ＴＶ）を台の壁よりに設置した場合を示している。この場合、Ｒｐは、図９のＲｐに比べて、Ｄｐを基準とすると、相対的により速く届く。

つまり、図９の状態で効果が得られていても、テレビ受信機（ＴＶ）の設置位置を変更すると効果が得られなくなってしまう場合がある。これは、以下のことからも言える。上述したように、スピーカＳＰから発生させる音Ｄｏ″を、以下の（２５）式のように定義した。なお、この（２５）式は、上述の（８）式と同じものである。
Ｄｏ″（０）＝Ｄｏ（０）＋Ｃｏ（ｙ）・・・（２５）

この（２５）式において、ｙ、つまり、Ｄｐを基準とするＲｐの時間遅れ量ｙが適切でないと、以下の（２６）式の中間の２項のｙが一致しなくなることから、ＤｐとＲｐの干渉を抑制できなくなるためである。なお、この（２６）式は、上述の（１２）式に含まれている。
Ｐａｌｌ＝Ｄｏ（ｘ）＊１／２− Ｄｏ（ｘ＋ｙ）＊１／４
＋Ｄｏ（ｘ＋ｙ）＊１／４ −Ｄｏ（ｘ＋２ｙ）＊１／８
・・・（２６）

［音響再生装置の構成例］
図１４は、第２の実施の形態としての音響再生装置１００Ａの構成例を示している。この図１４において、図１０と対応する部分には、同一符号を付し、その詳細説明は省略する。この音響再生装置１００Ａは、デジタルシグナルプロセッサ１０１と、アンプ１０２と、スピーカ１０３と、制御部１０４と、ユーザ入力部１０５と、表示部１０６を有している。ユーザ入力部１０５および表示部１０６は、ユーザインタフェースを構成している。

制御部１０４は、ユーザ入力部１０５から使用者（ユーザ）が入力するスピーカ１０３から壁までの距離の情報に基づいて、遅延部１１１における遅延量を制御する。この制御部１０４には、ユーザ入力部１０５の他に、表示部１０６が接続されている。ユーザ入力部１０５は、例えば、テレビ受信機（ＴＶ）の筐体に配置された操作ボタン、操作摘み、さらには、リモートコントロール装置等である。表示部１０６は、液晶表示素子などで構成されるが、テレビ受信機（ＴＶ）の画像表示部を兼用することもできる。

使用者（ユーザ）がユーザ入力部１０５から上述の距離情報を入力する際には、表示部１０６に、図１５に示すように、距離の情報をユーザが入力するためのＧＵＩ（Graphical User Interface）表示が行われる。使用者（ユーザ）は、このＧＵＩ表示を用いて、スピーカ１０３から壁までの距離の情報を入力する。このようにユーザ入力部１０５から距離の情報が入力されることで、制御部１０４により、遅延部１１１における遅延量は、スピーカ１０３から壁までの実際の距離に応じた値に調整される。

上述したように、（２６）式の中間２項がキャンセルしなくなる理由は、それぞれのｙが一致しないためである。これは、上述の（２５）式におけるｙを調整することで解決可能な問題である。図１４に示す音響再生装置１００Ａにおいては、使用者（ユーザ）がユーザ入力部１０５により、スピーカ１０３から壁までの距離の情報を入力して、ｙを適切に調整でき、上述の問題を解決できる。

例えば、テレビ受信機（ＴＶ）が相対的にＰ点に近い場合には、壁までの距離が長くなるため、使用者（ユーザ）は、背面距離を長く設定する。逆に、テレビ受信機（ＴＶ）が相対的にＰ点から遠い場合には、壁までの距離が短くなるため、使用者（ユーザ）は、背面距離を短く設定する。

背面距離を長くするということは、Ｄｐに比べＲｐの遅れが大きくなることである。そのため、この場合、制御部１０４は、ｙを増やす方向に調整を行う。逆に、背面距離を短くするということは、ＤｐとＲｐの遅れが少なくなることである。そのため、この場合、制御部１０４は、ｙを減らす方向に調整を行う。このように、使用者（ユーザ）がユーザ入力部１０５、例えばリモートコントロール装置等を操作して背面距離を変えることで、テレビ受信機（ＴＶ）の様々な設置位置に応じて適切な調整が可能となる。

＜３．第３の実施の形態＞
［距離センサ］
図１４に示す音響再生装置１００Ａにおいては、使用者（ユーザ）がユーザ入力部１０５により、スピーカ１０３から壁までの距離の情報を入力可能としている。しかし、この距離の情報を、例えば、図１６に示すように、テレビ受信機（ＴＶ）の筐体の背面側に距離センサ１０７を設置し、この距離センサ１０７から得ることも考えられる。このように距離センサ１０７を設けることで、使用者（ユーザ）がユーザ入力部１０５から距離情報を入力する手間を回避できる。

［音響再生装置の構成例］
図１７は、第３の実施の形態としての音響再生装置１００Ｂの構成例を示している。この図１７において、図１４と対応する部分には、同一符号を付し、その詳細説明は省略する。この音響再生装置１００Ｂは、デジタルシグナルプロセッサ１０１と、アンプ１０２と、スピーカ１０３と、制御部１０４Ｂと、ユーザ入力部１０５と、表示部１０６と、距離センサ１０７を有している。この距離センサ１０７は、例えば、赤外線距離センサ等である。

制御部１０４Ｂは、距離センサ１０７で得られるスピーカ１０３から壁までの距離の情報に基づいて、遅延部１１１における遅延量を制御する。これにより、遅延部１１１における遅延量は、スピーカ１０３から壁までの実際の距離に応じた値とされる。

また、制御部１０４Ｂは、ユーザ入力部１０５から使用者（ユーザ）が入力する反射量の情報に基づいて、ゲイン調整部１１２におけるゲインを制御する。この制御部１０４Ｂには、ユーザ入力部１０５の他に、表示部１０６が接続されている。ユーザ入力部１０５は、例えば、テレビ受信機（ＴＶ）の筐体に配置された操作ボタン、操作摘み、さらには、リモートコントロール装置等である。表示部１０６は、液晶表示素子などで構成されるが、テレビ受信機（ＴＶ）の画像表示部を兼用することもできる。

使用者（ユーザ）がユーザ入力部１０５から上述の反射量情報を入力する際には、表示部１０６に、図１８に示すように、反射量の情報をユーザが入力するためのＧＵＩ（Graphical User Interface）表示が行われる。使用者（ユーザ）は、このＧＵＩ表示を用いて、反射量の情報を入力する。このようにユーザ入力部１０５から反射量の情報が入力されることで、制御部１０４Ｂにより、ゲイン調整部１１２におけるゲインは、入力された反射量の情報に応じた値に調整される。

＜４．変形例＞
なお、上述実施の形態においては、スピーカ１０３（スピーカＳＰ）が、テレビ受信機（ＴＶ）の筐体の背面側に下向きで設置される場合を例にとって説明した。しかし、本技術は、スピーカが同様の状態に設置されるその他の電子機器、例えばフォトフレーム等にも同様に適用できる。

また、上述実施の形態においては、キャンセル用音声信号を生成する系を１系統だけ備えている（図１０、図１４、図１７参照）。遅延量およびゲインを異にする複数の反射音をキャンセルするために、キャンセル用音声信号を生成する系を複数系統備える構成も考えられる。

また、本技術は、以下のような構成を取ることもできる。
（１）スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、入力音声信号に基づいて生成するキャンセル用音声信号生成部と、
上記入力音声信号に、上記キャンセル用音声信号生成部で生成されたキャンセル用音声信号を加算して出力音声信号を得る音声信号加算部と
を備える音声信号処理装置。
（２）上記キャンセル用音声信号生成部は、上記入力音声信号を、上記受聴点に到達する上記第１の反射音と上記第２の反射音との時間差に対応する時間だけ遅延させる遅延部と、
上記遅延部の出力信号のゲインを反射量に応じて調整して上記キャンセル用音声信号を得るゲイン調整部とを有する
前記（１）に記載の音声信号処理装置。
（３）上記遅延部における遅延量を調整するための情報として上記スピーカの設置位置から壁までの距離の情報をユーザが入力するためのユーザインタフェースと、
上記ユーザインタフェースで入力される上記距離の情報に基づいて、上記遅延部における遅延量を制御する制御部とをさらに備える
前記（２）に記載の音声信号処理装置。
（４）上記ユーザインタフェースは、
上記距離の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、
上記表示部に表示されたＧＵＩ表示を用いて上記距離の情報をユーザが入力するためのユーザ入力部とを有する
前記（３）に記載の音声信号処理装置。
（５）上記スピーカの設定位置から壁までの距離の情報を得る距離センサと、
上記距離センサで得られる上記距離の情報に基づいて、上記遅延部における遅延量を制御する制御部とをさらに備える
前記（２）に記載の音声信号処理装置。
（６）上記ゲイン調整部におけるゲインを調整するための情報として反射量の情報をユーザが入力するためのユーザインタフェースと、
上記ユーザインタフェースで入力される上記反射量の情報に基づいて、上記ゲイン調整部におけるゲインを制御する制御部とをさらに備える
前記（１）から（５）のいずれかに記載の音声信号処理装置。
（７）上記ユーザインタフェースは、
上記反射量の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、
上記表示部に表示されたＧＵＩ表示を用いて上記反射量の情報をユーザが入力するためのユーザ入力部とを有する
前記（６）に記載の音声信号処理装置。
（８）上記スピーカは、表示機器の筐体の背面側に下向きに取り付けられている
前記（１）から（７）のいずれかに記載の音声信号処理装置。
（９）スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、入力音声信号に基づいて生成するステップと、
上記生成されたキャンセル用音声信号を上記入力音声信号に加算して出力音声信号を得るステップと
を備える音声信号処理方法。
（１０）表示機器の筐体の背面側に下向きに取り付けられたスピーカと、
入力音声信号を処理して出力音声信号を得る音声信号処理部と、
上記音声信号処理部で得られた出力音声信号を増幅して上記スピーカに供給する音声信号増幅部とを備え、
上記音声信号処理部は、
上記スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、上記入力音声信号に基づいて生成するキャンセル用音声信号生成部と、
上記入力音声信号に、上記キャンセル用音声信号生成部で生成されたキャンセル用音声信号を加算して上記出力音声信号を得る音声信号加算部とを有する
音響再生装置。
（１１）上記表示機器は、テレビ受信機である
前記（１０）に記載の音響再生装置。

１００，１００Ａ，１００Ｂ・・・音響再生装置
１０１・・・デジタルシグナルプロセッサ
１０２・・・アンプ
１０３・・・スピーカ
１０４，１０４Ｂ・・・制御部
１０５・・・ユーザ入力部
１０６・・・表示部
１０７・・・距離センサ
１１１・・・遅延部
１１２・・・ゲイン調整部
１１３・・・加算部

Claims

スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、入力音声信号に基づいて生成するキャンセル用音声信号生成部と、
上記入力音声信号に、上記キャンセル用音声信号生成部で生成されたキャンセル用音声信号を加算して出力音声信号を得る音声信号加算部と
を備える音声信号処理装置。
上記キャンセル用音声信号生成部は、上記入力音声信号を、上記受聴点に到達する上記第１の反射音と上記第２の反射音との時間差に対応する時間だけ遅延させる遅延部と、
上記遅延部の出力信号のゲインを反射量に応じて調整して上記キャンセル用音声信号を得るゲイン調整部とを有する
請求項１に記載の音声信号処理装置。
上記遅延部における遅延量を調整するための情報として上記スピーカの設置位置から壁までの距離の情報をユーザが入力するためのユーザインタフェースと、
上記ユーザインタフェースで入力される上記距離の情報に基づいて、上記遅延部における遅延量を制御する制御部とをさらに備える
請求項２に記載の音声信号処理装置。
上記ユーザインタフェースは、
上記距離の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、
上記表示部に表示されたＧＵＩ表示を用いて上記距離の情報をユーザが入力するためのユーザ入力部とを有する
請求項３に記載の音声信号処理装置。
上記スピーカの設定位置から壁までの距離の情報を得る距離センサと、
上記距離センサで得られる上記距離の情報に基づいて、上記遅延部における遅延量を制御する制御部とをさらに備える
請求項２に記載の音声信号処理装置。
上記ゲイン調整部におけるゲインを調整するための情報として反射量の情報をユーザが入力するためのユーザインタフェースと、
上記ユーザインタフェースで入力される上記反射量の情報に基づいて、上記ゲイン調整部におけるゲインを制御する制御部とをさらに備える
請求項２に記載の音声信号処理装置。
上記ユーザインタフェースは、
上記反射量の情報をユーザが入力するためのＧＵＩ表示を行う表示部と、
上記表示部に表示されたＧＵＩ表示を用いて上記反射量の情報をユーザが入力するためのユーザ入力部とを有する
請求項６に記載の音声信号処理装置。
上記スピーカは、表示機器の筐体の背面側に下向きに取り付けられている
請求項１に記載の音声信号処理装置。
スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、入力音声信号に基づいて生成するステップと、
上記生成されたキャンセル用音声信号を上記入力音声信号に加算して出力音声信号を得るステップと
を備える音声信号処理方法。
表示機器の筐体の背面側に下向きに取り付けられたスピーカと、
入力音声信号を処理して出力音声信号を得る音声信号処理部と、
上記音声信号処理部で得られた出力音声信号を増幅して上記スピーカに供給する音声信号増幅部とを備え、
上記音声信号処理部は、
上記スピーカから出力されて受聴点に到達する反射音のうち、第１の反射音が到達した後に到達する所定の第２の反射音をキャンセルするためのキャンセル用音声信号を、上記入力音声信号に基づいて生成するキャンセル用音声信号生成部と、
上記入力音声信号に、上記キャンセル用音声信号生成部で生成されたキャンセル用音声信号を加算して上記出力音声信号を得る音声信号加算部とを有する
音響再生装置。
上記表示機器は、テレビ受信機である
請求項１０に記載の音響再生装置。