WO2018079850A1

WO2018079850A1 - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: WO2018079850A1
Application number: PCT/JP2017/039405
Authority: WO
Inventors: 康平関口; 雄太湯山
Original assignee: ヤマハ株式会社
Priority date: 2016-10-31
Filing date: 2017-10-31
Publication date: 2018-05-03
Also published as: JPWO2018079850A1; JP6737342B2

Abstract

環境音等の（ＢＧＭ）を自然に聴きながらも目的のコンテンツを自然に聴くことができる信号処理装置、信号処理方法およびプログラムを提供する。　信号処理装置は、入力部と、定位処理部と、を備えている。入力部は、環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、を入力する。定位処理部は、前記第１オーディオ信号を聴取者の周囲に定位させる第１定位処理と、前記第２オーディオ信号を前記第１定位処理とは異なる位置に定位させる第２定位処理と、を行なう。

Description

信号処理装置、信号処理方法およびプログラム

　この発明に係る一実施形態は、オーディオ信号に定位付加処理を行なう信号処理装置、信号処理方法およびプログラムに関するものである。

　従来、オーディオ信号に定位付加処理を行なう信号処理装置として、例えば特許文献１に記載の密閉型ヘッドフォン用信号処理装置がある。

　特許文献１に記載の密閉型ヘッドフォン用信号処理装置は、コンテンツ音と周囲の音とを異なる位置に定位させる処理を行うため、これらの音が重ならずに、コンテンツ音も周囲の音も明瞭に聴くことができる。

特開２０１４－１７４４３０号公報

　近年、ユーザは、音楽等の目的のコンテンツだけではなく、環境音等をＢＧＭとして加えて聴くことがある。

　しかし、目的のコンテンツと環境音等のＢＧＭとを単純にミックスした場合、音が入り混じるため、聞きづらい音になる。

　また、特許文献１の装置では、両方のコンテンツを分離することができるが、環境音が所定の位置に定位するため、不自然になる可能性がある。

　そこで、本発明に係る一実施形態は、環境音等のＢＧＭを自然に聴きながらも目的のコンテンツを自然に聴くことができる信号処理装置、信号処理方法およびプログラムを提供することを目的とする。

　この発明に係る一実施形態の信号処理装置は、入力部と、定位処理部と、を備えている。入力部は、環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、を入力する。定位処理部は、前記第１オーディオ信号を聴取者の周囲に定位させる第１定位処理と、前記第２オーディオ信号を前記第１定位処理とは異なる位置に定位させる第２定位処理と、を行なう。

　本発明に係る一実施形態の信号処理装置は、環境音等のＢＧＭを自然に聴きながらも目的のコンテンツを自然に聴くことができる。

図１（Ａ）および図１（Ｂ）は、オーディオ信号処理システムを示す概略図である。信号処理装置の構成を示すブロック図である。応用例１に係る信号処理装置の構成を示すブロック図である。応用例２に係る信号処理装置の構成を示すブロック図である。応用例３に係る信号処理装置の構成を示すブロック図である。図６（Ａ）は、ユーザの気分を入力するためのチャートを示す図である。図６（Ｂ）は、環境音とコンテンツの組み合わせの一例を示す図である。信号処理装置の動作を示すフローチャートである。データ選択の動作を示すフローチャートである。データ選択の動作を示すフローチャートである。ユーザの気分と選出される音の関係を示す図である。応用例４に係る信号処理装置の構成を示すブロック図である。図１２（Ａ）及び図１２（Ｂ）は、ユーザが選択肢に対する評価を入力する画面を示したものである。時間とユーザのストレス度合いを示したものである。

　図１（Ａ）および図１（Ｂ）は、オーディオ信号処理システムを示す概略図（上面図）である。図２は、信号処理装置の構成を示すブロック図である。

　図１（Ａ）に示すように、オーディオ信号処理システムは、信号処理装置１と、ヘッドフォンユニット２Ｌと、ヘッドフォンユニット２Ｒと、を備えている。

　信号処理装置１は、入力インタフェース（Ｉ／Ｆ）１１、定位処理部１２、増幅部１３Ｌ、増幅部１３Ｒ、出力インタフェース（Ｉ／Ｆ）１４、記憶部１５、ユーザインタフェース（Ｉ／Ｆ）１６、および制御部１９を備えている。信号処理装置１は、ヘッドフォンの専用ユニット（ポータブルアンプ）であってもよいが、一般的な情報処理装置（例えばスマートフォン）であってもよい。信号処理装置１における各構成は、ハードウェアであってもよいが、制御部１９の機能により構成されてもよい。制御部１９は、ＩＣ、ＣＰＵ、ＭＰＵ、ＬＳＩ、またはマイクロコントローラ、等と称されるハードウェアである。制御部１９は、記憶部１５に記憶されているプログラム１５１を実行することにより、各構成をソフトウェアで実現することが可能である。記憶部１５は、プログラム１５１を記憶するメモリ（記憶媒体）である。記憶部１５は、ＨＤＤ、ＳＳＤ、フラッシュメモリ、またはＥＥＰＲＯＭ、等と称されるハードウェアである。定位処理部１２は、例えばＤＳＰ（Digital Signal Processor）からなる。定位処理部１２は、入力したオーディオ信号に種々の信号処理を施す。なお、定位処理部１２は、制御部１９が実行するプログラム１５１により実現することも可能である。

　入力Ｉ／Ｆ１１は、オーディオプレーヤ等の他装置、または記憶部１５から、オーディオ信号を入力する。入力されるオーディオ信号は、環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、が含まれる。環境音は、メロディおよびリズムを含まない自然界の音に対応する。環境音は、例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等である。また、街の喧騒音、乗り物の音、またはカフェ等の雑踏音等も、環境音に含まれる。コンテンツは、一般的なメロディまたはリズムを含む音楽である。また、朗読などの発話を含む音声も、コンテンツに含まれる。環境音と、コンテンツの種類は、ユーザＩ／Ｆ１６を介してユーザが選択する。

　これら環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、は、定位処理部１２に入力される。第１オーディオ信号および第２オーディオ信号は、それぞれモノラル信号であってもよいし、ステレオ信号であってもよい。また、第１オーディオ信号および第２オーディオ信号は、３チャンネル以上のマルチチャンネルオーディオ信号であってもよい。

　定位処理部１２は、環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、のそれぞれについて、定位処理を行なう。定位処理は、所定の聴取者の頭部形状に対応する頭部伝達関数（以下、ＨＲＴＦと言う。）を用いる。なお、左右のミキシングバランスによっても、定位処理を実現することが可能である。

　ＨＲＴＦは、ある位置に設置した仮想スピーカからそれぞれ左右の耳に至る音の大きさ、到達時間、および周波数特性の差を表現したインパルス応答である。定位処理部１２は、例えば、図１（Ａ）に示すように、右前方に位置する仮想スピーカＶＲ１に定位させるＨＲＴＦおよび左前方に位置する仮想スピーカＶＬ１に定位させるＨＲＴＦを、第２オーディオ信号に付与する。これにより、ユーザは、仮想スピーカＶＬ１および仮想スピーカＶＲ１の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。

　図２に示すように、定位処理部１２は、フィルタ１２１Ｌ、フィルタ１２１Ｒ、フィルタ１２２Ｌ、フィルタ１２２Ｒ、加算器１２３Ｌ、および加算器１２３Ｒを備えている。

　フィルタ１２１Ｌは、仮想スピーカＶＬ１から左耳に至る経路のＨＲＴＦを、コンテンツに係る第２オーディオ信号に付与する。第２オーディオ信号が２チャンネル以上の信号である場合には、フィルタ１２１Ｌには、左側チャンネルのオーディオ信号が入力される。

　フィルタ１２１Ｒは、仮想スピーカＶＬ１から右耳に至る経路のＨＲＴＦを、コンテンツに係る第２オーディオ信号に付与する。第２オーディオ信号が２チャンネル以上の信号である場合には、フィルタ１２１Ｒには、右側チャンネルのオーディオ信号が入力される。

　加算器１２３Ｌは、フィルタ１２１Ｌおよびフィルタ１２２Ｌの出力信号を合成する。加算器１２３Ｒは、フィルタ１２１Ｒおよびフィルタ１２２Ｒの出力信号を合成する。

　加算器１２３Ｌの出力信号は、増幅部１３Ｌで増幅され、出力部１４から出力される。これにより、ヘッドフォンユニット２Ｌには、Ｌチャンネルのオーディオ信号が入力される。加算器１２３Ｒの出力信号は、増幅部１３Ｒで増幅され、出力部１４から出力される。これにより、ヘッドフォンユニット２Ｒには、Ｒチャンネルのオーディオ信号が入力される。

　よって、ユーザは、仮想スピーカＶＬ１および仮想スピーカＶＲ１の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。

　ヘッドフォンで音を聞く場合には、聴取環境における間接音（壁または床等からの反射音および残響音）が存在しない。そのため、ユーザは、仮想スピーカＶＬ１および仮想スピーカＶＲ１の位置における音源からの直接音だけが聞こえる状態となる。そこで、定位処理部１２は、間接音に対応する複数の音源位置に音像が定位するように、ＨＲＴＦを付与する処理を行ない、任意の領域に音場を形成させることもできる。例えば、定位処理部１２は、図１（Ａ）に示すように、ユーザの前方の領域Ｚｏｎｅ２に音場を形成させることができる。この場合、フィルタ１２１Ｌは、間接音に対応する複数の音源位置から左耳に至る経路のＨＲＴＦを、コンテンツに係る第２オーディオ信号に付与する。また、フィルタ１２１Ｒは、間接音に対応する複数の音源位置から右耳に至る経路のＨＲＴＦを、コンテンツに係る第２オーディオ信号に付与する。また、各間接音は、不図示の遅延器およびゲイン制御部で、遅延およびゲインの制御が行なわれてもよい。

　以上の処理により、ユーザは、前方設置されたスピーカから音が出力され、前方の領域Ｚｏｎｅ２に音像を認識することができる。

　次に、フィルタ１２２Ｌは、遠方の複数の所定位置から左耳に至る経路のＨＲＴＦを、環境音に係る第１オーディオ信号に付与する。フィルタ１２２Ｒは、遠方の複数の所定位置から右耳に至る経路のＨＲＴＦを、環境音に係る第１オーディオ信号に付与する。

　これにより、ユーザは、自身の周囲の領域Ｚｏｎｅ１に環境音の音像を認識する。すなわち、ユーザは、環境音の音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになる。

　以下、定位処理部１２における第１オーディオ信号及び第２オーディオ信号の定位処理の代表的な３つのパターンについて説明する。

　一つ目のパターンは、定位処理部１２が第１オーディオ信号をユーザ自身の周囲へ定位させ、第２オーディオ信号を第１オーディオ信号の定位させた位置より前記聴取者から近い特定の位置に定位させる場合である。例えば、定位処理部１２は、図１（Ａ）に示すＺｏｎｅ１に環境音である第１オーディオ信号を、仮想スピーカＶＲ１の位置にコンテンツである第２オーディオ信号を定位させる。ユーザは、自身の周囲の領域に環境音を、仮想スピーカＶＲ１の位置にコンテンツを認識する。これにより、ユーザは、コンテンツが仮想スピーカＶＲ１の位置から流れつつ、環境音に囲まれているように認識することができる。

　例えば、コンテンツとして英会話が選択され、環境音としてその英会話が行われている場所、例えば外国の市場の雑踏の音が選択されている場合を想定する。定位処理部１２は、英会話の第２オーディオ信号を仮想スピーカＶＲ１の位置に定位させる。ユーザは、仮想スピーカＶＲ１の位置に英会話の音像を認識する。定位処理部１２は、外国の市場の雑踏の音をＺｏｎｅ１に定位させる。ユーザは、自身の周囲の領域Ｚｏｎｅ１に外国の市場の雑踏の音の音像を認識する。これにより、ユーザはあたかも外国の市場でユーザの前方左前にいる人物と会話しているような臨場感を得ることができるため、より効率的な学習効果が得られる。

　二つ目のパターンは、定位処理部１２が第１オーディオ信号をユーザ自身の周囲へ定位させ、第２オーディオ信号を頭内定位させる場合である。例えば、定位処理部１２は、環境音である第１オーディオ信号を図１（Ａ）に示すＺｏｎｅ１に定位させ、コンテンツである第２オーディオ信号を頭内定位させる。ユーザは、頭内にコンテンツを、ユーザ自身の周囲に環境音を認識する。これにより、ユーザは、環境音に包まれつつも、コンテンツを明確に聴くことができる。

　例えば、コンテンツとしてクラシック音楽が選択され、環境音として森林の音が選択されている場合を想定する。定位処理部１２は、クラシック音楽の第２オーディオ信号を頭内定位させる。ユーザは、頭内にクラシック音楽の音像を認識する。定位処理部１２は、森林の音をＺｏｎｅ１に定位させる。ユーザは、自身の周囲の領域Ｚｏｎｅ１に森林の音の音像を認識する。ユーザは森林の音で包まれているような感覚を得ながらも、頭内定位されたクラシック音楽を明確に聞き取ることができる。これにより、ユーザは森林にいるようなリラックス効果を得ながらクラシック音楽を視聴できるため、より効率的なリラックス効果が得られる。

　三つ目のパターンは、定位処理部１２が第１オーディオ信号をユーザ自身の周囲における特定の位置に定位させ、第２オーディオ信号をユーザ自身の周囲における第１オーディオ信号とは異なる位置に定位させる場合である。例えば、定位処理部１２は、図１（Ｂ）に示す仮想スピーカＶＲ３の位置に環境音である第１オーディオ信号を、仮想スピーカＶＲ４の位置にコンテンツである第２オーディオ信号を定位させる。ユーザは、仮想スピーカＶＲ３の位置に第１オーディオ信号を、仮想スピーカＶＲ４の位置に第２オーディオ信号を認識する。これにより、ユーザは、第１オーディオ信号及び第２オーディオ信号を傍から流れてくる音として認識することとなるため、音から感じる負担が少なく、ユーザはストレスなく自然に音を聴くことができる。

　例えば、環境音として焚火の音が選択され、コンテンツとして楽曲が選択されている場合を想定する。定位処理部１２は、焚火の音の第１オーディオ信号を仮想スピーカＶＲ３の位置に定位させる。ユーザは、仮想スピーカＶＲ３の位置に焚火の音の音像を認識する。定位処理部１２は、楽曲の第２オーディオ信号を仮想スピーカＶＲ４の位置に定位させる。ユーザは、仮想スピーカＶＲ４の位置に楽曲の音像を認識する。ユーザは前方左側の方向から聞こえてくる焚火の音と、前方右側の方向から流れてくるコンテンツを同時に認識することができる。これにより、ユーザは、ストレスがなく音を感じることができるため、リラックス感が得られる。例えば、ユーザが混雑した電車の中にいる場合に、別の異空間にいる感覚を得られるため、リラックス効果がより高まる。

　図７は、信号処理装置１の動作を示すフローチャートである。まず、信号処理装置１は、環境音およびコンテンツに係るデータを選択する（ｓ１１）。データの選択は、例えばユーザがユーザＩ／Ｆ１６を用いて指定する。入力Ｉ／Ｆ１１は、記憶部１５から、ユーザが指定した環境音およびコンテンツに係るデータを読み出す。

　次に、定位処理部１２は、環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、のそれぞれについて、定位処理を行なう（ｓ１２，ｓ１３）。その後、定位処理部１２は、定位処理後の各オーディオ信号を合成する（ｓ１４）。合成後のオーディオ信号は、出力部１４を介して出力される（ｓ１５）。

　以上の様にして、信号処理装置１は、環境音等のＢＧＭを聴取者の周囲（領域Ｚｏｎｅ１）に定位させ、コンテンツの音を周囲以外（例えば前方の領域Ｚｏｎｅ２）に定位させることで、環境音等のＢＧＭとコンテンツの音が入り混じることがない。また、環境音は、音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになるため、聴取者が不自然に感じることもない。したがって、信号処理装置１によれば、ユーザは、環境音を自然に聴きながらも目的のコンテンツを自然に聴くことができる。

　次に、図３は、応用例１に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置１は、選出部１７を備えている。選出部１７は、信号処理装置１のＣＰＵ等が実行するプログラム１５１により実現される機能部である。

　選出部１７は、環境音とコンテンツとを選出する。すなわち、上記の例では、環境音およびコンテンツは、ユーザが手動で指定していたが、応用例１においては、環境音およびコンテンツは、自動選択される。

　応用例１に係る選出部１７は、ユーザＩ／Ｆ１６を介してユーザの気分が入力される。選出部１７は、入力されたユーザの気分に適した環境音およびコンテンツの組み合わせを選出する。

　図６（Ａ）は、ユーザの気分と選択される音の関係を示す図である。図６（Ｂ）は、環境音とコンテンツの組み合わせの一例を示す図である。図８は、データ選出の動作を示すフローチャートである。

　図６（Ａ）に示すように、まず、ユーザは、現在の自身の気分を、チャート上で選択する（ｓ２１）。この例では、ユーザは、縦軸に沿って、穏やかな状態から興奮状態まで選択することができ、横軸に沿って、暗い気分から明るい気分まで選択することができる。

　チャート上で選択した各位置には、環境音またはコンテンツが関連付けられている。ユーザの気分と環境音の対応付けを示す情報は、記憶部１５に記憶されている。例えば、図６（Ａ）および図６（Ｂ）の例では、最もユーザの気分が高い興奮状態であり、明るい気分である場合には、草原の環境音が対応付けられている。したがって、選出部１７は、環境音として草原を選出する。

　さらに、選出部１７は、選出した環境音に対応するコンテンツを選出する。環境音とコンテンツの対応付けを示す情報も、記憶部１５に記憶されている。例えば、草原の環境音には、ロックのジャンルのコンテンツが対応付けられている。したがって、選出部１７は、草原の環境音と、ロックのコンテンツを選出する（ｓ２２）。

　ただし、環境音およびコンテンツの選出の両方を行なうことは、必須ではない。例えば、選出部１７は、環境音だけを選出してもよいし、コンテンツだけを選出してもよい。環境音だけを選出する場合には、コンテンツは、ユーザが手動で選択する。

　また、ユーザの気分と環境音またはコンテンツとの関係は、予め対応付けられていてもよいが、選出部１７が、ユーザの気分に応じて、その都度、対応するコンテンツを選出してもよい。例えば、図１０に示すように、ユーザが選択するチャート上において、縦軸は、演奏テンポを示すＢＰＭ（Ｂｅａｔｓ　Ｐｅｒ　Ｍｉｎｕｔｅ）および音の情報量（楽器の数の多さ等）に対応する。横軸は、音色（周波数特性）および響きに対応している。選出部１７は、入力されたユーザの気分に対応するＢＰＭ、音の情報量、音色、および響きに対応する環境音およびコンテンツのデータを選出する。

　例えば、ユーザの気分が高い興奮状態であり、明るい気分である場合には、ＢＰＭが高く、音の情報量が多い環境音を選出する。ＢＰＭ、音の情報量、音色、および響きに関する情報は、各環境音のデータに付加されている。例えば環境音のデータがＭＰ３データである場合には、ＩＤ３タグにこれら情報が含まれている。また、例えば、環境音およびコンテンツのデータがＭＩＤＩデータである場合には、当該ＭＩＤＩデータに演奏テンポおよび楽器の数を示す情報が含まれている。

　したがって、選出部１７は、入力されたユーザの気分に応じて、その都度、対応するコンテンツを選出することができる。

　次に、図４は、応用例２に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置１は、センサ１８を備えている。センサ１８は、ユーザの状態（状態情報）を検出するセンサであり、例えば加速度センサ、温度センサ、またはカメラ等である。この例では、選出部１７は、センサ１８で検出されたユーザの状態に応じて、ユーザの気分を受け付け、環境音またはコンテンツを選出する。

　例えば、選出部１７は、加速度センサで、ユーザが走っている状態であると判定し、さらに走行ピッチに応じて、ユーザの気分を推定する。走行ピッチが速い場合には、ユーザが興奮状態であると推定する。走行ピッチが遅い場合には、ユーザが穏やかな状態であると推定する。例えば、選出部１７は、興奮状態であるときは、ＢＰＭが高い環境音またはコンテンツを、穏やかな状態であるときはＢＰＭが低い環境音またはコンテンツを選出する。また、例えば、選出部１７は、予めセンサの値と環境音またはコンテンツとを対応付けて記憶部１５に記憶しておくことで、ユーザの状態に応じた環境音またはコンテンツを選択することができる。

　また、センサ１８は、表示部（不図示）を指でタッチしたときのタッチ操作を検知するタッチセンサを備えていてもよい。制御部１９は、スマートフォンの制御部にユーザにタッチ操作を促す指示を出力する。スマートフォンの制御部は、「タッチパネルを複数回タップして下さい」という表示を画面に表示させる。制御部１９は、センサ１８で検知したタップの間隔の平均時間を算出する。ユーザのタップの間隔とその時のユーザの状態とを予め対応付けたデータとして記憶部１５に記憶しておく。

　制御部１９は、センサ１８で検知したタップの間隔から、ユーザの状態を推定する。興奮状態であるときはユーザのタップの間隔が短く、穏やかな状態であるときはユーザのタップの間隔が長い。制御部１９は、センサ１８で検知した結果を記憶部１５に予め記憶されたデータに照らし合わせて、ユーザのタップの間隔に近いユーザの状態を選択し、ユーザの状態を推定することができる。

　これにより、ユーザは、気分の選択を行なう必要なく、選出部１７が環境音またはコンテンツを選出することができる。

　次に、図５は、応用例３に係る信号処理装置の構成を示すブロック図である。図９は、応用例３に係る信号処理装置１の動作を示すフローチャートである。この例では、信号処理装置１は、マイク１０１を備えている。マイク１０１は、周囲の環境音を取得する。マイク１０１で取得された環境音は、記憶部１５に記憶され、録音される（ｓ３１）。

　そして、選出部１７は、録音された環境音の解析を行ない（ｓ３２）、対応するコンテンツを選出する（ｓ３３）。すなわち、選出部１７は、環境音の種類（例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等）を推定し、推定した環境音に対応するコンテンツを選択する。

　この場合、現在のユーザの周囲の環境に応じた適切なコンテンツが選出される。また、録音された環境音が、周囲遠方に定位するため、より自然な状態で、環境音を聴きながらも目的のコンテンツを聴くことができる。

　図１１は、応用例４に係る信号処理装置の構成を示すブロック図である。環境音の取得は、バイノーラル録音であってもよい。バイノーラル録音をする場合の信号処理装置は複数のマイクが必要である。例えば、図１１に示すように、応用例４に係る信号処理装置１はマイク１０１及び１０２を備える。マイク１０１及び１０２は、それぞれの録音時に配置された空間においてＨＲＴＦが含まれた音情報を取得する。ユーザは、例えば、仮想スピーカＶＲ１の位置における音源から、環境音が出力されている様に知覚することができる。したがって、ユーザはより自然な状態で環境音を聴くことが可能となる。

　また、選出部１７は、カメラ等で取得された画像や映像を解析して、ユーザが室外にいるかいないかを推定することができる。例えば、選出部１７は、画像の色を解析する。記憶部１５は、画像の色と室内又は室外であるかとを対応付けた情報を記憶する。選出部１７は、ユーザが所有するスマートフォンなどで取得した画像をユーザインタフェース（Ｉ／Ｆ）１６を介して選出部１７に入力する。選出部１７は、取得された画像と記憶部１５に記憶された情報とを照らし合わせて、室内又は室外であるかを判断する。選出部１７は、ユーザいる場所が例えば、室外と判断するとアップテンポな曲を選出する。これに対して、選出部１７は、ユーザいる場所が例えば、室内と判断すると落ち着いた曲を選出する。これにより、選出部１７は、ユーザいる場所に応じた環境音またはコンテンツを選択することができる。

　なお、選出部１７は、コンテンツまたは環境音に関連する映像、光、風、匂いなどの音以外の視覚や嗅覚等で感じる要素をさらに選出することも可能である。例えば、環境音に関連する要素が光である場合について説明する。記憶部１５は、予めコンテンツまたは環境音に対応付けられた光に関する情報を記憶する。光に関する情報とは、例えば、光の色や発光時間、点滅の有無、又は照度などの情報である。信号処理装置１又はこれと同時に使用されるスマートフォン等は、光を発する表示部（ＬＥＤ、ＬＣＤ、又はＯＬＥＤ等）を備える。

　選出部１７がコンテンツまたは環境音を選出すると、制御部１９は、選出されたコンテンツまたは環境音に対応付けられた光の情報を記憶部１５から取得する。記憶部１５で取得された情報を基に、制御部１９は、信号処理装置１又はこれと同時に使用されるスマートフォン等の表示部に、コンテンツまたは環境音の再生とともに光を発する指示を入力する。表示部は、コンテンツまたは環境音に対応付けられた光を発する。これにより、ユーザはさらにコンテンツまたは環境音をリアルに体感することができる。

　なお、応用例においては、いずれも記憶部１５に記憶されている環境音またはコンテンツを選出する例を示したが、例えば、選出した環境音またはコンテンツに係るデータを識別する情報を用いて、対応するデータを外部のサーバ等からダウンロードしてもよい。

　また、選出部１７は、過去にユーザが選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて選出を行なってもよい。この場合、ユーザは、環境音またはコンテンツのいずれかを手動で選択するだけで、対応するコンテンツまたは環境音が自動で選出される。例えば、選出部１７は、ユーザが選択したコンテンツのＢＰＭと環境音とを学習することで、ユーザが選択したコンテンツに応じた環境音を自動で選出することができる。また、選出部１７は、ユーザが選択したコンテンツのジャンルと環境音とを学習することで、ユーザが選択したコンテンツのジャンルに応じた環境音を自動で選出することができる。以下、選出部１７の学習について説明する。

　選出部１７の学習においては、例えば、コンテンツ又は環境音のパラメータとユーザの状態を示すパラメータとを関連付けて記憶部１５に蓄積させる。

　図１２（Ａ）及び図１２（Ｂ）は、ユーザが再生中の音声に対する評価を入力する画面を示したものである。選出部１７の学習においては、図１２（Ａ）及び図１２（Ｂ）に示すように、ユーザが所有するスマートフォンなどの表示部（不図示）に、画面１２１又は画面１２２が表示される。例えば、図１２（Ａ）に示すように、「楽曲Ａは今の気分に合っていますか？」という質問に対して、ユーザＩ／Ｆ１６は、「はい」又は「いいえ」の選択肢を表示する。また、図１２（Ｂ）に示すように、「環境音は今の気分に合っていますか？」という質問に対して、ユーザＩ／Ｆ１６は、「はい」又は「いいえ」の選択肢を表示する。

　ユーザＩ／Ｆ１６は、画面１２１及び画面１２２を表示させて、再生中の音声に対するユーザからの評価を受け付ける。すなわち、コンテンツ及び環境音がその時の気分に適しているか否かをユーザは、ユーザＩ／Ｆ１６を介してセンサ１８に入力する。画面１２１又は画面１２２が受け付けた選択肢が「はい」の場合、制御部１９は再生中のコンテンツのＢＰＭ、音数等の各種パラメータと、センサ１８のパラメータ（例えば、温度、天気、心拍数等）と、を対応付ける。制御部１９は、対応付けた再生中の音声に対するユーザからの評価を、記憶部１５に記憶する。

　受け付けた選択肢が「いいえ」の場合、制御部１９は再生中のコンテンツ又は環境音から別のコンテンツ又は環境音を選出部１７へ選択させる命令を行う。これにより、別のコンテンツ又は環境音が再生され、ユーザに新たな画面１２１又は画面１２２が提示される。制御部１９は、新たな画面１２１又は画面１２２で受け付けた選択肢が「はい」になるまで繰り返す。これにより、センサ１８のパラメータと対応付けられたコンテンツ又は環境音に対するユーザの評価のデータが、記憶部１５に蓄積される。

　選出部１７は、記憶部１５に蓄積されたデータを基に、現在のユーザの状態に適したコンテンツ又は環境音を選択する。ユーザの置かれた状況等に変化が生じると、センサ１８のパラメータには変化が生じる。例えば、ユーザが室外から室内へ移動した場合、温度センサにおいて検出される温度に変化が生じる場合が挙げられる。

　ユーザの状態に変化が生じると、選出部１７は、記憶部１５に蓄積されたデータを基に、現在検出されているセンサ１８のパラメータに対応付けられたコンテンツのＢＰＭ、音数等の値が近いコンテンツ又は環境音を選択する。これにより、選出部１７は、ユーザの置かれた状況に適したコンテンツ又は環境音を自動で選択することができる。したがって、ユーザは心理状態に対応したコンテンツ又は環境音を聴くことができる。

　なお、選出部１７の学習は、人工知能で自動化してもよい。例えば、記憶部１５に蓄積されたデータを複数端末から不図示のサーバへ送信する。サーバでは例えばニューラルネットワークが形成されている。ニューラルネットワークにおいては、心拍数、体温、周囲の音、気温、等のセンサ１８において検出される値等が入力層となる。さらに、センサ１８において検出される興奮又は落ち着き、明又は暗の２つの要素がニューラルネットワークの中間層となる。コンテンツ又は環境音が出力層となる。ニューラルネットワークは、センサ１８の値に応じたコンテンツ又は環境音を結果として出力する。そして、ニューラルネットワークは、複数の端末からデータを集めることにより、ディープラーニングで入力に対する出力の精度を高めることができる。選出部１７は、サーバにセンサ１８において検出される値を送信することにより、対応するコンテンツ又は環境音を得る。これにより、選出部１７は、ユーザの気分に応じたコンテンツ又は環境音を選出する精度を上げることができる。

　このように、選出部１７は、学習機能により、ユーザの心理状態、時間等を基にユーザにその場に応じたコンテンツと環境音とを提供することができる。また、選出部１７は、ユーザの心理状態、時間だけでなく、その日の天気、温度、体調、その場所等の様々な要素を判断要素とすることができる。ここで、温度又は体調などは、センサ１８で取得されたものを利用可能である。また、天気等の情報はインターネットを通じて入手してもよい。

　例えば、温度又は体調などに関しては、センサ１８で取得されたものが使用できる。さらに、これに対してユーザの体感温度に関する評価をセンサ１８で受け付けて、補正してもよい。これにより、センサ１８で取得される情報の精度が高まるため、選出部１７はユーザの心理状態により適した選出をすることができる。例えば、同一の温度においても暑がりの人と寒がりの人によって、感じ方は変わる。このため、同一の温度であっても人により聴いて心地よく感じるコンテンツや環境音は異なる。したがって、センサ１８で受け付けた体感温度の評価により、実際の温度と感じ方のデータを蓄積し学習することによって、選出部１７は、よりその状況に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。

　また、場所に関しては、市街地、草原、山、海、又はこれらのさらに細かく細分された場所に応じて、その場にユーザがいた時の心理状態が蓄積されたデータを学習することによって、選出部１７は、よりその場に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。

　例えば、コンテンツとして楽曲Ａが再生されている場合について説明する。ここで、朝の通勤時間帯に楽曲Ａが再生されているときに、画面１２１において選択肢「はい」を複数回受け付ける。これにより、特定の時間帯と楽曲Ａとが関連付けられたデータが記憶部１５に記憶される。このデータを基に選出部１７は、この時間帯において楽曲Ａ又は、楽曲ＡとＢＰＭ、音数等の値が近い楽曲を自動で選出する。このような学習機能により、選出部１７は、ユーザの気分に応じたコンテンツを選出することができる。また、ユーザは通勤時間帯の忙しい時間帯に楽曲を選択する煩わしさから解放される。

　同様に、選出部１７は、環境音についても同様の学習機能により自動で選出することができる。例えば、コンテンツとして楽曲Ａが、環境音として小川のせせらぎが再生されている場合について説明する。選出部１７は、上述のような学習機能により、時間と環境音とが関連付けられたデータが記憶部１５に記憶される。このデータを基に選出部１７は、朝の通勤時間帯に楽曲Ａと小川のせせらぎとを自動で選出させてもよい。また、選出部１７は、楽曲Ａ又は小川のせせらぎとＢＰＭ、音数等の値が近いものを自動で選出させてもよい。

　図１３は、時間とユーザのストレス度合いを示したものである。通勤においては、例えば、徒歩、バス、電車等、様々な交通手段がある。図１３に示す例は、ユーザの朝の通勤時間帯における移動が、家から徒歩、電車、徒歩、職場の順である場合を想定する。徒歩で移動している時間帯のユーザのストレスは比較的少なく、混雑した電車に乗って移動している時間帯のユーザのストレスは比較的大きい。また、同じ徒歩においても、家の近くか職場の近くであるかによってもユーザの心理状態は変化する。

　ここで、図１２（Ａ）及び（Ｂ）に示すように、制御部１９は、ユーザが所有するスマートフォンにユーザが選択肢に対する評価を入力するための画面１２１、画面１２２を表示する。制御部１９は、その時の気分にコンテンツ及び環境音が適しているか否かについて面１２１及び画面１２２で受け付けた選択を、記憶部１５へ記憶する。

　例えば、ユーザが図１３に示す家から徒歩で移動中の場合において、楽曲Ａと小川のせせらぎが選択されている場合を想定する。この状態において、ユーザの心理状態はストレスが少ない状態であり、センサ１８において検出される心拍数の値が定常状態であるとする。ここで、ユーザが電車に乗り込むと、ユーザの心理状態が変化しストレスが増加し、センサ１８において検出される心拍数の値が上昇する。

　選出部１７は、例えば心拍数の値が所定の閾値を越えると、別のコンテンツ、例えば楽曲Ｂを選出することができる。

　また、コンテンツの変更に合わせ、選出部１７は環境音を変更する。例えば、選出部１７は、環境音をより広い空間の音へ変更する。これにより、ユーザのストレスが軽減される。

　また、制御部１９は、日時のデータに対応付けられたイベント及びそのイベントに関連するコンテンツと環境音とを記憶部１５に記憶してもよい。制御部１９は、記憶部１５に記憶された日時のデータを読み取ることにより、選出部１７に特定の日時に対応付けられたイベントに関連するコンテンツと環境音とを選出する指示をする。これにより、ユーザにイベントに関連するコンテンツと環境音とを的確に提供することができる。

　例えば、定期的にそのイベントがある場合、例えば毎週火曜日に英語のレッスンがある場合、火曜日の朝の通勤時間に選択されるコンテンツとして選出部１７は、英語に関連するものを選択する。これにより、ユーザに当日のレッスンを思い出させ、学習意欲を向上させることができる。さらに、選出部１７は、ユーザの心理状態にあったコンテンツ及び環境音を選択することができるため、より学習意欲を向上させることができる。

　さらに、定位処理部１２は、学習機能により環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、のそれぞれについて、定位させる位置を変化させてもよい。制御部１９は、センサ１８からユーザの心理状態が明るい情報を受け付けると、定位処理部１２にコンテンツを頭内定位させる指示をする。これに対して、制御部１９はセンサ１８からユーザの心理状態が暗い情報を受け付けると、定位処理部１２にコンテンツをユーザの前方又は遠方に定位させる指示をする。これにより、定位処理部１２はユーザの心理状態に応じた、コンテンツの定位を行う。

　また、選出部１７は、他のユーザから、環境音とコンテンツとの組み合わせを示す組み合わせ情報を取得してもよい。この場合、ユーザは、他のユーザがお勧めする環境音とコンテンツとの組み合わせを楽しむことができる。環境音とコンテンツとの組み合わせについても、選出部１７及び不図示のサーバの学習機能により、選出部１７は、ユーザ毎により適した組み合わせ情報を提供することができる。例えば、ユーザがある環境、例えばカフェにいるときに特定のコンテンツとして楽曲Ｃと環境音Ｄを選択する。信号処理装置1は、サーバにこの選出データを送信し、蓄積する。また、同時に信号処理装置1は、このユーザに関する、年齢、性格、又は性別等のユーザ固有のデータも送信してサーバに蓄積する。例えば、別のユーザ２が信号処理装置1を使用する際、信号処理装置1は、ユーザ２の固有のデータがサーバに送信する。サーバは、このユーザ２の固有のデータに近い条件のコンテンツ又は環境音を選出する。サーバは、例えば、コンテンツとして楽曲Ｃと環境音Ｄを選択して、ユーザ２の使用する信号処理装置1に送信する。これによりユーザ２は、サーバに蓄積された情報から、ユーザ毎にさらに適した組み合わせ情報を提供することができる。

　なお、本実施形態では、環境音およびコンテンツに係る音をヘッドフォンに出力する例をしめしたが、例えばスピーカに出力してもよい。スピーカを用いてＨＲＴＦによる定位処理を行なう場合にはクロストークキャンセルの処理を行なう。

　ＨＲＴＦ以外の定位処理としては、環境音は、聴取位置の周囲に設置された全てのスピーカから出力させ、コンテンツは前方に設置されたスピーカから出力させる。この場合も、環境音は、聴取者の周囲に定位（第１定位処理に対応）し、コンテンツは第１定位処理とは異なる位置に定位（第２定位処理に対応）する。

　最後に、前記実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲とを含む。

ＶＬ１，ＶＲ１…仮想スピーカ
１…信号処理装置
２Ｌ，２Ｒ…ヘッドフォンユニット
１１…入力部
１２…定位処理部
１３Ｌ，１３Ｒ…増幅部
１４…出力部
１５…記憶部
１７…選出部
１８…センサ
１０１…マイク
１２１Ｌ，１２１Ｒ，１２２Ｌ，１２２Ｒ…フィルタ
１２３Ｌ，１２３Ｒ…加算器

Claims

　環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、を入力する入力部と、
　前記第１オーディオ信号を聴取者の周囲に定位させる第１定位処理と、前記第２オーディオ信号を前記第１定位処理で定位させる位置とは異なる位置に定位させる第２定位処理と、を行なう定位処理部と、
　を備えた信号処理装置。
　前記定位処理部は、前記第２オーディオ信号を、前記聴取者の前方の特定の位置に定位させる、
　請求項１に記載の信号処理装置。
　前記特定の位置は、前記第１オーディオ信号を定位させる位置より前記聴取者に近い、
　請求項２に記載の信号処理装置。
　前記定位処理部は、前記第２オーディオ信号を、前記聴取者の前方の特定の位置よりも遠い位置に定位させる、
　請求項１に記載の信号処理装置。
　前記環境音または前記コンテンツを選出する選出部を備えた、
　請求項１から請求項４のいずれかに記載の信号処理装置。
　前記選出部は、過去に選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて、前記選出を行なう、
　請求項５に記載の信号処理装置。
　ユーザの状態を示す状態情報を取得し、取得した状態情報に応じて前記選出を行なう、
　請求項５に記載の信号処理装置。
　他のユーザから、前記環境音と前記コンテンツとの組み合わせを示す組み合わせ情報を取得し、取得した組み合わせ情報に応じて前記選出を行なう、
　請求項５に記載の信号処理装置。
　環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、を入力し、
　前記第１オーディオ信号を聴取者の周囲に定位させる第１定位処理と、前記第２オーディオ信号を前記第１定位処理で定位させる位置とは異なる位置に定位させる第２定位処理と、を行なう、
　信号処理方法。
　前記第２オーディオ信号を、前記聴取者の前方の特定の位置に定位させる、
　請求項９に記載の信号処理方法。
　コンピュータに、
　環境音に係る第１オーディオ信号と、コンテンツに係る第２オーディオ信号と、を入力し、
　前記第１オーディオ信号を聴取者の周囲に定位させる第１定位処理と、前記第２オーディオ信号を前記第１定位処理とは異なる位置に定位させる第２定位処理と、をさせる、
　プログラム。