WO2011070956A1

WO2011070956A1 - オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体

Info

Publication number: WO2011070956A1
Application number: PCT/JP2010/071490
Authority: WO
Inventors: 純生佐藤; 永雄服部; 嬋斌倪
Original assignee: シャープ株式会社
Priority date: 2009-12-09
Filing date: 2010-12-01
Publication date: 2011-06-16
Also published as: JP2011124723A; US20120269351A1; CN102640522A

Abstract

　仮想音源がスピーカから移動した場合に発生する波形の歪みを線形補間することによって、補正処理の高速化を図るオーディオデータ処理装置等を提供する。本装置は、相前後する時点でのスピーカの位置から仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出する算出手段と、第１の距離及び第２の距離が異なる場合、前後の時点におけるオーディオデータにある歪みの部分を特定する特定手段と、特定された部分のオーディオデータを、関数を用いた補間によって補正する補正手段を有する。

Description

オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体

　本発明は、オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体に関する。

　近年、欧州を中心に波面合成技術(Wave Field Synthesis:ＷＦＳ)を基本原理とするオーディオシステムの研究が盛んに行われている（例えば、非特許文献１参照）。ＷＦＳとは、アレイ状に並べられた複数のスピーカ（以下、「スピーカアレイ」と呼ぶ。）から放射される音の波面をホイヘンスの原理に基づき合成する技術である。

　ＷＦＳによって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源（以下、「仮想音源」と呼ぶ。）から放射されているかのような感覚を受ける（例えば、図１参照）。

　ＷＦＳシステムを適用することが可能な装置としては、映画、オーディオシステム、テレビ、ＡＶラック、テレビ会議システム、テレビゲーム等がある。例えば、ディジタルコンテンツが映画の場合、俳優の存在が仮想音源という形でメディアに記録されている。したがって、会話をしながらスクリーン内を俳優が移動する場合、スクリーン内の俳優の動き方向に合わせて仮想音源をスクリーンに対して左右、前後及び任意の方向に定位させることができる。例えば特許文献１には、仮想音源を移動可能にするシステムが記載されている。

特表２００７－５０２５９０号公報

ベルクハウト、ドブリース、フォーゲル（A. J. Berkhout, D. de Vries, and P. Vogel）著、「アコースティック　コントロール　バイ　ウェーブフィールド　シンセシス　(Acoustic control by wave field synthesis)」（オランダ）、第９３（５）版、ジャーナル・オブ・ジ・アコウスティカル・ソサイエティ・オブ・アメリカ(J. Acoust. Soc)、１９９３年５月、ｐ.２７６４－２７７８

　音波の発生源である音源及び受聴者の相対的な速度によって音波の周波数が異なって観測される物理現象としてドップラー効果が知られている。ドップラー効果によると、音波の発生源である音源が受聴者に近付く場合には音波の振動が詰められて周波数が高くなり、逆に観測者から遠ざかる場合には音波の振動が伸ばされて低くなる。これは、音源が移動しても音源から到達する音波の波の数は変わらないことを意味する。しかし、非特許文献１に記載のものは、仮想音源は動かずに固定されていることを前提としており、仮想音源の移動に伴って発生するドップラー効果に対しては検討がなされていない。そのため、仮想音源をスピーカから遠ざかる方向に移動させる場合又は近づく方向に移動させる場合に、スピーカが発する音の基となるオーディオ信号の波の数が変化し、その波の数の変化により波形に歪みが生ずる。波形に歪みが発生すると受聴者はそれをノイズとして知覚するため、波形の歪みを解消する手段を講ずる必要がある。尚、波形の歪みの詳細については後述する。

　一方、特許文献１に記載のものは、仮想音源の移動に伴って発生するドップラー効果を考慮し、オーディオ信号の基となるオーディオデータ内のあるセグメント内の適当な標本データからその次のセグメント内の適当な標本データまでの範囲のオーディオデータに対する重み係数を変化させ、その範囲のオーディオデータを補正する。ここで、「セグメント」とは、オーディオデータの処理単位である。オーディオデータを補正することによってオーディオ信号波形の極端な歪みはある程度解消され、波形の歪みによって発生するノイズを低減することができる。しかし、特許文献１に記載のものは、現時点のセグメントのオーディオデータを補正するためには、その次のセグメントのオーディオデータの音波伝播時間を予め算出しておく必要がある。すなわち、特許文献１に記載のものでは、次のセグメントのオーディオデータの音波伝播時間の算出処理等が完了していないと現時点のセグメントのオーディオデータを補正することができない。よって、現時点のセグメントのオーディオデータを出力するのに１セグメント分の遅延が生じるという課題を有する。

　本発明はかかる課題に鑑みてなされたものであり、オーディオデータにある歪みの部分を特定し、特定された波形の歪みに対して補正を行うオーディオデータ処理装置等であって、上記の遅延を生じさせることなくオーディオデータを出力することができるオーディオデータ処理装置等を提供することを目的とする。

　本発明のオーディオデータ処理装置は、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置において、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出する算出手段と、前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段とを備える。

　本発明のオーディオデータ処理装置において、前記オーディオデータは標本データを含み、前記特定手段は、前記仮想音源の前記スピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、前記補正手段は、特定された前記繰り返し部分及び欠落部分を、関数を用いた補間によって補正する。

　本発明のオーディオデータ処理装置において、前記関数を用いた補間は、線形補間である。

　本発明のオーディオデータ処理装置において、前記補正を行う部分は、前記第１及び第２の距離を音波が伝播する時間幅の差、又は、前記差に比例する時間幅である。

　本発明のオーディオ装置は、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を用い、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオ装置において、前記オーディオデータ及び前記仮想音源の位置を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、前記ディジタルコンテンツ入力部が入力したディジタルコンテンツを解析し、該ディジタルコンテンツに含まれるオーディオデータ及び仮想音源の位置のデータを分離するコンテンツ情報分離部と、前記コンテンツ情報分離部が分離した仮想音源の位置のデータ及び前記スピーカの位置のデータに基づいて、前記コンテンツ情報分離部が分離したオーディデータを補正するオーディオデータ処理部と、補正後のオーディオデータをオーディオ信号に変換してスピーカへ出力するオーディオ信号生成部とを備え、前記オーディオデータ処理部は、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出する算出手段と、前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段とを備える。

　本発明のオーディオ装置において、前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバ又はディジタルコンテンツを放送する放送局からディジタルコンテンツを入力する。

　本発明のオーディオデータ処理方法において、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及びオーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置におけるオーディオデータ処理方法において、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出するステップと、前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップとを含む。

　本発明のプログラムは、オーディオデータに対応するオーディオ信号を入力するスピーカが放射する音によって形成される仮想音源の位置及び該スピーカの位置に基づいて、移動する音源が発する音に対応する前記オーディオデータを補正させるプログラムにおいて、コンピュータに、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出するステップと、前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップとを実行させる。

　本発明の記録媒体は、前述のプログラムを記録する。

　本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、補正手段は、関数を用いた補間によって、特定された繰り返し部分及び欠落部分を補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、線形補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のオーディオ装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のオーディオデータ処理方法にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のプログラムにあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明のプログラムを記録した記録媒体にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。

　本発明に係るオーディオデータ処理装置等によれば、仮想音源のスピーカに対する接近又は離隔に起因するオーディオデータの歪みを遅延なく補正し、補正後のオーディオデータを出力することができる。

ＷＦＳにより提供される音響空間の一例の説明図である。オーディオ信号を一般的に説明する説明図である。オーディオ信号を一般的に説明する説明図である。オーディオ信号を一般的に説明する説明図である。オーディオデータにより形成されるオーディオ信号波形の一部の説明図である。第１のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第２のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。図４に示すオーディオデータにより形成されるオーディオ信号波形及び図５に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。第１のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第２のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第１のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形及び第２のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形の間に４点分の空白部分が発生している状態を示す説明図である。図７に示すオーディオデータにより形成されるオーディオ信号波形及び図８に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。実施の形態１に係るオーディオデータ処理部を備えるオーディオ装置の構成例を示すブロック図である。実施の形態１に係るオーディオデータ処理部の内部構成例を示すブロック図である。入力オーディオデータバッファの一構成例の説明図である。音波伝播時間データバッファの一構成例の説明図である。補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。実施の形態１に係るデータ処理の流れを示すフローチャートである。実施の形態２に係るオーディオ装置の内部構成例を示すブロック図である。

　実施の形態１
　まず始めに、ＷＦＳにより提供される音響空間内で仮想音源が移動しないことを前提とした演算モデル及び仮想音源の移動を考慮した演算モデルについて説明し、次いで、実施の形態の説明に移る。

　図１は、ＷＦＳにより提供される音響空間の一例の説明図である。図１に示す音響空間には、Ｍ個のスピーカ１０３＿１から１０３＿Ｍから構成されるスピーカアレイ１０３及びスピーカアレイ１０３と対面して音を聴いている受聴者１０２が存在する。この音響空間においては、Ｍ個のスピーカ１０３＿１から１０３＿Ｍから放射される音の波面はホイヘンスの原理に基づいて波面合成され、合成波面１０４として音響空間内を伝わる。このとき、受聴者１０２は、実際にはスピーカアレイ１０３から放射される音が、スピーカアレイ１０３の後方に定位された実際には存在しないＮ個の仮想音源１０１＿１から１０１＿Ｎから放射されているかのような感覚を受ける。Ｎ個の仮想音源１０１＿１から１０１＿Ｎを総称して仮想音源１０１と呼ぶ。

　一方、図２は、オーディオ信号を一般的に説明する説明図である。オーディオ信号を理論的に取り扱うとき、一般的には、オーディオ信号は、連続信号Ｓ（ｔ）として表現される。図２Ａは連続信号Ｓ（ｔ）を示し、図２Ｂはサンプリング間隔Δｔのインパルス列を示し、図２Ｃは連続信号Ｓ（ｔ）がサンプリング間隔Δｔで標本化されかつ量子化されたデータｓ（ｂΔｔ）を示す図である（ただし、ｂ＝正の整数）。例えば、図２Ａに示すように、連続信号Ｓ（ｔ）は、時間ｔの軸でも、振幅Ｓの軸でも連続である。標本化は、連続信号Ｓ（ｔ）から時間的に離散的な信号を得ることを目的とする。これは、連続信号Ｓ（ｔ）を離散的な離散時刻ｂΔｔにおけるデータｓ（ｂΔｔ）で表現しようとするものである。理論的にはサンプリング間隔は可変でもよいが、一定間隔にするほうが実際的である。標本化及び量子化操作は、サンプリング間隔をΔｔとすると、図２Ｃに示すように、連続信号Ｓ（ｔ）をサンプリング間隔Δｔのインパルス列（図２Ｂ）で打ち抜き、それらを量子化することにより行われる。尚、以後の説明においては、量子化されたデータｓ（ｂΔｔ）のことを「標本データ」と呼ぶ。

　仮想音源１０１の移動を考慮しない演算モデルの内容は次の通りである。本演算モデルでは、以下に示す数式（１）から（４）を用いて、スピーカアレイ１０３に与えるオーディオ信号を生成する。

　本演算モデルでは、スピーカアレイ１０３に含まれるｍ番目のスピーカ（以下、「スピーカ１０３＿ｍ」と呼ぶ。）に与えるオーディオ信号の離散時刻ｔにおける標本データを生成する。ここでは、図１に示したとおり、仮想音源１０１の数はＮであり、スピーカアレイ１０３を構成するスピーカの台数はＭであるとする。

　但し、
　　ｑ_n（ｔ）：Ｎ個の仮想音源１０１の内のｎ番目の仮想音源（以下、「仮想音源１０１＿ｎ」と呼ぶ。）から放射されて、スピーカ１０３＿ｍに到達した音波の離散時刻ｔにおける標本データ
　　ｌ_m（ｔ）：スピーカ１０３＿ｍに与えるオーディオ信号の離散時刻ｔにおける標本データ

　但し、
　　Ｇ_n：仮想音源１０１＿ｎに対する利得係数
　　ｓ_n（ｔ）：仮想音源１０１＿ｎに与えるオーディオ信号の離散時刻ｔにおける標本データ
　　τ_mn：仮想音源１０１＿ｎの位置及びスピーカ１０３＿ｍの位置の間の距離に起因する音波伝播時間の分のサンプル数

　但し、
　　ｗ：重み定数
　　ｒ_n：仮想音源１０１＿ｎの位置ベクトル（固定値）
　　ｒ_m：スピーカ１０３＿ｍの位置ベクトル（固定値）

　ここで、フロア記号とは、「与えられた値を超えない整数のうち、最大のもの」を示す。

　数式（３）及び（４）からわかるように、本演算モデルにおいては、仮想音源１０１＿ｎに対する利得係数Ｇ_n は、仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離の平方根に反比例する。これは、スピーカ１０３＿ｍの集合を線音源としてモデル化しているからである。一方、音波伝播時間τ_mnは、仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離に比例する。

　数式（１）から（４）は、仮想音源１０１＿ｎが移動せずに、ある位置に静止している状態を前提としている。しかし、現実世界においては、人は歩きながら会話を行い、自動車はエンジン音を鳴らして走行する。つまり、現実世界では音源は静止している場合もあれば、移動する場合もある。したがって、そのような場合に対処するため、音源が移動する場合を考慮した新たな演算モデル（実施の形態１に係る演算モデル）を導入する。以下、新たな演算モデルについて説明する。

　仮想音源１０１＿ｎが移動する場合を考慮すると、数式（２）から（４）は、以下に示す数式（５）から（７）に置き換えられる。

　但し、
　　Ｇ_n,t：離散時刻ｔにおける仮想音源１０１＿ｎに対する利得係数
　　τ_mn,t：離散時刻ｔにおける仮想音源１０１＿ｎ及びスピーカ１０３＿ｍの間の距離に起因する音波伝播時間の分のサンプル数

　但し、
　　ｒ_n,t：離散時刻ｔにおける仮想音源１０１＿ｎの位置ベクトル

　仮想音源１０１＿ｎは移動しているため、数式（５）から（７）からわかるように、仮想音源１０１＿ｎに対する利得係数、仮想音源１０１＿ｎの位置及び音波伝播時間はいずれも離散時刻ｔに応じて変動する。

　オーディオデータはセグメント単位で信号処理されるのが一般的である。「セグメント」とは、オーディオデータの処理単位であり「フレーム」とも呼ばれる。１セグメントは、例えば、２５６個の標本データ又は５１２個の標本データから構成される。よって数式（１）のｌ_m（ｔ）（スピーカ１０３＿ｍに与えるオーディオ信号の離散時刻ｔにおける標本データ）は、セグメント単位で算出される。そこで、本演算モデルでは、離散時刻ｔにおいて算出されるスピーカ１０３＿ｍに与えるオーディオ信号を形成するオーディオデータのセグメントをベクトルとし、Ｌ_m,tとする。その場合、Ｌ_m,tは、離散時刻ｔ－ａ＋１から離散時刻ｔまでの１セグメント内に含まれるａ個の標本データ（例えば、２５６個、５１２個等の標本データ）から構成されるベクトルデータであり、数式（８）で表される。

　オーディオデータがセグメント単位で処理されることに伴いｒ_n,tもセグメント毎に求められるのが実際的である。ただし、ｒ_nの更新の頻度は必ずしもセグメント単位と一致していなくてもよい。そして、離散時刻ｔ₀における仮想音源位置ｒ_n,t0及び離散時刻（ｔ₀－ａ）における仮想音源位置ｒ_n,t0-aを比較することにより、仮想音源位置ｒ_n,t0は、離散時刻（ｔ₀－ａ）から離散時刻ｔ₀の間に仮想音源１０１＿ｎがスピーカ１０３＿ｍから移動した距離だけ変化したことになる。ここで、仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動（仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して離隔）する場合及び近づく方向に移動（仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して接近）する場合を説明する。

　Ｇ_n,t及びτ_mn,tもまた、離散時刻(ｔ₀－ａ)から離散時刻ｔ₀の間に仮想音源１０１＿ｎが移動した距離に応じて変動する。以下に示す数式（９）及び（１０）は、離散時刻(ｔ₀－ａ)から離散時刻ｔ₀の間に仮想音源１０１＿ｎが移動した距離に応じて変動する利得係数の変動量及び音波伝播時間分のサンプル数の変動量を表す。例えば、ΔＧ_n,t0は、離散時刻ｔ₀における利得係数の変動量を表し、Δτ_mn,t0は、離散時刻ｔ₀における音波伝播時間分のサンプル数の、離散時刻(ｔ₀－ａ)における音波伝播時間分のサンプル数からの変動量（「時間幅」とも呼ぶ）を表す。これらの変動量は、仮想音源が離散時刻(ｔ₀－ａ)から離散時刻ｔ₀にかけて移動した場合、仮想音源１０１＿ｎが移動する方向に応じて正の値又は負の値のいずれか一方をとる。

　仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動又は近づく方向に移動することによって、ΔＧ_n,t0及び時間幅Δτ_mn,t0が生じるため、離散時刻ｔ₀において波形の歪みが発生する。ここで、「波形の歪み」が発生した状態とは、オーディオ信号波形が連続的に変化するのではなく、受聴者がその部分をノイズとして知覚するほど不連続に変化した状態を意味する。

　例えば、仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動することによって音波伝播時間が増加した場合、すなわち、時間幅Δτ_mn,t0が正である場合、離散時刻ｔ₀ を起点とするセグメントの最初の部分に、その１つ前のセグメント内の最後の部分のオーディオデータが時間幅Δτ_mn,t0だけ再度現れる。以下、離散時刻ｔ₀を起点とするセグメントの１つ前のセグメントを第１のセグメントと呼び、離散時刻ｔ₀を起点とするセグメントを第２のセグメントと呼ぶ。このようにオーディオデータが繰り返し現れる結果、波形に歪みが生ずる。

　一方、仮想音源１０１＿ｎがスピーカ１０３＿ｍに近づく方向に移動することによって音波伝播時間が減少した場合、すなわち、時間幅Δτ_mn,t0が負である場合、第１のセグメント内の最後の部分のオーディオデータ及び第２のセグメント内の最初の部分のオーディオデータの間に時間幅Δτ_mn,t0だけ欠落が生じる。その結果、オーディオ信号波形に不連続点が生じる。これもまた波形の歪みである。以下、波形の歪みの具体例を、図面を用いて説明する。

　図３は、オーディオデータにより形成されるオーディオ信号波形の一部の説明図である。図３に示すオーディオデータは、標本データ３０１から標本データ３２８の計２８個の標本データによって表されるとする。以下、図３に示すオーディオ信号を基にして、仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動する場合及び近づく方向に移動する場合において波形の歪みが発生する理由を説明する。

　まず、仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動することによって仮想音源１０１＿ｎの位置およびスピーカ１０３＿ｍの位置の間の距離に対する音波伝播時間が増加する場合、すなわち、時間幅Δτ_mn,t0が正の場合について説明する。

　図４は、第１のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第１のセグメントの最後の部分には、標本データ３０１から３１２が含まれる。図５は、第２のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第２のセグメントの最初の部分には、標本データ３０８’から３１８が含まれる。本例では、仮想音源１０１＿ｎがスピーカ１０３＿ｍから遠ざかる方向に移動することによって、第２のセグメントにおける仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離に対する音波伝播時間分のサンプル数が第１のセグメントにおける仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離に対する音波伝播時間分のサンプル数よりも例えば５（＝Δτ_mn,t）点の分だけ増加したとする。音波伝播時間が増加した結果、図４に示す第１のセグメント内の最後の部分の標本データ３０８、３０９、３１０、３１１、３１２が、図５に示す第２のセグメント内の最初の部分に、標本データ３０８’、３０９’、３１０’、３１１’、３１２’として再び現れる。そのため、図４に示すオーディオデータにより形成されるオーディオ信号波形及び図５に示すオーディオデータにより形成されるオーディオ信号波形が結合されると結合部分に波形の歪みが発生する。図６は、図４に示すオーディオデータにより形成されるオーディオ信号波形及び図５に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図６から、標本データ３０８’の近傍においてオーディオデータが不連続となり、波形の歪みが発生していることがわかる。この波形の歪みは、ノイズとして受聴者に知覚される。

　これとは逆に、仮想音源１０１＿ｎがスピーカ１０３＿ｍに近づく方向に移動することによって音波伝播時間が減少する場合、すなわち、時間幅Δτ_mn,t0が負の場合について説明する。図７は、第１のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第１のセグメントの最後の部分には、標本データ３０１から３１２が含まれる。その内容は、図５に示したものと同じである。図８は、第２のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第２のセグメントの最初の部分には、標本データ３１７から３２８が含まれる。本例では、仮想音源１０１＿ｎがスピーカ１０３＿ｍに近づく方向に移動することによって、第２のセグメントにおける仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離に対する音波伝播時間分のサンプル数が第１のセグメントにおける仮想音源１０１＿ｎからスピーカ１０３＿ｍまでの距離に対する音波伝播時間分のサンプル数よりも例えば４（＝Δτ_mn,t）点の分だけ減少したとする。

　図９は、第１のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形及び第２のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形の間に４点分の欠落部分が発生している状態を示す説明図である。音波伝播時間が減少した結果、図９に示すように、第１のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形及び第２のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形の間に４点分（標本データ３１３から３１６）の欠落部分が生じる。そのため、図７に示すオーディオデータにより形成されるオーディオ信号波形及び図８に示すオーディオデータにより形成されるオーディオ信号波形を結合すると結合部分に波形の歪みが発生する。図１０は、図７に示すオーディオデータにより形成されるオーディオ信号波形及び図８に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図１０からわかるように、標本データ３１７の近傍においてオーディオデータが不連続となり、波形の歪みが発生している。この波形の歪みも同様にノイズとして受聴者に知覚される。

　以上、仮想音源１０１＿ｎが移動することによって波形の歪みが発生する理由を説明した。次いで、オーディオデータを補正することによって波形の歪みを解消する実施の形態1を、図面を参照して具体的に説明する。

　図１１は、実施の形態１に係るオーディオデータ処理部を備えるオーディオ装置の構成例を示すブロック図である。オーディオ装置１１００は、実施の形態１に係るオーディオデータ処理部１１０１、コンテンツ情報分離部１１０２、オーディオデータ格納部１１０３、仮想音源位置データ格納部１１０４、スピーカ位置データ入力部１１０５、スピーカ位置データ格納部１１０６、Ｄ／Ａ変換部１１０７、Ｍ個の増幅器１１０８＿１から１１０８＿Ｍ、再生部１１０９及び通信インタフェース部１１１０を備える。オーディオ装置１１００は、上記各部を統括的に制御するＣＰＵ(Central Processing Unit)１１１１、ＣＰＵ１１１１が実行するコンピュータプログラムを格納するＲＯＭ(Read-Only Memory)１１１２及びコンピュータプログラムの実行中に処理するデータや変数等を格納するＲＡＭ(Random-Access Memory)１１１３を更に備える。オーディオ装置１１００は、スピーカアレイ１０３に補正後のオーディオデータに対応するオーディオ信号を出力する。

　再生部１１０９は、ディジタルコンテンツ（映画、コンピュータゲーム、ミュージックビデオ等）を格納する記録媒体１１１７から当該ディジタルコンテンツを読み出し、コンテンツ情報分離部１１０２に出力する。記録媒体１１１７は、例えば、ＣＤ－Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、ブルーレイ・ディスク(Blu-ray Disk、登録商標)である。ディジタルコンテンツには、仮想音源１０１＿１から１０１＿Ｎの各々に対応する複数のオーディオデータのファイル及び仮想音源１０１＿１から１０１＿Ｎに対応する仮想音源位置データが関連付けて記録されている。

　通信インタフェース部１１１０は、インターネット１１１４等の通信ネットワークを介してディジタルコンテンツを配信するサーバ１１１５からディジタルコンテンツを取得し、コンテンツ情報分離部１１０２に出力する。また、通信インタフェース部１１１０は、アンテナ又はチューナ等の機器（図示せず）を備え、放送局１１１６が放送する番組を受信し、それをディジタルコンテンツとしてコンテンツ情報分離部１１０２に出力する。

　コンテンツ情報分離部１１０２は、再生部１１０９又は通信インタフェース部１１１０からディジタルコンテンツを取得し、当該ディジタルコンテンツを解析し、当該ディジタルコンテンツからオーディオデータ及び仮想音源位置データを分離する。次いで、コンテンツ情報分離部１１０２は、分離したオーディオデータ及び仮想音源位置データの各々をオーディオデータ格納部１１０３及び仮想音源位置データ格納部１１０４に出力する。仮想音源位置データとは、例えば、ディジタルコンテンツがミュージックビデオである場合、当該ビデオ画面に映し出されるシンガーや複数の楽器の相対的位置に対応する位置データである。仮想音源位置データは、オーディオデータと共にディジタルコンテンツ内に格納されている。

　オーディオデータ格納部１１０３は、コンテンツ情報分離部１１０２から取得したオーディオデータを格納し、仮想音源位置データ格納部１１０４は、コンテンツ情報分離部１１０２から取得した仮想音源位置データを格納する。スピーカ位置データ格納部１１０６は、スピーカアレイ１０３の各々のスピーカ１０３＿１から１０３＿Ｍが配置されている音響空間内の位置を示すスピーカ位置データをスピーカ位置データ入力部１１０５から取得し、格納する。スピーカ位置データは、スピーカアレイ１０３を構成するスピーカ１０３＿１から１０３＿Ｍの各々の位置に基づいてユーザによって設定される情報である。当該情報は、例えば、音響空間内のオーディオ装置１１００に対して固定されている１平面内（Ｘ－Ｙ座標系）における座標によって表される。ユーザは、スピーカ位置データ入力部１１０５を操作してスピーカ位置データをスピーカ位置データ格納部１１０６に格納する。実装上の制約からスピーカアレイ１０３の配置が予め決められている場合には、スピーカ位置データは固定値として設定される。一方、ユーザがスピーカアレイ１０３の配置をある程度自由に決めることができる場合には、スピーカ位置データは可変値として設定される。

　オーディオデータ処理部１１０１は、仮想音源１０１＿１から１０１＿Ｎの各々に対応するオーディオファイルをオーディオデータ格納部１１０３から読み出す。また、オーディオデータ処理部１１０１は、仮想音源１０１＿１から１０１＿Ｎに対応する仮想音源位置データを仮想音源位置データ格納部１１０４から読み出す。さらに、オーディオデータ処理部１１０１は、スピーカアレイ１０３のスピーカ１０３＿１から１０３＿Ｍに対応するスピーカ位置データをスピーカ位置データ格納部１１０６から読み出す。オーディオデータ処理部１１０１は、読み出した仮想音源位置データ及びスピーカ位置データに基づいて、読み出したオーディオデータに対して実施の形態に係わる処理を行う。すなわち、オーディオデータ処理部１１０１は、仮想音源１０１＿１から１０１＿Ｎの移動を考慮した上述の演算モデルに基づいた演算処理を行うことによってスピーカ１０３＿１から１０３＿Ｍに与えるオーディオ信号を形成するオーディオデータを生成する。オーディオデータ処理部１１０１が生成したオーディオデータは、Ｄ／Ａ変換部１１０７によりオーディオ信号として出力され、増幅部１１０８＿１から１１０８＿Ｍを介して、スピーカ１０３＿１から１０３＿Ｍに出力される。スピーカアレイ１０３は、このオーディオ信号に基づいて音を生成し、音響空間に放射する。

　図１２は、実施の形態１に係るオーディオデータ処理部１１０１の内部構成例を示すブロック図である。オーディオデータ処理部１１０１は、距離データ算出部１２０１、音波伝播時間データ算出部１２０２、音波伝播時間データバッファ１２０３、利得係数データ算出部１２０４、利得係数データバッファ１２０５、入力オーディオデータバッファ１２０６、出力オーディオデータ生成部１２０７、出力オーディオデータ重畳部１２０８及び出力オーディオデータバッファ１２０９を備える。距離データ算出部１２０１は、仮想音源位置データ格納部１１０４及びスピーカ位置データ格納部１１０６に接続される。入力オーディオデータバッファ１２０６は、オーディオデータ格納部１１０３に接続される。出力オーディオデータ重畳部１２０８は、Ｄ／Ａ変換部１１０７に接続される。出力オーディオデータバッファ１２０９は、出力オーディオデータ生成部１２０７に接続される。

　距離データ算出部１２０１は、仮想音源位置データ格納部１１０４及びスピーカ位置データ格納部１１０６から仮想音源位置データとスピーカ位置データとを取得し、それらに基づき仮想音源１０１＿ｎと各スピーカ１０３＿１から１０３＿Ｍの間の距離データ（｜ｒ_n,t－ｒ_m｜）を算出し、音波伝播時間データ算出部１２０２及び利得係数データ算出部１２０４に出力する。音波伝播時間データ算出部１２０２は、距離データ算出部１２０１から取得した距離データ（｜ｒ_n,t－ｒ_m｜）に基づき、音波伝播時間データ（音波伝播時間の分のサンプル数）τ_mn,tを算出する（数式（７）参照）。音波伝播時間データバッファ１２０３は、音波伝播時間データ算出部１２０２から音波伝播時間データτ_mn,tを取得し、その内の複数セグメント分の音波伝播時間データを一時的に格納する。利得係数データ算出部１２０４は、距離データ算出部１２０１から取得した距離データ（｜ｒ_n,t－ｒ_m｜)に基づき、利得係数データＧ_n,tを算出する（数式（６）参照）。

　入力オーディオデータバッファ１２０６は、オーディオデータ格納部１１０３から各仮想音源１０１＿ｎに対応する入力オーディオデータを取得し、その内の複数セグメント分の入力オーディオデータを一時的に格納する。１セグメントは、例えば、２５６個又は５１２個のオーディオデータの標本データから構成される。出力オーディオデータ生成部１２０７は、音波伝播時間データ算出部１２０３が算出した音波伝播時間データτ_mn,t及び利得係数データ算出部１２０５が算出した利得係数データＧ_n,tを用いて、入力オーディオデータバッファ１２０６に一時的に格納されている入力オーディオデータに対応する出力オーディオデータを生成する。出力オーディオデータ重畳部１２０８は、出力オーディオデータ生成部１２０７が生成した出力オーディオデータを仮想音源１０１＿ｎの数に応じて合成する。

　図１３は、入力オーディオデータバッファ１２０６の一構成例の説明図である。入力オーディオデータバッファ１２０６は、ＦＩＦＯ(First-In,First-Out：先入れ先出し)方式でデータを一時的に格納し、古いデータは捨てていく。バッファサイズは通常、仮想音源とスピーカ間の距離の最大値のサンプル数幅に基づいて設定すればよい。例えばその最大値を仮に３４メートルとする場合、サンプリング周波数が４４１００ヘルツ、音速が３４０メートルとして、４４１００×３４÷３４０＝４４１０サンプル以上用意しておけばよい。入力オーディオデータバッファ１２０６は、自己のバッファサイズに応じてオーディオデータ格納部１１０３から入力オーディオデータを読み出し、格納後、出力オーディオデータ生成部１２０７に出力する。すなわち、古いデータから順に出力オーディオデータ生成部１２０７に出力される訳ではない。図１３において四角のブロックの各々は標本データ格納領域を表し、当該標本データ格納領域には、セグメント内の１標本データが一時的に格納される。図１３によれば、例えば、標本データ格納領域１３００＿１には最新のセグメントの先頭部分の１標本データが一時的に格納され、標本データ格納領域１３００＿１＋ａ－１には最新のセグメントの最後の部分の１標本データ、つまり最新の１標本データが一時的に格納される。ここで、ａは、セグメント長であり、１セグメントに含まれる標本データの個数である。

　図１４は、音波伝播時間データバッファ１２０３の一構成例の説明図である。音波伝播時間データバッファ１２０３もまた、ＦＩＦＯ方式でデータの入出力を行う一時格納部である。図１４において四角のブロックの各々は音波伝播時間データ格納領域を表し、その音波伝播時間データ格納領域には、各セグメントの音波伝播時間データが一時的に格納される。また、図１４は、音波伝播時間データバッファ１２０３に２セグメント分の音波伝播時間データが一時的に格納されることを示す。さらに、図１４は、音波伝播時間データバッファ１２０３の音波伝播時間データ格納領域１２０３＿１には最も古い音波伝播時間データが一時的に格納され、音波伝播時間データ格納領域１２０３＿２には最も新しい音波伝播時間データが一時的に格納されることを示す。

　図１２から図１４を参照して、実施の形態に係る動作を説明する。入力オーディオデータバッファ１２０６は、離散時刻ｔ₁ から離散時刻（ｔ₁＋ａ－１）までの１セグメントの入力オーディオデータをオーディオデータ格納部１１０３から読み出し、一時的に格納する。図１３を参照して説明すると、標本データ格納領域１３００＿１から標本データ格納領域１３００＿１＋ａ－１には、離散時刻ｔ₁から離散時刻（ｔ₁＋a－１）までの標本データが順番に格納される。また、標本データ格納領域１３００＿１から１３００＿１＋ａ－１以外の標本データ格納領域には、離散時刻ｔ₁以前の複数セグメント分の入力オーディオデータが既に格納されている。また、出力オーディオデータバッファ１２０９には１つ前のセグメントに対応する出力オーディオデータの離散時刻（ｔ₁－１）おける標本データが既に格納されている。また、音波伝播時間データバッファ１２０３には、同じく１つ前のセグメントの音波伝播時間データが既に格納されている。

　距離データ算出部１２０１は、離散時刻ｔ₁における、１番目の仮想音源（以下、「仮想音源１０１＿１」と呼ぶ。）及び１番目のスピーカ（以下、「スピーカ１０３＿１」と呼ぶ。）の距離を示す距離データ（｜ｒ_1,t1－ｒ₁｜）を算出し、音波伝播時間データ算出部１２０２及び利得係数データ算出部１２０４に出力する。

　音波伝播時間データ算出部１２０２は、数式（７）を用いて、距離データ算出部１２０１から取得した距離データ（｜ｒ_1,t1－ｒ₁｜）に基づいて音波伝播時間データτ_11,t1を算出し、音波伝播時間データバッファ１２０３に出力する。

　音波伝播時間データバッファ１２０３は、音波伝播時間データ算出部１２０２から取得した音波伝播時間データτ_11,t1を格納する。図１４を参照すると、データ格納領域１２０３＿２に既に格納されていたデータは１２０３＿１に移動された後、音波伝播時間データτ_11,t1は、データ格納領域１２０３＿２に格納される。よってこの時点で、音波伝播時間データバッファ１２０３＿１には、１つ前のセグメントの音波伝播時間データが格納されている。尚、音波伝播時間データバッファは、スピーカ数×時刻ｔ₁時点で存在する仮想音源の数だけ用意されている。すなわち、音波伝播時間データバッファは、少なくともＭ×Ｎ個備えられており、それぞれ過去１セグメント分の音波伝播時間データと現在の音波伝播時間データが格納されている。

　利得係数データ算出部１２０４は、数式（６）を用いて、距離データ算出部１２０１から取得した距離データ（｜ｒ_1,t1－ｒ₁｜）に基づいて利得係数データＧ_1,t1を算出する。

　出力オーディオデータ生成部１２０７は、音波伝播時間データバッファ１２０３に格納されている新しい方の音波伝播時間データ及び利得係数データ算出部１２０４が算出した利得係数データを用いて出力オーディオデータを生成する。

　離散時刻（ｔ₁－ａ）から離散時刻（ｔ₁－１）の間に仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して離隔する場合、図６に示すような波形の歪みが発生することは既に述べた通りである。つまり、数式（７）に示したように、音波伝播時間データτ_mn,t1-aよりも音波伝播時間データτ_mn,t1の方が大きくなるため、離散時刻ｔ₁を起点とするセグメント内の最初の部分は、離散時刻（ｔ₁－ａ）を起点とするセグメント内の最後の部分の繰り返しとなる。すなわち、離散時刻ｔ₁を起点とするセグメント内の最初の部分に、離散時刻（ｔ₁－ａ）を起点とするセグメント内の最後の部分が、音波伝播時間データの差である時間幅Δτ_mn,t1（＝τ_mn,t1－τ_mn,t1-a）だけ現れる。このため、離散時刻ｔ₁の近傍においてオーディオデータの波形が不連続となる。これが波形の歪みであり、ノイズの原因となる。ここで、本例では、音波伝播時間データの時間幅Δτ_mn,t1を５とする。前述の通り、図６は、補正前の波形の一例の説明図である。離散時刻ｔ₁から離散時刻（ｔ₁＋Δτ_mn,t1）までの補正前の波形は、標本データ３０８’、３０９’、３１０’、３１１’、３１２’を連結した波形である。この波形は、１つ前のセグメント内の標本データ３０８、３０９、３１０、３１１、３１２を連結した波形と同じである。

　まず、補正区間幅を時間幅Δτ_mn,t1と同じく５とする。出力オーディオデータバッファ１２０９には、１つ前のセグメントの最後の離散時刻（ｔ₁－１）の標本データ３１２が既に格納されている。実施の形態１では、図６に示した波形の歪みをなくすために、離散時刻（ｔ₁－１）における標本データ３１２（図６参照）、すなわち出力オーディオデータバッファ１２０９に格納されている標本データ３１２と、離散時刻（ｔ₁＋Δτ_mn,t1）における標本データ３１３との間の５個（Δτ_mn,t1＝５)の標本データに対して関数を用いた補間を行う。ここでは、一例として線形補間を用いる。線形補間とは、数字と数字の間が直線的であると考えて、近似値を算出する手法である。そこで、図６において、標本データ３１２から標本データ３１３までが直線的であると考える。図１５は、補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。図１５から、補正後のオーディオ信号波形においては標本データ３１２から標本データ３１３までが線形補間により直線化（標本データ１５００から標本データ１５０４）され、それによって図６に示した波形の歪みが解消していることがわかる。

　離散時刻ｔ1 の近傍にある波形の歪みを補正するためには、離散時刻（ｔ₁－ａ）を起点とするセグメントの音波伝播時間及び離散時刻ｔ₁を起点とするセグメントの音波伝播時間が算出されていればよい。すなわち、現在のセグメントの起点の近傍にあるオーディオデータに歪みを補正するために、その次のセグメントである離散時刻（ｔ₁＋ａ）を起点とするセグメントのオーディオデータの音波伝播時間を算出しておく必要がない。したがって、仮想音源１０１＿ｎがスピーカ１０３＿ｍから離隔する場合、１セグメント分の遅れが発生しない。よって、仮想音源位置をリアルタイムに変更する場合であっても、遅延なくオーディオデータを補正できる。

　次に、離散時刻（ｔ₁ －ａ）から離散時刻ｔ₁ の間に仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して接近する場合、音波伝播時間データτ_mn,t1-aは、音波伝播時間データτ_mn,t1よりも小さくなる。したがって、(Δτ_mn,t1＝τ_mn,t1-a－τ_mn,t1）であることから、時間幅Δτ_mn,t1は負となる。この場合、離散時刻（ｔ₁－ａ）を起点とするセグメント及び離散時刻ｔ₁を起点とするセグメントの間でオーディオデータが欠落する。図１０は、図７に示すオーディオデータにより形成されるオーディオ信号波形及び図８に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図１０からわかるように、標本データ３１７の近傍においてオーディオデータが急激に変化し、その結果、波形の歪みが発生している。この波形の歪みも同様にノイズとして受聴者に知覚される。

　出力オーディオデータバッファ１２０９には、１つ前のセグメントの最後の離散時刻（ｔ₁－１）の標本データ３１２が格納されている。実施の形態１では、図１０に示した波形の歪みをなくすために、離散時刻（ｔ₁－１）における標本データ３１７と離散時刻（ｔ₁＋Δτ_mn,t1）における標本データ３２１までの間の４個（Δτ_mn,t1＝４）の標本データに対して関数を用いた補間を行う。ここでは、一例として線形補間を用いる。そこで、図１０において、標本データ３１２から標本データ３２１までが直線的であると考える。図１６は、補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。図１６から、補正後のオーディオ信号波形においては標本データ３１２から標本データ３２１までが線形補間により直線化（標本データ１６００から標本データ１６０３）され、それによって図１０に示した波形の歪みが解消していることがわかる。仮想音源１０１＿ｎがスピーカ１０３＿ｍから離隔する場合と同様に、離散時刻ｔ₁ の近傍にある波形の歪みを補正するためには、離散時刻（ｔ₁－ａ）を起点とするセグメントの音波伝播時間及び離散時刻ｔ₁を起点とするセグメントの音波伝播時間が算出されていればよい。すなわち、現在のセグメントの起点の近傍にあるオーディオデータに歪みを補正するために、その次のセグメントである離散時刻（ｔ₁＋ａ）を起点とするセグメントのオーディオデータの音波伝播時間を算出しておく必要がない。したがって、仮想音源１０１＿ｎがスピーカ１０３＿ｍから離隔する場合、１セグメント分の遅れが発生しない。よって、仮想音源位置をリアルタイムに変更する場合であっても、オーディオデータを遅延なく補正できる。

　図１７は、実施の形態１に係るデータ処理の流れを示すフローチャートである。本データ処理は、ＣＰＵ１１１１による制御のもと、オーディオデータ処理部１１０１により実行される。オーディオデータ処理部１１０１は、まず、仮想音源１０１＿ｎの番号ｎに１を代入し、スピーカ１０３＿ｍの番号ｍに１を代入する。すなわち、オーディオデータ処理部１１０１は、１番目の仮想音源１０１＿１及び１番目のスピーカ１０３＿１を指定する（Ｓ１０）。オーディオデータ処理部１１０１は、ｎ番目の仮想音源１０１＿ｎに対応するオーディオファイルをオーディオデータ格納部１１０３より入力する（Ｓ１１）。さらに、オーディオデータ処理部１１０１は、仮想音源１０１＿ｎに対応する仮想音源位置データ及びスピーカ位置データの各々を仮想音源位置データ格納部１１０４及びスピーカ位置データ格納部１１０６から入力する（Ｓ１２）。オーディオデータ処理部１１０１は、入力した仮想音源位置データ及びスピーカ位置データに基づいて、相前後する時点での仮想音源１０１＿ｎ及びスピーカ１０３＿ｍの第１及び第２の距離データ（｜ｒ_n,t－ｒ_m｜）を算出する（Ｓ１３）。オーディオデータ処理部１１０１は、算出した第１及び第２の距離データ（｜ｒ_n,t－ｒ_m｜）に基づき、その距離に対する音波伝播時間データτ_mn,tを算出する（Ｓ１４）。オーディオデータ処理部１１０１は、音波伝播時間データτ_mn,t及び利得係数データＧ_n,tをそれぞれ音波伝播時間データバッファ１２０３と利得係数データバッファ１２０５に格納する。次いで、オーディオデータ処理部１１０１は、第１及び第２の距離データが異なるか否かを判定する（Ｓ１５）。尚、音波伝播時間データバッファ１２０３に格納されている１つ前のセグメントに対応する音波伝播時間τ_mn,t-aと今回格納した音波伝播時間データτ_mn,tが異なるか否かを判定してもよい。すなわち、本ステップでは、オーディオデータ処理部１１０１は、仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して移動しているか静止しているかを判定する。

　ステップＳ１５にて第１及び第２の距離データが異なると判定した場合（Ｓ１５：ＹＥＳ）、すなわち、仮想音源１０１＿ｎがスピーカ１０３＿ｍに対して移動したと判定した場合、オーディオデータ処理部１１０１は、ステップＳ１６の処理に進む。これに対して、ステップＳ１５にて第１及び第２の距離データが同じと判定した場合（Ｓ１５：ＮＯ）、すなわち、仮想音源１０１＿ｎが静止していると判定した場合、オーディオデータ処理部１１０１は、ステップＳ１９の処理に進む。オーディオデータ処理部１１０１は、ステップＳ１５の判定結果に基づき、仮想音源のスピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し（Ｓ１６）、波形の歪みの部分に対して上述した線形補間を行うことによって当該波形を補正する（Ｓ１７）。

　次いでオーディオデータ処理部１１０１は、仮想音源１０１＿ｎに対する利得制御を行う（Ｓ１８）。次いでオーディオデータ処理部１１０１は、仮想音源１０１＿ｎの番号ｎに１を加算し（Ｓ１９）、仮想音源１０１＿ｎの番号ｎが最大値Ｎであるかどうか判定する（Ｓ２０）。ステップＳ２０で判定した結果、仮想音源１０１＿ｎの番号ｎが最大値Ｎであると判定した場合（Ｓ２０：ＹＥＳ）、オーディオデータの合成を行う（Ｓ２１）。一方、ステップＳ２０で判定した結果、仮想音源１０１＿ｎの番号が最大値Ｎでないと判定した場合（Ｓ２０：ＮＯ）、オーディオデータ処理部１１０１は、ステップＳ１１の処理に戻り、続いて、２番目の仮想音源１０１＿２と１番目のスピーカ１０３＿１に対して、ステップＳ１１からステップＳ１８の処理を行う。

　ステップＳ２１でオーディオデータの合成を行った後、オーディオデータ処理部１１０１は、仮想音源１０１＿ｎの番号ｎに１を代入し（Ｓ２２）、スピーカ１０３＿ｍの番号ｍに１を加算する（Ｓ２３）。次いで、オーディオデータ処理部１１０１は、スピーカ１０３＿ｍの番号ｍが最大値Ｍであるかどうか判定し（Ｓ２４）、スピーカ１０３＿ｍの番号ｍが最大値Ｍであると判定した場合（Ｓ２４：ＹＥＳ）、処理を終了する。これに対して、スピーカ１０３＿ｍの番号ｍが最大値Ｍでないと判定した場合（Ｓ２４：ＮＯ）、ステップＳ１１の処理に戻る。

　実施の形態２
　図１８は、実施の形態２に係るオーディオ装置１１００の内部構成例を示すブロック図である。実施の形態２は、実施の形態１がオーディオ装置１１００内のＲＯＭ１１１２に記憶してあるプログラムを実行するのに対して、書き換え可能なＥＥＰＲＯＭ（ Electrically Erasable Programmable Read-Only Memory ）又は内部記憶装置２５に記憶されたプログラムを読み出して実行するようにしてある。オーディオ装置１１００は、ＥＥＰＲＯＭ２４、内部記憶装置２５及び記録媒体読込部２３を備える。ＣＰＵ１７は、記録媒体読込部２３に挿入されたＣＤ（ Compact Disk ）－ＲＯＭ又はＤＶＤ（Digital Versatile Disk ）－ＲＯＭ等の記録媒体２３０からプログラム２３１を読み込んでＥＥＰＲＯＭ２４又は内部記憶装置２５に記憶するようにしてある。ＣＰＵ１７は、ＥＥＰＲＯＭ２４又は内部記憶装置２５に記憶したプログラム２３１をＲＡＭ１８に読み出して実行する構成となっている。

　プログラム２３１は、記録媒体２３０から読み出してＥＥＰＲＯＭ２４又は内部記憶装置２５に記憶される場合に限るものではなく、メモリカード等の外部メモリに記憶させても良い。この場合、ＣＰＵ１７に接続される図示しない外部メモリからプログラム２３１を読み出してＥＥＰＲＯＭ２４又は内部記憶装置２５に記憶させる。さらにＣＰＵ１７に接続された図示しない通信部と外部のコンピュータとの間で通信を確立し、プログラム２３１をＥＥＰＲＯＭ２４又は内部記憶装置２５へダウンロードしても良い。

　１０１　仮想音源
　１１００　オーディオ装置
　１１０１　オーディオデータ処理部
　１１０２　コンテンツ情報分離部
　１１０９　再生部
　１１１０　通信インタフェース部
　１１１５　サーバ
　１１１６　放送局

Claims

　移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置において、
　相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出する算出手段と、
　前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、
　前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段と
　を備えるオーディオデータ処理装置。
　前記オーディオデータは標本データを含み、
　前記特定手段は、前記仮想音源の前記スピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、
　前記補正手段は、特定された前記繰り返し部分及び欠落部分を、関数を用いた補間によって補正する請求項１記載のオーディオデータ処理装置。
　前記関数を用いた補間は、線形補間である請求項１又は２に記載のオーディオデータ処理装置。
　前記補正を行う部分は、前記第１及び第２の距離を音波が伝播する時間幅の差、又は、前記差に比例する時間幅である請求項１から３までのいずれか１項に記載のオーディオデータ処理装置。
　移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を用い、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオ装置において、
　前記オーディオデータ及び前記仮想音源の位置を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、
　前記ディジタルコンテンツ入力部が入力したディジタルコンテンツを解析し、該ディジタルコンテンツに含まれるオーディオデータ及び仮想音源の位置のデータを分離するコンテンツ情報分離部と、
　前記コンテンツ情報分離部が分離した仮想音源の位置のデータ及び前記スピーカの位置のデータに基づいて、前記コンテンツ情報分離部が分離したオーディデータを補正するオーディオデータ処理部と、
　補正後のオーディオデータをオーディオ信号に変換してスピーカへ出力するオーディオ信号生成部と
　を備え、
　前記オーディオデータ処理部は、
　相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出する算出手段と、
　前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、
　前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段と
　を備えるオーディオ装置。
　前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバ又はディジタルコンテンツを放送する放送局からディジタルコンテンツを入力する請求項５に記載のオーディオ装置。
　移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及びオーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置におけるオーディオデータ処理方法において、
　相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出するステップと、
　前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、
　前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップと
　を含むオーディオデータ処理方法。
　オーディオデータに対応するオーディオ信号を入力するスピーカが放射する音によって形成される仮想音源の位置及び該スピーカの位置に基づいて、移動する音源が発する音に対応する前記オーディオデータを補正させるプログラムにおいて、
　コンピュータに、
　相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第１の距離及び第２の距離を算出するステップと、
　前記第１の距離及び第２の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、
　前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップと
　を実行させるプログラム。
　請求項８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。