以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。
<<第1実施形態>>
本発明の第1実施形態を説明する。図1は、本発明の第1実施形態に係る撮像装置1の全体的構成を表すブロック図である。撮像装置1は、符号11〜18によって参照される各部位を備える。撮像装置1は、静止画像及び動画像を撮影可能なデジタルビデオカメラである。尚、撮像装置1と異なる再生装置に表示部16及び/又はスピーカ17が設けられている、と解釈することも可能である。
撮像部11は、撮像素子を用いて被写体の撮影を行い、映像信号処理部12と協働して被写体の画像の映像信号を取得する。具体的には、撮像部11は、図示されない光学系、絞り、及び、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどから成る撮像素子を有する。この撮像素子は、光学系及び絞りを介して入射した被写体を表す光学像を光電変換し、該光電変換によって得られたアナログの電気信号を出力する。図示されないAFE(Analog Front End)は、撮像素子から出力されたアナログ信号を増幅してデジタル信号に変換する。
得られたデジタル信号は映像信号処理部12に送られ、映像信号処理部12は該デジタル信号から被写体の画像の映像信号を生成する。尚、デジタル信号形式にて表現された映像信号を画像データとも呼ぶ。また、本明細書では、画像データを単に画像ということもある。映像信号処理部12は、被写体の画像の画像データに対して様々な画像処理(デモザイキング処理、エッジ強調処理、ノイズ低減処理、画像圧縮処理など)を行うことができる。
マイク部13は、1又は複数のマイクロホンから成り、撮像装置1の周辺に位置する音源からの音を収音して電気信号に変換する。得られた電気信号は、音響信号として音響信号処理部14に送られる。音響信号処理部14では、該音響信号に対して様々な音響信号処理を施すことができるが、詳細は後述する。
記録媒体15は、半導体メモリ、磁気ディスク等から成る不揮発性メモリであり、映像信号処理部12にて生成された映像信号及び音響信号処理部14にて生成された音響信号を記録することができる。表示部16は、液晶ディスプレイ等から成り、撮像部11の撮影によって得られた画像や、記録媒体15に記録されている画像などを表示する。スピーカ17は、音響信号処理部14にて生成された音響信号や記録媒体15に記録されている音響信号を音として再生出力する。
操作部18は、ユーザが撮像装置1に対して各種操作を行うための部位である。図2に示す如く、操作部18には、静止画像の撮影指示を行うためのシャッタボタン18a、動画像の撮影開始及び終了を指示するための録画ボタン18bが含まれる。主制御部19は、操作部18に対して成された操作内容に従いつつ、撮像装置1内の各部位の動作を統括的に制御する。
マイク部13を形成するマイクロホンの個数は1であっても良いし又は3以上であっても良いが、本実施形態では、図3に示す如く、マイク部13が2つのマイクロホン、即ち、マイクロホン13L及び13Rから形成される場合を想定する。図4は、マイクロホン13L及び13Rが設けられた撮像装置1の外観斜視図である。
マイクロホン13L及び13Rは、撮像装置1の筐体上の、互いに異なる位置に配置されている。撮像装置1の被写体に正対した撮影者から見て、左側よりにマイクロホン13Lが配置され、右側よりにマイクロホン13Rが配置されている。また、図4に示す如く、撮像装置1から撮像部11の撮影範囲に収まる被写体へと向かう方向を前方と定義し、その逆の方向を後方と定義する。マイクロホン13L及び13Rは、指向性を有さない無指向性マイクロホンである。但し、指向性を有するマイクロホンを、マイクロホン13L及び13Rとして採用することも可能である。
マイクロホン13Lは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。マイクロホン13Rは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン13L及び13Rの検出信号であるアナログ音響信号は、夫々、図示されないA/D変換器によってデジタル音響信号に変換される。
マイクロホン13Lを左チャンネルに対応させ、マイクロホン13Rを右チャンネルに対応させて考える。マイクロホン13Lの検出信号に基づく音響信号とマイクロホン13Rの検出信号に基づく音響信号を区別する場合、前者を特に左チャンネルの音響信号などと呼び、後者を特に右チャンネルの音響信号などと呼ぶ。マイクロホン13L及び/又は13Rの検出信号をデジタル変換することによって得たデジタル音響信号を原音響信号と呼ぶ。マイクロホン13L及び/又は13Rの検出信号をデジタル変換することによって得たデジタル音響信号に所定の信号処理(オートレベルコントロールによる信号レベル調整処理など)を施して得た音響信号を、原音響信号と捉えても良い。原音響信号は、時間軸上の信号であるとする。また、特に記述なき限り、本実施形態及び後述の他の実施形態における任意の音響信号は、時間軸上の音響信号(時間領域で表現された音響信号)であると解釈することができる。
ところで、撮像装置1では、動画像の撮影時のフレームレートが可変となっていると共に動画像の再生時のフレームレートも可変となっている。ユーザは、操作部18を介して、撮影モードを通常撮影モード又は高速撮影モードに設定することができる。以下、動画像の撮影時のフレームレートを撮影レートとも呼び、動画像の再生時のフレームレートを再生レートとも呼ぶ。
通常撮影モードでは、図5に示す如く動画像が60fps(frame per second)にて撮影される。そして、60fpsにて撮影された動画像を、同じフレームレート(即ち60fps)にて再生することができる。この場合、撮影された動画像が通常の再生速度にて表示部16上に表示される。つまり、1秒間をかけて撮影された60枚のフレームが1秒間をかけて表示部16上に表示される。
高速撮影モードでは、図6に示す如く動画像が600fpsにて撮影される。そして、600fpsにて撮影された動画像を、60fpsにて再生することができる。この場合、1秒間をかけて撮影された600枚のフレームが10秒間をかけて表示部16上に表示される。これにより、実質的なスロー再生を実現することができる。尚、撮影レート及び再生レートの具体的数値は、勿論、例示であり、通常撮影モードにおける撮影レートは60fps以外(例えば30fps)であっても良いし、高速撮影モードにおける撮影レートは600fps以外(例えば300fps)であっても良い。再生レートの具体的数値は、撮影レートの変更に伴って変更されうる。
以下の説明では、高速撮影モードにおいて600fpsにて対象動画像の撮影が行われ、対象動画像が再生時において60fpsにて再生されることを想定する。α秒間をかけて対象動画像が撮影される際、その撮影区間においてα秒間分の原音響信号が収音されるが、α秒間をかけて撮影された対象動画像を(10×α)秒間をかけてスロー再生する時に、原音響信号も単純にスロー再生するようにすると、音響信号のピッチが変動して間延びしたような音が再生される(αは任意の正の数)。ピッチとは音響信号の基本周波数であり、音源が人の声である場合、ピッチとは人の声帯振動による音響信号の基本周波数のことである。
ピッチを維持したまま音響信号を伸張する方法(換言すれば、ピッチを伸張処理の前後において変化させない方法)も知られているが、そのような伸張方法が常に適切であるとは限らない。ピッチを維持した伸張方法では、基本的に、音響信号を複数のブロックに切り分けて同一のブロックを複数回繰り返し再生することで、音響信号の引き伸ばしを行う。このため、人の声の音響信号に対してはピッチを維持した伸張方法が比較的適しているが(音程が変化せず単に一つ一つの音が引き伸ばされるため)、該伸張方法を様々な周波数が混ざり合って形成された音楽に適用すると違和感のある音が生成されることが多い。また、野球のバッティングシーンなどをスロー再生する場合には、バットでボールを打った瞬間の音をエコー処理したほうが、より再生映像にマッチするものと考えられる。
これらを考慮し、対象動画像の再生に適応した音響信号を原音響信号から生成する機能を、撮像装置1に設ける。図7に、この機能に特に関与する部位のブロック図を示す。図7に示される音源種類解析部31、音響信号伸張部32及び音響信号符号化部33を、図1の音響信号処理部14に設けておくことができ、図1に示される映像信号解析部34を図1の映像信号処理部12に設けておくことができる。
音源種類解析部31(以下、解析部31と略記することがある)及び音響信号伸張部32(以下、伸張部32と略記することがある)には、対象音響信号が入力される。対象音響信号とは、対象動画像の撮影時においてマイク部13にて収音された原音響信号である。
解析部31は、対象音響信号に基づいて対象音響信号に含まれる信号成分の音源の種類を解析する。換言すれば、如何なる種類の音源からの音響信号が対象音響信号に含まれているのかを、対象音響信号に基づいて解析する。例えば、対象音響信号に含まれる信号成分の音源の種類が、人の声であるのか(換言すれば人の声帯であるのか)、音楽であるのか、インパルス状の音(以下、インパルス音という)であるのか、動物の鳴き声であるのかを解析する。解析部31の解析結果を表す情報は、音源種類情報として伸張部32に送られる。
一方で、映像信号解析部34は、対象動画像の映像信号である対象映像信号に基づき対象動画像に含まれる物体等の解析を行う。例えば、顔検出処理を用いて対象動画像上に人の顔が存在しているか否かを解析することができる。また例えば、対象動画像上における物体の動きの速度の大きさから対象動画像がスポーツ風景を撮影したものであるのか否かを解析することもできる。映像信号解析部34の解析結果を表す情報は、映像解析情報として伸張部32に送られる。
伸張部32は、フレームレート情報に従って、対象音響信号を時間的に伸張することにより伸張音響信号を生成する。フレームレート情報によって、対象動画像の撮影レートと対象動画像の再生レートが規定される。本例では、上述したように、対象動画像の撮影レートは600fpsであって且つ対象動画像の再生レートは60fpsであるため、α秒間分の対象音響信号から(10×α)秒間分の音響信号を伸張音響信号として生成する。
対象音響信号から伸張音響信号を生成する方法は、主として音源種類情報に応じて決定され、その方法を、映像解析情報及びシーン設定情報にも依存して決定することができる。シーン設定情報とは、設定された撮影シーンを指し示す情報であり、ユーザは、操作部18を用いて撮影シーンを所望のものに設定することができる。例えば、スポーツ風景を撮影する場合、ユーザは撮影シーンを「スポーツ」に設定することができ、撮像装置1に近接した被写体を撮影する場合、ユーザは撮影シーンを「マクロ」に設定することができる。撮影シーンが「スポーツ」に設定されている時、撮像装置1は、スポーツ風景の撮影に適した撮影条件にて対象動画像の撮影を実行し、撮影シーンが「マクロ」に設定されている時、撮像装置1は、近接した被写体の撮影に適した撮影条件にて対象動画像の撮影を実行する。
音源種類情報、映像解析情報及びシーン設定情報に応じた伸張音響信号の生成方法については後に詳説される。尚、対象音響信号に基づく伸張音響信号の生成をチャンネルごとに行うことができる。即ち、伸張部32は、左チャンネルの対象音響信号を時間的に伸張することにより左チャンネルの伸張音響信号を生成し、右チャンネルの対象音響信号を時間的に伸張することにより右チャンネルの伸張音響信号を生成することができる。以下では、特に必要の無い限り、チャンネルを区別しての説明は行わない。
音響信号符号化部33は、伸張部32にて生成された伸張音響信号を所定の符号化方式(例えば、AAC(Advanced Audio Coding))にて符号化することにより符号化音響信号を生成する。他方、図1の映像信号処理部12において、対象動画像の映像信号は符号化されて符号化映像信号が生成される。符号化音響信号は、対象動画像の符号化映像信号に対して時間的に関連付けられつつ、対象動画像の符号化映像信号と共に記録媒体15に記録される。
再生時には、記録媒体15から対象動画像の符号化映像信号と符号化音響信号が読み出され、映像信号処理部12及び音響信号処理部14においてそれらは復号されて、対象動画像の映像信号と伸張音響信号が生成される。復号によって得られた映像信号を60fpsにて表示部16に送ることにより対象動画像が60fpsにて再生表示されると共に、伸張音響信号をスピーカ17に送ることで対象動画像の再生映像に同期した伸張音響信号が音として再生される。
図8に、再生時における対象動画像と伸張音響信号の時間的関係を示す。α秒間をかけて600fpsにて撮影された対象動画像は、再生時において(10×α)秒間をかけて60fpsにて再生される。一方、対象動画像の撮影時に収音されたα秒分の原音響信号から生成された(10×α)秒分の伸張音響信号は、60fpsによる対象動画像の再生に同期した状態で、(10×α)秒をかけてスピーカ17にて再生される。
[音源種類解析方法]
解析部31による、音源の種類の解析方法について説明する。対象音響信号が存在する全区間に含まれる特定区間に注目し、特定区間における対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断する方法を説明する。尚、解析部31は、特定区間における左チャンネル及び右チャンネルの対象音響信号の内、左チャンネルの対象音響信号のみに基づいて、又は、右チャンネルの対象音響信号のみに基づいて、特定区間における左チャンネル及び右チャンネルの対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断することができる。或いは、特定区間における左チャンネル及び右チャンネルの対象音響信号に基づいて、その判断を行うことも可能である。
特定区間における対象音響信号に人の声による音響信号が含まれているか否かを、音声認識処理等で利用されている公知の発話区間検出方法(例えば、特開平10−257596号公報に示された方法)を用いて検出することができる。具体的には例えば、自己相関処理を利用したピッチ抽出に基づく方法によって、特定区間における対象音響信号に人の声による音響信号が含まれているか否かを検出することができる。人の声による音響信号が含まれている区間を特に発話区間とも呼ぶ。
特定区間に1024サンプル分のデジタル音響信号が含まれている場合を考えて、解析部31にて採用可能な、発話区間の検出方法を説明する。特定区間の対象音響信号を形成する1024サンプル分のデジタル音響信号の内、t番目のデジタル音響信号の信号値をx(t)にて表す。tは、1〜1024の間の整数値をとる。
解析部31は、図9に示す如く、1〜128番目のデジタル音響信号から成るブロックを基準ブロックとして自己相関を計算する。つまり、特定区間内に、128個の連続するデジタル音響信号から成る評価ブロックを定義し、評価ブロックの時間的な位置を順次ずらしながら、基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式(1)に従って自己相関値S(p)を算出する。自己相関値S(p)は、評価ブロックの位置を決める変数pの関数であり、pは、0≦p≦(1024−128)、を満たす各整数をとる。
図10に、求められた自己相関値S(p)の変数p依存性を示す。図10において、横軸は、変数pである。図10は、特定区間における対象音響信号に人の声による音響信号が含まれている場合に対応している。対象音響信号に人の声帯振動によるピッチが含まれていると自己相関値S(p)が周期的に大きな値をとる。解析部31は、自己相関値S(p)が周期的に所定の閾値THAを超えており且つその周期の逆数である基本周波数が所定の周波数範囲RVOICEに収まる場合に、特定区間における対象音響信号に人の声による音響信号が含まれていると判断することができ(即ち、特定区間が発話区間であると判断することでき)、そうでない場合には、特定区間における対象音響信号に人の声による音響信号が含まれていないと判断することができる。例えば、不等式「S(p)>THA」を満たす変数pの間隔が一定(或いは略一定)の場合に、自己相関値S(p)が周期的に所定の閾値THAを超えていると判断する。人の声帯振動によるピッチ(基本周波数)は概ね80〜270Hzの帯域に存在するため、周波数範囲RVOICEの下限周波数及び上限周波数は例えば夫々50Hz及び300Hzに設定される。
特定区間における対象音響信号に音楽による音響信号が含まれているか否かも、上述の発話区間の検出方法と同様の方法にて検出することができる。音楽による音響信号も一定の周期性を有しているからである。但し、一般的に音楽による音響信号の基本周波数は、人の声帯振動による音響信号のそれよりも高い。従って、解析部31は、自己相関値S(p)が周期的に所定の閾値THAを超えており且つその周期の逆数である基本周波数が所定の周波数範囲RVOICEの上限周波数を超えている場合に、特定区間における対象音響信号に音楽による音響信号が含まれていると判断することができる。
尚、音楽の音響信号の基本周波数が、仮に人の声のそれと同程度であったとしても、人の声に特有のスペクトル包絡(エンベロープ)が対象音響信号に見られるか否かを判定することにより、対象音響信号が人の声の音響信号であるか或いは音楽の音響信号であるかを区別することもできる。共振の影響により、人の声による音響信号の周波数スペクトルは、特定の周波数においてピークを持つ傾向がある。他方、このような傾向は音楽の音響信号には見られない。従って、特定区間における対象音響信号について自己相関値S(p)が周期的に所定の閾値THAを超えていて、対象音響信号に人の声又は音楽による音響信号が含まれていると判断されるとき、当該対象音響信号において上記傾向が存在するか否かを峻別することにより、当該対象音響信号が人の声による音響信号及び音楽による音響信号のどちらであるかを区別するようにしても良い。
また、解析部31は、時間軸上の対象音響信号における信号値又はパワーの変化量の大小に基づいて、対象音響信号に、インパルス音による音響信号が含まれているか否かを判断することができる。具体的には例えば、対象音響信号における信号値又はパワーの、単位時間当たりの変化量が所定の閾値THBを超えている区間が、特定区間に存在している時、その区間中にインパルス音が存在していると判断することができると共に特定区間における対象音響信号にインパルス音による音響信号が含まれていると判断することができる。インパルス音として、野球のバットでボールを打った瞬間における打撃音や、太鼓をたたく音などが想定される。
また、解析部31は、特定区間における対象音響信号に基づき、特定区間における対象音響信号中に動物の鳴き声による音響信号が含まれているか否かを判断することもできる。人の声の特徴に基づいて発話区間を検出するのと同様に、動物の鳴き声の特徴に基づいて動物の鳴き声が存在する区間を検出するようにすれば、上記判断は可能である。
動物の鳴き声とは、具体的には、犬又は猫の鳴き声である。犬の鳴き声の場合、様々な犬の鳴き声を事前に学習して犬の鳴き声に関するデータベースを作成しておき、特定区間における対象音響信号と該データベースとを照合することで、特定区間における対象音響信号に犬の鳴き声による音響信号が含まれているか否かを判断することが可能である。この判断を、対象映像信号をも考慮した上で実行するようにしても良い。つまり例えば、特定区間における対象映像信号に基づいて特定区間における対象動画像中に犬の画像が含まれているかを映像信号解析部34において解析させ、その解析結果をも考慮した上で、特定区間における対象音響信号中に犬の鳴き声による音響信号が含まれているか否かの判断を行うようにしても良い。
[伸張音響信号の生成方法]
次に、伸張部32による伸張音響信号の生成方法について説明する。伸張部32は、対象音響信号に、音源種類情報等に適応した伸張処理を施すことで伸張音響信号を生成する。音響信号に関する伸張処理とは、伸張処理の対象となる音響信号を時間方向に引き伸ばすことによって当該音響信号の信号長さを増大させる処理を指す。音響信号の信号長さとは、当該音響信号が存在する区間の時間長さを指す。伸張処理前の特定区間の時間長さはβ秒であるとする(βは任意の正の数)。本例において再生レートは撮影レートの1/10であるから伸張処理後の特定区間の時間長さは(10×β)秒であり、特定区間におけるβ秒分の対象音響信号の信号長さは、伸張処理によって10倍に引き伸ばされて(10×β)秒分の信号長さを有する伸張音響信号が生成される。勿論、伸張時間(伸張処理によって引き伸ばされる時間)は再生レートに合わせて変更され、例えば再生レートが遅くなるにつれて長くされる。
但し、再生レートに正確に対応する分だけ音響信号の伸張を行うと違和感のある音が再生される可能性もあるため、撮影レート及び再生レート間の差に相当する時間と伸張時間を一致させる必要は必ずしもない。つまり例えば、再生レートが撮影レートの1/10であるとき、図11に示す如く、β秒分の対象音響信号を時間軸上で6倍に引き伸ばすことで(6×β)秒分の音響信号を生成し、この(6×β)秒分の音響信号に(4×β)秒分の無音信号を接続することで、(10×β)秒分の伸張音響信号を生成するようにしても良い。無音信号とは、信号レベル及びパワーがゼロ(又は実質的にゼロ)の音響信号を指す。
伸張部32にて採用可能な伸張処理として、以下に、単純伸張処理、ピッチ維持伸張処理、エコー処理及びリピート処理を説明する。
詳細な具体例は後述されるが、対象音響信号に種類の異なる複数の音源からの音響信号が含まれている場合(例えば、対象音響信号に人の声による音響信号と音楽による音響信号が混在している場合)、図12に示す如く、伸張部32は、その複数の音源からの音響信号を複数の分離音響信号として個別に対象音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから複数の分離音響信号を合成することにより伸張音響信号を生成する。
従って、単純伸張処理やピッチ維持伸張処理等は、分離音響信号ごとに個別に実行される。このため、単純伸張処理やピッチ維持伸張処理等が分離音響信号に対して実行されることを想定して、それらの伸張処理の説明を行う。対象音響信号に単一の音源からの音響信号しか含まれていない場合には、対象音響信号に基づく分離音響信号は、対象音響信号そのものである。尚、図12は、対象音響信号に2種類の音源からの音響信号が含まれている場合における、伸張音響信号の生成過程のイメージ図である(あくまでイメージ図であり、図12の波形等の妥当性は低いことに留意すべきである)。
――単純伸張処理――
単純伸張処理について説明する。単純伸張処理が施されるべき、特定区間の分離音響信号を音響信号A1と呼び、音響信号A1に単純伸張処理を施して得た音響信号を音響信号B1と呼ぶ。本例において、音響信号B1の存在する区間長さは、音響信号A1のそれの10倍である。図13は、単純伸張処理のイメージ図である。時間軸上において、音響信号A1を単純に10倍に引き伸ばすことで音響信号B1が得られる。従って、音響信号A1に含まれている周波数fの信号成分は、音響信号B1において周波数(f/10)の信号成分に変換される。単純伸張処理を施すと、当然ピッチが変化して音程が変質する。
尚、図11を参照して説明したように、音響信号A1を単純に6倍に引き伸ばすことで得た(6×β)秒分の音響信号に対して(4×β)秒分の無音信号を接続することで、(10×β)秒分の音響信号B1を生成するようにしても良い。
――ピッチ維持伸張処理――
ピッチ維持伸張処理について説明する。ピッチ維持伸張処理が施されるべき、特定区間の分離音響信号を音響信号A2と呼び、音響信号A2にピッチ維持伸張処理を施して得た音響信号を音響信号B2と呼ぶ。本例において、音響信号B2の存在する区間長さは、音響信号A2のそれの10倍である。
ピッチ維持伸張処理では、音響信号A2及びB2間でピッチが変化しないように音響信号の伸張が成される。この伸張の方法として、公知の話速変換方法を用いることができる。図14は、ピッチ維持伸張処理のイメージ図である。単純には例えば、音響信号A2のピッチに応じたブロック長にて特定区間を第1〜第Nのブロックに分割し(Nは2以上の整数)、第1のブロックにおける音響信号A2を10回繰り返した信号と、第2のブロックにおける音響信号A2を10回繰り返した信号と、・・・、第(N−1)のブロックにおける音響信号A2を10回繰り返した信号と、第Nのブロックにおける音響信号A2を10回繰り返した信号とを、この順番で接続することで音響信号B2を生成することができる。
尚、図11を参照して説明したように、第1のブロックにおける音響信号A2を6回繰り返した信号と、第2のブロックにおける音響信号A2を6回繰り返した信号と、・・・、第(N−1)のブロックにおける音響信号A2を6回繰り返した信号と、第Nのブロックにおける音響信号A2を6回繰り返した信号と、(4×β)秒分の無音信号とを、この順番で接続することで音響信号B2を生成するようにしても良い。但し、この方法では、音響信号B2の後半に無音信号が偏る。このような偏りを回避するために、第1のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[1])秒分の無音信号と、第2のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[2])秒分の無音信号と、・・・、第(N−1)のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[N-1])秒分の無音信号と、第Nのブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[N])秒分の無音信号とを、この順番で接続することで音響信号B2を生成するようにしても良い。ここで、BL[i]は、第iのブロックにおけるブロック長(即ち、第iのブロックの時間長さ)を表している(iは整数)。
――エコー処理――
エコー処理について説明する。エコー処理が施されるべき、特定区間の分離音響信号を音響信号A3と呼び、音響信号A3にエコー処理を施して得た音響信号を音響信号B3と呼ぶ。本例において、音響信号B3の存在する区間長さは、音響信号A3のそれの10倍である。
エコー処理では、音響信号A3と同じ音響信号を、信号レベルを徐々に低減させながら複数回繰り返す。図15は、エコー処理のイメージ図である。音響信号B3は、エコー信号A3[1]、A3[2]、A3[3]、A3[4]、A3[5]、A3[6]、A3[7]、A3[8]、A3[9]及びA3[10]をこの順番で接続した信号である。ここで、エコー信号A3[i]の信号波形と音響信号A3の信号波形は相似であり、エコー信号A3[i+1]の信号レベル及びパワーは、エコー信号A3[i]の信号レベル及びパワーよりも小さい(iは整数)。従って、音響信号B3を再生すると、音量が徐々に小さくなりつつ音響信号A3が繰り返し再生されることになる。例えば、音響信号A3がバッティングの打撃音である「カキーン」という音であるならば、エコー処理を経た再生により、「カキーン」という音が徐々に音量が小さくされつつ10回繰り返し再生されることになる。
尚、図11を参照して説明したように、エコー信号A3[1]、A3[2]、A3[3]、A3[4]、A3[5]及びA3[6]を接続した信号と、(4×β)秒分の無音信号とを接続した信号を音響信号B3として生成するようにしても良い。また、再生レートに応じて、エコーの回数(即ち、エコー信号A3[i]を繰り返す回数)、エコーをかける時間(即ち、エコー信号A3[i]が繰り返される時間)、及び/又は、エコー信号の減衰率(即ち、エコー信号A3[i+1]の信号レベルの、エコー信号A3[i]の信号レベルに対する減衰率)を変更するようにしても良い。
――リピート処理――
リピート処理について説明する。リピート処理が施されるべき、特定区間の分離音響信号を音響信号A4と呼び、音響信号A4にリピート処理を施して得た音響信号を音響信号B4と呼ぶ。本例において、音響信号B4の存在する区間長さは、音響信号A4のそれの10倍である。
リピート処理では、音響信号A4と同じ音響信号を単純に複数回繰り返す。つまり、音響信号B4は、リピート信号A4[1]、A4[2]、A4[3]、A4[4]、A4[5]、A4[6]、A4[7]、A4[8]、A4[9]及びA4[10]をこの順番で接続した信号であり、リピート信号A4[1]〜A4[10]の夫々は、信号レベルも含め、音響信号A4と同じものである。従って例えば、音響信号A4が或る音楽の音響信号である場合、リピート処理を経て得られた音響信号B4の再生時には、その音楽が音程の変質等を伴うことなく、(10×β)秒分の特定区間において通常の再生速度で繰り返し再生される。
伸張部32は、音源種類情報等に応じて分離音響信号に対して成すべき伸張処理の内容を変更する。例えば、注目した分離音響信号の音源の種類が人の声であると判断される場合においては、その注目した分離音響信号に対してピッチ維持伸張処理を行い、注目した分離音響信号の音源の種類がインパルス音であると判断される場合においては、その注目した分離音響信号に対してエコー処理を行うことができる。
また例えば、注目した分離音響信号の音源の種類が音楽であると判断される場合においては、その注目した分離音響信号に対してリピート処理を行うことができる、或いは、その注目した分離音響信号を削除するようにしても良い(つまり、音楽の信号成分を伸張音響信号から除外するようにしても良い)、更に或いは、その注目した分離音響信号の信号レベルを低減するようにしても良い。或る特定の音響信号を削除するとは、その特定の音響信号の信号成分が伸張音響信号に含まれなくなるように、その特定の音響信号の信号成分を伸張処理の過程で対象音響信号から削除する操作を指す。このように、分離音響信号の音源の種類が人の声であるのか否かに応じて伸張処理の方法を変更することができる。また、映像解析情報にも応じて伸張処理の内容を決定するようにしても良い(映像解析情報の利用例は、後述の第2の伸張具体例にて詳説)。
次に、音源種類情報等に基づく伸張処理の、様々な状況に応じた具体例として、第1〜第4の伸張具体例を説明する。
[第1の伸張具体例]
第1の伸張具体例を説明する。第1の伸張具体例では、野球の試合においてバッターがバットでボールを打撃する様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、バットでボールを打撃する時に生じる打撃音の音響信号に加え、野球の出場選手を応援している人の歓声の音響信号が含まれているものとする。
解析部31及び伸張部32は、対象音響信号を解析することで対象音響信号から打撃音の音響信号と歓声の音響信号を別々に分離音響信号として抽出し、打撃音の分離音響信号に対してはエコー処理を施す一方で歓声の分離音響信号に対してはピッチ維持伸張処理を施す。そして、エコー処理後の打撃音の分離音響信号とピッチ維持伸張処理後の歓声の分離音響信号を合成することで伸張音響信号を生成する。
図16(a)は、第1の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図16(b)は、第1の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、歓声がピッチを維持した状態でスロー再生される一方で打撃の瞬間が表示される周辺区間においては打撃音である「カキーン」という音が音量の漸次低減を伴いながら繰り返し出力される。尚、このシーンでは、打撃の瞬間が最も重要なタイミングであるため、打撃の瞬間を含む区間においては、歓声の音量をなるだけ低減させることが望ましい。
第1の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図17に示す如く、対象音響信号の全区間が3つの区間P1A、P1B及びP1Cに分類され、区間P1A及びP1Cには歓声の音響信号のみが存在し、区間P1Bには打撃音と歓声の音響信号が存在する場合を想定する。
区間P1A及びP1Cにおける対象音響信号には歓声(即ち、人の声)の音響信号のみが含まれているため、解析部31は、上述した方法によって、区間P1A及びP1Cにおける対象音響信号に人の声による音響信号が含まれていることを容易に知ることができる。更に、解析部31は、区間P1Bを特定区間とみなした上で、特定区間の対象音響信号にインパルス音による音響信号が含まれているか否かを判断する上述の方法を用いることで、区間P1Bにおける対象音響信号にインパルス音による音響信号が含まれていることを知ることができる。
区間P1A及びP1Cにおける対象音響信号に人の声の音響信号が含まれているため、解析部31又は伸張部32は、区間P1Bにおける対象音響信号にも人の声の音響信号が含まれていると推測することができる。伸張部32は、区間P1Bにおける対象音響信号から人の声の音響信号とインパルス音(今の例において打撃音)の音響信号を分離抽出すべく、区間P1Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間P1Bにおける周波数軸上の対象音響信号、即ち、区間P1Bにおける対象音響信号の周波数スペクトルを生成する。フーリエ変換として、離散フーリエ変換が用いられる。
図18(a)におけるグラフには、区間P1Bにおける対象音響信号の周波数スペクトル310の各スペクトル成分が示されている。周波数スペクトル310は、実線311で表される人の声のスペクトル成分と破線312で表されるインパルス音のスペクトル成分とを足し合わせたものとなる。人の声のスペクトル成分311は周波数の変化に対して周期的に変動する一方、広範な周波数成分の足し合わせに相当するインパルス音のスペクトル成分312は周波数の変化に対して周期的に変動するような性質を有さない。
このような性質に注目し、伸張部32は、周波数スペクトル310に対して、もう一度、フーリエ変換を施す。周波数軸上の音響信号にフーリエ変換を施すことで、音響信号がF軸上の音響信号に変換されるものとする。図18(b)におけるグラフは、区間P1BにおけるF軸上の対象音響信号320を表している。F軸上の対象音響信号320は、実線321で表される人の声の信号成分と破線322で表されるインパルス音の信号成分とを足し合わせたものとなる。上述したような性質から、F軸上では、人の声の信号成分とインパルス音の信号成分とが分離して存在することとなる。周波数軸上の或る注目音響信号が周波数の変化に対して周期的に変動している場合において、その変動の周期が短くなると、F軸上における注目音響信号はより高域側にシフトするものとする。
伸張部32は、信号成分321の、F軸上の周波数が所定の音声周波数範囲に収まっている場合、信号成分321は人の声の信号成分であると判断することができ、そうでない場合、信号成分321は人の声の信号成分ではないと判断することができる。今、信号成分321の、F軸上の周波数が所定の音声周波数範囲に収まっているものとする。
伸張部32は、F軸上の対象音響信号320の内、F軸の高域側に位置している信号成分(即ち、信号成分321)が人の声の信号成分であって且つF軸の低域側に位置している信号成分(即ち、信号成分322)がインパルス音の信号成分であるとみなし、前者の信号成分(即ち、信号成分321)と後者の信号成分(即ち、信号成分322)に対して個別に2回、逆フーリエ変換を施す。逆フーリエ変換として、離散逆フーリエ変換が用いられる。これにより、信号成分321から、区間P1Bにおける人の声による時間軸上の分離音響信号が生成され、信号成分322から、区間P1Bにおけるインパルス音による時間軸上の分離音響信号が生成される。尚、区間P1Aにおける人の声による時間軸上の分離音響信号(即ち、区間P1Aにおける対象音響信号)及び/又は区間P1Cにおける人の声による時間軸上の分離音響信号(即ち、区間P1Cにおける対象音響信号)から、区間P1Bにおける人の声による時間軸上の分離音響信号を推定するようにしても良い。
逆フーリエ変換を介して得た、区間P1Bにおける人の声及びインパルス音の分離音響信号に対して、互いに異なる伸張処理が施される。一方、区間P1A及びP1Cにおける対象音響信号には人の声の音響信号しか含まれていないため、区間P1A及びP1Cに対しては対象音響信号そのものにピッチ維持伸張処理が施される。つまり、伸張部32は、区間P1Aにおける対象音響信号、区間P1Bにおける人の声の分離音響信号及び区間P1Cにおける対象音響信号にピッチ維持伸張処理を施して時間的に接続することで伸張音響信号の第1成分を生成し、一方で、区間P1Bにおけるインパルス音の分離音響信号に対してエコー処理を施すことで伸張音響信号の第2成分を生成する。ここで、伸張音響信号の第1成分は全区間における音響信号を含むが、伸張音響信号の第2成分は区間P1Bにおける音響信号しか含まない。伸張部32は、伸張音響信号の第1成分及び第2成分を合成することで、最終的な伸張音響信号を生成する。
上述のようにして得られる伸張音響信号を映像のスロー再生と共に再生することで、野球の打撃シーンを迫力のあるシーンとして再生することができる。
[第2の伸張具体例]
第2の伸張具体例を説明する。第2の伸張具体例では、公園などにおいて子供の遊んでいる様子が対象動画像として撮影されたことを想定する。撮影対象となる子供を、特に注目人物と呼ぶ。そして、対象音響信号には、注目人物の声の音響信号に加え、公園内にいる他の人(以下、非注目人物という)の声の音響信号が含まれていることを想定する。
図19(a)は、第2の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図19(b)は、第2の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、注目人物の声がピッチを維持した状態でスロー再生される。
第2の伸張具体例では、伸張音響信号の生成に当たり、対象音響信号の解析結果に加えて対象映像信号の解析結果もが利用される。具体的には、以下のように処理される。
映像信号解析部34は、対象映像信号に基づき、基準顔サイズ以上の大きさを有する人の顔が対象動画像上に含まれているか否かを判断する。今、対象動画像上に注目人物の顔が存在しており、対象動画像上における注目人物の顔の大きさが所定の基準顔サイズ以上であったとする。そうすると、映像信号解析部34は、基準顔サイズ以上の大きさを有する顔(人の顔)が対象動画像上に含まれていると判断し、その判断結果を含む映像解析情報を伸張部32に送る。このような映像解析情報が送られてくると、伸張部32は、その映像解析情報と解析部31から音源種類情報に基づき、対象音響信号に対してピッチ維持伸張処理だけでなく正面音強調処理を施し、それらの処理後の対象音響信号を伸張音響信号として出力する。尚、対象動画像上に基準顔サイズ以上の大きさを有する人の顔が含まれていない場合、対象音響信号に対して正面音強調処理は成されない。
正面音強調処理は、対象音響信号の内、撮像装置1の正面方向から到来した音(以下、正面音という)の信号成分を強調する処理、または、それ以外の方向から到来した音(以下、非正面音)の信号成分を低減する処理である。或いは、前者の処理と後者の処理を共に正面音強調処理において実行するようにしても良い。
例えば、図20に示す如く、左チャンネルのマイクロホン13Lの振動板中心と右チャンネルのマイクロホン13Rの振動板中心との中点を原点Oとし、両振動板中心を結ぶ直線をX軸とし、X軸と直交し且つ原点Oを通る直線をY軸と定義する。XY座標面は、X軸及びY軸を座標軸として持つ座標面である。更に、マイクロホン13Lからマイクロホン13Rに向かう方向がX軸の正の方向であって、原点OからY軸の正側に向かう方向が撮像装置1にとっての前方であると定義する(図4も参照)。図20において、線分331及び332は、原点Oを通り且つY軸と30°の角度を以って交差する線分である。但し、線分331は原点OからXY座標面上の第1象限に向かって伸び、線分332は原点OからXY座標面上の第2象限に向かって伸びる。Y軸は、撮像部11の光軸と略平行であり、線分331から線分332に向かう時に横切る、60°の範囲内に位置する物体が概ね撮像部11の撮像対象となる。説明の簡略化上、X軸及びY軸の夫々に直交するZ軸方向の存在を無視するが、実際には、撮像部11の撮影範囲はZ軸方向にも広がっている。
XY座標面の第1象限内であって且つ線分331よりもY軸側に位置する音源から到来する音及びXY座標面の第2象限内であって且つ線分332よりもY軸側に位置する音源から到来する音を正面音とみなし、それら以外の音源からの音を非正面音とみなす。正面音強調処理では、左チャンネルの対象音響信号及び右チャンネルの対象音響信号の位相差に基づき、左チャンネル及び右チャンネルの対象音響信号の内、正面音の音響信号成分を強調する、及び/又は、非正面音の音響信号成分を低減する(非正面音の音響信号成分を完全に削除するようにしても良い)。尚、位相差情報に基づき特定方向から到来した音の信号成分を強調又は低減する方法として、公知の方法を含む任意の方法を用いることができる。
上述のようなピッチ維持伸張処理及び正面音強調処理を介して得られる伸張音響信号を再生すると、注目人物の声のピッチが維持された状態で、注目人物の声の音量が非注目人物のそれに対して大きくなり、注目人物の声が聴きとりやすくなる。
尚、対象動画像から登録人物の顔が検出された場合にのみ、上述の正面音強調処理を行うようにしても良い。つまり、注目人物となるべき登録人物の顔画像を予め撮像装置1に登録しておき、映像信号解析部34にて、対象映像信号に基づき該顔画像と対象動画像の各部の画像とを対比することで対象動画像上に登録人物の顔が存在しているか否かを検出する。そして、対象動画像上に登録人物の顔が存在していると判断された場合にのみ、上述の正面音強調処理を行うようにしても良い。
[第3の伸張具体例]
第3の伸張具体例を説明する。第3の伸張具体例では、運動会の徒競走において注目人物がゴール地点を走り抜ける様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、徒競走の審判による「ゴール」という掛け声(以下、ゴール発声という)の音響信号、周辺で応援している人の歓声による音響信号、及び、周辺で鳴っている音楽(以下、BGMという)の音響信号が含まれているものとする。また、対象音響信号において、ゴール発声の音響信号の信号レベルは、歓声のそれよりも十分に大きいものとする。
解析部31及び伸張部32は、対象音響信号を解析することで対象音響信号からゴール発声の音響信号、歓声による音響信号及びBGMの音響信号を別々に分離音響信号として抽出し、ゴール発声の分離音響信号に対してはピッチ維持伸張処理(又はエコー処理)を施し、歓声の分離音響信号に対しては音量を低減しつつピッチ維持伸張処理を施し、BGMの分離音響信号に対してはリピート処理を施す。そして、それらの処理後の分離音響信号を合成することで伸張音響信号を生成する。尚、BGMの分離音響信号の音量を低減させた上でリピート処理を行うようにしても良いし、BGMの分離音響信号を削除するようにしても良い。
図21(a)は、第3の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図21(b)は、第3の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。
第3の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図22に示す如く、対象音響信号の全区間が3つの区間P2A、P2B及びP2Cに分類され、区間P2A及びP2Cには歓声及びBGMの音響信号のみが存在し、区間P2Bには歓声及びBGMの音響信号に加え、ゴール発声の音響信号が存在する場合を想定する。
まず、区間P2Bに対する伸張方法について説明する。解析部32は、区間P2Bを特定区間とみなした上で、上述した方法を用いることにより、区間P2Bの対象音響信号に人の声による音響信号が含まれているか否か、及び、区間P2Bの対象音響信号に音楽による音響信号が含まれているか否かを検出することができる。第3の伸張具体例における想定下では、区間P2Bの対象音響信号に人の声及び音楽による音響信号が含まれていると検出される。
伸張部32は、区間P2Bにおける対象音響信号から人の声の音響信号と音楽(今の例においてBGM)の音響信号を分離抽出すべく、区間P2Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間P2Bにおける周波数軸上の対象音響信号、即ち、区間P2Bにおける対象音響信号の周波数スペクトルを生成する。
図23(a)、(b)及び(c)のグラフに示される周波数スペクトル361、362及び363は、夫々、ゴール発声による音響信号の周波数スペクトル、歓声による音響信号の周波数スペクトル及びBGMによる音響信号の周波数スペクトルである。実際には、スペクトル361〜363を足し合わせたものが区間P2Bの対象音響信号の周波数スペクトルとして生成されるため、周波数軸上においてスペクトル361〜363を分離することはできない。
但し、対象音響信号においてゴール発声の信号レベルが歓声のそれよりも十分に大きく、且つ、人の声の基本周波数は音楽のそれよりも随分低い。これを考慮し、伸張部32は、スペクトル361〜363の合成スペクトルである、区間P2Bの対象音響信号の周波数スペクトルに対して、もう一度、フーリエ変換を施す。図24(a)におけるグラフは、区間P2BにおけるF軸上の対象音響信号370を表している。F軸上の対象音響信号370は、曲線371で表される人の声の信号成分と曲線372で表される音楽の信号成分(即ち、BGMの信号成分)とを足し合わせたものとなる。人の声の基本周波数は音楽のそれよりも随分低いという性質から、F軸上では、人の声の信号成分と音楽の信号成分とが分離して存在している。
曲線371で表される人の声の信号成分には、信号レベルの比較的大きいゴール発声による信号成分と信号レベルの比較的小さい歓声による信号成分とが混在している。図24(b)の破線381内は前者の信号成分を表し、図24(c)の破線382及び383内は後者の信号成分を表している。尚、ゴール発声が一人の人の声によって形成されているのに対して、歓声は複数人の声によって形成されているため、F軸上において歓声の信号成分の広がりはゴール発声のそれよりも大きくなっている。
破線381、382及び383内の信号成分が存在する、F軸上の領域を、夫々、符号391、392及び393によって表す(図24(b)及び(c)参照)。F軸上において、領域391〜393は互いに重なり合わない領域であると共に、領域393は領域391よりも高域側に位置し、領域391は領域392よりも高域側に位置する。
伸張部32は、F軸上において、信号成分の周波数が所定の音声周波数範囲に収まっている場合、その信号成分は人の声の信号成分であると判断することができ、そうでない場合、その信号成分は人の声の信号成分ではないと判断することができる。今、信号成分371が上記音声周波数範囲に収まっている一方、信号成分372が上記音声周波数範囲に収まっていないものとする。更に、信号成分371の最大レベルが所定の基準レベルよりも大きく且つF軸上における信号成分371の広がりが所定の基準広がりよりも大きい時、信号成分371に、主要音声による音響信号と非主要音声による音響信号が混在していると判断することができる。今、そのような混在が発生していると判断されたものとする。主要音声はゴール音声に相当し、非主要音声は歓声に相当する。信号成分371の内、基準レベル以上の信号レベルを有している部分が領域391内の信号成分であり、基準レベル未満の信号レベルを有している部分が領域392及び393内の信号成分であるとする。
この場合、伸張部32は、信号成分372が音楽の信号成分(又は人の声以外の何らかの信号成分)であるとみなし、信号成分372に対して2回逆フーリエ変換を施すことで、区間P2BにおけるBGMの時間軸上の分離音響信号を生成する。一方、信号成分371の内、基準レベル以上の信号レベルを有している信号成分(即ち、領域391内の信号成分)に対して2回逆フーリエ変換を施すことで、区間P2Bにおけるゴール発声の時間軸上の分離音響信号を生成し、信号成分371の内、基準レベル以上の信号レベルを有していない信号成分(即ち、領域392及び393内の信号成分)に対して2回逆フーリエ変換を施すことで、区間P2Bにおける歓声の時間軸上の分離音響信号を生成する。但し、F軸上の領域391内の信号成分には歓声の音響信号成分も含まれているため、ここで生成されるゴール発声の時間軸上の分離音響信号には、実際には、歓声の音響信号成分も含まれている。
他方、区間P2A及びP2Cにおける対象音響信号には歓声の音響信号とBGMの音響信号しか含まれていないため、それらの分離は容易である。即ち、区間P2Aにおける時間軸上の対象音響信号を2回フーリエ変換することで、区間P2Aにおける対象音響信号をF軸上の信号に変換する。そして、区間P2Aにおける対象音響信号に人の声と音楽の音響信号が含まれているという前提の下、区間P2AにおけるF軸上の対象音響信号の内、音声周波数範囲に収まっている信号成分を人の声(即ち、歓声)の信号成分であるとみなす一方、音声周波数範囲に収まっていない信号成分を音楽(即ち、BGM)の信号成分であるとみなし、F軸上における人の声の信号成分と音楽の信号成分に対して個別に2回逆フーリエ変換を施す。これにより、区間P2Aにおいて、F軸上の人の声の信号成分から人の声による時間軸上の分離音響信号が生成され、F軸上の音楽の信号成分からBGMによる時間軸上の分離音響信号が生成される。区間P2Cについても同様である。
各区間において時間軸上の各分離音響信号を生成した後、伸張部32は、区間P2Aにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2AにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Aにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間P2AのBGMの分離音響信号を低減又は削除しても良い。区間P2B及びP2CにおけるBGMの分離音響信号についても同様である。
次いで、伸張部32は、区間P2Bにおけるゴール発声及び歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2BにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Bにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間P2Bにおける歓声の分離音響信号の音量を低減させても良い。
更に、伸張部32は、区間P2Cにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2CにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Cにおける伸張音響信号を生成する。
最後に、伸張部32は、区間P2Aにおける伸張音響信号、区間P2Bにおける伸張音響信号及び区間P2Cにおける伸張音響信号を、この順番で接続することで全区間の伸張音響信号を完成させる。
上述のようにして得られる伸張音響信号を再生することで、ゴール発声及び歓声のピッチが維持された状態で、注目すべきゴール発声が強調され、臨場感のある再生が実現される。また、BGMが違和感なく再生される。
[第4の伸張具体例]
また、シーン設定情報に応じて、伸張部32で行う伸張処理の内容を変更するようにしても良い。例えば、シーン設定情報にて指し示される撮影シーンが「スポーツ」である場合には、周辺の歓声と思われる人の声の音響信号に対して伸張処理(例えばピッチ維持伸張処理)を行うことにより伸張音響信号に歓声の音響信号を含ませる一方、シーン設定情報にて指し示される撮影シーンが「マクロ」である場合には、人の声を含む周辺音の音響信号を伸張音響信号からなるだけ排除するようにしてもよい。
また、シーン設定情報を参照することなく、対象映像信号から撮影シーン判定を行うようにしても良い。即ち例えば、対象映像信号に基づいて対象動画像のオプティカルフローを導出して該オプティカルフローから対象動画像上の物体の動きの大きさを検出し、その大きさが比較的大きい場合には、対象動画像がスポーツ風景を撮影したものであると判断するようにしても良い。このような判断が成された場合には、撮影シーンが「スポーツ」に設定された場合と同様の伸張処理を行うことができる。
また例えば、映像信号解析部34が対象映像信号を解析することで対象動画像上に人と野球のバットが映っていることが判明した場合、対象動画像が野球のバッティングシーンを撮影したものであると判断することができる。このような判断が成された場合、打撃音の再生音量を増大させて再生時の迫力を向上させるべく、打撃音と推定されるインパルス音の音量を伸張処理の過程において増大させる、といったことも可能である。
<<第2実施形態>>
本発明の第2実施形態を説明する。上述の第1実施形態では、音響信号を収音して記録媒体15に記録するまでの過程において音響信号の伸張処理を行っているが、その伸張処理を再生段階において実行するようにしても良い。第2実施形態では、伸張処理を再生段階において実行する撮像装置を説明する。第2実施形態に係る撮像装置の全体的構成は、図1のそれと同じであるため、第2実施形態に係る撮像装置も撮像装置1と呼ぶ。第1実施形態にて述べられた事項は、矛盾なき限り、本実施形態にも適用される。
第2実施形態では、対象動画像の映像信号を符号化して得た信号と共に、原音響信号である対象音響信号をそのまま符号化して得た信号が、一旦、記録媒体15に互いに関連付けられて記録される。その後、対象動画像の再生を指示する操作を受けて、記録媒体15から、対象動画像の映像信号を符号化して得た信号が映像信号ストリームとして読み出されると共に、対象音響信号をそのまま符号化して得た信号が音響信号ストリームとして読み出される。
図25は、第2実施形態に係る、伸張音響信号の生成に関与する部位のブロック図である。音源種類解析部31、音響信号伸張部32及び映像信号解析部34は、図7のそれらと同じものである。上述したように、音源種類解析部31及び音響信号伸張部32はそれぞれ解析部31及び伸張部32と略記されうる。解析部31、伸張部32及び音響信号復号部35を、図1の音響信号処理部14に設けておくことができ、映像信号解析部34及び映像信号復号部36を、図1の映像信号処理部12に設けておくことができる。
記録媒体15から読み出された音響信号ストリーム及び映像信号ストリームは、夫々、音響信号復号部35及び映像信号復号部36にて復号されて対象音響信号及び対象映像信号が生成される。音響信号復号部35からの対象音響信号は解析部31及び伸張部32に送られ、映像信号復号部36からの対象映像信号は映像信号解析部34に送られる。解析部31及び映像信号解析部34は、第1実施形態と同様、対象音響信号及び対象映像信号に基づき音源種類情報及び映像解析情報を生成して、それらの情報を伸張部32に送る。
第1実施形態にて述べたシーン設定情報が記録媒体15に記録されている場合には、該シーン設定情報が記録媒体15から伸張部32に送られる。再生時においてユーザがシーン設定情報を入力した場合には、その再生時において入力したシーン設定情報を伸張部32に与えるようにしても良い。また、伸張部32には、再生速度情報も与えられる。再生速度情報は、対象動画像における撮影レートと再生レートの比を表す情報であり、第1実施形態にて述べたフレームレート情報と同じであっても良い。
今、第1実施形態と同様、対象動画像の撮影レートが600fpsであって且つ対象動画像の再生レートが60fpsであったとする。そうすると、伸張部32は、再生速度情報に従いつつ、対象音響信号、音源種類情報、映像解析情報及びシーン設定情報の全部又は一部に基づき、第1実施形態と同様にしてα秒間分の対象音響信号から(10×α)秒間分の音響信号を伸張音響信号として生成する。
映像信号復号部36の復号によって得られた対象映像信号を60fpsにて表示部16に送ることにより対象動画像が60fpsにて再生表示されると共に、対象映像信号の再生と同期した状態で伸張音響信号をスピーカ17に送ることで対象動画像の再生映像に同期した伸張音響信号が(10×α)秒をかけて音として再生される。尚、説明の便宜上、撮影レート及び再生レートが夫々600fps及び60fpsである場合を説明したが、勿論これは例示である。現実的には例えば、撮影レート及び再生レートは夫々60fps及び30fpsとされる。
また、再生時におけるユーザの指示に基づき、伸張処理の方法を変更するようにしても良い。例えば、ユーザは、対象音響信号に対して単純伸張処理を施すべきことを指示することができ、その指示の内容を伸張部32に与えられるシーン設定情報に含めておくことができる。そのような指示が伸張部32に与えられた場合、伸張部32は、音源種類情報及び映像解析情報に依存することなく、音響信号復号部35からの対象音響信号に単純伸張処理を施すことで伸張音響信号を生成する。
<<変形等>>
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1〜注釈3を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
[注釈1]
図25の解析部31、伸張部32、映像信号解析部34、音響信号復号部35及び映像信号復号部36、並びに、図1の表示部16及びスピーカ17と同等の表示部及びスピーカを備えた再生装置(不図示)を、撮像装置1とは別に構成するようにしても良い。このような再生装置に、記録媒体15からの音響信号ストリーム及び映像信号ストリームを与えるようにすれば、第2実施形態に係る撮像装置1と同様の再生が当該再生装置上において実現される。
尚、第1実施形態に係る撮像装置1は、映像信号及び音響信号の記録を行う記録装置としての機能を備え、第2実施形態に係る撮像装置1は、映像信号及び音響信号の再生を行う再生装置としての機能を備える。撮像装置は電子機器の一種であり、記録装置又は再生装置も電子機器の一種である。
[注釈2]
図1の撮像装置1又は上記電子機器を、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。ソフトウェアを用いて撮像装置1又は上記電子機器を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。ソフトウェアを用いて実現される機能をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能を実現するようにしてもよい
[注釈3]
例えば、以下のように考えることができる。対象動画像の撮影時に収音された入力音響信号としての対象音響信号から出力音響信号としての伸張音響信号を生成する出力音響信号生成部は、解析部31及び伸張部32を含んで形成される(図7又は図25を参照)。出力音響信号生成部を含む音響信号処理装置は、音響信号処理部14に相当する、或いは、音響信号処理部14に内在する、或いは、音響信号処理部14を含む、と考えることができる。