JP2011055386A

JP2011055386A - 音響信号処理装置及び電子機器

Info

Publication number: JP2011055386A
Application number: JP2009204315A
Authority: JP
Inventors: Tomoki Oku; 智岐奥
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2011-03-17

Abstract

【課題】映像のスロー再生時に、音源の種類に適した音響信号をスロー再生する。
【解決手段】α秒分の対象動画像を６００ｆｐｓにて撮影する時にα秒分の対象音響信号を収音し、対象動画像を６０ｆｐｓにて再生する際（即ち、（１０×α）秒をかけてスロー再生する際）、対象音響信号を１０倍だけ時間的に引き伸ばした伸張音響信号を再生映像に同期させて再生する。対象音響信号に人の声（ワーという歓声）の音響信号とインパルス音（カキーンという音）の音響信号が含まれる場合、それらを対象音響信号から分離抽出し、前者に対してはピッチを変化させることなく信号長さを引き伸ばすピッチ維持伸張処理を行い、後者に対しては音量の漸次低減を伴いながら繰り返し再生を行うエコー処理を行う。それらの処理後の音響信号の合成信号を伸張音響信号としてスロー再生映像と共に再生する。
【選択図】図１６

Description

本発明は、音響信号に対して信号処理を行う音響信号処理装置に関する。また、本発明は、そのような音響信号処理装置を利用した、記録装置や再生装置等の電子機器に関する。

近年の撮像技術の発展に伴い、通常よりも高速に映像を撮影及び記録することのできる撮像装置が実用化されている。このような高速撮影の機能は、従来は特殊用途の撮像装置にのみ搭載されていたが、最近では民生用の撮像装置にも搭載されている。

この種の撮像装置では、通常撮影モード又は高速撮影モードにて動画像の撮影を行うことができる。通常撮影モードでは、一般的な動画像撮影と同様、１秒間に６０フレーム又は３０フレームの映像を撮影及び記録する。つまり、６０ｆｐｓ（frame per second）又は３０ｆｐｓのフレームレートにて動画像の撮影を行う。通常撮影モードにて記録された動画像を撮影時と同じフレームレート（即ち、６０ｆｐｓ又は３０ｆｐｓ）にて再生すると、等倍速の再生映像が得られる（図５参照）。

これに対し、高速撮影モードでは、３００ｆｐｓや６００ｆｐｓの高速フレームレートにて動画像の撮影が行われる。この高速撮影モードによって撮影された動画像を通常のフレームレートである６０ｆｐｓにて再生すると、１／５倍速や１／１０倍速の滑らかなスロー再生を実現することができる（図６参照）。

例えば、６００ｆｐｓのフレームレートにて１秒間だけ動画像の撮影を行うと、６００フレームから成る動画像が記録されるが、この動画像を６０ｆｐｓのフレームレートにて再生すると、再生に１０秒間かかる。つまり、１秒間分の記録動画像が１０秒間をかけてスロー再生（１／１０倍速のスロー再生）されることになる。

高速撮影に基づくスロー再生が可能な撮像装置も実用化されているが、高速撮影モードにおいては、音響信号が記録されていないのが実情である。１秒間分の動画像の撮影時に１秒間分の音響信号を収音して記録し、その１秒間分の記録音響信号を１０秒間分のスロー再生動画像に同期させた状態でスロー再生しようとすると、音響信号のピッチが変動して間延びしたような音が再生されるためである。

他方において、音響信号のスロー再生に関する技術が下記特許文献１〜３に開示されている。これらの特許文献に示された方法では、何れも、記録又は再生のフレームレートに合わせて音響信号に伸張処理が施されている。音響信号に関する伸張処理とは、伸張処理の対象となる音響信号を時間方向に引き伸ばすことによって当該音響信号の信号長さを増大させる処理を指す。音響信号の信号長さとは、当該音響信号が存在する区間の時間長さを指す。

一般的な伸張処理の方法として、ピッチを維持したまま音響信号を伸張する方法（換言すれば、ピッチを伸張処理の前後において変化させない方法）が知られており、声の音程を変化させることなく発話速度を増減させる話速変換技術に応用されている。しかしながら、この方法を単純に映像のスロー再生に適用することは望ましくない。ピッチを維持したまま音響信号を伸張する方法は、基本的に人の声の伸張に適した方法であり、動画像と共に記録された音響信号が例えば音楽の音響信号である場合に該伸張方法を適用すると、違和感のある音が再生されることになるからである。動画像と共に記録された音響信号が人の声及び音楽以外の音源によるものである場合においても、同様の問題が発生しうる。

再表２００７−２９８３２号公報（ＷＯ２００７／０２９８３２）特開２００１−２９８７１０号公報特開２００８−２１９８５７号公報

そこで本発明は、映像のスロー再生に適した音響信号を生成可能な音響信号処理装置及び電子機器を提供することを目的とする。

本発明に係る音響信号処理装置は、対象動画像を第１フレームレートにて撮影しているときに収音された入力音響信号から、前記入力音響信号よりも長い信号長さを有する出力音響信号を生成する出力音響信号生成部を備えた音響信号処理装置であって、前記出力音響信号は、前記対象動画像を前記第１フレームレートよりも小さな第２フレームレートで再生するときに前記対象動画像とともに音として再生されるべき音響信号であり、前記出力音響信号生成部は、前記入力音響信号の音源の種類に応じて前記入力音響信号から前記出力音響信号を生成することを特徴とする。

これにより、音源の種類に適応した、映像のスロー再生用の音響信号を生成することが可能になる。

具体的には例えば、前記出力音響信号生成部は、前記入力音響信号に基づいて前記入力音響信号の音源の種類を解析する音源種類解析部を備え、前記音源種類解析部によって解析された、前記入力音響信号の音源の種類に応じて、前記入力音響信号から前記出力音響信号を生成する。

また例えば、前記音源種類解析部は、前記入力音響信号に基づいて前記入力音響信号の音源に人の声が含まれているのか否かを判断し、前記出力音響信号生成部は、前記入力音響信号の音源に人の声が含まれているか否かに応じて、前記入力音響信号から前記出力音響信号を生成する方法を変更する。

より具体的には例えば、前記出力音響信号生成部は、前記入力音響信号に種類の異なる複数の音源からの音響信号が含まれているとき、前記音源種類解析部を用いて、前記複数の音源からの音響信号を複数の分離音響信号として個別に前記入力音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから前記複数の分離音響信号を合成することにより前記出力音響信号を生成する。

これにより、入力音響信号に含まれうる複数の音源からの音響信号ごとに、音源の種類に適応した伸張処理を施すことができる。

また例えば、前記出力音響信号生成部は、前記音源種類解析部による解析結果だけでなく前記対象動画像の映像信号に対する解析結果にも基づいて、前記入力音響信号から前記出力音響信号を生成する。

これにより、映像内容にも適用した音響信号を生成及び再生することが可能となる。

本発明に係る電気機器は、前記音声信号処理を備えた電子機器であって、前記対象動画像を第１フレームレートにて撮影しているときにおいて、前記入力音響信号から前記出力音響信号を生成して前記出力音響信号を記録媒体に記録する、或いは、前記入力音響信号を前記記録媒体に記録しておき、前記対象動画像を第２フレームレートにて再生するときにおいて、記録された前記入力音響信号から前記出力音響信号を生成して前記対象動画像とともに前記出力音響信号を再生することを特徴とする。

本発明によれば、映像のスロー再生に適した音響信号を生成可能な音響信号処理装置及び電子機器を提供することができる。

本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。

本発明の第１実施形態に係る撮像装置の全体的構成を表すブロック図である。図１の操作部の内部ブロック図である。図１のマイク部の内部ブロック図である。２つのマイクロホンを備えた撮像装置の外観斜視図である。本発明の第１実施形態に係り、通常撮影モードにて撮影された動画像の再生イメージ図である。本発明の第１実施形態に係り、高速撮影モードにて撮影された動画像の再生イメージ図である。本発明の第１実施形態に係り、伸張音響信号の生成に関与する部位のブロック図である。再生時における対象動画像及び伸張音響信号の時間的関係を示す図である。特定区間における対象音響信号に対して設定された基準ブロック及び評価ブロックを示す図である。基準ブロック及び評価ブロック間の自己相関値が、両ブロック間の位置差（ｐ）の変化に対して周期的に極大値をとる様子を示した図である。対象音響信号と伸張音響信号の関係例を示す図である。分離音響信号の生成を介して対象音響信号から伸張音響信号が生成される様子を示す図である。伸張処理の一種である単純伸張処理のイメージ図である。伸張処理の一種であるピッチ維持伸張処理のイメージ図である。伸張処理の一種であるエコー処理のイメージ図である。本発明に係る第１の伸張具体例に係り、対象音響信号及び対象動画像の通常再生のイメージ図（ａ）と、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図（ｂ）である。本発明に係る第１の伸張具体例に係り、対象音響信号の全区間が３つの区間に分割される様子を示す図である。本発明に係る第１の伸張具体例に係り、歓声及び打撃音を含む対象音響信号の周波数スペクトル（ａ）と該周波数スペクトルのフーリエ変換（ｂ）を示すグラフである。本発明に係る第２の伸張具体例に係り、対象音響信号及び対象動画像の通常再生のイメージ図（ａ）と、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図（ｂ）である。本発明に係る第２の伸張具体例に係り、２つのマイクロホンと音源の位置関係を説明するための図である。本発明に係る第３の伸張具体例に係り、対象音響信号及び対象動画像の通常再生のイメージ図（ａ）と、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図（ｂ）である。本発明に係る第３の伸張具体例に係り、対象音響信号の全区間が３つの区間に分割される様子を示す図である。本発明に係る第３の伸張具体例に係り、ゴール発声、歓声及びＢＧＭによる音響信号の周波数スペクトルを示すグラフである。本発明に係る第３の伸張具体例に係り、対象音響信号の周波数スペクトルのフーリエ変換を示すグラフである。本発明の第２実施形態に係り、伸張音響信号の生成に関与する部位のブロック図である。

以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。

＜＜第１実施形態＞＞
本発明の第１実施形態を説明する。図１は、本発明の第１実施形態に係る撮像装置１の全体的構成を表すブロック図である。撮像装置１は、符号１１〜１８によって参照される各部位を備える。撮像装置１は、静止画像及び動画像を撮影可能なデジタルビデオカメラである。尚、撮像装置１と異なる再生装置に表示部１６及び／又はスピーカ１７が設けられている、と解釈することも可能である。

撮像部１１は、撮像素子を用いて被写体の撮影を行い、映像信号処理部１２と協働して被写体の画像の映像信号を取得する。具体的には、撮像部１１は、図示されない光学系、絞り、及び、ＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサなどから成る撮像素子を有する。この撮像素子は、光学系及び絞りを介して入射した被写体を表す光学像を光電変換し、該光電変換によって得られたアナログの電気信号を出力する。図示されないＡＦＥ（Analog Front End）は、撮像素子から出力されたアナログ信号を増幅してデジタル信号に変換する。

得られたデジタル信号は映像信号処理部１２に送られ、映像信号処理部１２は該デジタル信号から被写体の画像の映像信号を生成する。尚、デジタル信号形式にて表現された映像信号を画像データとも呼ぶ。また、本明細書では、画像データを単に画像ということもある。映像信号処理部１２は、被写体の画像の画像データに対して様々な画像処理（デモザイキング処理、エッジ強調処理、ノイズ低減処理、画像圧縮処理など）を行うことができる。

マイク部１３は、１又は複数のマイクロホンから成り、撮像装置１の周辺に位置する音源からの音を収音して電気信号に変換する。得られた電気信号は、音響信号として音響信号処理部１４に送られる。音響信号処理部１４では、該音響信号に対して様々な音響信号処理を施すことができるが、詳細は後述する。

記録媒体１５は、半導体メモリ、磁気ディスク等から成る不揮発性メモリであり、映像信号処理部１２にて生成された映像信号及び音響信号処理部１４にて生成された音響信号を記録することができる。表示部１６は、液晶ディスプレイ等から成り、撮像部１１の撮影によって得られた画像や、記録媒体１５に記録されている画像などを表示する。スピーカ１７は、音響信号処理部１４にて生成された音響信号や記録媒体１５に記録されている音響信号を音として再生出力する。

操作部１８は、ユーザが撮像装置１に対して各種操作を行うための部位である。図２に示す如く、操作部１８には、静止画像の撮影指示を行うためのシャッタボタン１８ａ、動画像の撮影開始及び終了を指示するための録画ボタン１８ｂが含まれる。主制御部１９は、操作部１８に対して成された操作内容に従いつつ、撮像装置１内の各部位の動作を統括的に制御する。

マイク部１３を形成するマイクロホンの個数は１であっても良いし又は３以上であっても良いが、本実施形態では、図３に示す如く、マイク部１３が２つのマイクロホン、即ち、マイクロホン１３Ｌ及び１３Ｒから形成される場合を想定する。図４は、マイクロホン１３Ｌ及び１３Ｒが設けられた撮像装置１の外観斜視図である。

マイクロホン１３Ｌ及び１３Ｒは、撮像装置１の筐体上の、互いに異なる位置に配置されている。撮像装置１の被写体に正対した撮影者から見て、左側よりにマイクロホン１３Ｌが配置され、右側よりにマイクロホン１３Ｒが配置されている。また、図４に示す如く、撮像装置１から撮像部１１の撮影範囲に収まる被写体へと向かう方向を前方と定義し、その逆の方向を後方と定義する。マイクロホン１３Ｌ及び１３Ｒは、指向性を有さない無指向性マイクロホンである。但し、指向性を有するマイクロホンを、マイクロホン１３Ｌ及び１３Ｒとして採用することも可能である。

マイクロホン１３Ｌは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。マイクロホン１３Ｒは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン１３Ｌ及び１３Ｒの検出信号であるアナログ音響信号は、夫々、図示されないＡ／Ｄ変換器によってデジタル音響信号に変換される。

マイクロホン１３Ｌを左チャンネルに対応させ、マイクロホン１３Ｒを右チャンネルに対応させて考える。マイクロホン１３Ｌの検出信号に基づく音響信号とマイクロホン１３Ｒの検出信号に基づく音響信号を区別する場合、前者を特に左チャンネルの音響信号などと呼び、後者を特に右チャンネルの音響信号などと呼ぶ。マイクロホン１３Ｌ及び／又は１３Ｒの検出信号をデジタル変換することによって得たデジタル音響信号を原音響信号と呼ぶ。マイクロホン１３Ｌ及び／又は１３Ｒの検出信号をデジタル変換することによって得たデジタル音響信号に所定の信号処理（オートレベルコントロールによる信号レベル調整処理など）を施して得た音響信号を、原音響信号と捉えても良い。原音響信号は、時間軸上の信号であるとする。また、特に記述なき限り、本実施形態及び後述の他の実施形態における任意の音響信号は、時間軸上の音響信号（時間領域で表現された音響信号）であると解釈することができる。

ところで、撮像装置１では、動画像の撮影時のフレームレートが可変となっていると共に動画像の再生時のフレームレートも可変となっている。ユーザは、操作部１８を介して、撮影モードを通常撮影モード又は高速撮影モードに設定することができる。以下、動画像の撮影時のフレームレートを撮影レートとも呼び、動画像の再生時のフレームレートを再生レートとも呼ぶ。

通常撮影モードでは、図５に示す如く動画像が６０ｆｐｓ（frame per second）にて撮影される。そして、６０ｆｐｓにて撮影された動画像を、同じフレームレート（即ち６０ｆｐｓ）にて再生することができる。この場合、撮影された動画像が通常の再生速度にて表示部１６上に表示される。つまり、１秒間をかけて撮影された６０枚のフレームが１秒間をかけて表示部１６上に表示される。

高速撮影モードでは、図６に示す如く動画像が６００ｆｐｓにて撮影される。そして、６００ｆｐｓにて撮影された動画像を、６０ｆｐｓにて再生することができる。この場合、１秒間をかけて撮影された６００枚のフレームが１０秒間をかけて表示部１６上に表示される。これにより、実質的なスロー再生を実現することができる。尚、撮影レート及び再生レートの具体的数値は、勿論、例示であり、通常撮影モードにおける撮影レートは６０ｆｐｓ以外（例えば３０ｆｐｓ）であっても良いし、高速撮影モードにおける撮影レートは６００ｆｐｓ以外（例えば３００ｆｐｓ）であっても良い。再生レートの具体的数値は、撮影レートの変更に伴って変更されうる。

以下の説明では、高速撮影モードにおいて６００ｆｐｓにて対象動画像の撮影が行われ、対象動画像が再生時において６０ｆｐｓにて再生されることを想定する。α秒間をかけて対象動画像が撮影される際、その撮影区間においてα秒間分の原音響信号が収音されるが、α秒間をかけて撮影された対象動画像を（１０×α）秒間をかけてスロー再生する時に、原音響信号も単純にスロー再生するようにすると、音響信号のピッチが変動して間延びしたような音が再生される（αは任意の正の数）。ピッチとは音響信号の基本周波数であり、音源が人の声である場合、ピッチとは人の声帯振動による音響信号の基本周波数のことである。

ピッチを維持したまま音響信号を伸張する方法（換言すれば、ピッチを伸張処理の前後において変化させない方法）も知られているが、そのような伸張方法が常に適切であるとは限らない。ピッチを維持した伸張方法では、基本的に、音響信号を複数のブロックに切り分けて同一のブロックを複数回繰り返し再生することで、音響信号の引き伸ばしを行う。このため、人の声の音響信号に対してはピッチを維持した伸張方法が比較的適しているが（音程が変化せず単に一つ一つの音が引き伸ばされるため）、該伸張方法を様々な周波数が混ざり合って形成された音楽に適用すると違和感のある音が生成されることが多い。また、野球のバッティングシーンなどをスロー再生する場合には、バットでボールを打った瞬間の音をエコー処理したほうが、より再生映像にマッチするものと考えられる。

これらを考慮し、対象動画像の再生に適応した音響信号を原音響信号から生成する機能を、撮像装置１に設ける。図７に、この機能に特に関与する部位のブロック図を示す。図７に示される音源種類解析部３１、音響信号伸張部３２及び音響信号符号化部３３を、図１の音響信号処理部１４に設けておくことができ、図１に示される映像信号解析部３４を図１の映像信号処理部１２に設けておくことができる。

音源種類解析部３１（以下、解析部３１と略記することがある）及び音響信号伸張部３２（以下、伸張部３２と略記することがある）には、対象音響信号が入力される。対象音響信号とは、対象動画像の撮影時においてマイク部１３にて収音された原音響信号である。

解析部３１は、対象音響信号に基づいて対象音響信号に含まれる信号成分の音源の種類を解析する。換言すれば、如何なる種類の音源からの音響信号が対象音響信号に含まれているのかを、対象音響信号に基づいて解析する。例えば、対象音響信号に含まれる信号成分の音源の種類が、人の声であるのか（換言すれば人の声帯であるのか）、音楽であるのか、インパルス状の音（以下、インパルス音という）であるのか、動物の鳴き声であるのかを解析する。解析部３１の解析結果を表す情報は、音源種類情報として伸張部３２に送られる。

一方で、映像信号解析部３４は、対象動画像の映像信号である対象映像信号に基づき対象動画像に含まれる物体等の解析を行う。例えば、顔検出処理を用いて対象動画像上に人の顔が存在しているか否かを解析することができる。また例えば、対象動画像上における物体の動きの速度の大きさから対象動画像がスポーツ風景を撮影したものであるのか否かを解析することもできる。映像信号解析部３４の解析結果を表す情報は、映像解析情報として伸張部３２に送られる。

伸張部３２は、フレームレート情報に従って、対象音響信号を時間的に伸張することにより伸張音響信号を生成する。フレームレート情報によって、対象動画像の撮影レートと対象動画像の再生レートが規定される。本例では、上述したように、対象動画像の撮影レートは６００ｆｐｓであって且つ対象動画像の再生レートは６０ｆｐｓであるため、α秒間分の対象音響信号から（１０×α）秒間分の音響信号を伸張音響信号として生成する。

対象音響信号から伸張音響信号を生成する方法は、主として音源種類情報に応じて決定され、その方法を、映像解析情報及びシーン設定情報にも依存して決定することができる。シーン設定情報とは、設定された撮影シーンを指し示す情報であり、ユーザは、操作部１８を用いて撮影シーンを所望のものに設定することができる。例えば、スポーツ風景を撮影する場合、ユーザは撮影シーンを「スポーツ」に設定することができ、撮像装置１に近接した被写体を撮影する場合、ユーザは撮影シーンを「マクロ」に設定することができる。撮影シーンが「スポーツ」に設定されている時、撮像装置１は、スポーツ風景の撮影に適した撮影条件にて対象動画像の撮影を実行し、撮影シーンが「マクロ」に設定されている時、撮像装置１は、近接した被写体の撮影に適した撮影条件にて対象動画像の撮影を実行する。

音源種類情報、映像解析情報及びシーン設定情報に応じた伸張音響信号の生成方法については後に詳説される。尚、対象音響信号に基づく伸張音響信号の生成をチャンネルごとに行うことができる。即ち、伸張部３２は、左チャンネルの対象音響信号を時間的に伸張することにより左チャンネルの伸張音響信号を生成し、右チャンネルの対象音響信号を時間的に伸張することにより右チャンネルの伸張音響信号を生成することができる。以下では、特に必要の無い限り、チャンネルを区別しての説明は行わない。

音響信号符号化部３３は、伸張部３２にて生成された伸張音響信号を所定の符号化方式（例えば、ＡＡＣ（Advanced Audio Coding））にて符号化することにより符号化音響信号を生成する。他方、図１の映像信号処理部１２において、対象動画像の映像信号は符号化されて符号化映像信号が生成される。符号化音響信号は、対象動画像の符号化映像信号に対して時間的に関連付けられつつ、対象動画像の符号化映像信号と共に記録媒体１５に記録される。

再生時には、記録媒体１５から対象動画像の符号化映像信号と符号化音響信号が読み出され、映像信号処理部１２及び音響信号処理部１４においてそれらは復号されて、対象動画像の映像信号と伸張音響信号が生成される。復号によって得られた映像信号を６０ｆｐｓにて表示部１６に送ることにより対象動画像が６０ｆｐｓにて再生表示されると共に、伸張音響信号をスピーカ１７に送ることで対象動画像の再生映像に同期した伸張音響信号が音として再生される。

図８に、再生時における対象動画像と伸張音響信号の時間的関係を示す。α秒間をかけて６００ｆｐｓにて撮影された対象動画像は、再生時において（１０×α）秒間をかけて６０ｆｐｓにて再生される。一方、対象動画像の撮影時に収音されたα秒分の原音響信号から生成された（１０×α）秒分の伸張音響信号は、６０ｆｐｓによる対象動画像の再生に同期した状態で、（１０×α）秒をかけてスピーカ１７にて再生される。

［音源種類解析方法］
解析部３１による、音源の種類の解析方法について説明する。対象音響信号が存在する全区間に含まれる特定区間に注目し、特定区間における対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断する方法を説明する。尚、解析部３１は、特定区間における左チャンネル及び右チャンネルの対象音響信号の内、左チャンネルの対象音響信号のみに基づいて、又は、右チャンネルの対象音響信号のみに基づいて、特定区間における左チャンネル及び右チャンネルの対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断することができる。或いは、特定区間における左チャンネル及び右チャンネルの対象音響信号に基づいて、その判断を行うことも可能である。

特定区間における対象音響信号に人の声による音響信号が含まれているか否かを、音声認識処理等で利用されている公知の発話区間検出方法（例えば、特開平１０−２５７５９６号公報に示された方法）を用いて検出することができる。具体的には例えば、自己相関処理を利用したピッチ抽出に基づく方法によって、特定区間における対象音響信号に人の声による音響信号が含まれているか否かを検出することができる。人の声による音響信号が含まれている区間を特に発話区間とも呼ぶ。

特定区間に１０２４サンプル分のデジタル音響信号が含まれている場合を考えて、解析部３１にて採用可能な、発話区間の検出方法を説明する。特定区間の対象音響信号を形成する１０２４サンプル分のデジタル音響信号の内、ｔ番目のデジタル音響信号の信号値をｘ（ｔ）にて表す。ｔは、１〜１０２４の間の整数値をとる。

解析部３１は、図９に示す如く、１〜１２８番目のデジタル音響信号から成るブロックを基準ブロックとして自己相関を計算する。つまり、特定区間内に、１２８個の連続するデジタル音響信号から成る評価ブロックを定義し、評価ブロックの時間的な位置を順次ずらしながら、基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式（１）に従って自己相関値Ｓ（ｐ）を算出する。自己相関値Ｓ（ｐ）は、評価ブロックの位置を決める変数ｐの関数であり、ｐは、０≦ｐ≦（１０２４−１２８）、を満たす各整数をとる。

図１０に、求められた自己相関値Ｓ（ｐ）の変数ｐ依存性を示す。図１０において、横軸は、変数ｐである。図１０は、特定区間における対象音響信号に人の声による音響信号が含まれている場合に対応している。対象音響信号に人の声帯振動によるピッチが含まれていると自己相関値Ｓ（ｐ）が周期的に大きな値をとる。解析部３１は、自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨ_Aを超えており且つその周期の逆数である基本周波数が所定の周波数範囲Ｒ_VOICEに収まる場合に、特定区間における対象音響信号に人の声による音響信号が含まれていると判断することができ（即ち、特定区間が発話区間であると判断することでき）、そうでない場合には、特定区間における対象音響信号に人の声による音響信号が含まれていないと判断することができる。例えば、不等式「Ｓ（ｐ）＞ＴＨ_A」を満たす変数ｐの間隔が一定（或いは略一定）の場合に、自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨ_Aを超えていると判断する。人の声帯振動によるピッチ（基本周波数）は概ね８０〜２７０Ｈｚの帯域に存在するため、周波数範囲Ｒ_VOICEの下限周波数及び上限周波数は例えば夫々５０Ｈｚ及び３００Ｈｚに設定される。

特定区間における対象音響信号に音楽による音響信号が含まれているか否かも、上述の発話区間の検出方法と同様の方法にて検出することができる。音楽による音響信号も一定の周期性を有しているからである。但し、一般的に音楽による音響信号の基本周波数は、人の声帯振動による音響信号のそれよりも高い。従って、解析部３１は、自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨ_Aを超えており且つその周期の逆数である基本周波数が所定の周波数範囲Ｒ_VOICEの上限周波数を超えている場合に、特定区間における対象音響信号に音楽による音響信号が含まれていると判断することができる。

尚、音楽の音響信号の基本周波数が、仮に人の声のそれと同程度であったとしても、人の声に特有のスペクトル包絡（エンベロープ）が対象音響信号に見られるか否かを判定することにより、対象音響信号が人の声の音響信号であるか或いは音楽の音響信号であるかを区別することもできる。共振の影響により、人の声による音響信号の周波数スペクトルは、特定の周波数においてピークを持つ傾向がある。他方、このような傾向は音楽の音響信号には見られない。従って、特定区間における対象音響信号について自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨ_Aを超えていて、対象音響信号に人の声又は音楽による音響信号が含まれていると判断されるとき、当該対象音響信号において上記傾向が存在するか否かを峻別することにより、当該対象音響信号が人の声による音響信号及び音楽による音響信号のどちらであるかを区別するようにしても良い。

また、解析部３１は、時間軸上の対象音響信号における信号値又はパワーの変化量の大小に基づいて、対象音響信号に、インパルス音による音響信号が含まれているか否かを判断することができる。具体的には例えば、対象音響信号における信号値又はパワーの、単位時間当たりの変化量が所定の閾値ＴＨ_Bを超えている区間が、特定区間に存在している時、その区間中にインパルス音が存在していると判断することができると共に特定区間における対象音響信号にインパルス音による音響信号が含まれていると判断することができる。インパルス音として、野球のバットでボールを打った瞬間における打撃音や、太鼓をたたく音などが想定される。

また、解析部３１は、特定区間における対象音響信号に基づき、特定区間における対象音響信号中に動物の鳴き声による音響信号が含まれているか否かを判断することもできる。人の声の特徴に基づいて発話区間を検出するのと同様に、動物の鳴き声の特徴に基づいて動物の鳴き声が存在する区間を検出するようにすれば、上記判断は可能である。

動物の鳴き声とは、具体的には、犬又は猫の鳴き声である。犬の鳴き声の場合、様々な犬の鳴き声を事前に学習して犬の鳴き声に関するデータベースを作成しておき、特定区間における対象音響信号と該データベースとを照合することで、特定区間における対象音響信号に犬の鳴き声による音響信号が含まれているか否かを判断することが可能である。この判断を、対象映像信号をも考慮した上で実行するようにしても良い。つまり例えば、特定区間における対象映像信号に基づいて特定区間における対象動画像中に犬の画像が含まれているかを映像信号解析部３４において解析させ、その解析結果をも考慮した上で、特定区間における対象音響信号中に犬の鳴き声による音響信号が含まれているか否かの判断を行うようにしても良い。

［伸張音響信号の生成方法］
次に、伸張部３２による伸張音響信号の生成方法について説明する。伸張部３２は、対象音響信号に、音源種類情報等に適応した伸張処理を施すことで伸張音響信号を生成する。音響信号に関する伸張処理とは、伸張処理の対象となる音響信号を時間方向に引き伸ばすことによって当該音響信号の信号長さを増大させる処理を指す。音響信号の信号長さとは、当該音響信号が存在する区間の時間長さを指す。伸張処理前の特定区間の時間長さはβ秒であるとする（βは任意の正の数）。本例において再生レートは撮影レートの１／１０であるから伸張処理後の特定区間の時間長さは（１０×β）秒であり、特定区間におけるβ秒分の対象音響信号の信号長さは、伸張処理によって１０倍に引き伸ばされて（１０×β）秒分の信号長さを有する伸張音響信号が生成される。勿論、伸張時間（伸張処理によって引き伸ばされる時間）は再生レートに合わせて変更され、例えば再生レートが遅くなるにつれて長くされる。

但し、再生レートに正確に対応する分だけ音響信号の伸張を行うと違和感のある音が再生される可能性もあるため、撮影レート及び再生レート間の差に相当する時間と伸張時間を一致させる必要は必ずしもない。つまり例えば、再生レートが撮影レートの１／１０であるとき、図１１に示す如く、β秒分の対象音響信号を時間軸上で６倍に引き伸ばすことで（６×β）秒分の音響信号を生成し、この（６×β）秒分の音響信号に（４×β）秒分の無音信号を接続することで、（１０×β）秒分の伸張音響信号を生成するようにしても良い。無音信号とは、信号レベル及びパワーがゼロ（又は実質的にゼロ）の音響信号を指す。

伸張部３２にて採用可能な伸張処理として、以下に、単純伸張処理、ピッチ維持伸張処理、エコー処理及びリピート処理を説明する。

詳細な具体例は後述されるが、対象音響信号に種類の異なる複数の音源からの音響信号が含まれている場合（例えば、対象音響信号に人の声による音響信号と音楽による音響信号が混在している場合）、図１２に示す如く、伸張部３２は、その複数の音源からの音響信号を複数の分離音響信号として個別に対象音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから複数の分離音響信号を合成することにより伸張音響信号を生成する。

従って、単純伸張処理やピッチ維持伸張処理等は、分離音響信号ごとに個別に実行される。このため、単純伸張処理やピッチ維持伸張処理等が分離音響信号に対して実行されることを想定して、それらの伸張処理の説明を行う。対象音響信号に単一の音源からの音響信号しか含まれていない場合には、対象音響信号に基づく分離音響信号は、対象音響信号そのものである。尚、図１２は、対象音響信号に２種類の音源からの音響信号が含まれている場合における、伸張音響信号の生成過程のイメージ図である（あくまでイメージ図であり、図１２の波形等の妥当性は低いことに留意すべきである）。

――単純伸張処理――
単純伸張処理について説明する。単純伸張処理が施されるべき、特定区間の分離音響信号を音響信号Ａ₁と呼び、音響信号Ａ₁に単純伸張処理を施して得た音響信号を音響信号Ｂ₁と呼ぶ。本例において、音響信号Ｂ₁の存在する区間長さは、音響信号Ａ₁のそれの１０倍である。図１３は、単純伸張処理のイメージ図である。時間軸上において、音響信号Ａ₁を単純に１０倍に引き伸ばすことで音響信号Ｂ₁が得られる。従って、音響信号Ａ₁に含まれている周波数ｆの信号成分は、音響信号Ｂ₁において周波数（ｆ／１０）の信号成分に変換される。単純伸張処理を施すと、当然ピッチが変化して音程が変質する。

尚、図１１を参照して説明したように、音響信号Ａ₁を単純に６倍に引き伸ばすことで得た（６×β）秒分の音響信号に対して（４×β）秒分の無音信号を接続することで、（１０×β）秒分の音響信号Ｂ₁を生成するようにしても良い。

――ピッチ維持伸張処理――
ピッチ維持伸張処理について説明する。ピッチ維持伸張処理が施されるべき、特定区間の分離音響信号を音響信号Ａ₂と呼び、音響信号Ａ₂にピッチ維持伸張処理を施して得た音響信号を音響信号Ｂ₂と呼ぶ。本例において、音響信号Ｂ₂の存在する区間長さは、音響信号Ａ₂のそれの１０倍である。

ピッチ維持伸張処理では、音響信号Ａ₂及びＢ₂間でピッチが変化しないように音響信号の伸張が成される。この伸張の方法として、公知の話速変換方法を用いることができる。図１４は、ピッチ維持伸張処理のイメージ図である。単純には例えば、音響信号Ａ₂のピッチに応じたブロック長にて特定区間を第１〜第Ｎのブロックに分割し（Ｎは２以上の整数）、第１のブロックにおける音響信号Ａ₂を１０回繰り返した信号と、第２のブロックにおける音響信号Ａ₂を１０回繰り返した信号と、・・・、第（Ｎ−１）のブロックにおける音響信号Ａ₂を１０回繰り返した信号と、第Ｎのブロックにおける音響信号Ａ₂を１０回繰り返した信号とを、この順番で接続することで音響信号Ｂ₂を生成することができる。

尚、図１１を参照して説明したように、第１のブロックにおける音響信号Ａ₂を６回繰り返した信号と、第２のブロックにおける音響信号Ａ₂を６回繰り返した信号と、・・・、第（Ｎ−１）のブロックにおける音響信号Ａ₂を６回繰り返した信号と、第Ｎのブロックにおける音響信号Ａ₂を６回繰り返した信号と、（４×β）秒分の無音信号とを、この順番で接続することで音響信号Ｂ₂を生成するようにしても良い。但し、この方法では、音響信号Ｂ₂の後半に無音信号が偏る。このような偏りを回避するために、第１のブロックにおける音響信号Ａ₂を６回繰り返した信号と、（４×Ｂ_L[1]）秒分の無音信号と、第２のブロックにおける音響信号Ａ₂を６回繰り返した信号と、（４×Ｂ_L[2]）秒分の無音信号と、・・・、第（Ｎ−１）のブロックにおける音響信号Ａ₂を６回繰り返した信号と、（４×Ｂ_L[N-1]）秒分の無音信号と、第Ｎのブロックにおける音響信号Ａ₂を６回繰り返した信号と、（４×Ｂ_L[N]）秒分の無音信号とを、この順番で接続することで音響信号Ｂ₂を生成するようにしても良い。ここで、Ｂ_L[i]は、第ｉのブロックにおけるブロック長（即ち、第ｉのブロックの時間長さ）を表している（ｉは整数）。

――エコー処理――
エコー処理について説明する。エコー処理が施されるべき、特定区間の分離音響信号を音響信号Ａ₃と呼び、音響信号Ａ₃にエコー処理を施して得た音響信号を音響信号Ｂ₃と呼ぶ。本例において、音響信号Ｂ₃の存在する区間長さは、音響信号Ａ₃のそれの１０倍である。

エコー処理では、音響信号Ａ₃と同じ音響信号を、信号レベルを徐々に低減させながら複数回繰り返す。図１５は、エコー処理のイメージ図である。音響信号Ｂ₃は、エコー信号Ａ_3[1]、Ａ_3[2]、Ａ_3[3]、Ａ_3[4]、Ａ_3[5]、Ａ_3[6]、Ａ_3[7]、Ａ_3[8]、Ａ_3[9]及びＡ_3[10]をこの順番で接続した信号である。ここで、エコー信号Ａ_3[i]の信号波形と音響信号Ａ₃の信号波形は相似であり、エコー信号Ａ_3[i+1]の信号レベル及びパワーは、エコー信号Ａ_3[i]の信号レベル及びパワーよりも小さい（ｉは整数）。従って、音響信号Ｂ₃を再生すると、音量が徐々に小さくなりつつ音響信号Ａ₃が繰り返し再生されることになる。例えば、音響信号Ａ₃がバッティングの打撃音である「カキーン」という音であるならば、エコー処理を経た再生により、「カキーン」という音が徐々に音量が小さくされつつ１０回繰り返し再生されることになる。

尚、図１１を参照して説明したように、エコー信号Ａ_3[1]、Ａ_3[2]、Ａ_3[3]、Ａ_3[4]、Ａ_3[5]及びＡ_3[6]を接続した信号と、（４×β）秒分の無音信号とを接続した信号を音響信号Ｂ₃として生成するようにしても良い。また、再生レートに応じて、エコーの回数（即ち、エコー信号Ａ_3[i]を繰り返す回数）、エコーをかける時間（即ち、エコー信号Ａ_3[i]が繰り返される時間）、及び／又は、エコー信号の減衰率（即ち、エコー信号Ａ_3[i+1]の信号レベルの、エコー信号Ａ_3[i]の信号レベルに対する減衰率）を変更するようにしても良い。

――リピート処理――
リピート処理について説明する。リピート処理が施されるべき、特定区間の分離音響信号を音響信号Ａ₄と呼び、音響信号Ａ₄にリピート処理を施して得た音響信号を音響信号Ｂ₄と呼ぶ。本例において、音響信号Ｂ₄の存在する区間長さは、音響信号Ａ₄のそれの１０倍である。

リピート処理では、音響信号Ａ₄と同じ音響信号を単純に複数回繰り返す。つまり、音響信号Ｂ₄は、リピート信号Ａ_4[1]、Ａ_4[2]、Ａ_4[3]、Ａ_4[4]、Ａ_4[5]、Ａ_4[6]、Ａ_4[7]、Ａ_4[8]、Ａ_4[9]及びＡ_4[10]をこの順番で接続した信号であり、リピート信号Ａ_4[1]〜Ａ_4[10]の夫々は、信号レベルも含め、音響信号Ａ₄と同じものである。従って例えば、音響信号Ａ₄が或る音楽の音響信号である場合、リピート処理を経て得られた音響信号Ｂ₄の再生時には、その音楽が音程の変質等を伴うことなく、（１０×β）秒分の特定区間において通常の再生速度で繰り返し再生される。

伸張部３２は、音源種類情報等に応じて分離音響信号に対して成すべき伸張処理の内容を変更する。例えば、注目した分離音響信号の音源の種類が人の声であると判断される場合においては、その注目した分離音響信号に対してピッチ維持伸張処理を行い、注目した分離音響信号の音源の種類がインパルス音であると判断される場合においては、その注目した分離音響信号に対してエコー処理を行うことができる。

また例えば、注目した分離音響信号の音源の種類が音楽であると判断される場合においては、その注目した分離音響信号に対してリピート処理を行うことができる、或いは、その注目した分離音響信号を削除するようにしても良い（つまり、音楽の信号成分を伸張音響信号から除外するようにしても良い）、更に或いは、その注目した分離音響信号の信号レベルを低減するようにしても良い。或る特定の音響信号を削除するとは、その特定の音響信号の信号成分が伸張音響信号に含まれなくなるように、その特定の音響信号の信号成分を伸張処理の過程で対象音響信号から削除する操作を指す。このように、分離音響信号の音源の種類が人の声であるのか否かに応じて伸張処理の方法を変更することができる。また、映像解析情報にも応じて伸張処理の内容を決定するようにしても良い（映像解析情報の利用例は、後述の第２の伸張具体例にて詳説）。

次に、音源種類情報等に基づく伸張処理の、様々な状況に応じた具体例として、第１〜第４の伸張具体例を説明する。

［第１の伸張具体例］
第１の伸張具体例を説明する。第１の伸張具体例では、野球の試合においてバッターがバットでボールを打撃する様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、バットでボールを打撃する時に生じる打撃音の音響信号に加え、野球の出場選手を応援している人の歓声の音響信号が含まれているものとする。

解析部３１及び伸張部３２は、対象音響信号を解析することで対象音響信号から打撃音の音響信号と歓声の音響信号を別々に分離音響信号として抽出し、打撃音の分離音響信号に対してはエコー処理を施す一方で歓声の分離音響信号に対してはピッチ維持伸張処理を施す。そして、エコー処理後の打撃音の分離音響信号とピッチ維持伸張処理後の歓声の分離音響信号を合成することで伸張音響信号を生成する。

図１６（ａ）は、第１の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図１６（ｂ）は、第１の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、歓声がピッチを維持した状態でスロー再生される一方で打撃の瞬間が表示される周辺区間においては打撃音である「カキーン」という音が音量の漸次低減を伴いながら繰り返し出力される。尚、このシーンでは、打撃の瞬間が最も重要なタイミングであるため、打撃の瞬間を含む区間においては、歓声の音量をなるだけ低減させることが望ましい。

第１の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図１７に示す如く、対象音響信号の全区間が３つの区間Ｐ_1A、Ｐ_1B及びＰ_1Cに分類され、区間Ｐ_1A及びＰ_1Cには歓声の音響信号のみが存在し、区間Ｐ_1Bには打撃音と歓声の音響信号が存在する場合を想定する。

区間Ｐ_1A及びＰ_1Cにおける対象音響信号には歓声（即ち、人の声）の音響信号のみが含まれているため、解析部３１は、上述した方法によって、区間Ｐ_1A及びＰ_1Cにおける対象音響信号に人の声による音響信号が含まれていることを容易に知ることができる。更に、解析部３１は、区間Ｐ_1Bを特定区間とみなした上で、特定区間の対象音響信号にインパルス音による音響信号が含まれているか否かを判断する上述の方法を用いることで、区間Ｐ_1Bにおける対象音響信号にインパルス音による音響信号が含まれていることを知ることができる。

区間Ｐ_1A及びＰ_1Cにおける対象音響信号に人の声の音響信号が含まれているため、解析部３１又は伸張部３２は、区間Ｐ_1Bにおける対象音響信号にも人の声の音響信号が含まれていると推測することができる。伸張部３２は、区間Ｐ_1Bにおける対象音響信号から人の声の音響信号とインパルス音（今の例において打撃音）の音響信号を分離抽出すべく、区間Ｐ_1Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間Ｐ_1Bにおける周波数軸上の対象音響信号、即ち、区間Ｐ_1Bにおける対象音響信号の周波数スペクトルを生成する。フーリエ変換として、離散フーリエ変換が用いられる。

図１８（ａ）におけるグラフには、区間Ｐ_1Bにおける対象音響信号の周波数スペクトル３１０の各スペクトル成分が示されている。周波数スペクトル３１０は、実線３１１で表される人の声のスペクトル成分と破線３１２で表されるインパルス音のスペクトル成分とを足し合わせたものとなる。人の声のスペクトル成分３１１は周波数の変化に対して周期的に変動する一方、広範な周波数成分の足し合わせに相当するインパルス音のスペクトル成分３１２は周波数の変化に対して周期的に変動するような性質を有さない。

このような性質に注目し、伸張部３２は、周波数スペクトル３１０に対して、もう一度、フーリエ変換を施す。周波数軸上の音響信号にフーリエ変換を施すことで、音響信号がＦ軸上の音響信号に変換されるものとする。図１８（ｂ）におけるグラフは、区間Ｐ_1BにおけるＦ軸上の対象音響信号３２０を表している。Ｆ軸上の対象音響信号３２０は、実線３２１で表される人の声の信号成分と破線３２２で表されるインパルス音の信号成分とを足し合わせたものとなる。上述したような性質から、Ｆ軸上では、人の声の信号成分とインパルス音の信号成分とが分離して存在することとなる。周波数軸上の或る注目音響信号が周波数の変化に対して周期的に変動している場合において、その変動の周期が短くなると、Ｆ軸上における注目音響信号はより高域側にシフトするものとする。

伸張部３２は、信号成分３２１の、Ｆ軸上の周波数が所定の音声周波数範囲に収まっている場合、信号成分３２１は人の声の信号成分であると判断することができ、そうでない場合、信号成分３２１は人の声の信号成分ではないと判断することができる。今、信号成分３２１の、Ｆ軸上の周波数が所定の音声周波数範囲に収まっているものとする。

伸張部３２は、Ｆ軸上の対象音響信号３２０の内、Ｆ軸の高域側に位置している信号成分（即ち、信号成分３２１）が人の声の信号成分であって且つＦ軸の低域側に位置している信号成分（即ち、信号成分３２２）がインパルス音の信号成分であるとみなし、前者の信号成分（即ち、信号成分３２１）と後者の信号成分（即ち、信号成分３２２）に対して個別に２回、逆フーリエ変換を施す。逆フーリエ変換として、離散逆フーリエ変換が用いられる。これにより、信号成分３２１から、区間Ｐ_1Bにおける人の声による時間軸上の分離音響信号が生成され、信号成分３２２から、区間Ｐ_1Bにおけるインパルス音による時間軸上の分離音響信号が生成される。尚、区間Ｐ_1Aにおける人の声による時間軸上の分離音響信号（即ち、区間Ｐ_1Aにおける対象音響信号）及び／又は区間Ｐ_1Cにおける人の声による時間軸上の分離音響信号（即ち、区間Ｐ_1Cにおける対象音響信号）から、区間Ｐ_1Bにおける人の声による時間軸上の分離音響信号を推定するようにしても良い。

逆フーリエ変換を介して得た、区間Ｐ_1Bにおける人の声及びインパルス音の分離音響信号に対して、互いに異なる伸張処理が施される。一方、区間Ｐ_1A及びＰ_1Cにおける対象音響信号には人の声の音響信号しか含まれていないため、区間Ｐ_1A及びＰ_1Cに対しては対象音響信号そのものにピッチ維持伸張処理が施される。つまり、伸張部３２は、区間Ｐ_1Aにおける対象音響信号、区間Ｐ_1Bにおける人の声の分離音響信号及び区間Ｐ_1Cにおける対象音響信号にピッチ維持伸張処理を施して時間的に接続することで伸張音響信号の第１成分を生成し、一方で、区間Ｐ_1Bにおけるインパルス音の分離音響信号に対してエコー処理を施すことで伸張音響信号の第２成分を生成する。ここで、伸張音響信号の第１成分は全区間における音響信号を含むが、伸張音響信号の第２成分は区間Ｐ_1Bにおける音響信号しか含まない。伸張部３２は、伸張音響信号の第１成分及び第２成分を合成することで、最終的な伸張音響信号を生成する。

上述のようにして得られる伸張音響信号を映像のスロー再生と共に再生することで、野球の打撃シーンを迫力のあるシーンとして再生することができる。

［第２の伸張具体例］
第２の伸張具体例を説明する。第２の伸張具体例では、公園などにおいて子供の遊んでいる様子が対象動画像として撮影されたことを想定する。撮影対象となる子供を、特に注目人物と呼ぶ。そして、対象音響信号には、注目人物の声の音響信号に加え、公園内にいる他の人（以下、非注目人物という）の声の音響信号が含まれていることを想定する。

図１９（ａ）は、第２の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図１９（ｂ）は、第２の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、注目人物の声がピッチを維持した状態でスロー再生される。

第２の伸張具体例では、伸張音響信号の生成に当たり、対象音響信号の解析結果に加えて対象映像信号の解析結果もが利用される。具体的には、以下のように処理される。

映像信号解析部３４は、対象映像信号に基づき、基準顔サイズ以上の大きさを有する人の顔が対象動画像上に含まれているか否かを判断する。今、対象動画像上に注目人物の顔が存在しており、対象動画像上における注目人物の顔の大きさが所定の基準顔サイズ以上であったとする。そうすると、映像信号解析部３４は、基準顔サイズ以上の大きさを有する顔（人の顔）が対象動画像上に含まれていると判断し、その判断結果を含む映像解析情報を伸張部３２に送る。このような映像解析情報が送られてくると、伸張部３２は、その映像解析情報と解析部３１から音源種類情報に基づき、対象音響信号に対してピッチ維持伸張処理だけでなく正面音強調処理を施し、それらの処理後の対象音響信号を伸張音響信号として出力する。尚、対象動画像上に基準顔サイズ以上の大きさを有する人の顔が含まれていない場合、対象音響信号に対して正面音強調処理は成されない。

正面音強調処理は、対象音響信号の内、撮像装置１の正面方向から到来した音（以下、正面音という）の信号成分を強調する処理、または、それ以外の方向から到来した音（以下、非正面音）の信号成分を低減する処理である。或いは、前者の処理と後者の処理を共に正面音強調処理において実行するようにしても良い。

例えば、図２０に示す如く、左チャンネルのマイクロホン１３Ｌの振動板中心と右チャンネルのマイクロホン１３Ｒの振動板中心との中点を原点Ｏとし、両振動板中心を結ぶ直線をＸ軸とし、Ｘ軸と直交し且つ原点Ｏを通る直線をＹ軸と定義する。ＸＹ座標面は、Ｘ軸及びＹ軸を座標軸として持つ座標面である。更に、マイクロホン１３Ｌからマイクロホン１３Ｒに向かう方向がＸ軸の正の方向であって、原点ＯからＹ軸の正側に向かう方向が撮像装置１にとっての前方であると定義する（図４も参照）。図２０において、線分３３１及び３３２は、原点Ｏを通り且つＹ軸と３０°の角度を以って交差する線分である。但し、線分３３１は原点ＯからＸＹ座標面上の第１象限に向かって伸び、線分３３２は原点ＯからＸＹ座標面上の第２象限に向かって伸びる。Ｙ軸は、撮像部１１の光軸と略平行であり、線分３３１から線分３３２に向かう時に横切る、６０°の範囲内に位置する物体が概ね撮像部１１の撮像対象となる。説明の簡略化上、Ｘ軸及びＹ軸の夫々に直交するＺ軸方向の存在を無視するが、実際には、撮像部１１の撮影範囲はＺ軸方向にも広がっている。

ＸＹ座標面の第１象限内であって且つ線分３３１よりもＹ軸側に位置する音源から到来する音及びＸＹ座標面の第２象限内であって且つ線分３３２よりもＹ軸側に位置する音源から到来する音を正面音とみなし、それら以外の音源からの音を非正面音とみなす。正面音強調処理では、左チャンネルの対象音響信号及び右チャンネルの対象音響信号の位相差に基づき、左チャンネル及び右チャンネルの対象音響信号の内、正面音の音響信号成分を強調する、及び／又は、非正面音の音響信号成分を低減する（非正面音の音響信号成分を完全に削除するようにしても良い）。尚、位相差情報に基づき特定方向から到来した音の信号成分を強調又は低減する方法として、公知の方法を含む任意の方法を用いることができる。

上述のようなピッチ維持伸張処理及び正面音強調処理を介して得られる伸張音響信号を再生すると、注目人物の声のピッチが維持された状態で、注目人物の声の音量が非注目人物のそれに対して大きくなり、注目人物の声が聴きとりやすくなる。

尚、対象動画像から登録人物の顔が検出された場合にのみ、上述の正面音強調処理を行うようにしても良い。つまり、注目人物となるべき登録人物の顔画像を予め撮像装置１に登録しておき、映像信号解析部３４にて、対象映像信号に基づき該顔画像と対象動画像の各部の画像とを対比することで対象動画像上に登録人物の顔が存在しているか否かを検出する。そして、対象動画像上に登録人物の顔が存在していると判断された場合にのみ、上述の正面音強調処理を行うようにしても良い。

［第３の伸張具体例］
第３の伸張具体例を説明する。第３の伸張具体例では、運動会の徒競走において注目人物がゴール地点を走り抜ける様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、徒競走の審判による「ゴール」という掛け声（以下、ゴール発声という）の音響信号、周辺で応援している人の歓声による音響信号、及び、周辺で鳴っている音楽（以下、ＢＧＭという）の音響信号が含まれているものとする。また、対象音響信号において、ゴール発声の音響信号の信号レベルは、歓声のそれよりも十分に大きいものとする。

解析部３１及び伸張部３２は、対象音響信号を解析することで対象音響信号からゴール発声の音響信号、歓声による音響信号及びＢＧＭの音響信号を別々に分離音響信号として抽出し、ゴール発声の分離音響信号に対してはピッチ維持伸張処理（又はエコー処理）を施し、歓声の分離音響信号に対しては音量を低減しつつピッチ維持伸張処理を施し、ＢＧＭの分離音響信号に対してはリピート処理を施す。そして、それらの処理後の分離音響信号を合成することで伸張音響信号を生成する。尚、ＢＧＭの分離音響信号の音量を低減させた上でリピート処理を行うようにしても良いし、ＢＧＭの分離音響信号を削除するようにしても良い。

図２１（ａ）は、第３の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図２１（ｂ）は、第３の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。

第３の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図２２に示す如く、対象音響信号の全区間が３つの区間Ｐ_2A、Ｐ_2B及びＰ_2Cに分類され、区間Ｐ_2A及びＰ_2Cには歓声及びＢＧＭの音響信号のみが存在し、区間Ｐ_2Bには歓声及びＢＧＭの音響信号に加え、ゴール発声の音響信号が存在する場合を想定する。

まず、区間Ｐ_2Bに対する伸張方法について説明する。解析部３２は、区間Ｐ_2Bを特定区間とみなした上で、上述した方法を用いることにより、区間Ｐ_2Bの対象音響信号に人の声による音響信号が含まれているか否か、及び、区間Ｐ_2Bの対象音響信号に音楽による音響信号が含まれているか否かを検出することができる。第３の伸張具体例における想定下では、区間Ｐ_2Bの対象音響信号に人の声及び音楽による音響信号が含まれていると検出される。

伸張部３２は、区間Ｐ_2Bにおける対象音響信号から人の声の音響信号と音楽（今の例においてＢＧＭ）の音響信号を分離抽出すべく、区間Ｐ_2Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間Ｐ_2Bにおける周波数軸上の対象音響信号、即ち、区間Ｐ_2Bにおける対象音響信号の周波数スペクトルを生成する。

図２３（ａ）、（ｂ）及び（ｃ）のグラフに示される周波数スペクトル３６１、３６２及び３６３は、夫々、ゴール発声による音響信号の周波数スペクトル、歓声による音響信号の周波数スペクトル及びＢＧＭによる音響信号の周波数スペクトルである。実際には、スペクトル３６１〜３６３を足し合わせたものが区間Ｐ_2Bの対象音響信号の周波数スペクトルとして生成されるため、周波数軸上においてスペクトル３６１〜３６３を分離することはできない。

但し、対象音響信号においてゴール発声の信号レベルが歓声のそれよりも十分に大きく、且つ、人の声の基本周波数は音楽のそれよりも随分低い。これを考慮し、伸張部３２は、スペクトル３６１〜３６３の合成スペクトルである、区間Ｐ_2Bの対象音響信号の周波数スペクトルに対して、もう一度、フーリエ変換を施す。図２４（ａ）におけるグラフは、区間Ｐ_2BにおけるＦ軸上の対象音響信号３７０を表している。Ｆ軸上の対象音響信号３７０は、曲線３７１で表される人の声の信号成分と曲線３７２で表される音楽の信号成分（即ち、ＢＧＭの信号成分）とを足し合わせたものとなる。人の声の基本周波数は音楽のそれよりも随分低いという性質から、Ｆ軸上では、人の声の信号成分と音楽の信号成分とが分離して存在している。

曲線３７１で表される人の声の信号成分には、信号レベルの比較的大きいゴール発声による信号成分と信号レベルの比較的小さい歓声による信号成分とが混在している。図２４（ｂ）の破線３８１内は前者の信号成分を表し、図２４（ｃ）の破線３８２及び３８３内は後者の信号成分を表している。尚、ゴール発声が一人の人の声によって形成されているのに対して、歓声は複数人の声によって形成されているため、Ｆ軸上において歓声の信号成分の広がりはゴール発声のそれよりも大きくなっている。

破線３８１、３８２及び３８３内の信号成分が存在する、Ｆ軸上の領域を、夫々、符号３９１、３９２及び３９３によって表す（図２４（ｂ）及び（ｃ）参照）。Ｆ軸上において、領域３９１〜３９３は互いに重なり合わない領域であると共に、領域３９３は領域３９１よりも高域側に位置し、領域３９１は領域３９２よりも高域側に位置する。

伸張部３２は、Ｆ軸上において、信号成分の周波数が所定の音声周波数範囲に収まっている場合、その信号成分は人の声の信号成分であると判断することができ、そうでない場合、その信号成分は人の声の信号成分ではないと判断することができる。今、信号成分３７１が上記音声周波数範囲に収まっている一方、信号成分３７２が上記音声周波数範囲に収まっていないものとする。更に、信号成分３７１の最大レベルが所定の基準レベルよりも大きく且つＦ軸上における信号成分３７１の広がりが所定の基準広がりよりも大きい時、信号成分３７１に、主要音声による音響信号と非主要音声による音響信号が混在していると判断することができる。今、そのような混在が発生していると判断されたものとする。主要音声はゴール音声に相当し、非主要音声は歓声に相当する。信号成分３７１の内、基準レベル以上の信号レベルを有している部分が領域３９１内の信号成分であり、基準レベル未満の信号レベルを有している部分が領域３９２及び３９３内の信号成分であるとする。

この場合、伸張部３２は、信号成分３７２が音楽の信号成分（又は人の声以外の何らかの信号成分）であるとみなし、信号成分３７２に対して２回逆フーリエ変換を施すことで、区間Ｐ_2BにおけるＢＧＭの時間軸上の分離音響信号を生成する。一方、信号成分３７１の内、基準レベル以上の信号レベルを有している信号成分（即ち、領域３９１内の信号成分）に対して２回逆フーリエ変換を施すことで、区間Ｐ_2Bにおけるゴール発声の時間軸上の分離音響信号を生成し、信号成分３７１の内、基準レベル以上の信号レベルを有していない信号成分（即ち、領域３９２及び３９３内の信号成分）に対して２回逆フーリエ変換を施すことで、区間Ｐ_2Bにおける歓声の時間軸上の分離音響信号を生成する。但し、Ｆ軸上の領域３９１内の信号成分には歓声の音響信号成分も含まれているため、ここで生成されるゴール発声の時間軸上の分離音響信号には、実際には、歓声の音響信号成分も含まれている。

他方、区間Ｐ_2A及びＰ_2Cにおける対象音響信号には歓声の音響信号とＢＧＭの音響信号しか含まれていないため、それらの分離は容易である。即ち、区間Ｐ_2Aにおける時間軸上の対象音響信号を２回フーリエ変換することで、区間Ｐ_2Aにおける対象音響信号をＦ軸上の信号に変換する。そして、区間Ｐ_2Aにおける対象音響信号に人の声と音楽の音響信号が含まれているという前提の下、区間Ｐ_2AにおけるＦ軸上の対象音響信号の内、音声周波数範囲に収まっている信号成分を人の声（即ち、歓声）の信号成分であるとみなす一方、音声周波数範囲に収まっていない信号成分を音楽（即ち、ＢＧＭ）の信号成分であるとみなし、Ｆ軸上における人の声の信号成分と音楽の信号成分に対して個別に２回逆フーリエ変換を施す。これにより、区間Ｐ_2Aにおいて、Ｆ軸上の人の声の信号成分から人の声による時間軸上の分離音響信号が生成され、Ｆ軸上の音楽の信号成分からＢＧＭによる時間軸上の分離音響信号が生成される。区間Ｐ_2Cについても同様である。

各区間において時間軸上の各分離音響信号を生成した後、伸張部３２は、区間Ｐ_2Aにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間Ｐ_2AにおけるＢＧＭの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間Ｐ_2Aにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間Ｐ_2AのＢＧＭの分離音響信号を低減又は削除しても良い。区間Ｐ_2B及びＰ_2CにおけるＢＧＭの分離音響信号についても同様である。
次いで、伸張部３２は、区間Ｐ_2Bにおけるゴール発声及び歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間Ｐ_2BにおけるＢＧＭの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間Ｐ_2Bにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間Ｐ_2Bにおける歓声の分離音響信号の音量を低減させても良い。
更に、伸張部３２は、区間Ｐ_2Cにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間Ｐ_2CにおけるＢＧＭの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間Ｐ_2Cにおける伸張音響信号を生成する。
最後に、伸張部３２は、区間Ｐ_2Aにおける伸張音響信号、区間Ｐ_2Bにおける伸張音響信号及び区間Ｐ_2Cにおける伸張音響信号を、この順番で接続することで全区間の伸張音響信号を完成させる。

上述のようにして得られる伸張音響信号を再生することで、ゴール発声及び歓声のピッチが維持された状態で、注目すべきゴール発声が強調され、臨場感のある再生が実現される。また、ＢＧＭが違和感なく再生される。

［第４の伸張具体例］
また、シーン設定情報に応じて、伸張部３２で行う伸張処理の内容を変更するようにしても良い。例えば、シーン設定情報にて指し示される撮影シーンが「スポーツ」である場合には、周辺の歓声と思われる人の声の音響信号に対して伸張処理（例えばピッチ維持伸張処理）を行うことにより伸張音響信号に歓声の音響信号を含ませる一方、シーン設定情報にて指し示される撮影シーンが「マクロ」である場合には、人の声を含む周辺音の音響信号を伸張音響信号からなるだけ排除するようにしてもよい。

また、シーン設定情報を参照することなく、対象映像信号から撮影シーン判定を行うようにしても良い。即ち例えば、対象映像信号に基づいて対象動画像のオプティカルフローを導出して該オプティカルフローから対象動画像上の物体の動きの大きさを検出し、その大きさが比較的大きい場合には、対象動画像がスポーツ風景を撮影したものであると判断するようにしても良い。このような判断が成された場合には、撮影シーンが「スポーツ」に設定された場合と同様の伸張処理を行うことができる。

また例えば、映像信号解析部３４が対象映像信号を解析することで対象動画像上に人と野球のバットが映っていることが判明した場合、対象動画像が野球のバッティングシーンを撮影したものであると判断することができる。このような判断が成された場合、打撃音の再生音量を増大させて再生時の迫力を向上させるべく、打撃音と推定されるインパルス音の音量を伸張処理の過程において増大させる、といったことも可能である。

＜＜第２実施形態＞＞
本発明の第２実施形態を説明する。上述の第１実施形態では、音響信号を収音して記録媒体１５に記録するまでの過程において音響信号の伸張処理を行っているが、その伸張処理を再生段階において実行するようにしても良い。第２実施形態では、伸張処理を再生段階において実行する撮像装置を説明する。第２実施形態に係る撮像装置の全体的構成は、図１のそれと同じであるため、第２実施形態に係る撮像装置も撮像装置１と呼ぶ。第１実施形態にて述べられた事項は、矛盾なき限り、本実施形態にも適用される。

第２実施形態では、対象動画像の映像信号を符号化して得た信号と共に、原音響信号である対象音響信号をそのまま符号化して得た信号が、一旦、記録媒体１５に互いに関連付けられて記録される。その後、対象動画像の再生を指示する操作を受けて、記録媒体１５から、対象動画像の映像信号を符号化して得た信号が映像信号ストリームとして読み出されると共に、対象音響信号をそのまま符号化して得た信号が音響信号ストリームとして読み出される。

図２５は、第２実施形態に係る、伸張音響信号の生成に関与する部位のブロック図である。音源種類解析部３１、音響信号伸張部３２及び映像信号解析部３４は、図７のそれらと同じものである。上述したように、音源種類解析部３１及び音響信号伸張部３２はそれぞれ解析部３１及び伸張部３２と略記されうる。解析部３１、伸張部３２及び音響信号復号部３５を、図１の音響信号処理部１４に設けておくことができ、映像信号解析部３４及び映像信号復号部３６を、図１の映像信号処理部１２に設けておくことができる。

記録媒体１５から読み出された音響信号ストリーム及び映像信号ストリームは、夫々、音響信号復号部３５及び映像信号復号部３６にて復号されて対象音響信号及び対象映像信号が生成される。音響信号復号部３５からの対象音響信号は解析部３１及び伸張部３２に送られ、映像信号復号部３６からの対象映像信号は映像信号解析部３４に送られる。解析部３１及び映像信号解析部３４は、第１実施形態と同様、対象音響信号及び対象映像信号に基づき音源種類情報及び映像解析情報を生成して、それらの情報を伸張部３２に送る。

第１実施形態にて述べたシーン設定情報が記録媒体１５に記録されている場合には、該シーン設定情報が記録媒体１５から伸張部３２に送られる。再生時においてユーザがシーン設定情報を入力した場合には、その再生時において入力したシーン設定情報を伸張部３２に与えるようにしても良い。また、伸張部３２には、再生速度情報も与えられる。再生速度情報は、対象動画像における撮影レートと再生レートの比を表す情報であり、第１実施形態にて述べたフレームレート情報と同じであっても良い。

今、第１実施形態と同様、対象動画像の撮影レートが６００ｆｐｓであって且つ対象動画像の再生レートが６０ｆｐｓであったとする。そうすると、伸張部３２は、再生速度情報に従いつつ、対象音響信号、音源種類情報、映像解析情報及びシーン設定情報の全部又は一部に基づき、第１実施形態と同様にしてα秒間分の対象音響信号から（１０×α）秒間分の音響信号を伸張音響信号として生成する。

映像信号復号部３６の復号によって得られた対象映像信号を６０ｆｐｓにて表示部１６に送ることにより対象動画像が６０ｆｐｓにて再生表示されると共に、対象映像信号の再生と同期した状態で伸張音響信号をスピーカ１７に送ることで対象動画像の再生映像に同期した伸張音響信号が（１０×α）秒をかけて音として再生される。尚、説明の便宜上、撮影レート及び再生レートが夫々６００ｆｐｓ及び６０ｆｐｓである場合を説明したが、勿論これは例示である。現実的には例えば、撮影レート及び再生レートは夫々６０ｆｐｓ及び３０ｆｐｓとされる。

また、再生時におけるユーザの指示に基づき、伸張処理の方法を変更するようにしても良い。例えば、ユーザは、対象音響信号に対して単純伸張処理を施すべきことを指示することができ、その指示の内容を伸張部３２に与えられるシーン設定情報に含めておくことができる。そのような指示が伸張部３２に与えられた場合、伸張部３２は、音源種類情報及び映像解析情報に依存することなく、音響信号復号部３５からの対象音響信号に単純伸張処理を施すことで伸張音響信号を生成する。

＜＜変形等＞＞
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈１〜注釈３を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。

［注釈１］
図２５の解析部３１、伸張部３２、映像信号解析部３４、音響信号復号部３５及び映像信号復号部３６、並びに、図１の表示部１６及びスピーカ１７と同等の表示部及びスピーカを備えた再生装置（不図示）を、撮像装置１とは別に構成するようにしても良い。このような再生装置に、記録媒体１５からの音響信号ストリーム及び映像信号ストリームを与えるようにすれば、第２実施形態に係る撮像装置１と同様の再生が当該再生装置上において実現される。

尚、第１実施形態に係る撮像装置１は、映像信号及び音響信号の記録を行う記録装置としての機能を備え、第２実施形態に係る撮像装置１は、映像信号及び音響信号の再生を行う再生装置としての機能を備える。撮像装置は電子機器の一種であり、記録装置又は再生装置も電子機器の一種である。

［注釈２］
図１の撮像装置１又は上記電子機器を、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。ソフトウェアを用いて撮像装置１又は上記電子機器を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。ソフトウェアを用いて実現される機能をプログラムとして記述し、該プログラムをプログラム実行装置（例えばコンピュータ）上で実行することによって、その機能を実現するようにしてもよい

［注釈３］
例えば、以下のように考えることができる。対象動画像の撮影時に収音された入力音響信号としての対象音響信号から出力音響信号としての伸張音響信号を生成する出力音響信号生成部は、解析部３１及び伸張部３２を含んで形成される（図７又は図２５を参照）。出力音響信号生成部を含む音響信号処理装置は、音響信号処理部１４に相当する、或いは、音響信号処理部１４に内在する、或いは、音響信号処理部１４を含む、と考えることができる。

１撮像装置
１１撮像部
１２映像信号処理部
１３マイク部
１４音響信号処理部
３１音源種類解析部
３２音響信号伸張部
３３音響信号符号化部
３４映像信号解析部

Claims

対象動画像を第１フレームレートにて撮影しているときに収音された入力音響信号から、前記入力音響信号よりも長い信号長さを有する出力音響信号を生成する出力音響信号生成部を備えた音響信号処理装置であって、
前記出力音響信号は、前記対象動画像を前記第１フレームレートよりも小さな第２フレームレートで再生するときに前記対象動画像とともに音として再生されるべき音響信号であり、
前記出力音響信号生成部は、前記入力音響信号の音源の種類に応じて前記入力音響信号から前記出力音響信号を生成する
ことを特徴とする音響信号処理装置。
前記出力音響信号生成部は、前記入力音響信号に基づいて前記入力音響信号の音源の種類を解析する音源種類解析部を備え、前記音源種類解析部によって解析された、前記入力音響信号の音源の種類に応じて、前記入力音響信号から前記出力音響信号を生成する
ことを特徴とする請求項１に記載の音響信号処理装置。
前記音源種類解析部は、前記入力音響信号に基づいて前記入力音響信号の音源に人の声が含まれているのか否かを判断し、
前記出力音響信号生成部は、前記入力音響信号の音源に人の声が含まれているか否かに応じて、前記入力音響信号から前記出力音響信号を生成する方法を変更する
ことを特徴とする請求項２に記載の音響信号処理装置。
前記出力音響信号生成部は、前記入力音響信号に種類の異なる複数の音源からの音響信号が含まれているとき、前記音源種類解析部を用いて、前記複数の音源からの音響信号を複数の分離音響信号として個別に前記入力音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから前記複数の分離音響信号を合成することにより前記出力音響信号を生成する
ことを特徴とする請求項２または請求項３に記載の音響信号処理装置。
前記出力音響信号生成部は、前記音源種類解析部による解析結果だけでなく前記対象動画像の映像信号に対する解析結果にも基づいて、前記入力音響信号から前記出力音響信号を生成する
ことを特徴とする請求項２〜請求項４の何れかに記載の音響信号処理装置。
請求項１〜請求項５の何れかに記載の音響信号処理装置を備えた電子機器であって、
前記対象動画像を第１フレームレートにて撮影しているときにおいて、前記入力音響信号から前記出力音響信号を生成して前記出力音響信号を記録媒体に記録する、或いは、
前記入力音響信号を前記記録媒体に記録しておき、前記対象動画像を第２フレームレートにて再生するときにおいて、記録された前記入力音響信号から前記出力音響信号を生成して前記対象動画像とともに前記出力音響信号を再生する
ことを特徴とする電子機器。