JP2013047710A

JP2013047710A - 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Info

Publication number: JP2013047710A
Application number: JP2011185553A
Authority: JP
Inventors: keiichi Osako; 慶一大迫; Toshiyuki Sekiya; 俊之関矢; Mototsugu Abe; 素嗣安部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-08-29
Filing date: 2011-08-29
Publication date: 2013-03-07

Abstract

【課題】音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減する。
【解決手段】入力された音声信号を所定区間ごとに一時保存する第１のバッファメモリと、前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、を備える、音声信号処理装置が提供される。
【選択図】図３

Description

本開示は、音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体に関する。

外部音声を収音して記録する音声記録装置として、ビデオカメラや、動画撮像機能付きのデジタルカメラ、ＩＣレコーダ等が知られている。これら装置を動作させるときには、装置本体から発生するパルス状の作動音が、記録音声に混入してしまう場合がある。

例えば、動画撮像機能を備えた撮像装置は、動画撮像中にマイクロホンにより装置周辺の外部音声を収音し、当該音声を動画とともに記録する。かかる動画撮像時には、撮像装置に筐体内で、ズーム駆動音、絞り駆動音、オートフォーカス駆動音、操作ボタンの押下音などのパルス状の作動音が発生する。特に、撮像光学系を駆動させる駆動装置（ズームモータ、絞り機構、フォーカスモータ等）の動作開始時又は終了時には、例えば、モータとギアが噛み合うときの「カチッ」というパルス状の機械駆動音が発生する。

かかるパルス状の作動音は、ユーザが録音を所望する外部音声に雑音として混入・記録されてしまうと、非常に耳障りである。このため、音声記録装置では、記録時にパルス状の作動音を低減するための静音対策や雑音除去対策が必要となる。

パルス状の機械駆動音を低減する方法として、これまでもいくつかの方法が提案されている。例えば、特許文献１には、レンズ駆動部で生じた雑音を含む雑音区間の入力音声信号を、当該雑音区間の前後の区間の音声信号で補間することが提案されている。

特開平８−１２４２９９号公報

上記特許文献記載の雑音低減方法は、雑音区間の前後の区間の音声信号を用いて録音を所望する背景音の音声信号を推定し、その推定した信号を用いて雑音区間の信号を補間することによって、雑音を低減した音声信号を得る。しかしながら、この雑音低減方法では、雑音区間の前後の一定区間の信号を用いる必要があるため、その全ての区間分の信号を保持するための長いバッファメモリが必要となる。さらに、録音時に雑音低減処理を実行すると、当該長いバッファメモリに保持するために、入力音声に対して出力音声が大きく遅延してしまう。このため、遅延した音声に映像や制御クロック等を同期させることとなり、他の映像記録部や制御部などといったカメラシステム全体の遅延が懸念される。

例えば、図１は、パルス状の機械駆動音を雑音として含む音声信号を録音する際に、上記特許文献１記載の雑音低減方法により、雑音区間の前後の区間の背景音のデータを用いて雑音区間を補間する場合を示す説明図である。この場合、雑音区間長をＮとすると、雑音区間及びその前後の区間の音声信号の全てを保持するためには、概ね３＊Ｎの長さのバッファメモリが必要となる。また、これら区間の音声信号の全てがバッファメモリに保存された後に補間信号を生成し、当該補間信号を用いて雑音区間を補間する方法を用いると、音声信号が入力されてから出力されるまでの間に、少なくとも２＊Ｎの遅延が発生する。

以上のように、雑音低減のための補間処理では、雑音区間の近辺の信号を用いて補間信号を推定する必要がある。この際、精度の高い推定を行うためには、従来では、雑音前後のある程度長い区間の音声信号を保持可能なバッファメモリを確保する必要があった。このため、補間信号の推定に必要なバッファメモリが増大するだけでなく、入力音声に対して出力音声が大きく遅延するため、映像記録や制御等のカメラシステム全体の遅延が発生するという問題があった。

そこで、上記事情に鑑みれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することが可能な雑音低減方法が求められていた。

本開示によれば、入力された音声信号を所定区間ごとに一時保存する第１のバッファメモリと、前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、を備える、音声信号処理装置が提供される。

また、本開示によれば、外部音声を音声信号に変換する収音部と、前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第１のバッファメモリと、前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、を備える、撮像装置が提供される。

また、本開示によれば、第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、を含む、音声信号処理方法が提供される。

また、本開示によれば、第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが提供される。

また、本開示によれば、第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。

上記構成により、入力されるｎ番目の区間の音声信号が第１のバッファメモリに保存完了し、かつ、第１のバッファメモリに保存されているｎ番目の区間の音声信号に雑音が含まれることが検出されたときに直ちに、第２のバッファメモリに保存されているｎ−１番目の区間の音声信号から補間信号が生成され、当該補間信号を用いてｎ番目の区間の音声信号が補間され、補間後のｎ番目の区間の音声信号が出力される。これにより、２つのバッファメモリを用いて、所定区間ごとの音声信号の入出力処理と、音声信号に含まれる雑音の補間処理とを、少ない遅延量で好適に実現できる。

以上説明したように本開示によれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することができる。

本開示の関連技術に係る雑音低減方法により、雑音区間の前後の区間の背景音のデータを用いて雑音区間を補間する場合を示す説明図である。本開示の第１の実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成を示すブロック図である。同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。同実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。同実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。同実施形態に係る音声信号処理装置の通常時の動作を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。同実施形態に係る音声信号処理方法を示すフローチャートである。本開示の第２の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。同実施形態に係る雑音区間の前後の入力音声信号から仮補間信号及び補間信号を生成する別の方法を示す概念図である。同実施形態に係る音声信号処理装置の通常時の動作を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。同実施形態に係る音声信号処理方法を示すフローチャートである。本開示の第３の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。同実施形態に係る雑音を含む音声信号とフレームとの位置関係を示す説明図である。同実施形態に係る音声信号処理装置の雑音発生時の第１動作例を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の第１動作例を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の第２動作例を示す模式図である。同実施形態に係る音声信号処理装置の雑音発生時の第２動作例を示す模式図である。同実施形態に係る音声信号処理方法を示すフローチャートである。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．第１の実施の形態
１．１．機械音低減方法の概要
１．２．音声信号処理装置の構成
１．２．１．音声信号処理装置のハードウェア構成
１．２．２．音声信号処理装置の機能構成
１．３．音声信号処理装置の動作
１．３．１．雑音がない通常時の動作例
１．３．２．雑音発生時の動作例
１．４．音声信号処理方法
１．５．効果
２．第２の実施の形態
２．１．機械音低減方法の概要
２．２．音声信号処理装置の機能構成
２．３．音声信号処理装置の動作
２．３．１．雑音がない通常時の動作例
２．３．２．雑音発生時の動作例
２．４．音声信号処理方法
２．５．効果
３．第３の実施の形態
３．１．機械音低減方法の概要
３．２．音声信号処理装置の機能構成
３．３．音声信号処理装置の動作
３．３．１．雑音発生時の第１動作例
３．３．２．雑音発生時の第１動作例
３．４．音声信号処理方法
３．５．効果

＜１．第１の実施の形態＞
［１．１．機械音低減方法の概要］
まず、本開示の第１の実施形態に係る音声信号処理装置及び方法を用いた機械音低減方法の概要について説明する。

本実施形態に係る音声信号処理装置及び方法は、音声記録装置又は音声再生装置において、例えば、当該装置の筐体内に設置された発音部（例えば駆動装置）から発生するパルス状の作動音（雑音）を低減する技術に関する。特に、本実施形態では、動画撮像機能を有する撮像装置において、動画を撮像しながら周辺音声を録音するときに、撮像装置に内蔵された駆動装置の動作開始時或いは動作終了時に発生するパルス状の機械駆動音を低減対象とする。

ここで、駆動装置は、撮像光学系を用いた撮像動作を行うために撮像装置に内蔵された駆動装置であり、例えば、ズームレンズを移動させるズームモータや、フォーカスレンズを移動させるフォーカスモータ、絞り機構又はシャッターを制御する駆動機構などを含む。これら駆動装置は、撮像装置の収音部と同一の筐体内に設けられる。また、パルス状の機械駆動音（以下、「パルス機械音」という。）は、例えば、上記各種の駆動装置が動作開始又は動作終了するときに発生する瞬間的な雑音（例えば、ズームモータの駆動音、フォーカスモータの駆動音、絞り機構の駆動音、シャッター音、操作ボタンの押下音など）である。例えば、パルス機械音は、ズームモータ等の動作開始時又は動作終了時に、モータとギアが噛み合うことにより発生する「カチッ」又は「パチッ」という音などである。

以下では、音声信号処理装置が、動画撮像機能を有するデジタルカメラであり、除去対象雑音であるパルス機械音が、該デジタルカメラにおける光学ズーム動作開始時に発生するズーム開始音である例について説明する。しかし、本開示の音声信号処理装置や、パルス機械音は、かかる例に限定されない。また、本開示の対象とする雑音も、パルス状の作動音に限定されず、音声信号処理装置に入力される音声のうち、録音を所望する背景音に混入する任意の種類・特性の雑音に適用可能である。

デジタルカメラによる撮像及び録音中に、ユーザがズーム操作を行うと、該カメラの内部でズームモータが駆動して、ズームレンズを駆動させるギアと係合して、瞬間的に大きいパルス機械音（ズーム開始音）が発生する。すると、デジタルカメラのマイクロホンは、ユーザが録音を所望するカメラ周囲の外部音声（例えば、環境音、人の話し声など、マイクロホンに収音される任意の音声を含む。以下「所望音」又は「背景音」という。）のみならず、カメラ内部で発生したパルス機械音も収音してしまう。このため、所望音にパルス機械音が雑音として混入した状態で録音されてしまうので、当該録音された音声を再生したときに、所望音に混入したパルス機械音がユーザにとって耳障りとなる。例えば、パルス機械音は２００Ｈｚ以下の筐体の振動を伴い、マイクロホン近傍で発生するため、所望音に比べて大きな音量で収音される。このようにパルス機械音と所望音で音量差があるため、所望音に機械音が混入していると、録音音声の再生時にパルス機械音が目立ってしまう。従って、動画及び音声の記録時又は再生時に、上記ズーム開始音等のパルス機械音を適切に除去した上で所望音のみを記録可能な技術が希求されていた。

従来の雑音低減技術では、上記特許文献１記載のように、駆動装置を制御するための駆動信号の送信タイミングによって、機械駆動音の発生区間（雑音区間）を推定し、当該雑音区間の前後の区間の信号を用いて補間信号を推定し、雑音区間の信号を当該補間信号で補間することにより、雑音を低減していた。しかし、かかる雑音低減方法では、上述したように、雑音区間の前後の区間の信号を保持して補間信号を生成するために、これら全ての区間の信号を同時に保持するためには、雑音区間長Ｎの３倍程度に相当するバッファメモリが必要であった（図１参照。）。このため、雑音低減処理に要するバッファメモリが増大するだけでなく、当該バッファメモリに３＊Ｎの信号を保持する時間分だけ、入力音声に対して出力音声が大幅に遅延していた（少なくとも２＊Ｎの遅延が発生）。

そこで、本実施形態では、雑音低減処理回路に設けた２つのバッファメモリを上手く利用して、フレーム単位での音声信号の処理を好適に制御し、補間信号を生成することを特徴としている。これにより、補間信号の生成に必要なバッファメモリ長を減少できるとともに、入力音声信号に対する出力音声信号の遅延も大幅に低減できる。

さらに、本実施形態では、パルス機械音を含む雑音区間の前の区間の音声信号のみを用いて、補間信号を生成し、雑音区間の音声信号を当該補間信号で補間した上で出力することを特徴としている。このように、雑音区間の前の区間の音声信号のみを用いて補間信号を生成したとしても、パルス機械音を適切に低減することが可能である。この理由は次の通りである。

上述した特許文献１等に記載の従来技術では、雑音を含まない区間（雑音区間の前後の区間)の信号として、例えば人の話し声のような音声を仮定している。かかる音声は、狭い時間でみると、周期的な信号から構成されている。周期的な信号中の雑音を補間するためには、その雑音前後の信号の周期と同一の周期を有する補間信号を生成し、周期を乱さずに雑音区間の前後をつなげなければならない。この理由は、補間処理によって信号の周期が乱れた場合、聴感上違和感のある音になるからである。従って、従来では当業者にとって、雑音区間の前後の信号を用いて補間信号を生成することが一般的であり、雑音区間の前の信号のみを用いて補間信号を生成することは、音質の面で問題が生じると考えられていた。

しかし、実際の録音環境では、人の話し声のような周期的な音声が常に発生しているわけではなく、様々な音が混ざり合って非周期的な音声が生じている場合の方が多い。もし、雑音区間の前後が非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。これにより、雑音の前方の音声のみを使って補間した場合であっても、実質的には適切な雑音除去が可能ということになる。

また、雑音前後が周期的な音声（人の話し声等）である場合も起こりうるが、カメラの近くで発話されている場合がほとんどであり、この場合には、大きな音量の音声としてマイクへ入力される。従って、カメラ内部で発生する雑音（パルス機械音等）よりも、外部から入力された音声の方が大きくなるため、マスキング現象によって雑音そのものが聞こえなくなる事が多い。従って、このような場合は、雑音区間の補間処理を行う必要がないため、雑音の前方の音声を使った補間による悪影響は無いと言える。

そこで、以下に詳述する第１の実施形態では、入力される音声信号のうち、ｎ番目の区間が雑音を含む雑音区間である場合には、当該雑音区間の１つ前のｎ−１番目の区間の音声信号のみを用いて、雑音低減用の補間信号を生成する（ｎ：自然数）。かかる補間処理であっても、上記理由により、雑音を適切に低減することが可能である。以下に、第１の実施形態に係る音声信号処理装置及び方法について詳述する。

［１．２．音声信号処理装置の構成］
［１．２．１．音声信号処理装置のハードウェア構成］
まず、図２を参照して、本実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成例について説明する。図２は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ１のハードウェア構成を示すブロック図である。

本実施形態に係るデジタルカメラ１は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ１は、被写体を撮像して、当該撮像により得られた撮像画像（静止画又は動画のいずれでもよい。）をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。

図２に示すように、本実施形態に係るデジタルカメラ１は、概略的には、撮像部１０と、画像信号処理部２０と、表示部３０と、記録媒体４０と、収音部５０と、音声信号処理部６０と、制御部７０と、操作部８０とを備える。

撮像部１０は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部１０は、撮像光学系１１と、撮像素子１２と、タイミングジェネレータ１３と、駆動装置１４とを備える。

撮像光学系１１は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像（被写体像）は、撮像光学系１１における各光学部品を介して、撮像素子１２の露光面に結像される。撮像素子１２（イメージセンサ）は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの固体撮像素子で構成される。この撮像素子１２は、撮像光学系１１から導かれた光学像を光電変換し、撮像画像を表す電気信号（アナログ画像信号）を出力する。

撮像光学系１１には、該撮像光学系１１の光学部品を駆動するための駆動装置１４が機械的に接続されている。この駆動装置１４は、例えば、ズームモータ１５、フォーカスモータ１６、絞り機構（図示せず。）などを含む。駆動装置１４は、後述する制御部７０の指示に従って、撮像光学系１１の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ１５は、ズームレンズをテレ／ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ１６は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。

また、タイミングジェネレータ１３（以下、ＴＧ１３という。）は、制御部７０の指示に従って、撮像素子１２に必要な動作パルスを生成する。例えば、ＴＧ１３は、垂直転送のための４相パルス、フィールドシフトパルス、水平転送のための２相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子１２に供給する。このＴＧ１３により撮像素子１２を駆動させることで、被写体像が撮像される。また、ＴＧ１３が、撮像素子１２のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される（電子シャッター機能）。上記の撮像素子１２が出力した画像信号は画像信号処理部２０に入力される。

画像信号処理部２０は、マイクロコントローラなどの電子回路で構成され、撮像素子１２から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部３０や制御部７０に出力する。画像信号処理部２０は、アナログ信号処理部２１、アナログ／デジタル（Ａ／Ｄ）変換部２２、デジタル信号処理部２３を備える。

アナログ信号処理部２１は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部２１は、例えば、撮像素子１２から出力される画像信号に対して、ＣＤＳ（ｃｏｒｒｅｌａｔｅｄｄｏｕｂｌｅｓａｍｐｌｉｎｇ：相関２重サンプリング）処理、プログラマブルゲインアンプ（ＰＧＡ）によるゲイン処理などを行う。Ａ／Ｄ変換部２２は、アナログ信号処理部２１から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部２３に出力する。デジタル信号処理部２３は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部３０や制御部７０等に出力する。

表示部３０は、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬディスプレイなどの表示装置で構成される。表示部３０は、制御部７０による制御に従って、入力された各種の画像データを表示する。例えば、表示部３０は、撮像中に画像信号処理部２０からリアルタイムで入力される撮像画像（スルー画像）を表示する。これにより、ユーザは、デジタルカメラ１で撮像中のスルー画像を見ながら、デジタルカメラ１を操作することができる。また、記録媒体４０に記録されている撮像画像を再生したときに、表示部３０は、当該再生画像を表示する。これにより、ユーザは、記録媒体４０に記録されている撮像画像の内容を確認することができる。

記録媒体４０は、上記撮像画像のデータ、音声データ、それらのメタデータなどの各種のデータを記憶する。記録媒体４０は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク（Ｂｌｕ−ｒａｙＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）又はＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）等を含む。なお、記録媒体４０は、デジタルカメラ１に内蔵されてもよいし、デジタルカメラ１に着脱可能なリムーバブルメディアであってもよい。

収音部５０は、デジタルカメラ１周辺の外部音声を収音する。本実施形態に係る収音部５０は、１つの外部音声収録用のマイクロホン５１からなるモノラルマイクロホンであるが、２つのマイクロホンからなるステレオマイクロホンで構成されてもよい。マイクロホン５１は、外部音声を収音して得られた音声信号をそれぞれ出力する。かかる収音部５０により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。かかるマイクロホン５１は、外部音声（所望音）を収音するためにデジタルカメラ１の筐体に設けられているが、当該筐体内に設けられた発音部（上記駆動装置１４）の機械駆動音も雑音として収音してしまう。

音声信号処理部６０は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、ＡＤ変換処理、雑音低減処理などを含む。本実施形態は、この音声信号処理部６０による雑音低減処理を特徴としているが、その詳細説明は後述する。

制御部７０は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ１の全体の動作を制御する。制御部７０は、例えば、ＣＰＵ７１、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）７２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７３、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７４を備える。かかる制御部７０は、デジタルカメラ１内の各部を制御する。例えば、制御部７０は、マイクロホン５１により収音された音声信号から、駆動装置１４で発生した機械音を雑音として低減するに、音声信号処理部６０の動作を制御する。

制御部７０におけるＲＯＭ７３には、ＣＰＵ７１に各種の制御処理を実行させるためのプログラムが格納されている。ＣＰＵ７１は、該プログラムに基づいて動作して、ＲＡＭ７４を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ１に内蔵された記憶装置（例えば、ＥＥＰＲＯＭ７２、ＲＯＭ７３等）に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ１に提供されてもよいし、ＬＡＮ、インターネット等のネットワークを介してデジタルカメラ１にダウンロードされてもよい。

ここで、制御部７０による制御の具体例について説明する。制御部７０は、上記撮像部１０のＴＧ１３や駆動装置１４を制御して、撮像部１０による撮像処理を制御する。例えば、制御部７０は、上記撮像光学系１１の絞りの調整、撮像素子１２の電子シャッタースピードの設定、アナログ信号処理部２１のＡＧＣのゲイン設定などにより、自動露光制御を行う（ＡＥ機能）。また、制御部７０は、上記撮像光学系１１のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系１１の焦点を自動的に合わせるオートフォーカス制御を行う（ＡＦ機能）。また、制御部７０は、上記撮像光学系１１のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部７０は、記録媒体４０に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体４０に記録されているデータを読み出して再生する。さらに、制御部７０は、表示部３０に表示するための各種の表示画像を生成し、表示部３０を制御して該表示画像を表示させる。

操作部８０、表示部３０は、ユーザがデジタルカメラ１の動作を操作するためのユーザインターフェースとして機能する。操作部８０は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部８０は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部７０に出力する。

［１．２．２．音声信号処理装置の機能構成］
次に、図３を参照して、本実施形態に係るデジタルカメラ１に適用された音声信号処理装置の機能構成例について説明する。図２は、本実施形態に係る音声信号処理装置１００の機能構成を示すブロック図である。

図３に示すように、音声信号処理装置１００は、信号入力部１１０と、入出力用バッファメモリ１２０（第１のバッファメモリ）と、補間用バッファメモリ１３０（第２のバッファメモリ）と、雑音検出部１４０と、雑音低減部１５０と、信号出力部１６０とを備える。信号入力部１１０は、上記図２のマイクロホン５１を備える。雑音低減部１５０は、補間信号生成部１５２と、信号補間部１５４とを備える、また、上記入出力用バッファメモリ１２０、補間用バッファメモリ１３０、雑音検出部１４０及び雑音低減部１５０は、上記図２の音声信号処理部６０を構成する。

これら音声信号処理装置１００の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声信号処理装置１００のプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。当該プログラムは、コンピュータ読み取り可能な記録媒体（例えば、光ディスク、ハードディスク、半導体メモリ等）を介して音声信号処理装置１００に提供されてもよいし、又は各種の通信手段を介して提供されてもよい。以下に、音声信号処理装置１００の各部について説明する。

信号入力部１１０は、デジタルカメラ１の筐体に設置されたマイクロホン５１、ＡＤ変換部（図示せず。）等で構成される。信号入力部１１０は、マイクロホン５１は、デジタルカメラ１の周囲の所望音（録音対象の音声）を収音し、当該外部音声を音声信号に変換して出力する。この音声信号には、所望音のみならず、デジタルカメラ１の駆動装置１４で発生するパルス機械音やその他の機械駆動音などの雑音が混入する。また、不図示のＡＤ変換部は、上記マイクロホン５１から出力されたアナログ音声信号を、デジタル音声信号に変換して、出力する。

入出力用バッファメモリ１２０（第１のバッファメモリ）、補間用バッファメモリ１３０（第２のバッファメモリ）は、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。このように、本実施形態に係る音声信号処理装置１００は、２つのバッファメモリを備えており、この２つのバッファメモリを用いて音声信号を所定区間ごとに（つまり、フレーム単位で）処理することで雑音を低減する。本実施形態では、入出力用バッファメモリ１２０と補間用バッファメモリ１３０は、信号入力部１１０と信号出力部１６０との間に並列に接続されており、これにより、２つの区間の音声信号を並列処理することができる。

音声信号処理装置１００が音声信号をフレーム単位で入出力及び処理するために、出力用バッファメモリ１２０は、現在入力される音声信号の１フレーム分を一時保存する。補間用バッファメモリ１３０は、雑音区間を補間するために、１フレーム分過去に入力された音声信号を保持する。これら２つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、１フレーム分のデジタル音声信号（サンプルデータ数Ｎ）を保存可能である。従って、音声信号処理装置１００が備えるバッファメモリの長さは、２＊Ｎとなる。なお、入出力用バッファメモリ１２０及び補間用バッファメモリ１３０は、物理的に分離された２つのバッファメモリで構成されてもよいし、物理的に１つのバッファメモリの記憶領域を分離することで構成されてもよい。

入出力用バッファメモリ１２０は、信号入力部１１０から入力された音声信号を、所定区間ごとに（例えば、１フレームずつ）一時保存する。この入出力用バッファメモリ１２０は、入力される音声信号の１フレーム分全てを保存完了した時点で、当該１フレームの音声信号を出力する。これにより、信号入力部１１０から入力された音声信号は、１フレームずつ順次、入出力用バッファメモリ１２０に保存された後に、信号出力部１６０に出力される。

また、入出力用バッファメモリ１２０から出力された１フレームの音声信号は、補間用バッファメモリ１３０に一時保存される。つまり、補間用バッファメモリ１３０は、入出力用バッファメモリ１２０に保存されている現在のフレーム（ｎ番目のフレーム）の音声信号よりも１つ前の過去のフレーム（ｎ−１番目のフレーム）の音声信号を一時保存する。従って、信号入力部１１０から入力されるｎ番目のフレームの音声信号が、入出力用バッファメモリ１２０に蓄積されている最中には、補間用バッファメモリ１３０にｎ−１番目のフレームの音声信号が保存されていることになる。これら２つのバッファメモリにより、常時、２フレーム分の音声信号が音声信号処理装置１００内に保持される。

雑音検出部１４０は、信号入力部１１０から入力された音声信号のうち、パルス機械音等の雑音が含まれる区間（雑音区間）を検出する。雑音検出部１４０は、入出力用バッファメモリ１２０に保存されている所定区間の音声信号に雑音が含まれるか否かを検出し、雑音が含まれる場合は、当該区間が雑音区間であると判定する。雑音検出部１４０は、雑音区間を検出したときに、その区間を表す情報を雑音低減部１５０に通知する。

例えば、雑音がパルス機械音である場合、雑音検出部１４０は、上記駆動装置１４が動作している区間を、雑音区間として検出する。雑音検出部１４０は、駆動装置１４の制御情報を取得することで、当該制御情報から駆動装置１４の動作期間（雑音区間）を検出可能である。

また、雑音検出部１４０は、信号入力部１１０から入力された実際の音声信号を解析して雑音の特徴量を抽出することで、雑音の有無を判定し、雑音期間を検出してもよい。例えば、パルス機械音はパルス成分及び残響成分という特徴的な成分を含むため、これら２種類の成分を検出することができれば、パルス機械音の有無を正確に検出できる。そこで、雑音検出部１４０は、マイクロホン５１から出力された音声信号から、上記パルス機械音のパルス成分を表す特徴量（例えば、パルス成分の振幅最大値Ａ、パルス幅Ｗ）、パルス機械音の残響成分を表す特徴量（例えば、パルス機械音の残響成分を表す狭帯域信号のパワー値Ｐ、当該狭帯域信号の零交差点回数Ｍ）を抽出する。そして、雑音検出部１４０は、上記パルス機械音を表す特徴量（振幅最大値Ａ、パルス幅Ｗ、残響成分パワー値Ｐ等）に基づいて、音声信号にパルス機械音が含まれるか否かを判定する。例えば、雑音検出部１４０は、統計的識別法又はテーブル判定を用いた判定方法により、上記特徴量と所定の判定係数を用いて、音声信号におけるパルス機械音の有無を総合的に判定する。これにより、音声信号にパルス機械音が含まれているか否かを判定し、音声信号におけるパルス機械音が含まれている区間を特定することができる。

雑音低減部１５０は、上記雑音検出部１４０による検出結果に応じて、音声信号に対して雑音低減処理を行い、音声信号からパルス機械音等の雑音を除去する。具体的には、入出力用バッファメモリ１２０に保存されている区間の音声信号にパルス機械音等の雑音が含まれると判定された場合に、雑音低減部１５０は、当該パルス機械音が含まれる区間の音声信号に対して雑音低減処理を行う。一方、パルス機械音が含まれていないと判定された場合に、雑音低減部１５０は、雑音低減処理を行わない。このように、パルス機械音が含まれる場合にのみ、当該パルス機械音が含まれる区間（雑音区間）の音声信号に対して雑音低減処理を行うことで、雑音低減処理の処理効率を向上し、無駄な処理負荷を軽減できる。

雑音低減部１５０は、雑音低減方法として、雑音区間の前又は後の区間の信号から当該雑音区間の背景音の信号波形を推定し、推定した信号を用いて雑音区間の信号を補間する方法を使用する。この補間方法を実行するために、雑音低減部１５０は、補間信号生成部１５２と、信号補間部１５４とを備える。

補間信号生成部１５２は、雑音区間の前の区間の信号を用いて、雑音区間を補間するための補間信号を生成する。この補間信号の生成処理は、入出力用バッファメモリ１２０に保存されている現在のフレーム（ｎ番目のフレーム）の音声信号に雑音が含まれることが検出されたときに、実行される。このとき、補間信号生成部１５２は、補間用バッファメモリ１３０に保存されている１フレーム過去（ｎ−１番目のフレーム）の音声信号を用いて、現在、入出力用バッファメモリ１２０に保存されている雑音区間の音声信号を補間するための補間信号を生成する。

ここで、図４、図５を参照して、上記補間信号の生成方法の例について説明する。図４、図５は、本実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。

（ａ）シンプルな生成方法
図４の上段に示すように、補間用バッファメモリ１３０に保存されている１フレームの音声信号をｓ（ｎ）＝{ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１}と表現する。ここで、ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１は、当該１フレーム中のＮ個のサンプルデータの値を示す。かかる音声信号ｓ（ｎ）から補間信号Ｖ（ｎ）を生成する場合、例えば、図４の中段に示すように、音声信号ｓ（ｎ）を時間軸方向に反転させて、補間信号ｖ（ｎ）＝{ｓ_Ｎ−１，ｓ_Ｎ−２，・・・，ｓ_１，ｓ_０}を生成してもよい。また、図４の下段に示すように、音声信号ｓ（ｎ）を時間軸方向及び振幅方向に反転させて、補間信号ｖ（ｎ）＝{−ｓ_Ｎ−１，−ｓ_Ｎ−２，・・・，−ｓ_１，−ｓ_０}を生成してもよい。

（ｂ）窓を用いた生成方法
また、図５は、別の補間信号生成方法を示す。図５に示すように、音声信号ｓ（ｎ）に適当な窓ｗ（ｎ）を乗算した信号ｐ（ｎ）とｑ（ｎ）を合成することで、より自然な補間信号ｖ（ｎ）を生成することもできる。ここで、窓ｗ（ｎ）としては、ハニング窓又はバーとレット窓などを使用できる。より詳細には、図５に示すように、まず、音声信号ｓ（ｎ）＝{ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１}に窓ｗ（ｎ）＝{ｗ_０，ｗ_１，・・・，ｗ_Ｎ−１}を乗算して、信号ｐ（ｎ）＝{ｓ_０ｗ_０，ｓ_１ｗ_１，・・・，ｓ_Ｎ−１ｗ_Ｎ−１}を生成する。次いで、信号ｐ（ｎ）を時間軸方向に反転させて、信号ｑ（ｎ）＝{ｓ_Ｎ−１ｗ_Ｎ−１，・・・，ｓ_１ｗ_１，ｓ_０ｗ_０}を生成する。そして、信号ｐ（ｎ）と信号ｑ（ｎ）を加算して、補間信号ｖ（ｎ）＝ｐ（ｎ）＋ｑ（ｎ）＝{ｓ_０ｗ_０＋ｓ_Ｎ−１ｗ_Ｎ−１，ｓ_１ｗ_１＋ｓ_Ｎ−２ｗ_Ｎ−２，・・・，ｓ_Ｎ−１ｗ_Ｎ−１＋ｓ_０ｗ_０}を生成する。或いは、信号ｐ（ｎ）から信号ｑ（ｎ）を減算して、補間信号ｖ（ｎ）＝ｐ（ｎ）−ｑ（ｎ）＝{ｓ_０ｗ_０−ｓ_Ｎ−１ｗ_Ｎ−１，ｓ_１ｗ_１−ｓ_Ｎ−２ｗ_Ｎ−２，・・・，ｓ_Ｎ−１ｗ_Ｎ−１−ｓ_０ｗ_０}を生成する。このようにして、音声信号ｓ（ｎ）から、より自然な補間信号ｖ（ｎ）を生成することも可能である。

再び図３を参照して、音声信号処理装置１００の各部の説明を続ける。図３に示すように、信号補間部１５４は、上記補間信号生成部１５２により生成された補間信号を用いて、入出力用バッファメモリ１２０に保存されているｎ番目のフレームの音声信号（雑音区間の音声信号）を補間する。

例えば、信号補間部１５４は、入出力用バッファメモリ１２０に保存されている雑音区間の音声信号の全ての振幅値（つまり、Ｎ個のサンプルデータ）をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むｎ番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部１５４は、入出力用バッファメモリ１２０に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、雑音区間の音声信号が、雑音を低減された上で出力される。

かる信号補間部１５４による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。

信号出力部１６０は、上記入出力用バッファメモリ１２０から出力された音声信号を１フレームずつ外部に出力する。雑音低減部１５０により雑音低減処理がなされた場合には、信号出力部１６０は、雑音が低減された音声信号を出力する。例えば、信号出力部１６０は、上記音声信号を信号記録部（上記図２の制御部７０及び記録媒体４０で構成される。）に出力してもよいし、或いは、スピーカ又はヘッドホンなどの音声出力部（図示せず。）に出力してもよい。音声信号を信号記録部に出力した場合には、上記雑音が低減された音声信号が記録媒体（図示せず。）に記録される。なお、記録媒体は、ハードディスク、磁気テープ等の磁気記録媒体、ＤＶＤ、ブルーレイディスク等の光記録媒体、フラッシュメモリ、ＵＳＢメモリ等の半導体メモリなど、任意の記録媒体であってよい。

［１．３．音声信号処理装置の動作］
次に、本実施形態に係る音声信号処理装置１００の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。

［１．３．１．雑音がない通常時の動作例］
まず、図６を参照して、雑音がない通常時の音声信号処理装置１００の動作について説明する。図６は、本実施形態に係る音声信号処理装置１００の通常時の動作を示す模式図である。

図６に示すように、雑音が発生していない通常時には、マイクロホン５１から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ１２０、補間用バッファメモリ１３０に一時保存される。補間用バッファメモリ１３０に保存されるフレームは、入出力用バッファメモリ１２０に蓄積されているフレームよりも１つ前（過去）のフレームである。例えば、図６Ａに示すように、現在、ｎ番目のフレームの音声信号ｓ（ｎ）が新たに入力されて、入出力用バッファメモリ１２０に蓄積されているときには、１フレーム分だけ過去に入力されたｎ−１番目のフレームの音声信号ｓ（ｎ−１）が補間用バッファメモリ１３０に保存されている。

そして、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入出力用バッファメモリ１２０に蓄積完了された時に直ちに、図６Ｂに示すように、当該入出力用バッファメモリ１２０に保存されているｎ番目のフレームの音声信号ｓ（ｎ）が外部に出力され、入出力用バッファメモリ１２０内のデータが消去される。このとき、雑音は検出されていないので、ｎ番目のフレームの音声信号ｓ（ｎ）に対して何ら特別な処理を施すことなく、当該音声信号ｓ（ｎ）がそのまま出力される。また、当該音声信号ｓ（ｎ）の出力とともに、当該音声信号ｓ（ｎ）が補間用バッファメモリ１３０にコピーされる。これは、次に入力されるｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）に雑音が検出された場合に、補間用バッファメモリ１３０内のｎ番目のフレームの音声信号ｓ（ｎ）から、ｎ＋１番目のフレーム用の補間信号ｖ（ｎ＋１）を生成するためである。

［１．３．２．雑音発生時の動作例］
次に、図７を参照して、雑音発生時の音声信号処理装置１００の動作について説明する。図７は、本実施形態に係る音声信号処理装置１００の雑音発生時の動作例を示す模式図である。

図７に示すように、入力される音声信号に雑音（例えばパルス機械音）が含まれる場合であっても、マイクロホン５１から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ１２０、補間用バッファメモリ１３０に一時保存される。図７Ａに示すように、雑音が含まれるｎ番目のフレームの音声信号ｓ（ｎ）が新たに入力され、入出力用バッファメモリ１２０に蓄積されているときには、１フレーム分だけ過去のｎ−１番目のフレームの音声信号ｓ（ｎ−１）が補間用バッファメモリ１３０に一時保存されている。

そして、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入出力用バッファメモリ１２０に蓄積完了し、かつ、当該音声信号ｓ（ｎ）に雑音が含まれることが検出されたときには、図７Ｂに示す補間処理が直ちに実行される。つまり、補間信号生成部１５２は、図７Ｂに示すように、補間用バッファメモリ１３０に保存されているｎ−１番目のフレームの音声信号ｓ（ｎ−１）から、雑音区間（ｎ番目のフレーム）の音声信号ｓ（ｎ）を補間するための補間信号ｖ（ｎ）を生成する。この補間信号ｖ（ｎ）の生成方法は前述した通りである（図４、図５参照。）。図６Ｂの例では、ｎ−１番目のフレームの音声信号ｓ（ｎ−１）を時間軸方向に反転させることにより、補間信号ｖ（ｎ）が生成されている。そして、信号補間部１５４は、入出力用バッファメモリ１２０に保存されているｎ番目のフレームの音声信号ｓ（ｎ）を削除して、上記補間信号ｖ（ｎ）を入出力用バッファメモリ１２０に保存する。

次いで、図７Ｃに示すように、信号補間部１５４は、入出力用バッファメモリ１２０に保存されている補間信号ｖ（ｎ）を、図７Ａで実際に入力されたｎ番目のフレームの音声信号ｓ（ｎ）に換えて外部に出力し、入出力用バッファメモリ１２０内のデータを消去する。さらに、信号補間部１５４は、上記補間信号ｖ（ｎ）の出力とともに、当該補間信号ｖ（ｎ）を補間用バッファメモリ１３０にコピーする。これは、次に入力されるｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）に雑音が検出された場合に、補間用バッファメモリ１３０内の補間信号ｖ（ｎ）から、ｎ＋１番目のフレーム用の補間信号ｖ（ｎ＋１）を生成するためである。

以上のように、ｎ番目のフレームの音声信号ｓ（ｎ）に雑音が含まれる場合には、当該雑音を低減するために、ｎ−１番目のフレームの音声信号ｓ（ｎ−１）を利用して補間信号ｖ（ｎ）を生成して、補間処理が実行される。この補間処理により、当該雑音を含むｎ番目のフレームの入力音声信号ｓ（ｎ）に換えて、雑音を含まない補間信号ｖ（ｎ）が外部に出力されるので、雑音を好適に除去できる。

また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入出力用バッファメモリ１２０及び補間用バッファメモリ１３０のメモリ長はそれぞれ、１フレームのサンプルデータ数Ｎでよい。従って、装置全体で必要なバッファメモリ長は２＊Ｎで済む。また、入出力用バッファメモリ１２０に対して雑音区間の音声信号ｓ（ｎ）が蓄積完了した時点で直ちに、補間信号ｖ（ｎ）を生成して外部に出力できるので、入力音声に対する出力音声の遅延はゼロである。

［１．４．音声信号処理方法］
次に、図８を参照して、上記の音声信号処理装置１００を用いた音声信号処理方法（機械音低減方法）について説明する。図８は、本実施形態に係る音声信号処理方法を示すフローチャートである。

本実施形態に係る音声信号処理装置１００を具備するデジタルカメラ１による撮像及び録音中には、その周囲の外部音声がマイクロホン５１により収音され、音声信号が出力される。すると、音声信号処理装置１００は、マイクロホン５１から入力されたアナログ音声信号を、デジタル音声信号に変換し、当該デジタル音声信号をフレーム単位で処理する。即ち、音声信号処理装置１００は、入力された音声信号を１フレームずつ入出力用バッファメモリ１２０に保存し、現在入力中のフレームの１つ前のフレームの音声信号を補間用バッファメモリ１３０に保存する。そして、音声信号処理装置１００は、フレーム単位で雑音の有無を検出して、雑音が検出された場合には、当該フレームに対して、その前のフレームの信号を用いて補間処理を施す。図８は、この処理の詳細フローを示す。

図８に示すように、まず、音声信号処理装置１００は、マイクロホン５１から入力される１フレーム分の音声信号が入出力用バッファメモリ１２０に蓄積されたか否かを判定する（Ｓ１００）。ここでは、現在、ｎ番目のフレームの音声信号ｓ（ｎ）が入力中である場合の処理について説明する。Ｓ１００の判定の結果、ｎ番目のフレームの音声信号ｓ（ｎ）が入出力用バッファメモリ１２０に蓄積完了したときには直ちに、雑音検出部１４０は、当該音声信号ｓ（ｎ）に雑音が含まれるか否かを検出する（Ｓ１０２）。

Ｓ１０２の雑音判定の結果、雑音が検出された場合には直ちに、補間処理（図７参照。）が実行される。即ち、補間信号生成部１５２は、補間信号生成部１５２は、補間用バッファメモリ１３０に保存されているｎ−１番目のフレーム（１フレーム分過去）の音声信号ｓ（ｎ−１）を用いて、補間信号ｖ（ｎ）を生成する（Ｓ１０４）。そして、信号補間部１５４は、Ｓ１０４で生成された補間信号ｖ（ｎ）を用いて、雑音を含むｎ番目のフレームの音声信号ｓ（ｎ）を補間し、補間信号ｖ（ｎ）を入出力用バッファメモリ１２０に保存する（Ｓ１０６）。このＳ１０６の補間処理では、雑音を含むｎ番目のフレームの音声信号ｓ（ｎ）を補間信号ｖ（ｎ）に置換してもよいし、当該音声信号ｓ（ｎ）と補間信号ｖ（ｎ）を適切な混合比で合成してもよい。以下では、置換した例について説明する。

次いで、信号補間部１５４は、入出力用バッファメモリ１２０に保存されている雑音低減後の補間信号ｖ（ｎ）（ｎ番目のフレームに相当する。）を補間用バッファメモリ１３０にコピーするとともに（Ｓ１０８）、当該補間信号ｖ（ｎ）を信号出力部１６０に出力する（Ｓ１１０）。

一方、Ｓ１０２の雑音判定の結果、雑音が検出されない場合は、上記Ｓ１０８、Ｓ１１０の補間処理を行わずに、入力されたｎ番目のフレームの音声信号ｓ（ｎ）をそのまま出力する。即ち、信号補間部１５４は、入出力用バッファメモリ１２０に保存されているｎ番目のフレームの音声信号ｓ（ｎ）を補間用バッファメモリ１３０にコピーするとともに（Ｓ１０８）、当該音声信号ｓ（ｎ）をそのまま入出力用バッファメモリ１２０から信号出力部１６０に出力する（Ｓ１１０）。

その後、デジタルカメラ１による撮像及び録音動作が終了（Ｓ１１２）するまで、入力音声信号の次の１フレームの音声信号ｓ（ｎ＋１）に対して、上記Ｓ１００〜Ｓ１００の処理が繰り返される。これにより、入力音声信号に対して１フレームごとに雑音の検出処理が行われ、必要に応じて補間処理（雑音低減処理）が施された上で、雑音の無い音声信号がフレーム単位で出力される。

［１．５．効果］
以上、本開示の第１の実施形態に係る音声信号処理装置１００の構成と、これを用いた音声信号処理方法について説明した。本実施形態によれば、マイクロホン５１から入力されて入出力用バッファメモリ１２０に蓄積中のフレームの音声信号ｓ（ｎ）に雑音が検出された時点で直ちに、予め補間用バッファメモリ１３０に保存されている１フレーム分過去の音声信号ｓ（ｎ−１）のみを用いて補間信号ｖ（ｎ）を生成する。そして、当該補間信号ｖ（ｎ）を用いて、雑音区間の音声信号ｓ（ｎ）を補間して、補間後の音声信号を出力する。

これにより、音声信号の入出力に用いるバッファメモリを補間処理にも有効活用することができるので、補間信号の推定に必要なバッファメモリ長を短くでき、装置全体で必要なバッファメモリを削減できる。つまり、入出力用バッファメモリ１２０、補間用バッファメモリ１３０のメモリ長は、それぞれ１フレームのサンプルデータ数Ｎでよいので、装置全体で必要なバッファメモリ長は２＊Ｎで済む。上記従来の補間方法（図１参照。）では、雑音区間の前後の信号を用いて補間するため、少なくとも３＊Ｎのバッファメモリ長が必要であった。これに対し、本実施形態では、バッファメモリ長は２＊Ｎでよく、補間処理に必要なバッファメモリを大幅に削減できる。

なお、上述したように、雑音区間の前後に、様々な音が混ざり合った非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。従って、雑音区間の前のフレームの音声信号のみを使って補間した場合であっても、実質的には好適な雑音除去が可能となる。

さらに、本実施形態によれば、２つのバッファメモリを有効活用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。つまり、上記従来の補間方法（図１参照。）では、雑音区間の後のフレームの信号がバッファメモリに蓄積完了するまでに１フレーム分の遅延が生じ、さらにその後に補間信号を生成するために１フレーム分の遅延が生じるので、少なくとも２＊Ｎ分の遅延（２フレーム分の遅延）が発生していた。

これに対し、本実施形態に係る補間処理では、雑音区間の後のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を用いずに、雑音区間の前のｎ−１番目の音声信号ｓ（ｎ−１）のみを用いて補間信号ｖ（ｎ）を生成する。これにより、雑音区間であるｎ番目のフレームの音声信号ｓ（ｎ）が蓄積完了した時点で直ちに補間処理を実行して、補間後の信号を出力することができ、従来の補間方法のように、雑音区間の後の信号が蓄積されるまで補間処理を待機する必要がない。従って、入力音声に対する出力音声の遅延をゼロにできるので、従来と比べて、補間処理に伴う出力音声の遅延を大幅に低減できる。

＜２．第２の実施の形態＞
次に、本開示の第２の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第２の実施形態に係る音声信号処理装置は、雑音区間の前後の信号を用いて補間信号を生成し、補間処理を行うことを特徴としている。なお、第２の実施形態のその他の機能構成は、上記第１の実施形態と実質的に同一であるので、その詳細説明は省略する。

［２．１．機械音低減方法の概要］
まず、第２の実施形態に係る機械音低減方法の概要について説明する。上述した第１の実施形態では雑音区間の前の区間（ｎ−１番目のフレーム）の音声信号のみを用いて補間信号を生成した。これに対し、第２の実施形態では、雑音区間の前の区間（ｎ−１番目のフレーム）の音声信号のみならず、雑音区間の後の区間（ｎ＋１番目のフレーム）の音声信号をも用いて補間信号を生成して、補間処理を行う。

詳細には、ｎ番目のフレームの音声信号に雑音が検出された場合、ｎ−１番目のフレームの音声信号から第１の仮補間信号（前部仮補間信号）を生成するとともに、ｎ＋１番目のフレームの音声信号から第２の仮補間信号（後部仮補間信号）を生成する。そして、第１の仮補間信号と第２の仮補間信号を合成して補間信号を生成し、当該補間信号を用いて、雑音区間であるｎ番目のフレームの音声信号を補間する。

かかる補間処理により、第１の実施形態と比べて、入力音声に対して出力音声に１フレーム分の遅延が生じるものの、雑音区間の前後の信号を用いて補間信号を生成することによって、補間信号を高精度で推定できる。従って、より高品質の雑音低減処理を実現できる。また、２つのバッファメモリを好適に使い分けて効率的に補間信号を生成するので、入力音声に対する出力音声の遅延を最大限抑制し、１フレーム分に抑えることが可能である。以下に、第２の実施形態に係る音声信号処理装置及び方法について詳述する。

［２．２．音声信号処理装置の機能構成］
次に、図９を参照して、第２の実施形態に係る音声信号処理装置１００の機能構成について説明する。図９は、第２の実施形態に係る音声信号処理装置１００の機能構成を示すブロック図である。

図９に示すように、音声信号処理装置１００は、信号入力部１１０と、入力用バッファメモリ１２２（第１のバッファメモリ）と、出力用バッファメモリ１３２（第２のバッファメモリ）と、雑音検出部１４０と、雑音低減部１５０と、信号出力部１６０とを備える。また、上記入力用バッファメモリ１２２、出力用バッファメモリ１３２、雑音検出部１４０及び雑音低減部１５０は、上記図２の音声信号処理部６０を構成する。なお、第２の実施形態に係る信号入力部１１０、雑音検出部１４０及び信号出力部１６０は、上記第１の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。

第２の実施形態に係る音声信号処理装置１００は、入力用バッファメモリ１２２と、出力用バッファメモリ１３２という２つのバッファメモリを具備している。これらバッファメモリは、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。そして、第２の実施形態では、入力用バッファメモリ１２２と出力用バッファメモリ１３２は、信号入力部１１０と信号出力部１６０との間に直列に接続されている。

音声信号処理装置１００が音声信号をフレーム単位で入出力及び処理するために、入力用バッファメモリ１２２は、現在入力される音声信号の１フレーム分を一時保存し、出力用バッファメモリ１３２は、過去に入力された音声信号の１フレーム分を一時保存する。これら２つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、１フレーム分のデジタル音声信号（サンプルデータ数Ｎ）を保存可能である。従って、音声信号処理装置１００が備えるバッファメモリの長さは、２＊Ｎとなる。なお、入力用バッファメモリ１２２及び出力用バッファメモリ１３２は、物理的に分離された２つのバッファメモリで構成されてもよいし、物理的に１つのバッファメモリの記憶領域を分離することで構成されてもよい。

入力用バッファメモリ１２２は、信号入力部１１０から入力された音声信号を、所定区間ごとに（例えば、１フレームずつ）一時保存する。この入力用バッファメモリ１２２は、入力される音声信号の１フレーム分全てを保存完了した時点で、当該１フレームの音声信号を出力する。

入力用バッファメモリ１２２から出力された１フレームの音声信号は、出力用バッファメモリ１３２に一時保存される。つまり、出力用バッファメモリ１３２は、入力用バッファメモリ１２２に保存されている現在のフレームの音声信号（ｎ番目のフレームの音声信号）よりも１つ前の過去のフレームの音声信号（ｎ−１番目のフレームの音声信号）を一時保存する。従って、信号入力部１１０から入力されるｎ番目のフレームの音声信号が、入力用バッファメモリ１２２に蓄積されている最中には、出力用バッファメモリ１３２にｎ−１番目のフレームの音声信号が保存されていることになる。この出力用バッファメモリ１３２は、入力用バッファメモリ１２２から入力される音声信号の１フレーム分の保存を完了した時点で、当該１フレームの音声信号を信号出力部１６０に出力する。

これにより、信号入力部１１０から入力された音声信号は、１フレームずつ順次、入力用バッファメモリ１２２、出力用バッファメモリ１３２にそれぞれ一時保存された後に、信号出力部１６０に出力される。これら２つのバッファメモリにより、常時、２フレーム分の音声信号が音声信号処理装置１００内に保持される。

次に、第２の実施形態に係る雑音低減部１５０について説明する。雑音低減部１５０は、補間信号生成部１５２と、信号補間部１５４と、第１の仮補間信号生成部１５６と、第２の仮補間信号生成部１５７とを備える。

雑音検出部１４０によりｎ番目のフレームの音声信号に雑音が検出された場合、第１の仮補間信号生成部１５６は、出力用バッファメモリ１３２に保存されているｎ−１番目のフレームの音声信号から第１の仮補間信号を生成する。第１の仮補間信号は、雑音区間の前の区間の入力音声信号から生成される仮の補間信号である。このように、第１の仮補間信号生成部１５６は、雑音区間（ｎ番目のフレーム）が入力用バッファメモリ１２２に保存された直後に、雑音区間の前の区間（ｎ−１番目のフレーム）の音声信号から、雑音区間（ｎ番目のフレーム）を補間するための第１の仮補間信号を生成する。

その後、ｎ＋１番目のフレームの音声信号が入力用バッファメモリ１２２に保存されたときに、第２の仮補間信号生成部１５７は、入力用バッファメモリ１２２に保存されているｎ＋１番目のフレームの音声信号から第２の仮補間信号を生成する。第２の仮補間信号は、雑音区間の後の区間の入力音声信号から生成される仮の補間信号である。このように、第２の仮補間信号生成部１５６は、雑音区間（ｎ番目のフレーム）が出力用バッファメモリ１３２に保存された直後に、雑音区間の後の区間（ｎ＋１番目のフレーム）の音声信号から、雑音区間（ｎ番目のフレーム）を補間するための第２の仮補間信号を生成する。

そして、補間信号生成部１５２は、上記第１及び第２の仮補間信号から補間信号を生成する。信号補間部１５４は、上記補間信号生成部１５２により生成された補間信号を用いて、出力用バッファメモリ１３２に保存されているｎ番目のフレームの音声信号（雑音区間の音声信号）を補間する。

例えば、信号補間部１５４は、出力用バッファメモリ１３２に保存されている雑音区間の音声信号の全ての振幅値（つまり、Ｎ個のサンプルデータ）をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むｎ番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部１５４は、出力用バッファメモリ１３２に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。かかる信号補間部１５４による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。

ここで、上記仮補間信号及び補間信号の生成方法の例について説明する。

（ａ）シンプルな生成方法
ｎ番目のフレームが雑音区間である場合、例えば、上記図４又は図５に示した補間信号の生成方法と同様にして、ｎ−１番目のフレームの入力音声信号ｓ（ｎ−１）から第１の仮補間信号ｐ（ｎ）を生成し、ｎ＋１番目のフレームの入力音声信号ｓ（ｎ＋１）から第２の仮補間信号ｑ（ｎ）を生成する。そして、以下の式（１）に示すように、第１の仮補間信号ｐ（ｎ）と第２の仮補間信号ｑ（ｎ）を所定の混合計数α（０＜α＜１）を用いて混合することで、補間信号ｖ（ｎ）を生成する。

ｖ（ｎ）＝α・ｐ（ｎ）＋（１−α）・ｑ（ｎ）・・・（１）

例えば、α＝０．５とすることで、第１の仮補間信号ｐ（ｎ）と第２の仮補間信号ｑ（ｎ）を均等に混合して、補間信号ｖ（ｎ）を生成できる。また、ｐ（ｎ）又はｑ（ｎ）の重み付けを偏らせたいときには、αの数値を調整すればよい。上記のような生成方法により、雑音区間の前後の区間の音声信号を用いて、補間精度の高い補間信号ｖ（ｎ）を生成できる。

（ｂ）窓を用いた生成方法
また、図１０は、本実施形態に係る雑音区間の前後の入力音声信号から仮補間信号及び補間信号を生成する別の方法を示す概念図である。

上記図４又は図５に示した補間信号の生成方法と同様にして、ｎ−１番目のフレームの入力音声信号ｓ（ｎ−１）から第１の仮補間信号ｐ（ｎ）を生成し、ｎ＋１番目のフレームの入力音声信号ｓ（ｎ＋１）から第２の仮補間信号ｑ（ｎ）を生成する。そして、図１０に示すように、上記のように生成した第１の仮補間信号ｐ（ｎ）と第２の仮補間信号ｑ（ｎ）を、ハニング窓又はバートレット窓等の任意の窓ｗ_１（ｎ）、ｗ_２（ｎ）を用いて混合する。具体的には、まず、仮補間信号ｐ（ｎ）、ｑ（ｎ）にそれぞれ窓ｗ_１（ｎ）、ｗ_２（ｎ）を乗算して、信号ｔ（ｎ）、信号ｕ（ｎ）を生成する。次いで、信号ｔ（ｎ）と信号ｕ（ｎ）を合成して補間信号ｖ（ｎ）を生成する。例えば、信号ｔ（ｎ）と信号ｕ（ｎ）を加算して、補間信号ｖ（ｎ）＝ｐ（ｎ）＋ｑ（ｎ）を生成してもよいし、或いは、信号ｐ（ｎ）から信号ｑ（ｎ）を減算して、補間信号ｖ（ｎ）＝ｐ（ｎ）−ｑ（ｎ）を生成してもよい。このような方法により、仮補間信号ｐ（ｎ）、ｑ（ｎ）から、より自然な補間信号ｖ（ｎ）を生成することが可能である。

［２．３．音声信号処理装置の動作］
次に、第２の実施形態に係る音声信号処理装置１００の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。

［２．３．１．雑音がない通常時の動作例］
まず、図１１を参照して、雑音がない通常時の音声信号処理装置１００の動作について説明する。図１１は、第２の実施形態に係る音声信号処理装置１００の通常時の動作を示す模式図である。

図１１に示すように、雑音が発生していない通常時には、マイクロホン５１から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ１２２、出力用バッファメモリ１３２に一時保存される。出力用バッファメモリ１３２に保存されるフレームの音声信号は、入力用バッファメモリ１２２に現在蓄積されているフレームの音声信号よりも１つ前（過去）のフレームである。例えば、図１１Ａに示すように、現在、ｎ番目のフレームの音声信号が新たに入力されて、入力用バッファメモリ１２２に蓄積されているときには、１フレーム分だけ過去に入力されたｎ−１番目のフレームの音声信号ｓ（ｎ−１）が出力用バッファメモリ１３２に保存されている。

そして、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了された時に直ちに、図１１Ｂに示すように、出力用バッファメモリ１３２に保存されているｎ番目のフレームの音声信号ｓ（ｎ）が外部に出力される。このとき、雑音は検出されていないので、ｎ−１番目のフレームの音声信号ｓ（ｎ−１）がそのまま出力される。また、当該音声信号ｓ（ｎ−１）の出力とともに、入力用バッファメモリ１２２に保存されているｎ番目のフレームの音声信号ｓ（ｎ）が、出力用バッファメモリ１３２にコピーされ、入力用バッファメモリ１２２内のデータが消去される。これは、次に入力されるｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）に雑音が検出された場合に、出力用バッファメモリ１３２内のｎ番目のフレームの音声信号ｓ（ｎ）から、ｎ＋１番目のフレーム用の補間信号ｖ（ｎ＋１）を生成するためである。

その後、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が新たに入力され、当該ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了された時に直ちに、ｎ番目のフレームの音声信号ｓ（ｎ）が出力用バッファメモリ１３２から出力される。このため、入力音声に対して出力音声が１フレーム分だけ遅延することになる（遅延量はＮ）。

［２．３．２．雑音発生時の動作例］
次に、図１２、図１３を参照して、雑音発生時の音声信号処理装置１００の動作について説明する。図１２、図１３は、本実施形態に係る音声信号処理装置１００の雑音発生時の動作例を示す模式図である。

図１２に示すように、入力される音声信号に雑音（例えばパルス機械音）が含まれる場合であっても、マイクロホン５１から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ１２２、出力用バッファメモリ１３２に一時保存される。図１２Ａに示すように、雑音が含まれるｎ番目のフレームの音声信号ｓ（ｎ）が新たに入力され、入力用バッファメモリ１２２に蓄積されているときには、１フレーム分だけ過去のｎ−１番目のフレームの音声信号ｓ（ｎ−１）が出力用バッファメモリ１３２に一時保存されている。

そして、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了し、かつ、当該音声信号ｓ（ｎ）に雑音が含まれることが検出されたときには、図１２Ｂに示す第１の仮補間信号の生成処理が直ちに実行される。つまり、第１の仮補間信号生成部１５６は、図１２Ｂに示すように、出力用バッファメモリ１３２に保存されているｎ−１番目のフレームの音声信号ｓ（ｎ−１）から、雑音区間（ｎ番目のフレーム）の音声信号ｓ（ｎ）を補間するための第１の仮補間信号ｐ（ｎ）を生成する。図１２Ｂの例では、ｎ−１番目のフレームの音声信号ｓ（ｎ−１）を時間軸方向に反転させることにより、第１の仮補間信号ｐ（ｎ）が生成されている。そして、第１の仮補間信号生成部１５６は、出力用バッファメモリ１３２に保存されているｎ番目のフレームの音声信号ｓ（ｎ）を削除して、上記第１の仮補間信号ｐ（ｎ）を出力用バッファメモリ１３２に保存する。

次いで、図１２Ｃに示すように、信号補間部１５４は、出力用バッファメモリ１３２に保存されているｎ−１番目のフレームの音声信号ｓ（ｎ−１）を外部に出力する。さらに、信号補間部１５４は、上記音声信号ｓ（ｎ−１）の出力とともに、入力用バッファメモリ１２２に保存されている第１の仮補間信号ｐ（ｎ）を、出力用バッファメモリ１３２に移動させる。これは、出力用バッファメモリ１３２に第１の仮補間信号ｐ（ｎ）を保存しておき、次にｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が入力されたときに仮補間信号ｐ（ｎ）を用いて補間信号ｖ（ｎ）を生成するためである。

次いで、図１３Ａに示すように、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が新たに入力され、入力用バッファメモリ１２２に蓄積されているときには、上記第１の仮補間信号ｐ（ｎ）が出力用バッファメモリ１３２に一時保存されている。

そして、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときには、図１３Ｂに示す第２の仮補間信号の生成処理、及び補間信号の生成処理が直ちに実行される。つまり、第２の仮補間信号生成部１５７は、図１３Ｂに示すように、入力用バッファメモリ１２２に保存されているｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）から、雑音区間（ｎ番目のフレーム）の音声信号ｓ（ｎ）を補間するための第２の仮補間信号ｑ（ｎ）を生成する。そして、補間信号生成部１５２は、図１３Ｂに示すように、生成された第２の仮補間信号ｑ（ｎ）と、出力用バッファメモリ１３２に保存されている第１の仮補間信号ｐ（ｎ）とを合成して、補間信号ｖ（ｎ）を生成する。

次いで、図１３Ｃに示すように、上記補間信号ｖ（ｎ）の生成後直ちに、信号補間部１５４は、図１２Ａで実際に入力されたｎ番目のフレームの音声信号ｓ（ｎ）に換えて、上記補間信号ｖ（ｎ）を外部に出力する。さらに、信号補間部１５４は、上記補間信号ｖ（ｎ）の出力とともに、入力用バッファメモリ１２２に保存されているｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を、出力用バッファメモリ１３２に移動させる。これは、次に入力されるｎ＋２番目のフレームの音声信号ｓ（ｎ＋２）が入力用バッファメモリ１２２に蓄積完了した時点で、出力用バッファメモリ１３２から音声信号ｓ（ｎ＋１）を出力するためである。また、次に入力されるｎ＋２番目のフレームの音声信号ｓ（ｎ＋２）に雑音が検出された場合には、出力用バッファメモリ１３２内の音声信号ｓ（ｎ＋１）から、ｎ＋２番目のフレーム用の第１の仮補間信号ｐ（ｎ＋１）を生成することもできる。

以上のように、本実施形態によれば、ｎ番目のフレームの音声信号ｓ（ｎ）に雑音が含まれる場合には、当該雑音を低減するために、ｎ−１番目及びｎ＋１番目のフレームの音声信号ｓ（ｎ−１）、ｓ（ｎ＋１）を利用して補間信号ｖ（ｎ）を生成して、補間処理が実行される。この補間処理により、当該雑音を含むｎ番目のフレームの入力音声信号ｓ（ｎ）に換えて、雑音を含まない補間信号ｖ（ｎ）が外部に出力されるので、雑音を好適に除去できる。さらに、雑音区間の前後の音声信号を用いて補間するので、より自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。

また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入力用バッファメモリ１２２及び出力用バッファメモリ１３２のメモリ長はそれぞれ、１フレームのサンプルデータ数Ｎでよい。従って、第１の実施形態同様に、装置全体で必要なバッファメモリ長は２＊Ｎで済む。また、入力用バッファメモリ１２２に対して次のフレームの音声信号ｓ（ｎ＋１）が蓄積完了した時点で直ちに、１つ前のフレームの音声信号ｓ（ｎ）が外部に出力されるので、入力音声に対する出力音声の遅延は１フレーム分で済む。

［２．４．音声信号処理方法］
次に、図１４を参照して、上記の音声信号処理装置１００を用いた音声信号処理方法（機械音低減方法）について説明する。図１４は、第２の実施形態に係る音声信号処理方法を示すフローチャートである。

図１４に示すように、まず、音声信号処理装置１００は、マイクロホン５１から入力される１フレーム分の音声信号が入力用バッファメモリ１２２に蓄積されたか否かを判定する（Ｓ２００）。ここでは、現在、ｎ番目のフレームの音声信号ｓ（ｎ）が入力中である場合の処理について説明する。Ｓ２００の判定の結果、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了したときには直ちに、雑音検出部１４０は、当該音声信号ｓ（ｎ）に雑音が含まれるか否かを検出する（Ｓ２０２）。

Ｓ２０２の判定の結果、雑音が検出された場合には直ちに、図１２に示した第１の仮補間信号の生成処理が実行される。即ち、第１の仮補間信号生成部１５６は、出力用バッファメモリ１３２に保存されているｎ−１番目のフレーム（１フレーム分過去）の音声信号ｓ（ｎ−１）を用いて、第１の仮補間信号ｐ（ｎ）を生成する（Ｓ２０４）。そして、第１の仮補間信号生成部１５６は、出力用バッファメモリ１３２からｎ−１番目のフレームの音声信号ｓ（ｎ−１）をそのまま信号出力部１６０に出力するとともに、第１の仮補間信号ｐ（ｎ）を出力用バッファメモリ１３２に保存する（Ｓ２０６）。

次いで、新たに入力されたｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を入力用バッファメモリ１２２に蓄積し、当該音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したか否を判定する（Ｓ２１０）。この結果、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときには直ちに、図１３に示した第２の仮補間信号の生成処理及び補間処理が実行される。

即ち、第２の仮補間信号生成部１５７は、入力用バッファメモリ１２２に保存されているｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を用いて、第２の仮補間信号ｑ（ｎ）を生成する（Ｓ２１４）。そして、補間信号生成部１５２は、出力用バッファメモリ１３２に保存されている第１の仮補間信号ｐ（ｎ）と、Ｓ２１４で生成された第２の仮補間信号ｑ（ｎ）から、補間信号ｖ（ｎ）を生成する（Ｓ２１６）。さらに、信号補間部１５４は、Ｓ２１６で生成された補間信号ｖ（ｎ）を用いて、雑音を含むｎ番目のフレームの音声信号ｓ（ｎ）を補間し、補間後の信号を出力用バッファメモリ１３２に保存する（Ｓ２１８）。このＳ２１８の補間処理では、雑音を含むｎ番目のフレームの音声信号ｓ（ｎ）を補間信号ｖ（ｎ）に置換してもよいし、当該音声信号ｓ（ｎ）と補間信号ｖ（ｎ）を適切な混合比で合成してもよい。以下では、置換した例について説明する。

その後、信号補間部１５４は、ｎ番目のフレームの音声信号ｓ（ｎ）に換えて、Ｓ２１８で出力用バッファメモリ１３２に保存された補間信号ｖ（ｎ）を、信号出力部１６０に出力する（Ｓ２２０）。そして、入力用バッファメモリ１２２に保存されたｎ＋１番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる。

一方、上記Ｓ２０２の雑音判定の結果、ｎ番目のフレームの音声信号ｓ（ｎ）に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図１１に示したように、出力用バッファメモリ１３２からｎ−１番目のフレームの音声信号ｓ（ｎ−１）をそのまま信号出力部１６０出力し、入力用バッファメモリ１２２に保存されたｎ番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる（Ｓ２０８）。そして、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときに（Ｓ２１０）、出力用バッファメモリ１３２からｎ番目のフレームの音声信号ｓ（ｎ）をそのまま信号出力部１６０に出力し（Ｓ２２０）、入力用バッファメモリ１２２に保存されたｎ＋１番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる。

その後、デジタルカメラ１による撮像及び録音動作が終了（Ｓ２２２）するまで、入力音声信号の次の１フレームの音声信号ｓ（ｎ＋２）に対して、上記Ｓ２００〜Ｓ２２０の処理が繰り返される。これにより、入力音声信号に対して１フレームごとに雑音の検出処理が行われ、必要に応じて補間処理（雑音低減処理）が施された上で、雑音の無い音声信号がフレーム単位で出力される。

［２．５．効果］
以上、本開示の第２の実施形態に係る音声信号処理装置１００の構成と、これを用いた音声信号処理方法について説明した。第２の実施形態によれば、雑音区間の前後の音声信号ｓ（ｎ−１）、ｓ（ｎ＋１）を用いて補間信号を生成することで、雑音区間の背景音（雑音を除いた外部音声）を適切に表す補間信号を高精度で推定できる。従って、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。

また、第１の実施形態と同様に、信号の入出力に用いるバッファメモリを、補間処理にも有効活用することで、補間信号の推定に必要なバッファメモリ長を減少でき、装置全体で必要なバッファメモリを削減できる。第２の実施形態でも、補間信号の推定に必要なバッファメモリ長は２＊Ｎで済むので、上記従来の補間方法（図１参照。）が少なくとも３＊Ｎのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。

さらに、本実施形態によれば、２つのバッファメモリを有効利用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。即ち、上記従来の補間方法（図１参照。）では、雑音区間の前後の信号を用いて補間処理するために、上記のように少なくとも２＊Ｎ分の遅延（２フレーム分の遅延）が発生していた。これに対し、本実施形態によれば、雑音区間の前後の音声信号ｓ（ｎ−１）、ｓ（ｎ＋１）を用いて補間信号ｖ（ｎ）を生成するけれども、入力用バッファメモリ１２２に対する音声信号ｓ（ｎ＋１）の蓄積が完了した時点で直ちに補間信号ｖ（ｎ）を生成して出力できる。これにより、入力音声に対する出力音声の遅延を１フレーム分（遅延量：Ｎ）に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。

＜３．第３の実施の形態＞
次に、本開示の第３の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第３の実施形態に係る音声信号処理装置は、雑音の開始点、終了点検出した上で、雑音の前後の信号を用いて補間信号を生成し、雑音の開始点から終了点までの信号に対して補間処理を行うことを特徴としている。なお、第３の実施形態のその他の機能構成は、上記第２の実施形態と実質的に同一であるので、その詳細説明は省略する。

［３．１．機械音低減方法の概要］
まず、第３の実施形態に係る機械音低減方法の概要について説明する。

上述した第１、２の実施形態では、図７等に示すように、パルス機械音等の雑音が音声信号の１フレーム内に収まっていることを前提として、フレーム単位で補間処理を行っていた。しかしながら、実際には、１つの雑音が音声信号の１フレーム内に必ず収まる訳ではなく、図１６に示すように１つの雑音が２つのフレームに跨って存在する場合も生じうる。つまり、このような場合には、前述した第１、第２の実施形態に係る補間方法では、雑音を好適に低減することが困難になる。

そこで、第３の実施形態では、雑音基準点検出部により雑音の基準点を検出することにより、雑音が２つのフレームに跨って存在する場合であっても、その雑音の前後の信号を用いて雑音を効果的に低減するものである。雑音基準点は、音声信号における雑音の位置を示す基準点であり、図１６に示すように、雑音開始点Ｐ_Ｓ、雑音中間点Ｐ_Ｍ、雑音終了点Ｐ_Ｅの３つである。この雑音基準点を検出することにより、フレーム単位以外にも、音声信号の任意の区間で補間処理を実現できる。

ここで、音声信号のフレームの位置と雑音の位置との関係について、より詳細に説明する。音声信号処理のみを考慮した場合には、フレームの位置、即ち、１フレームにおけるサンプルデータ数Ｎの決め方は任意である。一般的には、音声信号を周波数領域に変換するためにＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を扱うことが多いため、サンプルデータ数Ｎとして、２のべき乗である「２５６」、「５１２」、「１０２４」等が広く使用される。ただし、周波数変換を行わない場合にはこの限りではない。

一方、デジタルカメラ、ビデオカメラ等においては、カメラ内部のシステム制御クロックや映像信号（動画）に対して音声信号の同期をとる必要があるため、音声信号処理のフレームのサンプルデータ数Ｎを自由に決定することは難しい。ここで、フレームを長くとる（即ち、Ｎを大きくする）と、カメラシステムの遅延増加につながるため、現実的には、サンプルデータ数Ｎを１００〜２０００程度とすることが多い。

上記の理由により、パルス機械音の時間長（全体の時間幅）に合わせて、音声信号のフレームのサンプルデータ数Ｎを任意に決定することは現実には困難である。

ところで、一般に、パルス機械音は他の雑音と比べて時間長が短いことを特徴としている。このため、パルス機械音の時間長は、音声信号のフレームのサンプルデータ数Ｎと同程度、またはそれよりも短いとみなしても問題ない。従って、パルス機械音全体が１フレーム中に収まれば（図７等参照。）、第１、第２の実施形態のような補間処理を問題なく行うことができる。

しかし、現実には、パルス機械音がフレームの境界からずれて存在し、２つのフレームに跨って存在することの方が多い（図１６参照。）。従って、音声信号に設定されたフレームの境界とは別に、パルス機械音の区切り（基準点）を検知した上で、その雑音の区切り位置の前後の信号を用いて、パルス機械音を補間処理することが好ましい。

そこで第３の実施形態では、雑音（例えばパルス機械音）を含む音声信号のフレームが入力されたときに、当該雑音の基準点（雑音開始点Ｐ_Ｓ、雑音中間点Ｐ_Ｍ及び雑音終了点Ｐ_Ｅ）を検出し、フレームとは無関係に雑音区間を特定する。そして、雑音開始点Ｐ_Ｓよりも前の信号から、前部補間信号（第１の補間信号）を生成し、当該前部補間信号を用いて雑音の前半部分（雑音開始点Ｐ_Ｓから雑音中間点Ｐ_Ｍまでの区間）を補間する。さらに、次のフレームが入力したときに、雑音終了点Ｐ_Ｅよりも後の信号から後部補間信号（第２の補間信号）を生成し、当該後部補間信号を用いて雑音の後半部分（雑音中間点Ｐ_Ｍから雑音終了点Ｐ_Ｅまでの区間）を補間する。

かかる補間処理により、雑音が音声信号の複数フレームに跨って存在する場合であっても、フレーム境界は関わらずに、当該雑音の前後の任意の区間の音声信号を用いて補間処理を行うことができるので、当該雑音を適切に低減することができる。以下に、第３の実施形態に係る音声信号処理装置及び方法について詳述する。

［３．２．音声信号処理装置の機能構成］
次に、図１５を参照して、第３の実施形態に係る音声信号処理装置１００の機能構成について説明する。図１５は、第３の実施形態に係る音声信号処理装置１００の機能構成を示すブロック図である。

図１５に示すように、音声信号処理装置１００は、信号入力部１１０と、入力用バッファメモリ１２２（第１のバッファメモリ）と、出力用バッファメモリ１３２（第２のバッファメモリ）と、雑音検出部１４０と、雑音基準点検出部１４２と、雑音低減部１５０と、信号出力部１６０とを備える。また、上記入力用バッファメモリ１２２、出力用バッファメモリ１３２、雑音検出部１４０、雑音基準点検出部１４２及び雑音低減部１５０は、上記図２の音声信号処理部６０を構成する。なお、第３の実施形態に係る信号入力部１１０、入力用バッファメモリ１２２、出力用バッファメモリ１３２、雑音検出部１４０及び信号出力部１６０は、上記第２の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。

第３の実施形態に係る音声信号処理装置１００は、雑音基準点検出部１４２を更に備えることを特徴としている。雑音基準点検出部１４２は、音声信号に含まれる雑音の信号特性に基づいて、音声信号に含まれる雑音（パルス機械音）の基準点（雑音開始点Ｐ_Ｓ、雑音中間点Ｐ_Ｍ及び雑音終了点Ｐ_Ｅ）を検出する。図１６に示すように、雑音開始点Ｐ_Ｓは、音声信号においてパルス機械音が開始する位置である。また、雑音中間点Ｐ_Ｍは、音声信号においてパルス機械音の中間の位置（例えばパルス成分の振幅が最大となる位置）である。さらに、雑音終了点Ｐ_Ｅは、音声信号においてパルス機械音が終了する位置である。雑音基準点検出部１４２によるこれら基準点の検出方法は、例えば以下の通りである。

まず、雑音基準点検出部１４２は、雑音中間点Ｐ_Ｍを検出する。雑音中間点Ｐ_Ｍの検出方法としては、例えば以下の（ａ）〜（ｃ）が例示される。

（ａ）振幅最大値を利用
パルス機械音の振幅の絶対値の最大値が存在する位置を、雑音中間点Ｐ_Ｍとしてもよい。図１６に示すように、パルス機械音は、パルス成分と残響成分を含み、パルス成分のパルスのピーク（振幅最大値）は概ねパルス機械音の中間点と一致する。従って、パルス機械音の振幅の絶対値が最大となる位置が、雑音中間点Ｐ_Ｍであると推定することができる。

（ｂ）雑音区間情報を利用
また、雑音検出部１４０から雑音区間情報を取得した時から一定時間が経過した時点の位置を雑音中間点Ｐ_Ｍとしてもよい。雑音検出部１４０は、雑音が含まれる区間を表す雑音区間情報を生成し、雑音基準点検出部１４２に出力することができる。この雑音区間情報は、上述した雑音検出処理により生成されてもよいし、又は、パルス機械音を発生する駆動装置１４の制御情報に基づいて生成されてもよい。

（ｃ）信号の傾きの変化値を利用
また、雑音検出部１４０からパルス機械音の信号の傾きが急峻に変化した直後の変化点の位置を雑音中間点Ｐ_Ｍとしてもよい。パルス機械音のパルス成分は振幅が急峻に変化するので、この急峻な変化の直後に、振幅の微分値がゼロとなる位置はパルス成分のピークを示す。従って、当該振幅の微分値の変化点の位置が、雑音中間点Ｐ_Ｍであると推定することができる。

次に、雑音基準点検出部１４２は、雑音開始点Ｐ_Ｓを検出する。雑音開始点Ｐ_Ｓの検出方法としては、例えば以下の（ａ）、（ｂ）が例示される。

（ａ）信号エネルギーを利用
雑音中間点Ｐ_Ｍよりも前の音声信号において信号エネルギーが閾値よりも低下する点を、雑音開始点Ｐ_Ｓとしてもよい。図１６に示すように、一般に、パルス機械音は背景音よりも振幅が大きいため、パルス機械音が存在する部分の信号エネルギーは、背景音のみが存在する部分の信号エネルギーよりも大きくなる。従って、上記検出された雑音中間点Ｐ_Ｍよりも時間的に前の音声信号において、信号エネルギーが所定の閾値以下となる点が、雑音開始点Ｐ_Ｓであると推定することができる。

（ｂ）予め設定されたサンプルデータ数を利用
また、予め設定されたサンプルデータ数だけ雑音中間点Ｐ_Ｍよりも前の点を、雑音開始点Ｐ_Ｓとしてもよい。事前にパルス機械音の時間幅を測定し、雑音中間点Ｐ_Ｍと雑音開始点Ｐ_Ｓとの差分を予め求めておくことで、当該差分を表すサンプルデータ数をパラメータとして設定しておけばよい。このパラメータを用いて、雑音中間点Ｐ_Ｍから雑音開始点Ｐ_Ｓを推定できる。

さらに、雑音基準点検出部１４２は、雑音終了点Ｐ_Ｅを検出する。雑音終了点Ｐ_Ｅの検出方法は、上記の雑音開始点Ｐ_Ｓの検出方法と同様である。ただし、雑音中間点Ｐ_Ｍよりも前の信号ではなく、雑音中間点Ｐ_Ｍよりも後の信号において雑音終了点Ｐ_Ｅが検出される。

以上のようにして、雑音基準点検出部１４２は、入力音声信号の雑音区間における実際の雑音の基準点を検出する。この雑音の基準点のうち雑音開始点Ｐ_Ｓから雑音終了点Ｐ_Ｅまでが、実際の雑音の範囲を表す。雑音開始点Ｐ_Ｓ及び雑音終了点Ｐ_Ｅは、音声信号における雑音と背景音との区切り位置となる。

次に、第３の実施形態に係る雑音低減部１５０について説明する。雑音低減部１５０は、補間信号生成部１５２と、信号補間部１５４を備える。そして、補間信号生成部１５２は、前部補間信号生成部１５８（第１の補間信号生成部）と、後部補間信号生成部１５９（第１の補間信号生成部）を備えることを特徴としている。

雑音検出部１４０によりｎ番目のフレームの音声信号に雑音が検出された場合、前部補間信号生成部１５８は、上記雑音開始点Ｐ_Ｓよりも前の所定区間の音声信号を用いて、雑音の前半部分を補間するための前部補間信号（第１の補間信号）を生成する。例えば、前部補間信号生成部１５８は、ｎ−１番目、ｎ番目のフレームの音声信号のうち雑音開始点Ｐ_Ｓよりも前の音声信号において、雑音開始点Ｐ_Ｓと雑音中間点Ｐ_Ｍとの間の長さに相当する分だけ雑音開始点Ｐ_Ｓよりも前に位置する区間の音声信号から、前部補間信号を生成する。

その後、ｎ＋１番目のフレームの音声信号が入力用バッファメモリ１２２に保存されたときに、後部補間信号生成部１５９は、上記雑音終了点Ｐ_Ｅよりも後の所定区間の音声信号を用いて、雑音の後半部分を補間するための後部補間信号（第２の補間信号）を生成する。例えば、後部補間信号生成部１５９は、ｎ番目、ｎ＋１番目のフレームの音声信号のうち雑音終了点Ｐ_Ｅよりも後の音声信号において、雑音中間点Ｐ_Ｍと雑音終了点Ｐ_Ｅとの間の長さに相当する分だけ雑音終了点Ｐ_Ｅよりも後に位置する区間の音声信号から、後部補間信号を生成する。

このように、第３の実施形態では、第２の実施形態のようにフレームを基準として補間信号を生成するのではなく、上記雑音基準点によって特定される区間を基準として前部補間信号及び後部補間信号を生成する。これら前部補間信号及び後部補間信号の生成方法の詳細は後述する。

そして、信号補間部１５４は、上記前部補間信号生成部１５８により生成された前部補間信号を用いて、ｎ−１番目及び／又はｎ番目のフレームの音声信号に含まれる雑音の前半部分を補間する。さらに、信号補間部１５４は、上記後部補間信号生成部１５９により生成された後部補間信号を用いて、ｎ番目及び／又はｎ＋１番目のフレームの音声信号に含まれる雑音の後半部分を補間する。

例えば、信号補間部１５４は、音声信号に含まれる雑音の前半部分を前部補間信号で置換し、当該雑音の後半部分を後部補間信号で置換してもよい。或いは、信号補間部１５４は、音声信号に含まれる雑音の前半部分と前部補間信号を適当な混合比で合成し、雑音の後半部分と後部補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、入力音声信号における雑音部分が補間されて、雑音が低減された音声信号が出力されるので、当該雑音を低減・除去することができる。

［３．３．音声信号処理装置の動作］
次に、第３の実施形態に係る音声信号処理装置１００の動作について説明する。雑音がない通常時の動作は、第２の実施形態の場合（図１１参照。）と同様であるので詳細説明は省略する。以下では、第３の実施形態に係る雑音発生時の動作例について、雑音がｎ番目とｎ＋１番目のフレームに跨って存在する場合（第１動作例）と、雑音がｎ−１番目とｎ番目のフレームに跨って存在する場合（第２動作例）をそれぞれ説明する。なお、双方の場合とも、ｎ番目のフレームに雑音（パルス機械音）のパルス成分のピークが存在するため、ｎ番目のフレームの入力時に雑音が検出されるものとする。

［３．３．１．雑音発生時の第１動作例］
まず、図１７、図１８を参照して、雑音がｎ番目とｎ＋１番目のフレームに跨って存在する場合の音声信号処理装置１００の第１動作例について説明する。図１７、図１８は、本実施形態に係る音声信号処理装置１００の雑音発生時の第１動作例を示す模式図である。

図１７Ａに示すように、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了し、かつ、当該音声信号ｓ（ｎ）に雑音のピークが含まれることが検出されたときには、図１７Ａに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図１７Ｂに示す前部補間処理が直ちに実行される。

詳細には、まず、前部補間信号生成部１５８は、図１７Ａに示すように、雑音開始点Ｐ_Ｓから雑音前部区間長Ｌ_Ｆだけ前の点Ｐ_Ａまでの区間Ｓ_Ａの信号から、雑音前部区間Ｓ_Ｆを補間するための前部補間信号ｔ（ｎ）を生成する。ここで、雑音前部区間Ｓ_Ｆは、雑音開始点Ｐ_Ｓから雑音中間点Ｐ_Ｍまでの区間であり、雑音前部区間長Ｌ_Ｆは、雑音開始点Ｐ_Ｓから雑音中間点Ｐ_Ｍまでの区間の長さである。

区間Ｓ_Ａは、パルス機械音の雑音開始点Ｐ_Ｓよりも前に存在し、雑音を含まない区間である。本実施形態では、区間Ｓ_Ａの区間長は、雑音前部区間長Ｌ_Ｆと同一となるように設定される。しかし、区間Ｓ_Ａの区間長は、雑音前部区間長Ｌ_Ｆに応じて適宜設定されればよく、Ｌ_Ｆより短い、又は長くてもよい。かかる区間Ｓ_Ａは、少なくともｎ番目のフレームの前部の区間を含み、雑音前部区間長Ｌ_Ｆによってはｎ−１番目のフレームの後部の区間をも含む。図１７Ａの例では、区間Ｓ_Ａはｎ番目及びｎ−１番目のフレームの双方に跨って設定されている。

前部補間信号生成部１５８は、ｎ番目及びｎ−１番目のフレームの音声信号ｓ（ｎ）、ｓ（ｎ−１）のうち上記区間Ｓ_Ａの信号を用いて、前部補間信号ｔ（ｎ）を生成する。この前部補間信号ｔ（ｎ）の生成方法は、前述した第１の実施形態に係る補間信号ｖ（ｎ）の生成方法と同様であり（図４、図５参照。）、例えば、区間Ｓ_Ａの信号を時間軸方向に反転させることで、前部補間信号ｔ（ｎ）が生成される。

次いで、信号補間部１５４は、図１７Ｂに示すように、上記前部補間信号ｔ（ｎ）を用いて、ｎ番目のフレームの音声信号ｓ（ｎ）のうち、雑音前部区間Ｓ_Ｆの信号を補間する。図１７Ｂの前部補間処理の例では、入力用バッファメモリ１２２に保存されているｎ番目のフレームのうち雑音前部区間Ｓ_Ｆの音声信号ｓ（ｎ）が、前部補間信号ｔ（ｎ）に置換されている。かかる前部補間処理により、雑音前部区間Ｓ_Ｆの雑音が低減される。

次いで、図１７Ｃに示すように、上記前部補間処理後に直ちに、信号補間部１５４は、出力用バッファメモリ１３２に保存されているｎ−１番目のフレームの音声信号ｓ（ｎ−１）を信号出力部１６０に出力する。さらに、信号補間部１５４は、上記音声信号ｓ（ｎ−１）の出力とともに、入力用バッファメモリ１２２に保存されている前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）を、出力用バッファメモリ１３２に移動させる。ここで、前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）とは、上記前部補間信号ｔ（ｎ）により雑音前部区間Ｓ_Ｆが補間されたｎ番目のフレームの音声信号ｓ（ｎ）である。このように、前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）を出力用バッファメモリ１３２に移動させておくことで、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が入力されたときに、前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）のうちの後部雑音区間を補間することができる。

次いで、図１８Ａに示すように、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が新たに入力され、入力用バッファメモリ１２２に蓄積されているときには、上記前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）が出力用バッファメモリ１３２に一時保存されている。

そして、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときには、図１８Ａに示す後部補間信号の生成処理と、図１８Ｂに示す後部補間処理が直ちに実行される。

詳細には、まず、後部補間信号生成部１５９は、図１８Ａに示すように、雑音終了点Ｐ_Ｅから雑音後部区間長Ｌ_Ｒだけ前の点Ｐ_Ｂまでの区間Ｓ_Ｂの信号から、雑音後部区間Ｓ_Ｒを補間するための後部補間信号ｕ（ｎ）を生成する。ここで、雑音後部区間Ｓ_Ｒは、雑音中間点Ｐ_Ｍから雑音終了点Ｐ_Ｅまでの区間であり、雑音後部区間長Ｌ_Ｒは、雑音中間点Ｐ_Ｍから雑音終了点Ｐ_Ｅまでの区間の長さである。

区間Ｓ_Ｂは、パルス機械音の雑音終了点Ｐ_Ｅよりも後に存在し、雑音を含まない区間である。本実施形態では、区間Ｓ_Ｂの区間長は、雑音後部区間長Ｌ_Ｒと同一となるように設定される。しかし、区間Ｓ_Ｂの区間長は、雑音後部区間長Ｌ_Ｒに応じて適宜設定されればよく、Ｌ_Ｂより短い、又は長くてもよい。かかる区間Ｓ_Ｂは、少なくともｎ番目のフレームの後部の区間、及びｎ＋１番目のフレームの前部の区間を含み、雑音後部区間長Ｌ_Ｒによっては、ｎ＋２番目のフレームの前部の区間をも含む。図１８Ａの例では、区間Ｓ_Ｂはｎ番目及びｎ＋１番目のフレームの双方に跨って設定されている。

後部補間信号生成部１５９は、ｎ番目及びｎ＋１番目のフレームの音声信号ｓ（ｎ）、ｓ（ｎ＋１）のうち上記区間Ｓ_Ｂの信号を用いて、後部補間信号ｕ（ｎ）を生成する。この後部補間信号ｕ（ｎ）の生成方法は、前述した第１の実施形態に係る補間信号ｖ（ｎ）の生成方法と同様であり（図４、図５参照。）、例えば、区間Ｓ_Ｂの信号を時間軸方向に反転させることで、後部補間信号ｕ（ｎ）が生成される。

次いで、信号補間部１５４は、図１８Ｂに示すように、上記後部補間信号ｕ（ｎ）を用いて、ｎ番目及びｎ＋１番目のフレームの音声信号ｓ（ｎ）、ｓ（ｎ＋１）のうち、雑音後部区間Ｓ_Ｒの信号を補間する。図１８Ｂの後部補間処理の例では、出力用バッファメモリ１３２に保存されているｎ番目のフレームの前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）、及び入力用バッファメモリ１２２に保存されているｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）のうち、雑音後部区間Ｓ_Ｒの信号が、後部補間信号ｕ（ｎ）に置換されている。かかる後部補間処理により、雑音後部区間Ｓ_Ｒの雑音が低減される。

次いで、図１８Ｃに示すように、上記後部補間処理後に直ちに、信号補間部１５４は、図１７Ａで実際に入力されたｎ番目のフレームの音声信号ｓ（ｎ）に換えて、出力用バッファメモリ１３２に保存されている前後部補間信号ｓ（ｎ）＋ｔ（ｎ）＋ｕ（ｎ）を、信号出力部１６０に出力する。ここで、前後部補間音声信号ｓ（ｎ）＋ｔ（ｎ）＋ｕ（ｎ）とは、上記前部補間信号ｔ（ｎ）により雑音前部区間Ｓ_Ｆが補間され、かつ、上記後部補間信号ｕ（ｎ）により雑音後部区間Ｓ_Ｒが補間されたｎ番目のフレームの音声信号ｓ（ｎ）である。

さらに、図１８Ｃに示すように、信号補間部１５４は、上記前後部補間音声信号ｓ（ｎ）＋ｔ（ｎ）＋ｕ（ｎ）の出力とともに、入力用バッファメモリ１２２に保存されている、ｎ＋１番目のフレームの前部補間音声信号ｕ（ｎ）＋ｓ（ｎ＋１）を、出力用バッファメモリ１３２に移動させる。これにより、次にｎ＋２番目のフレームの音声信号ｓ（ｎ＋１）が入力されたときに、雑音が低減されたｎ＋１番目のフレームの前部補間音声信号ｕ（ｎ）＋ｓ（ｎ＋１）を出力することが可能となる。

上記第１動作例のように、雑音がｎ番目とｎ＋１番目のフレームに跨って存在する場合には、ｎ番目とｎ−１番目のフレームのうち雑音開始点Ｐ_Ｓの直前の信号を用いて雑音前部区間Ｓ_Ｆが補間され、ｎ番目とｎ＋１番目のフレームのうち雑音終了点Ｐ_Ｅの直後の信号を用いて雑音後部区間Ｓ_Ｒが補間される。

［３．３．２．雑音発生時の第２動作例］
次に、図１９、図２０を参照して、雑音がｎ−１番目とｎ番目のフレームに跨って存在する場合の音声信号処理装置１００の第２動作例について説明する。図１９、図２０は、本実施形態に係る音声信号処理装置１００の雑音発生時の第２動作例を示す模式図である。

図１９Ａに示すように、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了し、かつ、当該音声信号ｓ（ｎ）に雑音のピークが含まれることが検出されたときには、図１９Ａに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図１９Ｂに示す前部補間処理が直ちに実行される。

詳細には、まず、前部補間信号生成部１５８は、図１９Ａに示すように、雑音開始点Ｐ_Ｓから雑音前部区間長Ｌ_Ｆだけ前の点Ｐ_Ａまでの区間Ｓ_Ａの信号から、雑音前部区間Ｓ_Ｆを補間するための前部補間信号ｔ（ｎ）を生成する。雑音前部区間Ｓ_Ｆ及び区間Ｓ_Ａ等の定義は、前述の第１動作例と同様である。ただし、第２動作例では、雑音開始点Ｐ_Ｓがｎ−１番目のフレームに存在するため、雑音前部区間Ｓ_Ｆは、ｎ−１番目及びｎ番目のフレームに跨って存在する。また、区間Ｓ_Ａは、少なくともｎ−１番目のフレームの一部の区間を含み、雑音前部区間長Ｌ_Ｆによってはｎ−２番目のフレームの後部の区間をも含む。図１９Ａの例では、区間Ｓ_Ａはｎ−１番目のフレーム内に設定されている。

前部補間信号生成部１５８は、ｎ−１番目のフレームの音声信号ｓ（ｎ−１）のうち上記区間Ｓ_Ａの信号を用いて、前部補間信号ｔ（ｎ）を生成する。この前部補間信号ｔ（ｎ）の生成方法は、上記第１動作例と同様である。

次いで、信号補間部１５４は、図１９Ｂに示すように、上記前部補間信号ｔ（ｎ）を用いて、ｎ−１番目及びｎ番目のフレームの音声信号ｓ（ｎ−１）、ｓ（ｎ）のうち、雑音前部区間Ｓ_Ｆの信号を補間する。図１９Ｂの前部補間処理の例では、出力用バッファメモリ１３２に保存されているｎ番目のフレーム、及び入力用バッファメモリ１２２に保存されているｎ番目のフレームのうち、雑音前部区間Ｓ_Ｆの音声信号ｓ（ｎ−１）、ｓ（ｎ）が、前部補間信号ｔ（ｎ）に置換されている。かかる前部補間処理により、雑音前部区間Ｓ_Ｆの雑音が低減される。

次いで、図１９Ｃに示すように、上記前部補間処理後に直ちに、信号補間部１５４は、出力用バッファメモリ１３２に保存されている、後部補間音声信号ｓ（ｎ−１）＋ｔ（ｎ）を信号出力部１６０に出力する。ここで、後部補間音声信号ｓ（ｎ−１）＋ｔ（ｎ）とは、上記前部補間信号ｔ（ｎ）により雑音後部区間Ｓ_Ｆが補間されたｎ−１番目のフレームの音声信号ｓ（ｎ−１）である。

さらに、図１９Ｃに示すように、信号補間部１５４は、上記後部補間音声信号ｓ（ｎ−１）＋ｔ（ｎ）の出力とともに、入力用バッファメモリ１２２に保存されている前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）を、出力用バッファメモリ１３２に移動させる。ここで、前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）とは、上記前部補間信号ｔ（ｎ）により雑音前部区間Ｓ_Ｆが補間されたｎ番目のフレームの音声信号ｓ（ｎ）である。このように、前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）を出力用バッファメモリ１３２に移動させておくことで、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が入力されたときに、前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）のうちの後部雑音区間を補間することができる。

次いで、図２０Ａに示すように、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）が新たに入力され、入力用バッファメモリ１２２に蓄積されているときには、上記前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）が出力用バッファメモリ１３２に一時保存されている。

そして、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときには、図２０Ａに示す後部補間信号の生成処理と、図２０Ｂに示す後部補間処理が直ちに実行される。

詳細には、まず、後部補間信号生成部１５９は、図２０Ａに示すように、雑音終了点Ｐ_Ｅから雑音後部区間長Ｌ_Ｒだけ前の点Ｐ_Ｂまでの区間Ｓ_Ｂの信号から、雑音後部区間Ｓ_Ｒを補間するための後部補間信号ｕ（ｎ）を生成する。雑音後部区間Ｓ_Ｒ及び区間Ｓ_Ｂ等の定義は、前述の第１動作例と同様である。ただし、第２動作例では、雑音終了点Ｐ_Ｅがｎ番目のフレームに存在するため、雑音後部区間Ｓ_Ｆは、ｎ＋１番目のフレーム内に存在する。また、区間Ｓ_Ｂは、少なくともｎ番目のフレームの一部の区間を含み、雑音後部区間長Ｌ_Ｒによってはｎ−１番目のフレームの前部後部の区間をも含む。図２０Ａの例では、区間Ｓ_Ｂはｎ番目及びｎ＋１番目のフレームの双方に跨って設定されている。

後部補間信号生成部１５９は、ｎ番目及びｎ＋１番目のフレームの音声信号ｓ（ｎ）、ｓ（ｎ＋１）のうち上記区間Ｓ_Ｂの信号を用いて、後部補間信号ｕ（ｎ）を生成する。この後部補間信号ｕ（ｎ）の生成方法は、上記第１動作例と同様である。

次いで、信号補間部１５４は、図２０Ｂに示すように、上記後部補間信号ｕ（ｎ）を用いて、ｎ番目のフレームの音声信号ｓ（ｎ）のうち、雑音後部区間Ｓ_Ｒの信号を補間する。図２０Ｂの後部補間処理の例では、出力用バッファメモリ１３２に保存されているｎ番目のフレームの前部補間音声信号ｔ（ｎ）＋ｓ（ｎ）のうち、雑音後部区間Ｓ_Ｒの信号が、後部補間信号ｕ（ｎ）に置換されている。かかる後部補間処理により、雑音後部区間Ｓ_Ｒの雑音が低減される。

次いで、図２０Ｃに示すように、上記後部補間処理後に直ちに、信号補間部１５４は、図１９Ａで実際に入力されたｎ番目のフレームの音声信号ｓ（ｎ）に換えて、出力用バッファメモリ１３２に保存されている前後部補間信号ｔ（ｎ）＋ｕ（ｎ）＋ｓ（ｎ）を、信号出力部１６０に出力する。ここで、前後部補間音声信号ｔ（ｎ）＋ｕ（ｎ）＋ｓ（ｎ）とは、上記前部補間信号ｔ（ｎ）により雑音前部区間Ｓ_Ｆが補間され、かつ、上記後部補間信号ｕ（ｎ）により雑音後部区間Ｓ_Ｒが補間されたｎ番目のフレームの音声信号ｓ（ｎ）である。

さらに、図２０Ｃに示すように、信号補間部１５４は、上記前後部補間音声信号ｔ（ｎ）＋ｕ（ｎ）＋ｓ（ｎ）の出力とともに、入力用バッファメモリ１２２に保存されている、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を、出力用バッファメモリ１３２に移動させる。これにより、次にｎ＋２番目のフレームの音声信号ｓ（ｎ＋１）が入力されたときに、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を出力することが可能となる。

上記第２動作例のように、雑音がｎ−１番目とｎ番目のフレームに跨って存在する場合には、ｎ−１番目のフレームのうち雑音開始点Ｐ_Ｓの直前の信号を用いて雑音前部区間Ｓ_Ｆが補間され、ｎ番目とｎ＋１番目のフレームのうち雑音終了点Ｐ_Ｅの直後の信号を用いて雑音後部区間Ｓ_Ｒが補間される。

以上のように、本実施形態によれば、雑音が２つのフレームに跨って存在する場合に、当該雑音の基準点を検出し、雑音開始点Ｐ_Ｓより前の区間Ｓ_Ａの信号を用いて雑音前部区間Ｓ_Ｆを補間するとともに、雑音終了点Ｐ_Ｅより後の区間Ｓ_Ｂの信号を用いて雑音後部区間Ｓ_Ｒを補間する。これにより、フレーム単位で補間処理を行う必要が無くなり、雑音の直近の自由な区間の信号を用いて補間処理を行うことができるので、より一層、自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。

また、上記のように雑音基準点を検出して補間処理する場合であっても、入力用バッファメモリ１２２及び出力用バッファメモリ１３２のメモリ長はそれぞれ、１フレームのサンプルデータ数Ｎでよい。従って、第１、２の実施形態同様に、装置全体で必要なバッファメモリ長は２＊Ｎで済む。また、入力用バッファメモリ１２２に対して次のフレームの音声信号ｓ（ｎ＋１）が蓄積完了した時点で直ちに、１つ前のフレームの音声信号ｓ（ｎ）が外部に出力されるので、入力音声に対する出力音声の遅延は１フレーム分で済む。

［３．４．音声信号処理方法］
次に、図２１を参照して、上記の音声信号処理装置１００を用いた音声信号処理方法（機械音低減方法）について説明する。図２１は、第３の実施形態に係る音声信号処理方法を示すフローチャートである。

図２１に示すように、まず、音声信号処理装置１００は、マイクロホン５１から入力される１フレーム分の音声信号が入力用バッファメモリ１２２に蓄積されたか否かを判定する（Ｓ３００）。ここでは、現在、ｎ番目のフレームの音声信号ｓ（ｎ）が入力中である場合の処理について説明する。Ｓ３００の判定の結果、ｎ番目のフレームの音声信号ｓ（ｎ）の全てが入力用バッファメモリ１２２に蓄積完了したときには直ちに、雑音検出部１４０は、当該音声信号ｓ（ｎ）に雑音が含まれるか否かを検出する（Ｓ３０２）。

Ｓ３０２の判定の結果、雑音が検出された場合には直ちに、雑音基準点の検出処理（Ｓ３０４）、前部補間信号の生成処理（Ｓ３０６）、及び前部補間処理（Ｓ３０８）が実行される。

詳細には、まず、雑音基準点検出部１４２は、上述したように、音声信号ｓ（ｓ）に含まれる雑音の特性に基づいて、雑音開始点Ｐ_Ｓ、雑音中間点Ｐ_Ｍ、雑音終了点Ｐ_Ｅを計算する（Ｓ３０４）。次いで、前部補間信号生成部１５８は、図１７、図１９に示したように、雑音開始点Ｐ_Ｓより前の所定区間Ｓ_Ａの音声信号ｓ（ｎ−１）、ｓ（ｎ）を用いて、雑音前部区間Ｓ_Ｆを補間するための前部補間信号ｔ（ｎ）を生成する（Ｓ３０６）。

さらに、信号補間部１５４は、Ｓ３０６で生成された前部補間信号ｔ（ｎ）を用いて、音声信号ｓ（ｎ−１）、ｓ（ｎ）のうちの雑音前部区間Ｓ_Ｆの信号を補間する（Ｓ３０８）。このＳ３０８の前部補間処理では、雑音前部区間Ｓ_Ｆの信号を前部補間信号ｔ（ｎ）に置換してもよいし、当該雑音前部区間Ｓ_Ｆの信号と前部補間信号ｔ（ｎ）を適切な混合比で合成してもよい。以下では、置換した例について説明する。

その後、信号補間部１５４は、入力用バッファメモリ１２２内の前部補間音声信号ｓ（ｎ）＋ｔ（ｎ）を出力用バッファメモリ１３２に移動させる（Ｓ３１０）。

次いで、新たに入力されたｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）を入力用バッファメモリ１２２に蓄積し、当該音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したか否を判定する（Ｓ３１２）。この結果、ｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときには直ちに、図１８、図２０に示した後部補間信号の生成処理（Ｓ３１６）、及び後部補間処理（Ｓ３１８）が実行される。

詳細には、まず、後部補間信号生成部１５９は、図１８、図２０に示したように、雑音終了点Ｐ_Ｅより後前の所定区間Ｓ_Ｂの音声信号ｓ（ｎ）、ｓ（ｎ＋１）を用いて、雑音後部区間Ｓ_Ｒを補間するための後部補間信号ｕ（ｎ）を生成する（Ｓ３１６）。

次いで、信号補間部１５４は、Ｓ３１６で生成された後部補間信号ｕ（ｎ）を用いて、音声信号ｓ（ｎ）、ｓ（ｎ＋１）のうちの雑音後部区間Ｓ_Ｒの信号を補間する（Ｓ３１８）。このＳ３１８の後部補間処理では、雑音後部区間Ｓ_Ｒの信号を後部補間信号ｕ（ｎ）に置換してもよいし、当該雑音後部区間Ｓ_Ｒの信号と後部補間信号ｕ（ｎ）を適切な混合比で合成してもよい。以下では、置換した例について説明する。

その後、信号補間部１５４は、実際に入力されたｎ番目のフレームの音声信号ｓ（ｎ）に換えて、Ｓ３０８、Ｓ３１８で前部補間信号ｔ（ｎ）及び後部補間信号ｕ（ｎ）により補間された前後部補間音声信号ｓ（ｎ）、ｔ（ｎ）、ｕ（ｎ）を、信号出力部１６０に出力する（Ｓ３２０）。そして、入力用バッファメモリ１２２に保存されたｎ＋１番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる。

一方、上記Ｓ３０２の雑音判定の結果、ｎ番目のフレームの音声信号ｓ（ｎ）に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図１１に示したように、出力用バッファメモリ１３２からｎ−１番目のフレームの音声信号ｓ（ｎ−１）をそのまま信号出力部１６０出力し、入力用バッファメモリ１２２に保存されたｎ番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる（Ｓ３１０）。そして、次のｎ＋１番目のフレームの音声信号ｓ（ｎ＋１）の全てが入力用バッファメモリ１２２に蓄積完了したときに（Ｓ３１２）、出力用バッファメモリ１３２からｎ番目のフレームの音声信号ｓ（ｎ）をそのまま信号出力部１６０に出力し（Ｓ３２０）、入力用バッファメモリ１２２に保存されたｎ＋１番目のフレームの音声信号ｓ（ｎ）を出力用バッファメモリ１３２に移動させる。

その後、デジタルカメラ１による撮像及び録音動作が終了（Ｓ３２２）するまで、入力音声信号の次の１フレームの音声信号ｓ（ｎ＋２）に対して、上記Ｓ３００〜Ｓ３２０の処理が繰り返される。これにより、入力音声信号に対して１フレームごとに雑音の検出処理が行われ、必要に応じて補間処理（雑音低減処理）が施された上で、雑音の無い音声信号がフレーム単位で出力される。

［３．５．効果］
以上、本開示の第３の実施形態に係る音声信号処理装置１００の構成と、これを用いた音声信号処理方法について説明した。第３の実施形態によれば、上述した第２の実施形態の効果に加え、さらに以下の効果がある。

第３の実施形態によれば、雑音基準点（雑音開始点Ｐ_Ｓ、雑音中間点Ｐ_Ｍ、雑音終了点Ｐ_Ｅ）を検出することにより、音声信号のフレーム単位に関わらずに、雑音基準点に基づき、雑音前後の音声信号の任意の区間を自由に選択して、補間処理を実現できる。即ち、雑音開始点Ｐ_Ｓの直前の区間Ｓ_Ａの信号から前部補間信号ｔ（ｎ）を生成して、雑音前部区間Ｓ_Ｆを補間するとともに、雑音終了点Ｐ_Ｅの直後の区間Ｓ_Ｂの信号から後部補間信号ｕ（ｎ）を生成して、雑音後部区間Ｓ_Ｒを補間する。従って、雑音が複数のフレームに跨って存在する場合であっても、その雑音区間の直近前後の区間の信号を好適に用いて、補間処理を適切に実現できる。

さらに、第２の実施形態と同様に、雑音区間の前後の信号を用いて補間処理を行うので、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。

また、第１、２の実施形態と同様に、第３の実施形態でも、補間信号の推定に必要なバッファメモリ長は２＊Ｎで済むので、上記従来の補間方法（図１参照。）が少なくとも３＊Ｎのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。

さらに、第２の実施形態と同様に、入力音声に対する出力音声の遅延を１フレーム分（遅延量：Ｎ）に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では主に、音声信号処理装置としてデジタルカメラ１を例示し、動画撮像と共に録音する時に機械音を低減する例について説明したが、本技術はかかる例に限定されない。本技術の音声信号処理装置は、各種の音声信号記録装置又は音声信号再生装置等の電子機器に適用できる。例えば、音声信号処理装置は、記録再生装置（例えば、ブルーレイディスク／ＤＶＤレコーダ）、テレビジョン受像器、システムステレオ装置、撮像装置（例えば、デジタルカメラ、デジタルビデオカメラ）、携帯端末（例えば、携帯型音楽／映像プレーヤ、携帯型ゲーム機、ＩＣレコーダ）、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ＡＴＭ、キオスク端末など、任意の電子機器に適用できる。

また、上記実施形態では、デジタルカメラ１による音声信号の記録時に、雑音低減処理を実行する例について説明した。しかし、かかる例に限定されず、本技術の音声信号処理装置を音声信号再生装置に適用すれば、記録された音声信号を再生するときにも、再生対象の音声信号に含まれる雑音を適切に低減することができる。

なお、本技術は以下のような構成も取ることができる。
（１）入力された音声信号を所定区間ごとに一時保存する第１のバッファメモリと、
前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、
前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、
を備える、音声信号処理装置。

（２）前記音声信号に含まれる前記雑音の開始点及び終了点を検出する雑音基準点検出部をさらに備え、
前記補間信号生成部は、
前記ｎ−１番目又は前記ｎ番目の区間の一方若しくは双方の音声信号から第１の補間信号を生成する第１の補間信号生成部と、
前記ｎ＋１番目又は前記ｎ番目の区間の一方若しくは双方の音声信号から第２の補間信号を生成する第２の補間信号生成部と、
を備え、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、少なくとも前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第１の補間信号を生成し、前記信号補間部は、前記ｎ−１番目及び前記ｎ番目の区間の音声信号のうち前記雑音の前部の信号を、前記第１の補間信号を用いて補間し、前記第１の補間信号による補間後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の補間信号生成部は、前記第２のバッファメモリに保存されている、前記第１の補間信号による補間後の前記ｎ番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第２の補間信号を生成し、前記信号補間部は、前記第１の補間信号による補間後のｎ番目の区間の音声信号及び前記ｎ＋１番目の区間の音声信号のうち前記雑音の後部の信号を、前記第１の補間信号を用いて補間し、前記第１の補間信号及び前記第２の補間信号による補間後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリから出力する、前記（１）に記載の音声信号処理装置。

（３）前記雑音基準点検出部は、前記雑音の中間点を検出し、前記中間点に基づいて前記開始点及び前記終了点を検出し、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、少なくとも前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第１の補間信号を生成し、前記信号補間部は、前記ｎ−１番目及び前記ｎ番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第１の補間信号に置換し、前記第１の補間信号による置換後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の補間信号生成部は、前記第２のバッファメモリに保存されている、前記第１の補間信号による置換後の前記ｎ番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第２の補間信号を生成し、前記信号補間部は、前記第１の補間信号による置換後のｎ番目の区間の音声信号及び前記ｎ＋１番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第２の補間信号に置換し、前記第１の補間信号及び前記第２の補間信号による置換後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリから出力する、前記（２）に記載の音声信号処理装置。

（４）前記補間信号生成部は、
前記ｎ−１番目の区間の音声信号から第１の仮補間信号を生成する第１の仮補間信号生成部と、
前記ｎ＋１番目の区間の音声信号から第２の仮補間信号を生成する第２の仮補間信号生成部と、
を備え、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の仮補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から前記第１の仮補間信号を生成し、前記第１の仮補間信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の仮補間信号生成部は、前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号から第２の仮補間信号を生成し、前記信号補間部は、前記第２の仮補間信号、及び前記第２のバッファメモリに保存されている前記第１の仮補間信号から前記補間信号を生成し、前記ｎ番目の区間の音声信号に換えて前記補間信号を前記第２のバッファメモリから出力する、前記（１）に記載の音声信号処理装置。

（５）前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から前記補間信号を生成し、前記信号補間部は、前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に換えて前記補間信号を前記第１のバッファメモリから出力する、前記（１）に記載の音声信号処理装置。

（６）前記雑音は、前記音声信号を出力する収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音である、前記（１）〜（５）のいずれか一項に記載の音声信号処理装置。

（７）前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、前記（６）に記載の音声信号処理装置。

（８）前記音声信号の処理単位である前記所定区間の時間長は、前記パルス状の機械駆動音の時間長よりも長い、前記（１）〜（７）のいずれか一項に記載の音声信号処理装置。

（９）外部音声を音声信号に変換する収音部と、
前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第１のバッファメモリと、
前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、
前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、
を備える、撮像装置。

（１０）第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
を含む、音声信号処理方法。

（１１）第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラム。

（１２）第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。

１デジタルカメラ
１０撮像部
１４駆動装置
１５ズームモータ
１６フォーカスモータ
５１マイクロホン
６０音声信号処理部
７０制御部
１００音声信号処理装置
１１０信号入力部
１２０入出力用バッファメモリ
１２２入力用バッファメモリ
１３０補間用バッファメモリ
１３２出力用バッファメモリ
１４０雑音検出部
１４２雑音基準点検出部
１５０雑音低減部
１５２補間信号生成部
１５４信号補間部
１５６第１の仮補間信号生成部
１５７第２の仮補間信号生成部
１５８前部補間信号生成部
１５９後部補間信号生成部
１６０信号出力部
ｓ音声信号
ｖ補間信号
ｐ第１の仮補間信号
ｑ第２の仮補間信号
ｔ前部補間信号
ｕ後部補間信号
Ｐ_Ｓ雑音開始点
Ｐ_Ｍ雑音中間点
Ｐ_Ｅ雑音終了点
Ｓ_Ｆ雑音前部区間
Ｓ_Ｒ雑音後部区間
Ｌ_Ｆ雑音前部区間長
Ｌ_Ｒ雑音後部区間長

Claims

入力された音声信号を所定区間ごとに一時保存する第１のバッファメモリと、
前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、
前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、
を備える、音声信号処理装置。
前記音声信号に含まれる前記雑音の開始点及び終了点を検出する雑音基準点検出部をさらに備え、
前記補間信号生成部は、
前記ｎ−１番目又は前記ｎ番目の区間の一方若しくは双方の音声信号から第１の補間信号を生成する第１の補間信号生成部と、
前記ｎ＋１番目又は前記ｎ番目の区間の一方若しくは双方の音声信号から第２の補間信号を生成する第２の補間信号生成部と、
を備え、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、少なくとも前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第１の補間信号を生成し、前記信号補間部は、前記ｎ−１番目及び前記ｎ番目の区間の音声信号のうち前記雑音の前部の信号を、前記第１の補間信号を用いて補間し、前記第１の補間信号による補間後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の補間信号生成部は、前記第２のバッファメモリに保存されている、前記第１の補間信号による補間後の前記ｎ番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第２の補間信号を生成し、前記信号補間部は、前記第１の補間信号による補間後のｎ番目の区間の音声信号及び前記ｎ＋１番目の区間の音声信号のうち前記雑音の後部の信号を、前記第１の補間信号を用いて補間し、前記第１の補間信号及び前記第２の補間信号による補間後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリから出力する、請求項１に記載の音声信号処理装置。
前記雑音基準点検出部は、前記雑音の中間点を検出し、前記中間点に基づいて前記開始点及び前記終了点を検出し、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、少なくとも前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第１の補間信号を生成し、前記信号補間部は、前記ｎ−１番目及び前記ｎ番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第１の補間信号に置換し、前記第１の補間信号による置換後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の補間信号生成部は、前記第２のバッファメモリに保存されている、前記第１の補間信号による置換後の前記ｎ番目の区間の音声信号、及び前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第２の補間信号を生成し、前記信号補間部は、前記第１の補間信号による置換後のｎ番目の区間の音声信号及び前記ｎ＋１番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第２の補間信号に置換し、前記第１の補間信号及び前記第２の補間信号による置換後の前記ｎ番目の区間の音声信号を前記第２のバッファメモリから出力する、請求項２に記載の音声信号処理装置。
前記補間信号生成部は、
前記ｎ−１番目の区間の音声信号から第１の仮補間信号を生成する第１の仮補間信号生成部と、
前記ｎ＋１番目の区間の音声信号から第２の仮補間信号を生成する第２の仮補間信号生成部と、
を備え、
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第１の仮補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から前記第１の仮補間信号を生成し、前記第１の仮補間信号を前記第２のバッファメモリに一時保存し、
前記ｎ＋１番目の区間の音声信号が前記第１のバッファメモリに一時保存されたときに、前記第２の仮補間信号生成部は、前記第１のバッファメモリに保存されている前記ｎ＋１番目の区間の音声信号から第２の仮補間信号を生成し、前記信号補間部は、前記第２の仮補間信号、及び前記第２のバッファメモリに保存されている前記第１の仮補間信号から前記補間信号を生成し、前記ｎ番目の区間の音声信号に換えて前記補間信号を前記第２のバッファメモリから出力する、請求項１に記載の音声信号処理装置。
前記ｎ番目の区間の音声信号が前記第１のバッファメモリに一時保存され、かつ、前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、前記補間信号生成部は、前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から前記補間信号を生成し、前記信号補間部は、前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に換えて前記補間信号を前記第１のバッファメモリから出力する、請求項１に記載の音声信号処理装置。
前記雑音は、前記音声信号を出力する収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音である、請求項１に記載の音声信号処理装置。
前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、請求項６に記載の音声信号処理装置。
前記音声信号の処理単位である前記所定区間の時間長は、前記パルス状の機械駆動音の時間長よりも長い、請求項１に記載の音声信号処理装置。
外部音声を音声信号に変換する収音部と、
前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第１のバッファメモリと、
前記第１のバッファメモリに保存されているｎ番目の区間の音声信号よりも１つ前のｎ−１番目の区間の音声信号を一時保存する第２のバッファメモリと、
前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間する信号補間部と、
を備える、撮像装置。
第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
を含む、音声信号処理方法。
第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラム。
第１のバッファメモリに保存されているｎ−１番目の区間の音声信号を第２のバッファメモリに一時保存することと、
入力されるｎ番目の区間の音声信号を前記第１のバッファメモリに一時保存することと、
前記第１のバッファメモリに保存されている前記ｎ番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第２のバッファメモリに保存されている前記ｎ−１番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記ｎ番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。