JP2013047710A - 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 - Google Patents

音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2013047710A
JP2013047710A JP2011185553A JP2011185553A JP2013047710A JP 2013047710 A JP2013047710 A JP 2013047710A JP 2011185553 A JP2011185553 A JP 2011185553A JP 2011185553 A JP2011185553 A JP 2011185553A JP 2013047710 A JP2013047710 A JP 2013047710A
Authority
JP
Japan
Prior art keywords
signal
interpolation
audio signal
noise
buffer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011185553A
Other languages
English (en)
Inventor
keiichi Osako
慶一 大迫
Toshiyuki Sekiya
俊之 関矢
Mototsugu Abe
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011185553A priority Critical patent/JP2013047710A/ja
Publication of JP2013047710A publication Critical patent/JP2013047710A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減する。
【解決手段】入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、を備える、音声信号処理装置が提供される。
【選択図】図3

Description

本開示は、音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体に関する。
外部音声を収音して記録する音声記録装置として、ビデオカメラや、動画撮像機能付きのデジタルカメラ、ICレコーダ等が知られている。これら装置を動作させるときには、装置本体から発生するパルス状の作動音が、記録音声に混入してしまう場合がある。
例えば、動画撮像機能を備えた撮像装置は、動画撮像中にマイクロホンにより装置周辺の外部音声を収音し、当該音声を動画とともに記録する。かかる動画撮像時には、撮像装置に筐体内で、ズーム駆動音、絞り駆動音、オートフォーカス駆動音、操作ボタンの押下音などのパルス状の作動音が発生する。特に、撮像光学系を駆動させる駆動装置(ズームモータ、絞り機構、フォーカスモータ等)の動作開始時又は終了時には、例えば、モータとギアが噛み合うときの「カチッ」というパルス状の機械駆動音が発生する。
かかるパルス状の作動音は、ユーザが録音を所望する外部音声に雑音として混入・記録されてしまうと、非常に耳障りである。このため、音声記録装置では、記録時にパルス状の作動音を低減するための静音対策や雑音除去対策が必要となる。
パルス状の機械駆動音を低減する方法として、これまでもいくつかの方法が提案されている。例えば、特許文献1には、レンズ駆動部で生じた雑音を含む雑音区間の入力音声信号を、当該雑音区間の前後の区間の音声信号で補間することが提案されている。
特開平8−124299号公報
上記特許文献記載の雑音低減方法は、雑音区間の前後の区間の音声信号を用いて録音を所望する背景音の音声信号を推定し、その推定した信号を用いて雑音区間の信号を補間することによって、雑音を低減した音声信号を得る。しかしながら、この雑音低減方法では、雑音区間の前後の一定区間の信号を用いる必要があるため、その全ての区間分の信号を保持するための長いバッファメモリが必要となる。さらに、録音時に雑音低減処理を実行すると、当該長いバッファメモリに保持するために、入力音声に対して出力音声が大きく遅延してしまう。このため、遅延した音声に映像や制御クロック等を同期させることとなり、他の映像記録部や制御部などといったカメラシステム全体の遅延が懸念される。
例えば、図1は、パルス状の機械駆動音を雑音として含む音声信号を録音する際に、上記特許文献1記載の雑音低減方法により、雑音区間の前後の区間の背景音のデータを用いて雑音区間を補間する場合を示す説明図である。この場合、雑音区間長をNとすると、雑音区間及びその前後の区間の音声信号の全てを保持するためには、概ね3*Nの長さのバッファメモリが必要となる。また、これら区間の音声信号の全てがバッファメモリに保存された後に補間信号を生成し、当該補間信号を用いて雑音区間を補間する方法を用いると、音声信号が入力されてから出力されるまでの間に、少なくとも2*Nの遅延が発生する。
以上のように、雑音低減のための補間処理では、雑音区間の近辺の信号を用いて補間信号を推定する必要がある。この際、精度の高い推定を行うためには、従来では、雑音前後のある程度長い区間の音声信号を保持可能なバッファメモリを確保する必要があった。このため、補間信号の推定に必要なバッファメモリが増大するだけでなく、入力音声に対して出力音声が大きく遅延するため、映像記録や制御等のカメラシステム全体の遅延が発生するという問題があった。
そこで、上記事情に鑑みれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することが可能な雑音低減方法が求められていた。
本開示によれば、入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、を備える、音声信号処理装置が提供される。
また、本開示によれば、外部音声を音声信号に変換する収音部と、前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、を備える、撮像装置が提供される。
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、を含む、音声信号処理方法が提供される。
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが提供される。
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。
上記構成により、入力されるn番目の区間の音声信号が第1のバッファメモリに保存完了し、かつ、第1のバッファメモリに保存されているn番目の区間の音声信号に雑音が含まれることが検出されたときに直ちに、第2のバッファメモリに保存されているn−1番目の区間の音声信号から補間信号が生成され、当該補間信号を用いてn番目の区間の音声信号が補間され、補間後のn番目の区間の音声信号が出力される。これにより、2つのバッファメモリを用いて、所定区間ごとの音声信号の入出力処理と、音声信号に含まれる雑音の補間処理とを、少ない遅延量で好適に実現できる。
以上説明したように本開示によれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することができる。
本開示の関連技術に係る雑音低減方法により、雑音区間の前後の区間の背景音のデータを用いて雑音区間を補間する場合を示す説明図である。 本開示の第1の実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。 同実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。 同実施形態に係る音声信号処理装置の通常時の動作を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 本開示の第2の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る雑音区間の前後の入力音声信号から仮補間信号及び補間信号を生成する別の方法を示す概念図である。 同実施形態に係る音声信号処理装置の通常時の動作を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の動作例を示す模式図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 本開示の第3の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る雑音を含む音声信号とフレームとの位置関係を示す説明図である。 同実施形態に係る音声信号処理装置の雑音発生時の第1動作例を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の第1動作例を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の第2動作例を示す模式図である。 同実施形態に係る音声信号処理装置の雑音発生時の第2動作例を示す模式図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
1.1.機械音低減方法の概要
1.2.音声信号処理装置の構成
1.2.1.音声信号処理装置のハードウェア構成
1.2.2.音声信号処理装置の機能構成
1.3.音声信号処理装置の動作
1.3.1.雑音がない通常時の動作例
1.3.2.雑音発生時の動作例
1.4.音声信号処理方法
1.5.効果
2.第2の実施の形態
2.1.機械音低減方法の概要
2.2.音声信号処理装置の機能構成
2.3.音声信号処理装置の動作
2.3.1.雑音がない通常時の動作例
2.3.2.雑音発生時の動作例
2.4.音声信号処理方法
2.5.効果
3.第3の実施の形態
3.1.機械音低減方法の概要
3.2.音声信号処理装置の機能構成
3.3.音声信号処理装置の動作
3.3.1.雑音発生時の第1動作例
3.3.2.雑音発生時の第1動作例
3.4.音声信号処理方法
3.5.効果
<1.第1の実施の形態>
[1.1.機械音低減方法の概要]
まず、本開示の第1の実施形態に係る音声信号処理装置及び方法を用いた機械音低減方法の概要について説明する。
本実施形態に係る音声信号処理装置及び方法は、音声記録装置又は音声再生装置において、例えば、当該装置の筐体内に設置された発音部(例えば駆動装置)から発生するパルス状の作動音(雑音)を低減する技術に関する。特に、本実施形態では、動画撮像機能を有する撮像装置において、動画を撮像しながら周辺音声を録音するときに、撮像装置に内蔵された駆動装置の動作開始時或いは動作終了時に発生するパルス状の機械駆動音を低減対象とする。
ここで、駆動装置は、撮像光学系を用いた撮像動作を行うために撮像装置に内蔵された駆動装置であり、例えば、ズームレンズを移動させるズームモータや、フォーカスレンズを移動させるフォーカスモータ、絞り機構又はシャッターを制御する駆動機構などを含む。これら駆動装置は、撮像装置の収音部と同一の筐体内に設けられる。また、パルス状の機械駆動音(以下、「パルス機械音」という。)は、例えば、上記各種の駆動装置が動作開始又は動作終了するときに発生する瞬間的な雑音(例えば、ズームモータの駆動音、フォーカスモータの駆動音、絞り機構の駆動音、シャッター音、操作ボタンの押下音など)である。例えば、パルス機械音は、ズームモータ等の動作開始時又は動作終了時に、モータとギアが噛み合うことにより発生する「カチッ」又は「パチッ」という音などである。
以下では、音声信号処理装置が、動画撮像機能を有するデジタルカメラであり、除去対象雑音であるパルス機械音が、該デジタルカメラにおける光学ズーム動作開始時に発生するズーム開始音である例について説明する。しかし、本開示の音声信号処理装置や、パルス機械音は、かかる例に限定されない。また、本開示の対象とする雑音も、パルス状の作動音に限定されず、音声信号処理装置に入力される音声のうち、録音を所望する背景音に混入する任意の種類・特性の雑音に適用可能である。
デジタルカメラによる撮像及び録音中に、ユーザがズーム操作を行うと、該カメラの内部でズームモータが駆動して、ズームレンズを駆動させるギアと係合して、瞬間的に大きいパルス機械音(ズーム開始音)が発生する。すると、デジタルカメラのマイクロホンは、ユーザが録音を所望するカメラ周囲の外部音声(例えば、環境音、人の話し声など、マイクロホンに収音される任意の音声を含む。以下「所望音」又は「背景音」という。)のみならず、カメラ内部で発生したパルス機械音も収音してしまう。このため、所望音にパルス機械音が雑音として混入した状態で録音されてしまうので、当該録音された音声を再生したときに、所望音に混入したパルス機械音がユーザにとって耳障りとなる。例えば、パルス機械音は200Hz以下の筐体の振動を伴い、マイクロホン近傍で発生するため、所望音に比べて大きな音量で収音される。このようにパルス機械音と所望音で音量差があるため、所望音に機械音が混入していると、録音音声の再生時にパルス機械音が目立ってしまう。従って、動画及び音声の記録時又は再生時に、上記ズーム開始音等のパルス機械音を適切に除去した上で所望音のみを記録可能な技術が希求されていた。
従来の雑音低減技術では、上記特許文献1記載のように、駆動装置を制御するための駆動信号の送信タイミングによって、機械駆動音の発生区間(雑音区間)を推定し、当該雑音区間の前後の区間の信号を用いて補間信号を推定し、雑音区間の信号を当該補間信号で補間することにより、雑音を低減していた。しかし、かかる雑音低減方法では、上述したように、雑音区間の前後の区間の信号を保持して補間信号を生成するために、これら全ての区間の信号を同時に保持するためには、雑音区間長Nの3倍程度に相当するバッファメモリが必要であった(図1参照。)。このため、雑音低減処理に要するバッファメモリが増大するだけでなく、当該バッファメモリに3*Nの信号を保持する時間分だけ、入力音声に対して出力音声が大幅に遅延していた(少なくとも2*Nの遅延が発生)。
そこで、本実施形態では、雑音低減処理回路に設けた2つのバッファメモリを上手く利用して、フレーム単位での音声信号の処理を好適に制御し、補間信号を生成することを特徴としている。これにより、補間信号の生成に必要なバッファメモリ長を減少できるとともに、入力音声信号に対する出力音声信号の遅延も大幅に低減できる。
さらに、本実施形態では、パルス機械音を含む雑音区間の前の区間の音声信号のみを用いて、補間信号を生成し、雑音区間の音声信号を当該補間信号で補間した上で出力することを特徴としている。このように、雑音区間の前の区間の音声信号のみを用いて補間信号を生成したとしても、パルス機械音を適切に低減することが可能である。この理由は次の通りである。
上述した特許文献1等に記載の従来技術では、雑音を含まない区間(雑音区間の前後の区間)の信号として、例えば人の話し声のような音声を仮定している。かかる音声は、狭い時間でみると、周期的な信号から構成されている。周期的な信号中の雑音を補間するためには、その雑音前後の信号の周期と同一の周期を有する補間信号を生成し、周期を乱さずに雑音区間の前後をつなげなければならない。この理由は、補間処理によって信号の周期が乱れた場合、聴感上違和感のある音になるからである。従って、従来では当業者にとって、雑音区間の前後の信号を用いて補間信号を生成することが一般的であり、雑音区間の前の信号のみを用いて補間信号を生成することは、音質の面で問題が生じると考えられていた。
しかし、実際の録音環境では、人の話し声のような周期的な音声が常に発生しているわけではなく、様々な音が混ざり合って非周期的な音声が生じている場合の方が多い。もし、雑音区間の前後が非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。これにより、雑音の前方の音声のみを使って補間した場合であっても、実質的には適切な雑音除去が可能ということになる。
また、雑音前後が周期的な音声(人の話し声等)である場合も起こりうるが、カメラの近くで発話されている場合がほとんどであり、この場合には、大きな音量の音声としてマイクへ入力される。従って、カメラ内部で発生する雑音(パルス機械音等)よりも、外部から入力された音声の方が大きくなるため、マスキング現象によって雑音そのものが聞こえなくなる事が多い。従って、このような場合は、雑音区間の補間処理を行う必要がないため、雑音の前方の音声を使った補間による悪影響は無いと言える。
そこで、以下に詳述する第1の実施形態では、入力される音声信号のうち、n番目の区間が雑音を含む雑音区間である場合には、当該雑音区間の1つ前のn−1番目の区間の音声信号のみを用いて、雑音低減用の補間信号を生成する(n:自然数)。かかる補間処理であっても、上記理由により、雑音を適切に低減することが可能である。以下に、第1の実施形態に係る音声信号処理装置及び方法について詳述する。
[1.2.音声信号処理装置の構成]
[1.2.1.音声信号処理装置のハードウェア構成]
まず、図2を参照して、本実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成例について説明する。図2は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ1のハードウェア構成を示すブロック図である。
本実施形態に係るデジタルカメラ1は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ1は、被写体を撮像して、当該撮像により得られた撮像画像(静止画又は動画のいずれでもよい。)をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。
図2に示すように、本実施形態に係るデジタルカメラ1は、概略的には、撮像部10と、画像信号処理部20と、表示部30と、記録媒体40と、収音部50と、音声信号処理部60と、制御部70と、操作部80とを備える。
撮像部10は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部10は、撮像光学系11と、撮像素子12と、タイミングジェネレータ13と、駆動装置14とを備える。
撮像光学系11は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像(被写体像)は、撮像光学系11における各光学部品を介して、撮像素子12の露光面に結像される。撮像素子12(イメージセンサ)は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの固体撮像素子で構成される。この撮像素子12は、撮像光学系11から導かれた光学像を光電変換し、撮像画像を表す電気信号(アナログ画像信号)を出力する。
撮像光学系11には、該撮像光学系11の光学部品を駆動するための駆動装置14が機械的に接続されている。この駆動装置14は、例えば、ズームモータ15、フォーカスモータ16、絞り機構(図示せず。)などを含む。駆動装置14は、後述する制御部70の指示に従って、撮像光学系11の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ15は、ズームレンズをテレ/ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ16は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。
また、タイミングジェネレータ13(以下、TG13という。)は、制御部70の指示に従って、撮像素子12に必要な動作パルスを生成する。例えば、TG13は、垂直転送のための4相パルス、フィールドシフトパルス、水平転送のための2相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子12に供給する。このTG13により撮像素子12を駆動させることで、被写体像が撮像される。また、TG13が、撮像素子12のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される(電子シャッター機能)。上記の撮像素子12が出力した画像信号は画像信号処理部20に入力される。
画像信号処理部20は、マイクロコントローラなどの電子回路で構成され、撮像素子12から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部30や制御部70に出力する。画像信号処理部20は、アナログ信号処理部21、アナログ/デジタル(A/D)変換部22、デジタル信号処理部23を備える。
アナログ信号処理部21は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部21は、例えば、撮像素子12から出力される画像信号に対して、CDS(correlated double sampling:相関2重サンプリング)処理、プログラマブルゲインアンプ(PGA)によるゲイン処理などを行う。A/D変換部22は、アナログ信号処理部21から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部23に出力する。デジタル信号処理部23は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部30や制御部70等に出力する。
表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイなどの表示装置で構成される。表示部30は、制御部70による制御に従って、入力された各種の画像データを表示する。例えば、表示部30は、撮像中に画像信号処理部20からリアルタイムで入力される撮像画像(スルー画像)を表示する。これにより、ユーザは、デジタルカメラ1で撮像中のスルー画像を見ながら、デジタルカメラ1を操作することができる。また、記録媒体40に記録されている撮像画像を再生したときに、表示部30は、当該再生画像を表示する。これにより、ユーザは、記録媒体40に記録されている撮像画像の内容を確認することができる。
記録媒体40は、上記撮像画像のデータ、音声データ、それらのメタデータなどの各種のデータを記憶する。記録媒体40は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク(Blu−ray Disc)、DVD(Digital Versatile Disc)又はCD(Compact Disc)等を含む。なお、記録媒体40は、デジタルカメラ1に内蔵されてもよいし、デジタルカメラ1に着脱可能なリムーバブルメディアであってもよい。
収音部50は、デジタルカメラ1周辺の外部音声を収音する。本実施形態に係る収音部50は、1つの外部音声収録用のマイクロホン51からなるモノラルマイクロホンであるが、2つのマイクロホンからなるステレオマイクロホンで構成されてもよい。マイクロホン51は、外部音声を収音して得られた音声信号をそれぞれ出力する。かかる収音部50により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。かかるマイクロホン51は、外部音声(所望音)を収音するためにデジタルカメラ1の筐体に設けられているが、当該筐体内に設けられた発音部(上記駆動装置14)の機械駆動音も雑音として収音してしまう。
音声信号処理部60は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、AD変換処理、雑音低減処理などを含む。本実施形態は、この音声信号処理部60による雑音低減処理を特徴としているが、その詳細説明は後述する。
制御部70は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ1の全体の動作を制御する。制御部70は、例えば、CPU71、EEPROM(Electrically Erasable Programmable ROM)72、ROM(Read Only Memory)73、RAM(Random Access Memory)74を備える。かかる制御部70は、デジタルカメラ1内の各部を制御する。例えば、制御部70は、マイクロホン51により収音された音声信号から、駆動装置14で発生した機械音を雑音として低減するに、音声信号処理部60の動作を制御する。
制御部70におけるROM73には、CPU71に各種の制御処理を実行させるためのプログラムが格納されている。CPU71は、該プログラムに基づいて動作して、RAM74を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ1に内蔵された記憶装置(例えば、EEPROM72、ROM73等)に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ1に提供されてもよいし、LAN、インターネット等のネットワークを介してデジタルカメラ1にダウンロードされてもよい。
ここで、制御部70による制御の具体例について説明する。制御部70は、上記撮像部10のTG13や駆動装置14を制御して、撮像部10による撮像処理を制御する。例えば、制御部70は、上記撮像光学系11の絞りの調整、撮像素子12の電子シャッタースピードの設定、アナログ信号処理部21のAGCのゲイン設定などにより、自動露光制御を行う(AE機能)。また、制御部70は、上記撮像光学系11のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系11の焦点を自動的に合わせるオートフォーカス制御を行う(AF機能)。また、制御部70は、上記撮像光学系11のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部70は、記録媒体40に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体40に記録されているデータを読み出して再生する。さらに、制御部70は、表示部30に表示するための各種の表示画像を生成し、表示部30を制御して該表示画像を表示させる。
操作部80、表示部30は、ユーザがデジタルカメラ1の動作を操作するためのユーザインターフェースとして機能する。操作部80は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部80は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部70に出力する。
[1.2.2.音声信号処理装置の機能構成]
次に、図3を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図2は、本実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図3に示すように、音声信号処理装置100は、信号入力部110と、入出力用バッファメモリ120(第1のバッファメモリ)と、補間用バッファメモリ130(第2のバッファメモリ)と、雑音検出部140と、雑音低減部150と、信号出力部160とを備える。信号入力部110は、上記図2のマイクロホン51を備える。雑音低減部150は、補間信号生成部152と、信号補間部154とを備える、また、上記入出力用バッファメモリ120、補間用バッファメモリ130、雑音検出部140及び雑音低減部150は、上記図2の音声信号処理部60を構成する。
これら音声信号処理装置100の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声信号処理装置100のプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。当該プログラムは、コンピュータ読み取り可能な記録媒体(例えば、光ディスク、ハードディスク、半導体メモリ等)を介して音声信号処理装置100に提供されてもよいし、又は各種の通信手段を介して提供されてもよい。以下に、音声信号処理装置100の各部について説明する。
信号入力部110は、デジタルカメラ1の筐体に設置されたマイクロホン51、AD変換部(図示せず。)等で構成される。信号入力部110は、マイクロホン51は、デジタルカメラ1の周囲の所望音(録音対象の音声)を収音し、当該外部音声を音声信号に変換して出力する。この音声信号には、所望音のみならず、デジタルカメラ1の駆動装置14で発生するパルス機械音やその他の機械駆動音などの雑音が混入する。また、不図示のAD変換部は、上記マイクロホン51から出力されたアナログ音声信号を、デジタル音声信号に変換して、出力する。
入出力用バッファメモリ120(第1のバッファメモリ)、補間用バッファメモリ130(第2のバッファメモリ)は、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。このように、本実施形態に係る音声信号処理装置100は、2つのバッファメモリを備えており、この2つのバッファメモリを用いて音声信号を所定区間ごとに(つまり、フレーム単位で)処理することで雑音を低減する。本実施形態では、入出力用バッファメモリ120と補間用バッファメモリ130は、信号入力部110と信号出力部160との間に並列に接続されており、これにより、2つの区間の音声信号を並列処理することができる。
音声信号処理装置100が音声信号をフレーム単位で入出力及び処理するために、出力用バッファメモリ120は、現在入力される音声信号の1フレーム分を一時保存する。補間用バッファメモリ130は、雑音区間を補間するために、1フレーム分過去に入力された音声信号を保持する。これら2つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、1フレーム分のデジタル音声信号(サンプルデータ数N)を保存可能である。従って、音声信号処理装置100が備えるバッファメモリの長さは、2*Nとなる。なお、入出力用バッファメモリ120及び補間用バッファメモリ130は、物理的に分離された2つのバッファメモリで構成されてもよいし、物理的に1つのバッファメモリの記憶領域を分離することで構成されてもよい。
入出力用バッファメモリ120は、信号入力部110から入力された音声信号を、所定区間ごとに(例えば、1フレームずつ)一時保存する。この入出力用バッファメモリ120は、入力される音声信号の1フレーム分全てを保存完了した時点で、当該1フレームの音声信号を出力する。これにより、信号入力部110から入力された音声信号は、1フレームずつ順次、入出力用バッファメモリ120に保存された後に、信号出力部160に出力される。
また、入出力用バッファメモリ120から出力された1フレームの音声信号は、補間用バッファメモリ130に一時保存される。つまり、補間用バッファメモリ130は、入出力用バッファメモリ120に保存されている現在のフレーム(n番目のフレーム)の音声信号よりも1つ前の過去のフレーム(n−1番目のフレーム)の音声信号を一時保存する。従って、信号入力部110から入力されるn番目のフレームの音声信号が、入出力用バッファメモリ120に蓄積されている最中には、補間用バッファメモリ130にn−1番目のフレームの音声信号が保存されていることになる。これら2つのバッファメモリにより、常時、2フレーム分の音声信号が音声信号処理装置100内に保持される。
雑音検出部140は、信号入力部110から入力された音声信号のうち、パルス機械音等の雑音が含まれる区間(雑音区間)を検出する。雑音検出部140は、入出力用バッファメモリ120に保存されている所定区間の音声信号に雑音が含まれるか否かを検出し、雑音が含まれる場合は、当該区間が雑音区間であると判定する。雑音検出部140は、雑音区間を検出したときに、その区間を表す情報を雑音低減部150に通知する。
例えば、雑音がパルス機械音である場合、雑音検出部140は、上記駆動装置14が動作している区間を、雑音区間として検出する。雑音検出部140は、駆動装置14の制御情報を取得することで、当該制御情報から駆動装置14の動作期間(雑音区間)を検出可能である。
また、雑音検出部140は、信号入力部110から入力された実際の音声信号を解析して雑音の特徴量を抽出することで、雑音の有無を判定し、雑音期間を検出してもよい。例えば、パルス機械音はパルス成分及び残響成分という特徴的な成分を含むため、これら2種類の成分を検出することができれば、パルス機械音の有無を正確に検出できる。そこで、雑音検出部140は、マイクロホン51から出力された音声信号から、上記パルス機械音のパルス成分を表す特徴量(例えば、パルス成分の振幅最大値A、パルス幅W)、パルス機械音の残響成分を表す特徴量(例えば、パルス機械音の残響成分を表す狭帯域信号のパワー値P、当該狭帯域信号の零交差点回数M)を抽出する。そして、雑音検出部140は、上記パルス機械音を表す特徴量(振幅最大値A、パルス幅W、残響成分パワー値P等)に基づいて、音声信号にパルス機械音が含まれるか否かを判定する。例えば、雑音検出部140は、統計的識別法又はテーブル判定を用いた判定方法により、上記特徴量と所定の判定係数を用いて、音声信号におけるパルス機械音の有無を総合的に判定する。これにより、音声信号にパルス機械音が含まれているか否かを判定し、音声信号におけるパルス機械音が含まれている区間を特定することができる。
雑音低減部150は、上記雑音検出部140による検出結果に応じて、音声信号に対して雑音低減処理を行い、音声信号からパルス機械音等の雑音を除去する。具体的には、入出力用バッファメモリ120に保存されている区間の音声信号にパルス機械音等の雑音が含まれると判定された場合に、雑音低減部150は、当該パルス機械音が含まれる区間の音声信号に対して雑音低減処理を行う。一方、パルス機械音が含まれていないと判定された場合に、雑音低減部150は、雑音低減処理を行わない。このように、パルス機械音が含まれる場合にのみ、当該パルス機械音が含まれる区間(雑音区間)の音声信号に対して雑音低減処理を行うことで、雑音低減処理の処理効率を向上し、無駄な処理負荷を軽減できる。
雑音低減部150は、雑音低減方法として、雑音区間の前又は後の区間の信号から当該雑音区間の背景音の信号波形を推定し、推定した信号を用いて雑音区間の信号を補間する方法を使用する。この補間方法を実行するために、雑音低減部150は、補間信号生成部152と、信号補間部154とを備える。
補間信号生成部152は、雑音区間の前の区間の信号を用いて、雑音区間を補間するための補間信号を生成する。この補間信号の生成処理は、入出力用バッファメモリ120に保存されている現在のフレーム(n番目のフレーム)の音声信号に雑音が含まれることが検出されたときに、実行される。このとき、補間信号生成部152は、補間用バッファメモリ130に保存されている1フレーム過去(n−1番目のフレーム)の音声信号を用いて、現在、入出力用バッファメモリ120に保存されている雑音区間の音声信号を補間するための補間信号を生成する。
ここで、図4、図5を参照して、上記補間信号の生成方法の例について説明する。図4、図5は、本実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。
(a)シンプルな生成方法
図4の上段に示すように、補間用バッファメモリ130に保存されている1フレームの音声信号をs(n)={s,s,・・・,sN−1}と表現する。ここで、s,s,・・・,sN−1は、当該1フレーム中のN個のサンプルデータの値を示す。かかる音声信号s(n)から補間信号V(n)を生成する場合、例えば、図4の中段に示すように、音声信号s(n)を時間軸方向に反転させて、補間信号v(n)={sN−1,sN−2,・・・,s,s}を生成してもよい。また、図4の下段に示すように、音声信号s(n)を時間軸方向及び振幅方向に反転させて、補間信号v(n)={−sN−1,−sN−2,・・・,−s,−s}を生成してもよい。
(b)窓を用いた生成方法
また、図5は、別の補間信号生成方法を示す。図5に示すように、音声信号s(n)に適当な窓w(n)を乗算した信号p(n)とq(n)を合成することで、より自然な補間信号v(n)を生成することもできる。ここで、窓w(n)としては、ハニング窓又はバーとレット窓などを使用できる。より詳細には、図5に示すように、まず、音声信号s(n)={s,s,・・・,sN−1}に窓w(n)={w,w,・・・,wN−1}を乗算して、信号p(n)={s,s,・・・,sN−1N−1}を生成する。次いで、信号p(n)を時間軸方向に反転させて、信号q(n)={sN−1N−1,・・・,s,s}を生成する。そして、信号p(n)と信号q(n)を加算して、補間信号v(n)=p(n)+q(n)={s+sN−1N−1,s+sN−2N−2,・・・,sN−1N−1+s}を生成する。或いは、信号p(n)から信号q(n)を減算して、補間信号v(n)=p(n)−q(n)={s−sN−1N−1,s−sN−2N−2,・・・,sN−1N−1−s}を生成する。このようにして、音声信号s(n)から、より自然な補間信号v(n)を生成することも可能である。
再び図3を参照して、音声信号処理装置100の各部の説明を続ける。図3に示すように、信号補間部154は、上記補間信号生成部152により生成された補間信号を用いて、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号(雑音区間の音声信号)を補間する。
例えば、信号補間部154は、入出力用バッファメモリ120に保存されている雑音区間の音声信号の全ての振幅値(つまり、N個のサンプルデータ)をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むn番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部154は、入出力用バッファメモリ120に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、雑音区間の音声信号が、雑音を低減された上で出力される。
かる信号補間部154による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。
信号出力部160は、上記入出力用バッファメモリ120から出力された音声信号を1フレームずつ外部に出力する。雑音低減部150により雑音低減処理がなされた場合には、信号出力部160は、雑音が低減された音声信号を出力する。例えば、信号出力部160は、上記音声信号を信号記録部(上記図2の制御部70及び記録媒体40で構成される。)に出力してもよいし、或いは、スピーカ又はヘッドホンなどの音声出力部(図示せず。)に出力してもよい。音声信号を信号記録部に出力した場合には、上記雑音が低減された音声信号が記録媒体(図示せず。)に記録される。なお、記録媒体は、ハードディスク、磁気テープ等の磁気記録媒体、DVD、ブルーレイディスク等の光記録媒体、フラッシュメモリ、USBメモリ等の半導体メモリなど、任意の記録媒体であってよい。
[1.3.音声信号処理装置の動作]
次に、本実施形態に係る音声信号処理装置100の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。
[1.3.1.雑音がない通常時の動作例]
まず、図6を参照して、雑音がない通常時の音声信号処理装置100の動作について説明する。図6は、本実施形態に係る音声信号処理装置100の通常時の動作を示す模式図である。
図6に示すように、雑音が発生していない通常時には、マイクロホン51から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ120、補間用バッファメモリ130に一時保存される。補間用バッファメモリ130に保存されるフレームは、入出力用バッファメモリ120に蓄積されているフレームよりも1つ前(過去)のフレームである。例えば、図6Aに示すように、現在、n番目のフレームの音声信号s(n)が新たに入力されて、入出力用バッファメモリ120に蓄積されているときには、1フレーム分だけ過去に入力されたn−1番目のフレームの音声信号s(n−1)が補間用バッファメモリ130に保存されている。
そして、n番目のフレームの音声信号s(n)の全てが入出力用バッファメモリ120に蓄積完了された時に直ちに、図6Bに示すように、当該入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)が外部に出力され、入出力用バッファメモリ120内のデータが消去される。このとき、雑音は検出されていないので、n番目のフレームの音声信号s(n)に対して何ら特別な処理を施すことなく、当該音声信号s(n)がそのまま出力される。また、当該音声信号s(n)の出力とともに、当該音声信号s(n)が補間用バッファメモリ130にコピーされる。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、補間用バッファメモリ130内のn番目のフレームの音声信号s(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
[1.3.2.雑音発生時の動作例]
次に、図7を参照して、雑音発生時の音声信号処理装置100の動作について説明する。図7は、本実施形態に係る音声信号処理装置100の雑音発生時の動作例を示す模式図である。
図7に示すように、入力される音声信号に雑音(例えばパルス機械音)が含まれる場合であっても、マイクロホン51から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ120、補間用バッファメモリ130に一時保存される。図7Aに示すように、雑音が含まれるn番目のフレームの音声信号s(n)が新たに入力され、入出力用バッファメモリ120に蓄積されているときには、1フレーム分だけ過去のn−1番目のフレームの音声信号s(n−1)が補間用バッファメモリ130に一時保存されている。
そして、n番目のフレームの音声信号s(n)の全てが入出力用バッファメモリ120に蓄積完了し、かつ、当該音声信号s(n)に雑音が含まれることが検出されたときには、図7Bに示す補間処理が直ちに実行される。つまり、補間信号生成部152は、図7Bに示すように、補間用バッファメモリ130に保存されているn−1番目のフレームの音声信号s(n−1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための補間信号v(n)を生成する。この補間信号v(n)の生成方法は前述した通りである(図4、図5参照。)。図6Bの例では、n−1番目のフレームの音声信号s(n−1)を時間軸方向に反転させることにより、補間信号v(n)が生成されている。そして、信号補間部154は、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)を削除して、上記補間信号v(n)を入出力用バッファメモリ120に保存する。
次いで、図7Cに示すように、信号補間部154は、入出力用バッファメモリ120に保存されている補間信号v(n)を、図7Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて外部に出力し、入出力用バッファメモリ120内のデータを消去する。さらに、信号補間部154は、上記補間信号v(n)の出力とともに、当該補間信号v(n)を補間用バッファメモリ130にコピーする。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、補間用バッファメモリ130内の補間信号v(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
以上のように、n番目のフレームの音声信号s(n)に雑音が含まれる場合には、当該雑音を低減するために、n−1番目のフレームの音声信号s(n−1)を利用して補間信号v(n)を生成して、補間処理が実行される。この補間処理により、当該雑音を含むn番目のフレームの入力音声信号s(n)に換えて、雑音を含まない補間信号v(n)が外部に出力されるので、雑音を好適に除去できる。
また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入出力用バッファメモリ120及び補間用バッファメモリ130のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、装置全体で必要なバッファメモリ長は2*Nで済む。また、入出力用バッファメモリ120に対して雑音区間の音声信号s(n)が蓄積完了した時点で直ちに、補間信号v(n)を生成して外部に出力できるので、入力音声に対する出力音声の遅延はゼロである。
[1.4.音声信号処理方法]
次に、図8を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図8は、本実施形態に係る音声信号処理方法を示すフローチャートである。
本実施形態に係る音声信号処理装置100を具備するデジタルカメラ1による撮像及び録音中には、その周囲の外部音声がマイクロホン51により収音され、音声信号が出力される。すると、音声信号処理装置100は、マイクロホン51から入力されたアナログ音声信号を、デジタル音声信号に変換し、当該デジタル音声信号をフレーム単位で処理する。即ち、音声信号処理装置100は、入力された音声信号を1フレームずつ入出力用バッファメモリ120に保存し、現在入力中のフレームの1つ前のフレームの音声信号を補間用バッファメモリ130に保存する。そして、音声信号処理装置100は、フレーム単位で雑音の有無を検出して、雑音が検出された場合には、当該フレームに対して、その前のフレームの信号を用いて補間処理を施す。図8は、この処理の詳細フローを示す。
図8に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入出力用バッファメモリ120に蓄積されたか否かを判定する(S100)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S100の判定の結果、n番目のフレームの音声信号s(n)が入出力用バッファメモリ120に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S102)。
S102の雑音判定の結果、雑音が検出された場合には直ちに、補間処理(図7参照。)が実行される。即ち、補間信号生成部152は、補間信号生成部152は、補間用バッファメモリ130に保存されているn−1番目のフレーム(1フレーム分過去)の音声信号s(n−1)を用いて、補間信号v(n)を生成する(S104)。そして、信号補間部154は、S104で生成された補間信号v(n)を用いて、雑音を含むn番目のフレームの音声信号s(n)を補間し、補間信号v(n)を入出力用バッファメモリ120に保存する(S106)。このS106の補間処理では、雑音を含むn番目のフレームの音声信号s(n)を補間信号v(n)に置換してもよいし、当該音声信号s(n)と補間信号v(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
次いで、信号補間部154は、入出力用バッファメモリ120に保存されている雑音低減後の補間信号v(n)(n番目のフレームに相当する。)を補間用バッファメモリ130にコピーするとともに(S108)、当該補間信号v(n)を信号出力部160に出力する(S110)。
一方、S102の雑音判定の結果、雑音が検出されない場合は、上記S108、S110の補間処理を行わずに、入力されたn番目のフレームの音声信号s(n)をそのまま出力する。即ち、信号補間部154は、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)を補間用バッファメモリ130にコピーするとともに(S108)、当該音声信号s(n)をそのまま入出力用バッファメモリ120から信号出力部160に出力する(S110)。
その後、デジタルカメラ1による撮像及び録音動作が終了(S112)するまで、入力音声信号の次の1フレームの音声信号s(n+1)に対して、上記S100〜S100の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
[1.5.効果]
以上、本開示の第1の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。本実施形態によれば、マイクロホン51から入力されて入出力用バッファメモリ120に蓄積中のフレームの音声信号s(n)に雑音が検出された時点で直ちに、予め補間用バッファメモリ130に保存されている1フレーム分過去の音声信号s(n−1)のみを用いて補間信号v(n)を生成する。そして、当該補間信号v(n)を用いて、雑音区間の音声信号s(n)を補間して、補間後の音声信号を出力する。
これにより、音声信号の入出力に用いるバッファメモリを補間処理にも有効活用することができるので、補間信号の推定に必要なバッファメモリ長を短くでき、装置全体で必要なバッファメモリを削減できる。つまり、入出力用バッファメモリ120、補間用バッファメモリ130のメモリ長は、それぞれ1フレームのサンプルデータ数Nでよいので、装置全体で必要なバッファメモリ長は2*Nで済む。上記従来の補間方法(図1参照。)では、雑音区間の前後の信号を用いて補間するため、少なくとも3*Nのバッファメモリ長が必要であった。これに対し、本実施形態では、バッファメモリ長は2*Nでよく、補間処理に必要なバッファメモリを大幅に削減できる。
なお、上述したように、雑音区間の前後に、様々な音が混ざり合った非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。従って、雑音区間の前のフレームの音声信号のみを使って補間した場合であっても、実質的には好適な雑音除去が可能となる。
さらに、本実施形態によれば、2つのバッファメモリを有効活用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。つまり、上記従来の補間方法(図1参照。)では、雑音区間の後のフレームの信号がバッファメモリに蓄積完了するまでに1フレーム分の遅延が生じ、さらにその後に補間信号を生成するために1フレーム分の遅延が生じるので、少なくとも2*N分の遅延(2フレーム分の遅延)が発生していた。
これに対し、本実施形態に係る補間処理では、雑音区間の後のn+1番目のフレームの音声信号s(n+1)を用いずに、雑音区間の前のn−1番目の音声信号s(n−1)のみを用いて補間信号v(n)を生成する。これにより、雑音区間であるn番目のフレームの音声信号s(n)が蓄積完了した時点で直ちに補間処理を実行して、補間後の信号を出力することができ、従来の補間方法のように、雑音区間の後の信号が蓄積されるまで補間処理を待機する必要がない。従って、入力音声に対する出力音声の遅延をゼロにできるので、従来と比べて、補間処理に伴う出力音声の遅延を大幅に低減できる。
<2.第2の実施の形態>
次に、本開示の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態に係る音声信号処理装置は、雑音区間の前後の信号を用いて補間信号を生成し、補間処理を行うことを特徴としている。なお、第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[2.1.機械音低減方法の概要]
まず、第2の実施形態に係る機械音低減方法の概要について説明する。上述した第1の実施形態では雑音区間の前の区間(n−1番目のフレーム)の音声信号のみを用いて補間信号を生成した。これに対し、第2の実施形態では、雑音区間の前の区間(n−1番目のフレーム)の音声信号のみならず、雑音区間の後の区間(n+1番目のフレーム)の音声信号をも用いて補間信号を生成して、補間処理を行う。
詳細には、n番目のフレームの音声信号に雑音が検出された場合、n−1番目のフレームの音声信号から第1の仮補間信号(前部仮補間信号)を生成するとともに、n+1番目のフレームの音声信号から第2の仮補間信号(後部仮補間信号)を生成する。そして、第1の仮補間信号と第2の仮補間信号を合成して補間信号を生成し、当該補間信号を用いて、雑音区間であるn番目のフレームの音声信号を補間する。
かかる補間処理により、第1の実施形態と比べて、入力音声に対して出力音声に1フレーム分の遅延が生じるものの、雑音区間の前後の信号を用いて補間信号を生成することによって、補間信号を高精度で推定できる。従って、より高品質の雑音低減処理を実現できる。また、2つのバッファメモリを好適に使い分けて効率的に補間信号を生成するので、入力音声に対する出力音声の遅延を最大限抑制し、1フレーム分に抑えることが可能である。以下に、第2の実施形態に係る音声信号処理装置及び方法について詳述する。
[2.2.音声信号処理装置の機能構成]
次に、図9を参照して、第2の実施形態に係る音声信号処理装置100の機能構成について説明する。図9は、第2の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図9に示すように、音声信号処理装置100は、信号入力部110と、入力用バッファメモリ122(第1のバッファメモリ)と、出力用バッファメモリ132(第2のバッファメモリ)と、雑音検出部140と、雑音低減部150と、信号出力部160とを備える。また、上記入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140及び雑音低減部150は、上記図2の音声信号処理部60を構成する。なお、第2の実施形態に係る信号入力部110、雑音検出部140及び信号出力部160は、上記第1の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。
第2の実施形態に係る音声信号処理装置100は、入力用バッファメモリ122と、出力用バッファメモリ132という2つのバッファメモリを具備している。これらバッファメモリは、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。そして、第2の実施形態では、入力用バッファメモリ122と出力用バッファメモリ132は、信号入力部110と信号出力部160との間に直列に接続されている。
音声信号処理装置100が音声信号をフレーム単位で入出力及び処理するために、入力用バッファメモリ122は、現在入力される音声信号の1フレーム分を一時保存し、出力用バッファメモリ132は、過去に入力された音声信号の1フレーム分を一時保存する。これら2つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、1フレーム分のデジタル音声信号(サンプルデータ数N)を保存可能である。従って、音声信号処理装置100が備えるバッファメモリの長さは、2*Nとなる。なお、入力用バッファメモリ122及び出力用バッファメモリ132は、物理的に分離された2つのバッファメモリで構成されてもよいし、物理的に1つのバッファメモリの記憶領域を分離することで構成されてもよい。
入力用バッファメモリ122は、信号入力部110から入力された音声信号を、所定区間ごとに(例えば、1フレームずつ)一時保存する。この入力用バッファメモリ122は、入力される音声信号の1フレーム分全てを保存完了した時点で、当該1フレームの音声信号を出力する。
入力用バッファメモリ122から出力された1フレームの音声信号は、出力用バッファメモリ132に一時保存される。つまり、出力用バッファメモリ132は、入力用バッファメモリ122に保存されている現在のフレームの音声信号(n番目のフレームの音声信号)よりも1つ前の過去のフレームの音声信号(n−1番目のフレームの音声信号)を一時保存する。従って、信号入力部110から入力されるn番目のフレームの音声信号が、入力用バッファメモリ122に蓄積されている最中には、出力用バッファメモリ132にn−1番目のフレームの音声信号が保存されていることになる。この出力用バッファメモリ132は、入力用バッファメモリ122から入力される音声信号の1フレーム分の保存を完了した時点で、当該1フレームの音声信号を信号出力部160に出力する。
これにより、信号入力部110から入力された音声信号は、1フレームずつ順次、入力用バッファメモリ122、出力用バッファメモリ132にそれぞれ一時保存された後に、信号出力部160に出力される。これら2つのバッファメモリにより、常時、2フレーム分の音声信号が音声信号処理装置100内に保持される。
次に、第2の実施形態に係る雑音低減部150について説明する。雑音低減部150は、補間信号生成部152と、信号補間部154と、第1の仮補間信号生成部156と、第2の仮補間信号生成部157とを備える。
雑音検出部140によりn番目のフレームの音声信号に雑音が検出された場合、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号から第1の仮補間信号を生成する。第1の仮補間信号は、雑音区間の前の区間の入力音声信号から生成される仮の補間信号である。このように、第1の仮補間信号生成部156は、雑音区間(n番目のフレーム)が入力用バッファメモリ122に保存された直後に、雑音区間の前の区間(n−1番目のフレーム)の音声信号から、雑音区間(n番目のフレーム)を補間するための第1の仮補間信号を生成する。
その後、n+1番目のフレームの音声信号が入力用バッファメモリ122に保存されたときに、第2の仮補間信号生成部157は、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号から第2の仮補間信号を生成する。第2の仮補間信号は、雑音区間の後の区間の入力音声信号から生成される仮の補間信号である。このように、第2の仮補間信号生成部156は、雑音区間(n番目のフレーム)が出力用バッファメモリ132に保存された直後に、雑音区間の後の区間(n+1番目のフレーム)の音声信号から、雑音区間(n番目のフレーム)を補間するための第2の仮補間信号を生成する。
そして、補間信号生成部152は、上記第1及び第2の仮補間信号から補間信号を生成する。信号補間部154は、上記補間信号生成部152により生成された補間信号を用いて、出力用バッファメモリ132に保存されているn番目のフレームの音声信号(雑音区間の音声信号)を補間する。
例えば、信号補間部154は、出力用バッファメモリ132に保存されている雑音区間の音声信号の全ての振幅値(つまり、N個のサンプルデータ)をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むn番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部154は、出力用バッファメモリ132に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。かかる信号補間部154による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。
ここで、上記仮補間信号及び補間信号の生成方法の例について説明する。
(a)シンプルな生成方法
n番目のフレームが雑音区間である場合、例えば、上記図4又は図5に示した補間信号の生成方法と同様にして、n−1番目のフレームの入力音声信号s(n−1)から第1の仮補間信号p(n)を生成し、n+1番目のフレームの入力音声信号s(n+1)から第2の仮補間信号q(n)を生成する。そして、以下の式(1)に示すように、第1の仮補間信号p(n)と第2の仮補間信号q(n)を所定の混合計数α(0<α<1)を用いて混合することで、補間信号v(n)を生成する。
v(n)=α・p(n)+(1−α)・q(n) ・・・(1)
例えば、α=0.5とすることで、第1の仮補間信号p(n)と第2の仮補間信号q(n)を均等に混合して、補間信号v(n)を生成できる。また、p(n)又はq(n)の重み付けを偏らせたいときには、αの数値を調整すればよい。上記のような生成方法により、雑音区間の前後の区間の音声信号を用いて、補間精度の高い補間信号v(n)を生成できる。
(b)窓を用いた生成方法
また、図10は、本実施形態に係る雑音区間の前後の入力音声信号から仮補間信号及び補間信号を生成する別の方法を示す概念図である。
上記図4又は図5に示した補間信号の生成方法と同様にして、n−1番目のフレームの入力音声信号s(n−1)から第1の仮補間信号p(n)を生成し、n+1番目のフレームの入力音声信号s(n+1)から第2の仮補間信号q(n)を生成する。そして、図10に示すように、上記のように生成した第1の仮補間信号p(n)と第2の仮補間信号q(n)を、ハニング窓又はバートレット窓等の任意の窓w(n)、w(n)を用いて混合する。具体的には、まず、仮補間信号p(n)、q(n)にそれぞれ窓w(n)、w(n)を乗算して、信号t(n)、信号u(n)を生成する。次いで、信号t(n)と信号u(n)を合成して補間信号v(n)を生成する。例えば、信号t(n)と信号u(n)を加算して、補間信号v(n)=p(n)+q(n)を生成してもよいし、或いは、信号p(n)から信号q(n)を減算して、補間信号v(n)=p(n)−q(n)を生成してもよい。このような方法により、仮補間信号p(n)、q(n)から、より自然な補間信号v(n)を生成することが可能である。
[2.3.音声信号処理装置の動作]
次に、第2の実施形態に係る音声信号処理装置100の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。
[2.3.1.雑音がない通常時の動作例]
まず、図11を参照して、雑音がない通常時の音声信号処理装置100の動作について説明する。図11は、第2の実施形態に係る音声信号処理装置100の通常時の動作を示す模式図である。
図11に示すように、雑音が発生していない通常時には、マイクロホン51から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ122、出力用バッファメモリ132に一時保存される。出力用バッファメモリ132に保存されるフレームの音声信号は、入力用バッファメモリ122に現在蓄積されているフレームの音声信号よりも1つ前(過去)のフレームである。例えば、図11Aに示すように、現在、n番目のフレームの音声信号が新たに入力されて、入力用バッファメモリ122に蓄積されているときには、1フレーム分だけ過去に入力されたn−1番目のフレームの音声信号s(n−1)が出力用バッファメモリ132に保存されている。
そして、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了された時に直ちに、図11Bに示すように、出力用バッファメモリ132に保存されているn番目のフレームの音声信号s(n)が外部に出力される。このとき、雑音は検出されていないので、n−1番目のフレームの音声信号s(n−1)がそのまま出力される。また、当該音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されているn番目のフレームの音声信号s(n)が、出力用バッファメモリ132にコピーされ、入力用バッファメモリ122内のデータが消去される。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、出力用バッファメモリ132内のn番目のフレームの音声信号s(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
その後、n+1番目のフレームの音声信号s(n+1)が新たに入力され、当該n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了された時に直ちに、n番目のフレームの音声信号s(n)が出力用バッファメモリ132から出力される。このため、入力音声に対して出力音声が1フレーム分だけ遅延することになる(遅延量はN)。
[2.3.2.雑音発生時の動作例]
次に、図12、図13を参照して、雑音発生時の音声信号処理装置100の動作について説明する。図12、図13は、本実施形態に係る音声信号処理装置100の雑音発生時の動作例を示す模式図である。
図12に示すように、入力される音声信号に雑音(例えばパルス機械音)が含まれる場合であっても、マイクロホン51から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ122、出力用バッファメモリ132に一時保存される。図12Aに示すように、雑音が含まれるn番目のフレームの音声信号s(n)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、1フレーム分だけ過去のn−1番目のフレームの音声信号s(n−1)が出力用バッファメモリ132に一時保存されている。
そして、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音が含まれることが検出されたときには、図12Bに示す第1の仮補間信号の生成処理が直ちに実行される。つまり、第1の仮補間信号生成部156は、図12Bに示すように、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための第1の仮補間信号p(n)を生成する。図12Bの例では、n−1番目のフレームの音声信号s(n−1)を時間軸方向に反転させることにより、第1の仮補間信号p(n)が生成されている。そして、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn番目のフレームの音声信号s(n)を削除して、上記第1の仮補間信号p(n)を出力用バッファメモリ132に保存する。
次いで、図12Cに示すように、信号補間部154は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)を外部に出力する。さらに、信号補間部154は、上記音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されている第1の仮補間信号p(n)を、出力用バッファメモリ132に移動させる。これは、出力用バッファメモリ132に第1の仮補間信号p(n)を保存しておき、次にn+1番目のフレームの音声信号s(n+1)が入力されたときに仮補間信号p(n)を用いて補間信号v(n)を生成するためである。
次いで、図13Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記第1の仮補間信号p(n)が出力用バッファメモリ132に一時保存されている。
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図13Bに示す第2の仮補間信号の生成処理、及び補間信号の生成処理が直ちに実行される。つまり、第2の仮補間信号生成部157は、図13Bに示すように、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための第2の仮補間信号q(n)を生成する。そして、補間信号生成部152は、図13Bに示すように、生成された第2の仮補間信号q(n)と、出力用バッファメモリ132に保存されている第1の仮補間信号p(n)とを合成して、補間信号v(n)を生成する。
次いで、図13Cに示すように、上記補間信号v(n)の生成後直ちに、信号補間部154は、図12Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、上記補間信号v(n)を外部に出力する。さらに、信号補間部154は、上記補間信号v(n)の出力とともに、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)を、出力用バッファメモリ132に移動させる。これは、次に入力されるn+2番目のフレームの音声信号s(n+2)が入力用バッファメモリ122に蓄積完了した時点で、出力用バッファメモリ132から音声信号s(n+1)を出力するためである。また、次に入力されるn+2番目のフレームの音声信号s(n+2)に雑音が検出された場合には、出力用バッファメモリ132内の音声信号s(n+1)から、n+2番目のフレーム用の第1の仮補間信号p(n+1)を生成することもできる。
以上のように、本実施形態によれば、n番目のフレームの音声信号s(n)に雑音が含まれる場合には、当該雑音を低減するために、n−1番目及びn+1番目のフレームの音声信号s(n−1)、s(n+1)を利用して補間信号v(n)を生成して、補間処理が実行される。この補間処理により、当該雑音を含むn番目のフレームの入力音声信号s(n)に換えて、雑音を含まない補間信号v(n)が外部に出力されるので、雑音を好適に除去できる。さらに、雑音区間の前後の音声信号を用いて補間するので、より自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。
また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入力用バッファメモリ122及び出力用バッファメモリ132のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、第1の実施形態同様に、装置全体で必要なバッファメモリ長は2*Nで済む。また、入力用バッファメモリ122に対して次のフレームの音声信号s(n+1)が蓄積完了した時点で直ちに、1つ前のフレームの音声信号s(n)が外部に出力されるので、入力音声に対する出力音声の遅延は1フレーム分で済む。
[2.4.音声信号処理方法]
次に、図14を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図14は、第2の実施形態に係る音声信号処理方法を示すフローチャートである。
図14に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入力用バッファメモリ122に蓄積されたか否かを判定する(S200)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S200の判定の結果、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S202)。
S202の判定の結果、雑音が検出された場合には直ちに、図12に示した第1の仮補間信号の生成処理が実行される。即ち、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn−1番目のフレーム(1フレーム分過去)の音声信号s(n−1)を用いて、第1の仮補間信号p(n)を生成する(S204)。そして、第1の仮補間信号生成部156は、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160に出力するとともに、第1の仮補間信号p(n)を出力用バッファメモリ132に保存する(S206)。
次いで、新たに入力されたn+1番目のフレームの音声信号s(n+1)を入力用バッファメモリ122に蓄積し、当該音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したか否を判定する(S210)。この結果、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、図13に示した第2の仮補間信号の生成処理及び補間処理が実行される。
即ち、第2の仮補間信号生成部157は、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)を用いて、第2の仮補間信号q(n)を生成する(S214)。そして、補間信号生成部152は、出力用バッファメモリ132に保存されている第1の仮補間信号p(n)と、S214で生成された第2の仮補間信号q(n)から、補間信号v(n)を生成する(S216)。さらに、信号補間部154は、S216で生成された補間信号v(n)を用いて、雑音を含むn番目のフレームの音声信号s(n)を補間し、補間後の信号を出力用バッファメモリ132に保存する(S218)。このS218の補間処理では、雑音を含むn番目のフレームの音声信号s(n)を補間信号v(n)に置換してもよいし、当該音声信号s(n)と補間信号v(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
その後、信号補間部154は、n番目のフレームの音声信号s(n)に換えて、S218で出力用バッファメモリ132に保存された補間信号v(n)を、信号出力部160に出力する(S220)。そして、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
一方、上記S202の雑音判定の結果、n番目のフレームの音声信号s(n)に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図11に示したように、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160出力し、入力用バッファメモリ122に保存されたn番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる(S208)。そして、次のn+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときに(S210)、出力用バッファメモリ132からn番目のフレームの音声信号s(n)をそのまま信号出力部160に出力し(S220)、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
その後、デジタルカメラ1による撮像及び録音動作が終了(S222)するまで、入力音声信号の次の1フレームの音声信号s(n+2)に対して、上記S200〜S220の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
[2.5.効果]
以上、本開示の第2の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。第2の実施形態によれば、雑音区間の前後の音声信号s(n−1)、s(n+1)を用いて補間信号を生成することで、雑音区間の背景音(雑音を除いた外部音声)を適切に表す補間信号を高精度で推定できる。従って、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。
また、第1の実施形態と同様に、信号の入出力に用いるバッファメモリを、補間処理にも有効活用することで、補間信号の推定に必要なバッファメモリ長を減少でき、装置全体で必要なバッファメモリを削減できる。第2の実施形態でも、補間信号の推定に必要なバッファメモリ長は2*Nで済むので、上記従来の補間方法(図1参照。)が少なくとも3*Nのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。
さらに、本実施形態によれば、2つのバッファメモリを有効利用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。即ち、上記従来の補間方法(図1参照。)では、雑音区間の前後の信号を用いて補間処理するために、上記のように少なくとも2*N分の遅延(2フレーム分の遅延)が発生していた。これに対し、本実施形態によれば、雑音区間の前後の音声信号s(n−1)、s(n+1)を用いて補間信号v(n)を生成するけれども、入力用バッファメモリ122に対する音声信号s(n+1)の蓄積が完了した時点で直ちに補間信号v(n)を生成して出力できる。これにより、入力音声に対する出力音声の遅延を1フレーム分(遅延量:N)に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。
<3.第3の実施の形態>
次に、本開示の第3の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第3の実施形態に係る音声信号処理装置は、雑音の開始点、終了点検出した上で、雑音の前後の信号を用いて補間信号を生成し、雑音の開始点から終了点までの信号に対して補間処理を行うことを特徴としている。なお、第3の実施形態のその他の機能構成は、上記第2の実施形態と実質的に同一であるので、その詳細説明は省略する。
[3.1.機械音低減方法の概要]
まず、第3の実施形態に係る機械音低減方法の概要について説明する。
上述した第1、2の実施形態では、図7等に示すように、パルス機械音等の雑音が音声信号の1フレーム内に収まっていることを前提として、フレーム単位で補間処理を行っていた。しかしながら、実際には、1つの雑音が音声信号の1フレーム内に必ず収まる訳ではなく、図16に示すように1つの雑音が2つのフレームに跨って存在する場合も生じうる。つまり、このような場合には、前述した第1、第2の実施形態に係る補間方法では、雑音を好適に低減することが困難になる。
そこで、第3の実施形態では、雑音基準点検出部により雑音の基準点を検出することにより、雑音が2つのフレームに跨って存在する場合であっても、その雑音の前後の信号を用いて雑音を効果的に低減するものである。雑音基準点は、音声信号における雑音の位置を示す基準点であり、図16に示すように、雑音開始点P、雑音中間点P、雑音終了点Pの3つである。この雑音基準点を検出することにより、フレーム単位以外にも、音声信号の任意の区間で補間処理を実現できる。
ここで、音声信号のフレームの位置と雑音の位置との関係について、より詳細に説明する。音声信号処理のみを考慮した場合には、フレームの位置、即ち、1フレームにおけるサンプルデータ数Nの決め方は任意である。一般的には、音声信号を周波数領域に変換するためにFFT(Fast Fourier Transform)を扱うことが多いため、サンプルデータ数Nとして、2のべき乗である「256」、「512」、「1024」等が広く使用される。ただし、周波数変換を行わない場合にはこの限りではない。
一方、デジタルカメラ、ビデオカメラ等においては、カメラ内部のシステム制御クロックや映像信号(動画)に対して音声信号の同期をとる必要があるため、音声信号処理のフレームのサンプルデータ数Nを自由に決定することは難しい。ここで、フレームを長くとる(即ち、Nを大きくする)と、カメラシステムの遅延増加につながるため、現実的には、サンプルデータ数Nを100〜2000程度とすることが多い。
上記の理由により、パルス機械音の時間長(全体の時間幅)に合わせて、音声信号のフレームのサンプルデータ数Nを任意に決定することは現実には困難である。
ところで、一般に、パルス機械音は他の雑音と比べて時間長が短いことを特徴としている。このため、パルス機械音の時間長は、音声信号のフレームのサンプルデータ数Nと同程度、またはそれよりも短いとみなしても問題ない。従って、パルス機械音全体が1フレーム中に収まれば(図7等参照。)、第1、第2の実施形態のような補間処理を問題なく行うことができる。
しかし、現実には、パルス機械音がフレームの境界からずれて存在し、2つのフレームに跨って存在することの方が多い(図16参照。)。従って、音声信号に設定されたフレームの境界とは別に、パルス機械音の区切り(基準点)を検知した上で、その雑音の区切り位置の前後の信号を用いて、パルス機械音を補間処理することが好ましい。
そこで第3の実施形態では、雑音(例えばパルス機械音)を含む音声信号のフレームが入力されたときに、当該雑音の基準点(雑音開始点P、雑音中間点P及び雑音終了点P)を検出し、フレームとは無関係に雑音区間を特定する。そして、雑音開始点Pよりも前の信号から、前部補間信号(第1の補間信号)を生成し、当該前部補間信号を用いて雑音の前半部分(雑音開始点Pから雑音中間点Pまでの区間)を補間する。さらに、次のフレームが入力したときに、雑音終了点Pよりも後の信号から後部補間信号(第2の補間信号)を生成し、当該後部補間信号を用いて雑音の後半部分(雑音中間点Pから雑音終了点Pまでの区間)を補間する。
かかる補間処理により、雑音が音声信号の複数フレームに跨って存在する場合であっても、フレーム境界は関わらずに、当該雑音の前後の任意の区間の音声信号を用いて補間処理を行うことができるので、当該雑音を適切に低減することができる。以下に、第3の実施形態に係る音声信号処理装置及び方法について詳述する。
[3.2.音声信号処理装置の機能構成]
次に、図15を参照して、第3の実施形態に係る音声信号処理装置100の機能構成について説明する。図15は、第3の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図15に示すように、音声信号処理装置100は、信号入力部110と、入力用バッファメモリ122(第1のバッファメモリ)と、出力用バッファメモリ132(第2のバッファメモリ)と、雑音検出部140と、雑音基準点検出部142と、雑音低減部150と、信号出力部160とを備える。また、上記入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140、雑音基準点検出部142及び雑音低減部150は、上記図2の音声信号処理部60を構成する。なお、第3の実施形態に係る信号入力部110、入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140及び信号出力部160は、上記第2の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。
第3の実施形態に係る音声信号処理装置100は、雑音基準点検出部142を更に備えることを特徴としている。雑音基準点検出部142は、音声信号に含まれる雑音の信号特性に基づいて、音声信号に含まれる雑音(パルス機械音)の基準点(雑音開始点P、雑音中間点P及び雑音終了点P)を検出する。図16に示すように、雑音開始点Pは、音声信号においてパルス機械音が開始する位置である。また、雑音中間点Pは、音声信号においてパルス機械音の中間の位置(例えばパルス成分の振幅が最大となる位置)である。さらに、雑音終了点Pは、音声信号においてパルス機械音が終了する位置である。雑音基準点検出部142によるこれら基準点の検出方法は、例えば以下の通りである。
まず、雑音基準点検出部142は、雑音中間点Pを検出する。雑音中間点Pの検出方法としては、例えば以下の(a)〜(c)が例示される。
(a)振幅最大値を利用
パルス機械音の振幅の絶対値の最大値が存在する位置を、雑音中間点Pとしてもよい。図16に示すように、パルス機械音は、パルス成分と残響成分を含み、パルス成分のパルスのピーク(振幅最大値)は概ねパルス機械音の中間点と一致する。従って、パルス機械音の振幅の絶対値が最大となる位置が、雑音中間点Pであると推定することができる。
(b)雑音区間情報を利用
また、雑音検出部140から雑音区間情報を取得した時から一定時間が経過した時点の位置を雑音中間点Pとしてもよい。雑音検出部140は、雑音が含まれる区間を表す雑音区間情報を生成し、雑音基準点検出部142に出力することができる。この雑音区間情報は、上述した雑音検出処理により生成されてもよいし、又は、パルス機械音を発生する駆動装置14の制御情報に基づいて生成されてもよい。
(c)信号の傾きの変化値を利用
また、雑音検出部140からパルス機械音の信号の傾きが急峻に変化した直後の変化点の位置を雑音中間点Pとしてもよい。パルス機械音のパルス成分は振幅が急峻に変化するので、この急峻な変化の直後に、振幅の微分値がゼロとなる位置はパルス成分のピークを示す。従って、当該振幅の微分値の変化点の位置が、雑音中間点Pであると推定することができる。
次に、雑音基準点検出部142は、雑音開始点Pを検出する。雑音開始点Pの検出方法としては、例えば以下の(a)、(b)が例示される。
(a)信号エネルギーを利用
雑音中間点Pよりも前の音声信号において信号エネルギーが閾値よりも低下する点を、雑音開始点Pとしてもよい。図16に示すように、一般に、パルス機械音は背景音よりも振幅が大きいため、パルス機械音が存在する部分の信号エネルギーは、背景音のみが存在する部分の信号エネルギーよりも大きくなる。従って、上記検出された雑音中間点Pよりも時間的に前の音声信号において、信号エネルギーが所定の閾値以下となる点が、雑音開始点Pであると推定することができる。
(b)予め設定されたサンプルデータ数を利用
また、予め設定されたサンプルデータ数だけ雑音中間点Pよりも前の点を、雑音開始点Pとしてもよい。事前にパルス機械音の時間幅を測定し、雑音中間点Pと雑音開始点Pとの差分を予め求めておくことで、当該差分を表すサンプルデータ数をパラメータとして設定しておけばよい。このパラメータを用いて、雑音中間点Pから雑音開始点Pを推定できる。
さらに、雑音基準点検出部142は、雑音終了点Pを検出する。雑音終了点Pの検出方法は、上記の雑音開始点Pの検出方法と同様である。ただし、雑音中間点Pよりも前の信号ではなく、雑音中間点Pよりも後の信号において雑音終了点Pが検出される。
以上のようにして、雑音基準点検出部142は、入力音声信号の雑音区間における実際の雑音の基準点を検出する。この雑音の基準点のうち雑音開始点Pから雑音終了点Pまでが、実際の雑音の範囲を表す。雑音開始点P及び雑音終了点Pは、音声信号における雑音と背景音との区切り位置となる。
次に、第3の実施形態に係る雑音低減部150について説明する。雑音低減部150は、補間信号生成部152と、信号補間部154を備える。そして、補間信号生成部152は、前部補間信号生成部158(第1の補間信号生成部)と、後部補間信号生成部159(第1の補間信号生成部)を備えることを特徴としている。
雑音検出部140によりn番目のフレームの音声信号に雑音が検出された場合、前部補間信号生成部158は、上記雑音開始点Pよりも前の所定区間の音声信号を用いて、雑音の前半部分を補間するための前部補間信号(第1の補間信号)を生成する。例えば、前部補間信号生成部158は、n−1番目、n番目のフレームの音声信号のうち雑音開始点Pよりも前の音声信号において、雑音開始点Pと雑音中間点Pとの間の長さに相当する分だけ雑音開始点Pよりも前に位置する区間の音声信号から、前部補間信号を生成する。
その後、n+1番目のフレームの音声信号が入力用バッファメモリ122に保存されたときに、後部補間信号生成部159は、上記雑音終了点Pよりも後の所定区間の音声信号を用いて、雑音の後半部分を補間するための後部補間信号(第2の補間信号)を生成する。例えば、後部補間信号生成部159は、n番目、n+1番目のフレームの音声信号のうち雑音終了点Pよりも後の音声信号において、雑音中間点Pと雑音終了点Pとの間の長さに相当する分だけ雑音終了点Pよりも後に位置する区間の音声信号から、後部補間信号を生成する。
このように、第3の実施形態では、第2の実施形態のようにフレームを基準として補間信号を生成するのではなく、上記雑音基準点によって特定される区間を基準として前部補間信号及び後部補間信号を生成する。これら前部補間信号及び後部補間信号の生成方法の詳細は後述する。
そして、信号補間部154は、上記前部補間信号生成部158により生成された前部補間信号を用いて、n−1番目及び/又はn番目のフレームの音声信号に含まれる雑音の前半部分を補間する。さらに、信号補間部154は、上記後部補間信号生成部159により生成された後部補間信号を用いて、n番目及び/又はn+1番目のフレームの音声信号に含まれる雑音の後半部分を補間する。
例えば、信号補間部154は、音声信号に含まれる雑音の前半部分を前部補間信号で置換し、当該雑音の後半部分を後部補間信号で置換してもよい。或いは、信号補間部154は、音声信号に含まれる雑音の前半部分と前部補間信号を適当な混合比で合成し、雑音の後半部分と後部補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、入力音声信号における雑音部分が補間されて、雑音が低減された音声信号が出力されるので、当該雑音を低減・除去することができる。
[3.3.音声信号処理装置の動作]
次に、第3の実施形態に係る音声信号処理装置100の動作について説明する。雑音がない通常時の動作は、第2の実施形態の場合(図11参照。)と同様であるので詳細説明は省略する。以下では、第3の実施形態に係る雑音発生時の動作例について、雑音がn番目とn+1番目のフレームに跨って存在する場合(第1動作例)と、雑音がn−1番目とn番目のフレームに跨って存在する場合(第2動作例)をそれぞれ説明する。なお、双方の場合とも、n番目のフレームに雑音(パルス機械音)のパルス成分のピークが存在するため、n番目のフレームの入力時に雑音が検出されるものとする。
[3.3.1.雑音発生時の第1動作例]
まず、図17、図18を参照して、雑音がn番目とn+1番目のフレームに跨って存在する場合の音声信号処理装置100の第1動作例について説明する。図17、図18は、本実施形態に係る音声信号処理装置100の雑音発生時の第1動作例を示す模式図である。
図17Aに示すように、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音のピークが含まれることが検出されたときには、図17Aに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図17Bに示す前部補間処理が直ちに実行される。
詳細には、まず、前部補間信号生成部158は、図17Aに示すように、雑音開始点Pから雑音前部区間長Lだけ前の点Pまでの区間Sの信号から、雑音前部区間Sを補間するための前部補間信号t(n)を生成する。ここで、雑音前部区間Sは、雑音開始点Pから雑音中間点Pまでの区間であり、雑音前部区間長Lは、雑音開始点Pから雑音中間点Pまでの区間の長さである。
区間Sは、パルス機械音の雑音開始点Pよりも前に存在し、雑音を含まない区間である。本実施形態では、区間Sの区間長は、雑音前部区間長Lと同一となるように設定される。しかし、区間Sの区間長は、雑音前部区間長Lに応じて適宜設定されればよく、Lより短い、又は長くてもよい。かかる区間Sは、少なくともn番目のフレームの前部の区間を含み、雑音前部区間長Lによってはn−1番目のフレームの後部の区間をも含む。図17Aの例では、区間Sはn番目及びn−1番目のフレームの双方に跨って設定されている。
前部補間信号生成部158は、n番目及びn−1番目のフレームの音声信号s(n)、s(n−1)のうち上記区間Sの信号を用いて、前部補間信号t(n)を生成する。この前部補間信号t(n)の生成方法は、前述した第1の実施形態に係る補間信号v(n)の生成方法と同様であり(図4、図5参照。)、例えば、区間Sの信号を時間軸方向に反転させることで、前部補間信号t(n)が生成される。
次いで、信号補間部154は、図17Bに示すように、上記前部補間信号t(n)を用いて、n番目のフレームの音声信号s(n)のうち、雑音前部区間Sの信号を補間する。図17Bの前部補間処理の例では、入力用バッファメモリ122に保存されているn番目のフレームのうち雑音前部区間Sの音声信号s(n)が、前部補間信号t(n)に置換されている。かかる前部補間処理により、雑音前部区間Sの雑音が低減される。
次いで、図17Cに示すように、上記前部補間処理後に直ちに、信号補間部154は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)を信号出力部160に出力する。さらに、信号補間部154は、上記音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されている前部補間音声信号s(n)+t(n)を、出力用バッファメモリ132に移動させる。ここで、前部補間音声信号s(n)+t(n)とは、上記前部補間信号t(n)により雑音前部区間Sが補間されたn番目のフレームの音声信号s(n)である。このように、前部補間音声信号s(n)+t(n)を出力用バッファメモリ132に移動させておくことで、次のn+1番目のフレームの音声信号s(n+1)が入力されたときに、前部補間音声信号s(n)+t(n)のうちの後部雑音区間を補間することができる。
次いで、図18Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記前部補間音声信号s(n)+t(n)が出力用バッファメモリ132に一時保存されている。
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図18Aに示す後部補間信号の生成処理と、図18Bに示す後部補間処理が直ちに実行される。
詳細には、まず、後部補間信号生成部159は、図18Aに示すように、雑音終了点Pから雑音後部区間長Lだけ前の点Pまでの区間Sの信号から、雑音後部区間Sを補間するための後部補間信号u(n)を生成する。ここで、雑音後部区間Sは、雑音中間点Pから雑音終了点Pまでの区間であり、雑音後部区間長Lは、雑音中間点Pから雑音終了点Pまでの区間の長さである。
区間Sは、パルス機械音の雑音終了点Pよりも後に存在し、雑音を含まない区間である。本実施形態では、区間Sの区間長は、雑音後部区間長Lと同一となるように設定される。しかし、区間Sの区間長は、雑音後部区間長Lに応じて適宜設定されればよく、Lより短い、又は長くてもよい。かかる区間Sは、少なくともn番目のフレームの後部の区間、及びn+1番目のフレームの前部の区間を含み、雑音後部区間長Lによっては、n+2番目のフレームの前部の区間をも含む。図18Aの例では、区間Sはn番目及びn+1番目のフレームの双方に跨って設定されている。
後部補間信号生成部159は、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち上記区間Sの信号を用いて、後部補間信号u(n)を生成する。この後部補間信号u(n)の生成方法は、前述した第1の実施形態に係る補間信号v(n)の生成方法と同様であり(図4、図5参照。)、例えば、区間Sの信号を時間軸方向に反転させることで、後部補間信号u(n)が生成される。
次いで、信号補間部154は、図18Bに示すように、上記後部補間信号u(n)を用いて、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち、雑音後部区間Sの信号を補間する。図18Bの後部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレームの前部補間音声信号s(n)+t(n)、及び入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)のうち、雑音後部区間Sの信号が、後部補間信号u(n)に置換されている。かかる後部補間処理により、雑音後部区間Sの雑音が低減される。
次いで、図18Cに示すように、上記後部補間処理後に直ちに、信号補間部154は、図17Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、出力用バッファメモリ132に保存されている前後部補間信号s(n)+t(n)+u(n)を、信号出力部160に出力する。ここで、前後部補間音声信号s(n)+t(n)+u(n)とは、上記前部補間信号t(n)により雑音前部区間Sが補間され、かつ、上記後部補間信号u(n)により雑音後部区間Sが補間されたn番目のフレームの音声信号s(n)である。
さらに、図18Cに示すように、信号補間部154は、上記前後部補間音声信号s(n)+t(n)+u(n)の出力とともに、入力用バッファメモリ122に保存されている、n+1番目のフレームの前部補間音声信号u(n)+s(n+1)を、出力用バッファメモリ132に移動させる。これにより、次にn+2番目のフレームの音声信号s(n+1)が入力されたときに、雑音が低減されたn+1番目のフレームの前部補間音声信号u(n)+s(n+1)を出力することが可能となる。
上記第1動作例のように、雑音がn番目とn+1番目のフレームに跨って存在する場合には、n番目とn−1番目のフレームのうち雑音開始点Pの直前の信号を用いて雑音前部区間Sが補間され、n番目とn+1番目のフレームのうち雑音終了点Pの直後の信号を用いて雑音後部区間Sが補間される。
[3.3.2.雑音発生時の第2動作例]
次に、図19、図20を参照して、雑音がn−1番目とn番目のフレームに跨って存在する場合の音声信号処理装置100の第2動作例について説明する。図19、図20は、本実施形態に係る音声信号処理装置100の雑音発生時の第2動作例を示す模式図である。
図19Aに示すように、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音のピークが含まれることが検出されたときには、図19Aに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図19Bに示す前部補間処理が直ちに実行される。
詳細には、まず、前部補間信号生成部158は、図19Aに示すように、雑音開始点Pから雑音前部区間長Lだけ前の点Pまでの区間Sの信号から、雑音前部区間Sを補間するための前部補間信号t(n)を生成する。雑音前部区間S及び区間S等の定義は、前述の第1動作例と同様である。ただし、第2動作例では、雑音開始点Pがn−1番目のフレームに存在するため、雑音前部区間Sは、n−1番目及びn番目のフレームに跨って存在する。また、区間Sは、少なくともn−1番目のフレームの一部の区間を含み、雑音前部区間長Lによってはn−2番目のフレームの後部の区間をも含む。図19Aの例では、区間Sはn−1番目のフレーム内に設定されている。
前部補間信号生成部158は、n−1番目のフレームの音声信号s(n−1)のうち上記区間Sの信号を用いて、前部補間信号t(n)を生成する。この前部補間信号t(n)の生成方法は、上記第1動作例と同様である。
次いで、信号補間部154は、図19Bに示すように、上記前部補間信号t(n)を用いて、n−1番目及びn番目のフレームの音声信号s(n−1)、s(n)のうち、雑音前部区間Sの信号を補間する。図19Bの前部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレーム、及び入力用バッファメモリ122に保存されているn番目のフレームのうち、雑音前部区間Sの音声信号s(n−1)、s(n)が、前部補間信号t(n)に置換されている。かかる前部補間処理により、雑音前部区間Sの雑音が低減される。
次いで、図19Cに示すように、上記前部補間処理後に直ちに、信号補間部154は、出力用バッファメモリ132に保存されている、後部補間音声信号s(n−1)+t(n)を信号出力部160に出力する。ここで、後部補間音声信号s(n−1)+t(n)とは、上記前部補間信号t(n)により雑音後部区間Sが補間されたn−1番目のフレームの音声信号s(n−1)である。
さらに、図19Cに示すように、信号補間部154は、上記後部補間音声信号s(n−1)+t(n)の出力とともに、入力用バッファメモリ122に保存されている前部補間音声信号t(n)+s(n)を、出力用バッファメモリ132に移動させる。ここで、前部補間音声信号t(n)+s(n)とは、上記前部補間信号t(n)により雑音前部区間Sが補間されたn番目のフレームの音声信号s(n)である。このように、前部補間音声信号t(n)+s(n)を出力用バッファメモリ132に移動させておくことで、次のn+1番目のフレームの音声信号s(n+1)が入力されたときに、前部補間音声信号t(n)+s(n)のうちの後部雑音区間を補間することができる。
次いで、図20Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記前部補間音声信号t(n)+s(n)が出力用バッファメモリ132に一時保存されている。
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図20Aに示す後部補間信号の生成処理と、図20Bに示す後部補間処理が直ちに実行される。
詳細には、まず、後部補間信号生成部159は、図20Aに示すように、雑音終了点Pから雑音後部区間長Lだけ前の点Pまでの区間Sの信号から、雑音後部区間Sを補間するための後部補間信号u(n)を生成する。雑音後部区間S及び区間S等の定義は、前述の第1動作例と同様である。ただし、第2動作例では、雑音終了点Pがn番目のフレームに存在するため、雑音後部区間Sは、n+1番目のフレーム内に存在する。また、区間Sは、少なくともn番目のフレームの一部の区間を含み、雑音後部区間長Lによってはn−1番目のフレームの前部後部の区間をも含む。図20Aの例では、区間Sはn番目及びn+1番目のフレームの双方に跨って設定されている。
後部補間信号生成部159は、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち上記区間Sの信号を用いて、後部補間信号u(n)を生成する。この後部補間信号u(n)の生成方法は、上記第1動作例と同様である。
次いで、信号補間部154は、図20Bに示すように、上記後部補間信号u(n)を用いて、n番目のフレームの音声信号s(n)のうち、雑音後部区間Sの信号を補間する。図20Bの後部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレームの前部補間音声信号t(n)+s(n)のうち、雑音後部区間Sの信号が、後部補間信号u(n)に置換されている。かかる後部補間処理により、雑音後部区間Sの雑音が低減される。
次いで、図20Cに示すように、上記後部補間処理後に直ちに、信号補間部154は、図19Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、出力用バッファメモリ132に保存されている前後部補間信号t(n)+u(n)+s(n)を、信号出力部160に出力する。ここで、前後部補間音声信号t(n)+u(n)+s(n)とは、上記前部補間信号t(n)により雑音前部区間Sが補間され、かつ、上記後部補間信号u(n)により雑音後部区間Sが補間されたn番目のフレームの音声信号s(n)である。
さらに、図20Cに示すように、信号補間部154は、上記前後部補間音声信号t(n)+u(n)+s(n)の出力とともに、入力用バッファメモリ122に保存されている、n+1番目のフレームの音声信号s(n+1)を、出力用バッファメモリ132に移動させる。これにより、次にn+2番目のフレームの音声信号s(n+1)が入力されたときに、n+1番目のフレームの音声信号s(n+1)を出力することが可能となる。
上記第2動作例のように、雑音がn−1番目とn番目のフレームに跨って存在する場合には、n−1番目のフレームのうち雑音開始点Pの直前の信号を用いて雑音前部区間Sが補間され、n番目とn+1番目のフレームのうち雑音終了点Pの直後の信号を用いて雑音後部区間Sが補間される。
以上のように、本実施形態によれば、雑音が2つのフレームに跨って存在する場合に、当該雑音の基準点を検出し、雑音開始点Pより前の区間Sの信号を用いて雑音前部区間Sを補間するとともに、雑音終了点Pより後の区間Sの信号を用いて雑音後部区間Sを補間する。これにより、フレーム単位で補間処理を行う必要が無くなり、雑音の直近の自由な区間の信号を用いて補間処理を行うことができるので、より一層、自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。
また、上記のように雑音基準点を検出して補間処理する場合であっても、入力用バッファメモリ122及び出力用バッファメモリ132のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、第1、2の実施形態同様に、装置全体で必要なバッファメモリ長は2*Nで済む。また、入力用バッファメモリ122に対して次のフレームの音声信号s(n+1)が蓄積完了した時点で直ちに、1つ前のフレームの音声信号s(n)が外部に出力されるので、入力音声に対する出力音声の遅延は1フレーム分で済む。
[3.4.音声信号処理方法]
次に、図21を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図21は、第3の実施形態に係る音声信号処理方法を示すフローチャートである。
図21に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入力用バッファメモリ122に蓄積されたか否かを判定する(S300)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S300の判定の結果、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S302)。
S302の判定の結果、雑音が検出された場合には直ちに、雑音基準点の検出処理(S304)、前部補間信号の生成処理(S306)、及び前部補間処理(S308)が実行される。
詳細には、まず、雑音基準点検出部142は、上述したように、音声信号s(s)に含まれる雑音の特性に基づいて、雑音開始点P、雑音中間点P、雑音終了点Pを計算する(S304)。次いで、前部補間信号生成部158は、図17、図19に示したように、雑音開始点Pより前の所定区間Sの音声信号s(n−1)、s(n)を用いて、雑音前部区間Sを補間するための前部補間信号t(n)を生成する(S306)。
さらに、信号補間部154は、S306で生成された前部補間信号t(n)を用いて、音声信号s(n−1)、s(n)のうちの雑音前部区間Sの信号を補間する(S308)。このS308の前部補間処理では、雑音前部区間Sの信号を前部補間信号t(n)に置換してもよいし、当該雑音前部区間Sの信号と前部補間信号t(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
その後、信号補間部154は、入力用バッファメモリ122内の前部補間音声信号s(n)+t(n)を出力用バッファメモリ132に移動させる(S310)。
次いで、新たに入力されたn+1番目のフレームの音声信号s(n+1)を入力用バッファメモリ122に蓄積し、当該音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したか否を判定する(S312)。この結果、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、図18、図20に示した後部補間信号の生成処理(S316)、及び後部補間処理(S318)が実行される。
詳細には、まず、後部補間信号生成部159は、図18、図20に示したように、雑音終了点Pより後前の所定区間Sの音声信号s(n)、s(n+1)を用いて、雑音後部区間Sを補間するための後部補間信号u(n)を生成する(S316)。
次いで、信号補間部154は、S316で生成された後部補間信号u(n)を用いて、音声信号s(n)、s(n+1)のうちの雑音後部区間Sの信号を補間する(S318)。このS318の後部補間処理では、雑音後部区間Sの信号を後部補間信号u(n)に置換してもよいし、当該雑音後部区間Sの信号と後部補間信号u(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
その後、信号補間部154は、実際に入力されたn番目のフレームの音声信号s(n)に換えて、S308、S318で前部補間信号t(n)及び後部補間信号u(n)により補間された前後部補間音声信号s(n)、t(n)、u(n)を、信号出力部160に出力する(S320)。そして、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
一方、上記S302の雑音判定の結果、n番目のフレームの音声信号s(n)に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図11に示したように、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160出力し、入力用バッファメモリ122に保存されたn番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる(S310)。そして、次のn+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときに(S312)、出力用バッファメモリ132からn番目のフレームの音声信号s(n)をそのまま信号出力部160に出力し(S320)、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
その後、デジタルカメラ1による撮像及び録音動作が終了(S322)するまで、入力音声信号の次の1フレームの音声信号s(n+2)に対して、上記S300〜S320の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
[3.5.効果]
以上、本開示の第3の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。第3の実施形態によれば、上述した第2の実施形態の効果に加え、さらに以下の効果がある。
第3の実施形態によれば、雑音基準点(雑音開始点P、雑音中間点P、雑音終了点P)を検出することにより、音声信号のフレーム単位に関わらずに、雑音基準点に基づき、雑音前後の音声信号の任意の区間を自由に選択して、補間処理を実現できる。即ち、雑音開始点Pの直前の区間Sの信号から前部補間信号t(n)を生成して、雑音前部区間Sを補間するとともに、雑音終了点Pの直後の区間Sの信号から後部補間信号u(n)を生成して、雑音後部区間Sを補間する。従って、雑音が複数のフレームに跨って存在する場合であっても、その雑音区間の直近前後の区間の信号を好適に用いて、補間処理を適切に実現できる。
さらに、第2の実施形態と同様に、雑音区間の前後の信号を用いて補間処理を行うので、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。
また、第1、2の実施形態と同様に、第3の実施形態でも、補間信号の推定に必要なバッファメモリ長は2*Nで済むので、上記従来の補間方法(図1参照。)が少なくとも3*Nのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。
さらに、第2の実施形態と同様に、入力音声に対する出力音声の遅延を1フレーム分(遅延量:N)に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では主に、音声信号処理装置としてデジタルカメラ1を例示し、動画撮像と共に録音する時に機械音を低減する例について説明したが、本技術はかかる例に限定されない。本技術の音声信号処理装置は、各種の音声信号記録装置又は音声信号再生装置等の電子機器に適用できる。例えば、音声信号処理装置は、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
また、上記実施形態では、デジタルカメラ1による音声信号の記録時に、雑音低減処理を実行する例について説明した。しかし、かかる例に限定されず、本技術の音声信号処理装置を音声信号再生装置に適用すれば、記録された音声信号を再生するときにも、再生対象の音声信号に含まれる雑音を適切に低減することができる。
なお、本技術は以下のような構成も取ることができる。
(1)入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、音声信号処理装置。
(2)前記音声信号に含まれる前記雑音の開始点及び終了点を検出する雑音基準点検出部をさらに備え、
前記補間信号生成部は、
前記n−1番目又は前記n番目の区間の一方若しくは双方の音声信号から第1の補間信号を生成する第1の補間信号生成部と、
前記n+1番目又は前記n番目の区間の一方若しくは双方の音声信号から第2の補間信号を生成する第2の補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による補間後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による補間後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の後部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号及び前記第2の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。
(3)前記雑音基準点検出部は、前記雑音の中間点を検出し、前記中間点に基づいて前記開始点及び前記終了点を検出し、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第1の補間信号に置換し、前記第1の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による置換後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による置換後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第2の補間信号に置換し、前記第1の補間信号及び前記第2の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、前記(2)に記載の音声信号処理装置。
(4)前記補間信号生成部は、
前記n−1番目の区間の音声信号から第1の仮補間信号を生成する第1の仮補間信号生成部と、
前記n+1番目の区間の音声信号から第2の仮補間信号を生成する第2の仮補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の仮補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記第1の仮補間信号を生成し、前記第1の仮補間信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の仮補間信号生成部は、前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号から第2の仮補間信号を生成し、前記信号補間部は、前記第2の仮補間信号、及び前記第2のバッファメモリに保存されている前記第1の仮補間信号から前記補間信号を生成し、前記n番目の区間の音声信号に換えて前記補間信号を前記第2のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。
(5)前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記補間信号を生成し、前記信号補間部は、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に換えて前記補間信号を前記第1のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。
(6)前記雑音は、前記音声信号を出力する収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音である、前記(1)〜(5)のいずれか一項に記載の音声信号処理装置。
(7)前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、前記(6)に記載の音声信号処理装置。
(8)前記音声信号の処理単位である前記所定区間の時間長は、前記パルス状の機械駆動音の時間長よりも長い、前記(1)〜(7)のいずれか一項に記載の音声信号処理装置。
(9)外部音声を音声信号に変換する収音部と、
前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、撮像装置。
(10)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
を含む、音声信号処理方法。
(11)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラム。
(12)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
1 デジタルカメラ
10 撮像部
14 駆動装置
15 ズームモータ
16 フォーカスモータ
51 マイクロホン
60 音声信号処理部
70 制御部
100 音声信号処理装置
110 信号入力部
120 入出力用バッファメモリ
122 入力用バッファメモリ
130 補間用バッファメモリ
132 出力用バッファメモリ
140 雑音検出部
142 雑音基準点検出部
150 雑音低減部
152 補間信号生成部
154 信号補間部
156 第1の仮補間信号生成部
157 第2の仮補間信号生成部
158 前部補間信号生成部
159 後部補間信号生成部
160 信号出力部
s 音声信号
v 補間信号
p 第1の仮補間信号
q 第2の仮補間信号
t 前部補間信号
u 後部補間信号
雑音開始点
雑音中間点
雑音終了点
雑音前部区間
雑音後部区間
雑音前部区間長
雑音後部区間長

Claims (12)

  1. 入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
    前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
    前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
    前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
    を備える、音声信号処理装置。
  2. 前記音声信号に含まれる前記雑音の開始点及び終了点を検出する雑音基準点検出部をさらに備え、
    前記補間信号生成部は、
    前記n−1番目又は前記n番目の区間の一方若しくは双方の音声信号から第1の補間信号を生成する第1の補間信号生成部と、
    前記n+1番目又は前記n番目の区間の一方若しくは双方の音声信号から第2の補間信号を生成する第2の補間信号生成部と、
    を備え、
    前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
    前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による補間後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による補間後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の後部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号及び前記第2の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、請求項1に記載の音声信号処理装置。
  3. 前記雑音基準点検出部は、前記雑音の中間点を検出し、前記中間点に基づいて前記開始点及び前記終了点を検出し、
    前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第1の補間信号に置換し、前記第1の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
    前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による置換後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による置換後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第2の補間信号に置換し、前記第1の補間信号及び前記第2の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、請求項2に記載の音声信号処理装置。
  4. 前記補間信号生成部は、
    前記n−1番目の区間の音声信号から第1の仮補間信号を生成する第1の仮補間信号生成部と、
    前記n+1番目の区間の音声信号から第2の仮補間信号を生成する第2の仮補間信号生成部と、
    を備え、
    前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の仮補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記第1の仮補間信号を生成し、前記第1の仮補間信号を前記第2のバッファメモリに一時保存し、
    前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の仮補間信号生成部は、前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号から第2の仮補間信号を生成し、前記信号補間部は、前記第2の仮補間信号、及び前記第2のバッファメモリに保存されている前記第1の仮補間信号から前記補間信号を生成し、前記n番目の区間の音声信号に換えて前記補間信号を前記第2のバッファメモリから出力する、請求項1に記載の音声信号処理装置。
  5. 前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記補間信号を生成し、前記信号補間部は、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に換えて前記補間信号を前記第1のバッファメモリから出力する、請求項1に記載の音声信号処理装置。
  6. 前記雑音は、前記音声信号を出力する収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音である、請求項1に記載の音声信号処理装置。
  7. 前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
    前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、請求項6に記載の音声信号処理装置。
  8. 前記音声信号の処理単位である前記所定区間の時間長は、前記パルス状の機械駆動音の時間長よりも長い、請求項1に記載の音声信号処理装置。
  9. 外部音声を音声信号に変換する収音部と、
    前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
    前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
    前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
    前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
    前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
    を備える、撮像装置。
  10. 第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
    入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
    前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
    前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
    を含む、音声信号処理方法。
  11. 第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
    入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
    前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
    前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
    をコンピュータに実行させるためのプログラム。
  12. 第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
    入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
    前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
    前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
JP2011185553A 2011-08-29 2011-08-29 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 Withdrawn JP2013047710A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011185553A JP2013047710A (ja) 2011-08-29 2011-08-29 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011185553A JP2013047710A (ja) 2011-08-29 2011-08-29 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2013047710A true JP2013047710A (ja) 2013-03-07

Family

ID=48010744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011185553A Withdrawn JP2013047710A (ja) 2011-08-29 2011-08-29 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2013047710A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019518229A (ja) * 2016-05-05 2019-06-27 グーグル エルエルシー ビデオコンテンツ内の風雑音のフィルタリング
CN113936698A (zh) * 2021-09-26 2022-01-14 度小满科技(北京)有限公司 音频数据的处理方法、装置以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019518229A (ja) * 2016-05-05 2019-06-27 グーグル エルエルシー ビデオコンテンツ内の風雑音のフィルタリング
CN113936698A (zh) * 2021-09-26 2022-01-14 度小满科技(北京)有限公司 音频数据的处理方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
JP5741281B2 (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP5594133B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP5351644B2 (ja) 音声記録装置及び方法、ならびに撮像装置
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP2012100216A (ja) カメラおよび動画撮影プログラム
US9224381B2 (en) Audio signal processing apparatus and audio signal processing system
JP5279629B2 (ja) 撮像装置
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP5656586B2 (ja) 撮像装置とその制御方法並びに音声処理装置及び方法
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP5839795B2 (ja) 撮像装置および情報処理システム
JP5645393B2 (ja) 音声信号処理装置
JP6902961B2 (ja) 音声処理装置及びその制御方法
US20220383891A1 (en) Sound processing apparatus and control method
US11729548B2 (en) Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones
JP2012165219A (ja) 撮像装置
JP2018207313A (ja) 音声処理装置及びその制御方法
JP5495753B2 (ja) 撮像装置
JP6931296B2 (ja) 音声処理装置及びその制御方法
JP6912969B2 (ja) 音声処理装置及びその制御方法
JP6886352B2 (ja) 音声処理装置及びその制御方法
JP2012054751A (ja) 音声処理装置ならびにそれを含む集積回路、音声記録装置および撮像装置
JP2022054316A (ja) 音声処理装置、制御方法、およびプログラム
JP2022038610A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054318A (ja) 音声処理装置、制御方法、およびプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141104