JP2012133346A

JP2012133346A - 音声処理装置および音声処理方法

Info

Publication number: JP2012133346A
Application number: JP2011260036A
Authority: JP
Inventors: Takao Yamabe; 孝朗山邊
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2010-11-30
Filing date: 2011-11-29
Publication date: 2012-07-12
Also published as: US20120136655A1; CN102479505B; US8818806B2; CN102479505A

Abstract

【課題】入力信号におけるノイズ成分と音声成分とを識別する。
【解決手段】音声処理装置１１０は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部１２０と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部１２２と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部１２４と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部１２６と、を備える。
【選択図】図４

Description

本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に関する。

音声を収音して生成した信号である入力信号には、音声が含まれる音声区間と、会話の合間や息継ぎ等により音声が含まれない非音声区間がある。例えば、音声認識装置では、音声区間と非音声区間とを特定することで、音声の認識率の向上、および、音声認識処理の効率化を図っている。また、携帯電話や無線機等を利用した移動体通信では、音声区間と非音声区間で、入力信号の符号化処理を切り換えることにより、音質を維持しつつ、圧縮率や転送効率を高めることができる。移動体通信では、リアルタイム性が要求されるため、音声区間の判定処理による遅延を抑えることが望まれる。

このような遅延を抑えた音声区間の判定処理として、例えば、入力信号のフレームにケプストラム法を用いて倍音成分を最も多く含む基本波を示す情報である調波情報を導出し、その調波情報と、そのフレームのエネルギーが閾値以上か否かを示すパワー情報とがそれぞれ音声の特徴を示すか否かで音声区間を検出したり（例えば、特許文献１）、周波数領域に展開されたスペクトルの自己相関を導出し、その相関の高さから音声区間を検出したりする技術（例えば、特許文献２）が提案されている。

特開２００９−２９４５３７号公報特開２００９−６９４２５号公報

しかし、上述した特許文献１、２等の従来の音声区間の検出技術は、ノイズが比較的低い環境では有効であるが、ノイズが大きくなると、入力信号のフレームの周波数分布の平坦さ（ピークの頻度）、ピッチ（音高）等の音声の性質が、ノイズに埋もれてしまい、音声区間の誤検出が生じ易くなる。また、ケプストラム法は、フーリエ変換を２回も行う必要があり、周波数領域上の処理負荷が高いため電力消費が多くなる。そのため、特に、移動体通信のようにバッテリ駆動を前提とする場合、ケプストラム法を用いると、電力消費を賄うため、バッテリの容量を大きくする必要があり、高コスト化や大型化を招いてしまう。

さらに、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまい誤検出が生じる場合がある。

そこで本発明は、このような課題に鑑み、入力信号におけるノイズ成分と音声成分とを識別することが可能な、音声処理装置および音声処理方法を提供することを目的としている。

上記課題を解決するために、本発明の音声処理装置は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、を備えることを特徴とする。

ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、予め定められた本数のスペクトルのうち、予め定められた規則に基づく１または複数のスペクトルをピークスペクトルとしてもよい。

倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定してもよい。

予め定められた本数のスペクトル全体の周波数帯域は、１００Ｈｚ未満の周波数帯域であってもよい。

スペクトル生成部は、３３Ｈｚ未満の周波数分解能でスペクトルパターンを生成してもよい。

スペクトル生成部は、２００Ｈｚから２０００Ｈｚの範囲のスペクトルパターンを生成してもよい。

スペクトルパターンのうち、ピークスペクトルのうち倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定する音声判定部と、をさらに備えてもよい。

スペクトルパターンのうち、ピークスペクトルから倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、をさらに備えてもよい。

上記課題を解決するために、本発明の音声処理方法は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、スペクトルパターンから、ピークを有するピークスペクトルを検出し、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする。

上述した音声処理装置における技術的思想に対応する構成要素やその説明は、当該音声処理方法にも適用可能である。

以上説明したように本発明では、入力信号におけるノイズ成分と音声成分とを識別することが可能となる。

周期性を有するノイズ信号の周波数特性図である。周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図である。図２に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。音声処理装置の概略的な機能を示した機能ブロック図である。総和エネルギーの導出を説明するための説明図である。重心周波数を説明するための説明図である。音声処理方法の処理の流れを示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。

従来の音声区間の検出技術では、音声に対して、音声を収音する対象となる範囲におけるノイズである周囲ノイズ（雑音）が大きくなると、音声特性の検出が困難になり、音声区間の誤検出が生じてしまう場合がある。例えば、交通量の多い交差点、作業中の工事現場、および操業中の工場内等において、携帯電話や無線機等の移動体通信機器を用いて会話する場合、音声区間の判定が正しく行われないことがある。そのため、音声符号化処理において、音声区間を非音声区間と誤判定して、音声区間の入力信号の情報を圧縮し過ぎたり、非音声区間を音声区間と誤判定して効率的な符号化がなされなかったりして、音質の劣化を招き会話に支障をきたすことがあった。また、符号化回路を用いない場合であっても、ノイズキャンセル等の機能を有する移動体通信機器において、音声であるか否かの誤判定が生じると、正常にノイズをキャンセルできず、受話側が非常に聞き取り難い状況になることもあった。

特に、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまう誤検出が生じる場合がある。例えば、音声とノイズが双方含まれるフレームでは音声のみの場合と比較して音声信号の自己相関値が低くなり、本来音声と判定されるべきところ、非音声であると判定されてしまったり、周期性を有するノイズのみのフレームではそのノイズの周期性から音声であると誤判定されてしまったりするおそれがある。

図１は、周期性を有するノイズ信号の周波数特性図である。ここでは、走行中のレーシングカーの騒音（ノイズ）を例に挙げている。図１に示すようなノイズ信号は、音声信号ではないにも関わらず、周期性を有するピークスペクトル１００が存在するため音声と誤判定される可能性がある。

図２は、周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図であり、図３は、図２に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。図２と図３を比較して理解できるように、図２の入力信号には、周期性を有するノイズ信号のピークスペクトル１０２と周期性を有する音声信号のピークスペクトル１０４とが含まれている。これらのピークスペクトルは、いずれもエネルギーが高く、エネルギーのみでは互いを区別するのは難しい。また、ノイズ信号のピークスペクトル１０２と音声信号のピークスペクトル１０４のそれぞれは周期性を有しているものの、両者は非同期であるため、時間領域または周波数領域のどちらの領域においても、自己相関値のピークは緩やかになり、自己相関値を用いても音声の検出精度が悪化する。

さらに、移動体通信のようにバッテリ駆動を前提とするシステムでは、低消費電力であることが望まれる。特に、デジタル無線では、遅延の少なさ、低処理負荷、エネルギーが高レベルなノイズの抑制が求められる。しかし、従来から用いられているケプストラム法は、比較的処理負荷が大きく電力消費が多くなってしまい、高コスト化や大型化を招く。

そこで、本実施形態では、周期性を有するノイズが含まれる場合であっても、ノイズ成分を抑制することが可能な音声処理装置について詳述し、続いて、その音声処理装置を用いた音声処理方法について説明する。

（音声処理装置１１０）
図４は、音声処理装置１１０の概略的な構成を説明するための機能ブロック図である。音声処理装置１１０は、フレーム化部１２０と、スペクトル生成部１２２と、ピーク検出部１２４と、倍音判定部１２６と、ノイズ減衰部１２８と、音声判定部１３０と、ノイズ削減部１３２とを含んで構成される。

フレーム化部１２０は、収音装置２００が、音声を収音しデジタル信号に変換した入力信号を、予め定められた時間幅を有するフレーム単位（所定サンプル数長）で順次切り出し、フレーム単位の入力信号（以下、単に「フレーム化入力信号」という）を生成する。また、収音装置２００から入力される入力信号がアナログ信号である場合、フレーム化部１２０の前段にＡＤコンバーターを配置しデジタル信号に変換するとしてもよい。そして、フレーム化部１２０は、生成したフレーム化入力信号を順次、スペクトル生成部１２２に送信する。

スペクトル生成部１２２は、フレーム化部１２０から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に亘って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いＦＦＴ（Fast Fourier Transform）やＤＣＴ（Discrete Cosine Transform）等の直交変換法を用いるとよい。

この実施形態において、スペクトル生成部１２２は、２００Ｈｚから２０００Ｈｚの範囲のスペクトルパターンを生成する。

音声の特徴を示すスペクトルであるフォルマントが他の周波数帯域よりも比較的検出し易い２００Ｈｚから１０００Ｈｚ付近の周波数帯域を観察し、１０００Ｈｚの倍に当たる２０００Ｈｚを倍音検出対象の周波数帯域の上限とする。また、検出対象の周波数帯域の下限は、ノイズ成分の影響が大きくフォルマントを効率よく抽出できない２００Ｈｚ未満を除き２００Ｈｚとする。ただし、２００Ｈｚや２０００Ｈｚといった境界付近の周波数を中心とする周波数帯域を分析するため、境界の前後約５０Ｈｚの周波数信号を含めた周波数分析を行うものとする。音声の第１フォルマント（基音）は、男女によって差はあるものの大凡１００Ｈｚから５００Ｈｚの間に分布する。周波数が大凡１００Ｈｚの低域では一般的にノイズのエネルギー成分が大きく音声信号が検出できない可能性がある。仮に男性で声が低く第１フォルマントの周波数が約１００Ｈｚであり、ノイズに埋もれてしまっている場合でも、第２、第３フォルマントは、比較的ノイズが小さい周波数帯域に生じるので検出し易く、フォルマントの検出が可能となる。かかる構成により、ピーク検出部１２４は、比較的フォルマントを検出し易い周波数帯域に絞って効率的に処理を遂行できる。

ピーク検出部１２４は、スペクトルパターンのうち、連続する複数のスペクトル、本実施形態においては、３つのスペクトルのエネルギーを加算して、複数のスペクトルのエネルギーの総和（以下、総和エネルギーと称す）を導出する。ピーク検出部１２４は、スペクトルを１つ分ずつシフトしながら、順次、総和エネルギーを導出する。

図５は、総和エネルギーの導出を説明するための説明図である。図５では、入力信号の周波数特性を模式的に示す。ピーク検出部１２４は、任意のスペクトル２５０ａとそのスペクトル２５０ａにスペクトル生成部１２２で生成されたスペクトルパターン上で隣接する前後のスペクトル２５０ｂ、２５０ｃの総和エネルギーを導出する。次に、ピーク検出部１２４は、スペクトル２５０ｃとその前後のスペクトル２５０ａ、２５０ｄの総和エネルギーを導出する。このようにして、ピーク検出部１２４は、スペクトルパターンの周波数の範囲全体に亘って、中心のスペクトルを１つ分ずつシフトしながら、３つのスペクトルのエネルギーの総和を導出する。

そして、ピーク検出部１２４は、総和エネルギーを導出した後、判定対象の複数のスペクトル２６０ａの総和エネルギーと、判定対象の複数のスペクトル２６０ａに隣接する複数のスペクトル２６０ｂの総和エネルギーとのエネルギー比を導出する。ピーク検出部１２４は、総和エネルギーについては、スペクトルを１つ分ずつシフトして２つのスペクトルが常に重複するように導出したが、エネルギー比については、判定対象の複数のスペクトル２６０ａと、判定対象の複数のスペクトル２６０ａに隣接する複数のスペクトル２６０ｂとが同一のスペクトルを有さないように比較する。

ピーク検出部１２４は、導出したエネルギー比と予め定められた閾値とを比較し、導出したエネルギー比が予め定められた閾値以上の場合には、判定対象の複数のスペクトル２６０ａをピークパターンとし、判定対象の複数のスペクトル２６０ａの予め定められた規則に基づく１または複数のスペクトル（例えば２５０ａ）をピークスペクトルとして検出する。

音声の主要なスペクトル（第１フォルマントから第４または第５フォルマントまで）はノイズの影響がある場合でも瞬間的（フレーム単位に相当）に見れば数ｄＢから約１０ｄＢ程度のエネルギーを持つため、例えば、ノイズ成分より６ｄＢ高いスペクトルを検出できるように、閾値を２としたり、１２ｄＢ高いスペクトルを検出できるように、閾値を４としたりするとよい。以下の数式１に一般的なｄＢ換算式を示す。
…（数式１）
Ｒａｔｉｏ＿Ｅ：エネルギー比（ｄＢ）
Ｅ＿ｐｅａｋ：対象の総和エネルギー
Ｅ＿ｎｅｉｇｈｂｏｒ：隣接する総和エネルギー

このように、ピーク検出部１２４は、判定対象の複数のスペクトルのエネルギーの総和と、判定対象の複数のスペクトルに隣接する複数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、隣接する複数のスペクトルとのエネルギー総和の比が閾値を超えた複数のスペクトルをピークパターンとし、ピークパターンのうち予め定められた規則に基づく１または複数のスペクトル、本実施形態においては１つのスペクトルをピークスペクトルとする。なお、判定対象のスペクトルは、予め定められた本数であればよく、例えば、複数ではなく、１本であってもよい。

ここで、予め定められた規則は、例えば、複数のスペクトルが奇数の場合、複数のスペクトルのうち、周波数が中心となるスペクトルやそのスペクトルに隣接するスペクトルを選択するという規則であったり、複数のスペクトルが偶数の場合、複数のスペクトルのうち、周波数が中心に最も近い２つのスペクトルのいずれか一方や両方、その両方のスペクトルに隣接するスペクトルを選択するという規則であったりしてもよい。また、複数のスペクトル（例えば、２６０ａ）のうち、すべてのスペクトル（例えば、２５０ａ、２５０ｂ、２５０ｃ）をまとめて１つのピークスペクトルとして検出してもよい。

音声は声帯の振動を伴うため、ピークがある程度の帯域幅を有する、所謂揺らぎ成分が生じ、中心周波数をピークとしながらそのエネルギー成分が隣接するスペクトルにも存在することとなる。そのため、その前後のスペクトルにも、音声のエネルギー成分が含まれている可能性が高い。一方、周期性を有するノイズには、倍音構造ではあるものの音声のような揺らぎ成分を有さない、例えば、サイレン、エンジン音、突発的な打撃音などがある。このような揺らぎ成分を有さないノイズは、１つのスペクトルのみでは音声信号とエネルギー差が生じない場合もあるが、隣接するスペクトルのエネルギーを加算すると、同様に隣接するスペクトルのエネルギーを加算した音声と比較して、相対的にエネルギー成分は低くなる。ピーク検出部１２４が隣接する総和エネルギーを比較対象とすることで、揺らぎ成分の有無にも基づいて音声とノイズを識別でき、音声を適切に検出することが可能となる。

ピーク検出部１２４がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域は、１００Ｈｚ未満の周波数帯域である。

ピーク検出部１２４がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域幅を広くすると、周波数分解能が悪化し倍音判定が困難になる。したがって複数のスペクトル全体の周波数帯域幅は狭い程よいが、あまり狭くすると測定に要するコストが高くなる。本実施形態の倍音判定では、基音が大凡２００Ｈｚ以上の周波数となるフォルマントを検出できればよい。そのため、ピーク検出部１２４がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域を２００Ｈｚの半分である１００Ｈｚ未満とすることで、効率的にフォルマントを検出できる。この値は後述の周波数分解能の推奨値に基づいた隣接するスペクトルを含めたスペクトル全体の周波数帯域幅に相当する。

ピーク検出部１２４で判定されたピークスペクトルは、倍音判定部１２６に送られる。倍音判定部１２６は、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する。

一般的に、音声のスペクトルは倍音構造を有すると言われている。そのため、倍音構造となっていないピークスペクトルは、ノイズ成分とみなすことができる。倍音判定部１２６は、ピークスペクトルが倍音スペクトルか否かを判定することで音声信号であるかノイズ成分であるかを判定できる。そのため、本実施形態の音声処理装置１１０は、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。

倍音判定部１２６は、ピークスペクトルの中心となる周波数に基づいて倍音スペクトルを判定してもよいが、本実施形態において、倍音判定部１２６は、ピークスペクトルの周辺の帯域を含めた複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定する。倍音判定部１２６は、ピーク検出部１２４が検出したピークスペクトルについて、倍音構造を有するか否か（倍音スペクトルであるか否か）を判定するために、ピークスペクトルの正確な代表周波数を導出する。倍音判定部１２６は、以下の数式２に基づいて、総和エネルギーを導出した複数のスペクトル（数式２におけるＳｐｅｃｔｒｕｍ（Ｎ−ｊ）〜Ｓｐｅｃｔｒｍｕ（Ｎ＋ｊ））を用いて、その複数のスペクトル全体の周波数帯域内のエネルギーの割合で重み付けを行い、重心となる周波数である重心周波数を導出し代表周波数とする。
…（数式２）
Ｆｒｅｑ（Ｎ）：Ｓｐｅｃｒｕｍ（Ｎ）を中心とする帯域から求めた重心周波数
Ｅ＿ｒ（ｉ）：Ｓｐｅｃｔｒｕｍ（Ｎ−ｊ）〜Ｓｐｅｃｔｒｕｍ（Ｎ＋ｊ）におけるエネルギー量を占める割合
Ｓｐｅｃ＿ｆｒｅｑ（ｉ）：Ｓｐｅｃｔｒｕｍ（ｉ）の周波数代表値（中心周波数）
Ｎ：スペクトルの位置を示すナンバー
ｊ：Ｓｐｅｃｔｒｕｍ（Ｎ）を中心とした帯域に含まれる前後のスペクトル数

図６は、重心周波数を説明するための説明図である。図６では、入力信号の周波数特性を模式的に示す。ここでは、スペクトル２７０ａ〜２７０ｃは、周期性を有し揺らぎ成分を持ったフォルマントに対応する音声のスペクトルであり、スペクトル２７２ａ〜２７２ｃは、揺らぎ成分を持たず周期性を有するノイズのスペクトルであるものとする。

図６に示すように、音声のスペクトル２７０ａ〜２７０ｃは、揺らぎ成分を有するため、中心のスペクトル２７０ａの前後のスペクトル２７０ｂ、２７０ｃも比較的高いエネルギーを有する。そのため、倍音判定部１２６は、周波数分解能が低く、１つのピークスペクトルのみでは真のピーク位置を特定し難い場合であっても、上述した数式２に基づいて重心周波数２８０ａを導出することで、複数のサンプルによって最もエネルギーが高い、スペクトルパターンの包括線の山に相当するスペクトル（以下、単に「山に相当するスペクトル」と称す）の頂点となる周波数を高精度に推定できる。

一方、揺らぎ成分を持たないノイズのスペクトル２７２ａ〜２７２ｃは、中心のスペクトル２７２ａのみが比較的高いエネルギーを有し、その前後のスペクトル２７２ｂ、２７２ｃのエネルギーは、近傍のスペクトルのエネルギーと変わらない。そのため、上述した数式２に基づいて重心周波数２８０ｂを導出しても、中心のスペクトル２７２ａの周波数とほとんど同じ値となってしまい、周波数分解能によっては導出される周波数の真のピーク位置からの誤差が大きくなる。従って、ピークスペクトルの重心周波数２８０ｂを導出して倍音になっているか判定することで、揺らぎ成分を持たないノイズのスペクトル２７２ａ〜２７２ｃの場合は倍音構造の誤差範囲に入らないこととなる。すなわち、ノイズのスペクトルについては倍音関係が成り立っていないと判定されることとなる。

倍音判定部１２６は、導出した重心周波数を、低域から順次抽出し、抽出した重心周波数より高域のすべての重心周波数とそれぞれ倍音関係が成り立つか否かを判定し、抽出した重心周波数と倍音関係が成り立つ重心周波数が予め定められた数（以下、第１所定数と称す）以上、存在する場合、その重心周波数を導出したピークスペクトル（倍音スペクトル）を音声のスペクトルとみなす。また、倍音関係が成り立つ重心周波数が第１所定数未満であったスペクトルは、音声でないすなわち、ノイズのスペクトルとみなすことができる。

ここで、倍音判定部１２６は、周波数分解能の半分程度の周波数のずれは誤差範囲とする。このような許容する誤差範囲を設けることで、ノイズ成分の影響や、音声の揺らぎの影響を判定結果に反映する。

倍音判定部１２６は、倍音構造が成り立っているか否かを、抽出した低域の重心周波数の倍数にあたる周波数において、許容される誤差範囲に入っているか否かで判断する。すなわち、上述した揺らぎ成分の有無によって、音声のスペクトルはノイズのスペクトルと比較して正確にピーク位置が把握されるので、倍音構造と判定されやすい。したがって倍音判定によって非倍音を排除できる場合がある。

倍音判定部１２６で判定された結果は、ノイズ減衰部１２８に送られる。ノイズ減衰部１２８は、ピークパターンから倍音スペクトルを除いたパターンに対応するエネルギーを減衰する。すなわち、ノイズ減衰部１２８は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する。例えば、ノイズ減衰部１２８は、ノイズとみなすことができるピークスペクトルを中心とする複数（例えば３つ）のスペクトル全体のエネルギーを減衰する。具体的に、ノイズ減衰部１２８は、ノイズとみなすことができるピークスペクトルのエネルギーを、スペクトルパターンの包括線の谷に相当するスペクトル（以下、単に「谷に相当するスペクトル」と称す）のうち、そのピークスペクトルの周波数に近い帯域の平均エネルギーと同程度になるようにするとよい。この平均エネルギーは定常的なノイズのエネルギーに相当するとみなすことができ、ノイズ減衰部１２８は、この平均エネルギーを用いることで、ノイズとみなすことができるピークスペクトルのエネルギーを過度に減衰させてしまい音声の音質を低下させてしまう事態を回避することが可能となる。

音声判定部１３０は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する。

このように、ノイズ減衰部１２８がノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、音声判定部１３０が音声判定の処理を行うことで、周期性を有するノイズの影響を低減し、精度よく音声判定の処理を行うことができる。例えば、外部装置である符号化回路では、音声判定部１３０の音声判定結果を用いて、音声区間と非音声区間で、入力信号の符号化処理を切り換え、音質を維持しつつ、圧縮率や転送効率を高めることができる。

エネルギー減衰されたスペクトルパターンは、ノイズ減衰部１２８からノイズ削減部１３２に対しても送られる。ノイズ削減部１３２は、例えば、スペクトラム・サブトラクション法等の手段を用いて、ノイズ減衰部１３２から出力されたピークパターンからノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する。削減量は上述のように周囲のノイズ成分と同レベルとなるように調整することで、周波数逆変換後の量子化ノイズを抑える事ができ音質劣化に与える影響を少なくすることができる。

このように、予めノイズ減衰部１２８でノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、ノイズ削減部１３２がノイズ成分の削減処理を行うため、周期性を有するノイズの影響を抑制し、ノイズ削減の精度を向上することができる。本実施形態の音声処理装置１１０は、上述した、ノイズ減衰部１２８と、音声判定部１３０またはノイズ削減部１３２を備えるため、例えば、携帯電話や無線機等の移動体通信機器に搭載することで、音声の明瞭性を向上することが可能となる。

上述したように、倍音判定部１２６は、ピークスペクトルが倍音スペクトルか否かを判定することでノイズ成分か否かを判定できる。従って、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。

また、ノイズ減衰部１２８は、この周期性を有するノイズ成分を抑制することができ、例えば、音声認識に用いる音声区間判定処理の精度が向上する。また、音声処理装置１１０は、音声強調処理、ノイズリダクション等のノイズ抑制処理を行う機能を備えることで、本実施形態の周期性を有するノイズ成分を抑制する機能を効果的に応用できる。そのため、音声処理装置１１０は、例えば、大きな遅延が許容されない移動体通信や、その他、ノイズの影響により実用性に乏しかった環境下においても、音声を明瞭化することができ、音声分析や情報伝達を行う機器への応用が可能となる。

（音声処理方法）
次に、上述した音声処理装置１１０を用いて入力信号を分析する音声処理方法を説明する。

図７は、音声処理方法の全体的な流れを示したフローチャートである。入力信号の入力がある場合（Ｓ３００におけるＹＥＳ）、フレーム化部１２０は、音声処理装置１１０が取得したデジタル入力信号を、所定のフレーム単位で順次切り出し、フレーム化入力信号を生成する（Ｓ３０２）。そして、スペクトル生成部１２２は、フレーム化部１２０から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換してスペクトルパターンを生成する（Ｓ３０４）。

このとき、スペクトル生成部１２２は、３３Ｈｚ未満の周波数分解能でスペクトルパターンを生成する。換言すれば、周波数分解能の推奨値は、３３Ｈｚ未満となる。

すなわち、山に相当するスペクトルと、その近傍にある、谷に相当するスペクトルとのエネルギー比で、フォルマントを検出するためには、周波数上で見た音声における標準的なフォルマントの間隔の半分以下の周波数分解能が必要となる。例えば、標準的な男性の声の場合に多い、第１フォルマントが２００Ｈｚ程度とするならば、倍音は４００Ｈｚ、６００Ｈｚに現れる。従って、これらのフォルマントを検出するには、山と谷を判別可能な１００Ｈｚ程度の帯域幅で観察するとよい。

例えば、ピーク検出部１２４が隣接する３つのスペクトルの総和を比較してピークスペクトルを検出する場合、倍音構造と揺らぎ成分を有す音声と、倍音構造は有するが揺らぎ成分を有さないノイズとの識別を容易とするためには、ピークスペクトルのうち、ノイズ成分は１つのスペクトルに相当する周波数帯域（すなわち周波数分解能）に包含でき、音声成分は３つのスペクトルに相当する周波数帯域に包含できるとよい。ノイズのピークスペクトルは狭い帯域幅に含まれることが多いため、周波数分解能を３３Ｈｚ未満とし、さらに複数のスペクトルをまとめて音声スペクトルのエネルギーとすることで、ノイズのスペクトルの持つエネルギーを相対的に低くする効果があり、音声のスペクトルを高精度に検出できる。

具体的に、ピーク検出部１２４が、２００Ｈｚから４００Ｈｚまでの帯域についてピークスペクトルを検出する処理に着目して説明する。例えば、２５０Ｈｚから３５０Ｈｚを谷に相当するスペクトルの帯域、１５０Ｈｚから２５０Ｈｚ、および３５０Ｈｚから４５０Ｈｚを山に相当するスペクトルの帯域としてエネルギー比を求めれば音声のスペクトルのピークを検出できる。すなわち、複数のスペクトル全体の帯域幅は、１００Ｈｚ程度でよいことになる。

したがって、ピーク検出部１２４が隣接する３つのスペクトルの総和を比較してピークスペクトルを検出する場合、周波数分解能は１００Ｈｚの１／３に当たる約３３Ｈｚ以下とするとよい。検出対象とするフォルマントの基音の周波数を２００Ｈｚより高い周波数帯域とすればさらに周波数分解能を下げる（スペクトルの帯域幅を広くとる）ことも可能である。

続いて、ピーク検出部１２４は、スペクトルパターンのうち、連続する複数のスペクトルのエネルギーを加算して、複数のスペクトルの総和エネルギーを導出する（Ｓ３０６）。ピーク検出部１２４は、スペクトルパターンの周波数の範囲のすべてのスペクトルについて、総和エネルギーを導出したか否かを判定し（Ｓ３０８）、まだ総和エネルギーを導出していないスペクトルがあれば（Ｓ３０８におけるＮＯ）、総和エネルギー導出ステップＳ３０６に戻る。そして、ピーク検出部１２４は、スペクトルを１つ分ずつシフトしながら、順次、総和エネルギーを導出する。

すべてのスペクトルについて総和エネルギーを導出すると（Ｓ３０８におけるＹＥＳ）、ピーク検出部１２４は、判定対象の複数のスペクトルの総和エネルギーと、判定対象の複数のスペクトルに隣接する複数のスペクトルの総和エネルギーとのエネルギー比を導出する（Ｓ３１０）。

そして、ピーク検出部１２４は、導出したエネルギー比が閾値を超えているか否かを判定する（Ｓ３１２）。エネルギー比が第１閾値を超えていると（Ｓ３１２におけるＹＥＳ）、ピーク検出部１２４は、判定対象の複数のスペクトルをピークパターンとし、判定対象の複数のスペクトルのうち１つをピークスペクトルとして検出する（Ｓ３１４）。第１閾値は例えば、上述したように山と谷のスペクトルのエネルギー比（ＲａｉｔＥ）１２ｄＢとするが、扱いやすいようにエネルギー比（Ｅｐｅａｋ／Ｅｎｅｉｇｈｂｏｒ）で考えると、第１閾値は４とする。ここで、判定対象の複数のスペクトルと判定対象の複数のスペクトルに隣接する複数のスペクトルとは、図５を用いて説明したように隣接しつつも重複しない。

ピーク検出部１２４は、すべてのスペクトルについて、ピークスペクトルへの選定を終了したか否かを判定する（Ｓ３１６）。すべてのスペクトルについて、ピークスペクトルへの選定を終了していない場合（Ｓ３１６におけるＮＯ）、エネルギー比導出ステップＳ３１０に戻る。すべてのスペクトルについて、ピークスペクトルへの選定を終了すると（Ｓ３１６におけるＹＥＳ）、倍音判定部１２６は、ピーク判定部１２４で選定されたピークスペクトルについて、上述した数式２に基づいて、重心周波数を導出して代表周波数とする（Ｓ３１８）。

続いて、倍音判定部１２６は、導出した重心周波数に基づいて、ピークスペクトルそれぞれが、倍音スペクトルか否か、すなわち、倍音構造を有するか否かを判定する（Ｓ３２０）。ここでは、倍音検出手段として、例えば、２通りの手段を例にあげる。

１例目は、すべてのピークスペクトルから総和エネルギーが高い順に予め定められた数のピークスペクトルを抽出して倍音判定を行う手段である。代表周波数が４００Ｈｚ以上の代表周波数として導出されたピークスペクトルは、倍音にあたる可能性がある。このため、倍音判定部１２６は、その周波数の１／３倍、１／２倍、２倍音、３倍、・・・の周波数に相当する帯域に、他のピークスペクトルが存在するか否かを判定する。そして、倍音判定部１２６は、１箇所のピークスペクトルに対して複数（例えば、３箇所以上）の倍音とみなされるピークスペクトルが存在すると、それら一連のピークスペクトルを音声のスペクトルとみなし、以降の倍音判定処理の対象から除外する。

また、エネルギー成分が高いピークスペクトルの代表周波数が６００Ｈｚ以上であれば、３倍音（またはその前後の倍音）の可能性があり、同様に８００Ｈｚ以上であれば４倍音（またはその前後の倍音）の可能性がある。したがって、ピークパターンのうち、代表周波数が高いピークスペクトルほど、その代表周波数を整数で除算した周波数を代表周波数とするピークスペクトルの存在の判定処理を、除算する整数の範囲を拡大して行う。

この例では、総和エネルギーが高い順に倍音判定を行うが、一度、倍音構造を有すると判定されたピークスペクトルは、以降の倍音判定においては判定対象から除外されるため、総和エネルギーが高い、上位の例えば３つ程度のピークスペクトルについて倍音判定を行えば、大凡音声のスペクトルを検出し終える。

２例目は、すべてのピークスペクトルから代表周波数が低い順に予め定められた数のピークスペクトルを、抽出して倍音判定を行う手段である。１例目では、代表周波数が例えば約３００Ｈｚから６００Ｈｚ程度の中域の場合、中域の代表周波数に対して低域にも高域にも倍音関係のスペクトルが存在する可能性があるため、どちらも判定しなければならなかったが、２例目では、倍音判定部１２６は、すべてのピークスペクトルのうち、代表周波数が低いピークスペクトルについて、倍音判定を行うため、その代表周波数の倍音に相当する代表周波数の存在を判定すればよい。ただし、フォルマントのエネルギーは低域の方が高い傾向にあるものの、周囲のノイズに対して必ず高いエネルギーを有するとは限らないため、より確実に倍音判定を行うために、倍音判定部１２６は、初めに抽出するピークスペクトルの数を１例目より多くするとよい。

この倍音判定処理において、倍音判定部１２６は、周波数の許容する誤差幅を、最大で周波数分解能の半分とし、その範囲であれば倍音関係にあると判定する。

そして、倍音判定部１２６は、倍音関係となるピークスペクトルが第１所定数未満であれば、そのピークスペクトルを、倍音スペクトルではない、すなわち、ノイズとみなすことができるスペクトルと判定する。

ノイズ減衰部１２８は、ピークパターンから倍音スペクトルを除いたパターンに対応するピークスペクトルのエネルギーを減衰する。すなわち、ノイズ減衰部１２８は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する（Ｓ３２２）。

音声判定部１３０は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する（Ｓ３２４）。

ノイズ削減部１３２は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいてノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する（Ｓ３２６）。

以上説明した音声処理方法によれば、周期性を有するノイズが含まれる場合であっても、ノイズを識別し、ノイズ環境下における様々な音声システムの信頼性および品質を確保できる。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

なお、本明細書の音声処理方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。

本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に利用することができる。

１１０ …音声処理装置
１２０ …フレーム化部
１２２ …スペクトル生成部
１２４ …ピーク検出部
１２６ …倍音判定部
１２８ …ノイズ減衰部
１３０ …音声判定部
１３２ …ノイズ削減部

Claims

入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、
前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、
前記スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、
前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、
を備えることを特徴とする音声処理装置。
前記ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する前記予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、前記予め定められた本数のスペクトルのうち、予め定められた規則に基づく１または複数のスペクトルをピークスペクトルとすることを特徴とする請求項１に記載の音声処理装置。
前記倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定することを特徴とする請求項２に記載の音声処理装置。
前記予め定められた本数のスペクトル全体の周波数帯域は、１００Ｈｚ未満の周波数帯域であることを特徴とする請求項２または３に記載の音声処理装置。
前記スペクトル生成部は、３３Ｈｚ未満の周波数分解能でスペクトルパターンを生成することを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記スペクトル生成部は、２００Ｈｚから２０００Ｈｚの範囲のスペクトルパターンを生成することを特徴とする請求項１から５のいずれか１項に記載の音声処理装置。
前記スペクトルパターンのうち、前記ピークスペクトルのうち前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
減衰された前記スペクトルパターンに基づいて、前記フレーム化入力信号が音声であるか否かを判定する音声判定部と、
をさらに備えることを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
前記スペクトルパターンのうち、前記ピークスペクトルから前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
減衰された前記スペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、
をさらに備えることを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、
前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、
前記スペクトルパターンから、ピークを有するピークスペクトルを検出し、
前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする音声処理方法。