JP2012133346A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2012133346A
JP2012133346A JP2011260036A JP2011260036A JP2012133346A JP 2012133346 A JP2012133346 A JP 2012133346A JP 2011260036 A JP2011260036 A JP 2011260036A JP 2011260036 A JP2011260036 A JP 2011260036A JP 2012133346 A JP2012133346 A JP 2012133346A
Authority
JP
Japan
Prior art keywords
spectrum
peak
spectra
frequency
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011260036A
Other languages
English (en)
Inventor
Takao Yamabe
孝朗 山邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2011260036A priority Critical patent/JP2012133346A/ja
Publication of JP2012133346A publication Critical patent/JP2012133346A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】入力信号におけるノイズ成分と音声成分とを識別する。
【解決手段】音声処理装置110は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部120と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部122と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部124と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部126と、を備える。
【選択図】図4

Description

本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に関する。
音声を収音して生成した信号である入力信号には、音声が含まれる音声区間と、会話の合間や息継ぎ等により音声が含まれない非音声区間がある。例えば、音声認識装置では、音声区間と非音声区間とを特定することで、音声の認識率の向上、および、音声認識処理の効率化を図っている。また、携帯電話や無線機等を利用した移動体通信では、音声区間と非音声区間で、入力信号の符号化処理を切り換えることにより、音質を維持しつつ、圧縮率や転送効率を高めることができる。移動体通信では、リアルタイム性が要求されるため、音声区間の判定処理による遅延を抑えることが望まれる。
このような遅延を抑えた音声区間の判定処理として、例えば、入力信号のフレームにケプストラム法を用いて倍音成分を最も多く含む基本波を示す情報である調波情報を導出し、その調波情報と、そのフレームのエネルギーが閾値以上か否かを示すパワー情報とがそれぞれ音声の特徴を示すか否かで音声区間を検出したり(例えば、特許文献1)、周波数領域に展開されたスペクトルの自己相関を導出し、その相関の高さから音声区間を検出したりする技術(例えば、特許文献2)が提案されている。
特開2009−294537号公報 特開2009−69425号公報
しかし、上述した特許文献1、2等の従来の音声区間の検出技術は、ノイズが比較的低い環境では有効であるが、ノイズが大きくなると、入力信号のフレームの周波数分布の平坦さ(ピークの頻度)、ピッチ(音高)等の音声の性質が、ノイズに埋もれてしまい、音声区間の誤検出が生じ易くなる。また、ケプストラム法は、フーリエ変換を2回も行う必要があり、周波数領域上の処理負荷が高いため電力消費が多くなる。そのため、特に、移動体通信のようにバッテリ駆動を前提とする場合、ケプストラム法を用いると、電力消費を賄うため、バッテリの容量を大きくする必要があり、高コスト化や大型化を招いてしまう。
さらに、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまい誤検出が生じる場合がある。
そこで本発明は、このような課題に鑑み、入力信号におけるノイズ成分と音声成分とを識別することが可能な、音声処理装置および音声処理方法を提供することを目的としている。
上記課題を解決するために、本発明の音声処理装置は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、を備えることを特徴とする。
ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、予め定められた本数のスペクトルのうち、予め定められた規則に基づく1または複数のスペクトルをピークスペクトルとしてもよい。
倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定してもよい。
予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域であってもよい。
スペクトル生成部は、33Hz未満の周波数分解能でスペクトルパターンを生成してもよい。
スペクトル生成部は、200Hzから2000Hzの範囲のスペクトルパターンを生成してもよい。
スペクトルパターンのうち、ピークスペクトルのうち倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定する音声判定部と、をさらに備えてもよい。
スペクトルパターンのうち、ピークスペクトルから倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、をさらに備えてもよい。
上記課題を解決するために、本発明の音声処理方法は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、スペクトルパターンから、ピークを有するピークスペクトルを検出し、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする。
上述した音声処理装置における技術的思想に対応する構成要素やその説明は、当該音声処理方法にも適用可能である。
以上説明したように本発明では、入力信号におけるノイズ成分と音声成分とを識別することが可能となる。
周期性を有するノイズ信号の周波数特性図である。 周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図である。 図2に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。 音声処理装置の概略的な機能を示した機能ブロック図である。 総和エネルギーの導出を説明するための説明図である。 重心周波数を説明するための説明図である。 音声処理方法の処理の流れを示すフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
従来の音声区間の検出技術では、音声に対して、音声を収音する対象となる範囲におけるノイズである周囲ノイズ(雑音)が大きくなると、音声特性の検出が困難になり、音声区間の誤検出が生じてしまう場合がある。例えば、交通量の多い交差点、作業中の工事現場、および操業中の工場内等において、携帯電話や無線機等の移動体通信機器を用いて会話する場合、音声区間の判定が正しく行われないことがある。そのため、音声符号化処理において、音声区間を非音声区間と誤判定して、音声区間の入力信号の情報を圧縮し過ぎたり、非音声区間を音声区間と誤判定して効率的な符号化がなされなかったりして、音質の劣化を招き会話に支障をきたすことがあった。また、符号化回路を用いない場合であっても、ノイズキャンセル等の機能を有する移動体通信機器において、音声であるか否かの誤判定が生じると、正常にノイズをキャンセルできず、受話側が非常に聞き取り難い状況になることもあった。
特に、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまう誤検出が生じる場合がある。例えば、音声とノイズが双方含まれるフレームでは音声のみの場合と比較して音声信号の自己相関値が低くなり、本来音声と判定されるべきところ、非音声であると判定されてしまったり、周期性を有するノイズのみのフレームではそのノイズの周期性から音声であると誤判定されてしまったりするおそれがある。
図1は、周期性を有するノイズ信号の周波数特性図である。ここでは、走行中のレーシングカーの騒音(ノイズ)を例に挙げている。図1に示すようなノイズ信号は、音声信号ではないにも関わらず、周期性を有するピークスペクトル100が存在するため音声と誤判定される可能性がある。
図2は、周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図であり、図3は、図2に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。図2と図3を比較して理解できるように、図2の入力信号には、周期性を有するノイズ信号のピークスペクトル102と周期性を有する音声信号のピークスペクトル104とが含まれている。これらのピークスペクトルは、いずれもエネルギーが高く、エネルギーのみでは互いを区別するのは難しい。また、ノイズ信号のピークスペクトル102と音声信号のピークスペクトル104のそれぞれは周期性を有しているものの、両者は非同期であるため、時間領域または周波数領域のどちらの領域においても、自己相関値のピークは緩やかになり、自己相関値を用いても音声の検出精度が悪化する。
さらに、移動体通信のようにバッテリ駆動を前提とするシステムでは、低消費電力であることが望まれる。特に、デジタル無線では、遅延の少なさ、低処理負荷、エネルギーが高レベルなノイズの抑制が求められる。しかし、従来から用いられているケプストラム法は、比較的処理負荷が大きく電力消費が多くなってしまい、高コスト化や大型化を招く。
そこで、本実施形態では、周期性を有するノイズが含まれる場合であっても、ノイズ成分を抑制することが可能な音声処理装置について詳述し、続いて、その音声処理装置を用いた音声処理方法について説明する。
(音声処理装置110)
図4は、音声処理装置110の概略的な構成を説明するための機能ブロック図である。音声処理装置110は、フレーム化部120と、スペクトル生成部122と、ピーク検出部124と、倍音判定部126と、ノイズ減衰部128と、音声判定部130と、ノイズ削減部132とを含んで構成される。
フレーム化部120は、収音装置200が、音声を収音しデジタル信号に変換した入力信号を、予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、単に「フレーム化入力信号」という)を生成する。また、収音装置200から入力される入力信号がアナログ信号である場合、フレーム化部120の前段にADコンバーターを配置しデジタル信号に変換するとしてもよい。そして、フレーム化部120は、生成したフレーム化入力信号を順次、スペクトル生成部122に送信する。
スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に亘って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。
この実施形態において、スペクトル生成部122は、200Hzから2000Hzの範囲のスペクトルパターンを生成する。
音声の特徴を示すスペクトルであるフォルマントが他の周波数帯域よりも比較的検出し易い200Hzから1000Hz付近の周波数帯域を観察し、1000Hzの倍に当たる2000Hzを倍音検出対象の周波数帯域の上限とする。また、検出対象の周波数帯域の下限は、ノイズ成分の影響が大きくフォルマントを効率よく抽出できない200Hz未満を除き200Hzとする。ただし、200Hzや2000Hzといった境界付近の周波数を中心とする周波数帯域を分析するため、境界の前後約50Hzの周波数信号を含めた周波数分析を行うものとする。音声の第1フォルマント(基音)は、男女によって差はあるものの大凡100Hzから500Hzの間に分布する。周波数が大凡100Hzの低域では一般的にノイズのエネルギー成分が大きく音声信号が検出できない可能性がある。仮に男性で声が低く第1フォルマントの周波数が約100Hzであり、ノイズに埋もれてしまっている場合でも、第2、第3フォルマントは、比較的ノイズが小さい周波数帯域に生じるので検出し易く、フォルマントの検出が可能となる。かかる構成により、ピーク検出部124は、比較的フォルマントを検出し易い周波数帯域に絞って効率的に処理を遂行できる。
ピーク検出部124は、スペクトルパターンのうち、連続する複数のスペクトル、本実施形態においては、3つのスペクトルのエネルギーを加算して、複数のスペクトルのエネルギーの総和(以下、総和エネルギーと称す)を導出する。ピーク検出部124は、スペクトルを1つ分ずつシフトしながら、順次、総和エネルギーを導出する。
図5は、総和エネルギーの導出を説明するための説明図である。図5では、入力信号の周波数特性を模式的に示す。ピーク検出部124は、任意のスペクトル250aとそのスペクトル250aにスペクトル生成部122で生成されたスペクトルパターン上で隣接する前後のスペクトル250b、250cの総和エネルギーを導出する。次に、ピーク検出部124は、スペクトル250cとその前後のスペクトル250a、250dの総和エネルギーを導出する。このようにして、ピーク検出部124は、スペクトルパターンの周波数の範囲全体に亘って、中心のスペクトルを1つ分ずつシフトしながら、3つのスペクトルのエネルギーの総和を導出する。
そして、ピーク検出部124は、総和エネルギーを導出した後、判定対象の複数のスペクトル260aの総和エネルギーと、判定対象の複数のスペクトル260aに隣接する複数のスペクトル260bの総和エネルギーとのエネルギー比を導出する。ピーク検出部124は、総和エネルギーについては、スペクトルを1つ分ずつシフトして2つのスペクトルが常に重複するように導出したが、エネルギー比については、判定対象の複数のスペクトル260aと、判定対象の複数のスペクトル260aに隣接する複数のスペクトル260bとが同一のスペクトルを有さないように比較する。
ピーク検出部124は、導出したエネルギー比と予め定められた閾値とを比較し、導出したエネルギー比が予め定められた閾値以上の場合には、判定対象の複数のスペクトル260aをピークパターンとし、判定対象の複数のスペクトル260aの予め定められた規則に基づく1または複数のスペクトル(例えば250a)をピークスペクトルとして検出する。
音声の主要なスペクトル(第1フォルマントから第4または第5フォルマントまで)はノイズの影響がある場合でも瞬間的(フレーム単位に相当)に見れば数dBから約10dB程度のエネルギーを持つため、例えば、ノイズ成分より6dB高いスペクトルを検出できるように、閾値を2としたり、12dB高いスペクトルを検出できるように、閾値を4としたりするとよい。以下の数式1に一般的なdB換算式を示す。
…(数式1)
Ratio_E:エネルギー比(dB)
E_peak:対象の総和エネルギー
E_neighbor:隣接する総和エネルギー
このように、ピーク検出部124は、判定対象の複数のスペクトルのエネルギーの総和と、判定対象の複数のスペクトルに隣接する複数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、隣接する複数のスペクトルとのエネルギー総和の比が閾値を超えた複数のスペクトルをピークパターンとし、ピークパターンのうち予め定められた規則に基づく1または複数のスペクトル、本実施形態においては1つのスペクトルをピークスペクトルとする。なお、判定対象のスペクトルは、予め定められた本数であればよく、例えば、複数ではなく、1本であってもよい。
ここで、予め定められた規則は、例えば、複数のスペクトルが奇数の場合、複数のスペクトルのうち、周波数が中心となるスペクトルやそのスペクトルに隣接するスペクトルを選択するという規則であったり、複数のスペクトルが偶数の場合、複数のスペクトルのうち、周波数が中心に最も近い2つのスペクトルのいずれか一方や両方、その両方のスペクトルに隣接するスペクトルを選択するという規則であったりしてもよい。また、複数のスペクトル(例えば、260a)のうち、すべてのスペクトル(例えば、250a、250b、250c)をまとめて1つのピークスペクトルとして検出してもよい。
音声は声帯の振動を伴うため、ピークがある程度の帯域幅を有する、所謂揺らぎ成分が生じ、中心周波数をピークとしながらそのエネルギー成分が隣接するスペクトルにも存在することとなる。そのため、その前後のスペクトルにも、音声のエネルギー成分が含まれている可能性が高い。一方、周期性を有するノイズには、倍音構造ではあるものの音声のような揺らぎ成分を有さない、例えば、サイレン、エンジン音、突発的な打撃音などがある。このような揺らぎ成分を有さないノイズは、1つのスペクトルのみでは音声信号とエネルギー差が生じない場合もあるが、隣接するスペクトルのエネルギーを加算すると、同様に隣接するスペクトルのエネルギーを加算した音声と比較して、相対的にエネルギー成分は低くなる。ピーク検出部124が隣接する総和エネルギーを比較対象とすることで、揺らぎ成分の有無にも基づいて音声とノイズを識別でき、音声を適切に検出することが可能となる。
ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域である。
ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域幅を広くすると、周波数分解能が悪化し倍音判定が困難になる。したがって複数のスペクトル全体の周波数帯域幅は狭い程よいが、あまり狭くすると測定に要するコストが高くなる。本実施形態の倍音判定では、基音が大凡200Hz以上の周波数となるフォルマントを検出できればよい。そのため、ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域を200Hzの半分である100Hz未満とすることで、効率的にフォルマントを検出できる。この値は後述の周波数分解能の推奨値に基づいた隣接するスペクトルを含めたスペクトル全体の周波数帯域幅に相当する。
ピーク検出部124で判定されたピークスペクトルは、倍音判定部126に送られる。倍音判定部126は、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する。
一般的に、音声のスペクトルは倍音構造を有すると言われている。そのため、倍音構造となっていないピークスペクトルは、ノイズ成分とみなすことができる。倍音判定部126は、ピークスペクトルが倍音スペクトルか否かを判定することで音声信号であるかノイズ成分であるかを判定できる。そのため、本実施形態の音声処理装置110は、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。
倍音判定部126は、ピークスペクトルの中心となる周波数に基づいて倍音スペクトルを判定してもよいが、本実施形態において、倍音判定部126は、ピークスペクトルの周辺の帯域を含めた複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定する。倍音判定部126は、ピーク検出部124が検出したピークスペクトルについて、倍音構造を有するか否か(倍音スペクトルであるか否か)を判定するために、ピークスペクトルの正確な代表周波数を導出する。倍音判定部126は、以下の数式2に基づいて、総和エネルギーを導出した複数のスペクトル(数式2におけるSpectrum(N−j)〜Spectrmu(N+j))を用いて、その複数のスペクトル全体の周波数帯域内のエネルギーの割合で重み付けを行い、重心となる周波数である重心周波数を導出し代表周波数とする。
…(数式2)
Freq(N):Specrum(N)を中心とする帯域から求めた重心周波数
E_r(i):Spectrum(N−j)〜Spectrum(N+j)におけるエネルギー量を占める割合
Spec_freq(i):Spectrum(i)の周波数代表値(中心周波数)
N:スペクトルの位置を示すナンバー
j:Spectrum(N)を中心とした帯域に含まれる前後のスペクトル数
図6は、重心周波数を説明するための説明図である。図6では、入力信号の周波数特性を模式的に示す。ここでは、スペクトル270a〜270cは、周期性を有し揺らぎ成分を持ったフォルマントに対応する音声のスペクトルであり、スペクトル272a〜272cは、揺らぎ成分を持たず周期性を有するノイズのスペクトルであるものとする。
図6に示すように、音声のスペクトル270a〜270cは、揺らぎ成分を有するため、中心のスペクトル270aの前後のスペクトル270b、270cも比較的高いエネルギーを有する。そのため、倍音判定部126は、周波数分解能が低く、1つのピークスペクトルのみでは真のピーク位置を特定し難い場合であっても、上述した数式2に基づいて重心周波数280aを導出することで、複数のサンプルによって最もエネルギーが高い、スペクトルパターンの包括線の山に相当するスペクトル(以下、単に「山に相当するスペクトル」と称す)の頂点となる周波数を高精度に推定できる。
一方、揺らぎ成分を持たないノイズのスペクトル272a〜272cは、中心のスペクトル272aのみが比較的高いエネルギーを有し、その前後のスペクトル272b、272cのエネルギーは、近傍のスペクトルのエネルギーと変わらない。そのため、上述した数式2に基づいて重心周波数280bを導出しても、中心のスペクトル272aの周波数とほとんど同じ値となってしまい、周波数分解能によっては導出される周波数の真のピーク位置からの誤差が大きくなる。従って、ピークスペクトルの重心周波数280bを導出して倍音になっているか判定することで、揺らぎ成分を持たないノイズのスペクトル272a〜272cの場合は倍音構造の誤差範囲に入らないこととなる。すなわち、ノイズのスペクトルについては倍音関係が成り立っていないと判定されることとなる。
倍音判定部126は、導出した重心周波数を、低域から順次抽出し、抽出した重心周波数より高域のすべての重心周波数とそれぞれ倍音関係が成り立つか否かを判定し、抽出した重心周波数と倍音関係が成り立つ重心周波数が予め定められた数(以下、第1所定数と称す)以上、存在する場合、その重心周波数を導出したピークスペクトル(倍音スペクトル)を音声のスペクトルとみなす。また、倍音関係が成り立つ重心周波数が第1所定数未満であったスペクトルは、音声でないすなわち、ノイズのスペクトルとみなすことができる。
ここで、倍音判定部126は、周波数分解能の半分程度の周波数のずれは誤差範囲とする。このような許容する誤差範囲を設けることで、ノイズ成分の影響や、音声の揺らぎの影響を判定結果に反映する。
倍音判定部126は、倍音構造が成り立っているか否かを、抽出した低域の重心周波数の倍数にあたる周波数において、許容される誤差範囲に入っているか否かで判断する。すなわち、上述した揺らぎ成分の有無によって、音声のスペクトルはノイズのスペクトルと比較して正確にピーク位置が把握されるので、倍音構造と判定されやすい。したがって倍音判定によって非倍音を排除できる場合がある。
倍音判定部126で判定された結果は、ノイズ減衰部128に送られる。ノイズ減衰部128は、ピークパターンから倍音スペクトルを除いたパターンに対応するエネルギーを減衰する。すなわち、ノイズ減衰部128は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する。例えば、ノイズ減衰部128は、ノイズとみなすことができるピークスペクトルを中心とする複数(例えば3つ)のスペクトル全体のエネルギーを減衰する。具体的に、ノイズ減衰部128は、ノイズとみなすことができるピークスペクトルのエネルギーを、スペクトルパターンの包括線の谷に相当するスペクトル(以下、単に「谷に相当するスペクトル」と称す)のうち、そのピークスペクトルの周波数に近い帯域の平均エネルギーと同程度になるようにするとよい。この平均エネルギーは定常的なノイズのエネルギーに相当するとみなすことができ、ノイズ減衰部128は、この平均エネルギーを用いることで、ノイズとみなすことができるピークスペクトルのエネルギーを過度に減衰させてしまい音声の音質を低下させてしまう事態を回避することが可能となる。
音声判定部130は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する。
このように、ノイズ減衰部128がノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、音声判定部130が音声判定の処理を行うことで、周期性を有するノイズの影響を低減し、精度よく音声判定の処理を行うことができる。例えば、外部装置である符号化回路では、音声判定部130の音声判定結果を用いて、音声区間と非音声区間で、入力信号の符号化処理を切り換え、音質を維持しつつ、圧縮率や転送効率を高めることができる。
エネルギー減衰されたスペクトルパターンは、ノイズ減衰部128からノイズ削減部132に対しても送られる。ノイズ削減部132は、例えば、スペクトラム・サブトラクション法等の手段を用いて、ノイズ減衰部132から出力されたピークパターンからノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する。削減量は上述のように周囲のノイズ成分と同レベルとなるように調整することで、周波数逆変換後の量子化ノイズを抑える事ができ音質劣化に与える影響を少なくすることができる。
このように、予めノイズ減衰部128でノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、ノイズ削減部132がノイズ成分の削減処理を行うため、周期性を有するノイズの影響を抑制し、ノイズ削減の精度を向上することができる。本実施形態の音声処理装置110は、上述した、ノイズ減衰部128と、音声判定部130またはノイズ削減部132を備えるため、例えば、携帯電話や無線機等の移動体通信機器に搭載することで、音声の明瞭性を向上することが可能となる。
上述したように、倍音判定部126は、ピークスペクトルが倍音スペクトルか否かを判定することでノイズ成分か否かを判定できる。従って、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。
また、ノイズ減衰部128は、この周期性を有するノイズ成分を抑制することができ、例えば、音声認識に用いる音声区間判定処理の精度が向上する。また、音声処理装置110は、音声強調処理、ノイズリダクション等のノイズ抑制処理を行う機能を備えることで、本実施形態の周期性を有するノイズ成分を抑制する機能を効果的に応用できる。そのため、音声処理装置110は、例えば、大きな遅延が許容されない移動体通信や、その他、ノイズの影響により実用性に乏しかった環境下においても、音声を明瞭化することができ、音声分析や情報伝達を行う機器への応用が可能となる。
(音声処理方法)
次に、上述した音声処理装置110を用いて入力信号を分析する音声処理方法を説明する。
図7は、音声処理方法の全体的な流れを示したフローチャートである。入力信号の入力がある場合(S300におけるYES)、フレーム化部120は、音声処理装置110が取得したデジタル入力信号を、所定のフレーム単位で順次切り出し、フレーム化入力信号を生成する(S302)。そして、スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換してスペクトルパターンを生成する(S304)。
このとき、スペクトル生成部122は、33Hz未満の周波数分解能でスペクトルパターンを生成する。換言すれば、周波数分解能の推奨値は、33Hz未満となる。
すなわち、山に相当するスペクトルと、その近傍にある、谷に相当するスペクトルとのエネルギー比で、フォルマントを検出するためには、周波数上で見た音声における標準的なフォルマントの間隔の半分以下の周波数分解能が必要となる。例えば、標準的な男性の声の場合に多い、第1フォルマントが200Hz程度とするならば、倍音は400Hz、600Hzに現れる。従って、これらのフォルマントを検出するには、山と谷を判別可能な100Hz程度の帯域幅で観察するとよい。
例えば、ピーク検出部124が隣接する3つのスペクトルの総和を比較してピークスペクトルを検出する場合、倍音構造と揺らぎ成分を有す音声と、倍音構造は有するが揺らぎ成分を有さないノイズとの識別を容易とするためには、ピークスペクトルのうち、ノイズ成分は1つのスペクトルに相当する周波数帯域(すなわち周波数分解能)に包含でき、音声成分は3つのスペクトルに相当する周波数帯域に包含できるとよい。ノイズのピークスペクトルは狭い帯域幅に含まれることが多いため、周波数分解能を33Hz未満とし、さらに複数のスペクトルをまとめて音声スペクトルのエネルギーとすることで、ノイズのスペクトルの持つエネルギーを相対的に低くする効果があり、音声のスペクトルを高精度に検出できる。
具体的に、ピーク検出部124が、200Hzから400Hzまでの帯域についてピークスペクトルを検出する処理に着目して説明する。例えば、250Hzから350Hzを谷に相当するスペクトルの帯域、150Hzから250Hz、および350Hzから450Hzを山に相当するスペクトルの帯域としてエネルギー比を求めれば音声のスペクトルのピークを検出できる。すなわち、複数のスペクトル全体の帯域幅は、100Hz程度でよいことになる。
したがって、ピーク検出部124が隣接する3つのスペクトルの総和を比較してピークスペクトルを検出する場合、周波数分解能は100Hzの1/3に当たる約33Hz以下とするとよい。検出対象とするフォルマントの基音の周波数を200Hzより高い周波数帯域とすればさらに周波数分解能を下げる(スペクトルの帯域幅を広くとる)ことも可能である。
続いて、ピーク検出部124は、スペクトルパターンのうち、連続する複数のスペクトルのエネルギーを加算して、複数のスペクトルの総和エネルギーを導出する(S306)。ピーク検出部124は、スペクトルパターンの周波数の範囲のすべてのスペクトルについて、総和エネルギーを導出したか否かを判定し(S308)、まだ総和エネルギーを導出していないスペクトルがあれば(S308におけるNO)、総和エネルギー導出ステップS306に戻る。そして、ピーク検出部124は、スペクトルを1つ分ずつシフトしながら、順次、総和エネルギーを導出する。
すべてのスペクトルについて総和エネルギーを導出すると(S308におけるYES)、ピーク検出部124は、判定対象の複数のスペクトルの総和エネルギーと、判定対象の複数のスペクトルに隣接する複数のスペクトルの総和エネルギーとのエネルギー比を導出する(S310)。
そして、ピーク検出部124は、導出したエネルギー比が閾値を超えているか否かを判定する(S312)。エネルギー比が第1閾値を超えていると(S312におけるYES)、ピーク検出部124は、判定対象の複数のスペクトルをピークパターンとし、判定対象の複数のスペクトルのうち1つをピークスペクトルとして検出する(S314)。第1閾値は例えば、上述したように山と谷のスペクトルのエネルギー比(Rait E)12dBとするが、扱いやすいようにエネルギー比(E peak/E neighbor)で考えると、第1閾値は4とする。ここで、判定対象の複数のスペクトルと判定対象の複数のスペクトルに隣接する複数のスペクトルとは、図5を用いて説明したように隣接しつつも重複しない。
ピーク検出部124は、すべてのスペクトルについて、ピークスペクトルへの選定を終了したか否かを判定する(S316)。すべてのスペクトルについて、ピークスペクトルへの選定を終了していない場合(S316におけるNO)、エネルギー比導出ステップS310に戻る。すべてのスペクトルについて、ピークスペクトルへの選定を終了すると(S316におけるYES)、倍音判定部126は、ピーク判定部124で選定されたピークスペクトルについて、上述した数式2に基づいて、重心周波数を導出して代表周波数とする(S318)。
続いて、倍音判定部126は、導出した重心周波数に基づいて、ピークスペクトルそれぞれが、倍音スペクトルか否か、すなわち、倍音構造を有するか否かを判定する(S320)。ここでは、倍音検出手段として、例えば、2通りの手段を例にあげる。
1例目は、すべてのピークスペクトルから総和エネルギーが高い順に予め定められた数のピークスペクトルを抽出して倍音判定を行う手段である。代表周波数が400Hz以上の代表周波数として導出されたピークスペクトルは、倍音にあたる可能性がある。このため、倍音判定部126は、その周波数の1/3倍、1/2倍、2倍音、3倍、・・・の周波数に相当する帯域に、他のピークスペクトルが存在するか否かを判定する。そして、倍音判定部126は、1箇所のピークスペクトルに対して複数(例えば、3箇所以上)の倍音とみなされるピークスペクトルが存在すると、それら一連のピークスペクトルを音声のスペクトルとみなし、以降の倍音判定処理の対象から除外する。
また、エネルギー成分が高いピークスペクトルの代表周波数が600Hz以上であれば、3倍音(またはその前後の倍音)の可能性があり、同様に800Hz以上であれば4倍音(またはその前後の倍音)の可能性がある。したがって、ピークパターンのうち、代表周波数が高いピークスペクトルほど、その代表周波数を整数で除算した周波数を代表周波数とするピークスペクトルの存在の判定処理を、除算する整数の範囲を拡大して行う。
この例では、総和エネルギーが高い順に倍音判定を行うが、一度、倍音構造を有すると判定されたピークスペクトルは、以降の倍音判定においては判定対象から除外されるため、総和エネルギーが高い、上位の例えば3つ程度のピークスペクトルについて倍音判定を行えば、大凡音声のスペクトルを検出し終える。
2例目は、すべてのピークスペクトルから代表周波数が低い順に予め定められた数のピークスペクトルを、抽出して倍音判定を行う手段である。1例目では、代表周波数が例えば約300Hzから600Hz程度の中域の場合、中域の代表周波数に対して低域にも高域にも倍音関係のスペクトルが存在する可能性があるため、どちらも判定しなければならなかったが、2例目では、倍音判定部126は、すべてのピークスペクトルのうち、代表周波数が低いピークスペクトルについて、倍音判定を行うため、その代表周波数の倍音に相当する代表周波数の存在を判定すればよい。ただし、フォルマントのエネルギーは低域の方が高い傾向にあるものの、周囲のノイズに対して必ず高いエネルギーを有するとは限らないため、より確実に倍音判定を行うために、倍音判定部126は、初めに抽出するピークスペクトルの数を1例目より多くするとよい。
この倍音判定処理において、倍音判定部126は、周波数の許容する誤差幅を、最大で周波数分解能の半分とし、その範囲であれば倍音関係にあると判定する。
そして、倍音判定部126は、倍音関係となるピークスペクトルが第1所定数未満であれば、そのピークスペクトルを、倍音スペクトルではない、すなわち、ノイズとみなすことができるスペクトルと判定する。
ノイズ減衰部128は、ピークパターンから倍音スペクトルを除いたパターンに対応するピークスペクトルのエネルギーを減衰する。すなわち、ノイズ減衰部128は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する(S322)。
音声判定部130は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する(S324)。
ノイズ削減部132は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいてノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する(S326)。
以上説明した音声処理方法によれば、周期性を有するノイズが含まれる場合であっても、ノイズを識別し、ノイズ環境下における様々な音声システムの信頼性および品質を確保できる。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
なお、本明細書の音声処理方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。
本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に利用することができる。
110 …音声処理装置
120 …フレーム化部
122 …スペクトル生成部
124 …ピーク検出部
126 …倍音判定部
128 …ノイズ減衰部
130 …音声判定部
132 …ノイズ削減部

Claims (9)

  1. 入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、
    前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、
    前記スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、
    前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、
    を備えることを特徴とする音声処理装置。
  2. 前記ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する前記予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、前記予め定められた本数のスペクトルのうち、予め定められた規則に基づく1または複数のスペクトルをピークスペクトルとすることを特徴とする請求項1に記載の音声処理装置。
  3. 前記倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定することを特徴とする請求項2に記載の音声処理装置。
  4. 前記予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域であることを特徴とする請求項2または3に記載の音声処理装置。
  5. 前記スペクトル生成部は、33Hz未満の周波数分解能でスペクトルパターンを生成することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6. 前記スペクトル生成部は、200Hzから2000Hzの範囲のスペクトルパターンを生成することを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
  7. 前記スペクトルパターンのうち、前記ピークスペクトルのうち前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
    減衰された前記スペクトルパターンに基づいて、前記フレーム化入力信号が音声であるか否かを判定する音声判定部と、
    をさらに備えることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
  8. 前記スペクトルパターンのうち、前記ピークスペクトルから前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
    減衰された前記スペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、
    をさらに備えることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
  9. 入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、
    前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、
    前記スペクトルパターンから、ピークを有するピークスペクトルを検出し、
    前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする音声処理方法。
JP2011260036A 2010-11-30 2011-11-29 音声処理装置および音声処理方法 Pending JP2012133346A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011260036A JP2012133346A (ja) 2010-11-30 2011-11-29 音声処理装置および音声処理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010267250 2010-11-30
JP2010267250 2010-11-30
JP2011260036A JP2012133346A (ja) 2010-11-30 2011-11-29 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2012133346A true JP2012133346A (ja) 2012-07-12

Family

ID=46092119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011260036A Pending JP2012133346A (ja) 2010-11-30 2011-11-29 音声処理装置および音声処理方法

Country Status (3)

Country Link
US (1) US8818806B2 (ja)
JP (1) JP2012133346A (ja)
CN (1) CN102479505B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013132959A1 (ja) * 2012-03-09 2013-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音抑制方法、プログラム及び装置
JP2015096921A (ja) * 2013-11-15 2015-05-21 キヤノン株式会社 音響信号処理装置および方法
US10438608B2 (en) 2017-06-16 2019-10-08 Icom Incorporated Noise suppression circuit, communication device, noise suppression method, and non-transitory computer-readable recording medium storing program

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
US9087513B2 (en) 2012-03-09 2015-07-21 International Business Machines Corporation Noise reduction method, program product, and apparatus
CN103544961B (zh) * 2012-07-10 2017-12-19 中兴通讯股份有限公司 语音信号处理方法及装置
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9373336B2 (en) 2013-02-04 2016-06-21 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
CN104778949B (zh) * 2014-01-09 2018-08-31 华硕电脑股份有限公司 音频处理方法及音频处理装置
JP6274872B2 (ja) * 2014-01-21 2018-02-07 キヤノン株式会社 音処理装置、音処理方法
JP6136995B2 (ja) * 2014-03-07 2017-05-31 株式会社Jvcケンウッド 雑音低減装置
JP6160519B2 (ja) * 2014-03-07 2017-07-12 株式会社Jvcケンウッド 雑音低減装置
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN104093079B (zh) 2014-05-29 2015-10-07 腾讯科技(深圳)有限公司 基于多媒体节目的交互方法、终端、服务器和***
GB201506046D0 (en) * 2015-04-09 2015-05-27 Sinvent As Speech recognition
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
CN109993977A (zh) * 2017-12-29 2019-07-09 杭州海康威视数字技术股份有限公司 检测车辆鸣笛的方法、装置以及***
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112037814B (zh) * 2020-08-20 2024-01-30 北京达佳互联信息技术有限公司 一种音频指纹的提取方法、装置、电子设备及存储介质
CN112634929B (zh) * 2020-12-16 2024-07-23 普联国际有限公司 一种语音增强方法、装置及存储介质
CN112863517B (zh) * 2021-01-19 2023-01-06 苏州大学 基于感知谱收敛率的语音识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301594A (ja) * 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
JP2002516420A (ja) * 1998-05-21 2002-06-04 ユニバーシティ オブ サリー 音声コーダ
JP2007127761A (ja) * 2005-11-02 2007-05-24 Yamaha Corp 会話区間検出装置及び会話区間検出プログラム
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611196B2 (en) * 1998-03-20 2003-08-26 Xerox Corporation System and method for providing audio augmentation of a physical environment
US7424430B2 (en) * 2003-01-30 2008-09-09 Yamaha Corporation Tone generator of wave table type with voice synthesis capability
JP5068653B2 (ja) * 2004-09-16 2012-11-07 フランス・テレコム 雑音のある音声信号を処理する方法および該方法を実行する装置
US8219392B2 (en) * 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
JP4885812B2 (ja) 2007-09-12 2012-02-29 シャープ株式会社 音楽検出装置
JP5081730B2 (ja) 2008-06-06 2012-11-28 株式会社レイトロン 音声区間検出装置および音声区間検出方法
JP5141542B2 (ja) * 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301594A (ja) * 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
JP2002516420A (ja) * 1998-05-21 2002-06-04 ユニバーシティ オブ サリー 音声コーダ
JP2007127761A (ja) * 2005-11-02 2007-05-24 Yamaha Corp 会話区間検出装置及び会話区間検出プログラム
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JPN6014054109; Kuldip K. Paliwal: 'Spectral Subband Centroid Features for Speech Recognition' Proc. ICASSP 1998 Vol.2, 19980512, pp.617-620, IEEE *
JPN6014054110; Jounghoon Beh, et al.: 'A Novel Spectral Subtraction Scheme for Robust Speech Recognition: Spectral Subtraction using Spectr' Proc. ICME 2003 Vol.3, 20030706, pp.633-636, IEEE *
JPN6014054111; Takashi Fukuda, et al.: 'Long-Term Spectro-Temporal and Static Harmonic Features for Voice Activity Detection' IEEE Journal of Selected Topics in Signal Processing Vol.4, No.5, 20100826, pp.834-844, IEEE *
JPN7014003727; Yanmeng Guo, et al.: 'Robust Voice Activity Detection Based on Adaptive Sub-band Energy Sequence Analysis and Harmonic Det' Proc. Interspeech 2007 , 20070827, pp.2949-2952, ISCA *
JPN7014003728; Douglas Ealey, et al.: 'Harmonic Tunnelling: Tracking Non-Stationary Noises during Speech' Proc. Eurospeech 2001 , 20010903, pp.437-440, ISCA *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013132959A1 (ja) * 2012-03-09 2013-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音抑制方法、プログラム及び装置
GB2513812A (en) * 2012-03-09 2014-11-05 Ibm Noise alleviation method, program, and device
GB2513812B (en) * 2012-03-09 2015-07-29 Ibm Noise reduction method, program product, and apparatus
JP2015096921A (ja) * 2013-11-15 2015-05-21 キヤノン株式会社 音響信号処理装置および方法
US10438608B2 (en) 2017-06-16 2019-10-08 Icom Incorporated Noise suppression circuit, communication device, noise suppression method, and non-transitory computer-readable recording medium storing program

Also Published As

Publication number Publication date
US20120136655A1 (en) 2012-05-31
CN102479505B (zh) 2015-11-25
US8818806B2 (en) 2014-08-26
CN102479505A (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
JP2012133346A (ja) 音声処理装置および音声処理方法
JP5874344B2 (ja) 音声判定装置、音声判定方法、および音声判定プログラム
US8600073B2 (en) Wind noise suppression
US11430461B2 (en) Method and apparatus for detecting a voice activity in an input audio signal
CN101430882B (zh) 一种抑制风噪声的方法及装置
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US8116463B2 (en) Method and apparatus for detecting audio signals
US8463607B2 (en) Noise detection apparatus, noise removal apparatus, and noise detection method
EP2828856B1 (en) Audio classification using harmonicity estimation
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
WO2013164029A1 (en) Detecting wind noise in an audio signal
WO2014094242A1 (en) Method and apparatus for mitigating feedback in a digital radio receiver
CN104637489A (zh) 声音信号处理的方法和装置
CN104981870B (zh) 声音增强装置
CN106816157A (zh) 语音识别方法及装置
CN103310800A (zh) 一种抗噪声干扰的浊语音检测方法及***
CN111477246B (zh) 语音处理方法、装置及智能终端
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
US9330674B2 (en) System and method for improving sound quality of voice signal in voice communication
JP5193130B2 (ja) 電話音声区間検出装置およびそのプログラム
JP6305273B2 (ja) 評価値算定方法及び空間特性設計方法
JP4346501B2 (ja) 受信装置
CN115295022A (zh) 语音评估方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150804