JP6094479B2 - 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体 - Google Patents

音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP6094479B2
JP6094479B2 JP2013515245A JP2013515245A JP6094479B2 JP 6094479 B2 JP6094479 B2 JP 6094479B2 JP 2013515245 A JP2013515245 A JP 2013515245A JP 2013515245 A JP2013515245 A JP 2013515245A JP 6094479 B2 JP6094479 B2 JP 6094479B2
Authority
JP
Japan
Prior art keywords
signal
linear echo
echo
pseudo
nonlinear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013515245A
Other languages
English (en)
Other versions
JPWO2012157788A1 (ja
Inventor
宝珠山 治
治 宝珠山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2012157788A1 publication Critical patent/JPWO2012157788A1/ja
Application granted granted Critical
Publication of JP6094479B2 publication Critical patent/JP6094479B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声中のエコーを抑圧する技術に関する。
上記技術分野において、特許文献1に示されているように、エコーを抑圧する技術が知られている。この技術は、適応フィルタを用いて出力音声信号(遠端信号)から擬似線形エコー信号を生成し、入力音声信号中の線形エコー成分を抑圧した上で、さらに非線形エコー成分を抑圧する技術である。特に、入力音声信号に混在する非線形エコー信号を、擬似線形エコー信号を用いて推定することにより、比較的クリアに入力音声信号から近端音声信号を抽出している。
再公表WO09−051197号公報
しかしながら、特許文献1に記載の技術では、ステレオ音声出力で発生したエコーを適正に抑圧することはできなかった。
その理由は、特許文献1記載のエコー抑圧装置が、入力音声信号に対する出力音声信号(特許文献1では遠端信号)が、2以上ある場合を想定していないからである。
本発明の目的は、上述の課題を解決する技術を提供することにある。
本発明の一態様における装置は、
第1出力音声信号に基づいて第1音声を出力する第1音声出力手段と、
第2出力音声信号に基づいて第2音声を出力する第2音声出力手段と、
音声を入力して入力音声信号を出力する音声入力手段と、
前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成し、出力する第1擬似線形エコー生成手段と、
前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成し、出力する第2擬似線形エコー生成手段と、
前記第1擬似線形エコー生成手段および前記第2擬似線形エコー生成手段の出力に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧手段と、
前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定手段と、
前記非線形エコー推定手段によって推定された非線形エコー信号に基づいて、前記線形エコー抑圧手段が出力した信号を抑圧する非線形エコー抑圧手段と、
を備えたことを特徴とする。
本発明の一態様における方法は、
第1出力音声信号および第2出力音声信号に基づいて2つの音声出力手段から出力された第1音声および第2音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成し、出力する第1擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成し、出力する第2擬似線形エコー生成ステップと、
前記第1擬似線形エコー信号および前記第2擬似線形エコー信号の出力に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧ステップと、
前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップにおいて推定された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて出力された信号を抑圧する非線形エコー抑圧ステップと、
を含むことを特徴とする。
本発明の一態様における不揮発性媒体に記録されたプログラムは、
第1出力音声信号および第2出力音声信号に基づいて2つの音声出力手段から出力された第1音声および第2音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成し、出力する第1擬似線形エコー生成ステップと、
前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成し、出力する第2擬似線形エコー生成ステップと、
前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成し、出力する線形エコー抑圧ステップと、
前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
前記非線形エコー推定ステップにおいて推定された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて出力された信号を抑圧する非線形エコー抑圧ステップと、
をコンピュータに実行させることを特徴とする。
本発明によれば、ステレオ音声出力で発生したエコーを適正に抑圧することができる。
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 図2は、本発明の第2実施形態に係る音声処理装置の機能構成を示すブロック図である。 図3は、本発明の第2実施形態に係る音声処理装置の回路構成を示すブロック図である。 図4は、本発明の第3実施形態に係る音声処理装置の機能構成を示すブロック図である。 図5は、本発明の第3実施形態に係る音声処理装置の回路構成を示すブロック図である。 図6は、本発明の他の実施形態に係る情報処理装置の構成を示すブロック図である。 図7は、本発明のプログラムを記録した記録媒体を示す図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
(第1実施形態)
本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。音声処理装置100は、2つの音声出力部から出力される音声に起因して、発生する非線形エコー信号を抑圧する装置である。
図1に示すように、音声処理装置100は、第1音声出力部101と第2音声出力部102と音声入力部103とを含む。さらに、音声処理装置100は、第1擬似線形エコー生成部104と第2擬似線形エコー生成部105と線形エコー抑圧部106と非線形エコー推定部107と非線形エコー抑圧部108とを含む。
これらのうち、第1音声出力部101および第2音声出力部102は、それぞれ第1出力音声信号および第2出力音声信号に応じた音声を出力する。
音声入力部103は、音声を入力する。
第1擬似線形エコー生成部104は、第1音声出力部101への第1出力音声信号に基づいて、第1擬似線形エコー信号を生成し、出力する。
第2擬似線形エコー生成部105は、第2音声出力部102への第2出力音声信号に基づいて、第2擬似線形エコー信号を生成し、出力する。
線形エコー抑圧部106は、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧し、出力する。
非線形エコー推定部107は、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、非線形エコー信号を推定し、出力する。
非線形エコー抑圧部108は、非線形エコー信号を推定した結果に基づいて、線形エコー信号が抑圧された入力音声信号に混在する、非線形エコー信号を抑圧し、出力する。
以上の構成により、2つの音声入力手段を有する装置、即ちステレオ音声出力、によって発生したエコーを、適正に抑圧できる。
その理由は、以下のような構成を含むからである。即ち、第一に、第1擬似線形エコー生成部104および第2擬似線形エコー生成部105それぞれが、第1出力音声信号および第2出力音声信号それぞれに基づいて、第1擬似線形エコー信号および第2擬似線形エコー信号を生成し、出力する。第二に、線形エコー抑圧部106が、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧する。第三に、非線形エコー推定部107が、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、非線形エコー信号を推定するし、非線形エコー抑圧部108が、非線形エコー信号を抑圧し、出力する。
(第2実施形態)
次に本発明の第2実施形態に係る音声処理装置200について、図2を用いて説明する。図2は、本実施形態に係る音声処理装置200の構成を説明するための図である。
図2に示すように、音声処理装置200は、音声入力部としてのマイクロフォン203と、第1および第2音声出力部としてのスピーカ201および202と、を含む。スピーカ201および202は、それぞれ第1出力信号xR(k)および第2出力信号xL(k)に応じた音声を出力する。例えば、第1出力信号xR(k)および第2出力信号xL(k)は、ステレオ音声の信号である。この場合、スピーカ201および202は、ステレオ音声を出力する。
また、音声処理装置200は、適応フィルタ214、適応フィルタ224および加算部205を含む。適応フィルタ214および224は、それぞれ第1出力信号xR(k)および第2出力信号xL(k)を入力して、擬似線形エコー信号を生成し、出力する。加算部205は、適応フィルタ214および適応フィルタ224それぞれから出力された擬似線形エコー信号を加算し、合成擬似線形エコー信号として出力する。
音声処理装置200は、さらに、線形エコーキャンセラ206、非線形エコー推定部207、フロアリング部208、および非線形エコーサプレッサ209を備えている。加算部205で生成された合成擬似線形エコー信号は、線形エコーキャンセラ206と非線形エコー推定部207の両方に供給される。
これらのうち、線形エコーキャンセラ206は、加算部205で合成された擬似線形エコー信号を、混在信号P(k)から減算し、出力する。一方、非線形エコー推定部207は、加算部205で合成された擬似線形エコー信号に基づいて、非線形エコー信号を推定する。そして、フロアリング部208は、非線形エコー推定部207が推定した非線形エコー信号を、フロアリングし、フロアリング結果を出力する。非線形エコーサプレッサ209は、フロアリング結果に基づいて、線形エコーキャンセラ206の出力信号から、利得制御によって非線形エコー信号を抑圧し、出力する。
以上の構成は、2つのスピーカによるエコーの影響を、1つのスピーカによる線形エコーからの影響と見なして抑圧を行うという新しい発想に基づくものであり、非常にシンプルな構成で、2つのスピーカによるエコーを抑圧することができる。
次に、図3を用いて音声処理装置200の回路構成について説明する。図3は、音声処理装置200のより具体的な回路構成を示す図である。
図2でも説明したように、適応フィルタ214および適応フィルタ224それぞれは、第1出力信号xR(k)および第2出力信号xL(k)を入力して、擬似線形エコー信号を生成する。適応フィルタについての詳しい説明は米国公開公報2010−0260352A1号公報に開示されているので、ここでは省略する。
加算部205は、生成された擬似線形エコー信号を加算して合成擬似線形エコー信号を生成する。
線形エコーキャンセラ206として減算器は、マイクロフォン203によって出力された入力音声信号から合成擬似線形エコー信号を減算して、残差信号d(k)を生成し、出力する。
残差信号d(k)は、高速フーリエ変換部(Fast Fourier Transform:FFT)301に入力され、合成擬似線形エコー信号y(k)は、高速フーリエ変換部302に入力される。
音声処理装置200は、高速フーリエ変換部301、高速フーリエ変換部302、非線形エコー推定部207と、フロアリング部208と、非線形エコーサプレッサ209と、逆高速フーリエ変換部(Inverse Fast Fourier Transform:IFFT)306と、を更に備える。
高速フーリエ変換部301および302それぞれは、残差信号d(k)および擬似線形エコー信号y(k)それぞれを周波数スペクトルに変換する。
非線形エコー推定部207と、フロアリング部208と、非線形エコーサプレッサ209とは周波数成分ごとに用意されている。
逆高速フーリエ変換部306は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号zi(k)に再合成する。尚、時間領域の出力信号zi(k)は、つまり、通話相手に送る音声波形の信号である。
線形エコー信号と非線形エコー信号とはまったく違う波形であるが、周波数ごとにスペクトル振幅を見ると、擬似線形エコー信号が大きい時は非線形エコー信号も大きくなる傾向、すなわち振幅の相関がある。つまり、擬似線形エコー信号に基づいて、非線形エコー信号の量を推定することができる。
そこで、非線形エコー推定部207は、推定した非線形エコー信号の量に基づいて、所望の音声信号のスペクトル振幅を推定する。推定された音声信号のスペクトル振幅には誤差があるが、その推定誤差が主観的に不快にならないようフロアリング部208でフロアリング処理を加えている。
例えば、音声信号の推定スペクトル振幅が過剰に小さく、背景雑音のスペクトル振幅を下回る場合、エコーの有無で信号レベルが変動し、違和感を生じさせる。その対策としてフロアリング部208では、背景雑音レベルを推定して、推定スペクトル振幅の下限とすることにより、レベル変動を低減する。
一方、推定誤差により推定スペクトル振幅にエコーが大きく残留してしまった場合、残留したエコーは断続的かつ急激に変化して、ミュージカルノイズと呼ばれる、人工的な付加音となる。その対策として非線形エコーサプレッサ209は、エコーを消去するために、推定した非線形エコー信号を減算するのではなく、減算された程度の振幅になるように利得を乗じるスペクトル利得計算部として機能する。利得の急激な変化を防止する平滑化を行うことにより、残留エコーの断続的変化を抑えることができる。
以下、非線形エコー推定部207、フロアリング部208、非線形エコーサプレッサ209の内部構成について数式を用いて説明する。
高速フーリエ変換部301に入力される残差信号d(k)は、近端信号s(k)と、残留非線形エコー信号q(k)の和である。
d(k)=s(k)+q(k) ・・・(1)
適応フィルタ214、適応フィルタ224および減算器(線形エコーキャンセラ206)によって線形エコーがほぼ完全に除去されていると仮定して、非線形成分のみを周波数領域で考える。高速フーリエ変換部301および302によって、式(1)は周波数領域に変換され、以下の式となる。
D(m)=S(m)+Q(m) ・・・(2)
ここでmはフレーム番号、ベクトルD(m)、S(m)およびQ(m)それぞれは、d(k)、s(k)およびq(k)それぞれを、周波数領域に変換した表現である。各周波数を独立に考えて式(2)を変形すると、i番目の周波数では、以下の式となる。
Si(m)=Di(m)−Qi(m) ・・・(3)
適応フィルタ214、適応フィルタ224および減算器(線形エコーキャンセラ206)は相関除去を行うため、Di(m)とYi(m)の間にはほとんど相関はない。したがって、減算器
Figure 0006094479
Figure 0006094479
Figure 0006094479
の積として以下の様にモデル化できる。
Figure 0006094479
そこで、絶対値化回路272と平均化回路274とが、Yi(m)から平均エコーレプリカ
Figure 0006094479
、|Qi(m)|と|Yi(m)|との相関を示す回帰係数である。このモデルは、|Qi(m)|と|Yi(m)|との間に有意な相関があるという実験結果に基づいている。
式(3)は、ノイズ抑圧において広く用いられている加法型のモデルである。図3のスペクトル整形では、ノイズ抑圧において、不快なミュージカルノイズを生じにくい、スペクトル乗算型の構成をとる。スペクトル乗算を用いて、出力信号の振幅|Zi(m)|を、スペクトルゲインGi(m)と残差信号|Di(m)| の積として得る。
Figure 0006094479
式(6)の平方根をとり、式(3)の二乗平均をとって式(4)の|Qi(m)|にai・|Yi
Figure 0006094479
にしてもよい。そのようにすることでより一層効果的に非線形エコー信号を抑圧することができる。
Figure 0006094479
Figure 0006094479
誤差が大きく、オーバーサブトラクションがおきると、近端信号において、高域成分の減少、あるいは変調感を生じることになる。特に、近端信号が空調音のように定常である場合、変調感は不快である。この変調感を主観的に低減するために、フロアリング部208でスペクトル上のフロアリングを用いる。
フロアリング部208では、まず、平均化回路281が、近端信号Di(m)の定常成分|Ni(m)|を推定する。次に、最大値選択回路282が、定常成分|Ni(m)|を下限と
Figure 0006094479
最後に数式(5)に示したように、積算器293が、スペクトルゲインGi(m)と残差信号|Di(m)|の積を求める。こうすることで、振幅|Zi(m)|を出力信号として得ることができる。逆高速フーリエ変換部306は、振幅|Zi(m)|を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号zi(k)を出力する。
回帰係数aiは、それぞれ、スピーカから音声を出力させた場合のマイクロフォン203の入力から推定することができる。再公表2009/051197に開示されているように、状況に応じて回帰係数を更新させてもよい。
以上の構成によれば、2つのスピーカ201および202による線形エコー信号および非線形エコー信号を効果的に抑圧することが可能となる。
その理由は、適応フィルタ214および適応フィルタ224の出力を合成した、合成擬似線形エコー信号に基づいて、線形エコーキャンセラ206、高速フーリエ変換部301、高速フーリエ変換部302、非線形エコー推定部207、フロアリング部208、非線形エコーサプレッサ209および逆高速フーリエ変換部306が、エコーの抑圧を行うようにしたからである。
また、以上の構成によれば、より効率的な回路設計とすることができる。
その理由は、2つのスピーカへの第1出力信号xR(k)および第2出力信号xL(k)について、線形エコーキャンセラ206、高速フーリエ変換部301、高速フーリエ変換部302、非線形エコー推定部207、フロアリング部208、非線形エコーサプレッサ209および逆高速フーリエ変換部306を共有化しているため、
(第3実施形態)
次に本発明の第3実施形態に係る音声処理装置400について、図4および図5を用いて説明する。図4は、本実施形態に係る音声処理装置400の機能構成を説明するための図である。本実施形態に係る音声処理装置400は、上記第2実施形態の音声処理装置200と比べると、非線形エコー推定部207に替えて、非線形エコー推定部417と非線形エコー推定部427とを含む点で異なる。非線形エコー推定部417は、第1擬似線形エコー信号から第1非線形エコー信号を推定する第1非線形エコー推定手段としての機能し、非線形エコー推定部427は第2擬似線形エコー信号から第2非線形エコー信号を推定する第2非線形エコー推定手段として機能する。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
図5は、音声処理装置400の回路構成を示す図である。
音声処理装置400は、高速フーリエ変換部301、高速フーリエ変換部502および高速フーリエ変換部503を含む。また、音声処理装置400は、非線形エコー推定部507および非線形エコー推定部508と、フロアリング部208と、非線形エコーサプレッサ209と、逆高速フーリエ変換部306とを含む。
高速フーリエ変換部301は、残差信号d(k)を周波数スペクトルDi(m)に変換する。高速フーリエ変換部502および高速フーリエ変換部503は、それぞれ2つの擬似線形エコー信号y1(k)、y2(k)を周波数スペクトルYi1(m)、Yi2(m)に変換する。
非線形エコー推定部507と非線形エコー推定部508とフロアリング部208と非線形エコーサプレッサ209とは、周波数成分ごとに用意されている。
逆高速フーリエ変換部306は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号zi(k)に再合成する。尚、時間領域の出力信号zi(k)は、つまり、通話相手に送る音声波形の信号である。
非線形エコー推定部507および508は、それぞれ、推定した非線形エコー信号の量に基づいて、所望の音声信号のスペクトル振幅を推定する。
適応フィルタ214、適応フィルタ224および減算器(線形エコーキャンセラ206)は相関除去を行うため、Di(m)とYi(m)の間にはほとんど相関はない。したがって、減算器
Figure 0006094479
Figure 0006094479
非線形エコー信号|Qi1(m)|、|Qi2(m)|は、回帰係数ai1およびas2それぞれ
Figure 0006094479
ようにモデル化できる。
Figure 0006094479
そこで、絶対値化回路572と平均化回路574とが、Yi1(m)から平均エコーレプリカ
Figure 0006094479
、さらに積算部585が、回帰係数ai2を乗算する。
Figure 0006094479
とでより一層効果的に非線形エコー信号を抑圧することができる。
Figure 0006094479
変調感を主観的に低減するために、フロアリング部208でスペクトル上のフロアリングを行う。積算器293が、スペクトルゲインGi(m)と残差信号|Di(m)|の積を求めることで、振幅|Zi(m)|を出力信号として出力する。逆高速フーリエ変換部306は、振幅|Zi(m)|を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号zi(k)を出力する。
回帰係数ai1およびai2は、それぞれ、スピーカ201および202のいずれか一方からのみ音声を出力させた場合のマイクロフォン203の入力から別々に推定することができる。再公表2009/051197に開示されているように、状況に応じてこれらの回帰係数を更新させてもよい。
以上の構成によれば、第二実施形態と同様の効果を得ることができる。
その理由は、非線形エコー推定部207に替えて、非線形エコー推定部417と非線形エコー推定部427とを含むようにしたからである。
(他の実施形態)
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
以下、一例として、第2実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ600に設けられたCPU(Centoral Processing Unit)602で実行する処理の流れを、図6を用いて説明する。
まず、CPU602は、第1出力音声信号および第2出力音声信号に基づいて2つのスピーカ201および202それぞれから出力された第1音声および第2音声を、マイクロフォン203から入力して、入力音声信号を出力する(S601)。
CPU602は、マイクロフォン203に対する、スピーカ201からの音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、第1出力音声信号から生成する(S603)。
CPU602は、マイクロフォン203に対する、スピーカ202からの音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、第2出力音声信号から生成する(S605)。
CPU602は、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、入力音声信号に混在する線形エコー信号を抑圧する(S607)。
CPU602は、第1擬似線形エコー信号および第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する(S609)。そして、推定された非線形エコー信号を抑圧する(S611)。
以上の処理により、第2実施形態と同様の効果を得ることができる。
尚、入力部601は、音声入力部103およびマイクロフォン203を含んでよい。出力部603は、第1音声出力部101、第2音声出力部102、スピーカ201およびスピーカ202を含んでよい。メモリ604は、情報を記憶する。CPU602は、各ステップの動作を実行する場合に、メモリ604に必要な情報を書き込み、またメモリ604から必要な情報を読み出す。
図7は、プログラムを記録(記憶)する、記録媒体(記憶媒体)707の例を示す図である。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体である。尚、記録媒体707は、情報を一時的に記憶する記録媒体であってもよい。記録媒体707は、図6に示す動作をコンピュータ600(CPU602)に実行させるプログラム(ソフトウェア)を記録する。尚、記録媒体707は、さらに、任意のプログラムやデータを記録してよい。
上述のプログラム(ソフトウェア)のコードを記録した記録媒体707が、コンピュータ600に供給され、CPU602は、記録媒体707に格納されたプログラムのコードを読み出して実行するようにしてもよい。あるいは、CPU602は、記録媒体707に格納されたプログラムのコードを、メモリ604に格納するようにしてもよい。すなわち、本実施形態は、コンピュータ600(CPU602)が実行するプログラムを、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年5月19日に出願された日本出願特願2011−112078を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 音声処理装置
101 第1音声出力部
102 第2音声出力部
103 音声入力部
104 第1擬似線形エコー生成部
105 第2擬似線形エコー生成部
106 線形エコー抑圧部
107 非線形エコー推定部
108 非線形エコー抑圧部
200 音声処理装置
201 スピーカ
202 スピーカ
203 マイクロフォン
205 加算部
206 線形エコーキャンセラ
207 非線形エコー推定部
208 フロアリング部
209 非線形エコーサプレッサ
214 適応フィルタ
224 適応フィルタ
271 絶対値化回路
272 絶対値化回路
273 平均化回路
274 平均化回路
275 積算部
276 減算器
281 平均化回路
282 最大値選択回路
291 除算器
292 平均化回路
293 積算器
301 高速フーリエ変換部
302 高速フーリエ変換部
306 逆高速フーリエ変換部
400 音声処理装置
417 非線形エコー推定部
427 非線形エコー推定部
502 高速フーリエ変換部
503 高速フーリエ変換部
507 非線形エコー推定部
508 非線形エコー推定部
572 絶対値化回路
574 平均化回路
575 積算部
582 絶対値化回路
584 平均化回路
585 積算部
600 コンピュータ
602 CPU
707 記録媒体

Claims (7)

  1. 第1出力音声信号に基づいて第1音声を出力する第1音声出力手段と、
    第2出力音声信号に基づいて第2音声を出力する第2音声出力手段と、
    音声を入力して入力音声信号を出力する音声入力手段と、
    前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成する第1擬似線形エコー生成手段と、
    前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成する第2擬似線形エコー生成手段と、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧手段と、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定手段と、
    前記非線形エコー推定手段での推定結果にフロアリング処理を施すフロアリング手段と、
    前記非線形エコー推定手段によって推定され、前記フロアリング処理が施された非線形エコー信号に基づいて、前記線形エコー抑圧手段が生成した信号を抑圧する非線形エコー抑圧手段と、
    を備えたことを特徴とする音声処理装置。
  2. 前記第1擬似線形エコー信号と前記第2擬似線形エコー信号とを加算する加算手段をさらに有することを特徴とする請求項1に記載の音声処理装置。
  3. 前記加算手段での加算結果を、前記線形エコー抑圧手段と前記非線形エコー推定手段とに入力することを特徴とする請求項2に記載の音声処理装置。
  4. 前記非線形エコー抑圧手段は、
    前記フロアリング手段でのフロアリング結果に基づいて前記非線形エコー信号を抑圧することを特徴とする請求項1から3のいずれか一項に記載の音声処理装置。
  5. 前記非線形エコー推定手段は、
    前記第1擬似線形エコー信号から第1非線形エコー信号を推定する第1非線形エコー推定手段と、
    前記第2擬似線形エコー信号から第2非線形エコー信号を推定する第2非線形エコー推定手段と、
    を含むことを特徴とする請求項1から4のいずれか一項に記載の音声処理装置。
  6. 第1出力音声信号および第2出力音声信号に基づいて2つの音声出力手段から出力された第1音声および第2音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
    前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成する第1擬似線形エコー生成ステップと、
    前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成する第2擬似線形エコー生成ステップと、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧ステップと、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
    前記非線形エコー推定ステップでの推定結果にフロアリング処理を施すステップと、
    前記非線形エコー推定ステップにおいて推定され、前記フロアリング処理が施された非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて生成された信号を抑圧する非線形エコー抑圧ステップと、

    を含むことを特徴とする音声処理方法。
  7. 第1出力音声信号および第2出力音声信号に基づいて2つの音声出力手段から出力された第1音声および第2音声を音声入力手段で入力して、入力音声信号を出力する音声入力ステップと、
    前記音声入力手段に対する前記第1音声の回り込みにより発生したと推定される第1擬似線形エコー信号を、前記第1出力音声信号から生成する第1擬似線形エコー生成ステップと、
    前記音声入力手段に対する前記第2音声の回り込みにより発生したと推定される第2擬似線形エコー信号を、前記第2出力音声信号から生成する第2擬似線形エコー生成ステップと、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、前記入力音声信号に混在する線形エコー信号を抑圧した信号を生成する線形エコー抑圧ステップと、
    前記第1擬似線形エコー信号および前記第2擬似線形エコー信号に基づいて、非線形エコー信号を推定する非線形エコー推定ステップと、
    前記非線形エコー推定ステップでの推定結果にフロアリング処理を施すステップと、
    前記非線形エコー推定ステップにおいて推定され、前記フロアリング処理が施されたた非線形エコー信号に基づいて、前記線形エコー抑圧ステップにおいて生成された信号を抑圧する非線形エコー抑圧ステップと、
    をコンピュータに実行させることを特徴とする音声処理プログラム。
JP2013515245A 2011-05-19 2012-05-18 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体 Active JP6094479B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011112078 2011-05-19
JP2011112078 2011-05-19
PCT/JP2012/063408 WO2012157788A1 (ja) 2011-05-19 2012-05-18 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPWO2012157788A1 JPWO2012157788A1 (ja) 2014-07-31
JP6094479B2 true JP6094479B2 (ja) 2017-03-15

Family

ID=47177101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013515245A Active JP6094479B2 (ja) 2011-05-19 2012-05-18 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体

Country Status (3)

Country Link
US (1) US20140079232A1 (ja)
JP (1) JP6094479B2 (ja)
WO (1) WO2012157788A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2545263B (en) * 2015-12-11 2019-05-15 Acano Uk Ltd Joint acoustic echo control and adaptive array processing
CN107105366B (zh) * 2017-06-15 2022-09-23 歌尔股份有限公司 一种多通道回声消除电路、方法和智能设备
CN110335618B (zh) * 2019-06-06 2021-07-30 福建星网智慧软件有限公司 一种改善非线性回声抑制的方法及计算机设备
CN110246515B (zh) * 2019-07-19 2023-10-24 腾讯科技(深圳)有限公司 回声的消除方法、装置、存储介质及电子装置
JP2021184587A (ja) * 2019-11-12 2021-12-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051197A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation エコー抑圧方法及び装置
JP2010068213A (ja) * 2008-09-10 2010-03-25 Mitsubishi Electric Corp エコー消去装置
JP2010220087A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 音響処理装置およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570985B1 (en) * 1998-01-09 2003-05-27 Ericsson Inc. Echo canceler adaptive filter optimization
JP3506138B2 (ja) * 2001-07-11 2004-03-15 ヤマハ株式会社 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置
WO2003053033A1 (en) * 2001-12-14 2003-06-26 Koninklijke Philips Electronics N.V. Echo canceller having spectral echo tail estimator
US7545926B2 (en) * 2006-05-04 2009-06-09 Sony Computer Entertainment Inc. Echo and noise cancellation
NO320942B1 (no) * 2003-12-23 2006-02-13 Tandberg Telecom As System og fremgangsmate for forbedret stereolyd
US7352858B2 (en) * 2004-06-30 2008-04-01 Microsoft Corporation Multi-channel echo cancellation with round robin regularization
US7813499B2 (en) * 2005-03-31 2010-10-12 Microsoft Corporation System and process for regression-based residual acoustic echo suppression
DE602007005228D1 (de) * 2006-01-06 2010-04-22 Koninkl Philips Electronics Nv Akustischer echokompensator
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
US9160864B2 (en) * 2011-01-05 2015-10-13 Conexant Systems, Inc. Systems and methods for stereo echo cancellation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051197A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation エコー抑圧方法及び装置
JP2010068213A (ja) * 2008-09-10 2010-03-25 Mitsubishi Electric Corp エコー消去装置
JP2010220087A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 音響処理装置およびプログラム

Also Published As

Publication number Publication date
JPWO2012157788A1 (ja) 2014-07-31
WO2012157788A1 (ja) 2012-11-22
US20140079232A1 (en) 2014-03-20

Similar Documents

Publication Publication Date Title
JP4161628B2 (ja) エコー抑圧方法及び装置
JP6094479B2 (ja) 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体
EP3080975B1 (en) Echo cancellation
JP5364271B2 (ja) 変換器パラメータの最適推定装置および方法
JP5501527B2 (ja) エコー消去装置およびエコー検出装置
JP6079236B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
RU2664717C2 (ru) Способ и устройство для аудиообработки
KR101568937B1 (ko) 볼테라 필터를 이용한 비선형 반향 신호 억제 장치 및 방법
CN115278465A (zh) 啸叫抑制方法、装置、音响及扩音***
JP2016061868A (ja) 騒音抑制装置および騒音抑制方法、並びにプログラム
WO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP6070953B2 (ja) 信号処理装置、信号処理方法、及び記憶媒体
JP5438629B2 (ja) ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム
WO2012157783A1 (ja) 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体
JP6180689B1 (ja) エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
JP4504891B2 (ja) 反響消去方法、反響消去装置、プログラム、記録媒体
JP3949089B2 (ja) 反響消去方法、この方法を実施する装置、プログラム、記憶媒体
WO2012157785A1 (ja) 音声処理装置、音声処理方法及び音声処理プログラムを記録した記録媒体
JP4631933B2 (ja) エコー抑圧方法
CN115862652A (zh) 频域幅值自适应滤波器设计方法及装置、电子设备
WO2013032001A1 (ja) 音声処理装置、その制御方法および制御プログラム
JP4504892B2 (ja) 反響消去方法、反響消去装置、プログラム、記録媒体
KR101943384B1 (ko) 초지향성 스피커를 이용한 가변성 경로에 대한 능동소음 제거 시스템 및 방법
CN112309415A (zh) 自适应辨识***、自适应辨识装置及自适应辨识方法
JP2004320204A (ja) 反響消去方法、反響消去装置、反響消去プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170130

R150 Certificate of patent or registration of utility model

Ref document number: 6094479

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150