JP6111795B2 - 信号処理装置、及び信号処理方法 - Google Patents

信号処理装置、及び信号処理方法 Download PDF

Info

Publication number
JP6111795B2
JP6111795B2 JP2013070337A JP2013070337A JP6111795B2 JP 6111795 B2 JP6111795 B2 JP 6111795B2 JP 2013070337 A JP2013070337 A JP 2013070337A JP 2013070337 A JP2013070337 A JP 2013070337A JP 6111795 B2 JP6111795 B2 JP 6111795B2
Authority
JP
Japan
Prior art keywords
signal
frame
speech speed
speed conversion
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013070337A
Other languages
English (en)
Other versions
JP2014194457A (ja
Inventor
遠藤 香緒里
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013070337A priority Critical patent/JP6111795B2/ja
Priority to EP14150801.0A priority patent/EP2784778B1/en
Priority to US14/157,601 priority patent/US9129594B2/en
Priority to CN201410042005.0A priority patent/CN104078049B/zh
Publication of JP2014194457A publication Critical patent/JP2014194457A/ja
Application granted granted Critical
Publication of JP6111795B2 publication Critical patent/JP6111795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本発明は、信号処理装置、及び信号処理方法に関する。
通話を目的とした電話機などの全二重の送受信機では、マイクロフォンとスピーカを備えている。この場合、スピーカから出力された音をマイクロフォンが拾い、この音がネットワークを経由してスピーカから出力されることによって、エコーが発生することがある。このエコーを音響エコーと呼ぶ。この音響エコーを防止する処理を音響エコーキャンセルと呼ぶ。そして、音響エコーキャンセルを行う処理をつかさどる処理部を音響エコーキャンセラと呼ぶ。
通常の固定電話機、又は携帯電話において、ハンズフリー機能を用いた場合には、スピーカからマイクロフォンへの音の回り込みの量がより大きくなる。このため、明瞭な通話を実現するために、音響エコーキャンセルを行うことが非常に重要となる。電話会議用のシステムなどにおいても同様である。また、通常の固定電話機、又は携帯電話においても、スピーカ等からマイクロフォンへの音声の回り込みが発生するため、音響エコーキャンセルの処理を行うことは重要である。
音響エコーキャンセルの処理には、音声信号を時間領域で処理する方式と、音声信号を周波数領域の信号に変換して処理する方式等が存在する。現在の電話機では、マイクロフォンで検出された音声信号は、AD変換部によりディジタル信号に変換され、その後、ディジタル処理されるのが普通である。この場合の音響エコーキャンセラは、ディジタル信号を時間領域から周波数領域に変換した信号を用いるのが一般的である。
また、電話機には、通話相手の音声の音程を維持しつつそのスピードを遅く、或いは速くする話速変換機能を搭載したものがある。電話機の用途においては、話し相手の話の内容を聞き取りやすくするため、主として音声のスピードを遅くする話速変換が利用される。この話速変換は、通常、時間領域で処理される。
このように、電話機においては、その他の処理も含めて、時間領域での処理を必要とするものと、周波数領域での処理を必要とするものとが複数存在する。この場合、サンプリングされたディジタル信号の複数のサンプリング値を1つのフレームとし、フレーム単位でのディジタル処理が行われることが多い。そして、フレーム単位で、時間領域の信号のフレームから周波数領域の信号のフレームに変換する時間周波数変換、及び、周波数領域の信号のフレームから時間領域の信号のフレームに変換する周波数時間変換が利用されている。
図1は、電話機の機能ブロック図の一例を示している。受話音信号100は、受話音信号の周波数領域の信号であり、AGC処理、ノイズ除去処理、音声強調処理等の加工処理(何れも不図示)を経た信号であってもよい。
周波数時間変換部110は、周波数領域の受話音信号100を時間領域の信号111に変換し、話速変換部112に与える。話速変換部112は、時間領域の信号111に話速変換処理を施し、時間領域の話速変換後の信号113を出力し、スピーカ114に与えると共に、時間周波数変換部108にも与える。
時間周波数変換部108は、時間領域の話速変換後の信号113を、周波数領域の信号109Aに変換し、音響エコーキャンセラ106に与える。
スピーカ114から出力されたアナログ音響信号120は、空気中及び電話機の筐体などを通じてマイクロフォン102に到達する。マイクロフォン102は、スピーカ114からのアナログ音響信号120の一部を、ディジタルの時間領域の送話音信号103に変換する。なお、AD変換部、DA変換部、及び増幅部等は、簡略化のため図示していない。
時間周波数変換部104は、時間領域の送話音信号103を周波数領域の送話音信号105に変換し、音響エコーキャンセラ106に与える。
ここで、話速変換部112から、スピーカ114と、マイクロフォン102と、時間周波数変換部104とを介し、音響エコーキャンセラ106に至る信号伝達経路には、所定の伝達特性が存在する。周波数領域の送話音信号105には、時間領域の話速変換後の信号113に伝達特性を考慮した信号が混入している。この混入した信号が音響エコーの原因となる。
音響エコーキャンセラ106は、例えば、この混入した信号を打ち消すように、周波数領域の信号109Aと、伝達特性を基にした周波数領域における適応フィルタ(不図示)を用いることによって、周波数領域の送話音信号105の処理を行う。この処理によって、音響エコーの発生が抑制される。音響エコーキャンセラ106は、音響エコーを抑止した周波数領域の送話音信号130を出力する。
なお、電話回線を介して到来する通話相手の音声信号の時間軸を変更する話速変換手段と、側音信号(エコー)を消去するエコーキャンセラ部とを備え、話速変換部の前段に設けられたエコーキャンセラ部によって側音を除去し、側音が話速変換部に到達しないようにし、話者が話速変換された側音によって喋り難くなることを防止する技術が存在する(例えば、特許文献1参照)。
また、入力信号の適応的話速変換を行う話速変換装置であって、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換の倍率を決定して話速変換を行う話速変換倍率決定部と、を備える技術が存在する。この技術では、背景音と音声が混合している入力信号に対しても、安定して話速変換が行える(例えば、特許文献2参照)。
特開2001−16319号公報 特開2011−33789号公報
上述のように、音響エコーキャンセラの処理において、周波数領域の信号が必要な方式を採用した場合、話速変換後の時間領域の信号を周波数領域の信号に変換する処理を行わなければならない。話速変換処理の前まで周波数領域の信号が存在しても、この周波数領域の信号は、話速変換のために時間領域の信号に変換される。したがって、話速変換後の信号の周波数領域の信号を音響エコーキャンセラに提供するためには、再度時間周波数変換によって、話速変換後の信号の周波数量域への変換処理が必要となる。これは、信号を変換するために多くのリソースを必要とすることを意味する。
本実施形態は、上述のような信号処理におけるリソースの消費を低減させることを目的とする。
一実施形態によれば、音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理装置であって、前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取る第1の受取部と、フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取る第2の受取部と、前記信号処理装置が処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する、周波数領域フレーム合成部と、を有する、信号処理装置が提供される。
本実施形態により、一側面では、信号処理におけるリソースの消費を低減させることができる。
話速変換処理と実施形態との関係を説明する図である。 話速変換処理における信号処理と、本発明の実施形態との関係を示す図である。 一実施形態の機能ブロック図である。 一実施形態の詳細な機能ブロック図である。 一実施形態のハードウェア構成図である。 一実施形態の移動端末の構成図である。 一実施形態の方法の概略を示すフローチャートである。 一実施形態の周波数領域信号の推定方法を示すフローチャートである。
以下、図面を参照しながら、実施形態について説明する。同じ対象には、異なる図においても同じ参照番号が付されていることに留意すべきである。
図2は、話速変換処理における信号処理と、本発明の実施形態との関係を示している。
実施形態におけるディジタルの信号処理では、所定の数のディジタル値を1つのフレームとして処理してもよい。たとえば、8kHzのサンプリング周波数で、音響信号のデータをサンプリングし、160サンプルを1フレームとして処理してもよい。この場合は、1フレームが、20mSecとなる。データの各種の処理は、フレーム単位に行うことができる。また、256サンプルのデータを時間周波数変換すると、サンプリング定理により、128個の周波数ビン(スペクトル)を持つ周波数領域の信号に変換され得る。また、下記に説明する時間周波数変換、及び周波数時間変換は、例えばフーリエ変換(FFT)、及び逆フーリエ変換(IFFT)を用いることができる。なお、変換は、フーリエ変換に限られない。
また、以下の説明では、各種の信号処理は、フレームを単位として順次処理される。なお、信号が停滞すること無く処理されるようにするため、全ての信号処理に要する時間は、1フレームの時間未満になるように設計することが望ましい。なお、1つのフレームが処理される時刻は、各処理において異なるが、図においては、同じフレーム番号のフレームは、分かりやすいように同じ縦位置に整列した形で示されている点に留意すべきである。
なお、本明細書では、時間領域の信号を時間周波数変換した情報を周波数領域の信号と呼ぶ。また、所定の数のサンプリングデータを含む1つのフレームを時間領域の信号のフレームと呼ぶ。そして、この時間領域の信号のフレームを時間周波数変換した後の信号を、周波数領域の信号のフレームと呼ぶ。
図2において、最上段のフレーム番号210は、各フレームに付された番号を示している。音声判定220は、例えば、話速変換部112において実行されてもよい。回線を経由して受信した受話音信号が音声と判断された場合には「S」、音声以外のノイズなどの無音声と判断された場合には「N」と判断される。
このように、音声であるか否かを判断するのは、話速変換部112において、音声の受話音信号部分を伸張し、音声以外の信号部部分は、必要に応じてカット(又は圧縮)する処理を行う。このようにして、話速変換部112は、単語間の無音声部分を圧縮することで、音声部分により伸張された時間を吸収する。音声判定220は、当業者に知られている音声検出の技法を用いればよい。
音声と判断された受話音信号部分は、予め定められた伸張倍率に近い倍率で伸張される。話速変換技術としては、例えば、PICOLA法、STRAIGHT法など、種々の技術が提案されている。本実施形態では、当業者に知られている既知の話速変換技術を用いることができる。このため、話速変換技術についての説明は、本明細書において省略する。
図2に示す受話音信号100は、周波数領域の信号である。通信回線から受信された信号は、周波数領域において種々の信号処理(例えば、不図示のAGC処理、強調処理、ノイズ除去処理)を施すために、周波数領域の信号に変換される。受話音信号100は、必要に応じて、このような信号処理を経た後の信号である。
周波数領域の受話音信号100の各フレーム(フレーム100−1ないしフレーム100−5)は、周波数時間変換部110において、時間領域の話速変換前の信号111の各フレーム(フレーム111−1ないしフレーム111−5)に順次フレーム単位で変換される。話速変換処理は、時間領域の信号を用いるため、時間領域の信号に変換することが望ましい。
図2の伸張率240の欄に示されるように、話速変換部112は、各フレームを伸張率で伸張又は圧縮する。本実施形態の場合、音声部分は、伸張するため、伸張率は1よりも大きくなる。無音声部分のフレームは、伸張したことによってフレームが伸張された時間を相殺するために、長さが圧縮されるか、ゼロとされる。なお、伸張率が一定でないのは、フレーム毎の音声パターンに応じて、自然な形で伸張しているためである。
そして、図2には、時間領域の話速変換後の信号113の例が示されている。すなわちフレーム111−1は、1.2倍に伸張され信号113aとなっている。フレーム111−2は、2.0倍伸張され、信号113bとなっている。フレーム111−3は、無音声部分であるため、カットされ(0倍の伸張)、消滅している。フレーム111−4も、無音声部分であるが、フレーム番号(4)のフレームを埋めるため、0.8倍され、信号113cとなっている。フレーム111−5は、1.1倍伸張され、信号113dとなっている。なお、フレーム番号(5)までが、現在時刻までに処理を終了したフレームであり、その直後に現在時刻が存在することになる。このため、フレーム(5)以降は図示されていない。
電話機では、リアルタイムでの音声処理が行われるため、現在時刻の直前に取得されたフレームが、音響エコーキャンセルなどの処理における受話音信号の処理対象フレームとすることが望ましい。もっとも、AD/DA変換、時間周波数変換、周波数時間変換などの処理は、フレームを単位として実行されるため、完全なリアルタイム性が担保できるわけではないことは、他のディジタル信号処理と同様である。
そして、例えば、図1に示した時間周波数変換部108を利用した場合、図2の周波数領域の話速変換後の信号109A(フレーム109−1ないしフレーム109−5)が得られる。
まず、フレーム番号(1)についてより詳しく分析すると、以下の通りである。すなわち、フレーム番号(1)の話速変換前の信号のフレーム111−1は、時間領域の話速変換後の信号113aで、1.2倍に伸張されている。しかしながら、話速変換においては、音声のピッチを維持したまま音声の時間的長さを伸張させる。このため、フレーム番号(1)における受話音信号のフレーム100−1の周波数成分と周波数領域の話速変換後のフレーム109−1は、同じ(厳密には極めて類似した)周波数成分を持ち得ることとなる。
上記のことは、話速変換が、音声のピッチを維持するように動作することが前提となっており、周波数成分を変化させないようにして音声の長さだけを変化させるよう設計されるからである。現実にインプリメントされた話速変換においても、極めて僅かな周波数成分の変動が観察されるに止まるものである。
したがって、一般的には、話速変換の前後において、変換前のフレームを伸張させた信号を有する話速変換後のフレームは、話速変換の後においても周波数成分が維持されることを意味する。このため、以下のフレームの対は、同じ(極めて近似した)周波数成分を持つことになる。
フレーム100−1:フレーム109−1
フレーム100−2:フレーム109−3
フレーム100−5:フレーム109−5
次に、図2におけるフレーム番号(2)を例として、以下の検討を行う。
すなわち、時間領域の話速変換後の信号のフレーム113−2では、フレーム111−1の信号(すなわち信号113a)が2割、フレーム111−2の信号(すなわち信号113b)が8割存在する。したがって、エルゴード性の仮説から、周波数領域の話速変換後の信号のフレーム109−2には、フレーム100−1の周波数成分の2割と、フレーム100−2の周波数成分8割が含まれることとなる。
図2の欄260には、話速変換後の信号に含まれる話速変換前のフレームの周波数成分の比率を簡略化した形で示している。
以上のことは、話速変換前の周波数領域の信号と、話速変換後の時間領域の信号の伸張率に関する情報から、話速変換後の周波数領域の信号が、フレーム単位で推定できることを意味している。
一般的な式を用いて表現すれば、以下の通りである。
Figure 0006111795
ここで、
P(n0,f):話速変換後の周波数領域の信号のn0フレームの周波数成分f の振幅
F(n−k,f):話速変換前の周波数領域の信号のn−kフレームの周波数成分f の振幅
α−k:話速変換前の時間領域の信号のn−kフレームの話速変換後の信号が、n0フレーム内において占める比率
また、添え字は、フレームの相対的な時間的位置関係を意味しており、n0は、現在処理しているフレームの番号を意味する。そして、フレームn−1は、フレームn0よりも、時間的に1つ前(過去)のフレームを意味する。したがって、n−mは、フレームn0よりも、時間的にm個前(過去)のフレームを意味する。mの値は、1つ前(過去)の処理フェーズで利用された話速変換前の周波数領域の信号のフレームのうち、一番現在に近いフレームを指す値に設定すればよい。
上式において、例えば、図2のフレーム番号(1)では、m=0であり、α0=1である。フレーム番号(2)においては、m=1であり、α0=0.8、α−1=0.2である。フレーム番号(3)においては、m=1であり、α0=0、α−1=1である。フレーム番号(4)においては、m=2であり、α0=0.8、α−1=0、α−1=0.2である。フレーム番号(5)では、m=0であり、α0=1である。
図3は、一実施形態の機能ブロック図を示している。図3は、図1における時間周波数変換部108を、実施形態である話速変換信号の周波数領域信号推定部308に置き換えたものである。図3におけるその他の構成は、図1と同様であってもよい。
図3の話速変換信号の周波数領域信号推定部308は、図2に示した、周波数領域の変換後の信号109Aを、式(1)を用いて、推定された周波数領域の話速変換後の信号109Bを、音響エコーキャンセラ106に与える。このため、話速変換信号の周波数領域信号推定部308は、時間領域の話速変換後の信号113と、周波数領域の受話音信号100を受け取り利用する。
図3における音響エコーキャンセラ106は、当業者において種々の方式が知られている。例えば、時間領域の話速変換後の信号113がスピーカ114と、マイクロフォン102と、時間周波数変換部104とを介して音響エコーキャンセラ106に混入する信号を打ち消すように、周波数領域の送話音信号105から、推定された周波数領域の信号109Bを単純に差し引いてもよい。
或いは、既に述べたように、話速変換部112から、スピーカ114と、マイクロフォン102と、時間周波数変換部104とを介し、音響エコーキャンセラ106に至る信号伝達経路の伝達特性が存在する。周波数領域の送話音信号105には、時間領域の話速変換後の信号113に伝達特性を考慮した信号が混入している。この混入した信号が音響エコーの原因となる。音響エコーキャンセラ106は、例えば、この混入した信号を打ち消すように、周波数領域の信号109Bと、伝達特性を基にした周波数領域での適応フィルタを用いることによって、周波数領域の送話音信号105から音響エコー成分の除去の処理を行ってもよい。
また、時間領域での信号処理を組み合わせて、音響エコーキャンセルの処理を行ってもよい。
本実施形態の話速変換信号の周波数領域信号推定部308は、周波数領域の信号を処理するいかなるタイプの音響エコーキャンセラ106に利用してもよい。話速変換信号の周波数領域信号推定部308は、信号処理装置の一例である。
図4は、一実施形態の詳細な機能ブロック図である。話速変換信号の周波数領域信号推定部308は、第1の受取部410と、第2の受取部420と、周波数領域フレーム合成部430とを有してもよい。
そして、周波数領域フレーム合成部430は、フレーム割合特定部432と、重み付け加算部434とを含んでもよい。
第1の受取部410は、周波数領域の受話音信号100を受け取る。そして、第1の受取部410は、受け取った周波数領域の受話音信号100を重み付け加算部434に与えてもよい。
第2の受取部420は、時間領域の話速変換後の信号113を受け取る。そして、第2の受取部420は、受け取った時間領域の話速変換後の信号113をフレーム割合特定部432に与えてもよい。
フレーム割合特定部432は、図2において示したように、現在処理しているフレームに含まれる時間領域の話速変換後の信号113の内容をチェックする。例えば、現在処理しているフレームが、図2におけるフレーム番号(2)である場合、時間領域の話速変換後の信号のフレーム113−2に含まれる信号113aと、信号113bとを特定し、かつ、フレーム113−2内における信号113aの割合(すなわち、0.2)と、信号113bの割合(すなわち0.8)を特定することができる。フレーム割合特定部432は、この特定された情報を、重み付け加算部434に与える。
なお、現在処理しているフレームとは、現在時刻における直近の過去のサンプリング済みフレームであることが望ましい。電話などの通信機器に、本実施形態を用いた場合には、可能な限り音声処理の時間遅れを小さくすることが重要だからである。
そして、重み付け加算部434は、例えば、受け取った情報113aから、周波数領域の受話音信号100のフレーム100−1を特定する。また、受け取った情報113bから、周波数領域の受話音信号100のフレーム100−2を特定する。
重み付け加算部434は、これらの情報から、具体的に以下の計算を行い、推定された話速変換信号の周波数領域の信号109B(P(2,f))を以下のように計算する。
P(2,f)=0.2×F(1,f)+ 0.8×F(2,f)
推定された話速変換信号の周波数領域の信号109Bを求める一般式は、式(1)に示したとおりである。
なお、第1の受取部及び第2の受取部は、受け取った情報をメモリに順次格納しておくことが望ましい。そして、第1の受取部及び第2の受取部は、受け取った情報がどの部分まで、周波数領域フレーム合成部で利用されたかを記憶しておくことが望ましい。この記憶を行っておくことによって、話速変換信号の周波数領域信号推定部308が、次のフレームで処理するべき情報を容易に特定することができる。
図5は、例えば、図3及び図4に示す実施形態をコンピュータが実行するためのハードウェア構成を示している。
本実施形態のハードウェアは、動的メモリ502、静的メモリ504、外部メモリインタフェース506、処理装置(プロセッサ)508、表示制御部510、通信制御部512、入出力インターフェース514を有してもよい。そして、これらは、バス520によって相互接続される。
表示装置511は表示制御部510に接続される。送信機、受信機、ネットワーク等513は、通信制御部512に接続される。キーボード、タッチパネル等515は、入出力インターフェース514に接続される。また、マイクロフォン、スピーカ等517は、AD/DA変換部516を介して、入出力インターフェース514に接続される。
また、外部メモリインタフェース506は、可搬記憶媒体507を読み書きすることができる。
動的メモリ502、静的メモリ504、又は可搬記憶媒体507には、本実施形態をインプリメントするプログラムの一部又は全部が格納されてもよい。また、このプログラムのソース及び、ソースに関連する世代等の管理情報が格納されてもよい。実施形態の一部又は全部を実現するプログラムは、処理装置(プロセッサ)508によって実行され得る。
図3及び図4に記載された、実施形態の一部又は全部は、図10に記載されたハードウェアによって、実現されてもよい。
また、実施形態の一部又は全部は、DSP(ディジタルシグナルプロセッサ、不図示)によって実現されてもよい。
プログラムは、可搬記憶媒体507に格納することができる。可搬記憶媒体507とは、構造(structure)を有する1つ以上の非一時的(non−transitory)な記憶媒体を言う。例示として、可搬記憶媒体507としては、磁気記録媒体、光ディスク、光磁気記録媒体、不揮発性メモリなどがある。磁気記録媒体には、HDD、フレキシブルディスク(FD)、磁気テープ(MT)などがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc−Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。また、光磁気記録媒体には、MO(Magneto−Optical disk)などがある。不揮発性メモリには、SDメモリ、USBメモリなどがある。可搬記憶媒体507に格納されたプログラムが読み込まれ、プロセッサによって実行されることにより、実施形態の全部又は一部が実施され得る。
図6は、一実施形態の移動端末600の構成を示している。移動端末600は、送話音声を入力するマイクロフォン610、送話音声を増幅する増幅器620、送話音声をディジタル信号に変換するAD変換部630、送話音声を処理する音声処理部640を含んでもよい。移動端末600は、更に送話音声を符号化する音声符号化部650、送話音声のディジタル信号にベースバンド処理を施すベースバンド信号処理部660を含んでもよい。移動端末600は、更にベースバンド信号をアナログ信号に変換するDA変換部670、無線信号を送受信するRF送受信部680、無線信号を空中に発射し又は無線信号を受信するアンテナ690を有してもよい。移動端末600は、更に受話音信号をディジタルに変換するAD変換部671、受話音信号のディジタル信号にベースバンド処理を施すベースバンド信号処理部661を含んでもよい。移動端末600は、更に受話音信号の復号化を行う音声復号化部651、受話音信号の処理を行う音声処理部641を含んでもよい。移動端末600は、更に受話音信号をアナログ信号に変換するDA変換部631、受話音信号を増幅する増幅器621、受話音声を出力するスピーカ611、話速変換信号の周波数領域信号推定部308を有してもよい。
話速変換信号の周波数領域信号推定部308は、図3及び図4において説明した。
図7は、一実施形態の方法の概略を示すフローチャートである。
ステップ702で、第1の受取部410は、周波数領域の受話音信号100を受け取る。
ステップ704で、周波数時間変換部110は、周波数領域の受話音信号100を時間領域の信号111に変換する。
ステップ706で、話速変換部112は、時間領域の信号111を話速変換する。
ステップ708で、第2の受取部420は、話速変換後の信号113を受け取る。
ステップ710で、周波数領域フレーム合成部430は、周波数領域の受話音信号100と、話速変換後の信号113とから、話速変換信号の周波数領域の信号の合成(推定)を行う。
ステップ712で、音響エコーキャンセラ106は、音響エコーのキャンセリング処理を行う。
以上の処理によって、音響エコーのキャンセリング処理が、より少ないリソースで実行される。
図8は、一実施形態の周波数領域の信号の推定方法を示すフローチャートを示している。
ステップ802で、フレーム割合特定部432は、現在処理しているフレームの時間範囲に含まれる話速変換後の各フレームの時間範囲の長さに対する割合を特定する。
ステップ804で、重み付け加算部434は、時間範囲に存在する時間領域の信号に対応する周波数領域のフレームの各周波数成分を、各フレームの割合を用いて重み付け加算する。重み付け加算部434は、この処理によって、話速変換信号の推定された周波数領域の信号109Bを、音響エコーキャンセラ106に与える。
以上の処理によって、音響エコーキャンセラ106は、音響エコーのキャンセリング処理を実行することができる。
以上、図面を用いて実施形態を詳細に説明した。なお、上述の記載は、実施形態を理解するためのものであり、実施形態の範囲を限定するためのものではない点に留意すべきである。また、上述の複数の実施形態は、相互に排他的なものではない。したがって、矛盾が生じない限り、異なる実施形態の各要素を組み合わせることも意図されていることに留意すべきである。また、請求項に記載された方法、及びプログラムに係る実施形態は、矛盾のない限り処理の順番を入れ替え、或いはスキップしてもよい。或いは、複数の処理を同時に実行してもよい。そして、これらの実施形態も、請求項の技術的範囲に包含されることは言うまでもない。
また、コンピュータが読み出したプログラムコードを実行することにより、上述の実施形態の機能が実現され得る。そして、そのプログラムコードの指令に基づき、コンピュータ上で稼働しているOS、仮想マシンモニタVMM、ファームウエア、BIOSなどのプログラムが実際の処理の一部または全部を行ない、その処理によって実施形態の機能が実現される場合も、本実施形態に含まれることは言うまでもない。
また、各種実施形態のそれぞれの構成要素は、物理的に分離された複数のハードウェアで実現されてもよい。また、各種実施形態のそれぞれの構成要素は、1つ以上のサーバ上で動作することによって実現されてもよい。また、実施形態に係るプログラムを実行するCPUは複数であってもよく、また、各CPUは複数のコアを含んでいてもよい。
以上の実施形態は、電話だけでなく、テレビ会議システム、インターフォンなど、全二重通信を行う通話システムにおいて、広く利用することができることは言うまでもない。
以上の実施形態に関して、以下の付記を開示する。
(付記1)
音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理装置であって、
前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取る第1の受取部と、
フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取る第2の受取部と、
前記信号処理装置が処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する、周波数領域フレーム合成部と、
を有する信号処理装置。
(付記2)
前記周波数領域フレーム合成部は、前記前記話速変換後の時間領域の信号について、前記処理しているフレームの長さに対する、前記処理しているフレームに含まれる前記話速変換後の時間領域の信号の部分の長さの割合を特定する、フレーム割合特定部、を含み、
前記受話信号の周波数領域の信号のフレームを合成するために、前記割合を利用する、
付記1記載の信号処理装置。
(付記3)
前記周波数領域フレーム合成部は、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の前記受話音信号のフレームに含まれる周波数成分の値を、対応する前記割合に応じて、前記合成された前記受話信号の周波数領域の信号のフレームを算出するために、周波数成分毎に重み付け加算する、重み付け加算部、を含む、付記2記載の信号処理装置。
(付記4)
音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理方法であって、
前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取る第1の段階と、
フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取る第2の段階と、
処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する段階と、
を有する信号処理方法。
(付記5)
前記周波数領域のフレームを合成する段階は、前記前記話速変換後の時間領域の信号について、前記処理しているフレームの長さに対する、前記処理しているフレームに含まれる前記話速変換後の時間領域の信号の部分の長さの割合を特定する段階、を含み、
前記受話信号の周波数領域の信号のフレームを合成するために、前記割合を利用する、
付記4記載の信号処理方法。
(付記6)
前記周波数領域のフレームを合成する段階は、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の前記受話音信号のフレームに含まれる周波数成分の値を、対応する前記割合に応じて、前記合成された前記受話信号の周波数領域の信号のフレームを算出するために、周波数成分毎に重み付け加算する段階、を含む、付記5記載の信号処理方法。
(付記7)
音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理プログラムであって、
前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取り、
フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取り、
処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する、
処理をコンピュータに実行させる信号処理プログラム。
(付記8)
前記周波数領域のフレームを合成する処理は、前記前記話速変換後の時間領域の信号について、前記処理しているフレームの長さに対する、前記処理しているフレームに含まれる前記話速変換後の時間領域の信号の部分の長さの割合を特定する処理、を含み、
前記受話信号の周波数領域の信号のフレームを合成するために、前記割合を利用する、
付記7記載の信号処理プログラム。
(付記9)
前記周波数領域のフレームを合成する処理は、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の前記受話音信号のフレームに含まれる周波数成分の値を、対応する前記割合に応じて、前記合成された前記受話信号の周波数領域の信号のフレームを算出するために、周波数成分毎に重み付け加算する処理、を含む、付記8記載の信号処理プログラム。
100 受話音信号
102 マイクロフォン
106 音響エコーキャンセラ
108 時間周波数変換部
110 周波数時間変換部
112 話速変換部
114 スピーカ
130 送話音信号
308 話速変換信号の周波数領域信号推定部
410 第1の受取部
410 フレーム同期信号
420 第2の受取部
430 周波数領域フレーム合成部
432 フレーム割合特定部
434 重み付け加算部

Claims (5)

  1. 音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理装置であって、
    前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取る第1の受取部と、
    フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取る第2の受取部と、
    前記信号処理装置が処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する、周波数領域フレーム合成部と、
    を有する信号処理装置。
  2. 前記周波数領域フレーム合成部は、前記前記話速変換後の時間領域の信号について、前記処理しているフレームの長さに対する、前記処理しているフレームに含まれる前記話速変換後の時間領域の信号の部分の長さの割合を特定する、フレーム割合特定部、を含み、
    前記受話信号の周波数領域の信号のフレームを合成するために、前記割合を利用する、
    請求項1記載の信号処理装置。
  3. 前記周波数領域フレーム合成部は、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の前記受話音信号のフレームに含まれる周波数成分の値を、対応する前記割合に応じて、前記合成された前記受話信号の周波数領域の信号のフレームを算出するために、周波数成分毎に重み付け加算する、重み付け加算部、を含む、請求項2記載の信号処理装置。
  4. 音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理方法であって、
    前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取る第1の段階と、
    フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取る第2の段階と、
    処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する段階と、
    を有する信号処理方法。
  5. 音響エコーキャンセラに、受話信号の周波数領域の信号のフレームを与える信号処理プログラムであって、
    前記受話信号の話速を変化させる話速変換処理の前の周波数領域の受話音信号の複数のフレームを受け取り、
    フレーム単位に前記話速変換処理が行われた、複数の話速変換後の時間領域の信号を受け取り、
    処理しているフレームに位置する、前記話速変換後の時間領域の信号と、前記前記話速変換後の時間領域の信号に対応する前記周波数領域の受話音信号のフレームと、に基づいて、前記音響エコーキャンセラに与えるための前記受話信号の周波数領域の信号のフレームを合成する、
    処理をコンピュータに実行させる信号処理プログラム。
JP2013070337A 2013-03-28 2013-03-28 信号処理装置、及び信号処理方法 Active JP6111795B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013070337A JP6111795B2 (ja) 2013-03-28 2013-03-28 信号処理装置、及び信号処理方法
EP14150801.0A EP2784778B1 (en) 2013-03-28 2014-01-10 Sound echo canceling in case of rate-of-speech change
US14/157,601 US9129594B2 (en) 2013-03-28 2014-01-17 Signal processing apparatus and signal processing method
CN201410042005.0A CN104078049B (zh) 2013-03-28 2014-01-28 信号处理设备和信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013070337A JP6111795B2 (ja) 2013-03-28 2013-03-28 信号処理装置、及び信号処理方法

Publications (2)

Publication Number Publication Date
JP2014194457A JP2014194457A (ja) 2014-10-09
JP6111795B2 true JP6111795B2 (ja) 2017-04-12

Family

ID=50064383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013070337A Active JP6111795B2 (ja) 2013-03-28 2013-03-28 信号処理装置、及び信号処理方法

Country Status (4)

Country Link
US (1) US9129594B2 (ja)
EP (1) EP2784778B1 (ja)
JP (1) JP6111795B2 (ja)
CN (1) CN104078049B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109274848A (zh) * 2018-11-21 2019-01-25 深圳市云威物联科技有限公司 全双工对讲装置及猫眼装置
CN111161749B (zh) * 2019-12-26 2023-05-23 佳禾智能科技股份有限公司 可变帧长的拾音方法、电子设备、计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5606550A (en) * 1995-05-22 1997-02-25 Hughes Electronics Echo canceller and method for a voice network using low rate coding and digital speech interpolation transmission
JP3420705B2 (ja) * 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
JP3069547B2 (ja) * 1998-05-07 2000-07-24 日本放送協会 話速変換ハンズフリーユニットおよび通話システム
US20040179676A1 (en) * 1999-06-30 2004-09-16 Kozo Okuda Speech communication apparatus
JP2001016319A (ja) * 1999-06-30 2001-01-19 Sanyo Electric Co Ltd 話速変換装置を備えた通話装置
US6674865B1 (en) * 2000-10-19 2004-01-06 Lear Corporation Automatic volume control for communication system
US7596384B2 (en) * 2002-12-09 2009-09-29 Intel Corporation Audio over subsystem interface
JP5086769B2 (ja) * 2007-10-23 2012-11-28 パナソニック株式会社 拡声通話装置
JP2009290825A (ja) * 2008-06-02 2009-12-10 Yamaha Corp 音響エコーキャンセラ
JP5412204B2 (ja) 2009-07-31 2014-02-12 日本放送協会 適応的な話速変換装置及びプログラム
RU2596584C2 (ru) * 2010-10-25 2016-09-10 Войсэйдж Корпорейшн Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой
CN202197344U (zh) * 2011-07-08 2012-04-18 歌尔声学股份有限公司 送话器阵列回声消除***
CN102413384A (zh) * 2011-11-16 2012-04-11 杭州艾力特音频技术有限公司 一种回声消除双向语音对讲设备

Also Published As

Publication number Publication date
EP2784778B1 (en) 2016-11-16
JP2014194457A (ja) 2014-10-09
US20140297270A1 (en) 2014-10-02
US9129594B2 (en) 2015-09-08
CN104078049B (zh) 2017-02-22
CN104078049A (zh) 2014-10-01
EP2784778A1 (en) 2014-10-01

Similar Documents

Publication Publication Date Title
US10186276B2 (en) Adaptive noise suppression for super wideband music
JP6446893B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
KR101540896B1 (ko) 전자 디바이스 상에서의 마스킹 신호 생성
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
JP6703525B2 (ja) 音源を強調するための方法及び機器
AU2015240992C1 (en) Situation dependent transient suppression
JP2014045507A (ja) 複数のマイクからの信号間で知的に選択することによって音質を改善すること
JP5923994B2 (ja) 音声処理装置及び音声処理方法
WO2019112468A1 (en) Multi-microphone noise reduction method, apparatus and terminal device
CN112071328B (zh) 音频降噪
US20130136274A1 (en) Processing Signals
US20100027810A1 (en) Method and device for typing noise removal
EP4224833A2 (en) Method and apparatus utilizing residual echo estimate information to derive secondary echo reduction parameters
US8615394B1 (en) Restoration of noise-reduced speech
JP2010206515A (ja) エコーキャンセラ
JP5834948B2 (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
US9832299B2 (en) Background noise reduction in voice communication
US20140365212A1 (en) Receiver Intelligibility Enhancement System
JP5130895B2 (ja) 音声処理装置、音声処理システム、音声処理プログラム及び音声処理方法
US9934791B1 (en) Noise supressor
JP2008309955A (ja) ノイズサプレス装置
JP2006243644A (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP6111795B2 (ja) 信号処理装置、及び信号処理方法
JP6369192B2 (ja) エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末
US9978394B1 (en) Noise suppressor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6111795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150