JP5093341B2 - Transmission status judgment method - Google Patents
Transmission status judgment method Download PDFInfo
- Publication number
- JP5093341B2 JP5093341B2 JP2010292390A JP2010292390A JP5093341B2 JP 5093341 B2 JP5093341 B2 JP 5093341B2 JP 2010292390 A JP2010292390 A JP 2010292390A JP 2010292390 A JP2010292390 A JP 2010292390A JP 5093341 B2 JP5093341 B2 JP 5093341B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frame
- time series
- transmission
- received signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005540 biological transmission Effects 0.000 title claims description 217
- 238000000034 method Methods 0.000 title claims description 76
- 238000004364 calculation method Methods 0.000 claims description 77
- 239000013598 vector Substances 0.000 claims description 51
- 238000010586 diagram Methods 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 14
- 238000005070 sampling Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Description
本発明は、送話者が音声を発しているか否かを判定する送話状態判定方法に関するものである。 The present invention relates to a transmission state determination method for determining whether or not a speaker is producing a voice.
近年、インターネットなどのネットワークを利用したパケット通信による音声通信が盛んになっている。しかし、それらのネットワークはベストエフォート型サービスであるため、パケット通信による音声通話中に遅延が発生する場合がある。このため送話者の音声が受話側の装置から逆流して送話者に聞こえる、いわゆるエコーが生じる。 In recent years, voice communication by packet communication using a network such as the Internet has become popular. However, since these networks are best-effort services, a delay may occur during a voice call by packet communication. For this reason, a so-called echo is produced in which the voice of the sender is circulated back from the apparatus on the receiver side and is heard by the sender.
エコーを消去する手法としては、エコーキャンセラが用いられることが多い。エコーキャンセラは学習同定法をベースとしたものが一般的であり、遠端から発せられる音声の音声信号を学習することによって、近端で発生するエコーのエコー経路を推定し、エコーを消去する。これにより、遠端へエコーが届くことが回避される。 An echo canceller is often used as a technique for canceling the echo. The echo canceller is generally based on a learning identification method, and by learning a voice signal of a voice emitted from the far end, an echo path of an echo generated at the near end is estimated and the echo is erased. This prevents the echo from reaching the far end.
しかし、近端で発生するエコーと、近端話者から発せられる音声の音声信号との両方が遠端へ供給される場合、エコーキャンセラによってエコーを消去してしまうと、近端話者から発せられる音声の音声信号も同時に消去されてしまう。このように近端話者が送話状態のときにエコーキャンセラが動作してしまうと、近端話者の音声も消去されてしまうことになるため、エコーキャンセラには通常、近端話者が送話中か否かを判定する送話状態判定機能を併用するのが一般的である。 However, if both the echo generated at the near end and the speech signal from the near end speaker are supplied to the far end, if the echo is canceled by the echo canceller, the near end speaker The audio signal of the generated audio is also erased at the same time. If the echo canceller operates while the near-end speaker is in the transmission state, the voice of the near-end speaker will also be deleted. In general, a transmission state determination function for determining whether or not a transmission is in progress is used in combination.
エコーキャンセラは、通常、ITU-T(International Telecommunication Union Telecommunication standardization sector)勧告G.165、G.168等に準拠した性能を有するように設計され、一般的に図2に示すように利用される。図2はエコーキャンセラへの音声信号の入出力を示す図である。近端送話信号の有無の判定は、受話音声入力端子Rin、受話音声出力端子Rout、送話音声入力端子Sin、送話音声出力端子Soutの信号レベルの絶対値もしくは各信号間のレベル差を利用して行なうことが多い。また、遠端32と近端34とは遠端話者と近端話者とが有する送受話器である。図2では概念的な構成を示すため、A/D変換器等は省略している。
The echo canceller is usually designed to have performance conforming to ITU-T (International Telecommunication Union Telecommunication standardization sector) recommendations G.165, G.168, etc., and is generally used as shown in FIG. FIG. 2 is a diagram showing input / output of audio signals to the echo canceller. To determine whether there is a near-end transmission signal, the absolute value of the signal level of the reception voice input terminal Rin, reception voice output terminal Rout, transmission voice input terminal Sin, transmission voice output terminal Sout or the level difference between each signal is determined. Often used. Further, the far
図2において受話音声入力端子Rinと送話音声入力端子Sinとはエコーキャンセラ30への入力信号を示し、受話音声出力端子Routと送話音声出力端子Soutとはエコーキャンセラ30からの出力信号を示す。矢印20はエコーを示す。
In FIG. 2, the received voice input terminal Rin and the transmitted voice input terminal Sin indicate input signals to the
例えば近端34からの送話音声入力端子Sinの信号レベルが著しく低いとき、近端話者は音声を発していない、もしくは送話信号Sinはエコーであると判定することができる。あるいは、受話音声入力端子Rinと送話音声入力端子Sinとの信号レベルの差をとり、その差の絶対値が一定値以上である場合、近端話者は音声を発していない、もしくは送話信号Sinはエコーであると判定することができる。
For example, when the signal level of the transmission voice input terminal Sin from the
一方、特許文献1のエコーキャンセラで用いられている送話状態判定方法は、自己相関関数を利用する。この方法は、送話者が発する音声信号が周期性を有していて、その周期と一致した自己相関関数の値が非常に大きくなることを利用している。これに対して、雑音は一般的に周期性がなくランダムであるため、自己相関関数の値も小さくなる。このように特許文献1で用いられている送話状態判定方法は、音声信号の周期性に着目した方法である。
On the other hand, the transmission state determination method used in the echo canceller of
ところで、実際の送話状態判定機能を有するエコーキャンセラが適用される場合、エコーキャンセラ外部で信号レベルが操作される場合がある。 By the way, when an echo canceller having an actual transmission state determination function is applied, the signal level may be manipulated outside the echo canceller.
例えば、遠端から供給される受話音声入力端子Rinの信号レベルが外部装置により10dB減衰してエコーキャンセラ30に入力され、さらに、エコーキャンセラ30から出力される受話音声出力端子Routの信号レベルが外部装置により、10dB増幅して近端に供給される場合がある。そして、エコーキャンセラ30が有する送話状態判定機能の判定方法が、受話音声入力端子Rinと送話音声入力端子Sinとの信号レベルの差が一定値以上の正の値の場合に近端話者は送話状態ではないと判定する方法である場合、受話音声入力端子Rinの信号レベルは本来の音声信号の信号レベルより10dB低いため、受話音声入力端子Rinと送話音声入力端子Sinとの信号レベル差は本来の信号レベル差より小さくなり、このため近端話者が送話状態であると誤判定してしまう場合が考えられる。あるいは、エコーキャンセラ30が有する送話状態判定機能の判定方法が、エコーキャンセラ30に供給される信号Sinの信号レベルが一定値以下の場合に近端話者は送話状態ではないと判定する方法の場合、受話音声出力端子Routの信号レベルが非常に大きいと、近端で発生するエコー20も大きくなり、送話音声入力端子Sinの信号レベルが大きくなってしまう。その送話音声入力端子Sinの信号レベルが一定値より大きい場合、送話信号Sinをエコーと判定せずに近端話者の音声信号と誤判定してしまう場合が考えられる。
For example, the signal level of the reception voice input terminal Rin supplied from the far end is attenuated by 10 dB by an external device and input to the
このように、従来技術による送話状態判定機能では誤判定を起こしてしまい、近端話者の音声が遠端まで届かない、あるいはエコーを正しく判定できないという問題があった。 As described above, the transmission state determination function according to the prior art causes an erroneous determination, and there is a problem that the voice of the near-end speaker does not reach the far end or the echo cannot be correctly determined.
また、特許文献1で用いられている送話状態判定方法では、音声信号には周期性があり、雑音には周期性が一般にはなく、ランダムであることを前提としているため、周期性のある雑音が入力された場合には送話状態であると誤判定してしまう問題があった。
Further, in the transmission state determination method used in
本発明はこのような課題に鑑み、音声信号の信号レベルが変動しても、この変動の影響を受けず、適切に送話状態であるか否かを判定することが可能な送話状態判定方法を提供することを提供することを目的とする。 In view of such a problem, the present invention is able to determine whether or not the transmission state is appropriate without being affected by the fluctuation even if the signal level of the audio signal varies. An object is to provide providing a method.
本発明に係る送話状態判定方法は上述の課題を解決するために、演算手段では送受話手段に到来する受話信号時系列と該送受話手段から発せられる送話信号時系列とをそれぞれ、一定間隔のフレーム時刻間にわたる一定の信号サンプル数から成るフレームに分割する分割工程と、受話信号時系列を分割した各フレームと、送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、受話信号フレームパワー時系列に含まれる一定個数の受話信号フレームパワーを要素とする受話信号パワーブロックベクトルと、送話信号フレームパワー時系列における、一定個数の送話信号フレームパワーを要素とする1つ以上の送話信号パワーブロックベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、判定手段で1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が所定の閾値以上であり、かつ、現フレーム時刻についての最大相関係数をもたらす送話信号パワーブロックベクトルの番号と現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号パワーブロックベクトルの各番号の加算平均値との差の絶対値を所定の値と比較することによって、現フレーム時刻において送受話手段が送話状態であるか否かを判定する判定工程とを含むことを特徴とする。 In the transmission state determination method according to the present invention, in order to solve the above-described problem, the calculation means is configured to keep the reception signal time series arriving at the transmission / reception means and the transmission signal time series emitted from the transmission / reception means constant. A reception signal frame from a division step of dividing a signal sample number over a frame time interval, each frame obtained by dividing the reception signal time series, and each frame obtained by dividing the transmission signal time series, respectively. A frame power calculation step for obtaining a power time series and a transmission signal frame power time series, a reception signal power block vector having a certain number of reception signal frame powers included in the reception signal frame power time series, and transmission One or more transmission signal power blocks whose elements are a certain number of transmission signal frame powers in a signal frame power time series A correlation coefficient calculation step for calculating one or more correlation coefficients from each of the quarters, and a maximum correlation coefficient for the current frame time among the one or more correlation coefficients by the determination means is a predetermined value; Transmission number that is greater than or equal to the threshold value and that provides the maximum correlation coefficient for the current frame time and the maximum correlation coefficient for each from the current frame time to any past frame time. A determination step of determining whether or not the transmission / reception means is in a transmission state at the current frame time by comparing an absolute value of a difference from the addition average value of each number of the signal power block vector with a predetermined value; It is characterized by including.
また、本発明に係る送話状態判定方法は上述の課題を解決するために、演算手段では送受話手段に到来する受話信号時系列とこの送受話手段から発せられる送話信号時系列とをそれぞれ、一定間隔のフレーム時刻間にわたる一定の信号サンプル数から成るフレームに分割する分割工程と、受話信号時系列を分割した各フレームと、送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、受話信号フレームパワー時系列から、フレーム毎に、有音無音のいずれかを判定する受話信号有音無音判定フラグ時系列を算出する第1のフラグ算出工程と、送話信号フレームパワー時系列から、フレーム毎に、有音無音のいずれかを判定する送話信号有音無音判定フラグ時系列を算出する第2のフラグ算出工程と、受話信号有音無音判定フラグ時系列に含まれる一定個数の受話信号有音無音判定フラグを要素とする受話信号ブロック有音無音判定ベクトルと、送話信号有音無音判定フラグ時系列における、一定個数の送話信号有音無音判定フラグを要素とする1つ以上の送話信号ブロック有音無音判定ベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、判定手段で1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が所定の閾値以上であり、かつ、現フレーム時刻についての最大相関係数をもたらす送話信号ブロック有音無音判定ベクトルの番号と現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号ブロック有音無音判定ベクトルの各番号の加算平均値との差の絶対値を所定の値と比較することによって、現フレーム時刻において送受話手段が送話状態であるか否かを判定する判定工程とを含むことを特徴とする。 In addition, in order to solve the above-described problem, the transmission state determination method according to the present invention calculates a reception signal time series arriving at the transmission / reception means and a transmission signal time series emitted from the transmission / reception means, respectively, in the calculation means. , A division step of dividing the frame into a frame composed of a fixed number of signal samples over a frame interval of a fixed interval, each frame obtained by dividing the received signal time series, and each frame obtained by dividing the transmitted signal time series. A frame power calculation step for obtaining a signal frame power time series and a transmission signal frame power time series, and a reception signal sound / silence determination for determining whether there is sound or silence for each frame from the reception signal frame power time series. A first flag calculation step for calculating a flag time series, and a transmission for determining one of sound and silence for each frame from a transmission signal frame power time series. A second flag calculating step for calculating a time series of the voiced / silent determination flag, and a received signal block utterance having a certain number of received signal utterance / non-utterance determination flags included in the received signal utterance / non-utterance determination flag time series as elements From the silence determination vector and each of one or more transmission signal block noise / non-transmission determination vectors having a certain number of transmission signal noise / non-transmission determination flags as elements in the time series of the transmission signal noise / non-transmission determination flag, A correlation coefficient calculation step for calculating one or more correlation coefficients, and a maximum correlation coefficient for the current frame time among the one or more correlation coefficients by the determination unit is equal to or greater than a predetermined threshold; and , The number of the speech signal block sound / silence determination vector that yields the maximum correlation coefficient for the current frame time and the maximum correlation coefficient for each of the current frame time to any past frame time Whether or not the transmission / reception means is in the transmission state at the current frame time by comparing the absolute value of the difference between the addition average value of each number of the transmitted / sound signal block sound / silence determination vector to the predetermined value And a determination step for determining.
さらに、本発明に係る送話状態判定方法は上述の課題を解決するために、演算手段では送受話手段に到来する受話信号時系列とこの送受話手段から発せられる送話信号時系列とをそれぞれ、一定間隔のフレーム時刻間にわたる一定の信号サンプル数から成るフレームに分割する分割工程と、受話信号時系列を分割した各フレームと、送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、受話信号フレームパワー時系列から、フレーム毎に、受話信号のレベル変動の有無いずれかを判定する受話信号レベル変動フラグ時系列を算出する第1のフラグ算出工程と、送話信号フレームパワー時系列から、フレーム毎に、送話信号のレベル変動の有無いずれかを判定する送話信号レベル変動フラグ時系列を算出する第2のフラグ算出工程と、受話信号レベル変動フラグ時系列に含まれる一定個数の受話信号レベル変動フラグを要素とする受話信号ブロックレベル変動ベクトルと、送話信号レベル変動フラグ時系列における、一定個数の送話信号レベル変動フラグを要素とする1つ以上の送話信号ブロックレベル変動ベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、判定手段で1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が所定の閾値以上であり、かつ、現フレーム時刻についての最大相関係数をもたらす送話信号ブロックレベル変動ベクトルの番号と現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号ブロックレベル変動ベクトルの各番号の加算平均値との差の絶対値を所定の値と比較することによって、現フレーム時刻において送受話手段が送話状態であるか否かを判定する判定工程とを含むことを特徴とする。 Furthermore, in order to solve the above-described problem, the transmission state determination method according to the present invention calculates the received signal time series arriving at the transmission / reception means and the transmission signal time series emitted from the transmission / reception means respectively in the calculation means. , A division step of dividing the frame into a frame composed of a fixed number of signal samples over a frame interval of a fixed interval, each frame obtained by dividing the received signal time series, and each frame obtained by dividing the transmitted signal time series. A frame power calculation step for obtaining a signal frame power time series and a transmission signal frame power time series, and a received signal level for determining whether or not there is a fluctuation in the level of the received signal for each frame from the received signal frame power time series. From the first flag calculation step for calculating the variation flag time series and the transmission signal frame power time series, the level of the transmission signal for each frame. A second flag calculating step for calculating a transmission signal level fluctuation flag time series for determining whether or not there is a movement, and reception with a certain number of reception signal level fluctuation flags included in the reception signal level fluctuation flag time series as elements From the signal block level variation vector and each of one or more transmission signal block level variation vectors having a certain number of transmission signal level variation flags as elements in the transmission signal level variation flag time series, one or more A correlation coefficient calculation step for calculating a correlation coefficient and a maximum correlation coefficient for the current frame time among the one or more correlation coefficients by the determination means is greater than or equal to a predetermined threshold and the current frame time The number of the transmit signal block level fluctuation vector that yields the maximum correlation coefficient and the current frame time to any past frame time. The transmission / reception means is in the transmission state at the current frame time by comparing the absolute value of the difference between the addition average value of each number of the transmission signal block level fluctuation vector that yields the maximum correlation coefficient with a predetermined value. And a determination step of determining whether or not.
本発明に係る送話状態判定方法によれば、各信号のパワー変動の相互相関関係を利用するため、各信号のレベルに影響されずに送話状態か否かが判定可能となる。 According to the transmission state determination method according to the present invention, since the cross-correlation between power fluctuations of each signal is used, it is possible to determine whether or not the transmission state is established without being affected by the level of each signal.
また、本発明に係る送話状態判定方法によれば、各信号のパワー変動の相互相関関係を利用することに加えて有音無音判定フラグを用いるため、各信号のレベルに影響されず、また演算量についても、有音無音判定フラグを用いない場合に比較して少ない演算量で、送話状態か否かが判定可能となる。 Further, according to the transmission state determination method according to the present invention, since the sound / silence determination flag is used in addition to using the cross-correlation between the power fluctuations of each signal, the level of each signal is not affected. As for the amount of calculation, it is possible to determine whether or not it is in the transmission state with a small amount of calculation compared to the case where the sound / silence determination flag is not used.
さらに、本発明に係る送話状態判定方法によれば、各信号のパワー変動の相互相関関係を利用することに加えて、レベル変動フラグを用いるため、各信号のレベルに影響されず、また演算量についても、有音無音判定フラグを用いる場合に比較して少ない演算量で、送話状態か否かが判定可能となる。 Furthermore, according to the transmission state determination method according to the present invention, in addition to using the cross-correlation between the power fluctuations of each signal, since the level fluctuation flag is used, it is not affected by the level of each signal, and the calculation is performed. As for the amount, it is possible to determine whether or not it is in the transmission state with a small amount of calculation compared to the case where the sound / silence determination flag is used.
次に添付図面を参照して本発明による送話状態判定方法の実施例を詳細に説明する。図1を参照すると、本発明による送話状態判定方法の実施例は、エコーキャンセラ40に適用した場合である。エコーキャンセラ40は、近端34の話者が送話中であるか否かを判定する装置である。
Next, an embodiment of a transmission state determination method according to the present invention will be described in detail with reference to the accompanying drawings. Referring to FIG. 1, the embodiment of the transmission state determination method according to the present invention is applied to an
ここで、遠端32と近端34とは遠端話者と近端話者とが有する送受話器である。
Here, the
エコーキャンセラ40は、演算部44でこの送受話器に到来する受話信号時系列r(n)とこの送受話手段から発せられる送話信号時系列s(n)とをそれぞれ、一定間隔のフレーム時刻間にわたる一定の信号サンプル数から成るフレームに分割し、受話信号時系列を分割した各フレームと、送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求め、受話信号フレームパワー時系列に含まれる一定個数の受話信号フレームパワーを要素とする受話信号パワーブロックベクトルと、送話信号フレームパワー時系列における、一定個数の送話信号フレームパワーを要素とする1つ以上の送話信号パワーブロックベクトルの各々とから、1つ以上の相関係数を演算する。送話状態判定部48では、1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が所定の閾値以上であり、かつ、現フレーム時刻についての最大相関係数をもたらす送話信号パワーブロックベクトルの番号と現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号パワーブロックベクトルの各番号の加算平均値との差の絶対値を所定の値と比較することによって、現フレーム時刻において送受話器が送話状態であるか否かを判定することにより各信号のパワー変動の相互相関関係を利用していることから、各信号のレベルに影響されずに送話状態か否かが判定可能となる。
The
図1の各端子Rin、Rout、SinおよびSoutに対しては、発声元である遠端32および近端34でアナログ音声信号に標本化処理、量子化処理および符号化処理を施したデジタル音声信号が入出力される。標本化処理は、アナログ音声信号の時間的に連続な波形を、離散的な時点ごとの値の系列で表現する処理である。量子化処理は、時間的に離散化された標本化信号の振幅を、段階的で不連続な有限個の値のいずれかで近似して表現する処理である。量子化処理によって、時間的に離散化された標本化信号は、さらに振幅についても有限個のいずれかの値に量子化され、ある値に量子化された標本化信号の振幅は、すべて同じ振幅値とみなされることとなる。符号化処理は、標本化処理と量子化処理とを施した信号を2進数によって表現する処理である。これらの処理によって、アナログ音声信号は2進数によって表現されるデジタル音声信号になる。
For each of the terminals Rin, Rout, Sin, and Sout in FIG. 1, a digital audio signal obtained by performing sampling processing, quantization processing, and encoding processing on an analog audio signal at the
エコーキャンセラ40は、近端話者が送話中であるか否かを判定する。この判定と、判定に応じたエコーキャンセルとを実行するため、エコーキャンセラは、音声検出器42・46、演算部44、送話状態判定部48およびエコーキャンセル部50を含む。
The
音声検出器42は、遠端32から供給され受話信号Rinをそのまま受話音声出力端子Routに出力して近端34に供給するとともに、受話信号Rinを複製し、受話信号時系列r(n)として演算部44に供給する。
The voice detector 42 supplies the reception signal Rin supplied from the
音声検出器46は、近端34から供給される送話信号Sinをそのまま信号線54を介してエコーキャンセル部50に供給するとともに、送話信号Sinを複製し、送話信号時系列s(n)として演算部44に供給する。
The voice detector 46 supplies the transmission signal Sin supplied from the
演算部44は、音声検出器42から供給される受話信号時系列r(n)、音声検出器46から供給される送話信号時系列s(n)に対して、後述する演算処理を行ない、演算結果を信号線58を介して送話状態判定部48に供給する。nは0以上の整数である。
The
送話状態判定部48は、演算部44から信号線58を介して供給される演算結果を用いて、後述する送話状態判定方法により、近端が送話状態であるか否かを判定する装置である。送話状態判定部48は、後述する送話状態判定方法により、近端が送話状態でないと判定した場合、判定フラグ0を信号線60を介してエコーキャンセル部50に供給する。また、送話状態判定部48は、後述する送話状態判定方法により、近端が送話状態であると判定した場合、判定フラグ1を信号線60を介してエコーキャンセル部50に供給する。
The transmission
エコーキャンセル部50は、送話状態判定部48から信号線60を介して供給される判定フラグが0、すなわち近端34が送話状態でない場合、音声検出器46から供給される音声信号54をエコーとみなして消去する。一方、エコーキャンセル部50は、上記の判定フラグが1、すなわち近端34が送話状態である場合、音声検出器46から供給される音声信号54を消去せず、そのまま、送話信号Soutとして遠端32に供給する。
The
以上のように構成されたエコーキャンセラに適用する、本発明による送話状態判定方法の実施例の動作について、以下、説明する。 The operation of the embodiment of the transmission state determination method according to the present invention applied to the echo canceller configured as described above will be described below.
本発明による送話状態判定方法の第1の実施例における演算処理、送話状態判定方法およびエコーキャンセル処理を、図1、図3、図4、図5および図6を用いて、以下、詳細に説明する。なお、図中、同様の要素や同様の処理工程は、同一の符号で示すこととする。 The calculation process, the transmission state determination method, and the echo cancellation process in the first embodiment of the transmission state determination method according to the present invention will be described in detail below with reference to FIGS. 1, 3, 4, 5, and 6. Explained. In the figure, similar elements and similar processing steps are denoted by the same reference numerals.
図5は図1の演算部44と送話状態判定部48とが行なう演算処理と送話状態判定方法とを示すフローチャートである。ステップS10において、演算部44には音声検出器42から受話信号Rinの時系列r(n)が、音声検出器46からは送話信号Sinの時系列s(n)がそれぞれ入力され、ステップS12へ進む。
FIG. 5 is a flowchart showing a calculation process and a transmission state determination method performed by the
演算部44は、入力されたr(n)とs(n)とをそれぞれ、A個の信号サンプル(Aは1以上の整数)から成るフレームに分割し、フレーム毎に以下の演算処理を施す。なお、フレーム毎(A個の信号サンプル毎)の時刻をフレーム時刻と呼ぶ。
The
演算部44は、フレーム時刻kにおいてr(n)とs(n)とからそれぞれ過去の信号をL個の信号サンプルずつ分析フレームとして切り出す。図3は、本発明の第1の実施例における、受話信号時系列r(n)もしくは送話信号時系列s(n)から分析フレームの切り出しを示す概念図である。図3において、受話信号時系列r(n)もしくは送話信号時系列s(n)を構成するマス目が個々の信号サンプルである。
The
図3の範囲100は、フレーム時刻kにおけるL個の信号サンプルから成る分析フレームを示している。フレーム時刻kにおいてL個の信号サンプルから成る分析フレームを切り出すと、この範囲100で示されている部分が切り出されることになる。
The
範囲102は、フレーム時刻k-1におけるL個の信号サンプルから成る分析フレームを示している。フレーム時刻k-1においてL個の信号サンプルから成る分析フレームを切り出すと、この範囲102で示されている部分が切り出されることになる。
Range 102 shows an analysis frame consisting of L signal samples at frame time k-1. When an analysis frame composed of L signal samples is cut out at the frame time k−1, a portion indicated by this
範囲104は、A個の信号サンプルの長さを示している。この長さ分の時刻が1フレーム時刻である。
A
上述の切り出しの後、演算部44はステップS14に進み、r(n)とs(n)とから切り出されたL個の信号サンプルから成る分析フレームから、M次線形予測分析方法(Mは任意の正の偶数)を用いてLPC(Linear Predictive Coding:線形予測分析法)係数を求める。LPC係数の求め方は以下の通りである。
After the above-described clipping, the
r(n)から切り出されたL個の信号サンプルから成る分析フレームから、以下の式より自己相関数列を求める。 An autocorrelation sequence is obtained from the following expression from an analysis frame made up of L signal samples extracted from r (n).
演算部44は、以上のようにして求めたLPC係数を以下のようにしてLSP(Line Spectrum Pair)係数に変換する。r(n)から切り出された分析フレームより求められたLPC係数
The
演算部44は、以上のようにして求められたRlsp(i)とSlsp(i)とから、以下の式より誤差パワーD(k)を求める。
The
演算部44は、以上のような演算処理によって得られた誤差パワーD(k)を信号線58を介して送話状態判定部48に出力し、ステップS16に進む。
The
送話状態判定部48は、ステップS16において、演算部44から供給される誤差パワーD(k)と送話状態判定部48が有する閾値Qとを比較する。閾値Qは正の実数であり、経験上自由に定めてよい。比較した結果がD(k)<Qを満たすならステップS18へ、満たさないならステップS20へそれぞれ進む。
In step S16, the transmission
送話状態判定部48は、ステップS18において、近端はフレーム時刻kにおいて送話状態でないと判断し、判定フラグ0を信号線60を介してエコーキャンセル部50に出力し、図6のステップS22に進む。
In step S18, the transmission
送話状態判定部48は、ステップS20において、近端はフレーム時刻kにおいて送話状態であると判断し、判定フラグ1を信号線60を介してエコーキャンセル部50に出力し、図6のステップS22に進む。
In step S20, the transmission
図6は、エコーキャンセル部50が行なうエコーキャンセル処理を示すフローチャートである。
FIG. 6 is a flowchart showing an echo cancellation process performed by the
エコーキャンセル部50は、ステップS22において、信号線60を介して送話状態判定部48から供給される判定フラグが1か0かを判断し、判定フラグが1の場合はステップS24へ、判定フラグが0の場合はステップS26へとそれぞれ進む。
In step S22, the echo cancel
エコーキャンセル部50は、S24において、音声信号54を近端話者の音声を含むものと判断し、音声信号54を送話音声出力端子Soutに出力する。
In S24, the
エコーキャンセル部50は、ステップS26において、音声信号54を近端34で発生したエコーと判断し、音声信号54を消去する。
In step S26, the
図4は、本発明による第1の実施例において、誤差パワーD(k)を求める上述の式で、分析次数Mを6とした場合の各LSP係数を示すグラフである。左のグラフは受話信号時系列r(n)を示し、右のグラフは送話信号時系列s(n)を示す。グラフの縦軸は信号の強さを表し、横軸は周波数を表す。左のグラフにおいて、時系列r(n)からは受話信号LSP係数、Rlsp(1),…,Rlsp(6)が得られる。右図において、時系列s(n)からは送話信号LSP係数、Slsp(1),…,Slsp(6)が得られる。これらの値から演算部44は、以下の式のように演算処理を行なうことによって、誤差パワーD(k)を得る。
FIG. 4 is a graph showing each LSP coefficient when the analysis order M is 6 in the above equation for obtaining the error power D (k) in the first embodiment of the present invention. The left graph shows the received signal time series r (n), and the right graph shows the transmitted signal time series s (n). The vertical axis of the graph represents signal strength, and the horizontal axis represents frequency. In the left graph, received signal LSP coefficients Rlsp (1),..., Rlsp (6) are obtained from the time series r (n). In the right figure, the transmission signal LSP coefficients, Slsp (1),..., Slsp (6) are obtained from the time series s (n). From these values, the
本発明による送話状態判定方法の第2の実施例における演算処理、送話状態判定方法およびエコーキャンセル処理を、図1、図6、図7および図8を用いて、以下、詳細に説明する。 The calculation processing, transmission state determination method and echo cancellation processing in the second embodiment of the transmission state determination method according to the present invention will be described in detail below with reference to FIGS. 1, 6, 7 and 8. FIG. .
図7は本発明の第2の実施例による演算処理と送話状態判定方法とを示すフローチャートである。図7のステップS10は図5におけるステップS10と同様の処理工程であり、ここでは、図1の演算部44に音声検出器42から受話信号時系列r(n)を入力し、音声検出器46から送話信号時系列s(n)を入力し、ステップS30へ進む。
FIG. 7 is a flowchart showing a calculation process and a transmission state determination method according to the second embodiment of the present invention. Step S10 in FIG. 7 is the same processing step as step S10 in FIG. 5. Here, the received signal time series r (n) is input from the voice detector 42 to the
図8は本発明の第2の実施例において演算部44が図7のステップS30、S32、S34で算出する各種の値の関係を示す概念図である。演算部44は、ステップS30において、入力された信号時系列r(n)・s(n)をそれぞれ、N個の信号サンプル(Nは1以上の整数)から成るフレームに分割する。これは図8の中段の図「r(n) or s(n)」に示す通りである。図8の範囲202、204、206はそれぞれ、受話信号時系列r(n)もしくは送話信号時系列s(n)を構成するN個の信号サンプルであり、各々1つのフレームとして扱われる。演算部44が行なうステップS32以降の演算処理は、フレーム毎に施す。なお、フレーム毎(N個の信号サンプル毎)の時刻をフレーム時刻と呼ぶ。
FIG. 8 is a conceptual diagram showing the relationship between various values calculated by the
演算部44は、ステップS32において、フレーム時刻kにおける受話信号時系列r(n)の受話信号フレームパワー時系列Pr(k)と、フレーム時刻kにおける送話信号時系列s(n)の送話信号フレームパワー時系列Ps(k)とを以下の式により求める。
In step S32, the
次に演算部44は、ステップS34において、まずH個のフレームパワー(Hは1以上の任意の整数)を1ブロックとして以下のように定義される受話信号パワーブロックベクトルVRと送話信号パワーブロックベクトルVs(j)とを求める。
Next, in step S34, the
受話信号パワーブロックベクトルVRは、図8の上段の図「Pr(k)」に示す通り、H個の受話信号フレームパワーから成る。この上段の図では1つのフレームパワーを1つのマス目で示していて、個々のフレームパワーは、既に述べた通り、中段の図「r(n) or s(n)」に示す受話信号時系列r(n)のN個の信号サンプルを、信号サンプル毎に二乗して加算することによって求められる。 The received signal power block vector VR is composed of H received signal frame powers as shown in the upper diagram “Pr (k)” of FIG. In the upper diagram, one frame power is shown by one grid, and each frame power is the received signal time series shown in the middle diagram “r (n) or s (n)” as already described. It is obtained by squaring and adding N signal samples of r (n) for each signal sample.
一方、送話信号パワーブロックベクトルVs(j)は、図8の下段の図「Ps(k)」に示す通り、これもH個のフレームパワーから成る。下段の図でも1つのフレームパワーを1つのマス目で示していて、個々のフレームパワーは、既に述べた通り、中段の図「r(n) or s(n)」に示す送話信号時系列s(n)のN個の信号サンプルを、信号サンプル毎に二乗して加算することによって求められる。そして、番号jは送話信号パワーブロック番号と呼ぶ。j=0の場合、すなわちVs(0)の場合、番号jは、図8の下段に示すように、フレーム時刻kから過去のH個のフレームパワーから成るブロックを示し、番号j=1の場合、すなわちVs(1)の場合、フレーム時刻k-1から過去のH個のフレームパワーから成るブロックを示す。 On the other hand, the transmission signal power block vector Vs (j) is also composed of H frame powers as shown in the diagram “Ps (k)” in the lower part of FIG. Also in the lower diagram, one frame power is shown by one square, and each frame power is the transmission signal time series shown in the middle diagram “r (n) or s (n)” as already described. N signal samples of s (n) are obtained by squaring and adding each signal sample. The number j is called a transmission signal power block number. In the case of j = 0, that is, in the case of Vs (0), the number j indicates a block composed of H frame powers in the past from the frame time k as shown in the lower part of FIG. That is, in the case of Vs (1), a block composed of H frame powers in the past from the frame time k−1 is indicated.
図8の下段は、送話信号パワーブロックベクトルVs(j)がH個の送話信号フレームパワーから成ることを示している。送話信号パワーブロックベクトルVs(0)は、現フレーム時刻を含むブロックのパワーブロックベクトルである。送話信号パワーブロックベクトルVs(1)は、現フレーム時刻から1フレーム時刻過去のブロックのパワーブロックベクトルである。 The lower part of FIG. 8 shows that the transmission signal power block vector Vs (j) is composed of H transmission signal frame powers. The transmission signal power block vector Vs (0) is a power block vector of a block including the current frame time. The transmission signal power block vector Vs (1) is a power block vector of a block one frame time past from the current frame time.
演算部44は、ステップS34において、続いて、以上のように定義されるVRとVs(j)とを用いて、相関係数R(j)を以下のように求める。相関係数R(j)は、VRとVs(j)との類似度を示す係数である。
In step S34, the
次に演算部44は、ステップS36において、R(j)が最大となる送話信号パワーブロック番号jを最大相関番号J(k)とし、そのときのR(j)を最大相関係数C(k)として以下の式より最大相関番号平均値A(k)を求める。A(k)はフレーム時刻kを含めた任意個の過去のフレームの最大相関番号の平均値である。
Next, in step S36, the
送話状態判定部48は、ステップS38において、演算部44から信号線58を介して供給される各値J(k)、A(k)およびC(k)を用い、以下の条件により、送話状態の判定を行なう。
In step S38, the transmission
上記の条件が満たされている場合は、最大相関番号J(k)と最大相関番号平均値A(k)との差が|E|の範囲内であり、かつ、最大相関係数C(k)が閾値G以上である。上記の条件が満たされていない場合は、最大相関番号J(k)と最大相関番号平均値A(k)との差が|E|の範囲外であるか、あるいは最大相関係数C(k)が閾値G未満であるか、あるいはそれらの両方である。 When the above condition is satisfied, the difference between the maximum correlation number J (k) and the maximum correlation number average value A (k) is within the range of | E |, and the maximum correlation coefficient C (k ) Is greater than or equal to the threshold G. If the above condition is not satisfied, the difference between the maximum correlation number J (k) and the maximum correlation number average value A (k) is outside the range of | E |, or the maximum correlation coefficient C (k ) Is less than the threshold G or both.
値J(k)と値A(k)との差が|E|の範囲内ということは、フレーム時刻kを含めた過去のフレームにおける最大相関番号平均値が値J(k)と同一もしくはこれに近い値であることを意味する。値C(k)が閾値G以上であるということは、j=J(k)においてVRとVs(j)とが類似していることを意味する。つまり、条件が満たされていれば、同一もしくは近い相関番号でのVRとVsとが類似しているため、エコーとみなすことができる。条件が満たされている場合はステップS40に進み、条件が満たされていない場合はステップS42に進む。 The difference between the value J (k) and the value A (k) is within the range of | E | means that the maximum correlation number average value in the past frame including the frame time k is the same as the value J (k) It means that the value is close to. That the value C (k) is greater than or equal to the threshold G means that VR and Vs (j) are similar at j = J (k). In other words, if the condition is satisfied, VR and Vs at the same or close correlation number are similar and can be regarded as an echo. If the condition is satisfied, the process proceeds to step S40. If the condition is not satisfied, the process proceeds to step S42.
送話状態判定部48は、ステップS40において、近端がフレーム時刻kにおいて送話状態ではないと判断し、判定フラグ0を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S40, the transmission
送話状態判定部48は、ステップS42では、近端がフレーム時刻kにおいて送話状態であると判断し、判定フラグ1を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S42, the transmission
図6において、第2の実施例におけるエコーキャンセル部50が行なうエコーキャンセル処理は第1の実施例で説明したものと同様である。
In FIG. 6, the echo cancellation processing performed by the
本発明による送話状態判定方法の第3の実施例における演算処理、送話状態判定方法およびエコーキャンセル処理を、図1、図6、図9および図10を用いて、以下、詳細に説明する。 The arithmetic processing, the transmission state determination method, and the echo cancellation processing in the third embodiment of the transmission state determination method according to the present invention will be described in detail below with reference to FIGS. 1, 6, 9 and 10. .
図9は本発明による第3の実施例における演算処理と送話状態判定方法とを示すフローチャートである。ただし、ステップS10・S30・S32は、図7の第2の実施例で説明したものと同様である。 FIG. 9 is a flowchart showing a calculation process and a transmission state determination method according to the third embodiment of the present invention. However, steps S10, S30, and S32 are the same as those described in the second embodiment of FIG.
演算部44は、ステップS50において、受話信号フレームパワー時系列Pr(k)を用いて、以下のように受話信号有音無音判定フラグFr(k)を求める。
In step S50, the
Pr(k)>Tr(k)・Brの場合、Fr(k)=1
Pr(k)≦Tr(k)・Brの場合、Fr(k)=0
ただし、値Brは後述する値Tr(k)の更新によって値Tr(k+1)とフレームパワーPr(k+1)とのレベル差が大きくなってしまう場合を是正するための値であり、値Brの大きさに応じてフラグFr(k)の値が1もしくは0のどちらかに偏るようなものではなく、1より大きい実数の中から経験上任意に定めてよい値である。値Tr(k)は背景ノイズレベルであり、初期値は必ずFr(k)=0となるような十分に大きな値である。
When Pr (k)> Tr (k) · Br, Fr (k) = 1
When Pr (k) ≦ Tr (k) ・ Br, Fr (k) = 0
However, the value Br is a value for correcting a case where the level difference between the value Tr (k + 1) and the frame power Pr (k + 1) becomes large due to the update of the value Tr (k) described later, The value of the flag Fr (k) is not biased to either 1 or 0 according to the magnitude of the value Br, and may be arbitrarily determined from experience among real numbers larger than 1. The value Tr (k) is the background noise level, and the initial value is a sufficiently large value so that Fr (k) = 0.
演算部44は、受話信号有音無音判定フラグFr(k)を求めた後、次のフレームのために背景ノイズレベルTr(k)を以下のように更新する。
After obtaining the received signal speech / non-utterance determination flag Fr (k), the
Pr(k)<Tr(k+1) の場合、Tr(k+1)=Pr(k)とする。
Pr(k)≧Tr(k+1) の場合、Tr(k+1)=Tr(k+1)とする。
When Pr (k) <Tr (k + 1), Tr (k + 1) = Pr (k).
When Pr (k) ≧ Tr (k + 1), Tr (k + 1) = Tr (k + 1).
次に演算部44は、ステップS52において、送話信号フレームパワー時系列Ps(k)を用いて、以下のように送話信号有音無音判定フラグFs(k)を求める。
Ps(k)>Ts(k)・Bsの場合、Fs(k)=1
Ps(k)≦Ts(k)・Bsの場合、Fs(k)=0
ただし、値Bsは後述するTs(k)の更新によって値Ts(k+1)とフレームパワーPs(k+1)とのレベル差が大きくなってしまう場合を是正するための値であり、値Bsの大きさに応じてフラグFs(k)の値が1もしくは0のどちらかに偏るようなものではなく、1より大きい実数の中から経験上任意に定めてよい値である。値Ts(k)は背景ノイズレベルであり、初期値は必ずFs(k)=0となるような十分に大きな値である。
Next, in step S52, the
If Ps (k)> Ts (k) · Bs, Fs (k) = 1
If Ps (k) ≦ Ts (k) ・ Bs, Fs (k) = 0
However, the value Bs is a value for correcting the case where the level difference between the value Ts (k + 1) and the frame power Ps (k + 1) becomes large due to the update of Ts (k) described later. The value of the flag Fs (k) is not biased to either 1 or 0 depending on the size of Bs, and it is a value that can be arbitrarily determined from real numbers larger than 1. The value Ts (k) is the background noise level, and the initial value is a sufficiently large value such that Fs (k) = 0.
演算部44は、送話信号有音無音判定フラグFs(k)を求めた後、次のフレームのために背景ノイズレベルTs(k)を以下のように更新する。
After calculating the transmission signal sound / silence determination flag Fs (k), the
Ps(k)<Ts(k+1) の場合、Ts(k+1)=Ps(k)とする。
Ps(k)≧Ts(k+1) の場合、Ts(k+1)=Ts(k+1)とする。
When Ps (k) <Ts (k + 1), Ts (k + 1) = Ps (k).
When Ps (k) ≧ Ts (k + 1), Ts (k + 1) = Ts (k + 1).
次に演算部44は、ステップS54において、まずフレーム数H(Hは1以上の任意の整数)を1ブロックとして以下のように定義される受話信号ブロック有音無音判定ベクトルURと送話信号ブロック有音無音判定ベクトルUs(j’)とを求める。
Next, in step S54, the
受話信号有音無音判定ベクトルURは、図10の上段の図「Fr(k)」に示す通り、H個の受話信号有音無音判定フラグFrから成る。この上段の図では1つの受話信号有音無音判定フラグを1つのマス目で示していて、H個の有音無音判定フラグは1つのブロックとして扱われる。 The received signal utterance / silence determination vector UR is composed of H received signal utterance / non-utterance determination flags Fr as shown in the upper diagram “Fr (k)” of FIG. In the upper diagram, one received signal sound / silence determination flag is shown by one square, and the H sound / silence determination flags are handled as one block.
図10の範囲302、304、306はそれぞれ、受話信号時系列r(n)もしくは送話信号時系列s(n)を構成するN個の信号サンプルであり、N個の信号サンプルは1つのフレームとして扱われ、r(n)・s(n)はN個の信号サンプル毎にフレームとして分割される。
一方、送話信号有音無音判定ベクトルUs(j’)は、図10の下段の図「Fs(k)」に示す通り、これもH個の受話信号有音無音判定フラグFsから成る。下段の図でも1つの受話信号有音無音判定フラグを1つのマス目で示していて、H個の有音無音判定フラグは1つのブロックとして扱われる。 On the other hand, the transmission signal sound / silence determination vector Us (j ′) is also composed of H received signal sound / silence determination flags Fs as shown in the lower diagram “Fs (k)” of FIG. Also in the lower diagram, one received signal utterance / non-utterance determination flag is shown by one square, and the H utterance / non-utterance determination flags are handled as one block.
図10に示す送話信号ブロック有音無音判定ベクトルUs(0)、Us(1)は、送話信号フレーム有音無音判定値ブロック番号がそれぞれj’=0、j’=1の場合であり、それぞれ、H個の送話信号有音無音判定フラグFsから成る。H個の有音無音判定フラグは1つのブロックとして扱われる。 The transmission signal block sound / silence determination vectors Us (0) and Us (1) shown in FIG. 10 are when the transmission signal frame sound / silence determination value block number is j '= 0 and j' = 1, respectively. , Each of which consists of H transmission signal sound / silence determination flags Fs. H sound / silence determination flags are treated as one block.
以上のように定義されるベクトルUR、Us(j’)を用いて、相関係数R’(j’)は以下のように求める。相関係数R’(j’)は、ベクトルURとベクトルUs(j’)との類似度を示す係数である。 Using the vectors UR and Us (j ′) defined as described above, the correlation coefficient R ′ (j ′) is obtained as follows. The correlation coefficient R ′ (j ′) is a coefficient indicating the degree of similarity between the vector UR and the vector Us (j ′).
次に演算部44は、ステップS54において、R’(j’)が最大となる送話信号フレーム有音無音判定値ブロック番号jを最大相関番号J’(k)とし、そのときのR’(j’)を最大相関係数C’(k)として以下の式より最大相関番号平均値A’(k)を求める。A’(k)はフレーム時刻kを含めた任意個の過去のフレームの最大相関番号の平均値である。
Next, in step S54, the
送話状態判定部48は、ステップS56において、演算部44から信号線58を介して供給される各値J’(k)、A’(k)およびC’(k)を用い、以下の条件により、送話状態の判定を行なう。
In step S56, the transmission
上記の条件が満たされている場合は、最大相関番号J’(k)と最大相関番号平均値A’(k)との差が|E|の範囲内であり、かつ、最大相関係数C’(k)が閾値G’以上である。上記の条件が満たされていない場合は、最大相関番号J’(k)と最大相関番号平均値A’(k)との差が|E|の範囲外であるか、あるいは最大相関係数C’(k)が閾値G’未満であるか、あるいはそれらの両方である。 When the above condition is satisfied, the difference between the maximum correlation number J ′ (k) and the maximum correlation number average value A ′ (k) is within the range of | E |, and the maximum correlation coefficient C '(k) is greater than or equal to threshold G'. If the above conditions are not satisfied, the difference between the maximum correlation number J ′ (k) and the maximum correlation number average value A ′ (k) is outside the range of | E |, or the maximum correlation coefficient C '(k) is less than threshold G' or both.
値J’(k)と値A’(k)との差が|E|の範囲内ということは、フレーム時刻kを含めた過去のフレームにおける最大相関番号平均値がJ’(k)と同一もしくはこれに近い相関番号であることを意味する。値C’(k)が閾値G’以上であるということは、j’=J’(k)においてURとUs(j’)とが類似していることを意味する。つまり、条件が満たされていれば、同一もしくは近い相関番号でURとUsとが類似しているため、エコーとみなすことができる。条件が満たされている場合はステップS58に進み、条件が満たされていない場合はステップS60に進む。 The difference between the value J ′ (k) and the value A ′ (k) is within the range of | E | means that the maximum correlation number average value in the past frame including the frame time k is the same as J ′ (k). Or it means a correlation number close to this. That the value C ′ (k) is equal to or greater than the threshold value G ′ means that UR and Us (j ′) are similar when j ′ = J ′ (k). That is, if the condition is satisfied, UR and Us are similar with the same or similar correlation number, and can be regarded as an echo. If the condition is satisfied, the process proceeds to step S58, and if the condition is not satisfied, the process proceeds to step S60.
送話状態判定部48は、ステップS58において、近端がフレーム時刻kにおいて送話状態ではないと判断し、判定フラグ0を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S58, the transmission
送話状態判定部48は、ステップS60では、近端がフレーム時刻kにおいて送話状態であると判断し、判定フラグ1を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S60, the transmission
図6において、第3の実施例におけるエコーキャンセル部50が行なうエコーキャンセル処理は第1の実施例で説明したものと同様である。
In FIG. 6, the echo cancellation processing performed by the
本発明による送話状態判定方法の第4の実施例における演算処理、送話状態判定方法およびエコーキャンセル処理を、図1、図6、図11および図12を用いて、以下、詳細に説明する。 The arithmetic processing, the transmission state determination method, and the echo cancellation processing in the fourth embodiment of the transmission state determination method according to the present invention will be described in detail below with reference to FIGS. 1, 6, 11, and 12. .
図11は本発明の第4の実施例における演算処理と送話状態判定方法とを示すフローチャートである。ただし、ステップS10・S30・S32は、図7の第2の実施例で説明したものと同様である。 FIG. 11 is a flowchart showing a calculation process and a transmission state determination method in the fourth embodiment of the present invention. However, steps S10, S30, and S32 are the same as those described in the second embodiment of FIG.
演算部44は、ステップS70において、受話信号フレームパワー時系列Pr(k)を用いて、以下のように受話信号レベル変動フラグLr(k)を求める。
Pr(k)>Pr(k-1)・Grの場合、Lr(k)=1
Pr(k)≦Pr(k-1)・Grの場合、Lr(k)=0
ただし、値Grは、受話信号フレームパワー時系列Pr(k)とPr(k-1)との差が大きくなってしまう場合を是正するための値であり、1より大きい実数の中から経験上任意に定めてよい値である。
In step S70, the
When Pr (k)> Pr (k-1) ・ Gr, Lr (k) = 1
When Pr (k) ≦ Pr (k-1) ・ Gr, Lr (k) = 0
However, the value Gr is a value for correcting the case where the difference between the received signal frame power time series Pr (k) and Pr (k-1) becomes large. It is a value that can be arbitrarily determined.
演算部44は、受話信号レベル変動フラグLr(k)を求めた後、送話信号フレームパワー時系列Ps(k)を用いて、以下のように有音無音判定フラグLs(k)を求める。
Ps(k)>Ps(k-1)・Gsの場合、Ls(k)=1
Ps(k)≦Ps(k-1)・Gsの場合、Ls(k)=0
ただし、値Gsは、送話信号フレームパワー時系列Ps(k)とPs(k-1)との差が大きくなってしまう場合を是正するための値であり、1より大きい実数の中から経験上任意に定めてよい値である。
After calculating the reception signal level fluctuation flag Lr (k), the
When Ps (k)> Ps (k-1) ・ Gs, Ls (k) = 1
When Ps (k) ≦ Ps (k-1) ・ Gs, Ls (k) = 0
However, the value Gs is a value for correcting the case where the difference between the transmission signal frame power time series Ps (k) and Ps (k-1) becomes large. The value may be arbitrarily determined.
次に演算部44は、ステップS72において、まずフレーム数H(Hは1以上の任意の整数)を1つのブロックとして以下のように定義される受話信号ブロックレベル変動ベクトルTRと送話信号ブロックレベル変動ベクトルTs(j’’)とを求める。
Next, in step S72, the
受話信号ブロックレベル変動ベクトルTRは、図12の上段の図「Lr(k)」に示す通り、H個の受話信号レベル変動フラグLrから成る。この上段の図では1つの受話信号レベル変動フラグを1つのマス目で示していて、H個の受話信号レベル変動フラグは1つのブロックとして扱われる。 The received signal block level fluctuation vector TR is composed of H received signal level fluctuation flags Lr as shown in the upper diagram “Lr (k)” of FIG. In the upper diagram, one received signal level variation flag is shown by one square, and H received signal level variation flags are handled as one block.
図12の範囲402、404、406はそれぞれ、受話信号時系列r(n)もしくは送話信号時系列s(n)を構成するN個の信号サンプルであり、N個の信号サンプルは1つのフレームとして扱われ、r(n)・s(n)はN個の信号サンプル毎にフレームとして分割される。
一方、送話信号ブロックレベル変動ベクトルTs(j’’)は、図12の下段の図「Ls(k)」に示すとおり、これもH個の有音無音判定フラグLsから成る。下段の図でも1つの有音無音判定フラグを1つのマス目で示していて、H個の有音無音判定フラグは1つのブロックとして扱われる。 On the other hand, the transmission signal block level variation vector Ts (j ″) is composed of H sound / silence determination flags Ls as shown in the lower diagram “Ls (k)” of FIG. Also in the lower diagram, one utterance / non-utterance determination flag is shown by one square, and H utterance / non-utterance determination flags are treated as one block.
図12に示す送話信号ブロックレベル変動ベクトルTs(0)、Ts(1)は、送話信号フレームレベル変動判定値ブロック番号がそれぞれj’’=0、j’’=1の場合であり、それぞれ、H個の有音無音判定フラグLsから成る。H個の有音無音判定フラグは1つのブロックとして扱われる。 The transmission signal block level fluctuation vectors Ts (0) and Ts (1) shown in FIG. 12 are cases where the transmission signal frame level fluctuation judgment value block numbers are j '' = 0 and j '' = 1, respectively. Each consists of H sound / silence determination flags Ls. H sound / silence determination flags are treated as one block.
以上のように定義されるベクトルTRとTs(j’’)と用いて、相関係数R’’(j’’)を以下のように求める。 The correlation coefficient R ″ (j ″) is obtained as follows using the vector TR and Ts (j ″) defined as described above.
次に演算部44は、ステップS72において、R’’(j’’)が最大となる送話信号フレームレベル変動判定値ブロック番号j’’を最大相関番号J’’(k)とし、そのときのR’’(j’’)を最大相関係数C’’(k)として以下の式より最大相関番号平均値A’’(k)を求める。A’’(k)はフレーム時刻kを含めた任意の過去のフレームの最大相関番号の平均値である。
Next, in step S72, the
送話状態判定部48は、ステップS74において、演算部44から信号線58を介して供給される各値J’’(k)、A’’(k)およびC’’(k)を用い、以下の条件により、送話状態の判定を行なう。
In step S74, the transmission
上記の条件が満たされている場合は、最大相関番号J’’(k)と最大相関番号平均値A’’(k)との差が|E|の範囲内であり、かつ、最大相関係数C’’(k)が閾値G’’以上である。上記の条件が満たされていない場合は、最大相関番号J’’(k)と最大相関番号平均値A’’(k)との差が|E|の範囲外であるか、あるいは最大相関係数C’’(k)が閾値G’’未満であるか、あるいはそれらの両方の場合である。 If the above conditions are satisfied, the difference between the maximum correlation number J '' (k) and the maximum correlation number average value A '' (k) is within the range of | E | and the maximum correlation The number C ″ (k) is greater than or equal to the threshold G ″. If the above conditions are not met, the difference between the maximum correlation number J '' (k) and the maximum correlation number average A '' (k) is outside the range of | E | This is the case if the number C ″ (k) is less than the threshold G ″ or both.
値J’’(k)と値A’’(k)との差が|E|の範囲内ということは、フレーム時刻kを含めた過去のフレームにおける最大相関番号平均値がJ’’(k)と同一もしくはこれに近い相関番号であることを意味している。値C’’(k)が閾値G’’以上であるということは、j’’=J’’(k)においてTRとTs(j’’)とが類似していることを意味している。つまり、条件が満たされていれば、同一もしくは近い相関番号でTRとTs(j’’)とが類似しているため、エコーとみなすことができる。条件が満たされている場合はステップS76に進み、条件が満たされていない場合はステップS78に進む。 The difference between the value J '' (k) and the value A '' (k) is within the range of | E | means that the maximum correlation number average value in the past frame including the frame time k is J '' (k ) Means the same or close correlation number. The value C ″ (k) being equal to or greater than the threshold G ″ means that TR and Ts (j ″) are similar in j ″ = J ″ (k). . That is, if the condition is satisfied, TR and Ts (j ″) are similar with the same or close correlation number, and can be regarded as an echo. If the condition is satisfied, the process proceeds to step S76, and if the condition is not satisfied, the process proceeds to step S78.
送話状態判定部48は、ステップS76において、近端がフレーム時刻kにおいて送話状態ではないと判断し、判定フラグ0を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S76, the transmission
送話状態判定部48は、ステップS78では、近端がフレーム時刻kにおいて送話状態であると判断し、判定フラグ1を信号線60を介してエコーキャンセル部50に供給し、図6のステップS22に進む。
In step S78, the transmission
図6において、第4の実施例におけるエコーキャンセル部50が行なうエコーキャンセル処理は第1の実施例で説明したものと同様である。
In FIG. 6, the echo cancellation processing performed by the
40 エコーキャンセラ
42、46 音声検出器
44 演算部
48 送話状態判定部
50 エコーキャンセル部
40 Echo canceller
42, 46 Voice detector
44 Calculation unit
48 Transmitting state judgment unit
50 Echo cancellation part
Claims (3)
前記受話信号時系列を分割した各フレームと、前記送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、
前記受話信号フレームパワー時系列に含まれる一定個数の受話信号フレームパワーを要素とする受話信号パワーブロックベクトルと、前記送話信号フレームパワー時系列における、前記一定個数の送話信号フレームパワーを要素とする1つ以上の送話信号パワーブロックベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、
判定手段で前記1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が所定の閾値以上であり、かつ、前記現フレーム時刻についての最大相関係数をもたらす送話信号パワーブロックベクトルの番号と前記現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号パワーブロックベクトルの各番号の加算平均値との差の絶対値が第2の所定の値の範囲内である場合に前記現フレーム時刻において前記送受話手段が送話状態ではないと判定し、それ以外の場合に前記現フレーム時刻において前記送受話手段が送話状態であると判定する判定工程とを含むことを特徴とする送話状態判定方法。 A dividing step of dividing the received signal time series arriving at the transmission / reception means and the transmission signal time series emitted from the transmission / reception means into frames each consisting of a fixed number of signal samples over a fixed interval of frame times. When,
Frame power calculation step for obtaining a received signal frame power time series and a transmitted signal frame power time series from each frame obtained by dividing the received signal time series and each frame obtained by dividing the transmitted signal time series, respectively. When,
A received signal power block vector having a certain number of received signal frame powers included in the received signal frame power time series as an element, and the fixed number of transmitted signal frame powers as elements in the transmitted signal frame power time series. A correlation coefficient calculating step of calculating one or more correlation coefficients from each of the one or more transmission signal power block vectors to be
Maximum of the one or more correlation coefficients in determining means, maximum correlation coefficient of the current frame time is at least a predetermined threshold value, and transmission signal results in a maximum correlation coefficient for the current frame time power block said the number of vector absolute value of the difference between the average value of each number of the transmission signal power block vector results in maximum correlation coefficient for each of the current frame time to any past frame time is second When the current frame time is within the predetermined value range, it is determined that the transmission / reception means is not in the transmission state at the current frame time. Otherwise, the transmission / reception means is in the transmission state at the current frame time. transmission state determination method characterized by including a determining step and.
前記受話信号時系列を分割した各フレームと、前記送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、
前記受話信号フレームパワー時系列から、フレーム毎に、有音無音のいずれかを判定する受話信号有音無音判定フラグ時系列を算出する第1のフラグ算出工程と、
前記送話信号フレームパワー時系列から、フレーム毎に、有音無音のいずれかを判定する送話信号有音無音判定フラグ時系列を算出する第2のフラグ算出工程と、
前記受話信号有音無音判定フラグ時系列に含まれる一定個数の受話信号有音無音判定フラグを要素とする受話信号ブロック有音無音判定ベクトルと、前記送話信号有音無音判定フラグ時系列における、前記一定個数の送話信号有音無音判定フラグを要素とする1つ以上の送話信号ブロック有音無音判定ベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、
判定手段で前記1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が第1の所定の閾値以上であり、かつ、前記現フレーム時刻についての最大相関係数をもたらす送話信号ブロック有音無音判定ベクトルの番号と前記現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号ブロック有音無音判定ベクトルの各番号の加算平均値との差の絶対値が第2の所定の値の範囲内である場合に前記現フレーム時刻において前記送受話手段が送話状態でないと判定し、それ以外の場合に前記現フレーム時刻において前記送受話手段が送話状態であると判定する判定工程とを含むことを特徴とする送話状態判定方法。 A dividing step of dividing the received signal time series arriving at the transmission / reception means and the transmission signal time series emitted from the transmission / reception means into frames each consisting of a fixed number of signal samples over a fixed interval of frame times. When,
Frame power calculation step for obtaining a received signal frame power time series and a transmitted signal frame power time series from each frame obtained by dividing the received signal time series and each frame obtained by dividing the transmitted signal time series, respectively. When,
A first flag calculating step of calculating a received signal utterance / non-utterance determination flag time series for determining, for each frame, voiced / silent from the received signal frame power time series;
A second flag calculation step of calculating a transmission signal utterance / non-utterance determination flag time series for determining, for each frame, voiced / silent from the transmission signal frame power time series;
In a received signal block utterance / non-utterance determination flag having a certain number of received signal utterance / non-utterance determination flags included in the received signal utterance / non-utterance determination flag time series, and in the transmitted signal utterance / non-utterance determination flag time series, A correlation coefficient calculation step of calculating one or more correlation coefficients from each of the one or more transmission signal block utterance / non-utterance determination vectors having the predetermined number of transmission signal utterance / non-utterance determination flags as elements; ,
Maximum of the one or more correlation coefficients in determining means, maximum correlation coefficient of the current frame time is equal to or greater than a first predetermined threshold, and results in a maximum correlation coefficient for the current frame time average value of each number of the transmission signal block activity decision vector resulting in maximum correlation coefficient for each of the the number of transmission signal block activity decision vector from the current frame time to any past frame time When the absolute value of the difference between the two is within a second predetermined value range, it is determined that the transmission / reception means is not in the transmission state at the current frame time, and otherwise the transmission at the current frame time. And a determination step of determining that the receiving means is in the transmission state.
前記受話信号時系列を分割した各フレームと、前記送話信号時系列を分割した各フレームとから、それぞれ、受話信号フレームパワー時系列と、送話信号フレームパワー時系列とを求めるフレームパワー演算工程と、
前記受話信号フレームパワー時系列から、フレーム毎に、受話信号のレベル変動の有無いずれかを判定する受話信号レベル変動フラグ時系列を算出する第1のフラグ算出工程と、
前記送話信号フレームパワー時系列から、フレーム毎に、送話信号のレベル変動の有無いずれかを判定する送話信号レベル変動フラグ時系列を算出する第2のフラグ算出工程と、
前記受話信号レベル変動フラグ時系列に含まれる一定個数の受話信号レベル変動フラグを要素とする受話信号ブロックレベル変動ベクトルと、前記送話信号レベル変動フラグ時系列における、前記一定個数の送話信号レベル変動フラグを要素とする1つ以上の送話信号ブロックレベル変動ベクトルの各々とから、1つ以上の相関係数を演算する相関係数演算工程と、
判定手段で前記1つ以上の相関係数のうち最大の、現フレーム時刻についての最大相関係数が第1の所定の閾値以上であり、かつ、前記現フレーム時刻についての最大相関係数をもたらす送話信号ブロックレベル変動ベクトルの番号と前記現フレーム時刻から任意の過去のフレーム時刻までのそれぞれについての最大相関係数をもたらす送話信号ブロックレベル変動ベクトルの各番号の加算平均値との差の絶対値が第2の所定の値の範囲内である場合に前記現フレーム時刻において前記送受話手段が送話状態でないと判定し、それ以外の場合に前記現フレーム時刻において前記送受話手段が送話状態であると判定する判定工程とを含むことを特徴とする送話状態判定方法。 A dividing step of dividing the received signal time series arriving at the transmission / reception means and the transmission signal time series emitted from the transmission / reception means into frames each consisting of a fixed number of signal samples over a fixed interval of frame times. When,
Frame power calculation step for obtaining a received signal frame power time series and a transmitted signal frame power time series from each frame obtained by dividing the received signal time series and each frame obtained by dividing the transmitted signal time series, respectively. When,
A first flag calculation step of calculating a reception signal level fluctuation flag time series for determining whether or not there is any fluctuation in the level of the reception signal for each frame from the reception signal frame power time series;
A second flag calculation step of calculating a transmission signal level fluctuation flag time series for determining whether or not there is a fluctuation in the level of the transmission signal for each frame from the transmission signal frame power time series;
Received signal block level variation vector having a certain number of received signal level variation flags included in the received signal level variation flag time series, and the certain number of transmitted signal levels in the transmitted signal level variation flag time series A correlation coefficient calculating step of calculating one or more correlation coefficients from each of one or more transmission signal block level fluctuation vectors having a fluctuation flag as an element;
Maximum of the one or more correlation coefficients in determining means, maximum correlation coefficient of the current frame time is equal to or greater than a first predetermined threshold, and results in a maximum correlation coefficient for the current frame time of the difference between the average value of each number of the transmission signal block level variation vector results in maximum correlation coefficient for each of the the number of transmission signal block level variation vector from the current frame time to any past frame time When the absolute value is within the range of the second predetermined value , it is determined that the transmission / reception means is not in a transmission state at the current frame time, and otherwise, the transmission / reception means transmits / receives at the current frame time. transmission state determination method characterized by including a determining that the talk state process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292390A JP5093341B2 (en) | 2010-12-28 | 2010-12-28 | Transmission status judgment method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292390A JP5093341B2 (en) | 2010-12-28 | 2010-12-28 | Transmission status judgment method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005289684A Division JP2007104167A (en) | 2005-10-03 | 2005-10-03 | Method for judging message transmission state |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011103679A JP2011103679A (en) | 2011-05-26 |
JP5093341B2 true JP5093341B2 (en) | 2012-12-12 |
Family
ID=44193780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010292390A Expired - Fee Related JP5093341B2 (en) | 2010-12-28 | 2010-12-28 | Transmission status judgment method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5093341B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2585786B2 (en) * | 1989-03-13 | 1997-02-26 | 株式会社日立製作所 | Two-way call detection system, echo canceller and loudspeaker using the same |
JPH07303070A (en) * | 1994-05-06 | 1995-11-14 | N T T Idou Tsuushinmou Kk | Double talk detecting method |
JP2003051879A (en) * | 2001-08-08 | 2003-02-21 | Fujitsu Ltd | Speech device |
JP2004297236A (en) * | 2003-03-26 | 2004-10-21 | Hitachi Communication Technologies Ltd | Communication system and echo canceller used therefor |
-
2010
- 2010-12-28 JP JP2010292390A patent/JP5093341B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011103679A (en) | 2011-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5036874B2 (en) | Echo canceller | |
US6584441B1 (en) | Adaptive postfilter | |
US7852792B2 (en) | Packet based echo cancellation and suppression | |
US8751221B2 (en) | Communication apparatus for adjusting a voice signal | |
KR100439652B1 (en) | Audio decoder and coding error compensating method | |
EP2140637B1 (en) | Method of transmitting data in a communication system | |
EP2700161B1 (en) | Processing audio signals | |
KR20070042565A (en) | Detection of voice activity in an audio signal | |
JP2009518663A (en) | Echo detection | |
US8874437B2 (en) | Method and apparatus for modifying an encoded signal for voice quality enhancement | |
WO2019000178A1 (en) | Frame loss compensation method and device | |
US8144862B2 (en) | Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation | |
US9129590B2 (en) | Audio encoding device using concealment processing and audio decoding device using concealment processing | |
JP2007104167A (en) | Method for judging message transmission state | |
US9172791B1 (en) | Noise estimation algorithm for non-stationary environments | |
JP4551817B2 (en) | Noise level estimation method and apparatus | |
JP4341586B2 (en) | Call quality objective evaluation server, method and program | |
JP4414705B2 (en) | Excitation signal encoding apparatus and excitation signal encoding method | |
JP5093341B2 (en) | Transmission status judgment method | |
JP4432916B2 (en) | Audio processing device | |
JP2017216525A (en) | Noise suppression device, noise suppression method, and computer program for noise suppression | |
JP3809164B2 (en) | Comprehensive call quality estimation method and apparatus, program for executing the method, and recording medium therefor | |
US11070666B2 (en) | Methods and devices for improvements relating to voice quality estimation | |
JP4398323B2 (en) | Digital wireless communication device | |
JP5952252B2 (en) | Call quality estimation method, call quality estimation device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5093341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |