JP2010124207A - Volume adjusting device, and method, program, and recording medium of the same - Google Patents
Volume adjusting device, and method, program, and recording medium of the same Download PDFInfo
- Publication number
- JP2010124207A JP2010124207A JP2008295634A JP2008295634A JP2010124207A JP 2010124207 A JP2010124207 A JP 2010124207A JP 2008295634 A JP2008295634 A JP 2008295634A JP 2008295634 A JP2008295634 A JP 2008295634A JP 2010124207 A JP2010124207 A JP 2010124207A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- gain
- input
- sound signal
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Control Of Amplification And Gain Control (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
Description
この発明は、入力した音声の音量を的に調整する音量調整装置、その方法、プログラム、記録媒体に関する。 The present invention relates to a volume control apparatus, a method, a program, and a recording medium for adjusting the volume of input sound.
入力した音の音量を適切な音量にする音量調整装置は様々ある(例えば、特許文献1に記載)。図1に従来の音量調整装置6、8を電話機に用いた場合の例を示し、図2に図1を簡略化したものを示す。電話機50とハンドセット42とはコード(図示せず)で結ばれているとし、電話機50とハンドセット42との間に音量調整装置6、8は設けられる。この説明では、エコー抑圧装置10を適用した場合を示す。また、図1の前提として、第2音源からの第2音Gが第2収音部4で参照音Qとして収音され、第1音源からの第1音Fと第2音Gが第1収音部2で入力音Pとして収音される。そして、エコー抑圧装置10からエコー抑圧後の信号を出力する(後述するエコー信号を抑圧した信号)場合を説明する。電話機を用いて、自地点の話者と他地点の話者とが通話をしている場合を考えると、第1音源とは他地点の話者の口(音声が発せられる箇所)であり、第2音源とは自地点の話者の口(音声が発せられる箇所)である。第1音、第2音がハンドセットに入力された後に変換された電気信号をそれぞれ第1音信号F(x)、第2音信号G(x)とする。ただしxは時刻とする。第1音F、第1音信号F(x)を実線で示し、第2音G、第2音信号G(x)を破線で示す。ハンドセット42は、送話信号を入力させる送話部46と、受音信号を経由出力させる受聴部44とからなるとする。第2音源からの第2音信号G(x)は、送話信号に変換され送話部46を経由して、第2収音部4で収音されつつ、加算部52に入力され、ネットワーク(図示せず)を経由して、他地点の話者に送話信号を送信される。
There are various volume control devices that adjust the volume of input sound to an appropriate volume (for example, described in Patent Document 1). FIG. 1 shows an example in which conventional
一方、ネットワークを経由して到達した第1音信号F(x)は加算部52に入力される。加算部52は、第2音信号G(x)にγ(音響・電気系による係数)を乗算したもの(エコー音信号(側音信号))と、第1音信号F(x)と加算する。つまり、加算部52は、F(x)+γG(x)を演算して、第1収音部2に出力する。出力された信号F(x)+γG(x)は、第1収音部2で収音されつつ、受聴部44から再生される。受聴部44で第1音信号F(x)のみを再生するのではなく、F(x)+γG(x)を再生する理由は、聴感上、違和感をなくすために、自身の話した声(つまり、第2音信号G(x)についての音声)を第1音(第1音信号F(x)についての音声)に重畳して受聴部44で再生させている。以下の説明では、入力音Pについての信号を入力音信号P(x)(=F(x)+γG(x))とし、参照音Qについての信号を参照音信号Q(x)(=G(x))とする。
On the other hand, the first sound signal F (x) reached via the network is input to the adding unit 52. The adder 52 adds the second sound signal G (x) multiplied by γ (coefficient by acoustic / electrical system) (echo sound signal (side sound signal)) and the first sound signal F (x). . That is, the adder 52 calculates F (x) + γG (x) and outputs it to the first
第1収音部2よりの入力音信号P(x)は音量調整装置6に入力され、第2収音部4よりの参照音信号Q(x)は音量調整装置8に入力される。音量調整装置6、8はそれぞれ入力音信号P(x)、参照音信号Q(x)の利得(入力音、参照音の音量)を適切な値に調整する。調整後の入力音信号P(x)、調整後の参照音信号Q(x)を入力として、エコー抑圧装置10でエコー音信号を抑圧する。入力音信号P(x)、参照音信号Q(x)の利得(入力音、参照音の音量)を適切な値に調整する理由は、入力音信号P(x)、参照音信号Q(x)の振幅が大きすぎて、入力音信号P(x)、参照音信号Q(x)が歪む場合には、適応フィルタ係数を適切に学習できない等の問題が発生するからである。
上記のような構成にした場合、音量調整装置によって、入力音と参照音の音量がばらばらに調整されるため、音量変更の度にエコー抑圧装置の適応量の再計算が必要になり、その再計算が終わるまでの間、エコーを抑圧できず、エコー抑圧装置からの出力にエコーが残ったままになる。つまり、常に音量調整装置により音量が変化すると、エコーを消去できなくなる。 In the case of the above configuration, the volume of the input sound and the reference sound are adjusted differently by the volume adjustment device, so it is necessary to recalculate the adaptation amount of the echo suppression device every time the volume is changed. Until the calculation is completed, the echo cannot be suppressed, and the echo remains in the output from the echo suppressor. That is, if the volume is always changed by the volume adjusting device, the echo cannot be erased.
上述では音量調整装置をエコー抑圧装置の前段に設けた例を説明したが、図3に示すように、エコー抑圧装置10の後段に音量調整装置12を設けることもできる。この構成をとることで、上記問題は解決できる。しかし、図3のような構成である場合に、エコー抑圧装置10の入力の際に、入力音の音声波形、参照音の音声波形の少なくとも一方が最大値(エコー抑圧装置10の入力のピーク)を越えて波形が歪むと、エコー抑圧装置では適切にエコーを抑圧できなくなる。
In the above description, an example in which the volume control device is provided in the previous stage of the echo suppression device has been described. However, as shown in FIG. 3, the
本願の目的は、入力音、参照音の音量を変更した場合でもエコーの抑圧を適切に行うことができる音量調整装置、その方法、そのプログラム、その記録媒体を提供するものである。 An object of the present application is to provide a volume adjusting device, a method thereof, a program thereof, and a recording medium capable of appropriately suppressing echo even when the volume of an input sound and a reference sound is changed.
この発明の音量調整装置は、入力音利得調整部と、参照音利得調整部と、エコー抑圧部と、利得計算部と、出力部と、を具備する。入力音利得調整部は、第1音源からの第1音と、第2音源からの第2音が第1収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する。参照音利得調整部は、第2音が第2収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する。エコー抑圧部は、調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力する。利得計算部は、調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする。出力部は、抑圧後入力音信号および調整後参照音信号を出力する。 The volume control device of the present invention includes an input sound gain adjustment unit, a reference sound gain adjustment unit, an echo suppression unit, a gain calculation unit, and an output unit. The input sound gain adjustment unit picks up the first sound from the first sound source and the second sound from the second sound source as input sound signals by the first sound collection unit, and calculates the gain of the input sound signal as the input sound gain. By adjusting using the information, an adjusted input sound signal is output. The reference sound gain adjusting unit picks up the adjusted reference sound signal by collecting the second sound as a reference sound signal by the second sound collecting unit and adjusting the gain of the reference sound signal using the reference sound gain information. Output. The echo suppression unit outputs the post-suppression input sound signal by subtracting the adjusted reference sound signal obtained by convolving the adaptive filter coefficient from the adjusted input sound signal. The gain calculation unit uses the adjusted reference sound signal and the adjusted input sound signal to change the input sound gain information, the reference sound gain information, and the change amount of the input sound gain information to the change amount of the reference sound gain information. The gain adjustment information indicating the degree of separation is calculated, and the adaptive filter coefficient is set to a value corresponding to the gain adjustment information. The output unit outputs the post-suppression input sound signal and the adjusted reference sound signal.
この発明では、入力音、参照音の音量を調整したとしても、エコー抑圧部で適切にエコーを抑圧できる。 In this invention, even if the volume of the input sound and the reference sound is adjusted, the echo can be appropriately suppressed by the echo suppression unit.
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。 The best mode for carrying out the invention will be described below. In addition, the same number is attached | subjected to the process which performs the structure part which has the same function, and the same process, and duplication description is abbreviate | omitted.
図4に実施例1の音量調整装置20の機能構成例を示し、図5に音量調整装置20を電話機に適用した場合の機能構成例を示し、図6に処理フローを示す。
音量調整装置20は、入力音利得調整部24と、参照音利得調整部22と、利得計算部26と、エコー抑圧部28と、出力部21と、を有する。また上述のように、第1音源からの音を第1音Fとし、第2音源からの音を第2音Gとする。また、第1音Fと第2音Gとが第1収音部2で電気信号に変換され、入力音信号P(x)として収音されるとし、第2音が第2収音部4で電気信号に変換され参照音信号Q(x)として収音されるとする。ここで、収音部とは例えば、マイクロホンである。収音部として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はハンドセットとの間に設置した送受話アダプターを用いてもよい。第1音、第2音についての電気信号である第1音信号、第2音信号をそれぞれF(x)、G(x)とすると、
入力音信号P(x)=F(x)+γG(x)
参照音信号Q(x)=G(x)
となる。ただし、xは時刻である。この実施例1の目的は、エコー抑圧部28で、入力音信号P(x)から重畳されたエコー音信号γG(x)を抑圧し、出力部21で第1音信号F(x)、第2音信号G(x)を出力することを目的とする。また、図7に利得計算部26の機能構成例を主に示したものを示す。図7に示すように、入力音信号、参照音信号について分かれており、入力音信号の処理のために、AD変換手段262、フレーム分割手段264、バッファ266、直流バイアス計算手段268、減算手段270、音量計算手段272、入力音利得調整指示手段274が設けられ、参照音の処理のためにAD変換手段282、フレーム分割手段284、バッファ286、直流バイアス計算手段288、減算手段290、音量計算手段292、入力音利得調整指示手段294が設けられ、そのほか、利得決定手段276が設けられる。入力音信号、参照音信号についてのこれらの構成部は対応するもの同士、統合しても良い。
FIG. 4 shows a functional configuration example of the
The
Input sound signal P (x) = F (x) + γG (x)
Reference sound signal Q (x) = G (x)
It becomes. However, x is time. The purpose of the first embodiment is to suppress the echo sound signal γG (x) superimposed from the input sound signal P (x) by the
入力音信号P(x)、参照音信号Q(x)はそれぞれ入力音利得調整部24、参照音利得調整部22とに入力される。また、入力音利得調整部24、参照音利得調整部22の前段にAD変換部27を設けて、デジタル信号で処理を行ってもよく、AD変換部27を設けずにアナログ信号で処理を行っても良い。入力音信号P(x)、参照音信号Q(x)はそれぞれ入力音利得調整部24、参照音利得調整部22に入力される。入力音利得調整部24は入力音信号P(x)の利得を入力音利得情報β1を用いて調整する(利得を乗算する)ことで、調整後入力音信号P’(x)を出力する(ステップS2)。入力音利得情報β1とは入力音信号P(x)に乗算する利得であり、入力音利得情報β1は、入力音利得調整指示手段274(後述する)から入力される。調整後入力音P’(x)はエコー抑圧部28に入力される。
The input sound signal P (x) and the reference sound signal Q (x) are input to the input sound
エコー抑圧部28とは、一般的に使用されているエコー抑圧装置であり、例えば、「北脇信彦 著、「未来ねっと技術シリーズ ディジタル音声・オーディオ技術」電気通信協会、平成11年12月15日初版発行、p218−p255」などに記載されている。エコー抑圧部28の処理内容は後述する。エコー抑圧部28の出力信号は、利得計算部26に入力される。
The
利得計算部26は、調整後参照音信号Q’(x)と抑圧後入力音信号P’’(x)とを用いて、入力音利得情報β1と、参照音利得情報β2と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωと、を計算し、適応フィルタ係数αを当該利得調整情報Ωに応じた値にする(ステップS8)。以下、詳細に説明する。
The
利得計算部26中のAD変換手段262は、入力音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割手段264に送る。フレーム分割手段264は、入力された音を一定の時間長のフレームで分割する。例えば、1フレームの長さを100ms(サンプリング周波数が16kHzである場合にはフレームを構成するサンプル数は1600)とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して利得調整をすることができる。フレーム化された音信号は、バッファ266に送られる。
The
バッファ266は、予め定めた数1以上の数A1のフレームを一時的に格納する。直流バイアス計算手段268は、バッファ266に格納されたフレーム化された入力音信号を読み込み、その入力音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算手段270に送られる。減算手段270は、バッファ266から読み込んだ入力音信号から、直流バイアス計算手段268が計算した直流成分の値を減算して、バイアスのかかっていない入力音信号を生成する。生成された入力音信号は、音量計算手段272に入力される。音量計算手段272は入力音信号の音量を計算するものであり、計算された音量は、入力音利得調整指示手段274に入力される。入力音利得調整指示手段274は、入力音利得調整部24で用いる利得β1を求め、入力音利得調整部24へ出力する。音量計算手段272と、入力音利得調整指示手段274との処理内容については公知の技術を用いればよく、求め方の好適例については、実施例2以降で説明する。
The
一方、参照音利得調整部22は参照音Qの音量(参照音信号の振幅レベル)を参照音利得情報β2を用いて調整することで、調整後参照音信号Q’(x)を出力する(ステップS4)。出力された調整後参照音信号Q’(x)はAD変換手段282に入力される。そして、参照音利得調整指示手段294は参照音利得調整部22で用いる利得β2を求め、参照音利得調整部22へ出力する。処理の詳細は、入力音信号に対して処理と同様であるので、説明を省略する。
On the other hand, the reference sound
エコー抑圧部28は、調整後入力音信号P’(x)から調整後参照音信号Q’(x)に適応フィルタ係数αを畳み込んだものを減算することで、エコー音信号が抑圧された抑圧後入力音信号P’’(x)を出力する(ステップS6)。つまり、以下の式の演算が行われる。
P’’(x)=P’(x)−αQ’(x) (1)
ここで、上述のように、
P(x)=F(x)+γG(x)
Q(x)=G(x) (2)
となり、
P’(x)=β1P(x)=β1(F(x)+γG(x))
Q’(x)=β2Q(x)=β2G(x) (3)
となる。
式(3)を式(1)に代入すると、
P’’(x)=β1(F(x)+γG(x))−αβ2G(x) (4)
になる。
The
P ″ (x) = P ′ (x) −αQ ′ (x) (1)
Here, as described above,
P (x) = F (x) + γG (x)
Q (x) = G (x) (2)
And
P ′ (x) = β 1 P (x) = β 1 (F (x) + γG (x))
Q ′ (x) = β 2 Q (x) = β 2 G (x) (3)
It becomes.
Substituting equation (3) into equation (1),
P ″ (x) = β 1 (F (x) + γG (x)) − αβ 2 G (x) (4)
become.
ただし、P’’(x)はエコー抑圧部28から出力される、エコー抑圧後の入力音信号であるとする。上述のように、エコー抑圧部28は、入力音利得調整部24で調整された後の第1音信号β1F(x)(以下、「調整後第1音信号」という。)のみを出力しなければならないので、
P’’(x)=β1F(x) (5)
とならなければならない。
However, it is assumed that P ″ (x) is an input sound signal after echo suppression output from the
P ″ (x) = β 1 F (x) (5)
Must be.
式(5)を式(4)に代入すると、
β1F(x)=β1(F(x)+γG(x))+αβ2G(x) (6)
となり、αについて求めると、
α=−β1γ/β2 (7)
となる。
Substituting equation (5) into equation (4),
β 1 F (x) = β 1 (F (x) + γG (x)) + αβ 2 G (x) (6)
Then, as for α,
α = −β 1 γ / β 2 (7)
It becomes.
利得計算部26は、この式(7)が成り立つ適応フィルタ係数αになるような利得調整情報Ωを生成し、エコー抑圧部28に送信すればよい。
The
利得調整情報Ωの詳細について説明する。式(7)では、γは上述のように、音響・電気系による係数であり定数である。従って、β1、β2により利得調整情報Ωは求まる。例えば、電話機を用いた会話をしている利用者が、受話音を聞き取りづらい時に、受話音の音量を上げる場合がある。そのような場合には、第1収音部2で、入力音信号P(x)の利得が上がる。また、入力音利得調整部24や参照音利得調整部22により入力音信号P(x)や参照音信号Q(x)の利得が上がる場合もある。ここで、例えば、入力音利得調整部24で、入力音信号P(x)の利得が4倍になり、参照音利得調整部22で参照音信号Q(x)の利得が2倍になった場合を考える。この場合には、適応フィルタ係数αが変わらなければ、式(4)によりエコー音信号が残ってしまう。エコー音信号の全てを抑圧するためには、式(7)により、β1/β2=2となり、この場合では適応フィルタ係数αを2倍にしなければならないことが理解されよう。
Details of the gain adjustment information Ω will be described. In the equation (7), γ is a coefficient by the acoustic / electrical system and is a constant as described above. Therefore, gain adjustment information Ω is obtained from β 1 and β 2 . For example, when a user who is having a conversation using a telephone has difficulty in listening to the received sound, the volume of the received sound may be increased. In such a case, the gain of the input sound signal P (x) is increased in the first
また、入力音信号P(x)の利得が2倍になり、参照音信号Q(x)の利得が4倍になった場合には、適応フィルタ係数αが変わらなければ、式(4)により過大に減算してしまい、出力される信号に参照音の逆位相の信号が現れてしまい、結果として、エコー音として聞こえてしまう。この場合には、式(7)により、β1/β2=1/2となり、適応フィルタ係数αを1/2倍にしなければならない。 When the gain of the input sound signal P (x) is doubled and the gain of the reference sound signal Q (x) is four times, if the adaptive filter coefficient α does not change, the expression (4) The signal is excessively subtracted, and a signal having a phase opposite to that of the reference sound appears in the output signal, and as a result, it is heard as an echo sound. In this case, according to Equation (7), β 1 / β 2 = 1/2, and the adaptive filter coefficient α must be halved.
また、対数で考えた場合に、β1が+6dB変化し、β2が+3dB変化した場合にはβ1−β2=3dBとなり、適応フィルタ係数αを3dB上げなければならない。 Further, when considering logarithm, when β 1 changes by +6 dB and β 2 changes by +3 dB, β 1 −β 2 = 3 dB, and the adaptive filter coefficient α must be increased by 3 dB.
このように、利得調整情報Ωとは入力音利得情報β1が参照音利得情報β2と離れている度合いを示すものである。利得決定手段276は、入力音利得情報β1の変化量と参照音利得情報β2の変化量が実数で表されている場合には、
Ω=入力音利得情報β1の変化量/参照音利得情報β2の変化量
を演算する。
Thus, the gain adjustment information Ω indicates the degree to which the input sound gain information β 1 is separated from the reference sound gain information β 2 . When the change amount of the input sound gain information β 1 and the change amount of the reference sound gain information β 2 are expressed by real numbers, the gain determination means 276
Ω = change amount of input sound gain information β 1 / change amount of reference sound gain information β 2 is calculated.
また、利得決定手段276は、入力音利得情報β1の変化量と参照音利得情報β2の変化量が対数(dB)で表されている場合には、
Ω=入力音利得情報β1の変化量−参照音利得情報β2の変化量
を演算する。そして、利得決定手段276よりの利得調整情報Ωはエコー抑圧部28へすることで、適応フィルタ係数αを利得調整情報Ωに応じた値にする。
Also, the
Ω = change amount of input sound gain information β 1 −change amount of reference sound gain information β 2 is calculated. Then, the gain adjustment information Ω from the
また、入力音信号P(x)、調整後入力音信号P’(x)のエコー音信号γG(x)については、遅延差τが存在するので、厳密にいうと、
P(x)=F(x)+γG(x−τ)
P’(x)=β1(F(x)+γG(x−τ)) (8)
になる。
Moreover, since there is a delay difference τ for the input sound signal P (x) and the echo sound signal γG (x) of the adjusted input sound signal P ′ (x), strictly speaking,
P (x) = F (x) + γG (x−τ)
P ′ (x) = β 1 (F (x) + γG (x−τ)) (8)
become.
つまり式(6)は以下のようになる。
β1F(x)=β1(F(x)+γG(x−τ))+αβ2G(x−τ’)
−β1γG(x−τ)=αβ2G(x−τ’) (6’)
ただし、τ’はエコー抑圧部28で学習すべき遅延差であるとする。
そして、利得決定手段276が、この式(6’)が成り立つようなα、τ’をエコー抑圧部28が学習するような利得調整情報Ωを生成して、エコー抑圧部28に送信すればよい。
That is, Equation (6) is as follows.
β 1 F (x) = β 1 (F (x) + γG (x−τ)) + αβ 2 G (x−τ ′)
−β 1 γG (x−τ) = αβ 2 G (x−τ ′) (6 ′)
However, it is assumed that τ ′ is a delay difference to be learned by the
Then, the gain determination means 276 may generate the gain adjustment information Ω so that the
出力部21は、抑圧後入力音信号P’’(x)を出力する(ステップS10)。また、出力部21は、抑圧後入力音信号P’’(x)と調整後参照音信号Q’(x)を個別に出力するようにしてもよい。全ての入力音信号、参照音信号の収音が終わるまで上記の処理を続ける(ステップS12)。
The
このように、適応フィルタ係数αを、入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωに応じた値にすることで、入力音や参照音の利得(音量)を調整した場合であっても、エコー音信号を全て消去できる。 As described above, the adaptive filter coefficient α is set to a value corresponding to the gain adjustment information Ω indicating the degree to which the change amount of the input sound gain information is different from the change amount of the reference sound gain information. Even when the sound gain (volume) is adjusted, the entire echo sound signal can be erased.
また、図1に記載のように、従来の音量調整装置8では、入力音に含まれるエコー音音信号に合わせて誤って音量を調整してしまう場合があった。ところが、この実施例1の音量調整装置20の利得計算部26は、調整後参照音信号Q’(x)と抑圧後入力音信号P’’(x)を用いて、入力音利得情報β1と、参照音利得情報β2と、利得調整情報Ωを求める例を説明した。この構成により、エコー音信号に音量を合わせるといった誤った音量調整を回避できるという顕著な効果を有する。従って、この効果の必要性のない場合は、利得計算部26は、調整後参照音信号Q’(x)と調整後入力音信号P’(x)を用いて、入力音利得情報β1と、参照音利得情報β2と、利得調整情報Ωを求めるようにしてもよい。
In addition, as shown in FIG. 1, the conventional
実施例2以降では、入力音利得調整指示手段274、参照音利得調整手段294で求める好適な利得の求める手法を説明する。図8に音量計算手段272、入力音利得調整指示手段274の機能構成例を示す。音量計算手段272は、外形値決定手段2722、終始判定手段2724、有音無音フレーム判定手段2726、有音無音区間判定手段2728を有し、入力音利得調整指示手段274は入力音第1利得調整指示手段2742、入力音第2利得調整指示手段2744(実施例2で説明)、とを有する。入力音利得調整部24は、第1入力音利得調整手段242、第2入力音利得調整手段244(実施例3で説明)とを有する。実施例2〜4では入力音側の処理について説明し、参照音側の処理については同様なので、省略する。実施例2〜4の説明は、「特許出願番号:特願2007−293743号 発明の名称「音量調整装置、方法およびプログラム」」に記載されているが、念のため説明する。
In the second and subsequent embodiments, a method for obtaining a suitable gain obtained by the input sound gain
減算手段270からの入力音信号は外形値決定手段2722と終始判定手段2724に入力される。終始判定手段2724は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、通話区間と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
The input sound signal from the subtracting means 270 is input to the outer shape
具体的には、終始判定手段2724内の平均値計算手段(図示せず)は、入力された入力音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定手段2724が、計算された振幅の絶対値の平均値が予め定められた第7閾値A2よりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定する。計算された振幅の絶対値の平均値が予め定められた第7閾値A2よりも大きいと判定された場合に、その判定された時から一定時間長(例えば0.5秒)遡った時から発音が開始されたと判定してもよい。
Specifically, average value calculation means (not shown) in the start / end determination means 2724 calculates the average value of the absolute values of the amplitudes of the input sound signals inputted for each frame. Then, throughout
また、終始判定手段2724は、計算された振幅の絶対値の平均値が、予め定められた第8閾値A3(閾値A3は、閾値A2よりも小さい値である。)よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数A4のフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を各構成部に送る。
In addition, the all-
発音が開始された旨の信号を受け取った外形値決定手段2722は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、入力音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定手段2726、入力音第1利得調整指示手段2742に送られる。図9A、Bに、外形値抽出の具体例を示す。図9Aはバイアスがかかっていない音信号(つまり減算手段270の出力信号)の波形である。図9Bは、図9Aに示した音信号の波形からフレームごとに振幅の絶対値の最大値(外形値)を求めて、図示したものである。 The external shape determination means 2722 that has received the signal that the sound generation has been started obtains an external shape value, which is a feature amount indicating the loudness of the frame, for each frame. For example, the outer shape value is the maximum absolute value of the amplitude of the input sound signal. In other words, the outer shape value is the maximum value of the values of a plurality of samples constituting the frame. The obtained outer shape value for each frame is sent to the sound / silence frame determination means 2726 and the input sound first gain adjustment instruction means 2742. 9A and 9B show specific examples of external value extraction. FIG. 9A shows a waveform of an unbiased sound signal (that is, an output signal of the subtracting means 270). FIG. 9B illustrates the maximum value (outer shape value) of the absolute value of the amplitude obtained for each frame from the waveform of the sound signal illustrated in FIG. 9A.
再度、図8を参照して説明をする。有音無音フレーム判定手段2726は、外形値と予め定められた第2閾値A5とを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。第2閾値A5を、予め定めた値とせずに、例えば、過去10秒間の無音フレームの外形値の最小値の定数倍(例えば3倍)の値として動的に閾値A5を変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定手段2728に送られる。 The description will be given again with reference to FIG. Voice activity frame determination unit 2726 compares the second threshold value A 5 with a predetermined outer shape value, the larger the better contour value determines the frame as voiced frame, otherwise, the The frame is determined as a silent frame. The second threshold value A 5, without the predetermined value, for example, dynamically changing the threshold value A 5 as the value of the constant multiple of the minimum value of the outline values of the silent frame of the past 10 seconds (e.g., 3 times) Also good. Information on whether the frame is a sound frame or a sound frame is sent to the sound / silence section determination means 2728.
有音無音区間判定手段2728は、無音フレームが予め定められた第1閾値A6(例えば5、時間長にして0.5秒となるように、A6を設定する。)以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、入力音第1利得調整指示手段2742に送られる。 The voiced / silent section determination means 2728 is set when the silent frame continues for a predetermined first threshold value A 6 (for example, A 6 is set so that the time length is 0.5 seconds). Determines that a sound section composed of consecutive frames is a silent section, and determines a sound section composed of other frames as a sound section. Information about the voiced section and the silent section is sent to the input sound first gain adjustment instruction means 2742.
図10に入力音第1利得調整指示手段2742の機能構成例を示す。入力音第1利得調整指示手段2742は、第1音区間抽出手段2802、第1音区間外形値抽出手段2803、第1決定手段2808で構成されている。更に、第1音区間外形値抽出手段2803は、除外手段2804、最大値決定手段2806とで構成されている。有音区間、無音区間についての情報は第1音区間抽出手段2802に入力される。第1音区間抽出手段2802は、上記判定された有音区間が予め定められた時間長A7(例えば2秒)よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数A8(例えば20フレーム)が予め定められた数A8よりも大きい場合には、その有音区間を第1音区間とする。入力される音が電話等の音声である場合には、第1音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第1音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図9Bに、第1音区間の抽出の具体例を示す。例えば、この図9B示すように、0.5秒以上の無音区間を使って2秒以上の有音区間のかたまりを第1音区間として抽出する。
FIG. 10 shows a functional configuration example of the input sound first gain
第1音区間抽出手段2802は、例えば、第1音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第1音区間外形値抽出手段2803中の除外手段2804に送る。第1音区間を構成するフレームの外形値は、第1音区間抽出手段2802が外形値決定手段2722から受け取ったフレームの外形値の情報を用いる。
For example, the first sound
除外手段2804は、第1音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第1音区間を構成するフレームの数が多いほど多くするとよい。例えば、第1音区間を構成するフレームの数に予め設定した割合A9(例えば10〜30%、今回は20%)をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数A10の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定手段2806に送られる。
The excluding
最大値決定手段2806は、除外されずに残った外形値の最大値を求め、その最大値を第1音区間の外形値として保存する。第1音区間の外形値は、第1決定手段2808に送られる。
The maximum
第1決定手段2808は、第1音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報(以下、第1入力音利得調整情報とする。)を決定して、入力音利得調整部24に送る。例えば、第1決定手段2808に入力のピークが入力される。第1決定手段2808は、入力のピークに予め定められた割合A11(例えば、10%〜25%)をかけた範囲に、第1音区間の外形値が入るように、利得を決定する。
The first determining
なお、第1利得調整情報が決定された場合には、第1利得調整指示手段2742は、バッファ15の遅延分の時間に相当するフレームについて、上記の処理を行わない。
Note that when the first gain adjustment information is determined, the first gain
図9Cを参照して、具体例を説明する。除外手段2804は、第1音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数(この例では、7つ)の外形値を除外する。図9Cの白で示した外形値が除外された外形値である。最大値決定手段2806は、第1音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図9Cの黒と斜線で示した外形値であり、その最大値である第1音区間の外形値は斜線で示した外形値である。
A specific example will be described with reference to FIG. 9C. The excluding means 2804 excludes a predetermined number (seven in this example) of outer shape values having a large outer shape value from among the outer shape values of the frames constituting the first sound section. It is an outer shape value excluding the outer shape value shown in white in FIG. 9C. The maximum
第1音区間の外形値が入るべき予め定められた範囲を3000〜8000とすると、この例では、第1音区間の外形値はその範囲に入っていない。第1決定手段2808は、第1音区間の外形値とその範囲との差分を計算して、第1音区間の外形値がその範囲に入るように利得を決定する。第1音区間の外形値がその範囲に入っている場合には、処理を行わない。なお、予め定められた範囲3000〜8000という値は、量子化ビット数が16ビットの場合の値で、振幅の最大値が2の8乗(32768)の場合の値である。
Assuming that a predetermined range in which the outer shape value of the first sound section is to be entered is 3000 to 8000, in this example, the outer shape value of the first sound section is not in that range. The first determining
別の具体例を説明する。第1音区間の外形値が入力のピークの5%であり、第1音区間の外形値が入るべき予め定められた範囲が入力のピークの10%〜25%であるとする。この場合、第1決定手段2808は、第1音区間の外形値が入力のピークの10%になるように、利得を決定する。このように、利得調整後の第1音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、利得調整前の第1音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、利得調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
Another specific example will be described. It is assumed that the external value of the first sound section is 5% of the input peak, and the predetermined range in which the external value of the first sound section is to be input is 10% to 25% of the input peak. In this case, the first determining
また、このように、第1音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第1音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。 In addition, in this way, when a predetermined range in which the outer shape value of the first sound section is to be entered is provided and the outer shape value of the first sound section is included in this range, the above gain calculation is not performed. By doing so, the number of times of changing the gain can be reduced. As a result, the number of times the waveform of the sound is distorted can be reduced, so that the change in the predetermined feature amount of the sound can be reduced.
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を利得調整の基準としている。また、第1音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第1音区間の外形値として、その第1音区間の外形値を用いて、利得を調整している。 In this method, “Yes”, “Ah”, “Eh”, etc., not the short sound intervals where the volume is unstable, such as “Thank you for calling”, “I have something I want to hear” A sound section having a certain length and a stable volume is used as a reference for gain adjustment. Further, by excluding a plurality of contour values having a large contour value from the contour values of a plurality of frames constituting the first sound section, the maximum value of the remaining contour values not excluded is used as the contour value of the first sound section. The gain is adjusted using the external value of the first sound interval.
これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても利得調整後の音量が入力のピークが超えることがなくなる。 This makes it less susceptible to sudden noise such as coughing and sneezing, and the volume after gain adjustment does not exceed the input peak even if the amplitude of the target sound is dispersed.
上記の例においては、第1音区間を構成するフレームの外形値のうち、大きい方から20%の外形値を除外し、第1音区間の外形値が入るべき予め定められた範囲を入力ピークの10%〜20%としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第1音区間の外形値のおよそ4倍未満であったためである。 In the above example, out of the outer shape values of the frames constituting the first sound interval, the outer shape value of 20% from the larger one is excluded, and a predetermined range in which the outer shape value of the first sound interval should be entered is the input peak. 10% to 20%. This is because, as a result of the experiment, the peak of the input was less than about 4 times the external value of the first sound interval, excluding sudden noise.
再度、図8を参照して説明をする。入力音利得調整部24の第1入力音利得調整手段242は、入力音第1利得調整指示手段2742が決定した第1入力音利得情報を用いて、入力された音の音量を調整して出力する。第1入力音利得調整手段242は、新たな第1入力音利得調整情報が入力音第1利得調整指示手段2742から送られてくるまで、既に送られている第1入力音利得情報に基づいて利得調整を行う。
The description will be given again with reference to FIG. The first input sound gain adjustment unit 242 of the input sound
このような構成にすることで、頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。 By adopting such a configuration, it is difficult to lose a predetermined feature amount of the sound as compared with a case where the gain for adjusting the sound volume frequently changes.
この実施例3では、第1音区間よりも短い音区間(第2音区間)を基準として、利得調整をする入力音第2利得調整指示手段2744、第2入力音利得調整手段244を有している実施例について説明する。 The third embodiment includes input sound second gain adjustment instruction means 2744 and second input sound gain adjustment means 244 that perform gain adjustment with reference to a sound section (second sound section) shorter than the first sound section. Examples will be described.
図11に、入力音第2利得調整指示手段2744の説明をする。減算手段270から出力された入力音信号は(図8参照)、入力音第2利得調整指示手段2744の過大入力サンプル数決定手段2746に入力される。過大入力サンプル数決定手段2746は、予め定められた第3閾値A12(例えばサンプル値で表現することができる値の上限の90%の値)よりも大きいサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定手段2748と、記憶手段2750とに送られる。
FIG. 11 illustrates the input sound second gain
過大入力フレーム決定手段2748は、過大入力サンプル数が予め定められた第4閾値A13(1フレームのサンプル数の30%の数)よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた第4閾値A13よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報(例えば、過大入力フレームであることを表すフラグ)は、記憶手段2750に送られる。
The excessive input frame determination means 2748 determines for each frame whether or not the excessive input sample number is larger than a predetermined fourth threshold A 13 (30% of the number of samples in one frame). Hereinafter, a larger frame than the fourth threshold value A 13 excessive number of input samples has been determined in advance and excessive input frame. Information on the excessive input frame (for example, a flag indicating that it is an excessive input frame) is sent to the
第2音区間過大入力サンプル数決定手段2752は、第1音区間を構成するフレームの数よりも少ない数A14(例えば10、時間長にして1秒)のフレームから構成される音区間を第2音区間として、その第2音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第2決定手段2756に送る。具体的には、第2音区間が過去10フレームである場合には、記憶手段2750から、過去10フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
The second sound section excessive input sample
第2音区間過大入力フレーム数決定手段2754は、第2音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第2決定手段2756に送る。具体的には、第2音区間が過去10フレームである場合には、記憶手段2750から、過去10フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
The second sound section excessive input frame number determination means 2754 determines the number of excessive input frames in the frames constituting the second sound section, and sends the number to the second determination means 2756. Specifically, when the second sound interval is the past 10 frames, information on the excessive input frames of the past 10 frames is read from the
第2決定手段2756は、過大入力サンプル数の総数が予め定められた第5閾値A15(例えば第2音区間を構成するサンプルの総数の20%の数)よりも大きく、かつ、過大入力フレームの数が予め定められた第6閾値A16(第2音区間が10フレームである場合には、例えば3)よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報(以下、第2入力音利得調整情報とする。)を、入力音利得調整部24中の第2入力音利得調整手段244に送る。第2入力音利得調整情報は、具体的な利得の値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
The second determining
入力音利得調整部24の第2入力音利得調整手段244は、第2入力音利得調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第2入力音利得調整手段244は、フレームに短時間利得調整フラグを立て、以降は、バッファ15の遅延分の時間に相当するフレームについて処理を行わない。
The second input sound gain adjustment means 244 of the input sound
これにより、発声部分の波形が入力のピークを越えることによって波形が歪むことのない音声を収音できる。 As a result, it is possible to collect a sound whose waveform is not distorted when the waveform of the utterance part exceeds the input peak.
この実施例4では、入力音終了時利得調整手段246を有することにより、終始判定手段2724によって発音の開始が検出された後は、上記のように、入力音第1利得調整指示手段2742、第2利得調整指示手段2744の指示に従って利得が調節される。終始判定手段2724が発音の終了を検出した場合には、発音が終了した旨の情報が、入力音終了時利得調整手段246に送られる。 In the fourth embodiment, since the input sound end gain adjusting means 246 is provided, after the start / stop determination means 2724 detects the start of sound generation, as described above, the input sound first gain adjustment instructing means 2742, The gain is adjusted according to the instruction of the two gain adjustment instruction means 2744. When the end-to-end determination means 2724 detects the end of sound generation, information indicating that sound generation has ended is sent to the gain adjustment means 246 at the end of the input sound.
入力音終了時利得調整手段246は、発音が終了した旨の情報を受け取ると、入力音利得調整部24に設定された発音の終了時の利得を読み込んで、入力音終了時利得調整手段246の記憶手段2462に格納する。そして、入力音終了時利得調整手段246は、直近の発音から予め定められた数A17の過去の発音の終了時の利得を記憶手段2462からそれぞれ読み出して、それらの平均値を求め、その平均値を入力音利得調整部24に設定する。
When the input sound end gain adjusting means 246 receives the information indicating that the sound generation has ended, the input sound end gain adjusting means 246 reads the gain at the end of the sound generation set in the input sound
入力音利得調整部24から現在の利得の値を得ることができない場合には、入力音終了時利得調整手段246は、以下のようにして利得を入力音利得調整部24に設定する。入力音利得調整部24から現在の利得の値を得ることができない場合とは、例えば、入力音利得調整部24が3dB利得を上げる、3dB利得を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
If the current gain value cannot be obtained from the input sound
1.入力音第1利得調整指示部2742の指示によっては音量を調整するために利得を変更しなかった場合には、入力音終了時利得調整手段246は何もしない。
2.入力音第1利得調整指示部2742の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段246は現在の利得から予め設定した値A18だけを値を下げた利得を入力音利得調整部24に設定する。
3.入力音第1利得調整指示手段2742の指示により音量を上げるために利得を上げたときには、入力音終了時利得調整手段246は、以下の処理を行う。
3−1.入力音第2利得調整指示手段2744の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段246は何もしない。
3−2.「3−1.」以外の場合には、入力音終了時利得調整手段246は現在の利得から予め設定した値A19だけ値を上げた利得を入力音利得調整部24に設定する。
1. When the gain is not changed in order to adjust the volume according to the instruction of the input sound first gain
2. When lowering the gain to decrease the volume according to an instruction of the input sound first gain
3. When the gain is increased to increase the volume in accordance with an instruction from the input sound first gain
3-1. When the gain is lowered to lower the volume in accordance with an instruction from the input sound second gain adjustment instruction means 2744, the input sound end gain adjustment means 246 does nothing.
3-2. In cases other than “3-1.”, The input sound end-time gain adjusting means 246 sets the gain obtained by increasing the value by a preset value A 19 from the current gain in the input sound
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
入力音第2利得調整指示手段2744及び第2入力音利得調整手段244はなくてもよい。また、終了時利得調整手段246はなくてもよい。
By adjusting the volume at the end of pronunciation in this way, the volume at the beginning of the next pronunciation can be brought close to an appropriate value, and the sound collection environmental conditions such as speaker, microphone position, and volume can be changed. The volume can be adjusted appropriately following the above.
The input sound second gain
図12、図13に、実施例4におけるコールセンターで音量調整装置140を利用してオペレータとユーザとの会話を録音するシステムを示す。 12 and 13 show a system for recording a conversation between an operator and a user using the volume control device 140 at a call center according to the fourth embodiment.
電話機50に接続したヘッドセット43をオペレータが装着し、ユーザと会話をする。ヘッドセット43と電話機50との間に音量調整部20(実施例1〜4で説明した音量調整装置と同一)を有する送受話器分岐アダプタ136を接続して、オーディオ入力又はUSBを使って、その音声をPC137に取り込む。PC137に取り込んだオペレータ、ユーザそれぞれの音声はエコー抑圧部28を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図13に示すように送受話器分離アダプタにエコー抑圧部28が付いている構成にもできる。
An operator wears the headset 43 connected to the
エコー抑圧部28から送られたそれぞれの音声をもとに終始判定手段2724で、通話の始端を検出すると、送信側音量調整装置140aは、オペレータ音声の音量を上記説明した音量調整装置20と同様に調整する。また、受信側音量調整装置140bは、ユーザ音声の音量を上記説明した音量調整装置20と同様に調整する。送信側音量調整装置140aと受信側音量調整装置140bはそれぞれ、音量調整部20と終始判定手段2724とを有していないが、送受話器分岐アダプタ136の音量調整部20及びPC137の終始判定手段2724が、送信側音量調整装置140aと受信側音量調整装置140bの音量調整部20及び終始判定手段2724として機能する。それ以外の点では、音量調整装置140と同様である。
When the start /
オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側音量調整装置140bは、入力音終了時利得調整手段246、参照音終了時利得調整手段226による音調調整の指示を行わない。
The operator voice can be adjusted to an appropriate volume with a few calls because the sound collection conditions are substantially the same while the operator is the same. However, the user voice has a different telephone, transmission line, etc. for each call. For this reason, the reception-side
終始判定手段2724が通話の終了を検出すると、音量が調整された音声は録音部139を通して、PC137のディスク150に格納される。
When the end-to-
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
<Hardware configuration>
The present invention is not limited to the above-described embodiment. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、エコー消去装置300が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that the echo canceling apparatus 300 should have are described by a program. The processing function is realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
また、本実施例で説明したエコー消去装置300は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。 The echo canceller 300 described in this embodiment includes a CPU (Central Processing Unit), an input unit, an output unit, an auxiliary storage device, a RAM (Random Access Memory), a ROM (Read Only Memory), and a bus. (Both not shown).
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。 The CPU executes various arithmetic processes according to the read various programs. The auxiliary storage device is, for example, a hard disk, an MO (Magneto-Optical disc), a semiconductor memory, or the like, and the RAM is an SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or the like. The bus connects the CPU, the input unit, the output unit, the auxiliary storage device, the RAM, and the ROM so that they can communicate with each other.
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音量調整装置20の参照音利得調整部22、入力音利得調整部24、利得計算部26、エコー抑圧部28は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。音量調整装置20の記憶部(図示せず)は上記補助記憶装置として機能する。
<Cooperation between hardware and software>
The word adding device of this embodiment is constructed by reading a predetermined program into the hardware as described above and executing it by the CPU. The functional configuration of each device constructed in this way will be described below.
The reference sound
Claims (11)
第2音が第2収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整部と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧部と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算部と、
抑圧後入力音信号を出力する出力部と、を具備する音量調整装置。 The first sound from the first sound source and the second sound from the second sound source are collected as input sound signals by the first sound collection unit, and the gain of the input sound signal is adjusted using the input sound gain information. And an input sound gain adjustment unit for outputting the adjusted input sound signal,
The second sound is collected as a reference sound signal by the second sound collection unit, and the reference sound gain adjustment unit that outputs the adjusted reference sound signal by adjusting the gain of the reference sound signal using the reference sound gain information When,
An echo suppression unit that outputs the input sound signal after suppression by subtracting the adjusted reference sound signal obtained by convolving the adaptive filter coefficient from the adjusted input sound signal;
The degree to which the change amount of the input sound gain information, the reference sound gain information, and the input sound gain information is different from the change amount of the reference sound gain information using the adjusted reference sound signal and the adjusted input sound signal A gain calculation unit that calculates the adaptive filter coefficient to a value according to the gain adjustment information,
An output unit that outputs an input sound signal after suppression.
前記出力部は、
抑圧後入力音信号および調整後参照音信号を出力するものであることを特徴とする音量調整装置。 The volume control device according to claim 1,
The output unit is
A volume control device for outputting an input sound signal after suppression and a reference sound signal after adjustment.
前記利得計算部は、調整後参照音信号と抑圧後入力音信号とから、入力音利得情報と、参照音利得情報と、利得調整情報とを計算することを特徴とする音量調整装置。 The volume control apparatus according to claim 1 or 2,
The gain calculating unit calculates input sound gain information, reference sound gain information, and gain adjustment information from the adjusted reference sound signal and the suppressed input sound signal.
前記利得計算部は、
入力音信号と参照音信号を一定の時間長のフレームで分割するフレーム分割手段と、
フレームに含まれる入力音信号と参照音信号の大きさを表す特徴量である外形値をフレームごとに求める外形値決定手段と、
予め定められた第1閾値以上連続する無音フレームに挟まれ、予め定められた第2閾値以上のフレームから構成された音区間を第1音区間として、第1音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第1音区間の外形値として求める第1音区間外形値抽出手段と、
入力音信号と参照音信号についての、第1音区間の外形値が予め定められた範囲に入るように、第1入力音利得情報と第1参照音利得情報を決定し、出力する第1決定手段と、を有し、
前記参照音利得調整部は、前記第1参照音利得情報を用いて、参照音信号の音量を調整する第1参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第1入力音利得情報を用いて、入力音信号の音量を調整する第1入力音利得調整手段を有することを特徴とする音量調整装置。 In the volume control apparatus in any one of Claims 1-3,
The gain calculator is
Frame dividing means for dividing the input sound signal and the reference sound signal into frames of a certain time length;
An outline value determining means for obtaining, for each frame, an outline value that is a feature amount representing the magnitude of the input sound signal and the reference sound signal included in the frame;
A plurality of frames constituting the first sound interval are defined as a first sound interval, which is sandwiched between silence frames that are continuous for a predetermined first threshold value or more and composed of frames having a predetermined second threshold value or more. A first sound section outer shape value extracting means for excluding a plurality of outer shape values from the larger outer shape value from the outer shape values and obtaining a maximum value of the remaining outer shape values as the outer shape value of the first sound section without being excluded; ,
First input sound gain information and first reference sound gain information are determined and output so that the external value of the first sound interval for the input sound signal and the reference sound signal falls within a predetermined range. Means,
The reference sound gain adjusting unit includes first reference sound gain adjusting means for adjusting a volume of a reference sound signal using the first reference sound gain information,
The input sound gain information adjustment unit includes first input sound gain adjustment means for adjusting the sound volume of an input sound signal using the first input sound gain information.
上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値であることを特徴とする音量調整装置。 In the volume control apparatus according to claim 4,
The external volume value of the frame is a maximum absolute value of sample values included in the frame.
前記利得計算部は、
フレームの外形値が予め定められた第2閾値より大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
前記第1閾値以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第1音区間とする第1音区間抽出手段とを備えることを特徴とする音量調整装置。 In the volume control apparatus described in Claim 4 or 5,
The gain calculator is
A sound / silence frame determining means for determining that the frame is a sound frame if the outer shape value of the frame is greater than a predetermined second threshold;
Determining a sound section composed of silent frames continuous for the first threshold or more as a silent section, and determining a sound silent section determination means for determining other sound sections as a sound section;
A sound volume adjusting apparatus comprising: a first sound section extraction unit that uses a sound section that is longer than a predetermined time length among the determined sound sections as the first sound section.
前記利得計算部は、
サンプルの値の絶対値が予め定められた第3閾値より大であるサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する過大入力サンプル数決定手段と、
前記過大入力サンプル数が予め定められた第4閾値より大である(以下、過大入力フレームという。)かどうかをフレームごとに決定する過大入力フレーム決定手段と、
前記第1音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第2音区間として、その第2音区間を構成するフレームについての前記決定された過大入力サンプル数の総数が予め定められた第5閾値より大であり、かつ、その第2音区間を構成するフレームの中の過大入力フレームの数が第6閾値より大である場合に、収音された入力音信号と参照音信号の利得を所定量だけ下げるための情報(以下、それぞれ、「第2入力音利得情報」と「第2参照音利得情報」という。)を出力する第2決定手段と、
前記参照音利得調整部は、前記第2参照音利得情報を用いて、参照音信号の音量を調整する第2参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第2入力音利得情報を用いて、入力音信号の音量を調整する第2入力音利得調整手段を有することを特徴とする音量調整装置。 In the volume control apparatus in any one of Claims 1-6,
The gain calculator is
An excessive input sample number determining means for determining, for each frame, the number of samples whose absolute value of the sample value is larger than a predetermined third threshold (hereinafter referred to as an excessive input sample number);
An excessive input frame determining means for determining, for each frame, whether the number of excessive input samples is larger than a predetermined fourth threshold (hereinafter referred to as an excessive input frame);
A sound interval composed of a number of frames smaller than the number of frames constituting the first sound interval is defined as a second sound interval, and the determined number of excessive input samples for the frames constituting the second sound interval is determined. When the total number is larger than a predetermined fifth threshold and the number of excessive input frames in the frames constituting the second sound interval is larger than the sixth threshold, the collected input sound is collected. Second determining means for outputting information for lowering the gain of the signal and the reference sound signal by a predetermined amount (hereinafter referred to as “second input sound gain information” and “second reference sound gain information”, respectively);
The reference sound gain adjustment unit includes second reference sound gain adjustment means for adjusting a volume of a reference sound signal using the second reference sound gain information.
The input sound gain information adjustment unit includes a second input sound gain adjustment unit that adjusts the volume of an input sound signal using the second input sound gain information.
入力された入力音信号、参照音信号の振幅の絶対値の平均値をフレームごとに求め、予め定められた第7閾値よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた第8閾値より小さい平均値を有するフレームが予め定められた数だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の第1入力音利得調整情報及び/又は第2入力音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第1入力音利得調整情報及び/又は第2入力音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第1入力音利得調整手段及び/又は第2入力音利得調整手段に設定する入力音終了時利得調整手段と、
発音が終了したと判定されたときに、発音終了時の第1参照音利得調整情報及び/又は第2参照音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第1参照音利得調整情報及び/又は第2参照音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第1参照音利得調整手段及び/又は第2参照音利得調整手段に設定する参照音終了時利得調整手段と、を備えることを特徴とする音量調整装置。 In the volume control apparatus in any one of Claims 1-7,
An average value of the absolute values of the amplitudes of the input sound signal and the reference sound signal that are input is obtained for each frame, and it is determined that sound generation has started when a frame having an average value larger than a predetermined seventh threshold is detected. And an end-to-end determination means for determining that the sound generation has ended when a predetermined number of frames having an average value smaller than a predetermined eighth threshold value continue continuously.
When it is determined that the sound generation has ended, the first input sound gain adjustment information and / or the second input sound gain adjustment information at the end of the sound generation is stored in the storage means, and a predetermined number of sounds are determined from the latest sound generation. The first input sound gain adjustment information and / or the second input sound gain adjustment information at the end of the past pronunciation is read out from the storage means, and an average value thereof is obtained to obtain the first input sound gain adjustment means and / or the first input sound gain adjustment information. Input sound end gain adjusting means set in the two input sound gain adjusting means;
When it is determined that the sound generation has ended, the first reference sound gain adjustment information and / or the second reference sound gain adjustment information at the end of the sound generation is stored in the storage means, and a predetermined number of sounds are determined from the latest sound generation. The first reference sound gain adjustment information and / or the second reference sound gain adjustment information at the end of the past pronunciation is read from the storage means, an average value thereof is obtained, and the first reference sound gain adjustment means and / or the first reference sound gain adjustment information is obtained. And a reference sound end gain adjusting means set in the 2 reference sound gain adjusting means.
第2音が第2収音過程で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整過程と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧過程と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算過程と、
抑圧後入力音信号および調整後参照音信号を出力する出力過程と、を具備する音量調整方法。 The first sound from the first sound source and the second sound from the second sound source are collected as an input sound signal in the first sound collection process, and the gain of the input sound signal is adjusted using the input sound gain information. In the input sound gain adjustment process for outputting the adjusted input sound signal,
The reference sound gain adjustment process in which the second sound is collected as a reference sound signal in the second sound collection process, and the adjusted reference sound signal is output by adjusting the gain of the reference sound signal using the reference sound gain information When,
An echo suppression process for outputting the input sound signal after suppression by subtracting the adjusted reference sound signal obtained by convolving the adaptive filter coefficient from the adjusted input sound signal;
The degree to which the change amount of the input sound gain information, the reference sound gain information, and the input sound gain information is different from the change amount of the reference sound gain information using the adjusted reference sound signal and the adjusted input sound signal A gain adjustment process for calculating the adaptive filter coefficient to a value according to the gain adjustment information,
An output process for outputting an input sound signal after suppression and a reference sound signal after adjustment.
A computer-readable recording medium recorded to cause a computer to implement the program according to claim 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008295634A JP2010124207A (en) | 2008-11-19 | 2008-11-19 | Volume adjusting device, and method, program, and recording medium of the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008295634A JP2010124207A (en) | 2008-11-19 | 2008-11-19 | Volume adjusting device, and method, program, and recording medium of the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010124207A true JP2010124207A (en) | 2010-06-03 |
Family
ID=42325148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008295634A Pending JP2010124207A (en) | 2008-11-19 | 2008-11-19 | Volume adjusting device, and method, program, and recording medium of the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010124207A (en) |
-
2008
- 2008-11-19 JP JP2008295634A patent/JP2010124207A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3439325B1 (en) | Automatically tuning an audio compressor to prevent distortion | |
JP5293817B2 (en) | Audio signal processing apparatus and audio signal processing method | |
US9336785B2 (en) | Compression for speech intelligibility enhancement | |
US5757937A (en) | Acoustic noise suppressor | |
CN103270740B (en) | Sound control apparatus, audio control method and mobile terminal apparatus | |
US20140064508A1 (en) | System for adaptive audio signal shaping for improved playback in a noisy environment | |
US20090287496A1 (en) | Loudness enhancement system and method | |
CN110956976A (en) | Echo cancellation method, device, equipment and readable storage medium | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
US11711647B1 (en) | Voice detection using ear-based devices | |
JP2008309955A (en) | Noise suppresser | |
US8406430B2 (en) | Simulated background noise enabled echo canceller | |
JP4814861B2 (en) | Volume control apparatus, method, and program | |
EP3252765A1 (en) | Noise suppression in a voice signal | |
WO2020023856A1 (en) | Forced gap insertion for pervasive listening | |
JP2010124207A (en) | Volume adjusting device, and method, program, and recording medium of the same | |
JP2010239458A (en) | Sound volume adjusting device and method, program, and recording medium | |
JP5346350B2 (en) | Echo canceling apparatus, method and program | |
JPH07111527A (en) | Voice processing method and device using the processing method | |
JP5620350B2 (en) | On-site loudspeaking method, on-site loudspeaker and program thereof | |
JPH05204395A (en) | Audio gain controller and audio recording and reproducing device | |
WO2022202012A1 (en) | Echo suppressing device, echo suppressing method, and echo suppressing program | |
WO2023013019A1 (en) | Speech feedback device, speech feedback method, and program | |
JP3473647B2 (en) | Echo suppressor circuit | |
JP2013005106A (en) | In-house sound amplification system, in-house sound amplification method, and program therefor |