JP5371599B2 - Speech intelligibility improvement system and speech intelligibility improvement method - Google Patents

Speech intelligibility improvement system and speech intelligibility improvement method Download PDF

Info

Publication number
JP5371599B2
JP5371599B2 JP2009166926A JP2009166926A JP5371599B2 JP 5371599 B2 JP5371599 B2 JP 5371599B2 JP 2009166926 A JP2009166926 A JP 2009166926A JP 2009166926 A JP2009166926 A JP 2009166926A JP 5371599 B2 JP5371599 B2 JP 5371599B2
Authority
JP
Japan
Prior art keywords
gain
noise
power
call voice
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009166926A
Other languages
Japanese (ja)
Other versions
JP2011023959A (en
Inventor
徹 丸本
大和 鈴木
望 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009166926A priority Critical patent/JP5371599B2/en
Publication of JP2011023959A publication Critical patent/JP2011023959A/en
Application granted granted Critical
Publication of JP5371599B2 publication Critical patent/JP5371599B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide "a voice articulateness improvement system and a voice articulateness improvement method" for performing voice articulateness improvement control considering noise mixed in call voice transmitted from a call source. <P>SOLUTION: (1) First gain G<SB>0</SB>for compensating loudness based on power of combined noise obtained by combining call-reception-side noise with call-transmission-side noise and power of call voice is determined; (2) the gain when a noise increase amount in multiplying the call-transmission-side noise by predetermined gain balances with a loudness compensation amount by the gain is determined as second gain G<SB>H</SB>; (3) third gain G<SB>L</SB>at which the total of power of errors between each of the combined noise and the call voice at a call-reception-side hearing position in multiplying each of the call voice and the call-transmission-side noise by the predetermined gain G, and each of the combined noise and the call voice at the call-reception-side hearing position in multiplying only the call voice by the first gain G<SB>0</SB>is minimized is determined; and optimum gain is calculated using the gain values G<SB>H</SB>, G<SB>L</SB>based on a ratio of power of the call voice to that of the call-transmission-side noise (SN ratio). <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は音声明瞭度改善システムおよび音声明瞭度改善方法に係り、特に通話音声と騒音のパワーに基づいて通話音声のゲインを制御する音声明瞭度改善システムおよび音声明瞭度改善方法に関する。   The present invention relates to a speech intelligibility improving system and a speech intelligibility improving method, and more particularly to a speech intelligibility improving system and a speech intelligibility improving method for controlling the gain of a call voice based on the power of the call voice and noise.

周囲の騒音に合わせて、音声(ナビガイド音声、ニュースやメールの読上げなど)の音量を調整して音声の明瞭度を向上する音声明瞭度改善システムが製品化されている。音声明瞭度改善の原理は、スピーカから出力する音を騒音レベルによらずに一定のラウドネスとして人が感じるようにするために、騒音レベルとスピーカから出力する音のレベルに基づいてオーディオ信号のゲインを制御することである。   Voice intelligibility improvement systems that improve the intelligibility of voice by adjusting the volume of voice (navigation guide voice, reading of news and mail, etc.) according to the ambient noise have been commercialized. The principle of speech intelligibility improvement is that the audio signal gain is based on the noise level and the level of the sound output from the speaker so that the person feels the sound output from the speaker as a constant loudness regardless of the noise level. Is to control.

図12は提案されているナビガイド音声の音量を調整する音声明瞭度改善システムの構成図であり(特許文献1参照)、パワー推定部50とラウドネス補償制御部70が主要構成部となっている。
通常時、ナビゲーション装置の案内音声発生部51は、交差点に接近したとき案内音声信号を発生する。オーディオ部52はこの案内音声信号に音質、音量制御等を施し、増幅して出力する。ゲイン調整部(音量補正部)53は後述するラウドネス補償制御部(ゲイン制御部)70で決定したゲインGをオーディオ部52より出力する音声信号に乗算し、音量補正してスピーカ54に入力する。スピーカ54は入力音声信号を音響変換して車室内に案内音声を出力する。マイクロホン(マイク)55は案内音声Aと周辺の騒音N(エンジン音、ロードノイズ等)の合成音を検出して聴感補正フィルタ56を介してパワー計算部57に入力する。パワー計算部57は入力されたマイク検出信号の振幅の二乗演算を行なってパワーを計算し、切替部58に入力する。
切替部58は、ガイド音声が出力されていない区間において、すなわち、音声信号のパワー(音声パワー)が設定値より小さいとき、パワー計算部57で計算されたパワーを騒音パワーとして、固定接点Aを介して騒音パワー平均化部59に入力し、ガイド音声が出力されている区間において、すなわち、音声パワーが設定値より大きいとき、パワー計算部57で計算されたパワーをB接点側に出力していずれのユニットにも入力しない。
騒音パワー平均化部59は、ガイド音声が出力されていない区間において、パワー計算部57から出力するパワーを騒音パワーと見なし、パワー計算部57から出力する最新のM個(例えば256個)のパワーの移動平均値を求め、該移動平均値を騒音パワーとしてパワー保存部60に保存する。この結果、ガイド音声が出力されたとき、直前のガイド音声が出力されていない区間における最新の騒音パワーがパワー保存部60に保存されていることになる。すなわち、ガイド音声出力中の騒音パワーは、パワー保存部60に保存されている騒音パワーであると見なし、パワー保存部60に保存されている騒音パワーをラウドネス補償制御部70に入力する。
FIG. 12 is a configuration diagram of a proposed speech intelligibility improvement system that adjusts the volume of the navigation guide speech proposed (see Patent Document 1). The power estimation unit 50 and the loudness compensation control unit 70 are main components. .
Normally, the guidance voice generator 51 of the navigation device generates a guidance voice signal when approaching an intersection. The audio unit 52 performs sound quality, volume control, and the like on the guidance voice signal, amplifies it, and outputs it. The gain adjustment unit (volume correction unit) 53 multiplies the audio signal output from the audio unit 52 by the gain G determined by the later-described loudness compensation control unit (gain control unit) 70, corrects the volume, and inputs the result to the speaker 54. The speaker 54 acoustically converts the input voice signal and outputs a guidance voice into the passenger compartment. The microphone (microphone) 55 detects the synthesized sound of the guidance voice A and the surrounding noise N (engine sound, road noise, etc.) and inputs it to the power calculator 57 via the audibility correction filter 56. The power calculation unit 57 calculates the power by performing the square calculation of the amplitude of the input microphone detection signal and inputs the power to the switching unit 58.
In the section where the guide voice is not output, that is, when the power of the audio signal (audio power) is smaller than the set value, the switching unit 58 uses the power calculated by the power calculation unit 57 as the noise power and sets the fixed contact A Is input to the noise power averaging unit 59 and when the guide voice is output, that is, when the voice power is larger than the set value, the power calculated by the power calculation unit 57 is output to the B contact side. Do not input to any unit.
The noise power averaging unit 59 regards the power output from the power calculation unit 57 as noise power in the section where the guide voice is not output, and the latest M (for example, 256) powers output from the power calculation unit 57 And the moving average value is stored in the power storage unit 60 as noise power. As a result, when the guide voice is output, the latest noise power in the section where the previous guide voice is not output is stored in the power storage unit 60. That is, the noise power during the guide voice output is regarded as the noise power stored in the power storage unit 60, and the noise power stored in the power storage unit 60 is input to the loudness compensation control unit 70.

以上と並行して、オーディオ部52から出力する音声信号は、聴感補正フィルタ61を介して音声パワー計算部62に入力する。音声パワー計算部62は入力された音声信号の振幅の二乗演算を行なって音声パワーを計算し、該音声パワーを判定部63と音声パワー平均化部64に入力する。判定部63は、入力された音声パワーと設定レベルとを比較し、音声パワーが設定レベルより小さいときはガイド音声が出力されていない区間であると判定し、音声パワーが設定レベルより大きいときはガイド音声が出力されている区間であると判定する。そして、判定部63は、ガイド音声が出力されていない区間では切替器58を制御してパワー計算部57が計算したパワーを騒音パワー平均化部59に入力し、ガイド音声が出力されている区間では、何れのユニットにも入力しない。
音声パワー平均化部64は音声パワー計算部62から出力するL個(例えば1024個)の音声パワーの平均値を演算し、平均値を可変ゲイン部65に入力し、可変ゲイン部65は設定されているゲインHを平均音声パワーに乗算してラウドネス補償制御部70に入力する。なお、可変ゲイン部65に設定されるゲインHは、スピーカ54の入力端子からマイク出力端子までの伝播特性をゲインHのみで近似できると見なして、図示しない特性同定部が該ゲインHを同定モードにおいて予め同定して設定するものである。
In parallel with the above, the audio signal output from the audio unit 52 is input to the audio power calculation unit 62 via the audibility correction filter 61. The audio power calculation unit 62 calculates the audio power by performing the square calculation of the amplitude of the input audio signal, and inputs the audio power to the determination unit 63 and the audio power averaging unit 64. The determination unit 63 compares the input sound power with the set level, determines that the guide sound is not output when the sound power is lower than the set level, and when the sound power is higher than the set level. It determines with it being the area where the guide sound is output. Then, the determination unit 63 controls the switch 58 in the section where the guide voice is not output, inputs the power calculated by the power calculation unit 57 to the noise power averaging unit 59, and outputs the guide voice. Then, it does not input to any unit.
The audio power averaging unit 64 calculates an average value of L (eg, 1024) audio powers output from the audio power calculation unit 62, inputs the average value to the variable gain unit 65, and the variable gain unit 65 is set. Is multiplied by the average audio power and input to the loudness compensation controller 70. The gain H set in the variable gain unit 65 assumes that the propagation characteristic from the input terminal of the speaker 54 to the microphone output terminal can be approximated only by the gain H, and a characteristic identification unit (not shown) sets the gain H to the identification mode. Are previously identified and set.

ラウドネス補償制御部70は、ガイド音声が出力されている区間において、可変ゲイン部65から入力する音声パワーとパワー保存部60から入力する騒音パワーに基づき、騒音のレベルによらず案内音声が明瞭に聞こえるゲインGを人のラウドネス特性により決定してゲイン調整部53に入力し、ゲイン調整部53は該ゲインGを入力され、案内音声信号にゲインGを乗算して出力する。なお、ラウドネス補償制御部70は、ガイド音声が出力されていない区間では、ゲインGの決定制御を行なわない。
図12の音声明瞭度改善システムによれば、ガイド音声が出力されていない区間において騒音パワーを算出して保存し、音声出力中の騒音パワーを該保存してある騒音パワーとすることができるため、マイク検出信号のパワー(騒音と音声の合成音のパワー)から音声パワーを減算して騒音パワーを演算する必要がなく、しかも、適応フィルタを用いる必要がないため、構成を簡単に出来、RISCといったDSPではないデバイスでも実現可能となっている。
The loudness compensation control unit 70 makes the guidance voice clear regardless of the noise level based on the voice power input from the variable gain unit 65 and the noise power input from the power storage unit 60 in the section in which the guide voice is output. The gain G that can be heard is determined based on the human loudness characteristics and is input to the gain adjustment unit 53. The gain adjustment unit 53 receives the gain G, multiplies the guidance voice signal by the gain G, and outputs the result. The loudness compensation control unit 70 does not perform gain G determination control in a section where no guide voice is output.
According to the speech intelligibility improving system of FIG. 12, noise power can be calculated and stored in a section where no guide voice is output, and the noise power during voice output can be used as the stored noise power. , It is not necessary to calculate the noise power by subtracting the sound power from the power of the microphone detection signal (the power of the synthesized sound of noise and speech), and it is not necessary to use an adaptive filter, so the configuration can be simplified and the RISC This is possible even with devices that are not DSPs.

ところで、最近は、上記の音声明瞭度改善システムを車載のハンズフリー電話(HFT)にも適用することが提案されている。図13は、ハンズフリー通話音声の音量を調整する音声明瞭度改善システムの構成図であり、相手の通話音声を出力するスピーカ81、運転手の音声を集音するマイク82、通信先と音声信号を送受するための通信回路網83、音声明瞭度改善ユニット91を備えている。
音声明瞭度改善ユニット91は通信回路網83とスピーカ81、マイク82間に配置され、図12と同様の構成を備えている。すなわち、音声明瞭度改善ユニット91は、パワー推定部50、ラウドネス補償制御部70、通話音声のゲインを制御するゲイン調整部53を備えており、図12と同様に、音声レベルと騒音レベルとに基づいて音量を調整するようになっている。尚、84,85は通信先のスピーカとマイクであり、Hはスピーカ81からマイク82までの伝播特性である。
従来は、SN比の高い音声信号が入力されること、すなわち、通信先のマイク85により通信相手の音声のみが集音され、ノイズは集音されずにN1=0であることを前提としている。そして、かかる前提の上で、静粛時に聴取位置(マイク82の設置位置)で聴こえる音声HSの音量感と、騒音N2が存在する場合のそれとが同等となるようにゲインGを制御する。つまり、受話側の騒音N2に応じた補正ゲインが算出され、そのゲインが信号S+N1に乗じられてスピーカから出力される。
Recently, it has been proposed to apply the above-described speech intelligibility improvement system to an in-vehicle hands-free telephone (HFT). FIG. 13 is a configuration diagram of a speech intelligibility improvement system that adjusts the volume of hands-free call voice. The speaker 81 outputs the call voice of the other party, the microphone 82 collects the driver's voice, the communication destination and the voice signal. Are provided with a communication network 83 and a speech intelligibility improvement unit 91.
The speech intelligibility improving unit 91 is disposed between the communication circuit network 83, the speaker 81, and the microphone 82, and has the same configuration as that in FIG. That is, the speech intelligibility improvement unit 91 includes a power estimation unit 50, a loudness compensation control unit 70, and a gain adjustment unit 53 that controls the gain of the call speech. As in FIG. The volume is adjusted based on this. 84 and 85 are communication destination speakers and microphones, and H is a propagation characteristic from the speaker 81 to the microphone 82.
Conventionally, it is assumed that an audio signal having a high S / N ratio is input, that is, only the voice of the communication partner is collected by the communication destination microphone 85, and N1 = 0 without collecting the noise. . Under such a premise, the gain G is controlled so that the volume feeling of the voice HS that can be heard at the listening position (the position where the microphone 82 is installed) at the time of silence is equal to that in the presence of noise N2. That is, a correction gain according to the noise N2 on the receiving side is calculated, and the gain is multiplied by the signal S + N1 and output from the speaker.

しかし、HFT通話の場合、送話者(相手)の発話環境(周囲状況)により、相手送話音声に騒音が混入してしまうことがある(N1≠0である)。この様な場合、本来は騒音HN1+N2に対して適切な量だけ音声HSを持ち上げる必要があるが、従来のシステムでは、騒音N2に応じた音量制御しか行なっておらず、しかも、ゲイン調整部53は送話音声Sのみならず送話側の騒音N1も増幅してしまう。すなわち、従来のシステムでは、送話音声Sを騒音HN1+N2に対してより聞こえやすくするような制御はできておらず、また、騒音N1も増幅してしまうため騒音はHN1+N2からGHN1+N2に変化してしまい、ラウドネス補償効果が低減する。
なお、従来技術として音声明瞭度改善システムによりハンズフリー電話におけるエコーをキャンセル方法が提案されているが(特許文献2参照)、この従来技術もSN比の高い音声信号が入力されること、すなわち、N1=0であることを前提としているため、十分にラウドネス補償効果を発揮できない問題がある。
However, in the case of an HFT call, noise may be mixed into the other party's transmitted voice (N1 ≠ 0) depending on the utterance environment (ambient situation) of the sender (the other party). In such a case, it is originally necessary to lift the voice HS by an appropriate amount with respect to the noise HN1 + N2, but the conventional system only performs volume control according to the noise N2, and the gain adjustment unit 53 amplifies not only the transmission voice S but also the noise N1 on the transmission side. That is, in the conventional system, the transmission voice S is not controlled to make it easier to hear the noise HN1 + N2, and the noise N1 is also amplified, so the noise is increased from HN1 + N2 to GHN1 +. It changes to N2 and the loudness compensation effect is reduced.
As a conventional technique, a method for canceling echoes in a hands-free telephone by a speech intelligibility improving system has been proposed (see Patent Document 2). However, this conventional technique also inputs an audio signal having a high SN ratio, that is, Since it is assumed that N1 = 0, there is a problem that the loudness compensation effect cannot be sufficiently exhibited.

特願2008−002144Japanese Patent Application No. 2008-002144 特開2003−264627号公報JP 2003-264627 A

以上から、本発明の目的は、通話先から送られてくる通話音声に混入した騒音を考慮した音声明瞭度改善制御を行なうことである。
本発明の目的は、通話先から送られてくる通話音声に騒音が混入していても本来のラウドネス補償効果を発揮できるようにすることである。
本発明の目的は、通話先より送られてくる通話音声と騒音のパワー比(SN比)に基づいて適切なゲインを決定することである。
本発明の目的は、通話先より送られてくる通話音声と騒音のパワーが同等のとき、受話側の騒音および通話音声のパワーに基づいて適切なゲインを決定することである。
As described above, an object of the present invention is to perform voice intelligibility improvement control in consideration of noise mixed in a call voice sent from a call destination.
An object of the present invention is to enable an original loudness compensation effect to be exhibited even when noise is mixed in a call voice transmitted from a call destination.
An object of the present invention is to determine an appropriate gain based on a power ratio (SN ratio) between call voice and noise sent from a call destination.
An object of the present invention is to determine an appropriate gain based on the noise and power of a call voice on the receiving side when the power of the call voice sent from the call destination is equal to that of the noise.

本発明は、通話音声と騒音のパワーに基づいて通話音声のゲインを制御する音声明瞭度改善システム、および通話音声と騒音のパワーに基づいて通話音声のゲインを制御して通話音声の明瞭度を改善する音声明瞭度改善方法である。
・音声明瞭度改善システム
本発明の音声明瞭度改善システムは、(1) 通話音声と送話側騒音と受話側騒音のパワーを推定するパワー推定部、(2) 受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいてラウドネス補償するための第1のゲインG0を決定し、送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインGHとして決定し、前記通話音声と送話側騒音のそれぞれに所定のゲインGをかけた時の受話側聴取位置における合成騒音、通話音声と、通話音声のみに前記第1のゲインG0をかけた時の前記受話側聴取位置における合成騒音、通話音声とのそれぞれの誤差のパワーの総和が最小となる該ゲインGを第3のゲインGLとして決定するゲイン決定部、(3) 通話音声と送話側騒音のパワー比に基づいて前記第2、第3のゲインを用いて最適ゲインを算出する最適ゲイン算出部、を備えている。
本発明の音声明瞭度改善システムは、更に、通話音声と騒音のパワーに基づいてラウドネス補償するためのゲインを決定するラウドネス補償部を備え、該ラウドネス補償部は、前記合成騒音のパワーと通話音声のパワーを入力され、これらに基づいて理想状態におけるラウドネス補償するためのゲインを算出して前記ゲイン決定部に入力する。
本発明の音声明瞭度改善システムにおいて、前記ゲイン決定部は、受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいて理想状態におけるラウドネス補償するための第1のゲインを決定する第1ゲイン決定部、送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインとして決定する第2ゲイン決定部、前記通話音声と送話側騒音のそれぞれに所定のゲインをかけた時の受話側聴取位置における合成騒音、通話音声のそれぞれと、前記理想状態における該受話側聴取位置における合成騒音、通話音声のそれぞれとの誤差のパワーの総和が最小となる第3のゲインを決定する第3ゲイン決定部をそれぞれ備えている。
本発明の音声明瞭度改善システムにおいて、前記パワー比が第1の設定値より大きいとき、前記ラウドネス補償部は、送話側騒音を零とみなしたときの騒音と通話音声のパワーとに基づいて第4のゲインを求め、前記最適ゲイン算出部は、(1) 前記パワー比が第1の設定値より大きいとき、該第4のゲインを最適ゲインとし、(2) 前記パワー比が第1の設定値より小さく第2の設定値より大きいときには、前記第2のゲインと第3のゲインの平均値を最適ゲインとし、(3) 前記パワー比がほぼ1に等しいときは、通話音声および受話側騒音のパワーに基づいて最適ゲインを決定し、(4) 前記パワー比が1より小さい第3の設定値より小さいときには、前記第3のゲインを最適ゲインとする。
この場合、前記最適ゲイン算出部は、前記パワー比がほぼ1に等しいとき、(1)通話音声のパワーが大きくなる程、ゲインが0dBに収束するように、また、(2) 同じ通話音声パワーでも受話騒音パワーが大きくなる程、ゲインが0dBに比べて、より大きくなるように、前記第2、第3のゲインを用いて最適ゲインを決定する。
The present invention provides a speech intelligibility improvement system that controls the gain of a call voice based on the power of the call voice and noise, and a call voice gain that controls the gain of the call voice based on the power of the call voice and the noise. This is a method for improving speech intelligibility.
・ Voice intelligibility improvement system The audio intelligibility improvement system of the present invention includes (1) a power estimator that estimates the power of speech, transmission side noise, and reception side noise, and (2) reception side noise and transmission side. The first gain G 0 for loudness compensation is determined based on the power of the synthesized noise obtained by synthesizing the noise and the power of the call voice, and the amount of increase in noise when a predetermined gain is applied to the transmission side noise. in the receiving side listening position when the loudness compensation amount by the gain of the gain determined as a second gain G H when balanced, multiplied by a predetermined gain G to each of the transmission side noise and the call voice The gain G that minimizes the sum of the powers of the respective errors of the synthesized noise and call voice and the synthesized noise and call voice at the receiving side listening position when the first gain G 0 is applied to only the call voice. to determine the as a third gain G L Gain determination unit is provided with the optimum gain calculation unit, which calculates the optimum gain with the second, third gain based on the power ratio of the transmission side noise and (3) call voice.
The speech intelligibility improving system of the present invention further includes a loudness compensation unit that determines a gain for compensating the loudness based on the speech voice and noise power, and the loudness compensation unit includes the power of the synthesized noise and the speech voice. Based on these, a gain for compensating for loudness in an ideal state is calculated and input to the gain determination unit.
In the speech intelligibility improvement system according to the present invention, the gain determination unit is configured to compensate for loudness in an ideal state based on a synthesized noise power obtained by synthesizing a reception side noise and a transmission side noise and a power of a call voice. A first gain determination unit that determines a first gain, and a gain obtained when a noise increase amount when a predetermined gain is applied to the transmission side noise and a loudness compensation amount by the gain are balanced as a second gain A second gain determining unit for determining, each of the synthesized noise and the call voice at the reception side listening position when a predetermined gain is applied to each of the call voice and the transmission side noise, and the reception side listening position in the ideal state; Are respectively provided with third gain determining sections for determining a third gain that minimizes the sum of the error powers of the synthesized noise and the call voice.
In the speech intelligibility improving system according to the present invention, when the power ratio is larger than the first set value, the loudness compensation unit is based on the noise when the transmission side noise is regarded as zero and the power of the call voice. The fourth gain is obtained, and the optimum gain calculation unit (1) sets the fourth gain as the optimum gain when the power ratio is larger than the first set value, and (2) sets the power ratio as the first gain. When the value is smaller than the set value and greater than the second set value, the average value of the second gain and the third gain is set as the optimum gain. (3) When the power ratio is substantially equal to 1, the call voice and the receiving side An optimum gain is determined based on the noise power. (4) When the power ratio is smaller than a third set value smaller than 1, the third gain is set as the optimum gain.
In this case, when the power ratio is substantially equal to 1, the optimum gain calculation unit (1) the gain is converged to 0 dB as the power of the call voice increases, and (2) the same call voice power. However, the optimum gain is determined using the second and third gains so that the gain becomes larger as the received noise power becomes larger than 0 dB.

・音声明瞭度改善方法
本発明の音声明瞭度改善方法は、通話音声と送話側騒音と受話側騒音のパワーを推定するステップ、受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいてラウドネス補償するための第1のゲインG0を決定するステップ、送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインGHとして決定するステップ、前記通話音声と送話側騒音のそれぞれに所定のゲインGをかけた時の受話側聴取位置における合成騒音、通話音声と、通話音声のみに前記第1のゲインG0をかけた時の前記受話側聴取位置における合成騒音、通話音声とのそれぞれの誤差のパワーの総和が最小となる該ゲインGを第3のゲインGLとして決定するステップ、通話音声と送話側騒音のパワー比に基づいて前記第2、第3のゲインを用いて最適ゲインを算出するステップ、を有している。
前記最適ゲイン算出ステップは、(1)前記パワー比が第1の設定値より大きいとき、送話側騒音を零とみなしたときの騒音と通話音声のパワーとに基づいて第4のゲインを求め、該第4のゲインを最適ゲインとするステップ、(2) 前記パワー比が第1の設定値より小さく第2の設定値より大きいときには、前記第2のゲインと第3のゲインの平均値を最適ゲインとするステップ、(3) 前記パワー比がほぼ1に等しいときは、通話音声および受話側騒音のパワーに基づいて最適ゲインを決定するステップ、(4) 前記パワー比が第3の設定値より小さいときには、前記第3のゲインを最適ゲインとするステップ、を有している。この場合、前記パワー比がほぼ1に等しいとき、(1)通話音声のパワーが大きくなる程、ゲインが0dBに収束するように、また、(2) 同じ通話音声パワーでも受話騒音パワーが大きくなる程、ゲインが0dBに比べて、より大きくなるように、前記第2、第3のゲインを用いて最適ゲインを決定する。
-Voice intelligibility improvement method The speech intelligibility improvement method of the present invention comprises a step of estimating the power of call voice, transmission side noise and reception side noise, and synthesis noise obtained by synthesizing reception side noise and transmission side noise. determining a first gain G 0 for loudness compensation based on the power of the power and call voice, and loudness compensation amount by the noise increase and the gain when applying a predetermined gain to the transmit path noise Determining the second gain G H as the second gain G H , the synthesized noise at the receiving side listening position when the predetermined gain G is applied to each of the calling voice and the transmitting side noise, and the calling voice , synthetic noise at the receiver side listening position when applying the first gain G 0 only call voice, the sum of the respective error of the power of the speech sound is minimized the gain G of the third gain G determined as L That step, the second based on the power ratio of the transmission side noise and speech sound, has a step, of calculating an optimum gain by using the third gain.
In the optimum gain calculating step, (1) when the power ratio is larger than the first set value, a fourth gain is obtained on the basis of the noise when the transmission side noise is considered to be zero and the power of the call voice. (2) when the power ratio is smaller than the first set value and larger than the second set value, an average value of the second gain and the third gain is set. (3) when the power ratio is substantially equal to 1, determining the optimum gain based on the power of the call voice and the receiving side noise; and (4) the power ratio is a third set value. When it is smaller, the step of setting the third gain as an optimum gain is provided. In this case, when the power ratio is substantially equal to 1, (1) the gain of the call voice increases so that the gain converges to 0 dB, and (2) the received noise power increases with the same call voice power. The optimum gain is determined using the second and third gains so that the gain becomes larger than 0 dB.

本発明によれば、受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいてラウドネス補償するための第1のゲインを決定し、送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインとして決定し、前記通話音声と送話側騒音のそれぞれに所定のゲインGをかけた時の受話側聴取位置における合成騒音、通話音声と、通話音声のみに前記第1のゲインG0をかけた時の前記受話側聴取位置における合成騒音、通話音声とのそれぞれの誤差のパワーの総和が最小となる該ゲインGを第3のゲインGLとして決定し、通話音声と送話側騒音のパワー比に基づいて前記第2、第3のゲインを用いて最適ゲインを算出するようにしたから、通話先から送られてくる通話音声に混入した騒音を考慮した音声明瞭度改善制御を行なうことができ、通話音声に騒音が混入していても本来のラウドネス補償効果を十分に発揮することが可能となった。すなわち、本発明によれば、音声の聴覚的な音量感(ラウドネス)を実現できる第2のゲインGHと、理想状態とのずれが最も小さくなるような第3のゲインGLとを求め、通話音声Sと送話側騒音N1のSN比に応じて最適なゲインGoptを求めることにより、最終的に受話者が聴取するトータルの騒音レベルを考慮した形で通話音声Sのレベルを制御できるようになる。その結果、送話側信号にノイズN1が混入しているようなHFT音声に対しても、従来システムに比べてより適切な音声明瞭度改善システムとしての性能を発揮できるようになり、より適切な音量で相手の音声を聴取することが可能となる。
又、本発明によれば、通話先より送られてくる通話音声と騒音のパワー比(SN比)に基づいて前記第2のゲインGHと第3のゲインGLとを用いて最適なゲインを決定することができる。
又、本発明によれば、前記パワー比がほぼ1に等しいとき、通話音声のパワーが大きくなる程、ゲインが0dBに収束するように、また、同じ通話音声パワーでも受話騒音パワーが大きくなる程、ゲインが0dBに比べて、より大きくなるように、前記第1、第2のゲインを用いて適切なゲインを決定することができる。
According to the present invention, the first gain for compensating the loudness is determined based on the power of the synthesized noise obtained by synthesizing the noise on the receiver side and the noise on the transmitter side and the power of the call voice, and the noise on the transmitter side is determined. The gain when the amount of increase in noise when a predetermined gain is applied and the loudness compensation amount due to the gain are balanced is determined as a second gain, and a predetermined gain G is applied to each of the call voice and the transmission side noise. synthetic noise at the receiving side the listening position when multiplied by a call voice, synthetic noise at the receiver side listening position when applying the first gain G 0 only call voice, the respective error of the call voice The gain G that minimizes the sum of power is determined as the third gain G L , and the optimum gain is calculated using the second and third gains based on the power ratio between the speech voice and the transmitting side noise. So that you can call Voice intelligibility improvement control considering the noise mixed in the incoming call voice can be performed, and the original loudness compensation effect can be fully demonstrated even if the call voice contains noise. . That is, according to the present invention, a second gain G H which can realize perceptual loudness of the audio (loudness), and a gain G L third shift that is the smallest of the ideal state determined, By determining the optimum gain Gopt according to the S / N ratio of the call voice S and the sending side noise N1, the level of the call voice S can be controlled in consideration of the total noise level that is finally heard by the receiver. become. As a result, even for HFT speech in which noise N1 is mixed in the signal on the transmitter side, it is possible to demonstrate performance as a more appropriate speech intelligibility improvement system compared to conventional systems, and more appropriate The other party's voice can be heard at the volume.
Further, according to the present invention, an optimum gain is obtained by using the second gain GH and the third gain GL based on the power ratio (SN ratio) of the voice and noise transmitted from the call destination. Can be determined.
According to the present invention, when the power ratio is approximately equal to 1, the gain is converged to 0 dB as the power of the voice is increased, and the received noise power is increased even with the same voice power. The appropriate gain can be determined using the first and second gains so that the gain becomes larger than 0 dB.

車載のハンズフリー電話(HFT)に適用した場合の本発明の音声明瞭度改善システムの構成図である。It is a block diagram of the speech intelligibility improvement system of this invention at the time of applying to a vehicle-mounted hands-free telephone (HFT). 最適ゲイン決定部の構成図である。It is a block diagram of an optimal gain determination part. 本発明の最適ゲイン決定処理フローである。It is the optimal gain determination processing flow of this invention. ゲインGHの決定処理説明図である。A determination process diagram of the gain G H. 通話音声と送話側騒音のパワー比(SN比)に基づいて最適ゲインを決定するための図表である。6 is a chart for determining an optimum gain based on a power ratio (SN ratio) between call voice and transmitting side noise. ステップ122の詳細な処理フローである。It is a detailed processing flow of step 122. 最適ゲイン決定テーブル説明図である。It is explanatory drawing of an optimal gain determination table. PS=70dB、 PN1=60dB、 PN2=50dBの場合の具体的な事例を説明するための最適ゲイン決定説明図である。FIG. 10 is an explanatory diagram for determining an optimum gain for explaining a specific example in the case of P S = 70 dB, P N1 = 60 dB, and P N2 = 50 dB. 音声のパワー分布説明図である。It is power distribution explanatory drawing of an audio | voice. 騒音のパワー分布説明図である。It is noise power distribution explanatory drawing. 音声および騒音のパワー分布の説明図である。It is explanatory drawing of the power distribution of an audio | voice and noise. 提案されているナビガイド音声の音量を調整する音声明瞭度改善システムの構成図である。It is a block diagram of the audio intelligibility improvement system which adjusts the volume of the proposed navigation guide audio | voice. ハンズフリー通話音声の音量を調整する従来の音声明瞭度改善システムの構成図である。It is a block diagram of the conventional speech intelligibility improvement system which adjusts the volume of the hands-free call voice.

(A)音声明瞭度改善システム
図1は車載のハンズフリー電話(HFT)に適用した場合の本発明の音声明瞭度改善システムの構成図であり、音声明瞭度改善ユニット10が通信回路網21とスピーカ22、マイク23間に配置されている。通話回線網21は通信相手と通話するための通信リンクを確立し、通信先からの音声信号を音声明瞭度改善ユニット10のゲイン調整部を介してスピーカ22に入力し、また、マイク23から入力された運転手の音声信号を通信相手先に送信する。スピーカ22は通話回線網21から入力された通信先相手の通話音声を出力し、マイク23は運転手の音声を集音して通信回線網21に入力する。スピーカ22からマイク23までの伝達特性はHである。HFT端末装置はスピーカ22、マイク23に加えて、通信インターフェースやオーディオ回路などの種々の回路ユニットで構成されているが図1では省略している。また、スピーカ31、マイク32は通信相手先のHFT端末装置に備え付けられたものである。
(A) Speech Intelligibility Improvement System FIG. 1 is a configuration diagram of a speech intelligibility improvement system of the present invention when applied to an in-vehicle hands-free telephone (HFT). It is arranged between the speaker 22 and the microphone 23. The communication line network 21 establishes a communication link for making a call with a communication partner, inputs an audio signal from the communication destination to the speaker 22 via the gain adjustment unit of the audio intelligibility improvement unit 10, and inputs from the microphone 23. The driver's voice signal is transmitted to the communication partner. The speaker 22 outputs the call voice of the communication partner input from the call line network 21, and the microphone 23 collects the driver's voice and inputs it to the communication line network 21. The transfer characteristic from the speaker 22 to the microphone 23 is H. The HFT terminal device includes various circuit units such as a communication interface and an audio circuit in addition to the speaker 22 and the microphone 23, but is omitted in FIG. The speaker 31 and the microphone 32 are provided in the communication partner HFT terminal device.

音声明瞭度改善ユニット10において、パワー推定部11は、通信先から送られてくる通話音声Sおよび送話側の騒音N1の受話側聴取位置(マイク位置)における各パワーPHS、PHN1を推定すると共に、受話側の騒音N2の受話側聴取位置におけるパワーPN2を推定して出力する。パワーの算出方法は、例えば、既に提案されている後述する手法等を採用することができる。このパワーPHN1算出方法によれば、まず、送話側騒音N1のパワーPN1を算出し、次に、受話信号S+N1のパワーからそれを減算することにより、通話音声SのパワーPSを算出する。一方、S+N1のレベルが小さいときに受話側マイクから入力される信号は受話側騒音N2とみなせるので、そのパワーを求めれば、PN2を単独で抽出することができる。なお、送話側騒音N1のパワーPN1に伝播特性Hを乗算したパワーが聴取位置における送話側騒音のパワーPHN1となり、また、通話音声SのパワーPSに伝播特性Hを乗算したパワーが聴取位置における通話音声のパワーPHSとなる。
最適ゲイン決定部12は、図3の処理フローにしたがって、適宜、通話音声のパワーPHS、騒音N1と騒音N2の合成騒音のパワーPNをラウドネス補償部13に入力すると共に、最適ゲインGoptを決定してゲイン調整部14に設定する。ラウドネス補償部13は、通話音声のパワーPHSと合成騒音パワーPNに基づいて音声の聴覚的な音量感が得られるような補償量(ラウドネス補償量)を発生するためのゲインを決定して最適ゲイン決定部12に入力する。ラウドネス補償部13は、ゲインテーブルGTLを備え、このゲインテーブルを参照して前記ゲインを決定する。ゲイン調整部14は通話回線網21から入力する音声信号に最適ゲインをかけてスピーカ22に入力する。
In the speech intelligibility improvement unit 10, the power estimation unit 11 estimates the powers P HS and P HN1 at the reception side listening position (microphone position) of the call voice S and the noise N1 on the transmission side sent from the communication destination. At the same time, the power PN2 at the listening side listening position of the receiving side noise N2 is estimated and output. As the power calculation method, for example, a method which has been proposed later and the like can be employed. According to this power P HN1 calculating method, first, calculates the power P N1 of the transmission side noise N1, then by subtracting it from the power of the reception signal S + N1, the power P S of the call voice S Is calculated. Meanwhile, the signal input from the receiving side microphone when the level of the S + N1 is small because regarded as receiving side noise N 2, by obtaining its power, it is possible to extract the P N2 alone. Incidentally, the transmitting end power P HN1 next noise power multiplied by the propagation characteristics H to the power P N1 of the transmission side noise N1 is at the listening position and the power multiplied by the propagation characteristics H to the power P S of the call voice S Becomes the power PHS of the call voice at the listening position.
Optimum gain determination unit 12, in accordance with the processing flow of FIG. 3, as appropriate, the power P HS call audio inputs the power P N of the synthetic noise noise N1 and the noise N2 in the loudness compensator 13, the optimum gain Gopt The gain is determined and set in the gain adjustment unit 14. Loudness compensation unit 13 determines a gain for generating a compensation amount as auditory loudness of sound is obtained based on the power P HS synthetic noise power P N of the call voice (loudness compensation amount) Input to the optimum gain determination unit 12. The loudness compensation unit 13 includes a gain table GTL, and determines the gain with reference to the gain table. The gain adjusting unit 14 applies the optimum gain to the audio signal input from the telephone line network 21 and inputs the audio signal to the speaker 22.

図2は、最適ゲイン決定部12の構成図であり、最適ゲインを決定するための図3の処理を実行する最適ゲイン演算制御部12a、最適ゲイン演算制御部12aが設定する所定のゲインGを送話側騒音N1のパワーPHN1に乗算するゲイン乗算部12b、G×PHN1+PN2により受話側の聴取位置における合成騒音のパワーPNを演算して出力する加算器12c、通話音声Sと送話側騒音N1のパワー比(SN比)を計算して最適ゲイン演算制御部12aに入力するSN比計算部12dを備えている。 FIG. 2 is a configuration diagram of the optimum gain determination unit 12, and an optimum gain calculation control unit 12a that executes the process of FIG. 3 for determining the optimum gain, and a predetermined gain G set by the optimum gain calculation control unit 12a. A gain multiplier 12b that multiplies the power P HN1 of the transmitting side noise N1, an adder 12c that calculates and outputs the power P N of the synthesized noise at the listening position on the receiving side by G × P HN1 + P N2 ; An SN ratio calculation unit 12d that calculates a power ratio (SN ratio) of the transmission side noise N1 and inputs the power ratio to the optimum gain calculation control unit 12a is provided.

(B)最適ゲイン決定処理
図3は本発明の最適ゲイン決定処理フローであり、受話側騒音N2のみならず送話側騒音N1のパワー成分も考慮して最適ゲインGoptを決定する。なお、通話音声S、送話側騒音N1、受話側の騒音N2の受話側聴取位置における各パワーPHS、PHN1、PN2は既に推定されてあるものとする。
まず、受話側の騒音N2と送話側騒音HN1とを合成した合成騒音(N2+HN1)のパワーをPNとし、このパワーPNと通話音声HSのパワーPHSとに基づいて理想状態におけるラウドネス補償するためのゲインG0を決定する。すなわち、受話側マイク23に入力される送話側騒音の成分N1にゲインGが乗じられないような理想的な状況を考えた場合にラウドネス補償するために必要とされるゲインG0を求める。
このために、最適ゲイン決定部12の最適ゲイン演算制御部12aは、ゲイン乗算部12bにゲインG=1(0dB)を設定し(ステップ101)、加算器12cはそのときの受話側聴取位置における騒音PNを次式
PN=G・PHN1+PN2=PHN1+PN2
により計算し(ステップ102)、騒音パワーPNと通話音声のパワーPHSとをラウドネス補償部13に入力する。ラウドネス補償部13は、ゲインテーブルGTLを参照して通話音声のパワーPHSと騒音パワーPNに基づいて音声の聴覚的な音量感が得られるような補償量(ラウドネス補償量)を発生するためのゲインを決定して最適ゲイン演算制御部12aに入力する(ステップ103)。最適ゲイン演算制御部12aは、入力されたゲインGを理想状態におけるラウドネス補償するためのゲインG0とする(G0=G、ステップ104)。
(B) Optimal Gain Determination Processing FIG. 3 is an optimal gain determination processing flow of the present invention, and the optimal gain Gopt is determined in consideration of not only the reception side noise N2 but also the power component of the transmission side noise N1. It is assumed that the powers P HS , P HN1 , and P N2 at the receiving side listening position of the call voice S, the transmitting side noise N1, and the receiving side noise N2 have already been estimated.
First, let P N be the power of the combined noise (N2 + HN1) that combines the noise N2 on the receiver side and the noise HN1 on the transmitter side, and based on this power P N and the power P HS of the call voice HS, A gain G 0 for compensating the loudness is determined. That is, the gain G 0 required to compensate the loudness when the ideal situation in which the gain G is not multiplied by the component N1 of the transmitting side noise input to the receiving side microphone 23 is considered.
For this purpose, the optimum gain calculation control unit 12a of the optimum gain determination unit 12 sets the gain G = 1 (0 dB) in the gain multiplication unit 12b (step 101), and the adder 12c is at the receiving side listening position at that time. Noise P N is the following formula
P N = G ・ P HN1 + P N2 = P HN1 + P N2
(Step 102), and the noise power PN and the power PHS of the call voice are input to the loudness compensation unit 13. Loudness compensation unit 13, for generating compensation amount as auditory loudness of sound is obtained based on the power P HS and noise power P N of the call voice with reference to the gain table GTL (the loudness compensation amount) And is input to the optimum gain calculation control unit 12a (step 103). The optimum gain calculation control unit 12a sets the input gain G as a gain G 0 for compensating for loudness in an ideal state (G 0 = G, step 104).

ついで、最適ゲイン決定部12は、送話側騒音N1にゲインGをかけた結果得られる騒音の増加分((GHN1+N2)−(HN1+N2))と、補正に必要なラウドネス補償量がちょうど同じになるようなゲインGを計算し、該ゲインをGHとする。
このために、最適ゲイン決定部12の最適ゲイン演算制御部12aは、ゲインG(=G0)をGoldの初期値とし、該Goldをゲイン乗算部12bに設定し(ステップ111)、加算器12cはそのときの受話側聴取位置における騒音PNを次式
PN=G・PHN1+PN2=G0・PHN1+PN2
により計算し(ステップ112)、騒音パワーPNと通話音声のパワーPHSとをラウドネス補償部13に入力する。ラウドネス補償部13は、ゲインテーブルを参照して通話音声のパワーPHSと騒音パワーPNに基づいて音声の聴覚的な音量感が得られるような補償量(ラウドネス補償量)を発生するためのゲインGを決定して最適ゲイン演算制御部12aに入力する(ステップ113)。最適ゲイン演算制御部12aは入力されたゲインGとGoldを比較し(ステップ114)、G>Goldであれば、該Gを新たなGoldに設定してステップ111以降の処理を繰り返す。しかし、ゲインGがGold以下になれば、該ゲインGをGHとして(GH=G、ステップ115)、GHの決定処理を終了する。図4(A)はゲインGHの決定処理説明図である。
Next, the optimum gain determination unit 12 has the same increase in noise ((GHN1 + N2) − (HN1 + N2)) obtained as a result of multiplying the transmitting side noise N1 by the gain G and the loudness compensation amount necessary for correction. A gain G is calculated, and the gain is set to GH .
For this purpose, the optimum gain calculation control unit 12a of the optimum gain determination unit 12 sets the gain G (= G 0 ) as the initial value of Gold, sets the Gold in the gain multiplication unit 12b (Step 111), and adds the adder 12c. the following equation noise P N in the receiving side listening position at that time
P N = G ・ P HN1 + P N2 = G 0・ P HN1 + P N2
(Step 112), and the noise power PN and the voice PHS of the voice are input to the loudness compensation unit 13. Loudness compensation unit 13, the call voice with reference to the gain table power P HS and voice based on the noise power P N auditory compensation amount as volume feeling is obtained (loudness compensation amount) for generating The gain G is determined and input to the optimum gain calculation control unit 12a (step 113). The optimum gain calculation control unit 12a compares the input gain G and Gold (step 114), and if G> Gold, sets G to a new Gold and repeats the processing from step 111 onward. However, if the gain G is equal to or less than Gold, the gain G is set to G H (G H = G, step 115), and the G H determination process is terminated. FIG. 4A is an explanatory diagram for determining the gain GH .

Goldとして初期設定されるG0は、マイク位置の合成騒音NをHN1+N2としたときに求まった理想的な場合のゲインであり、このゲインGoldをノイズN1に乗算することによりマイク位置での合成騒音N′はG0HN1+N2となり、HN1+N2より大きくなる。この結果、ラウドネス補償するために求まるゲインGはGold(=G0)より大きくなり、この求まったゲインGが新たなGoldとなる。以後、ゲインが大きくなった分、マイク位置での合成騒音が大きくなりゲインGが漸増するが、所定の騒音レベルにおいて計算されたゲインGがG=GoldあるいはG< Goldとなり、そのときのGをGH とする。 G 0 which is initially set as Gold is a gain in an ideal case obtained when the synthesized noise N at the microphone position is HN1 + N2, and the synthesized noise at the microphone position is obtained by multiplying the noise Gold by this gain Gold. N ′ becomes G 0 HN1 + N2, and is larger than HN1 + N2. As a result, the gain G obtained for the loudness compensation becomes larger than Gold (= G 0 ), and the obtained gain G becomes a new Gold. After that, the synthesized noise at the microphone position increases and the gain G gradually increases as the gain increases, but the gain G calculated at a given noise level becomes G = Gold or G <Gold. Let G H.

図4(B)はゲインGHが求まる過程を数値で説明するためのゲインテーブルの一例である。なお、S=70dB、N1=60dB、N2=50dBとする。
最適ゲイン決定部12は騒音の総和Nを
N=N1+N2=60.4dB
により求め、S、Nをラウドネス補償部13に入力し、ラウドネス補償部13はゲインテーブルGTLを参照してS=70dB、N=60.4dBのときの(理想状態のときの)ラウドネス補償するためのゲインG、すなわち
G=f(S,N)=f(70,60.4)=2.9(=G0)
を決定して最適ゲイン決定部12に入力する。
次に最適ゲイン決定部12はGold=2.9とし、N1’=N1+Gold=62.9、N’=N1’+N2=63.1を計算し、S、N′をラウドネス補償部13に入力し、ラウドネス補償部13はゲインテーブルGTLを参照してS=70dB、N′=63.1dBのときのラウドネス補償するためのゲイン
G=f(S、N’)=f(70,63.1)=3.6
を決定して最適ゲイン決定部12に入力する。
この決定されたゲインGは、
G≦Gold
を満たしていないため、最適ゲイン決定部12はGold=3.6とし、N1’=N1+Gold=63.6、N’=N1’+N2=63.8
を再度計算し、S、N′をラウドネス補償部13に入力し、ラウドネス補償部13はゲインテーブルGTLを参照してS=70dB、N′=63.8dBのときのラウドネス補償するためのゲイン
G=f(S、N’)=f(70,63.1)=3.6
を決定して最適ゲイン決定部12に入力する。このときのゲインGは
G≦Gold
を満たすため、GH=G=3.6となる
4 (B) is an example of a gain table for explaining a process gain G H is obtained numerically. Note that S = 70 dB, N1 = 60 dB, and N2 = 50 dB.
The optimum gain determination unit 12 calculates the total noise N
N = N1 + N2 = 60.4dB
S and N are input to the loudness compensation unit 13, and the loudness compensation unit 13 refers to the gain table GTL to compensate the loudness when S = 70dB and N = 60.4dB (in the ideal state). Gain G, ie
G = f (S, N) = f (70,60.4) = 2.9 (= G 0 )
Is input to the optimum gain determination unit 12.
Next, the optimum gain determination unit 12 sets Gold = 2.9, calculates N1 ′ = N1 + Gold = 62.9, N ′ = N1 ′ + N2 = 63.1, inputs S and N ′ to the loudness compensation unit 13, and the loudness compensation unit 13 Gain to compensate for loudness when S = 70dB and N '= 63.1dB with reference to gain table GTL
G = f (S, N ') = f (70, 63.1) = 3.6
Is input to the optimum gain determination unit 12.
This determined gain G is
G ≦ Gold
Therefore, the optimum gain determination unit 12 sets Gold = 3.6, N1 ′ = N1 + Gold = 63.6, N ′ = N1 ′ + N2 = 63.8
, And S and N ′ are input to the loudness compensation unit 13, and the loudness compensation unit 13 refers to the gain table GTL and gain for compensating for loudness when S = 70 dB and N ′ = 63.8 dB.
G = f (S, N ') = f (70, 63.1) = 3.6
Is input to the optimum gain determination unit 12. The gain G at this time is
G ≦ Gold
To satisfy G H = G = 3.6

図3の処理フローに戻って、ゲインGHが決定されれば、最適ゲイン決定部12は、理想的な状態とのずれ、すなわち、誤差のパワーの総和が最も小さくなるようなゲイン(全体音量を考慮したゲイン)GLを算出する(ステップ121)。このゲインGLは、PHS、PHN1、G0を用いて次式により計算できる。ここでw1、w2は重み係数である。

Figure 0005371599
この(1)式は以下に従って導出したものである。本来、騒音HN1+N2に対して適切なゲインG0を求め、音声Sのみに対してこのゲインG0を乗じるべきである。すなわち、聴取位置での音声はG0HS、騒音はHN1+N2となるのが理想である。しかしながら、実際にはG×(S+N1)のようにゲインGがかけられるため、聴取位置での実際の音声はGHS、実際の騒音はGHN1+N2となってしまう。すなわち、聴取位置における音声と騒音は理想的な状態からズレ、それぞれ次式で示す誤差e、e
Figure 0005371599
を生じる。そこで、以下の評価関数
Figure 0005371599
を用いて、該評価関数が最小となるようGを決定する。この評価関数を最小にするゲインが(1)式である。すなわち、評価関数JをGで微分した微分値dJ/dGを0としてGを求めれば(1)式が求まる。なお、w1とw2はそれぞれの誤差e1とe2をどの程度重視するかを決定する重み係数である。 Returning to the processing flow of FIG. 3, when the gain GH is determined, the optimum gain determination unit 12 determines a gain (overall volume) that makes the deviation from the ideal state, that is, the sum of the error powers becomes the smallest. Gain) G L is calculated (step 121). This gain G L can be calculated by the following equation using P HS , P HN1 and G 0 . Here, w 1 and w 2 are weighting factors.
Figure 0005371599
This equation (1) is derived according to the following. Essentially, an appropriate gain G 0 should be obtained for the noise HN1 + N 2 and only the voice S should be multiplied by this gain G 0 . That is, ideally, the sound at the listening position is G 0 HS, and the noise is HN 1 + N 2 . However, because the actual gain G is applied as G × (S + N1), the actual voice of the listening position GHS, actual noise becomes GHN1 + N 2. That is, the voice and noise at the listening position deviate from the ideal state, and errors e 1 and e 2 shown by the following equations, respectively.
Figure 0005371599
Produce. Therefore, the following evaluation function
Figure 0005371599
Is used to determine G so that the evaluation function is minimized. The gain that minimizes this evaluation function is expressed by equation (1). That is, if G is obtained by setting the differential value dJ / dG obtained by differentiating the evaluation function J by G to 0, equation (1) is obtained. Here, w 1 and w 2 are weighting factors that determine how much importance is attached to the respective errors e 1 and e 2 .

以上のようにして求まった、ゲインGLおよびGHを用いて、最適なゲイン値Goptを決定する。すなわち、受話音声HSと送話側騒音N1のパワー比(SN比)を算出し、その値をあらかじめ求めておいた図5の(A)、(B)に示す表1、表2を参照して最適なゲイン値Goptを決定する(ステップ122)。
図6はステップ122の詳細な処理フローであり、受話音声HSと送話側騒音N1のパワー比(SN比)を算出し(ステップ201)、受話音声HSと送話側騒音N1がほぼ等しくてSN比が1(dBで表現して0dB)相当であるかチェック、すなわち0dBを含む所定範囲(−α(dB)〜+α(dB))内に存在するかチェックする(ステップ202)。該範囲外であれば、図5(A)の表1にしたがってSN比に応じた最適ゲインGoptを決定してゲイン調整部14に設定し(ステップ203)、前記範囲内であれば図5(B)の表2にしたがって通話音声パワーPHS及び受話側騒音PN2に応じた最適ゲインGoptを決定してゲイン調整部14に設定する(ステップ204)。
The optimal gain value Gopt is determined using the gains G L and G H obtained as described above. That is, the power ratio (SN ratio) between the received voice HS and the transmitting side noise N1 is calculated, and the value is obtained in advance with reference to Tables 1 and 2 shown in FIGS. The optimum gain value Gopt is determined (step 122).
FIG. 6 is a detailed processing flow of step 122, where the power ratio (SN ratio) between the reception voice HS and the transmission side noise N1 is calculated (step 201), and the reception voice HS and the transmission side noise N1 are substantially equal. It is checked whether the SN ratio is equivalent to 1 (0 dB expressed in dB), that is, whether it is within a predetermined range (-α (dB) to + α (dB)) including 0 dB (step 202). If it is out of the range, the optimum gain Gopt corresponding to the S / N ratio is determined and set in the gain adjusting unit 14 according to Table 1 in FIG. 5A (step 203). to determine the optimum gain Gopt set to the gain adjusting unit 14 in response to the call in accordance with Table 2 voice power P HS and receiving side noise P N2 of B) (step 204).

(C)表1、表2の決定基準
(a)表1
図5(A)は通話音声パワーPHSと送話側騒音パワーPHN1に基づいて最適ゲインを決定するための表であり、左下にいくほどSN比が高く、右上にいくほどSN比が低くなっている。この表1は以下を考慮して決定している。
1)十分にSN比が高い場合(20dB以上)は、従来と同様のゲイン値(Gorg)を採用した場合と音声明瞭度改善効果は変わらず、したがってGorg を最適ゲインGoptとして音声明瞭度改善を行う。なお、Gorgは、通話音声パワーをPHS、受話側聴取位置の騒音パワーPNを受話側騒音パワーPN2とした場合において、ラウドネス補償部12より得られるゲインである。
2) SN比が10dB程度の場合は、GLとGHのうちどのゲインを選択しても 差異が小さいため、GLとGHの中間値(GL+GH)/2を最適ゲインGoptとして音声明瞭度改善を行う。なお、従来手法で算出したゲインGorgを採用することも出来る。
3) SN比が0dB程度の場合は、受話側騒音レベルN2及び通話音声レベルHS(≒HN1)に依存したゲイン選択を行うようにする。表2参照。
4) SN比が−10dB以下では、そもそものSN比が悪すぎてどれだけゲインを重畳しても聞こえやすさの改善にはならない。このため、全体音量を大きくさせないことを重視し、理想的な状態とのずれ、すなわち、誤差のパワーの総和が最も小さくなるようなゲインGLを最適ゲインとして採用する。なお、SN比が悪くなるにつれゲインを0dBに収束させるようにしてもよい。すなわち、SN比が−20dB以下ではG=0dBとする。
(C) Decision criteria for Tables 1 and 2 (a) Table 1
FIG. 5A is a table for determining the optimum gain based on the call voice power PHS and the transmission side noise power PHN1 , and the SN ratio is higher as it goes to the lower left, and the SN ratio becomes lower as it goes to the upper right. It has become. This Table 1 is determined in consideration of the following.
1) When the signal-to-noise ratio is sufficiently high (20 dB or more), the speech intelligibility improvement effect is the same as when the same gain value (Gorg) as before is used. Do. Gorg is a gain obtained from the loudness compensation unit 12 when the call voice power is P HS and the noise power PN at the reception side listening position is the reception side noise power P N2 .
If 2) SN ratio of about 10 dB, since differences selecting any gain of G L and G H is small, the optimum gain intermediate value of G L and G H a (G L + G H) / 2 Improves speech intelligibility as Gopt. The gain Gorg calculated by the conventional method can also be adopted.
3) When the signal-to-noise ratio is about 0 dB, make a gain selection that depends on the noise level N2 on the receiving side and the voice level HS (≈HN1). See Table 2.
4) If the signal-to-noise ratio is -10dB or less, the signal-to-noise ratio is too bad in the first place, and no matter how much gain is superimposed, the audibility is not improved. For this reason, emphasis is placed on not increasing the overall volume, and a gain GL that minimizes the deviation from the ideal state, that is, the sum of error powers, is adopted as the optimum gain. Note that the gain may be converged to 0 dB as the SN ratio becomes worse. That is, G = 0 dB when the SN ratio is -20 dB or less.

(b)表2
図5(B)はSN比が0dB程度の場合に、受話側騒音レベルN2及び通話音声レベルHS(≒HN1)に基づいて最適ゲインを決定するための表である。この表2は以下を考慮して決定している。
1) 通話音声パワーPHSが大きくなるにつれ最適ゲインを0dB(補正しない方向)に収束させる。
2) また、同じPHS でも受話側騒音パワーPN2が大きくなるほど最適ゲインが0dBに収束しづらくさせる。
例えば、PHSが50dBの場合はどのPN2に対してもGHに相当するゲインを選択する。ここでPHSが60dB、70dBと大きくなるにつれPN2=50dBではゲインをそれぞれGL→0と変化しているのに対し、PN2=60dBではGHとGLの中間値(GL+GH)/2→0と変化し、PN2=70dBではGHとGLの中間値(GL+GH)/2→GLというように変化する。すなわち、ゲインを段階的に減少するのは同様でありながらも、その程度は弱くさせている(0dBになりづらくしている)。
(B) Table 2
FIG. 5B is a table for determining the optimum gain based on the receiving side noise level N2 and the call voice level HS (≈HN1) when the SN ratio is about 0 dB. This Table 2 is determined in consideration of the following.
1) As the call voice power PHS increases, the optimum gain is converged to 0 dB (in the uncorrected direction).
2) Even with the same P HS , the optimum gain is more difficult to converge to 0 dB as the receiver noise power PN2 increases.
For example, selecting a gain corresponding to G H for any P N2 if the P HS of 50 dB. Here, as P HS increases to 60 dB and 70 dB, the gain changes from G L to 0 at P N2 = 50 dB, whereas at P N2 = 60 dB, the intermediate value between G H and G L (G L + G H ) / 2 → 0, and when P N2 = 70 dB, the intermediate value between G H and G L (G L + G H ) / 2 → G L changes. In other words, the gain is gradually reduced, but the degree is weakened (it is hard to become 0 dB).

表2のように最適ゲインを決定する理由は以下の通りである。
信号S+N1を持ち上げる前に(G = 1のときに)受話者が聞いていた送話側トータル音H(S+N1)のレベルが小さい場合、大きめのゲインGにより信号S+N1を持ち上げて、最終的に受話者が聞くことになる音GH(S+N1)のレベルが多少大きくなったとしても、受話者はそれほど違和感を感じない。それゆえ、 H(S+N1)のレベルが小さい場合には、ラウドネス等価の考え方に基づいて算出されるGHを用いて、すなわち、Gopt = GHとして信号S+N1を持ち上げ(増幅し)、聞き取り易さを向上させる。
逆に、信号S+N1を持ち上げる前に(G = 1のときに)受話者が聞いていた送話側トータル音H(S+N1)のレベルが大きい場合には、信号S+N1に大きめのゲインGをかけて持ち上げると、最終的に受話者が聞くことになる送話側トータル音GH(S+N1)のレベルも大きなものとなり、信号S+N1を持ち上げる前に(G = 1のときに)聞こえていた音H(S+N1)に比べて、明らかに音が大きくなる。そして、この音が大きくなったということが受話者にもはっきりと知覚されるため、それが不快なものとして感じられてしまう。それゆえ、信号S+N1を持ち上げる前に(G = 1のときに)受話者が聞いていた通話音声HS(および送話側騒音HN1)のレベルが大きくなるほど、すなわち、H(S+N1)のレベルが大きくなるほど、ゲインGをより小さめの値に設定するようにして、上記のような違和感を感じさせないようにする。
また、受話側騒音N2のレベルが大きくなるにつれて、受話者が聞く音声のトータルSN比は悪化する。しかし、N2がH(S+N1)に比べて相対的に大きくなるほど、H(S+N1)を増幅した場合のトータルSN比の改善度合いは大きくなる。この効果を活かすため、N2のレベルがH(S+N1)に比べて相対的に大きくなるほどより大きめのゲインGを設定するようにして聞き取り易さを向上させる。
The reason for determining the optimum gain as shown in Table 2 is as follows.
If the level of the total sound H (S + N1) on the sending side that the listener was listening to before raising the signal S + N1 is low, the signal S + N1 is raised by a larger gain G Thus, even if the level of the sound GH (S + N1) that the listener will eventually hear increases slightly, the listener does not feel so uncomfortable. Therefore, if the level of H (S + N1) is small, with G H that is calculated based on the loudness equivalent concept, i.e., lift the signal S + N1 as Gopt = G H (amplified) , Improve the ease of hearing.
Conversely, if the level of the total sound H (S + N1) on the sending side that the listener was listening before raising the signal S + N1 (when G = 1) is high, increase it to the signal S + N1. If the gain G is raised with a gain G, the level of the total GH (S + N1) on the sending side that the listener will eventually hear increases, and before raising the signal S + N1 (G = 1 The sound is clearly louder than the sound H (S + N1) that was heard. And since the listener can clearly perceive that this sound has become louder, it feels uncomfortable. Therefore, the higher the level of the call voice HS (and transmitter noise HN1) that the listener was listening to when the signal S + N1 was lifted (when G = 1), that is, H (S + N1) As the level increases, the gain G is set to a smaller value so that the above-mentioned uncomfortable feeling is not felt.
Further, as the level of the receiving side noise N2 increases, the total SN ratio of the voice heard by the receiver deteriorates. However, as N2 becomes relatively larger than H (S + N1), the degree of improvement in the total SN ratio when H (S + N1) is amplified increases. In order to make use of this effect, the higher the gain G is set as the level of N2 becomes relatively higher than H (S + N1), the ease of listening is improved.

(c)数値例
実際に数値を入れた場合の最適ゲイン決定テーブルを図7(A)〜(C)に表3〜表5として示す。図7(A)〜(C)は、それぞれ、N2(PN2)=50dB、60dB、70dBの場合における最適ゲイン決定テーブルである。各表に記載された数値例は一部であるが、上述した規則にしたがって拡張(詳細化)することができる。
図8は、PS=70dB、PN1=60dB、PN2=50dBの場合について具体的な最適ゲイン決定処理の説明図であり、(A)ゲインテーブル、(B)、(C)は最適ゲイン決定処理ステップ説明図である。ただし、H=0dB、w1=w2=1とする。
(1) 従来技術に従ってN1=0としたときのゲインGorgをゲインテーブルより求めるとGorg=1.1dBとなる。
(2) ついで、理想的な状態におけるゲインG0をゲインテーブルより求めるとG0=2.9dBとなる。
(3) G0が求まった後、送話側騒音N1の増分とつりあうゲインGHを求めるとGH=3.6dBとなる。
(4) しかる後、全体音量を考慮したゲインGLを計算するとGL=2.7dBとなる。
(5) 受話音声パワーPHSと送話側騒音パワーPN1のパワー比(SN比)は10dBであるから、最適ゲインGoptは
Gopt=(GL+GH)/2
となり、Gopt=3.2dB
となる(図7(A)の斜線部分参照)。尚、他の最適ゲインも同様に図5の表1、表2を参照して算出することができる。
(C) Numerical example Tables 3 to 5 show optimum gain determination tables when numerical values are actually entered in FIGS. 7 (A) to (C). FIGS. 7A to 7C are optimum gain determination tables when N2 (P N2 ) = 50 dB, 60 dB, and 70 dB, respectively. The numerical examples described in each table are only a part, but can be expanded (detailed) according to the rules described above.
FIG. 8 is an explanatory diagram of a specific optimum gain determination process in the case of P S = 70 dB, P N1 = 60 dB, and P N2 = 50 dB. (A) Gain table, (B), (C) are optimum gains. It is a decision process step explanatory drawing. However, H = 0 dB and w 1 = w 2 = 1.
(1) According to the prior art, when gain Gorg when N1 = 0 is obtained from the gain table, Gorg = 1.1 dB.
(2) Next, when the gain G 0 in an ideal state is obtained from the gain table, G 0 = 2.9 dB.
(3) After the G 0 is Motoma', the G H = 3.6 dB when determining the incremental and balances the gain G H of the transmitter side noise N1.
(4) After that, when calculating the gain GL in consideration of the whole volume, GL = 2.7 dB.
(5) Since the power ratio (SN ratio) between the received voice power P HS and the transmitter noise power P N1 is 10 dB, the optimum gain Gopt is
Gopt = (G L + G H ) / 2
Gopt = 3.2dB
(See the shaded area in FIG. 7A). The other optimum gains can be similarly calculated with reference to Tables 1 and 2 in FIG.

音声明瞭度改善システムでは、音声Sのみが2.9dB持ち上げられるのが理想的である。しかし、実際は音声Sと騒音N1が同時に持ち上がる。そこで本発明では、音声Sと騒音N1を同時に持ち上げた結果、ラウドネス理論により通話音声Sの音量感が理想状態と同じになるようなゲインGHと、音声およびトータルの騒音レベルが理想状態に最も近くなるようなゲインGLを求め、その2つの値とSN比とから最終的な最適ゲインGoptを決定する。 In a speech intelligibility improvement system, it is ideal that only the speech S is lifted by 2.9 dB. However, voice S and noise N1 are raised at the same time. Therefore, in the present invention, as a result of lifting the voice S and noise N1 simultaneously, and the gain G H as loudness is the same as the ideal state of the call voice S by loudness theory, voice and total noise level most ideal state A gain GL that is close is obtained, and the final optimum gain Gopt is determined from the two values and the SN ratio.

(D)変形例
以上の実施例は、G0、GH、GLを算出し、ついで、SN比に基づいて図5に示す表1、表2にしたがって該GH、GLを用いて最適ゲインGoptを決定する場合である。しかし、予め受話側騒音レベルを可変したときの最適ゲイン決定テーブル(例として図7の表3〜表5)を多数作成して保存しておき、実際の受話側騒音レベルN2に応じた最適ゲイン決定テーブルを用いてPS、 PN1に応じた最適ゲインGoptをルックアップ処理により決定することもできる。
(D) Modified Example The above example calculates G 0 , G H , and G L , and then uses the G H and G L according to Tables 1 and 2 shown in FIG. This is a case where the optimum gain Gopt is determined. However, many optimum gain determination tables (for example, Tables 3 to 5 in FIG. 7) when the reception side noise level is varied are created and stored in advance, and the optimum gain corresponding to the actual reception side noise level N2 is stored. The optimum gain Gopt corresponding to P S and P N1 can also be determined by lookup processing using the determination table.

(E)送話側騒音HN1のパワー算出処理
入力信号(音声+騒音)データを、所定数のサンプルの集合であるフレーム毎に分け、各フレーム毎のパワーをそれぞれ抽出して、それとその出現頻度を表すフレーム数とを対応付けたパワー分布を作成し、そのパワー分布に基づいて騒音のパワーを推定する方法(特許3888727号)により、通話音声HS、送話側騒音HN1を算出することが出来る。以下この方式について説明する。
まず、音声のパワー分布は図9に示すようになり、分布上で最も頻度が高くなるパワー値(以降、最大頻度パワーと記す)Esは、非常に小さい値となることが知られている。一方、騒音のパワー分布は図10で示すような正規分布でモデル化できることから、その最大頻度パワーEnは、騒音のパワーの平均値とみなすことができる。本方式は、このような音声信号と騒音信号のパワー分布上の違いに着目し、入力信号(音声+騒音)から騒音のパワーを推定するものである。
(E) Power calculation processing for transmitter-side noise HN1 The input signal (voice + noise) data is divided into frames that are a set of a predetermined number of samples, and the power for each frame is extracted and its frequency of appearance. By creating a power distribution that correlates with the number of frames that represent the noise and estimating the noise power based on the power distribution (Japanese Patent No. 3888727), it is possible to calculate the call voice HS and the transmitter noise HN1. . This method will be described below.
First, the power distribution of speech is as shown in FIG. 9, and it is known that the power value Es (hereinafter referred to as the maximum frequency power) Es having the highest frequency on the distribution is a very small value. On the other hand, since the noise power distribution can be modeled by a normal distribution as shown in FIG. 10, the maximum frequency power En can be regarded as an average value of the noise power. This method focuses on the difference in power distribution between the voice signal and the noise signal, and estimates the noise power from the input signal (voice + noise).

以下では、騒音のパワーの推定方法について、具体例を用いて説明する。ここでは、パワーの推定方法の概要がつかみ易いように、音声および騒音のパワー分布として、図11(A)および図11(B)に示すような簡単なものを用いることにする。また、パワー分布の縦軸の値は、その横軸のパワー値の出現確率であるとも考えられるため、図11(A)、(B)、(C)の縦軸の値は、“度数”ではなく“出現確率 Ps(Esj)、Pn(Enj)”のように記載している。
さて、入力信号(音声+騒音)のパワー値(パワー分布上の横軸の値):Exjとその出現確率(パワー分布の縦軸の値):Px(Exj) は、音声信号と騒音信号が統計的に独立であることから、図11(A)のようなパワー分布をもつ音声信号と、図11(B)のようなパワー分布をもつ騒音信号の場合には、パワー値:Esj、Enj とそのときの出現確率:Ps(Esj)、Pn(Enj) を用いて、下記の(4)式および (5) 式のように表すことができる。

Exj=Esj+Enj ・・・(4)
Px(Exj)=Ps(Esj)×Pn(Enj) ・・・(5)

それゆえ、このときの入力信号のパワー分布は、これらの(4)式および(5)式から、
図12(C)のように求めることができる。
Hereinafter, a method for estimating the power of noise will be described using a specific example. Here, in order to make it easy to grasp the outline of the power estimation method, a simple power distribution as shown in FIGS. 11A and 11B is used as the power distribution of voice and noise. Further, since the value on the vertical axis of the power distribution is considered to be the appearance probability of the power value on the horizontal axis, the values on the vertical axis in FIGS. 11A, 11B, and 11C are “frequency”. Instead of “probability of occurrence Ps (Esj), Pn (Enj)”.
Now, the power value of the input signal (voice + noise) (value on the horizontal axis on the power distribution): Exj and its appearance probability (value on the vertical axis of the power distribution): Px (Exj) Since it is statistically independent, in the case of an audio signal having a power distribution as shown in FIG. 11A and a noise signal having a power distribution as shown in FIG. 11B, power values: Esj, Enj And the occurrence probabilities at that time: Ps (Esj) and Pn (Enj) can be expressed as the following equations (4) and (5).

Exj = Esj + Enj (4)
Px (Exj) = Ps (Esj) × Pn (Enj) (5)

Therefore, the power distribution of the input signal at this time is from these equations (4) and (5):
It can be obtained as shown in FIG.

図11(C)について簡単に説明する。例えば、音声信号の最大頻度パワーEsが2(Es=2)であり、騒音信号の最大頻度パワーEnが100(En=100)であるとき、入力信号のパワーExは、(4)式より102(Ex=102)となる。また、パワーが2(Es=2)である音声信号の出現確率Ps(Es) は、音声信号におけるパワーの出現確率の最大値(最大出現確率)であり、パワーが100(En=100)である騒音信号の出現確率Pn(En) は、騒音信号におけるパワーの最大出現確率であることから、そのときの入力信号のパワーの出現確率Px(Ex) は、(5)式より、入力信号におけるパワーの最大出現確率となる。
更に、このときの入力信号のパワー値Exは102(Ex=102)であり、騒音のパワーの平均値Enは100(En=100)で、これら2つの値が近いことから(Es=2であり、このEsはEnに比べて小さいことから)、入力信号のパワー分布において最大出現確率となるパワー値より、騒音パワー(厳密には、騒音パワーに近い値)を推定することが可能であるといえる。
以上のことをまとめると、入力信号において最大出現確率(最大頻度)となるのは、音声信号のパワーがその最大頻度パワーであり、騒音信号のパワーがその最大頻度パワーのときであると考えられる。そして、音声信号の最大頻度パワーは非常に小さいため、入力信号の最大頻度パワーは騒音信号の最大頻度パワーで近似することができ、この騒音信号の最大頻度パワーは騒音信号のパワーの平均値とみなすことができる。それゆえ、入力信号の最大頻度パワーを求めれば、その値を騒音パワーの推定値として用いることができる、ということになる。
FIG. 11C will be briefly described. For example, when the maximum frequency power Es of the audio signal is 2 (Es = 2) and the maximum frequency power En of the noise signal is 100 (En = 100), the power Ex of the input signal is 102 from Equation (4). (Ex = 102). The appearance probability Ps (Es) of a speech signal with power 2 (Es = 2) is the maximum value (maximum appearance probability) of power appearance probability in the speech signal, and the power is 100 (En = 100). Since the appearance probability Pn (En) of a noise signal is the maximum appearance probability of power in the noise signal, the appearance probability Px (Ex) of the input signal power at that time is It is the maximum appearance probability of power.
Furthermore, the power value Ex of the input signal at this time is 102 (Ex = 102), and the average value En of the noise power is 100 (En = 100). Since these two values are close (Es = 2) Yes, since this Es is smaller than En), it is possible to estimate the noise power (strictly, a value close to the noise power) from the power value that has the maximum appearance probability in the power distribution of the input signal. It can be said.
To summarize the above, it is considered that the maximum occurrence probability (maximum frequency) in the input signal is when the power of the audio signal is the maximum frequency power and the power of the noise signal is the maximum frequency power. . Since the maximum frequency power of the audio signal is very small, the maximum frequency power of the input signal can be approximated by the maximum frequency power of the noise signal. The maximum frequency power of the noise signal is the average value of the noise signal power. Can be considered. Therefore, if the maximum frequency power of the input signal is obtained, the value can be used as an estimated value of the noise power.

なお、騒音パワーPHN1の推定は、以下のような2つの方法を用いても可能である。第1の方法は、音声の周期性、騒音の非周期性に着目し、入力信号の自己相関関数を用いて騒音パワーを推定する(特開2005-208152号参照)。
第2の方法は、入力信号を時間区間毎に周波数領域に変換し、周波数毎の入力信号スペクトルと騒音スペクトルの推定値とのパワー比に基づいて、騒音スペクトルの推定値を更新していく(特開平10-97288号)。ただし、入力信号の最初の数十msecは無音区間と想定し、その値を騒音スペクトルの初期値とする。
The noise power P HN1 can be estimated by using the following two methods. The first method focuses on the periodicity of speech and the nonperiodic nature of noise, and estimates the noise power using the autocorrelation function of the input signal (see JP-A-2005-208152).
The second method converts the input signal into the frequency domain for each time interval, and updates the estimated value of the noise spectrum based on the power ratio between the input signal spectrum for each frequency and the estimated value of the noise spectrum ( JP-A-10-97288). However, the first several tens of msec of the input signal is assumed to be a silent section, and the value is set as the initial value of the noise spectrum.

10 音声明瞭度改善ユニット
11 パワー推定部
12 最適ゲイン決定部
13 ラウドネス補償部
14 ゲイン調整部
21 通信回路網
22 スピーカ
23 マイク
31 通信相手先のスピーカ
32 通信相手先のマイク
DESCRIPTION OF SYMBOLS 10 Speech clarity improvement unit 11 Power estimation part 12 Optimal gain determination part 13 Loudness compensation part 14 Gain adjustment part 21 Communication network 22 Speaker 23 Microphone 31 Communication partner speaker 32 Communication partner microphone

Claims (12)

通話音声と騒音のパワーに基づいて通話音声のゲインを制御する音声明瞭度改善システムにおいて、
通話音声と送話側騒音と受話側騒音のパワーを推定するパワー推定部、
受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいてラウドネス補償するための第1のゲインG0を決定し、送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインGHとして決定し、前記通話音声と送話側騒音のそれぞれに所定のゲインGをかけた時の受話側聴取位置における合成騒音、通話音声と、通話音声のみに前記第1のゲインG0をかけた時の前記受話側聴取位置における合成騒音、通話音声とのそれぞれの誤差のパワーの総和が最小となる該ゲインGを第3のゲインGLとして決定するゲイン決定部、
通話音声と送話側騒音のパワー比に基づいて前記第2、第3のゲインを用いて最適ゲインを算出する最適ゲイン算出部、
を備えたことを特徴とする音声明瞭度改善システム。
In the speech intelligibility improvement system that controls the gain of call voice based on the power of call voice and noise,
A power estimator that estimates the power of the call voice, transmitter noise and receiver noise;
A first gain G 0 for compensating for loudness is determined based on the power of the synthesized noise obtained by synthesizing the noise on the receiver side and the noise on the transmitter side, and the power of the speech, and a predetermined gain is set for the noise on the transmitter side. The gain when the amount of noise increase and the loudness compensation amount due to the gain are balanced is determined as a second gain GH , and a predetermined gain G is applied to each of the call voice and the transmission side noise. synthetic noise at the receiving side the listening position when the the call voice, synthetic noise at the receiver side listening position when applying the first gain G 0 only call voice, the respective error of the power of the speech sound A gain determination unit that determines the gain G that minimizes the sum as a third gain G L ;
An optimum gain calculation unit for calculating an optimum gain using the second and third gains based on a power ratio between the call voice and the transmitting side noise;
A speech intelligibility improvement system characterized by comprising:
請求項1記載の音声明瞭度改善システムにおいて、更に、
通話音声と騒音のパワーに基づいてラウドネス補償するためのゲインを決定するラウドネス補償部を備え、該ラウドネス補償部は、前記合成騒音のパワーと通話音声のパワーを入力され、これらに基づいて理想状態におけるラウドネス補償するためのゲインを算出して前記ゲイン決定部に入力する、
ことを特徴とする音声明瞭度改善システム。
The speech intelligibility improving system according to claim 1, further comprising:
A loudness compensation unit that determines a gain for compensating for loudness based on the power of the call voice and noise, the loudness compensation unit being input with the power of the synthesized noise and the power of the call voice; Calculating a gain for compensating for loudness in the input to the gain determination unit,
A speech intelligibility improvement system characterized by this.
請求項1記載の音声明瞭度改善システムにおいて、前記ゲイン決定部は、
受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいて理想状態におけるラウドネス補償するための第1のゲインを決定する第1ゲイン決定部、
送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインとして決定する第2ゲイン決定部、
前記通話音声と送話側騒音のそれぞれに所定の第1のゲインをかけた時の受話側聴取位置における合成騒音、通話音声のそれぞれと、前記理想状態における該受話側聴取位置における合成騒音、通話音声のそれぞれとの誤差のパワーの総和が最小となる第3のゲインを決定する第3ゲイン決定部、
を備えたことを特徴とする音声明瞭度改善システム。
2. The speech intelligibility improvement system according to claim 1, wherein the gain determination unit includes:
A first gain determination unit for determining a first gain for compensating for loudness in an ideal state based on the power of the synthesized noise obtained by combining the noise on the receiver side and the noise on the transmitter side and the power of the speech;
A second gain determining unit for determining, as a second gain, the gain when a noise increase amount when a predetermined gain is applied to the transmission side noise and a loudness compensation amount by the gain are balanced;
Synthetic noise at the receiving side listening position when the predetermined first gain is applied to each of the calling voice and the transmitting side noise, each of the calling voice, synthetic noise at the receiving side listening position in the ideal state, and telephone conversation A third gain determining unit for determining a third gain that minimizes the sum of the error powers with each of the voices;
A speech intelligibility improvement system characterized by comprising:
請求項2記載の音声明瞭度改善システムにおいて、
前記パワー比が第1の設定値より大きいとき、前記ラウドネス補償部は、送話側騒音を零とみなしたときの騒音と通話音声のパワーとに基づいて第4のゲインを求め、前記最適ゲイン算出部は、
(1) 前記パワー比が第1の設定値より大きいとき、該第4のゲインを最適ゲインとし、(2) 前記パワー比が第1の設定値より小さく第2の設定値より大きいときには、前記第2のゲインと第3のゲインの平均値を最適ゲインとし、(3) 前記パワー比がほぼ1に等しいときは、通話音声および受話側騒音のパワーに基づいて最適ゲインを決定し、(4) 前記パワー比が1より小さい第3の設定値より小さいときには、前記第3のゲインを最適ゲインとする、
ことを特徴とする音声明瞭度改善システム。
The speech intelligibility improvement system according to claim 2,
When the power ratio is larger than the first set value, the loudness compensation unit obtains a fourth gain based on the noise when the transmission side noise is considered to be zero and the power of the call voice, and the optimum gain. The calculation unit
(1) When the power ratio is larger than the first set value, the fourth gain is set as an optimum gain. (2) When the power ratio is smaller than the first set value and larger than the second set value, The average value of the second gain and the third gain is set as the optimum gain. (3) When the power ratio is substantially equal to 1, the optimum gain is determined based on the power of the call voice and the receiving side noise, and (4 ) When the power ratio is smaller than a third set value smaller than 1, the third gain is set as an optimum gain.
A speech intelligibility improvement system characterized by this.
請求項4記載の音声明瞭度改善システムにおいて、前記最適ゲイン算出部は、
前記パワー比がほぼ1に等しいとき、(1)通話音声のパワーが大きくなる程、ゲインが0dBに収束するように、また、(2) 同じ通話音声パワーでも受話騒音パワーが大きくなる程、ゲインが0dBに比べてより大きくなるように、前記第2、第3のゲインを用いて最適ゲインを決定する、
ことを特徴とする音声明瞭度改善システム。
5. The speech intelligibility improvement system according to claim 4, wherein the optimum gain calculation unit is
When the power ratio is almost equal to 1, (1) the gain is converged to 0 dB as the power of the speech is increased, and (2) the gain is increased as the received noise power is increased even with the same speech power. The optimum gain is determined using the second and third gains so that is larger than 0 dB.
A speech intelligibility improvement system characterized by this.
請求項1記載の音声明瞭度改善システムにおいて、前記ゲイン決定部は前記第2のゲインの決定に際して、前記第1のゲインを設定し、前記ラウドネス補償部は、前記通話音声と送話側騒音のそれぞれに該設定ゲインをかけた時の受話側聴取位置における合成騒音、通話音声とに基づいてラウドネス補償するためのゲインを決定し、前記ゲイン決定部は該決定したゲインが前記設定ゲインより大きい場合は、該決定したゲインを設定ゲインとして同様の処理を繰り返し、設定ゲイン以下になったとき、該決定したゲインを前記第2のゲインとして決定する、
ことを特徴とする音声明瞭度改善システム。
2. The speech intelligibility improvement system according to claim 1, wherein the gain determination unit sets the first gain when determining the second gain, and the loudness compensation unit is configured to determine the communication voice and the transmission side noise. When the gain for compensating for the loudness is determined based on the synthesized noise at the receiving side listening position when the set gain is applied to each, and the voice of the call, and the gain determination unit is greater than the set gain Repeats the same processing using the determined gain as the set gain, and when the gain is equal to or lower than the set gain, determines the determined gain as the second gain.
A speech intelligibility improvement system characterized by this.
請求項1記載の音声明瞭度改善システムにおいて、前記ゲイン決定部は前記第3のゲインの決定に際して、前記合成騒音の誤差、通話音声の誤差をそれぞれe1、e2とするとき、評価関数
Figure 0005371599
が最小となるように第3のゲインを決定する、
ことを特徴とする音声明瞭度改善システム。
2. The speech intelligibility improving system according to claim 1, wherein the gain determining unit sets the error of the synthesized noise and the error of the speech to be e 1 and e 2 when determining the third gain, respectively.
Figure 0005371599
Determine the third gain so that is minimized,
A speech intelligibility improvement system characterized by this.
通話音声と騒音のパワーに基づいて通話音声のゲインを制御して通話音声の明瞭度を改善する音声明瞭度改善方法において、
通話音声と送話側騒音と受話側騒音のパワーを推定し、
受話側の騒音と送話側騒音とを合成した合成騒音のパワーと通話音声のパワーとに基づいてラウドネス補償するための第1のゲインG0を決定し、
送話側騒音に所定のゲインをかけた時の騒音増加量と該ゲインによるラウドネス補償量とが釣りあうときの該ゲインを第2のゲインGHとして決定し、
前記通話音声と送話側騒音のそれぞれに所定のゲインGをかけた時の受話側聴取位置における合成騒音、通話音声と、通話音声のみに前記第1のゲインG0をかけた時の前記受話側聴取位置における合成騒音、通話音声とのそれぞれの誤差のパワーの総和が最小となる該ゲインGを第3のゲインGLとして決定し、
通話音声と送話側騒音のパワー比に基づいて前記第2、第3のゲインを用いて最適ゲインを算出する、
ことを特徴とする音声明瞭度改善方法。
In the speech intelligibility improvement method for improving the intelligibility of the call voice by controlling the gain of the call voice based on the power of the call voice and the noise,
Estimate the power of call voice, transmitter noise and receiver noise,
Determining a first gain G 0 for loudness compensation based on the power of the synthesized noise obtained by synthesizing the noise on the receiver side and the noise on the transmitter side and the power of the call voice;
The gain at which the loudness compensation amount by increasing the amount and the gain noise when applying a predetermined gain to the transmitter side noise is balanced to determine a second gain G H,
Synthetic noise at the receiving side listening position when applying a predetermined gain G to each of the transmission side noise and the call voice, and call voice, the receiver when applying the first gain G 0 only call voice The gain G that minimizes the sum of the error powers of the synthesized noise and the call voice at the side listening position is determined as a third gain GL ;
Calculating an optimum gain using the second and third gains based on the power ratio of the call voice and the transmitting side noise;
A speech intelligibility improvement method characterized by the above.
請求項8記載の音声明瞭度改善方法において、前記最適ゲイン算出に際して、
(1)前記パワー比が第1の設定値より大きいとき、送話側騒音を零とみなしたときの騒音と通話音声のパワーとに基づいて第4のゲインを求め、該第4のゲインを最適ゲインとし、(2) 前記パワー比が第1の設定値より小さく第2の設定値より大きいときには、前記第2のゲインと第3のゲインの平均値を最適ゲインとし、(3) 前記パワー比がほぼ1に等しいときは、通話音声および受話側騒音のパワーに基づいて最適ゲインを決定し、(4) 前記パワー比が1より小さい第3の設定値より小さいときには、前記第3のゲインを最適ゲインとする、
ことを特徴とする音声明瞭度改善方法。
9. The method for improving speech intelligibility according to claim 8, wherein the optimum gain is calculated.
(1) When the power ratio is larger than the first set value, a fourth gain is obtained based on the noise when the transmission side noise is regarded as zero and the power of the call voice, and the fourth gain is calculated. (2) When the power ratio is smaller than the first set value and greater than the second set value, the average value of the second gain and the third gain is set as the optimum gain, and (3) the power When the ratio is substantially equal to 1, the optimum gain is determined based on the power of the call voice and the receiving side noise. (4) When the power ratio is smaller than a third set value smaller than 1, the third gain is determined. Is the optimal gain,
A speech intelligibility improvement method characterized by the above.
請求項9記載の音声明瞭度改善方法において、
前記パワー比がほぼ1に等しいとき、(1)通話音声のパワーが大きくなる程、ゲインが0dBに収束するように、また、(2) 同じ通話音声パワーでも受話騒音パワーが大きくなる程、ゲインが0dBに比べて、より大きくなるように、前記第2、第3のゲインを用いて最適ゲインを決定する、
ことを特徴とする音声明瞭度改善方法。
The method of improving speech intelligibility according to claim 9,
When the power ratio is almost equal to 1, (1) the gain is converged to 0 dB as the power of the speech is increased, and (2) the gain is increased as the received noise power is increased even with the same speech power. The optimum gain is determined using the second and third gains so that is larger than 0 dB.
A speech intelligibility improvement method characterized by the above.
請求項8記載の音声明瞭度改善方法において、
前記第2のゲインの決定に際して、前記第1のゲインを設定し、
前記通話音声と送話側騒音のそれぞれに該設定ゲインをかけた時の受話側聴取位置における合成騒音、通話音声とに基づいてラウドネス補償するためのゲインを求め
該ゲインが前記設定ゲインより大きければ、該ゲインを新たな設定ゲインとして同様の処理を繰り返し、
求めたゲインが設定ゲイン以下になったとき、該ゲインを前記第2のゲインとして決定する、
ことを特徴とする音声明瞭度改善方法。
The method of improving speech intelligibility according to claim 8,
In determining the second gain, the first gain is set,
A gain for compensating for loudness is obtained based on the synthesized noise at the receiving side listening position when the set gain is applied to each of the call voice and the transmitter side noise, and the call voice. If the gain is larger than the set gain, , The same processing is repeated with the gain as a new set gain,
When the obtained gain is equal to or less than the set gain, the gain is determined as the second gain;
A speech intelligibility improvement method characterized by the above.
請求項8記載の音声明瞭度改善方法において、前記第3のゲインの決定に際して、前記合成騒音の誤差、通話音声の誤差をそれぞれe1、e2とするとき、評価関数
Figure 0005371599
が最小となるように第3のゲインを決定する、
ことを特徴とする音声明瞭度改善方法。
9. The speech intelligibility improving method according to claim 8, wherein when the third gain is determined, the error of the synthesized noise and the error of the speech are respectively set as e 1 and e 2.
Figure 0005371599
Determine the third gain so that is minimized,
A speech intelligibility improvement method characterized by the above.
JP2009166926A 2009-07-15 2009-07-15 Speech intelligibility improvement system and speech intelligibility improvement method Expired - Fee Related JP5371599B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009166926A JP5371599B2 (en) 2009-07-15 2009-07-15 Speech intelligibility improvement system and speech intelligibility improvement method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009166926A JP5371599B2 (en) 2009-07-15 2009-07-15 Speech intelligibility improvement system and speech intelligibility improvement method

Publications (2)

Publication Number Publication Date
JP2011023959A JP2011023959A (en) 2011-02-03
JP5371599B2 true JP5371599B2 (en) 2013-12-18

Family

ID=43633643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009166926A Expired - Fee Related JP5371599B2 (en) 2009-07-15 2009-07-15 Speech intelligibility improvement system and speech intelligibility improvement method

Country Status (1)

Country Link
JP (1) JP5371599B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5485515A (en) * 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
JP3022807B2 (en) * 1997-05-30 2000-03-21 埼玉日本電気株式会社 Mobile phone equipment
EP1599992B1 (en) * 2003-02-27 2010-01-13 Telefonaktiebolaget L M Ericsson (Publ) Audibility enhancement
JP2006074409A (en) * 2004-09-02 2006-03-16 Alpine Electronics Inc Voice output device
JP4968147B2 (en) * 2008-03-31 2012-07-04 富士通株式会社 Communication terminal, audio output adjustment method of communication terminal

Also Published As

Publication number Publication date
JP2011023959A (en) 2011-02-03

Similar Documents

Publication Publication Date Title
EP2048659B1 (en) Gain and spectral shape adjustment in audio signal processing
JP4568439B2 (en) Echo suppression device
EP1858295A1 (en) Equalization in acoustic signal processing
JP4968147B2 (en) Communication terminal, audio output adjustment method of communication terminal
CN106507258B (en) Hearing device and operation method thereof
EP2700161B1 (en) Processing audio signals
JP4282317B2 (en) Voice communication device
EP2034710B1 (en) Multipoint communication apparatus with sound level adjustment unit
US20110125494A1 (en) Speech Intelligibility
US8321215B2 (en) Method and apparatus for improving intelligibility of audible speech represented by a speech signal
JP2000506347A (en) Method and apparatus for adaptive volume control of a wireless telephone
JP2005512440A (en) Communication device having active equalization circuit and method thereof
EP1385324A1 (en) A system and method for reducing the effect of background noise
US7260209B2 (en) Methods and apparatus for improving voice quality in an environment with noise
US7010118B2 (en) Noise compensation methods and systems for increasing the clarity of voice communications
EP1969721B1 (en) Telecommunications terminal and method of operation of the terminal
JP4850191B2 (en) Automatic volume control device and voice communication device using the same
EP2663979B1 (en) Processing audio signals
JP5371599B2 (en) Speech intelligibility improvement system and speech intelligibility improvement method
US20030228013A1 (en) Methods and devices for reducing sidetone noise levels
JP5383008B2 (en) Speech intelligibility improvement system and speech intelligibility improvement method
CN107833580B (en) Noise suppression based on dynamic increase of input noise characteristics
JP3947021B2 (en) Call voice processing device
JP4495581B2 (en) Audio output device
JP2008225056A (en) Speech articulation improving device and noise level estimation method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130917

R150 Certificate of patent or registration of utility model

Ref document number: 5371599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees