JP5453740B2

JP5453740B2 - 音声強調装置

Info

Publication number: JP5453740B2
Application number: JP2008174016A
Authority: JP
Inventors: 香緒里遠藤; 恭士大田; 猛大谷; 太郎外川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-07-02
Filing date: 2008-07-02
Publication date: 2014-03-26
Anticipated expiration: 2028-07-02
Also published as: ES2372133T3; US8560308B2; EP2141695B1; JP2010014914A; CN101620855A; CN101620855B; EP2141695A1; US20100004927A1

Description

本発明は、音声伝送システムにおいて、周囲騒音が大きい環境で会話する場合に、受話音が聞き取りにくくなることを防ぐために、利用者が受話音声を聞き取りやすくなるように受話音声を強調する、音声信号の強調方式および装置に関する。

既存の音声の強調処理としては、音声信号の特徴を用い母音の識別特性に影響する受話音声のスペクトルの複数のピークであるフォルマントを周囲騒音の大きさに応じて強調する技術（例えば、特許文献１参照）や、受話音声と周囲騒音のSNRに応じて受話音声を強調する技術（例えば、特許文献２参照）が知られている。
特許第４０１８５７１号特開２０００−３４９８９３号公報

しかしながら、上記背景技術（特許文献１又は特許文献２）で受話音声を強調した場合、低域と高域の大きさのバランスがくずれ、強調後の音声に籠もり感が発生（低域が大きすぎる）したり、キンキン感が発生（高域が大きすぎる）し、音声品質を落とさずに音声の強調が行えず、十分に音声が聞き取りやすくならない。

受話音声と周囲騒音の成分比である平均SNRを算出する平均SNR算出手段と、予め求められた受話音声の了解性の向上に寄与する帯域である第１帯域と前記受話音声の明るさの向上に寄与する帯域である第２帯域を示す帯域分割情報と前記平均SNR算出手段で算出された前記平均SNRから、前記第１帯域の強調量を算出する第１帯域強調量算出手段と、前記第１帯域強調量算出手段にて算出した前記第１帯域の強調量から、前記第２帯域の強調量を算出する第２帯域強調量算出手段と、前記第１帯域強調量算出手段と前記第２帯域強調量算出手段との出力結果および前記帯域分割情報とを用い、受信音声のスペクトルを加工するスペクトル加工手段を含む構成を備える。

本構成により、SNR算出手段によって音声と周囲騒音によって聞こえにくくなった度合いを算出し、第１の帯域の強調量算出手段によって音声の主観的な了解性を十分に向上させるための第１の帯域の強調量を算出し、第２の帯域の強調量算出手段によって第１の帯域を強調した際に、音声の明るさが十分に保たれるように第２の帯域の強調量を算出し、スペクトル加工手段によって第１の帯域の強調量と第２の帯域の強調量から、各周波数帯域に強調処理を施して強調音声のスペクトルを算出する。

本発明によれば、周囲騒音の影響で受話音が聞こえにくくなった際に、音声の主観的な了解性と明るさの両方で十分な品質を持つ強調音声を生成できる。
これにより、従来技術の課題であった強調による籠もり感（強調の結果、受話音声の主観的な了解性の向上に寄与する帯域の強調の大きさに対して受話音声の主観的な明るさの向上に寄与する帯域の強調の大きさが小さすぎるために、強調音声の明るさが不足する）や、キンキン感（強調の結果、受話音声の主観的な了解性の向上に寄与する帯域の強調の大きさ大きさに対して受話音声の主観的な明るさの向上に寄与する帯域の強調の大きさが大きすぎるために、強調音声の明るさが過剰となる）を解決して聞こえやすい強調音声を生成できる。

以下図を参照して実施形態の詳細について説明する。
［実施例１］
図１は、本発明の実施例の構成を示す説明図であり、１および２は周波数分析手段、３はＳＮＲ算出手段、４は第１の帯域の強調量算出手段、５は第２の帯域の強調量算出手段、６は音声スペクトル加工手段、７は合成手段を示している。

以下図１の構成について音声信号の処理順に沿って説明する。各構成の詳細動作については後述する。

まず、周波数分析手段１は、周囲騒音を入力し、周囲騒音のスペクトルを出力する。

また、周波数分析手段２は、受話音声を入力し、受話音声のスペクトルを出力する。

SNR算出手段３は、周波数分析手段１及び２から受話音声のスペクトルと周囲騒音のスペクトルを入力し、SNRを算出し出力する。

第1の帯域の強調量算出手段４は、ＳＮＲ算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域についての強調量を算出し第１の帯域の強調量として出力する。

第2の帯域の強調量算出手段５は、第1の帯域の強調量を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。

音声スペクトル加工手段６は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量と第2の帯域の強調量を入力し、強調音声のスペクトルを出力する。

合成手段７は、音声スペクトル加工手段６から出力された強調音声のスペクトルを入力し、強調音声を出力する。

以上のような処理の流れによって、受話音声の強調処理が施される。

各構成要素の処理の詳細を以下に説明する。

［周波数分析手段１及び２］は、入力される信号である周囲騒音又は受話音声に対して、フーリエ変換などの時間周波数変換処理によって周囲騒音又は音声のスペクトルの算出を行う。

［ＳＮＲ算出手段３］は、入力された周囲騒音のスペクトル（周囲騒音の成分(Noise)）及び音声のスペクトル（周波数毎の受話音声の成分(Signal)）とから下記の式でSNRを算出する。

SNR(i)=S(i)−N(i)
i: 周波数のインデックス(周波数のインデックスとは、時間周波数変換を行った際の帯域の番号を示す)
SNR(i): i番目の周波数のSNR(dB)
S(i): i番目の周波数の受話音声成分の大きさ(dB)
N (i): i番目の周波数の周囲騒音成分の大きさ(dB)

尚、SNR算出の際に、周波数によって主観的な大きさが変る効果を導入した上で算出しても良い。

具体的には、算出したSNRに対して周波数による主観的な大きさの係数をかけて補正する。周波数による主観的な大きさの係数は、音の大きさの等感曲線などの既知の情報を用いて算出する。

［第1の帯域の強調量算出手段４］は、ＳＮＲ算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、以下の処理により第１の帯域の強調量を算出する。

（１）第1の帯域の平均SNRを算出する。

LSNR: 第1の帯域の平均SNR(dB)
i：周波数のインデックス
SNR(i): i番目の周波数のSNR(dB)
ls:第1の帯域の下限周波数のインデックス
le:第1の帯域の上限周波数のインデックス

ls、leは帯域分割情報(低域と高域の境界周波数のインデックスI_b)と入力信号の帯域
幅を用いて下記の通りに算出する。

ls =入力信号の帯域幅下限周波数のインデックス
le = I_b

（２）第1の帯域の平均SNRを強調量テーブルに当てはめて第1の帯域の強調量を算出。

第1の帯域の強調量を算出するテーブルを図６に示す。

LE: 第1の帯域の強調量(dB)
LSNR: 第1の帯域の平均SNR (dB)
LE MAX: 第1の帯域の強調量の上限(dB)
LE MIN: 第1の帯域の強調量の下限(dB)
LSNR MAX: 第1の帯域の強調量を上限とする第1の帯域の平均SNR (dB)
LSNR MIN: 第1の帯域の強調量を下限とする第1の帯域の平均SNR (dB)
テーブルの各パラメータの取りうる値の範囲は以下の通り。

LE MAX: 0〜50dB(dB)、第1の帯域の平均SNRが一定以下の場合に、最大限以上の強調を行わないように設けた上限値。

LE MIN: 0〜10dB(dB)、第1の帯域の平均SNRが一定以上の場合に、最小限以下の強調を行わないように設けた下限値。

但し、LE MIN < LE MAXとなるように設定する。

LSNR MAX: 0〜50dB(dB)、第1の帯域の音声が近端騒音に対して大きく、第1の帯域の強調量を最小限に設定して良いと考えられる第1の帯域の平均SNR。

LSNR MIN: -50〜50dB(dB)、第1の帯域の音声が近端騒音に対して小さく、第1の帯域の強調量を最大限に設定して良いと考えられる第1の帯域の平均SNR。

但し、LSNR MIN < LSNR MAXとなるように設定する。

［第2の帯域の強調量算出手段５］は、第1の帯域の強調量を入力し、図７に示すテーブルを用いて以下の通り第2の帯域の強調量を算出する。

HE: 第2の帯域の強調量(dB)
LE: 第1の帯域の強調量(dB)
HE MAX: 第2の帯域の強調量の上限(dB)
HE MIN: 第2の帯域の強調量の下限(dB)
LE MAX: 第2の帯域の強調量を上限とする第1の帯域の強調量(dB)
LE MIN: 第2の帯域の強調量を下限とする第1の帯域の強調量(dB)

テーブルの各パラメータの取りうる値の範囲は以下の通り。

但し、LE MIN< LE MAXとなるように設定する。（以上は図１２と同様）
HE MAX: 0〜50dB(dB)、第2の帯域の強調量を、第1の帯域の強調量に基づいて定め
る際の上限値。第1の帯域の強調量が一定以上の場合に、第2の帯域の強調量が上限以
上とならないように設けた上限値。

HE MIN: 0〜50dB(dB)、第2の帯域の強調量を、第1の帯域の強調量に基づいて定め
る際の下限値。第1の帯域の強調量が一定以下の場合に、第2の帯域の強調量が下限以
下とならないように設けた上限値。

但し、HE MIN < HE MAXとなるように設定する。

［音声スペクトル加工手段６］は、周波数分析手段２から出力された音声スペクトルと、第１の帯域の強調量，第２の帯域の強調量及び帯域分割情報を入力し、以下の処理により音声スペクトルの強調量を算出し、強調処理を行う。

まず、音声スペクトル加工手段が行う、各周波数の強調量算出の実施例を説明する。

（１）［音声スペクトル加工手段が行う各周波数の強調量算出の具体例１］
各周波数の強調量を図９に示すテーブルで算出する。

EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
LE: 第1の帯域の強調量 (dB)
HE: 第2の帯域の強調量 (dB)
l1s: 第1の帯域の下限インデックス
l1e: 第1の帯域の上限インデックス
h1s: 第2の帯域の下限インデックス
h1e: 第2の帯域の上限インデックス

l1s、l1e 、h1s、h1eは帯域分割情報(第1の帯域と第2の帯域の境界周波数のインデックスI_b)と入力信号の帯域幅を用いて下記の通りに算出する。

l1s =入力信号の帯域幅下限周波数のインデックス
l1e = I_b -ψ
h1s = I_b +ζ
h1e =入力信号の帯域幅上限周波数のインデックス
ψ、ζ：正の数(1〜0.5×ind max)
ind max: 周波数のインデックスの最大値

ψ、ζは、周波数の境界で強調量に不連続が起こらないように設けた帯域の幅を決めるための数値である。

（２）［音声スペクトル加工手段が行う各周波数の強調量算出の具体例２］
各周波数の強調量を算出するためのテーブルを図１０に示す。

EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
LE: 第1の帯域の強調量 (dB)
HE: 第2の帯域の強調量 (dB)
EMP MAX:強調量上限 (dB)
l2s: 第1の帯域の周波数の下限インデックス
l2e: 第1の帯域の周波数の上限インデックス
h2s: 第2の帯域の周波数の下限インデックス h2s=l2e
h2e: 第2の帯域の周波数の上限インデックス

h2s、h2e、l2s、l2eは帯域分割情報(第1の帯域と第2の帯域の境界周波数のインデッ
クスI_b)と入力信号の帯域幅を用いて下記の通りに算出する。

l2s =入力信号の帯域幅下限周波数のインデックス
h2e = I_b
l2s = I_b
h2e =入力信号の帯域幅上限周波数のインデックス

次に、音声スペクトル加工手段が行う各周波数のスペクトルの加工の実施例を示す。

［音声スペクトル加工手段が行う各周波数のスペクトルの加工の具体例］
まず、音声スペクトル加工手段は、各周波数の強調量EMP(i)を用いて、各周波数のス
ペクトルに適用する係数emp coef(i)を算出する。

次に、emp coef(i)を各周波数のスペクトルの実部と虚部に各周波数のスペクトルの
倍率emp coef(i)をかけることで、スペクトルを加工する。

EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
SPE re(i): 各周波数のスペクトルの実部
SPE im (i): 各周波数のスペクトルの虚部
ESPE re(i): 各周波数のスペクトルの実部
ESPE im (i): 各周波数の強調したスペクトルの虚部
emp coef (i): 各周波数のスペクトルの倍率

［合成手段７］は音声スペクトル加工手段６から出力された強調音声のスペクトルを入力し、強調音声のスペクトルをフーリエ逆変換などの周波数時間変換処理によって時間領域に変換することによって強調音声を生成し出力する。

以上各構成要素の処理により本実施例で周囲騒音の影響で受話音が聞こえにくくなった際に、音声の主観的な了解性と主観的な明るさの両方で十分な品質を持つ強調音声を生成することが可能となります。

［実施例２］
図２は、本発明の実施例２の構成を示す説明図であり、（実施例１同一の構成には同一符号を付与）１および２は周波数分析手段、３はＳＮＲ算出手段、４は第１の帯域の強調量算出手段、５’は第２の帯域の強調量算出手段、６は音声スペクトル加工手段、７は合成手段、８は音声の明るさ算出主段を示している。

以下図２の構成について音声信号の処理順に沿って説明する。各構成の詳細動作については後述する。

音声の明るさ算出手段８は、周波数分析手段２から出力された受話音声のスペクトルと受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、音声の明るさを示す情報を出力する。

第2の帯域の強調量算出手段５’は、第1の帯域の強調量と音声の明るさ算出手段８から出力された音声の明るさを示す情報を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。

各構成要素の処理で実施例１と異なる構成についての詳細を以下に説明する。

［音声の明るさ算出手段８］は、受話音声のスペクトルと受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、以下の処理により音声の明るさを示す情報を生成し出力する。

C: 音声の明るさ(dB)
H: 受話音声の第1の帯域のパワー (dB)
L: 受話音声の第2の帯域のパワー(dB)
i：周波数のインデックス
S(i): i番目の周波数の受話音声成分の大きさ(dB)
l3s: 第1の帯域の下限周波数のインデックス
l3e: 第1の帯域の上限周波数のインデックス
h3s: 第2の帯域の下限周波数のインデックス
h3e: 第2の帯域の上限周波数のインデックス

h3s、h3e、l3s、l3eは帯域分割情報(低域と高域の境界周波数のインデックスI_b)と入
力信号の帯域幅を用いて下記の通りに算出する。

h3s =入力信号の帯域幅下限周波数のインデックス
h3e = I_b
l3s = I_b -1
l3e =入力信号の帯域幅上限周波数のインデックス

尚、明るさ算出の際に、周波数によって主観的な大きさが変る効果を導入した上で算出しても良い。

具体的には、H,Lを算出する際に、S(i)に対して周波数による主観的な大きさの係数をかけて補正する。周波数による主観的な大きさの係数は、音の大きさの等感曲線など
の既知の情報を用いて算出する。

［第2の帯域の強調量算出手段５’］は、第1の帯域の強調量及び音声の明るさを示す情報を入力し、図７に示すテーブルを用いて以下の通り第2の帯域の強調量を算出す
る。

実施例１における第2の帯域の強調量算出手段の実施例と同様に第2の帯域の強調量HE を算出する。

算出したHEを図８に示すテーブルを用いて修正する。

HE'=HE*
算出したHE'を改めて第2の帯域の強調量HEとする。

HE: 第2の帯域の強調量(dB)
HE’: 音声の明るさを用いて修正した第2の帯域の強調量(dB)
COEF: 第2の帯域の強調量を修正するための係数
COEF MAX: 第2の帯域の強調量を修正するための係数の上限
COEF MIN: 第2の帯域の強調量を修正するための係数の下限
C MAX: 第2の帯域の強調量を修正するための係数を下限とする音声の明るさ(dB)
C MIN: 第2の帯域の強調量を修正するための係数を上限とする音声の明るさ(dB)

テーブルの各パラメータの取りうる値の範囲を以下に示す。

COEF MAX: 0〜1、音声の明るさが一定以上の場合に、第2の帯域の強調量HEを補正
するための係数が、上限以上とならないように設けた上限値。

COEF MIN: 0〜1、音声の明るさが一定以下の場合に、第2の帯域の強調量HEを補正
するための係数が、下限以下とならないように設けた下限値。

但し、COEF MIN < COEF MAXとなるように設定する。

C MAX: -50〜50(dB) 、第2の帯域の強調量の補正係数を、音声の明るさに基づいて定める際の、音声の明るさの上限値。

C MIN: -90〜0(dB) 、第2の帯域の強調量の補正係数を、音声の明るさに基づいて定める際の、音声の明るさの下限値。

但し、C MIN < C MAXとなるように設定する。

本実施例２では、実施例１に対して音声の明るさ算出手段を追加し、音声の明るさを算出することで、第２の帯域の強調量算出手段５’で音声の明るさを加えて第２の帯域の強調量を算出できるため、音声の明るさが大きく第２の帯域の強調量を大きくするとキンキン感が起こりやすくなる際には第２の帯域の強調量を小さく調節し、逆に音声の明るさが小さく第２の帯域の強調量を小さくすると籠もり感が起こりやすくなる際には第２の帯域の強調量を大きく調節することで、籠もり感やキンキン感をさらに起こりにくくすることができる。

［実施例３］
図３は、本発明の実施例３の構成を示す説明図であり、（実施例１及び実施例と２同一の構成には同一符号を付与）１は周波数分析手段、９は音声スペクトル推定手段、１０は騒音スペクトル推定手段、１１はＮＮＲ算出手段、３はＳＮＲ算出手段、４は第１の帯域の強調量算出手段、５は第２の帯域の強調量算出手段、６'は音声スペクトル加工手段、７は合成手段を示している。

以下図の構成について音声信号の処理順に沿って処理内容を説明する。各構成の詳細動作については後述する。

音声スペクトル推定手段９は、受話音声を入力し、受話音声に重畳した背景騒音を除去した受話音声のスペクトル生成し出力する。

騒音スペクトル推定手段１０は、受話音声を入力し、受話音声に重畳した背景騒音のスペクトルを生成し出力する。

NNR算出手段１１は、周波数分析手段１から出力された周囲騒音のスペクトルと騒音スペクトル推定手段１０から出力された受話音声の背景騒音スペクトルを入力し、周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出し出力する。

SNR算出手段３は、周波数分析手段１から出力された周囲騒音のスペクトルと、音声スペクトル推定手段９から出力された背景雑音が除去された音声スペクトルを入力し、SNRを算出し出力する。

音声スペクトル加工手段６は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量，第2の帯域の強調量、NNR及び音声スペクトルを入力し、強調音声のスペクトルを出力する。

各構成要素の処理で実施例１及び実施例２と異なる構成について詳細を以下に説明する。

［音声スペクトル推定手段９］及び［騒音スペクトル推定手段１０］は受話音声を入力し、受話音声のスペクトルと受話音声に重畳される背景騒音のスペクトルを算出する。

具体的な算出方法として、公知のノイズサプレッション技術(参考資料:特開2005-165021)によって行うことが可能である。

処理の一例としては、雑音が重畳された音声信号の入力に対して、分析を行い、スペクトル振幅（＝振幅スペクトル）の算出を行い、算出されたスペクトル振幅を用いて雑音が重畳された入力音声信号のうちで雑音を除く成分、すなわち純粋音声信号に対応すべき情報である音声スペクトルを推定する。

また、雑音スペクトルも同様に推定する。

［NNR算出手段１１］は、周囲騒音のスペクトルと受話音声の背景騒音スペクトルを入力し、以下の式により周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出し出力
する。

NNR(i)= N (i) − N'(i)
i: 周波数のインデックス
NNR (i): i番目の周波数のNNR (dB)
N (i): i番目の周波数のパワースペクトル(dB)
N' (i): i番目の受話音声の背景騒音のパワースペクトル(dB)
ここで、周波数のインデックスとはフーリエ変換でスペクトルを算出した際の帯域の番号である。

尚、NNRの際に、周波数によって主観的な大きさが変る効果を導入した上で算出しても良い。

具体的には、算出したNNR(i)に、周波数による主観的な大きさの係数をかけて補正する。周波数による主観的な大きさの係数は、音の大きさの等感曲線などの既知の情報を用いて算出する。

［音声スペクトル加工手段６'］は、周波数分析手段２から出力された音声スペクトルと、第１の帯域の強調量，第２の帯域の強調量，NNR及び帯域分割情報を入力し、以下
の処理により音声スペクトルの強調量を算出し、強調処理を行う。

音声スペクトル加工手段が行う、各周波数の強調量算出の実施例を説明する。

まず、［音声スペクトル加工手段６］と同様に各周波数の強調量EMP(i)を算出する。

次に、各周波数の強調量をNNRを用いて補正する。

受話音を強調した結果の周囲騒音と受話音の背景騒音の比率NNRが閾値を下回らない
ように強調量を補正する。

MOD EMP(i)=EMP(i) EMP NNR(i)≦TH NNR
MOD EMP(i)= NNR(i)-TH NNR EMP NNR(i)>TH NNR

EMP(i): 各周波数の強調量(dB)
MOD EMP(i): 修正した各周波数の強調量(dB)
NNR(i): 各周波数のNNR(dB)
TH NNR: NNRの下限(dB)

上記式のパラメータの取りうる値の範囲は以下の通り。

TH NNR: -50〜50dB(dB)、強調により、受話音声に重畳した騒音が耳障りにならないように設けたNNRの下限。

次に、音声スペクトル加工手段は、各周波数の強調量MOD EMP(i)を用いて、各周波数
のスペクトルに適用する係数emp coef(i)を算出する。

MOD EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
SPE re(i): 各周波数のスペクトルの実部
SPE im (i): 各周波数のスペクトルの虚部
ESPE re(i): 各周波数のスペクトルの実部
ESPE im (i): 各周波数の強調したスペクトルの虚部
emp coef (i): 各周波数のスペクトルの倍率

本実施例３では、実施例１に対してＮＮＲ算出手段を追加し、周囲騒音と音声の重畳背景騒音の成分比であるNNR算出することで、第二の帯域の強調量算出手段５’でNNRを加えて第二の帯域の強調量を算出できるため、強調によって音声の背景騒音が大きくなりすぎないように強調量を制御できる。

［実施例４］
図４は、本発明の実施例４の構成を示す説明図であり、（実施例１乃至実施例３と２同一の構成には同一符号を付与）１は周波数分析手段、９は音声スペクトル推定手段、１０は騒音スペクトル推定手段、１１はＮＮＲ算出手段、８は音声の明るさ算出手段、３はＳＮＲ算出手段、４は第１の帯域の強調量算出手段、５'は第２の帯域の強調量算出手段、６'は音声スペクトル加工手段、７は合成手段を示している。

第2の帯域の強調量算出手段５'は、第1の帯域の強調量と音声の明るさ情報を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。

音声スペクトル加工手段６'は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量，第2の帯域の強調量，NNR及び音声スペクトルを入力し、強調音声のスペクトルを出力する。

本実施例の構成要件は実施例１に対する実施例２及び実施例３の変更点を合わせた実施例であり、個々の構成の機能については、実施例１乃至実施例３にて説明した通りである。

［実施例５］
本実施例５は、実施例４に対して音声強調装置内にて受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を算出する構成を追加した例である。追加される構成としては、受話音声を入力しピッチ周波数を算出して出力するピッチ周波数算出手段１２と、ピッチ周波数と音声の明るさ情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を生成する帯域分割情報算出手段１３を追加した構成である。

音声強調の処理としては、帯域分割情報を構成内部で生成しその帯域分割情報を使用する以外は他の実施例４と同様の処理となる。

本実施例５で追加された構成についての詳細を以下に詳細に説明する。

［ピッチ周波数算出手段１２］では、受話音声を入力し、下記の式に従ってピッチ周波数が算出される。

pitch= freq/a max

x:入力信号
M:相関係数を算出する区間の長さ（サンプル）
a: 相関係数を算出する信号の開始位置
pitch:ピッチ周波数(Hz)
corr(a):ずらし位置がaの場合の相関係数
a max: 最大相関係数に対応するa
i:信号のインデックス(サンプル)
freq:サンプリング周波数(Hz)

［帯域情報算出手段１３］ではピッチ周波数と音声の明るさ情報を入力し、以下の方法で帯域分割情報を生成する。

（１）［帯域情報算出手段１３の具体例１］
具体例１では、以下の順で帯域分割情報を算出する。

（ａ）受話音声のピッチ周波数を算出する。

（ｂ）帯域分割情報を算出する。

算出方法の詳細は以下の通り。

第一の帯域と第二の帯域の境界周波数のインデックスI_bを下記の式で算出する。Is とp_sは予め、基準となる値を設定する。ピッチ周波数が高いほど第二の帯域を強調するとキンキンしやすくなるため、ピッチ周波数が基準値よりも大きくなるほどI_bを大きくする。これによりピッチ周波数が高いほど高域の下限周波数が大きくなり、強く強調をかける高域の帯域がせばまるため、強調によるキンキン感を防ぐことができる。

I_b=Is+α(p-p_s)
I_s:低域と高域の境界周波数のインデックスの基準値
I_b:低域と高域の境界周波数のインデックス
p: 受話音声のピッチ周波数
p_s: 受話音声のピッチ周波数の基準値(50〜500Hz)
α: 正の数()

パラメータは下記の通りに設定する。

p_s: 50〜500Hz、平均的な声の高さとする。

α: 0〜1、受話音声の平均的な声の高さからのずれによってI_bを決める際の、
ピッチ周波数の寄与率。

（２）［帯域情報算出手段１３の具体例２］
具体例２では、以下の順で帯域分割情報を算出する。

（ａ）受話音声のパワースペクトルの傾きを算出する。

（ｂ）帯域分割情報を算出する。

算出方法の詳細は以下の通り。

低域と高域の境界周波数のインデックスI_bを下記の式で算出する。Isとq_sは予め、基準となる値を設定する。受話音声のパワースペクトルの傾きが小さいほど第二の帯域を強調するとキンキンしやすくなるため、受話音声のパワースペクトルの傾きが基準値よりも小さくなるほどI_bを大きくする。これにより受話音声のパワースペクトルの傾きが小さいほど第二の帯域の下限周波数が大きくなり、第二の帯域の帯域がせばまるため、第二の帯域を強調することによるキンキン感を防ぐことが出来る。

I_b=Is+β(q-q_s)
I_s:低域と高域の境界周波数のインデックスの基準値
I_b:低域と高域の境界周波数のインデックス
q: 受話音声のパワースペクトルの傾き
q_s: 受話音声のパワースペクトルの傾きの基準値
β: 負の数

パラメータは下記の通りに設定する。

q_s: 50〜500Hz、平均的な声の高さとする。

β: -100〜0、受話音声の平均的なパワースペクトルの傾きからのずれによって I_bを決める際の、受話音声のパワースペクトルの傾きの寄与率。

（３）［帯域情報算出手段１３の具体例３］
具体例３では、以下の順で帯域分割情報を算出する。

（ａ）受話音声のピッチ周波数を算出する。

（ｂ）受話音声のパワースペクトルの傾きを算出する。

（ｃ）帯域分割情報を算出する。

算出方法の詳細は以下の通り。

低域と高域の境界周波数のインデックスI_bを下記の式で算出する。Isとp_sとq_sは予
め、基準となる値を設定する。受話音声のピッチ周波数が高いほど、受話音声のパワースペクトルの傾きが小さいほど第二の帯域を強調するとキンキンしやすくなるため、受話音声のピッチ周波数基準値よりも高くなるほど、受話音声のパワースペクトルの傾きが基準値よりも小さくなるほどI_bを大きくする。これにより受話音声のピッチ周波数が高いほど、受話音声のパワースペクトルの傾きが小さいほど第二の帯域の下限周波数が大きくなり、第二の帯域がせばまるため、第二の帯域の強調によるキンキン感を防ぐことができる。
I_b=Is+α(p-p_s) +β(q-q_s)。

I_s:低域と高域の境界周波数のインデックスの基準値
I_b:低域と高域の境界周波数のインデックス
p: 受話音声のピッチ周波数
p_s: 受話音声のピッチ周波数の基準値
α: 正の数
q: 受話音声のパワースペクトルの傾き
q_s: 受話音声のパワースペクトルの傾きの基準値
β: 負の数

パラメータの値は、本実施例の具体例１乃至３と同様とする。

上記帯域情報算出手段１３の具体例１乃至３で用いた「パワースペクトルの傾き」は、下記の通りに算出される。

(1) スペクトルから下記の式でパワースペクトルを算出する。

PSP(i)=10log10(SP re(i) *SP re(i)+ SP im(i) *SP im(i))
PSP(i): パワースペクトル
i:周波数のインデックス
SP re(i): スペクトルの実部
SP im(i): スペクトルの虚部
(2)パワースペクトルの傾きを算出する。

各周波数インデックス毎のパワースペクトルを(i, PSP(i))で表わし、最小二乗法で
一次関数を当てはめた際の傾きとして算出する。

上記実施例５で説明した構成要件の追加については、一例として実施例４に追加する形で説明したが、実施例１乃至実施例３の何れに追加しても同様に受話音声から帯域分割情報を生成することが可能である。

以上の通り、実施例５では実施例１乃至実施例４の効果に加え、受話音声から帯域分割情報算出手段によって帯域分割情報を算出することで、音声によって第一の帯域と第二の帯域を制御できるため、音声に応じた適切な音声強調制御が可能となる。

尚、上記実施例１乃至実施例４にて用いた帯域分割情報は、受話音声の主観的な了解性の向上に寄与する帯域及び受話音声の主観的な明るさの向上に寄与する帯域として、統計的に求めることが可能であり、求められた結果を帯域分割情報として使用することも可能である。

また、第１帯域の強調手段及び第２帯域の強調手段として、予め帯域分割情報により指定される帯域のみを強調するように設定も可能であり、その場合は帯域分割情報の入力経路は不要となり、上記実施例１乃至実施例４と同様の効果となる。

本発明の実施例１の説明図。本発明の実施例２の説明図。本発明の実施例３の説明図。本発明の実施例４の説明図。本発明の実施例５の説明図。第1の帯域の強調量算出テーブル第２の帯域の強調量算出テーブル第２の帯域の強調量の修正用テーブル各周波数の強調量算出用テーブルの実施例１各周波数の強調量算出用テーブルの実施例２

符号の説明

１周波数分析手段
２周波数分析手段
３ＳＮＲ算出手段
４第１の帯域の強調量算出手段
５，５’ 第２の帯域の強調量算出手段
６，６’ 音声スペクトル加工手段
７合成手段
８音声の明るさ算出主段
９音声スペクトル推定手段
１０騒音スペクトル推定手段
１１ＮＮＲ算出手段
１２ピッチ周波数算出手段
１３帯域分割情報算出手段

Claims

受話音声のスペクトルと周囲騒音のスペクトルの成分比である平均SNRを算出する平均SNR算出手段と、
予め求められた前記受話音声の了解性の向上に寄与する帯域である第１帯域と前記受話音声の明るさの向上に寄与する帯域である第２帯域とを示す帯域分割情報と、前記平均SNR算出手段で算出された前記平均SNRから、前記第１帯域の強調量を算出する第１帯域強調量算出手段と、
前記第１帯域の平均SNRを算出し、前記平均SNRが大きいほど前記第１帯域の強調量を小さくし、前記第１帯域の強調量が大きいほど前記第２帯域の強調量を大きくするように、前記第２帯域の強調量を算出する第２帯域強調量算出手段と、
前記第１帯域強調量算出手段と前記第２帯域強調量算出手段との出力結果および前記帯域分割情報とを用いて受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。
前記平均SNR算出手段は、周波数による音の大きさが変る効果を考慮して算出すること
を特徴とする請求項１記載の音声強調装置。
更に、受話音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する音声の明るさ算出手段を備えることを特徴とする請求項１記載の音声強調装置。
前記音声の明るさ算出手段は、周波数による音の大きさが変る効果を考慮して算出することを特徴とする請求項３記載の音声強調装置。
更に、前記周囲騒音と音声の重畳背景騒音の成分比である平均NNRを算出する平均NNR算出手段と、
前記第１帯域強調量算出手段にて算出した第１帯域の強調量と前記平均NNR算出手段に
て算出された前記平均NNRから、前記第２帯域の強調量を算出する第２帯域強調量算出手
段と、
を備えることを特徴とする請求項１記載の音声強調装置。
前記平均NNR算出手段は、周波数による音の大きさが変る効果を考慮して算出すること
を特徴とする請求項５記載の音声強調装置。
更に、音声のピッチ周波数と音声の高域寄与度の少なくとも一つから、受話音声が周囲騒音にマスクされた際の受話音声の了解性の向上に寄与する第１帯域と明るさの向上に寄与する第２帯域の帯域分割情報を算出する帯域分割情報算出手段を備えることを特徴とする請求項１記載の音声強調装置。
前記受話音声の了解性の向上に寄与する第１帯域は、上限周波数が3000Hz以下であることを特徴とする請求項１記載の音声強調装置。
前記受話音声の明るさの向上に寄与する第２帯域は、下限周波数が500Hz以上であるこ
とを特徴とする請求項１記載の音声強調装置。
更に、受話音声からピッチ周波数を算出して出力するピッチ周波数算出手段と、
前記ピッチ周波数と音声の明るさ情報を入力し、前記受話音声の了解性の向上に寄与する第１帯域と受話音声の明るさの向上に寄与する第２帯域を示す帯域分割情報を生成する帯域分割情報算出手段を有することを特徴とする請求項１記載の音声強調装置。