JP2006157789A

JP2006157789A - 音声障害検出装置

Info

Publication number: JP2006157789A
Application number: JP2004348483A
Authority: JP
Inventors: Osamu Sugimoto; 修杉本; Ryoichi Kawada; 亮一川田; Atsushi Koike; 淳小池
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2004-12-01
Filing date: 2004-12-01
Publication date: 2006-06-15

Abstract

【課題】音声の特徴量の情報量を抑制して、特徴量を伝送するためのデータ回線（監視回線）のコストを抑制できる音声障害検出装置を提供すること。
【解決手段】送信側符号化装置１で符号化された音声信号は、伝送路２を介して接続された受信側復号装置３と、送信側符号化装置１からの符号化出力を折り返してデコードする送信側復号装置７とに入力する。該送信側復号装置７および受信側復号装置３でデコードされた音声信号は、それぞれ特徴量抽出装置４及び５で特徴量を抽出され、該抽出された特徴量は特徴量比較・劣化尺度計算装置６に送られる。前記特徴量抽出装置４、５は、有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の１つまたは複数の係数に対して量子化を行う手段とから構成される。
【選択図】図５

Description

本発明は音声障害検出装置に関し、特に、映像伝送系または音声伝送系における音声信号の伝送障害を自動的に検出する音声障害検出装置に関する。

従来、複数の伝送処理装置が伝送路に縦列に接続された映像伝送系の映像障害を検出する装置が、例えば下記の特許文献１に記されている。

この装置について図１０を参照して簡単に説明する。送信画像は、伝送路５１を介して送信側５２から受信側５３へ伝送されるものとする。第１特徴量抽出部５４は送信側５２の送信画像から特徴量を抽出し、第２特徴量抽出部５５は受信側５３の受信画像から特徴量を抽出する。該第１、第２特徴量抽出部５４，５５で抽出された特徴量は、それぞれ低速回線５６，５７を通じて中央監視室５８へ送られる。中央監視室５８では、ＭＳＥ推定部５８ａにより、前記特徴量からＭＳＥ（平均自乗誤差）を推定する。
特開２００３−９１８６号公報

しかしながら、上記特許文献１に記載の発明は、映像の障害を検出するものであり、音声の障害を検出する点に、何らの配慮もされていなかった。

本発明は、前記した従来技術に鑑みてなされたものであり、音声の特徴量の情報量を抑制して、特徴量を伝送するためのデータ回線（監視回線）のコストを抑制できる音声障害検出装置を提供することにある。

前記した目的を達成するために、本発明は、複数の伝送装置の縦列接続からなる伝送路上の音声障害を検出する音声障害検出装置において、前記伝送路上の複数地点において、音声信号の特徴量を抽出する特徴量抽出部と、該特徴量抽出部により得られた特徴量により、音声信号の劣化尺度を計算する劣化尺度計算部とを具備し、前記特徴量抽出部は、有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の１つまたは複数の係数に対して量子化を行う手段とからなる点に特徴がある。

本発明によれば、従来不可能であった遠隔地での音声障害検出が可能になる。また、音声特徴量を効果的に抽出しているため、特徴量の情報量を極めて低く抑えることが可能になる。また、それゆえ、特徴量伝送用の監視回線の帯域を抑制し、監視にかかるコストを低減させることができるようになる。

以下に、本発明を、図面を参照して詳細に説明する。図１は、本発明が適用される一つの音声伝送系のシステム図である。

複数の伝送装置、例えば送信側符号化装置１および受信側復号装置３が、伝送路２を介して縦列接続されている。入力音声信号ｘ（ｎ）は、送信側符号化装置１で圧縮符号化（エンコード）され、伝送路２を経て、受信側復号装置３に至る。ここに、ｘ（ｎ）は所与のサンプリング周波数で標本化され、線形量子化された信号（例えば、リニアＰＣＭ）であるとする。

該受信側復号装置３は、受信信号を復号（デコード）し、出力音声信号ｙ（ｎ）として出力される。いま、前記伝送路２に伝送障害が発生したと仮定すると、圧縮ストリームに欠損が生じ、出力音声信号ｙ（ｎ）には復号の失敗のために異音が発生するか、または異音の抑制のためにデコーダにより無音の再生（ミュート）となるかのいずれかが生ずると考えられる。

そこで、この音声障害を検出するために、特徴量抽出装置４は入力音声信号ｘ（ｎ）の特徴量を検出し、特徴量抽出装置５は出力音声信号ｙ（ｎ）の特徴量を検出し、検出されたこれらの特徴量をデータ回線を介して、例えば中央監視室に設置された特徴量比較・劣化尺度計算装置６に送る。

次に、前記特徴量抽出装置４、５の構成と動作を、図２を参照して詳細に説明する。なお、特徴量抽出装置４と５は同一構成であるので、特徴量抽出装置４を代表に上げて以下に説明する。

特徴量抽出装置４は、絶対値・対数変換部１１、ＰＮ系列乗算部１２、直交変換部１３、特徴量抽出部１４、量子化部１５から構成されている。

特徴量抽出装置４の入力ｘ_ｉ（ｎ）は、前記のように、所与のサンプリング周波数で標本化され、線形量子化された信号（例えば、リニアＰＣＭ）であるとする。また、ｘ_ｉ（ｎ）は、図３に示されているように、有限のサンプル数Ｌ毎に区切られて入力されるとし、ｉはそのＭサンプル毎（ＭはＬの約数）のセグメントのインデックスであるとする。なお、入力信号がステレオチャネルの場合は、以下の操作は、チャネル毎にそれぞれ行われるものとする。

入力ｘ_ｉ（ｎ）は、絶対値・対数変換部１１に入力し、絶対値を取られ、その後対数変換される。この対数変換処理は、一般に音声信号は映像信号に比べてダイナミックレンジが広く、対数変換をしない場合にはレベルの大きいサンプルの差分値が支配的になってしまうためである。なお、この対数変換処理は、これを行うことが好ましいが必須の処理ではない。

次いで、ＰＮ系列乗算部１２は、対数変換後の各サンプルにＰＮ系列ｓ_ＰＮ（ｎ）（すなわち、＋１と−１のランダムな系列）を乗じ、その後直交変換部１３で直交変換を行うことで、スペクトル拡散された直交変換係数を得る。該直交変換は、ＤＦＴ（離散フーリエ変換）、ＤＣＴ（離散コサイン変換）、ＷＨＴ（ウォルシュ−アダマール変換）などの任意の方式が適用可能である。本実施形態では、該直交変換部１３は、前記Ｍ点のセグメント毎に直交変換を行う。

特徴量抽出部１４は、前記直交変換部１３から得られた直交変換係数のうちの任意の一つの成分ｓ_０を抽出する。なお、本実施形態では任意の一つの成分を抽出するとするが、これに限定されず、任意の二個、三個などの成分を抽出するようにしてもよい。

量子化部１５は、前記直交変換係数の成分ｓ_０の直交変換係数X_SS［ｓ_０］を有限ビット長で表現することにより、音声特徴量Ｆ［ｉ］を下記の（１）式で得る。
Ｆ［ｉ］＝round｛X_SS［ｓ_０］／２^ｎ｝・・・（１）
ここに、round（）は四捨五入の関数であり、ｎは音声特徴量Ｆ［ｉ］のビット長を決めるために選択される値である。

上記の（１）式は得られた直交変換係数に対して丸めを行う処理を意味し、この丸め処理により、音声特徴量の情報量は、１係数当たり数ビットに抑制されるため、特徴量データの伝送回線の帯域を減らすことが可能になる。

以上のようにして、特徴量抽出装置４で得られた音声特徴量Ｆ_１［ｉ］は、データ回線を経て前記特徴量比較・劣化尺度計算装置６（図１参照）に送られる。また、同様にして特徴量抽出装置５で得られた音声特徴量Ｆ_２［ｉ］は、データ回線を経て前記特徴量比較・劣化尺度計算装置６に送られる。なお、前記音声特徴量Ｆ_１［ｉ］およびＦ_２［ｉ］は伝送遅延等の時間差を補償された、音声信号の同一部分の特徴量であるとする。

特徴量比較・劣化尺度計算装置６では、送受信側から送られてきた音声特徴量Ｆ_１［ｉ］およびＦ_２［ｉ］から、劣化尺度を近似する。該劣化尺度の推定値Ｅ_ＲＲは下記の（２）式で求められる。

ここに、Ｎ_Ｆ＝Ｌ／Ｍである。

前記音声特徴量Ｆ_１［ｉ］およびＦ_２［ｉ］は、前記絶対値・対数変換部１１で対数変換された値に基づく値であるから、｜Ｆ_１［ｉ］−Ｆ_２［ｉ］｜は、音声信号のダイナミックレンジが広くても、劣化尺度を精度良く表現するものである。

最後に、得られた劣化尺度の推定値Ｅ_ＲＲを基に、該劣化尺度の推定値Ｅ_ＲＲと劣化尺度の真値Ｅ_ＦＲの相関関係から障害の有無を判定する。該推定値Ｅ_ＲＲと真値Ｅ_ＦＲの相関関係は、例えば図４のように表される。なお、劣化尺度の真値Ｅ_ＦＲは、下記の（３）式で表されるものである。該（３）式は差分平均値を用いて求めるものであるが、これに変えて差分自乗平均値を用いて求めても良い。

図４から明らかなように、劣化尺度の推定値Ｅ_ＲＲは、その値が大きいほど劣化尺度の真値Ｅ_ＦＲは大きくなる。真値Ｅ_ＦＲに図示のような閾値Ｔｈを設定しておき、推定値Ｅ_ＲＲの真値Ｅ_ＦＲ換算値が該閾値Ｔｈを越えるか否かで、障害の有無を判定する。該閾値Ｔｈは、機器の構成や圧縮符号化の有無、デコーダのコンシールメントの性質などに依存して設定するのが好適である。

図５は、本発明が適用される他の音声伝送系のシステム図を示す。図５において、図１と同一または同等物には同一の符号が付されている。この音声伝送系のシステムは、送信側符号化装置１で符号化された信号を送信側復号装置７で復号して、特徴量抽出装置４で音声信号の特徴量を抽出するようにした点に特徴がある。

図５のシステムは、伝送障害が発生しない場合には、送信側および受信側の特徴量抽出装置４、５の入力信号が同一となり、それゆえ、（２）式および（３）式で定義される劣化尺度が0となる。よって、当該劣化尺度が0またはそれに近い値でなければ、伝送障害が発生していると判定することができる。すなわち、前記の閾値Ｔｈの決定が容易な構成といえる。一方、図１のシステムでは、（２）式および（３）式で定義される劣化尺度は送信側符号化装置１の符号化誤差を含んだものとなるため、閾値Ｔｈは、前記の符号化誤差分を考慮した上で決定しなければならない。よって、図５のシステムは、閾値Ｔｈの設定の容易さという点で、図１のシステムより優れているということができる。

以上の説明から明らかなように、本発明によれば、限られた情報量の音声特徴量から音声障害を検出することが可能になる。

次に、本発明者は、本発明の効果を確認するために、図６に示す伝送系を構成し、映像信号および音声信号からなるＴＶ素材を１２０秒間伝送する実験を行った。

送信側符号化装置２１（以下、エンコーダ２１と呼ぶ）で符号化されたＴＶ素材は、ＩＰマルチキャストにより送信側復号装置２３（以下、デコーダ２３と呼ぶ）と受信側復号装置２２（以下、デコーダ２２と呼ぶ）に伝送される。また、伝送路上に伝送障害発生部２７を設け、４５秒、８０秒、９２秒および１０６秒において、それぞれ１秒間の瞬断を発生させた。明らかなように、デコーダ２３は常にIPパケットロスなしで受信可能であり、デコーダ２２は伝送障害を受けた信号を受信する。

音声信号は、送信側のエンコーダ２１において、MPEG-1 Audio Layer2という圧縮方式で圧縮され伝送される。フォーマットは、リニアPCM、サンプリング周波数４８ｋHz、１６ビット／サンプルで、ビットレートは192kbps（ステレオ）である。

本実験では、劣化尺度E_FRは４０９６サンプル毎に求められ（L=4096）、音声特徴量１２８サンプル毎に抽出される（M=128)。つまり、１系統当たり４０９６／１２８＝３２個の特徴量から劣化尺度E_FRが推定されることになる。

また、特徴量の丸めパラメータｎを調節することにより、１つの特徴量当たりの情報量を２，３，４，および５ビットにそれぞれ固定した。サンプリング周波数が４８kHz、特徴量抽出のセグメント長が１２８サンプルであるため、１秒当たりのセグメント数は４８０００／１２８＝３７５となり、２ビット特徴量の情報量は３７５×２＝７５０bpsとなり、３，４および５ビットの場合にはそれぞれ１１２５，１５００および１８７５bpsとなる。

まず、劣化尺度E_FRにより、正確に劣化を検出できるかどうかを検討する。図７は、劣化尺度E_FRを時系列に表したものである。前記した通り、４５秒、８０秒、９２秒および１０６秒の付近でE_FRの値が高くなっているのが分かる（４５秒目の障害のみ障害が長引いているのは、デコーダ２２の出力が不安定になっているからと考えられる）。ここで、閾値としてE_FR＝１．０を設定すると、劣化発生時のみ障害と判定可能であり、これら以外の時間帯では誤検出が発生しないことが分かる。以上により、劣化尺度E_FRが劣化検出のための尺度として適当であることが確認された。

次に、音声特徴量から劣化尺度E_FRを推定する。劣化尺度E_FRの妥当性は上記の通り示されているため、ここで、高い精度で音声特徴量から劣化尺度E_FRを推定できれば、本発明の効果が確認できることになる。

特徴量１係数当たりの情報量（ビット数）毎の劣化尺度E_RRと真の劣化尺度E_FRとの相関について調べると、図８のようになった。一例として、特徴量のビット数５ビットの場合の両者の相関を示すと、図９のようになった。横軸が特徴量に基づく推定値、縦軸が真の劣化尺度である。

この結果より、音声特徴量を２ビットで表現した場合でも、劣化尺度E_FRを０．９５２の相関で推定することが可能であることが分かる。また、この時の特徴量の情報量は、７５０bit／秒と１kbpsにも満たない程度の情報量であり、監視回線（データ回線）への影響は殆どないといえる。以上により、本発明の効果が確認できる。

本発明が適用される音声伝送系のシステム図である。図１の特徴量抽出装置の一具体例を示すブロック図である。音声信号を有限個のサンプル数毎にセグメント分割する処理の説明図である。劣化尺度の推定値Ｅ_ＲＲと劣化尺度の真値Ｅ_ＦＲの相関関係を示す図である。本発明が適用される他の音声伝送系のシステム図である。本発明の効果確認の実験に使用した伝送系のシステム図である。劣化尺度の真値Ｅ_ＦＲの実験結果を示す図である。特徴量１係数当たりの情報量（ビット数）毎の劣化尺度E_RRと真の劣化尺度E_FRとの相関を示す図である。特徴量５ビットの場合の、劣化尺度の推定値Ｅ_ＲＲと劣化尺度の真値Ｅ_ＦＲの相関関係の実験例を示す図である。従来の映像伝送系のシステム図である。

符号の説明

１・・・送信側符号化装置（エンコーダ）、２・・・伝送路、３・・・受信側復号装置（デコーダ）、４，５・・・特徴量抽出装置、６・・・特徴量比較・劣化尺度計算装置、７・・・送信側復号装置（デコーダ）

Claims

複数の伝送装置の縦列接続からなる伝送路上の音声障害を検出する音声障害検出装置において、
前記伝送路上の複数地点において、音声信号の特徴量を抽出する特徴量抽出手段と、
該特徴量抽出手段により得られた特徴量により、音声信号の劣化尺度を計算する劣化尺度計算部とを具備し、
前記特徴量抽出手段は、音声信号の有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の１つまたは複数の係数に対して量子化を行う手段とからなることを特徴とする音声障害検出装置。
請求項１に記載の音声障害検出装置において、
前記特徴量抽出手段は、さらに、音声信号の絶対値の対数を取る手段を有し、該手段を前記スペクトル拡散と直交変換を行う手段の前段に接続することを特徴とする音声障害検出装置。
請求項１または２に記載の音声障害検出装置において、
前記劣化尺度計算部は、前記伝送路上の複数地点の特徴量抽出手段から得られた音声特徴量の差分平均値または差分自乗平均値を求める手段と、
該求められた音声特徴量の差分平均値または差分自乗平均値を基に音声信号の差分電力を推定する手段とを具備し、
該差分電力の推定値を閾値処理することにより、音声障害を検出することを特徴とする音声障害検出装置。
請求項１ないし３のいずれかに記載の音声障害検出装置において、
前記複数の伝送装置は、送信側符号化装置と、伝送路を介して接続された受信側復号装置であり、
前記特徴量抽出手段は、前記送信側符号化装置の出力をデコードする送信側復号装置からの出力を入力とする第１の特徴量抽出手段と、前記受信側復号装置からの出力を入力とする第２の特徴量抽出手段とからなることを特徴とする音声障害検出装置。