JP2006157789A - 音声障害検出装置 - Google Patents
音声障害検出装置 Download PDFInfo
- Publication number
- JP2006157789A JP2006157789A JP2004348483A JP2004348483A JP2006157789A JP 2006157789 A JP2006157789 A JP 2006157789A JP 2004348483 A JP2004348483 A JP 2004348483A JP 2004348483 A JP2004348483 A JP 2004348483A JP 2006157789 A JP2006157789 A JP 2006157789A
- Authority
- JP
- Japan
- Prior art keywords
- feature quantity
- voice
- transmission
- feature
- failure detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
Abstract
【課題】 音声の特徴量の情報量を抑制して、特徴量を伝送するためのデータ回線(監視回線)のコストを抑制できる音声障害検出装置を提供すること。
【解決手段】 送信側符号化装置1で符号化された音声信号は、伝送路2を介して接続された受信側復号装置3と、送信側符号化装置1からの符号化出力を折り返してデコードする送信側復号装置7とに入力する。該送信側復号装置7および受信側復号装置3でデコードされた音声信号は、それぞれ特徴量抽出装置4及び5で特徴量を抽出され、該抽出された特徴量は特徴量比較・劣化尺度計算装置6に送られる。前記特徴量抽出装置4、5は、有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の1つまたは複数の係数に対して量子化を行う手段とから構成される。
【選択図】 図5
【解決手段】 送信側符号化装置1で符号化された音声信号は、伝送路2を介して接続された受信側復号装置3と、送信側符号化装置1からの符号化出力を折り返してデコードする送信側復号装置7とに入力する。該送信側復号装置7および受信側復号装置3でデコードされた音声信号は、それぞれ特徴量抽出装置4及び5で特徴量を抽出され、該抽出された特徴量は特徴量比較・劣化尺度計算装置6に送られる。前記特徴量抽出装置4、5は、有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の1つまたは複数の係数に対して量子化を行う手段とから構成される。
【選択図】 図5
Description
本発明は音声障害検出装置に関し、特に、映像伝送系または音声伝送系における音声信号の伝送障害を自動的に検出する音声障害検出装置に関する。
従来、複数の伝送処理装置が伝送路に縦列に接続された映像伝送系の映像障害を検出する装置が、例えば下記の特許文献1に記されている。
この装置について図10を参照して簡単に説明する。送信画像は、伝送路51を介して送信側52から受信側53へ伝送されるものとする。第1特徴量抽出部54は送信側52の送信画像から特徴量を抽出し、第2特徴量抽出部55は受信側53の受信画像から特徴量を抽出する。該第1、第2特徴量抽出部54,55で抽出された特徴量は、それぞれ低速回線56,57を通じて中央監視室58へ送られる。中央監視室58では、MSE推定部58aにより、前記特徴量からMSE(平均自乗誤差)を推定する。
特開2003−9186号公報
しかしながら、上記特許文献1に記載の発明は、映像の障害を検出するものであり、音声の障害を検出する点に、何らの配慮もされていなかった。
本発明は、前記した従来技術に鑑みてなされたものであり、音声の特徴量の情報量を抑制して、特徴量を伝送するためのデータ回線(監視回線)のコストを抑制できる音声障害検出装置を提供することにある。
前記した目的を達成するために、本発明は、複数の伝送装置の縦列接続からなる伝送路上の音声障害を検出する音声障害検出装置において、前記伝送路上の複数地点において、音声信号の特徴量を抽出する特徴量抽出部と、該特徴量抽出部により得られた特徴量により、音声信号の劣化尺度を計算する劣化尺度計算部とを具備し、前記特徴量抽出部は、有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の1つまたは複数の係数に対して量子化を行う手段とからなる点に特徴がある。
本発明によれば、従来不可能であった遠隔地での音声障害検出が可能になる。また、音声特徴量を効果的に抽出しているため、特徴量の情報量を極めて低く抑えることが可能になる。また、それゆえ、特徴量伝送用の監視回線の帯域を抑制し、監視にかかるコストを低減させることができるようになる。
以下に、本発明を、図面を参照して詳細に説明する。図1は、本発明が適用される一つの音声伝送系のシステム図である。
複数の伝送装置、例えば送信側符号化装置1および受信側復号装置3が、伝送路2を介して縦列接続されている。入力音声信号x(n)は、送信側符号化装置1で圧縮符号化(エンコード)され、伝送路2を経て、受信側復号装置3に至る。ここに、x(n)は所与のサンプリング周波数で標本化され、線形量子化された信号(例えば、リニアPCM)であるとする。
該受信側復号装置3は、受信信号を復号(デコード)し、出力音声信号y(n)として出力される。いま、前記伝送路2に伝送障害が発生したと仮定すると、圧縮ストリームに欠損が生じ、出力音声信号y(n)には復号の失敗のために異音が発生するか、または異音の抑制のためにデコーダにより無音の再生(ミュート)となるかのいずれかが生ずると考えられる。
そこで、この音声障害を検出するために、特徴量抽出装置4は入力音声信号x(n)の特徴量を検出し、特徴量抽出装置5は出力音声信号y(n)の特徴量を検出し、検出されたこれらの特徴量をデータ回線を介して、例えば中央監視室に設置された特徴量比較・劣化尺度計算装置6に送る。
次に、前記特徴量抽出装置4、5の構成と動作を、図2を参照して詳細に説明する。なお、特徴量抽出装置4と5は同一構成であるので、特徴量抽出装置4を代表に上げて以下に説明する。
特徴量抽出装置4は、絶対値・対数変換部11、PN系列乗算部12、直交変換部13、特徴量抽出部14、量子化部15から構成されている。
特徴量抽出装置4の入力xi(n)は、前記のように、所与のサンプリング周波数で標本化され、線形量子化された信号(例えば、リニアPCM)であるとする。また、xi(n)は、図3に示されているように、有限のサンプル数L毎に区切られて入力されるとし、iはそのMサンプル毎(MはLの約数)のセグメントのインデックスであるとする。なお、入力信号がステレオチャネルの場合は、以下の操作は、チャネル毎にそれぞれ行われるものとする。
入力xi(n)は、絶対値・対数変換部11に入力し、絶対値を取られ、その後対数変換される。この対数変換処理は、一般に音声信号は映像信号に比べてダイナミックレンジが広く、対数変換をしない場合にはレベルの大きいサンプルの差分値が支配的になってしまうためである。なお、この対数変換処理は、これを行うことが好ましいが必須の処理ではない。
次いで、PN系列乗算部12は、対数変換後の各サンプルにPN系列sPN(n)(すなわち、+1と−1のランダムな系列)を乗じ、その後直交変換部13で直交変換を行うことで、スペクトル拡散された直交変換係数を得る。該直交変換は、DFT(離散フーリエ変換)、DCT(離散コサイン変換)、WHT(ウォルシュ−アダマール変換)などの任意の方式が適用可能である。本実施形態では、該直交変換部13は、前記M点のセグメント毎に直交変換を行う。
特徴量抽出部14は、前記直交変換部13から得られた直交変換係数のうちの任意の一つの成分s0を抽出する。なお、本実施形態では任意の一つの成分を抽出するとするが、これに限定されず、任意の二個、三個などの成分を抽出するようにしてもよい。
量子化部15は、前記直交変換係数の成分s0の直交変換係数XSS[s0]を有限ビット長で表現することにより、音声特徴量F[i]を下記の(1)式で得る。
F[i]=round{XSS[s0]/2n}・・・(1)
ここに、round()は四捨五入の関数であり、nは音声特徴量F[i]のビット長を決めるために選択される値である。
F[i]=round{XSS[s0]/2n}・・・(1)
ここに、round()は四捨五入の関数であり、nは音声特徴量F[i]のビット長を決めるために選択される値である。
上記の(1)式は得られた直交変換係数に対して丸めを行う処理を意味し、この丸め処理により、音声特徴量の情報量は、1係数当たり数ビットに抑制されるため、特徴量データの伝送回線の帯域を減らすことが可能になる。
以上のようにして、特徴量抽出装置4で得られた音声特徴量F1[i]は、データ回線を経て前記特徴量比較・劣化尺度計算装置6(図1参照)に送られる。また、同様にして特徴量抽出装置5で得られた音声特徴量F2[i]は、データ回線を経て前記特徴量比較・劣化尺度計算装置6に送られる。なお、前記音声特徴量F1[i]およびF2[i]は伝送遅延等の時間差を補償された、音声信号の同一部分の特徴量であるとする。
特徴量比較・劣化尺度計算装置6では、送受信側から送られてきた音声特徴量F1[i]およびF2[i]から、劣化尺度を近似する。該劣化尺度の推定値ERRは下記の(2)式で求められる。
ここに、NF=L/Mである。
前記音声特徴量F1[i]およびF2[i]は、前記絶対値・対数変換部11で対数変換された値に基づく値であるから、|F1[i]−F2[i]|は、音声信号のダイナミックレンジが広くても、劣化尺度を精度良く表現するものである。
最後に、得られた劣化尺度の推定値ERRを基に、該劣化尺度の推定値ERRと劣化尺度の真値EFRの相関関係から障害の有無を判定する。該推定値ERRと真値EFRの相関関係は、例えば図4のように表される。なお、劣化尺度の真値EFRは、下記の(3)式で表されるものである。該(3)式は差分平均値を用いて求めるものであるが、これに変えて差分自乗平均値を用いて求めても良い。
図4から明らかなように、劣化尺度の推定値ERRは、その値が大きいほど劣化尺度の真値EFRは大きくなる。真値EFRに図示のような閾値Thを設定しておき、推定値ERRの真値EFR換算値が該閾値Thを越えるか否かで、障害の有無を判定する。該閾値Thは、機器の構成や圧縮符号化の有無、デコーダのコンシールメントの性質などに依存して設定するのが好適である。
図5は、本発明が適用される他の音声伝送系のシステム図を示す。図5において、図1と同一または同等物には同一の符号が付されている。この音声伝送系のシステムは、送信側符号化装置1で符号化された信号を送信側復号装置7で復号して、特徴量抽出装置4で音声信号の特徴量を抽出するようにした点に特徴がある。
図5のシステムは、伝送障害が発生しない場合には、送信側および受信側の特徴量抽出装置4、5の入力信号が同一となり、それゆえ、(2)式および(3)式で定義される劣化尺度が0となる。よって、当該劣化尺度が0またはそれに近い値でなければ、伝送障害が発生していると判定することができる。すなわち、前記の閾値Thの決定が容易な構成といえる。一方、図1のシステムでは、(2)式および(3)式で定義される劣化尺度は送信側符号化装置1の符号化誤差を含んだものとなるため、閾値Thは、前記の符号化誤差分を考慮した上で決定しなければならない。よって、図5のシステムは、閾値Thの設定の容易さという点で、図1のシステムより優れているということができる。
以上の説明から明らかなように、本発明によれば、限られた情報量の音声特徴量から音声障害を検出することが可能になる。
次に、本発明者は、本発明の効果を確認するために、図6に示す伝送系を構成し、映像信号および音声信号からなるTV素材を120秒間伝送する実験を行った。
送信側符号化装置21(以下、エンコーダ21と呼ぶ)で符号化されたTV素材は、IPマルチキャストにより送信側復号装置23(以下、デコーダ23と呼ぶ)と受信側復号装置22(以下、デコーダ22と呼ぶ)に伝送される。また、伝送路上に伝送障害発生部27を設け、45秒、80秒、92秒および106秒において、それぞれ1秒間の瞬断を発生させた。明らかなように、デコーダ23は常にIPパケットロスなしで受信可能であり、デコーダ22は伝送障害を受けた信号を受信する。
音声信号は、送信側のエンコーダ21において、MPEG-1 Audio Layer2という圧縮方式で圧縮され伝送される。フォーマットは、リニアPCM、サンプリング周波数48kHz、16ビット/サンプルで、ビットレートは192kbps(ステレオ)である。
本実験では、劣化尺度EFRは4096サンプル毎に求められ(L=4096)、音声特徴量128サンプル毎に抽出される(M=128)。つまり、1系統当たり4096/128=32個の特徴量から劣化尺度EFRが推定されることになる。
また、特徴量の丸めパラメータnを調節することにより、1つの特徴量当たりの情報量を2,3,4,および5ビットにそれぞれ固定した。サンプリング周波数が48kHz、特徴量抽出のセグメント長が128サンプルであるため、1秒当たりのセグメント数は48000/128=375となり、2ビット特徴量の情報量は375×2=750bpsとなり、3,4および5ビットの場合にはそれぞれ1125,1500および1875bpsとなる。
まず、劣化尺度EFRにより、正確に劣化を検出できるかどうかを検討する。図7は、劣化尺度EFRを時系列に表したものである。前記した通り、45秒、80秒、92秒および106秒の付近でEFRの値が高くなっているのが分かる(45秒目の障害のみ障害が長引いているのは、デコーダ22の出力が不安定になっているからと考えられる)。ここで、閾値としてEFR=1.0を設定すると、劣化発生時のみ障害と判定可能であり、これら以外の時間帯では誤検出が発生しないことが分かる。以上により、劣化尺度EFRが劣化検出のための尺度として適当であることが確認された。
次に、音声特徴量から劣化尺度EFRを推定する。劣化尺度EFRの妥当性は上記の通り示されているため、ここで、高い精度で音声特徴量から劣化尺度EFRを推定できれば、本発明の効果が確認できることになる。
特徴量1係数当たりの情報量(ビット数)毎の劣化尺度ERRと真の劣化尺度EFRとの相関について調べると、図8のようになった。一例として、特徴量のビット数5ビットの場合の両者の相関を示すと、図9のようになった。横軸が特徴量に基づく推定値、縦軸が真の劣化尺度である。
この結果より、音声特徴量を2ビットで表現した場合でも、劣化尺度EFRを0.952の相関で推定することが可能であることが分かる。また、この時の特徴量の情報量は、750bit/秒と1kbpsにも満たない程度の情報量であり、監視回線(データ回線)への影響は殆どないといえる。以上により、本発明の効果が確認できる。
1・・・送信側符号化装置(エンコーダ)、2・・・伝送路、3・・・受信側復号装置(デコーダ)、4,5・・・特徴量抽出装置、6・・・特徴量比較・劣化尺度計算装置、7・・・送信側復号装置(デコーダ)
Claims (4)
- 複数の伝送装置の縦列接続からなる伝送路上の音声障害を検出する音声障害検出装置において、
前記伝送路上の複数地点において、音声信号の特徴量を抽出する特徴量抽出手段と、
該特徴量抽出手段により得られた特徴量により、音声信号の劣化尺度を計算する劣化尺度計算部とを具備し、
前記特徴量抽出手段は、音声信号の有限個のサンプル数毎にセグメント分割された音声信号に対してスペクトル拡散と直交変換を行う手段と、該手段により得られた直交変換係数のうちの所与の1つまたは複数の係数に対して量子化を行う手段とからなることを特徴とする音声障害検出装置。 - 請求項1に記載の音声障害検出装置において、
前記特徴量抽出手段は、さらに、音声信号の絶対値の対数を取る手段を有し、該手段を前記スペクトル拡散と直交変換を行う手段の前段に接続することを特徴とする音声障害検出装置。 - 請求項1または2に記載の音声障害検出装置において、
前記劣化尺度計算部は、前記伝送路上の複数地点の特徴量抽出手段から得られた音声特徴量の差分平均値または差分自乗平均値を求める手段と、
該求められた音声特徴量の差分平均値または差分自乗平均値を基に音声信号の差分電力を推定する手段とを具備し、
該差分電力の推定値を閾値処理することにより、音声障害を検出することを特徴とする音声障害検出装置。 - 請求項1ないし3のいずれかに記載の音声障害検出装置において、
前記複数の伝送装置は、送信側符号化装置と、伝送路を介して接続された受信側復号装置であり、
前記特徴量抽出手段は、前記送信側符号化装置の出力をデコードする送信側復号装置からの出力を入力とする第1の特徴量抽出手段と、前記受信側復号装置からの出力を入力とする第2の特徴量抽出手段とからなることを特徴とする音声障害検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348483A JP2006157789A (ja) | 2004-12-01 | 2004-12-01 | 音声障害検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348483A JP2006157789A (ja) | 2004-12-01 | 2004-12-01 | 音声障害検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006157789A true JP2006157789A (ja) | 2006-06-15 |
Family
ID=36635478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004348483A Pending JP2006157789A (ja) | 2004-12-01 | 2004-12-01 | 音声障害検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006157789A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010056625A (ja) * | 2008-08-26 | 2010-03-11 | Kddi Corp | 音声障害検出装置および音声自動切替装置 |
CN110261080A (zh) * | 2019-06-06 | 2019-09-20 | 湃方科技(北京)有限责任公司 | 基于多模态数据的异构旋转型机械异常检测方法及*** |
CN112542033A (zh) * | 2020-11-09 | 2021-03-23 | 蚌埠依爱消防电子有限责任公司 | 一种基于声音识别的消防声光报警器故障检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261799A (ja) * | 1994-03-18 | 1995-10-13 | Pioneer Electron Corp | 直交変換符号化装置及び方法 |
JP2004260602A (ja) * | 2003-02-26 | 2004-09-16 | Kddi Corp | 画像劣化自動検出装置 |
-
2004
- 2004-12-01 JP JP2004348483A patent/JP2006157789A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261799A (ja) * | 1994-03-18 | 1995-10-13 | Pioneer Electron Corp | 直交変換符号化装置及び方法 |
JP2004260602A (ja) * | 2003-02-26 | 2004-09-16 | Kddi Corp | 画像劣化自動検出装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010056625A (ja) * | 2008-08-26 | 2010-03-11 | Kddi Corp | 音声障害検出装置および音声自動切替装置 |
JP4656542B2 (ja) * | 2008-08-26 | 2011-03-23 | Kddi株式会社 | 音声障害検出装置および音声自動切替装置 |
CN110261080A (zh) * | 2019-06-06 | 2019-09-20 | 湃方科技(北京)有限责任公司 | 基于多模态数据的异构旋转型机械异常检测方法及*** |
CN112542033A (zh) * | 2020-11-09 | 2021-03-23 | 蚌埠依爱消防电子有限责任公司 | 一种基于声音识别的消防声光报警器故障检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4560269B2 (ja) | 無音検出 | |
JP4991743B2 (ja) | オーディオコーディングのためのエンコーダ支援フレーム損失隠蔽技術 | |
TWI420513B (zh) | 藉由變換內插之音訊封包損失隱蔽 | |
CN101790756B (zh) | 瞬态检测器以及用于支持音频信号的编码的方法 | |
EP2256723B1 (en) | Encoding method and apparatus | |
JP2011013560A (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
JPH0856163A (ja) | 適応的デジタルオーディオ符号化システム | |
JP5633431B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP5395250B2 (ja) | 音声コーデックの品質向上装置およびその方法 | |
KR100972349B1 (ko) | Ltp 부호화 시스템에서 피치 래그를 결정하기 위한시스템 및 방법 | |
RU2445737C2 (ru) | Способ передачи данных в системе связи | |
KR100668319B1 (ko) | 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치 | |
JP2006157789A (ja) | 音声障害検出装置 | |
CA2423861C (en) | Method for synchronizing digital signals | |
JP2008203315A (ja) | オーディオ符号化・復号化装置、方法、及びソフトウェア | |
CN101751928B (zh) | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 | |
US9124389B2 (en) | Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal | |
JP5379871B2 (ja) | オーディオ符号化のための量子化 | |
Piotrowski | Drift correction modulation scheme for digital audio watermarking | |
US20160019903A1 (en) | Optimized mixing of audio streams encoded by sub-band encoding | |
KR20100009642A (ko) | 복호 장치, 복호 방법, 및 컴퓨터 판독가능한 기록매체 | |
US20040133420A1 (en) | Method of analysing a compressed signal for the presence or absence of information content | |
Kim et al. | Underwater acoustic sensor array signal lossless compression based on valid channel decision approach | |
Lorkiewicz et al. | Algorithm for real-time comparison of audio streams for broadcast supervision | |
JPS63128823A (ja) | エコ−サプレツサ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100409 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100728 |