JP2017097233A

JP2017097233A - 異常音検出装置、方法及びプログラム

Info

Publication number: JP2017097233A
Application number: JP2015230863A
Authority: JP
Inventors: 隆朗福冨; Takaaki Fukutomi; 学岡本; Manabu Okamoto
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-11-26
Filing date: 2015-11-26
Publication date: 2017-06-01
Anticipated expiration: 2035-11-26
Also published as: JP6546077B2

Abstract

【課題】従来よりも安定して異常音を検出することができる技術を提供する。
【解決手段】異常音検出装置は、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部１と、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る音声認識部２と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部３と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての算出された特徴量の集合とN個の発話とは異なるM個の発話についての算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部４、を備えている。
【選択図】図１

Description

この発明は、音声信号から異常音を検出する技術に関する。

対話システムを用いた異常音の検出技術が知られている。対話システムは、入力音声を音声認識技術によりテキスト化し、得られたテキストに対して応答を返す。多くのタスクの決まった対話システムでは、入力（認識結果）と予め用意した発話意図コーパスとを照合することで、入力の意図を理解し、適した応答を生成する（例えば、非特許文献１参照。）。

入力音声に異常音が含まれている場合には、音声認識が精度良く動作しなくなるため、対話処理が失敗する可能性が高まる。このため、対話処理失敗をもって異常音が発生していることを推測できる。

入江友紀、外４名、「意図タグつきコーパスを用いた発話意図推定手法」、人工知能学会、言語・音声理解と対話処理研究会 38, 7-12, 2003-07-04

しかしながら、入力音声に異常音が含まれていないときであっても、何らかの原因で音声認識の精度が悪くなる場合がある。音声対話処理結果のみを用いると、この場合にも異常音が発生していると推測する可能性がある。したがって、音声対話処理結果のみを用いると、処理失敗（認識失敗）の原因が異常音であることが特定できず、システム管理者に適切なフィードバックができない可能性がある。

この発明の目的は、従来よりも安定して異常音を検出することができる異常音検出装置、方法及びプログラムを提供することである。

この発明の一態様による異常音検出装置は、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部と、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る音声認識部と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての算出された特徴量の集合とN個の発話とは異なるM個の発話についての算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部と、を備えている。

この発明の一態様による異常音検出装置は、各発話の音声信号について音声認識を行い各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識部と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての得られた特徴量の集合とN個の発話とは異なるM個の発話についての得られた特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部と、を備えている。

対話処理結果と特徴量の算出結果とを統合的に用いることにより、従来よりも安定して異常音の検出を行うことができる。

異常音検出装置の例を説明するためのブロック図。異常音検出方法の例を説明するための流れ図。対話処理結果の例を示す図。異常音判断部の処理の例を説明するための流れ図。異常音判断部の処理の例を説明するための図。異常音判断部の処理の例を説明するための図。異常音検出装置の例を説明するためのブロック図。

［異常音検出装置及び方法］
以下、図面を参照して、異常音検出装置及び方法の一実施形態について説明する。

異常音検出学習装置は、図１に示すように、特徴量算出部１、音声認識部２、音声対話処理部３及び異常音判断部４を例えば備えている。異常音検出装置の各部が、以下に説明する各ステップの処理を例えば行うことにより、異常音検出方法が実現される。

＜特徴量算出部１＞
特徴量算出部１は、入力された各発話の音声信号についての所定の特徴量を算出する（ステップＳ１）。算出された特徴量は、異常音判断部４に出力される。

例えば、予め音声と非音声のガウス混合分布モデル（GMM）を定義しておく。入力された所定の短時間のフレームごとにモデルに対応した特徴量を抽出し、抽出した特徴量を用いてGMMの尤度計算を行い、音声GMMの尤度及び非音声GMMの尤度を計算する。音声GMMの尤度と非音声GMMの尤度の比から、音声区間の開始・終了を判別する。そして、音声区間全体の音声GMMの累積尤度を特徴量として用いることができる。

x_iをフレームiの特徴量とし、Model_speechを予め定義された音声GMMとし、Model_noiseを予め定義された非音声GMMとすると、P_s(x_i|Model_speech)をフレームiの音声GMMの尤度とし、P_n(x_i|Model_noise)をフレームiの非音声GMMの尤度とすると、フレームiの音声GMMの尤度と非音声GMMの尤度の比L(x_i)は、例えば以下の式のように定義することができる。

L(x_i)が所定の閾値θ以上の場合にはフレームiは音声区間と判断することができ、L(x_i)が所定の閾値θより小さい場合にはフレームiは非音声区間と判断することができる。

音声判定区間全体の音声GMMの累積尤度は、例えば以下の式により定義される、音声区間と判定されたフレームの音声GMMの平均値である。以下の式において、n_speechは、音声区間と判定されたフレームの個数である。

音声判定区間全体の音声GMMの累積尤度を、例えば以下の式により定義される、入力された発話の音声信号のフレームL(x_i)の平均値であってもよい。以下の式において、n_allは、入力された発話の音声信号のフレームの個数である。

＜音声認識部２＞
音声認識部２は、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る（ステップＳ２）。得られた音声認識結果は、音声対話処理部３に出力される。

音声認識は、既存の技術を用いればよい。

＜音声対話処理部３＞
音声対話処理部３は、各発話の音声認識結果に所定の発話意図が含まれているか判断する（ステップＳ３）。

音声対話処理部３は、公知の技術を用いて、音声認識結果に対して発話意図理解を行い、対話システムが想定する発話意図が含まれているか、含まれていないかの情報を出力する。例えば、観光案内のための音声対話システムであれば、音声認識結果から、観光値に関する名所の名前や食事、交通機関等に関するキーワードや表現が検出された場合は音声対話システムが想定する発話意図が含まれていると判断する。発話意図につながるキーワードや表現が含まれていない場合には発話意図が含まれていない、意図が検出できなかった、と判断する。これらの発話意図を理解するためのキーワードや表現の情報は発話意図コーパスとして、音声対話システム構築者が事前に準備しておく。

例えば図３に示すように、出力する音声対話処理結果は、発話意図が含まれている場合は「1」、含まれていない、または見つけられない場合は「0」などの数値で表現してもよい。

＜異常音判断部４＞
異常音判断部４は、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された特徴量の集合とN個の発話とは異なるM個の発話についての上記算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する（ステップＳ４）。

ステップＳ４の処理は、ステップＳ４１からステップＳ４３の処理から構成される（図４参照）。

異常音判断部４には、特徴量算出部１及び音声対話処理部３からの入力値が蓄積されている。異常音判断部４は、音声対話処理部３の音声対話処理結果が2N個(2N発話)以上蓄積されているか判断する（ステップＳ４１）。音声対話処理結果が2N個以上蓄積されていない場合は、正常時の特徴量が判定できないため、異常音なしとして処理を終了する。ここで、Nの値は、システムが正常に動作していることを確認できる程度の発話数を指定すればよく、20程度でよい。

次に十分な対話処理結果が蓄積された場合には、最新のN個の対話処理結果を用いて、対話処理成功率Pを算出する。算出方法は、たとえば対話処理結果成功（発話意図を捉えられた）時を1、失敗（発話意図を捉えられなかった）時を0とし、P=n/Nとして算出する。ここで、nは最新のN個の対話処理結果のうち、成功したものの数である。異常音判断部４は、算出した対話処理成功確率Pとある閾値Θとを比較する（ステップＳ４２）。算出した対話処理成功確率Pが、ある閾値Θを上回っている場合又は以上の場合は、異常音なしとして処理を終了する。ここで、Θは、音声対話サービスを継続するために必要な成功率であり、通常の対話サービスであれば、0.80程度に設定すると良い。

算出した成功確率PがΘを下回った又は以下の場合、異常音判断部４は、N個の特徴量の集合U_newと、上記N個の集合とは異なるM個(例えば、M≧N)分の特徴量の集合U_oldとの間に有為差がないか検定を行う（ステップＳ４３）。

２つの特徴量集合間に統計的に有為差があると検定された場合に、異常音を検出したとみなし、処理を終了する。有為差の検定方法としては、例えば、Welchのt検定等を用いる方法や前後のデータ系列を別々に自己回帰モデルや多項式回帰モデルなどの時系列モデルを当てはめた場合と前後のデータ系列をすべて当てはめた場合とで誤差を算出し、誤差について統計的な有為性を判定する方法などを用いるとよい。

図５では、N個の特徴量の集合U_newは直近の連続するN個の特徴量の集合であり、M個の特徴量の集合U_newは、N個の特徴量の集合U_newに隣接する連続するM個の特徴量の集合である。しかし、これは一例に過ぎず、N個の特徴量の集合U_newとM個の特徴量の集合U_oldとが異なれば、これらの集合はどのようなものであってもよい。

例えば、図６のように、M個の特徴量の集合U_oldが、N個の特徴量の集合と隣接しない連続するM個の特徴量の集合であってもよい。例えば、M個の特徴量の集合U_oldを、システム起動当初のM個の特徴量の集合とし、以降は最新のN個の特徴量の集合U_newに隣接する連続するM個の特徴量の集合としてもよい。また、N個の特徴量の集合U_newは直近の連続するN個の特徴量の集合でなくてもよい。さらに、例えば蓄積された発話量Kが2Nに満たない場合(N<K<2N)においては、N個の特徴量の集合U_newの一部が、M個の特徴量の集合と共通していてもよい。

［プログラム及び記録媒体］
異常音検出装置における各処理をコンピュータによって実現する場合、異常音検出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

［変形例］
なお、図７に例示するように、異常音検出装置は、特徴量算出部１を有していなくてもよい。この場合、音声認識部２は、各発話の音声信号について音声認識を行い各発話の音声認識結果及びその音声認識結果の信頼度を得て、異常音判断部４に出力される。言い換えれば、音声認識部２の音声認識処理の過程で生じた信頼度が「特徴量」として、異常音判断部４に出力される。例えば、ある発話についての音声認識処理の過程で生じた信頼度の平均値を、その発話の特徴量とする。異常音判断部４は、この信頼度を特徴量として用いて上記と同様の処理により異常音の判断処理を行う。

異常音検出装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１特徴量算出部
２音声認識部
３音声対話処理部
４異常音判断部

Claims

入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部と、
上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果を得る音声認識部と、
上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、
N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された特徴量の集合と上記N個の発話とは異なるM個の発話についての上記算出された特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断部と、
を含む異常音検出装置。
上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識部と、
上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、
N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記得られた特徴量の集合と上記N個の発話とは異なるM個の発話についての上記得られた特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断部と、
を含む異常音検出装置。
特徴量算出部が、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出ステップと、
音声認識部が、上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果を得る音声認識ステップと、
音声対話処理部が、上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理ステップと、
異常音判断部が、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された所定の特徴量の集合と上記N個の発話とは異なるM個の発話についての上記算出された所定の特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断ステップと、
を含む異常音検出方法。
音声認識部が、上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識ステップと、
音声対話処理部が、上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理ステップと、
異常音判断部が、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記得られた特徴量の集合と上記N個の発話とは異なるM個の発話についての上記得られた特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断ステップと、
を含む異常音検出方法。
請求項１又は２の異常音検出装置の各部としてコンピュータを機能させるためのプログラム。