JP7304301B2

JP7304301B2 - 音響診断方法、音響診断システム、及び音響診断プログラム

Info

Publication number: JP7304301B2
Application number: JP2020017101A
Authority: JP
Inventors: 佳小里末房; 洋平川口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2023-07-06
Anticipated expiration: 2040-02-04
Also published as: JP2021124887A

Description

本発明は、音響診断方法、音響診断システム、及び音響診断プログラムに関する。

設備の異常や故障予兆などの状態は、音に現れることが多い。そこで、設備の状態を把握するために、設備の稼働音に基づく音響診断は重要である。音響診断では、稼働音の本質的な特徴を埋め込んだ特徴抽出方法が求められる。

設備の状態を音響診断する方法として、特許文献１には、「昇降機診断システムは、計測データ（センサデータ）から特徴量を求め、診断対象となる昇降機の計測データに基づき当該昇降機の運転状態を特定し、診断対象の昇降機の種別又は識別子と当該昇降機について特定した運転状態との組み合わせに対応する、正常モデルと診断用閾値との組み合わせを選択し、診断対象の昇降機について取得した計測データから求めた特徴量と正常モデルとに基づき、特徴量が正常状態で観測される確率を求め、求めた確率を診断対象の昇降機について取得した閾値と比較することにより昇降機の状態を診断する。昇降機診断システムは、例えば、複雑度の異なる複数の正常モデルを学習し、学習した複数の正常モデルのうち複雑度が最小のものを選択する。」と記載されている。

特開２０１８-９５４２９号公報

上述の特許文献１に開示された技術は、音響センサで計測した信号そのものから特徴量を抽出し、学習済みの正常モデルに入力することで設備の状態を推定する。しかしながら、この従来技術では、対象設備音の周波数構造が時間変化する場合、または、環境雑音が大きい場合、特徴量空間が複雑になることから、大量の学習データを要したり、精度よく状態推定ができなかったりするという問題がある。

本発明は、上述の点を考慮してなされたものであって、設備の状態を診断する音響診断において、大量の学習データを要さず、精度よく状態推定し得るようにすることを１つの目的とする。

上記課題を解決するために、本発明においては、一態様として、音響診断システムが実行する音響診断方法は、診断対象設備の稼働音を含む入力音を取得する入力音取得工程と、前記入力音のスペクトログラムを計算する前処理工程と、前記スペクトログラムを、調波音－突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成工程と、前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程とを含むようにした。

本発明によれば、例えば、設備の状態を診断する音響診断において、大量の学習データを要さず、精度よく状態推定できる。

実施形態１に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。実施形態１に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。実施形態１に係る音響診断システムの状態推定実行時の構成を示すブロック図である。実施形態１に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。実施形態２に係る音響診断システムの正常音モデルの学習時の構成を示すブロック図である。実施形態２に係る音響診断システムの異常検知実行時の構成を示すブロック図である。実施形態３に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。実施形態３に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。実施形態３に係る音響診断システムの状態推定実行時の構成を示すブロック図である。実施形態３に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。実施形態４に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。実施形態４に係る音響診断システムの状態推定モデルの学習時の処理を示すフローチャートである。実施形態４に係る音響診断システムの状態推定実行時の構成を示すブロック図である。実施形態４に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。実施形態５に係る音響診断システムの状態推定モデルの学習時の構成を示すブロック図である。実施形態５に係る音響診断システムの状態推定実行時の構成を示すブロック図である。音響診断システムを実現するコンピュータのハードウェア構成を示す図である。

以下、本発明の好適な実施形態を説明する。以下において、同一又は類似の要素及び処理に同一の符号を付し、重複説明を省略する。また、後出の実施形態では、既出の実施形態との差異のみを説明し、重複説明を省略する。

また、以下の説明及び各図で示す構成及び処理は、本発明の理解及び実施に必要な程度で実施形態の概要を例示するものであり、本発明に係る実施の態様を限定することを意図する趣旨ではない。また、各実施形態及び各変形例は、本発明の趣旨を逸脱せず、整合する範囲内で、一部又は全部を組合せることができる。

［実施形態１］
＜実施形態１の音響診断システム１の状態推定モデルの学習時の構成＞
図１は、実施形態１に係る音響診断システム１の状態推定モデルの学習時の構成を示すブロック図である。音響診断システム１は、状態推定モデルの学習時の構成として、入力音取得部１１、前処理部１２、調波音－突発音音源分離部１３、ベクトル連結部１４、状態推定モデル学習部１５、及び状態推定モデルデータベース１６を有する。

入力音取得部１１は、マイクロホンを介して取得又は収録された音響診断対象の設備の稼働音を含むアナログ入力音をデジタル入力音（時間領域デジタル入力音）に変換する。

前処理部１２は、入力音取得部１１によって変換されたデジタル入力音をフレームごとに分割し、そのフレームに窓関数を乗算し、この窓関数乗算後信号にフーリエ変換を施して、周波数領域信号を計算する。周波数領域信号の計算では、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）、短時間フーリエ変換（ＳＴＦＴ：Short-Time Fourier Transform）などの他、他の周波数解析手法が用いられてもよい。

前処理部１２によって計算された周波数領域信号は、フレームサイズがＮであれば、（Ｎ／２＋１）＝Ｍ個の周波数ビンそれぞれに１個の複素数が対応する、Ｍ個の複素数の組である。さらに、前処理部１２は、周波数領域信号から入力音スペクトログラム（パワースペクトログラム又は振幅スペクトログラム）を計算する。

調波音-突発音音源分離（ＨＰＳＳ:Harmonic/Percussive Sound Separation)部１３は、前処理部１２によって計算された入力音スペクトログラムを調波音成分と突発音成分に分離する。ＨＰＳＳとしては、メディアンフィルタを利用したもの（Fitzgerald, D. (2010). Harmonic/Percussive Separation using Median Filtering. 13th International Conference on Digital Audio Effects (DAFX10), Graz, Austria, 2010.）や、スペクトログラムの時間変化に基づくもの（橘秀幸, 小野順貴, 嵯峨山茂樹.(2009). スペクトルの時間変化に基づく音楽音響信号からの歌声成分の強調と抑圧. 研究報告音楽情報科学 (MUS), 2009(12), 1-6.）、スペクトログラムの滑らかさの異方性に基づくもの（Tachibana, H., Ono, N., Kameoka, H., & Sagayama, S. (2014). Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12), 2059-2073.）などを用いてよい。例えば、スペクトログラムの時間変化に基づくＨＰＳＳを利用する場合、目的関数は式（１）、制約条件は式（２）のように定義される。

ここで、入力信号、調波音成分、突発音成分のスペクトログラムをそれぞれＷ_ｔ,ｋ、Ｈ_ｔ,ｋ、Ｐ_ｔ,ｋと表記し、ｔとｋはそれぞれ時間インデックスと周波数インデックスを表す。

上記の最適化問題は、式（３）、式（４）を反復して求めることにより近似的に求められる。

ベクトル連結部１４は、調波音成分のベクトル（調波音スペクトログラム）と突発音成分のベクトル（突発音スペクトログラム）を連結し、特徴量ベクトルを生成する。状態推定モデル学習部１５は、ベクトル連結部１４によって得られた複数の特徴量ベクトルをもとにモデル学習し、学習した状態推定モデルを状態推定モデルデータベース１６に格納する。

なお、状態推定モデルとして、Support Vector Classifier（ＳＶＣ）、1-Class Support Vector Classifier、Multi-Class Support Vector Classifier、Hidden Markov Model（ＨＭＭ）、Nearest Neighbor Classifierなどを用いてよい。

＜実施形態１の状態推定モデルの学習処理＞
図２は、実施形態１に係る音響診断システム１の状態推定モデルの学習時の処理を示すフローチャートである。

ステップＳ１１では、入力音取得部１１は、マイクロホンを介して取得又は収録された、音響診断対象の設備の稼働音を含む学習用のアナログ入力音を、デジタル入力音（時間領域デジタル入力音）に変換する。

次にステップＳ１２では、前処理部１２は、入力音取得部１１によって変換されたデジタル入力音をフレームごとに分割する。次にステップＳ１３では、前処理部１２は、ステップＳ１２で分割されたフレームに窓関数を乗算する。次にステップＳ１４では、前処理部１２は、ステップＳ１３での窓関数乗算後信号にフーリエ変換を施して、周波数領域信号を計算する。次にステップＳ１５では、前処理部１２は、ステップＳ１４で計算された周波数領域信号から入力音スペクトログラムを計算する。

次にステップＳ１６では、調波音－突発音音源分離部１３は、前処理部１２によって計算された入力音スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。次にステップＳ１７では、ベクトル連結部１４は、調波音スペクトログラムと突発音スペクトログラムをベクトル連結した特徴量ベクトルを生成する。次にステップＳ１８では、状態推定モデル学習部１５は、ベクトル連結部１４によって得られた特徴量ベクトルをもとに状態推定モデルを学習し、状態推定モデルデータベース１６に格納する。

＜実施形態１の音響診断システム１の状態推定実行時の構成＞
図３は、実施形態１に係る音響診断システム１の状態推定実行時の構成を示すブロック図である。音響診断システム１は、状態推定実行時の構成として、入力音取得部１１、前処理部１２、調波音－突発音音源分離部１３、ベクトル連結部１４、状態推定モデルデータベース１６、状態推定部２１、及び状態推定結果出力部２２を有する。

状態推定部２１は、状態推定モデルデータベース１６から状態推定モデルを読み出し、ベクトル連結部１４で生成された特徴量ベクトルを入力として状態推定処理を実行する。すなわち、状態推定部２１は、連続するＬフレームからなる特徴量ベクトルの時系列を計算し、特徴量ベクトルから推定される各状態クラスに対しその時系列がどの程度の確率で生成されうるかを計算する。

状態推定結果出力部２２は、状態推定部２１による推定結果を出力する。例えば、状態推定結果出力部２２は、各状態クラスと、対応する確率とを出力してもよいし、最大確率の状態クラスを出力してもよい。

＜実施形態１の状態推定実行時処理＞
図４は、実施形態１に係る音響診断システム１の状態推定実行時の処理を示すフローチャートである。本処理において、ステップＳ１１では、入力音取得部１１は、マイクロホンを介して取得又は収録された、音響診断対象の設備の稼働音を含む診断用のアナログ入力音を、デジタル入力音（時間領域デジタル入力音）に変換する。

また、ステップＳ１７に続きステップＳ２１では、状態推定部２１は、状態推定モデルデータベース１６から読み出した状態推定モデルをもとに、ベクトル連結部１４で生成された特徴量ベクトルを入力として状態推定処理を実行する。次にステップＳ２２では、状態推定結果出力部２２は、ステップＳ２１で推定された状態推定結果を出力する。

＜実施形態１の効果＞
本実施形態によれば、機械等の人工の設備音は本質的に調波音成分と突発音成分のどちらかに属すると仮定できるため、調波音-突発音音源分離（ＨＰＳＳ）を利用することにより、対象音が複雑な場合であっても状態推定に効果的な特徴量を得ることができる。

また、対象音の特徴が対象の状態により異なる場合（例えば、正常状態では定常状態であった音が異常状態では非定常音に変化するように、調波音成分及び突発音成分の分布が変化する場合など）であっても、ＨＰＳＳにより分離した調波音成分と突発音成分のベクトルを結合することで、変化に対応可能な特徴量を得ることができ、異音検知精度を高めることができる。

［実施形態２］
＜実施形態２の音響診断システム１Ｂの状態推定モデルの学習時の構成＞
図５は、実施形態２に係る音響診断システム１Ｂの正常音モデルの学習時の構成を示すブロック図である。音響診断システム１Ｂは異常検知システムであり、実施形態１との違いは、音響診断により推定する設備の状態を正常か異常の二つに限定している点である。このため、音響診断システム１Ｂは、正常音モデルの学習時の構成として、音響診断システム１と比較して、状態推定モデル学習部１５及び状態推定モデルデータベース１６のそれぞれに代えて、正常音モデル学習部１５Ｂ及び正常音モデルデータベース１６Ｂを有する。

正常音モデル学習部１５Ｂは、ベクトル連結部１４によって得られた複数の特徴量ベクトルをもとに、連続するＬフレームからなる特徴量ベクトルの正常時の分布をモデル学習し、学習した正常音モデルを正常音モデルデータベース１６Ｂに格納する。

なお、正常音モデルとして、混合ガウス分布（ＧＭＭ）、１クラスサポートベクター分類器、部分空間法、局所部分空間法、k-meansクラスタリング、Deep Neural Network（ＤＮＮ） autoencoder、Convolutional Neural Network（ＣＮＮ） autoencoder、Long Short Term Memory（ＬＳＴＭ） autoencoder、variational autoencoder（ＶＡＥ）などを用いてよい。

各正常音モデルには、それぞれのモデルに適したアルゴリズムが知られており、それを用いて学習する。例えば、ＧＭＭであればＥＭアルゴリズムにより、あらかじめ定めたクラスタ数の個数だけのガウス分布の組み合わせによる当てはめがなされる。学習された正常音モデルは、算出されたモデルパラメタによって規定される。そのモデルパラメタ全てを正常音モデルデータベース１６Ｂに格納される。

＜実施形態２の音響診断システム１Ｂの状態推定実行時の構成＞
図６は、実施形態２に係る音響診断システム１Ｂの異常検知実行時の構成を示すブロック図である。音響診断システム１Ｂは、状態推定実行時の構成として、音響診断システム１と比較して、状態推定部２１、状態推定結果出力部２２、及び状態推定モデルデータベース１６のそれぞれに代えて、異常検知部２１Ｂ、異常度出力部２２Ｂ、及び正常音モデルデータベース１６Ｂを有する。

異常検知部２１Ｂは、正常音モデルデータベース１６Ｂから正常音モデルを読み出し、診断対象スペクトログラムに対して状態推定処理を実行する。すなわち、連続するＬフレームからなる特徴量ベクトルの時系列を計算し、その時系列が正常音モデルから十分な確率で生成されうるかどうかを判定する。

異常検知部２１Ｂは、例えば、正常音モデルがＧＭＭの場合、Ｍ×Ｌ次元の特徴量ベクトルｖが正常音モデル（モデルパラメタΘ=((μ1，Γ1，π1)、・・・(μq，Γq，πq)、(μQ，ΓQ，πQ)）から生成される確率ｐ(ｖ｜Θ)を、式(５)、式（６）により計算する。

この場合、異常検知部２１Ｂは、例えば、確率p(v|Θ)の負の対数尤度“-log(p(v|Θ))”を推定異常度として出力する。

また、異常検知部２１Ｂは、正常音モデルとしてDeep Neural Network（ＤＮＮ） autoencoderを用いた場合は、学習時に、ＳＧＤ、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adamなどの最適化アルゴリズムによって、入力した正常音の特徴量ベクトルと出力される特徴量ベクトルとの間の復元誤差が所定値未満となるように内部パラメタが最適化される。よって、異常音の特徴量ベクトルを入力した場合、入力した異常音の特徴量ベクトルと出力される特徴量ベクトルとの間の復元誤差が所定値以上になることが期待される。よって、異常検知部２１Ｂは、この復元誤差を推定異常度として出力する。

異常度出力部２２Ｂは、推定異常度の値、及び、推定異常度の値が一定以上であれば異常である旨を出力する。

なお、実施形態２の音響診断システム１Ｂの状態推定モデルの学習時の処理では、実施形態１の音響診断システム１の状態推定モデルの学習時の処理（図２）において、ステップＳ１８で、正常音モデル学習部１５Ｂが、ベクトル連結部１４によって得られた特徴量ベクトルをもとに正常音モデルを学習し、正常音モデルデータベース１６Ｂに格納する。

また、実施形態２の音響診断システム１Ｂの状態推定実行時の処理では、実施形態１の音響診断システム１の状態推定実行時の処理（図４）において、ステップＳ２１で、異常検知部２１Ｂは、正常音モデルデータベース１６Ｂから読み出した状態推定モデルをもとに、ベクトル連結部１４で生成された特徴量ベクトルを入力として異常検知処理を実行する。また、ステップＳ２２では、異常度出力部２２Ｂは、ステップＳ２１Ｂで推定された異常検知結果を出力する。

＜実施形態２の効果＞
本実施形態によれば、診断対象音が正常音であるか異常音であるかを判別することができる。

［実施形態３］
＜実施形態３の音響診断システム１Ｃの状態推定モデルの学習時の構成＞
図７は、実施形態３に係る音響診断システム１Ｃの状態推定モデルの学習時の構成を示すブロック図である。本実施形態は、低頻度成分を雑音として除去することで状態推定精度を高めることを目的とする。音響診断システム１Ｃは、実施形態１と比較して、状態推定モデルの学習時の構成として、調波音－突発音音源分離部１３の前段に最近傍フィルタリング部１２Ｃを有し、低頻度な成分（音声、作業音、流水音などの突発的あるいは不規則な音）を不要な雑音として除去する点が異なる。

最近傍フィルタリング部１２Ｃは、前処理部１２によって出力された入力音スペクトログラムに対し最近傍フィルタをかけ、低頻度成分と高頻度成分に分離し、低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。調波音－突発音音源分離部１３は、最近傍フィルタリング部１２Ｃによって低頻度成分が除去された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。

＜実施形態３の状態推定モデルの学習処理＞
図８は、実施形態３に係る音響診断システム１Ｃの状態推定モデルの学習時の処理を示すフローチャートである。実施形態３に係る音響診断システム１Ｃの状態推定モデルの学習時の処理は、実施形態１に係る音響診断システム１の状態推定モデルの学習時の処理（図２）と比較して、次の点が異なる。

すなわち、ステップＳ１５に続きステップＳ１５Ｃでは、最近傍フィルタリング部１２Ｃは、前処理部１２によって出力された入力音スペクトログラムに対し最近傍フィルタをかけ、低頻度成分と高頻度成分に分離し、低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。ステップＳ１５Ｃに続きステップＳ１６では、調波音－突発音音源分離部１３は、最近傍フィルタリング部１２Ｃによって低頻度成分が除去された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。

＜実施形態３の音響診断システム１Ｃの状態推定実行時の構成＞
図９は、実施形態３に係る音響診断システム１Ｃの状態推定実行時の構成を示すブロック図である。音響診断システム１Ｃは、音響診断システム１と比較して、状態推定実行時の構成として、調波音－突発音音源分離部１３の前段に最近傍フィルタリング部１２Ｃを有する点が異なる。

＜実施形態３の音響診断システム１Ｃの状態推定実行時の処理＞
図１０は、実施形態３に係る音響診断システム１Ｃの状態推定実行時の処理を示すフローチャートである。実施形態３に係る音響診断システム１Ｃの状態推定実行時の処理は、実施形態１に係る音響診断システム１の状態推定実行時の処理（図４）と比較して、次の点が異なる。

すなわち、ステップＳ１５Ｃでは、最近傍フィルタリング部１２Ｃは、前処理部１２によって計算された入力音スペクトログラムに対し低頻度成分を除去した低頻度成分除去後スペクトログラムを出力する。次にステップＳ１６では、調波音－突発音音源分離部１３は、最近傍フィルタリング部１２Ｃによって出力された低頻度成分除去後スペクトログラムを調波音スペクトログラムと突発音スペクトログラムに分離する。

＜実施形態３の効果＞
本実施形態によれば、例えば診断対象の装置らしくない環境雑音と仮定できる低頻度の成分(音声、作業音、流水音など突発的あるいは不規則な音)を、ＨＰＳＳの前段のＮＮフィルタで雑音除去することで、対象音の特徴量の複雑さを低減し、特徴量に基づく音響診断の精度を向上させることができる。

［実施形態４］
本実施形態では、複数チャンネルのマイクロホンを介して取得又は収録された音声データを利用し、歪みの無いフィルタリングにより状態推定精度を高める。実施形態３と比較して、本実施形態では、診断に用いるデータを単チャンネルから複数チャンネルに拡張し、無歪のフィルタリングを実現する点で異なる。

＜実施形態４の音響診断システム１Ｄの状態推定モデルの学習時の構成＞
図１１は、実施形態４に係る音響診断システム１Ｄの状態推定モデルの学習時の構成を示すブロック図である。

音響診断システム１Ｄは、状態推定モデルの学習時の構成として、多チャンネル入力音取得部１１Ｄ、前処理部１２、最近傍フィルタリング部１２Ｃ、調波音－突発音音源分離部１３、ステアリングベクトル生成部１３Ｄ１，１３Ｄ６、雑音生成部１３Ｄ２，１３Ｄ７、空間共分散行列計算部１３Ｄ３，１３Ｄ８、フィルタ計算部１３Ｄ４，１３Ｄ９、フィルタリング部１３Ｄ５，１３Ｄ１０、ベクトル連結部１４、状態推定モデル学習部１５、及び状態推定モデルデータベース１６を有する。

多チャンネル入力音取得部１１Ｄは、複数チャンネルのマイクロホンで収録したアナログ入力音をデジタル入力音に変換する。

ステアリングベクトル生成部１３Ｄ１は、調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。また、ステアリングベクトル生成部１３Ｄ６は、突発音スペクトログラムを目的音としたときのステアリングベクトルを生成する。ステアリングベクトル生成部１３Ｄ１，１３Ｄ６は、図１１では、異なる構成として示しているが、単一の構成であってもよい。

雑音生成部１３Ｄ２は、調波音－突発音音源分離部１３によって分離された突発音スペクトログラムと、最近傍フィルタリング部１２Ｃによって分離された低頻度成分スペクトログラムを混合し、雑音を生成する。また、雑音生成部１３Ｄ７は、調波音－突発音音源分離部１３によって分離された調波音スペクトログラムと、最近傍フィルタリング部１２Ｃによって分離された低頻度成分スペクトログラムを混合し、雑音を生成する。雑音生成部１３Ｄ２，１３Ｄ７は、図１１では、異なる構成として示しているが、単一の構成であってもよい。

空間共分散行列計算部１３Ｄ３は、雑音生成部１３Ｄ２によって生成された雑音の空間共分散行列を求める。また、空間共分散行列計算部１３Ｄ８は、雑音生成部１３Ｄ７によって生成された雑音の空間共分散行列を求める。空間共分散行列計算部１３Ｄ３，１３Ｄ８は、図１１では、異なる構成として示しているが、単一の構成であってもよい。

フィルタ計算部１３Ｄ４は、調波音を目的音としたステアリングベクトルと突発音を雑音とした空間共分散行列から調波音を強調するフィルタを求める。また、フィルタ計算部１３Ｄ９は、突発音を目的音としたステアリングベクトルと調波音を雑音とした空間共分散行列から突発音を強調するフィルタを求める。フィルタの計算にはMinimum Variance distortionless Response（ＭＶＤＲ）などを用いてよい。フィルタ計算部１３Ｄ４，１３Ｄ９は、図１１では、異なる構成として示しているが、単一の構成であってもよい。

フィルタリング部１３Ｄ５は、多チャンネル入力音取得部１１Ｄによって取得された入力音に対し、フィルタ計算部１３Ｄ４によって計算された調波音を強調するフィルタを適用し、無歪の調波音成分を求める。また、フィルタリング部１３Ｄ１０は、多チャンネル入力音取得部１１Ｄによって取得された入力音に対し、フィルタ計算部１３Ｄ９によって計算された突発音を強調するフィルタを適用し、無歪の突発音成分を求める。フィルタリング部１３Ｄ５，１３Ｄ１０は、図１１では、異なる構成として示しているが、単一の構成であってもよい。

ベクトル連結部１４は、フィルタリング部１３Ｄ５によって計算された無歪の調波音成分と、フィルタリング部１３Ｄ１０によって計算された無歪の突発音成分を連結する。

＜実施形態４の音響診断システム１Ｄの状態推定モデルの学習時の処理＞
図１２は、実施形態４に係る音響診断システム１Ｄの状態推定モデルの学習時の処理を示すフローチャートである。実施形態４に係る音響診断システム１Ｄの状態推定モデルの学習時の処理は、実施形態３に係る音響診断システム１Ｃの状態推定モデルの学習時の処理（図８）と比較して、次の点が異なる。

ステップＳ１１Ｄでは、多チャンネル入力音取得部１１Ｄは、多チャンネルマイクロホンを介して取得又は収録された音響診断対象の設備の稼働音を含む学習用のアナログ入力音を、デジタル入力音（時間領域デジタル入力音）に変換する。

また、ステップＳ１６に続きステップＳ１６Ｄ１では、ステアリングベクトル生成部１３Ｄ１は調波音スペクトログラムを用いて調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。また、ステップＳ１６Ｄ１では、ステアリングベクトル生成部１３Ｄ６は突発音スペクトログラムを用いて突発音スペクトログラムを目的音としたときのステアリングベクトルを生成する。

また、ステップＳ１６に続きステップＳ１６Ｄ２では、雑音生成部１３Ｄ２が突発音スペクトログラムと低頻度成分スペクトログラムを混合して雑音を生成し、空間共分散行列計算部１３Ｄ３が雑音生成部１３Ｄ２によって生成された雑音の空間共分散行列を求める。また、ステップＳ１６Ｄ２では、雑音生成部１３Ｄ７は調波音スペクトログラムと低頻度成分スペクトログラムを混合して雑音を生成し、空間共分散行列計算部１３Ｄ８は雑音生成部１３Ｄ７によって生成された雑音の空間共分散行列を求める。

次にステップＳ１６Ｄ３では、フィルタ計算部１３Ｄ４は、ステアリングベクトル生成部１３Ｄ１によって生成されたステアリングベクトルと、空間共分散行列計算部１３Ｄ３によって計算された空間共分散行列から調波音を強調するフィルタを求める。また、ステップＳ１６Ｄ３では、フィルタ計算部１３Ｄ９は、ステアリングベクトル生成部１３Ｄ６によって生成されたステアリングベクトルと、空間共分散行列計算部１３Ｄ８によって計算された空間共分散行列から突発音を強調するフィルタを求める。

次にステップＳ１６Ｄ４では、フィルタリング部１３Ｄ５は、多チャンネル入力音取得部１１Ｄからの入力音に対してフィルタ計算部１３Ｄ４によって計算された調波音を強調するフィルタを適用することで、無歪の調波音成分を求める。また、ステップＳ１６Ｄ４では、フィルタリング部１３Ｄ１０は、多チャンネル入力音取得部１１Ｄからの入力音に対してフィルタ計算部１３Ｄ９によって計算された突発音を強調するフィルタを適用することで、無歪の突発音成分を求める。

次にステップＳ１７では、ベクトル連結部１４は、ステップＳ１６Ｄ４で求められた無歪の調波音成分及び無歪の突発音成分をベクトル連結する。

＜実施形態４の音響診断システム１Ｄの状態推定実行時の構成＞
図１３は、実施形態４に係る音響診断システム１Ｄの状態推定実行時の構成を示すブロック図である。音響診断システム１Ｄは、状態推定実行時の構成として、音響モデル学習時の構成と比較して、状態推定モデル学習部１５及び状態推定モデルデータベース１６のそれぞれに代えて、状態推定部２１、状態推定結果出力部２２、及び状態推定モデルデータベース１６を有する。

＜実施形態４の音響診断システム１Ｄの状態推定実行時の処理＞
図１４は、実施形態４に係る音響診断システムの状態推定実行時の処理を示すフローチャートである。実施形態４に係る音響診断システム１Ｄの状態推定実行時の処理は、状態推定モデルの学習時の処理（図１２）と比較して、ステップＳ１８に代えてステップＳ２１及びＳ２２が実行される点が異なる。

＜実施形態４の効果＞
本実施形態では、多チャンネルマイクロホンを用いて取得又は収録された音響診断対象の設備の稼働音を含む対象音を高頻度成分と低頻度成分とに分離し、高頻度成分をＨ成分（調波音成分）とＰ成分（突発音成分）に分離する。Ｈ成分のステアリングベクトルを生成し、Ｐ成分及び低頻度成分を用いてＨ成分に対する雑音の空間共分散行列を求める。また、Ｐ成分のステアリングベクトルを生成し、Ｈ成分及び低頻度成分を用いてＰ成分に対する雑音の空間共分散行列を求める。そして、これらのステアリングベクトル及び空間共分散行列を用いて対象音を強調するフィルタを生成し、フィルタリングすることで、異常検知の精度を高めることができる。

［実施形態５］
本実施形態では、ＨＰＳＳによって入力音が音源分離された調波音及び突発音の何れか一方を強調するフィルタを計算し、多チャンネルの対象音に対し、調波音及び突発音の何れか一方からステアリングベクトルを生成し、他方から空間共分散行列を生成し、調波音及び突発音の何れか一方を強調するフィルタリングを行って、状態推定精度を高める。

本実施形態は、目的音を調波音及び突発音の何れか一方に限定し、フィルタリング後のスペクトログラムのベクトルを連結しない点で実施形態４と異なる。特に、目的音が調波音及び突発音の何れであるかが明らかであり、設備の状態に関わらず目的音が調波音及び突発音の何れであるかが変化しない場合に、本実施形態は有効である。

＜実施形態５の音響診断システム１Ｅの状態推定モデルの学習時の構成＞
図１５は、実施形態５に係る音響診断システム１Ｅの状態推定モデルの学習時の構成を示すブロック図である。

音響診断システム１Ｅは、状態推定モデルの学習時の構成として、多チャンネル入力音取得部１１Ｄ、前処理部１２、最近傍フィルタリング部１２Ｃ、調波音－突発音音源分離部１３、ステアリングベクトル生成部１３Ｅ１、空間共分散行列計算部１３Ｅ２、フィルタ計算部１３Ｅ３、フィルタリング部１３Ｅ４、状態推定モデル学習部１５、及び状態推定モデルデータベース１６を有する。

ステアリングベクトル生成部１３Ｅ１は、調波音－突発音音源分離部１３によって入力音が分離された調波音スペクトログラムを用いて調波音スペクトログラムを目的音としたときのステアリングベクトルを生成する。空間共分散行列計算部１３Ｅ２は、突発音スペクトログラムから空間共分散行列を計算する。

フィルタ計算部１３Ｅ３は、調波音を目的音としたステアリングベクトルと突発音を雑音とした空間共分散行列から調波音を強調するフィルタを求める。フィルタリング部１３Ｅ４は、多チャンネル入力音取得部１１Ｄによって取得された入力音に対し、フィルタ計算部１３Ｅ３によって計算された調波音を強調するフィルタを適用し、無歪の調波音成分を求める。

＜実施形態５の音響診断システム１Ｅの状態推定実行時の構成＞
図１６は、実施形態５に係る音響診断システム１Ｅの状態推定実行時の構成を示すブロック図である。音響診断システム１Ｅは、状態推定実行時の構成として、音響モデル学習時の構成と比較して、状態推定モデル学習部１５及び状態推定モデルデータベース１６に代えて、状態推定部２１、状態推定結果出力部２２、及び状態推定モデルデータベース１６を有する。

なお、図１５及び図１６では、調波音スペクトログラムからステアリングベクトルを生成し、突発音スペクトログラムから空間共分散行列を計算し、これらから目的音の調波音を強調した無歪の調波音成分を求めるとしている。しかしこれに限らず、突発音スペクトログラムからステアリングベクトルを生成し、調波音スペクトログラムから空間共分散行列を計算し、これらから目的音の突発音を強調した無歪の突発音成分を求めるとしてもよい。

なお、実施形態５の音響診断システム１Ｅの状態推定モデルの学習時の処理では、実施形態４の音響診断システム１Ｄの状態推定モデルの学習時の処理（図１２）及び状態推定実行時の処理（図１４）において、ステップＳ１６Ｄ１で、ステアリングベクトル生成部１６Ｄ１が、調波音－突発音音源分離部１３によって分離された調波音スペクトログラムからステアリングベクトルを生成する。また、ステップＳ１６Ｄ２で、空間共分散行列計算部１３Ｅ２が、調波音－突発音音源分離部１３によって分離された突発音スペクトログラムから空間共分散行列を計算する。

＜実施形態５の効果＞
本実施形態では、対象音と周辺雑音がそれぞれ調波音成分と突発音成分に分離される場合、調波音成分を用いて対象音のステアリングベクトルを生成し、突発音成分を用いて雑音の空間共分散行列を求めることができる。それらを用いて対象音を強調するフィルタを生成し、フィルタリングすることで異常検知の精度を高めることができる。

＜音響診断システム１，１Ｂ，１Ｃ，１Ｄ，１Ｅを実現するコンピュータ５０００＞
図１７は、音響診断システム１，１Ｂ，１Ｃ，１Ｄ，１Ｅを実現するコンピュータ５０００のハードウェア構成を示す図である。

音響診断システム１，１Ｂ，１Ｃ，１Ｄ，１Ｅを実現するコンピュータ５０００は、ＣＰＵ（Central Processing Unit）に代表されるプロセッサ５３００、ＲＡＭ（Random Access Memory）等のメモリ５４００、入力装置５６００（例えば単チャンネルマイクロホン、多チャンネルマイクロホン、キーボード、マウス、タッチパネル等の接続インターフェース）、及び出力装置５７００（例えば外部ディスプレイモニタに接続されたビデオグラフィックカード）が、メモリコントローラ５５００を通して相互接続される。コンピュータ５０００において、所定のプログラムがＩ／Ｏ（Input／Output）コントローラ５２００を介してＳＳＤやＨＤＤ等の外部記憶装置５８００から読み出されて、プロセッサ５３００及びメモリ５４００の協働により実行されることにより、音響診断システムが実現される。あるいは、音響診断システムを実現するためのプログラムは、ネットワークインターフェース５１００を介した通信により外部のコンピュータから取得されてもよい。また、音響診断システムを実現するためのプログラムは記録媒体に記録され、媒体読み取り装置によって読み取られて取得されてもよい。

本発明は上記した実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。

１，１Ｂ，１Ｃ，１Ｄ，１Ｅ：音響診断システム、１１：入力音取得部、１１Ｄ：多チャンネル入力音取得部、１２：前処理部、１２Ｃ：最近傍フィルタリング部、１３：調波音－突発音音源分離部、１３Ｄ１，１３Ｄ６，１３Ｅ１：ステアリングベクトル生成部、１３Ｄ２，１３Ｄ７：雑音生成部、１３Ｄ３，１３Ｄ８，１３Ｅ２：空間共分散行列計算部、１３Ｄ４，１３Ｄ９，１３Ｅ３：フィルタ計算部、１３Ｄ５，１３Ｄ１０，１３Ｅ４：フィルタリング部、１４：ベクトル連結部、１５：状態推定モデル学習部、１５Ｂ：正常音モデル学習部、１６：状態推定モデルデータベース、１６Ｂ：正常音モデルデータベース、２１：状態推定部、２１Ｂ：異常検知部、２２：状態推定結果出力部、２２Ｂ：異常度出力部、５０００：コンピュータ

Claims

音響診断システムが実行する音響診断方法であって、
診断対象設備の稼働音を含む入力音を取得する入力音取得工程と、
前記入力音のスペクトログラムを計算する前処理工程と、
前記スペクトログラムを、調波音－突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成工程と、
前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程と
を含んだことを特徴とする音響診断方法。
前記状態推定工程によって推定された前記診断対象設備の状態を出力する状態推定結果出力工程
を含んだことを特徴とする請求項１に記載の音響診断方法。
学習用の前記入力音から生成された前記特徴量ベクトルに基づいて前記学習モデルを生成する学習モデル生成工程
を含んだことを特徴とする請求項１に記載の音響診断方法。
前記学習モデルは、学習用の前記入力音から生成された前記特徴量ベクトルの正常時の分布をモデル学習した正常音モデルであり、
前記状態推定工程において、診断用の前記入力音から生成された前記特徴量ベクトルと前記学習モデルに基づいて前記診断対象設備が正常か否かを推定する
ことを特徴とする請求項３に記載の音響診断方法。
前記前処理工程によって計算された前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離工程
を含み、
前記音源分離工程において、前記頻度分離工程によって分離された前記低頻度成分スペクトログラムが除去されたスペクトログラムを、前記調波音スペクトログラム及び前記突発音スペクトログラムへ分離する
ことを特徴とする請求項１～４の何れか１項に記載の音響診断方法。
前記入力音取得工程において、多チャンネルの前記入力音を取得し、
前記前処理工程によって計算された前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離し、前記高頻度成分スペクトログラムを前記音源分離工程へ入力する頻度分離工程と、
前記音源分離工程によって前記高頻度成分スペクトログラムが分離された前記調波音スペクトログラム及び前記突発音スペクトログラムのうち、前記調波音スペクトログラムから第１のステアリングベクトルを生成し、前記突発音スペクトログラムから第２のステアリングベクトルを生成するステアリングベクトル生成工程と、
前記突発音スペクトログラム及び前記低頻度成分スペクトログラムから第１の空間共分散行列を計算し、前記調波音スペクトログラム及び前記低頻度成分スペクトログラムから第２の空間共分散行列を計算する空間共分散行列計算工程と、
前記第１のステアリングベクトル及び前記第１の空間共分散行列から第１のフィルタを計算し、前記第２のステアリングベクトル及び前記第２の空間共分散行列から第２のフィルタを計算するフィルタ計算工程と、
前記入力音取得工程によって取得された多チャンネルの前記入力音に対し前記第１のフィルタを適用することで無歪の前記調波音スペクトログラムを求め、前記入力音に対し前記第２のフィルタを適用することで無歪の前記突発音スペクトログラムを求めるフィルタリング工程と、
を含み、
前記特徴量ベクトル生成工程において、前記フィルタリング工程によって求められた前記調波音スペクトログラム及び前記突発音スペクトログラムを連結して前記特徴量ベクトルを生成する
ことを特徴とする請求項１～４の何れか１項に記載の音響診断方法。
音響診断システムが行う音響診断方法であって、
診断対象設備の稼働音を含む多チャンネルの入力音を取得する入力音取得工程と、
前記入力音のスペクトログラムを計算する前処理工程と、
前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離工程と、
前記スペクトログラムから前記低頻度成分スペクトログラムが除去された除去後スペクトログラムを、調波音－突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第１のスペクトログラムからステアリングベクトルを生成するステアリングベクトル生成工程と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第２のスペクトログラムから空間共分散行列を計算する空間共分散行列計算工程と、
前記ステアリングベクトル及び前記空間共分散行列からフィルタを計算するフィルタ計算工程と、
前記入力音取得工程によって取得された多チャンネルの前記入力音に対し前記フィルタを適用することで、無歪の前記第１のスペクトログラムを求めるフィルタリング工程と、
前記フィルタリング工程によって求められた無歪の前記第１のスペクトログラムと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定工程と
を含んだことを特徴とする音響診断方法。
前記状態推定工程によって推定された前記診断対象設備の状態を出力する状態推定結果出力工程
を含んだことを特徴とする請求項７に記載の音響診断方法。
学習用の前記入力音から生成された無歪の前記第１のスペクトログラムに基づいて前記学習モデルを生成する学習モデル生成工程
を含んだことを特徴とする請求項７に記載の音響診断方法。
診断対象設備の状態を診断する音響診断システムであって、
診断対象設備の稼働音を含む入力音を取得する入力音取得部と、
前記入力音のスペクトログラムを計算する前処理部と、
前記スペクトログラムを、調波音－突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムを連結した特徴量ベクトルを生成する特徴量ベクトル生成部と、
前記特徴量ベクトルと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定部と
を備えたことを特徴とする音響診断システム。
診断対象設備の状態を診断する音響診断システムであって、
診断対象設備の稼働音を含む多チャンネルの入力音を取得する入力音取得部と、
前記入力音のスペクトログラムを計算する前処理部と、
前記スペクトログラムを高頻度成分スペクトログラム及び低頻度成分スペクトログラムへ分離する頻度分離部と、
前記スペクトログラムから前記低頻度成分スペクトログラムが除去された除去後スペクトログラムを、調波音－突発音音源分離により、調波音スペクトログラム及び突発音スペクトログラムへ分離する音源分離部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第１のスペクトログラムからステアリングベクトルを生成するステアリングベクトル生成部と、
前記調波音スペクトログラム及び前記突発音スペクトログラムのうちの第２のスペクトログラムから空間共分散行列を計算する空間共分散行列計算部と、
前記ステアリングベクトル及び前記空間共分散行列からフィルタを計算するフィルタ計算部と、
前記入力音取得部によって取得された多チャンネルの前記入力音に対し前記フィルタを適用することで、無歪の前記第１のスペクトログラムを求めるフィルタリング部と、
前記フィルタリング部によって求められた無歪の前記第１のスペクトログラムと学習モデルに基づいて前記診断対象設備の状態を推定する状態推定部と
を備えたことを特徴とする音響診断システム。
請求項１０又は１１に記載の音響診断システムとしてコンピュータを機能させるための音響診断プログラム。