JP6734233B2 - 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム - Google Patents

信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム Download PDF

Info

Publication number
JP6734233B2
JP6734233B2 JP2017150755A JP2017150755A JP6734233B2 JP 6734233 B2 JP6734233 B2 JP 6734233B2 JP 2017150755 A JP2017150755 A JP 2017150755A JP 2017150755 A JP2017150755 A JP 2017150755A JP 6734233 B2 JP6734233 B2 JP 6734233B2
Authority
JP
Japan
Prior art keywords
feature amount
hmm
signal processing
dnn
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017150755A
Other languages
English (en)
Other versions
JP2019028390A (ja
Inventor
小川 厚徳
厚徳 小川
慶介 木下
慶介 木下
マーク デルクロア
マーク デルクロア
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017150755A priority Critical patent/JP6734233B2/ja
Publication of JP2019028390A publication Critical patent/JP2019028390A/ja
Application granted granted Critical
Publication of JP6734233B2 publication Critical patent/JP6734233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラムに関する。
従来、音声認識システム、補聴器、TV会議システム、機械制御インターフェース、楽曲の検索及び採譜のための音楽情報処理システム等において、音響信号を収音し、目的の音声信号の成分を抽出する技術が利用されている。
一般的に、雑音や残響のある実環境で音響信号を収音すると、収音目的の音声信号だけでなく、雑音や残響(音響歪み)が重畳された信号が観測される。しかしながら、これらの雑音や残響が信号に重畳されると、本来の音声信号の成分の抽出が困難となり、音声信号の明朗度や聞き取りやすさを大きく低下させてしまう要因となる。この結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫が必要である。
そこで、従来、ガウス混合分布モデル(GMM:Gaussian Mixture Model)によって表現された事例モデルを用いて、入力音声を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルを音声信号候補とする信号処理装置が提案されている(例えば、非特許文献1参照)。
従来の信号処理装置は、事前に学習された混合分布モデルによって表現された事例モデルを用いて信号処理を行う。事例モデルは、例えば、各事例に対応したクリーン音声の振幅スペクトルと、フレームごとの特徴量(例えば、メル周波数ケプストラム係数)に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を含む。信号処理装置は、入力音声に最も類似するクリーン音声の振幅スペクトルを求めるために、入力音声から生成した特徴量のセグメントを用いて、予め求めた事例モデルの中から、最大の事後確率を与えるセグメントを探索する。
このような従来の信号処理装置によれば、それまでは困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。
J. Ming and R. Srinivasan, and D. Crookes, "A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise", IEEE Transactions on Audio, Speech, and Language Processing, Vol.19, No.4, pp.822-836, May 2011 G. Hinton, L. Deng, D. Yu, G.E. Dahl, A.-r. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups", IEEE Signal Processing Magazine, pp. 82-97, Nov. 2012.
しかしながら、セグメント探索に用いるメル周波数ケプストラム係数は、振幅スペクトルから得られる単純な特徴量である。このため、入力信号に雑音や残響が含まれる場合には、メル周波数ケプストラム係数も雑音や残響の影響を含むものとなり、従来の信号処理装置におけるセグメント探索は、必ずしも高精度ではなかった。
また、事例モデルは、種々の音響歪み環境を想定して準備するものの、現実的に、全ての音響歪み環境に対応する事例モデルを準備することは困難である。このため、従来の信号処理装置では、入力信号から生成した特徴量のセグメントと高い類似度を有するセグメントを事例モデルの中から探索できない場合があった。
したがって、従来の信号処理装置では、探索に用いる特徴量が雑音や残響の影響を受けるため、入力信号に類似するクリーン音声の特徴量を探索する精度にも限界があった。
本発明は、上記に鑑みてなされたものであって、入力信号に類似するクリーン音声を精度よく探索する信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を入力とし、Neural Network(NN)に基づく音響モデルを用いて出力された事例モデルを記憶する記憶部と、入力信号から特徴量を生成する特徴量生成部と、特徴量を入力とし、NNに基づく音響モデルを用いて出力された出力結果と、記憶部に記憶された事例モデルとを照合し、入力信号に対応するクリーン音声特徴量を求める照合部と、照合部によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声を出力する出力部と、を有することを特徴とする。
また、上述した課題を解決し、目的を達成するために、本発明に係る事例モデル生成装置は、学習用の入力信号から特徴量を生成する特徴量生成部と、特徴量を用いてDNN(Deep Neural Network)に基づくHMM(Hidden Markov Model)音響モデル音響モデルを学習する学習部と、DNNに基づくHMM音響モデルが出力したHMM状態の尤度を基に、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスの系列を事例モデルとして計算する最尤HMM状態計算部と、を有することを特徴とする。
また、上述した課題を解決し、目的を達成するために、本発明に係る照合装置は、入力信号の特徴量をDNNに基づくHMM音響モデルに入力し、DNNに基づくHMM音響モデルによる出力結果と、雑音又は音響歪みを含む音声或いはクリーン音声をDNNに基づくHMM音響モデルを用いて学習した事例モデルとを照合し、入力信号に対応するクリーン音声特徴量を求める照合部を有することを特徴とする。
本発明によれば、入力信号に類似するクリーン音声を精度よく探索することができる。
図1は、実施の形態に係る信号処理装置の機能構成の一例を示す図である。 図2は、セグメントの一例を説明するための図である。 図3は、図1に示すマッチング部の処理を説明する図である。 図4は、図1に示す信号処理装置が実行する信号処理方法の処理手順を示すフローチャートである。 図5は、実施の形態に係る事例モデル生成装置の機能構成の一例を示すブロック図である。 図6は、図5に示す事例モデル生成装置による事例モデル生成処理の処理手順を示すフローチャートである。 図7は、プログラムが実行されることにより、信号処理装置或いは事例モデル生成装置が実現されるコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
まず、実施の形態に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響(音響歪み)を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。
[信号処理装置の構成]
図1は、実施の形態に係る信号処理装置の機能構成の一例を示す図である。実施の形態1に係る信号処理装置100は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
図1に示すように、信号処理装置100は、事例モデル記憶部101(記憶部)、フーリエ変換部102、特徴量生成部103、マッチング部104(照合部)及び音声強調フィルタリング部105(出力部)を有する。信号処理装置100は、DNN(ディープニューラルネットワーク)に基づくHMM(隠れマルコフモデル)音響モデル(以降、DNN−HMM音響モデルという。)によって表現された事例モデルを用いて系列(セグメント)探索を行う。DNN−HMM音響モデルは、高い耐雑音性を有する。
事例モデル記憶部101は、雑音又は音響歪みを含む音声或いはクリーン音声を入力とし、DNN−HMM音響モデルを用いて出力された事例モデルMsを記憶する。具体的には、事例モデル記憶部101は、事例に対応したクリーン音声のデータと、事例モデルMsとを記憶する。クリーン音声のデータは、例えば、事例に対応したクリーン音声の振幅スペクトルのことである。また、事例モデルは、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスであるsの系列(最尤HMM状態系列)で表現される。なお、事例モデルMsは、HMM状態sの事前確率P(s)も含む。これは、後述するように、マッチング部104におけるマッチング処理でHMM状態sの事前確率P(s)を用いるためである。
ここで、事例モデルMsは、事前に事例モデル生成装置200(後述)によって生成され、事例モデル記憶部101に格納される。事例モデル生成装置200は、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)と、を用い、様々な環境での観測信号を学習用の音声信号として模擬生成し、その模擬観測信号を特徴量領域へ変換したものを、DNN−HMM音響モデル(詳細は、非特許文献2参照)で学習して事例モデルMsを生成する。
DNN−HMM音響モデルは、入力音声の特徴量から、それに対応するHMMの状態番号を推定する機能を有する。HMMの一つの状態番号は、「a」、「i」、「u」等の、一つの音素の先頭部分、中間部分、または、後続部分に相当し、通常、3000〜10000程度の数で定義されることが多い。このDNN−HMM音響モデルは、入力された音声の特徴量を、複数ノードの中間層で非線形の特徴量に変換後、出力層で3000〜10000程度のHMM状態sの尤度を出力する。
このため、事例モデル生成装置200(後述)で、学習用の音声信号の特徴量から、DNN−HMM音響モデル(以下、gと表記する。)を基に、各時間フレームiに対する最大の尤度を与えるHMM状態のインデックスの系列(最尤HMM状態系列)sが求められる。該求められたインデックスsの時間系列(セグメント)が、事例モデルMsの一つとなる。この事例モデルMsは、最尤HMM状態系列sの集合とDNN−HMM音響モデルgとを用いて以下の(1)式に示すように表される。
なお、sは、i番目のフレームの特徴量kに対して最大の尤度を与えるHMM状態のインデックスである。Iは学習用の音声信号の総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×10となる。
そして、事例モデルに含まれるセグメントの例を説明する。図2は、セグメントの一例を説明するための図である。例えば、図2に示すセグメントの各セルは、Iフレームのうちi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるHMM状態のインデックスsを表す。
次に、図1に戻り、フーリエ変換部102の説明を行う。フーリエ変換部102は、入力信号をフレームごとに振幅スペクトルに変換する。入力信号として、雑音及び残響を含む音声信号がフーリエ変換部102に入力される。まず、フーリエ変換部102は、入力信号の波形データを短い時間幅で切り出す。例えば、フーリエ変換部102は、30(msec)程度の短時間ハミング窓等の窓関数を掛け合わせて入力信号を短い時間幅で切り出す。続いて、フーリエ変換部102は、切り出した入力信号に離散フーリエ変換処理を実行し、振幅スペクトルに変換する。なお、振幅スペクトルとは、周波数スペクトルの振幅データのことである。フーリエ変換部102は、変換後の振幅スペクトルを、特徴量生成部103及び音声強調フィルタリング部105に入力する。
特徴量生成部103は、フーリエ変換部102から出力された振幅スペクトルから特徴量yを生成する。言い換えると、特徴量生成部103は、フーリエ変換部102から入力された振幅スペクトルから特徴量yのセグメントを生成する。なお、tは、処理対象のフレームとする。特徴量生成部103は、フーリエ変換部102から出力された振幅スペクトルの全てを、例えば、メル周波数ケプストラム係数に変換する。これによって、入力信号は、フレームごとに、特徴量ベクトルのセグメントとして表される。
ここで、一般的に使用されているメル周波数ケプストラム係数は、10〜20次程度である。信号処理装置100では、事例モデルMsを正確に表すために、一般的に使用されている次数よりも高い次数(例えば、30〜100次程度)のメル周波数ケプストラム係数を用いる。このため、特徴量生成部103は、フーリエ変換部102から出力された振幅スペクトルの全てを、例えば、30〜100次程度のメル周波数ケプストラム係数に変換する。なお、特徴量生成部103は、メル周波数ケプストラム係数以外の特徴量(例えば、ケプストラム係数等)を用いてもよい。特徴量生成部103は、生成した特徴量yを、マッチング部104に入力する。
マッチング部104は、特徴量yを入力とし、DNN−HMM音響モデルgを用いて出力された出力結果と、事例モデル記憶部101に記憶された事例モデルMsとを照合(マッチング)し、入力信号に対応するクリーン音声特徴量を求める。マッチング部104は、入力された入力音声の特徴量yのDNN−HMM音響モデルからの出力結果に対し、高い類似度を示した事例モデルMsに対応するクリーン音声を収音目的の音声信号候補としていく。
具体的には、マッチング部104は、DNN−HMM音響モデルに入力音声の特徴量yを入力し、DNN−HMM音響モデルが出力したHMM状態sの尤度と事例モデル記憶部101に記憶された事例モデルの最尤HMM状態系列sとを照合し、高い類似度を示した事例モデルMsに対応するクリーン音声特徴量を、入力信号に対応するクリーン音声の特徴量として求める。
言い換えると、マッチング部104は、事例モデル記憶部101の事例モデルの中から、DNN−HMM音響モデルから出力されたHMM状態の尤度に対して最も高い尤度をとるセグメントを探索する。マッチング部104は、探索により見つかった事例モデル中のセグメントについての情報を、音声強調フィルタリング部105に入力する。なお、マッチング部104の処理の詳細については、後述する。
音声強調フィルタリング部105は、マッチング部104によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声信号を出力する。具体的には、音声強調フィルタリング部105は、マッチング部104が探索した事例モデルMsのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部101から、このクリーン音声の振幅スペクトルを読み出す。続いて、音声強調フィルタリング部105は、読み出したクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを用いて入力信号をフィルタリングする。この結果、音声強調フィルタリング部105から、入力信号から音響歪みが除去された強調音声信号が出力される。
[マッチング部の処理]
次に、マッチング部104の処理について詳細に説明する。図3は、図1に示すマッチング部104の処理を説明する図である。
図3に示すように、マッチング部104への入力は、雑音や残響の影響を受けた入力音声の特徴量yである。yは、例えば、メル周波数ケプストラム係数や、フィルタバンク係数などである。
音声認識に用いるメル周波数ケプストラム係数の次元数は13次元程度で、そのΔ及びΔΔ係数も同時に使用されることが多い。このため特徴量yの合計の次元は、13次元の3倍の39次元となる。DNN−HMM音響モデルへ入力される場合は、該等フレームだけでなく、例えば、その前後5フレームを含む合計11フレーム分の特徴量が一度に入力されることが多い。その場合には、特徴量yの次元数は、39次元の11倍である429次元となる。
また、入力がフィルタバンク係数の場合はさらに次元数が多く、基本の次元数が40次元、そのΔ及びΔΔを考慮することで49次元の3倍である120次元となる。さらに、該当フレームの前後5フレームを含めた合計11フレームを考慮することで、合計1320次元の特徴量yとなる。
この特徴量yがマッチング部104におけるDNN−HMM音響モデルに入力される。なお、DNN−HMM音響モデルの入力層のノード数は、特徴量yの次元数に等しい。そして、入力された特徴量yは、例えば2048ノード、典型的には、5〜10層程度の中間層による非線形の特徴量変換を経て,出力層で、例えば、3000〜10000ノード程度のHMM状態の尤度p(y|s)が求められる。p(y|s)は具体的には、以下に示す(2)式及び(3)式によって計算される。
ここで,z (y)は、特徴量yが与えられた際の、出力層(DNN−HMM音響モデルのL層目)のs番目のノード(HMM状態sに相当)の活性値である。P(s)は、HMM状態sの事前確率である。P(s)は、事例モデルMsに含まれる。ws,r は最終の中間層(DNN−HMM音響モデルの(L−1)層目)のr番目のノードから出力層(第L層)のs番目のノードの間の重み係数である。f(・)は、活性化関数(典型的にはシグモイド関数)である。b は,出力層(第L層)のs番目のノードのバイアス値である。なお、DNN−HMM音響モデルによるyからのp(y|s)の求め方については、例えば、非特許文献2に詳述されている。
マッチング部104は、DNN−HMM音響モデルの出力層から出力されたHMM状態の尤度p(y|s)と、事例モデル記憶部101が記憶する事例モデルMsとをマッチングするマッチング処理を行う。そして、マッチング部104は、出力層から出力されたHMM状態の尤度p(y|s)と、高い類似度を示した事例モデルMsを探索し、該探索した事例モデルMsに対応するクリーン音声を収音目的の音声信号候補としていく。
入力信号の特徴量のHMM状態の尤度p(y|s)と一番近い事例モデルMsの最尤HMM状態系列の探索方法の一例を説明する。例えば、マッチング部104は、事例モデル記憶部101の事例モデルの中から、DNN−HMM音響モデルから出力されたHMM状態の尤度を、最尤HMM状態系列であるセグメントのそれぞれに対応させ、出力されたHMM状態の尤度に対して最も高い尤度をとるセグメントを抽出する。言い換えると、マッチング部104は、事例モデル記憶部101の事例モデルの中から、DNN−HMM音響モデルから出力されたHMMの状態番号列を、最尤HMM状態系列のそれぞれのセグメントに当てはめ、出力されたHMMの状態番号列に対して最も高い尤度をとるセグメントを抽出する。
また、マッチング部104は、入力信号の特徴量のHMM状態の尤度p(y|s)と事例モデルMsの中のあるセグメントである最尤HMM状態系列との距離、例えば、ユークリッド距離などを基に、事例モデルMsを探索してもよい。
そして、マッチング部104は、探索した事例モデルMsのセグメント、すなわち、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われる事例モデルMsのセグメントについての情報を、音声強調フィルタリング部105に入力する。これによって、音声強調フィルタリング部105は、セグメントに対応する事例モデル記憶部101内のクリーン音声の振幅スペクトルを用いて、音声強調のためのフィルタを作成し、該フィルタで入力信号をフィルタリングすることによって、強調音声信号を出力する。
このように、実施の形態に係る信号処理装置100では、セグメント探索を、DNN−HMM音響モデルから出力されたHMM状態の尤度p(y|s)を用いて行う。このDNN−HMM音響モデルは、高い耐雑音性を持つ。言い換えると、DNN−HMM音響モデルは、入力音声の特徴量が雑音や残響の影響を受けていたとしても、高精度でHMMの状態番号を推定することが可能である。したがって、信号処理装置100では,高い耐雑音性を有するDNN−HMM音響モデルを用いることで,雑音や残響に頑健なセグメント探索、すなわち、雑音や残響の影響を受けにくいセグメント探索を行う。そこで、次に、信号処理装置100においてDNN−HMM音響モデルを用いた信号処理方法の手順について説明する。
[信号処理装置における信号処理方法]
次に、信号処理装置100における信号処理方法について説明する。図4は、図1に示す信号処理装置100が実行する信号処理方法の処理手順を示すフローチャートである。
まず、フーリエ変換部102は、入力信号を振幅スペクトルに変換するフーリエ変換処理(ステップS1)を行う。特徴量生成部103は、フーリエ変換部102から出力された振幅スペクトルから、メル周波数ケプストラム係数等の特徴量を生成する特徴量生成処理(ステップS2)を行う。
マッチング部104は、特徴量生成部103が生成した特徴量をDNN−HMM音響モデルに入力し、DNN−HMM音響モデルから出力されたHMM状態の尤度と、事例モデル記憶部101の事例モデルMsの最尤HMM状態系列とをマッチングし、高い類似度を示した事例モデルMsに対応するクリーン音声を収音目的の音声信号候補とするマッチング処理を行う(ステップS3)。
音声強調フィルタリング部105は、マッチング部104が探索した事例モデルMsのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング処理(ステップS4)を行う。
[事例モデル作成装置の構成]
次に、信号処理装置100の事例モデル記憶部101に記憶される事例モデルMsを生成する事例モデル生成装置200について説明する。この事例モデル生成装置200においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量yに対し、高い耐雑音性を持つDNN−HMM音響モデルを用いて学習を行い、事例モデルMsの生成を行っている。
図5は、事例モデル生成装置200の機能構成の一例を示すブロック図である。図5に示す事例モデル生成装置200は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。事例モデル生成装置200は、フーリエ変換部201、特徴量生成部202、DNN−HMM音響モデル学習部203(学習部)、及び、最尤HMM状態計算部204を有する。
まず、事例モデル生成装置200に入力される学習用の音声信号について説明する。事例モデル生成装置200に入力される信号は、様々な雑音/残響環境の音声信号である。この様々な雑音/残響環境の音声信号の中には、クリーン環境の音声信号が含まれている。具体的には、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、さまざまな環境での観測信号を模擬生成した模擬観測信号が、学習用の音声信号として事例モデル生成装置200に入力される。これらの学習用の音声信号のそれぞれについて以下の処理が行われる。
フーリエ変換部201及び特徴量生成部202は、図1に示す信号処理装置100におけるフーリエ変換部102及び特徴量生成部103とそれぞれ同様の処理を、学習用の音声信号に対して実行する。なお、フーリエ変換部201は、入力音声がクリーン音声の場合には、クリーン音声の振幅スペクトルを、事例モデルMsの一部として、信号処理装置100の事例モデル記憶部101に格納する。
DNN−HMM音響モデル学習部203は、特徴量生成部202が生成した特徴量を用いて、DNNに基づくHMM音響モデルを学習する。DNN−HMM音響モデル学習部203は、DNNに基づくHMM音響モデルに特徴量を入力して学習を行い、DNNに基づくHMM音響モデルが出力したHMM状態の尤度を取得する。DNN−HMM音響モデル学習部203は、特徴量生成部202が生成した特徴量yを学習データとしてDNN−HMM音響モデルに入力し、DNN−HMM音響モデルから出力されたHMM状態の尤度p(y|s)を、最尤HMM状態計算部204に出力する。この際、DNN−HMM音響モデル学習部203は、信号処理装置100のマッチング部104において、(2)式に示すように、HMM状態sの事前確率P(s)を用いた計算処理を行うため、HMM状態sの事前確率P(s)も生成し、事例モデルの一部として、信号処理装置100の事例モデル記憶部101に格納する。
最尤HMM状態計算部204は、DNN−HMM音響モデル学習部203が出力したDNN−HMM音響モデルg、すなわち、HMM状態の尤度p(y|s)を基に、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスであるsの系列(最尤HMM状態系列)を計算する。最尤HMM状態計算部204は、各時間フレームiに対する最大の尤度を与えるHMM状態のインデックスの系列(最尤HMM状態系列)sを求め、該求めたインデックスsの時間系列(セグメント)を、DNN−HMMに基づく事例モデルMsとして、信号処理装置100の事例モデル記憶部101に格納する。
[事例モデル生成処理]
次に、事例モデル生成処理について説明する。図6は、図5に示す事例モデル生成装置200による事例モデル生成処理の処理手順を示すフローチャートである。
事例モデル生成装置200において、フーリエ変換部201及び特徴量生成部202は、入力された学習用の音声信号に対し、図4に示すステップS1,S2と同様の手順でステップS11,S12の処理を行う。
DNN−HMM音響モデル学習部203は、前段の特徴量生成部202から入力された特徴量を用いてDNN−HMM音響モデルの学習処理を行い(ステップS13)。また、DNN−HMM音響モデル学習部203は、HMM状態sの事前確率P(s)も計算する。
続いて、最尤HMM状態計算部204は、DNN−HMM音響モデルが出力したHMM状態の尤度を基に、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスであるsの系列(最尤HMM状態系列)を事例モデルMsとして計算する最尤HMM状態計算処理を行う(ステップS14)。そして、事例モデル生成装置200は、この最尤HMM状態系列を事例モデルMsとして信号処理装置100の事例モデル記憶部101に格納する格納処理を行う(ステップS15)。
このように、事例モデル生成装置200では、信号処理装置100に対応させて、DNN−HMM音響モデルを用いた事例モデルMsの生成を行っている。したがって、信号処理装置100では、高い耐雑音性を反映した事例モデルMsを使用したマッチング処理を実行することができる。
[実施の形態の効果]
本実施の形態に係る信号処理装置100では、DNN−HMM音響モデルを用いて信号処理を行っている。このDNN−HMM音響モデルは、高い耐雑音性を持つ。具体的には、信号処理装置100では、入力信号の特徴量をDNN−HMM音響モデルに入力し、DNN−HMM音響モデルによる出力結果と、事例モデル記憶部101に記憶された事例モデルMsとを照合して、入力信号に対応するクリーン音声特徴量を求めている。
前述したように、DNN−HMM音響モデルは、高い耐雑音性を持つ。言い換えると、DNN−HMM音響モデルは、入力音声の特徴量が雑音や残響の影響を受けていたとしても、高精度でHMMの状態を推定することが可能である。したがって、信号処理装置100では、高い耐雑音性を有するDNN−HMM音響モデルを用いることで,雑音や残響に頑健なセグメント探索、すなわち、雑音や残響の影響を受けにくいセグメント探索を行うことが可能になる。また、事例モデル生成装置200では、信号処理装置100に対応させて、DNN−HMM音響モデルを用いた事例モデルMsの生成を行っている。したがって、信号処理装置100では、高い耐雑音性を反映した事例モデルMsを使用したマッチング処理を実行することができる。
このように、本実施の形態によれば、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減でき、入力信号に類似するクリーン音声を精度よく探索することが可能になる。
[変形例]
本実施の形態では、DNN−HMM音響モデルを用いた場合を説明した。このDNN−HMM音響モデルは、いわゆるfully-connected feed forward neural networkに基づくものであるが、本実施の形態では、その他の構造のNeural Networkに基づく音響モデルを用いることも可能である。例えば、本実施の形態では、例えば、Convolutional Neural Network(CNN:畳み込みニューラルネットワーク)に基づく音響モデル、Recurrent Neural Network(RNN:再帰的ニューラルネットワーク)に基づく音響モデル、LSTM(Long Short-Term Memory)に基づくRNNの音響モデルであってもよい。
この場合には、事例モデル記憶部101は、雑音又は音響歪みを含む音声或いはクリーン音声を、CNNに基づく音響モデル、RNNに基づく音響モデル、または、LSTMに基づくRNN音響モデルのいずれか一つを用いて学習した事例モデルを記憶する。そして、マッチング部104は、特徴量を、CNNに基づく音響モデル、RNNに基づく音響モデル、または、LSTMに基づくRNN音響モデルのいずれか一つに入力し、いずれか一つのNeural Networkによる出力結果と、事例モデル記憶部101に記憶された事例モデルとを照合する。
また、上記の説明では、DNN−HMM音響モデルまたはその他のNN構造に基づく音響モデルは、事例モデル生成装置にて学習されるものとしたが、これは必須ではなく、例えば非特許文献2に記載の方法で別途学習された既存の音響モデルを事例モデル生成装置にて使用することも可能である。これらの音響モデルは必ずしも上記の模擬観測信号ではなく、雑音や残響を元来含む音声信号で学習されたものでもよい。
また、本実施の形態では、マッチング部104は、入力信号を2つに分割し、前半部分と後半部分とのそれぞれについてマッチング処理を行ってもよい。なお、入力信号の分割については、例えば、出願人による特許第6139429号公報或いは出願人による特許第6139430号公報を参照されたい。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置100及び事例モデル生成装置200は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図7は、プログラムが実行されることにより、信号処理装置100或いは事例モデル生成装置200が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置100或いは事例モデル生成装置200の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、信号処理装置100或いは事例モデル生成装置200における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
100,100P 信号処理装置
101,101P 事例モデル記憶部
102,102P フーリエ変換部
103,103P 特徴量生成部
104,104P マッチング部
105,105P 音声強調フィルタリング部
200,200P 事例モデル生成装置

Claims (8)

  1. 雑音又は音響歪みを含む音声或いはクリーン音声を入力とし、Neural Networkに基づく音響モデルを用いて出力された事例モデルを記憶する記憶部と、
    入力信号から特徴量を生成する特徴量生成部と、
    前記特徴量を入力とし、前記Neural Networkに基づく音響モデルを用いて出力された出力結果と、前記記憶部に記憶された事例モデルとを照合し、前記入力信号に対応するクリーン音声特徴量を求める照合部と、
    前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
    を有することを特徴とする信号処理装置。
  2. 前記記憶部及び前記照合部は、雑音又は音響歪みを含む音声或いはクリーン音声を入力とし、DNN(Deep Neural Network)に基づくHMM(Hidden Markov Model)音響モデルを用いることを特徴とする請求項1に記載の信号処理装置。
  3. 前記記憶部及び前記照合部は、CNN(Convolutional Neural Network)に基づく音響モデル、RNN(Recurrent Neural Network)に基づく音響モデル、または、LSTM(Long Short-Term Memory)に基づくRNN音響モデルのいずれか一つを用いることを特徴とする請求項1に記載の信号処理装置。
  4. 学習用の入力信号から特徴量を生成する特徴量生成部と、
    前記特徴量を用いてDNNに基づくHMM音響モデルを学習する学習部と、
    前記DNNに基づくHMM音響モデルが出力したHMM状態の尤度を基に、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスの系列を事例モデルとして計算する最尤HMM状態計算部と、
    を有することを特徴とする事例モデル生成装置。
  5. 入力信号の特徴量をDNNに基づくHMM音響モデルに入力し、前記DNNに基づくHMM音響モデルによる出力結果と、雑音又は音響歪みを含む音声或いはクリーン音声をDNNに基づくHMM音響モデルを用いて学習した事例モデルとを照合し、前記入力信号に対応するクリーン音声特徴量を求める照合部
    を有することを特徴とする照合装置。
  6. 信号処理装置で実行される信号処理装置であって、
    前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を入力とし、DNNに基づくHMM音響モデルを用いて出力された事例モデルを記憶する記憶部を有し、
    入力信号から特徴量を生成する特徴量生成工程と、
    前記特徴量をDNNに基づくHMM音響モデルに入力し、前記DNNに基づくHMM音響モデルによる出力結果と、前記記憶部に記憶された事例モデルとを照合し、前記入力信号に対応するクリーン音声特徴量を求める照合工程と、
    前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力工程と、
    を含んだことを特徴とする信号処理方法。
  7. 事例モデル生成装置によって実行される信号処理方法であって、
    学習用の入力信号から特徴量を生成する特徴量生成工程と、
    前記特徴量を用いてDNNに基づくHMM音響モデルを学習する学習工程と、
    前記DNNに基づくHMM音響モデルが出力したHMM状態の尤度を基に、時間フレームごとの特徴量に対して最大の尤度を与えるHMM状態のインデックスの系列を事例モデルとして計算する最尤HMM状態計算工程と、
    を含んだことを特徴とする信号処理方法。
  8. コンピュータを、請求項1〜3のいずれか一つに記載の信号処理装置、請求項4に記載の事例モデル生成装置、及び、請求項5に記載の照合装置のいずれかとして機能させるための信号処理プログラム。
JP2017150755A 2017-08-03 2017-08-03 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム Active JP6734233B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017150755A JP6734233B2 (ja) 2017-08-03 2017-08-03 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017150755A JP6734233B2 (ja) 2017-08-03 2017-08-03 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2019028390A JP2019028390A (ja) 2019-02-21
JP6734233B2 true JP6734233B2 (ja) 2020-08-05

Family

ID=65476298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017150755A Active JP6734233B2 (ja) 2017-08-03 2017-08-03 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム

Country Status (1)

Country Link
JP (1) JP6734233B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10748551B2 (en) * 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program
JP6499095B2 (ja) * 2016-01-29 2019-04-10 日本電信電話株式会社 信号処理方法、信号処理装置及び信号処理プログラム

Also Published As

Publication number Publication date
JP2019028390A (ja) 2019-02-21

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
Hossain et al. Implementation of back-propagation neural network for isolated Bangla speech recognition
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP6437581B2 (ja) 話者適応型の音声認識
JP3627299B2 (ja) 音声認識方法及び装置
JP2019514046A (ja) 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
US20080082323A1 (en) Intelligent classification system of sound signals and method thereof
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
KR102406512B1 (ko) 음성인식 방법 및 그 장치
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
CN111292763B (zh) 重音检测方法及装置、非瞬时性存储介质
Kundu et al. Joint acoustic factor learning for robust deep neural network based automatic speech recognition
JP2020020872A (ja) 識別器、学習済モデル、学習方法
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Sivanagaraja et al. End-to-end speech emotion recognition using multi-scale convolution networks
McInnes et al. Unsupervised extraction of recurring words from infant-directed speech
Chang et al. On the importance of modeling and robustness for deep neural network feature
Gupta et al. An efficient noise-robust automatic speech recognition system using artificial neural networks
Tanweer et al. Analysis of combined use of nn and mfcc for speech recognition
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Habeeb et al. An ensemble technique for speech recognition in noisy environments
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200709

R150 Certificate of patent or registration of utility model

Ref document number: 6734233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150