JP6637078B2

JP6637078B2 - 音響モデル学習装置、音響モデル学習方法及びプログラム

Info

Publication number: JP6637078B2
Application number: JP2017565514A
Authority: JP
Inventors: マークデルクロア; 慶介木下; 小川　厚徳; 厚徳小川; 拓也吉岡; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-02
Filing date: 2017-01-26
Publication date: 2020-01-29
Anticipated expiration: 2037-01-26
Also published as: US20210193161A1; JPWO2017135148A1; CN108701452A; US11264044B2; WO2017135148A1; CN108701452B

Description

本発明は、音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムに関する。

従来から、学習用の音声データを隠れマルコフモデル（以下、ＨＭＭ（Hidden Markov Model）と称す）に基づき学習した音響モデルを用いて、認識用音声データから話者の音声を認識する技術がある（例えば非特許文献１参照）。

認識用音声データは、周囲の雑音や話者の多様性等のため、学習用の音声データと特徴が一致しないことが多い。つまり、学習用の音声データおよび認識用音声データそれぞれが置かれる周囲の雑音を含む音響環境や話者毎の特性である話者特性等の音響条件の不一致は、音声の認識精度を低下させる。このため、音声認識技術は、音響条件に対してロバストであることが求められる。ロバストな音声認識技術として、認識用音声データが音響モデルに適合するように、適応データを用いて音響モデルのパラメータを再推定により学習する技術が知られている（例えば非特許文献２参照）。また、パラメータの再推定方法としては、誤差逆伝搬法等が広く用いられている（例えば非特許文献３参照）。

G. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups," IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012. H. Liao, "SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS," in Proc. of ICASSP’13, 2013, pp. 7947−7951. S. Haykin, "NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION," Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.

しかしながら、上記技術は、音響モデルの学習用の音声データが置かれる音響条件と、認識用音声データが置かれる音響条件が必ずしも同一ではないため、音響モデルと音声認識時の音声特徴量にミスマッチがあり、結果、音声認識の精度が低下する。

音声認識の精度の低下を抑制するため、例えば、認識用音声データと同様な音響条件の適応データを用いて音響モデルのパラメータを適応させる。しかし、大量の音響モデルのパラメータを精度よく推定するために、膨大な音声データ量が必要になる。また、パラメータ推定のために用いる音声には，その音声を表現するラベル（例えば話者ＩＤやトランスクリプション等）が必要になる。そのため、観測した認識用音声データを音響モデルのパラメータを適応させる際に膨大な計算が必要になり、高速なパラメータ適応ができないという問題がある。

そこで、本願が開示する実施形態の一例は、音声認識の際に、音響モデルのパラメータ適応を高精度かつ高速に実現することを目的とする。

本発明の音声認識装置は、入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換手段と、前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、を含み、前記第１の変換手段は、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを、前記シンボル系列を特定する情報に変換することを特徴とする。

本発明の音響モデル学習装置は、入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換手段と、前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第１の変換手段により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算手段の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新手段とを含むことを特徴とする。

本願が開示する実施形態の一例によれば、例えば、音声認識の際に、音響モデルのパラメータ適応を高精度かつ高速に実現することができる。

図１は、第１の従来技術に係る音声認識装置の構成の一例を示す図である。図２は、第１の従来技術の処理の概要の一例を示す図である。図３は、第１の従来技術に係る音声認識処理の一例を示すフローチャートである。図４は、第２の従来技術に係る音声認識装置の構成の一例を示す図である。図５は、第２の従来技術に係る音声認識処理の一例を示すフローチャートである。図６は、第３の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。図７は、第３の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。図８は、従来の音響条件適応型音響モデルの概要の一例を示す図である。図９は、実施形態に係る音響条件適応型音響モデルの概要の一例を示す図である。図１０は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図１１は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。図１２は、実施形態に係る音声認識装置の構成の一例を示す図である。図１３は、実施形態に係る音声認識処理の一例を示すフローチャートである。図１４は、プログラムが実行されることにより、実施形態に係る音響モデル学習装置および音声認識装置が実現されるコンピュータの一例を示す図である。

以下、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態の一例の説明に先立ち、実施形態の一例が前提とする従来技術を説明する。その後、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態の一例を説明する。

なお、以下では、例えばＡがベクトルである場合には“ベクトルＡ”と表記し、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばＡが集合である場合には、“集合Ａ”と表記する。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記する。また、ベクトル、行列またはスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。また、ベクトル、行列またはスカラーであるＡに対し、“−Ａ”と記載する場合は「“Ａ”の直上に“−”が記された記号」と同等であるとする。また、ベクトル、行列またはスカラーであるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同等であるとする。また、ベクトルまたは行列であるＡに対し、Ａ^ＴはＡの転置を表す。

＜第１の従来技術＞
第１の従来技術は、例えば文献１「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図１は、第１の従来技術に係る音声認識装置の構成の一例を示す図である。図１に示すように、第１の従来技術に係る音声認識装置２０ａは、特徴量抽出部２０１ａ、ＨＭＭ状態の出力確率計算部２０５ａ、単語列検索部２０６ａを有する。また、音声認識装置２０ａは、記憶部２５０ａと接続される。

記憶部２５０ａは、音響モデルおよび言語モデルをあらかじめ記憶する。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは、音素や単語といった多数のシンボル系列から構成されている。例えば、言語モデルは、単語列の生成確率をモデル化したものであるといえる。一般的に、音声認識用の音響モデルは、各音素をLeft to rightのＨＭＭであり、ニューラルネットワーク（以下、ＮＮ（Neural Network）と称す）で計算されたＨＭＭの各状態の出力確率分布を含む。

すなわち、記憶部２５０ａに記憶されている音響モデルは、音素等の各シンボルにおけるＨＭＭの状態遷移確率、ｉ番目の隠れ層に関する重み行列Ｗ_ｉおよびバイアスベクトルｂ_ｉ、アクティベーション関数のパラメータ等を含むＮＮのパラメータである。ここで、ｉは、隠れ層のインデックスである。これらを音響モデルパラメータと称し、その集合をΛ＝｛Ｗ_１，ｂ_１，・・・，Ｗ_Ｉ，ｂ_Ｉ｝（Ｉは、隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数）とする。言語モデルは、音素や単語といった多数のシンボル系列Ｓ_ｊから構成されており、Ｐ（Ｓ_ｊ）は言語モデルによって得られるシンボル系列Ｓ_ｊの確率（言語確率）である。なお、シンボル系列Ｓ_ｊとは、音声認識結果となりうる、音素や単語等からなるシンボルの系列である。

特徴量抽出部２０１ａは、認識用音声データを読み込み、認識用音声データから音声の特徴量を抽出する。特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ＬＭＦＣ（log Mel Filterbank coefficients）、ΔＭＦＣＣ（ＭＦＣＣの１回微分）、ΔΔＭＦＣＣ（ＭＦＣＣの２回微分）、対数（スペクトル）パワー、Δ対数パワー（対数パワーの１回微分）等がある。

そして、特徴量抽出部２０１ａは、フレーム毎に当該フレームおよびその前後５フレーム程度の連続する各フレームから得られる特徴量を連結し、１０〜２０００次元程度の時系列特徴量ベクトルｏ_ｎ（ｎは、１，・・・，Ｎの自然数）を生成する。そして、特徴量抽出部２０１ａは、下記（１）式のように、全てのフレームについての時系列特徴量ベクトルｏ_ｎをまとめた特徴量ベクトルＯを生成する。特徴量ベクトルＯは、１からＮフレーム目までのＤ次元ベクトルで表現されるデータである。例えば、フレーム長は、３０ｍｓ程度、フレームシフト長は、１０ｍｓ程度である。

ＨＭＭ状態の出力確率計算部２０５ａは、記憶部２５０ａから音響モデルパラメータΛを読み込み、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率は、例えば文献１「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29，No. 6, pp. 82−97, 2012.」の数式（２）で表されるようなニューラルネットワークの出力である。図２は、第１の従来技術の処理の概要の一例を示す図である。図２に示すように、従来技術の音声認識に音響モデルを表すニューラルネットワークは、入力と出力との間に、１以上の隠れ層を有する。ニューラルネットワークの入力は、時系列特徴量ベクトルｏ_ｎであり、最前段の隠れ層へ入力される。ニューラルネットワークの出力は、最後段の隠れ層によるＨＭＭ状態の出力確率である。ＨＭＭ状態の出力確率計算部２０５ａが行う各隠れ層における計算は、線形変換による処理およびアクティベーション関数による処理の２つの処理を含む。各隠れ層における線形変換は、下記（２）式のようになる。

ただし、上記（２）式において、ベクトルｚ_ｉ，ｎは、ｉ番目（ｉは自然数であり、ｉ＝１，２，・・・，Ｉ（ただしＩは隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数））の隠れ層における線形変換の出力であり、ベクトルｘ_{ｉ−１，ｎ}は（ｉ−１）番目の隠れ層の出力である。なお、ベクトルｘ_０，ｎは、ニューラルネットワークの入力である時系列特徴量ベクトルｏ_ｎである。また、アクティベーション関数の出力は、下記（３）式のようになる。

ただし、上記（３）式において、ベクトルｘ_ｉ，ｎはｉ番目の隠れ層の出力であり、σは、例えばsigmoid関数等のアクティベーション関数であり、σ(ベクトルｚ_ｉ，ｎ)ベクトルの要素毎に計算される。すなわち、ＨＭＭ状態の出力確率計算部２０５ａは、ｉ番目の隠れ層において、前段の隠れ層である（ｉ−１）番目の隠れ層の出力であるベクトルｘ_{ｉ−１，ｎ}に対し上記（２）式による線形変換を行った結果であるベクトルｚ_ｉ，ｎに対して、上記（３）式による処理を行った結果であるベクトルｘ_ｉ，ｎを出力する。そして、ＨＭＭ状態の出力確率計算部２０５ａは、各ベクトルｘ_ｉ，ｎ（ｉ＝１，２，・・・，Ｉ）に基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する。

単語列検索部２０６ａは、ＨＭＭ状態の出力確率計算部２０５ａにより計算された各ＨＭＭ状態の出力確率に基づき、Ｊ個（Ｊは自然数）の対立候補シンボル系列Ｓ_ｊを生成し、対立候補シンボル系列Ｓ_ｊ毎に、音響モデルとの適合尤度を示す音響スコアを計算する。シンボルは、例えば、音素である。ここで、ｊ＝１，２，・・・，Ｊである。次に、単語列検索部２０６ａは、記憶部２５０ａから読み込んだ言語モデルに基づき、対立候補シンボル系列Ｓ_ｊ毎に、言語モデルとの適合尤度を示す言語スコアを計算する。そして、単語列検索部２０６ａは、計算した音響スコアおよび言語スコアに基づき、Ｊ個の対立候補シンボル系列Ｓ_ｊの中から、認識用音声データに対応する単語列として最も確からしい、つまり、音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部２５０ａに記憶される言語モデルから検索し、検索した対立候補シンボル系列を、認識結果である単語列＾Ｓとして出力する。

図３は、第１の従来技術に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置２０ａは、記憶部２５０ａから、音響モデルパラメータΛを読み込む（ステップＳ２０１ａ）。次に、音声認識装置２０ａは、記憶部２５０ａから、言語モデルを読み込む（ステップＳ２０２ａ）。次に、音声認識装置２０ａは、認識用音声データを読み込む（ステップＳ２０３ａ）。次に、音声認識装置２０ａは、読み込んだ認識用音声データから音声の特徴量を抽出し、特徴量ベクトルＯを生成する（ステップＳ２０４ａ）。次に、音声認識装置２０ａは、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルＯの各フレームｎに対する音響モデルの各ＨＭＭ状態の出力確率を計算する（ステップＳ２０５ａ）。次に、音声認識装置２０ａは、ＨＭＭ状態の出力確率計算部２０５ａにより計算された各ＨＭＭ状態の出力確率に基づき、対立候補シンボル系列Ｓ_ｊを生成し、対立候補シンボル系列Ｓ_ｊ毎の音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部２５０ａに記憶される言語モデルから検索する（ステップＳ２０６ａ）。次に、音声認識装置２０ａは、ステップＳ２０６ａの検索結果を、認識結果である単語列＾Ｓとして出力する（ステップＳ２０７ａ）。

＜第２の従来技術＞
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第１の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正（再推定）（以下、音響モデル補正と称す）して音声認識を行う第２の従来技術がある。第２の従来技術は、例えば文献２「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第２の従来技術について、第１の従来技術との差異部分を説明する。

図４は、第２の従来技術に係る音声認識装置の構成の一例を示す図である。音響モデル補正を行う第２の従来技術に係る音声認識装置２０ｂは、特徴量抽出部２０１ｂ、ＨＭＭ状態の出力確率計算部２０５ｂ、単語列検索部２０６ｂを有する。また、音声認識装置２０ｂは、記憶部２５０ｂと接続される。

記憶部２５０ｂは、第１の従来技術の記憶部２５０ａと同様であるが、記憶されている音響モデルに関しては、補正された音響モデルパラメータを記憶する。特徴量抽出部２０１ｂは、認識用音声データを読み込み、特徴量ベクトルＯを生成する。ＨＭＭ状態の出力確率計算部２０５ｂは、事前に補正された音響モデルパラメータ＾Λと、特徴量抽出部２０１ｂにより生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。単語列検索部２０６ｂは、各ＨＭＭ状態の出力確率と、記憶部２５０ｂから読み込んだ言語モデルを入力とし、認識結果である単語列＾Ｓを出力する。

図５は、第２の従来技術に係る音声認識処理の一例を示すフローチャートである。図５に示すように、音声認識装置２０ｂの具体的な処理は、第１の従来技術の音声認識装置２０ａと比較して、ステップＳ２０１ｂで読み込む音響モデルが、補正された音響モデルである点以外は、第１の従来技術の音声認識装置２０ａと同様である。

＜第３の従来技術＞
以下、第２の従来技術に係る音声認識装置２０ｂに、第３の従来技術に係る音響モデル補正（再推定）機能を有する音響モデル再学習装置１０ｃを適用した場合を説明する。図６は、第３の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置１０ｃは、特徴量抽出部１０１ｃ、音響モデル補正部１０４ｃを有する。また、音響モデル再学習装置１０ｃは、記憶部１５０ｃと接続される。

記憶部１５０ｃは、言語モデルは記憶せず、音響モデルパラメータΛのみを記憶する。特徴量抽出部１０１ｃは、適応用音声データを読み込み、特徴量ベクトルＯ_ｒを生成する。特徴量抽出部１０１ｃは、音声認識装置２０ｂの特徴量抽出部２０１ｂと同様の処理を行う。

音響モデル再学習装置１０ｃが計算する、補正された音響モデルパラメータ＾Λは、認識音声データと同じ音響条件の適応用音声データと、適応用音声データに関するラベルとを用いて、音響モデルパラメータΛが補正されることにより計算される。ここで、ラベルとは、手作業により書き起こされたもの（教師あり）である場合、第１または第２の従来技術の音声認識により自動的に得られたもの（教師なし）である場合がある。教師ありのラベルを用いた音響モデルパラメータΛの補正を、教師あり補正という。また、教師なしのラベルを用いた音響モデルパラメータΛの補正を、教師なし補正という。以下、ラベルを−Ｓ_ｒと表記する。

音響モデル補正部１０４ｃは、記憶部１５０ｃから読み込んだ音響モデルパラメータΛ、特徴量抽出部１０１ｃにより生成された特徴量ベクトルＯ_ｒ、入力されたラベル−Ｓ_ｒを用い、音響モデルパラメータΛを補正（再推定）する。具体的には、音響モデル補正部１０４ｃは、適応データ（適応用音声データの特徴量ベクトルＯ_ｒ）と、特徴量ベクトルＯ_ｒと対応する正解シンボル系列Ｓ_ｒを用い、下記（４）式の目的関数Ｆ_Λが最大となるよう音響モデルパラメータ＾Λを再推定する。そして、再推定された音響モデルパラメータ＾Λは、例えば、第２の従来技術に係る音声認識装置２０ｂのＨＭＭ状態の出力確率計算部２０５ｂ（図４参照）で用いられる。

ここで、音響モデル補正部１０４ｃが用いる音響モデルは、ＮＮである。また、一般的に、目的関数Ｆ_Λは、例えばCross Entropyが用いられる。または、例えば、上記（４）式の最適化問題は、Stochastic Gradient Descent（ＳＧＤ）法で解き、そのための補正パラメータに対する微分は、文献３「S. Haykin, “NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION,” Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.」に示されるように、Error Backpropagationアルゴリズムにより計算できる。この場合、ＳＧＤの変数であるLearning Rateとして、例えば0.0001等の微小値がしばしば用いられる。

図７は、第３の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。まず、音響モデル再学習装置１０ｃは、記憶部１５０ｃから、音響モデルパラメータΛを読み込む（ステップＳ１０１ｃ）。次に、音響モデル再学習装置１０ｃは、図示しない記憶部、例えば音声認識装置２０ｂの記憶部２５０ｂ（図４参照）から、言語モデルを読み込む（ステップＳ１０２ｃ）。次に、音響モデル再学習装置１０ｃは、適応用音声データを読み込む（ステップＳ１０３ｃ）。次に、音響モデル再学習装置１０ｃは、正解シンボル系列Ｓ_ｒを読み込む（ステップＳ１０４ｃ）。次に、音響モデル再学習装置１０ｃは、適応用音声データから特徴量を抽出し、特徴量ベクトルＯ_ｒを生成する（ステップＳ１０５ｃ）。次に、音響モデル再学習装置１０ｃは、特徴量ベクトルＯ_ｒ、入力されたラベル−Ｓ_ｒを用い、音響モデルパラメータΛを補正（再推定）する（ステップＳ１０６ｃ）。次に、音響モデル再学習装置１０ｃは、音響モデルパラメータΛを補正した音響モデルパラメータ＾Λを再推定し、出力する（ステップＳ１０７ｃ）。

［実施形態］
以下、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態およびその他の実施形態は、矛盾しない範囲で適宜組み合わせてもよい。

＜実施形態の数理的背景＞
文献４「M. Delcroix, K. Kinoshita, T. Hori, T. Nakatani, “Context adaptive deep neural networks for fast acoustic model adaptation,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 , pp.4535-4539, 2015．」には、パラメータを音響条件特徴量と関連付けて学習する音響モデルであるＣＡＤＮＮ（Context Adaptive Deep Neural Network）が記載されている。

ＣＡＤＮＮの音響モデルパラメータは、外部から与えられる音響条件特徴量に関係付けられており、その特徴量に依存して変化する。ＣＡＤＮＮの学習においては、まず、音声の特徴量と音響条件特徴量を用いて、各音響条件に対応した音響モデルパラメータが学習される。また、音声認識時には、認識対象の音声の音響条件特徴量が計算され、音響条件特徴量および事前に学習した音響モデルパラメータを基に、音響条件に合うような新たな音響モデルパラメータが自動的に推定・決定される。

このとき、音響条件特徴量は、正解ラベル（話者ＩＤやトランスクリプション）を使わずに計算でき、また少ない音声データ（数秒程度）からも計算することができるという特長を持つため、結果として高速な音響モデル適応が可能になる。しかし、ＣＡＤＮＮで用いる音響条件特徴量の計算部は、音声認識装置とは独立に設計されたものであり、音声認識性能最適化の基準で設計されたものではなかった。その結果、従来の音響条件特徴量を用いて高精度な音声認識を行うことは困難であった。

そこで、実施形態では、ＣＡＤＮＮにおける上記の問題を改善した音響モデルであるＣＡＤＮＮ−ＪＴ（Context Adaptive Deep Neural Network with joint training）を用いる。ＣＡＤＮＮ−ＪＴによれば、音響条件特徴量の計算モデルのパラメータと音響モデルのパラメータの同時最適化を行うことができる。ＣＡＤＮＮ−ＪＴでは、例えば、音響条件特徴量の計算モデルがニューラルネットワークで表され、そのニューラルネットワークの出力層を従来のＣＡＤＮＮのニューラルネットワークの一部と結合する。これにより、音響条件特徴量の計算モデルを含む全ニューラルネットワークを、音声認識の最適化基準に基づき同時最適化することが可能となり、音声認識精度も改善される。以下、ＣＡＤＮＮ−ＪＴについて説明する。

（ＣＡＤＮＮの概要）
図８は、従来の音響条件適応型音響モデルの概要の一例を示す図である。従来の音響条件適応型音響モデルであるＣＡＤＮＮは、図８に示すように、ＮＮの隠れ層は、音響条件特徴量を示すベクトル（以下、「音響条件特徴量ベクトル」と称す）の要素毎に分解された形になっている。図８では、例示として、１つの隠れ層（ｉ番目の隠れ層）が分解されている状態を示すが、少なくとも１つの隠れ層または全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記（５）式のように計算する。

ただし、上記（５）式におけるｙ_ｋ，ｎは、詳しくは後述するが、ｎ番目のフレームから抽出された音響条件特徴量ベクトルｙ_ｎ∈Ｒ^Ｋ（Ｋ次元実数空間）のｋ番目（ｋは１，２，・・・，Ｋなる自然数、Ｋは音響条件の数を示す自然数）の要素である。以下、音響条件特徴量ｙ_ｋ，ｎと称す。また、上記（５）式における重み行列Ｗ_ｉ，ｋは、ｉ番目の隠れ層における音響条件特徴量ｙ_ｋ，ｎに対する線形変換行列である。また、上記（５）式におけるバイアスベクトルｂ_ｉ，ｋは、ｉ番目の隠れ層における音響条件特徴量ｙ_ｋ，ｎに関するバイアスベクトルである。このように、ＣＡＤＮＮは、隠れ層をＫ個の音響条件の要素に分解して表現する。なお、音響条件特徴量毎の隠れ層の分解として、下記（６）式または下記（７）式に示すものであってもよい。

音声認識時の音響モデルパラメータは、下記（８−１）式および（８−２）式のように計算され、音声認識時において、音響条件特徴量ｙ_ｋ，ｎに基づき、音響条件に自動適応することになる。

音響条件特徴量ｙ_ｋ，ｎは、音響条件を表す。ＣＡＤＮＮでは、音響条件特徴量ｙ_ｋ，ｎは、音声認識装置とは独立した系で計算されていた。例えば、話者適応の場合、学習の時の音声データを話者クラスごとに分割すれば、各話者クラスのモデルが学習可能であった（文献５「N. Dehak et al., “Front-End Factor Analysis for Speaker Verification,” IEEE Trans. Audio, Speech, Language Process., Vol. 19, No. 4, pp. 788−798, 2011.」参照）。ＣＡＤＮＮでは、各話者クラスのモデルを用いて、各テスト発話について各話者クラスの事後確率を計算し、それをｙ_ｋ，ｎとしていた。

（ＣＡＤＮＮ−ＪＴの概要）
図９は、実施形態に係る音響条件適応型音響モデルの概要の一例を示す図である。図９に示すように、実施形態に係る音響条件適応型音響モデルであるＣＡＤＮＮ−ＪＴでは、音響条件を表す音響条件特徴量の計算モデルにはニューラルネットワークを用い、そのニューラルネットワークのパラメータは従来のＣＡＤＮＮのパラメータと同時最適化される。すなわち、音響モデル、および音響条件の計算モデルは、１つ以上の隠れ層を有するニューラルネットワークで表され、音響条件の計算モデルの出力層は、音響モデルに結合されている。

音響条件特徴量の計算モデルの入力としては、第２入力特徴量ｕ_ｎが用いられる。ベクトルｕ_ｎは、話者認識等に頻繁に用いられる話者特徴を現すivector等や、音声の特徴量Ｏ_ｎとすることができる。なお、第２入力特徴量ｕ_ｎは、入力特徴量と同じものであってもよいし、異なるものであってもよい。また、音響条件特徴量の計算モデルによって計算された音響条件特徴量ｙ_ｋ，ｎは、下記（９）式のように計算される。

ここで、ベクトルｙ_ｎ＝［ｙ_１，ｎ，・・・，ｙ_ｋ，ｎ，・・・，ｙ_Ｋ，ｎ］は、Ｋ次元の音響条件特徴量ベクトルである。また、ベクトルｕ_ｎ＝［ｕ_１，ｎ，・・・，ｕ_Ｊ，ｎ］は、Ｊ次元の第２入力特徴量である。また、関数ｆ（）は、音響条件特徴量計算のための関数であり、Ωは、関数ｆ（）のパラメータである。ここでは、ｆ（）は多層ニューラルネットワーク（ＤＮＮ）の場合を述べるが、ｆ（）は、リカレントニューラルネットワーク（ＲＮＮ）や、ＣＮＮ（Convolutional Neural Network）であってもよい。

ｆ（）をＤＮＮとした場合、Ω＝｛Ｗ´_ｉ´，ｂ´_ｉ´，ｉ´，・・・，Ｉ´｝は式（２）に表されるような、ニューラルネットワークの各層における線形変換のためのパラメータの集合であり、Ｗ´_ｉ´は変換行列、ｂ´_ｉ´はバイアスベクトル、Ｉ´は音響条件特徴量の計算モデルのニューラルネットワークの隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数である。また、隠れ層のアクティベーション関数としては、シグモイド関数等を用いることができる。また、出力層の活性化関数（アクティベーション関数）としては、ソフトマックス関数や線形関数等を用いることができる。

音響条件特徴量ｙ_ｋ，ｎを話者クラスの事後確率とすることで、音響条件として各話者を表すことができる。また、音響条件特徴量ｙ_ｋ，ｎを雑音環境クラスの事後確率とすることで、音響条件として雑音環境を表すことができる。また、ｙ_ｋ，ｎは、基本的に数秒の音声データで計算できる特徴量であるため、数秒の音声データを用いることで、大量の音響モデルパラメータ（Ｗ_ｉ，ｂ_ｉ）を音響条件に適応できることになる。

各隠れ層の出力は、線形変換の出力ベクトルｚ_ｉ，ｎに対してアクティベーション関数を適用し、下記（１０）式のように計算される。

音響条件特徴量ｙ_ｋ，ｎ毎に分解された各隠れ層の線形変換のパラメータである重み行列Ｗ_ｉ，ｋとバイアスベクトルｂ_ｉ，ｋ、および音響条件特徴量計算のための関数のパラメータΩは、同時に最適化される。

これは、音響条件特徴量の計算結果は、因数分解された隠れ層における計算過程に使用されているためである（（５）式や（９）式を参照）。すなわち、音響条件特徴量の計算モデルのニューラルネットワークと因数分解された隠れ層は結合しているため、従来のニューラルネットワークの学習手順（誤差逆伝搬（Error backpropagation）およびＳＧＤ）（文献６「D. Yu and L. Deng, “Automatic Speech Recognition：A Deep Learning Approach,”Springer,2015.」参照）を用い、全ニューラルネットワークのパラメータを同時に最適化することができる。この場合の隠れ層の線形変換のパラメータの微分は、下記（１１−１）式および（１１−２）式のようになる。

ただし、上記（１１−１）式および（１１−２）式におけるＦは、最適化基準を表す（例えばCross Entropy）。また、ベクトルδ_ｉ，ｎは逆伝搬した誤差を表し、下記（１２）式のように計算する。Hadamard積は、行列またはベクトルの要素毎の積である。

上記（１２）式は、従来技術の誤差逆伝搬の式と同じであるが、上記（１２）式で用いられる重み行列Ｗ_{ｉ＋１，ｎ}とベクトルｚ_ｉ，ｎは、ＣＡＤＮＮ−ＪＴで新たに導入した上記（８−１）式および（８−２）式と、上記（５）式（あるいは上記（６）式もしくは上記（７）式）に基づき計算される。エラーベクトルδ_Ｉ，ｎはエラー項である。エラーベクトルδ_Ｉ，ｎは、入力特徴量ベクトルＹとＮＮに基づき計算されるネットワークの出力（ＨＭＭ状態の出力確率）であるベクトルｘ_ｉ，ｎと、入力された正解シンボル系列Ｓ_ｒとから得られる正解ＨＭＭ状態ｄ_ｎに基づき、従来技術と同様に、逆伝搬した誤差として、下記（１３）式のように計算される。

また、音響条件特徴量の計算モデルのニューラルネットワークの隠れ層における線形変換のためのパラメータの微分は、下記（１４−１）式および（１４−２）式のようになる。

ただし，δ´_ｉ，ｎは、音響条件特徴量の計算モデルのニューラルネットワークに対して逆伝搬されてきた誤差を表し、下記（１５）式のように計算される。

なお、（１５）式の逆伝搬されてきた誤差δ´_Ｉ´，ｎは、下記（１６）式のように計算される。

このとき、δ´_{ｉ，ｐ，ｎ}は、ｐ次元目のｉ層目の逆伝搬した誤差であり、ｚ_{ｋ，ｉ，ｐ，ｎ}は、ｚ_{ｋ，ｉ，ｎ}のｐ次元目である。ｚ_{ｋ，ｉ，ｎ}は、下記（１７）式のように計算される。

＜実施形態の一例＞
（実施形態に係る音響モデル学習装置の構成）
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図１０は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図１０に示すように、実施形態に係る音響モデル学習装置１０は、特徴量抽出部１０１、第２特徴量抽出部１０２、条件特徴量計算部１０３、音響モデルパラメータ補正部１０４、ＨＭＭ状態の出力確率計算部１０５、エラー計算部１２１、音響モデルパラメータ微分値計算部１２２、音響モデルパラメータ更新部１２３、条件特徴量計算部のパラメータ微分値計算部１２４、条件特徴量計算部のパラメータ更新部１２５、収束判定部１２６を有する。また、音響モデル学習装置１０は、記憶部１５０と接続される。

記憶部１５０は、音響モデルを特徴付けるパラメータとして、音響モデルパラメータΛ＝｛Ｗ_１，ｎ，ｂ_１，ｎ|ｎは、１，２，・・・，Ｎなる自然数｝を記憶する。ただし、Ｎは、後述のフレーム毎の音響条件特徴量ベクトルｙ_ｎを計算する対象である一発話の総フレーム数である。

また、記憶部１５０は、音響条件の計算モデルを特徴付けるパラメータとして、音響条件の計算モデルパラメータΩ＝｛Ｗ´_ｉ´，ｂ´_ｉ´，ｉ´，・・・，Ｉ´｝を記憶する。ただし、Ｎは、後述のフレーム毎の音響条件特徴量ベクトルｙ_ｎを計算する対象である一発話の総フレーム数である。また、（９）式の説明において述べた通り、Ｗ´_ｉ´は変換行列、ｂ´_ｉ´はバイアスベクトル、Ｉ´は音響条件特徴量の計算モデルのニューラルネットワークの隠れ層の総数に１を足した数、すなわち隠れ層と出力層の総数である。音響条件の計算モデルは、後述の音響条件特徴量ベクトル−Ｙを生成するためのモデルである。例えば、音響条件特徴量は、話者別の特徴、話者の性別や、雑音や残響に関する音響環境等である。

特徴量抽出部１０１は、マイク等で観測した学習用音声データを読み込み、学習用音声データから特徴量ベクトルＯを生成する。すなわち、特徴量抽出部１０１は、学習用音声データから特徴量を抽出する。特徴量抽出部１０１の具体的な処理は、第１の従来技術の特徴量抽出部２０１ａ、第２の従来技術の特徴量抽出部２０１ｂ、第３の従来技術の特徴量抽出部１０１ｃと同様である。

第２特徴量抽出部１０２は、学習用音声データを読み込み、下記（１８）式に示すような第２特徴量ベクトル系列Ｕを抽出し、条件特徴量計算部１０３に出力する。第２特徴量抽出部１０２は、特徴量抽出部１０１と同様の処理を行い、特徴量ベクトルＯを第２特徴量ベクトルとして抽出するようにしてもよいし、例えばivector等の特徴量ベクトルＯとは異なる特徴量を抽出するようにしてもよい。

なお、（１８）式において、Ｎは第２特徴量ベクトルを計算する対象である一発話の総フレーム数であり、ｎは１からＮの整数である。つまり、第２特徴量ベクトル系列Ｕは１からＮフレーム目までの各フレームでの第２特徴量を含んでいる。第２特徴量は、例えば話者性や環境（雑音、残響）の特徴等を表すものである。また、各フレームでの第２特徴量は、Ｌ次元のベクトルで表現される。また、各特徴量ベクトルｕ_ｎは、各フレームで異なる値を取るのではなく、数秒の間は同じ値に固定してもよいし、一発話の間は同一の値に固定してもよい。

条件特徴量計算部１０３は、音響条件の計算モデルを特徴付ける音響条件の計算モデルパラメータΩ、および第２特徴量抽出部１０２で抽出された第２特徴量を読み込み、（９）式により音声データの音響条件の特徴を示す音響条件特徴量を計算する。また、条件特徴量計算部１０３は、計算した音響条件特徴量を、下記（１９）式のような特徴量ベクトルＹとして音響モデルパラメータ補正部１０４に出力する。

ただし、上記（１９）式において、Ｎは、フレーム毎の音響条件特徴量ベクトルｙ_ｎを計算する対象である一発話の総フレーム数であり、ｎは１からＮの自然数である。つまり、音響条件特徴量ベクトルＹは、１からＮフレーム目までの各フレームの音響条件特徴量ベクトルｙ_ｎを含み、各フレームの音響条件特徴量ベクトルｙ_ｎはＫ次元のベクトルで表現される。なお、各フレームの音響条件特徴量ベクトルｙ_ｎは各フレームで異なる値を取るのではなく、数秒の間は同じ値に固定してもよいし、一発話の間は同一の値に固定してもよい。

音響モデルパラメータ補正部１０４は、記憶部１５０から読み込んだ音響モデルを特徴付ける音響モデルパラメータΛを、条件特徴量計算部１０３により生成された音響条件特徴量ベクトルＹに基づき、上記（８−１）式および（８−２）式により補正する。なお、音響モデルパラメータ補正部１０４により補正される音響モデルパラメータΛの初期値は、乱数で決めたパラメータまたは第１乃至第３の従来技術により学習された音響モデルパラメータ等とする。音響モデルパラメータ補正部１０４は、補正により生成された補正後のパラメータ＾ΛをＨＭＭ状態の出力確率計算部１０５へ出力する。

ＨＭＭ状態の出力確率計算部１０５は、音響モデルパラメータ補正部１０４により補正された音響モデルパラメータ＾Λと、特徴量抽出部１０１により生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率計算部１０５の具体的な処理は、第１の従来技術のＨＭＭ状態の出力確率計算部２０５ａ、第２の従来技術のＨＭＭ状態の出力確率計算部２０５ｂと同様である。

エラー計算部１２１は、ＨＭＭ状態の出力確率計算部１０５により計算された各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_ｒ（正解ＨＭＭ状態）とに基づき、上記（１３）式によりエラーベクトルδ_Ｉ，ｎを計算する。また、エラー計算部１２１は、上記（１６）式により、音響条件特徴量の計算モデルのニューラルネットワークに対して逆伝搬されてきた誤差を表すエラーベクトルδ´_Ｉ´，ｎを計算する。

音響モデルパラメータ微分値計算部１２２は、エラー計算部１２１の計算によるエラーベクトルδ_Ｉ，ｎと、音響モデルパラメータ補正部１０４により補正された音響モデルパラメータ＾Λに基づき、音響モデルパラメータ微分値を計算する。音響モデルパラメータ微分値計算部１２２は、逆伝搬した誤差を示す上記（１１−１）式、（１１−２）式および（１２）式により音響モデルパラメータ微分値を計算する。または、音響モデルパラメータ微分値計算部１２２は、従来のStochastic Gradient Descent（ＳＧＤ）法で計算することもできる（上記文献６参照）。また、パラメータ学習の高速化のためによく用いられるmomentumやL2 Regularizationをあわせて用いることもできる。

音響モデルパラメータ更新部１２３は、記憶部１５０から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値計算部１２２により計算された音響モデルパラメータ微分値とに基づき、下記（２０−１）式および（２０−２）式により音響モデルパラメータΛを更新する。このように、音響モデルパラメータ更新部１２３は、補正後の音響モデルパラメータおよび特徴量を基に計算された各値を基に音響モデルパラメータを更新する。

ただし、上記（２０−１）式および（２０−２）式において、重み行列~Ｗ_ｉ，ｋおよびバイアスベクトル~ｂ_ｉ，ｋは、更新した音響モデルパラメータ~Λであり、重み行列−Ｗ_ｉ，ｋおよびバイアスベクトル−ｂ_ｉ，ｋは１つ前のステップで得られた音響モデルパラメータ−Λである。また、上記（２０−１）式および（２０−２）式において、ηはＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。ηは、音響モデルパラメータ補正用パラメータである。

条件特徴量計算部のパラメータ微分値計算部１２４は、エラー計算部１２１の計算によるエラーベクトルδ_Ｉ，ｎと、音響条件の計算モデルパラメータΩに基づき、音響条件の計算モデルパラメータ、すなわち条件特徴量計算部のパラメータ微分値を計算する。条件特徴量計算部のパラメータ微分値計算部１２４は、逆伝搬した誤差を示す上記（１４−１）式、（１４−２）式および（１５）式により条件特徴量計算部のパラメータ微分値を計算する。また、条件特徴量計算部のパラメータ微分値計算部１２４は、音響モデルパラメータ微分値計算部１２２と同様の方法を用いることもできる。

条件特徴量計算部のパラメータ更新部１２５は、記憶部１５０から読み込んだ音響条件の計算モデルパラメータΩと、条件特徴量計算部のパラメータ微分値計算部１２４により計算された条件特徴量計算部のパラメータ微分値とに基づき、下記（２１−１）式および（２１−２）式により音響条件の計算モデルパラメータΩを更新する。このように、条件特徴量計算部のパラメータ更新部１２５は、補正後パラメータおよび特徴量を基に計算された各値を基に音響条件の計算モデルパラメータを更新する。

ただし、上記（２１−１）式および（２１−２）式において、重み行列~Ｗ´_ｉ，ｋおよびバイアスベクトル~ｂ´_ｉ，ｋは、更新した音響条件の計算モデルパラメータ~Ωであり、重み行列−Ｗ´_ｉ，ｋおよびバイアスベクトル−ｂ´_ｉ，ｋは、更新前の音響条件の計算モデルパラメータ−Ωである。また、上記（２１−１）式および（２１−２）式において、η´はＳＧＤの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。η´は、音響条件の計算モデルパラメータ補正用パラメータである。

収束判定部１２６は、音響モデルパラメータ更新部１２３により更新された音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωについて、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習（推定）が所定の収束条件を満たすか否かを判定する。収束判定部１２６は、所定の収束条件を満たすと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λを、音響モデル学習装置１０の出力値として出力する。音響モデル学習装置１０から出力された音響モデルパラメータ~Λは、例えば、記憶部１５０に記憶される。

一方、収束判定部１２６は、所定の収束条件を満たさないと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λを音響モデルパラメータ補正部１０４に出力し、さらに収束条件充足判定時の音響条件の計算モデルパラメータ~Ωを条件特徴量計算部１０３に出力し、条件特徴量計算部１０３、音響モデルパラメータ補正部１０４、ＨＭＭ状態の出力確率計算部１０５、エラー計算部１２１、音響モデルパラメータ微分値計算部１２２、音響モデルパラメータ更新部１２３、収束判定部１２６が処理を繰り返す。このとき、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωは、さらに記憶部１５０に記憶され、次回の処理における各パラメータの初期値として用いられるようにしてもよい。

なお、収束判定部１２６は、例えば、（１）１つ前のステップで得られた音響モデルパラメータ−Λまたは音響条件の計算モデルパラメータ−Ωと、更新された音響モデルパラメータ~Λまたは音響条件の計算モデルパラメータ~Ωとの差分が閾値以下になった場合、（２）収束条件充足判定の繰り返し回数が所定の回数以上になった場合、（３）学習用音声データの一部を用いて性能を評価した際に、所定の性能指標が所定値以上悪化した場合等のいずれかの所定条件に基づき、収束条件充足判定を行う。

（実施形態に係る音響モデル学習処理）
図１１は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。まず、音響モデル学習装置１０は、記憶部１５０から音響モデル（音響モデルパラメータΛ）を読み込む（ステップＳ１０１）。次に、音響モデル学習装置１０は、記憶部１５０から音響条件の計算モデル（音響条件の計算モデルパラメータΩ）を読み込む（ステップＳ１０２）。次に、音響モデル学習装置１０は、学習用音声データを読み込む（ステップＳ１０３）。次に、音響モデル学習装置１０は、正解シンボル系列−Ｓ_ｒを読み込む（ステップＳ１０４）。

次に、音響モデル学習装置１０は、学習用音声データから特徴量ベクトルＯを抽出する（ステップＳ１０５）。次に、音響モデル学習装置１０は、学習用音声データから第２特徴量ベクトル系列Ｕを抽出する（ステップＳ１０６）。次に、音響モデル学習装置１０は、音響条件の計算モデルパラメータΩおよび第２特徴量ベクトル系列から、音響条件特徴量ベクトルＹを上記（９）式により計算する（ステップＳ１０７）。次に、音響モデル学習装置１０は、記憶部１５０から読み込んだ音響モデルパラメータΛを、音響条件特徴量ベクトルＹに基づき、上記（８−１）式および（８−２）式により補正する（ステップＳ１０８）。次に、音響モデル学習装置１０は、補正された音響モデルパラメータΛと、特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する（ステップＳ１０９）。

次に、音響モデル学習装置１０は、各ＨＭＭ状態の出力確率と、入力された正解シンボル系列−Ｓ_ｒとに基づき、上記（１３）式によりエラーベクトルδ_Ｉ，ｎを計算し、また、上記（１６）式によりエラーベクトルδ´_Ｉ´，ｎを計算する（ステップＳ１１０）。

次に、音響モデル学習装置１０は、エラーベクトルδ_Ｉ，ｎと、補正された音響モデルパラメータΛに基づき、音響モデルパラメータ微分値を計算する（ステップＳ１１１）。次に、音響モデル学習装置１０は、記憶部１５０から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値とに基づき、上記（２０−１）式および（２０−２）式により音響モデルパラメータΛを更新する（ステップＳ１１２）。

次に、音響モデル学習装置１０は、エラーベクトルδ´_Ｉ´，ｎと、音響条件の計算モデルパラメータΩに基づき、音響条件の計算モデルパラメータ微分値を計算する（ステップＳ１１３）。次に、音響モデル学習装置１０は、記憶部１５０から読み込んだ音響条件の計算モデルパラメータΩと、音響条件の計算モデルパラメータ微分値とに基づき、上記（２１−１）式および（２１−２）式により音響条件の計算モデルパラメータΩを更新する（ステップＳ１１４）。

次に、音響モデル学習装置１０は、更新された音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωについて、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たすか否かを判定する（ステップＳ１１５）。音響モデル学習装置１０は、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たす場合（ステップＳ１１５Ｙｅｓ）、ステップＳ１１６へ処理を移す。一方、音響モデル学習装置１０は、音響モデルパラメータΛまたは音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たさない場合（ステップＳ１１５Ｎｏ）、ステップＳ１０７またはステップＳ１０８へ処理を移す。ステップＳ１１６では、音響モデル学習装置１０は、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λを、音響モデル学習装置１０の出力値として出力する（ステップＳ１１６）。このとき、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωは、さらに記憶部１５０に記憶され、次回の処理における各パラメータの初期値として用いられるようにしてもよい。

（実施形態に係る音声認識装置の構成）
図１２は、実施形態に係る音声認識装置の構成の一例を示す図である。図１２に示すように、実施形態に係る音声認識装置２０は、特徴量抽出部２０１、第２特徴量抽出部２０２、条件特徴量計算部２０３、音響モデルパラメータ補正部２０４、ＨＭＭ状態の出力確率計算部２０５、単語列検索部２０６を有する。また、音声認識装置２０は、記憶部２５０と接続される。

記憶部２５０は、音響モデル学習装置１０により更新された音響モデル（音響モデルパラメータΛ）、音響条件の計算モデル（音響条件の計算モデルパラメータΩ）、言語モデル、音響モデルパラメータ補正用パラメータη、音響条件の計算モデルパラメータ補正用パラメータη´をあらかじめ記憶する。

特徴量抽出部２０１は、マイク等で観測した認識用音声データを読み込み、認識用音声データから特徴量を抽出し、特徴量ベクトルＯを生成する。すなわち、特徴量抽出部２０１は、認識用音声データから特徴量を抽出する。特徴量抽出部２０１の具体的な処理は、音響モデル学習装置１０の特徴量抽出部１０１と同様である。

第２特徴量抽出部２０２は、マイク等で観測した認識用音声データを読み込み、認識用音声データから特徴量を抽出し、第２特徴量ベクトル系列Ｕを生成する。すなわち、特徴量抽出部２０１は、認識用音声データから特徴量を抽出する。特徴量抽出部２０１の具体的な処理は、音響モデル学習装置１０の第２特徴量抽出部１０２と同様である。

条件特徴量計算部２０３は、音響条件の計算モデルパラメータΩ、および第２特徴量抽出部２０２で抽出された第２特徴量を読み込み、（９）式により音響条件特徴量を計算する。また、条件特徴量計算部２０３は、計算した音響条件特徴量を、（１９）式のような特徴量ベクトルＹとして音響モデルパラメータ補正部２０４に出力する。条件特徴量計算部２０３の具体的な処理は、音響モデル学習装置１０の条件特徴量計算部１０３と同様である。

音響モデルパラメータ補正部２０４は、記憶部２５０から読み込んだ音響モデルパラメータΛと、条件特徴量計算部２０３によりで生成された音響条件特徴量ベクトルＹとに基づき、上記（８−１）式および（８−２）式により、音響モデルパラメータΛを補正する。音響モデルパラメータ補正部２０４の具体的な処理は、音響モデル学習装置１０の音響モデルパラメータ補正部１０４と同様である。

ＨＭＭ状態の出力確率計算部２０５は、音響モデルパラメータ補正部２０４により補正された音響モデルパラメータ＾Λと、特徴量抽出部２０１により生成された特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する。ＨＭＭ状態の出力確率計算部２０５の具体的な処理は、音響モデル学習装置１０のＨＭＭ状態の出力確率計算部１０５と同様である。

単語列検索部２０６は、特徴量および補正後パラメータを基に計算されたＨＭＭ状態の出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。すなわち、単語列検索部２０６は、ＨＭＭ状態の出力確率計算部２０５により計算された各ＨＭＭ状態の出力確率をもとに、記憶部２５０から読み込んだ言語モデルを検索し、音声認識結果として単語列＾Ｓを出力する。単語列検索部２０６の具体的な処理は、第１の従来技術の音声認識装置２０ａの単語列検索部２０６ａ、第２の従来技術の音声認識装置２０ｂの単語列検索部２０６ｂと同様である。

（実施形態に係る音声認識処理）
図１３は、実施形態に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置２０は、記憶部２５０から音響モデル（音響モデルパラメータΛ）を読み込む（ステップＳ２０１）。次に、音声認識装置２０は、記憶部２５０から音響条件の計算モデルを読み込む（ステップＳ２０２）。次に、音声認識装置２０は、記憶部２５０から言語モデルを読み込む（ステップＳ２０３）。次に、音声認識装置２０は、認識用音声データを読み込む（ステップＳ２０４）。

次に、音声認識装置２０は、学習用音声データから特徴量ベクトルＯを抽出する（ステップＳ２０６）。次に、音声認識装置２０は、学習用音声データから第２特徴量ベクトル系列Ｕを抽出する（ステップＳ２０７）。次に、音声認識装置２０は、音響条件の計算モデルパラメータΩおよび第２特徴量ベクトル系列から、音響条件特徴量ベクトルＹを上記（９）式により計算する（ステップＳ２０８）。次に、音声認識装置２０は、記憶部２５０から読み込んだ音響モデルパラメータΛを、音響条件特徴量ベクトルＹに基づき、上記（８−１）式および（８−２）式により補正する（ステップＳ２０９）。

次に、音声認識装置２０は、補正された音響モデルパラメータΛと、特徴量ベクトルＯに基づき、各ＨＭＭ状態の出力確率を計算する（ステップＳ２１０）。次に、音声認識装置２０は、各ＨＭＭ状態の出力確率をもとに、記憶部２５０から読み込んだ言語モデルを検索する（ステップＳ２１１）。次に、音声認識装置２０は、ステップＳ２１１の検索結果から、音声認識結果として単語列＾Ｓを出力する（ステップＳ２１２）。

（その他の実施形態）
実施形態では、ＤＮＮ（ＣＡＤＮＮ）に基づく音響モデルを音響条件の計算モデルと結合させる場合について説明したが、ＤＮＮに限らず、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＢＬＳＴＭ（Bidirectional Long Short-Term Memory）のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを音響条件の計算モデルと結合させ、同様の定式化を行うことが可能である。また、本発明における音響モデルは、ＨＭＭに基づくものに限られずニューラルネットワークを用いて出力確率を計算する任意の音響モデルとすることができる。例えば、本発明における音響モデルは、ＣＴＣ（Connectionist Temporal Classification）やencoder-decoderに基づくモデルであってもよい。

（実施形態による効果）
実施形態の音響モデル学習装置１０において、特徴量抽出部１０１および第２特徴量抽出部１０２は、音声データの特徴を示す特徴量を抽出する。また、条件特徴量計算部１０３は、ニューラルネットワークで表される音響条件の計算モデルを特徴付ける音響条件計算モデルパラメータ、および特徴量を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件の計算モデルを用いて計算する。また、音響モデルパラメータ補正部１０４は、音響条件の計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、音響モデルパラメータ更新部１２３は、補正後パラメータおよび特徴量を基に音響モデルパラメータを更新する。また、条件特徴量計算部のパラメータ更新部１２５は、補正後パラメータおよび特徴量を基に音響条件計算モデルパラメータを更新する。

これにより、実施形態は、音響条件特徴量を、正解ラベル（話者ＩＤやトランスクリプション）を用いず計算でき、また、少ない音声データ（数秒程度）から計算することができるという特長を持つため、結果として高速な音響モデル適応が可能となる。

すなわち、実施形態は、少ない音声データを用いて音響モデルを音響条件に適応させることができ、従来技術のように音響モデルを音響条件毎に切り替えることなく、従来技術より高い音声認識性能を達成できる。

また、実施形態は、音響モデルを表すニューラルネットワークにおいて逆伝搬してきた誤差を基に、音響条件の計算モデルを表すニューラルネットワークの最適化を行うことができるため、音響条件特徴量の計算モデルのパラメータと音響モデルのパラメータの同時最適化を行うことができる。したがって、音響条件特徴量の計算モデルを含む全ニューラルネットワークを音声認識の最適化基準に基づき同時最適化することが可能となり、音声認識精度が改善される。

また、特徴量抽出部１０１および第２特徴量抽出部１０２は、特徴量として第１の特徴量、および第１の特徴量と異なる第２の特徴量を抽出するようにしてもよい。このとき、条件特徴量計算部１０３は、音響条件計算モデルパラメータおよび第２の特徴量を基に音響条件特徴量を計算する。また、音響モデルパラメータ更新部１２３は、補正後パラメータおよび第１の特徴量を基に音響モデルパラメータを更新する。また、条件特徴量計算部のパラメータ更新部１２５は、補正後パラメータおよび第２の特徴量を基に音響条件計算モデルパラメータを更新する。これにより、音響モデルおよび音響条件計算モデルに対してそれぞれ異なる特徴量を用いつつ同時最適化を行うことができるため、それぞれのモデルをより高精度に最適化できるような特徴量を用いて学習を行うことができるようになる。

また、実施形態の音声認識装置２０において、音声認識用の特徴量抽出部２０１および第２特徴量抽出部２０２は、音声データの特徴を示す特徴量を抽出する。また、音声認識用の条件特徴量計算部２０３は、音響条件計算モデルパラメータ、および特徴量を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件の計算モデルを用いて計算する。また、音声認識用の音響モデルパラメータ補正部２０４は、音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、単語列検索部２０６は、特徴量および補正後パラメータを基に計算されたＨＭＭ状態の出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。音声認識の最適化基準を満たした音響条件計算モデルパラメータを用いて音声認識を行うことができるため、音声認識の精度が向上する。

表１に、音声認識タスクＡＵＲＯＲＡ４において、各手法を用い、音響モデルを発話ごとに発話者に対して教師なし適応させた時の結果（単語誤り率）を表している。音響条件特徴量は一発話（数秒程度）ごとに計算しているため、少量データを基に高速な音響モデル適応を行っていることになる。また、用いた手法は、ベースライン（従来ニューラルネットワークに基づく音声認識）、ＣＡＤＮＮ、および実施形態で用いた本発明に係る手法であるＣＡＤＮＮ−ＪＴの３つである。ここで、表１から、本発明は従来音声認識（ベースライン）や従来ＣＡＤＮＮよりも高い性能を達成していることがわかる。

（音響モデル学習装置および音声認識装置の装置構成について）
図１０に示す音響モデル学習装置１０および図１２に示す音声認識装置２０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置１０および音声認識装置２０の機能の分散および統合の具体的形態は図示のものに限られず、全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。例えば、特徴量抽出部１０１および第２特徴量抽出部１０２は、一体の機能部であってもよく、ＨＭＭ状態の出力確率計算部１０５と条件特徴量計算部１０３にそれぞれ異なる特徴量を出力するようにしてもよい。なお、特徴量抽出部２０１および第２特徴量抽出部２０２についても同様である。

また、例えば、音響モデル学習装置１０および音声認識装置２０は、一体の装置であってもよい。音響モデル学習装置１０および音声認識装置２０が一体の装置である場合には、音響モデル学習装置１０と音声認識装置２０において同様の機能を有する特徴量抽出部１０１と特徴量抽出部２０１、第２特徴量抽出部１０２と第２特徴量抽出部２０２、条件特徴量計算部１０３と条件特徴量計算部２０３、音響モデルパラメータ補正部１０４と音響モデルパラメータ補正部２０４、ＨＭＭ状態の出力確率計算部１０５とＨＭＭ状態の出力確率計算部２０５が同一の機能部であってもよい。

また、音響モデル学習装置１０および音声認識装置２０における各処理は図示のものに限られず、処理順序および処理の統合もしくは分離することができる。例えば、実施形態におけるステップＳ１０１〜Ｓ１０４ならびにステップＳ２０１〜Ｓ２０５は処理順序を入れ替えてもよい。

また、音響モデル学習装置１０および音声認識装置２０において行われる各処理は、全部または任意の一部が、ＣＰＵ等の処理装置および処理装置により解析実行されるプログラムにて実現されてもよい。音響モデル学習装置１０および音声認識装置２０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

（プログラム）
一実施形態として、音響モデル学習装置および音声認識装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の音響モデル学習または音声認識を実行する音響モデル学習プログラムまたは音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音響モデル学習プログラムまたは音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音響モデル学習装置または音声認識装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、音響モデル学習装置および音声認識装置は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音響モデル学習または音声認識に関するサービスを提供するサーバ装置として実装することもできる。例えば、音響モデル学習装置は、学習用音声データを入力とし、音響条件の計算モデルを出力とする音響モデル学習サービスを提供するサーバ装置として実装される。また、例えば、音声認識装置は、認識用音声データを入力とし、認識結果の単語列を出力とする音声認識サービスを提供するサーバ装置として実装される。これらの場合、音響モデル学習装置および音声認識装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の音響モデル学習または音声認識に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１４は、プログラムが実行されることにより、音響モデル学習装置または音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音響モデル学習装置または音声認識装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、音響モデル学習装置または音声認識装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０音響モデル学習装置
２０音声認識装置
１０１、２０１特徴量抽出部
１０２、２０２第２特徴量抽出部
１０３、２０３条件特徴量計算部
１０４、２０４音響モデルパラメータ補正部
１０５、２０５ＨＭＭ状態の出力確率計算部
１２１エラー計算部
１２２音響モデルパラメータ微分値計算部
１２３音響モデルパラメータ更新部
１２４条件特徴量計算部のパラメータ微分値計算部
１２５条件特徴量計算部のパラメータ更新部
１２６収束判定部
２０６単語列検索部
１５０、２５０記憶部

Claims

入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、
音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換手段と、
前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、
前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第１の変換手段により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算手段の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新手段と
を含むことを特徴とする音響モデル学習装置。
前記ニューラルネットワークは、
複数の分割された隠れ層と、
前記複数の分割された隠れ層の各々から出力される中間状態を用いて前記シンボル系列を特定する情報を得る層と、を含み、
前記音響モデルパラメータ補正手段は、前記隠れ層の各々について、当該隠れ層に対応する前記音響条件特徴量に基づき、当該隠れ層のパラメータを補正するものである
ことを特徴とする請求項１に記載の音響モデル学習装置。
音響モデル学習装置によって実行される音響モデル学習方法であって、
入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
入力された情報を音響条件特徴量に変換する音響条件特徴量計算工程と、
音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第１の変換工程と、
前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正工程と、
前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第１の変換工程により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算工程の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新工程と
を含むことを特徴とする音響モデル学習方法。
コンピュータを、請求項１に記載の音響モデル学習装置として機能させるためのプログラム。