JP6637078B2 - 音響モデル学習装置、音響モデル学習方法及びプログラム - Google Patents

音響モデル学習装置、音響モデル学習方法及びプログラム Download PDF

Info

Publication number
JP6637078B2
JP6637078B2 JP2017565514A JP2017565514A JP6637078B2 JP 6637078 B2 JP6637078 B2 JP 6637078B2 JP 2017565514 A JP2017565514 A JP 2017565514A JP 2017565514 A JP2017565514 A JP 2017565514A JP 6637078 B2 JP6637078 B2 JP 6637078B2
Authority
JP
Japan
Prior art keywords
acoustic
acoustic model
parameters
condition
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017565514A
Other languages
English (en)
Other versions
JPWO2017135148A1 (ja
Inventor
マーク デルクロア
マーク デルクロア
慶介 木下
慶介 木下
小川 厚徳
厚徳 小川
拓也 吉岡
拓也 吉岡
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2017135148A1 publication Critical patent/JPWO2017135148A1/ja
Application granted granted Critical
Publication of JP6637078B2 publication Critical patent/JP6637078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムに関する。
従来から、学習用の音声データを隠れマルコフモデル(以下、HMM(Hidden Markov Model)と称す)に基づき学習した音響モデルを用いて、認識用音声データから話者の音声を認識する技術がある(例えば非特許文献1参照)。
認識用音声データは、周囲の雑音や話者の多様性等のため、学習用の音声データと特徴が一致しないことが多い。つまり、学習用の音声データおよび認識用音声データそれぞれが置かれる周囲の雑音を含む音響環境や話者毎の特性である話者特性等の音響条件の不一致は、音声の認識精度を低下させる。このため、音声認識技術は、音響条件に対してロバストであることが求められる。ロバストな音声認識技術として、認識用音声データが音響モデルに適合するように、適応データを用いて音響モデルのパラメータを再推定により学習する技術が知られている(例えば非特許文献2参照)。また、パラメータの再推定方法としては、誤差逆伝搬法等が広く用いられている(例えば非特許文献3参照)。
G. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups," IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012. H. Liao, "SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS," in Proc. of ICASSP’13, 2013, pp. 7947−7951. S. Haykin, "NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION," Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.
しかしながら、上記技術は、音響モデルの学習用の音声データが置かれる音響条件と、認識用音声データが置かれる音響条件が必ずしも同一ではないため、音響モデルと音声認識時の音声特徴量にミスマッチがあり、結果、音声認識の精度が低下する。
音声認識の精度の低下を抑制するため、例えば、認識用音声データと同様な音響条件の適応データを用いて音響モデルのパラメータを適応させる。しかし、大量の音響モデルのパラメータを精度よく推定するために、膨大な音声データ量が必要になる。また、パラメータ推定のために用いる音声には,その音声を表現するラベル(例えば話者IDやトランスクリプション等)が必要になる。そのため、観測した認識用音声データを音響モデルのパラメータを適応させる際に膨大な計算が必要になり、高速なパラメータ適応ができないという問題がある。
そこで、本願が開示する実施形態の一例は、音声認識の際に、音響モデルのパラメータ適応を高精度かつ高速に実現することを目的とする。
本発明の音声認識装置は、入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換手段と、前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、を含み、前記第1の変換手段は、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを、前記シンボル系列を特定する情報に変換することを特徴とする。
本発明の音響モデル学習装置は、入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換手段と、前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第1の変換手段により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算手段の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新手段とを含むことを特徴とする。
本願が開示する実施形態の一例によれば、例えば、音声認識の際に、音響モデルのパラメータ適応を高精度かつ高速に実現することができる。
図1は、第1の従来技術に係る音声認識装置の構成の一例を示す図である。 図2は、第1の従来技術の処理の概要の一例を示す図である。 図3は、第1の従来技術に係る音声認識処理の一例を示すフローチャートである。 図4は、第2の従来技術に係る音声認識装置の構成の一例を示す図である。 図5は、第2の従来技術に係る音声認識処理の一例を示すフローチャートである。 図6は、第3の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。 図7は、第3の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。 図8は、従来の音響条件適応型音響モデルの概要の一例を示す図である。 図9は、実施形態に係る音響条件適応型音響モデルの概要の一例を示す図である。 図10は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。 図11は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。 図12は、実施形態に係る音声認識装置の構成の一例を示す図である。 図13は、実施形態に係る音声認識処理の一例を示すフローチャートである。 図14は、プログラムが実行されることにより、実施形態に係る音響モデル学習装置および音声認識装置が実現されるコンピュータの一例を示す図である。
以下、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態の一例の説明に先立ち、実施形態の一例が前提とする従来技術を説明する。その後、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態の一例を説明する。
なお、以下では、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、例えばベクトルAの関数fは、f(ベクトルA)と表記する。また、ベクトル、行列またはスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル、行列またはスカラーであるAに対し、“−A”と記載する場合は「“A”の直上に“−”が記された記号」と同等であるとする。また、ベクトル、行列またはスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同等であるとする。また、ベクトルまたは行列であるAに対し、AはAの転置を表す。
<第1の従来技術>
第1の従来技術は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図1は、第1の従来技術に係る音声認識装置の構成の一例を示す図である。図1に示すように、第1の従来技術に係る音声認識装置20aは、特徴量抽出部201a、HMM状態の出力確率計算部205a、単語列検索部206aを有する。また、音声認識装置20aは、記憶部250aと接続される。
記憶部250aは、音響モデルおよび言語モデルをあらかじめ記憶する。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは、音素や単語といった多数のシンボル系列から構成されている。例えば、言語モデルは、単語列の生成確率をモデル化したものであるといえる。一般的に、音声認識用の音響モデルは、各音素をLeft to rightのHMMであり、ニューラルネットワーク(以下、NN(Neural Network)と称す)で計算されたHMMの各状態の出力確率分布を含む。
すなわち、記憶部250aに記憶されている音響モデルは、音素等の各シンボルにおけるHMMの状態遷移確率、i番目の隠れ層に関する重み行列Wおよびバイアスベクトルb、アクティベーション関数のパラメータ等を含むNNのパラメータである。ここで、iは、隠れ層のインデックスである。これらを音響モデルパラメータと称し、その集合をΛ={W,b,・・・,W,b}(Iは、隠れ層の総数に1を足した数、すなわち隠れ層と出力層の総数)とする。言語モデルは、音素や単語といった多数のシンボル系列Sから構成されており、P(S)は言語モデルによって得られるシンボル系列Sの確率(言語確率)である。なお、シンボル系列Sとは、音声認識結果となりうる、音素や単語等からなるシンボルの系列である。
特徴量抽出部201aは、認識用音声データを読み込み、認識用音声データから音声の特徴量を抽出する。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient)、LMFC(log Mel Filterbank coefficients)、ΔMFCC(MFCCの1回微分)、ΔΔMFCC(MFCCの2回微分)、対数(スペクトル)パワー、Δ対数パワー(対数パワーの1回微分)等がある。
そして、特徴量抽出部201aは、フレーム毎に当該フレームおよびその前後5フレーム程度の連続する各フレームから得られる特徴量を連結し、10〜2000次元程度の時系列特徴量ベクトルo(nは、1,・・・,Nの自然数)を生成する。そして、特徴量抽出部201aは、下記(1)式のように、全てのフレームについての時系列特徴量ベクトルoをまとめた特徴量ベクトルOを生成する。特徴量ベクトルOは、1からNフレーム目までのD次元ベクトルで表現されるデータである。例えば、フレーム長は、30ms程度、フレームシフト長は、10ms程度である。
Figure 0006637078
HMM状態の出力確率計算部205aは、記憶部250aから音響モデルパラメータΛを読み込み、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルOの各フレームnに対する音響モデルの各HMM状態の出力確率を計算する。HMM状態の出力確率は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」の数式(2)で表されるようなニューラルネットワークの出力である。図2は、第1の従来技術の処理の概要の一例を示す図である。図2に示すように、従来技術の音声認識に音響モデルを表すニューラルネットワークは、入力と出力との間に、1以上の隠れ層を有する。ニューラルネットワークの入力は、時系列特徴量ベクトルoであり、最前段の隠れ層へ入力される。ニューラルネットワークの出力は、最後段の隠れ層によるHMM状態の出力確率である。HMM状態の出力確率計算部205aが行う各隠れ層における計算は、線形変換による処理およびアクティベーション関数による処理の2つの処理を含む。各隠れ層における線形変換は、下記(2)式のようになる。
Figure 0006637078
ただし、上記(2)式において、ベクトルzi,nは、i番目(iは自然数であり、i=1,2,・・・,I(ただしIは隠れ層の総数に1を足した数、すなわち隠れ層と出力層の総数))の隠れ層における線形変換の出力であり、ベクトルxi−1,nは(i−1)番目の隠れ層の出力である。なお、ベクトルx0,nは、ニューラルネットワークの入力である時系列特徴量ベクトルoである。また、アクティベーション関数の出力は、下記(3)式のようになる。
Figure 0006637078
ただし、上記(3)式において、ベクトルxi,nはi番目の隠れ層の出力であり、σは、例えばsigmoid関数等のアクティベーション関数であり、σ(ベクトルzi,n)ベクトルの要素毎に計算される。すなわち、HMM状態の出力確率計算部205aは、i番目の隠れ層において、前段の隠れ層である(i−1)番目の隠れ層の出力であるベクトルxi−1,nに対し上記(2)式による線形変換を行った結果であるベクトルzi,nに対して、上記()式による処理を行った結果であるベクトルxi,nを出力する。そして、HMM状態の出力確率計算部205aは、各ベクトルxi,n(i=1,2,・・・,I)に基づき、特徴量ベクトルOの各フレームnに対する音響モデルの各HMM状態の出力確率を計算する。
単語列検索部206aは、HMM状態の出力確率計算部205aにより計算された各HMM状態の出力確率に基づき、J個(Jは自然数)の対立候補シンボル系列Sを生成し、対立候補シンボル系列S毎に、音響モデルとの適合尤度を示す音響スコアを計算する。シンボルは、例えば、音素である。ここで、j=1,2,・・・,Jである。次に、単語列検索部206aは、記憶部250aから読み込んだ言語モデルに基づき、対立候補シンボル系列S毎に、言語モデルとの適合尤度を示す言語スコアを計算する。そして、単語列検索部206aは、計算した音響スコアおよび言語スコアに基づき、J個の対立候補シンボル系列Sの中から、認識用音声データに対応する単語列として最も確からしい、つまり、音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部250aに記憶される言語モデルから検索し、検索した対立候補シンボル系列を、認識結果である単語列^Sとして出力する。
図3は、第1の従来技術に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置20aは、記憶部250aから、音響モデルパラメータΛを読み込む(ステップS201a)。次に、音声認識装置20aは、記憶部250aから、言語モデルを読み込む(ステップS202a)。次に、音声認識装置20aは、認識用音声データを読み込む(ステップS203a)。次に、音声認識装置20aは、読み込んだ認識用音声データから音声の特徴量を抽出し、特徴量ベクトルOを生成する(ステップS204a)。次に、音声認識装置20aは、読み込んだ音響モデルパラメータΛに基づき、特徴量ベクトルOの各フレームnに対する音響モデルの各HMM状態の出力確率を計算する(ステップS205a)。次に、音声認識装置20aは、HMM状態の出力確率計算部205aにより計算された各HMM状態の出力確率に基づき、対立候補シンボル系列Sを生成し、対立候補シンボル系列S毎の音響スコアおよび言語スコアを統合したスコアが最も高い対立候補シンボル系列を、記憶部250aに記憶される言語モデルから検索する(ステップS206a)。次に、音声認識装置20aは、ステップS206aの検索結果を、認識結果である単語列^Sとして出力する(ステップS207a)。
<第2の従来技術>
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第1の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正(再推定)(以下、音響モデル補正と称す)して音声認識を行う第2の従来技術がある。第2の従来技術は、例えば文献2「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第2の従来技術について、第1の従来技術との差異部分を説明する。
図4は、第2の従来技術に係る音声認識装置の構成の一例を示す図である。音響モデル補正を行う第2の従来技術に係る音声認識装置20bは、特徴量抽出部201b、HMM状態の出力確率計算部205b、単語列検索部206bを有する。また、音声認識装置20bは、記憶部250bと接続される。
記憶部250bは、第1の従来技術の記憶部250aと同様であるが、記憶されている音響モデルに関しては、補正された音響モデルパラメータを記憶する。特徴量抽出部201bは、認識用音声データを読み込み、特徴量ベクトルOを生成する。HMM状態の出力確率計算部205bは、事前に補正された音響モデルパラメータ^Λと、特徴量抽出部201bにより生成された特徴量ベクトルOに基づき、各HMM状態の出力確率を計算する。単語列検索部206bは、各HMM状態の出力確率と、記憶部250bから読み込んだ言語モデルを入力とし、認識結果である単語列^Sを出力する。
図5は、第2の従来技術に係る音声認識処理の一例を示すフローチャートである。図5に示すように、音声認識装置20bの具体的な処理は、第1の従来技術の音声認識装置20aと比較して、ステップS201bで読み込む音響モデルが、補正された音響モデルである点以外は、第1の従来技術の音声認識装置20aと同様である。
<第3の従来技術>
以下、第2の従来技術に係る音声認識装置20bに、第3の従来技術に係る音響モデル補正(再推定)機能を有する音響モデル再学習装置10cを適用した場合を説明する。図6は、第3の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置10cは、特徴量抽出部101c、音響モデル補正部104cを有する。また、音響モデル再学習装置10cは、記憶部150cと接続される。
記憶部150cは、言語モデルは記憶せず、音響モデルパラメータΛのみを記憶する。特徴量抽出部101cは、適応用音声データを読み込み、特徴量ベクトルOを生成する。特徴量抽出部101cは、音声認識装置20bの特徴量抽出部201bと同様の処理を行う。
音響モデル再学習装置10cが計算する、補正された音響モデルパラメータ^Λは、認識音声データと同じ音響条件の適応用音声データと、適応用音声データに関するラベルとを用いて、音響モデルパラメータΛが補正されることにより計算される。ここで、ラベルとは、手作業により書き起こされたもの(教師あり)である場合、第1または第2の従来技術の音声認識により自動的に得られたもの(教師なし)である場合がある。教師ありのラベルを用いた音響モデルパラメータΛの補正を、教師あり補正という。また、教師なしのラベルを用いた音響モデルパラメータΛの補正を、教師なし補正という。以下、ラベルを−Sと表記する。
音響モデル補正部104cは、記憶部150cから読み込んだ音響モデルパラメータΛ、特徴量抽出部101cにより生成された特徴量ベクトルO、入力されたラベル−Sを用い、音響モデルパラメータΛを補正(再推定)する。具体的には、音響モデル補正部104cは、適応データ(適応用音声データの特徴量ベクトルO)と、特徴量ベクトルOと対応する正解シンボル系列Sを用い、下記(4)式の目的関数FΛが最大となるよう音響モデルパラメータ^Λを再推定する。そして、再推定された音響モデルパラメータ^Λは、例えば、第2の従来技術に係る音声認識装置20bのHMM状態の出力確率計算部205b(図4参照)で用いられる。
Figure 0006637078
ここで、音響モデル補正部104cが用いる音響モデルは、NNである。また、一般的に、目的関数FΛは、例えばCross Entropyが用いられる。または、例えば、上記(4)式の最適化問題は、Stochastic Gradient Descent(SGD)法で解き、そのための補正パラメータに対する微分は、文献3「S. Haykin, “NEURAL NETWORKS: A COMPREHENSIVE FOUNDATION,” Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.」に示されるように、Error Backpropagationアルゴリズムにより計算できる。この場合、SGDの変数であるLearning Rateとして、例えば0.0001等の微小値がしばしば用いられる。
図7は、第3の従来技術に係る音声モデル再学習処理の一例を示すフローチャートである。まず、音響モデル再学習装置10cは、記憶部150cから、音響モデルパラメータΛを読み込む(ステップS101c)。次に、音響モデル再学習装置10cは、図示しない記憶部、例えば音声認識装置20bの記憶部250b(図4参照)から、言語モデルを読み込む(ステップS102c)。次に、音響モデル再学習装置10cは、適応用音声データを読み込む(ステップS103c)。次に、音響モデル再学習装置10cは、正解シンボル系列Sを読み込む(ステップS104c)。次に、音響モデル再学習装置10cは、適応用音声データから特徴量を抽出し、特徴量ベクトルOを生成する(ステップS105c)。次に、音響モデル再学習装置10cは、特徴量ベクトルO、入力されたラベル−Sを用い、音響モデルパラメータΛを補正(再推定)する(ステップS106c)。次に、音響モデル再学習装置10cは、音響モデルパラメータΛを補正した音響モデルパラメータ^Λを再推定し、出力する(ステップS107c)。
[実施形態]
以下、本願が開示する音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態およびその他の実施形態は、矛盾しない範囲で適宜組み合わせてもよい。
<実施形態の数理的背景>
文献4「M. Delcroix, K. Kinoshita, T. Hori, T. Nakatani, “Context adaptive deep neural networks for fast acoustic model adaptation,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 , pp.4535-4539, 2015.」には、パラメータを音響条件特徴量と関連付けて学習する音響モデルであるCADNN(Context Adaptive Deep Neural Network)が記載されている。
CADNNの音響モデルパラメータは、外部から与えられる音響条件特徴量に関係付けられており、その特徴量に依存して変化する。CADNNの学習においては、まず、音声の特徴量と音響条件特徴量を用いて、各音響条件に対応した音響モデルパラメータが学習される。また、音声認識時には、認識対象の音声の音響条件特徴量が計算され、音響条件特徴量および事前に学習した音響モデルパラメータを基に、音響条件に合うような新たな音響モデルパラメータが自動的に推定・決定される。
このとき、音響条件特徴量は、正解ラベル(話者IDやトランスクリプション)を使わずに計算でき、また少ない音声データ(数秒程度)からも計算することができるという特長を持つため、結果として高速な音響モデル適応が可能になる。しかし、CADNNで用いる音響条件特徴量の計算部は、音声認識装置とは独立に設計されたものであり、音声認識性能最適化の基準で設計されたものではなかった。その結果、従来の音響条件特徴量を用いて高精度な音声認識を行うことは困難であった。
そこで、実施形態では、CADNNにおける上記の問題を改善した音響モデルであるCADNN−JT(Context Adaptive Deep Neural Network with joint training)を用いる。CADNN−JTによれば、音響条件特徴量の計算モデルのパラメータと音響モデルのパラメータの同時最適化を行うことができる。CADNN−JTでは、例えば、音響条件特徴量の計算モデルがニューラルネットワークで表され、そのニューラルネットワークの出力層を従来のCADNNのニューラルネットワークの一部と結合する。これにより、音響条件特徴量の計算モデルを含む全ニューラルネットワークを、音声認識の最適化基準に基づき同時最適化することが可能となり、音声認識精度も改善される。以下、CADNN−JTについて説明する。
(CADNNの概要)
図8は、従来の音響条件適応型音響モデルの概要の一例を示す図である。従来の音響条件適応型音響モデルであるCADNNは、図8に示すように、NNの隠れ層は、音響条件特徴量を示すベクトル(以下、「音響条件特徴量ベクトル」と称す)の要素毎に分解された形になっている。図8では、例示として、1つの隠れ層(i番目の隠れ層)が分解されている状態を示すが、少なくとも1つの隠れ層または全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記(5)式のように計算する。
Figure 0006637078
ただし、上記(5)式におけるyk,nは、詳しくは後述するが、n番目のフレームから抽出された音響条件特徴量ベクトルy∈R(K次元実数空間)のk番目(kは1,2,・・・,Kなる自然数、Kは音響条件の数を示す自然数)の要素である。以下、音響条件特徴量yk,nと称す。また、上記(5)式における重み行列Wi,kは、i番目の隠れ層における音響条件特徴量yk,nに対する線形変換行列である。また、上記(5)式におけるバイアスベクトルbi,kは、i番目の隠れ層における音響条件特徴量yk,nに関するバイアスベクトルである。このように、CADNNは、隠れ層をK個の音響条件の要素に分解して表現する。なお、音響条件特徴量毎の隠れ層の分解として、下記(6)式または下記(7)式に示すものであってもよい。
Figure 0006637078
Figure 0006637078
音声認識時の音響モデルパラメータは、下記(8−1)式および(8−2)式のように計算され、音声認識時において、音響条件特徴量yk,nに基づき、音響条件に自動適応することになる。
Figure 0006637078
音響条件特徴量yk,nは、音響条件を表す。CADNNでは、音響条件特徴量yk,nは、音声認識装置とは独立した系で計算されていた。例えば、話者適応の場合、学習の時の音声データを話者クラスごとに分割すれば、各話者クラスのモデルが学習可能であった(文献5「N. Dehak et al., “Front-End Factor Analysis for Speaker Verification,” IEEE Trans. Audio, Speech, Language Process., Vol. 19, No. 4, pp. 788−798, 2011.」参照)。CADNNでは、各話者クラスのモデルを用いて、各テスト発話について各話者クラスの事後確率を計算し、それをyk,nとしていた。
(CADNN−JTの概要)
図9は、実施形態に係る音響条件適応型音響モデルの概要の一例を示す図である。図9に示すように、実施形態に係る音響条件適応型音響モデルであるCADNN−JTでは、音響条件を表す音響条件特徴量の計算モデルにはニューラルネットワークを用い、そのニューラルネットワークのパラメータは従来のCADNNのパラメータと同時最適化される。すなわち、音響モデル、および音響条件の計算モデルは、1つ以上の隠れ層を有するニューラルネットワークで表され、音響条件の計算モデルの出力層は、音響モデルに結合されている。
音響条件特徴量の計算モデルの入力としては、第2入力特徴量uが用いられる。ベクトルuは、話者認識等に頻繁に用いられる話者特徴を現すivector等や、音声の特徴量Oとすることができる。なお、第2入力特徴量uは、入力特徴量と同じものであってもよいし、異なるものであってもよい。また、音響条件特徴量の計算モデルによって計算された音響条件特徴量yk,nは、下記(9)式のように計算される。
Figure 0006637078
ここで、ベクトルy=[y1,n,・・・,yk,n,・・・,yK,n]は、K次元の音響条件特徴量ベクトルである。また、ベクトルu=[u1,n,・・・,uJ,n]は、J次元の第2入力特徴量である。また、関数f()は、音響条件特徴量計算のための関数であり、Ωは、関数f()のパラメータである。ここでは、f()は多層ニューラルネットワーク(DNN)の場合を述べるが、f()は、リカレントニューラルネットワーク(RNN)や、CNN(Convolutional Neural Network)であってもよい。
f()をDNNとした場合、Ω={W´i´,b´i´,i´,・・・,I´}は式(2)に表されるような、ニューラルネットワークの各層における線形変換のためのパラメータの集合であり、W´i´は変換行列、b´i´はバイアスベクトル、I´は音響条件特徴量の計算モデルのニューラルネットワークの隠れ層の総数に1を足した数、すなわち隠れ層と出力層の総数である。また、隠れ層のアクティベーション関数としては、シグモイド関数等を用いることができる。また、出力層の活性化関数(アクティベーション関数)としては、ソフトマックス関数や線形関数等を用いることができる。
音響条件特徴量yk,nを話者クラスの事後確率とすることで、音響条件として各話者を表すことができる。また、音響条件特徴量yk,nを雑音環境クラスの事後確率とすることで、音響条件として雑音環境を表すことができる。また、yk,nは、基本的に数秒の音声データで計算できる特徴量であるため、数秒の音声データを用いることで、大量の音響モデルパラメータ(W,b)を音響条件に適応できることになる。
各隠れ層の出力は、線形変換の出力ベクトルzi,nに対してアクティベーション関数を適用し、下記(10)式のように計算される。
Figure 0006637078
音響条件特徴量yk,n毎に分解された各隠れ層の線形変換のパラメータである重み行列Wi,kとバイアスベクトルbi,k、および音響条件特徴量計算のための関数のパラメータΩは、同時に最適化される。
これは、音響条件特徴量の計算結果は、因数分解された隠れ層における計算過程に使用されているためである((5)式や(9)式を参照)。すなわち、音響条件特徴量の計算モデルのニューラルネットワークと因数分解された隠れ層は結合しているため、従来のニューラルネットワークの学習手順(誤差逆伝搬(Error backpropagation)およびSGD)(文献6「D. Yu and L. Deng, “Automatic Speech Recognition:A Deep Learning Approach,”Springer,2015.」参照)を用い、全ニューラルネットワークのパラメータを同時に最適化することができる。この場合の隠れ層の線形変換のパラメータの微分は、下記(11−1)式および(11−2)式のようになる。
Figure 0006637078
ただし、上記(11−1)式および(11−2)式におけるFは、最適化基準を表す(例えばCross Entropy)。また、ベクトルδi,nは逆伝搬した誤差を表し、下記(12)式のように計算する。Hadamard積は、行列またはベクトルの要素毎の積である。
Figure 0006637078
上記(12)式は、従来技術の誤差逆伝搬の式と同じであるが、上記(12)式で用いられる重み行列Wi+1,nとベクトルzi,nは、CADNN−JTで新たに導入した上記(8−1)式および(8−2)式と、上記(5)式(あるいは上記(6)式もしくは上記(7)式)に基づき計算される。エラーベクトルδI,nはエラー項である。エラーベクトルδI,nは、入力特徴量ベクトルYとNNに基づき計算されるネットワークの出力(HMM状態の出力確率)であるベクトルxi,nと、入力された正解シンボル系列Sとから得られる正解HMM状態dに基づき、従来技術と同様に、逆伝搬した誤差として、下記(13)式のように計算される。
Figure 0006637078
また、音響条件特徴量の計算モデルのニューラルネットワークの隠れ層における線形変換のためのパラメータの微分は、下記(14−1)式および(14−2)式のようになる。
Figure 0006637078
ただし,δ´i,nは、音響条件特徴量の計算モデルのニューラルネットワークに対して逆伝搬されてきた誤差を表し、下記(15)式のように計算される。
Figure 0006637078
なお、(15)式の逆伝搬されてきた誤差δ´I´,nは、下記(16)式のように計算される。
Figure 0006637078
このとき、δ´i,p,nは、p次元目のi層目の逆伝搬した誤差であり、zk,i,p,nは、zk,i,nのp次元目である。zk,i,nは、下記(17)式のように計算される。
Figure 0006637078
<実施形態の一例>
(実施形態に係る音響モデル学習装置の構成)
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図10は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図10に示すように、実施形態に係る音響モデル学習装置10は、特徴量抽出部101、第2特徴量抽出部102、条件特徴量計算部103、音響モデルパラメータ補正部104、HMM状態の出力確率計算部105、エラー計算部121、音響モデルパラメータ微分値計算部122、音響モデルパラメータ更新部123、条件特徴量計算部のパラメータ微分値計算部124、条件特徴量計算部のパラメータ更新部125、収束判定部126を有する。また、音響モデル学習装置10は、記憶部150と接続される。
記憶部150は、音響モデルを特徴付けるパラメータとして、音響モデルパラメータΛ={W1,n,b1,n|nは、1,2,・・・,Nなる自然数}を記憶する。ただし、Nは、後述のフレーム毎の音響条件特徴量ベクトルyを計算する対象である一発話の総フレーム数である。
また、記憶部150は、音響条件の計算モデルを特徴付けるパラメータとして、音響条件の計算モデルパラメータΩ={W´i´,b´i´,i´,・・・,I´}を記憶する。ただし、Nは、後述のフレーム毎の音響条件特徴量ベクトルyを計算する対象である一発話の総フレーム数である。また、(9)式の説明において述べた通り、W´i´は変換行列、b´i´はバイアスベクトル、I´は音響条件特徴量の計算モデルのニューラルネットワークの隠れ層の総数に1を足した数、すなわち隠れ層と出力層の総数である。音響条件の計算モデルは、後述の音響条件特徴量ベクトル−Yを生成するためのモデルである。例えば、音響条件特徴量は、話者別の特徴、話者の性別や、雑音や残響に関する音響環境等である。
特徴量抽出部101は、マイク等で観測した学習用音声データを読み込み、学習用音声データから特徴量ベクトルOを生成する。すなわち、特徴量抽出部101は、学習用音声データから特徴量を抽出する。特徴量抽出部101の具体的な処理は、第1の従来技術の特徴量抽出部201a、第2の従来技術の特徴量抽出部201b、第3の従来技術の特徴量抽出部101cと同様である。
第2特徴量抽出部102は、学習用音声データを読み込み、下記(18)式に示すような第2特徴量ベクトル系列Uを抽出し、条件特徴量計算部103に出力する。第2特徴量抽出部102は、特徴量抽出部101と同様の処理を行い、特徴量ベクトルOを第2特徴量ベクトルとして抽出するようにしてもよいし、例えばivector等の特徴量ベクトルOとは異なる特徴量を抽出するようにしてもよい。
Figure 0006637078
なお、(18)式において、Nは第2特徴量ベクトルを計算する対象である一発話の総フレーム数であり、nは1からNの整数である。つまり、第2特徴量ベクトル系列Uは1からNフレーム目までの各フレームでの第2特徴量を含んでいる。第2特徴量は、例えば話者性や環境(雑音、残響)の特徴等を表すものである。また、各フレームでの第2特徴量は、L次元のベクトルで表現される。また、各特徴量ベクトルuは、各フレームで異なる値を取るのではなく、数秒の間は同じ値に固定してもよいし、一発話の間は同一の値に固定してもよい。
条件特徴量計算部103は、音響条件の計算モデルを特徴付ける音響条件の計算モデルパラメータΩ、および第2特徴量抽出部102で抽出された第2特徴量を読み込み、(9)式により音声データの音響条件の特徴を示す音響条件特徴量を計算する。また、条件特徴量計算部103は、計算した音響条件特徴量を、下記(19)式のような特徴量ベクトルYとして音響モデルパラメータ補正部104に出力する。
Figure 0006637078
ただし、上記(19)式において、Nは、フレーム毎の音響条件特徴量ベクトルyを計算する対象である一発話の総フレーム数であり、nは1からNの自然数である。つまり、音響条件特徴量ベクトルYは、1からNフレーム目までの各フレームの音響条件特徴量ベクトルyを含み、各フレームの音響条件特徴量ベクトルyはK次元のベクトルで表現される。なお、各フレームの音響条件特徴量ベクトルyは各フレームで異なる値を取るのではなく、数秒の間は同じ値に固定してもよいし、一発話の間は同一の値に固定してもよい。
音響モデルパラメータ補正部104は、記憶部150から読み込んだ音響モデルを特徴付ける音響モデルパラメータΛを、条件特徴量計算部103により生成された音響条件特徴量ベクトルYに基づき、上記(8−1)式および(8−2)式により補正する。なお、音響モデルパラメータ補正部104により補正される音響モデルパラメータΛの初期値は、乱数で決めたパラメータまたは第1乃至第3の従来技術により学習された音響モデルパラメータ等とする。音響モデルパラメータ補正部104は、補正により生成された補正後のパラメータ^ΛをHMM状態の出力確率計算部105へ出力する。
HMM状態の出力確率計算部105は、音響モデルパラメータ補正部104により補正された音響モデルパラメータ^Λと、特徴量抽出部101により生成された特徴量ベクトルOに基づき、各HMM状態の出力確率を計算する。HMM状態の出力確率計算部105の具体的な処理は、第1の従来技術のHMM状態の出力確率計算部205a、第2の従来技術のHMM状態の出力確率計算部205bと同様である。
エラー計算部121は、HMM状態の出力確率計算部105により計算された各HMM状態の出力確率と、入力された正解シンボル系列−S(正解HMM状態)とに基づき、上記(13)式によりエラーベクトルδI,nを計算する。また、エラー計算部121は、上記(16)式により、音響条件特徴量の計算モデルのニューラルネットワークに対して逆伝搬されてきた誤差を表すエラーベクトルδ´I´,nを計算する。
音響モデルパラメータ微分値計算部122は、エラー計算部121の計算によるエラーベクトルδI,nと、音響モデルパラメータ補正部104により補正された音響モデルパラメータ^Λに基づき、音響モデルパラメータ微分値を計算する。音響モデルパラメータ微分値計算部122は、逆伝搬した誤差を示す上記(11−1)式、(11−2)式および(12)式により音響モデルパラメータ微分値を計算する。または、音響モデルパラメータ微分値計算部122は、従来のStochastic Gradient Descent(SGD)法で計算することもできる(上記文献6参照)。また、パラメータ学習の高速化のためによく用いられるmomentumやL2 Regularizationをあわせて用いることもできる。
音響モデルパラメータ更新部123は、記憶部150から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値計算部122により計算された音響モデルパラメータ微分値とに基づき、下記(20−1)式および(20−2)式により音響モデルパラメータΛを更新する。このように、音響モデルパラメータ更新部123は、補正後の音響モデルパラメータおよび特徴量を基に計算された各値を基に音響モデルパラメータを更新する。
Figure 0006637078
ただし、上記(20−1)式および(20−2)式において、重み行列~Wi,kおよびバイアスベクトル~bi,kは、更新した音響モデルパラメータ~Λであり、重み行列−Wi,kおよびバイアスベクトル−bi,kは1つ前のステップで得られた音響モデルパラメータ−Λである。また、上記(20−1)式および(20−2)式において、ηはSGDの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。ηは、音響モデルパラメータ補正用パラメータである。
条件特徴量計算部のパラメータ微分値計算部124は、エラー計算部121の計算によるエラーベクトルδI,nと、音響条件の計算モデルパラメータΩに基づき、音響条件の計算モデルパラメータ、すなわち条件特徴量計算部のパラメータ微分値を計算する。条件特徴量計算部のパラメータ微分値計算部124は、逆伝搬した誤差を示す上記(14−1)式、(14−2)式および(15)式により条件特徴量計算部のパラメータ微分値を計算する。また、条件特徴量計算部のパラメータ微分値計算部124は、音響モデルパラメータ微分値計算部122と同様の方法を用いることもできる。
条件特徴量計算部のパラメータ更新部125は、記憶部150から読み込んだ音響条件の計算モデルパラメータΩと、条件特徴量計算部のパラメータ微分値計算部124により計算された条件特徴量計算部のパラメータ微分値とに基づき、下記(21−1)式および(21−2)式により音響条件の計算モデルパラメータΩを更新する。このように、条件特徴量計算部のパラメータ更新部125は、補正後パラメータおよび特徴量を基に計算された各値を基に音響条件の計算モデルパラメータを更新する。
Figure 0006637078
ただし、上記(21−1)式および(21−2)式において、重み行列~W´i,kおよびバイアスベクトル~b´i,kは、更新した音響条件の計算モデルパラメータ~Ωであり、重み行列−W´i,kおよびバイアスベクトル−b´i,kは、更新前の音響条件の計算モデルパラメータ−Ωである。また、上記(21−1)式および(21−2)式において、η´はSGDの変数であるLearning Rateであり、例えば0.1〜0.0001等の微小値である。η´は、音響条件の計算モデルパラメータ補正用パラメータである。
収束判定部126は、音響モデルパラメータ更新部123により更新された音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωについて、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習(推定)が所定の収束条件を満たすか否かを判定する。収束判定部126は、所定の収束条件を満たすと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λを、音響モデル学習装置10の出力値として出力する。音響モデル学習装置10から出力された音響モデルパラメータ~Λは、例えば、記憶部150に記憶される。
一方、収束判定部126は、所定の収束条件を満たさないと判定した場合には、収束条件充足判定時の音響モデルパラメータ~Λを音響モデルパラメータ補正部104に出力し、さらに収束条件充足判定時の音響条件の計算モデルパラメータ~Ωを条件特徴量計算部103に出力し、条件特徴量計算部103、音響モデルパラメータ補正部104、HMM状態の出力確率計算部105、エラー計算部121、音響モデルパラメータ微分値計算部122、音響モデルパラメータ更新部123、収束判定部126が処理を繰り返す。このとき、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωは、さらに記憶部150に記憶され、次回の処理における各パラメータの初期値として用いられるようにしてもよい。
なお、収束判定部126は、例えば、(1)1つ前のステップで得られた音響モデルパラメータ−Λまたは音響条件の計算モデルパラメータ−Ωと、更新された音響モデルパラメータ~Λまたは音響条件の計算モデルパラメータ~Ωとの差分が閾値以下になった場合、(2)収束条件充足判定の繰り返し回数が所定の回数以上になった場合、(3)学習用音声データの一部を用いて性能を評価した際に、所定の性能指標が所定値以上悪化した場合等のいずれかの所定条件に基づき、収束条件充足判定を行う。
(実施形態に係る音響モデル学習処理)
図11は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。まず、音響モデル学習装置10は、記憶部150から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS101)。次に、音響モデル学習装置10は、記憶部150から音響条件の計算モデル(音響条件の計算モデルパラメータΩ)を読み込む(ステップS102)。次に、音響モデル学習装置10は、学習用音声データを読み込む(ステップS103)。次に、音響モデル学習装置10は、正解シンボル系列−Sを読み込む(ステップS104)。
次に、音響モデル学習装置10は、学習用音声データから特徴量ベクトルOを抽出する(ステップS105)。次に、音響モデル学習装置10は、学習用音声データから第2特徴量ベクトル系列Uを抽出する(ステップS106)。次に、音響モデル学習装置10は、音響条件の計算モデルパラメータΩおよび第2特徴量ベクトル系列から、音響条件特徴量ベクトルYを上記(9)式により計算する(ステップS107)。次に、音響モデル学習装置10は、記憶部150から読み込んだ音響モデルパラメータΛを、音響条件特徴量ベクトルYに基づき、上記(8−1)式および(8−2)式により補正する(ステップS108)。次に、音響モデル学習装置10は、補正された音響モデルパラメータΛと、特徴量ベクトルOに基づき、各HMM状態の出力確率を計算する(ステップS109)。
次に、音響モデル学習装置10は、各HMM状態の出力確率と、入力された正解シンボル系列−Sとに基づき、上記(13)式によりエラーベクトルδI,nを計算し、また、上記(16)式によりエラーベクトルδ´I´,nを計算する(ステップS110)。
次に、音響モデル学習装置10は、エラーベクトルδI,nと、補正された音響モデルパラメータΛに基づき、音響モデルパラメータ微分値を計算する(ステップS111)。次に、音響モデル学習装置10は、記憶部150から読み込んだ音響モデルパラメータΛと、音響モデルパラメータ微分値とに基づき、上記(20−1)式および(20−2)式により音響モデルパラメータΛを更新する(ステップS112)。
次に、音響モデル学習装置10は、エラーベクトルδ´I´,nと、音響条件の計算モデルパラメータΩに基づき、音響条件の計算モデルパラメータ微分値を計算する(ステップS113)。次に、音響モデル学習装置10は、記憶部150から読み込んだ音響条件の計算モデルパラメータΩと、音響条件の計算モデルパラメータ微分値とに基づき、上記(21−1)式および(21−2)式により音響条件の計算モデルパラメータΩを更新する(ステップS114)。
次に、音響モデル学習装置10は、更新された音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωについて、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たすか否かを判定する(ステップS115)。音響モデル学習装置10は、音響モデルパラメータΛおよび音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たす場合(ステップS115Yes)、ステップS116へ処理を移す。一方、音響モデル学習装置10は、音響モデルパラメータΛまたは音響条件の計算モデルパラメータΩの学習が所定の収束条件を満たさない場合(ステップS115No)、ステップS107またはステップS108へ処理を移す。ステップS116では、音響モデル学習装置10は、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λを、音響モデル学習装置10の出力値として出力する(ステップS116)。このとき、所定の収束条件を満たすと判定した時の音響モデルパラメータ~Λおよび音響条件の計算モデルパラメータ~Ωは、さらに記憶部150に記憶され、次回の処理における各パラメータの初期値として用いられるようにしてもよい。
(実施形態に係る音声認識装置の構成)
図12は、実施形態に係る音声認識装置の構成の一例を示す図である。図12に示すように、実施形態に係る音声認識装置20は、特徴量抽出部201、第2特徴量抽出部202、条件特徴量計算部203、音響モデルパラメータ補正部204、HMM状態の出力確率計算部205、単語列検索部206を有する。また、音声認識装置20は、記憶部250と接続される。
記憶部250は、音響モデル学習装置10により更新された音響モデル(音響モデルパラメータΛ)、音響条件の計算モデル(音響条件の計算モデルパラメータΩ)、言語モデル、音響モデルパラメータ補正用パラメータη、音響条件の計算モデルパラメータ補正用パラメータη´をあらかじめ記憶する。
特徴量抽出部201は、マイク等で観測した認識用音声データを読み込み、認識用音声データから特徴量を抽出し、特徴量ベクトルOを生成する。すなわち、特徴量抽出部201は、認識用音声データから特徴量を抽出する。特徴量抽出部201の具体的な処理は、音響モデル学習装置10の特徴量抽出部101と同様である。
第2特徴量抽出部202は、マイク等で観測した認識用音声データを読み込み、認識用音声データから特徴量を抽出し、第2特徴量ベクトル系列Uを生成する。すなわち、特徴量抽出部201は、認識用音声データから特徴量を抽出する。特徴量抽出部201の具体的な処理は、音響モデル学習装置10の第2特徴量抽出部102と同様である。
条件特徴量計算部203は、音響条件の計算モデルパラメータΩ、および第2特徴量抽出部202で抽出された第2特徴量を読み込み、(9)式により音響条件特徴量を計算する。また、条件特徴量計算部203は、計算した音響条件特徴量を、(19)式のような特徴量ベクトルYとして音響モデルパラメータ補正部204に出力する。条件特徴量計算部203の具体的な処理は、音響モデル学習装置10の条件特徴量計算部103と同様である。
音響モデルパラメータ補正部204は、記憶部250から読み込んだ音響モデルパラメータΛと、条件特徴量計算部203によりで生成された音響条件特徴量ベクトルYとに基づき、上記(8−1)式および(8−2)式により、音響モデルパラメータΛを補正する。音響モデルパラメータ補正部204の具体的な処理は、音響モデル学習装置10の音響モデルパラメータ補正部104と同様である。
HMM状態の出力確率計算部205は、音響モデルパラメータ補正部204により補正された音響モデルパラメータ^Λと、特徴量抽出部201により生成された特徴量ベクトルOに基づき、各HMM状態の出力確率を計算する。HMM状態の出力確率計算部205の具体的な処理は、音響モデル学習装置10のHMM状態の出力確率計算部105と同様である。
単語列検索部206は、特徴量および補正後パラメータを基に計算されたHMM状態の出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。すなわち、単語列検索部206は、HMM状態の出力確率計算部205により計算された各HMM状態の出力確率をもとに、記憶部250から読み込んだ言語モデルを検索し、音声認識結果として単語列^Sを出力する。単語列検索部206の具体的な処理は、第1の従来技術の音声認識装置20aの単語列検索部206a、第2の従来技術の音声認識装置20bの単語列検索部206bと同様である。
(実施形態に係る音声認識処理)
図13は、実施形態に係る音声認識処理の一例を示すフローチャートである。まず、音声認識装置20は、記憶部250から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS201)。次に、音声認識装置20は、記憶部250から音響条件の計算モデルを読み込む(ステップS202)。次に、音声認識装置20は、記憶部250から言語モデルを読み込む(ステップS203)。次に、音声認識装置20は、認識用音声データを読み込む(ステップS204)
次に、音声認識装置20は、学習用音声データから特徴量ベクトルOを抽出する(ステップS206)。次に、音声認識装置20は、学習用音声データから第2特徴量ベクトル系列Uを抽出する(ステップS207)。次に、音声認識装置20は、音響条件の計算モデルパラメータΩおよび第2特徴量ベクトル系列から、音響条件特徴量ベクトルYを上記(9)式により計算する(ステップS208)。次に、音声認識装置20は、記憶部250から読み込んだ音響モデルパラメータΛを、音響条件特徴量ベクトルYに基づき、上記(8−1)式および(8−2)式により補正する(ステップS209)。
次に、音声認識装置20は、補正された音響モデルパラメータΛと、特徴量ベクトルOに基づき、各HMM状態の出力確率を計算する(ステップS210)。次に、音声認識装置20は、各HMM状態の出力確率をもとに、記憶部250から読み込んだ言語モデルを検索する(ステップS211)。次に、音声認識装置20は、ステップS211の検索結果から、音声認識結果として単語列^Sを出力する(ステップS212)。
(その他の実施形態)
実施形態では、DNN(CADNN)に基づく音響モデルを音響条件の計算モデルと結合させる場合について説明したが、DNNに限らず、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、BLSTM(Bidirectional Long Short-Term Memory)のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを音響条件の計算モデルと結合させ、同様の定式化を行うことが可能である。また、本発明における音響モデルは、HMMに基づくものに限られずニューラルネットワークを用いて出力確率を計算する任意の音響モデルとすることができる。例えば、本発明における音響モデルは、CTC(Connectionist Temporal Classification)やencoder-decoderに基づくモデルであってもよい。
(実施形態による効果)
実施形態の音響モデル学習装置10において、特徴量抽出部101および第2特徴量抽出部102は、音声データの特徴を示す特徴量を抽出する。また、条件特徴量計算部103は、ニューラルネットワークで表される音響条件の計算モデルを特徴付ける音響条件計算モデルパラメータ、および特徴量を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件の計算モデルを用いて計算する。また、音響モデルパラメータ補正部104は、音響条件の計算モデルの出力層が結合されたニューラルネットワークで表される音響モデルを特徴付ける音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、音響モデルパラメータ更新部123は、補正後パラメータおよび特徴量を基に音響モデルパラメータを更新する。また、条件特徴量計算部のパラメータ更新部125は、補正後パラメータおよび特徴量を基に音響条件計算モデルパラメータを更新する。
これにより、実施形態は、音響条件特徴量を、正解ラベル(話者IDやトランスクリプション)を用いず計算でき、また、少ない音声データ(数秒程度)から計算することができるという特長を持つため、結果として高速な音響モデル適応が可能となる。
すなわち、実施形態は、少ない音声データを用いて音響モデルを音響条件に適応させることができ、従来技術のように音響モデルを音響条件毎に切り替えることなく、従来技術より高い音声認識性能を達成できる。
また、実施形態は、音響モデルを表すニューラルネットワークにおいて逆伝搬してきた誤差を基に、音響条件の計算モデルを表すニューラルネットワークの最適化を行うことができるため、音響条件特徴量の計算モデルのパラメータと音響モデルのパラメータの同時最適化を行うことができる。したがって、音響条件特徴量の計算モデルを含む全ニューラルネットワークを音声認識の最適化基準に基づき同時最適化することが可能となり、音声認識精度が改善される。
また、特徴量抽出部101および第2特徴量抽出部102は、特徴量として第1の特徴量、および第1の特徴量と異なる第2の特徴量を抽出するようにしてもよい。このとき、条件特徴量計算部103は、音響条件計算モデルパラメータおよび第2の特徴量を基に音響条件特徴量を計算する。また、音響モデルパラメータ更新部123は、補正後パラメータおよび第1の特徴量を基に音響モデルパラメータを更新する。また、条件特徴量計算部のパラメータ更新部125は、補正後パラメータおよび第2の特徴量を基に音響条件計算モデルパラメータを更新する。これにより、音響モデルおよび音響条件計算モデルに対してそれぞれ異なる特徴量を用いつつ同時最適化を行うことができるため、それぞれのモデルをより高精度に最適化できるような特徴量を用いて学習を行うことができるようになる。
また、実施形態の音声認識装置20において、音声認識用の特徴量抽出部201および第2特徴量抽出部202は、音声データの特徴を示す特徴量を抽出する。また、音声認識用の条件特徴量計算部203は、音響条件計算モデルパラメータ、および特徴量を基に、音声データの音響条件の特徴を示す音響条件特徴量を、音響条件の計算モデルを用いて計算する。また、音声認識用の音響モデルパラメータ補正部204は、音響モデルパラメータを、音響条件特徴量を基に補正したパラメータである補正後パラメータを生成する。また、単語列検索部206は、特徴量および補正後パラメータを基に計算されたHMM状態の出力確率と、言語モデルの生成確率と、を用いて、単語列を出力する。音声認識の最適化基準を満たした音響条件計算モデルパラメータを用いて音声認識を行うことができるため、音声認識の精度が向上する。
表1に、音声認識タスクAURORA4において、各手法を用い、音響モデルを発話ごとに発話者に対して教師なし適応させた時の結果(単語誤り率)を表している。音響条件特徴量は一発話(数秒程度)ごとに計算しているため、少量データを基に高速な音響モデル適応を行っていることになる。また、用いた手法は、ベースライン(従来ニューラルネットワークに基づく音声認識)、CADNN、および実施形態で用いた本発明に係る手法であるCADNN−JTの3つである。ここで、表1から、本発明は従来音声認識(ベースライン)や従来CADNNよりも高い性能を達成していることがわかる。
Figure 0006637078
(音響モデル学習装置および音声認識装置の装置構成について)
図10に示す音響モデル学習装置10および図12に示す音声認識装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置10および音声認識装置20の機能の分散および統合の具体的形態は図示のものに限られず、全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。例えば、特徴量抽出部101および第2特徴量抽出部102は、一体の機能部であってもよく、HMM状態の出力確率計算部105と条件特徴量計算部103にそれぞれ異なる特徴量を出力するようにしてもよい。なお、特徴量抽出部201および第2特徴量抽出部202についても同様である。
また、例えば、音響モデル学習装置10および音声認識装置20は、一体の装置であってもよい。音響モデル学習装置10および音声認識装置20が一体の装置である場合には、音響モデル学習装置10と音声認識装置20において同様の機能を有する特徴量抽出部101と特徴量抽出部201、第2特徴量抽出部102と第2特徴量抽出部202、条件特徴量計算部103と条件特徴量計算部203、音響モデルパラメータ補正部104と音響モデルパラメータ補正部204、HMM状態の出力確率計算部105とHMM状態の出力確率計算部205が同一の機能部であってもよい。
また、音響モデル学習装置10および音声認識装置20における各処理は図示のものに限られず、処理順序および処理の統合もしくは分離することができる。例えば、実施形態におけるステップS101〜S104ならびにステップS201〜S205は処理順序を入れ替えてもよい。
また、音響モデル学習装置10および音声認識装置20において行われる各処理は、全部または任意の一部が、CPU等の処理装置および処理装置により解析実行されるプログラムにて実現されてもよい。音響モデル学習装置10および音声認識装置20において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラム)
一実施形態として、音響モデル学習装置および音声認識装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の音響モデル学習または音声認識を実行する音響モデル学習プログラムまたは音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音響モデル学習プログラムまたは音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音響モデル学習装置または音声認識装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、音響モデル学習装置および音声認識装置は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音響モデル学習または音声認識に関するサービスを提供するサーバ装置として実装することもできる。例えば、音響モデル学習装置は、学習用音声データを入力とし、音響条件の計算モデルを出力とする音響モデル学習サービスを提供するサーバ装置として実装される。また、例えば、音声認識装置は、認識用音声データを入力とし、認識結果の単語列を出力とする音声認識サービスを提供するサーバ装置として実装される。これらの場合、音響モデル学習装置および音声認識装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の音響モデル学習または音声認識に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図14は、プログラムが実行されることにより、音響モデル学習装置または音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音響モデル学習装置または音声認識装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音響モデル学習装置または音声認識装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 音響モデル学習装置
20 音声認識装置
101、201 特徴量抽出部
102、202 第2特徴量抽出部
103、203 条件特徴量計算部
104、204 音響モデルパラメータ補正部
105、205 HMM状態の出力確率計算部
121 エラー計算部
122 音響モデルパラメータ微分値計算部
123 音響モデルパラメータ更新部
124 条件特徴量計算部のパラメータ微分値計算部
125 条件特徴量計算部のパラメータ更新部
126 収束判定部
206 単語列検索部
150、250 記憶部

Claims (4)

  1. 入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
    入力された情報を音響条件特徴量に変換する音響条件特徴量計算手段と、
    音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換手段と、
    前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、
    前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第1の変換手段により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算手段の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新手段と
    を含むことを特徴とする音響モデル学習装置。
  2. 前記ニューラルネットワークは、
    複数の分割された隠れ層と、
    前記複数の分割された隠れ層の各々から出力される中間状態を用いて前記シンボル系列を特定する情報を得る層と、を含み、
    前記音響モデルパラメータ補正手段は、前記隠れ層の各々について、当該隠れ層に対応する前記音響条件特徴量に基づき、当該隠れ層のパラメータを補正するものである
    ことを特徴とする請求項に記載の音響モデル学習装置。
  3. 音響モデル学習装置によって実行される音響モデル学習方法であって、
    入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
    入力された情報を音響条件特徴量に変換する音響条件特徴量計算工程と、
    音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換工程と、
    前記音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正工程と、
    前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより、学習用音声データの各々を第1の変換工程により変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータと前記音響条件特徴量計算工程の変換処理を特定するパラメータとを更新する音響モデルパラメータ更新工程と
    を含むことを特徴とする音響モデル学習方法。
  4. コンピュータを、請求項に記載の音響モデル学習装置として機能させるためのプログラム。
JP2017565514A 2016-02-02 2017-01-26 音響モデル学習装置、音響モデル学習方法及びプログラム Active JP6637078B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016018016 2016-02-02
JP2016018016 2016-02-02
PCT/JP2017/002740 WO2017135148A1 (ja) 2016-02-02 2017-01-26 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2017135148A1 JPWO2017135148A1 (ja) 2018-11-29
JP6637078B2 true JP6637078B2 (ja) 2020-01-29

Family

ID=59499773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017565514A Active JP6637078B2 (ja) 2016-02-02 2017-01-26 音響モデル学習装置、音響モデル学習方法及びプログラム

Country Status (4)

Country Link
US (1) US11264044B2 (ja)
JP (1) JP6637078B2 (ja)
CN (1) CN108701452B (ja)
WO (1) WO2017135148A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6646337B2 (ja) * 2016-08-22 2020-02-14 日本電信電話株式会社 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
EP3692634A1 (en) * 2017-10-04 2020-08-12 Google LLC Methods and systems for automatically equalizing audio output based on room characteristics
JP6973192B2 (ja) * 2018-03-08 2021-11-24 日本電信電話株式会社 言語モデルを利用する装置、方法及びプログラム
JP6891144B2 (ja) * 2018-06-18 2021-06-18 ヤフー株式会社 生成装置、生成方法及び生成プログラム
JP7231181B2 (ja) * 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109979436B (zh) * 2019-04-12 2020-11-13 南京工程学院 一种基于频谱自适应法的bp神经网络语音识别***及方法
CN111862952B (zh) * 2019-04-26 2024-04-12 华为技术有限公司 一种去混响模型训练方法及装置
CN110503944B (zh) * 2019-08-29 2021-09-24 思必驰科技股份有限公司 语音唤醒模型的训练和使用方法及装置
CN110634474B (zh) * 2019-09-24 2022-03-25 腾讯科技(深圳)有限公司 一种基于人工智能的语音识别方法和装置
CN110827801B (zh) * 2020-01-09 2020-04-17 成都无糖信息技术有限公司 一种基于人工智能的自动语音识别方法及***
CN111415682A (zh) * 2020-04-03 2020-07-14 北京乐界乐科技有限公司 一种用于乐器的智能评测方法
CN111477249A (zh) * 2020-04-03 2020-07-31 北京乐界乐科技有限公司 一种用于乐器的智能评分方法
CN111540364A (zh) * 2020-04-21 2020-08-14 同盾控股有限公司 音频识别方法、装置、电子设备及计算机可读介质
US11244668B2 (en) * 2020-05-29 2022-02-08 TCL Research America Inc. Device and method for generating speech animation
CN112466285B (zh) * 2020-12-23 2022-01-28 北京百度网讯科技有限公司 离线语音识别方法、装置、电子设备及存储介质
US11551694B2 (en) 2021-01-05 2023-01-10 Comcast Cable Communications, Llc Methods, systems and apparatuses for improved speech recognition and transcription
CN113035177B (zh) * 2021-03-11 2024-02-09 平安科技(深圳)有限公司 声学模型训练方法及装置
CN113327585B (zh) * 2021-05-31 2023-05-12 杭州芯声智能科技有限公司 一种基于深度神经网络的自动语音识别方法
US11862147B2 (en) * 2021-08-13 2024-01-02 Neosensory, Inc. Method and system for enhancing the intelligibility of information for a user
CN113823275A (zh) * 2021-09-07 2021-12-21 广西电网有限责任公司贺州供电局 一种用于电网调度的语音识别方法及***
CN114842837B (zh) * 2022-07-04 2022-09-02 成都启英泰伦科技有限公司 一种快速声学模型训练方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JP4230254B2 (ja) * 2003-03-12 2009-02-25 日本電信電話株式会社 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体
JP4950600B2 (ja) * 2006-09-05 2012-06-13 日本電信電話株式会社 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2012053218A (ja) 2010-08-31 2012-03-15 Nippon Hoso Kyokai <Nhk> 音響処理装置および音響処理プログラム
JP5738216B2 (ja) * 2012-02-27 2015-06-17 日本電信電話株式会社 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9177550B2 (en) * 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
CN104143327B (zh) * 2013-07-10 2015-12-09 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104376842A (zh) * 2013-08-12 2015-02-25 清华大学 神经网络语言模型的训练方法、装置以及语音识别方法
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9324321B2 (en) * 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
CN104157290B (zh) * 2014-08-19 2017-10-24 大连理工大学 一种基于深度学习的说话人识别方法
KR102449837B1 (ko) * 2015-02-23 2022-09-30 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치

Also Published As

Publication number Publication date
US20210193161A1 (en) 2021-06-24
JPWO2017135148A1 (ja) 2018-11-29
CN108701452A (zh) 2018-10-23
US11264044B2 (en) 2022-03-01
WO2017135148A1 (ja) 2017-08-10
CN108701452B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
US10643602B2 (en) Adversarial teacher-student learning for unsupervised domain adaptation
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN110914899A (zh) 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP6509694B2 (ja) 学習装置、音声検出装置、学習方法およびプログラム
US10580432B2 (en) Speech recognition using connectionist temporal classification
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP6495814B2 (ja) 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6612796B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
Zhu et al. Gaussian free cluster tree construction using deep neural network.
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP2021039216A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Scutelnicu et al. A speech to text transcription approach based on Romanian Corpus
Vaičiulytė et al. Isolated Word Recognition by Recursive HMM Parameter Estimation Algorithm
CN117351947A (zh) 模型训练方法及装置、计算机可读存储介质、终端
JP2019028390A (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
Abdelhamid et al. Joint optimization on decoding graphs using minimum classification error criterion

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180801

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191219

R150 Certificate of patent or registration of utility model

Ref document number: 6637078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150