JP2015075706A - 誤り修正モデル学習装置、及びプログラム - Google Patents
誤り修正モデル学習装置、及びプログラム Download PDFInfo
- Publication number
- JP2015075706A JP2015075706A JP2013213106A JP2013213106A JP2015075706A JP 2015075706 A JP2015075706 A JP 2015075706A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2015075706 A JP2015075706 A JP 2015075706A
- Authority
- JP
- Japan
- Prior art keywords
- word
- error correction
- correction model
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 200
- 238000013528 artificial neural network Methods 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 60
- 238000012545 processing Methods 0.000 description 48
- 239000013598 vector Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 12
- 238000007796 conventional method Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】言語モデル学習部23は、発話中の単語と前の発話から抽出した話題特徴量と前の単語の隠れ層の出力とを入力として後続の単語の接続確率を再帰的ニューラルネットワークにより算出する言語モデルを、静的なテキストデータから学習する。整列部32は、音声データに対して正解単語列を整列し、正解単語列の各単語に対する再帰的ニューラルネットワークの隠れ層の出力を算出する。音声認識部33は、音声データを音声認識し、音声認識結果の各単語に対する隠れ層の出力を算出する。誤り修正モデル学習部35は、整列された正解単語列を構成する単語の言語的な特徴及び隠れ層の出力と音声認識結果を構成する単語の言語的な特徴及び隠れ層の出力とに基づいて、誤り修正モデルを統計的に学習する。
【選択図】図2
Description
この発明によれば、誤り修正モデル学習装置は、静的なテキストにおける文章中の単語と、この文章よりも前の文章から抽出した話題特徴量と、前の単語について算出した隠れ層の出力とを入力として後続する単語の接続確率を再帰的ニューラルネットワークにより算出する言語モデルを学習する。誤り修正モデル学習装置は、学習データとして用意された音声データ及び正解単語列を音声資源記憶部から読み出すと、音声データに対して正解単語列を整列し、学習した言語モデルを用いて、正解単語列を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。さらに、誤り修正モデル学習装置は、学習データの音声データを音声認識し、学習した言語モデルを用いて、音声認識結果を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。誤り修正モデル学習装置は、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された正解単語列を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴と、音声認識結果を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴とに基づいて学習する。
これにより、誤り修正モデル学習装置は、発話に含まれる単語に加えて、1つ前の単語の隠れ層の出力と、前の発話から得られた話題特徴量を入力に用いる再帰的ニューラルネットワークを学習に利用するため、従来よりも長い文脈および話題を考慮した誤り修正モデルを学習することができる。また、誤り修正モデル学習装置は、大量に入手しやすいテキストデータを誤り修正モデルの学習の一部に用いているため、統計的に頑健な誤り修正モデルを学習することができる。
この発明によれば、誤り修正モデル学習装置は、音声データが与えられたときの正解単語列の事後確率と音声認識結果の事後確率との差分として定められる評価関数に基づいて、誤り修正モデルのモデルパラメータを統計的に算出する。
これにより、誤り修正モデル学習装置は、正解単語列の事後確率が高くなるように認識誤りの傾向を効率的に学習し、誤り修正モデルを生成することができる。
この発明によれば、誤り修正モデル学習装置は、話題特徴量を、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出する。
これにより、誤り修正モデル学習装置は、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章より前の発話または文章から得られる単語行列を低次元の因子に圧縮した表現により話題特徴量を抽出するため、データスパースネスに対して頑健な言語モデルを学習することができる。
この発明によれば、誤り修正モデル学習装置は、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータから言語モデルを学習する。
これにより、誤り修正モデル学習装置は、比較的大量に入手可能なテキストを誤り修正モデルの学習の一部に用いるため、誤り修正モデルの頑健性が向上することに加え、データスパースネスの問題も回避することができる。
この発明によれば、誤り修正モデル学習装置は、単語あるいは単語の品詞を言語的な特徴として抽出する。誤り修正モデル学習装置は、言語的な特徴に基づく素性関数の値と、再帰的ニューラルネットワークの隠れ層の出力及び素性関数のモデルパラメータとを用いて音声認識のスコアを修正する算出式である誤り修正モデルを、整列された正解単語列の素性関数の値を当該正解単語列について算出された隠れ層の出力により重み付けした値と、音声認識結果の素性関数の値を当該音声認識結果について算出された隠れ層の出力により重み付けした値とに基づいて学習する。
これにより、誤り修正モデル学習装置は、単語あるいは単語の品詞に基づいて認識誤り傾向を効率的に学習し、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
この発明によれば、誤り修正モデル学習装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、誤り修正モデル学習装置は、入力された音声データに対して、認識率のよい音声認識結果を得ることができる。
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに提案されている。誤り修正モデルのモデルパラメータは、音声認識結果と正解単語列とからなる学習データに基づいて推定される。しかし、実際の音声認識では、学習データと音声認識の対象が、それらの話題性において完全に適合することは多くない。このような話題性が完全に一致しない学習データに基づいて学習した誤り修正モデルを利用して音声認識を行っても、その音声認識の性能は、音声認識の対象となる発話の内容に対して必ずしも最適とはいえない。また、誤り修正モデルでは、通常2〜3単語連鎖程度の比較的短い単語列(文脈)に基づく特徴を利用しているが、音声言語を含む自然言語では、文中の単語の依存関係は、より長い文脈に基づいていると考えられる。
本実施形態の誤り修正モデル学習装置は、音声認識の誤りを修正する統計的な誤り修正モデルのパラメータを、長い文脈や話題といった特徴を利用して識別的かつ頑健に学習し、音声認識に適用する。これにより、誤り修正モデルを発話内容に適合させ、音声認識性能を改善する。以下、本実施形態の誤り修正モデル学習装置に適用する誤り修正モデルの学習アルゴリズムについて説明する。
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して最も尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、対数尤度として定義される音響スコアは隠れマルコフモデル(Hidden Markov Model、HMM)及び混合ガウス分布(Gaussian Mixture Model、GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、このスコアは、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表す。
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
本実施形態では、従来法の課題を解決するために、再帰的ニューラルネットワークに基づいて、文脈および話題に関する特徴量を抽出し、誤り修正モデルのモデルパラメータを推定する。再帰的ニューラルネットワークでは、特徴量の次元圧縮が可能であるものの、ネットワークの層間を結ぶ多数のパラメータの推定には大量の学習データが必要となる。本実施形態では、パラメータの一部をニュース原稿などの静的なテキストから推定することにより、データスパースネスの問題を解決する。
図8は、拡張した再帰的ニューラルネットワークを示す図である。通常、統計的言語モデルにおける再帰的ニューラルネットワークでは、単語および1時刻前の隠れ層の出力を入力とする。この入力に、現在着目している発話の直近の発話から得られた話題に関する情報をさらに利用することで、より長い範囲の文脈(話題)をニューラルネットワークに反映できる。つまり、同図に示す拡張した再帰的ニューラルネットワークにおいては、単語ベクトルwtおよび1時刻前(t−1)の隠れ層の出力ht−1に加え、話題に関する特徴量である話題特徴量ベクトルvをさらに入力としている。
図2は、本発明の一実施形態による誤り修正モデル学習装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。誤り修正モデル学習装置10は、コンピュータ装置により実現され、同図に示すように、言語モデル学習処理部20、誤り修正モデル学習処理部30、及び音声認識処理部40を備えて構成される。
図3は、図2に示す誤り修正モデル学習装置10の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
言語モデル学習処理部20は、図1に示す再帰的ニューラルネットワークに基づく言語モデルを学習する。言語資源記憶部21には、放送局内のニュース原稿を示すテキストデータや、ウェブ上のテキストデータなどが学習テキストとして集積されている。言語資源記憶部21は、学習テキストを記事ごとに分類し、各記事を文書データとして記憶する。
再帰的ニューラルネットワークの学習では、話題特徴量を入力として必要とする。このため、再帰的ニューラルネットワークに基づく言語モデルを学習する前に、話題モデル学習部22において、話題特徴量の抽出に用いる話題モデルを学習する。本実施形態では、話題特徴量として非負値行列因子分解(Non-negative Matrix Factorization)による特徴ベクトルを用いる。話題モデル学習部22は、言語資源記憶部21に記憶されている学習データから各記事の文書データを読み出し、読み出した文書データに非負値行列因子分解を適用することで話題特徴量を抽出する。非負値行列因子分解については、例えば、文献「D. D. Lee and H. S. Seung, Algorithm for Non-negative Matrix Factorization, In Advances in Neural Information Processing Systems, pp. 556-562, 2001.」に記載されている。
言語モデル学習部23は、ステップS1において得られた話題モデルを用いて、言語資源記憶部21に記憶されている学習テキストから再帰的ニューラルネットワークに基づく言語モデルを学習する。同様のモデルの学習は、例えば、文献「T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model, Microsoft Research Technical Report MSR-TR-2012-92, Microsoft, 2012.」に記載されているが、その概略は以下の通りである。
図10は、図8に示す再帰的ネットワークのフィードフォワード型ニューラルネットワークへの展開を示す図である。展開する深さは任意であるが、本実施形態では、深さを3とした例を示す。展開したフィードフォワード型ニューラルネットワークでは、誤差逆伝播法などのアルゴリズムを用いて、ニューラルネットワークの各層の重み係数行列を学習できる。誤差逆伝播法については、例えば、文献「R. Rojas, Neural Networks - A Systematic Introduction, pp.151-184, Springer-Verlag, 1996.」に記載されている。
[4.2.1 誤り修正モデルの学習方法]
誤り修正モデル学習処理部30は、ステップS1において求められた話題モデルと、ステップS2において求められた再帰的ニューラルネットワークによる言語モデルとを利用して、誤り修正モデルを学習する。
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
マージン最大化では、音声入力(音声データ)xに対して、以下の2つのペアが必要となる。
(1)正解単語列wr(音声データに対して整列済み)
(2)音声認識結果wd(音声データに対して整列済み)
確率的勾配降下法にしたがえば、重み係数行列Mo’の更新式は以下の式(15)のようになる。
誤り修正モデル学習処理部30は、上記の手法を学習データ全体に対して適用し、誤り修正モデルを学習する。つまり、誤り修正モデル学習処理部30は、音声データが与えられたときの誤り修正モデルを用いた正解単語列の生成確率(対数事後確率)と音声認識結果の生成確率(対数事後確率)とを用いて定められる評価関数である差分Dmが最大になるように、誤り修正モデルのモデルパラメータであるMo’の各要素を統計的に算出する。
以下、誤り修正モデル学習処理部30において誤り修正モデルを得るための処理を説明する。
整列部32は、音声資源記憶部31に学習データとして記憶されている音声データに対して、該当する正解単語の整列を行う。この整列は、音声資源記憶部31の各学習データに対して順序を考慮して行われる。これは、話題特徴量ベクトルの計算を行うために学習データの順序を保持しておく必要があるためである。また、整列部32は、各単語に、再帰的ニューラルネットワークに基づく言語モデルにより単語予測を行った際の隠れ層の出力を記録しておく。
一方、音声認識部33は、音声資源記憶部31に学習データとして記憶されている音声データを、言語モデルデータD2が示す言語モデルおよび話題モデルデータD1が示す話題モデルを用いて音声認識を実行し、音声認識結果wdを得る。音声認識部33は、ステップS3と同様の処理により、正解単語列データD3が示す正解単語列wrと同様に、音声認識結果wdにも、単語列を構成する各単語に音響スコアと言語スコアを付与し、さらに、再帰的ニューラルネットワークで単語予測を行った際の隠れ層の出力を記録する。つまり、音声認識部33は、音声認識結果wdを構成する単語wiの言語スコアflm(wi|wi−1 0,v)を式(8)、式(6)、及び式(7)により算出する。この際、音声認識部33は、言語モデルデータD2に設定されている言語モデル(重み係数行列Mh、Mo)と話題モデルデータD1から取得した話題モデル(非負行列W’)とを用いる。音声認識部33は、各単語の音響スコア、言語スコア、及び、隠れ層の出力を付加した音声認識結果wdを音声認識結果データD4に設定し、出力する。
素性定義部34は、正解単語列データD3が示す正解単語列wrに含まれる単語、および、音声認識結果データD4が示す音声認識結果wdに含まれる単語から言語的な特徴を抽出し、抽出された言語的な特徴で定義される素性関数を得る。素性関数の定義は、前述の通り以下とする。
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
図4は、誤り修正モデル学習部35が実行する誤り修正モデル学習処理の処理フローを示す。
誤り修正モデル学習部35は、nに初期値1を設定し(ステップS11)、kに初期値1を設定し(ステップS12)、jに初期値1を設定する(ステップS13)。
誤り修正モデル学習部35は、音声資源記憶部31に記憶されている学習データの第n番目の音声データxnに対応する正解単語列wr nおよび音声認識結果wd nを得る。誤り修正モデル学習部35は、正解単語列wr nを正解単語列データD3から読み出し、音声認識結果wd nを音声認識結果データD4から読み出す。誤り修正モデル学習部35は、第k番目の素性関数について、式(14)の右辺である以下の式(16)を計算する(ステップS14)。
誤り修正モデル学習部35は、kが素性関数の個数K(重み係数行列Mo’の列数)に達するまで、現在のkの値に1を加算してステップS13からの処理を繰り返す(ステップS18)。
誤り修正モデル学習部35は、学習データの全ての音声データxnについて処理を終了するまで、現在のnの値に1を加算してステップS12からの処理を繰り返す(ステップS19)。
音声認識アルゴリズムでは、通常Viterbi探索に基づき、音声入力が得られるたびに単語仮説をグラフのノード(頂点)として展開していく。
図5は、音声認識における単語仮説の展開を示す図である。各ノードには、音声入力の始点に向かって逆向きにトレースを行えるよう、音声認識結果を構成する単語仮説の情報を、音声認識スコアとともに保存する。
図6は、拡張されたノードデータのデータ構造体を示す図である。同図に示すように、図11に示すデータ構造体に、隠れ層の出力を設定するための「layer hidden_layer」が追加されている。
入力音声認識部44は、音声認識対象の音声データとして入力音声データD6が入力されると、言語モデル記憶部42に記憶されている言語モデル、及び音響モデル記憶部41に記憶されている音響モデルとを用いて、入力音声データD6の正解候補の単語列を得る。入力音声認識部44は、音声認識により得られた正解候補の単語列を構成する各単語(単語仮説)に対応したノードについて図6に示すデータ構造のノードデータを生成し、当該ノードの単語インデックスと、前ノード参照用ポインタを設定する。
以上説明した本実施形態の誤り修正モデル学習装置10によれば、従来よりも長い文脈および話題を考慮した誤り修正モデルが構成可能となる。入力音声認識部44は、この誤り修正モデルを用いて音声認識を行うことにより、認識誤りが削減される。また、本実施形態の誤り修正モデル学習装置10は、大量に入手しやすいテキストデータを誤り修正モデルのモデルパラメータの学習の一部に用いているため、統計的に頑健なモデルとなり、認識誤りが削減される。
なお、上述の誤り修正モデル学習装置10は、内部にコンピュータシステムを有している。そして、誤り修正モデル学習装置10の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
20 言語モデル学習処理部
21 言語資源記憶部
22 話題モデル学習部
23 言語モデル学習部
30 誤り修正モデル学習処理部
31 音声資源記憶部
32 整列部
33 音声認識部
34 素性定義部
35 誤り修正モデル学習部
40 音声認識処理部
41 音響モデル記憶部
42 言語モデル記憶部
43 誤り修正モデル記憶部
44 入力音声認識部
Claims (7)
- 文書のテキストデータを記憶する言語資源記憶部と、
再帰的ニューラルネットワークの入力に、前記言語資源記憶部に記憶されている前記テキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習部と、
音声データと正解単語列とを対応付けて記憶する音声資源記憶部と、
前記音声資源記憶部に記憶される前記音声データに対して前記正解単語列を整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列部と、
前記音声資源記憶部に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識部と、
整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する素性定義部と、
隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習部と、
を備えることを特徴とする誤り修正モデル学習装置。 - 前記誤り修正モデル学習部は、前記音声データが与えられたときの前記正解単語列の事後確率と前記音声認識結果の事後確率との差分により定められる評価関数が最大となるように前記モデルパラメータを統計的に算出する、
ことを特徴とする請求項1に記載の誤り修正モデル学習装置。 - 前記再帰的ニューラルネットワークに単語とともに入力される前記話題特徴量は、当該単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出される、
ことを特徴とする請求項1または請求項2に記載の誤り修正モデル学習装置。 - 前記言語資源記憶部が記憶するテキストデータは、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータである、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の誤り修正モデル学習装置。 - 前記言語的な特徴は、単語あるいは単語の品詞であり、
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数の値を、前記再帰的ニューラルネットワークの隠れ層の出力及び前記素性関数のモデルパラメータにより重み付けして得られたスコアにより音声認識のスコアを修正する算出式である、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の誤り修正モデル学習装置。 - 入力された音声データを、音響モデルと前記言語モデル学習部により学習された前記言語モデルとを用いて音声認識し、前記誤り修正モデル学習部により学習された前記誤り修正モデルにより、入力された前記音声データから得られた音声認識結果の選択における誤りを修正して出力する入力音声認識部をさらに備える、
ことを特徴とする請求項1から請求項5のいずれか1項に記載の誤り修正モデル学習装置。 - コンピュータを、
再帰的ニューラルネットワークの入力に、言語資源記憶手段に記憶されているテキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習手段と、
音声資源記憶手段に音声データと対応付けて記憶される正解単語列を、前記音声データに対して整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列手段と、
前記音声資源記憶手段に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識手段と、
整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する特徴量抽出手段と、
隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習手段と、
を具備する誤り修正モデル学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013213106A JP6222821B2 (ja) | 2013-10-10 | 2013-10-10 | 誤り修正モデル学習装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013213106A JP6222821B2 (ja) | 2013-10-10 | 2013-10-10 | 誤り修正モデル学習装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015075706A true JP2015075706A (ja) | 2015-04-20 |
JP6222821B2 JP6222821B2 (ja) | 2017-11-01 |
Family
ID=53000588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013213106A Expired - Fee Related JP6222821B2 (ja) | 2013-10-10 | 2013-10-10 | 誤り修正モデル学習装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6222821B2 (ja) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (ja) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2017117045A (ja) * | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
JP2018021949A (ja) * | 2016-08-01 | 2018-02-08 | 日本電信電話株式会社 | 単語予測装置、プログラム |
JP2018028872A (ja) * | 2016-08-19 | 2018-02-22 | ヤフー株式会社 | 学習装置、学習方法、プログラムパラメータおよび学習プログラム |
JP2018084627A (ja) * | 2016-11-22 | 2018-05-31 | 日本放送協会 | 言語モデル学習装置およびそのプログラム |
CN108630198A (zh) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | 用于训练声学模型的方法和设备 |
JP2019046188A (ja) * | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、及びプログラム |
JP2019091172A (ja) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
JP2020027224A (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020034704A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN111382297A (zh) * | 2018-12-29 | 2020-07-07 | 杭州海康存储科技有限公司 | 一种用户侧用户数据的上报方法及装置 |
CN111435408A (zh) * | 2018-12-26 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 对话纠错方法、装置和电子设备 |
WO2020189235A1 (ja) * | 2019-03-20 | 2020-09-24 | 国立大学法人大阪大学 | 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法 |
WO2020196021A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN111737980A (zh) * | 2020-06-22 | 2020-10-02 | 桂林电子科技大学 | 一种英语文本单词使用错误的纠正方法 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件***有限公司 | 文本纠错方法、***、计算机设备及可读存储介质 |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
CN112435671A (zh) * | 2020-11-11 | 2021-03-02 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及*** |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
WO2021166129A1 (ja) * | 2020-02-19 | 2021-08-26 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284209A (ja) * | 2004-03-31 | 2005-10-13 | Kddi Corp | 音声認識方式 |
JP2013117683A (ja) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り傾向学習方法、及びプログラム |
-
2013
- 2013-10-10 JP JP2013213106A patent/JP6222821B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284209A (ja) * | 2004-03-31 | 2005-10-13 | Kddi Corp | 音声認識方式 |
JP2013117683A (ja) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り傾向学習方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
内山 徹: "リカレントニューラルネットワーク予測モデルを用いた不特定話者単語音声認識", 電子情報通信学会論文誌(J83−D−II) 第2号, vol. p.776-783, JPN6017033301, 25 February 2000 (2000-02-25), JP, ISSN: 0003631934 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (ja) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
CN106373561B (zh) * | 2015-07-24 | 2021-11-30 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2017117045A (ja) * | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
JP2018021949A (ja) * | 2016-08-01 | 2018-02-08 | 日本電信電話株式会社 | 単語予測装置、プログラム |
JP2018028872A (ja) * | 2016-08-19 | 2018-02-22 | ヤフー株式会社 | 学習装置、学習方法、プログラムパラメータおよび学習プログラム |
JP2018084627A (ja) * | 2016-11-22 | 2018-05-31 | 日本放送協会 | 言語モデル学習装置およびそのプログラム |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108630198B (zh) * | 2017-03-23 | 2024-04-02 | 三星电子株式会社 | 用于训练声学模型的方法和设备 |
CN108630198A (zh) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | 用于训练声学模型的方法和设备 |
JP2019046188A (ja) * | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、及びプログラム |
JP2019091172A (ja) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
JP2020027224A (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
WO2020035998A1 (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
JP7190283B2 (ja) | 2018-08-24 | 2022-12-15 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020034704A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
US10984247B2 (en) | 2018-08-29 | 2021-04-20 | Fujitsu Limited | Accurate correction of errors in text data based on learning via a neural network |
JP7210938B2 (ja) | 2018-08-29 | 2023-01-24 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
CN111435408A (zh) * | 2018-12-26 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 对话纠错方法、装置和电子设备 |
CN111435408B (zh) * | 2018-12-26 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 对话纠错方法、装置和电子设备 |
CN111382297A (zh) * | 2018-12-29 | 2020-07-07 | 杭州海康存储科技有限公司 | 一种用户侧用户数据的上报方法及装置 |
CN111382297B (zh) * | 2018-12-29 | 2024-05-17 | 杭州海康存储科技有限公司 | 一种用户侧用户数据的上报方法及装置 |
WO2020189235A1 (ja) * | 2019-03-20 | 2020-09-24 | 国立大学法人大阪大学 | 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法 |
WO2020196021A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11521619B2 (en) | 2019-08-13 | 2022-12-06 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
WO2021166129A1 (ja) * | 2020-02-19 | 2021-08-26 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
CN111737980B (zh) * | 2020-06-22 | 2023-05-16 | 桂林电子科技大学 | 一种英语文本单词使用错误的纠正方法 |
CN111737980A (zh) * | 2020-06-22 | 2020-10-02 | 桂林电子科技大学 | 一种英语文本单词使用错误的纠正方法 |
CN111833845B (zh) * | 2020-07-31 | 2023-11-24 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN112435671B (zh) * | 2020-11-11 | 2021-06-29 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及*** |
CN112435671A (zh) * | 2020-11-11 | 2021-03-02 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及*** |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件***有限公司 | 文本纠错方法、***、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6222821B2 (ja) | 2017-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US11586930B2 (en) | Conditional teacher-student learning for model training | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US11580145B1 (en) | Query rephrasing using encoder neural network and decoder neural network | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
Masumura et al. | Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models | |
JP6047364B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
WO2016167779A1 (en) | Speech recognition device and rescoring device | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
JP2014077882A (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和*** | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
US20210049324A1 (en) | Apparatus, method, and program for utilizing language model | |
JP6366166B2 (ja) | 音声認識装置、及びプログラム | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
Song et al. | Exploiting different word clusterings for class-based RNN language modeling in speech recognition | |
JP2018031812A (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6222821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |