JP2015075706A - 誤り修正モデル学習装置、及びプログラム - Google Patents

誤り修正モデル学習装置、及びプログラム Download PDF

Info

Publication number
JP2015075706A
JP2015075706A JP2013213106A JP2013213106A JP2015075706A JP 2015075706 A JP2015075706 A JP 2015075706A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2015075706 A JP2015075706 A JP 2015075706A
Authority
JP
Japan
Prior art keywords
word
error correction
correction model
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013213106A
Other languages
English (en)
Other versions
JP6222821B2 (ja
Inventor
彰夫 小林
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013213106A priority Critical patent/JP6222821B2/ja
Publication of JP2015075706A publication Critical patent/JP2015075706A/ja
Application granted granted Critical
Publication of JP6222821B2 publication Critical patent/JP6222821B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】長い文脈や話題といった特徴を利用して誤り修正モデルのモデルパラメータを識別的かつ頑健に学習する。
【解決手段】言語モデル学習部23は、発話中の単語と前の発話から抽出した話題特徴量と前の単語の隠れ層の出力とを入力として後続の単語の接続確率を再帰的ニューラルネットワークにより算出する言語モデルを、静的なテキストデータから学習する。整列部32は、音声データに対して正解単語列を整列し、正解単語列の各単語に対する再帰的ニューラルネットワークの隠れ層の出力を算出する。音声認識部33は、音声データを音声認識し、音声認識結果の各単語に対する隠れ層の出力を算出する。誤り修正モデル学習部35は、整列された正解単語列を構成する単語の言語的な特徴及び隠れ層の出力と音声認識結果を構成する単語の言語的な特徴及び隠れ層の出力とに基づいて、誤り修正モデルを統計的に学習する。
【選択図】図2

Description

本発明は、誤り修正モデル学習装置、及びプログラムに関する。
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。
小林ほか,「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」,電子情報通信学会論文誌 D,電子情報通信学会,2010年,vol.J93-D No.5,p.598−609
音声認識で用いられる誤り修正モデルでは、音声認識の誤り傾向を学習するために、比較的短い文脈(2単語あるいは3単語連鎖)を特徴として用いる。また、誤り修正モデルのモデルパラメータの学習には、ニュース原稿やウェブテキストなどの静的なテキストではなく、音声とその書き起こしおよび音声認識結果が用いられる。このため、学習データを大量に収集することが困難であり、長い文脈を利用することは、モデルの統計的頑健性の観点から困難である。
しかし、音声言語を含む自然言語では、単語の出現は直前の単語から構成される文脈に依存するだけではなく、より長い文脈や話題などの要因にも影響される。音声認識誤りの訂正能力が高い誤り修正モデルを学習するには、これまでのように単純な文脈を利用するだけではなく、より多数の単語から構成される文脈や、話題などの情報を利用する必要がある。
本発明は、このような事情を考慮してなされたもので、長い文脈や話題といった特徴を利用して誤り修正モデルのモデルパラメータを識別的かつ頑健に学習する誤り修正モデル学習装置、及びプログラムを提供する。
[1] 本発明の一態様は、文書のテキストデータを記憶する言語資源記憶部と、再帰的ニューラルネットワークの入力に、前記言語資源記憶部に記憶されている前記テキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習部と、音声データと正解単語列とを対応付けて記憶する音声資源記憶部と、前記音声資源記憶部に記憶される前記音声データに対して前記正解単語列を整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列部と、前記音声資源記憶部に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識部と、整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する素性定義部と、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習部と、を備えることを特徴とする誤り修正モデル学習装置である。
この発明によれば、誤り修正モデル学習装置は、静的なテキストにおける文章中の単語と、この文章よりも前の文章から抽出した話題特徴量と、前の単語について算出した隠れ層の出力とを入力として後続する単語の接続確率を再帰的ニューラルネットワークにより算出する言語モデルを学習する。誤り修正モデル学習装置は、学習データとして用意された音声データ及び正解単語列を音声資源記憶部から読み出すと、音声データに対して正解単語列を整列し、学習した言語モデルを用いて、正解単語列を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。さらに、誤り修正モデル学習装置は、学習データの音声データを音声認識し、学習した言語モデルを用いて、音声認識結果を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。誤り修正モデル学習装置は、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された正解単語列を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴と、音声認識結果を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴とに基づいて学習する。
これにより、誤り修正モデル学習装置は、発話に含まれる単語に加えて、1つ前の単語の隠れ層の出力と、前の発話から得られた話題特徴量を入力に用いる再帰的ニューラルネットワークを学習に利用するため、従来よりも長い文脈および話題を考慮した誤り修正モデルを学習することができる。また、誤り修正モデル学習装置は、大量に入手しやすいテキストデータを誤り修正モデルの学習の一部に用いているため、統計的に頑健な誤り修正モデルを学習することができる。
[2] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記誤り修正モデル学習部は、前記音声データが与えられたときの前記正解単語列の事後確率と前記音声認識結果の事後確率との差分により定められる評価関数が最大となるように前記モデルパラメータを統計的に算出する、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声データが与えられたときの正解単語列の事後確率と音声認識結果の事後確率との差分として定められる評価関数に基づいて、誤り修正モデルのモデルパラメータを統計的に算出する。
これにより、誤り修正モデル学習装置は、正解単語列の事後確率が高くなるように認識誤りの傾向を効率的に学習し、誤り修正モデルを生成することができる。
[3] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記再帰的ニューラルネットワークに単語とともに入力される前記話題特徴量は、当該単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出される、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、話題特徴量を、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出する。
これにより、誤り修正モデル学習装置は、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章より前の発話または文章から得られる単語行列を低次元の因子に圧縮した表現により話題特徴量を抽出するため、データスパースネスに対して頑健な言語モデルを学習することができる。
[4] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記言語資源記憶部が記憶するテキストデータは、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータである、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータから言語モデルを学習する。
これにより、誤り修正モデル学習装置は、比較的大量に入手可能なテキストを誤り修正モデルの学習の一部に用いるため、誤り修正モデルの頑健性が向上することに加え、データスパースネスの問題も回避することができる。
[5] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記言語的な特徴は、単語あるいは単語の品詞であり、前記誤り修正モデルは、前記言語的な特徴に基づく素性関数の値を、前記再帰的ニューラルネットワークの隠れ層の出力及び前記素性関数のモデルパラメータにより重み付けして得られたスコアにより音声認識のスコアを修正する算出式である、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、単語あるいは単語の品詞を言語的な特徴として抽出する。誤り修正モデル学習装置は、言語的な特徴に基づく素性関数の値と、再帰的ニューラルネットワークの隠れ層の出力及び素性関数のモデルパラメータとを用いて音声認識のスコアを修正する算出式である誤り修正モデルを、整列された正解単語列の素性関数の値を当該正解単語列について算出された隠れ層の出力により重み付けした値と、音声認識結果の素性関数の値を当該音声認識結果について算出された隠れ層の出力により重み付けした値とに基づいて学習する。
これにより、誤り修正モデル学習装置は、単語あるいは単語の品詞に基づいて認識誤り傾向を効率的に学習し、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
[6] 本発明の一態様は、上述する誤り修正モデル学習装置であって、入力された音声データを、音響モデルと前記言語モデル学習部により学習された前記言語モデルとを用いて音声認識し、前記誤り修正モデル学習部により学習された前記誤り修正モデルにより、入力された前記音声データから得られた音声認識結果の選択における誤りを修正して出力する入力音声認識部をさらに備える、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、誤り修正モデル学習装置は、入力された音声データに対して、認識率のよい音声認識結果を得ることができる。
[7] 本発明の一態様は、コンピュータを、再帰的ニューラルネットワークの入力に、言語資源記憶手段に記憶されているテキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習手段と、音声資源記憶手段に音声データと対応付けて記憶される正解単語列を、前記音声データに対して整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列手段と、前記音声資源記憶手段に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識手段と、整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する特徴量抽出手段と、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習手段と、を具備する誤り修正モデル学習装置として機能させるためのプログラムである。
本発明によれば、長い文脈や話題といった特徴を利用して誤り修正モデルのモデルパラメータを識別的かつ頑健に学習することが可能となる。
本発明の一実施形態によるニューラルネットワークを示す図である。 同実施形態による誤り修正モデル学習装置の構成を示す機能ブロック図である。 同実施形態による誤り修正モデル学習装置の全体処理フローを示す図である。 同実施形態による誤り修正モデル学習部が実行する誤り修正モデル学習処理の処理フローを示す。 同実施形態による音声認識における単語仮説の展開を示す図である。 同実施形態による拡張されたノードデータのデータ構造体を示す図である。 ニューラルネットワークを示す図である。 拡張した再帰的ニューラルネットワークを示す図である。 図8に示す拡張した再帰的ニューラルネットワークにおける特徴量の関係を示す図である。 図8に示す拡張した再帰的ネットワークのフィードフォワード型ニューラルネットワークへの展開を示す図である。 従来の音声認識におけるノードデータのデータ構造体を示す図である。
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに提案されている。誤り修正モデルのモデルパラメータは、音声認識結果と正解単語列とからなる学習データに基づいて推定される。しかし、実際の音声認識では、学習データと音声認識の対象が、それらの話題性において完全に適合することは多くない。このような話題性が完全に一致しない学習データに基づいて学習した誤り修正モデルを利用して音声認識を行っても、その音声認識の性能は、音声認識の対象となる発話の内容に対して必ずしも最適とはいえない。また、誤り修正モデルでは、通常2〜3単語連鎖程度の比較的短い単語列(文脈)に基づく特徴を利用しているが、音声言語を含む自然言語では、文中の単語の依存関係は、より長い文脈に基づいていると考えられる。
高い音声認識性能を目指すには、話題に合致し、かつ3単語連鎖以上の長い文脈依存性を考慮した誤り修正モデルを学習する必要がある。しかし、誤り修正モデルの学習では、大量の音声データとその書き起こしである正解単語列が必要となるため、長距離文脈や話題を利用したモデルを頑健に推定することは、データ収集のコストの面から困難であった。
そこで、本実施形態では、話題と長距離文脈の両者を利用した誤り修正モデルを実現する。本実施形態の特徴は、第1に、誤り修正モデルのモデルパラメータの推定の一部を、ニュース原稿やウェブテキストなどの静的なテキストから行う点であり、第2に、話題と長距離文脈の特徴を反映した誤り修正モデルを学習するという点である。比較的大量に入手可能なテキストを、誤り修正モデルのモデルパラメータの推定の一部に用いることにより、モデルの頑健性が向上することに加え、データスパースネスの問題も回避することが期待できる。さらには、本実施形態では、話題と長距離文脈を利用した誤り修正モデルの音声認識への適用手法についても説明する。
[2. 誤り修正モデルの学習アルゴリズム]
本実施形態の誤り修正モデル学習装置は、音声認識の誤りを修正する統計的な誤り修正モデルのパラメータを、長い文脈や話題といった特徴を利用して識別的かつ頑健に学習し、音声認識に適用する。これにより、誤り修正モデルを発話内容に適合させ、音声認識性能を改善する。以下、本実施形態の誤り修正モデル学習装置に適用する誤り修正モデルの学習アルゴリズムについて説明する。
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して最も尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
Figure 2015075706
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが与えられたときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、対数尤度として定義される音響スコアは隠れマルコフモデル(Hidden Markov Model、HMM)及び混合ガウス分布(Gaussian Mixture Model、GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、このスコアは、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表す。
一方、P(w)は、単語列wに対する言語的な生成確率であり、対数生成確率として定義される言語スコアは、単語n−gramモデル等の統計的言語モデル(以下、「言語モデル」と記載する。)により計算される。言い換えれば、このスコアは、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する言語的な尤もらしさを表す。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが与えられたときの文仮説(正解候補)である単語列wの評価関数D(w|x)を以下の式(2)のように定める。
Figure 2015075706
式(2)が定められたとき、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数D(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。ここで、κは、音響スコアに対する言語スコアの重みである。
Figure 2015075706
従来法における誤り修正モデルでは、式(1)を以下の式(4)のように変更する。
Figure 2015075706
式(4)においてexpΣλ(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、g(w)(i=1,...,)はi番目の素性関数であり、モデルパラメータΛ={λ,...}の要素λは素性関数g(w)に対する重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。これら素性関数gの例として、以下などがあげられる。
(1)単語列wに連続する単語2項組(u,v)が含まれる場合、その数を返す関数
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
音声認識の誤り傾向は、素性関数と素性重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。モデルパラメータΛは、正解単語列および音声認識結果の集合を用いて推定されるが、通常、正解単語列が与えられた学習データを大量に収集することは、特にコストの面から困難である。そのため、従来法の誤り修正モデルでは、連続する単語2項組、3項組などの比較的短い文脈を素性として採用している。これは、より長い単語連鎖を素性としても、学習データのスパースネスが原因で統計的に頑健なモデルを学習できないことによる。
[2.2 本実施形態に適用される誤り修正モデルの学習アルゴリズム]
本実施形態では、従来法の課題を解決するために、再帰的ニューラルネットワークに基づいて、文脈および話題に関する特徴量を抽出し、誤り修正モデルのモデルパラメータを推定する。再帰的ニューラルネットワークでは、特徴量の次元圧縮が可能であるものの、ネットワークの層間を結ぶ多数のパラメータの推定には大量の学習データが必要となる。本実施形態では、パラメータの一部をニュース原稿などの静的なテキストから推定することにより、データスパースネスの問題を解決する。
図7は、ニューラルネットワークを示す図である。同図では、いわゆるElman型の再帰的ニューラルネットワーク(recurrent neural network)を示している。同図に示すニューラルネットワークは、入力層、隠れ層、及び出力層の3層から構成され、統計的言語モデルのケースでは、入力として単語を与えると、その単語に後続する単語の出現確率(接続確率)が出力される。ニューラルネットワークを用いた言語モデルの場合、語彙サイズをNとすると、入力層はN個の素子からなる層であり、入力される単語は、その単語に該当するインデックスの素子(要素)のみに1が設定され、それ以外のインデックスの素子には0が設定された離散ベクトルとして定められる。隠れ層は、任意の数の素子により構成される層である。また、出力層はN個の素子からなる層であり、入力の単語に後続する単語の出現確率となる。ニューラルネットワークの隠れ層は、シグモイド関数により非線形変換されて出力層への入力となり、出力層は、確率の条件を満たすために、各素子の値の総和が1となるようにソフトマックス関数により正規化される。
従来のfeed-forward型のニューラルネットワークとは異なり、再帰的ニューラルネットワークでは、隠れ層の出力が入力層にフィードバックされる。フィードバックにより、再帰的ニューラルネットワークの出力は過去の隠れ層の系列に依存する。言語モデルであれば、出力である単語の確率分布は、過去の入力単語に依存することを意味する。つまり、再帰的に算出される隠れ層を入力に用いることで、長い文脈が考慮された単語の確率分布が出力される。
文献「T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model.Technical Report, NSR-TR-2012-92, Microsoft, 2012.」に記載の再帰的ニューラルネットワークの定義では、時刻tにおける入力層x、隠れ層h、及び出力層oはそれぞれ、以下の式(5)〜式(7)のようになる。
Figure 2015075706
Figure 2015075706
Figure 2015075706
式(5)において、入力層xは、時刻tの単語ベクトルwおよび1時刻前(t−1)の隠れ層の出力ht−1からなるベクトルである。単語ベクトルwのN個の要素は各単語に対応しており、該当する要素のみに1が設定され、それ以外の要素には0が設定される。単語ベクトルwが表す単語を単語wとも記載する。式(6)において、Mは、入力層に対する重み係数行列であり、sigmoid(・)はベクトルの要素に対するシグモイド関数である。なお、隠れ層の要素(素子)数は任意であり、通常、入力層の要素数よりも小さい。式(7)において、Mは、隠れ層に対する重み係数(パラメータ)行列であり、softmax(・)は、出力層に対するソフトマックス関数である。出力層oは、単語ベクトルwが表す単語に後続する単語の確率分布を表す。出力層oのN個の要素(素子)は、各単語に対応しており、その要素に対応する単語の事後確率を表す。
上述の再帰的ニューラルネットワークに基づく統計的言語モデルの学習では、話題に関する特徴を入力するために拡張的な手法が行われている。
図8は、拡張した再帰的ニューラルネットワークを示す図である。通常、統計的言語モデルにおける再帰的ニューラルネットワークでは、単語および1時刻前の隠れ層の出力を入力とする。この入力に、現在着目している発話の直近の発話から得られた話題に関する情報をさらに利用することで、より長い範囲の文脈(話題)をニューラルネットワークに反映できる。つまり、同図に示す拡張した再帰的ニューラルネットワークにおいては、単語ベクトルwおよび1時刻前(t−1)の隠れ層の出力ht−1に加え、話題に関する特徴量である話題特徴量ベクトルvをさらに入力としている。
図9は、拡張した再帰的ニューラルネットワークにおける特徴量の関係を示す図である。同図においては、現在着目している発話sにおける単語(単語w)に後続する予測単語(出力層o)を、話題に依存した特徴(話題特徴量ベクトルv)と、発話sにおける単語wより前の単語列に基づく特徴(隠れ層の出力ht−1)とを用いて得る。話題に依存した特徴は、発話sより前の発話sn−m,...,sn−1から抽出される。
拡張した再帰的ニューラルネットワークの入力層xは、以下の式(8)となる。ただし、隠れ層h、及び出力層oは、上記の式(6)、式(7)と同様である。
Figure 2015075706
上述した再帰的ニューラルネットワークは、話題に関する特徴量の有無にかかわらず、n−gram言語モデルの条件付き確率を推定するために用いられることがほとんどであり、誤り修正モデルで利用されることはない。
ニューラルネットワークでは、入力層、隠れ層、出力層の各素子間をつなぐ重み係数(結合重み)がパラメータとなるが、一般に素子間の重み係数パラメータは数が多いため、統計的に頑健な学習を行うには大量の学習データを必要とする。しかしながら、誤り修正モデルでは、音声に対する正解単語列を人手により用意しなければならないため、ニューラルネットワークの学習に十分なデータを用意することが困難である。この課題を解決するために、本実施形態の誤り修正モデル学習装置では、図1に示すニューラルネットワークを採用する。
図1は、本実施形態で採用するニューラルネットワークを示す図である。同図に示すニューラルネットワークでは、図8に示す再帰的ニューラルネットワークに、誤り修正モデルのための出力層2が追加されている。なお、同図においては、図8に示す再帰的ニューラルネットワークの出力層を、出力層1としている。出力層2は、誤り修正モデルに用いられる素性関数の値をベクトル表現したものであり、再帰的ニューラルネットワークにより得られる隠れ層hに、重み係数行列M’を乗算した値o’が出力される。本実施形態の誤り修正モデル学習装置は、出力層2を構成する素性関数を定義した上で、重み係数行列M’を学習する。
本実施形態による誤り修正モデル学習装置の特徴は、図1に示すニューラルネットワークのうち、従来型の再帰的ニューラルネットワークの部分を、比較的大量に収集可能な静的テキスト(ニュース原稿やウェブテキストなど)に基づいて学習することである。つまり、本実施形態による誤り修正モデル学習装置は、静的テキストから入力層〜隠れ層の結合重みである重み係数行列Mを得た上で、誤り修正モデルの学習のための結合重みである重み係数行列M’のみを改めて学習することにある。この手続きにより、本実施形態による誤り修正モデル学習装置は、音声認識結果と正解単語列とからなる学習データから、再帰的ニューラルネットワークの最下層(入力層〜隠れ層)の結合重みを学習することなく、隠れ層〜出力層の間の結合重みのみを学習することにより誤り修正モデルを学習できる。また、本実施形態による誤り修正モデル学習装置は、再帰的ニューラルネットワークを採用することにより、従来法よりも長い文脈や話題といった情報を考慮した誤り修正モデルを得られることも特徴である。つまり、本実施形態による誤り修正モデル学習装置は、1時刻前の隠れ層の出力ht−1を入力に用いて現在の時刻の隠れ層hを求めることを繰り返すことで長い文脈を考慮し、現在の発話sより前の発話群から得られた話題に関する特徴量である話題特徴量ベクトルvを入力に用いる話題を考慮している。
[3. 誤り修正モデル学習装置の構成]
図2は、本発明の一実施形態による誤り修正モデル学習装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。誤り修正モデル学習装置10は、コンピュータ装置により実現され、同図に示すように、言語モデル学習処理部20、誤り修正モデル学習処理部30、及び音声認識処理部40を備えて構成される。
言語モデル学習処理部20は、ニュース原稿やウェブ上のテキストデータを学習データとして、図1に示す再帰的ニューラルネットワークに基づく言語モデルを学習する。言語モデルは、ニューラルネットワークにおける重み係数行列M、Mに相当する。言語モデル学習処理部20は、言語資源記憶部21、話題モデル学習部22、及び言語モデル学習部23を備えて構成される。
言語資源記憶部21は、ニュース原稿のテキストデータやウェブから収集したテキストデータなどを学習テキストとして記憶する。話題モデル学習部22は、統計的な次元圧縮手法により話題に関する特徴量(以下、「話題特徴量」と記載する。)を抽出するために用いる話題モデルを、言語資源記憶部21に記憶されている学習テキストに基づいて学習する。話題モデル学習部22は、学習した話題モデルを設定した話題モデルデータD1を出力する。言語モデル学習部23は、言語資源記憶部21に記憶されている学習テキストが示す文章と、話題モデルデータD1に設定されている話題モデルを用いて当該文章よりも前の文章から抽出した話題特徴量とを用いて、ニューラルネットワークにおける重み係数行列M、Mを言語モデルとして学習する。言語モデル学習部23は、学習した言語モデルを設定した言語モデルデータD2を出力する。
誤り修正モデル学習処理部30は、図1に示す再帰的ニューラルネットワークに基づき、言語モデル学習処理部20が得た言語モデルを拡張した誤り修正モデルを、音声認識結果を学習データに用いて学習する。誤り修正モデル学習処理部30は、音声資源記憶部31、整列部32、音声認識部33、素性定義部34、及び誤り修正モデル学習部35を備えて構成される。
音声資源記憶部31は、発話の音声データと、その音声データの正解単語列とからなる学習データを記憶する。整列部32は、音声資源記憶部31に記憶されている音声データに対応する正解単語列の整列を行う。整列部32は、整列した正解単語列を設定した正解単語列データD3を出力する。音声認識部33は、正解単語列の整列に用いられた音声データを、音響モデル記憶部41に記憶されている音響モデルと、言語モデルデータD2に設定されている言語モデルとを用いて音声認識する。音声認識部33は、音声認識結果を設定した音声認識結果データD4を出力する。素性定義部34は、正解単語列データD3に設定されている正解単語列に含まれる単語と、音声認識結果データD4に設定されている音声認識結果に含まれる単語に基づいて素性関数を定義する。誤り修正モデル学習部35は、正解単語列データD3に設定されている正解単語列と、音声認識結果データD4に設定されている音声認識結果と、正解単語列及び音声認識結果それぞれをニューラルネットワークに入力したときの隠れ層の出力値とを用いて、素性定義部34が定義した素性関数を用いた誤り修正モデルのモデルパラメータである重み係数行列M’を学習する。誤り修正モデル学習部35は、学習したモデルパラメータを用いた誤り修正モデルを誤り修正モデルデータD5に設定して音声認識処理部40へ出力する。
音声認識処理部40は、音響モデル、言語モデル学習処理部20が学習した言語モデル、及び誤り修正モデル学習処理部30が学習した誤り修正モデルを用いて音声認識を行い、認識結果を出力する。音声認識処理部40は、音響モデル記憶部41、言語モデル記憶部42、誤り修正モデル記憶部43、及び入力音声認識部44を備えて構成される。
音響モデル記憶部41は、音響モデルを記憶する。言語モデル記憶部42は言語モデル学習処理部20において学習した言語モデルを設定した言語モデルデータD2を記憶する。誤り修正モデル記憶部43は、誤り修正モデル学習処理部30において学習した誤り修正モデルを設定した誤り修正モデルデータD5を記憶する。入力音声認識部44は、音響モデル記憶部41に記憶されている音響モデル、言語モデル記憶部42から読み出した言語モデル、及び誤り修正モデル記憶部43から読み出した誤り修正モデルを用いて入力音声データD6を音声認識し、音声認識結果を設定した入力音声認識結果データD7を出力する。
なお、言語資源記憶部21に記憶されている音声データ、及び入力音声データD6は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。
[4. 誤り修正モデル学習装置の処理手順]
図3は、図2に示す誤り修正モデル学習装置10の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
[4.1 言語モデル学習処理部20の処理手順]
言語モデル学習処理部20は、図1に示す再帰的ニューラルネットワークに基づく言語モデルを学習する。言語資源記憶部21には、放送局内のニュース原稿を示すテキストデータや、ウェブ上のテキストデータなどが学習テキストとして集積されている。言語資源記憶部21は、学習テキストを記事ごとに分類し、各記事を文書データとして記憶する。
[4.1.1 ステップS1:話題特徴量抽出処理]
再帰的ニューラルネットワークの学習では、話題特徴量を入力として必要とする。このため、再帰的ニューラルネットワークに基づく言語モデルを学習する前に、話題モデル学習部22において、話題特徴量の抽出に用いる話題モデルを学習する。本実施形態では、話題特徴量として非負値行列因子分解(Non-negative Matrix Factorization)による特徴ベクトルを用いる。話題モデル学習部22は、言語資源記憶部21に記憶されている学習データから各記事の文書データを読み出し、読み出した文書データに非負値行列因子分解を適用することで話題特徴量を抽出する。非負値行列因子分解については、例えば、文献「D. D. Lee and H. S. Seung, Algorithm for Non-negative Matrix Factorization, In Advances in Neural Information Processing Systems, pp. 556-562, 2001.」に記載されている。
言語資源記憶部21に記憶されている学習テキストに対してベクトル空間モデルを使えば、m個の単語を含んだn個の記事からなる学習テキストの記事集合Dは、m行n列の単語−文書行列として表現できる。単語−文書行列の要素は、例えばその要素の列に対応した記事において、その要素の行に対応した単語が出現する相対頻度に基づいて定めることができる。
非負値行列因子分解では、学習テキストがm×nの文書−単語行列として表現されるときに、以下の式(9)を考える。
Figure 2015075706
そして、記事集合Dをなるべく近似できるような上記の式(9)の行列W、行列Vとして、m×rの非負行列W’、およびr×nの非負行列V’を求める。ただし、行列Eは誤差からなる行列である。式(9)に示す因子分解では、記事をr個の因子(潜在トピック)で表現することに相当する。つまり、非負行列W’には、記事集合Dに頻出する単語の出現パターンがr個の列それぞれに潜在トピックを表す基底として現れる。そして、非負行列V’の各列は、その列に対応する記事に対してr個の潜在トピックそれぞれが寄与している度合いを表す。m>>rであれば、非負行列V’は、元の記事の単語行列を低次元の因子に圧縮した表現となるため、データスパースネスに対し頑健となる。
未知の文書の単語ベクトルdに対する話題特徴量ベクトルvは、式(10)のように当該文書を非負行列W’により因子分解して得られる。単語ベクトルdの各要素は単語に対応しており、文書における各単語の出現頻度が設定される。また、話題特徴量ベクトルvは、非負行列W’に表れるr個の潜在トピックそれぞれが文書に寄与している度合いを表す。この次元圧縮されたr次元の話題特徴量ベクトルvは、統計的言語モデルの話題特徴量として扱われる。
Figure 2015075706
話題モデル学習部22は、言語資源記憶部21に学習データとして記憶されているn個の文書データを読み出し、読み出した文書データが示す記事それぞれについてm個の各単語の出現頻度をカウントする。話題モデル学習部22は、カウントした各記事の単語の出現頻度を要素とする記事集合Dを生成する。記事集合Dの各要素には、列に対応する記事における、行に対応する単語の出現頻度が設定される。話題モデル学習部22は、生成した記事集合Dに非負値行列因子分解を適用して、非負行列W’、および非負行列V’を算出すると、算出した非負行列W’を話題モデルとして設定した話題モデルデータD1を出力する。
[4.1.2 ステップS2:言語モデル学習処理]
言語モデル学習部23は、ステップS1において得られた話題モデルを用いて、言語資源記憶部21に記憶されている学習テキストから再帰的ニューラルネットワークに基づく言語モデルを学習する。同様のモデルの学習は、例えば、文献「T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model, Microsoft Research Technical Report MSR-TR-2012-92, Microsoft, 2012.」に記載されているが、その概略は以下の通りである。
まず、図1に示す再帰的ネットワークに含まれる、図8に示す再帰的ネットワークの部分を図10に示すように展開し、通常のフィードフォワード型ニューラルネットワークで近似する。
図10は、図8に示す再帰的ネットワークのフィードフォワード型ニューラルネットワークへの展開を示す図である。展開する深さは任意であるが、本実施形態では、深さを3とした例を示す。展開したフィードフォワード型ニューラルネットワークでは、誤差逆伝播法などのアルゴリズムを用いて、ニューラルネットワークの各層の重み係数行列を学習できる。誤差逆伝播法については、例えば、文献「R. Rojas, Neural Networks - A Systematic Introduction, pp.151-184, Springer-Verlag, 1996.」に記載されている。
言語モデル学習部23は、言語資源記憶部21の学習テキストを逐次的に処理することで重み係数行列を学習する。この学習には、例えば、文献「P. J. Werbos, Backpropagation Through Time: What It Does and How to Do It, Proceedings of The IEEE, vol. 78, no. 10, pp.1550-1560, 1990.」に記載のBackpropagation Through Time アルゴリズムを用いることができる。学習の手順を以下に示す。
(手順1) 言語モデル学習部23は、学習テキスト中の記事における文章s{n=1,...,N}の直前のm個の文章{sn−m,sn−m+1,...,sn−1}を1つの文章とみなして各単語の出現頻度をカウントする。言語モデル学習部23は、カウントした各単語の出現頻度を表す単語ベクトルdを、話題モデルデータD1に設定されている非負行列W’を用いて式(10)により次元圧縮された基底ベクトルの表現に変換し、話題特徴量ベクトルvを算出する。
(手順2) 学習テキスト中の文章sを構成する単語{w,w,...,w,...,wnT}に対して、展開した再帰的ニューラルネットワークにおけるt番目の入出力を(w,wt+1,wt+2,v,ht−1,ot−1)とする。ここで、t番目の入出力における単語w,wt+1,wt+2は、語彙サイズを次元数とし、該当する単語を示すインデックスの要素のみを1とし、他の要素を0とするベクトルである。言語モデル学習部23は、誤差逆伝播法に基づき、入出力(w,wt+1,wt+2,v,ht−1,ot−1)を用いて、重み係数行列M 、M t+1、M t+2、Mを推定する。
(手順3) 言語モデル学習部23は、手順2において推定した重み係数行列M 、M t+1、M t+2の平均をとり、再帰的ニューラルネットワークの重み係数行列Mをこの平均した行列により更新する。さらに、言語モデル学習部23は、重み係数行列M 、M t+1、M t+2それぞれを、平均した行列と差し替える。
(手順4) 言語モデル学習部23は、(手順1)〜(手順3)までの処理を、学習テキストすべてについて繰り返す。
(手順5) 言語モデル学習部23は、(手順1)〜(手順4)までの処理を、重み係数行列Mが収束するまで繰り返す。
言語モデル学習部23は、上記の処理によって求めた重み係数行列Mと重み係数行列Mを言語モデルとして設定した言語モデルデータD2を出力する。
[4.2 誤り修正モデル学習処理部の処理]
[4.2.1 誤り修正モデルの学習方法]
誤り修正モデル学習処理部30は、ステップS1において求められた話題モデルと、ステップS2において求められた再帰的ニューラルネットワークによる言語モデルとを利用して、誤り修正モデルを学習する。
本実施形態では、誤り修正モデルの素性関数は、単語wの関数として定める。例えば、素性関数を以下とする。
(1) 単語wが、u∈Vに等しいときに1を返す関数
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
ここで、Vは語彙、uはVに含まれる単語、Cは品詞の集合、cはCに含まれる品詞とする。
いま、K個の素性関数をg(k=1,...,K)として、音声入力xと話題特徴量ベクトルvが与えられたときに単語列wが得られる事後確率P(w|x,v)を以下の式(11)とする。
Figure 2015075706
ここで、Nは、単語列wを構成する単語wの数、単語wi−1 は、単語wに対する履歴(直近の単語列)、P(w|wi−1 ,v)は、再帰的ニューラルネットワークに基づく言語モデルの出力確率(出力層1からの出力)である。つまり、式(11)では、単語列wを構成する各単語wのnグラムの積を算出している。expより後ろは誤り修正モデルの確率の一部となり、再帰的ニューラルネットワークにおける出力層2からの出力の和である。h(i)は、単語wを入力として再帰的ニューラルネットワークを伝播させたときの隠れ層h(i)のj番目の素子の値であり、Mjk ’は、隠れ層と出力層2の間の重み係数行列M’におけるj行k列目の要素(jk成分)である。
誤り修正モデル学習処理部30は、誤り修正モデル学習処理において、重み係数行列M’を求める。本実施形態では、マージン最大化による誤り修正モデルの学習を行うこととする。
マージン最大化では、音声入力(音声データ)xに対して、以下の2つのペアが必要となる。
(1)正解単語列w(音声データに対して整列済み)
(2)音声認識結果w(音声データに対して整列済み)
式(11)の対数を取った対数事後確率から、誤り修正モデルによる音声入力xに対する単語列wのスコアS(w|x)を、以下の式(12)のように定める。
Figure 2015075706
式(12)は、本実施形態で用いる誤り修正モデルである。ここで、fam(w|x)は、音響モデル(前述のHMM−GMM)による対数スコア(音響スコア)である。μlmは、音響スコアに対する言語スコアの重みである。flm(w|wi−1 ,v)は、再帰的ニューラルネットワークに基づく言語モデルによる単語wの対数スコア(言語スコア)であり、出力層oに相当する。また、ΣΣ(w)Σ(i)Mjk ’は、単語列wの誤り傾向を反映したスコアである。このように、誤り修正モデルは、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正する式である。
式(12)を用いた正解単語列wのスコアをS(w|x)、音声認識結果wのスコアをS(w|x)としたときに、その差分(マージン)により定められる評価関数を以下の式(13)に示すDmとし、重み係数行列M’に関する最大化を図る。
Figure 2015075706
差分Dmについての重み係数行列M’のjk成分Mjk ’に関する勾配を求めると、以下の式(14)となる。
Figure 2015075706
この勾配は、正解単語列wを構成する各単語w の素性関数の値g(w )を当該単語について算出された隠れ層のj番目の素子の値h (i)により重み付けした値の合計と、音声認識結果wを構成する各単語wi’ の素性関数の値g(wi’ )を当該単語について算出された隠れ層のj番目の素子の値h (i’)により重み付けした値の合計との差分に比例する。
確率的勾配降下法にしたがえば、重み係数行列M’の更新式は以下の式(15)のようになる。
Figure 2015075706
ここで、ηは定数とする。
誤り修正モデル学習処理部30は、上記の手法を学習データ全体に対して適用し、誤り修正モデルを学習する。つまり、誤り修正モデル学習処理部30は、音声データが与えられたときの誤り修正モデルを用いた正解単語列の生成確率(対数事後確率)と音声認識結果の生成確率(対数事後確率)とを用いて定められる評価関数である差分Dmが最大になるように、誤り修正モデルのモデルパラメータであるM’の各要素を統計的に算出する。
以下、誤り修正モデル学習処理部30において誤り修正モデルを得るための処理を説明する。
[4.2.2 ステップS3:整列済み正解単語列取得処理]
整列部32は、音声資源記憶部31に学習データとして記憶されている音声データに対して、該当する正解単語の整列を行う。この整列は、音声資源記憶部31の各学習データに対して順序を考慮して行われる。これは、話題特徴量ベクトルの計算を行うために学習データの順序を保持しておく必要があるためである。また、整列部32は、各単語に、再帰的ニューラルネットワークに基づく言語モデルにより単語予測を行った際の隠れ層の出力を記録しておく。
具体的には、整列部32は、既存の技術により、正解単語列を構成する各単語に音声データにおける発話開始時刻を対応付け、正解単語列を発話された時刻順に整列する。整列部32は、整列を行う際、音響モデル記憶部41に記憶されている音響モデルと、言語モデル学習処理部20で学習した言語モデル及び話題モデルとを用い、正解単語列を構成する各単語にその音響スコア及び言語スコアを付与する。整列部32は、式(8)、式(6)、及び式(7)を用いて、正解単語列wを構成する単語wの言語スコアflm(w|wi−1 ,v)を算出するが、重み係数行列M、Mには言語モデルデータD2に設定されている言語モデルを用いる。このとき、式(8)におけるwは、単語wを表す単語ベクトルであり、ht−1は、ひとつ前の単語wi−1について言語スコアを算出した際に式(6)により求めた隠れ層の出力である。また、整列部32は、話題特徴量ベクトルvを、話題モデルデータD1から取得した話題モデル(非負行列W’)と、正解単語列wよりも前の正解単語列群から取得した単語頻度を表す単語ベクトルdとを用いて、式(10)により算出する。整列部32は、各単語の音響スコア、言語スコア、及び、隠れ層の出力を付加した整列済みの正解単語列wを正解単語列データD3に設定し、出力する。単語wに付加する隠れ層の出力は、言語スコアflm(w|wi−1 ,v)を算出した際の式(6)の隠れ層hの値である。
[4.2.3 ステップS4:学習データの音声認識処理]
一方、音声認識部33は、音声資源記憶部31に学習データとして記憶されている音声データを、言語モデルデータD2が示す言語モデルおよび話題モデルデータD1が示す話題モデルを用いて音声認識を実行し、音声認識結果wを得る。音声認識部33は、ステップS3と同様の処理により、正解単語列データD3が示す正解単語列wと同様に、音声認識結果wにも、単語列を構成する各単語に音響スコアと言語スコアを付与し、さらに、再帰的ニューラルネットワークで単語予測を行った際の隠れ層の出力を記録する。つまり、音声認識部33は、音声認識結果wを構成する単語wの言語スコアflm(w|wi−1 ,v)を式(8)、式(6)、及び式(7)により算出する。この際、音声認識部33は、言語モデルデータD2に設定されている言語モデル(重み係数行列M、M)と話題モデルデータD1から取得した話題モデル(非負行列W’)とを用いる。音声認識部33は、各単語の音響スコア、言語スコア、及び、隠れ層の出力を付加した音声認識結果wを音声認識結果データD4に設定し、出力する。
[4.2.4 ステップS5:素性関数定義処理]
素性定義部34は、正解単語列データD3が示す正解単語列wに含まれる単語、および、音声認識結果データD4が示す音声認識結果wに含まれる単語から言語的な特徴を抽出し、抽出された言語的な特徴で定義される素性関数を得る。素性関数の定義は、前述の通り以下とする。
(1) 単語wが、u∈Vに等しいときに1を返す関数
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
素性定義部34は、例えば、正解単語列w及び音声認識結果wから上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。素性定義部34は、は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り修正モデルの学習で用いる素性関数gとして決定する。これにより、素性定義部34が得た素性関数をK個とする。素性定義部34は、正解単語列データD3及び音声認識結果データD4と、得られた素性関数gとを誤り修正モデル学習部35に出力する。
[4.2.5 ステップS6:誤り修正モデル学習処理]
図4は、誤り修正モデル学習部35が実行する誤り修正モデル学習処理の処理フローを示す。
誤り修正モデル学習部35は、nに初期値1を設定し(ステップS11)、kに初期値1を設定し(ステップS12)、jに初期値1を設定する(ステップS13)。
誤り修正モデル学習部35は、音声資源記憶部31に記憶されている学習データの第n番目の音声データxに対応する正解単語列w および音声認識結果w を得る。誤り修正モデル学習部35は、正解単語列w を正解単語列データD3から読み出し、音声認識結果w を音声認識結果データD4から読み出す。誤り修正モデル学習部35は、第k番目の素性関数について、式(14)の右辺である以下の式(16)を計算する(ステップS14)。
Figure 2015075706
なお、誤り修正モデル学習部35は、正解単語列w を構成する各単語w に付加されている隠れ層の出力からj番目の素子の値h (i)を取得し、音声認識結果w を構成する各単語w に付加されている隠れ層の出力からj番目の素子の値h (i’)を取得する。
誤り修正モデル学習部35は、上述した式(15)にしたがって、以下の式(17)により、重み係数行列M’のjk成分Mjk ’を計算する(ステップS15)。
Figure 2015075706
式(17)において、(∂D/∂Mjk ’)は、式(16)の算出結果である。本実施形態では、誤り修正モデル学習部35は、平均化確率的勾配降下法に基づき、以下の式(18)、式(19)に示すように重み係数行列M’のjk成分の更新を行う(ステップS16)。式(18)の左辺のM jk ’は、更新後の重み係数行列M’のjk成分である。式(19)は、1〜n回目のループ処理のそれぞれにおいて算出された重み係数行列M’のjk成分の平均であり、式(18)の右辺のM jk ’である。
Figure 2015075706
Figure 2015075706
誤り修正モデル学習部35は、jが重み係数行列M’の行数(隠れ層の素子数)に達するまで、現在のjの値に1を加算してステップS14からの処理を繰り返す(ステップS17)。
誤り修正モデル学習部35は、kが素性関数の個数K(重み係数行列M’の列数)に達するまで、現在のkの値に1を加算してステップS13からの処理を繰り返す(ステップS18)。
誤り修正モデル学習部35は、学習データの全ての音声データxについて処理を終了するまで、現在のnの値に1を加算してステップS12からの処理を繰り返す(ステップS19)。
誤り修正モデル学習部35は、学習データの全ての音声データxについて処理を終了した場合、前回の収束判定時からの重み係数行列M’の変化が、所定の範囲内であるか否かにより収束したか否かを判断する(ステップS20)。誤り修正モデル学習部35は、収束していないと判断した場合(ステップS20:NO)、ステップS11からの処理を繰り返し、収束したと判断した場合(ステップS20:YES)、図4の処理を終了する。誤り修正モデル学習部35は、式(12)に更新が収束したときの重み係数行列M’を用いた誤り修正モデルを生成し、生成した誤り修正モデルを設定した誤り修正モデルデータD5を音声認識処理部40に出力する。
[4.3 音声認識処理部の処理]
音声認識アルゴリズムでは、通常Viterbi探索に基づき、音声入力が得られるたびに単語仮説をグラフのノード(頂点)として展開していく。
図5は、音声認識における単語仮説の展開を示す図である。各ノードには、音声入力の始点に向かって逆向きにトレースを行えるよう、音声認識結果を構成する単語仮説の情報を、音声認識スコアとともに保存する。
図11は、従来の音声認識におけるノードデータのデータ構造体を示す図である。各ノードのノードデータは、同図に示すようなデータをもつ構造体として定義される。つまり、各ノードのデータ構造体は、当該ノードに対応した単語仮説を特定するためのインデックスである「int word」と、この単語仮説の音響モデル・言語モデル・誤り修正モデルによるスコアを設定する「float score」と、当該ノードの1つ前のノードを示す「node* backptr」とを有する。
しかし、再帰的ニューラルネットワークでは、ニューラルネットワークの隠れ層の出力が入力単語列に依存して変わるため、これを仮説の展開時にノードに記録する必要がある。したがって、本実施形態では、上述のノードの構造体は、図6に示すように拡張される。
図6は、拡張されたノードデータのデータ構造体を示す図である。同図に示すように、図11に示すデータ構造体に、隠れ層の出力を設定するための「layer hidden_layer」が追加されている。
一方、1つのノードに1つの隠れ層の出力をもたせるには、着目しているノードに接続する複数のノードのいずれか1つを選択する必要がある。例えば、図5のノードnに対しては、ノードnからノードnまでのノードが接続しており、隠れ層の出力hn1,hn2,hn3のいずれかを入力とした隠れ層の出力をノードnに記録する必要がある。本実施形態では、ノードnが参照するノードnからノードnのうち、スコアが最大となる経路のノードの隠れ層の出力を、再帰的ニューラルネットワークにおけるノードnの入力となる隠れ層の出力ht−1とする。
入力音声認識部44は、音響モデル記憶部41に記憶されている音響モデル、言語モデル記憶部42に記憶されている言語モデルデータD2が示す言語モデル、誤り修正モデル記憶部43に記憶されている誤り修正モデルデータD5が示す誤り修正モデルを用いて入力音声データD6を認識する。入力音声認識部44は、図6に示すデータ構造のノードデータに設定されている誤り修正モデルのスコアに基づいて最もスコアがよい文仮説を選択し、選択した文仮説を音声認識結果として設定した入力音声認識結果データD7を出力する。これは、誤り修正モデル学習処理部30の音声認識部33の処理と同様であるが、音声認識結果データD4には、図6に示すノードデータの隠れ層の出力値を単語ごとに付加して出力する点が異なる。
[4.3.1 ステップS7:入力音声の音声認識処理]
入力音声認識部44は、音声認識対象の音声データとして入力音声データD6が入力されると、言語モデル記憶部42に記憶されている言語モデル、及び音響モデル記憶部41に記憶されている音響モデルとを用いて、入力音声データD6の正解候補の単語列を得る。入力音声認識部44は、音声認識により得られた正解候補の単語列を構成する各単語(単語仮説)に対応したノードについて図6に示すデータ構造のノードデータを生成し、当該ノードの単語インデックスと、前ノード参照用ポインタを設定する。
入力音声認識部44は、正解候補の単語列を構成する各単語について、音響モデルを用いて音響スコアを算出するとともに、言語モデル(重み係数行列M、M)を用いて式(8)、式(6)、及び式(7)により言語スコアを算出する。入力音声認識部44は、言語スコアを算出する際、式(8)の隠れ層の出力ht−1に、1つ前のノードのノードデータに設定されている隠れ層の出力を用いるが、1つ前のノードが複数ある場合には、スコアが最もよくなる経路となるノードの隠れ層の出力を用いる。また、入力音声認識部44は、式(8)の話題特徴量ベクトルvを、話題モデルデータD1から取得した話題モデル(非負行列W’)と、現在の入力音声データD6よりも前の入力音声データの音声認識結果から取得した単語頻度を表す単語ベクトルdとを用いて、式(10)により算出する。
入力音声認識部44は、誤り修正モデル記憶部43から読み出した誤り修正モデルに従って、正解候補の単語列を構成する各単語について、音響スコア及び言語スコアと、言語スコアの算出において式(6)により算出された隠れ層の出力とを用いて、誤り修正モデルのスコアを算出する。入力音声認識部44は、ノードデータに音響スコア、言語スコア、及び誤り修正モデルのスコアと、隠れ層の出力とを設定する。入力音声認識部44は、誤り修正モデルのスコアが最もよくなる経路の正解候補の単語列を正解単語列として選択し、入力音声認識結果データD7に設定してリアルタイムに出力する。誤り修正モデルを用いることにより、入力音声認識部44は、入力音声データD6から得られた音声認識結果の選択における誤りを修正する。
[5. 効果]
以上説明した本実施形態の誤り修正モデル学習装置10によれば、従来よりも長い文脈および話題を考慮した誤り修正モデルが構成可能となる。入力音声認識部44は、この誤り修正モデルを用いて音声認識を行うことにより、認識誤りが削減される。また、本実施形態の誤り修正モデル学習装置10は、大量に入手しやすいテキストデータを誤り修正モデルのモデルパラメータの学習の一部に用いているため、統計的に頑健なモデルとなり、認識誤りが削減される。
[6. その他]
なお、上述の誤り修正モデル学習装置10は、内部にコンピュータシステムを有している。そして、誤り修正モデル学習装置10の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
10 誤り修正モデル学習装置
20 言語モデル学習処理部
21 言語資源記憶部
22 話題モデル学習部
23 言語モデル学習部
30 誤り修正モデル学習処理部
31 音声資源記憶部
32 整列部
33 音声認識部
34 素性定義部
35 誤り修正モデル学習部
40 音声認識処理部
41 音響モデル記憶部
42 言語モデル記憶部
43 誤り修正モデル記憶部
44 入力音声認識部

Claims (7)

  1. 文書のテキストデータを記憶する言語資源記憶部と、
    再帰的ニューラルネットワークの入力に、前記言語資源記憶部に記憶されている前記テキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習部と、
    音声データと正解単語列とを対応付けて記憶する音声資源記憶部と、
    前記音声資源記憶部に記憶される前記音声データに対して前記正解単語列を整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列部と、
    前記音声資源記憶部に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識部と、
    整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する素性定義部と、
    隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習部と、
    を備えることを特徴とする誤り修正モデル学習装置。
  2. 前記誤り修正モデル学習部は、前記音声データが与えられたときの前記正解単語列の事後確率と前記音声認識結果の事後確率との差分により定められる評価関数が最大となるように前記モデルパラメータを統計的に算出する、
    ことを特徴とする請求項1に記載の誤り修正モデル学習装置。
  3. 前記再帰的ニューラルネットワークに単語とともに入力される前記話題特徴量は、当該単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出される、
    ことを特徴とする請求項1または請求項2に記載の誤り修正モデル学習装置。
  4. 前記言語資源記憶部が記憶するテキストデータは、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータである、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の誤り修正モデル学習装置。
  5. 前記言語的な特徴は、単語あるいは単語の品詞であり、
    前記誤り修正モデルは、前記言語的な特徴に基づく素性関数の値を、前記再帰的ニューラルネットワークの隠れ層の出力及び前記素性関数のモデルパラメータにより重み付けして得られたスコアにより音声認識のスコアを修正する算出式である、
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の誤り修正モデル学習装置。
  6. 入力された音声データを、音響モデルと前記言語モデル学習部により学習された前記言語モデルとを用いて音声認識し、前記誤り修正モデル学習部により学習された前記誤り修正モデルにより、入力された前記音声データから得られた音声認識結果の選択における誤りを修正して出力する入力音声認識部をさらに備える、
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の誤り修正モデル学習装置。
  7. コンピュータを、
    再帰的ニューラルネットワークの入力に、言語資源記憶手段に記憶されているテキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習手段と、
    音声資源記憶手段に音声データと対応付けて記憶される正解単語列を、前記音声データに対して整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列手段と、
    前記音声資源記憶手段に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識手段と、
    整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する特徴量抽出手段と、
    隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習手段と、
    を具備する誤り修正モデル学習装置として機能させるためのプログラム。
JP2013213106A 2013-10-10 2013-10-10 誤り修正モデル学習装置、及びプログラム Expired - Fee Related JP6222821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013213106A JP6222821B2 (ja) 2013-10-10 2013-10-10 誤り修正モデル学習装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013213106A JP6222821B2 (ja) 2013-10-10 2013-10-10 誤り修正モデル学習装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015075706A true JP2015075706A (ja) 2015-04-20
JP6222821B2 JP6222821B2 (ja) 2017-11-01

Family

ID=53000588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013213106A Expired - Fee Related JP6222821B2 (ja) 2013-10-10 2013-10-10 誤り修正モデル学習装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6222821B2 (ja)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015152661A (ja) * 2014-02-12 2015-08-24 日本電信電話株式会社 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
JP2017111190A (ja) * 2015-12-14 2017-06-22 株式会社日立製作所 対話テキスト要約装置及び方法
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
JP2018021949A (ja) * 2016-08-01 2018-02-08 日本電信電話株式会社 単語予測装置、プログラム
JP2018028872A (ja) * 2016-08-19 2018-02-22 ヤフー株式会社 学習装置、学習方法、プログラムパラメータおよび学習プログラム
JP2018084627A (ja) * 2016-11-22 2018-05-31 日本放送協会 言語モデル学習装置およびそのプログラム
CN108630198A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于训练声学模型的方法和设备
JP2019046188A (ja) * 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム
JP2019091172A (ja) * 2017-11-13 2019-06-13 日本電信電話株式会社 句構造学習装置、句構造解析装置、方法、及びプログラム
US10410624B2 (en) 2016-03-17 2019-09-10 Kabushiki Kaisha Toshiba Training apparatus, training method, and computer program product
JP2020027224A (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP2020034704A (ja) * 2018-08-29 2020-03-05 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
US10679612B2 (en) 2017-01-04 2020-06-09 Samsung Electronics Co., Ltd. Speech recognizing method and apparatus
CN111382297A (zh) * 2018-12-29 2020-07-07 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
CN111435408A (zh) * 2018-12-26 2020-07-21 阿里巴巴集团控股有限公司 对话纠错方法、装置和电子设备
WO2020189235A1 (ja) * 2019-03-20 2020-09-24 国立大学法人大阪大学 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法
WO2020196021A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
CN111737980A (zh) * 2020-06-22 2020-10-02 桂林电子科技大学 一种英语文本单词使用错误的纠正方法
CN111833845A (zh) * 2020-07-31 2020-10-27 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件***有限公司 文本纠错方法、***、计算机设备及可读存储介质
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
CN112435671A (zh) * 2020-11-11 2021-03-02 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及***
US10964313B2 (en) 2016-03-17 2021-03-30 Kabushiki Kaisha Toshiba Word score calculation device, word score calculation method, and computer program product
WO2021166129A1 (ja) * 2020-02-19 2021-08-26 日本電気株式会社 音声認識装置、制御方法、及びプログラム
US11514916B2 (en) 2019-08-13 2022-11-29 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284209A (ja) * 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284209A (ja) * 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
内山 徹: "リカレントニューラルネットワーク予測モデルを用いた不特定話者単語音声認識", 電子情報通信学会論文誌(J83−D−II) 第2号, vol. p.776-783, JPN6017033301, 25 February 2000 (2000-02-25), JP, ISSN: 0003631934 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015152661A (ja) * 2014-02-12 2015-08-24 日本電信電話株式会社 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106373561B (zh) * 2015-07-24 2021-11-30 三星电子株式会社 声学得分计算和语音识别的设备和方法
JP2017111190A (ja) * 2015-12-14 2017-06-22 株式会社日立製作所 対話テキスト要約装置及び方法
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
US10964313B2 (en) 2016-03-17 2021-03-30 Kabushiki Kaisha Toshiba Word score calculation device, word score calculation method, and computer program product
US10410624B2 (en) 2016-03-17 2019-09-10 Kabushiki Kaisha Toshiba Training apparatus, training method, and computer program product
JP2018021949A (ja) * 2016-08-01 2018-02-08 日本電信電話株式会社 単語予測装置、プログラム
JP2018028872A (ja) * 2016-08-19 2018-02-22 ヤフー株式会社 学習装置、学習方法、プログラムパラメータおよび学習プログラム
JP2018084627A (ja) * 2016-11-22 2018-05-31 日本放送協会 言語モデル学習装置およびそのプログラム
US10679612B2 (en) 2017-01-04 2020-06-09 Samsung Electronics Co., Ltd. Speech recognizing method and apparatus
CN108630198B (zh) * 2017-03-23 2024-04-02 三星电子株式会社 用于训练声学模型的方法和设备
CN108630198A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于训练声学模型的方法和设备
JP2019046188A (ja) * 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム
JP2019091172A (ja) * 2017-11-13 2019-06-13 日本電信電話株式会社 句構造学習装置、句構造解析装置、方法、及びプログラム
JP2020027224A (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
WO2020035998A1 (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP7190283B2 (ja) 2018-08-24 2022-12-15 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP2020034704A (ja) * 2018-08-29 2020-03-05 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
US10984247B2 (en) 2018-08-29 2021-04-20 Fujitsu Limited Accurate correction of errors in text data based on learning via a neural network
JP7210938B2 (ja) 2018-08-29 2023-01-24 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
CN111435408A (zh) * 2018-12-26 2020-07-21 阿里巴巴集团控股有限公司 对话纠错方法、装置和电子设备
CN111435408B (zh) * 2018-12-26 2023-04-18 阿里巴巴集团控股有限公司 对话纠错方法、装置和电子设备
CN111382297A (zh) * 2018-12-29 2020-07-07 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
CN111382297B (zh) * 2018-12-29 2024-05-17 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
WO2020189235A1 (ja) * 2019-03-20 2020-09-24 国立大学法人大阪大学 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法
WO2020196021A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US11514916B2 (en) 2019-08-13 2022-11-29 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
US11521619B2 (en) 2019-08-13 2022-12-06 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
WO2021166129A1 (ja) * 2020-02-19 2021-08-26 日本電気株式会社 音声認識装置、制御方法、及びプログラム
CN111737980B (zh) * 2020-06-22 2023-05-16 桂林电子科技大学 一种英语文本单词使用错误的纠正方法
CN111737980A (zh) * 2020-06-22 2020-10-02 桂林电子科技大学 一种英语文本单词使用错误的纠正方法
CN111833845B (zh) * 2020-07-31 2023-11-24 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质
CN111833845A (zh) * 2020-07-31 2020-10-27 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及***
CN112435671A (zh) * 2020-11-11 2021-03-02 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及***
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件***有限公司 文本纠错方法、***、计算机设备及可读存储介质

Also Published As

Publication number Publication date
JP6222821B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11238845B2 (en) Multi-dialect and multilingual speech recognition
US11586930B2 (en) Conditional teacher-student learning for model training
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
US20200082808A1 (en) Speech recognition error correction method and apparatus
US11580145B1 (en) Query rephrasing using encoder neural network and decoder neural network
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
WO2016167779A1 (en) Speech recognition device and rescoring device
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
JP2014077882A (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和***
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
US20210049324A1 (en) Apparatus, method, and program for utilizing language model
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
Song et al. Exploiting different word clusterings for class-based RNN language modeling in speech recognition
JP2018031812A (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6222821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees