JP6277659B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP6277659B2
JP6277659B2 JP2013214411A JP2013214411A JP6277659B2 JP 6277659 B2 JP6277659 B2 JP 6277659B2 JP 2013214411 A JP2013214411 A JP 2013214411A JP 2013214411 A JP2013214411 A JP 2013214411A JP 6277659 B2 JP6277659 B2 JP 6277659B2
Authority
JP
Japan
Prior art keywords
speech recognition
language model
gram
unit
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013214411A
Other languages
English (en)
Other versions
JP2015079035A (ja
Inventor
伍井 啓恭
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013214411A priority Critical patent/JP6277659B2/ja
Publication of JP2015079035A publication Critical patent/JP2015079035A/ja
Application granted granted Critical
Publication of JP6277659B2 publication Critical patent/JP6277659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、言語モデルを入力音声に対して適応化することにより単語連鎖のカバー率を向上して、音声の認識精度を向上する音声認識技術に関するものである。
音声をテキスト化する音声認識技術は有用であり、医療や法律分野における発話音声の書き起こしや、放送等における字幕の作成など、多くの分野でテキスト入力効率向上やテキスト入力によるデータベースの検索の容易化などへの適用が期待され、あるいは既に適用され始めている。
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。
なお、以下で用いる専門用語は、従来技術文献1:鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄著,「音声認識システム」,株式会社オーム社,平成13年5月15日,p.53〜175(以下教科書1)、または従来技術文献2:北研二,辻井潤一著,「確率的言語モデル」,東京大学出版会,1999年11月25日,p.57〜99(以下教科書2)、または従来技術文献3:長尾真著,「自然言語処理」,岩波書店,1996年4月26日,p.118〜137(以下教科書3)に著された用語を用いるものとする。
音声を精度よく認識するための言語モデルとして教科書1〜3に記されているNグラムモデルを用いる方式が注目されている。Nグラムモデルの言語モデルでは、Nグラムがコーパスから学習されるので、コーパスに出現しない単語連鎖は誤認識の原因となるというスパースネス問題があることが知られている。
このスパースネス問題に対応するため、言語モデルを入力音声に対して適応化する技術が提案されている。例えば、特許文献1には1回目の音声認識結果に基づいて、予め階層化した言語モデルのなかから適切な言語モデルを選択し、選択した言語モデルを混合して1つの言語モデルを生成して、言語モデルを入力音声に対して適応化する技術が開示されている。
WO2008/004666(図3)
上述の従来の音声認識装置において、入力音声に含まれる選択された言語モデルのいずれにも学習されていない単語連鎖は、混合した言語モデルにおいても未学習の単語連鎖であり、それらの未学習の単語系列が誤認識される可能性が依然として高いという問題点があった。
この発明は上記のような問題点を解決するためになされたもので、音声認識結果の単語連鎖を学習してもともとの言語モデルに含まれていなかった単語連鎖のカバー率を向上することが可能な言語モデルを備えた音声認識装置を得ることを目的とする。
この発明の音声認識装置は、混合言語モデルを記憶する第2言語モデル記憶部と、前記混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、第1言語モデルを用いて、入力された音声信号を認識し、第1の音声認識結果を出力する第1音声認識部と、前記第1音声認識部による前記第1の音声認識結果が入力され、この第1の音声認識結果の単語系列に基づいてNグラムを作成し、前記第2言語モデル記憶部に記憶された前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加部と、を備えるようにしたものである。
この発明の音声認識方法は、第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、第2音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第2の音声認識手順と、Nグラム追加部が前記第1音声認識手順による音声認識結果の単語系列に基づいてNグラムを作成し、前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加手順と、を備えたるようにしたものである。
上述のように、この発明に係る音声認識装置によれば、第1言語モデルの認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
この発明に係る音声認識方法によれば、第1の音声認識手順による入力された音声の認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新する手順を実施することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
この発明の実施の形態1の音声認識装置の構成を示すブロック図である。 実施の形態1の音声認識装置の処理のフローチャートである。 実施の形態1の音声認識装置の第1音声認識部の認識結果の単語系列の例を示す図である。 実施の形態1の音声認識装置の第2音声認識部の更新前の学習例文情報の例を示す図である。 実施の形態1の音声認識装置の第2言語モデルの更新前のNグラムの例を示す図である。 実施の形態1の音声認識装置の第2音声認識部の更新後の学習例文情報の例を示す図である。 実施の形態1の音声認識装置の第2言語モデルの更新後のNグラムの例を示す図である。 実施の形態1の音声認識装置の動作例の更新後の第2言語モデルに基づく正解の単語系列の各単語の確率の例を示す図である。 実施の形態1の音声認識装置の動作例の更新後の第2言語モデルに基づく誤りを含む単語系列の各単語の確率の例を示す図である。 実施の形態1の文字列検索装置の更新後の第2言語モデルと第1言語モデルと更新前の第2言語モデルを混合した言語モデルの単語の確率の比較を示す図である。 実施の形態1において第2音声認識部の認識結果で第2言語モデルを更新する変形例の構成を示すブロック図である。 実施の形態1において第2音声認識部の認識結果で第2言語モデルを更新する場合の学習例文の例を示す図である。 実施の形態1において第2音声認識部の認識結果で更新した第2言語モデルの例を示す図である。 実施の形態1において第1音声認識部の認識結果で更新した場合と第2音声認識部の認識結果で更新した場合の第2言語モデルの単語の確率の比較を示す図である。 この発明の実施の形態2の音声認識装置の構成を示すブロック図である。 実施の形態2の音声認識装置の処理のフローチャートである。 実施の形態2の音声認識装置の第3音声認識部の認識結果の例を示す図である。 実施の形態2の音声認識装置のNグラム追加部が更新した学習例文の例を示す図である。 実施の形態2の音声認識装置の更新された第2言語モデルの例を示す図である。 実施の形態2の音声認識装置の更新された第2言語モデルの例を示す図である。 この発明の実施の形態3の音声認識装置の構成を示すブロック図である。 実施の形態3の音声認識装置の重み付けを行った学習例文情報の例を示す図である。 実施の形態3の音声認識装置の重み付けを行った学習例文情報の例を示す図である。
以下この発明の実施の形態を、図を参照して説明する。なお、参照する図において同一もしくは相当する部分には同一の符号を付している。
なお以下に示す動作の具体例は、音声認識処理を行う音声認識エンジンの一例として、オープンソースの大語彙連続音声認識エンジンであるJulius-4.2.2(http://julius.sourceforge.jp、以降ではJulius-4.2.2を単にJuliusとも表記する)を使用して行った実験結果を用いて説明する。
また、音響モデルは例えばJuliusディクテーション実行キットに含まれているhmmdefs_ptm_gid.binhmmを、言語モデルの更新処理におけるNグラム確率を求めるツール(以下言語モデル作成ツールと称す)は例えば教科書1に記載されたCMU-Cambridge統計的言語モデルツールキットを用いることができる。
なお、以下に示す実施の形態ではNグラムの次数が3(N=3)の場合について説明する。ただし、この発明はNグラムの次数を3に限定するものではなく、2グラムあるいは4以上の多次数のNグラムであっても良い。
実施の形態1.
図1はこの発明の実施の形態1に係る音声認識装置の構成を示す図である。実施の形態1の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105、第2音声認識部106、第2言語モデル(混合言語モデル)記憶部107、第2音響モデル記憶部108で構成される。
音声入力部101は、ユーザが発した音声をデジタル処理可能なデジタル音声信号に変換する。音声入力部101が出力するデジタル音声信号は第1音声認識部102および第2音声認識部106に入力される。
第1音声認識部102では入力されたデジタル音声信号について、第1音響モデル記憶部104に記憶された第1音響モデルと第1言語モデル記憶部103に記憶された第1言語モデルを参照して、音声認識を行う。第1音声認識部102は音声認識結果の単語系列(認識文)をNグラム追加部105に出力する。Nグラム追加部105は、入力された音声認識結果の単語系列からNグラムを抽出してそのNグラム確率を計算して、第2言語モデル記憶部107に記憶される第2言語モデルにNグラムを追加する。
音声入力部101からデジタル音声信号を入力された第2音声認識部106は、第2言語モデル記憶部107に記憶された混合言語モデルである第2言語モデルと第2音響モデル記憶部108に記憶された第2音響モデルを参照して音声認識を行い、音声認識結果の単語系列を出力する。第2音声認識部106から出力された音声認識結果の単語系列は、例えば表示部109に表示されるなどの処理で使用される。
上記において音響モデル(第1音響モデル、第2音響モデル)は、音素などの単位で音声の標準的な特徴量のパターンを保持するデータベースである。音声の特徴量としては、例えばMFCC(Mel Frequency Cepstrum Coefficient)やΔMFCCなどがある。音響モデルは音声認識処理において入力音声の特徴量と照合され、音素単位での入力音声の認識に用いられるものである。なお、ここでは第1音響モデルと第2音響モデルは双方とも一例として上述の同じ音響モデルを用いているが、第1音響モデルと第2音響モデルが互いに異なる音響モデルであっても良い。
言語モデル(第1言語モデル、第2言語モデル)は、単語の連鎖に関する制約(単語連鎖の発生確率)を規定するデータベースであり、Nグラムモデルに基づいて構成されている。言語モデルは、音声認識処理において音響モデルを用いた音素レベルの認識結果に基づいてこれらの言語モデルが参照される。
音声認識部(第1音声認識部102、第2音声認識部106)が行う音響モデルと言語モデルを参照して入力音声から認識文を得る処理は、周知の方法を適用すればよい。ここでは一例として上述の通りJuliusを使用するものとする。
図1の音声入力部101は音声を収録するマイクロホンと、アナログ音声をデジタルデータに変換するAD(Analog Digital)コンバーターなどの回路で構成することが可能である。また、第1音声認識部102、Nグラム追加部105、及び第2音声認識部106は、プロセッサとRAM(Random Access Memory)などの周辺回路およびプロセッサで実行されるソフトウェアで構成することが可能である。また、第1言語モデル記憶部103、第1音響モデル記憶部104、第2言語モデル記憶部107、第2音響モデル記憶部108はハードディスクなどの記憶装置で構成することが可能である。
あるいはクライアント−サーバ形式を採用して、例えば第1音声認識部102および、第1言語モデル記憶部103、第1音響モデル記憶部104をネットワーク経由でアクセス可能なサーバの機能として実現し、第2音声認識部106、第2言語モデル記憶部107、第2音響モデル記憶部108およびNグラム追加部105をクライアントの機能として実現するなどの構成にすることも可能である。
ここで、音声認識部(第1音声認識部102、第2音声認識部106)が行う音声認識処理における尤度計算について説明する。今、単語系列Wが以下の数式1で定義するように、n個の単語w1からwnで構成されるものとする。このとき、単語系列Wの確率(尤度)は以下の数式2で表される。ここで、P(wi|wi-2,wi-1)は単語wi-2と単語wi-1に続いて単語wiが出現する確率(3次のNグラムにおけるNグラム確率)である。
Figure 0006277659
Figure 0006277659
単語系列の確率は上記の数式2であるが、最も尤度の高い単語系列の判定では候補となる単語系列の確率の大小関係が比較できれば良い。このことから実際の処理では、以下の数式3に示すように、単語系列に含まれる各単語wiの確率(P(wi|wi-2,wi-1))を対数(対数確率と称す)にして、各単語系列の対数確率の総和X(W)を求め、各候補の単語系列のX(W)の比較する処理が行われる。
Figure 0006277659
なお、上述の各単語の確率を与えるものが言語モデルである。以降では、言語モデルに基づく尤度を言語尤度と称する。
音声認識処理では、上述の言語尤度と音響モデルに基づく尤度(音響尤度)を以下の数式4に従って加えた総合尤度f(h)で評価して、最尤の候補を音声認識結果とする。数式4においてhは音声認識結果の候補の単語系列、AC(h)は単語系列hに対する音響尤度、LM(h)は単語系列hに対する言語尤度、nは候補の単語系列の単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。なお、以下に示す動作具体例の説明ではそれぞれを8.0、-2.0とした場合の結果を用いている。
Figure 0006277659
次に、この実施の形態の音声認識装置の動作について説明する。図2は実施の形態1の音声認識装置の処理フローを示す図である。なお、以下の動作説明では「しゅーずけーすからーこーどおねがいします」(表記は「シューズケースカラーコードお願いします」)という文が発話された場合を例に具体例を説明する。
まず音声入力部101がユーザの発した音声をアナログの電気信号に変換し(ST201)、そしてアナログの電気信号である入力音声をADコンバーターにより、デジタル情報に変換する(ST202)。
次に、第1音声認識部102がこの入力音声のデジタル情報に基づいて音声認識を行う(ST203)。ST203の処理では、まず入力音声のデジタル情報から適当な時間間隔(例えば60ミリ秒ごと)で音声の特徴量の抽出を行う。そして、抽出した特徴量を用いて第1音響モデル記憶部104に記憶された第1音響モデルを参照し、音素レベルの認識を行って認識結果候補の単語系列とその単語系列の音響モデルに基づく音響尤度を求める。さらにこの認識結果候補の単語系列に基づいて第1言語モデル記憶部103に記憶された第1言語モデルを参照して言語モデルに基づく言語尤度を求め、上述の通り数式4に示した計算の結果により音響尤度と言語尤度を総合的に判断して、入力音声との照合の度合いが最も高い(すなわち最尤の)単語系列を認識文(第1の音声認識結果)として得る。
Juliusにより上述の「しゅーずけーすからーこーどおねがいします」という音声入力の認識を行うと、図3に示す単語系列が認識結果として出力される。なお、ここでは第1言語モデルの一例として、情報処理学会の連続音声認識コンソーシアム2002年度版ソフトウェアのNP12y.60k.4.arpa(60K 単語N-gram,学習データ:毎日新聞社の新聞記事データ「CD-毎日新聞 91〜2002年版」,形態素解析:chasen 2.2.1 + ipadic 2.4.1,テキストサイズ:3.5億形態素,語彙サイズ:60156)を使用することとする。「カラーコード」はこの言語モデルには学習されておらず、この言語モデルにおいて未知語である。
図3において<s>、</s>はそれぞれ文頭、文末を示す記号である。また、例えば「し:シ:する:227」の「し」は認識した単語の表記を、「シ」は読みを、「する」は原形を、「227」は品詞を表すコード(品詞コード)をそれぞれ示している。すなわち認識結果の単語系列は「シューズケースから行動お願いします」である。この認識結果では「カラーコード」を「から行動」(から:カラ:から:63 行動:コードー:行動:505)に認識誤りが起こっている。これは、第1言語モデルでは「カラーコード」が未知語であり、類似した読みの対立候補が存在して、この対立候補が最尤と判断されてしまったためである。
次に、Nグラム追加部105が第1音声認識部102の認識結果の単語系列に基づくNグラムを第2言語モデル記憶部107に記憶された第2言語モデルに追加する。ここで、第2言語モデルは第1言語モデルとは異なり特定分野の専門の例文からNグラムを学習した言語モデルとする。また、第2言語モデル記憶部107には学習に用いた例文(学習例文)を学習例文情報(Nグラムの学習に用いられた例文に関する情報)として記憶しているものとする。なお、この学習例文情報は第2言語モデル記憶部107とは別のRAM(Random Access Memory)などの記憶媒体(学習例文情報記憶部)に記憶するようにしても良い。また、この実施の形態では例文自体を学習例文情報としたが、例文に出現する各単語の出現回数の情報を学習例文情報にするなどNグラム確率の計算に用いることが可能な他の情報にすることも可能である。
今、第2言語モデルには「シューズケース」、「カラーコード」の2つの例文からNグラムが学習されているものとする。図4に学習例文情報として記憶されたこの2つの例文を示す。図3と同様に<s>は文頭、</s>は文末を示し、表記、読み、原形、品詞コードを表している。また、図5に第2言語モデルに学習されたこの2つの例文に係るNグラムを示す。今、Nグラムの次数はN=3であるので1グラム、2グラム、3グラムが学習されている。
図5において例えば\1-gramsの4行目の「-0.9031 カラーコード:カラーコード:カラーコード:507 0.0000」は、「カラーコード:カラーコード:カラーコード:507」がNグラム(「カラーコード」という1グラムで図3と同様の表記、読み、原形、品詞コードを示す)であり、「-0.9031」がこのNグラムの対数確率である。「0.0000」は、高次のNグラムが言語モデルに存在しない場合に、グッド・チューリング推定法に基づくバックオフ・スムージングにより低次のNグラムの確率を用いてその存在しない高次のNグラムの確率を推定する処理で用いるバックオフ係数の対数値である。
また、例えば\3-gramsの2行目の「-0.3010 <s> カラーコード:カラーコード:カラーコード:507 </s>」は、「<s> カラーコード:カラーコード:カラーコード:507 </s>」がNグラム(「文頭、カラーコード、文末」という3グラム)であり、「-0.3010」がNグラム確率である。なお、次数が3のNグラムの言語モデルにおいて、3グラムを用いてより高次のNグラムの確率を推定することはないのでバックオフ係数は存在しない。
ここで、バックオフ係数を用いて低次のNグラム確率から高次のNグラム確率を推定する処理を説明する。2次のNグラム確率を用いて3次のNグラム確率を推定する計算は以下に示す擬似的なプログラムコード(擬似コード)で定義される。
P(wd3|wd1,wd2) = if(trigram exists) p_3(wd1,wd2,wd3)
else if(bigram wd1,wd2 exists) bo_wt_2(wd1,wd2) * P(wd3|wd2)
else P(wd3|wd2)
この擬似コードにおいて、wd1、wd2、wd3は単語を示している。P(wd3|wd1,wd2)は前述の通り、wd1、wd2の後にwd3が生成される確率(単語wd3の確率)である。P(wd3|wd2)も同様である。また、p_3(wd1,wd2,wd3)は単語列wd1,wd2,wd3の3グラムの確率である。bo_wt_2(wd1,wd2)は単語列wd1,wd2の2グラムのバックオフ係数である。
つまり、単語列wd1,wd2,wd3の3グラムが言語モデルに存在する場合はその3グラムの確率が単語wd3の確率となる。単語列wd1,wd2,wd3の3グラムが存在せず、単語列wd1,wd2の2グラムが存在する場合は、単語列wd1,wd2の2グラムのバックオフ係数とP(wd3|wd2)の積が単語wd3の確率となる。単語列wd1,wd2の2グラムも存在しない場合にはP(wd3|wd2)が単語wd3の確率となる。
同様に、1次のNグラム確率を用いて2次のNグラム確率を推定する計算は以下に示す擬似コードで定義される。
P(wd2|wd1) = if(bigram exists) p_2(wd1,wd2)
else bo_wt_1(wd1)*p_1(wd2)
ここで、p_2(wd1,wd2)は単語列wd1,wd2の2グラムの確率であり、p_1(wd2)は単語列wd2の1グラムの確率である。また、bo_wt_1(wd1)は単語列wd1の1グラムのバックオフ係数である。
なお、上記の擬似コードでは積を求めるように定義されているが、対数確率で計算をする場合には積ではなく和を計算する。
第2言語モデルへの第1音声認識部102の認識結果の単語系列の追加処理では、まずNグラム追加部105が学習例文に第1音声認識部102の認識結果の単語系列を加えて学習例文を更新する(ST204)。上述のように「しゅーずけーすからーこーどおねがいします」という音声入力について第1音声認識部102が「シューズケースから行動お願いします」と認識したとき、図4に示した学習例文にこの認識結果の単語系列が追加される。第1音声認識部102の認識結果の単語系列である「シューズケースから行動お願いします」が追加された学習例文情報を図6に示す。「シューズケースから行動お願いします」に対応した「<s> シューズ:シューズ:シューズ:507 ケース:ケース:ケース:507 から:カラ:から:63 行動:コードー:行動:505 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146 </s>」が追加されている。
次に、Nグラム追加部105はこの更新した学習例文に基づいてNグラム確率を算出し(ST205)、算出したNグラム確率により第2言語モデル記憶部107に記憶された第2言語モデルを更新する(ST206)。図7に更新後の第2言語モデルを示す。なお、Nグラム確率の計算は上述の言語モデルツールキットを用いて行った。図7において、例えば\3-gramsでは、1行目の「-0.4771 </s> <s> カラーコード:カラーコード:カラーコード:507」では、Nグラム確率が図5に示した更新前の-0.3010から-0.4771に更新されている。また、6行目の「-0.3010 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146」など図5に示した更新前の第2言語モデルには存在しなかったNグラムが第1音声認識部102の認識結果の単語系列に基づいて新たに追加されている。
次に、第2音声認識部106が音声認識を行う(ST207)。ST207の処理では、第1音声認識部102と同様に入力音声のデジタル情報から音声の特徴量の抽出し、抽出した特徴量に基づいて第2音響モデル記憶部108に記憶された第2音響モデルおよび第2言語モデル記憶部107に記憶された第2言語モデル(混合言語モデル)を参照して、最尤の単語系列を認識文(第2の音声認識結果)として得る。
ここで、図8を参照してこの第2音声認識部106が行う音声認識処理における尤度計算の具体例を説明する。なお、図8では表を見やすくするために単語の表記のみを記載し、読みや原形等は省略した形式で表現している。図9、図10、図14も同様である。
尤度計算で用いられる単語の確率は最も次数の高いNグラムの値を採用する。例えば文頭の確率であるP(<s> |)の場合、前接の単語が無いので次数は1グラムであり、図7の\1-gramsの「<s>」の値-0.6368を採用する。また文頭に続くシューズケースの確率であるP(シューズケース | <s>)の場合は、2グラムであるので\2-gramsの「<s> シューズケース:シューズケース:シューズケース:507」の値-0.5441を対数確率として採用する。
次のP(カラーコード | <s>, シューズケース)は3グラムであるが\3-gramsに対応するものが無いので、前述のバック・スムージングによりNグラム確率を推定する。\2-gramsに「<s> シューズケース:シューズケース:シューズケース:507」があるのでこの2グラムのバックオフ係数を使用する。ただし、\2-gramsに「シューズケース:シューズケース:シューズケース:507 カラーコード:カラーコード:カラーコード:507」の2グラムが存在しないのでこの2グラムの確率も同様にバック・スムージングにより推定する。
具体的な推定値の計算は、bo_wt_2(<s>,シューズケース:シューズケース:シューズケース:507)+bo_wt_1(シューズケース:シューズケース:シューズケース:507)+p_1(カラーコード:カラーコード:カラーコード:507)=(0.1761)+(-0.4046)+(-1.2109)=-1.4394となる。以上により推定値-1.4394を対数確率として採用する。同様にしてすべての単語の対数確率を取得し、この各単語の対数確率を用いて上述の数式3により正解の単語系列である「<s>シューズケースカラーコードお願いします</s>」の言語モデルに基づく尤度を計算すると、図8の表に示すように(-0.6368)+(-0.5441)+(-1.4394)+(-1.6155)+(-0.1761)+(-0.301)+(-0.301)=-5.0139となる。
今回使用した音響モデルにおける正解の単語系列の音響尤度は-9118.412109であり、上述の数式4に基づいて正解の単語系列「<s>シューズケースカラーコードお願いします</s>」の総合尤度は、-9118.412109+(-5.0139×8.0)+(-2.0×7)=-9172.52と算出できる。
第1音声認識部102の認識結果として出力された単語系列は誤認識を含んだまま第2言語モデルに混合されており、誤認識された単語を含む単語系列が最尤と判定されてしまうと認識性能を向上することができない。
しかし、誤りを含む単語系列「<s>シューズケースから行動お願いします</s>」の音響尤度は-9133.199219であり、また言語尤度は図9に示す表の通り(-0.6368)+(-0.5441)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)=-3.2879であるので、総合尤度は-9133.199219+(-3.2879×8.0)+(-2.0×9)=-9177.5となる。従って誤りを含む単語系列の総合尤度よりも正解の単語系列の総合尤度の方が高いことから、この誤りを含む単語系列は棄却され、正解の単語系列を音声認識結果として得ることができる。
次に、第1言語モデルと更新前の第2言語モデルを単純に混合して得られる言語モデル(単純混合モデルと称する)と、上記で説明したこの実施の形態の更新後の第2言語モデルの比較を示す。図10に正解の単語系例「<s>シューズケースカラーコードお願いします</s>」についての単純混合言語モデルとこの実施の形態の更新後の第2言語モデルのそれぞれに基づく各単語の確率とNグラムの次数と言語尤度を示す。単純混合言語モデルではX(W)=-11.91879であるのに対し更新後の第2言語モデルではX(W)=-5.0139であるので、更新後の第2言語モデルの方が同じ単語系列に関して言語尤度が高くなっている。これは、第1音声認識部102の認識結果の単語系列を学習例文に加えて第2言語モデルを更新したことによる効果である。音声認識処理において言語尤度が高い更新後の第2言語モデルを使用する方が認識誤りを起こす可能性が低く、認識性能を向上することができる。
なお、この実施の形態では第1音声認識部102の認識結果を第2言語モデルに追加混合したが、図11に示すようにNモデル追加部105cが第2音声認識部106の認識結果に基づいて学習例文を更新し、更新した学習例文に基づいて第2言語モデルにNグラムを追加する構成にしてもよい。このとき、第1音声認識部102の認識結果と第2音声認識部106の認識結果が異なる場合は、第1音声認識部102の認識結果を棄却し、第2音声認識部106の認識結果を採用するようにしてもよい。第2音声認識部106の認識結果を学習例文に追加した場合の学習例文を図12に、このときの言語モデルを図13に示す。また、図14に第1音声認識部102の認識結果を学習した場合と、第2音声認識部106の認識結果を学習した場合との正解の単語系列に対する対数確率と適用されるNグラム次数の比較を示す。第2音声認識部102の認識結果を学習した場合の対数確率の合計は-2.5464となっており第1音声認識部106の認識結果を学習した場合よりも言語尤度が向上している。
上述のように、第2言語モデルに第1言語モデルの認識結果の単語系列を追加混合するNグラム追加部を備えることにより、第1言語モデルの認識結果の単語系列により第2言語モデルを入力音声に適応させて、第2言語モデルの入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上することが可能である。
また、この実施の形態では第1音声認識器と第2音声認識器は別個のものとしたが、同じ1つの音声認識器を用いても良い。また、第1言語モデルと第2言語モデルをそれぞれ第1言語モデル記憶部と第2言語モデル記憶部に記憶された別の言語モデルとしていたが、同じ言語モデル記憶部に記憶された一つの言語モデルにしてもよい。このとき、例えば発話が「音声認識」であり、もともとの言語モデルには1グラムの「音声」と「認識」のみが存在した場合、「音声認識」が学習され、「<s>音声」,「音声認識」、「認識</s>」の2グラムが学習されることとなり音声認識性能を向上することができる。
実施の形態2.
実施の形態1は、1つの音声認識結果を混合言語モデルに追加するようにしたものであったが、次に2つの音声認識器から得た2つの音声認識結果を混合言語モデルに追加する実施の形態を示す。
図15はこの発明の実施の形態2に係る音声認識装置の構成図である。実施の形態2の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105b、第2音声認識部106、第2言語モデル記憶部107b、第2音響モデル記憶部108、第3音声認識部112、第3言語モデル記憶部113、第3音響モデル記憶部114で構成される。実施の形態1と同じ符号を付した部分は実施の形態1と同様であるので説明を省略する。
第3音声認識部112は第1音声認識部102、第2音声認識部106と同様に、第3言語モデル記憶部113に記憶された第3言語モデル、第3音響モデル記憶部114に記憶された第3音響モデルを参照して音声認識処理を行う。第3言語モデル記憶部113に記憶された第3言語モデルは、実施の形態1の第2言語モデルと同様の特定分野の専門の学習例文から学習された言語モデルとする。
Nグラム追加部105bは第1音声認識部102の認識結果の単語系列および第3音声認識部112の認識結果の単語系列に基づいて、第2言語モデル記憶部107bに記憶された第2言語モデルにNグラムを追加する。第2言語モデル記憶部107bに記憶された第2言語モデルは実施の形態1と同様に第2音声認識部106が参照する言語モデルである。ただし、この言語モデルはNグラム追加部105bによって追加されるNグラムを記憶するための言語モデルであり、初期状態ではNグラムは学習されておらず、学習例文も記憶されていない。
次に実施の形態2の音声認識装置の動作を実施の形態1との差分を中心に動作に説明する。図16は実施の形態2の音声認識装置の処理フローである。この実施の形態の特徴は図16に示したST208とST204bの処理である。その他の処理は実施の形態1と同様である。ST208の処理で第3音声認識部112は第1音声認識部102と同様の処理により、第3音響モデル記憶部114に記憶された第3音響モデルと第3言語モデル記憶部113に記憶された第3言語モデルを参照して認識結果の単語系列(第3の音声認識結果)を得る。第1音声認識部102による認識結果の単語系列と第3音声認識部112の認識結果の単語系列はNグラム追加部105bに出力される。
Nグラム追加部105bは、受信した第1音声認識部102による認識結果の単語系列と第3音声認識部112の認識結果の単語系列から学習例文を作成する(ST204b)。なお、この学習例文は記憶しておき、以降の別の音声入力の音声認識の際にはこの記憶していた学習例文を更新する。
実施の形態1と同様に「しゅーずけーすからーこーどおねがいします」という音声が入力された場合を例にして具体的な動作を説明する。第1音声認識部102の認識結果は実施の形態1で示した図3と同様の単語系列となる。また、第3音声認識部112の認識結果は図17に示す通りとなる。これらに基づいてNグラム追加部105bは学習例文を作成する。図18に作成された学習例文を示す。
Nグラム追加部105bは図18に示した学習例文からNグラム確率を求め、図19、図20に示すNグラムを第2言語モデルに追加する。次に、第2音声認識部106がこの新たに学習されたNグラムを有する第2言語モデルを参照して音声認識をすることにより、実施の形態1の場合と同様に正しい音声認識結果を得ることができる。
以上のように、第1音声認識器の出力する単語系列と第3音声認識器の出力する単語系列から混合言語モデルを生成するようにしているので、カバー率を改善する効果を損なうことなく、混合言語モデルをコンパクトにすることができる。これは、第2音声認識器をモバイル端末などの小型機器で実施する場合に特に有効である。
上述の実施の形態2では第1言語モデルを用いて音声認識を行う第1音声認識部の認識結果と、第3言語モデルを用いて音声認識を行う第3音声認識部の認識結果の2つの認識結果により混合言語モデルを更新したが、さらに多くの言語モデルおよび音声認識部を備えて、それらの音声認識部の認識結果を加えて混合言語モデルを更新するようにしても良い。また、実施の形態1に示したように第2音声認識部の認識結果に基づいて第2言語モデルを更新するように構成しても良い。
実施の形態3.
実施の形態2では、第2言語モデルへのNグラムの追加時にそれぞれの音声認識部が出力する認識結果の単語列を同じ重みで混合して第2言語モデルを生成する構成であった。この実施の形態では、音声認識部毎に重み付け(混合重み)をし、混合重みを変化させた1個以上の第2言語モデルを生成して、すべての組み合わせのうち最尤の認識結果を出力するようにする。
基本的な構成は実施の形態2と同様であるので、重み付けを行った混合言語モデルの生成と、複数の混合言語モデルを用いた認識結果の比較を中心に説明する。なお、以下の説明では3個の混合言語モデルを備える場合を例に説明するが、混合言語モデルの個数は1個あるいは2個でも良いし、また4個以上であってもよい。ただし、混合言語モデルが1この場合には、認識結果を比較する処理は不要である。
図21はこの実施の形態の音声認識装置の構成を、第1音声認識部102、第3音声認識部112、Nグラム追加部105d、第2言語モデル記憶部107dおよび第2音声認識部106dに注目して示した機能ブロック図である。図21においてλ(0≦λ≦1)は第1音声認識部102の認識結果と第3音声認識部112の認識結果に重み付けをする係数である。ここでは、λが第1音声認識部102の認識結果に対する重みであり、(1−λ)が第3音声認識部112の認識結果に対する重みであるものとする。
なお、λの値はそれぞれの第2言語モデルに対応して予め定められているものとする。ここではλ=2/3、λ=1/2,λ=1/3の3種類とし、それぞれ図21に示す第2言語モデルA、第2言語モデルB、第2言語モデルCに対応するものとする。
次に動作を説明する。Nグラム追加部105dはλおよび1−λに基づいて重み付けを行った学習例文を作成してそれぞれの学習例文に基づいて第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
λ=1/2の場合の学習例文は図17に示した学習例文と同様である。λ=2/3の場合は図22に示すように、第1音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。反対にλ=1/3の場合には図23に示すように、第3音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。このようにλ:1-λと同等の比になるように第1音声認識部の認識結果の単語系列と第3音声認識部の認識結果の単語系列を含む学習例文を生成してそれぞれに対応した第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
このように第2言語モデルを作成することにより、第2言語モデルに追加するNグラムの確率にそのNグラムの元となった例文を出力した音声認識部に対応した重み付けをすることができる。
第2音声認識部106dは実施の形態1、実施の形態2と同様の処理で第2言語モデルA、第2言語モデルB、第2言語モデルCそれぞれを参照して認識結果となる単語系列を取得し、これらの単語系列を以下の数式5を用いて比較して、最尤のものを認識結果の単語系列として出力する。なお、数式5においてhA,hB,hCはそれぞれ第2言語モデルA、第2言語モデルB、第2言語モデルCを参照した音声認識処理で得られる単語系列、AC(hA),AC(hB),AC(hC)は単語系列hA,hB,hCに対する音響尤度、LM(hA),LM(hB),LM(hC)は単語系列hA,hB,hCに対する言語尤度、nA,nB,nCはそれぞれ単語系列hA,hB,hCの単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。
Figure 0006277659
以上のようにすることにより、入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上するとともに、適切な言語モデルの混合比による音声認識結果が得られる効果がある。
なお、実施の形態1において第1音声認識部の認識結果の単語系列を第2言語モデルに追加するときに重み付けをすることも可能である。
なお、以上に述べた実施の形態では最尤解を混合の対象としたが、複数の候補を選ぶNベスト解を用いるようにしても良い。また、第1音声認識部、第2音声認識部、第3音声認識部で認識した単語系列を形態素解析した結果に基づいて混合言語モデルを更新するようにしても良い。また、第1言語モデルと第2言語モデルもしくは第3言語モデルで形態素単位が異なるようにしても良い。
101 音声入力部、102 第1音声認識部、103 第1言語モデル記憶部、104 第1音響モデル記憶部、105,105b,105c,105d Nグラム追加部、106,106d 第2音声認識部、107,107b,107d 第2言語モデル記憶部、108 第2音響モデル記憶部、109 表示部、112 第3音声認識部、113 第3言語モデル記憶部、114 第3音響モデル記憶部

Claims (10)

  1. 混合言語モデルを記憶する第2言語モデル記憶部と、
    前記混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、
    第1言語モデルを用いて、入力された音声信号を認識し、第1の音声認識結果を出力する第1音声認識部と、
    前記第1音声認識部による前記第1の音声認識結果が入力され、この第1の音声認識結果の単語系列に基づいてNグラムを作成し、前記第2言語モデル記憶部に記憶された前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加部と、
    を備えたことを特徴とする音声認識装置。
  2. 前記Nグラム追加部は、前記第1および第2の音声認識部と異なる第3の音声認識部による前記音声信号の第3の音声認識結果が入力され、前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいてNグラムを作成し、前記第2言語モデル記憶部に記憶された前記混合言語モデルに前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項1に記載の音声認識装置。
  3. 前記第1言語モデルを記憶する第1言語モデル記憶部を更に備えたことを特徴とする請求項1に記載の音声認識装置。
  4. 3言語モデルを記憶する第3言語モデル記憶部と、
    前記第3言語モデルを用いて前記音声信号を認識し前記第3の音声認識結果を出力する前記第3音声認識部と、
    更に備えることを特徴とする請求項に記載の音声認識装置。
  5. 前記Nグラム追加部は、前記第2音声認識部の前記第2の音声認識結果の単語系列に基づいてNグラムを作成し、前記混合言語モデルに前記第2の音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
  6. 前記Nグラム追加部は、更に前記混合言語モデルに記憶されたていたNグラムの確率を更新することを特徴とする請求項1から請求項のいずれか一項に記載の音声認識装置。
  7. 前記Nグラム追加部は、前記第1音声認識結果および前記第3音声認識結果にそれぞれ前記第1音声認識部および前記第3音声認識部対応した重みで重み付けをして、前記混合言語モデルに追加するNグラムの確率を算出することを特徴とする請求項に記載の音声認識装置。
  8. 前記第2言語モデル記憶部は複数の前記混合言語モデルを記憶し、
    前記Nグラム追加部は、前記複数の混合言語モデルのそれぞれに対応する前記第1音声認識結果に対する前記重みと前記第3音声認識結果に対する前記重みとの予め定められた組み合わせに基づいて前記重み付けをして、前記複数の第2言語モデルのそれぞれに追加するNグラムの確率を算出し、
    前記第2音声認識部は、前記複数の混合言語モデルのそれぞれを参照して音声認識を行い、得られた音声認識結果のいずれかをその音声認識結果の尤度に基づいて選択して前記第2の音声認識結果とする、
    ことを特徴とする請求項に記載の音声認識装置。
  9. 第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、
    第2音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第2の音声認識手順と、
    Nグラム追加部が前記第1音声認識手順による音声認識結果の単語系列に基づいてNグラムを作成し、前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加手順と、
    を備えたことを特徴とする音声認識方法。
  10. 第3音声認識部が第3言語モデルを参照して前記入力された音声の音声認識を行う第3の音声認識手順と、を備え、
    前記Nグラム追加手順は、前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列と基づいてNグラムを作成し、前記混合言語モデルに前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項に記載の音声認識方法。
JP2013214411A 2013-10-15 2013-10-15 音声認識装置および音声認識方法 Active JP6277659B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013214411A JP6277659B2 (ja) 2013-10-15 2013-10-15 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013214411A JP6277659B2 (ja) 2013-10-15 2013-10-15 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP2015079035A JP2015079035A (ja) 2015-04-23
JP6277659B2 true JP6277659B2 (ja) 2018-02-14

Family

ID=53010514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013214411A Active JP6277659B2 (ja) 2013-10-15 2013-10-15 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP6277659B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273000B (zh) * 2018-10-11 2023-05-12 河南工学院 一种语音识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628245B2 (ja) * 2000-09-05 2005-03-09 日本電信電話株式会社 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP4089861B2 (ja) * 2001-01-31 2008-05-28 三菱電機株式会社 音声認識文章入力装置
JP5459214B2 (ja) * 2008-08-20 2014-04-02 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP5235187B2 (ja) * 2009-11-16 2013-07-10 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Also Published As

Publication number Publication date
JP2015079035A (ja) 2015-04-23

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
CN107590135B (zh) 自动翻译方法、设备和***
US9697201B2 (en) Adapting machine translation data using damaging channel model
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
CN109979432B (zh) 一种方言翻译方法及装置
CN107705787A (zh) 一种语音识别方法及装置
US9594744B2 (en) Speech transcription including written text
WO2011096015A1 (ja) 認識辞書作成装置及び音声認識装置
US20030093263A1 (en) Method and apparatus for adapting a class entity dictionary used with language models
Aleksic et al. Improved recognition of contact names in voice commands
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US10482876B2 (en) Hierarchical speech recognition decoder
JP2010540976A (ja) 自動音声認識の方法および装置
JP6095588B2 (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
CN112364658A (zh) 翻译以及语音识别方法、装置、设备
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2022110098A (ja) 音声処理
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
JP6277659B2 (ja) 音声認識装置および音声認識方法
Nguyen et al. Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R151 Written notification of patent or utility model registration

Ref document number: 6277659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250