JP6277659B2

JP6277659B2 - 音声認識装置および音声認識方法

Info

Publication number: JP6277659B2
Application number: JP2013214411A
Authority: JP
Inventors: 伍井　啓恭; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2018-02-14
Anticipated expiration: 2033-10-15
Also published as: JP2015079035A

Description

本発明は、言語モデルを入力音声に対して適応化することにより単語連鎖のカバー率を向上して、音声の認識精度を向上する音声認識技術に関するものである。

音声をテキスト化する音声認識技術は有用であり、医療や法律分野における発話音声の書き起こしや、放送等における字幕の作成など、多くの分野でテキスト入力効率向上やテキスト入力によるデータベースの検索の容易化などへの適用が期待され、あるいは既に適用され始めている。
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。

なお、以下で用いる専門用語は、従来技術文献１：鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄著，「音声認識システム」，株式会社オーム社，平成13年5月15日，p.53〜175（以下教科書１）、または従来技術文献２：北研二，辻井潤一著，「確率的言語モデル」，東京大学出版会，1999年11月25日，p.57〜99（以下教科書２）、または従来技術文献３：長尾真著，「自然言語処理」，岩波書店，1996年4月26日，p.118〜137（以下教科書３）に著された用語を用いるものとする。

音声を精度よく認識するための言語モデルとして教科書１〜３に記されているＮグラムモデルを用いる方式が注目されている。Ｎグラムモデルの言語モデルでは、Ｎグラムがコーパスから学習されるので、コーパスに出現しない単語連鎖は誤認識の原因となるというスパースネス問題があることが知られている。

このスパースネス問題に対応するため、言語モデルを入力音声に対して適応化する技術が提案されている。例えば、特許文献１には１回目の音声認識結果に基づいて、予め階層化した言語モデルのなかから適切な言語モデルを選択し、選択した言語モデルを混合して１つの言語モデルを生成して、言語モデルを入力音声に対して適応化する技術が開示されている。

WO2008/004666（図３）

上述の従来の音声認識装置において、入力音声に含まれる選択された言語モデルのいずれにも学習されていない単語連鎖は、混合した言語モデルにおいても未学習の単語連鎖であり、それらの未学習の単語系列が誤認識される可能性が依然として高いという問題点があった。

この発明は上記のような問題点を解決するためになされたもので、音声認識結果の単語連鎖を学習してもともとの言語モデルに含まれていなかった単語連鎖のカバー率を向上することが可能な言語モデルを備えた音声認識装置を得ることを目的とする。

この発明の音声認識装置は、混合言語モデルを記憶する第２言語モデル記憶部と、前記混合言語モデルを用いて、入力された音声信号を認識し第２の音声認識結果を出力する第２音声認識部と、第１言語モデルを用いて、入力された音声信号を認識し、第１の音声認識結果を出力する第１音声認識部と、前記第１音声認識部による前記第１の音声認識結果が入力され、この第１の音声認識結果の単語系列に基づいてＮグラムを作成し、前記第２言語モデル記憶部に記憶された前記混合言語モデルに前記第１の音声認識結果の単語系列に基づいて作成したＮグラムを追加するＮグラム追加部と、を備えるようにしたものである。

この発明の音声認識方法は、第１音声認識部が第１言語モデルを参照して入力された音声の音声認識を行う第１の音声認識手順と、第２音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第２の音声認識手順と、Ｎグラム追加部が前記第１音声認識手順による音声認識結果の単語系列に基づいてＮグラムを作成し、前記混合言語モデルに前記第１の音声認識結果の単語系列に基づいて作成したＮグラムを追加するＮグラム追加手順と、を備えたるようにしたものである。

上述のように、この発明に係る音声認識装置によれば、第１言語モデルの認識結果の単語系列に基づいて混合言語モデルである第２言語モデルを更新することにより、第２言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
この発明に係る音声認識方法によれば、第１の音声認識手順による入力された音声の認識結果の単語系列に基づいて混合言語モデルである第２言語モデルを更新する手順を実施することにより、第２言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。

この発明の実施の形態１の音声認識装置の構成を示すブロック図である。実施の形態１の音声認識装置の処理のフローチャートである。実施の形態１の音声認識装置の第１音声認識部の認識結果の単語系列の例を示す図である。実施の形態１の音声認識装置の第２音声認識部の更新前の学習例文情報の例を示す図である。実施の形態１の音声認識装置の第２言語モデルの更新前のＮグラムの例を示す図である。実施の形態１の音声認識装置の第２音声認識部の更新後の学習例文情報の例を示す図である。実施の形態１の音声認識装置の第２言語モデルの更新後のＮグラムの例を示す図である。実施の形態１の音声認識装置の動作例の更新後の第２言語モデルに基づく正解の単語系列の各単語の確率の例を示す図である。実施の形態１の音声認識装置の動作例の更新後の第２言語モデルに基づく誤りを含む単語系列の各単語の確率の例を示す図である。実施の形態１の文字列検索装置の更新後の第２言語モデルと第１言語モデルと更新前の第２言語モデルを混合した言語モデルの単語の確率の比較を示す図である。実施の形態１において第２音声認識部の認識結果で第２言語モデルを更新する変形例の構成を示すブロック図である。実施の形態１において第２音声認識部の認識結果で第２言語モデルを更新する場合の学習例文の例を示す図である。実施の形態１において第２音声認識部の認識結果で更新した第２言語モデルの例を示す図である。実施の形態１において第１音声認識部の認識結果で更新した場合と第２音声認識部の認識結果で更新した場合の第２言語モデルの単語の確率の比較を示す図である。この発明の実施の形態２の音声認識装置の構成を示すブロック図である。実施の形態２の音声認識装置の処理のフローチャートである。実施の形態２の音声認識装置の第３音声認識部の認識結果の例を示す図である。実施の形態２の音声認識装置のＮグラム追加部が更新した学習例文の例を示す図である。実施の形態２の音声認識装置の更新された第２言語モデルの例を示す図である。実施の形態２の音声認識装置の更新された第２言語モデルの例を示す図である。この発明の実施の形態３の音声認識装置の構成を示すブロック図である。実施の形態３の音声認識装置の重み付けを行った学習例文情報の例を示す図である。実施の形態３の音声認識装置の重み付けを行った学習例文情報の例を示す図である。

以下この発明の実施の形態を、図を参照して説明する。なお、参照する図において同一もしくは相当する部分には同一の符号を付している。

なお以下に示す動作の具体例は、音声認識処理を行う音声認識エンジンの一例として、オープンソースの大語彙連続音声認識エンジンであるJulius-4.2.2（http://julius.sourceforge.jp、以降ではJulius-4.2.2を単にJuliusとも表記する）を使用して行った実験結果を用いて説明する。
また、音響モデルは例えばJuliusディクテーション実行キットに含まれているhmmdefs_ptm_gid.binhmmを、言語モデルの更新処理におけるＮグラム確率を求めるツール（以下言語モデル作成ツールと称す）は例えば教科書１に記載されたCMU-Cambridge統計的言語モデルツールキットを用いることができる。
なお、以下に示す実施の形態ではＮグラムの次数が３（Ｎ＝３）の場合について説明する。ただし、この発明はＮグラムの次数を３に限定するものではなく、２グラムあるいは４以上の多次数のＮグラムであっても良い。

実施の形態１．
図１はこの発明の実施の形態１に係る音声認識装置の構成を示す図である。実施の形態１の音声認識装置は、音声入力部１０１、第１音声認識部１０２、第１言語モデル記憶部１０３、第１音響モデル記憶部１０４、Ｎグラム追加部１０５、第２音声認識部１０６、第２言語モデル（混合言語モデル）記憶部１０７、第２音響モデル記憶部１０８で構成される。

音声入力部１０１は、ユーザが発した音声をデジタル処理可能なデジタル音声信号に変換する。音声入力部１０１が出力するデジタル音声信号は第１音声認識部１０２および第２音声認識部１０６に入力される。
第１音声認識部１０２では入力されたデジタル音声信号について、第１音響モデル記憶部１０４に記憶された第１音響モデルと第１言語モデル記憶部１０３に記憶された第１言語モデルを参照して、音声認識を行う。第１音声認識部１０２は音声認識結果の単語系列（認識文）をＮグラム追加部１０５に出力する。Ｎグラム追加部１０５は、入力された音声認識結果の単語系列からＮグラムを抽出してそのＮグラム確率を計算して、第２言語モデル記憶部１０７に記憶される第２言語モデルにＮグラムを追加する。

音声入力部１０１からデジタル音声信号を入力された第２音声認識部１０６は、第２言語モデル記憶部１０７に記憶された混合言語モデルである第２言語モデルと第２音響モデル記憶部１０８に記憶された第２音響モデルを参照して音声認識を行い、音声認識結果の単語系列を出力する。第２音声認識部１０６から出力された音声認識結果の単語系列は、例えば表示部１０９に表示されるなどの処理で使用される。

上記において音響モデル（第１音響モデル、第２音響モデル）は、音素などの単位で音声の標準的な特徴量のパターンを保持するデータベースである。音声の特徴量としては、例えばＭＦＣＣ（Mel Frequency Cepstrum Coefficient）やΔＭＦＣＣなどがある。音響モデルは音声認識処理において入力音声の特徴量と照合され、音素単位での入力音声の認識に用いられるものである。なお、ここでは第１音響モデルと第２音響モデルは双方とも一例として上述の同じ音響モデルを用いているが、第１音響モデルと第２音響モデルが互いに異なる音響モデルであっても良い。

言語モデル（第１言語モデル、第２言語モデル）は、単語の連鎖に関する制約（単語連鎖の発生確率）を規定するデータベースであり、Ｎグラムモデルに基づいて構成されている。言語モデルは、音声認識処理において音響モデルを用いた音素レベルの認識結果に基づいてこれらの言語モデルが参照される。

音声認識部（第１音声認識部１０２、第２音声認識部１０６）が行う音響モデルと言語モデルを参照して入力音声から認識文を得る処理は、周知の方法を適用すればよい。ここでは一例として上述の通りJuliusを使用するものとする。

図１の音声入力部１０１は音声を収録するマイクロホンと、アナログ音声をデジタルデータに変換するＡＤ（Analog Digital）コンバーターなどの回路で構成することが可能である。また、第１音声認識部１０２、Ｎグラム追加部１０５、及び第２音声認識部１０６は、プロセッサとＲＡＭ（Random Access Memory）などの周辺回路およびプロセッサで実行されるソフトウェアで構成することが可能である。また、第１言語モデル記憶部１０３、第１音響モデル記憶部１０４、第２言語モデル記憶部１０７、第２音響モデル記憶部１０８はハードディスクなどの記憶装置で構成することが可能である。

あるいはクライアント−サーバ形式を採用して、例えば第１音声認識部１０２および、第１言語モデル記憶部１０３、第１音響モデル記憶部１０４をネットワーク経由でアクセス可能なサーバの機能として実現し、第２音声認識部１０６、第２言語モデル記憶部１０７、第２音響モデル記憶部１０８およびＮグラム追加部１０５をクライアントの機能として実現するなどの構成にすることも可能である。

ここで、音声認識部（第１音声認識部１０２、第２音声認識部１０６）が行う音声認識処理における尤度計算について説明する。今、単語系列Wが以下の数式１で定義するように、n個の単語w₁からw_nで構成されるものとする。このとき、単語系列Wの確率（尤度）は以下の数式２で表される。ここで、P(w_i|w_i-2,w_i-1)は単語w_i-2と単語w_i-1に続いて単語w_iが出現する確率（３次のＮグラムにおけるＮグラム確率）である。

単語系列の確率は上記の数式２であるが、最も尤度の高い単語系列の判定では候補となる単語系列の確率の大小関係が比較できれば良い。このことから実際の処理では、以下の数式３に示すように、単語系列に含まれる各単語w_iの確率（P(w_i|w_i-2,w_i-1)）を対数（対数確率と称す）にして、各単語系列の対数確率の総和X(W)を求め、各候補の単語系列のX(W)の比較する処理が行われる。

なお、上述の各単語の確率を与えるものが言語モデルである。以降では、言語モデルに基づく尤度を言語尤度と称する。

音声認識処理では、上述の言語尤度と音響モデルに基づく尤度（音響尤度）を以下の数式４に従って加えた総合尤度f(h)で評価して、最尤の候補を音声認識結果とする。数式４においてhは音声認識結果の候補の単語系列、AC(h)は単語系列hに対する音響尤度、LM(h)は単語系列hに対する言語尤度、nは候補の単語系列の単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。なお、以下に示す動作具体例の説明ではそれぞれを8.0、-2.0とした場合の結果を用いている。

次に、この実施の形態の音声認識装置の動作について説明する。図２は実施の形態１の音声認識装置の処理フローを示す図である。なお、以下の動作説明では「しゅーずけーすからーこーどおねがいします」（表記は「シューズケースカラーコードお願いします」）という文が発話された場合を例に具体例を説明する。
まず音声入力部１０１がユーザの発した音声をアナログの電気信号に変換し（ST201）、そしてアナログの電気信号である入力音声をＡＤコンバーターにより、デジタル情報に変換する（ST202）。

次に、第１音声認識部１０２がこの入力音声のデジタル情報に基づいて音声認識を行う（ST203）。ST203の処理では、まず入力音声のデジタル情報から適当な時間間隔（例えば６０ミリ秒ごと）で音声の特徴量の抽出を行う。そして、抽出した特徴量を用いて第１音響モデル記憶部１０４に記憶された第１音響モデルを参照し、音素レベルの認識を行って認識結果候補の単語系列とその単語系列の音響モデルに基づく音響尤度を求める。さらにこの認識結果候補の単語系列に基づいて第１言語モデル記憶部１０３に記憶された第１言語モデルを参照して言語モデルに基づく言語尤度を求め、上述の通り数式４に示した計算の結果により音響尤度と言語尤度を総合的に判断して、入力音声との照合の度合いが最も高い（すなわち最尤の）単語系列を認識文（第１の音声認識結果）として得る。

Juliusにより上述の「しゅーずけーすからーこーどおねがいします」という音声入力の認識を行うと、図３に示す単語系列が認識結果として出力される。なお、ここでは第１言語モデルの一例として、情報処理学会の連続音声認識コンソーシアム2002年度版ソフトウェアのNP12y.60k.4.arpa（60K 単語N-gram，学習データ：毎日新聞社の新聞記事データ「CD-毎日新聞 91〜2002年版」，形態素解析：chasen 2.2.1 + ipadic 2.4.1，テキストサイズ：3.5億形態素，語彙サイズ：60156）を使用することとする。「カラーコード」はこの言語モデルには学習されておらず、この言語モデルにおいて未知語である。

図３において<s>、</s>はそれぞれ文頭、文末を示す記号である。また、例えば「し：シ:する:227」の「し」は認識した単語の表記を、「シ」は読みを、「する」は原形を、「227」は品詞を表すコード（品詞コード）をそれぞれ示している。すなわち認識結果の単語系列は「シューズケースから行動お願いします」である。この認識結果では「カラーコード」を「から行動」（から:カラ:から:63 行動:コードー:行動:505）に認識誤りが起こっている。これは、第１言語モデルでは「カラーコード」が未知語であり、類似した読みの対立候補が存在して、この対立候補が最尤と判断されてしまったためである。

次に、Ｎグラム追加部１０５が第１音声認識部１０２の認識結果の単語系列に基づくＮグラムを第２言語モデル記憶部１０７に記憶された第２言語モデルに追加する。ここで、第２言語モデルは第１言語モデルとは異なり特定分野の専門の例文からＮグラムを学習した言語モデルとする。また、第２言語モデル記憶部１０７には学習に用いた例文（学習例文）を学習例文情報（Ｎグラムの学習に用いられた例文に関する情報）として記憶しているものとする。なお、この学習例文情報は第２言語モデル記憶部１０７とは別のＲＡＭ（Random Access Memory）などの記憶媒体（学習例文情報記憶部）に記憶するようにしても良い。また、この実施の形態では例文自体を学習例文情報としたが、例文に出現する各単語の出現回数の情報を学習例文情報にするなどＮグラム確率の計算に用いることが可能な他の情報にすることも可能である。

今、第２言語モデルには「シューズケース」、「カラーコード」の２つの例文からＮグラムが学習されているものとする。図４に学習例文情報として記憶されたこの２つの例文を示す。図３と同様に<s>は文頭、</s>は文末を示し、表記、読み、原形、品詞コードを表している。また、図５に第２言語モデルに学習されたこの２つの例文に係るＮグラムを示す。今、Ｎグラムの次数はＮ＝３であるので１グラム、２グラム、３グラムが学習されている。

図５において例えば\1-gramsの４行目の「-0.9031 カラーコード:カラーコード:カラーコード:507 0.0000」は、「カラーコード:カラーコード:カラーコード:507」がＮグラム（「カラーコード」という１グラムで図３と同様の表記、読み、原形、品詞コードを示す）であり、「-0.9031」がこのＮグラムの対数確率である。「0.0000」は、高次のＮグラムが言語モデルに存在しない場合に、グッド・チューリング推定法に基づくバックオフ・スムージングにより低次のＮグラムの確率を用いてその存在しない高次のＮグラムの確率を推定する処理で用いるバックオフ係数の対数値である。
また、例えば\3-gramsの２行目の「-0.3010 <s> カラーコード:カラーコード:カラーコード:507 </s>」は、「<s> カラーコード:カラーコード:カラーコード:507 </s>」がＮグラム（「文頭、カラーコード、文末」という３グラム）であり、「-0.3010」がＮグラム確率である。なお、次数が３のＮグラムの言語モデルにおいて、３グラムを用いてより高次のＮグラムの確率を推定することはないのでバックオフ係数は存在しない。

ここで、バックオフ係数を用いて低次のＮグラム確率から高次のＮグラム確率を推定する処理を説明する。２次のＮグラム確率を用いて３次のＮグラム確率を推定する計算は以下に示す擬似的なプログラムコード（擬似コード）で定義される。
P(wd3|wd1,wd2) = if(trigram exists) p_3(wd1,wd2,wd3)
else if(bigram wd1,wd2 exists) bo_wt_2(wd1,wd2) * P(wd3|wd2)
else P(wd3|wd2)
この擬似コードにおいて、wd1、wd2、wd3は単語を示している。P(wd3|wd1,wd2)は前述の通り、wd1、wd2の後にwd3が生成される確率（単語wd3の確率）である。P(wd3|wd2)も同様である。また、p_3(wd1,wd2,wd3)は単語列wd1,wd2,wd3の３グラムの確率である。bo_wt_2(wd1,wd2)は単語列wd1,wd2の２グラムのバックオフ係数である。
つまり、単語列wd1,wd2,wd3の３グラムが言語モデルに存在する場合はその３グラムの確率が単語wd3の確率となる。単語列wd1,wd2,wd3の３グラムが存在せず、単語列wd1,wd2の２グラムが存在する場合は、単語列wd1,wd2の２グラムのバックオフ係数とP(wd3|wd2)の積が単語wd3の確率となる。単語列wd1,wd2の２グラムも存在しない場合にはP(wd3|wd2)が単語wd3の確率となる。

同様に、１次のＮグラム確率を用いて２次のＮグラム確率を推定する計算は以下に示す擬似コードで定義される。
P(wd2|wd1) = if(bigram exists) p_2(wd1,wd2)
else bo_wt_1(wd1)*p_1(wd2)
ここで、p_2(wd1,wd2)は単語列wd1,wd2の２グラムの確率であり、p_1(wd2)は単語列wd2の１グラムの確率である。また、bo_wt_1(wd1)は単語列wd1の１グラムのバックオフ係数である。
なお、上記の擬似コードでは積を求めるように定義されているが、対数確率で計算をする場合には積ではなく和を計算する。

第２言語モデルへの第１音声認識部１０２の認識結果の単語系列の追加処理では、まずＮグラム追加部１０５が学習例文に第１音声認識部１０２の認識結果の単語系列を加えて学習例文を更新する（ST204）。上述のように「しゅーずけーすからーこーどおねがいします」という音声入力について第１音声認識部１０２が「シューズケースから行動お願いします」と認識したとき、図４に示した学習例文にこの認識結果の単語系列が追加される。第１音声認識部１０２の認識結果の単語系列である「シューズケースから行動お願いします」が追加された学習例文情報を図６に示す。「シューズケースから行動お願いします」に対応した「<s> シューズ:シューズ:シューズ:507 ケース:ケース:ケース:507 から:カラ:から:63 行動:コードー:行動:505 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146 </s>」が追加されている。

次に、Ｎグラム追加部１０５はこの更新した学習例文に基づいてＮグラム確率を算出し（ST205）、算出したＮグラム確率により第２言語モデル記憶部１０７に記憶された第２言語モデルを更新する（ST206）。図７に更新後の第２言語モデルを示す。なお、Ｎグラム確率の計算は上述の言語モデルツールキットを用いて行った。図７において、例えば\3-gramsでは、１行目の「-0.4771 </s> <s> カラーコード:カラーコード:カラーコード:507」では、Ｎグラム確率が図５に示した更新前の-0.3010から-0.4771に更新されている。また、６行目の「-0.3010 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146」など図５に示した更新前の第２言語モデルには存在しなかったＮグラムが第１音声認識部１０２の認識結果の単語系列に基づいて新たに追加されている。

次に、第２音声認識部１０６が音声認識を行う（ST207）。ST207の処理では、第１音声認識部１０２と同様に入力音声のデジタル情報から音声の特徴量の抽出し、抽出した特徴量に基づいて第２音響モデル記憶部１０８に記憶された第２音響モデルおよび第２言語モデル記憶部１０７に記憶された第２言語モデル（混合言語モデル）を参照して、最尤の単語系列を認識文（第２の音声認識結果）として得る。

ここで、図８を参照してこの第２音声認識部１０６が行う音声認識処理における尤度計算の具体例を説明する。なお、図８では表を見やすくするために単語の表記のみを記載し、読みや原形等は省略した形式で表現している。図９、図１０、図１４も同様である。
尤度計算で用いられる単語の確率は最も次数の高いＮグラムの値を採用する。例えば文頭の確率であるP(<s> |)の場合、前接の単語が無いので次数は１グラムであり、図７の\1-gramsの「<s>」の値-0.6368を採用する。また文頭に続くシューズケースの確率であるP(シューズケース | <s>)の場合は、２グラムであるので\2-gramsの「<s> シューズケース:シューズケース:シューズケース:507」の値-0.5441を対数確率として採用する。

次のP(カラーコード | <s>, シューズケース)は３グラムであるが\3-gramsに対応するものが無いので、前述のバック・スムージングによりＮグラム確率を推定する。\2-gramsに「<s> シューズケース:シューズケース:シューズケース:507」があるのでこの２グラムのバックオフ係数を使用する。ただし、\2-gramsに「シューズケース:シューズケース:シューズケース:507 カラーコード:カラーコード:カラーコード:507」の２グラムが存在しないのでこの２グラムの確率も同様にバック・スムージングにより推定する。
具体的な推定値の計算は、bo_wt_2(<s>,シューズケース:シューズケース:シューズケース:507)＋bo_wt_1(シューズケース:シューズケース:シューズケース:507)＋p_1(カラーコード:カラーコード:カラーコード:507)＝(0.1761)＋(-0.4046)＋(-1.2109)=-1.4394となる。以上により推定値-1.4394を対数確率として採用する。同様にしてすべての単語の対数確率を取得し、この各単語の対数確率を用いて上述の数式３により正解の単語系列である「<s>シューズケースカラーコードお願いします</s>」の言語モデルに基づく尤度を計算すると、図８の表に示すように(-0.6368)+(-0.5441)+(-1.4394)+(-1.6155)+(-0.1761)+(-0.301)+(-0.301)=-5.0139となる。

今回使用した音響モデルにおける正解の単語系列の音響尤度は-9118.412109であり、上述の数式4に基づいて正解の単語系列「<s>シューズケースカラーコードお願いします</s>」の総合尤度は、-9118.412109+(-5.0139×8.0)+(-2.0×7)=-9172.52と算出できる。

第１音声認識部１０２の認識結果として出力された単語系列は誤認識を含んだまま第２言語モデルに混合されており、誤認識された単語を含む単語系列が最尤と判定されてしまうと認識性能を向上することができない。
しかし、誤りを含む単語系列「<s>シューズケースから行動お願いします</s>」の音響尤度は-9133.199219であり、また言語尤度は図９に示す表の通り(-0.6368)+(-0.5441)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)=-3.2879であるので、総合尤度は-9133.199219+(-3.2879×8.0)+(-2.0×9)＝-9177.5となる。従って誤りを含む単語系列の総合尤度よりも正解の単語系列の総合尤度の方が高いことから、この誤りを含む単語系列は棄却され、正解の単語系列を音声認識結果として得ることができる。

次に、第１言語モデルと更新前の第２言語モデルを単純に混合して得られる言語モデル（単純混合モデルと称する）と、上記で説明したこの実施の形態の更新後の第２言語モデルの比較を示す。図１０に正解の単語系例「<s>シューズケースカラーコードお願いします</s>」についての単純混合言語モデルとこの実施の形態の更新後の第２言語モデルのそれぞれに基づく各単語の確率とＮグラムの次数と言語尤度を示す。単純混合言語モデルではX(W)=-11.91879であるのに対し更新後の第２言語モデルではX(W)=-5.0139であるので、更新後の第２言語モデルの方が同じ単語系列に関して言語尤度が高くなっている。これは、第１音声認識部１０２の認識結果の単語系列を学習例文に加えて第２言語モデルを更新したことによる効果である。音声認識処理において言語尤度が高い更新後の第２言語モデルを使用する方が認識誤りを起こす可能性が低く、認識性能を向上することができる。

なお、この実施の形態では第１音声認識部１０２の認識結果を第２言語モデルに追加混合したが、図１１に示すようにＮモデル追加部１０５ｃが第２音声認識部１０６の認識結果に基づいて学習例文を更新し、更新した学習例文に基づいて第２言語モデルにＮグラムを追加する構成にしてもよい。このとき、第１音声認識部１０２の認識結果と第２音声認識部１０６の認識結果が異なる場合は、第１音声認識部１０２の認識結果を棄却し、第２音声認識部１０６の認識結果を採用するようにしてもよい。第２音声認識部１０６の認識結果を学習例文に追加した場合の学習例文を図１２に、このときの言語モデルを図１３に示す。また、図１４に第１音声認識部１０２の認識結果を学習した場合と、第２音声認識部１０６の認識結果を学習した場合との正解の単語系列に対する対数確率と適用されるＮグラム次数の比較を示す。第２音声認識部１０２の認識結果を学習した場合の対数確率の合計は-2.5464となっており第１音声認識部１０６の認識結果を学習した場合よりも言語尤度が向上している。

上述のように、第２言語モデルに第１言語モデルの認識結果の単語系列を追加混合するＮグラム追加部を備えることにより、第１言語モデルの認識結果の単語系列により第２言語モデルを入力音声に適応させて、第２言語モデルの入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上することが可能である。

また、この実施の形態では第１音声認識器と第２音声認識器は別個のものとしたが、同じ１つの音声認識器を用いても良い。また、第１言語モデルと第２言語モデルをそれぞれ第１言語モデル記憶部と第２言語モデル記憶部に記憶された別の言語モデルとしていたが、同じ言語モデル記憶部に記憶された一つの言語モデルにしてもよい。このとき、例えば発話が「音声認識」であり、もともとの言語モデルには１グラムの「音声」と「認識」のみが存在した場合、「音声認識」が学習され、「<s>音声」,「音声認識」、「認識</s>」の２グラムが学習されることとなり音声認識性能を向上することができる。

実施の形態２．
実施の形態１は、１つの音声認識結果を混合言語モデルに追加するようにしたものであったが、次に２つの音声認識器から得た２つの音声認識結果を混合言語モデルに追加する実施の形態を示す。
図１５はこの発明の実施の形態２に係る音声認識装置の構成図である。実施の形態２の音声認識装置は、音声入力部１０１、第１音声認識部１０２、第１言語モデル記憶部１０３、第１音響モデル記憶部１０４、Ｎグラム追加部１０５ｂ、第２音声認識部１０６、第２言語モデル記憶部１０７ｂ、第２音響モデル記憶部１０８、第３音声認識部１１２、第３言語モデル記憶部１１３、第３音響モデル記憶部１１４で構成される。実施の形態１と同じ符号を付した部分は実施の形態１と同様であるので説明を省略する。

第３音声認識部１１２は第１音声認識部１０２、第２音声認識部１０６と同様に、第３言語モデル記憶部１１３に記憶された第３言語モデル、第３音響モデル記憶部１１４に記憶された第３音響モデルを参照して音声認識処理を行う。第３言語モデル記憶部１１３に記憶された第３言語モデルは、実施の形態１の第２言語モデルと同様の特定分野の専門の学習例文から学習された言語モデルとする。

Ｎグラム追加部１０５ｂは第１音声認識部１０２の認識結果の単語系列および第３音声認識部１１２の認識結果の単語系列に基づいて、第２言語モデル記憶部１０７ｂに記憶された第２言語モデルにＮグラムを追加する。第２言語モデル記憶部１０７ｂに記憶された第２言語モデルは実施の形態１と同様に第２音声認識部１０６が参照する言語モデルである。ただし、この言語モデルはＮグラム追加部１０５ｂによって追加されるＮグラムを記憶するための言語モデルであり、初期状態ではＮグラムは学習されておらず、学習例文も記憶されていない。

次に実施の形態２の音声認識装置の動作を実施の形態１との差分を中心に動作に説明する。図１６は実施の形態２の音声認識装置の処理フローである。この実施の形態の特徴は図１６に示したST208とST204bの処理である。その他の処理は実施の形態１と同様である。ST208の処理で第３音声認識部１１２は第１音声認識部１０２と同様の処理により、第３音響モデル記憶部１１４に記憶された第３音響モデルと第３言語モデル記憶部１１３に記憶された第３言語モデルを参照して認識結果の単語系列（第３の音声認識結果）を得る。第１音声認識部１０２による認識結果の単語系列と第３音声認識部１１２の認識結果の単語系列はＮグラム追加部１０５ｂに出力される。

Ｎグラム追加部１０５ｂは、受信した第１音声認識部１０２による認識結果の単語系列と第３音声認識部１１２の認識結果の単語系列から学習例文を作成する（ST204b）。なお、この学習例文は記憶しておき、以降の別の音声入力の音声認識の際にはこの記憶していた学習例文を更新する。

実施の形態１と同様に「しゅーずけーすからーこーどおねがいします」という音声が入力された場合を例にして具体的な動作を説明する。第１音声認識部１０２の認識結果は実施の形態１で示した図３と同様の単語系列となる。また、第３音声認識部１１２の認識結果は図１７に示す通りとなる。これらに基づいてＮグラム追加部１０５ｂは学習例文を作成する。図１８に作成された学習例文を示す。

Ｎグラム追加部１０５ｂは図１８に示した学習例文からＮグラム確率を求め、図１９、図２０に示すＮグラムを第２言語モデルに追加する。次に、第２音声認識部１０６がこの新たに学習されたＮグラムを有する第２言語モデルを参照して音声認識をすることにより、実施の形態１の場合と同様に正しい音声認識結果を得ることができる。

以上のように、第１音声認識器の出力する単語系列と第３音声認識器の出力する単語系列から混合言語モデルを生成するようにしているので、カバー率を改善する効果を損なうことなく、混合言語モデルをコンパクトにすることができる。これは、第２音声認識器をモバイル端末などの小型機器で実施する場合に特に有効である。

上述の実施の形態２では第１言語モデルを用いて音声認識を行う第１音声認識部の認識結果と、第３言語モデルを用いて音声認識を行う第３音声認識部の認識結果の２つの認識結果により混合言語モデルを更新したが、さらに多くの言語モデルおよび音声認識部を備えて、それらの音声認識部の認識結果を加えて混合言語モデルを更新するようにしても良い。また、実施の形態１に示したように第２音声認識部の認識結果に基づいて第２言語モデルを更新するように構成しても良い。

実施の形態３．
実施の形態２では、第２言語モデルへのＮグラムの追加時にそれぞれの音声認識部が出力する認識結果の単語列を同じ重みで混合して第２言語モデルを生成する構成であった。この実施の形態では、音声認識部毎に重み付け（混合重み）をし、混合重みを変化させた１個以上の第２言語モデルを生成して、すべての組み合わせのうち最尤の認識結果を出力するようにする。

基本的な構成は実施の形態２と同様であるので、重み付けを行った混合言語モデルの生成と、複数の混合言語モデルを用いた認識結果の比較を中心に説明する。なお、以下の説明では３個の混合言語モデルを備える場合を例に説明するが、混合言語モデルの個数は１個あるいは２個でも良いし、また４個以上であってもよい。ただし、混合言語モデルが１この場合には、認識結果を比較する処理は不要である。

図２１はこの実施の形態の音声認識装置の構成を、第１音声認識部１０２、第３音声認識部１１２、Ｎグラム追加部１０５ｄ、第２言語モデル記憶部１０７ｄおよび第２音声認識部１０６ｄに注目して示した機能ブロック図である。図２１においてλ（0≦λ≦１）は第１音声認識部１０２の認識結果と第３音声認識部１１２の認識結果に重み付けをする係数である。ここでは、λが第１音声認識部１０２の認識結果に対する重みであり、（１−λ）が第３音声認識部１１２の認識結果に対する重みであるものとする。
なお、λの値はそれぞれの第２言語モデルに対応して予め定められているものとする。ここではλ＝２／３、λ＝１／２，λ＝１／３の３種類とし、それぞれ図２１に示す第２言語モデルＡ、第２言語モデルＢ、第２言語モデルＣに対応するものとする。

次に動作を説明する。Ｎグラム追加部１０５ｄはλおよび１−λに基づいて重み付けを行った学習例文を作成してそれぞれの学習例文に基づいて第２言語モデルＡ、第２言語モデルＢ、第２言語モデルＣを作成する。
λ＝１／２の場合の学習例文は図１７に示した学習例文と同様である。λ＝２／３の場合は図２２に示すように、第１音声認識部の認識結果の単語系列が第３音声認識部の認識結果の単語系列の２倍になるようにして学習例文を生成する。反対にλ＝１／３の場合には図２３に示すように、第３音声認識部の認識結果の単語系列が第３音声認識部の認識結果の単語系列の２倍になるようにして学習例文を生成する。このようにλ：１-λと同等の比になるように第１音声認識部の認識結果の単語系列と第３音声認識部の認識結果の単語系列を含む学習例文を生成してそれぞれに対応した第２言語モデルＡ、第２言語モデルＢ、第２言語モデルＣを作成する。
このように第２言語モデルを作成することにより、第２言語モデルに追加するＮグラムの確率にそのＮグラムの元となった例文を出力した音声認識部に対応した重み付けをすることができる。

第２音声認識部１０６ｄは実施の形態１、実施の形態２と同様の処理で第２言語モデルＡ、第２言語モデルＢ、第２言語モデルＣそれぞれを参照して認識結果となる単語系列を取得し、これらの単語系列を以下の数式５を用いて比較して、最尤のものを認識結果の単語系列として出力する。なお、数式５においてh_A，h_B，h_Cはそれぞれ第２言語モデルＡ、第２言語モデルＢ、第２言語モデルＣを参照した音声認識処理で得られる単語系列、AC(h_A)，AC(h_B)，AC(h_C)は単語系列h_A，h_B，h_Cに対する音響尤度、LM(h_A)，LM(h_B)，LM(h_C)は単語系列h_A，h_B，h_Cに対する言語尤度、n_A，n_B，n_Cはそれぞれ単語系列h_A，h_B，h_Cの単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。

以上のようにすることにより、入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上するとともに、適切な言語モデルの混合比による音声認識結果が得られる効果がある。
なお、実施の形態１において第１音声認識部の認識結果の単語系列を第２言語モデルに追加するときに重み付けをすることも可能である。

なお、以上に述べた実施の形態では最尤解を混合の対象としたが、複数の候補を選ぶＮベスト解を用いるようにしても良い。また、第１音声認識部、第２音声認識部、第３音声認識部で認識した単語系列を形態素解析した結果に基づいて混合言語モデルを更新するようにしても良い。また、第１言語モデルと第２言語モデルもしくは第３言語モデルで形態素単位が異なるようにしても良い。

１０１音声入力部、１０２第１音声認識部、１０３第１言語モデル記憶部、１０４第１音響モデル記憶部、１０５，１０５ｂ，１０５ｃ，１０５ｄＮグラム追加部、１０６，１０６ｄ第２音声認識部、１０７，１０７ｂ，１０７ｄ第２言語モデル記憶部、１０８第２音響モデル記憶部、１０９表示部、１１２第３音声認識部、１１３第３言語モデル記憶部、１１４第３音響モデル記憶部

Claims

混合言語モデルを記憶する第２言語モデル記憶部と、
前記混合言語モデルを用いて、入力された音声信号を認識し第２の音声認識結果を出力する第２音声認識部と、
第１言語モデルを用いて、入力された音声信号を認識し、第１の音声認識結果を出力する第１音声認識部と、
前記第１音声認識部による前記第１の音声認識結果が入力され、この第１の音声認識結果の単語系列に基づいてＮグラムを作成し、前記第２言語モデル記憶部に記憶された前記混合言語モデルに前記第１の音声認識結果の単語系列に基づいて作成したＮグラムを追加するＮグラム追加部と、
を備えたことを特徴とする音声認識装置。
前記Ｎグラム追加部は、前記第１および第２の音声認識部と異なる第３の音声認識部による前記音声信号の第３の音声認識結果が入力され、前記第１の音声認識結果の単語系列と前記第３の音声認識結果の単語系列に基づいてＮグラムを作成し、前記第２言語モデル記憶部に記憶された前記混合言語モデルに前記第１の音声認識結果の単語系列と前記第３の音声認識結果の単語系列に基づいて作成されたＮグラムを追加することを特徴とする請求項１に記載の音声認識装置。
前記第１言語モデルを記憶する第１言語モデル記憶部を更に備えたことを特徴とする請求項１に記載の音声認識装置。
第３言語モデルを記憶する第３言語モデル記憶部と、
前記第３言語モデルを用いて前記音声信号を認識し前記第３の音声認識結果を出力する前記第３音声認識部と、
を更に備えることを特徴とする請求項２に記載の音声認識装置。
前記Ｎグラム追加部は、前記第２音声認識部の前記第２の音声認識結果の単語系列に基づいてＮグラムを作成し、前記混合言語モデルに前記第２の音声認識結果の単語系列に基づいて作成されたＮグラムを追加することを特徴とする請求項１から４のいずれか一項に記載の音声認識装置。
前記Ｎグラム追加部は、更に前記混合言語モデルに記憶されたていたＮグラムの確率を更新することを特徴とする請求項１から請求項５のいずれか一項に記載の音声認識装置。
前記Ｎグラム追加部は、前記第１音声認識結果および前記第３音声認識結果にそれぞれ前記第１音声認識部および前記第３音声認識部と対応した重みで重み付けをして、前記混合言語モデルに追加するＮグラムの確率を算出することを特徴とする請求項２に記載の音声認識装置。
前記第２言語モデル記憶部は複数の前記混合言語モデルを記憶し、
前記Ｎグラム追加部は、前記複数の混合言語モデルのそれぞれに対応する前記第１音声認識結果に対する前記重みと前記第３音声認識結果に対する前記重みとの予め定められた組み合わせに基づいて前記重み付けをして、前記複数の第２言語モデルのそれぞれに追加するＮグラムの確率を算出し、
前記第２音声認識部は、前記複数の混合言語モデルのそれぞれを参照して音声認識を行い、得られた音声認識結果のいずれかをその音声認識結果の尤度に基づいて選択して前記第２の音声認識結果とする、
ことを特徴とする請求項７に記載の音声認識装置。
第１音声認識部が第１言語モデルを参照して入力された音声の音声認識を行う第１の音声認識手順と、
第２音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第２の音声認識手順と、
Ｎグラム追加部が前記第１音声認識手順による音声認識結果の単語系列に基づいてＮグラムを作成し、前記混合言語モデルに前記第１の音声認識結果の単語系列に基づいて作成したＮグラムを追加するＮグラム追加手順と、
を備えたことを特徴とする音声認識方法。
第３音声認識部が第３言語モデルを参照して前記入力された音声の音声認識を行う第３の音声認識手順と、を備え、
前記Ｎグラム追加手順は、前記第１の音声認識手順による音声認識結果の単語系列と前記第３の音声認識手順による音声認識結果の単語系列と基づいてＮグラムを作成し、前記混合言語モデルに前記第１の音声認識手順による音声認識結果の単語系列と前記第３の音声認識手順による音声認識結果の単語系列に基づいて作成されたＮグラムを追加することを特徴とする請求項９に記載の音声認識方法。