JP4972660B2

JP4972660B2 - 音声学習装置及びプログラム

Info

Publication number: JP4972660B2
Application number: JP2009046762A
Authority: JP
Inventors: 庄衛佐藤; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-02-27
Filing date: 2009-02-27
Publication date: 2012-07-11
Anticipated expiration: 2029-02-27
Also published as: JP2010204175A

Description

本発明は、各音素の音響特徴量の統計量を音響モデルとした音声認識に関し、特に、対談音声のように１つの音声セグメントに複数の発話環境が混在する場合の音声の認識の精度を向上するための、複数の音響モデルの学習効果を高める音声学習装置及びプログラムに関する。

統計的な音響モデルを用いた音声認識では、各音素に現れる特徴量の統計量を得るための学習データが必要である。この学習データは、音声とその音声に対応する書き起こしの対である。この音響モデルを、複数の話者や背景音などの発話環境毎に別々に学習することで、音声認識精度の向上が期待される。以下、このような発話環境毎の音響モデルを発話環境依存音響モデルと称する。

しかしながら、対談音声を学習したり認識したりする場合には、収録された音声の発話と発話との間に適切な無音区間がない場合があるため、性別や複数の話者などの発話環境毎に音声を分割することが難しい。このような音声の認識に、性別依存音響モデルを利用して、男女の話者の音声が混在する音声の認識精度を向上を図る男女並列音声認識が知られている（例えば、特許文献１、非特許文献１参照）。

一方、音響モデルの統計量を学習する基準には、一般的に学習音声に対する尤度を最大化する最尤基準（ＭＬ）が用いられるが、近年、音素誤り最小化基準（ＭＰＥ）に基づいて学習する方法が提案されている（例えば、非特許文献２参照）。

ＭＰＥに基づく学習は、上記の男女並列音声認識における音声認識においても認識精度の向上が確認されている。このＭＰＥ基準の学習では、従来からの音響モデルの学習に用いていた音声と、その音声に対応した書き起こしのほかに、その音声の認識誤りを評価するための認識結果が必要になる。

この認識結果には、より多くの可能性のある認識誤りが含まれていることが望ましい。そこで、効率よく認識誤りを評価するため、仮説の探索中に得られる音素ラティスを用いて、ＭＰＥ学習を行うアルゴリズムも提案されている（例えば、非特許文献３参照）。

一方、発話環境（話者）依存音響モデルを学習するには、大量の学習した不特定話者モデルを適応化する技法が有効である（例えば、非特許文献３参照）。この文献には、ＭＰＥ基準に基づいて音響モデルのパラメータを線形変換する適応化技法も提案されている。この線形変換は、ＤＬＴ（Discriminative Linear Transforms）と称される。

特開２００７−２３３１４９号公報

今井他、音響学会春季研究発表会後援論文集、１−１−１６、２００８年 D. Povay, "Minimum phone error and L-smoothing for improved discriminative training", in proc. ICASSP, 2002年 L. Wang et al., Computer Speech and Language, 22, 2008年、pp. 256-272

上述の方法では、音声セグメントを発話環境毎に分類して、別々に音響モデルを学習することが望ましいが、対談などの音声では１音声セグメント中に複数の発話環境の音声が混在するため、発話環境が複数混在する音声セグメントから、効率よく複数の発話環境依存音響モデルを同時に学習する技法が必要になる。

また、男女並列音声認識では、発話環境の識別、即ち話者性別の識別と、認識仮説の探索を同時に行うことができる。このとき、話者性別の識別誤りによる単語の認識誤りが生じる場合がある。従って、男女並列音声認識では、話者の識別誤りを考慮した識別学習基準が必要とされている。

そこで、本発明の目的は、発話環境毎に適応化された複数の音響モデルの学習性能を改善することで、複数の音響モデルを並列に探索する際に音声認識の認識精度の向上を図る音声学習装置及びプログラムを提供することにある。

本発明による音声学習装置は、音響モデルと学習音声の音素ラベルに発話環境の識別子を与え、複数の発話環境が混在する自動切り出しされた音声セグメントから、発話環境毎に適応化された複数の音響モデルを同時に学習する。つまり、複数の発話環境依存音響モデルを個別的に学習することなく、複数の発話環境依存音響モデルを自動的に識別して学習する。

即ち、本発明による音声学習装置は、音声認識に用いる音響モデルを学習する音声学習装置であって、複数の発話環境毎の環境依存音響モデルの各々を、各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部と、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部と、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部と、当該学習音声と前記識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する音響モデル識別学習部とを備え、前記音響モデル識別学習部は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする。

また、本発明による音声学習装置において、前記発話環境並列音声認識部は、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果に自動的に識別子を付して発話環境識別子付き認識結果を生成することを特徴とする。

また、本発明による音声学習装置において、前記音響モデル識別学習部によって生成した発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する学習後環境依存音響モデル生成部を更に備えることを特徴とする。

また、本発明による音声学習装置において、前記音響モデル識別学習部は、発話環境としての男女又は話者毎の発話環境識別子を用いて、複数の音響モデルを学習することを特徴とする。

また、本発明による音声学習装置において、前記発話環境並列音声認識部は、音声認識における仮説ラティスに当該発話環境識別子を付与して識別子付きの仮説ラティスを生成し、前記音響モデル識別学習部は、前記発話環境並列音声認識部から識別子付きの仮説ラティスを取得して、該識別子付きの仮説ラティス、前記学習音声、及び前記識別子付き書き起こしを用いて、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする。

本発明によれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、例えば複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。

本発明による一実施例の音声学習装置を示す図である。本発明による一実施例の音声学習装置の動作を示すフローチャートである。本発明による一実施例の音声学習装置で用いる音素ラベル例を示す図である。本発明による一実施例の音声学習装置で学習した音響モデルを用いて未知音声の音声認識を実行する音声認識装置の概略図である。本発明による一実施例の音声学習装置に係る、対談音声などのような一つの発話区間に複数の話者の音声が混在する場合に有効な、男女並列音声認識の概要を示す図である。本発明による一実施例の音声学習装置に係る、実際に得られる男女並列音声認識から得られるラティスの例を示す図である。（ａ）に、ＭＰＥ基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、（ｂ）に、ＭＰＥ基準の識別学習に用いる仮説ラティスの例を示す図である。

以下、本発明による実施例の音声学習装置を説明する。

［装置構成］
図１に、本発明による一実施例の音声学習装置を示す。本実施例の音声学習装置１は、男女並列音声認識のような複数の発話環境依存音響モデルを用いて並列に探索を行う装置である。

本実施例の音声学習装置１は、制御部２と、記憶部３とを備える。制御部２は、音響モデル入力部２１と、音声入力部２２と、ユーザインターフェース部２３と、識別子付き音響モデル生成部２４と、発話環境並列音声認識部２６と、認識誤り修正部２７と、識別子付き書き起こし部２８と、音響モデル識別学習部２９と、学習後環境依存音響モデル生成部３０とを備える。記憶部３は、制御部２の制御により処理に必要なデータを適宜記憶し、又は読み出すことができ、中央演算処理装置（ＣＰＵ）として構成可能な制御部２は、例えば記憶部３に格納される制御プログラムを実行して各機能を実現することができる。

音響モデル入力部２１は、予め用意した複数種類の環境依存音響モデルを各発話環境（例えば、男性の音声、女性の音声、別の男性の音声）を識別するための識別子を各音素ラベルに付した状態で入力し、それぞれの環境依存音響モデルを発話環境並列音声認識部２６に供給するとともに、識別子付き音響モデル生成部２４に供給する。例えば、男性の音声の音響モデルを第１環境依存音響モデル、女性の音声の音響モデルを第２環境依存音響モデル、及び別の男性の音響モデルを第３環境依存音響モデルとすることができ、背景音などの更に多くの環境依存音響モデルを扱うこともできる。

音声入力部２２は、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する学習音声を入力し、発話環境並列音声認識部２６に供給するとともに、別途後述する音響モデル識別学習部２９にも入力する。

ユーザインターフェース部２３は、発話環境並列音声認識部２６の識別結果を随意に修正するために、認識誤り修正部２７に修正情報を供給するインターフェースである。

識別子付き音響モデル生成部２４は、音響モデル入力部２１から供給される各環境依存音響モデルに対して、各発話環境（例えば、前述した男性の音声、女性の音声、別の男性の音声）を識別するための識別子を各音素ラベルに付した状態でマージし（後述する図３）、一連の識別子付き音響モデルを生成する。尚、各環境依存音響モデルの順序は、任意にマージしてよい。

発話環境並列音声認識部２６は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部２１を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部２２を介して供給される複数の発話環境が混在する学習音声について、該学習音声の各音素ラベルに当該発話環境識別子を付した状態で並列に音声認識を実行する（後述する図８）。従って、音響モデル識別学習部２９は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習する。認識結果におけるそれぞれの単語の発話環境（例えば、話者毎の性別）の発話環境識別子（例えば、男女別の識別子）を各音素に自動的に付与するため、後述する図７に示すように、発話環境並列音声認識部２６からは、識別子付きの認識結果が得られるとともに、識別子付きの仮説ラティスが得られる。識別子付きの仮説ラティスは、後述する識別学習に用いる際に、発話環境の識別誤りをより減少させることができる。

認識誤り修正部２７は、ユーザインターフェース部２３から供給される修正情報によって必要に応じて、発話環境並列音声認識部２６の識別結果を随意に修正し、修正した識別子付き認識結果を識別子付き書き起こし部２８に供給する。

識別子付き書き起こし部２８は、認識誤り修正部２７から供給される（修正した）識別子付き認識結果に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。

音響モデル識別学習部２９は、音声入力部２２を介して供給される学習音声と、識別子付き書き起こし部２８を介して供給される識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する。この識別学習については、後述するように音素誤り最小化基準（ＭＰＥ）を用いた識別学習が有効である。また、音響モデル識別学習部２９は、発話環境並列音声認識部２６によって得られる識別子付きの仮説ラティス（例えば、男女の認識仮説が混在するラティス）を用いて、話者の識別を考慮した識別学習を行うのが好適である。これにより、音響モデルを並列音声認識用に最適化することができる。

学習後環境依存音響モデル生成部３０は、音響モデル識別学習部２９から得られる発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する。例えば、学習後の第１環境依存音響モデル、第２環境依存音響モデル、及び第３環境依存音響モデルを生成して送出する。この生成した学習後の発話環境依存音響モデルは、記憶部３に記憶することもできる。

次に、本発明による実施例の音声学習装置の動作を詳細に説明する。図２は、本発明による一実施例の音声学習装置の動作を示すフローチャートである。

[装置動作]
ステップＳ１にて、音響モデル入力部２１により、予め用意した複数種類の環境依存音響モデルについて各発話環境を識別するための識別子を各音素ラベルに付した状態で入力するとともに、音声入力部２２により、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する学習音声を入力する。

ステップＳ２にて、識別子付き音響モデル生成部２４により、入力した各環境依存音響モデルに対して、各発話環境を識別するための識別子を各音素ラベルに付した状態でマージし、一連の識別子付き音響モデルを生成する。更に、発話環境並列音声認識部２６により、音響モデル入力部２１を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部２２を介して入力した複数の発話環境が混在する学習音声について並列に音声認識を実行し、識別子付きの認識結果を生成する。

図３は、本発明による一実施例の音声学習装置で用いる音素ラベル例を示す図である。図３に示すように、ＨＭＭ３の中央に図示するように状態（丸印）と状態を接続する遷移（矢印）で表記することができる。また、図３の右に図示するように、従来からの音素ラベルは、例えば音素の“ま”に対して“ｍ＋a”として表すことができ、例えば連続する音素の“ます”に対して“ｍ＋ａ”、“ｍ―ａ＋ｓ”、“ｍ―ｓ＋ｕ”、“ｓ−ｕ”として表すことができる。これに対して、図３の左に図示するように、本実施例の発話環境を識別するための識別子を付した識別子付き音素ラベルは、例えば２つの発話環境である男女を識別するのに、それぞれ“Ｍ＿”及び“Ｆ＿”を付す。例えば、識別子付き音素ラベルは、男性の音素に対しては、“Ｍ＿ｍ＋ａ”、“Ｍ＿ｍ―ａ＋ｓ”、“Ｍ＿ｍ―ｓ＋ｕ”、“Ｍ＿ｓ−ｕ”として表すことができる。

音響モデルを学習する際には、認識対象となる音声と学習データの発話切り出し基準が同一であることが望ましい。このため、本実施例の音声学習装置１では、学習音声を男女並列音声認識で認識した結果を利用し、必要であれば認識誤りを修正して、適切な学習データを作成することができる。

また、本実施例の音声学習装置１は、認識結果の各単語は、いずれの音素ネットワークを通ったかが分かるため、男女の性別を発話環境識別子として自動的に付与する。図３は、男性の音声（Ｍ＿）及び女性の音声（Ｆ＿）の発話が混在する場合の学習用の識別子付き音素ラベルを示しているが、更に、音響モデル（トライフォンＨＭＭ）、及びＨＭＭで共有される各状態と遷移確率の定義にも学習音素ラベルと同様に発話環境識別子を与え、男性の音声のＨＭＭと女性の音声のＨＭＭとをマージし、識別子付きの学習ラベルを用いて一度に一括して適応学習を行うことができる。

再び図２を参照するに、ステップＳ３にて、発話環境並列音声認識部２６により、オプションとして、複数の発話環境の並列処理に起因する認識誤りをより減少させるために、発話環境識別子付きの仮説ラティスを生成する。

ステップＳ４にて、本装置の操作者は、発話環境並列音声認識部２６の認識結果を参照して修正を要すると判断する場合には、ステップＳ５にて、ユーザインターフェース部２３を介して、発話環境並列音声認識部２６の識別結果を随意に修正することができる。

ステップＳ６にて、識別子付き書き起こし部２８により、認識誤り修正部２７から供給される（修正した）識別子付き認識結果に基づいて、識別子付き認識結果の書き起こしを作成する。

ステップＳ７にて、音響モデル識別学習部２９により、音声入力部２２を介して供給される学習音声と、識別子付き書き起こし部２８を介して供給される識別子付き書き起こしと、発話環境並列音声認識部２６によって得られる識別子付きの仮説ラティスとを用いて、識別子付き音響モデルを識別学習する。

ステップＳ８にて、音響モデル識別学習部２９によって生成した学習後の識別子付き発話環境依存音響モデルから発話環境識別子を除去して記憶部３に記憶する。

このように、音響モデルの学習時には、学習音声に対応した書き起こしに、例えば男女の発話環境識別子を付与したものを生成する。この識別子付きの書き起こしの作成には、学習用の男女の音響モデルを用いて並列に認識した結果を利用する。尚、並列認識結果を用いると容易に書き起こしを作成する事が出来るが，発話内容のすべてを手で書き起こして作成する事も可能である。この認識結果では、認識結果のそれぞれの単語の話者の性別が分かるため、男女の識別子を各音素に自動的に付与することができる。また、本実施例の音声学習装置１は、この識別子付きの認識結果の誤りを必要であれば適宜修正して識別子付きの書き起こしを作成する。

さらに、本実施例の音声学習装置１は、学習のもととなる識別子付きの音響モデルは、男女の音響モデルの各音素に男女別の識別子を自動的に付与してマージして作成される。

さらに、本実施例の音声学習装置１は、学習音声と、作成した識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習することができ、並列音声認識によって得られる男女の認識仮説が混在するラティスを用いて、話者の識別を考慮した識別学習を行う。これにより、音響モデルを並列音声認識用に最適化することができる。

また、本実施例の音声学習装置１は、識別子付き音響モデルを学習後に、識別子付き音響モデルから識別子を除去した音素ラベルの音響モデルを生成する。この学習済みの男女の音響モデルを用いて未知の音声を並列に認識することができる。

例えば、図４に、本発明による一実施例の音声学習装置で学習した音響モデルを用いて未知音声の音声認識を実行する音声認識装置の概略図を示す。音声認識装置１０１は、音声学習装置１と同様に、制御部１０２と、記憶部１０３とを備える。制御部１０２は、音響モデル入力部１２１と、音声入力部１２２と、発話環境並列音声認識部（男女並列音声認識部）１２６とを備え、各々前述した音響モデル入力部２１と、音声入力部２２と、発話環境並列音声認識部２６に対応するものと解してよく、音声認識装置１０１と音声学習装置１とを１つの装置として構成した場合には、制御部１０２と記憶部１０３とをそれぞれ前述の制御部２と記憶部３として構成することもできる。

音響モデル入力部１２１は、前述の記憶部３に格納済みのそれぞれの学習後の環境依存音響モデルを入力し、発話環境並列音声認識部（男女並列音声認識部）１２６に供給する。

音声入力部１２２は、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する未知音声を入力し、発話環境並列音声認識部（男女並列音声認識部）１２６に供給する。

発話環境並列音声認識部（男女並列音声認識部）１２６は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部１２１を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部１２２を介して供給される複数の発話環境が混在する学習音声について並列に音声認識を実行して、認識結果を得る。

次に、発話環境並列音声認識部２６の一例として発話環境並列音声認識部（男女並列音声認識部）１２６について簡潔に説明する。尚、男女並列音声認識の詳細は、例えば特許文献１及び非特許文献１を参照されたい。

［男女並列音声認識］
図５に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。

発話環境並列音声認識部（男女並列音声認識部）１２６は、発話検出・性別変更制御部１２６ａを有する。発話検出・性別変更制御部１２６ａは、認識開始すると、男女間遷移が可能で枝刈りも共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者属***代時刻を同定する。

この発話の終始端と話者属性の交替時刻を用いて、図５に示すように、男女間遷移が可能で枝刈りも共通の男女並列大語彙連続音声認識を行い、累積音素尤度を利用して認識結果の単語列を出力する。

具体的には、音声認識を開始すると（Ｓ１２）、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境依存音響モデル（トライフォン）と、同様に学習した女性の音響モデルから、単語バイグラムを利用して、図５に示すような単語を構成する音素ネットワークを構成する。ここで、女性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音（Ｓ１３ａ，Ｓ１５ａ）の間に単語バイグラム（Ｓ１４ａ）を構築し、男性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音（Ｓ１３ｂ，Ｓ１５ｂ）の間に単語バイグラム（Ｓ１４ｂ）を構築して、男女間遷移を可能にして、音声認識結果を出力する（Ｓ１６）。

また、発話環境並列音声認識部（男女並列音声認識部）１２６によれば、認識結果（仮説）の各単語に属性情報が付与することもできる。

一方、本実施例の音声学習装置１における学習時の認識結果には、発話環境識別子を音素ラベルに付されているため、最尤単語仮説系列と、それぞれの単語がいずれの音素ネットワークを通って認識されたかを示す話者属性とを得ることができるだけでなく、枝刈りされずに残った探索パスを識別子付きラティスとして得ることもできる。この識別子付きラティスを音響モデルの識別学習に用いる。例えば、図６に、本発明による一実施例の音声学習装置に係る、実際に得られる男女並列音声認識から得られるラティスの例を示す。図６には、番号を付した各ノードを接続するアークの各枝に仮説音素と、男女のいずれの音素ネットワークを通ったかを示す話者属性も示してあり、各音素ラベルに前置する“Ｍ＿”及び“Ｆ＿”がそれぞれ男女の性別を示す発話環境識別子であり、話者属性を表すこともできる。

次に、音響モデル識別学習部２９における識別学習について説明する。

［識別学習］
音響モデル識別学習部２９における識別学習には、音素誤り最小化基準（ＭＰＥ）を用いた識別学習が有効である（例えば、非特許文献１参照）。ＭＰＥ基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作する。この学習に必要なデータは、学習音声と、その音声に対応する正解音素系列（認識結果）、及び図５に示すような音素の仮説ラティスである。

また、発話環境（話者）依存音響モデルを学習するには、大量の学習した不特定話者の音響モデルを適応化するのが有効である（例えば、非特許文献３参照）。

本実施例の音声学習装置１は、音響モデルの学習に用いる音声データの音素ラベルに発話環境の識別子を与え、各音素の音響モデルにも同様の発話環境識別子を与えるとともに、各音素の音響モデルにも同一の発話環境識別子を与え、複数の発話環境が混在する音声セグメントから、複数の発話環境に対応する音響モデルを同時に学習する。

また、本実施例の音声学習装置１は、発話環境識別子が与えられた音響モデルを作成するにあたって、複数の発話環境依存音響モデルを発話環境識別子を用いてマージ（統合）して作成しているため、この音響モデルを用いて一度に（一括して）複数の音響モデルを学習することができる。

また、本実施例の音声学習装置１は、発話環境の識別子として、男女又は話者別の識別子を与えるとともに、必要であれば男女並列音声認識の認識結果を修正し、学習音声の音素ラベルを作成するため、学習音声に対応する正解音素系列の正解精度の判別も容易になる。

本実施例の音声学習装置１は、発話環境識別子を用いた音響モデルの学習にこのような識別学習を導入するには、認識誤りを含む認識仮説のラティスを利用するのが好適である。男女並列音声認識のような複数の音響モデルから得られる仮説を同時に一括して探索してラティスを取得して仮説ラティスを生成することができる。このラティス上の各音素にも発話環境識別子を与えて仮説ラティスを生成するために、発話環境が異なる音素の認識誤りをモデルの誤りとして識別することができ、発話環境の認識誤りが少なくなるように音響モデルの統計量を学習することができる。

より具体的に説明するに、音響モデル識別学習部２９による識別学習には、図６に示したような発話環境並列音声認識から得られる仮説ラティスを用いる。発話環境並列音声認識部２６から得られる仮説ラティスには仮説が通った発話環境識別子も付与されている。例えば、男女別の並列音声認識を行う場合には、図３に示した識別子付き音素ラベルと同一の発話環境識別子が仮説ラティスに付与される。従来の男女並列音声認識では、図５に示した例からも分かるように、仮設ラティス中には男女の音声が混在しており、この男女の音素誤りが単語の認識誤りを引き起こす場合があることに留意する。

図７（ａ）に、ＭＰＥ基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、図７（ｂ）に、ＭＰＥ基準の識別学習に用いる仮説ラティスの例を示す。本実施例によれば、ＭＰＥ基準の識別学習時に、音素誤りに男女の識別誤りも考慮して識別学習することができる。図７（ｂ）のラティスの枝の上部に発話環境を考慮した学習音素を、ラティスの枝の下部に各枝の音素の正解精度を示している。

識別学習では、この音素正解精度が１．０である枝は、尤度が高くなるように学習し、正解精度が０．０もしくは−１．０の音素では尤度が低くなるように学習する例である。例えば、音素の正解精度として音素の置換及び削除の誤りを評価するときには、音素正解精度を０．０〜１．０の値をとり、音素の正解精度として更に音素の挿入誤りを評価するときには、音素正解精度を−１．０〜１．０の値をとるように学習する。

例えば、図７（ｂ）の例では、“Ｆ＿ｍ，Ｆ＿a, Ｆ＿ｓ，Ｆ＿ｕ，Ｆ＿ｓｐ”と“Ｍ＿ｔ，Ｍ_ａ，Ｍ＿ｄ，Ｍ＿ａ”のパスは音素の誤りではないが、男女の性別を誤っているため、音素正解精度は。０．０が与えられ、即ち、観測される特徴量を表す特徴ベクトルに対して尤度が低くなるように学習する。このようにして、男女の音素の識別能力の高い音響モデルを学習することができる。

この学習済みの音響モデルを用いれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。

尚、音響モデルの識別学習における適応化処理の一例を説明する。

以上のように、本実施例の音声学習装置によれば、ＭＰＥ基準に基づいて推定したＤＬＴを導入して音響モデルを適応化する場合、本実施例のように適応化を行わない場合（ＭＬＬＲ）と比して、男女別の複数種類の音素クラスに対して単語誤認識率（ＷＥＲ）を改善する。

また、本発明の一態様として、音声学習装置１をコンピュータとして構成することができ、音響モデル入力部２１と、音声入力部２２と、ユーザインターフェース部２３と、識別子付き音響モデル生成部２４と、発話環境並列音声認識部２６と、認識誤り修正部２７と、識別子付き書き起こし部２８と、音響モデル識別学習部２９と、学習後環境依存音響モデル生成部３０の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部３に記憶される。また、各制御に用いる情報及びデータは、この記憶部に記憶しておくことができる。このような記憶部は、外付けハードディスクなどの外部記憶装置、或いはＲＯＭ又はＲＡＭなどの内部記憶装置で実現することができる。プログラムを実行する制御部は、中央演算処理装置（ＣＰＵ）などで実現することができる。即ち、ＣＰＵが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの全部又は一部で実現しても良い。

上述した実施例において、音声学習装置１の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。

また、音声学習装置１は、ＤＶＤ又はＣＤ‐ＲＯＭなどの可搬型記録媒体を介して入力しても良いし、映像入力専用のインターフェースを介して入力するようにしてもよい。

上述の実施例の音声学習装置１は、代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。

本発明によれば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができるので、任意の音声認識の用途に有用である。

１音声学習装置
２制御部
３記憶部
２１音響モデル入力部
２２音声入力部
２３ユーザインターフェース部
２４識別子付き音響モデル生成部
２６発話環境並列音声認識部
２７認識誤り修正部
２８識別子付き書き起こし部
２９音響モデル識別学習部
３０学習後環境依存音響モデル生成部
１０１音声認識装置
１０２制御部
１０３記憶部
１２１音響モデル入力部
１２２音声入力部
１２６発話環境並列音声認識部（男女並列音声認識部）
１２６ａ発話検出・性別変更制御部

Claims

音声認識に用いる音響モデルを学習する音声学習装置であって、
複数の発話環境毎の環境依存音響モデルの各々を、各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部と、
当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部と、
当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部と、
当該学習音声と前記識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する音響モデル識別学習部とを備え、
前記音響モデル識別学習部は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、音声学習装置。
前記発話環境並列音声認識部は、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果に自動的に発話環境識別子を付して識別子付き認識結果を生成することを特徴とする、請求項１に記載の音声学習装置。
前記音響モデル識別学習部によって生成した発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する学習後環境依存音響モデル生成部を更に備えることを特徴とする、請求項１に記載の音声学習装置。
前記音響モデル識別学習部は、発話環境としての男女又は話者毎の発話環境識別子を用いて、複数の音響モデルを学習することを特徴とする、請求項１〜３のいずれか一項に記載の音声学習装置。
前記発話環境並列音声認識部は、音声認識における仮説ラティスに当該発話環境識別子を付与して識別子付きの仮説ラティスを生成し、
前記音響モデル識別学習部は、前記発話環境並列音声認識部から識別子付きの仮説ラティスを取得して、該識別子付きの仮説ラティス、前記学習音声、及び前記識別子付き書き起こしを用いて、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、請求項１〜４のいずれか一項に記載の音声学習装置。