JP4972660B2 - 音声学習装置及びプログラム - Google Patents

音声学習装置及びプログラム Download PDF

Info

Publication number
JP4972660B2
JP4972660B2 JP2009046762A JP2009046762A JP4972660B2 JP 4972660 B2 JP4972660 B2 JP 4972660B2 JP 2009046762 A JP2009046762 A JP 2009046762A JP 2009046762 A JP2009046762 A JP 2009046762A JP 4972660 B2 JP4972660 B2 JP 4972660B2
Authority
JP
Japan
Prior art keywords
speech
learning
environment
identifier
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009046762A
Other languages
English (en)
Other versions
JP2010204175A (ja
Inventor
庄衛 佐藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009046762A priority Critical patent/JP4972660B2/ja
Publication of JP2010204175A publication Critical patent/JP2010204175A/ja
Application granted granted Critical
Publication of JP4972660B2 publication Critical patent/JP4972660B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、各音素の音響特徴量の統計量を音響モデルとした音声認識に関し、特に、対談音声のように1つの音声セグメントに複数の発話環境が混在する場合の音声の認識の精度を向上するための、複数の音響モデルの学習効果を高める音声学習装置及びプログラムに関する。
統計的な音響モデルを用いた音声認識では、各音素に現れる特徴量の統計量を得るための学習データが必要である。この学習データは、音声とその音声に対応する書き起こしの対である。この音響モデルを、複数の話者や背景音などの発話環境毎に別々に学習することで、音声認識精度の向上が期待される。以下、このような発話環境毎の音響モデルを発話環境依存音響モデルと称する。
しかしながら、対談音声を学習したり認識したりする場合には、収録された音声の発話と発話との間に適切な無音区間がない場合があるため、性別や複数の話者などの発話環境毎に音声を分割することが難しい。このような音声の認識に、性別依存音響モデルを利用して、男女の話者の音声が混在する音声の認識精度を向上を図る男女並列音声認識が知られている(例えば、特許文献1、非特許文献1参照)。
一方、音響モデルの統計量を学習する基準には、一般的に学習音声に対する尤度を最大化する最尤基準(ML)が用いられるが、近年、音素誤り最小化基準(MPE)に基づいて学習する方法が提案されている(例えば、非特許文献2参照)。
MPEに基づく学習は、上記の男女並列音声認識における音声認識においても認識精度の向上が確認されている。このMPE基準の学習では、従来からの音響モデルの学習に用いていた音声と、その音声に対応した書き起こしのほかに、その音声の認識誤りを評価するための認識結果が必要になる。
この認識結果には、より多くの可能性のある認識誤りが含まれていることが望ましい。そこで、効率よく認識誤りを評価するため、仮説の探索中に得られる音素ラティスを用いて、MPE学習を行うアルゴリズムも提案されている(例えば、非特許文献3参照)。
一方、発話環境(話者)依存音響モデルを学習するには、大量の学習した不特定話者モデルを適応化する技法が有効である(例えば、非特許文献3参照)。この文献には、MPE基準に基づいて音響モデルのパラメータを線形変換する適応化技法も提案されている。この線形変換は、DLT(Discriminative Linear Transforms)と称される。
特開2007−233149号公報
今井他、音響学会春季研究発表会後援論文集、1−1−16、2008年 D. Povay, "Minimum phone error and L-smoothing for improved discriminative training", in proc. ICASSP, 2002年 L. Wang et al., Computer Speech and Language, 22, 2008年、pp. 256-272
上述の方法では、音声セグメントを発話環境毎に分類して、別々に音響モデルを学習することが望ましいが、対談などの音声では1音声セグメント中に複数の発話環境の音声が混在するため、発話環境が複数混在する音声セグメントから、効率よく複数の発話環境依存音響モデルを同時に学習する技法が必要になる。
また、男女並列音声認識では、発話環境の識別、即ち話者性別の識別と、認識仮説の探索を同時に行うことができる。このとき、話者性別の識別誤りによる単語の認識誤りが生じる場合がある。従って、男女並列音声認識では、話者の識別誤りを考慮した識別学習基準が必要とされている。
そこで、本発明の目的は、発話環境毎に適応化された複数の音響モデルの学習性能を改善することで、複数の音響モデルを並列に探索する際に音声認識の認識精度の向上を図る音声学習装置及びプログラムを提供することにある。
本発明による音声学習装置は、音響モデルと学習音声の音素ラベルに発話環境の識別子を与え、複数の発話環境が混在する自動切り出しされた音声セグメントから、発話環境毎に適応化された複数の音響モデルを同時に学習する。つまり、複数の発話環境依存音響モデルを個別的に学習することなく、複数の発話環境依存音響モデルを自動的に識別して学習する。
即ち、本発明による音声学習装置は、音声認識に用いる音響モデルを学習する音声学習装置であって、複数の発話環境毎の環境依存音響モデルの各々を、各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部と、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部と、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部と、当該学習音声と前記識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する音響モデル識別学習部とを備え、前記音響モデル識別学習部は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする。
また、本発明による音声学習装置において、前記発話環境並列音声認識部は、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果に自動的に識別子を付して発話環境識別子付き認識結果を生成することを特徴とする。
また、本発明による音声学習装置において、前記音響モデル識別学習部によって生成した発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する学習後環境依存音響モデル生成部を更に備えることを特徴とする。
また、本発明による音声学習装置において、前記音響モデル識別学習部は、発話環境としての男女又は話者毎の発話環境識別子を用いて、複数の音響モデルを学習することを特徴とする。
また、本発明による音声学習装置において、前記発話環境並列音声認識部は、音声認識における仮説ラティスに当該発話環境識別子を付与して識別子付きの仮説ラティスを生成し、前記音響モデル識別学習部は、前記発話環境並列音声認識部から識別子付きの仮説ラティスを取得して、該識別子付きの仮説ラティス、前記学習音声、及び前記識別子付き書き起こしを用いて、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする。
本発明によれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、例えば複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。
本発明による一実施例の音声学習装置を示す図である。 本発明による一実施例の音声学習装置の動作を示すフローチャートである。 本発明による一実施例の音声学習装置で用いる音素ラベル例を示す図である。 本発明による一実施例の音声学習装置で学習した音響モデルを用いて未知音声の音声認識を実行する音声認識装置の概略図である。 本発明による一実施例の音声学習装置に係る、対談音声などのような一つの発話区間に複数の話者の音声が混在する場合に有効な、男女並列音声認識の概要を示す図である。 本発明による一実施例の音声学習装置に係る、実際に得られる男女並列音声認識から得られるラティスの例を示す図である。 (a)に、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、(b)に、MPE基準の識別学習に用いる仮説ラティスの例を示す図である。
以下、本発明による実施例の音声学習装置を説明する。
[装置構成]
図1に、本発明による一実施例の音声学習装置を示す。本実施例の音声学習装置1は、男女並列音声認識のような複数の発話環境依存音響モデルを用いて並列に探索を行う装置である。
本実施例の音声学習装置1は、制御部2と、記憶部3とを備える。制御部2は、音響モデル入力部21と、音声入力部22と、ユーザインターフェース部23と、識別子付き音響モデル生成部24と、発話環境並列音声認識部26と、認識誤り修正部27と、識別子付き書き起こし部28と、音響モデル識別学習部29と、学習後環境依存音響モデル生成部30とを備える。記憶部3は、制御部2の制御により処理に必要なデータを適宜記憶し、又は読み出すことができ、中央演算処理装置(CPU)として構成可能な制御部2は、例えば記憶部3に格納される制御プログラムを実行して各機能を実現することができる。
音響モデル入力部21は、予め用意した複数種類の環境依存音響モデルを各発話環境(例えば、男性の音声、女性の音声、別の男性の音声)を識別するための識別子を各音素ラベルに付した状態で入力し、それぞれの環境依存音響モデルを発話環境並列音声認識部26に供給するとともに、識別子付き音響モデル生成部24に供給する。例えば、男性の音声の音響モデルを第1環境依存音響モデル、女性の音声の音響モデルを第2環境依存音響モデル、及び別の男性の音響モデルを第3環境依存音響モデルとすることができ、背景音などの更に多くの環境依存音響モデルを扱うこともできる。
音声入力部22は、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する学習音声を入力し、発話環境並列音声認識部26に供給するとともに、別途後述する音響モデル識別学習部29にも入力する。
ユーザインターフェース部23は、発話環境並列音声認識部26の識別結果を随意に修正するために、認識誤り修正部27に修正情報を供給するインターフェースである。
識別子付き音響モデル生成部24は、音響モデル入力部21から供給される各環境依存音響モデルに対して、各発話環境(例えば、前述した男性の音声、女性の音声、別の男性の音声)を識別するための識別子を各音素ラベルに付した状態でマージし(後述する図3)、一連の識別子付き音響モデルを生成する。尚、各環境依存音響モデルの順序は、任意にマージしてよい。
発話環境並列音声認識部26は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部21を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部22を介して供給される複数の発話環境が混在する学習音声について、該学習音声の各音素ラベルに当該発話環境識別子を付した状態で並列に音声認識を実行する(後述する図8)。従って、音響モデル識別学習部29は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習する。認識結果におけるそれぞれの単語の発話環境(例えば、話者毎の性別)の発話環境識別子(例えば、男女別の識別子)を各音素に自動的に付与するため、後述する図7に示すように、発話環境並列音声認識部26からは、識別子付きの認識結果が得られるとともに、識別子付きの仮説ラティスが得られる。識別子付きの仮説ラティスは、後述する識別学習に用いる際に、発話環境の識別誤りをより減少させることができる。
認識誤り修正部27は、ユーザインターフェース部23から供給される修正情報によって必要に応じて、発話環境並列音声認識部26の識別結果を随意に修正し、修正した識別子付き認識結果を識別子付き書き起こし部28に供給する。
識別子付き書き起こし部28は、認識誤り修正部27から供給される(修正した)識別子付き認識結果に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。
音響モデル識別学習部29は、音声入力部22を介して供給される学習音声と、識別子付き書き起こし部28を介して供給される識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する。この識別学習については、後述するように音素誤り最小化基準(MPE)を用いた識別学習が有効である。また、音響モデル識別学習部29は、発話環境並列音声認識部26によって得られる識別子付きの仮説ラティス(例えば、男女の認識仮説が混在するラティス)を用いて、話者の識別を考慮した識別学習を行うのが好適である。これにより、音響モデルを並列音声認識用に最適化することができる。
学習後環境依存音響モデル生成部30は、音響モデル識別学習部29から得られる発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する。例えば、学習後の第1環境依存音響モデル、第2環境依存音響モデル、及び第3環境依存音響モデルを生成して送出する。この生成した学習後の発話環境依存音響モデルは、記憶部3に記憶することもできる。
次に、本発明による実施例の音声学習装置の動作を詳細に説明する。図2は、本発明による一実施例の音声学習装置の動作を示すフローチャートである。
[装置動作]
ステップS1にて、音響モデル入力部21により、予め用意した複数種類の環境依存音響モデルについて各発話環境を識別するための識別子を各音素ラベルに付した状態で入力するとともに、音声入力部22により、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する学習音声を入力する。
ステップS2にて、識別子付き音響モデル生成部24により、入力した各環境依存音響モデルに対して、各発話環境を識別するための識別子を各音素ラベルに付した状態でマージし、一連の識別子付き音響モデルを生成する。更に、発話環境並列音声認識部26により、音響モデル入力部21を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部22を介して入力した複数の発話環境が混在する学習音声について並列に音声認識を実行し、識別子付きの認識結果を生成する。
図3は、本発明による一実施例の音声学習装置で用いる音素ラベル例を示す図である。図3に示すように、HMM3の中央に図示するように状態(丸印)と状態を接続する遷移(矢印)で表記することができる。また、図3の右に図示するように、従来からの音素ラベルは、例えば音素の“ま”に対して“m+a”として表すことができ、例えば連続する音素の“ます”に対して“m+a”、“m―a+s”、“m―s+u”、“s−u”として表すことができる。これに対して、図3の左に図示するように、本実施例の発話環境を識別するための識別子を付した識別子付き音素ラベルは、例えば2つの発話環境である男女を識別するのに、それぞれ“M_”及び“F_”を付す。例えば、識別子付き音素ラベルは、男性の音素に対しては、“M_m+a”、“M_m―a+s”、“M_m―s+u”、“M_s−u”として表すことができる。
音響モデルを学習する際には、認識対象となる音声と学習データの発話切り出し基準が同一であることが望ましい。このため、本実施例の音声学習装置1では、学習音声を男女並列音声認識で認識した結果を利用し、必要であれば認識誤りを修正して、適切な学習データを作成することができる。
また、本実施例の音声学習装置1は、認識結果の各単語は、いずれの音素ネットワークを通ったかが分かるため、男女の性別を発話環境識別子として自動的に付与する。図3は、男性の音声(M_)及び女性の音声(F_)の発話が混在する場合の学習用の識別子付き音素ラベルを示しているが、更に、音響モデル(トライフォンHMM)、及びHMMで共有される各状態と遷移確率の定義にも学習音素ラベルと同様に発話環境識別子を与え、男性の音声のHMMと女性の音声のHMMとをマージし、識別子付きの学習ラベルを用いて一度に一括して適応学習を行うことができる。
再び図2を参照するに、ステップS3にて、発話環境並列音声認識部26により、オプションとして、複数の発話環境の並列処理に起因する認識誤りをより減少させるために、発話環境識別子付きの仮説ラティスを生成する。
ステップS4にて、本装置の操作者は、発話環境並列音声認識部26の認識結果を参照して修正を要すると判断する場合には、ステップS5にて、ユーザインターフェース部23を介して、発話環境並列音声認識部26の識別結果を随意に修正することができる。
ステップS6にて、識別子付き書き起こし部28により、認識誤り修正部27から供給される(修正した)識別子付き認識結果に基づいて、識別子付き認識結果の書き起こしを作成する。
ステップS7にて、音響モデル識別学習部29により、音声入力部22を介して供給される学習音声と、識別子付き書き起こし部28を介して供給される識別子付き書き起こしと、発話環境並列音声認識部26によって得られる識別子付きの仮説ラティスとを用いて、識別子付き音響モデルを識別学習する。
ステップS8にて、音響モデル識別学習部29によって生成した学習後の識別子付き発話環境依存音響モデルから発話環境識別子を除去して記憶部3に記憶する。
このように、音響モデルの学習時には、学習音声に対応した書き起こしに、例えば男女の発話環境識別子を付与したものを生成する。この識別子付きの書き起こしの作成には、学習用の男女の音響モデルを用いて並列に認識した結果を利用する。尚、並列認識結果を用いると容易に書き起こしを作成する事が出来るが,発話内容のすべてを手で書き起こして作成する事も可能である。この認識結果では、認識結果のそれぞれの単語の話者の性別が分かるため、男女の識別子を各音素に自動的に付与することができる。また、本実施例の音声学習装置1は、この識別子付きの認識結果の誤りを必要であれば適宜修正して識別子付きの書き起こしを作成する。
さらに、本実施例の音声学習装置1は、学習のもととなる識別子付きの音響モデルは、男女の音響モデルの各音素に男女別の識別子を自動的に付与してマージして作成される。
さらに、本実施例の音声学習装置1は、学習音声と、作成した識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習することができ、並列音声認識によって得られる男女の認識仮説が混在するラティスを用いて、話者の識別を考慮した識別学習を行う。これにより、音響モデルを並列音声認識用に最適化することができる。
また、本実施例の音声学習装置1は、識別子付き音響モデルを学習後に、識別子付き音響モデルから識別子を除去した音素ラベルの音響モデルを生成する。この学習済みの男女の音響モデルを用いて未知の音声を並列に認識することができる。
例えば、図4に、本発明による一実施例の音声学習装置で学習した音響モデルを用いて未知音声の音声認識を実行する音声認識装置の概略図を示す。音声認識装置101は、音声学習装置1と同様に、制御部102と、記憶部103とを備える。制御部102は、音響モデル入力部121と、音声入力部122と、発話環境並列音声認識部(男女並列音声認識部)126とを備え、各々前述した音響モデル入力部21と、音声入力部22と、発話環境並列音声認識部26に対応するものと解してよく、音声認識装置101と音声学習装置1とを1つの装置として構成した場合には、制御部102と記憶部103とをそれぞれ前述の制御部2と記憶部3として構成することもできる。
音響モデル入力部121は、前述の記憶部3に格納済みのそれぞれの学習後の環境依存音響モデルを入力し、発話環境並列音声認識部(男女並列音声認識部)126に供給する。
音声入力部122は、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する未知音声を入力し、発話環境並列音声認識部(男女並列音声認識部)126に供給する。
発話環境並列音声認識部(男女並列音声認識部)126は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部121を介して供給される複数種類の環境依存音響モデルを用いて、音声入力部122を介して供給される複数の発話環境が混在する学習音声について並列に音声認識を実行して、認識結果を得る。
次に、発話環境並列音声認識部26の一例として発話環境並列音声認識部(男女並列音声認識部)126について簡潔に説明する。尚、男女並列音声認識の詳細は、例えば特許文献1及び非特許文献1を参照されたい。
[男女並列音声認識]
図5に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。
発話環境並列音声認識部(男女並列音声認識部)126は、発話検出・性別変更制御部126aを有する。発話検出・性別変更制御部126aは、認識開始すると、男女間遷移が可能で枝刈りも共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者属***代時刻を同定する。
この発話の終始端と話者属性の交替時刻を用いて、図5に示すように、男女間遷移が可能で枝刈りも共通の男女並列大語彙連続音声認識を行い、累積音素尤度を利用して認識結果の単語列を出力する。
具体的には、音声認識を開始すると(S12)、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境依存音響モデル(トライフォン)と、同様に学習した女性の音響モデルから、単語バイグラムを利用して、図5に示すような単語を構成する音素ネットワークを構成する。ここで、女性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13a,S15a)の間に単語バイグラム(S14a)を構築し、男性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13b,S15b)の間に単語バイグラム(S14b)を構築して、男女間遷移を可能にして、音声認識結果を出力する(S16)。
また、発話環境並列音声認識部(男女並列音声認識部)126によれば、認識結果(仮説)の各単語に属性情報が付与することもできる。
一方、本実施例の音声学習装置1における学習時の認識結果には、発話環境識別子を音素ラベルに付されているため、最尤単語仮説系列と、それぞれの単語がいずれの音素ネットワークを通って認識されたかを示す話者属性とを得ることができるだけでなく、枝刈りされずに残った探索パスを識別子付きラティスとして得ることもできる。この識別子付きラティスを音響モデルの識別学習に用いる。例えば、図6に、本発明による一実施例の音声学習装置に係る、実際に得られる男女並列音声認識から得られるラティスの例を示す。図6には、番号を付した各ノードを接続するアークの各枝に仮説音素と、男女のいずれの音素ネットワークを通ったかを示す話者属性も示してあり、各音素ラベルに前置する“M_”及び“F_”がそれぞれ男女の性別を示す発話環境識別子であり、話者属性を表すこともできる。
次に、音響モデル識別学習部29における識別学習について説明する。
[識別学習]
音響モデル識別学習部29における識別学習には、音素誤り最小化基準(MPE)を用いた識別学習が有効である(例えば、非特許文献1参照)。MPE基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作する。この学習に必要なデータは、学習音声と、その音声に対応する正解音素系列(認識結果)、及び図5に示すような音素の仮説ラティスである。
また、発話環境(話者)依存音響モデルを学習するには、大量の学習した不特定話者の音響モデルを適応化するのが有効である(例えば、非特許文献3参照)。
本実施例の音声学習装置1は、音響モデルの学習に用いる音声データの音素ラベルに発話環境の識別子を与え、各音素の音響モデルにも同様の発話環境識別子を与えるとともに、各音素の音響モデルにも同一の発話環境識別子を与え、複数の発話環境が混在する音声セグメントから、複数の発話環境に対応する音響モデルを同時に学習する。
また、本実施例の音声学習装置1は、発話環境識別子が与えられた音響モデルを作成するにあたって、複数の発話環境依存音響モデルを発話環境識別子を用いてマージ(統合)して作成しているため、この音響モデルを用いて一度に(一括して)複数の音響モデルを学習することができる。
また、本実施例の音声学習装置1は、発話環境の識別子として、男女又は話者別の識別子を与えるとともに、必要であれば男女並列音声認識の認識結果を修正し、学習音声の音素ラベルを作成するため、学習音声に対応する正解音素系列の正解精度の判別も容易になる。
本実施例の音声学習装置1は、発話環境識別子を用いた音響モデルの学習にこのような識別学習を導入するには、認識誤りを含む認識仮説のラティスを利用するのが好適である。男女並列音声認識のような複数の音響モデルから得られる仮説を同時に一括して探索してラティスを取得して仮説ラティスを生成することができる。このラティス上の各音素にも発話環境識別子を与えて仮説ラティスを生成するために、発話環境が異なる音素の認識誤りをモデルの誤りとして識別することができ、発話環境の認識誤りが少なくなるように音響モデルの統計量を学習することができる。
より具体的に説明するに、音響モデル識別学習部29による識別学習には、図6に示したような発話環境並列音声認識から得られる仮説ラティスを用いる。発話環境並列音声認識部26から得られる仮説ラティスには仮説が通った発話環境識別子も付与されている。例えば、男女別の並列音声認識を行う場合には、図3に示した識別子付き音素ラベルと同一の発話環境識別子が仮説ラティスに付与される。従来の男女並列音声認識では、図5に示した例からも分かるように、仮設ラティス中には男女の音声が混在しており、この男女の音素誤りが単語の認識誤りを引き起こす場合があることに留意する。
図7(a)に、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、図7(b)に、MPE基準の識別学習に用いる仮説ラティスの例を示す。本実施例によれば、MPE基準の識別学習時に、音素誤りに男女の識別誤りも考慮して識別学習することができる。図7(b)のラティスの枝の上部に発話環境を考慮した学習音素を、ラティスの枝の下部に各枝の音素の正解精度を示している。
識別学習では、この音素正解精度が1.0である枝は、尤度が高くなるように学習し、正解精度が0.0もしくは−1.0の音素では尤度が低くなるように学習する例である。例えば、音素の正解精度として音素の置換及び削除の誤りを評価するときには、音素正解精度を0.0〜1.0の値をとり、音素の正解精度として更に音素の挿入誤りを評価するときには、音素正解精度を−1.0〜1.0の値をとるように学習する。
例えば、図7(b)の例では、“F_m,F_a, F_s, F_u, F_sp”と“M_t,M_a, M_d, M_a”のパスは音素の誤りではないが、男女の性別を誤っているため、音素正解精度は。0.0が与えられ、即ち、観測される特徴量を表す特徴ベクトルに対して尤度が低くなるように学習する。このようにして、男女の音素の識別能力の高い音響モデルを学習することができる。
この学習済みの音響モデルを用いれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。
尚、音響モデルの識別学習における適応化処理の一例を説明する。
以上のように、本実施例の音声学習装置によれば、MPE基準に基づいて推定したDLTを導入して音響モデルを適応化する場合、本実施例のように適応化を行わない場合(MLLR)と比して、男女別の複数種類の音素クラスに対して単語誤認識率(WER)を改善する。
また、本発明の一態様として、音声学習装置1をコンピュータとして構成することができ、音響モデル入力部21と、音声入力部22と、ユーザインターフェース部23と、識別子付き音響モデル生成部24と、発話環境並列音声認識部26と、認識誤り修正部27と、識別子付き書き起こし部28と、音響モデル識別学習部29と、学習後環境依存音響モデル生成部30の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部3に記憶される。また、各制御に用いる情報及びデータは、この記憶部に記憶しておくことができる。このような記憶部は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。プログラムを実行する制御部は、中央演算処理装置(CPU)などで実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの全部又は一部で実現しても良い。
上述した実施例において、音声学習装置1の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。
また、音声学習装置1は、DVD又はCD‐ROMなどの可搬型記録媒体を介して入力しても良いし、映像入力専用のインターフェースを介して入力するようにしてもよい。
上述の実施例の音声学習装置1は、代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
本発明によれば、発話環境依存音響モデルを個別に学習せずとも一括して音声学習を行うことができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができるので、任意の音声認識の用途に有用である。
1 音声学習装置
2 制御部
3 記憶部
21 音響モデル入力部
22 音声入力部
23 ユーザインターフェース部
24 識別子付き音響モデル生成部
26 発話環境並列音声認識部
27 認識誤り修正部
28 識別子付き書き起こし部
29 音響モデル識別学習部
30 学習後環境依存音響モデル生成部
101 音声認識装置
102 制御部
103 記憶部
121 音響モデル入力部
122 音声入力部
126 発話環境並列音声認識部(男女並列音声認識部)
126a 発話検出・性別変更制御部

Claims (5)

  1. 音声認識に用いる音響モデルを学習する音声学習装置であって、
    複数の発話環境毎の環境依存音響モデルの各々を、各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部と、
    当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部と、
    当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部と、
    当該学習音声と前記識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する音響モデル識別学習部とを備え、
    前記音響モデル識別学習部は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、音声学習装置。
  2. 前記発話環境並列音声認識部は、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果に自動的に発話環境識別子を付して識別子付き認識結果を生成することを特徴とする、請求項1に記載の音声学習装置。
  3. 前記音響モデル識別学習部によって生成した発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する学習後環境依存音響モデル生成部を更に備えることを特徴とする、請求項1に記載の音声学習装置。
  4. 前記音響モデル識別学習部は、発話環境としての男女又は話者毎の発話環境識別子を用いて、複数の音響モデルを学習することを特徴とする、請求項1〜3のいずれか一項に記載の音声学習装置。
  5. 前記発話環境並列音声認識部は、音声認識における仮説ラティスに当該発話環境識別子を付与して識別子付きの仮説ラティスを生成し、
    前記音響モデル識別学習部は、前記発話環境並列音声認識部から識別子付きの仮説ラティスを取得して、該識別子付きの仮説ラティス、前記学習音声、及び前記識別子付き書き起こしを用いて、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、請求項1〜4のいずれか一項に記載の音声学習装置。
JP2009046762A 2009-02-27 2009-02-27 音声学習装置及びプログラム Expired - Fee Related JP4972660B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009046762A JP4972660B2 (ja) 2009-02-27 2009-02-27 音声学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009046762A JP4972660B2 (ja) 2009-02-27 2009-02-27 音声学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010204175A JP2010204175A (ja) 2010-09-16
JP4972660B2 true JP4972660B2 (ja) 2012-07-11

Family

ID=42965758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009046762A Expired - Fee Related JP4972660B2 (ja) 2009-02-27 2009-02-27 音声学習装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4972660B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5637131B2 (ja) 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
US9336770B2 (en) 2013-08-13 2016-05-10 Mitsubishi Electric Corporation Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP4295675B2 (ja) * 2004-06-03 2009-07-15 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2006106300A (ja) * 2004-10-05 2006-04-20 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP4700522B2 (ja) * 2006-03-02 2011-06-15 日本放送協会 音声認識装置及び音声認識プログラム

Also Published As

Publication number Publication date
JP2010204175A (ja) 2010-09-16

Similar Documents

Publication Publication Date Title
US10643609B1 (en) Selecting speech inputs
US8666745B2 (en) Speech recognition system with huge vocabulary
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP5149107B2 (ja) 音響処理装置およびプログラム
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
JP2005208643A (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP2005227758A (ja) 音声特性に基づく電話発信者の自動識別
US9240181B2 (en) Automatic collection of speaker name pronunciations
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20170270923A1 (en) Voice processing device and voice processing method
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4972660B2 (ja) 音声学習装置及びプログラム
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
JP2010054574A (ja) 話者交替推定装置、話者識別装置、及びコンピュータプログラム
Nouza et al. Fast keyword spotting in telephone speech
Bansal et al. A joint decoding algorithm for multiple-example-based addition of words to a pronunciation lexicon
JP2005091504A (ja) 音声認識装置
Kalantari et al. Incorporating visual information for spoken term detection
Kessens et al. Modeling pronunciation variation for ASR: Comparing criteria for rule selection
Gollan Efficient setup of acoustic models for large vocabulary continuous speech recognition
JP2009210942A (ja) 音声再生システム、音声再生方法およびプログラム
KR20050063986A (ko) 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
Xu et al. The ATVS-GEINTRA STD system for ALBAYZIN 2014 search-on-speech evaluation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4972660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees