JP4972660B2 - 音声学習装置及びプログラム - Google Patents
音声学習装置及びプログラム Download PDFInfo
- Publication number
- JP4972660B2 JP4972660B2 JP2009046762A JP2009046762A JP4972660B2 JP 4972660 B2 JP4972660 B2 JP 4972660B2 JP 2009046762 A JP2009046762 A JP 2009046762A JP 2009046762 A JP2009046762 A JP 2009046762A JP 4972660 B2 JP4972660 B2 JP 4972660B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- learning
- environment
- identifier
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1に、本発明による一実施例の音声学習装置を示す。本実施例の音声学習装置1は、男女並列音声認識のような複数の発話環境依存音響モデルを用いて並列に探索を行う装置である。
ステップS1にて、音響モデル入力部21により、予め用意した複数種類の環境依存音響モデルについて各発話環境を識別するための識別子を各音素ラベルに付した状態で入力するとともに、音声入力部22により、各環境依存音響モデルの入力に対応して、複数の発話環境が混在する学習音声を入力する。
図5に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。
音響モデル識別学習部29における識別学習には、音素誤り最小化基準(MPE)を用いた識別学習が有効である(例えば、非特許文献1参照)。MPE基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作する。この学習に必要なデータは、学習音声と、その音声に対応する正解音素系列(認識結果)、及び図5に示すような音素の仮説ラティスである。
2 制御部
3 記憶部
21 音響モデル入力部
22 音声入力部
23 ユーザインターフェース部
24 識別子付き音響モデル生成部
26 発話環境並列音声認識部
27 認識誤り修正部
28 識別子付き書き起こし部
29 音響モデル識別学習部
30 学習後環境依存音響モデル生成部
101 音声認識装置
102 制御部
103 記憶部
121 音響モデル入力部
122 音声入力部
126 発話環境並列音声認識部(男女並列音声認識部)
126a 発話検出・性別変更制御部
Claims (5)
- 音声認識に用いる音響モデルを学習する音声学習装置であって、
複数の発話環境毎の環境依存音響モデルの各々を、各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部と、
当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部と、
当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部と、
当該学習音声と前記識別子付き書き起こしを用いて、識別子付き音響モデルを識別学習する音響モデル識別学習部とを備え、
前記音響モデル識別学習部は、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、音声学習装置。 - 前記発話環境並列音声認識部は、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて、当該複数の発話環境が混在する学習音声について並列に音声認識を実行し、認識結果に自動的に発話環境識別子を付して識別子付き認識結果を生成することを特徴とする、請求項1に記載の音声学習装置。
- 前記音響モデル識別学習部によって生成した発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する学習後環境依存音響モデル生成部を更に備えることを特徴とする、請求項1に記載の音声学習装置。
- 前記音響モデル識別学習部は、発話環境としての男女又は話者毎の発話環境識別子を用いて、複数の音響モデルを学習することを特徴とする、請求項1〜3のいずれか一項に記載の音声学習装置。
- 前記発話環境並列音声認識部は、音声認識における仮説ラティスに当該発話環境識別子を付与して識別子付きの仮説ラティスを生成し、
前記音響モデル識別学習部は、前記発話環境並列音声認識部から識別子付きの仮説ラティスを取得して、該識別子付きの仮説ラティス、前記学習音声、及び前記識別子付き書き起こしを用いて、当該複数の発話環境の発話が混在する学習音声から、発話環境毎に適応化された複数の識別子付き音響モデルを学習することを特徴とする、請求項1〜4のいずれか一項に記載の音声学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009046762A JP4972660B2 (ja) | 2009-02-27 | 2009-02-27 | 音声学習装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009046762A JP4972660B2 (ja) | 2009-02-27 | 2009-02-27 | 音声学習装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010204175A JP2010204175A (ja) | 2010-09-16 |
JP4972660B2 true JP4972660B2 (ja) | 2012-07-11 |
Family
ID=42965758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009046762A Expired - Fee Related JP4972660B2 (ja) | 2009-02-27 | 2009-02-27 | 音声学習装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4972660B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5637131B2 (ja) | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
US9336770B2 (en) | 2013-08-13 | 2016-05-10 | Mitsubishi Electric Corporation | Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP4295675B2 (ja) * | 2004-06-03 | 2009-07-15 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2006106300A (ja) * | 2004-10-05 | 2006-04-20 | Mitsubishi Electric Corp | 音声認識装置及びそのプログラム |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
-
2009
- 2009-02-27 JP JP2009046762A patent/JP4972660B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010204175A (ja) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643609B1 (en) | Selecting speech inputs | |
US8666745B2 (en) | Speech recognition system with huge vocabulary | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
JP2005208643A (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP2005227758A (ja) | 音声特性に基づく電話発信者の自動識別 | |
US9240181B2 (en) | Automatic collection of speaker name pronunciations | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
JP2010054574A (ja) | 話者交替推定装置、話者識別装置、及びコンピュータプログラム | |
Nouza et al. | Fast keyword spotting in telephone speech | |
Bansal et al. | A joint decoding algorithm for multiple-example-based addition of words to a pronunciation lexicon | |
JP2005091504A (ja) | 音声認識装置 | |
Kalantari et al. | Incorporating visual information for spoken term detection | |
Kessens et al. | Modeling pronunciation variation for ASR: Comparing criteria for rule selection | |
Gollan | Efficient setup of acoustic models for large vocabulary continuous speech recognition | |
JP2009210942A (ja) | 音声再生システム、音声再生方法およびプログラム | |
KR20050063986A (ko) | 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법 | |
Xu et al. | The ATVS-GEINTRA STD system for ALBAYZIN 2014 search-on-speech evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120313 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4972660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |