JP4836076B2 - 音声認識システム及びコンピュータプログラム - Google Patents
音声認識システム及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4836076B2 JP4836076B2 JP2006047385A JP2006047385A JP4836076B2 JP 4836076 B2 JP4836076 B2 JP 4836076B2 JP 2006047385 A JP2006047385 A JP 2006047385A JP 2006047385 A JP2006047385 A JP 2006047385A JP 4836076 B2 JP4836076 B2 JP 4836076B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- noise
- hmm
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本実施の形態では、上記した仮説の統合において、特許文献1で用いられた尤度に代えて、特許文献2で提案された一般化単語事後確率(Generalized Word Posterior Probability:GWPP)を用いる。GWPPとは、音声認識の結果得られた単語ごとに、その音声認識結果の信頼度を示す尺度と考えられる。以下、GWPPについて説明する。
HMMを用いる音声認識装置では、所与の音響観測データx1 T=x1,…,xTに対する、最適な単語シーケンスw1 M*=w1 *,…,wM *を、以下に示すように、可能な全ての単語シーケンスからなる空間を探索して、最大事後確率(MAP)を与えるものとして求める。
‐考慮すべき仮説数‐
大語彙の連続音声認識装置(LVCSR)においては、可能な単語列の探索空間は膨大である。しかし、各単語列の事後確率の値には大きな相違があり、比較的低い尤度の単語列については刈込みしても差し支えない。このようにして得た、単語列の仮説の部分集合のみを用いて単語ラティス/グラフ又はN‐ベスト単語列リストを得ることができる。以下の実施の形態では、そのように部分集合を用いて得た単語ラティス/グラフを使用するものとする。
単語の時間的位置決め(レジストレーション)を[w;s,t]で表わす。別々の仮説中にある同一の単語が出現する場合でも、その位置は仮説によって多少異なることがあり得る。自動音声認識(ASR)の最終的目標は発話中の単語からなる内容を認識することであるから、厳密な時間的制約を多少緩和することにする。ここでは、ある単語がある単語列中において出現する期間が、基準となる単語の期間[s,t]と重なっており(オーバーラップしている)、かつその単語が基準となる単語と一致しているような単語を検索し、それら単語をその基準となる単語の事後確率の計算に含める。その結果式(7)は以下のように書き換えられる。
雑音環境が頻繁に変動する状況では、音響モデルを高速に雑音環境に適応させることが可能でなければならない。以下に述べる本発明の一実施の形態では、高速な雑音環境適応として、非特許文献14において提案されている雑音GMMの混合音適応化によるHMM合成法を用いる。
有声母音等のピッチを含む音声から抽出されたパワースペクトラムは、基本周波数の高調波の影響によって櫛型の形状を持つ。このようなパワースペクトラムからDPS係数を計算した場合、隣り合うパワースペクトラム係数間の差が大きいため、DPS係数の値も同様に大きなパワーとして計算される。一方、雑音等の特徴を持たない波形のパワースペクトラムから計算されるDPS係数は、隣り合うパワースペクトラム係数間の差が小さいため、DPS係数の値も小さくなると考えられる。雑音重畳音声のパワースペクトラムを無雑音音声のパワーと雑音のパワーの和であると仮定した場合、DPS係数を計算することによって、音声と比較してなだらかに変化する雑音のパワー成分を減衰させることができると考えられる。
図5に、本実施の形態に係る音声認識システム130の概略ブロック図を示す。図5を参照して、このシステム130は、初期HMM150と、雑音データベース(DB)152と、雑音が重畳された学習データ153とから、パラレルに音声をデコードするためのMFCC・HMM群156及びDMFCC・HMM群158を作成するためのHMM作成部154と、HMM作成部154により作成されたMFCC・HMM群156及びDMFCC・HMM群158を用いて、入力音声144に対する音声認識を行ない、音声認識結果146を出力するための認識処理部142とを含む。
上記した実施の形態に係る音声認識システム130は、コンピュータハードウェアと、当該コンピュータハードウェアの上でCPUにより実行されるコンピュータプログラムとにより実現可能である。
上記した音声認識システム130は以下のように動作する。図26に、このシステムの動作の概略の流れについて示す。大きく分けて、このシステムは二つの動作局面を持つ。第一の局面は、雑音重畳音声用のHMMを準備するステップ500である。第二の局面は、このようにして準備された雑音重畳音声用のHMMと無雑音用のHMMとを用いて、入力される音声の認識を行なうステップ(502〜508)である。
上記した実施の形態に係るシステムの有効性を検証するために、以下の実験を行なった。実験は、AURORA−2Jタスクで行なった。このデータベースは学習及び試験のための、日本語の数字の連続発話コーパスを含んでいる。本件出願人により作成されたATRASRのバージョン3.3をデコーダとして用いた。音響モデルを推定するためには、AURORA−2J中のクリーン学習セットを使用した。このセットには、110名の発話者(男性55名、女性55名)の8,440発話が含まれている。このトレーニングセットに、レストラン、街頭、空港、駅という4種類の雑音を4種類のSNR(20,15,10及び5dB)で重畳した。数字発話と無音状態とを表1に示すような種々のHMMでモデリングした。その結果得られた音響モデルは、二つの特徴量(MFCC,DMFCC)×4種類のSNR×4種類の雑音=32通りである。各雑音種類ごとに、8ガウス分布の雑音GMMの学習を行なった。
142 認識処理部
146 音声認識結果
154 HMM作成部
156 雑音重畳音声用MFCC・HMM群
158 雑音重畳音声用DMFCC・HMM群
190 無雑音通常発声用MFCC・HMM
192 無雑音言直し発話用MFCC・HMM
210 男声通常発声用MFCC・HMM群
212 男声言直し発話用MFCC・HMM群
214 女声通常発声用MFCC・HMM群
216 女声言直し発話用MFCC・HMM群
230 無雑音通常発声用DMFCC・HMM
232 無雑音言直し発話用DMFCC・HMM
250 男声通常発声用DMFCC・HMM群
252 男声言直し発話用DMFCC・HMM群
254 女声通常発声用DMFCC・HMM群
256 女声言直し発話用DMFCC・HMM群
310 MFCC処理部
312 DMFCC処理部
314 仮説統合部
320 MFCC算出部
322 MFCC通常発声認識処理部
324 MFCC言直し発話認識処理部
326,336 最尤選択部
330 DMFCC算出部
332 DMFCC通常発声認識処理部
334 DMFCC言直し発話認識処理部
350 雑音適応化処理部
356 MFCC女声通常発声デコーダ部
358 MFCC男声通常発声デコーダ部
370 雑音適応化処理部
376 MFCC女声言直し発話デコーダ部
378 MFCC男声言直し発話デコーダ部
452 仮説更新部
454 対象単語検索部
456 GWPP算出部
458 ウェイト記憶部
460 言語モデル記憶部
462 単語ラティス作成部
464 単語ラティス記憶部
466 最高スコア経路探索部
480 単語ラティス
Claims (4)
- それぞれ異なる発話環境での発話音声のデコードに最適化された、それぞれ所定の音響特徴量をパラメータとする複数の音響モデル群を記憶するための記憶手段と、
入力される音声から前記所定の音響特徴量を算出するための特徴量算出手段と、
前記特徴量算出手段により算出される前記音響特徴量に基づいて、それぞれ前記複数の音響モデル群の混合重み適応化により、前記入力される音声の発話環境に適応化された複数の適応化音響モデルを作成するためのモデル適応化手段と、
前記複数の適応化音響モデルを用いて、前記入力される音声の前記所定の音響特徴量を音声認識を目的にデコードし音声認識結果の複数の仮説を出力するためのデコード手段と、
前記デコード手段が出力する前記複数の仮説を、前記複数の仮説内の各単語に対して算出される一般化単語事後確率に基づいて統合し出力するための仮説統合手段とを含み、
前記仮説統合手段は、
前記デコード手段が出力する前記複数の仮説の各々に対し、各単語の一般化単語事後確率の関数であるスコアを算出するためのスコア算出手段と、
前記複数の仮説から、各単語にスコアが付された単語ラティスを作成するためのラティス作成手段と、
前記単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出された前記スコアが所定の条件を充足する経路の上の単語列を前記音声認識結果として出力するための最適経路探索手段とを含み、
前記仮説の各々の各単語には、入力音声中における当該単語の持続時間を特定するための情報が付されており、
前記スコア算出手段は、
前記デコード手段が出力する前記複数の仮説の各々に対し、各単語の一般化単語事後確率を算出するための一般化単語事後確率算出手段と、
前記一般化単語事後確率算出手段により算出された一般化単語事後確率と、前記単語ラティス中の各単語の持続時間を特定するための情報との関数として前記スコアを各単語に対し算出するための関数計算手段とを含む、音声認識システム。 - 前記最適経路探索手段は、前記単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出された前記スコアの和が最大となる経路の上の単語列を前記音声認識結果として出力するための最大スコア経路探索手段を含む、請求項1に記載の音声認識システム。
- コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項3のいずれかに記載の音声認識システムとして動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006047385A JP4836076B2 (ja) | 2006-02-23 | 2006-02-23 | 音声認識システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006047385A JP4836076B2 (ja) | 2006-02-23 | 2006-02-23 | 音声認識システム及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007225931A JP2007225931A (ja) | 2007-09-06 |
JP4836076B2 true JP4836076B2 (ja) | 2011-12-14 |
Family
ID=38547813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006047385A Active JP4836076B2 (ja) | 2006-02-23 | 2006-02-23 | 音声認識システム及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4836076B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11100916B2 (en) | 2018-11-21 | 2021-08-24 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011010647A1 (ja) * | 2009-07-21 | 2011-01-27 | 独立行政法人産業技術総合研究所 | 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法 |
WO2012093451A1 (ja) * | 2011-01-07 | 2012-07-12 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US9530103B2 (en) | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
JP6995967B2 (ja) * | 2020-12-08 | 2022-01-17 | 株式会社東芝 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
CN113707137B (zh) * | 2021-08-30 | 2024-02-20 | 普强时代(珠海横琴)信息技术有限公司 | 解码实现方法及装置 |
CN114435185B (zh) * | 2021-12-28 | 2023-08-01 | 深圳云天励飞技术股份有限公司 | 新能源汽车电量控制方法及相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4239479B2 (ja) * | 2002-05-23 | 2009-03-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP4478925B2 (ja) * | 2003-12-01 | 2010-06-09 | 株式会社国際電気通信基礎技術研究所 | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ |
JP4274962B2 (ja) * | 2004-02-04 | 2009-06-10 | 株式会社国際電気通信基礎技術研究所 | 音声認識システム |
-
2006
- 2006-02-23 JP JP2006047385A patent/JP4836076B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11100916B2 (en) | 2018-11-21 | 2021-08-24 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
US11935516B2 (en) | 2018-11-21 | 2024-03-19 | Samsung Electronics Co., Ltd. | Speech recognition method and appratus using weighted scores |
Also Published As
Publication number | Publication date |
---|---|
JP2007225931A (ja) | 2007-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4274962B2 (ja) | 音声認識システム | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
Zen et al. | Hidden semi-Markov model based speech synthesis. | |
US6317712B1 (en) | Method of phonetic modeling using acoustic decision tree | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
Zeppenfeld et al. | Recognition of conversational telephone speech using the Janus speech engine | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
Gaurav et al. | Development of application specific continuous speech recognition system in Hindi | |
JP2001521193A (ja) | パラメータ共用音声認識方法及び装置 | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
Liu et al. | Modeling partial pronunciation variations for spontaneous Mandarin speech recognition | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
Fung et al. | Effects and modeling of phonetic and acoustic confusions in accented speech | |
Matsuda et al. | Speech recognition system robust to noise and speaking styles. | |
Yamagishi et al. | Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV | |
Elshafei et al. | Speaker-independent natural Arabic speech recognition system | |
Matsuda et al. | ATR parallel decoding based speech recognition system robust to noise and speaking styles | |
Huang et al. | Speech-Based Interface for Visually Impaired Users | |
Dessalegn | Syllable Based Speaker Independent Continous Speech Recognition for Afan Oromo | |
Yao et al. | Overlapped di-tone modeling for tone recognition in continuous Cantonese speech | |
Gabriel | Automatic speech recognition in somali | |
Khalifa et al. | Statistical modeling for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110920 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4836076 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |