JP5175325B2 - 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 - Google Patents
音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 Download PDFInfo
- Publication number
- JP5175325B2 JP5175325B2 JP2010261077A JP2010261077A JP5175325B2 JP 5175325 B2 JP5175325 B2 JP 5175325B2 JP 2010261077 A JP2010261077 A JP 2010261077A JP 2010261077 A JP2010261077 A JP 2010261077A JP 5175325 B2 JP5175325 B2 JP 5175325B2
- Authority
- JP
- Japan
- Prior art keywords
- wfst
- phoneme
- model
- acoustic
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、複数の音響モデル間の構造の類似性に着目し、ある音素環境に対して音響モデルの共有構造が音響モデル間で同じ場合は、WFST化においても状態遷移を共有化することでWFSTの状態数を削減する。
表1に、実施例1で説明した音声認識用WFST作成装置100によって、男声の音響モデルと女声の音響モデルの2つから作成した音声認識用WFSTと、1個の性別非依存の音響モデルによる音声認識用WFSTを用いて音声認識処理をした場合の使用メモリ量を示す。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
Claims (9)
- 複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させたHMM状態IDを新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成部と、
上記併合音響モデルWFSTを記憶する音響モデルWFST記憶部と、
音素環境を音素に変換する音素WFSTを記憶する音素WFST記憶部と、
音素列を単語に変換する辞書WFSTを記憶する辞書WFST記憶部と、
単語列に言語スコアを付与する言語モデルWFSTを記憶する言語モデルWFST記憶部と、
上記併合音響モデルWFSTと上記音素WFSTと上記辞書WFSTと上記言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成部と、
を具備する音声認識用WFST作成装置。 - 複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素モデルの各HMM状態にHMM状態ID系列を付与し、そのHMM状態ID系列の表を音素モデル構造表として作成する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素モデルである複数のHMM状態ID系列は併合させたHMM状態ID系列を新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記HMM状態ID列を入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成部と、
上記併合音響モデルWFSTを記憶する音響モデルWFST記憶部と、
音素環境を音素に変換する音素WFSTを記憶する音素WFST記憶部と、
音素列を単語に変換する辞書WFSTを記憶する辞書WFST記憶部と、
単語列に言語スコアを付与する言語モデルWFSTを記憶する言語モデルWFST記憶部と、
上記併合音響モデルWFSTと、上記音素WFSTと、上記辞書WFSTと、上記言語モデルWFSTと、を合成して最適化することで音声認識用WFSTを作成する音声認識用WFST作成部と、
を具備する音声認識用WFST作成装置。 - 請求項1又は2に記載した音声認識用WFST作成装置で作成した音声認識用WFSTを記憶した音声認識用WFST記憶部と、
上記認識用WFST記憶部から最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索部と、を備えた音声認識装置であって、
上記探索部は、
入力音声信号をフレームごとに音声特徴量に変換する音響分析部と、
最初の第1フレームの処理前に音声認識用WFSTの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成部と、
上記第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用WFSTに存在する場合に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開部と、
上記音声認識用WFSTの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了部と、
を具備することを特徴とする音声認識装置。 - 請求項3に記載した音声認識装置において、
上記探索部は、
更に、入力音声信号に対して最も高い音響スコアを出力する音響モデルを判別する認識用音響モデル判別部を備え、
上記初期仮説生成部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ初期仮説を作成し、
上記仮説展開部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ音響スコアを計算することを特徴とする音声認識装置。 - 音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルに、それぞれの音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させたHMM状態IDを新たに付与して、上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルWFST作成部が、上記HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成過程と、
音声認識用WFST作成部が、音響モデルWFST記憶部に記憶された併合音響モデルWFSTと、音素WFST記憶部に記憶された音素WFSTと、辞書WFST記憶部に記憶された辞書WFSTと、言語モデルWFST記憶部に記憶された言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成過程と、
を備える音声認識用WFST作成方法。 - 音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルの要素である音素モデルの各HMM状態にHMM状態ID系列を付与し、そのHMM状態ID系列の表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素モデルである複数のHMM状態系列は併合させて新たに併合したHMM状態ID系列を付与し、単独の音素モデルはそのままとして、そのHMM状態ID系列と対応する音素モデルとから成る表になるように上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルWFST作成部が、上記HMM状態ID系列を入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成過程と、
音声認識用WFST作成部が、音響モデルWFST記憶部に記憶された併合音響モデルWFSTと、音素WFST記憶部に記憶された音素WFSTと、辞書WFST記憶部に記憶された辞書WFSTと、言語モデルWFST記憶部に記憶された言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID系列、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成過程と、
を備える音声認識用WFST作成方法。 - 請求項5又は6に記載した音声認識用WFST作成方法で作成した音声認識用WFSTを記憶する音声認識用WFST記憶過程と、
上記認識用WFST記憶過程で得られた最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索過程と、を備えた音声認識方法であって、
上記探索過程は、
音響分析部が、入力音声信号をフレームごとに音声特徴量に変換する音響分析過程と、
初期仮説生成部が、最初の第1フレームの処理前に認識用WFSTの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成過程と、
仮説展開部が、上記第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用WFSTに存在する場合に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開過程と、
探索終了部が、上記音声認識用WFSTの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了過程と、
を含むことを特徴とする音声認識方法。 - 請求項1乃至4の何れかに記載した装置としてコンピュータを機能させるためのプログラム。
- 請求項8に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010261077A JP5175325B2 (ja) | 2010-11-24 | 2010-11-24 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010261077A JP5175325B2 (ja) | 2010-11-24 | 2010-11-24 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113087A JP2012113087A (ja) | 2012-06-14 |
JP5175325B2 true JP5175325B2 (ja) | 2013-04-03 |
Family
ID=46497377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010261077A Active JP5175325B2 (ja) | 2010-11-24 | 2010-11-24 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5175325B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087555A (ja) * | 2013-10-31 | 2015-05-07 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラムとその記録媒体 |
CN106663423A (zh) * | 2014-10-06 | 2017-05-10 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的***和方法 |
CN112802456A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种语音评测打分方法、装置、电子设备及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5951562B2 (ja) * | 2013-08-12 | 2016-07-13 | 日本電信電話株式会社 | 有限状態トランスデューサの構造推定装置、方法、プログラム |
JP5877823B2 (ja) * | 2013-08-27 | 2016-03-08 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
JP6301664B2 (ja) | 2014-01-31 | 2018-03-28 | 株式会社東芝 | 変換装置、パターン認識システム、変換方法およびプログラム |
CN107644638B (zh) * | 2017-10-17 | 2019-01-04 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN109036391B (zh) * | 2018-06-26 | 2021-02-05 | 华为技术有限公司 | 语音识别方法、装置及*** |
CN111862960B (zh) * | 2020-08-07 | 2024-04-30 | 广州视琨电子科技有限公司 | 发音错误检测方法、装置、电子设备及存储介质 |
CN113096648A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 用于语音识别的实时解码方法和装置 |
CN114205429A (zh) * | 2021-12-14 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 基于udp协议的语音包处理方法、***、设备及存储介质 |
-
2010
- 2010-11-24 JP JP2010261077A patent/JP5175325B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087555A (ja) * | 2013-10-31 | 2015-05-07 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラムとその記録媒体 |
CN106663423A (zh) * | 2014-10-06 | 2017-05-10 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的***和方法 |
CN106663423B (zh) * | 2014-10-06 | 2021-02-26 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的***和方法 |
CN112802456A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种语音评测打分方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2012113087A (ja) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
US11664020B2 (en) | Speech recognition method and apparatus | |
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
CN110706714B (zh) | 说话者模型制作*** | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
CN112331206A (zh) | 语音识别方法及设备 | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
TWI420510B (zh) | 可調整記憶體使用空間之語音辨識系統與方法 | |
JP2005266349A (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2011164336A (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
CN112750445A (zh) | 语音转换方法、装置和***及存储介质 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
CN111816164A (zh) | 用于语音识别的方法及设备 | |
JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Cui et al. | A study of bootstrapping with multiple acoustic features for improved automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5175325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |