JP6277659B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP6277659B2 JP6277659B2 JP2013214411A JP2013214411A JP6277659B2 JP 6277659 B2 JP6277659 B2 JP 6277659B2 JP 2013214411 A JP2013214411 A JP 2013214411A JP 2013214411 A JP2013214411 A JP 2013214411A JP 6277659 B2 JP6277659 B2 JP 6277659B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language model
- gram
- unit
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000010586 diagram Methods 0.000 description 11
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 241000102542 Kara Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。
この発明に係る音声認識方法によれば、第1の音声認識手順による入力された音声の認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新する手順を実施することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
また、音響モデルは例えばJuliusディクテーション実行キットに含まれているhmmdefs_ptm_gid.binhmmを、言語モデルの更新処理におけるNグラム確率を求めるツール(以下言語モデル作成ツールと称す)は例えば教科書1に記載されたCMU-Cambridge統計的言語モデルツールキットを用いることができる。
なお、以下に示す実施の形態ではNグラムの次数が3(N=3)の場合について説明する。ただし、この発明はNグラムの次数を3に限定するものではなく、2グラムあるいは4以上の多次数のNグラムであっても良い。
図1はこの発明の実施の形態1に係る音声認識装置の構成を示す図である。実施の形態1の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105、第2音声認識部106、第2言語モデル(混合言語モデル)記憶部107、第2音響モデル記憶部108で構成される。
第1音声認識部102では入力されたデジタル音声信号について、第1音響モデル記憶部104に記憶された第1音響モデルと第1言語モデル記憶部103に記憶された第1言語モデルを参照して、音声認識を行う。第1音声認識部102は音声認識結果の単語系列(認識文)をNグラム追加部105に出力する。Nグラム追加部105は、入力された音声認識結果の単語系列からNグラムを抽出してそのNグラム確率を計算して、第2言語モデル記憶部107に記憶される第2言語モデルにNグラムを追加する。
まず音声入力部101がユーザの発した音声をアナログの電気信号に変換し(ST201)、そしてアナログの電気信号である入力音声をADコンバーターにより、デジタル情報に変換する(ST202)。
また、例えば\3-gramsの2行目の「-0.3010 <s> カラーコード:カラーコード:カラーコード:507 </s>」は、「<s> カラーコード:カラーコード:カラーコード:507 </s>」がNグラム(「文頭、カラーコード、文末」という3グラム)であり、「-0.3010」がNグラム確率である。なお、次数が3のNグラムの言語モデルにおいて、3グラムを用いてより高次のNグラムの確率を推定することはないのでバックオフ係数は存在しない。
P(wd3|wd1,wd2) = if(trigram exists) p_3(wd1,wd2,wd3)
else if(bigram wd1,wd2 exists) bo_wt_2(wd1,wd2) * P(wd3|wd2)
else P(wd3|wd2)
この擬似コードにおいて、wd1、wd2、wd3は単語を示している。P(wd3|wd1,wd2)は前述の通り、wd1、wd2の後にwd3が生成される確率(単語wd3の確率)である。P(wd3|wd2)も同様である。また、p_3(wd1,wd2,wd3)は単語列wd1,wd2,wd3の3グラムの確率である。bo_wt_2(wd1,wd2)は単語列wd1,wd2の2グラムのバックオフ係数である。
つまり、単語列wd1,wd2,wd3の3グラムが言語モデルに存在する場合はその3グラムの確率が単語wd3の確率となる。単語列wd1,wd2,wd3の3グラムが存在せず、単語列wd1,wd2の2グラムが存在する場合は、単語列wd1,wd2の2グラムのバックオフ係数とP(wd3|wd2)の積が単語wd3の確率となる。単語列wd1,wd2の2グラムも存在しない場合にはP(wd3|wd2)が単語wd3の確率となる。
P(wd2|wd1) = if(bigram exists) p_2(wd1,wd2)
else bo_wt_1(wd1)*p_1(wd2)
ここで、p_2(wd1,wd2)は単語列wd1,wd2の2グラムの確率であり、p_1(wd2)は単語列wd2の1グラムの確率である。また、bo_wt_1(wd1)は単語列wd1の1グラムのバックオフ係数である。
なお、上記の擬似コードでは積を求めるように定義されているが、対数確率で計算をする場合には積ではなく和を計算する。
尤度計算で用いられる単語の確率は最も次数の高いNグラムの値を採用する。例えば文頭の確率であるP(<s> |)の場合、前接の単語が無いので次数は1グラムであり、図7の\1-gramsの「<s>」の値-0.6368を採用する。また文頭に続くシューズケースの確率であるP(シューズケース | <s>)の場合は、2グラムであるので\2-gramsの「<s> シューズケース:シューズケース:シューズケース:507」の値-0.5441を対数確率として採用する。
具体的な推定値の計算は、bo_wt_2(<s>,シューズケース:シューズケース:シューズケース:507)+bo_wt_1(シューズケース:シューズケース:シューズケース:507)+p_1(カラーコード:カラーコード:カラーコード:507)=(0.1761)+(-0.4046)+(-1.2109)=-1.4394となる。以上により推定値-1.4394を対数確率として採用する。同様にしてすべての単語の対数確率を取得し、この各単語の対数確率を用いて上述の数式3により正解の単語系列である「<s>シューズケースカラーコードお願いします</s>」の言語モデルに基づく尤度を計算すると、図8の表に示すように(-0.6368)+(-0.5441)+(-1.4394)+(-1.6155)+(-0.1761)+(-0.301)+(-0.301)=-5.0139となる。
しかし、誤りを含む単語系列「<s>シューズケースから行動お願いします</s>」の音響尤度は-9133.199219であり、また言語尤度は図9に示す表の通り(-0.6368)+(-0.5441)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)=-3.2879であるので、総合尤度は-9133.199219+(-3.2879×8.0)+(-2.0×9)=-9177.5となる。従って誤りを含む単語系列の総合尤度よりも正解の単語系列の総合尤度の方が高いことから、この誤りを含む単語系列は棄却され、正解の単語系列を音声認識結果として得ることができる。
実施の形態1は、1つの音声認識結果を混合言語モデルに追加するようにしたものであったが、次に2つの音声認識器から得た2つの音声認識結果を混合言語モデルに追加する実施の形態を示す。
図15はこの発明の実施の形態2に係る音声認識装置の構成図である。実施の形態2の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105b、第2音声認識部106、第2言語モデル記憶部107b、第2音響モデル記憶部108、第3音声認識部112、第3言語モデル記憶部113、第3音響モデル記憶部114で構成される。実施の形態1と同じ符号を付した部分は実施の形態1と同様であるので説明を省略する。
実施の形態2では、第2言語モデルへのNグラムの追加時にそれぞれの音声認識部が出力する認識結果の単語列を同じ重みで混合して第2言語モデルを生成する構成であった。この実施の形態では、音声認識部毎に重み付け(混合重み)をし、混合重みを変化させた1個以上の第2言語モデルを生成して、すべての組み合わせのうち最尤の認識結果を出力するようにする。
なお、λの値はそれぞれの第2言語モデルに対応して予め定められているものとする。ここではλ=2/3、λ=1/2,λ=1/3の3種類とし、それぞれ図21に示す第2言語モデルA、第2言語モデルB、第2言語モデルCに対応するものとする。
λ=1/2の場合の学習例文は図17に示した学習例文と同様である。λ=2/3の場合は図22に示すように、第1音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。反対にλ=1/3の場合には図23に示すように、第3音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。このようにλ:1-λと同等の比になるように第1音声認識部の認識結果の単語系列と第3音声認識部の認識結果の単語系列を含む学習例文を生成してそれぞれに対応した第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
このように第2言語モデルを作成することにより、第2言語モデルに追加するNグラムの確率にそのNグラムの元となった例文を出力した音声認識部に対応した重み付けをすることができる。
なお、実施の形態1において第1音声認識部の認識結果の単語系列を第2言語モデルに追加するときに重み付けをすることも可能である。
Claims (10)
- 混合言語モデルを記憶する第2言語モデル記憶部と、
前記混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、
第1言語モデルを用いて、入力された音声信号を認識し、第1の音声認識結果を出力する第1音声認識部と、
前記第1音声認識部による前記第1の音声認識結果が入力され、この第1の音声認識結果の単語系列に基づいてNグラムを作成し、前記第2言語モデル記憶部に記憶された前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加部と、
を備えたことを特徴とする音声認識装置。 - 前記Nグラム追加部は、前記第1および第2の音声認識部と異なる第3の音声認識部による前記音声信号の第3の音声認識結果が入力され、前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいてNグラムを作成し、前記第2言語モデル記憶部に記憶された前記混合言語モデルに前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項1に記載の音声認識装置。
- 前記第1言語モデルを記憶する第1言語モデル記憶部を更に備えたことを特徴とする請求項1に記載の音声認識装置。
- 第3言語モデルを記憶する第3言語モデル記憶部と、
前記第3言語モデルを用いて前記音声信号を認識し前記第3の音声認識結果を出力する前記第3音声認識部と、
を更に備えることを特徴とする請求項2に記載の音声認識装置。 - 前記Nグラム追加部は、前記第2音声認識部の前記第2の音声認識結果の単語系列に基づいてNグラムを作成し、前記混合言語モデルに前記第2の音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項1から4のいずれか一項に記載の音声認識装置。
- 前記Nグラム追加部は、更に前記混合言語モデルに記憶されたていたNグラムの確率を更新することを特徴とする請求項1から請求項5のいずれか一項に記載の音声認識装置。
- 前記Nグラム追加部は、前記第1音声認識結果および前記第3音声認識結果にそれぞれ前記第1音声認識部および前記第3音声認識部と対応した重みで重み付けをして、前記混合言語モデルに追加するNグラムの確率を算出することを特徴とする請求項2に記載の音声認識装置。
- 前記第2言語モデル記憶部は複数の前記混合言語モデルを記憶し、
前記Nグラム追加部は、前記複数の混合言語モデルのそれぞれに対応する前記第1音声認識結果に対する前記重みと前記第3音声認識結果に対する前記重みとの予め定められた組み合わせに基づいて前記重み付けをして、前記複数の第2言語モデルのそれぞれに追加するNグラムの確率を算出し、
前記第2音声認識部は、前記複数の混合言語モデルのそれぞれを参照して音声認識を行い、得られた音声認識結果のいずれかをその音声認識結果の尤度に基づいて選択して前記第2の音声認識結果とする、
ことを特徴とする請求項7に記載の音声認識装置。 - 第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、
第2音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第2の音声認識手順と、
Nグラム追加部が前記第1音声認識手順による音声認識結果の単語系列に基づいてNグラムを作成し、前記混合言語モデルに前記第1の音声認識結果の単語系列に基づいて作成したNグラムを追加するNグラム追加手順と、
を備えたことを特徴とする音声認識方法。 - 第3音声認識部が第3言語モデルを参照して前記入力された音声の音声認識を行う第3の音声認識手順と、を備え、
前記Nグラム追加手順は、前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列と基づいてNグラムを作成し、前記混合言語モデルに前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列に基づいて作成されたNグラムを追加することを特徴とする請求項9に記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013214411A JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013214411A JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015079035A JP2015079035A (ja) | 2015-04-23 |
JP6277659B2 true JP6277659B2 (ja) | 2018-02-14 |
Family
ID=53010514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013214411A Active JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6277659B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109273000B (zh) * | 2018-10-11 | 2023-05-12 | 河南工学院 | 一种语音识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3628245B2 (ja) * | 2000-09-05 | 2005-03-09 | 日本電信電話株式会社 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
JP4089861B2 (ja) * | 2001-01-31 | 2008-05-28 | 三菱電機株式会社 | 音声認識文章入力装置 |
JP5459214B2 (ja) * | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP5235187B2 (ja) * | 2009-11-16 | 2013-07-10 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
-
2013
- 2013-10-15 JP JP2013214411A patent/JP6277659B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015079035A (ja) | 2015-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
CN107590135B (zh) | 自动翻译方法、设备和*** | |
US9697201B2 (en) | Adapting machine translation data using damaging channel model | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
CN109979432B (zh) | 一种方言翻译方法及装置 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
US9594744B2 (en) | Speech transcription including written text | |
WO2011096015A1 (ja) | 認識辞書作成装置及び音声認識装置 | |
US20030093263A1 (en) | Method and apparatus for adapting a class entity dictionary used with language models | |
Aleksic et al. | Improved recognition of contact names in voice commands | |
WO2017061027A1 (ja) | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
US10482876B2 (en) | Hierarchical speech recognition decoder | |
JP2010540976A (ja) | 自動音声認識の方法および装置 | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
CN112364658A (zh) | 翻译以及语音识别方法、装置、设备 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP2022110098A (ja) | 音声処理 | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
JP6277659B2 (ja) | 音声認識装置および音声認識方法 | |
Nguyen et al. | Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180101 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6277659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |