JP2006243213A - 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム - Google Patents

言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2006243213A
JP2006243213A JP2005057039A JP2005057039A JP2006243213A JP 2006243213 A JP2006243213 A JP 2006243213A JP 2005057039 A JP2005057039 A JP 2005057039A JP 2005057039 A JP2005057039 A JP 2005057039A JP 2006243213 A JP2006243213 A JP 2006243213A
Authority
JP
Japan
Prior art keywords
model
phoneme
acoustic model
syllable
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005057039A
Other languages
English (en)
Inventor
Shigeki Matsuda
繁樹 松田
Satoru Nakamura
哲 中村
Soong Frank
フランク・スーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005057039A priority Critical patent/JP2006243213A/ja
Publication of JP2006243213A publication Critical patent/JP2006243213A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 英語の強調発話に対し頑健な言語モデル及び音響モデルを作成できるようにする。
【解決手段】 言語モデル変換装置は、単語辞書の見出しの各々について音節境界を推定する音節境界推定部92と、音節境界推定部により推定された音節境界の各々に対し、当該音節境界と隣接する音素の記述を、短時間ポーズの挿入を許容するように{|sil}という記述を追加した形式に書換える音素記述書換部94とを含む。音響モデルについては、同様に音素モデルの各々について末尾にポーズの存在を許容する形式に変換する。
【選択図】 図4

Description

この発明は自然言語処理に関し、特に、強調発声された発話に対する音声認識精度を高めるための技術に関する。
人間とコンピュータシステムに代表される機械系との間のインターフェイスとして、近年種々のものが提案されている。それらの中で最近特に使用される頻度が高くなっているものに、音声がある。音声を用いることによって、人間と機械系との間のコミュニケーションを、人間同士の間でのそれに近い形で実現できる。
こうしたコミュニケーションを構成する技術の一つに音声認識がある。利用者の音声を精度良く認識できることが人間と機械系との円滑なコミュニケーションを実現する上では必須である。しかし、実際上は現在の音声認識技術はまだ万全とは言えない。特に現在の音声認識の主流は、統計的な手法であるが、それゆえに発生する問題もある。その一つは、人間の強調発声である。
強調発声は、誤認識した音声認識システムに対し、利用者が言い直しをする場合等によく観測される。こうした場合、利用者は、音声認識システムによる音声認識を助けるために、誤認識された単語又はフレーズを強調して発声する傾向がある。こうした発話を「誤り訂正発話」と呼ぶ。しかし、誤り訂正発話は通常発話とは異なる音響的特徴を持つため、通常発話に基づく統計情報により音声認識を行なう音声認識システムでは、かえって音声認識の精度が悪化する可能性がある。
図21に、従来の典型的な音声認識システムの構成を示す。図21を参照して、この音声認識システム380は、対象言語において単語列が使用される確率を示す言語モデル72と、対象言語の発話音声を使用した学習により、入力される音声がある音素を示すものである確率を出力するための音響モデル78と、言語モデル72及び音響モデル78を用いて、入力音声80をデコード(音声認識)し、音声認識結果382を出力するためのデコーダ82とを含む。
言語モデル72は、例えば大量のコーパスを用いた統計的学習により構築される。個々の単語の出現確率の集合はユニグラム言語モデルと呼ばれ、ある単語の出現確率を表す。単語列が二つの単語からなる場合にはバイグラム言語モデル、3つの場合にはトライグラム言語モデルと呼ばれる。言語モデルを用いることにより、デコーダ82のデコードの際に得られた単語又は単語列の出現確率を知ることができる。
音響モデル78は、通常は音素ごとに準備されたHMM(隠れマルコフモデル)を含む。図22に隠れマルコフモデルにより表された音素モデル390を示す。ある音声の特徴量が与えられると、各音素に対応する音素モデル390により、その音声が当該音素である尤度が出力される。
デコーダ82は、入力音声80の特徴量に基づき、音響モデル78から認識結果の候補である音素列を尤度付きで得ると同時に、それら音素列に対応する単語列の出現確率を言語モデル72を参照して算出する。そして、最も尤度の高い単語列が音声認識結果382として出力される。
S.オヴィアッテ、「人−コンピュータエラー解決の間の強調音声適応のCHAMモデル」、ICSLP予稿集、pp.2311−2314、1998年11月−12月(S. Oviatte, "The CHAM model of hyperarticulate adaptation during human-computer error resolution," Proc. ICSLP, pp.2311-2314, Nov.-Dec. 1998.) H.ソルタウ及びA.ワイベル、「強調音声発話の認識性能に与える影響について」、ICSLP予稿集、pp.229−232、1998年11月−12月(H. Soltau and A. Waibel, "On the influence of hyperarticulated speech on the recognition performance," Proc. ICSLP, pp.229-232, Nov.-Dec. 1998.) K.オクダ、T.マツイ、S.ナカムラ、「強調日本語発話の音響モデル構築に向けて」、EUROSPEECH予稿集、pp.1653−1656、2001年(K. Okuda, T. Matsui, S. Nakamura, "Towards the Creation of Acoustic Models for Stressed Japanese Speech," Proc. Eurospeech, pp.1653-1656, 2001.) B.フィッシャー、「tsylb2−1.1−音節境界推定ソフトウェア」、http://www.nist.gov/speech/tools、1996年8月(B. Fisher, tsylb2-1.1 - syllabification software. http://www.nist.gov/speech/tools, August 1996.) T.ジツヒロ、T.マツイ、S.ナカムラ、「データ駆動及び決定木クラスタリングに基づく連続状態分割」、SSPR予稿集、pp.43−46、2003年(T. Jitsuhiro, T. Matsui, S. Nakamura, "A Successive State Splitting Algorithm Based on the MDL Criterion by Data-driven and Decision Tree Clustering," Proc. SSPR, pp.43-46, 2003.) T.タケザワ、E.スミタ、F.スガヤ、H.ヤマモト、S.ヤマモト、「実世界における旅行会話の音声翻訳のための大規模バイリンガルコーパスに向けて」、LREC予稿集、pp.147−152、2002年(T. Takezawa, E. Sumita, F. Sugaya, H. Yamamoto, S. Yamamoto, "Toward a broad-coverage bilingual corpus for speech translation of travel conversations in the real world," Proc. LREC, Vol. I, pp.147-152, 2002.) T.タケザワ、T.モリモト、Y.サギサカ、「ATRにおける発話翻訳のための音声及び言語データベース」、オリエンタルCOCOSDAワークショップ予稿集、pp.148−155、1998年(T. Takezawa, T. Morimoto, Y. Sagisaka, "Speech and language databases for speech translation research in ATR," Proc. Oriental COCOSDA Workshop, pp.148-155, 1998.)
非特許文献1及び非特許文献2においては、英語音声における誤り訂正発話は、通常発話と比較して以下の特徴を持つことが報告されている。
(1)母音の継続時間長の増加、
(2)発話速度の低下、
(3)ピッチの変化、及び
(4)音圧の増加。
一方、非特許文献3は、日本語の誤り訂正発話においては音節間に短時間ポーズが挿入されることを報告し、日本語音声強調発話に対し頑健な音響モデルを提案している。
このような音節間ポーズは英語音声においても同様に観測されると考えられる。例えば、「fifty dollars」と「fifteen dollars」との意味は互いに大きく異なるにもかかわらず、同じ状況で使用される可能性が高く、かつ発音も互いに類似している。このような単語を相手に対して正確に伝えるために、音節「fif」と音節「−ty」、または音節「fif」と音節「−teen」との間に短時間ポーズが挿入されると考えられる。
音声は、話者の性別又は心理状態等、様々な要因により変動する。図23(A)に「open today」という単語列を通常音声で発声した際のスペクトログラムを示し、図23(B)に同じ単語列を「老人と会話するように」と指示された発話者が発声した際のスペクトログラムを示す。老人は耳が遠いことが多く、老人と会話するときの発声は音声強調発話となることが多い。
図23から明らかなように、音声強調発話では上記した(1)の特徴である母音の継続時間長の増加に加え、音節「to」と音節「−day」との間の短時間ポーズの継続時間長の増加が見られる。
日本語の場合にはこうした短時間ポーズが挿入されるのは必ず母音の後であることが明確である。そのため日本語音声強調発話に対して頑健な音響モデルを構築するのは比較的容易である。しかし英語のようにどの音素の後にも音節の区切りが来る可能性のある言語では、このような短時間ポーズの挿入が予想される強調発話に対して頑健な音響モデルを作ることは困難である。
それ故に本発明の目的は、英語のようにどの音素の後にも音節の区切りが来る可能性のある言語における強調発話に対し、頑健な音声認識を実現できる言語モデル及び音響モデルの作成を可能にする言語モデル変換装置及び音響モデル変換装置を提供することである。
本発明の第1の局面に係る言語モデル変換装置は、音節の区切りが存在する所定の言語における言語モデルを、強調発声を許容する形式に変換する言語モデル変換装置であって、所定の言語の、音節境界を有する言語モデルを準備するための準備手段と、準備手段により準備された言語モデルの音節境界の各々に対し、当該音節境界と隣接する音素の記述を、短時間ポーズの挿入を許容する所定の形式に書換えるための音素記述書換手段とを含む。
好ましくは、準備手段は、言語モデルについて音節境界を推定するための音節境界推定手段を含む。
本発明の第2の局面に係る音響モデル変換装置は、音節の区切りが存在する所定の言語における音響モデルを、強調発声を許容する形式に変換する音響モデル変換装置であって、音響モデルは、複数の音素モデルを含み、音響モデル変換装置は、音節間のポーズを表す音響モデルを準備するための手段と、ポーズを表す音響モデルを参照して、複数の音素モデルの各々に対し、状態系列の末尾に、ポーズに対応する新たな状態と、当該新たな状態を迂回して終端に到達する経路とを追加するように、音素モデルの記述を書換えるための音素モデル書換手段とを含む。
好ましくは、複数の音素モデルの各々は、複数の状態からなる状態系列を有する隠れマルコフモデルからなる。
本発明の第3の局面に係る言語モデル変換装置は、音節の区切りが存在する所定の言語における言語モデルを、強調発声を許容する形式に変換する言語モデル書換装置であって、所定の言語の、音節境界を有する言語モデルを準備するための準備手段と、準備手段により準備された言語モデルについて、当該言語モデルを構成する音素の記述の各々に対して、当該音素の前後に、音節境界推定手段により推定された音節境界が存在するか否かを判定し、前に存在する場合、後ろに存在する場合、又は前後の双方に存在する場合にそれぞれ、別個の音素記述形式で音素の記述を書換えるための手段とを含む。
本発明の第4の局面に係る音響モデル変換装置は、音節の区切りが存在する所定の言語における音響モデルを、強調発声を許容する形式に変換する音響モデル変換装置であって、音響モデルは、複数の音素モデルを含み、音響モデル変換装置は、音節間のポーズを表す音響モデルを準備するための手段と、ポーズを表す音響モデルを参照して、複数の音素モデルの各々に対し、状態系列の先頭の状態をポーズの直後の状態に置換した状態系列を追加して新たな音素モデルを作成するための第1の音素モデル作成手段と、ポーズを表す音響モデルを参照して、複数の音素モデルの各々に対し、状態系列の末尾に、ポーズを表す新たな状態と当該新たな状態を迂回して終端に接続する新たな経路とを追加して得られる新たな状態系列を追加して、新たな音素モデルを作成するための第2の音素モデル作成手段と、ポーズを表す音響モデルを参照して、複数の音素モデルの各々に対し、状態系列の先頭の状態をポーズの直後の状態に置換する操作と、状態系列の末尾にポーズを表す新たな状態と当該新たな状態を迂回して終端に接続する新たな経路とを追加する操作との組合わせにより得られる新たな状態系列を追加して、新たな音素モデルを作成するための第3の音素モデル作成手段と、複数の音素モデルの各々に対して第1、第2及び第3の音素モデル作成手段により作成された音素モデルを併合することにより、新たな音響モデルを作成するための音響モデル併合手段とを含む。
本発明の第5の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの言語モデル変換装置として動作させるものである。
また、本発明の第6の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したしたいずれかの音響モデル変換装置として動作させるものである。
以下に述べる本発明の実施の形態では、いずれの音素の後にも音節の区切りが来る可能性のある言語の例として英語を採用する。そして、英語において音節間短時間ポーズを考慮した音声認識を精度良く実現する音声認識装置について述べる。いずれの場合も音声認識のデコーダ自体は従来のものを用いる。第1の実施の形態に係る音声認識装置では、言語モデルを書換えることにより音節間短時間ポーズの認識を可能にする。第2の実施の形態に係る音声認識装置では、音響モデルを書換えることにより音節間短時間ポーズの認識を可能にする。第3の実施の形態では、言語モデルと音響モデルとの双方を書換えることにより、音節間短時間ポーズの認識を可能にする。
なお、以下の実施の形態では言語モデル、音響モデルなどはいずれもコンピュータの記憶装置に記憶される。デコーダはコンピュータプログラムにより実現される。記憶装置としてはハードディスク等の不揮発性記憶媒体を用いるものが好ましい。実際の音声認識の際には、動作を高速化するために、これら各モデルをメモリにロードしてメモリ上で操作することが望ましい。
なお、以下の実施の形態では、同じ部品には同じ参照番号を付す。それらの名称及び機能も同一である。したがってそれらについての詳細な説明を繰返すことはしない。
<第1の実施の形態>
[構成]
第1の実施の形態に係る音声認識装置では、上記したように言語モデルを書換える。図1上段に、書換え前の言語モデル(図21に示す言語モデル72)の単語辞書(レキシコン)の見出し60(「aerobics」に対するもの)の記述形式を、図1下段には、書換え後の言語モデルの単語辞書の同じ見出し62を、それぞれ示す。
図1下段の見出し62が図1上段の見出し60と異なるのは、音節「AXR」と音節「OW」との間、及び音節「OW」と音節「B」との間に、それぞれポーズの存在を許す記述「{|sil}」64及び66が挿入されていることである。この記述において、中カッコ{ }は、このカッコ内に列挙されたいずれかがここに挿入されることを示す。記号「|」は、列挙される対象を区分する記号である。記号「sil」はポーズを示す。「|」の前には何もないが、これはこの部分に何も挿入されなくても良いことを示す。すなわち、記述「{|sil}」は、この前後の音節の間に何も存在しない場合と、ポーズが挿入される場合との、双方を許容することを示す。
図2にこうした記述形式により表される音素の状態パス(状態系列)について示す。図2を参照して、この状態パス40は、基本的には状態AXR,OW,B,IX,K及びSを含み、状態はこの順番で遷移する。しかし、状態AXRと状態OWとの間、及び状態OWと状態Bとの間にそれぞれ短時間ポーズを現す状態50及び52が挿入され、かつこれら状態50及び52を経由しないパス54及び56も存在する。
言語モデル72の単語辞書の見出しは、本実施の形態では図1上段の形式で記述されていることが想定されている。本実施の形態ではこの形式の記述を図1下段の形式に書換える。
図3に、第1の実施の形態に係る音声認識システム70のブロック図を示す。図3を参照して、音声認識システム70は、言語モデル72と、この言語モデル72の単語辞書の各見出しを図1の上段に示される形式から下段に示される形式に書換えて強調発声用言語モデル76を作成するための単語辞書書換部74と、従来のものと同様の音響モデル78と、強調発声用言語モデル76及び音響モデル78を用いて入力音声80をデコードして音声認識結果84を出力するための、図21に示すものと同じデコーダ82とを含む。
図4に、単語辞書書換部74をコンピュータプログラムで実現する際のプログラムの制御構造をフローチャート形式で示す。図4を参照して、このプログラムでは、ステップ90で言語モデル72のファイルを開き、ステップ91で出力ファイル(強調発声用言語モデル76のためのファイル)を開く。
続いて、以下に説明するステップ92〜ステップ96までの処理を、言語モデル72の単語辞書の全ての単語の見出しに対して実行する。
まずステップ92では、単語の音節境界の推定を行なう。この推定のためには、非特許文献4において紹介され頒布されている音節境界推定ソフトウェア(tsylb2)を用いることができる。
続いて、こうしてある単語について推定された全ての音節境界に対し、その音節境界の部分に前記した記述「{|sil}」を挿入する処理(ステップ94)を行なう。
こうして短時間ポーズの存在を許す形式に書換えた単語を、付随する言語モデル情報とともに出力ファイルに追加出力する。
ステップ92からステップ96までの処理を単語辞書の全ての単語について行なった後、ステップ98で言語モデルのファイル及び出力ファイルを閉じて処理を終了する。こうして得られた出力ファイルが図3に示す強調発声用言語モデル76である。
[動作]
この第1の実施の形態に係る音声認識システム70は以下のように動作する。予め言語モデル72及び音響モデル78が準備されているものとすると、音声認識システム70の動作には二つの局面がある。第1は単語辞書書換部74を用いて言語モデル72から強調発声用言語モデル76を作成する局面、第2は、得られた強調発声用言語モデル76及び音響モデル78を用いて入力音声80をデコードする局面である。
最初に単語辞書書換部74の動作について説明する。単語辞書書換部74は、言語モデル72と出力ファイルとを開くと、言語モデル72の単語辞書の各単語の見出しについて、音節境界を推定する。ある見出しについて推定された全ての音節境界に、記述「{|sil}」を挿入するように見出しを書換える。さらに単語辞書書換部74は、こうして書換えられた見出しを、付随する言語モデルの情報とともに出力ファイルに追加出力する。この処理を言語モデル72の単語辞書の全ての単語の見出しについて完了することにより、強調発声用言語モデル76が得られる。
デコーダ82の動作原理自体は図21に示す従来のものと変わらない。ただしこの第1の実施の形態では、強調発声用言語モデル76の見出しの記述が変わり、音響モデル78から得られる音素列と強調発声用言語モデル76の各見出しとを照合する場合に、音節境界に短時間ポーズを含むものも含まないものと同じ単語として尤度計算が行なわれる。したがって、強調発声に対しても、正しく音声認識が行なわれる可能性が高くなる。
<第2の実施の形態>
[構成]
上記した第1の実施の形態の音声認識システム70では、言語モデル72を書換えている。この書換えにより得られた強調発声用言語モデル76の単語辞書に含まれる見出しの数そのものは言語モデル72と同じであるが、見出しの単語中の音節境界に短時間ポーズの挿入が許されている。そのため、各見出しの音節境界ごとに、短時間ポーズの挿入がある場合とない場合との双方について尤度計算を行なわなければならない。その結果、第1の局面の処理は簡単であり、第2の局面におけるデコーダ82による音声認識時の計算は正確であるが、計算量が大きくなる危険性がある。
そこで、この第2の実施の形態に係る音声認識システムでは、言語モデル72ではなく音響モデル78を書換え、音響モデル78を構成する各音素モデルの末尾に短時間ポーズの存在が許されるようなものとする。その様子を図5に示す。
図5に示す音素モデル100が図22に示される通常の音素モデル390と異なるのは、音素モデル390の最後の状態の後に短時間ポーズに対応する状態102と、この状態102を迂回して終端に接続する経路とが挿入されることにより新たな状態系列となっていることである。音響モデル78を構成する全ての音素モデルをこうした音素モデル100の形態に書換えることにより、直後に音節境界を持つような音素で、音素境界に短時間ポーズが挿入されたものに対する尤度も正しく計算できる。なお、短時間ポーズに関しては、その前後の音素の種類によりその音響的特徴量が変わる。したがって音素モデル100の形式に音素モデルを書換える際には、短時間ポーズに関する音響モデルが必要である。
図6に、この第2の実施の形態に係る音声認識システム110のブロック図を示す。図6を参照して、音声認識システム110は、図21に示すものと同じ言語モデル72と、図21に示すものと同じ音響モデル78と、短時間ポーズ用の音響モデル(以下「sil音響モデル」と呼ぶ。)112と、音響モデル78を構成する各音素モデルを、sil音響モデル112を用いて図5に示す形式に書換えて音節強調発声専用音響モデル116を作成するための音節強調発声用音響モデル作成部114と、音響モデル78に含まれる音素モデルと音節強調発声専用音響モデル116に含まれる音素モデルとの和集合からなる音節強調発声用音響モデル120を作成するための音響モデル併合部118とを含む。
音声認識システム110はさらに、言語モデル72及び音節強調発声用音響モデル120を用い、入力音声80をデコードして音声認識結果122を出力するための、図21に示すものと同じデコーダ82を含む。
図7に、音節強調発声用音響モデル作成部114を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図7を参照して、まずステップ130で音響モデルのファイル、ステップ132でsil音響モデル112、及びステップ134で出力用の音響モデルファイルを、それぞれ開く。この後、ステップ136及び138の処理を、音響モデル78を構成する全ての音素モデルに対して繰返す。
ステップ136では、HMMからなる音素モデルの状態遷移の末尾に短時間ポーズに対応する状態(以下「sil状態」と呼ぶ。)を追加する。このとき、関連する確率値などはsil音響モデル112から取出す。そしてこうして得られた新たな音素モデルをステップ138で出力ファイルに追加出力する。
ステップ136及び138の処理を全ての音素モデルについて完了すると、ステップ140でファイルを閉じて処理を終了する。こうして得られた出力ファイルが図6に示す音節強調発声専用音響モデル116となる。
この後、音節強調発声専用音響モデル116を構成する音素モデルと元の音響モデル78を構成する音素モデルとの和集合を採ることにより、音節強調発声用音響モデル120が得られる。
[動作]
音響モデル78と言語モデル72とが予め準備されているものとすると、この第2の実施の形態に係る音声認識システム110の動作も、第1の実施の形態と同様、二つの局面を持つ。第1は音響モデル78及びsil音響モデル112から音節強調発声用音響モデル120を作成する局面、第2は言語モデル72と音節強調発声用音響モデル120とを用い、入力音声80に対するデコードを行なう局面である。
第1の局面では音声認識システム110は以下のように動作する。音響モデル78とsil音響モデル112とが準備されているものとする。音節強調発声用音響モデル作成部114は音響モデル78、sil音響モデル112及び音節強調発声専用音響モデル116となる出力ファイルとを開く。さらに音節強調発声用音響モデル作成部114は、音響モデル78を構成する各音素モデルについて、sil音響モデル112のデータを用いて、図5に示す音素モデル100の形式に書換え、音節強調発声専用音響モデル116に追加出力する。音響モデル併合部118は、こうして作成された音節強調発声専用音響モデル116を構成する音素モデルと、元の音響モデル78を構成する音素モデルとの和集合を採ることにより、音節強調発声用音響モデル120を作成する。以上で第1の局面は終了である。
第2の局面におけるデコーダ82の動作原理自体は図21に示す従来のものと変わらない。ただしこの場合には、音節強調発声用音響モデル120を用いている。音節強調発声用音響モデル120を構成する各音素モデルは、図5に示すような状態遷移を持っているため、音素の末尾に短時間ポーズが挿入された強調発声に対しても、従来と比較して精度良く認識することができる。
<第3の実施の形態>
[構成]
第1の実施の形態では言語モデルを、第2の実施の形態では音響モデルを、それぞれ書換えている。この第3の実施の形態に係る音声認識システムでは、言語モデルと音響モデルとの双方を書換えることにより、強調発声に対する認識精度を高めるようにしている。
図8を参照して、この実施の形態で使用される言語モデルの単語辞書の見出しの形式について説明する。図8上段には、単語「aerobics」に対する言語モデル78の単語辞書における見出し60を示す。図8中段には、音節境界推定語の見出し170を、推定された音節境界172,174,176及び178とともに示す。音節境界の推定には、前述したソフトウェアtsylb2を用いることができる。
本実施の形態では、見出し170に含まれる各音素を、その前後に音節境界が存在するか否かにしたがって3種の音素表現のいずれかに書換える。本実施の形態では、音素の前のみに音節境界が存在する場合には音素記述の末尾に「_H」を、音素の後ろのみに音節境界が存在する場合には音素記述の末尾に「_T」を、音素の前後に音節境界が存在する場合には音素記述の末尾に「_B」を、それぞれ付加する。その結果、図8に示す例では、図8の下段に示す見出し190が得られる。
図8の中段に示す見出し170において、先頭の音素「AXR」の前後には音節境界172及び174が存在する。したがってこの音素記述は「AXR_B」と書換えられる。音素「OW」も同様で、「OW_B」と書換えられる。その直後の音素「B」は音節境界176の直後に存在する。したがって音素「B」は「B_H」と書換えられる。一方、末尾の音素「S」についてはその後ろのみに音節境界178が存在する。したがってこの音素記述は「S_T」と書換えられる。
本実施の形態では、これら音素記述の書換えに対応して、音響モデルとしては、通常発声用音素モデルに、強調発声用音素モデルを追加した構造を持つものを採用する。図9に、強調発声用音素モデルの構造を示す。
図9を参照して、本実施の形態では、環境依存音素S−IY+EY(先行音素が/S/、後続音素が/EY/の音素/IY/)の各々に対して、3種類の強調発声用音素モデルS−IY+E_H(図9(A))、S−IY+EY_T(図9(B))、及びS−IY+EY_B(図9(C))が定義されている。「*_H」は個々の音節の最初の音素(「*」は任意の音素を表す。)、「*_T」は音節の最後の音素として用いられ、「*_B」は、単一の音素から構成された音節に対して用いられる。これらはそれぞれ、前述した「AXR_B」及び「OW_B」、「B_H」、並びに「S_T」に対応する。これら各音素は、いずれもマルチパスHMMとして図9に示すようにモデル化される。
図8に示す「aerobics」について考えると、通常音声と強調発声との双方を表す状態遷移は、図10のようになる。すなわち、音素「B」は音節の最初の音素なので、音素「B_H」206に書換えられる。その結果、図9(A)の音素モデル150に示すように先頭がポーズ直後である場合も許されるようになる。末尾の音素「S」は音節の最後の音素なので音素「S_T」208に書換えられる。その結果、図9(B)の音素モデル152に示すように末尾に短時間ポーズの挿入が許されるようになる。
一方、音素「AXR」は1音素で音節を構成するので、音素「AXR_B」202に書換えられる。この場合のように一つの音素で音節を構成するときは、音素モデルは図9(A)の音素モデルと図9(B)の音素モデルとの組合せにより得られるものとなる。したがって、その結果、図9(C)の音素モデル154に示すように、先頭がポーズ直後になる場合と、音素「AXR」の後に短時間ポーズが挿入される場合とが許されるようになる。音素「OW」も同様に音素「OW_B」204に書換えられ、図9(C)の音素モデル154により表される状態遷移が許容されるようになる。
本実施の形態では、音響モデルをこのように音節に対する位置関係に対応して3種類に分け、さらに言語モデルの単語辞書の見出しのうち、音節境界と隣接するものを音節境界との位置関係にしたがって3種類のいずれかに書換える。こうして音響モデルと言語モデルとをともに音節(の境界)と対応付けて書換えることにより、強調発声に対する認識精度を高めることを試みる。
図11に、この第3の実施の形態に係る音声認識システム220のブロック図を示す。図11を参照して、音声認識システム220は、いずれも第1及び第2の実施の形態で用いられたものと同じ言語モデル72及び音響モデル78と、第2の実施の形態で使用されたものと同じsil音響モデル112と、言語モデル72中の単語辞書の各見出しに含まれる各音素について、音節境界との関係が上記した3つの条件のいずれかを充足する音素を新しい音素表記(*_H、*_T、*_B)のいずれかに書換える処理を実行し、強調発声用言語モデル224を作成するための単語辞書書換部222と、音響モデル78に含まれる各音素モデルについて、図9(A)(B)(C)に示される3つの音素モデルをsil音響モデル112を用いて作成することにより、音節強調発声専用音響モデル228を作成するための音声強調発声用音響モデル作成部226と、音節強調発声専用音響モデル228に含まれる音素モデルと音響モデル78に含まれる音素モデルとの和集合を採ることにより、音響モデル78と音節強調発声専用音響モデル228とを併合し、新たな音節強調発声用音響モデル232を作成するための音響モデル併合部230とを含む。
音声認識システム220はさらに、強調発声用言語モデル224と音節強調発声用音響モデル232とを用い、入力音声80に対する音声認識を行って音声認識結果234を出力するための、図21に示す従来のものと同じデコーダ82を含む。
図12に、単語辞書書換部222が行なう単語辞書書換処理を実現するプログラムの制御構造をフローチャート形式で示す。図12を参照して、ステップ240で言語モデル72のファイルを開く。ステップ242で出力ファイル(強調発声用言語モデル224となる)を開く。
続いて、ステップ244からステップ254の処理を単語辞書の全ての見出しについて実行する。
繰返し処理の最初では、ステップ244で見出しの音素列について、音節境界を推定する。この推定には、前述したとおり、音節境界推定ソフトウェア(tsylb2)を用いることができる。続いて、推定された音節境界に基づき、見出し中の全ての音素について以下の処理を繰返す。
まず、ステップ246で処理対象の音素の前又は後ろ、若しくはその双方に音節境界が存在するか否かについて判定する。音素の前後に音節境界が存在している場合、その音素は1音素で1音節を構成している。したがってステップ248で当該音素記号を、その音素記号の末尾に「_B」を付した音素記号で置換する。音素の前のみに音素境界が存在している場合、その音素は音節の先頭に位置している。したがってステップ250でその音素記号を、その音素記号の末尾に「_H」を付した音素記号で置換する。音素の後ろのみに音節境界が存在している場合、その音素は音節の末尾に位置している。したがってステップ252でその音素記号を、その音素記号の末尾に「_T」を付したもので置換する。前後に音素境界が存在しない場合、元の音素記号は特に編集しない。
こうして、ある見出しの全ての音素記号に対してステップ246〜252の処理が完了すると、ステップ254でこのようにして編集された音素記号を持つ新たな単語辞書を出力ファイルに追加する。
言語モデル72の単語辞書の全ての見出しについてステップ244〜254の処理が終了したら、ステップ256で全てのファイルを閉じて処理を終了する。この結果、出力ファイルとして図11に示す強調発声用言語モデル224が得られる。
一方、図11に示す音声強調発声用音響モデル作成部226を実現するコンピュータプログラムの制御構造を図13にフローチャート形式で示す。図13を参照して、ステップ260で音響モデル78のファイルを開く。ステップ262でsil音響モデル112のファイルを開く。ステップ264で出力ファイル(音節強調発声専用音響モデル228のためのファイル)を開く。
続いて、ステップ266〜268の処理を、音響モデル78を構成する全ての音素モデルについて繰返す。すなわち、ステップ266で*_H、*_B、及び*_Tの3種類の強調発声用音素モデル(HMMモデル)を作成する。ステップ268では、作成された3つの音素モデルを出力ファイルに追加する。
全ての音素モデルについてステップ266〜268の処理が完了すると、ステップ270で全てのファイルを閉じて処理を終了する。この結果、図10に示す音節強調発声専用音響モデル228が得られる。後は、この音節強調発声専用音響モデル228を構成する全ての音素モデルと、元の音響モデル78に含まれる全ての音素モデルとの和集合を採ることにより、音節強調発声用音響モデル232が得られる。
[動作]
この第3の実施の形態に係る音声認識システム220の動作には、言語モデル72及び音響モデル78がいずれも予め準備されているものとして、3つの局面がある。第1の局面は強調発声用言語モデル224を作成する局面、第2は音節強調発声用音響モデル232を作成する局面、第3はこれら強調発声用言語モデル224及び音節強調発声用音響モデル232を用いて入力音声80をデコードする局面である。
まず、第1の局面について説明する。単語辞書書換部222は言語モデル72と強調発声用言語モデル224とのファイルを開く。単語辞書書換部222はさらに、言語モデル72中の単語辞書の全ての見出しについて、音節境界を推定する。推定された音声境界が、各音素の前にあるか、後ろにあるか、その双方にあるか、または前後のいずれにも存在しないかを調べ、その結果に応じて各音素の記述を「*_H」、「*_T」、又は「*_B」のいずれかに書換えるか、又は書換えせずそのままにして、出力ファイルに追加出力する。この処理を、単語辞書中の全ての見出しについて行なうことにより強調発声用言語モデル224が得られる。以上で第1の局面は終了である。
一方、第2の局面では、音声強調発声用音響モデル作成部226は以下のように動作する。音声強調発声用音響モデル作成部226は、音響モデル78のファイルとsil音響モデル112のファイルとを開くと、音響モデル78に含まれる各音素モデルについて、sil音響モデル112を利用して図9に示す3つの音素モデルを作成し、音節強調発声専用音響モデル228に出力する。音響モデル78に含まれる全ての音素モデルに対しこの処理が終了すると、音節強調発声専用音響モデル228が得られる。この音節強調発声専用音響モデル228は、音響モデル78に含まれる全ての音素モデルに対して図9の3種類の音素モデルを備えたものとなる。
音響モデル併合部230は、音節強調発声専用音響モデル228に含まれる音素モデルと、音響モデル78に含まれる音素モデルとの和集合を採ることで音節強調発声用音響モデル232を作成する。以上で第2の局面は終了である。
第3の局面では、デコーダ82が強調発声用言語モデル224と音節強調発声用音響モデル232とを用い、入力音声80をデコードする。その結果音声認識結果234が得られる。デコーダ82の動作原理自体は、従来のものと同様である。ただしこの場合、各音素について3種の音素モデルを作成した音節強調発声用音響モデル232と、これら3種の音素モデルに対応した音素記述により見出しを書換えた強調発声用言語モデル224とを用いることにより、音節間に短時間ポーズが存在する強調発声に対しても頑健な音声認識を行なうことができる。
<変形例>
上記した強調発声用の音響モデルの内、例えば第3の実施の形態において中間的に作成した音節強調発声専用音響モデル228(図11)は、通常発声用の音響モデル、例えば図11に示す音響モデル78と相補的な関係にあると思われる。そこで、これらを一つの音響モデルにまとめるのではなく、これらをそれぞれ別々に用いるデコーダを使用して別々に入力音声をデコードすることが考えられる。この場合さらに、得られた認識結果のうち、尤度の高いものを最終的な音声認識結果とする。図14に、そのような音声認識システム300の概略構成を示す。
図14を参照して、音声認識システム300は、マイクロフォン310と、通常音響モデル312と、通常言語モデル316と、通常音響モデル312及び通常言語モデル316とを用いてマイクロフォン310からの入力音声をデコードし音声認識結果を尤度とともに出力するためのデコーダ320と、強調発声専用音響モデル314と、通常言語モデル316の単語辞書の各見出しを第3の実施の形態のように強調発声用に書換えたものを含む強調発声用言語モデル318と、強調発声専用音響モデル314及び強調発声用言語モデル318を用い、マイクロフォン310からの入力音声をデコードして音声認識結果を尤度とともに出力するためのデコーダ322と、デコーダ320及びデコーダ322の音声認識結果の候補を得てそれらの尤度を比較し、最尤の音声認識結果を音声認識結果(テキスト)326として出力するための選択部324とを含む。強調発声専用音響モデル314は、図11に示す音節強調発声専用音響モデル228と同様、強調発声専用の音響モデルである。
この音声認識システム300によれば、一般的に、入力音声が通常音声であればデコーダ320からの音声認識結果の尤度が高くなるためデコーダ320の出力が採用され、強調発声であればデコーダ322からの音声認識結果の尤度が高くなるためデコーダ322の出力が採用される。したがって、通常音声のみならず、第1〜第3の実施の形態と同様に強調発声に対しても良好な結果が得られる。
<コンピュータによる実現>
上記した実施の形態の音声認識システム、デコーダ82(図3、図6、図11)、単語辞書書換部74(図3)、音節強調発声用音響モデル作成部114(図6)、音響モデル併合部118(図6)、音声強調発声用音響モデル作成部226(図11)、音響モデル併合部230(図11)、デコーダ320及び322(図14)及び選択部324(図14)はいずれも、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図15はこのコンピュータシステム330の外観を示し、図16はコンピュータシステム330の内部構成を示す。
図15を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、ポインティングデバイスであるマウス348と、モニタ342と、マイクロフォン370と、スピーカ372とを含む。マイク370及びスピーカ372は、音声の入出力を行なう際に使用されるもので、本発明の一部を構成するものではない。
図16を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360と、マイクロフォン370及びスピーカ372が接続されるサウンドボード368とを含む。コンピュータシステム330はさらに、図示しないプリンタを含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に音声認識システムとしての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の音声認識システムとしての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、若しくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声認識システムとしての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作原理自体は周知であるので、ここでは繰返さない。
<実験結果>
[条件]
上記した第3の実施の形態に係る音声認識システム220(図11参照)の認識性能を評価するため、以下のような大語彙連続音声認識実験を行なった。通常の音響モデルとしては、WSJ(Wall Street Journal)SI−284データベースを用いて学習した音響モデルを用いた。このデータベースは全部で284人の話者による37,516発話を含んだものである。
MDL−SSS(非特許文献5)手法を用いて状態共有構造を生成した。各々5つのガウス分布の混合分布からなる、全部で2009の共有状態の学習を行なった。ポーズ(無音)状態は10個のガウス分布からなる混合分布であった。
音声から抽出され音声認識に供されるMFCC(メル周波数ケプストラム係数)特徴量は、10ms間隔で移動する20msの幅を持つウィンドウから抽出された12個のMFCCと、ΔMFCCと、Δ対数パワーとを含む。
言語モデルはいずれも出願人において作成したBTEC(Basic Travel Expression Corpus)1,2,3,4(非特許文献6)と、SLDB(Spoken Language DataBase)(非特許文献7)と、LDB(Language DataBase)(非特許文献7)とを用いた。これらは合計で340万語を含んでいる。レキシコンサイズは18kである。音声境界は、前述した通り、音節境界推定ソフトウェア(tsylb2)を用いた。
[評価]
最初に、通常発声に対し、実施の形態3で使用した音節強調発声用音響モデル232を用いた場合の音声認識性能を評価した。BTECテキストから評価のためにランダムに全部で200文を選択した。通常の音響モデルと比較すると、音節強調発声用音響モデル232の場合、音素モデルにはパラレルなパスが多数存在する。このパスの数に起因して音節位置の誤認が生ずる可能性がある。
図17は、音節強調発声用音響モデル232を使用して通常発声をデコードした際の単語正解率を示す。この性能は、通常音声用の音響モデルを用いて通常発声をデコードした際の単語正解率に非常に近い。しかし、音節強調発声用音響モデル232が多数のパスを含むため、リアルタイム係数RTは通常発声用の音響モデルを用いた場合と比較すると大きくなっている。
上記した新たな音節強調発声用音響モデル232の音節間短時間ポーズの有効性を評価するため、キーワードを強調した発話データを用いた音声認識実験を行なった。通常発声で発話したテキストと同じテキストを4人のネイティブ英語話者により発話させた。話者のうち2人は女性、他の2人は男性である。各話者は40文を発話した。合計160発話である。どの文でも、あるキーワードを指定し、強調した発話をするように指示した。無音室でこの音声波形データを同じ録音機器を用いて録音した。
図18は、テキスト「Are there any chea-per hotels.」("chea-per"が強調キーワード)に関する発話のスペクトログラムである。図18を参照して明らかなように、"chea"と"per"との間に150ms程度の短時間ポーズが挿入されている。音節強調発声用音響モデル232を用いた音声認識システムはこの文を正しく認識したが、通常発声用の音響モデルを用いた音声認識システムではこの文は"Are there any tea or hotels"と誤認識された。
図19は通常発声用音響モデルと、音節強調発声用音響モデル232とを用いた場合の単語正解率を示す。実施の形態3に係る音節強調発声用音響モデル232を用いると、通常発声用の音響モデルを用いた場合の結果からなるベースラインと比較して、単語誤り率が25%減少している。
さらに、強調発声データを用いて、図14に示す強調発声専用音響モデル314を用いた音声認識の性能を評価した。前述したものと同じ200文について、5人の話者による発話を録音した。話者のうち3人は男性、2人は女性である。各話者は20文を読み、合計100文の発話データを録音した。話者に対しては、老人又は聴覚に障害を持つ人に対して話すような感じで文を読むように指示を与えておいた。
図20はこのときの単語正解率を示す。図20において、最も左側には通常の音響モデルを用いた際の単語正解率を示し、中央には音節強調発声専用音響モデル314を用いた際の単語正解率を示す。図20から明らかなように、音節強調発声専用音響モデル314を用いることにより、認識誤り率は通常の音響モデルを用いた場合と比較して5%低下した。
さらに、図20の最も右側には、図14に示す音声認識システム300において、選択部324により選択された結果についての単語正解率を示す。この図から明らかなように、図14の音声認識システム300による音声認識結果326における単語誤り率は、通常の音響モデルのみを用いた場合と比較して10%低下している。
以上のように本発明の実施の形態によれば、英語において、音節間の短時間ポーズを許容するような強調発声用音響モデル、又は言語モデル、又はそれらの組合せを用いることにより、通常発声に対する認識精度の低下を避けながら、強調発声に対する認識精度を高めることができる。このように強調発声に対する認識精度を高めることができるため、例えば一旦認識誤りが生じて利用者が強調発声をしたりする場合にも、それを正しく認識できる可能性が高くなる。その結果、音声認識を用いた人間と機械系との対話を従来よりも円滑に行なうことができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る音声認識システムで用いられる言語モデルにより表される状態遷移を示す図である。 第1の実施の形態における言語モデルの単語辞書に関する見出しの書換を説明するための図である。 第1の実施の形態に係る音声認識システム70のブロック図である。 第1の実施の形態における単語辞書書換部74の処理を実現するコンピュータプログラムの制御構造を示すフローチャートである。 本発明の第2の実施の形態に係る音声認識システムで用いられる音素モデルの模式図である。 第2の実施の形態に係る音声認識システム110のブロック図である。 音声認識システム110の音節強調発声用音響モデル作成部114における処理を実現するコンピュータプログラムの制御構造を示すフローチャートである。 本発明の第3の実施の形態に係る音声認識システムで用いられる言語モデルの単語辞書に関する見出しの書換を説明するための図である。 第3の実施の形態に係る音声認識システムで用いられる強調発声用の3種の音素モデルを模式的に示す図である。 第3の実施の形態に係る音声認識システムにおける言語モデルと音素モデルとの関係を示す状態遷移図である。 本発明の第3の実施の形態に係る音声認識システム220のブロック図である。 音声認識システム220の単語辞書書換部222における処理を実現するコンピュータプログラムの制御構造を示すフローチャートである。 音声認識システム220の音声強調発声用音響モデル作成部226における処理を実現するコンピュータプログラムの制御構造を示すフローチャートである。 本発明の実施の形態の変形例に係る音声認識システム300のブロック図である。 本発明の各実施の形態に係る音声認識システムを実現するコンピュータシステムの外観図である。 図15に示すコンピュータのブロック図である。 本発明に係る音響モデルを用いた音声認識システムの単語正解精度の向上を示すグラフである。 あるキーワードに関する強調発声を行なった際のスペクトログラムである。 本発明に係る音響モデルを用いた音声認識システムの単語正解精度の向上を示すグラフである。 本発明に係る音響モデルを用いた音声認識システムの単語正解精度の向上を示すグラフである。 従来の音声認識システム380のブロック図である。 従来の音声認識システム380で用いられる音響モデル(音素モデル)の状態遷移を示す図である。 英語における通常発話と強調発話とのスペクトログラムである。
符号の説明
70,110,220,380 音声認識システム
72 言語モデル
74,222 単語辞書書換部
76,224 強調発声用言語モデル
78 音響モデル
80 入力音声
82,320,322 デコーダ
84,122,234,326,382 音声認識結果
112 sil音響モデル
114,226 音節強調発声用音響モデル作成部
116,228 音節強調発声専用音響モデル
118,230 音響モデル併合部
120,232 音節強調発声用音響モデル
150,152,154 音素モデル
312 通常音響モデル
314 強調発声専用音響モデル
316 通常言語モデル
318 強調発声用言語モデル
324 選択部

Claims (8)

  1. 音節の区切りが存在する所定の言語における言語モデルを、強調発声を許容する形式に変換する言語モデル変換装置であって、
    前記所定の言語の、音節境界を有する言語モデルを準備するための準備手段と、
    前記準備手段により準備された前記言語モデルの音節境界の各々に対し、当該音節境界と隣接する音素の記述を、短時間ポーズの挿入を許容する所定の形式に書換えるための音素記述書換手段とを含む、言語モデル変換装置。
  2. 前記準備手段は、前記言語モデルについて音節境界を推定するための音節境界推定手段を含む、請求項1に記載の言語モデル変換装置。
  3. 音節の区切りが存在する所定の言語における音響モデルを、強調発声を許容する形式に変換する音響モデル変換装置であって、前記音響モデルは、複数の音素モデルを含み、
    前記音響モデル変換装置は、
    音節間のポーズを表す音響モデルを準備するための手段と、
    前記ポーズを表す音響モデルを参照して、前記複数の音素モデルの各々に対し、前記状態系列の末尾に、ポーズに対応する新たな状態と、当該新たな状態を迂回して終端に到達する経路とを追加するように、音素モデルの記述を書換えるための音素モデル書換手段とを含む、音響モデル変換装置。
  4. 前記複数の音素モデルの各々は、複数の状態からなる状態系列を有する隠れマルコフモデルからなる、請求項3に記載の音響モデル変換装置。
  5. 音節の区切りが存在する所定の言語における言語モデルを、強調発声を許容する形式に変換する言語モデル変換装置であって、
    前記所定の言語の、音節境界を有する言語モデルを準備するための準備手段と、
    前記準備手段により準備された前記言語モデルについて、当該言語モデルを構成する音素の記述の各々に対して、当該音素の前後に、前記音節境界推定手段により推定された音節境界が存在するか否かを判定し、前に存在する場合、後ろに存在する場合、又は前後の双方に存在する場合にそれぞれ、別個の音素記述形式で前記音素の記述を書換えるための手段とを含む、言語モデル変換装置。
  6. 音節の区切りが存在する所定の言語における音響モデルを、強調発声を許容する形式に変換する音響モデル変換装置であって、前記音響モデルは、複数の音素モデルを含み、
    前記音響モデル変換装置は、
    音節間のポーズを表す音響モデルを準備するための手段と、
    前記ポーズを表す音響モデルを参照して、前記複数の音素モデルの各々に対し、前記状態系列の先頭の状態をポーズの直後の状態に置換した状態系列を追加して新たな音素モデルを作成するための第1の音素モデル作成手段と、
    前記ポーズを表す音響モデルを参照して、前記複数の音素モデルの各々に対し、前記状態系列の末尾に、ポーズを表す新たな状態と当該新たな状態を迂回して終端に接続する新たな経路とを追加して得られる新たな状態系列を追加して、新たな音素モデルを作成するための第2の音素モデル作成手段と、
    前記ポーズを表す音響モデルを参照して、前記複数の音素モデルの各々に対し、前記状態系列の先頭の状態をポーズの直後の状態に置換する操作と、前記状態系列の末尾にポーズを表す新たな状態と当該新たな状態を迂回して終端に接続する新たな経路とを追加する操作との組合せにより得られる新たな状態系列を追加して、新たな音素モデルを作成するための第3の音素モデル作成手段と、
    前記複数の音素モデルの各々に対して前記第1、第2及び第3の音素モデル作成手段により作成された音素モデルを併合することにより、新たな音響モデルを作成するための音響モデル併合手段とを含む、音響モデル変換装置。
  7. コンピュータにより実行されると、当該コンピュータを、請求項1、請求項2又は請求項5のいずれかに記載の言語モデル変換装置として動作させる、コンピュータプログラム。
  8. コンピュータにより実行されると、当該コンピュータを、請求項3、請求項4又は請求項6のいずれかに記載の音響モデル変換装置として動作させる、コンピュータプログラム。
JP2005057039A 2005-03-02 2005-03-02 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム Withdrawn JP2006243213A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005057039A JP2006243213A (ja) 2005-03-02 2005-03-02 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005057039A JP2006243213A (ja) 2005-03-02 2005-03-02 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006243213A true JP2006243213A (ja) 2006-09-14

Family

ID=37049705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005057039A Withdrawn JP2006243213A (ja) 2005-03-02 2005-03-02 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006243213A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006308998A (ja) * 2005-04-28 2006-11-09 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2011027971A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声認識装置、音声認識方法及びそのプログラム
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006308998A (ja) * 2005-04-28 2006-11-09 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP4736524B2 (ja) * 2005-04-28 2011-07-27 ブラザー工業株式会社 音声合成装置及び音声合成プログラム
JP2011027971A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声認識装置、音声認識方法及びそのプログラム
CN103680500A (zh) * 2012-08-29 2014-03-26 北京百度网讯科技有限公司 一种语音识别的方法和装置
CN103680500B (zh) * 2012-08-29 2018-10-16 北京百度网讯科技有限公司 一种语音识别的方法和装置
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer

Similar Documents

Publication Publication Date Title
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
EP2192575B1 (en) Speech recognition based on a multilingual acoustic model
US5333275A (en) System and method for time aligning speech
JP4274962B2 (ja) 音声認識システム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
Agrawal et al. Analysis and modeling of acoustic information for automatic dialect classification
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
Renals et al. Speech recognition
JP2017102247A (ja) 音声対話システム、音声対話制御法およびプログラム
Metze Articulatory features for conversational speech recognition
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
Milone et al. Prosodic and accentual information for automatic speech recognition
Digalakis et al. Large vocabulary continuous speech recognition in greek: corpus and an automatic dictation system.
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
Tolba et al. Speech recognition by intelligent machines
Huang et al. Speech-Based Interface for Visually Impaired Users

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080218

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221