JP4808764B2

JP4808764B2 - 音声認識システムおよび方法

Info

Publication number: JP4808764B2
Application number: JP2008318403A
Authority: JP
Inventors: 岳人倉田; 伸泰伊東; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-12-15
Filing date: 2008-12-15
Publication date: 2011-11-02
Anticipated expiration: 2028-12-15
Also published as: JP2010139963A; KR20100069555A

Description

本発明は、発音の変動に対応して音声を認識するシステムおよび方法に関する。

今日、コンピュータを用いた音声認識は、各種の解析等に広く利用されている。ここで、処理対象の音声が会話等の自由発話である場合、発音の変動が大きい。そのため、この種の音声認識においては、発音変動に対応するか否かは、認識性能に大きく影響する。そこで、従来から、発音変動を考慮して音声認識を行う技術が提案されている（例えば、非特許文献１、２参照）。

非特許文献１に記載された従来技術は、単語の標準的な読みに基づく音素列から、変動の発生する音素列パターンと変動確率を考慮した音素列を得、発音辞書に反映させる技術である。また、非特許文献２に記載された従来技術は、実際の発音に即して発音が異なるものは別単語として扱って言語モデルの学習を行い、発音変動を考慮した精密なモデリングを行う技術である。

秋田祐哉、河原達也、"話し言葉音声認識のための汎用的な統計的発音変動モデル"、電子情報通信学会論文誌、Vol. J88-D-2、No.9、pp.1780-1789 堤怜介、加藤正治、小坂哲夫、好田正紀、"発音変形依存モデルを用いた講演音声認識"、電子情報通信学会論文誌、Vol. J89-D-2、No.2、pp.305-313

上記のように、発音変動を考慮して音声認識を行うことは従来から提案されているが、様々な発音変動を単純に適用して発音辞書や言語モデルを構築した場合、変動した発音が他の単語の発音にマッチしてしまい、誤認識が発生する可能性が大きくなるという問題があった。上記の非特許文献２では、発音変動が生じ易い文脈を考慮することが示されているが、この方法を実装するためには、大量の音素レベルでの書き起こしコーパスが必要となるため、実用的とは言い難かった。

本発明は、このような課題に鑑みて成されたものであり、発音変動を考慮し、かつ実用的な音声認識処理を行うための認識グラフを作成するシステム等を提供することを目的とする。

上記の目的を達成するため、本発明は、次のようなシステムとして実現される。このシステムは、音声認識処理に用いられる認識グラフを作成するシステムであって、言語モデルを推定する推定部と、単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、推定部により推定された言語モデルと当該言語モデルに含まれる単語に関する辞書部に保持された対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備える。そして、認識グラフ作成部は、一定以上の単語数から構成される単語列に含まれる単語に対して当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する。

より詳細には、認識グラフ作成部は、一定以上の次数ｎによるｎ−ｇｒａｍで予測される単語に対して、この単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、言語モデルを推定するために参照されるコーパス内での出現頻度が一定以上の単語列に含まれる単語であって、かつ一定以上の次数ｎによるｎ−ｇｒａｍで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、対象単語の直前に無音区間が許容されない場合において、一定以上の次数ｎによるｎ−ｇｒａｍで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、予め定められた条件に基づき、一定以上の次数ｎによるｎ−ｇｒａｍで予測される単語に対して、この単語の表記通りの音素列および発音変動を表現した音素列の双方を適用し、その他の単語に対して、発音変動を表現した音素列を適用せずに、認識グラフを作成する。

また、本発明は、音声認識処理に用いられる認識グラフを作成する方法としても実現される。この方法は、学習用コーパスに基づき言語モデルを推定するステップと、推定された言語モデルに含まれる単語に対して、この単語と単語の表記通りの音素列を適用し、かつ推定された言語モデルに含まれる単語のうち一定以上の単語数から構成される単語列に含まれる単語に対して、この単語に関する発音変動を表現した音素列を適用して、認識グラフを作成するステップと、作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納するステップと、を含む。

さらに本発明は、コンピュータを制御して上記の音声認識システムの各機能を実現させるプログラム、あるいはコンピュータに上記の方法における各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、光ディスクや磁気ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。

以上のように構成された本発明によれば、発音変動を考慮し、かつ実用的な音声認識処理を行うための認識グラフを作成するシステム等を提供することができる。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
自由発話において、発音変動は、よく使われる表現や言い慣れた表現で特に生じ易いと考えられる。このような表現は、音声認識のための言語モデルの構築に用いられる学習用コーパスにも多く出現すると考えられる。単語ｎ−ｇｒａｍモデルでは、高次のモデルで予測される表現、ということができる。そこで、本実施形態では、一定以上の高次のｎ−ｇｒａｍで予測される表現に対して、限定的に、発音変動を表現した音声認識を行う。

＜システム構成＞
図１は、本実施形態による音声認識システムの構成例を示す図である。
図１に示す本実施形態の音声認識システムは、音声認識に用いられる認識グラフを作成するための前処理装置１００と、音声認識を行う音声認識装置２００と、学習用のデータ（テキスト・データ）を格納した学習用コーパス３００とを備える。

図１に示す本実施形態の前処理装置１００は、学習用のデータに基づいて言語モデルを推定する言語モデル推定部１１０と、言語モデル推定部１１０により推定された言語モデルを格納する言語モデル格納部１２０と、認識単語辞書部（発音辞書）１３０とを備える。また、この前処理装置１００は、音声認識処理に用いられる認識グラフを作成する認識グラフ作成部１４０と、作成された認識グラフを格納する認識グラフ格納部１５０とを備える。

音声認識装置２００は、処理対象の音声データに対する音声認識処理を実行する。詳しくは後述するが、前処理装置１００により作成される認識グラフのデータ構造は既存のものであるので、音声認識の処理の内容は既存の音声認識技術における処理と同様である。すなわち、音声認識装置２００の音声認識エンジンとしては、既存のエンジンを適用することができる。
学習用コーパス３００には、音声認識に用いられる言語モデルを構築するために用いられる学習用のデータが蓄積されている。この学習用のデータは、音声認識適用対象分野のテキストデータである。

図２は、図１の音声認識システムにおける前処理装置１００および音声認識装置２００を実現するコンピュータのハードウェア構成例を示す図である。
図２に示すコンピュータ１０は、演算手段であるＣＰＵ（Central Processing Unit）１０ａと、記憶手段であるメイン・メモリ１０ｃおよび磁気ディスク装置（ＨＤＤ：Hard Disk Drive）１０ｇを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード１０ｆと、表示出力を行うためのビデオ・カード１０ｄおよび表示装置１０ｊと、音声出力を行うための音声機構１０ｈとを備える。さらに、キーボードやマウス等の入力デバイス１０ｉを備える。

図２に示すように、メイン・メモリ１０ｃおよびビデオ・カード１０ｄは、システム・コントローラ１０ｂを介してＣＰＵ１０ａに接続されている。また、ネットワーク・インタフェース・カード１０ｆ、磁気ディスク装置１０ｇ、音声機構１０ｈおよび入力デバイス１０ｉは、Ｉ／Ｏコントローラ１０ｅを介してシステム・コントローラ１０ｂと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。例えば、ＣＰＵ１０ａとメイン・メモリ１０ｃの間は、システム・バスやメモリ・バスにより接続される。また、ＣＰＵ１０ａと磁気ディスク装置１０ｇ、ネットワーク・インタフェース・カード１０ｆ、ビデオ・カード１０ｄ、音声機構１０ｈ、入力デバイス１０ｉ等との間は、ＰＣＩ（Peripheral Components Interconnect）、ＰＣＩＥｘｐｒｅｓｓ、シリアルＡＴＡ（AT Attachment）、ＵＳＢ（Universal Serial Bus）、ＡＧＰ（Accelerated Graphics Port）等の入出力バスにより接続される。

なお、図２は、本実施形態が適用されるのに好適なコンピュータのハードウェア構成を例示するに過ぎず、実際の各サーバが図示の構成に限定されないことは言うまでもない。例えば、ビデオ・カード１０ｄを設ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ１０ａにてイメージ・データを処理する構成としても良い。また、音声機構１０ｈを独立した構成とせず、システム・コントローラ１０ｂやＩ／Ｏコントローラ１０ｅを構成するチップセットの機能として備えるようにしても良い。また、補助記憶装置として磁気ディスク装置１０ｇの他に、各種の光学ディスクやフレキシブル・ディスクをメディアとするドライブを設けても良い。表示装置１０ｊとしては、主として液晶ディスプレイが用いられるが、その他、ＣＲＴディスプレイやプラズマ・ディスプレイ等、任意の方式のディスプレイを用いて良い。

図１に示した前処理装置１００が図２のコンピュータで実現される場合、言語モデル推定部１１０および認識グラフ作成部１４０は、例えばメイン・メモリ１０ｃに読み込まれたプログラムをＣＰＵ１０ａが実行することにより実現される。また、言語モデル格納部１２０、認識単語辞書部１３０、認識グラフ格納部１５０は、メイン・メモリ１０ｃや磁気ディスク装置１０ｇ等の記憶手段により実現される。

言語モデル推定部１１０は、学習用コーパスに蓄積された学習用のデータに基づき、言語モデルを推定する。言語モデルとは、単語（形態素）のつながり方を、確率等を用いて示した、言語の数学的モデルである。学習用のデータに対応する言語モデルを推定する手法としては、最尤推定法やＥＭアルゴリズム等による既存の手法を用いることができる。

言語モデル格納部１２０は、言語モデル推定部１１０により推定された言語モデルを格納する。格納される言語モデルのデータ構造としては、既存の任意のデータ構造を用いて良い。以下、本実施形態では、言語モデルとしてＷＦＳＴ（Weighted Finite State Transducer）を用いた場合を例として説明する。

図３は、ＷＦＳＴを用いた言語モデルのデータ構成例を示す図である。
図３に示すように、ＷＦＳＴは、単語履歴を表すノードと、出現する単語とその出現確率を表すアークからなる。図示の例では、２個の単語履歴がノードに記録されるものとする。具体的には、左端のノードから順に、単語ｗ１の出現により単語履歴が「ｗ１」となり、次いで単語ｗ２の出現により単語履歴が「ｗ１，ｗ２」となり、次いで単語ｗ３の出現により単語履歴が「ｗ２，ｗ３」となる様子が示されている。なお、図示してはいないが、各アークには、直前のノードに記録された単語履歴において現在の単語が出現する出現確率の情報（例えば、図の左から２番目のノードと３番目のノードの間のアークについては、確率ｐ（ｗ２｜ｗ１））が付与されている。

認識単語辞書部１３０は、単語（形態素）とその読みの音声（音素列）との対応情報を保持している。本実施形態では、認識単語辞書部１３０は、音素列を受理して単語列を出力するＷＦＳＴを用いて実現されるものとする。認識単語辞書部１３０における単語の読みとしては、表記通りの音素列に加えて、発音変動を表現した音素列が登録される。発音変動を表現した音素列を含む認識単語辞書部１３０の作成方法については、既存の技術を用いて良い。

図４は、認識単語辞書部１３０に保持される単語と音素列の対応情報の例を示す。
図４に示す例では、単語「ございます」に対して、４種類の音素列が対応付けられている。これらの音素列のうち、最上段の「ｇｏｚａｉｍａｓｕ」が表記通りの音素列であり、２段目以降の３種類が発音変動を表現した音素列である。以下、図４に示すように、表記通りの音素列を音素列ｐｎとし、発音変動を表現した音素列を音素列ｐｖとする。なお、図４では、３つの音素列ｐｖにそれぞれ添え字を付し、「音素列ｐｖ（１）」、「音素列ｐｖ（２）」、「音素列ｐｖ（３）」と記載している。

一般に、ある単語において発音変動が発生するか否かは、単語の種類や、他の単語と連続しているか否か、どのような単語とどのように連続しているかといった、単語の用いられ方等によって様々である。また、発音変動の仕方は、図４に例示したような音素の脱落の他、促音化、濁音化、撥音化、長音化、短音化等、様々である。したがって、認識単語辞書部１３０において、どの単語に対し、どのような音素列ｐｖを登録するかは、既存の種々のルールベースを適用することで任意に選択できる。実際には、個々のシステムに要求される精度や処理能力に応じて、ルールベースを適用し、音素列ｐｖを含む認識単語辞書部１３０を作成すれば良い。なお、図４においては、３種類の音素列ｐｖが示されているが、音素列ｐｖとして登録される音素列の種類は図に示す３種類に限定されないことは言うまでもない。

認識グラフ作成部１４０は、言語モデルと認識単語辞書部１３０の対応情報とを合成して、音声認識処理に用いられる認識グラフを作成する。認識グラフとは、言語モデルを音素レベルで記述したものであり、言語モデルに、この言語モデルに含まれる単語に関する認識単語辞書部１３０の対応情報を適用して作成される。認識グラフの作成手法は、既存の手法を用いて良い。すなわち、作成される認識グラフのデータ構造自体は、既存の音声認識技術において作成される認識グラフと同様である。ただし、本実施形態では、予め定められた条件に基づき、一定以上の単語数から構成される単語列に含まれる単語、より詳しくは、一定以上の次数ｎによるｎ−ｇｒａｍで予測される表現における単語に対して、音素列ｐｎと発音変動を表現した音素列ｐｖとを適用して認識グラフを作成する。そして、その他の単語に対しては、音素列ｐｎのみを適用して認識グラフを作成する。

図５は、図３に示した言語モデルに基づいて、認識グラフを作成する様子を示す図である。
図５に示す例では、３−ｇｒａｍで予測される単語に対してのみ発音変動を許すものとする。すなわち、言語モデルの各ノードが単語履歴を表すことを利用して、２個の単語履歴を持つノードからのアークについてのみ、認識単語辞書部１３０のｐｎ：ｗとｐｖ：ｗの両方の変換を行う。そして、その他のアークについては、ｐｎ：ｗの変換のみを行う。また、図５において、単語ｗｉ（ｉ＝１、２、３）の表記通りの音素列をｐｉｎと表記し、発音変動を表現した音素列をｐｉｖと表記している。

したがって、図５の認識グラフを参照すると、左端のノードと２番目のノードの間にはｐ１ｎ：ｗ１というアークが張られ、２番目のノードと３番目のノードの間にはｐ２ｎ：ｗ２というアークが張られている。そして、３番目のノードと右端のノードとの間には、ｐ３ｎ：ｗ３というアークとｐ３ｖ：ｗ３というアークの２本のアークが張られている。この認識グラフを用いることより、１−ｇｒａｍで予測される単語では、音素列ｐ１ｎからのみ単語ｗ１が認識され、２−ｇｒａｍで予測される単語では、音素列ｐ２ｎからのみ単語ｗ２が認識され、３−ｇｒａｍで予測される単語では、音素列ｐ３ｎとｐ３ｖのどちらからも単語ｗ３が認識されることとなる。

認識グラフ格納部１５０は、上記のようにして認識グラフ作成部１４０により作成された認識グラフを格納する。音声認識装置２００が音声認識を行う際には、この認識グラフが利用される。これにより、一定以上の次数ｎによるｎ−ｇｒａｍで予測される表現における単語に関しては、発音変動が考慮された音声認識が行われることとなる。上記のように、認識グラフのデータ構成自体は、既存の認識グラフと同様なので、音声認識装置２００は、既存の装置をそのまま用いることができる。

＜音声認識システムの動作＞
図６は、前処理装置１００の動作を示すフローチャートである。
図６に示すように、前処理装置１００の言語モデル推定部１１０が学習用コーパスから音声データを取得し（ステップ６０１）、言語モデルを推定する（ステップ６０２）。そして、認識グラフ作成部１４０が、言語モデル推定部１１０により推定された言語モデルを言語モデル格納部１２０から取得し（ステップ６０３）、認識単語辞書部１３０を参照して認識グラフ作成処理を行う（ステップ６０４）。認識グラフ作成処理により作成された認識グラフは、認識グラフ格納部１５０に格納される（ステップ６０５）。

以上のようにして、前処理装置１００により認識グラフが用意される。この後、音声認識装置２００により音声認識処理が行われる際には、認識グラフ格納部１５０に格納されている認識グラフが用いられる。

図７は、図６のステップ６０４に示す認識グラフ作成処理の詳細を示すフローチャートである。
図７に示すように、認識グラフ作成部１４０は、言語モデルに含まれる個々の単語に順次着目し、単語履歴（ＷＦＳＴにおけるノードに記録された情報）に基づいて、着目した単語（以下、対象単語）に先行する単語（先行単語）を調べる（ステップ７０１）。そして、対象単語が予め定めた次数ｎによるｎ−ｇｒａｍで予測された単語か否かを判断する（ステップ７０２）。図７に示す例では、ｎ＝３としている。したがって、認識グラフ作成部１４０は、認識グラフを作成するため、１ｇｒａｍまたは２ｇｒａｍで予測された対象単語については（ステップ７０２でＮｏ）、単語の表記通りの音素列ｐｎを適用する（ステップ７０３）。一方、３ｇｒａｍで予測された対象単語については（ステップ７０２でＹｅｓ）、単語の表記通りの音素列ｐｎおよび発音変動を表現した音素列ｐｖを適用する（ステップ７０４）。以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部１５０に格納して処理を終了する（ステップ７０５）。

以上、本実施形態では、予め定めた規則にしたがって、一定以上の高次のｎ−ｇｒａｍ（上記の例では、３ｇｒａｍ）で予測される単語に対して、発音変動を考慮して認識グラフを作成することにより、発音変動を考慮する対象を制限している。実際のシステムにおいて、何ｇｒａｍ以上で予測される単語に対して発音変動を考慮するかは、個々のシステム要求される精度や処理能力に応じて、適宜設定すれば良い。また、発音変動を表現した音素列ｐｖを適用する条件として、さらに追加条件を与えることもできる。追加条件としては、例えば、
・音素列ｐｖを作成するために用いられた学習用コーパスでの出現頻度に応じてｎ−ｇｒａｍの次数ｎを決定する、
・対象単語の直前に無音区間が許容されない場合にのみ適用する、
等が考えられる。

図８は、認識グラフ作成処理の他の例を示すフローチャートである。
図８に示す処理では、発音変動を表現した音素列ｐｖを適用するための条件として、学習用コーパスでの出現頻度を追加している。具体的には、認識グラフ作成部１４０は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる（ステップ８０１）。次に、対象単語と先行単語とからなる単語列の学習用コーパスにおける出現頻度を調べる（ステップ８０２）。出現頻度が予め定めた閾値ｓ未満である場合（ステップ８０３でＹｅｓ）、認識グラフ作成部１４０は、発音変動を表現した音素列ｐｖを適用するｎ−ｇｒａｍの次数ｎをｎ＝３とする。すなわち、１ｇｒａｍまたは２ｇｒａｍで予測された単語について音素列ｐｎを適用し、３ｇｒａｍで予測された単語について音素列ｐｎおよび音素列ｐｖを適用して認識グラフを作成する（ステップ８０４、８０５、８０６）。

一方、出現頻度が予め定めた閾値ｓ以上である場合（ステップ８０３でＮｏ）、認識グラフ作成部１４０は、発音変動を表現した音素列ｐｖを適用するｎ−ｇｒａｍの次数ｎをｎ＝２とする。すなわち、１ｇｒａｍで予測された単語について音素列ｐｎを適用し、２ｇｒａｍおよび３ｇｒａｍで予測された単語について音素列ｐｎおよび音素列ｐｖを適用して認識グラフを作成する（ステップ８０７、８０８、８０９）。このように、対象単語を含む単語列の学習用コーパスにおける出現頻度に応じて音素列ｐｖを適用するｎ−ｇｒａｍの次数ｎを変更するのは、出現頻度の大きい単語列は発話において多用される言い回しであり、より発音変動を生じやすいという考えに基づく。

認識グラフ作成部１４０は、以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部１５０に格納して処理を終了する（ステップ８１０）。

図９は、認識グラフ作成処理のさらに他の例を示すフローチャートである。
図９に示す処理では、発音変動を表現した音素列ｐｖを適用するための条件として、無音区間の有無を追加している。具体的には、認識グラフ作成部１４０は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる（ステップ９０１）。そして、対象単語が３ｇｒａｍで予測された単語か否かを判断し（ステップ９０２）、１ｇｒａｍまたは２ｇｒａｍで予測された単語について（ステップ９０２でＮｏ）、単語の表記通りの音素列ｐｎを適用して認識グラフを作成する（ステップ９０３）。

一方、３ｇｒａｍで予測された単語について（ステップ９０２でＹｅｓ）、認識グラフ作成部１４０は、対象単語の直前に無音区間の存在が許容されるか調べる。そして、無音区間の存在が許容されないならば（ステップ９０４でＮｏ）、単語の表記通りの音素列ｐｎおよび発音変動を表現した音素列ｐｖを適用して認識グラフを作成する（ステップ９０５）。これに対し、無音区間の存在が許容されるならば（ステップ９０４でＹｅｓ）、単語の表記通りの音素列ｐｎを適用して認識グラフを作成する（ステップ９０６）。このように、発音変動を表現した音素列ｐｖの適用条件として発話に無音区間が存在するか否かを判断するのは、無音区間は発話の切れ目であり、その直後の単語では発音変動が生じにくいという考えに基づく。

認識グラフ作成部１４０は、以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部１５０に格納して処理を終了する（ステップ９０７）。

＜具体例＞
次に、具体的な言語モデルに対する本実施形態の適用例について説明する。
図１０は、学習用コーパスに含まれる単語列の例を示す。図１１は、この単語列に対応する言語モデルの例、図１２は、この単語列に含まれる単語に関する認識単語辞書部１３０に登録された対応情報の例を示す。図１３は、図１１の言語モデルおよび図１２の対応情報等を用いて作成される認識グラフの例を示す。
なお、図１０の単語列は、単語列を構成する各単語を空白で区切って示している。また、図１１の言語モデル、図１２の対応情報、図１３の認識グラフは、何れもＷＦＳＴではなく、表形式で示している。また、この適用例では、図７に示した認識グラフ作成処理により認識グラフが作成されたものとする。

図１１の言語モデルにおいて、先行単語の項目における「＊」と記載された欄は、先行単語を条件付けない場合を示す。すなわち、先行２単語が共に「＊」である予測単語（着目した単語）の出現確率は１ｇｒａｍ確率を表し、先行１単語が「＊」である予測単語の出現確率は２ｇｒａｍ確率を表す。例えば、図１０の３番目の単語列「お電話ありがとうございます」に対する言語モデルは、予測単語「お電話」が１ｇｒａｍで予測され、出現確率が０．００３である。また、予測単語「ありがとう」が２ｇｒａｍで予測され、出現確率が０．２である。また、予測単語「ございます」が３ｇｒａｍで予測され、出現確率が０．５である。

図１２に示す対応情報は、認識単語辞書部１３０に登録された対応情報の一部であり、「ございます」、「ＩＢＭ」、「おはよう」という３単語について、音素列（図１２では「発音」と記載）との対応情報が例示されている。図１２の対応情報を参照すると、単語「ございます」、単語「ＩＢＭ」、単語「おはよう」に、それぞれ３種類の音素列ｐｖが登録されている。なお、図１２には例示として、上記の３語についてのみ対応情報が記載されているが、実際には、認識単語辞書部１３０の各単語に関して同様の対応情報（音素列ｐｖに対する対応情報を含む）が登録されている。

図１３の認識グラフには、図１１の言語モデルに認識単語辞書部１３０から取得された音素列（発音）が付加されている。単語列「お電話ありがとうございます」に対する認識グラフを参照すると、１ｇｒａｍで予測された「お電話」および２ｇｒａｍで予測された「ありがとう」については、表記通りの音素列ｐｎのみが付加されている。一方、３ｇｒａｍで予測された「ございます」では、音素列ｐｎである「ｇｏｚａｉｍａｓｕ」と共に、発音変動を表現した３種類の音素列ｐｖが付加されている。したがって、音声認識装置２００による認識処理においては、単語列「お電話ありがとうございます」に対応する音声データにおいて、単語「ございます」に対応する部分の発音が変動していた場合（例えば「ｏｚａｉｍａｓｕ」）でも、正しく「ございます」と認識することができる。

以上、本実施形態について説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。例えば、上記実施形態では、認識単語辞書部１３０に発音変動を表現した音素列ｐｖを登録するために、その音素列ｐｖが発生する確率ｐ（ｐｖ｜ｗ）を考慮していないが、この確率を考慮して登録するか否かを制御しても良い。また、本実施形態は、上記のように処理対象の音声データに対する音声認識において利用される他、音響モデルの学習においても利用可能である。音響モデル構築時には、音声データ、単語レベルでの書き起こしデータ、および単語と音素列の対応を利用して、音声データに対して音素レベルでのアライメントを行う。ここで、単語レベルでの書き起こしデータに対して、本実施形態を適用することにより、高次の単語ｎ−ｇｒａｍで予測できるコンテキストで出現する単語を選択することができる。アライメント実行時に、高次の単語ｎ−ｇｒａｍで予測できるコンテキストで出現する単語については、表記通りの音素列ｐｎと発音変動を表現した音素列ｐｖの両方を利用し、それ以外の単語については、音素列ｐｎのみを利用することにより、より正確な音素アライメントを得ることができる。この結果として、より精緻な音響モデルの構築が期待できる。その他、上記実施形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

本実施形態による音声認識システムの構成例を示す図である。図１の音声認識システムを実現するコンピュータのハードウェア構成例を示す図である。ＷＦＳＴを用いた言語モデルのデータ構成例を示す図である。本実施形態の認識単語辞書部に保持される単語と音素列の対応情報の例を示す図である。図３に示した言語モデルに基づいて、本実施形態により認識グラフを作成する様子を示す図である。本実施形態の音声認識システムの動作を示すフローチャートである。図６のステップ６０４に示す認識グラフ作成処理の詳細を示すフローチャートである。図６のステップ６０４に示す認識グラフ作成処理の他の例を示すフローチャートである。図６のステップ６０４に示す認識グラフ作成処理のさらに他の例を示すフローチャートである。学習用コーパスに含まれる単語列の例を示す図である。図１０の単語列に対応する言語モデルの例を示す図である。図１０の単語列に含まれる単語に関する認識単語辞書部に登録された対応情報の例を示す図である。図１１の言語モデルおよび図１２の対応情報等を用いて作成される認識グラフの例を示す図である。

符号の説明

１０ａ…ＣＰＵ、１０ｃ…メイン・メモリ、１０ｇ…磁気ディスク装置、１００…前処理装置、１１０…言語モデル推定部、１２０…言語モデル格納部、１３０…認識単語辞書部、１４０…認識グラフ作成部、１５０…認識グラフ格納部、２００…音声認識装置、３００…学習用コーパス

Claims

音声認識処理に用いられる認識グラフを作成するシステムであって、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記対応情報に基づき、前記言語モデルに含まれる単語の前記表記通りの音素列を適用して前記認識グラフを作成し、当該言語モデルが２以上の予め定められた個数以上の単語数で構成される単語列に対するモデルである場合、当該単語列に含まれる単語に関して、当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
前記認識グラフ作成部は、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、当該ｎ−ｇｒａｍの次数ｎが２以上の予め定められた次数よりも小さい場合は前記対応情報に基づき前記表記通りの音素列を適用し、当該ｎ−ｇｒａｍの次数ｎが当該予め定められた次数以上の場合は当該対応情報に基づき当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項１に記載のシステム。
前記認識グラフ作成部は、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、２以上の予め定められた次数以上の次数ｎによるｎ−ｇｒａｍで予測される単語であって、かつ、当該言語モデルを推定するために参照されるコーパスでの出現頻度が一定以上の単語列に含まれる単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項１に記載のシステム。
前記認識グラフ作成部は、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、２以上の予め定められた次数以上の次数ｎによるｎ−ｇｒａｍで予測される単語であって、かつ、当該単語の直前に無音区間が許容されない場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項１に記載のシステム。
音声認識処理に用いられる認識グラフを作成するシステムであって、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、２以上の予め定められた次数以上の次数ｎによるｎ−ｇｒａｍで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
音声データを取得して音声認識処理を行うシステムであって、
音声認識処理に用いられる認識グラフを作成する前処理装置と、
前記前処理装置により作成された前記認識グラフを用いて音声認識処理を行う音声認識装置とを備え、
前記前処理装置は、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、２以上の予め定められた次数以上の次数ｎによるｎ−ｇｒａｍで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
コンピュータが音声認識処理に用いられる認識グラフを作成する方法であって、
学習用コーパスに基づき言語モデルを推定するステップと、
推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち２以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成するステップと、
作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納するステップと、
を含む、方法。
前記認識グラフを作成するステップでは、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、当該ｎ−ｇｒａｍの次数ｎが２以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該ｎ−ｇｒａｍの次数ｎが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項７に記載の方法。
コンピュータに、
学習用コーパスに基づき言語モデルを推定する処理と、
推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち２以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する処理と、
作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納する処理と、を実行させる、プログラム。
前記認識グラフを作成する処理では、前記言語モデルを対象としてｎ−ｇｒａｍで予測される単語に対し、当該ｎ−ｇｒａｍの次数ｎが２以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該ｎ−ｇｒａｍの次数ｎが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを前記コンピュータに作成させる、請求項９に記載のプログラム。