JP6577900B2

JP6577900B2 - 音素誤り獲得装置、音素誤り獲得方法、およびプログラム

Info

Publication number: JP6577900B2
Application number: JP2016081898A
Authority: JP
Inventors: 祐太河内; 浩和政瀧; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2019-09-18
Anticipated expiration: 2036-04-15
Also published as: JP2017191278A

Description

この発明は、非ネイティブ話者の音声を認識する音声認識技術に関する。

非ネイティブ話者の音素誤り傾向を音声データから獲得する技術として、いくつかの方法が知られている。そのような技術は、ルールを直接利用するアプローチと、データからルールを獲得するアプローチとに大きく分類される。データから獲得するアプローチとしては、例えば、非特許文献１に記載された技術が挙げられる。非特許文献１に記載の技術は、非ネイティブ話者による発話を音素認識し、標準的な発音系列と比較することで音素変換ルールを導出するものである。

Kim, Mina, Yoo Rhee Oh, and Hong Kook Kim, "Non-native pronunciation variation modeling using an indirect data driven method." Automatic Speech Recognition & Understanding, 2007. ASRU. IEEE Workshop on. IEEE, 2007.

非ネイティブ話者による発話を音素認識し、その音素認識結果を別の標準的な音素系列と比較することによって、非ネイティブ発話の音素変動規則を獲得することができる。しかしながら、音素認識の誤りを音素変動規則として誤って獲得してしまうことや、ネイティブ話者も読み誤りやすいパターンを獲得してしまうこともある。そのため、従来の方法では、獲得される音素変動規則の数が膨大になるという課題があった。

実際に音素変動規則を音声認識で利用するとき、単語の読みを記載した発音辞書に音素変動規則を追加することによって、非ネイティブ話者に特有の読み方をカバーすることができる。しかしながら、認識候補パターンの増大による認識時間の増大や紛らわしい認識候補パターンの増大による認識精度の悪化は避けられない。また、非ネイティブ性に由来する誤りは、基本的に外国語習熟度等に依存する音素の置換、挿入、削除等の音素誤りであり、他の誤りとは異なり、発音辞書へ非ネイティブ発話の音素変動規則を追加する以外の方法でこれに対処することは困難である。

この発明の目的は、上記のような点に鑑みて、認識時間の増大や認識精度の悪化を抑えながら、発音辞書へ非ネイティブ発話の音素変動規則を追加することができる音声認識技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の音素誤り獲得装置は、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計する非ネイティブ音素頻度集計部と、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、を含む。

この発明の第二の態様の辞書追加装置は、第一の態様の音素誤り獲得装置により生成された音素誤りを記憶する音素誤り記憶部と、各単語に標準的な読みを表す音素列が付与された発音辞書を記憶する発音辞書記憶部と、発音辞書に含まれる単語のうち音素誤りに含まれる音素書起しの音素を含む単語について、単語に付与された音素列に含まれる音素書起しの音素を音素誤りに含まれる音素認識結果の音素に置換した変動読みを発音辞書へ追加して非ネイティブ発音辞書を生成する複数読み追加部と、を含む。

この発明の第三の態様の音声認識装置は、第二の態様の辞書追加装置により生成された非ネイティブ発音辞書を記憶する発音辞書記憶部と、非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力する音声認識部と、を含む。

この発明の音声認識技術によれば、非ネイティブ発話の音素誤りのうち、非ネイティブ性に由来するもののみを、ネイティブ発話との異なりが大きい順に獲得することができる。これにより、認識候補パターンの増大による認識時間の増大や紛らわしい候補の増大による認識精度の悪化を抑えながら、非ネイティブ発話に対する音声認識精度を向上することができる。

図１は、音素認識装置の機能構成を例示する図である。図２は、音素認識方法の処理手続きを例示する図である。図３は、音素誤り獲得装置の機能構成を例示する図である。図４は、音素誤り獲得方法の処理手続きを例示する図である。図５は、音素誤り獲得部のデータフローを説明するための図である。図６は、辞書追加装置の機能構成を例示する図である。図７は、辞書追加方法の処理手続きを例示する図である。図８は、音声認識装置の機能構成を例示する図である。図９は、音声認識方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

最初に、この発明の基本的な考え方を説明する。前提として、学習用の各音声に対して標準発音系列が与えられているものとする。標準発音系列は、例えば、人手による単語書起しをネイティブ話者による標準的な発音で音素に変換した系列である。まず、非ネイティブ音声とネイティブ音声それぞれで音響モデルを学習し、非ネイティブ音声とネイティブ音声をそれぞれに対応する音響モデルを用いて音素認識する。次に、それぞれの音素認識結果と標準発音系列とをＤＰマッチング等で対応を取り、それぞれの標準発音系列と音素認識結果の音素ペア毎に出現回数を集計した頻度値の行列を作成する。以下、この行列を音素混同行列と呼ぶ。ネイティブ音声の音素誤り傾向と非ネイティブ音声の音素誤り傾向を比較するため、ネイティブ音声と非ネイティブ音声それぞれに対応する２つの音素混同行列に対してカイ２乗検定を実施し、カイ２乗値の大きい順に音素ペアを獲得する。これにより、ネイティブ話者と非ネイティブ話者の双方で間違えやすい音素や、収録環境に由来する誤認識はキャンセルされ、ネイティブ話者とは誤り傾向が異なる、非ネイティブ話者が間違えやすい音素誤りのみを抽出することができる。

この発明の実施形態は以下の４つの装置から構成される音声認識システムである。第一の装置は、ネイティブ発話の音声と非ネイティブ発話の音声とを用いて音響モデルを学習し、その音響モデルを用いてネイティブ発話の音声と非ネイティブ発話の音声それぞれの音素認識結果を得る音素認識装置である。第二の装置は、ネイティブ発話と非ネイティブ発話それぞれの音素認識結果を標準音素系列と比較して、ネイティブ発話と比べて非ネイティブ発話で誤り率が高い音素誤りを獲得する音素誤り獲得装置である。第三の装置は、音素誤り獲得装置で獲得された音素誤りに基づいて発音辞書へ変動読みを追加する辞書追加装置である。第四の装置は、辞書追加装置により変動読みを追加された発音辞書を用いて音声認識を行う音声認識装置である。

これらの装置は必ずしも４台で構成されるものではなく、各処理部を配置する装置を変更することで任意に装置構成を変更することができる。例えば、音素認識装置の各処理部を音素誤り獲得装置が備えるように構成し、音響モデルの学習から音素誤りの獲得までを一台で実行する音素誤り獲得装置として構成することができる。また、例えば、辞書追加装置の各処理部を音声認識装置が備えるように構成し、変動読みの追加から音声認識までを一台で実行する音声認識装置として構成することができる。また、例えば、音素認識装置、音素誤り獲得装置、および単語追加装置の各処理部を音声認識装置が備えるように構成し、音響モデルの学習から音声認識までを一台で実行する音声認識装置として構成することができる。

実施形態の音素認識装置、音素誤り獲得装置、辞書追加装置、および音声認識装置の各装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。各装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

＜音素認識装置＞
実施形態の音素認識装置は、図１に示すように、非ネイティブ書記素音素変換部１０、ネイティブ書記素音素変換部１１、非ネイティブ音素書起し記憶部１２、ネイティブ音素書起し記憶部１３、非ネイティブ音響モデル学習部１４、ネイティブ音響モデル学習部１５、非ネイティブ音響モデル記憶部１６、ネイティブ音響モデル記憶部１７、非ネイティブ音素認識部１８、およびネイティブ音素認識部１９を含む。この音素認識装置が図２に示す各ステップの処理を行うことにより実施形態の音素認識方法が実現される。

非ネイティブ書記素音素変換部１０とネイティブ書記素音素変換部１１、非ネイティブ音響モデル学習部１４とネイティブ音響モデル学習部１５、非ネイティブ音素認識部１８とネイティブ音素認識部１９は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、書記素音素変換部、音響モデル学習部、および音素認識部を一組だけ備え、各処理部では、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成することも可能である。

非ネイティブ音素書起し記憶部１２、ネイティブ音素書起し記憶部１３、非ネイティブ音響モデル記憶部１６、およびネイティブ音響モデル記憶部１７は、必ずしも音素認識装置が備える必要はなく、これらに記憶すべき情報を記憶部に記憶することなく、次の処理を行う処理部へ直接入力されるように構成してもよい。

以下、図２を参照して、実施形態の音素認識方法の処理手続きを説明する。

ステップＳ１０において、非ネイティブ書記素音素変換部１０は、非ネイティブ単語書起しを入力とし、非ネイティブ音素書起しを生成する。非ネイティブ単語書起しは、非ネイティブ発話の音声データを、単語、文字、書記素等の単位で書起した情報である。非ネイティブ音素書起しは、非ネイティブ単語書起しを発音記号や音素記号等の音を表す単位に変換した情報である。生成した非ネイティブ音素書起しは、非ネイティブ音素書起し記憶部１２に記憶される。書き起こされた書記素を音素に変換する手法は、従来から用いられている技術や、あらかじめ定めたルール等を用いることができる。書記素を音素に変換する公知の技術としては、例えば、下記参考文献１に記載のものが挙げられる。
〔参考文献１〕Maximilian Bisani, Hermann Ney, "Joint-sequence models for grapheme-to-phoneme conversion", Speech Communication, vol. 50(5), pp. 434-451, 2008

ステップＳ１１において、ネイティブ書記素音素変換部１１は、ネイティブ単語書起しを入力とし、ネイティブ音素書起しを生成する。生成したネイティブ音素書起しは、ネイティブ音素書起し記憶部１３に記憶される。単語書起しを音素へ変換する方法は、非ネイティブ書記素音素変換部１０と同様の方法により行えばよい。

ステップＳ１４において、非ネイティブ音響モデル学習部１４は、非ネイティブ発話の音声データと、非ネイティブ音素書起し記憶部１２に記憶された非ネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、非ネイティブ音響モデルを生成する。学習した非ネイティブ音響モデルは、非ネイティブ音響モデル記憶部１６へ記憶される。学習する音響モデルは、公知の音声認識技術で用いられる、ＧＭＭ−ＨＭＭ（Gaussian Mixture Model - Hidden Markov Model）やＤＮＮ−ＨＭＭ（Deep Neural Network - Hidden Markov Model）等を用いることができる。

ステップＳ１５において、ネイティブ音響モデル学習部１５は、ネイティブ発話の音声データと、ネイティブ音素書起し記憶部１３に記憶されたネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、ネイティブ音響モデルを生成する。学習したネイティブ音響モデルは、ネイティブ音響モデル記憶部１７へ記憶される。音響モデルの学習は、非ネイティブ音響モデル学習部１４と同様の方法により行えばよい。

ステップＳ１８において、非ネイティブ音素認識部１８は、非ネイティブ発話の音声データを入力とし、非ネイティブ音響モデル記憶部１６に記憶された非ネイティブ音響モデルと、非ネイティブ音素書起しと同じ単位で作成した音素ＢＮＦ（Backus Nauer Form）とを用いて、非ネイティブ発話の音声データを音素認識し、非ネイティブ音素認識結果を生成する。このとき、入力される非ネイティブ発話の音声データは、非ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成した非ネイティブ音素認識結果は、音素誤り獲得装置へ送られる。

ステップＳ１９において、ネイティブ音素認識部１９は、ネイティブ発話の音声データを入力とし、ネイティブ音響モデル記憶部１７に記憶されたネイティブ音響モデルと、ネイティブ音素書起しと同じ単位で作成した音素ＢＮＦとを用いて、ネイティブ発話の音声データを音素認識し、ネイティブ音素認識結果を生成する。このとき、入力されるネイティブ発話の音声データは、ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成したネイティブ音素認識結果は、音素誤り獲得装置へ送られる。

＜音素誤り獲得装置＞
実施形態の音素誤り獲得装置は、図３に示すように、非ネイティブ音素頻度集計部２０、ネイティブ音素頻度集計部２１、音素誤り獲得部２２、および音素誤り記憶部２３を含む。この音素誤り獲得装置が図４に示す各ステップの処理を行うことにより実施形態の音素誤り獲得方法が実現される。

非ネイティブ音素頻度集計部２０とネイティブ音素頻度集計部２１は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、一個の音素誤り集計部だけを備え、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成しても構わない。

以下、図４を参照して、実施形態の音素誤り獲得方法の処理手続きを説明する。

ステップＳ２０において、非ネイティブ音素頻度集計部２０は、音素認識装置により生成された非ネイティブ音素認識結果と、その非ネイティブ音素認識結果に対応する非ネイティブ音素書起しを入力とし、非ネイティブ音素認識結果と非ネイティブ音素書起しの対応を取る。非ネイティブ音素書起しは音素認識装置と同様に、非ネイティブ発話の音声データから書起した非ネイティブ単語書起しを音素に変換したものである。音素間の対応付けには、例えば、ＤＰマッチング等を用いればよい。次に、非ネイティブ音素頻度集計部２０は、非ネイティブ音素認識結果の音素と非ネイティブ音素書起しの音素をペアとして、各音素ペアの出現頻度を集計することで音素ペアの頻度行列を生成する。以下、この行列を非ネイティブ音素混同行列と呼ぶ。生成した非ネイティブ音素混同行列は、音素誤り獲得部２２へ送られる。

ステップＳ２１において、ネイティブ音素頻度集計部２１は、音素認識装置により生成されたネイティブ音素認識結果と、そのネイティブ音素認識結果に対応するネイティブ音素書起しを入力とし、非ネイティブ音素頻度集計部２０と同様に、ネイティブ音素混同行列を生成する。生成したネイティブ音素混同行列は、音素誤り獲得部２２へ送られる。

ステップＳ２２において、音素誤り獲得部２２は、非ネイティブ音素混同行列とネイティブ音素混同行列とを入力とし、ネイティブ音素認識結果と比較して非ネイティブ音素認識結果の方が誤りやすい音素ペアを音素誤りとして獲得する。獲得した音素誤りは、音素誤り記憶部２３へ記憶される。

音素誤りの獲得は、例えば、以下のようにして行う。ある音素について、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから、書起し側音素がその音素と一致する行を抽出し、各認識結果側音素について、その認識結果側音素の出現頻度と、その認識結果側音素以外の音素の出現頻度の総和とを算出する。算出した認識結果側音素の出現頻度とそれ以外の音素の出現頻度の総和との集合を頻度分布とみなし、非ネイティブ発話に関する頻度分布とネイティブ発話に関する頻度分布とが同じかどうかについてカイ２乗検定を行う。これにより、ある書起し側音素と各認識結果側音素との音素ペアについて、ネイティブ発話と非ネイティブ発話とで誤り傾向が異なるか否かを表すカイ２乗値を得ることができる。上述の計算をすべての書起し側音素について行い、各音素ペアとカイ２乗値を関係付けて音素誤りとして記憶する。なお、この発明では音素誤りを抽出することを目的としているため、書起し側音素と認識結果側音素とが同一の場合はカイ２乗値計算の対象外として構わないが、仮に計算対象としても以降の処理に影響することはない。

図５を参照して、音素誤りの獲得方法について、より詳細に説明する。非ネイティブ音素混同行列とネイティブ音素混同行列は、書起し側音素と認識結果側音素のすべての音素ペアに関する出現頻度を並べた行列である。まず、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから書起し側音素が「/a/」である行を抽出する。次に、ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度（#1）と、認識結果側音素が「/b/」以外である出現頻度の総和（#2）を算出する。同様に、非ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度（#3）と、認識結果側音素が「/b/」以外である出現頻度の総和（#4）を算出する。こうして算出した出現頻度#1, #2, #3, #4を値にもつ観測頻度行列を生成し、さらに、次式により計算される出現頻度#1', #2', #3', #4'を値にもつ期待頻度行列を生成する。

こうして音素ペア毎に生成した観測頻度行列と期待頻度行列を用いて、次式によりカイ２乗値χ²を計算する。算出したカイ２乗値は各音素ペアと紐づけて音素誤りとして音素誤り記憶部２３へ記憶される。

上記の計算は各音素ペアすべてに対して行う。これにより、すべての音素ペアそれぞれに対してカイ２乗値が付与されて音素誤り記憶部２３へ記憶されることになる。

＜辞書追加装置＞
実施形態の辞書追加装置は、図６に示すように、音素誤り記憶部２３、ネイティブ発音辞書記憶部３０、複数読み追加部３１、および非ネイティブ発音辞書記憶部３２を含む。音素誤り記憶部２３には、音素誤り獲得装置により生成された音素誤りが記憶されている。この辞書追加装置が図７に示す各ステップの処理を行うことにより実施形態の辞書追加方法が実現される。

以下、図７を参照して、実施形態の辞書追加方法の処理手続きを説明する。

ステップＳ３１において、複数読み追加部３１は、音素誤り記憶部２３に記憶された音素誤りからカイ２乗値に基づいて音素ペアを抽出する。音素ペアの抽出方法は、例えば、予め定めた閾値を上回るカイ２乗値を持つ音素ペアを抽出してもよいし、カイ２乗値の大きい順に所定の数の音素ペアを抽出してもよい。

ステップＳ３２において、複数読み追加部３１は、抽出した音素ペアを用いて、ネイティブ発音辞書記憶部３０に記憶されたネイティブ発音辞書に変動読みを追加する。ネイティブ発音辞書は、例えば、ネイティブ話者の標準的な読みを単語に付与した単語読み辞書である。ネイティブ発音辞書に変動読みを追加した非ネイティブ発音辞書は、非ネイティブ発音辞書記憶部３２に記憶される。

変動読みの追加は、例えば、以下のようにして行う。抽出した一つ以上の音素ペアについて、音素ペアの書起し側音素と一致する音素を読みにもつ単語をネイティブ発音辞書から選択し、その読み中の書起し側音素を認識結果側音素に置き換えて、変動読みとして追加する。その際、変動読みに対する確率は、元の単語に紐づいた確率を等分してもよいし、適当な非ネイティブ読みのための変動確率を定義し、それに基づいた基準で決定してもよいし、カイ２乗値が高いほど変動確率が高いとみなすような基準で決定してもよい。一つの単語について抽出した音素ペアの書起し側音素と一致するものが複数あった場合、すべての組み合わせについて変動読みを追加してもよいし、カイ２乗値が高いほど非ネイティブ性が高いものとし、それに基づいた基準で一つ以上の単語を選択して変動読みを追加してもよいし、適当な閾値を決めてその個数までの単語を選択して変動読みを追加してもよいし、非ネイティブ発話の音素誤りに関する外部知識を用いてルールを決定し、そのルールを用いて変動読みを追加してもよい。

＜音声認識装置＞
実施形態の音声認識装置は、図８に示すように、非ネイティブ発音辞書記憶部３２、言語モデル記憶部４０、および音声認識部４１を含む。非ネイティブ発音辞書記憶部３２には、辞書追加装置により生成された非ネイティブ発音辞書が記憶されている。言語モデル記憶部４０には、音声認識において用いられる標準的な言語モデルが記憶されている。この音声認識装置が図９に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。

以下、図９を参照して、実施形態の音声認識方法の処理手続きを説明する。

ステップＳ４１において、音声認識部４１は、非ネイティブ発音辞書記憶部３２に記憶された非ネイティブ発音辞書と言語モデル記憶部４０に記憶された言語モデルとを用いて、入力された非ネイティブ発話の音声データを音声認識し、音声認識結果を出力する。ここで用いる言語モデルはどのようなものであってもよく、従来のネイティブ発話に対して用いる言語モデルであってもよい。

＜変形例１＞
上述の実施形態では、ネイティブ発話と非ネイティブ発話とを比較して非ネイティブ発話で誤りやすい音素のみを抽出して発音辞書へ変動読みを追加する構成を説明した。この発明の音声認識技術は、同様にして、方言や訛りなどの標準的な言語体系から外れた発話に適用して、例えば、方言発話に特有の音素誤りのみを抽出して発音辞書へ変動読みを追加することも可能である。

＜変形例２＞
カイ２乗値の計算において、ネイティブ発話に関する項と、非ネイティブに関する項を逆にしてもよい。すなわち、次式によりカイ２乗値を計算してもよい。

＜変形例３＞
音素認識装置において、音響モデル学習に用いる音声と音素認識に用いる音声とは異なるものである構成を説明した。しかしながら、これらの音声は同じものであってもよい。すなわち、非ネイティブ音素認識部１８が用いる非ネイティブ音声と非ネイティブ単語書起しは、非ネイティブ音響モデル学習部１４が用いる非ネイティブ音声と非ネイティブ単語書起しの全部もしくは一部であってもよく、ネイティブ音素認識部１９が用いるネイティブ音声とネイティブ単語書起しは、ネイティブ音響モデル学習部１５が用いるネイティブ音声とネイティブ単語書起しの全部もしくは一部であってもよい。

＜変形例４＞
辞書追加装置において、カイ２乗値に基づいて抽出した音素ペアを用いて変動読みを追加する構成を説明した。しかしながら、同様に音素ペアを抽出した後、他の開発セット等の音声データを用意し、それに対していくつかの音素組み合わせに対して音声認識を実施し、音声認識精度等の認識結果評価尺度を計算し、その値に基づいて変動読みの追加に用いる音素ペアを決定してもよい。

＜変形例５＞
音素誤り獲得装置において、カイ２乗検定によりネイティブ発話と非ネイティブ発話で誤りやすい音素の抽出を行った。しかしながら、ネイティブと非ネイティブの頻度分布の類似性の判定または類似性の定量的評価方法としては、カイ２乗検定に限定されず、その他の統計学的検定法や頻度値によるヒューリスティクスを用いてもよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０非ネイティブ書記素音素変換部
１１ネイティブ書記素音素変換部
１２非ネイティブ音素書起し記憶部
１３ネイティブ音素書起し記憶部
１４非ネイティブ音響モデル学習部
１５ネイティブ音響モデル学習部
１６非ネイティブ音響モデル記憶部
１７ネイティブ音響モデル記憶部
１８非ネイティブ音素認識部
１９ネイティブ音素認識部
２０非ネイティブ音素頻度集計部
２１ネイティブ音素頻度集計部
２２音素誤り獲得部
２３音素誤り記憶部
３０ネイティブ発音辞書記憶部
３１複数読み追加部
３２非ネイティブ発音辞書記憶部
４０言語モデル記憶部
４１音声認識部

Claims

非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計する非ネイティブ音素頻度集計部と、
ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、
上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、
を含む音素誤り獲得装置。
請求項１に記載の音素誤り獲得装置であって、
上記非ネイティブ音素頻度集計部は、上記非ネイティブ音素認識結果を上記非ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつ非ネイティブ音素混同行列を生成するものであり、
上記ネイティブ音素頻度集計部は、上記ネイティブ音素認識結果を上記ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつネイティブ音素混同行列を生成するものであり、
上記音素誤り獲得部は、上記非ネイティブ音素混同行列と上記ネイティブ音素混同行列とをそれぞれ頻度分布とみなして、上記音素ペア毎に検定値を算出し、その検定値を音素ペアに付与した音素誤りを獲得するものである、
音素誤り獲得装置。
非ネイティブ音素頻度集計部が、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
ネイティブ音素頻度集計部が、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
音素誤り獲得部が、上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する、
音素誤り獲得方法。
請求項１または２に記載の音素誤り獲得装置としてコンピュータを機能させるためのプログラム。