JP6577900B2 - 音素誤り獲得装置、音素誤り獲得方法、およびプログラム - Google Patents

音素誤り獲得装置、音素誤り獲得方法、およびプログラム Download PDF

Info

Publication number
JP6577900B2
JP6577900B2 JP2016081898A JP2016081898A JP6577900B2 JP 6577900 B2 JP6577900 B2 JP 6577900B2 JP 2016081898 A JP2016081898 A JP 2016081898A JP 2016081898 A JP2016081898 A JP 2016081898A JP 6577900 B2 JP6577900 B2 JP 6577900B2
Authority
JP
Japan
Prior art keywords
phoneme
native
error
utterance
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016081898A
Other languages
English (en)
Other versions
JP2017191278A (ja
Inventor
祐太 河内
祐太 河内
浩和 政瀧
浩和 政瀧
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016081898A priority Critical patent/JP6577900B2/ja
Publication of JP2017191278A publication Critical patent/JP2017191278A/ja
Application granted granted Critical
Publication of JP6577900B2 publication Critical patent/JP6577900B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、非ネイティブ話者の音声を認識する音声認識技術に関する。
非ネイティブ話者の音素誤り傾向を音声データから獲得する技術として、いくつかの方法が知られている。そのような技術は、ルールを直接利用するアプローチと、データからルールを獲得するアプローチとに大きく分類される。データから獲得するアプローチとしては、例えば、非特許文献1に記載された技術が挙げられる。非特許文献1に記載の技術は、非ネイティブ話者による発話を音素認識し、標準的な発音系列と比較することで音素変換ルールを導出するものである。
Kim, Mina, Yoo Rhee Oh, and Hong Kook Kim, "Non-native pronunciation variation modeling using an indirect data driven method." Automatic Speech Recognition & Understanding, 2007. ASRU. IEEE Workshop on. IEEE, 2007.
非ネイティブ話者による発話を音素認識し、その音素認識結果を別の標準的な音素系列と比較することによって、非ネイティブ発話の音素変動規則を獲得することができる。しかしながら、音素認識の誤りを音素変動規則として誤って獲得してしまうことや、ネイティブ話者も読み誤りやすいパターンを獲得してしまうこともある。そのため、従来の方法では、獲得される音素変動規則の数が膨大になるという課題があった。
実際に音素変動規則を音声認識で利用するとき、単語の読みを記載した発音辞書に音素変動規則を追加することによって、非ネイティブ話者に特有の読み方をカバーすることができる。しかしながら、認識候補パターンの増大による認識時間の増大や紛らわしい認識候補パターンの増大による認識精度の悪化は避けられない。また、非ネイティブ性に由来する誤りは、基本的に外国語習熟度等に依存する音素の置換、挿入、削除等の音素誤りであり、他の誤りとは異なり、発音辞書へ非ネイティブ発話の音素変動規則を追加する以外の方法でこれに対処することは困難である。
この発明の目的は、上記のような点に鑑みて、認識時間の増大や認識精度の悪化を抑えながら、発音辞書へ非ネイティブ発話の音素変動規則を追加することができる音声認識技術を提供することである。
上記の課題を解決するために、この発明の第一の態様の音素誤り獲得装置は、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計する非ネイティブ音素頻度集計部と、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、を含む。
この発明の第二の態様の辞書追加装置は、第一の態様の音素誤り獲得装置により生成された音素誤りを記憶する音素誤り記憶部と、各単語に標準的な読みを表す音素列が付与された発音辞書を記憶する発音辞書記憶部と、発音辞書に含まれる単語のうち音素誤りに含まれる音素書起しの音素を含む単語について、単語に付与された音素列に含まれる音素書起しの音素を音素誤りに含まれる音素認識結果の音素に置換した変動読みを発音辞書へ追加して非ネイティブ発音辞書を生成する複数読み追加部と、を含む。
この発明の第三の態様の音声認識装置は、第二の態様の辞書追加装置により生成された非ネイティブ発音辞書を記憶する発音辞書記憶部と、非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力する音声認識部と、を含む。
この発明の音声認識技術によれば、非ネイティブ発話の音素誤りのうち、非ネイティブ性に由来するもののみを、ネイティブ発話との異なりが大きい順に獲得することができる。これにより、認識候補パターンの増大による認識時間の増大や紛らわしい候補の増大による認識精度の悪化を抑えながら、非ネイティブ発話に対する音声認識精度を向上することができる。
図1は、音素認識装置の機能構成を例示する図である。 図2は、音素認識方法の処理手続きを例示する図である。 図3は、音素誤り獲得装置の機能構成を例示する図である。 図4は、音素誤り獲得方法の処理手続きを例示する図である。 図5は、音素誤り獲得部のデータフローを説明するための図である。 図6は、辞書追加装置の機能構成を例示する図である。 図7は、辞書追加方法の処理手続きを例示する図である。 図8は、音声認識装置の機能構成を例示する図である。 図9は、音声認識方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
最初に、この発明の基本的な考え方を説明する。前提として、学習用の各音声に対して標準発音系列が与えられているものとする。標準発音系列は、例えば、人手による単語書起しをネイティブ話者による標準的な発音で音素に変換した系列である。まず、非ネイティブ音声とネイティブ音声それぞれで音響モデルを学習し、非ネイティブ音声とネイティブ音声をそれぞれに対応する音響モデルを用いて音素認識する。次に、それぞれの音素認識結果と標準発音系列とをDPマッチング等で対応を取り、それぞれの標準発音系列と音素認識結果の音素ペア毎に出現回数を集計した頻度値の行列を作成する。以下、この行列を音素混同行列と呼ぶ。ネイティブ音声の音素誤り傾向と非ネイティブ音声の音素誤り傾向を比較するため、ネイティブ音声と非ネイティブ音声それぞれに対応する2つの音素混同行列に対してカイ2乗検定を実施し、カイ2乗値の大きい順に音素ペアを獲得する。これにより、ネイティブ話者と非ネイティブ話者の双方で間違えやすい音素や、収録環境に由来する誤認識はキャンセルされ、ネイティブ話者とは誤り傾向が異なる、非ネイティブ話者が間違えやすい音素誤りのみを抽出することができる。
この発明の実施形態は以下の4つの装置から構成される音声認識システムである。第一の装置は、ネイティブ発話の音声と非ネイティブ発話の音声とを用いて音響モデルを学習し、その音響モデルを用いてネイティブ発話の音声と非ネイティブ発話の音声それぞれの音素認識結果を得る音素認識装置である。第二の装置は、ネイティブ発話と非ネイティブ発話それぞれの音素認識結果を標準音素系列と比較して、ネイティブ発話と比べて非ネイティブ発話で誤り率が高い音素誤りを獲得する音素誤り獲得装置である。第三の装置は、音素誤り獲得装置で獲得された音素誤りに基づいて発音辞書へ変動読みを追加する辞書追加装置である。第四の装置は、辞書追加装置により変動読みを追加された発音辞書を用いて音声認識を行う音声認識装置である。
これらの装置は必ずしも4台で構成されるものではなく、各処理部を配置する装置を変更することで任意に装置構成を変更することができる。例えば、音素認識装置の各処理部を音素誤り獲得装置が備えるように構成し、音響モデルの学習から音素誤りの獲得までを一台で実行する音素誤り獲得装置として構成することができる。また、例えば、辞書追加装置の各処理部を音声認識装置が備えるように構成し、変動読みの追加から音声認識までを一台で実行する音声認識装置として構成することができる。また、例えば、音素認識装置、音素誤り獲得装置、および単語追加装置の各処理部を音声認識装置が備えるように構成し、音響モデルの学習から音声認識までを一台で実行する音声認識装置として構成することができる。
実施形態の音素認識装置、音素誤り獲得装置、辞書追加装置、および音声認識装置の各装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。各装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
<音素認識装置>
実施形態の音素認識装置は、図1に示すように、非ネイティブ書記素音素変換部10、ネイティブ書記素音素変換部11、非ネイティブ音素書起し記憶部12、ネイティブ音素書起し記憶部13、非ネイティブ音響モデル学習部14、ネイティブ音響モデル学習部15、非ネイティブ音響モデル記憶部16、ネイティブ音響モデル記憶部17、非ネイティブ音素認識部18、およびネイティブ音素認識部19を含む。この音素認識装置が図2に示す各ステップの処理を行うことにより実施形態の音素認識方法が実現される。
非ネイティブ書記素音素変換部10とネイティブ書記素音素変換部11、非ネイティブ音響モデル学習部14とネイティブ音響モデル学習部15、非ネイティブ音素認識部18とネイティブ音素認識部19は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、書記素音素変換部、音響モデル学習部、および音素認識部を一組だけ備え、各処理部では、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成することも可能である。
非ネイティブ音素書起し記憶部12、ネイティブ音素書起し記憶部13、非ネイティブ音響モデル記憶部16、およびネイティブ音響モデル記憶部17は、必ずしも音素認識装置が備える必要はなく、これらに記憶すべき情報を記憶部に記憶することなく、次の処理を行う処理部へ直接入力されるように構成してもよい。
以下、図2を参照して、実施形態の音素認識方法の処理手続きを説明する。
ステップS10において、非ネイティブ書記素音素変換部10は、非ネイティブ単語書起しを入力とし、非ネイティブ音素書起しを生成する。非ネイティブ単語書起しは、非ネイティブ発話の音声データを、単語、文字、書記素等の単位で書起した情報である。非ネイティブ音素書起しは、非ネイティブ単語書起しを発音記号や音素記号等の音を表す単位に変換した情報である。生成した非ネイティブ音素書起しは、非ネイティブ音素書起し記憶部12に記憶される。書き起こされた書記素を音素に変換する手法は、従来から用いられている技術や、あらかじめ定めたルール等を用いることができる。書記素を音素に変換する公知の技術としては、例えば、下記参考文献1に記載のものが挙げられる。
〔参考文献1〕Maximilian Bisani, Hermann Ney, "Joint-sequence models for grapheme-to-phoneme conversion", Speech Communication, vol. 50(5), pp. 434-451, 2008
ステップS11において、ネイティブ書記素音素変換部11は、ネイティブ単語書起しを入力とし、ネイティブ音素書起しを生成する。生成したネイティブ音素書起しは、ネイティブ音素書起し記憶部13に記憶される。単語書起しを音素へ変換する方法は、非ネイティブ書記素音素変換部10と同様の方法により行えばよい。
ステップS14において、非ネイティブ音響モデル学習部14は、非ネイティブ発話の音声データと、非ネイティブ音素書起し記憶部12に記憶された非ネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、非ネイティブ音響モデルを生成する。学習した非ネイティブ音響モデルは、非ネイティブ音響モデル記憶部16へ記憶される。学習する音響モデルは、公知の音声認識技術で用いられる、GMM−HMM(Gaussian Mixture Model - Hidden Markov Model)やDNN−HMM(Deep Neural Network - Hidden Markov Model)等を用いることができる。
ステップS15において、ネイティブ音響モデル学習部15は、ネイティブ発話の音声データと、ネイティブ音素書起し記憶部13に記憶されたネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、ネイティブ音響モデルを生成する。学習したネイティブ音響モデルは、ネイティブ音響モデル記憶部17へ記憶される。音響モデルの学習は、非ネイティブ音響モデル学習部14と同様の方法により行えばよい。
ステップS18において、非ネイティブ音素認識部18は、非ネイティブ発話の音声データを入力とし、非ネイティブ音響モデル記憶部16に記憶された非ネイティブ音響モデルと、非ネイティブ音素書起しと同じ単位で作成した音素BNF(Backus Nauer Form)とを用いて、非ネイティブ発話の音声データを音素認識し、非ネイティブ音素認識結果を生成する。このとき、入力される非ネイティブ発話の音声データは、非ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成した非ネイティブ音素認識結果は、音素誤り獲得装置へ送られる。
ステップS19において、ネイティブ音素認識部19は、ネイティブ発話の音声データを入力とし、ネイティブ音響モデル記憶部17に記憶されたネイティブ音響モデルと、ネイティブ音素書起しと同じ単位で作成した音素BNFとを用いて、ネイティブ発話の音声データを音素認識し、ネイティブ音素認識結果を生成する。このとき、入力されるネイティブ発話の音声データは、ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成したネイティブ音素認識結果は、音素誤り獲得装置へ送られる。
<音素誤り獲得装置>
実施形態の音素誤り獲得装置は、図3に示すように、非ネイティブ音素頻度集計部20、ネイティブ音素頻度集計部21、音素誤り獲得部22、および音素誤り記憶部23を含む。この音素誤り獲得装置が図4に示す各ステップの処理を行うことにより実施形態の音素誤り獲得方法が実現される。
非ネイティブ音素頻度集計部20とネイティブ音素頻度集計部21は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、一個の音素誤り集計部だけを備え、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成しても構わない。
以下、図4を参照して、実施形態の音素誤り獲得方法の処理手続きを説明する。
ステップS20において、非ネイティブ音素頻度集計部20は、音素認識装置により生成された非ネイティブ音素認識結果と、その非ネイティブ音素認識結果に対応する非ネイティブ音素書起しを入力とし、非ネイティブ音素認識結果と非ネイティブ音素書起しの対応を取る。非ネイティブ音素書起しは音素認識装置と同様に、非ネイティブ発話の音声データから書起した非ネイティブ単語書起しを音素に変換したものである。音素間の対応付けには、例えば、DPマッチング等を用いればよい。次に、非ネイティブ音素頻度集計部20は、非ネイティブ音素認識結果の音素と非ネイティブ音素書起しの音素をペアとして、各音素ペアの出現頻度を集計することで音素ペアの頻度行列を生成する。以下、この行列を非ネイティブ音素混同行列と呼ぶ。生成した非ネイティブ音素混同行列は、音素誤り獲得部22へ送られる。
ステップS21において、ネイティブ音素頻度集計部21は、音素認識装置により生成されたネイティブ音素認識結果と、そのネイティブ音素認識結果に対応するネイティブ音素書起しを入力とし、非ネイティブ音素頻度集計部20と同様に、ネイティブ音素混同行列を生成する。生成したネイティブ音素混同行列は、音素誤り獲得部22へ送られる。
ステップS22において、音素誤り獲得部22は、非ネイティブ音素混同行列とネイティブ音素混同行列とを入力とし、ネイティブ音素認識結果と比較して非ネイティブ音素認識結果の方が誤りやすい音素ペアを音素誤りとして獲得する。獲得した音素誤りは、音素誤り記憶部23へ記憶される。
音素誤りの獲得は、例えば、以下のようにして行う。ある音素について、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから、書起し側音素がその音素と一致する行を抽出し、各認識結果側音素について、その認識結果側音素の出現頻度と、その認識結果側音素以外の音素の出現頻度の総和とを算出する。算出した認識結果側音素の出現頻度とそれ以外の音素の出現頻度の総和との集合を頻度分布とみなし、非ネイティブ発話に関する頻度分布とネイティブ発話に関する頻度分布とが同じかどうかについてカイ2乗検定を行う。これにより、ある書起し側音素と各認識結果側音素との音素ペアについて、ネイティブ発話と非ネイティブ発話とで誤り傾向が異なるか否かを表すカイ2乗値を得ることができる。上述の計算をすべての書起し側音素について行い、各音素ペアとカイ2乗値を関係付けて音素誤りとして記憶する。なお、この発明では音素誤りを抽出することを目的としているため、書起し側音素と認識結果側音素とが同一の場合はカイ2乗値計算の対象外として構わないが、仮に計算対象としても以降の処理に影響することはない。
図5を参照して、音素誤りの獲得方法について、より詳細に説明する。非ネイティブ音素混同行列とネイティブ音素混同行列は、書起し側音素と認識結果側音素のすべての音素ペアに関する出現頻度を並べた行列である。まず、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから書起し側音素が「/a/」である行を抽出する。次に、ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度(#1)と、認識結果側音素が「/b/」以外である出現頻度の総和(#2)を算出する。同様に、非ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度(#3)と、認識結果側音素が「/b/」以外である出現頻度の総和(#4)を算出する。こうして算出した出現頻度#1, #2, #3, #4を値にもつ観測頻度行列を生成し、さらに、次式により計算される出現頻度#1', #2', #3', #4'を値にもつ期待頻度行列を生成する。
Figure 0006577900
こうして音素ペア毎に生成した観測頻度行列と期待頻度行列を用いて、次式によりカイ2乗値χ2を計算する。算出したカイ2乗値は各音素ペアと紐づけて音素誤りとして音素誤り記憶部23へ記憶される。
Figure 0006577900
上記の計算は各音素ペアすべてに対して行う。これにより、すべての音素ペアそれぞれに対してカイ2乗値が付与されて音素誤り記憶部23へ記憶されることになる。
<辞書追加装置>
実施形態の辞書追加装置は、図6に示すように、音素誤り記憶部23、ネイティブ発音辞書記憶部30、複数読み追加部31、および非ネイティブ発音辞書記憶部32を含む。音素誤り記憶部23には、音素誤り獲得装置により生成された音素誤りが記憶されている。この辞書追加装置が図7に示す各ステップの処理を行うことにより実施形態の辞書追加方法が実現される。
以下、図7を参照して、実施形態の辞書追加方法の処理手続きを説明する。
ステップS31において、複数読み追加部31は、音素誤り記憶部23に記憶された音素誤りからカイ2乗値に基づいて音素ペアを抽出する。音素ペアの抽出方法は、例えば、予め定めた閾値を上回るカイ2乗値を持つ音素ペアを抽出してもよいし、カイ2乗値の大きい順に所定の数の音素ペアを抽出してもよい。
ステップS32において、複数読み追加部31は、抽出した音素ペアを用いて、ネイティブ発音辞書記憶部30に記憶されたネイティブ発音辞書に変動読みを追加する。ネイティブ発音辞書は、例えば、ネイティブ話者の標準的な読みを単語に付与した単語読み辞書である。ネイティブ発音辞書に変動読みを追加した非ネイティブ発音辞書は、非ネイティブ発音辞書記憶部32に記憶される。
変動読みの追加は、例えば、以下のようにして行う。抽出した一つ以上の音素ペアについて、音素ペアの書起し側音素と一致する音素を読みにもつ単語をネイティブ発音辞書から選択し、その読み中の書起し側音素を認識結果側音素に置き換えて、変動読みとして追加する。その際、変動読みに対する確率は、元の単語に紐づいた確率を等分してもよいし、適当な非ネイティブ読みのための変動確率を定義し、それに基づいた基準で決定してもよいし、カイ2乗値が高いほど変動確率が高いとみなすような基準で決定してもよい。一つの単語について抽出した音素ペアの書起し側音素と一致するものが複数あった場合、すべての組み合わせについて変動読みを追加してもよいし、カイ2乗値が高いほど非ネイティブ性が高いものとし、それに基づいた基準で一つ以上の単語を選択して変動読みを追加してもよいし、適当な閾値を決めてその個数までの単語を選択して変動読みを追加してもよいし、非ネイティブ発話の音素誤りに関する外部知識を用いてルールを決定し、そのルールを用いて変動読みを追加してもよい。
<音声認識装置>
実施形態の音声認識装置は、図8に示すように、非ネイティブ発音辞書記憶部32、言語モデル記憶部40、および音声認識部41を含む。非ネイティブ発音辞書記憶部32には、辞書追加装置により生成された非ネイティブ発音辞書が記憶されている。言語モデル記憶部40には、音声認識において用いられる標準的な言語モデルが記憶されている。この音声認識装置が図9に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
以下、図9を参照して、実施形態の音声認識方法の処理手続きを説明する。
ステップS41において、音声認識部41は、非ネイティブ発音辞書記憶部32に記憶された非ネイティブ発音辞書と言語モデル記憶部40に記憶された言語モデルとを用いて、入力された非ネイティブ発話の音声データを音声認識し、音声認識結果を出力する。ここで用いる言語モデルはどのようなものであってもよく、従来のネイティブ発話に対して用いる言語モデルであってもよい。
<変形例1>
上述の実施形態では、ネイティブ発話と非ネイティブ発話とを比較して非ネイティブ発話で誤りやすい音素のみを抽出して発音辞書へ変動読みを追加する構成を説明した。この発明の音声認識技術は、同様にして、方言や訛りなどの標準的な言語体系から外れた発話に適用して、例えば、方言発話に特有の音素誤りのみを抽出して発音辞書へ変動読みを追加することも可能である。
<変形例2>
カイ2乗値の計算において、ネイティブ発話に関する項と、非ネイティブに関する項を逆にしてもよい。すなわち、次式によりカイ2乗値を計算してもよい。
Figure 0006577900
<変形例3>
音素認識装置において、音響モデル学習に用いる音声と音素認識に用いる音声とは異なるものである構成を説明した。しかしながら、これらの音声は同じものであってもよい。すなわち、非ネイティブ音素認識部18が用いる非ネイティブ音声と非ネイティブ単語書起しは、非ネイティブ音響モデル学習部14が用いる非ネイティブ音声と非ネイティブ単語書起しの全部もしくは一部であってもよく、ネイティブ音素認識部19が用いるネイティブ音声とネイティブ単語書起しは、ネイティブ音響モデル学習部15が用いるネイティブ音声とネイティブ単語書起しの全部もしくは一部であってもよい。
<変形例4>
辞書追加装置において、カイ2乗値に基づいて抽出した音素ペアを用いて変動読みを追加する構成を説明した。しかしながら、同様に音素ペアを抽出した後、他の開発セット等の音声データを用意し、それに対していくつかの音素組み合わせに対して音声認識を実施し、音声認識精度等の認識結果評価尺度を計算し、その値に基づいて変動読みの追加に用いる音素ペアを決定してもよい。
<変形例5>
音素誤り獲得装置において、カイ2乗検定によりネイティブ発話と非ネイティブ発話で誤りやすい音素の抽出を行った。しかしながら、ネイティブと非ネイティブの頻度分布の類似性の判定または類似性の定量的評価方法としては、カイ2乗検定に限定されず、その他の統計学的検定法や頻度値によるヒューリスティクスを用いてもよい。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10 非ネイティブ書記素音素変換部
11 ネイティブ書記素音素変換部
12 非ネイティブ音素書起し記憶部
13 ネイティブ音素書起し記憶部
14 非ネイティブ音響モデル学習部
15 ネイティブ音響モデル学習部
16 非ネイティブ音響モデル記憶部
17 ネイティブ音響モデル記憶部
18 非ネイティブ音素認識部
19 ネイティブ音素認識部
20 非ネイティブ音素頻度集計部
21 ネイティブ音素頻度集計部
22 音素誤り獲得部
23 音素誤り記憶部
30 ネイティブ発音辞書記憶部
31 複数読み追加部
32 非ネイティブ発音辞書記憶部
40 言語モデル記憶部
41 音声認識部

Claims (4)

  1. 非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計する非ネイティブ音素頻度集計部と、
    ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、
    上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、
    を含む音素誤り獲得装置。
  2. 請求項1に記載の音素誤り獲得装置であって、
    上記非ネイティブ音素頻度集計部は、上記非ネイティブ音素認識結果を上記非ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつ非ネイティブ音素混同行列を生成するものであり、
    上記ネイティブ音素頻度集計部は、上記ネイティブ音素認識結果を上記ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつネイティブ音素混同行列を生成するものであり、
    上記音素誤り獲得部は、上記非ネイティブ音素混同行列と上記ネイティブ音素混同行列とをそれぞれ頻度分布とみなして、上記音素ペア毎に検定値を算出し、その検定値を音素ペアに付与した音素誤りを獲得するものである、
    音素誤り獲得装置。
  3. 非ネイティブ音素頻度集計部が、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
    ネイティブ音素頻度集計部が、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
    音素誤り獲得部が、上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する、
    音素誤り獲得方法。
  4. 請求項1または2に記載の音素誤り獲得装置としてコンピュータを機能させるためのプログラム。
JP2016081898A 2016-04-15 2016-04-15 音素誤り獲得装置、音素誤り獲得方法、およびプログラム Active JP6577900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016081898A JP6577900B2 (ja) 2016-04-15 2016-04-15 音素誤り獲得装置、音素誤り獲得方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016081898A JP6577900B2 (ja) 2016-04-15 2016-04-15 音素誤り獲得装置、音素誤り獲得方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017191278A JP2017191278A (ja) 2017-10-19
JP6577900B2 true JP6577900B2 (ja) 2019-09-18

Family

ID=60084752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016081898A Active JP6577900B2 (ja) 2016-04-15 2016-04-15 音素誤り獲得装置、音素誤り獲得方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6577900B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6997993B2 (ja) * 2018-09-11 2022-01-18 日本電信電話株式会社 語学学習支援装置、その方法、およびプログラム
CN112133325B (zh) * 2020-10-14 2024-05-07 北京猿力未来科技有限公司 错误音素识别方法及装置
CN112634874B (zh) * 2020-12-24 2022-09-23 江西台德智慧科技有限公司 一种基于人工智能的自动调音终端设备

Also Published As

Publication number Publication date
JP2017191278A (ja) 2017-10-19

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US10249294B2 (en) Speech recognition system and method
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
Schuster et al. Japanese and korean voice search
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN114038447A (zh) 语音合成模型的训练方法、语音合成方法、装置及介质
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
Srivastava et al. Homophone Identification and Merging for Code-switched Speech Recognition.
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
Coto‐Solano Computational sociophonetics using automatic speech recognition
Schlippe et al. Automatic Error Recovery for Pronunciation Dictionaries.
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Chalamandaris et al. Rule-based grapheme-to-phoneme method for the Greek
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190823

R150 Certificate of patent or registration of utility model

Ref document number: 6577900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150