JP6568429B2 - Pronunciation sequence expansion device and program thereof - Google Patents
Pronunciation sequence expansion device and program thereof Download PDFInfo
- Publication number
- JP6568429B2 JP6568429B2 JP2015167821A JP2015167821A JP6568429B2 JP 6568429 B2 JP6568429 B2 JP 6568429B2 JP 2015167821 A JP2015167821 A JP 2015167821A JP 2015167821 A JP2015167821 A JP 2015167821A JP 6568429 B2 JP6568429 B2 JP 6568429B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- pronunciation
- sequence
- dictionary
- pronunciation dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、発音辞書の発音系列に対して、発話音声の発音系列を拡張する発音系列拡張装置およびそのプログラムに関する。 The present invention relates to a pronunciation sequence expansion device for expanding a pronunciation sequence of uttered speech with respect to a pronunciation sequence of a pronunciation dictionary and a program thereof.
通常、音声認識では、単語と当該単語の発音系列(音素列)とを対応付けた発音辞書を用いている。この発音辞書には、一般的な辞書に記載されているような単語に対する読みが発音として登録されている。
しかし、表記上の読みと実際に発話された発音とでは異なることが多い。例えば、放送番組では、ニュース番組のアナウンサの正確な(発音辞書の発音と近い)発音に比べ、情報番組の出演者の発話は曖昧な発音が多い。
このように、実際に発話された発音が、発音辞書に登録された読みから変動を起こしていた場合、発音内容と単語が一致しないことになる。その場合、音声認識では、発音内容に近い単語を選択するため、誤認識が発生してしまう。
Usually, in speech recognition, a pronunciation dictionary in which a word is associated with a pronunciation sequence (phoneme string) of the word is used. In this pronunciation dictionary, pronunciations of words as described in general dictionaries are registered as pronunciations.
However, the reading on the notation and the pronunciation actually spoken are often different. For example, in broadcast programs, the utterances of performers in information programs are often ambiguous compared to the exact (close to the pronunciation dictionary) pronunciation of news program announcers.
Thus, when the pronunciation actually spoken has changed from the reading registered in the pronunciation dictionary, the pronunciation content and the word do not match. In that case, in speech recognition, a word close to the pronunciation content is selected, and thus erroneous recognition occurs.
近年、このような発音変動(変形)に関する研究は、数多く行われている。
例えば、発音辞書に、標準的な発音に加え、発話音声を忠実に書き起こした書き起こしテキストを発音変動事例として追加登録する手法が開示されている(非特許文献1)。
この発話音声の書き起こしテキストを利用する手法は、発音変動の規則を、人手を介して登録する必要があり、また、その規則の元となる事例を多数得なければならない等、膨大な労力を要する。
In recent years, many studies on such pronunciation variation (deformation) have been conducted.
For example, there is disclosed a method of additionally registering, as a pronunciation variation example, a transcription text that faithfully transcribes an uttered voice in addition to a standard pronunciation in a pronunciation dictionary (Non-patent Document 1).
This method of using the transcribed speech text requires enormous effort, such as the need to register the rules of pronunciation variation manually, and to obtain a large number of cases that are the basis of the rules. Cost.
そこで、本願の発明者らは、発音変動を音素列の変動として捉え、発音辞書の発音系列に対して、発話音声の発音系列(音素列)を拡張する手法を提案した(非特許文献2参照)。
この手法を用いることで、発話音声の書き起こしテキストを利用することなく、発音辞書に対して、実発話に基づく発音変動を考慮した発音系列を拡張することができる。
Therefore, the inventors of the present application have proposed a method of capturing pronunciation variation as phoneme sequence variation and extending the pronunciation sequence (phoneme sequence) of the uttered speech to the pronunciation sequence of the pronunciation dictionary (see Non-Patent Document 2). ).
By using this method, it is possible to extend the pronunciation sequence in consideration of the pronunciation variation based on the actual utterance to the pronunciation dictionary without using the transcription text of the uttered speech.
非特許文献2の手法は、発話音声の書き起こしテキストを利用することなく、発音系列を拡張することができる点で優れているが、さらなる改良の余地があった。
非特許文献2には、統計的機械翻訳を行う際の素性の重みパラメータ(翻訳パラメータ)を最適化する方法について言及されていなかった。なお、素性とは、機械翻訳において、種々の識別の判定基準に使用する情報である。
一般に、統計的機械翻訳には、標準的な素性として、言語モデルや翻訳モデルの尤度、フレーズペナルティ、単語ペナルティ等の素性があり、これらの素性の重みを翻訳パラメータとして最適化して翻訳に用いている。
具体的には、統計的機械翻訳は、素性(言語モデル尤度等)kの重みλkを翻訳パラメータとし、翻訳文候補をe、翻訳文候補の素性値(言語モデル尤度値等)をfk(e)としたとき、翻訳結果e^(eハット)を、以下の式(1)に示すように、fk(e)の重み付けを最大にする翻訳文候補(仮説)eとして翻訳する。
The method of Non-Patent Document 2 is excellent in that the pronunciation sequence can be expanded without using the transcription text of the uttered speech, but there is room for further improvement.
Non-Patent Document 2 did not mention a method for optimizing a feature weight parameter (translation parameter) when performing statistical machine translation. The feature is information used for various identification criteria in machine translation.
In general, statistical machine translation has features such as likelihood of language model and translation model, phrase penalty, word penalty, etc. as standard features. The weights of these features are optimized as translation parameters and used for translation. ing.
Specifically, statistical machine translation uses a weight λ k of a feature (language model likelihood or the like) k as a translation parameter, a translation sentence candidate as e, and a feature value of the translation sentence candidate (language model likelihood value or the like). When f k (e) is assumed, the translation result e ^ (e hat) is translated as a translation sentence candidate (hypothesis) e that maximizes the weight of f k (e) as shown in the following equation (1). To do.
このパラメータの最適化は、一般的な言語の翻訳の場合、翻訳結果と参照訳とが、文意が同じであるか等の評価値に基づいて、評価が高くなるように調整している。ここで、参照訳とは、一般的に原言語の翻訳前の評価文に対して専門家が実際に翻訳し作成したものである。
通常、統計的機械翻訳の素性の最適化には、BLEU(BiLingual Evaluation Understudy)、レーベンシュタイン(Levenshtein)距離、RIBES(Rank-based Intuitive Bilingual Evaluation Score)といった評価値を基準に最適化アルゴリズムを適用することで最適化を行っている。
しかし、非特許文献2の手法のように、発音系列を拡張する場合、評価基準となる参照訳が存在しないことに加え、発音系列の拡張に適切な評価値が知られていないため、言語モデル、翻訳モデル等の素性の重みパラメータ(翻訳パラメータ)を最適化することができなかった。
In the case of translation in a general language, this parameter optimization is adjusted so that the evaluation is high based on an evaluation value such as whether the translation result and the reference translation have the same sentence meaning. Here, the reference translation is generally created by an expert actually translating an evaluation sentence before translation in the source language.
In general, optimization of statistical machine translation features uses optimization algorithms based on evaluation values such as BLEU (BiLingual Evaluation Understudy), Levenshtein distance, RIBES (Rank-based Intuitive Bilingual Evaluation Score) The optimization is done.
However, when the pronunciation sequence is expanded as in the method of Non-Patent Document 2, there is no reference translation as an evaluation standard, and an evaluation value appropriate for expansion of the pronunciation sequence is not known. The feature weight parameter (translation parameter) such as the translation model could not be optimized.
本発明は、このような問題に鑑みてなされたものであり、発音辞書の発音系列に対して、発話音声の発音系列(音素列)を拡張する際に翻訳パラメータを調整して、発音辞書を拡張することが可能な発音系列拡張装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of such a problem. The pronunciation parameter is adjusted by adjusting the translation parameter when expanding the pronunciation sequence (phoneme sequence) of the uttered speech with respect to the pronunciation sequence of the pronunciation dictionary. It is an object of the present invention to provide a pronunciation sequence expansion device that can be expanded and a program thereof.
前記課題を解決するため、本発明に係る発音系列拡張装置は、見出し語とその発音系列を示す音素列とを対応付けた発音辞書と、文脈依存音素の音響モデルと、音声とその書き起こしテキストとを対応付けた学習コーパスとにより、前記発音辞書における前記見出し語の発音系列を拡張する発音系列拡張装置であって、音素列生成手段と、文脈依存音素発音辞書生成手段と、文脈依存音素n−gramモデル生成手段と、音素認識手段と、統計的機械翻訳モデル生成手段と、翻訳手段と、パラメータ設定手段と、拡張手段と、発音辞書選択手段と、を備える構成とした。 In order to solve the above problems, a pronunciation sequence expansion device according to the present invention includes a pronunciation dictionary in which a headword and a phoneme string indicating the pronunciation sequence are associated with each other, an acoustic model of a context-dependent phoneme, speech, and a transcription text thereof. Is a pronunciation sequence expansion device that expands the pronunciation sequence of the headword in the pronunciation dictionary using a learning corpus associated with the phoneme string generation unit, the context-dependent phoneme pronunciation dictionary generation unit, and the context-dependent phoneme n -Gram model generation means, phoneme recognition means, statistical machine translation model generation means, translation means, parameter setting means, expansion means, and pronunciation dictionary selection means.
かかる構成において、発音系列拡張装置は、音素列生成手段によって、文脈依存音素の音響モデルと発音辞書とにより、発音辞書の見出し語単位で音素のアライメント(強制アライメント)を行うことで音素列を生成する。
ここで、文脈依存音素とは、特定の音素を中心とした前後の音素列を考慮した音素、あるいは音素の単語内での位置(語頭、語中、語末等)である。代表的な文脈依存音素の一例は、3つの音素で構成されるトライフォン(triphone)、5つの音素で構成されるクイントフォン(quintphone)がある。
In such a configuration, the phoneme sequence expansion device generates a phoneme sequence by phoneme sequence generation means by performing phoneme alignment (forced alignment) in units of headwords in the pronunciation dictionary using the context-dependent phoneme acoustic model and the pronunciation dictionary. To do.
Here, the context-dependent phoneme is a phoneme that takes into consideration a phoneme string before and after a specific phoneme, or a position of a phoneme within a word (beginning of word, end of word, end of word, etc.). An example of a typical context-dependent phoneme is a triphone composed of three phonemes, and a quintphone composed of five phonemes.
そして、発音系列拡張装置は、文脈依存音素発音辞書生成手段によって、見出し語およびその発音系列を組とする、音素発音辞書を生成する。
また、発音系列拡張装置は、文脈依存音素n−gramモデル生成手段によって、文脈依存音素の連接確率(n−gram)を統計的にモデル化する。
このように、文脈依存音素を単位として音素系列を拡張するため、音素単位で音声認識可能な発音辞書および言語モデルが生成されることになる。
Then, the pronunciation sequence expansion device generates a phoneme pronunciation dictionary including the headword and its pronunciation sequence as a set by the context-dependent phoneme pronunciation dictionary generation unit.
The phonetic sequence expansion device statistically models the concatenation probability (n-gram) of the context-dependent phonemes by the context-dependent phoneme n-gram model generation means.
In this way, since the phoneme sequence is expanded in units of context-dependent phonemes, a pronunciation dictionary and a language model that can be recognized by phonemes are generated.
そして、発音系列拡張装置は、音素認識手段によって、文脈依存音素発音辞書と文脈依存音素n−gramモデルとにより、学習コーパスの音声を音素単位で音声認識することで、音声の前後の発音変動をより正確に表現した音素列を生成することができる。 Then, the phonetic sequence expansion device recognizes the pronunciation variation before and after the speech by recognizing the speech of the learning corpus by the phoneme recognition means by the context-dependent phoneme pronunciation dictionary and the context-dependent phoneme n-gram model. A phoneme string expressed more accurately can be generated.
そして、発音系列拡張装置は、統計的機械翻訳モデル生成手段によって、音素列生成手段で生成された単一音素の音素列である標準音素列と、音素認識手段で認識された音素列である実発話音素列とを対訳データとして学習し、標準音素列の任意のフレーズから実発話音素列の任意のフレーズへ翻訳するための確率モデルである統計的機械翻訳モデルを生成することで、正確な発音である標準音素列から、発音変動を伴った実発話音素列へ翻訳を行うためのモデルを生成する。 Then, the phonetic sequence expansion device includes a standard phoneme sequence that is a phoneme sequence of a single phoneme generated by the phoneme sequence generation unit and a phoneme sequence that is recognized by the phoneme recognition unit by the statistical machine translation model generation unit. Accurate pronunciation by learning a phoneme sequence as a parallel translation data and generating a statistical machine translation model that is a probabilistic model for translating from any phrase in the standard phoneme sequence to any phrase in the actual phoneme sequence A model is generated for translating from the standard phoneme sequence to the actual speech phoneme sequence with pronunciation variation.
そして、発音系列拡張装置は、翻訳手段によって、設定される翻訳パラメータを用いて、統計的機械翻訳モデルにより、発音辞書に登録されている見出し語に対応する音素列が翻訳結果の文字列として翻訳される確率が最大となる文字列を求め、当該見出し語に対応する音素列を翻訳することで、発音辞書に登録されている正しい音素列に対して、発音変動を加味した音素列を生成する。
そして、発音系列拡張装置は、拡張手段によって、翻訳手段で翻訳された音素列を新たな発音系列を示す音素列として見出し語に追加することで、拡張した発音辞書を生成する。
このとき、発音系列拡張装置は、パラメータ設定手段によって、翻訳手段で使用する1以上の素性に対応する翻訳パラメータを複数設定することで、拡張手段によって、異なる翻訳パラメータごとに、拡張発音辞書の候補となる複数の拡張発音辞書候補が生成される。
The phonetic sequence expansion device translates the phoneme string corresponding to the headword registered in the pronunciation dictionary as the character string of the translation result by the statistical machine translation model using the translation parameter set by the translation means. A phoneme string that generates pronunciation variation is generated for a correct phoneme string registered in the pronunciation dictionary by obtaining a character string that maximizes the probability of being played and translating the phoneme string corresponding to the entry word. .
The pronunciation sequence expansion device generates an expanded pronunciation dictionary by adding the phoneme string translated by the translation means to the headword as a phoneme string indicating a new pronunciation sequence by the expansion means.
At this time, the pronunciation sequence expansion device sets a plurality of translation parameters corresponding to one or more features used in the translation unit by the parameter setting unit, so that the expansion unit can select an extended pronunciation dictionary candidate for each different translation parameter. A plurality of extended pronunciation dictionary candidates are generated.
そして、発音系列拡張装置は、発音辞書選択手段によって、既知の学習データである音声と当該音声に対応する単語列とに基づいて、複数の拡張発音辞書候補の中から拡張発音辞書を選択する。
この選択は、既知の学習データである音声に対応する単語列の音響尤度を最大とする拡張発音辞書候補を選択することとしてもよいし、既知の学習データである音声を音素認識した音素列と、拡張発音辞書候補を用いて既知の学習データである音声に対応する単語列の最尤音素列との編集距離が最小となる拡張発音辞書候補を選択することとしてもよい。
Then, the pronunciation sequence expansion device selects an extended pronunciation dictionary from a plurality of extended pronunciation dictionary candidates based on the speech that is known learning data and the word string corresponding to the speech by the pronunciation dictionary selection unit.
This selection may be performed by selecting an extended pronunciation dictionary candidate that maximizes the acoustic likelihood of a word string corresponding to speech that is known learning data, or a phoneme sequence obtained by phoneme recognition of speech that is known learning data. Alternatively, the extended pronunciation dictionary candidate may be selected by using the extended pronunciation dictionary candidate to minimize the editing distance from the maximum likelihood phoneme sequence of the word sequence corresponding to the speech that is known learning data.
なお、発音系列拡張装置は、コンピュータを、音素列生成手段、文脈依存音素発音辞書生成手段、文脈依存音素n−gramモデル生成手段、音素認識手段、統計的機械翻訳モデル生成手段、翻訳手段、パラメータ設定手段、拡張手段、発音辞書選択手段として機能させるための発音系列拡張プログラムで動作させることができる。 The phonetic sequence expansion apparatus includes a computer, a phoneme string generation unit, a context-dependent phoneme pronunciation dictionary generation unit, a context-dependent phoneme n-gram model generation unit, a phoneme recognition unit, a statistical machine translation model generation unit, a translation unit, and a parameter. It can be operated by a pronunciation sequence expansion program for functioning as setting means, expansion means, and pronunciation dictionary selection means.
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、発音辞書に対して、実発話に基づく発音変動を考慮して、発音系列を拡張することができる。また、本発明によれば、発音辞書における同様の発音変動が発生する見出し語に対して、発音系列を統計的な手段に基づいて拡張することができる。
また、本発明によれば、翻訳パラメータを変更して生成した拡張発音辞書候補の中から、既知の学習データに基づいて、適切な拡張発音辞書を選択することができる。このとき、翻訳パラメータをより多く設定することで、拡張発音辞書を最適化することが可能になる。
これによって、本発明で拡張された発音辞書を用いることで、今まで発音辞書に登録されていなかった標準的な発音以外の発音であっても、精度よく音声認識することが可能になる。
The present invention has the following excellent effects.
According to the present invention, the pronunciation sequence can be expanded with respect to the pronunciation dictionary in consideration of pronunciation fluctuations based on actual utterances. Further, according to the present invention, the pronunciation series can be expanded based on statistical means for the headwords in which similar pronunciation fluctuations occur in the pronunciation dictionary.
Further, according to the present invention, an appropriate extended pronunciation dictionary can be selected based on known learning data from the extended pronunciation dictionary candidates generated by changing the translation parameters. At this time, it is possible to optimize the extended pronunciation dictionary by setting more translation parameters.
As a result, by using the pronunciation dictionary expanded in the present invention, it is possible to accurately recognize speech even with pronunciations other than standard pronunciations that have not been registered in the pronunciation dictionary until now.
以下、本発明の実施形態について図面を参照して説明する。
≪第1実施形態≫
〔発音系列拡張装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る発音系列拡張装置1の構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
<< First Embodiment >>
[Configuration of Pronunciation Series Expansion Device]
First, the configuration of the pronunciation sequence expansion device 1 according to the first embodiment of the present invention will be described with reference to FIG.
発音系列拡張装置1は、発音辞書100に登録されている発音(発音系列)に、実発話による発音(発音系列)を対応付けて拡張し、拡張発音辞書103を生成するものである。この発音系列拡張装置1は、発音辞書100と、音響モデル101と、学習コーパス102とから、発音辞書100に登録されていない発音系列を拡張することで、拡張発音辞書103を生成する。
The pronunciation sequence expansion device 1 generates an
発音辞書100は、拡張の元となる発音辞書で、所定の文字列である見出し語(ここでは、単語とする)ごとに、その発音系列を示す子音と母音との構成(音素列)を示した辞書である。
この発音辞書100は、従来の発音辞書として、人手を介して文字列(単語)とその発音系列とを対応付けた辞書であってもよいし、発音系列拡張装置1によって拡張された拡張発音辞書103をさらに拡張させたい場合は、拡張発音辞書103を発音辞書100として用いてもよい。
The
The
音響モデル101は、大量の音声データから予め学習した音素ごとの音響特徴量(メル周波数ケプストラム係数等)を隠れマルコフモデル(HMM:Hidden Markov Model)によってモデル化したものである。本実施例における音響モデル101は、従来の音声認識において用いられるトライフォンHMMである。
なお、音響モデル101における音響特徴量の尤度計算は、従来より用いられているガウス混合モデル(GMM:Gaussian mixture model)音響モデルであっても、ディープニュートラルネットワーク(DNN:Deep Neural Network)音響モデルであっても構わない。
The
Note that the likelihood calculation of the acoustic feature quantity in the
学習コーパス102は、予め大量の音声データ(音声コーパス)と、音声データの書き起こしテキスト(テキストコーパス)とを対応付けたデータである。この学習コーパス102は、例えば、ニュース番組、情報番組等におけるアナウンサ、リポータ等の約1000時間程度の音声(音声コーパス)と、その音声を書き起こしたテキスト(テキストコーパス)である。
なお、発音辞書100、音響モデル101および学習コーパス102は、それぞれ図示を省略した記憶手段に記憶されているものとする。
The
It is assumed that the
拡張発音辞書103は、発音系列拡張装置1によって、発音辞書100が拡張された辞書である。すなわち、拡張発音辞書103は、発音辞書100に登録されている文字列の発音系列(音素列)に、さらに、実発話により表現される発音系列(音素列)が拡張された辞書である。
以下、発音系列拡張装置1の構成について詳細に説明する。
The
Hereinafter, the configuration of the pronunciation sequence expansion device 1 will be described in detail.
図1に示すように、発音系列拡張装置1は、音素列生成手段10と、文脈依存発音辞書生成手段11と、文脈依存音素n−gramモデル生成手段12と、音素認識手段13と、統計的機械翻訳モデル生成手段14と、翻訳手段15と、拡張手段16と、パラメータ設定手段17と、発音辞書選択手段18と、を備える。
As shown in FIG. 1, the pronunciation sequence expansion device 1 includes a phoneme
音素列生成手段10は、発音辞書100と音響モデル101とに基づいて、学習コーパス102の音声(音声コーパス)を強制アライメントすることで、当該音声を、発音辞書100に登録されている文字列に対応する音素列に切り分けるものである。
すなわち、音素列生成手段10は、学習コーパス102の音声から、音響モデル101に対応する音響特徴量を抽出する。そして、音素列生成手段10は、音響モデル101の文脈依存HMMを用いて、音声の書き起こしテキスト(テキストコーパス)を事前知識とする音声認識を行うことで、音声を、発音辞書100に登録されている文字列(見出し語)に対応して切り分け(強制アライメント)、各文字列に対応する文脈依存音素列を抽出する。
The phoneme string generation means 10 forcibly aligns the speech (speech corpus) of the
That is, the phoneme
この音素列生成手段10は、生成した文脈依存音素10tを1つの単語として、図示を省略した記憶手段に記憶する。この文脈依存音素10tは、文脈依存発音辞書生成手段11および文脈依存音素n−gramモデル生成手段12において利用される。
また、音素列生成手段10は、文脈依存音素列から文脈非依存の音素列に変換し、標準音素列10mとする。この文脈非依存の音素列は、例えば、文脈依存音素列の中心音素を抽出したモノフォン(単一音素)の音素列である。この標準音素列10mは図示を省略した記憶手段に記憶され、統計的機械翻訳モデル生成手段14において利用される。
The phoneme
The phoneme string generation means 10 converts the context-dependent phoneme string into a context-independent phoneme string to obtain a
文脈依存発音辞書生成手段11は、見出し語およびその発音系列を組とする音素発音辞書(文脈依存発音辞書11t)を生成するものである。
この文脈依存発音辞書生成手段11は、生成した文脈依存発音辞書11tを、図示を省略した記憶手段に記憶する。この文脈依存発音辞書11tは、音素認識手段13において利用される。
The context-dependent pronunciation dictionary generation means 11 generates a phoneme pronunciation dictionary (context-
The context-dependent pronunciation
文脈依存音素n−gramモデル生成手段12は、音素列生成手段10で生成された複数の文脈依存音素10tから、n−gramモデル(文脈依存音素n−gramモデル12t)を生成するものである。この文脈依存音素n−gramモデル12tは、音素列生成手段10で生成された複数の文脈依存音素10tから、n−gramモデルにより統計的にモデル化したものである。
The context-dependent phoneme n-gram
文脈依存音素n−gramモデル12tは、文脈依存音素10tの出現頻度等をモデル化したものであって、生成手法は従来の単語に基づく言語モデルの手法と同じであるため、ここでは、詳細な説明を省略する。
この文脈依存音素n−gramモデル生成手段12は、生成した文脈依存音素n−gramモデル12tを、図示を省略した記憶手段に記憶する。この文脈依存音素n−gramモデル12tは、音素認識手段13において利用される。
The context-dependent phoneme n-
The context-dependent phoneme n-gram
音素認識手段13は、音響モデル101と、文脈依存発音辞書11tと、文脈依存音素n−gramモデル12tとを用いて、学習コーパス102の音声から音素を認識するものである。
この音素認識手段13は、学習コーパス102の音声から音響特徴量を抽出し、音響モデル101と文脈依存発音辞書11tとから文脈依存音素の候補をリストアップし、文脈依存音素n−gramモデル12tに基づく接続確率が最大となる音素列を認識結果とする。
すなわち、一般的な音声認識が単語単位で認識するのに対し、音素認識手段13は、文脈依存音素単位で認識し、実発話の音素列を生成する。
The phoneme recognition means 13 recognizes phonemes from the speech of the
The
That is, while general speech recognition is recognized in units of words, the
このように、音素認識手段13は、音素環境依存を考慮したものであるため、精度よく音素を認識することができる。
この音素認識手段13は、認識した音素列(実発話音素列13m)を、図示を省略した記憶手段に記憶する。この実発話音素列13mは、統計的機械翻訳モデル生成手段14において利用される。
Thus, since the phoneme recognition means 13 considers phoneme environment dependence, it can recognize a phoneme accurately.
The
統計的機械翻訳モデル生成手段14は、元の発音辞書100を用いて生成された標準音素列10mを原言語とし、文脈依存発音辞書11tおよび文脈依存音素n−gramモデル12tを用いて生成された実発話音素列13mを目的言語とする翻訳モデル(統計的機械翻訳モデル)を生成するものである。
The statistical machine translation model generation means 14 is generated using the
ここで、統計的機械翻訳モデルは、ベイズの定理により、原言語fが目的言語eに翻訳される確率が最大となって翻訳結果e^(eハット)が生成されるモデルとして、以下の式(2)で定式化されている。 Here, the statistical machine translation model is a model in which the probability that the source language f is translated into the target language e is maximized by the Bayes' theorem and the translation result e ^ (e hat) is generated. Formulated in (2).
この式(2)で、Pr(e|f)は、原言語fが目的言語eに翻訳される条件付き確率を示す。また、Pr(f|e)は、翻訳モデル(フレーズ翻訳モデル)であって、目的言語eが原言語fに翻訳される条件付き確率を示す。また、Pr(e)は、目的言語eの言語モデルであって、目的言語eの事前確率を示す。
ここでは、統計的機械翻訳モデル生成手段14は、フレーズ翻訳モデル生成手段141と、音素n−gramモデル生成手段142と、を備える。
In this equation (2), Pr (e | f) represents a conditional probability that the source language f is translated into the target language e. Pr (f | e) is a translation model (phrase translation model), and indicates a conditional probability that the target language e is translated into the source language f. Pr (e) is a language model of the target language e, and indicates the prior probability of the target language e.
Here, the statistical machine translation model generation unit 14 includes a phrase translation
フレーズ翻訳モデル生成手段141は、音素列生成手段10で生成された音素列である標準音素列10mと、音素認識手段13で生成された文脈依存音素列である実発話音素列13mとを対訳データとして、標準音素列10mのあるフレーズ(原言語フレーズ)が、実発話音素列13mのあるフレーズ(目的言語フレーズ)に翻訳される翻訳モデル(フレーズ翻訳モデル)を生成するものである。すなわち、フレーズ翻訳モデル141mは、前記式(2)の翻訳モデルPr(f|e)を生成するものである。
The phrase translation
なお、対訳データを用いて、翻訳モデルを生成する手法は一般的な手法を用いることができる。例えば、P.Koehnらによる“Moses: Open Source Toolkit for Statistical Machine Translation”(Proceedings of the ACL 2007 Demo and Poster Sessions, pages 177-180)に記載されているようなMoses等のツールを用いることができる。 Note that a general method can be used as a method of generating a translation model using parallel translation data. For example, tools such as Moses as described in “Moses: Open Source Toolkit for Statistical Machine Translation” (Proceedings of the ACL 2007 Demo and Poster Sessions, pages 177-180) by P. Koehn et al. Can be used. .
このフレーズ翻訳モデル生成手段141は、例えば、フレーズ翻訳モデル141mとして、図2に示すように、「原言語フレーズ」が「目的言語フレーズ」に翻訳される「確率[%]」をテーブル情報(フレーズテーブルFT)として生成する。
例えば、図2では、原言語フレーズの「kaQkok」が目的言語フレーズの「kakok」に翻訳される確率は、60.20(%)であることを示している。
なお、図2のフレーズテーブルFTの「例」の欄は、参考までに、各フレーズを音素列として含む単語を示しており、実際にテーブル内に含まれるものではない。
As shown in FIG. 2, the phrase translation model generation means 141, for example, stores “probability [%]” of “source language phrase” translated into “target language phrase” as table information (phrase) as shown in FIG. Table FT).
For example, FIG. 2 shows that the probability that the source language phrase “kaQkok” is translated into the target language phrase “kakok” is 60.20 (%).
Note that the “example” column in the phrase table FT in FIG. 2 shows words including each phrase as a phoneme string for reference, and is not actually included in the table.
このフレーズ翻訳モデル生成手段141は、生成したフレーズ翻訳モデル141mを、図示を省略した記憶手段に記憶する。このフレーズ翻訳モデル141mは、統計的機械翻訳モデル14mの一部として、翻訳手段15において利用される。
The phrase translation
音素n−gramモデル生成手段142は、音素認識手段13で生成された音素列である目的言語の実発話音素列13mから、言語モデル(音素n−gramモデル142m)を生成するものである。この音素n−gramモデル142mは、音素認識手段13で生成された実発話音素列13mから、音素(モノフォン)のn−gramを統計的にモデル化したものである。すなわち、音素n−gramモデル生成手段142は、前記式(2)の言語モデルPr(e)を生成するものである。
The phoneme n-gram
ここでは、音素n−gramモデル生成手段142は、予め所定数(例えば、40個)の音素を単語とする単語辞書(不図示)を参照し、学習テキストとして実発話音素列13mを入力して、音素n−gramモデル142mを生成する。この音素n−gramモデル生成手段142が使用する単語辞書の単語は、例えば、図3に示すような音素とする。
Here, the phoneme n-gram model generation means 142 refers to a word dictionary (not shown) having a predetermined number (for example, 40) of phonemes as words in advance, and inputs the actual
一般的な言語モデルの生成が単語の出現頻度等をモデル化したものであるのに対し、音素n−gramモデル142mは、音素の出現頻度等をモデル化したものである。よって、音素n−gramモデル生成手段142は、その対象となる素材(単語または音素)が異なるのみで、生成手法は従来の言語モデルの手法と同じであるため、ここでは、詳細な説明を省略する。
The generation of a general language model models the appearance frequency of a word, while the phoneme n-
この音素n−gramモデル生成手段142は、生成した音素n−gramモデル142mを、図示を省略した記憶手段に記憶する。この音素n−gramモデル142mは、統計的機械翻訳モデル14mの一部として、翻訳手段15において利用される。
The phoneme n-gram
翻訳手段15は、パラメータ設定手段17で設定される翻訳パラメータを用いて、元の発音辞書100に登録されている見出し語の発音系列(音素列)を、統計的機械翻訳モデル生成手段14で生成された統計的機械翻訳モデル14mに基づいて翻訳するものである。
すなわち、翻訳手段15は、前記式(2)により、見出し語の発音(原言語fの音素列に相当)が、フレーズ翻訳モデル141mであるPr(f|e)と、音素n−gramモデル142mであるPr(e)との同時確率が最大となる音素列を、見出し語の翻訳文(目的言語eの音素列に相当)として生成する。
The
That is, the translation means 15 uses Pr (f | e), which is the
なお、パラメータ設定手段17で設定される翻訳パラメータは、統計的機械翻訳を行う際の素性の重みであって、1以上の素性に対応するパラメータ群である。すなわち、翻訳手段15は、前記式(2)を素性ごとに対数表現した前記式(1)において、素性kごとの重みλkを用いて、前記式(1)により、翻訳文を生成する。
この素性は、例えば、前記したMosesを用いて翻訳を行う場合であれば、言語モデル(音素n−gramモデル142m)重み、翻訳モデル(フレーズ翻訳モデル141m)、単語ペナルティ(出力文の長さ制限)等である。
この翻訳手段15は、元の発音辞書100に登録されている見出し語ごとに、対応する発音系列の翻訳文を生成し、拡張手段16に出力する。
The translation parameters set by the parameter setting means 17 are feature weights when performing statistical machine translation, and are parameter groups corresponding to one or more features. That is, the
For example, in the case of performing translation using the above-mentioned Moses, this feature includes language model (phoneme n-
This translation means 15 generates a corresponding pronunciation sequence translation for each headword registered in the
拡張手段16は、元の発音辞書100に登録されている見出し語の発音系列に、翻訳手段15で翻訳された新たな発音(翻訳文)である音素列を拡張するものである。
すなわち、拡張手段16は、元の発音辞書100に登録されている見出し語に対応する翻訳文が翻訳手段15から入力されるたびに、その翻訳文(音素列)と、元の発音辞書100に登録されている発音系列(音素列)とを比較する。そして、拡張手段16は、翻訳文と元の発音系列とが一致しない場合、当該見出し語に対して、翻訳文を新たな発音系列として追加する。
The extension means 16 extends a phoneme string that is a new pronunciation (translated sentence) translated by the translation means 15 to the pronunciation sequence of the headword registered in the
That is, each time the translated text corresponding to the headword registered in the
ここでは、拡張手段16は、元の発音辞書100の見出し語に対する発音系列(元の発音系列および新たな発音系列)を、新たな発音辞書として拡張発音辞書候補16dを生成する。もちろん、拡張手段16は、元の発音辞書100に新たな発音系列のみを追加することとしてもよい。
この拡張手段16は、パラメータ設定手段17による新たな翻訳パラメータの設定が実施されるたびに、順次、新たな拡張発音辞書候補16dを生成し、図示を省略した記憶手段に記憶する。また、拡張手段16は、新たな拡張発音辞書候補16dを生成した旨を、発音辞書選択手段18に通知する。
Here, the expansion means 16 generates an extended pronunciation dictionary candidate 16d with the pronunciation series (the original pronunciation series and the new pronunciation series) for the entry word in the
Each time the
パラメータ設定手段17は、翻訳手段15で用いる素性の翻訳パラメータを順次変更して設定するものである。すなわち、パラメータ設定手段17は、前記式(1)において、素性kごとの重みλkを適宜変更して、翻訳手段15に出力することで、翻訳を実行させる。
このパラメータ設定手段17は、翻訳パラメータを構成する素性ごとの個々のパラメータの予め定めた制限範囲内の値を格子とする格子探索法により、適宜パラメータを変更することで、異なる翻訳パラメータを設定する。なお、パラメータ設定手段17は、すべての素性のパラメータを網羅的に変更する必要はなく、予め定めたパラメータについてのみ変更を行うこととしてもよい。
The parameter setting means 17 sequentially changes and sets the feature translation parameters used in the translation means 15. That is, the
The parameter setting means 17 sets different translation parameters by appropriately changing the parameters by a lattice search method using a value within a predetermined limit range of each parameter for each feature constituting the translation parameters as a lattice. . Note that the
このパラメータ設定手段17は、翻訳パラメータを設定するたびに、その旨を拡張手段16に通知する。また、パラメータ設定手段17は、翻訳パラメータの変更がすべて完了した場合、その旨を発音辞書選択手段18に通知する。
The
発音辞書選択手段18は、既知の学習データに基づいて、拡張手段16によって順次生成される複数の拡張発音辞書候補16d,16d,…の中から1つを選択するものである。この発音辞書選択手段18は、1つの拡張発音辞書候補16dを選択する基準として、既知の学習データに対する音響尤度を用いる。
ここでは、発音辞書選択手段18は、音響尤度算出手段181と、尤度最大辞書選択手段182と、を備える。
The pronunciation
Here, the pronunciation
音響尤度算出手段181は、音響モデル101および拡張発音辞書候補16dを用いて、既知の学習データである音声に対応する単語列(テキスト)を強制アライメント(強制単語アライメント)して、当該単語列を音素列に切り分けたときの音響尤度を算出するものである。なお、強制アライメントにより音響尤度を求めるには、一般的な手法、例えば、Kaldi Toolkit等のツールを用いることができる。
また、ここでは、既知の音声およびそれに対応する単語列として、学習コーパス102の一部を用いるが、学習コーパス102とは異なる音声と、その音声の書き起こしテキストであっても構わない。
この音響尤度算出手段181は、算出した音響尤度を尤度最大辞書選択手段182に出力する。
The acoustic likelihood calculating means 181 uses the
Here, a part of the
The acoustic
尤度最大辞書選択手段182は、音響尤度算出手段181で算出された音響尤度が最大となる拡張発音辞書候補16dを選択するものである。
ここでは、尤度最大辞書選択手段182は、拡張手段16によって、拡張発音辞書候補16dが生成されるたびに、前回生成された拡張発音辞書候補16dと今回生成された拡張発音辞書候補16dとの音響尤度算出手段181で算出された音響尤度を比較し、音響尤度の大きい拡張発音辞書候補16dを記憶手段(不図示)に残し、音響尤度の小さい拡張発音辞書候補16dを記憶手段(不図示)から削除する。
The maximum likelihood
Here, every time the extended pronunciation dictionary candidate 16d is generated by the expansion means 16, the maximum likelihood dictionary selection means 182 determines whether the extended pronunciation dictionary candidate 16d generated last time and the extended pronunciation dictionary candidate 16d generated this time. The acoustic likelihood calculated by the acoustic likelihood calculating means 181 is compared, the extended pronunciation dictionary candidate 16d having a large acoustic likelihood is left in the storage means (not shown), and the extended pronunciation dictionary candidate 16d having a small acoustic likelihood is stored in the storage means. Delete from (not shown).
そして、尤度最大辞書選択手段182は、パラメータ設定手段17からすべての翻訳パラメータの変更が完了した旨を通知された段階で、記憶手段(不図示)に存在する拡張発音辞書候補16dを拡張発音辞書103とする。
これによって、発音辞書選択手段18は、翻訳パラメータが最適化された状態で生成された拡張発音辞書候補16dを選択することができる。
When the likelihood setting
Thereby, the pronunciation dictionary selection means 18 can select the extended pronunciation dictionary candidate 16d generated with the translation parameters optimized.
ここで、図4を参照して、発音系列拡張装置1によって拡張発音辞書103に追加された音素列の例について説明する。
図4に示すように、拡張発音辞書103は、「見出し語」、「元の音素列」、「追加音素列」で構成される。「見出し語」および「元の音素列」は、元の発音辞書100に登録されているものと同じで、「追加音素列」が、発音系列拡張装置1によって追加されたものである。
Here, an example of a phoneme string added to the
As shown in FIG. 4, the
例えば、図4では、見出し語「女川湾」に元の音素列「onagagawaN」が登録されており、発音系列拡張装置1によって、追加音素列「onagawaN」が追加された例を示している。また、同様に、見出し語「志津川湾」に元の音素列「shizugagawaN」が登録されており、発音系列拡張装置1によって、追加音素列「shizugawaN」が追加されている。
このように、発音系列拡張装置1は、発音のしにくさによって、単語内の音素列「gawawa」が「gawa」に発音変動する場合、個別に手動でこの変動規則を設定する必要がない。
For example, FIG. 4 shows an example in which the original phoneme string “onagagawaN” is registered in the headword “Onagawa Bay” and the additional phoneme string “onagawa N” is added by the pronunciation sequence expansion device 1. Similarly, the original phoneme string “shizugagawaN” is registered in the headword “Shizagawa Bay”, and the additional phoneme string “shizugawaN” is added by the pronunciation sequence expansion device 1.
As described above, the pronunciation sequence expansion device 1 does not need to manually set the variation rule individually when the phoneme string “gawa” in the word changes to “gawa” due to difficulty of pronunciation.
また、図4では、見出し語「ホームグラウンド」に元の音素列「ho:mugurauNdo」が登録されており、発音系列拡張装置1によって、追加音素列「ho:murauNdo」が追加された例を示している。
このように、発音系列拡張装置1は、長い単語中の発音しにくい奥舌性子音の「g」の欠落についても発音辞書に追加することができる。
Further, FIG. 4 shows an example in which the original phoneme string “ho: mugurauNdo” is registered in the headword “home ground”, and the additional phoneme string “ho: murauNdo” is added by the pronunciation sequence expansion device 1. ing.
As described above, the pronunciation sequence expansion device 1 can also add a missing “g” in the long tongue consonant that is difficult to pronounce in a long word to the pronunciation dictionary.
なお、発音系列拡張装置1が生成する拡張発音辞書103は、一般的な音声認識装置、例えば、大語彙連続音声認識装置において使用することができる。その場合、例えば、図5に示すように、大語彙連続音声認識装置200は、発音系列拡張装置1が生成する拡張発音辞書103に加え、既存の音響モデル101と言語モデル104とにより、入力音声を音声認識し認識結果を出力する。
Note that the
以上説明したように発音系列拡張装置1を構成することで、発音系列拡張装置1は、発音変動を、学習コーパス102を用いて発音辞書に追加することができる。また、発音系列拡張装置1は、素性の重みパラメータ(翻訳パラメータ)を最適化して、拡張発音辞書を生成することができる。
なお、発音系列拡張装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(発音系列拡張プログラム)で動作させることができる。
By configuring the pronunciation sequence expansion device 1 as described above, the pronunciation sequence expansion device 1 can add pronunciation variations to the pronunciation dictionary using the
Note that the pronunciation sequence expansion device 1 can operate a computer (not shown) with a program (pronunciation sequence expansion program) that functions as each of the above-described means.
〔発音系列拡張装置の動作〕
次に、図6を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る発音系列拡張装置1の動作について説明する。
[Operation of phonetic sequence expansion device]
Next, referring to FIG. 6 (refer to FIG. 1 as appropriate for the configuration), the operation of the pronunciation sequence expansion device 1 according to the first embodiment of the present invention will be described.
まず、発音系列拡張装置1は、学習コーパス102の音声(音声コーパス)から、文脈依存音素列と、文脈非依存音素列とを生成する。
すなわち、発音系列拡張装置1は、音素列生成手段10によって、発音辞書100と音響モデル101とに基づいて、学習コーパス102の音声(音声コーパス)を強制アライメントし、発音辞書100に登録されている文字列に対応する文脈依存音素列を生成する(ステップS1)。
First, the pronunciation sequence expansion device 1 generates a context-dependent phoneme sequence and a context-independent phoneme sequence from the speech of the learning corpus 102 (speech corpus).
That is, the phonetic sequence expansion device 1 is forcibly aligned the speech (speech corpus) of the
さらに、音素列生成手段10は、ステップS1で生成された文脈依存音素列から文脈非依存の単一音素の音素列を生成する(ステップS2)。
このステップS2で生成された音素列は、後のステップS6で使用する原言語の音素列(標準音素列10m)である。
Further, the phoneme string generation means 10 generates a context-independent single phoneme string from the context-dependent phoneme string generated in step S1 (step S2).
The phoneme string generated in step S2 is the source language phoneme string (
そして、発音系列拡張装置1は、文脈依存発音辞書生成手段11によって、ステップS1で生成された文脈依存音素列を、文脈依存音素ごとに、見出し語およびその発音系列とする発音辞書(文脈依存発音辞書11t)を生成する(ステップS3)。
Then, the pronunciation sequence expansion device 1 uses the context-dependent pronunciation
さらに、発音系列拡張装置1は、文脈依存音素n−gramモデル生成手段12によって、ステップS1で生成された文脈依存音素列から、文脈依存音素を1つの単語とみなしたn−gramモデル(文脈依存音素n−gramモデル12t)を生成する(ステップS4)。
Further, the phonetic sequence expansion device 1 uses the context-dependent phoneme n-gram model generation means 12 to generate an n-gram model (context-dependent) that regards a context-dependent phoneme as one word from the context-dependent phoneme sequence generated in step S1. A phoneme n-
そして、発音系列拡張装置1は、音素認識手段13によって、ステップS3,S4でそれぞれ生成された文脈依存発音辞書11tおよび文脈依存音素n−gramモデル12tを用いて、学習コーパス102の音声(音声コーパス)から音素を認識する(ステップS5)。
このステップS5で生成された音素列は、後のステップS6で使用する目的言語の音素列(実発話音素列13m)である。
The phonetic sequence expansion device 1 uses the context-
The phoneme string generated in step S5 is the target language phoneme string (actual
そして、発音系列拡張装置1は、統計的機械翻訳モデル生成手段14によって、ステップS2で生成された音素列(標準音素列10m)を原言語、ステップS5で認識された音素列(実発話音素列13m)を目的言語とする統計的機械翻訳モデルを生成する(ステップS6)。
Then, the phonetic sequence expansion device 1 uses the statistical machine translation model generation unit 14 to generate the phoneme sequence (
すなわち、発音系列拡張装置1は、統計的機械翻訳モデル生成手段14のフレーズ翻訳モデル生成手段141によって、標準音素列10mと実発話音素列13mとを対訳データとして、標準音素列10mのあるフレーズが、実発話音素列13mのあるフレーズに翻訳される翻訳モデル(フレーズ翻訳モデル141m)を生成する。
そして、発音系列拡張装置1は、統計的機械翻訳モデル生成手段14の音素n−gramモデル生成手段142によって、実発話音素列13mから、音素を1つの単語とみなして、n−gramモデル(音素n−gramモデル142m)を生成する。
このステップS6で生成されたフレーズ翻訳モデル141mと音素n−gramモデル142mとにより、前記式(2)で示す統計的機械翻訳モデル14mが構成されることになる。
That is, the phonetic sequence expansion device 1 uses the phrase translation
Then, the phoneme sequence expansion device 1 regards the phoneme as one word from the actual
The
そして、発音系列拡張装置1は、パラメータ設定手段17によって、翻訳手段15で用いる素性のパラメータ(翻訳パラメータ)を設定する(ステップS7)。
Then, the pronunciation sequence expansion device 1 sets feature parameters (translation parameters) used by the
さらに、発音系列拡張装置1は、翻訳手段15および拡張手段16によって、元の発音辞書100を拡張した拡張発音辞書候補16dを生成する(ステップS8)。
すなわち、発音系列拡張装置1は、翻訳手段15によって、元の発音辞書100に登録されている見出し語の発音系列(音素列)を順次読み出し、ステップS6で生成された統計的機械翻訳モデル14mと、ステップS7で設定された翻訳パラメータとに基づいて翻訳する。
そして、発音系列拡張装置1は、拡張手段16によって、見出し語に対応する発音系列と、翻訳した発音系列とが異なる場合、翻訳した発音系列を当該見出し語の発音系列(音素列)として新たに追加することで、拡張発音辞書候補16dを生成し、図示を省略した記憶手段に記憶する。
Furthermore, the pronunciation sequence expansion device 1 generates an extended pronunciation dictionary candidate 16d obtained by extending the
That is, the pronunciation sequence expansion device 1 sequentially reads out the pronunciation sequence (phoneme sequence) of the headwords registered in the
Then, when the pronunciation sequence corresponding to the headword differs from the translated pronunciation sequence by the expansion means 16, the pronunciation sequence expansion device 1 newly sets the translated pronunciation sequence as the pronunciation sequence (phoneme sequence) of the headword. By adding, an extended pronunciation dictionary candidate 16d is generated and stored in a storage unit (not shown).
そして、発音系列拡張装置1は、発音辞書選択手段18の音響尤度算出手段181によって、音響モデル101と拡張発音辞書候補16dとを用いて、既知の音声データに対応する単語列を強制アライメントして、当該単語列を音素列に切り分けたときの音響尤度を算出する(ステップS9)。
Then, the pronunciation sequence expansion device 1 uses the acoustic likelihood calculation means 181 of the pronunciation dictionary selection means 18 to forcibly align a word string corresponding to known speech data using the
そして、発音系列拡張装置1は、発音辞書選択手段18の尤度最大辞書選択手段182によって、前回生成された拡張発音辞書候補16dと今回生成された拡張発音辞書候補16dとの音響尤度を比較し、音響尤度の大きい拡張発音辞書候補16dを記憶手段(不図示)に残す(ステップS10)。 Then, the pronunciation sequence expansion device 1 compares the acoustic likelihoods of the extended pronunciation dictionary candidate 16d generated last time and the extended pronunciation dictionary candidate 16d generated this time by the maximum likelihood dictionary selection means 182 of the pronunciation dictionary selection means 18. Then, the extended pronunciation dictionary candidate 16d having a large acoustic likelihood is left in the storage means (not shown) (step S10).
その後、発音系列拡張装置1は、予め定めた翻訳パラメータの範囲内での変更が完了したか否かを判定する(ステップS11)。
ここで、翻訳パラメータの変更が完了していない場合(ステップS11でNo)、発音系列拡張装置1は、ステップS7に戻って新たな翻訳パラメータを設定する。
一方、翻訳パラメータの変更が完了した場合(ステップS11でYes)、発音系列拡張装置1は、発音辞書選択手段18によって、記憶手段(不図示)に存在する拡張発音辞書候補16dを拡張発音辞書103として決定し(ステップS12)、動作を終了する。
以上の動作によって、発音系列拡張装置1は、発音変動のある発話音声の発音系列(音素列)を最適化したパラメータにより生成して発音辞書に追加し、拡張することができる。
Thereafter, the pronunciation sequence expansion device 1 determines whether or not the change within the predetermined translation parameter range is completed (step S11).
If the translation parameter change has not been completed (No in step S11), the pronunciation sequence expansion device 1 returns to step S7 and sets a new translation parameter.
On the other hand, when the translation parameter change is completed (Yes in step S11), the pronunciation sequence expansion device 1 uses the pronunciation
With the above operation, the pronunciation sequence expansion device 1 can generate and expand the pronunciation sequence (phoneme sequence) of the uttered speech with pronunciation variation by using the optimized parameters.
≪第2実施形態≫
〔発音系列拡張装置の構成〕
次に、図7を参照して、本発明の第2実施形態に係る発音系列拡張装置1Bの構成について説明する。この発音系列拡張装置1Bは、発音系列拡張装置1と同様に、発音辞書100に登録されている発音(発音系列)に、実発話による発音(発音系列)を対応付けて拡張し、拡張発音辞書103を生成するものである。
<< Second Embodiment >>
[Configuration of Pronunciation Series Expansion Device]
Next, with reference to FIG. 7, the configuration of the pronunciation
図7に示すように、発音系列拡張装置1Bは、音素列生成手段10と、文脈依存発音辞書生成手段11と、文脈依存音素n−gramモデル生成手段12と、音素認識手段13と、統計的機械翻訳モデル生成手段14と、翻訳手段15と、拡張手段16と、パラメータ設定手段17と、発音辞書選択手段18Bと、を備える。
発音辞書選択手段18B以外の構成は、図1で説明した発音系列拡張装置1と同じであるため、同一の符号を付して説明を省略する。
As shown in FIG. 7, the phoneme
Since the configuration other than the pronunciation dictionary selection unit 18B is the same as that of the pronunciation sequence expansion device 1 described with reference to FIG. 1, the same reference numerals are given and description thereof is omitted.
発音辞書選択手段18Bは、既知の学習データに基づいて、拡張手段16によって順次生成される複数の拡張発音辞書候補16d,16d,…の中から1つを選択するものである。この発音辞書選択手段18Bは、拡張発音辞書候補16dを選択する基準として、既知の学習データを音素認識した音素列とし、既知の学習データを強制音素アライメントした音素列との編集距離を用いる。
ここでは、発音辞書選択手段18Bは、編集距離算出手段183と、距離最小辞書選択手段184と、を備える。
The pronunciation dictionary selection unit 18B selects one of a plurality of extended pronunciation dictionary candidates 16d, 16d,... Sequentially generated by the
Here, the pronunciation dictionary selecting unit 18B includes an edit
編集距離算出手段183は、既知の学習データである音声を音素認識した音素列と、音響モデル101および拡張発音辞書候補16dを用いて、既知の学習データである音声に対応する単語列を強制アライメント(強制音素アライメント)した最尤の音素列との間の編集距離(レーベンシュタイン距離)を算出するものである。
ここでは、既知の音声およびそれに対応する単語列として、学習コーパス102の一部を用いるが、学習コーパス102とは異なる音声と、その音声の書き起こしテキストであっても構わない。
The edit distance calculation means 183 forcibly aligns a word sequence corresponding to speech that is known learning data, using a phoneme sequence obtained by phoneme recognition of speech that is known learning data, and the
Here, a part of the
この編集距離算出手段183は、既知の学習データである音声を音素認識して、音素列を生成する。この音素認識は、音響モデル101と、文脈依存発音辞書11tと、文脈依存音素n−gramモデル12tとを用いて、音素認識手段13と同様の手法で認識することができる。ここでは、編集距離算出手段183は、既知の学習データである音声を音素認識手段13で音声認識させ、その認識結果を用いることとする(なお、図7中、編集距離算出手段183と音素認識手段13との接続線は図示を省略する)。ここでは、この音素認識により得られる音素列を、編集距離を測る基準の参照訳として用いる。
This editing distance calculation means 183 recognizes phonemes as known learning data and generates phoneme strings. This phoneme recognition can be recognized by the same method as the phoneme recognition means 13 using the
さらに、編集距離算出手段183は、音響モデル101と拡張発音辞書候補16dとを用いて、既知の学習データである音声に対応する単語列(テキスト)を強制音素アライメントして、最尤の音素列を生成する。
ここで、参照訳をr、拡張発音辞書候補16dに対応する音素列をeとしたとき、レーベンシュタイン距離は、以下の式(3)に示すように、参照訳rから音素列eに変換するまでの最小の操作数Lev(r,e)で定義される。
Furthermore, the edit distance calculation means 183 uses the
Here, when the reference translation is r and the phoneme string corresponding to the extended pronunciation dictionary candidate 16d is e, the Levenshtein distance is converted from the reference translation r to the phoneme string e as shown in the following equation (3). It is defined by the minimum operation number Lev (r, e).
この式(3)で、ins(r,e)、del(r,e)、sub(r,e)は、それぞれ、参照訳rから音素列eに変換するまでの参照訳rに対する各操作(挿入、削除、置換)の回数である。
この編集距離算出手段183は、算出した編集距離を距離最小辞書選択手段184に出力する。
In this expression (3), ins (r, e), del (r, e), and sub (r, e) are operations for the reference translation r until the reference translation r is converted to the phoneme sequence e ( (Insertion, deletion, replacement).
The edit
距離最小辞書選択手段184は、編集距離算出手段183で算出された編集距離が最小となる拡張発音辞書候補16dを選択するものである。
ここでは、距離最小辞書選択手段184は、拡張手段16によって、拡張発音辞書候補16dが生成されるたびに、前回生成された拡張発音辞書候補16dと今回生成された拡張発音辞書候補16dとの編集距離算出手段183で算出された編集距離を比較し、編集距離の大きい拡張発音辞書候補16dを記憶手段(不図示)から削除する。
The minimum distance
Here, every time the extended pronunciation dictionary candidate 16d is generated by the extension means 16, the minimum distance dictionary selection means 184 edits the extended pronunciation dictionary candidate 16d generated last time and the extended pronunciation dictionary candidate 16d generated this time. The edit distances calculated by the distance calculation means 183 are compared, and the extended pronunciation dictionary candidate 16d having a large edit distance is deleted from the storage means (not shown).
そして、距離最小辞書選択手段184は、パラメータ設定手段17からすべての翻訳パラメータの変更が完了した旨を通知された段階で、記憶手段(不図示)に存在する拡張発音辞書候補16dを拡張発音辞書103とする。
これによって、発音辞書選択手段18Bは、翻訳パラメータが最適化された状態で生成された拡張発音辞書候補16dを選択することができる。
Then, when the minimum distance
Thereby, the pronunciation dictionary selection means 18B can select the extended pronunciation dictionary candidate 16d generated with the translation parameters optimized.
以上説明したように発音系列拡張装置1Bを構成することで、発音系列拡張装置1Bは、発音系列拡張装置1(図1参照)と同様に、発音変動を、学習コーパス102を用いて発音辞書に追加することができる。また、発音系列拡張装置1Bは、素性の重みパラメータ(翻訳パラメータ)を最適化して、拡張発音辞書を生成することができる。
なお、発音系列拡張装置1Bは、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(発音系列拡張プログラム)で動作させることができる。
By configuring the pronunciation
Note that the pronunciation
〔発音系列拡張装置の動作〕
次に、図8を参照(構成については適宜図7参照)して、本発明の第2実施形態に係る発音系列拡張装置1Bの動作について説明する。
[Operation of phonetic sequence expansion device]
Next, referring to FIG. 8 (refer to FIG. 7 as appropriate for the configuration), the operation of the pronunciation
発音系列拡張装置1Bの動作は、図6で説明した発音系列拡張装置1の動作に対して、複数の拡張発音辞書候補の中から1つを選択する動作が異なるのみである。
すなわち、発音系列拡張装置1の動作と発音系列拡張装置1Bの動作とは、図6のステップS9,S10と図8のステップS9B,S10Bの動作が異なるだけであるため、他の動作については、同一のステップ番号を付して説明を省略する。
The operation of the pronunciation
That is, the operation of the pronunciation sequence expansion device 1 and the operation of the pronunciation
ステップS8で拡張発音辞書候補16dを生成した後、発音系列拡張装置1Bは、発音辞書選択手段18Bの編集距離算出手段183によって、既知の学習データである音声を音素認識した音素列と、音響モデル101とステップS8で生成された拡張発音辞書候補16dを用いて、既知の学習データである音声に対応する単語列を強制音素アライメントした最尤の音素列との間の編集距離(レーベンシュタイン距離)を算出する(ステップS9B)。
After generating the extended pronunciation dictionary candidate 16d in step S8, the pronunciation
そして、発音系列拡張装置1Bは、発音辞書選択手段18Bの距離最小辞書選択手段184によって、前回生成された拡張発音辞書候補16dと今回生成された拡張発音辞書候補16dとの編集距離を比較し、編集距離の小さい拡張発音辞書候補16dを記憶手段(不図示)に残す(ステップS10B)。
その後の動作は、発音系列拡張装置1の動作と同じである。
以上の動作によって、発音系列拡張装置1Bは、発音変動のある発話音声の発音系列(音素列)を最適化したパラメータにより生成して発音辞書に追加し、拡張することができる。
Then, the pronunciation
The subsequent operation is the same as the operation of the pronunciation sequence expansion device 1.
Through the above operation, the pronunciation
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
ここでは、発音辞書100の見出し語として、単語を例として説明した。しかし、発音系列拡張装置1,1Bは、音素を単位として発音変動の音素列を新たな発音系列とするため、必ずしも対象とする見出し語は単語である必要はなく、任意の文字列(複数の単語、文章等)であればよい。
これによって、発音系列拡張装置1,1Bは、単語内の発音変動のみならず、単語間の発音変動にも対応することができる。
As mentioned above, although embodiment of this invention was described, this invention is not limited to these embodiment.
Here, a word has been described as an example of a headword in the
As a result, the pronunciation
1,1B 発音系列拡張装置
10 音素列生成手段
11 文脈依存発音辞書生成手段
12 文脈依存音素n−gramモデル生成手段
13 音素認識手段
14 統計的機械翻訳モデル生成手段
141 フレーズ翻訳モデル生成手段
142 音素n−gramモデル生成手段
15 翻訳手段
16 拡張手段
17 パラメータ変更手段
18,18B 発音辞書選択手段
181 音響尤度算出手段
182 尤度最大辞書選択手段
183 編集距離算出手段
184 距離最小辞書選択手段
100 発音辞書
101 音響モデル
102 学習コーパス
103 拡張発音辞書
1, 1B Pronunciation
Claims (4)
前記音響モデルと前記発音辞書とにより、前記学習コーパスの音声の文脈依存音素の音素列である文脈依存音素列を生成するとともに、単一音素の音素列を生成する音素列生成手段と、
前記文脈依存音素を見出し語およびその発音系列とする文脈依存発音辞書を生成する文脈依存発音辞書生成手段と、
前記文脈依存音素列から、文脈依存音素n−gramモデルを生成する文脈依存音素n−gramモデル生成手段と、
前記文脈依存発音辞書と前記文脈依存音素n−gramモデルとにより、前記学習コーパスの音声を音素単位で音声認識する音素認識手段と、
前記音素列生成手段で生成された単一音素の音素列である標準音素列と、前記音素認識手段で認識された音素列である実発話音素列とを対訳データとして、統計的機械翻訳モデルを生成する統計的機械翻訳モデル生成手段と、
設定される翻訳パラメータを用いて、前記統計的機械翻訳モデルにより、前記発音辞書に登録されている前記見出し語に対応する音素列を翻訳する翻訳手段と、
前記翻訳パラメータを設定するパラメータ設定手段と、
異なる翻訳パラメータごとに、前記翻訳手段で翻訳された音素列を新たな発音系列を示す音素列として前記見出し語に追加して、前記翻訳パラメータに対応する複数の拡張発音辞書候補を生成する拡張手段と、
既知の学習データである音声と当該音声に対応する単語列とに基づいて、前記複数の拡張発音辞書候補の中から拡張発音辞書を選択する発音辞書選択手段と、
を備えることを特徴とする発音系列拡張装置。 The headword in the pronunciation dictionary by a pronunciation dictionary that associates a headword with a phoneme string indicating a pronunciation sequence, an acoustic model of a context-dependent phoneme, and a learning corpus that associates speech with its transcription text A pronunciation sequence expansion device for extending the pronunciation sequence of
Generating a context-dependent phoneme sequence that is a phoneme sequence of a context-dependent phoneme of speech of the learning corpus, and generating a phoneme sequence of a single phoneme by the acoustic model and the pronunciation dictionary;
A context-dependent pronunciation dictionary generating means for generating a context-dependent pronunciation dictionary having the context-dependent phonemes as headwords and their pronunciation series;
Context-dependent phoneme n-gram model generation means for generating a context-dependent phoneme n-gram model from the context-dependent phoneme sequence;
Phoneme recognition means for recognizing speech of the learning corpus in phoneme units by the context-dependent pronunciation dictionary and the context-dependent phoneme n-gram model;
A statistical machine translation model using a standard phoneme sequence that is a phoneme sequence of a single phoneme generated by the phoneme sequence generation unit and an actual utterance phoneme sequence that is a phoneme sequence recognized by the phoneme recognition unit as parallel translation data. A statistical machine translation model generating means for generating;
Translation means for translating a phoneme string corresponding to the headword registered in the pronunciation dictionary by the statistical machine translation model using a set translation parameter;
Parameter setting means for setting the translation parameters;
Expansion means for generating a plurality of extended pronunciation dictionary candidates corresponding to the translation parameter by adding the phoneme string translated by the translation means to the headword as a phoneme string indicating a new pronunciation sequence for each different translation parameter When,
A pronunciation dictionary selection means for selecting an extended pronunciation dictionary from the plurality of extended pronunciation dictionary candidates based on a voice that is known learning data and a word string corresponding to the voice;
A pronunciation sequence expansion device comprising:
前記音響モデルおよび前記拡張発音辞書候補を用いて、前記既知の学習データである音声に対応する単語列を強制単語アライメントして音素列に切り分けたときの音響尤度を、前記複数の拡張発音辞書候補ごとに算出する音響尤度算出手段と、
前記音響尤度算出手段で算出された音響尤度が最大となる拡張発音辞書候補を前記拡張発音辞書として選択する尤度最大辞書選択手段と、
を備えることを特徴とする請求項1に記載の発音系列拡張装置。 The pronunciation dictionary selecting means is
Using the acoustic model and the extended pronunciation dictionary candidates, the acoustic likelihood when the word string corresponding to the speech that is the known learning data is forced word aligned and divided into phoneme strings is expressed as the plurality of extended pronunciation dictionaries. Acoustic likelihood calculating means for calculating each candidate;
Maximum likelihood dictionary selection means for selecting, as the extended pronunciation dictionary, an extended pronunciation dictionary candidate that maximizes the acoustic likelihood calculated by the acoustic likelihood calculation means;
The pronunciation sequence expansion device according to claim 1, further comprising:
前記既知の学習データである音声を音素認識した音素列と、前記音響モデルおよび前記拡張発音辞書候補を用いて、前記既知の学習データである音声に対応する単語列を強制音素アライメントした前記複数の拡張発音辞書候補ごとの最尤の音素列との編集距離を算出する編集距離算出手段と、
前記編集距離算出手段で算出された編集距離が最小となる拡張発音辞書候補を前記拡張発音辞書として選択する距離最小辞書選択手段と、
を備えることを特徴とする請求項1に記載の発音系列拡張装置。 The pronunciation dictionary selecting means is
Using the phoneme string obtained by phoneme recognition of the speech that is the known learning data, and the acoustic model and the extended pronunciation dictionary candidate, the word strings corresponding to the speech that is the known learning data are subjected to forced phoneme alignment. Editing distance calculation means for calculating an editing distance with the maximum likelihood phoneme string for each extended pronunciation dictionary candidate;
Distance minimum dictionary selection means for selecting an extended pronunciation dictionary candidate that minimizes the edit distance calculated by the edit distance calculation means, as the extended pronunciation dictionary;
The pronunciation sequence expansion device according to claim 1, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015167821A JP6568429B2 (en) | 2015-08-27 | 2015-08-27 | Pronunciation sequence expansion device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015167821A JP6568429B2 (en) | 2015-08-27 | 2015-08-27 | Pronunciation sequence expansion device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017044901A JP2017044901A (en) | 2017-03-02 |
JP6568429B2 true JP6568429B2 (en) | 2019-08-28 |
Family
ID=58209991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015167821A Active JP6568429B2 (en) | 2015-08-27 | 2015-08-27 | Pronunciation sequence expansion device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6568429B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3867901B1 (en) * | 2018-11-30 | 2023-10-04 | Google LLC | Speech processing |
CN114596840B (en) * | 2022-03-04 | 2024-06-18 | 腾讯科技(深圳)有限公司 | Speech recognition method, device, equipment and computer readable storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009078256A1 (en) * | 2007-12-18 | 2009-06-25 | Nec Corporation | Pronouncing fluctuation rule extraction device, pronunciation fluctuation rule extraction method and pronunciation fluctation rule extraction program |
-
2015
- 2015-08-27 JP JP2015167821A patent/JP6568429B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017044901A (en) | 2017-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
Kumar et al. | Development of Indian language speech databases for large vocabulary speech recognition systems | |
US20070112569A1 (en) | Method for text-to-pronunciation conversion | |
JPWO2007097176A1 (en) | Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program | |
JP6876543B2 (en) | Phoneme recognition dictionary generator and phoneme recognition device and their programs | |
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
Granell et al. | A multimodal crowdsourcing framework for transcribing historical handwritten documents | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP6568429B2 (en) | Pronunciation sequence expansion device and program thereof | |
JP6475517B2 (en) | Pronunciation sequence expansion device and program thereof | |
KR100573870B1 (en) | multiple pronunciation dictionary structuring Method and System based on the pseudo-morpheme for spontaneous speech recognition and the Method for speech recognition by using the structuring system | |
JP6350935B2 (en) | Acoustic model generation apparatus, acoustic model production method, and program | |
JP4764203B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4595415B2 (en) | Voice search system, method and program | |
JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
Valizada | Subword speech recognition for agglutinative languages | |
JP6235922B2 (en) | Weighted finite state automaton creation device, symbol string conversion device, speech recognition device, method and program thereof | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
Veisi et al. | Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP6078435B2 (en) | Symbol string conversion method, speech recognition method, apparatus and program thereof | |
Rasipuram et al. | Probabilistic lexical modeling and unsupervised training for zero-resourced ASR | |
JP6023543B2 (en) | Symbol string conversion method, speech recognition method using the same, apparatus and program thereof, and recording medium thereof | |
Khusainov et al. | Speech analysis and synthesis systems for the tatar language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6568429 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |