JP2019012095A - Phoneme recognition dictionary generation device and phoneme recognition device and their program - Google Patents

Phoneme recognition dictionary generation device and phoneme recognition device and their program Download PDF

Info

Publication number
JP2019012095A
JP2019012095A JP2017126929A JP2017126929A JP2019012095A JP 2019012095 A JP2019012095 A JP 2019012095A JP 2017126929 A JP2017126929 A JP 2017126929A JP 2017126929 A JP2017126929 A JP 2017126929A JP 2019012095 A JP2019012095 A JP 2019012095A
Authority
JP
Japan
Prior art keywords
phoneme
word
string
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017126929A
Other languages
Japanese (ja)
Other versions
JP6876543B2 (en
Inventor
麻乃 一木
Manon Ichiki
麻乃 一木
和穂 尾上
Kazuho Onoe
和穂 尾上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017126929A priority Critical patent/JP6876543B2/en
Publication of JP2019012095A publication Critical patent/JP2019012095A/en
Application granted granted Critical
Publication of JP6876543B2 publication Critical patent/JP6876543B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide a phoneme pronunciation dictionary used for phoneme recognition and a phoneme recognition dictionary generation device for generating a phoneme language model.SOLUTION: A phoneme recognition dictionary generation device 1 includes word-specific phoneme string generation means 10 for generating a word-specific phoneme string from a learning corpus by forced alignment, phoneme string word generation means 11 for generating a phoneme string word by converting the word-specific phoneme string into a text data format of one word, phoneme pronunciation dictionary generation means 12 for generating a phoneme pronunciation dictionary 50 by using phoneme string words as headwords and word-specific phoneme string corresponding to the phoneme string word as pronunciation notation, and phoneme language model generation means 14 for learning an N-gram language model from a list of phoneme string words and generating a phoneme language model 60.SELECTED DRAWING: Figure 1

Description

本発明は、発話音声の音素認識に用いる音素発音辞書および音素言語モデルを生成する音素認識辞書生成装置およびそのプログラム、ならびに、音素発音辞書および音素言語モデルを用いた音素認識装置およびそのプログラムに関する。   The present invention relates to a phoneme recognition dictionary generation device and its program for generating a phoneme pronunciation dictionary and a phoneme language model used for phoneme recognition of uttered speech, and a phoneme recognition device and a program thereof using the phoneme pronunciation dictionary and phoneme language model.

通常、音声認識では、単語と当該単語の発音系列(音素列)とを対応付けた発音辞書を用いている。この発音辞書には、一般的な辞書に記載されているような読みが発音として登録されている。
しかし、表記上の読みと実際に発話された発音とでは異なることが多い。例えば、放送番組では、ニュース番組のアナウンサの正確な(発音辞書の発音と近い)発音に比べ、情報番組の出演者の発話は曖昧な発音が多い。
そこで、統計的機械翻訳モデルを利用して、アナウンサ等の正確な発音を前提とした音素列から、発音が不明瞭な発話の音素列の単語を推定して、発音辞書を拡張する技術が開示されている(特許文献1参照)。
Usually, in speech recognition, a pronunciation dictionary in which a word is associated with a pronunciation sequence (phoneme string) of the word is used. In this pronunciation dictionary, readings as described in a general dictionary are registered as pronunciations.
However, the reading on the notation and the pronunciation actually spoken are often different. For example, in broadcast programs, the utterances of performers in information programs are often ambiguous compared to the exact (close to the pronunciation dictionary) pronunciation of news program announcers.
Therefore, a technique is disclosed that uses a statistical machine translation model to expand the pronunciation dictionary by estimating words in phoneme strings with unclear pronunciation from phoneme strings based on the assumption of accurate pronunciation such as announcers. (See Patent Document 1).

特許文献1の技術(以下、従来技術という)では、認識対象音素の前後の音素に対する依存性(環境依存)を考慮して音素認識を行う。
この従来技術は、学習コーパスから、トライフォンを1つの単語として発音辞書を学習するとともに、トライフォンの連接確率を与える言語モデルを学習する。ここで、トライフォンは、例えば、「警察」の発音では、「(けー)k−e:+s」,「(さ)e:−s+a」,「(つ)s−a+ts」のように、中心音素を含めた前後の発音を含めて表現したものである。
In the technique of Patent Document 1 (hereinafter referred to as the conventional technique), phoneme recognition is performed in consideration of the dependence (environment dependence) on the phonemes before and after the recognition target phoneme.
This prior art learns a pronunciation dictionary from a learning corpus with a triphone as one word and a language model that gives a triphone connection probability. Here, for example, in the pronunciation of “police”, the triphone is “(ke) k−e: + s”, “(sa) e: −s + a”, “(tsu) sa−ts + ts”, It is expressed including the pronunciation before and after the central phoneme.

そして、従来技術は、音声と書き起こしテキストとを対応付けた学習コーパスから強制音素アライメントを行った音素列(標準音素列)と、音素のトライフォンの言語モデルおよび発音辞書を用いて学習コーパスの音声を音素認識した音素列(実発話音素列)とを用いて、統計的機械翻訳モデルを学習する。   The related art uses a phoneme sequence (standard phoneme sequence) obtained by performing forced phoneme alignment from a learning corpus in which speech and transcription text are associated with each other, a phoneme triphone language model, and a pronunciation dictionary. A statistical machine translation model is learned using a phoneme sequence (actual speech phoneme sequence) obtained by phoneme recognition.

特開2016−161765号公報Japanese Patent Laid-Open No. 2006-161765

前記した従来技術は、統計的機械翻訳モデルを学習するために、強制音素アライメントを行った音素列(標準音素列)と、音素認識した音素列(実発話音素列)とを用いる。この統計的機械翻訳モデルの精度を高めるには、標準音素列と実発話音素列の質が重要になる。
従来技術で、アナウンサ等の正確な発音の音声とその書き起こしテキストとを学習コーパスとして用いて標準音素列と実発話音素列とを生成した場合、理想的には、それぞれの音素列がほぼ同じであることが望ましい。
しかし、従来技術では、標準音素列と実発話音素列とをDP(Dynamic Programming)マッチングした結果、音素が異なる割合(音素異なり率)が、22.8%あり、さらなる音素認識の精度改善が望まれている。
The above-described conventional technique uses a phoneme string (standard phoneme string) subjected to forced phoneme alignment and a phoneme string (actual utterance phoneme string) recognized by phoneme in order to learn a statistical machine translation model. To improve the accuracy of this statistical machine translation model, the quality of the standard phoneme sequence and the actual speech phoneme sequence is important.
In the conventional technology, when a standard phoneme sequence and an actual utterance phoneme sequence are generated using a speech with accurate pronunciation such as an announcer and its transcription as a learning corpus, ideally, each phoneme sequence is almost the same. It is desirable that
However, according to the conventional technology, as a result of DP (Dynamic Programming) matching between the standard phoneme sequence and the actual speech phoneme sequence, there is a 22.8% difference in phonemes (phoneme difference rate). It is rare.

本発明は、このような問題に鑑みてなされたものであり、音素認識の精度を高める音素認識辞書(音素発音辞書および音素言語モデル)を生成する音素認識辞書生成装置およびそのプログラム、ならびに、音素発音辞書および音素言語モデルを用いた音素認識装置およびそのプログラムを提供することを課題とする。   The present invention has been made in view of such problems, and a phoneme recognition dictionary generation device and a program for generating a phoneme recognition dictionary (phoneme pronunciation dictionary and phoneme language model) that improve the accuracy of phoneme recognition, and a phoneme. It is an object to provide a phoneme recognition device using a pronunciation dictionary and a phoneme language model and a program thereof.

前記課題を解決するため、本発明に係る音素認識辞書生成装置は、音響モデルと発音辞書と学習コーパスとを用いて、音素認識に用いる音素発音辞書および音素言語モデルを生成する音素認識辞書生成装置であって、単語別音素列生成手段と、音素列単語生成手段と、音素発音辞書生成手段と、音素言語モデル生成手段と、を備える。   In order to solve the above-described problem, a phoneme recognition dictionary generation device according to the present invention uses a sound model, a pronunciation dictionary, and a learning corpus to generate a phoneme pronunciation dictionary and a phoneme language model used for phoneme recognition. The phoneme string generation means for each word, the phoneme string word generation means, the phoneme pronunciation dictionary generation means, and the phoneme language model generation means.

かかる構成において、音素認識辞書生成装置は、単語別音素列生成手段によって、学習コーパスの音声を音響モデルと発音辞書とに基づいて音声認識し、発音辞書に登録されている見出し語に対応する単語ごとの音素列である単語別音素列を生成する。
そして、音素認識辞書生成装置は、音素列単語生成手段によって、単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する。例えば、音素列単語生成手段は、単語別音素列の音素間のスペースに音素以外の予め定めた文字(例えば、“+”)を挿入することで、音素列単語を生成する。これによって、音素認識辞書生成装置は、音素列単語を1単語として扱うことが可能になる。
In such a configuration, the phoneme recognition dictionary generation device recognizes the speech of the learning corpus based on the acoustic model and the pronunciation dictionary by the word-specific phoneme string generation means, and the word corresponding to the headword registered in the pronunciation dictionary A phoneme string for each word that is a phoneme string for each word is generated.
Then, the phoneme recognition dictionary generation device generates phoneme string words by converting the phoneme string by word into the text data format of one word by the phoneme string word generation means. For example, the phoneme sequence word generation means generates a phoneme sequence word by inserting a predetermined character (for example, “+”) other than a phoneme into a space between phonemes of a word-specific phoneme sequence. As a result, the phoneme recognition dictionary generation device can handle a phoneme string word as one word.

そして、音素認識辞書生成装置は、音素発音辞書生成手段によって、音素列単語を見出し語とし、当該音素列単語に対応する単語別音素列を発音表記とすることで、音素発音辞書を生成する。これによって、音素発音辞書生成手段は、単語単位で音素列の発音を音素発音辞書に登録する。
さらに、音素認識辞書生成装置は、音素言語モデル生成手段によって、音素列単語生成手段で生成される音素列単語のリストから音素列単語の連鎖としてN−gram言語モデルを学習することにより、音素言語モデルを生成する。これによって、音素言語モデル生成手段は、音素認識を行う際の音素列単語の接続確率を計算するため音素列単語の出現確率をモデル化する。
Then, the phoneme recognition dictionary generation device generates a phoneme pronunciation dictionary by using the phoneme pronunciation dictionary generation means as a headword and using a phoneme sequence by word corresponding to the phoneme sequence word as a pronunciation expression. Thereby, the phoneme pronunciation dictionary generating means registers the pronunciation of the phoneme string in the phoneme pronunciation dictionary in units of words.
Furthermore, the phoneme recognition dictionary generation device learns an N-gram language model as a chain of phoneme sequence words from a list of phoneme sequence words generated by the phoneme sequence word generation unit by the phoneme language model generation unit. Generate a model. Accordingly, the phoneme language model generation unit models the appearance probability of the phoneme string word in order to calculate the connection probability of the phoneme string word when performing phoneme recognition.

なお、音素認識辞書生成装置は、コンピュータを、単語別音素列生成手段、音素列単語生成手段、音素発音辞書生成手段、音素言語モデル生成手段として機能させるための音素認識辞書生成プログラムで動作させることができる。   Note that the phoneme recognition dictionary generation device causes a computer to operate with a phoneme recognition dictionary generation program for functioning as a phoneme sequence generation unit by word, a phoneme sequence word generation unit, a phoneme pronunciation dictionary generation unit, and a phoneme language model generation unit. Can do.

また、前記課題を解決するため、本発明に係る音素認識装置は、音響モデルと、音素認識辞書生成装置により生成された音素発音辞書および音素言語モデルとを用いて、音声の音素を認識する音素認識装置であって、認識手段と、音素列生成手段と、を備える。   In order to solve the above-described problem, a phoneme recognition device according to the present invention uses a phoneme recognition dictionary and a phoneme language model generated by a phoneme recognition dictionary generation device to recognize a phoneme of speech. A recognition device, comprising a recognition means and a phoneme string generation means.

かかる構成において、音素認識装置は、認識手段によって、音響モデルと音素発音辞書と音素言語モデルとにより、音声を音素列単語単位で認識する。これによって、認識手段は、単語の繋がりに依存した音素列を認識することが可能になる。
そして、音素認識装置は、音素列生成手段によって、認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する。例えば、音素列生成手段は、単語別音素列の音素間に挿入されている予め定めた文字(例えば、“+”)をスペースに置き換えることで、個々の音素に分離する。
In such a configuration, the phoneme recognition apparatus recognizes speech in units of phoneme string words by the recognition unit using the acoustic model, the phoneme pronunciation dictionary, and the phoneme language model. As a result, the recognition means can recognize a phoneme string depending on the word connection.
Then, the phoneme recognition device generates a phoneme string by separating the phoneme string words in the text data format of one word recognized by the recognition means into individual phonemes by the phoneme string generation means. For example, the phoneme string generation means separates into individual phonemes by replacing predetermined characters (for example, “+”) inserted between phonemes in the word-specific phoneme strings with spaces.

なお、音素認識装置は、コンピュータを、認識手段、音素列生成手段として機能させるための音素認識プログラムで動作させることができる。   Note that the phoneme recognition apparatus can operate a computer with a phoneme recognition program for causing a computer to function as a recognition unit and a phoneme string generation unit.

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音素列を単語単位とした音素発音辞書および音素言語モデルを生成することができる。
この音素発音辞書および音素言語モデルを用いることで、音素認識する際の音素の連結確率を、単に音素の前後の依存性だけではなく、音素の単語内および単語間における依存性も加味して算出することが可能になり、音声から音素を認識する際の認識精度を高めることができる。
The present invention has the following excellent effects.
According to the present invention, it is possible to generate a phoneme pronunciation dictionary and a phoneme language model with phoneme strings as words.
Using this phoneme pronunciation dictionary and phoneme language model, the phoneme connection probability when recognizing phonemes is calculated not only by the dependency before and after phonemes, but also by the dependency within and between words of phonemes. It is possible to increase the recognition accuracy when recognizing phonemes from speech.

本発明の第1実施形態に係る音素認識辞書生成装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the phoneme recognition dictionary production | generation apparatus which concerns on 1st Embodiment of this invention. 図1の単語別音素列生成手段における単語別音素列の生成例を説明するための説明図であって、(a)は学習コーパスの音声の書き起こし例、(b)は発音辞書の一部、(c)は生成した単語別音素列の例を示す。FIG. 2 is an explanatory diagram for explaining an example of generation of a word-by-word phoneme string in the word-by-word phoneme string generation unit of FIG. 1, wherein (a) is a transcription example of a learning corpus, and (b) is a part of a pronunciation dictionary. , (C) shows an example of the generated phoneme string by word. 音素の表記例を示す図である。It is a figure which shows the example of notation of a phoneme. 図1の音素発音辞書生成手段が生成する音素発音辞書の例を示す図である。It is a figure which shows the example of the phoneme pronunciation dictionary which the phoneme pronunciation dictionary production | generation means of FIG. 1 produces | generates. 図1の音素列単語生成手段が生成する音素列単語リストの例を示す図である。It is a figure which shows the example of the phoneme string word list which the phoneme string word production | generation means of FIG. 1 produces | generates. 図1の音素言語モデル生成手段が生成する音素言語モデルの例を示す図である。It is a figure which shows the example of the phoneme language model which the phoneme language model production | generation means of FIG. 1 produces | generates. 本発明の第1実施形態に係る音素認識辞書生成装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the phoneme recognition dictionary production | generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る音素認識装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the phoneme recognition apparatus which concerns on 2nd Embodiment of this invention.

以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
〔音素認識辞書生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る音素認識辞書生成装置1の構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
<First Embodiment>
[Configuration of phoneme recognition dictionary generator]
First, with reference to FIG. 1, the structure of the phoneme recognition dictionary production | generation apparatus 1 which concerns on 1st Embodiment of this invention is demonstrated.

音素認識辞書生成装置1は、音声データから音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成するものである。この音素認識辞書生成装置1は、学習コーパス記憶装置2、発音辞書記憶装置3および音響モデル記憶装置4にそれぞれ記憶されている学習コーパス20、発音辞書30および音響モデル40から、音素発音辞書50および音素言語モデル60を生成する。   The phoneme recognition dictionary generation apparatus 1 generates a phoneme pronunciation dictionary and a phoneme language model as a dictionary for recognizing phonemes from speech data. The phoneme recognition dictionary generation device 1 includes a phoneme pronunciation dictionary 50 and a phonetic pronunciation dictionary 50, a pronunciation dictionary 30, and an acoustic model 40 stored in the learning corpus storage device 2, the pronunciation dictionary storage device 3, and the acoustic model storage device 4, respectively. A phoneme language model 60 is generated.

具体的には、音素認識辞書生成装置1は、学習コーパスから強制アライメントにより単語別音素列を生成し、生成した単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する。そして、音素認識辞書生成装置1は、生成した音素列単語を見出し語とし、当該音素列単語に対応する単語別音素列を発音表記とすることで、音素発音辞書50を生成する。さらに、音素認識辞書生成装置1は、生成した音素列単語のリストから、N−gram言語モデルを学習し、音素言語モデル60を生成する。   Specifically, the phoneme recognition dictionary generation device 1 generates a phoneme sequence by word from the learning corpus by forced alignment, converts the generated phoneme sequence by word into a text data format of one word, and generates a phoneme sequence word. . Then, the phoneme recognition dictionary generation device 1 generates the phoneme pronunciation dictionary 50 by using the generated phoneme string words as headwords and by using the word-specific phoneme strings corresponding to the phoneme string words as pronunciation notations. Furthermore, the phoneme recognition dictionary generation device 1 learns an N-gram language model from the generated list of phoneme string words, and generates a phoneme language model 60.

学習コーパス20は、予め大量の音声データ(音声コーパス)と、音声データの書き起こしテキスト(テキストコーパス)とを対応付けたデータである。この学習コーパス20は、例えば、ニュース番組、情報番組等におけるアナウンサ、リポータ等の約1000時間程度の音声(音声コーパス)と、その音声を書き起こしたテキスト(テキストコーパス)である。   The learning corpus 20 is data in which a large amount of speech data (speech corpus) is associated with a transcription text (text corpus) of speech data in advance. The learning corpus 20 is, for example, about 1000 hours of speech (voice corpus) such as an announcer or reporter in a news program or information program, and text (text corpus) that transcribes the speech.

発音辞書30は、所定の文字列である見出し語(ここでは、単語とする)ごとに、その発音表記(音素列)を示した辞書である。
この発音辞書30は、一般的な発音辞書であって、例えば、人手を介して見出し語(単語)とその発音表記(音素列)とを対応付けた辞書である。
The pronunciation dictionary 30 is a dictionary that indicates pronunciation notation (phoneme string) for each entry word (here, a word) that is a predetermined character string.
The pronunciation dictionary 30 is a general pronunciation dictionary, for example, a dictionary in which a headword (word) and its pronunciation notation (phoneme string) are associated with each other manually.

音響モデル40は、大量の音声データから予め学習したディープニューラルネットワーク(DNN:Deep Neural Network)音響モデルである。例えば、DNNの入力には、メルフィルタバンク対数パワーの40次元に時間変化(Δ+ΔΔ)を加えて11フレーム分の特徴量を連結(スプライス)した特徴量を用い、DNNの隠れ層を8層とする。
なお、音響モデル40における音響特徴量の尤度計算は、隠れマルコフモデル(HMM:Hidden Markov Model)や、ガウス混合モデル(GMM:Gaussian mixture model)音響モデルであっても構わない。
以下、音素認識辞書生成装置1の構成について詳細に説明する。
The acoustic model 40 is a deep neural network (DNN) acoustic model previously learned from a large amount of speech data. For example, for the DNN input, a feature value obtained by adding a time change (Δ + ΔΔ) to the 40th dimension of the mel filter bank logarithmic power and connecting (splicing) the feature values for 11 frames is used. To do.
Note that the likelihood calculation of the acoustic feature amount in the acoustic model 40 may be a hidden Markov model (HMM) or a Gaussian mixture model (GMM) acoustic model.
Hereinafter, the configuration of the phoneme recognition dictionary generation device 1 will be described in detail.

音素認識辞書生成装置1は、図1に示すように、単語別音素列生成手段10と、音素列単語生成手段11と、音素発音辞書生成手段12と、音素列単語リスト記憶手段13と、音素言語モデル生成手段14と、を備える。
また、音素認識辞書生成装置1は、生成した音素発音辞書50を記憶する音素発音辞書記憶装置5と、生成した音素言語モデル60を記憶する音素言語モデル記憶装置6と、を外部に接続している。もちろん、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、音素認識辞書生成装置1の内部に備える構成としてもよい。また、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、1つの記憶装置で構成してもよい。
As shown in FIG. 1, the phoneme recognition dictionary generation device 1 includes a word-by-word phoneme string generation unit 10, a phoneme string word generation unit 11, a phoneme pronunciation dictionary generation unit 12, a phoneme string word list storage unit 13, and a phoneme. Language model generation means 14.
In addition, the phoneme recognition dictionary generation device 1 connects the phoneme pronunciation dictionary storage device 5 that stores the generated phoneme pronunciation dictionary 50 and the phoneme language model storage device 6 that stores the generated phoneme language model 60 to the outside. Yes. Of course, the phoneme pronunciation dictionary storage device 5 and the phoneme language model storage device 6 may be provided inside the phoneme recognition dictionary generation device 1. Moreover, the phoneme pronunciation dictionary storage device 5 and the phoneme language model storage device 6 may be configured by one storage device.

単語別音素列生成手段10は、発音辞書30と音響モデル40とに基づいて、学習コーパス20の音声(音声コーパス)を強制アライメントすることで、発音辞書30に登録されている見出し語に対応する単語ごとに、音声の音素列を切り分けて単語別音素列を生成するものである。   The word-by-word phoneme string generation means 10 forcibly aligns the speech (speech corpus) of the learning corpus 20 based on the pronunciation dictionary 30 and the acoustic model 40, thereby corresponding to the headword registered in the pronunciation dictionary 30. For each word, a phoneme string of speech is cut out to generate a word-by-word phoneme string.

この単語別音素列生成手段10は、学習コーパス20の音声から、音響モデル40に対応する音響特徴量(メル周波数ケプストラム係数等)を抽出する。そして、単語別音素列生成手段10は、発音辞書30と音響モデル40とを用いて、音声の書き起こしテキスト(テキストコーパス)を事前知識とする音声認識を行い、発音辞書30に登録されている文字列(見出し語)に対応して強制アライメントする。これにより、単語別音素列生成手段10は、図2(b)に示されているように、発音辞書30に登録されている単語に複数存在する発音の音素列に対し、尤も音声に近い発音の音素列を選択し、単語別音素列を生成する。   The word-by-word phoneme string generation unit 10 extracts an acoustic feature quantity (such as a mel frequency cepstrum coefficient) corresponding to the acoustic model 40 from the speech of the learning corpus 20. Then, the word-by-word phoneme string generation means 10 performs speech recognition using the pronunciation dictionary 30 and the acoustic model 40 as prior knowledge of the transcription text (text corpus) of speech, and is registered in the pronunciation dictionary 30. Force alignment according to the character string (headword). As a result, the word-by-word phoneme string generation means 10 produces a pronunciation that is almost similar to speech for a plurality of pronunciation phoneme strings that exist in the words registered in the pronunciation dictionary 30 as shown in FIG. Phoneme strings are selected and word-specific phoneme strings are generated.

図2は、単語別音素列生成手段10における単語別音素列の生成例を示す。例えば、単語別音素列生成手段10は、学習コーパス20として、「世界一短い東京の橋でイベントが開かれました」の音声データを入力した場合、音響モデル40に対応する音響特徴量を抽出する。
そして、単語別音素列生成手段10は、音声データに対応する図2(a)に示す学習コーパス20の書き起こしテキスト「世界一 短い 東京 …」を事前知識として、図2(b)に示す発音辞書30と、音響モデル40と、を用いて音声認識を行う。
FIG. 2 shows an example of generation of a phoneme sequence by word in the phoneme sequence generation unit 10 by word. For example, the word-by-word phoneme string generation unit 10 extracts an acoustic feature amount corresponding to the acoustic model 40 when speech data “an event was held at the world's shortest Tokyo bridge” is input as the learning corpus 20. To do.
Then, the word-by-word phoneme string generation means 10 uses the transcription text “the world's shortest Tokyo ...” of the learning corpus 20 shown in FIG. 2A corresponding to the speech data as the prior knowledge, and the pronunciation shown in FIG. Speech recognition is performed using the dictionary 30 and the acoustic model 40.

これによって、単語別音素列生成手段10は、図2(c)に示すように、単語ごとの音素列(単語別音素列)「schi/mi/to:kyo:/…」(ここで、“”はスペースを示す)を生成する。
単語別音素列生成手段10は、生成した単語別音素列を音素列単語生成手段11に出力する。
Thus, word by phoneme string generation unit 10, as shown in FIG. 2 (c), a phoneme string (word by phoneme string) of each word "s △ e △ k △ a △ i △ i △ ch △ i / m △ i △ j △ i △ k △ a △ i / t △ o: △ ky △ o: / ... "(here," "indicates a space) is generated.
The word-by-word phoneme string generation means 10 outputs the generated word-by-word phoneme string to the phoneme string word generation means 11.

音素列単語生成手段11は、単語別音素列生成手段10で生成された単語別音素列を、単語ごとに1単語のテキストデータ形式に変換した音素列単語を生成するものである。
この音素列単語生成手段11は、単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、個々に分離した音素列を、1単語のテキストデータ形式に変換する。
The phoneme string word generation unit 11 generates a phoneme string word obtained by converting the word-by-word phoneme string generated by the word-by-word phoneme string generation unit 10 into a text data format of one word for each word.
The phoneme string word generating means 11 converts a phoneme string that has been individually separated into a one-word text data format by inserting predetermined characters other than phonemes between the phonemes of the word-by-word phoneme strings.

具体的には、音素列単語生成手段11は、音素ごとにスペースを含んだ単語別音素列のスペースを、音素以外の予め定めた文字に置き換えて1つの単語テキストとする。例えば、音素列単語生成手段11は、単語別音素列のスペースを“+”に置き換え、“schi”を“s+e+k+a+i+i+ch+i”等に変換する。 Specifically, the phoneme string word generation means 11 replaces the space of the word-by-word phoneme string including a space for each phoneme with a predetermined character other than the phoneme to form one word text. For example, a phoneme string word generating unit 11 is replaced with a space of a word by the phoneme string "+" is converted to "s △ e △ k △ a △ i △ i △ ch △ i" to "s + e + k + a + i + i + ch + i" or the like.

音素列単語生成手段11は、スペースを含んだ単語別音素列と、テキスト置換した音素列単語とを対にして、順次、音素発音辞書生成手段12に出力する。また、音素列単語生成手段11は、テキスト置換した音素列単語のみを、順次、音素列単語リスト記憶手段13に書き込む。   The phoneme string word generation means 11 pairs the word-by-word phoneme string including a space and the phoneme string words with text replacement, and sequentially outputs them to the phoneme pronunciation dictionary generation means 12. Further, the phoneme string word generation unit 11 sequentially writes only the phoneme string words subjected to text replacement into the phoneme string word list storage unit 13.

音素発音辞書生成手段12は、音素列を単語とみなした音素列単語の発音辞書である音素発音辞書を生成するものである。音素発音辞書生成手段12は、図1に示すように、単語別音素列登録手段120と、組み合わせ音素列登録手段121と、を備える。   The phoneme pronunciation dictionary generation means 12 generates a phoneme pronunciation dictionary which is a pronunciation dictionary of phoneme sequence words in which the phoneme sequence is regarded as a word. As shown in FIG. 1, the phoneme pronunciation dictionary generation unit 12 includes a word-by-word phoneme string registration unit 120 and a combination phoneme string registration unit 121.

単語別音素列登録手段120は、単語別音素列と音素列単語とを対として登録した音素発音辞書を生成するものである。単語別音素列登録手段120は、音素列単語生成手段11で生成された音素列単語を見出し語とし、音素列単語と対となる単語別音素列をその見出し語の発音として、音素発音辞書記憶装置5の音素発音辞書50に登録する。   The word-by-word phoneme string registration means 120 generates a phoneme pronunciation dictionary in which a word-by-word phoneme string and a phoneme string word are registered as a pair. The word-by-word phoneme string registration unit 120 uses the phoneme string word generated by the phoneme string word generation unit 11 as a headword, and stores the phoneme string dictionary paired with the phoneme string word as a pronunciation of the headphone word dictionary storage. The phoneme pronunciation dictionary 50 of the device 5 is registered.

なお、単語別音素列登録手段120は、同じ見出し語となる音素列単語に対して、異なる発音の単語別音素列が入力された場合、見出し語に複数の発音を登録する。また、単語別音素列登録手段120は、同じ見出し語となる音素列単語に対して、同じ発音の単語別音素列が入力された場合、登録を行わないこととする。   Note that the word-by-word phoneme string registration unit 120 registers a plurality of pronunciations in a headword when a word-by-word phoneme string with a different pronunciation is input for the phoneme string words that are the same headword. Further, the word-by-word phoneme string registration unit 120 does not perform registration when a word-by-word phoneme string having the same pronunciation is input for a phoneme string word having the same headword.

組み合わせ音素列登録手段121は、任意の音素の組み合わせで構成される音素列を単語とみなした見出し語と、その音素列とを対として、音素発音辞書に登録するものである。
具体的には、組み合わせ音素列登録手段121は、図3に示す音素の例において、すべての音素(図3の例では、40音素)に対して、予め定めた最大音素数(ここでは、“4”とする)の音素の組み合わせ(40+40+40+40通り)の音素列を、音素発音辞書記憶装置5の音素発音辞書50に登録する
The combination phoneme string registration unit 121 registers a headphone word formed of any combination of phonemes as a word and the phoneme string as a pair in the phoneme pronunciation dictionary.
Specifically, the combination phoneme string registration unit 121 performs a predetermined maximum phoneme number (here, “40” in the example of FIG. 3) for all phonemes (40 phonemes in the example of FIG. 3). 4 ”phoneme strings (40 1 +40 2 +40 3 +40 4 ways) are registered in the phoneme pronunciation dictionary 50 of the phoneme pronunciation dictionary storage device 5.

この組み合わせ音素列登録手段121は、音素列単語生成手段11と同様に、音素を組み合わせた音素列を、1つのテキストデータ形式に変換する。具体的には、組み合わせ音素列登録手段121は、音素を組み合わせた音素列のスペースを音素以外の予め定めた1つのテキスト(ここでは、“+”)に置き換えた単語に変換し、見出し語とする。   Similar to the phoneme string word generator 11, the combined phoneme string registering unit 121 converts a phoneme string obtained by combining phonemes into one text data format. Specifically, the combined phoneme string registration unit 121 converts the phoneme string space combining the phonemes into a word that is replaced with a predetermined text other than the phoneme (here, “+”), To do.

ここで、図4を参照して、音素発音辞書生成手段12が音素発音辞書記憶装置5に登録する音素発音辞書50の例について説明する。
図4に示すように、音素発音辞書50は、単語別音素列登録手段120で登録される辞書Aと、組み合わせ音素列登録手段121で登録される辞書Bとで構成される。
辞書Aは、学習コーパス20の書き起こしに含まれる単語の発音を示す単語音素列のスペース部分を“+”に置き換えた単語別音素列を見出し語とし、スペースを含んだ音素列(単語別音素列)を見出し語に対応する発音表記とする。
Here, an example of the phoneme pronunciation dictionary 50 registered in the phoneme pronunciation dictionary storage device 5 by the phoneme pronunciation dictionary generation means 12 will be described with reference to FIG.
As shown in FIG. 4, the phoneme pronunciation dictionary 50 includes a dictionary A registered by the word-by-word phoneme string registration unit 120 and a dictionary B registered by the combination phoneme string registration unit 121.
The dictionary A uses a word-by-word phoneme string in which the space part of the word phoneme string indicating the pronunciation of the word included in the transcription of the learning corpus 20 is replaced with “+” as a headword, and includes a phoneme string including a space (word-by-word phoneme). Column) is the phonetic notation corresponding to the headword.

辞書Bは、すべての音素の予め定めた最大音素数の組み合わせにおいて、音素列のスペース部分を“+”に置き換えた組み合わせ音素列を見出し語とし、スペースを含んだ音素列を見出し語に対応する発音表記とする。これによって、学習コーパス20に含まれていない音素の組み合わせであっても、音素発音辞書50内に見出し語と発音表記とが登録される。
図1に戻って、音素認識辞書生成装置1の構成について説明を続ける。
The dictionary B uses a combination phoneme string in which a space part of a phoneme string is replaced with “+” as a headword in a combination of a predetermined maximum number of phonemes of all phonemes, and a phoneme string including a space corresponds to the headword. Use phonetic notation. As a result, even if the phoneme combination is not included in the learning corpus 20, the headword and the phonetic notation are registered in the phoneme pronunciation dictionary 50.
Returning to FIG. 1, the description of the configuration of the phoneme recognition dictionary generation device 1 will be continued.

音素列単語リスト記憶手段13は、音素列単語生成手段11で生成される音素列単語を、音素列単語リストとして記憶するものである。音素列単語リスト記憶手段13は、半導体メモリ、ハードディスク等の一般的な記憶装置で構成することができる。   The phoneme string word list storage means 13 stores the phoneme string words generated by the phoneme string word generator 11 as a phoneme string word list. The phoneme sequence word list storage means 13 can be configured by a general storage device such as a semiconductor memory or a hard disk.

図5に、音素列単語リスト記憶手段13に記憶される音素列単語リスト130の例を示す。図5に示すように、音素列単語リスト130は、音素列単語生成手段11で生成した単語別音素列のスペースを“+”に置き換えた音素列単語を逐次記憶したものである。
この音素列単語リスト130には、学習コーパス20の書き起こしに含まれる単語の音素列を1つの単語として順次書き込まれる。
FIG. 5 shows an example of the phoneme string word list 130 stored in the phoneme string word list storage means 13. As shown in FIG. 5, the phoneme string word list 130 sequentially stores phoneme string words in which the space of the word-by-word phoneme string generated by the phoneme string word generating unit 11 is replaced with “+”.
In this phoneme string word list 130, phoneme strings of words included in the transcript of the learning corpus 20 are sequentially written as one word.

音素言語モデル生成手段14は、音素列単語リスト記憶手段13に記憶されている音素列単語リスト130から、音素言語モデルを学習により生成するものである。
音素言語モデルは、任意の音素列単語の単語列において、それが文である確率(尤度)を付与する確率モデル(統計的言語モデル)である。この音素言語モデルは、例えば、N−gram言語モデルであって、以下の式(1)に示すように、音素列単語の列w…wi−1の後にi番目の音素列単語wが出現する条件付き確率(Nグラム確率)を与えるモデルである。なお、桁あふれを防止するため、式(1)の尤度を対数とし、対数尤度とすることが好ましい。
The phoneme language model generation unit 14 generates a phoneme language model by learning from the phoneme sequence word list 130 stored in the phoneme sequence word list storage unit 13.
The phoneme language model is a probability model (statistical language model) that gives a probability (likelihood) that an arbitrary phoneme string word is a sentence. This phoneme language model is, for example, an N-gram language model, and as shown in the following equation (1), the i- th phoneme sequence word after the sequence of phoneme sequence words w 1 w 2 ... W i−1. This is a model that gives a conditional probability (N-gram probability) that w i appears. In order to prevent overflow, it is preferable to use the likelihood of Equation (1) as a logarithm and to obtain a log likelihood.

Figure 2019012095
Figure 2019012095

例えば、学習コーパスの書き起こしで「東京の橋で」という単語列が存在する場合、音素言語モデル生成手段14は、音素列単語リスト130として生成される「t+o:+ky+o:」、「n+o」、「h+a+sh+i」、「d+e」の音素列単語からなる「t+o:+ky+o:n+oh+a+sh+id+e」という学習テキストでN−gram言語モデルを学習する。 For example, when the word string “At Tokyo Bridge” exists in the transcript of the learning corpus, the phoneme language model generation unit 14 generates “t + o: + ky + o:”, “n + o”, “n + o”, which is generated as the phoneme string word list 130. The N-gram language model is learned with the learning text “t + o: + ky + o: Δn + o Δh + a + sh + i Δd + e” consisting of phoneme string words “h + a + sh + i” and “d + e”.

なお、音素言語モデル生成手段14は、学習テキストとして音素列単語リスト130に現れない音素列単語の連鎖には、一般的なスムージング手法によってNグラム確率を与える。音素言語モデル生成手段14は、スムージング手法として、例えば、バックオフスムージング(back-off smoothing)を用いることができる。バックオフスムージングは、学習テキストに出現しない音素列単語の連鎖のNグラム確率を、連鎖数の少ない音素列単語の連鎖に与えられているNグラム確率から推定するものである。   Note that the phoneme language model generation unit 14 gives an N-gram probability to a chain of phoneme string words that do not appear in the phoneme string word list 130 as a learning text by a general smoothing method. The phoneme language model generation unit 14 can use, for example, back-off smoothing as a smoothing method. In the back-off smoothing, the N-gram probability of a chain of phoneme string words that does not appear in the learning text is estimated from the N-gram probability given to the chain of phoneme string words with a small number of chains.

これによって、音素言語モデル生成手段14は、すべての音素の組み合わせを含んだ音素発音辞書50に登録されている見出し語の音素列単語の連鎖に、Nグラム確率を付与することができる。
音素言語モデル生成手段14は、生成した音素言語モデルを音素言語モデル記憶装置6に書き込み記憶する。
As a result, the phoneme language model generation means 14 can give an N-gram probability to the chain of phoneme string words of the headword registered in the phoneme pronunciation dictionary 50 including all phoneme combinations.
The phoneme language model generation means 14 writes and stores the generated phoneme language model in the phoneme language model storage device 6.

図6に、音素言語モデル記憶装置6に記憶される音素言語モデル60の例を示す。ここでは、N−gram言語モデルとして、2−gram言語モデルの例を示す。
図6に示すように、音素言語モデル60は、2つの音素列単語w,wに対して、Nグラム確率(logP(w|w))を対応付けたものである。
FIG. 6 shows an example of the phoneme language model 60 stored in the phoneme language model storage device 6. Here, an example of a 2-gram language model is shown as the N-gram language model.
As shown in FIG. 6, the phoneme language model 60 associates two phoneme string words w 1 and w 2 with N-gram probabilities (logP (w 2 | w 1 )).

以上説明したように音素認識辞書生成装置1を構成することで、音素認識辞書生成装置1は、発話音声から音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成することができる。このように生成された音素発音辞書および音素言語モデルは、音素認識を行う際に、単に音素の前後の依存性だけではなく、音素の単語内および単語間における音素列の依存性を加味して、音素認識の精度を高めることができる。
なお、音素認識辞書生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識辞書生成プログラム)で動作させることができる。
By configuring the phoneme recognition dictionary generation device 1 as described above, the phoneme recognition dictionary generation device 1 can generate a phoneme pronunciation dictionary and a phoneme language model as a dictionary for recognizing phonemes from uttered speech. . The phoneme pronunciation dictionary and phoneme language model generated in this way take into account not only the phoneme dependency before and after phoneme recognition but also phoneme string dependency within and between phoneme words. The accuracy of phoneme recognition can be improved.
Note that the phoneme recognition dictionary generation apparatus 1 can operate a computer (not shown) with a program (phoneme recognition dictionary generation program) that functions as each of the above-described units.

〔音素認識辞書生成装置の動作〕
次に、図7を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る音素認識辞書生成装置1の動作について説明する。
[Operation of phoneme recognition dictionary generator]
Next, the operation of the phoneme recognition dictionary generation device 1 according to the first embodiment of the present invention will be described with reference to FIG.

ステップS1において、単語別音素列生成手段10は、学習コーパス20の音声から音響特徴量を抽出し、発音辞書30と音響モデル40を用いて、学習コーパス20の音声の書き起こしテキストを事前知識とする音声認識を行い、発音辞書30に登録されている見出し語に対応して強制アライメントした単語別音素列を生成する。   In step S 1, the word-by-word phoneme string generation unit 10 extracts acoustic features from the speech of the learning corpus 20, and uses the pronunciation dictionary 30 and the acoustic model 40 to convert the transcription text of the speech of the learning corpus 20 as prior knowledge. Speech recognition is performed, and a word-by-word phoneme string that is forcibly aligned corresponding to the headword registered in the pronunciation dictionary 30 is generated.

ステップS2において、音素列単語生成手段11は、ステップS1で生成した単語別音素列の音素間のスペースを音素以外の予め定めた1つのテキスト(例えば、“+”)に置き換えて、音素列単語を生成する。これによって、以降の動作において、単語別音素列を、スペースのない、1つの単語テキストとして扱うことが可能になる。   In step S2, the phoneme string word generation unit 11 replaces the space between phonemes of the word-by-word phoneme string generated in step S1 with one predetermined text other than the phoneme (for example, “+”), thereby generating a phoneme string word. Is generated. This makes it possible to handle the word-by-word phoneme string as one word text without spaces in the subsequent operations.

ステップS3において、音素列単語生成手段11は、ステップS2で生成した音素列単語を、順次、音素列単語リスト記憶手段13に書き込み記憶する。これによって、音素列単語リスト記憶手段13には、学習コーパス20の音声に対応する音素列を単語ごとにテキスト化した音素列単語リスト130が記録される。   In step S3, the phoneme string word generation unit 11 sequentially writes and stores the phoneme string words generated in step S2 in the phoneme string word list storage unit 13. As a result, the phoneme string word list storage unit 13 records a phoneme string word list 130 in which the phoneme string corresponding to the speech of the learning corpus 20 is converted into text for each word.

ステップS4において、音素発音辞書生成手段12は、単語別音素列登録手段120によって、ステップS2で生成した音素列単語を見出し語とし、ステップS1で生成した単語別音素列をその見出し語に対応する発音表記として、音素発音辞書記憶装置5の音素発音辞書50に登録する(図4の辞書A参照)。   In step S4, the phoneme pronunciation dictionary generation means 12 uses the phoneme string words generated in step S2 as headwords by the word-specific phoneme string registration means 120, and corresponds to the word-specific phoneme strings generated in step S1. As phonetic notation, it is registered in the phoneme pronunciation dictionary 50 of the phoneme pronunciation dictionary storage device 5 (see dictionary A in FIG. 4).

ステップS5において、単語別音素列生成手段10は、学習コーパス20の音声についてすべて入力が終了したか否かを判定する。ここで、学習コーパス20の入力が終了していない場合(ステップS5でNo)、音素認識辞書生成装置1は、ステップS1に動作を戻す。
一方、学習コーパス20の入力が終了した場合(ステップS5でYes)、音素認識辞書生成装置1は、ステップS6に動作を進める。
In step S <b> 5, the word-by-word phoneme string generation unit 10 determines whether or not the input of all the speech in the learning corpus 20 has been completed. Here, when the input of the learning corpus 20 has not ended (No in step S5), the phoneme recognition dictionary generation device 1 returns the operation to step S1.
On the other hand, when the input of the learning corpus 20 is completed (Yes in step S5), the phoneme recognition dictionary generation device 1 advances the operation to step S6.

ステップS6において、音素発音辞書生成手段12は、組み合わせ音素列登録手段121によって、任意の音素の組み合わせで構成される音素列を単語とみなした見出し語と、その音素列とを対として、音素発音辞書記憶装置5の音素発音辞書50に登録する(図4の辞書B参照)。これによって、学習コーパス20からは抽出することができない音素の並びに対して、見出し語と発音表記とを割り当てることができる。   In step S6, the phoneme pronunciation dictionary generation unit 12 uses the combination phoneme sequence registration unit 121 as a pair of a headword that is regarded as a word of a phoneme sequence formed by a combination of arbitrary phonemes and a phoneme sequence. It is registered in the phoneme pronunciation dictionary 50 of the dictionary storage device 5 (see dictionary B in FIG. 4). Thereby, it is possible to assign a headword and a pronunciation notation to a phoneme sequence that cannot be extracted from the learning corpus 20.

ステップS7において、音素言語モデル生成手段14は、ステップS3で順次、音素列単語リスト記憶手段13に記憶された音素列単語リスト130から、N−gram言語モデルの音素言語モデル60を生成し、音素言語モデル記憶装置6に記憶する。   In step S7, the phoneme language model generation unit 14 generates the phoneme language model 60 of the N-gram language model from the phoneme sequence word list 130 stored in the phoneme sequence word list storage unit 13 in step S3 in sequence. Store in the language model storage device 6.

さらに、ステップS8において、音素言語モデル生成手段14は、音素発音辞書50に登録されている音素の組み合わせから生成された見出し語を含めて、学習コーパスとして音素列単語リスト130に現れない音素列単語の連鎖に対して、スムージング手法によってNグラム確率を与える。これによって、音素言語モデル60を用いて音素認識を行う際に、音素列単語の連結確率が“0”になることを防止することができる。
以上の動作によって、音素認識辞書生成装置1は、音声から音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成する。
Furthermore, in step S8, the phoneme language model generation unit 14 includes a headword generated from a combination of phonemes registered in the phoneme pronunciation dictionary 50, and includes phoneme sequence words that do not appear in the phoneme sequence word list 130 as a learning corpus. N-gram probabilities are given to the chain by the smoothing method. As a result, when phoneme recognition is performed using the phoneme language model 60, it is possible to prevent the connection probability of phoneme string words from becoming “0”.
With the above operation, the phoneme recognition dictionary generation device 1 generates a phoneme pronunciation dictionary and a phoneme language model as a dictionary for recognizing phonemes from speech.

<第2実施形態>
〔音素認識装置〕
次に、図8を参照して、本発明の第2実施形態に係る音素認識装置200について説明する。
Second Embodiment
[Phoneme recognition device]
Next, a phoneme recognition device 200 according to the second embodiment of the present invention will be described with reference to FIG.

音素認識装置200は、音響モデルと、音素認識辞書生成装置1で生成した音素発音辞書および音素言語モデルとを用いて、音声データから音素を認識するものである。この音素認識装置200は、音響モデル記憶装置4、音素発音辞書記憶装置5および音素言語モデル記憶装置6にそれぞれ記憶されている音響モデル40、音素発音辞書50および音素言語モデル60を用いて、音声データから音素を認識する。   The phoneme recognition device 200 recognizes phonemes from speech data using the acoustic model and the phoneme pronunciation dictionary and phoneme language model generated by the phoneme recognition dictionary generation device 1. The phoneme recognition device 200 uses the acoustic model 40, the phoneme pronunciation dictionary 50, and the phoneme language model 60 stored in the acoustic model storage device 4, the phoneme pronunciation dictionary storage device 5, and the phoneme language model storage device 6, respectively. Recognize phonemes from data.

音響モデル40は、図1で説明した音響モデルと同じであって、大量の音声データから予め学習した音素ごとの音響特徴量をディープニューラルネットワーク(DNN)によってモデル化したものである。   The acoustic model 40 is the same as the acoustic model described with reference to FIG. 1, and is obtained by modeling an acoustic feature amount for each phoneme previously learned from a large amount of speech data using a deep neural network (DNN).

音素発音辞書50は、図1で説明した音素認識辞書生成装置1で生成されたものである(図4参照)。
音素言語モデル60は、図1で説明した音素認識辞書生成装置1で生成されたものである(図6参照)。
The phoneme pronunciation dictionary 50 is generated by the phoneme recognition dictionary generator 1 described with reference to FIG. 1 (see FIG. 4).
The phoneme language model 60 is generated by the phoneme recognition dictionary generation device 1 described with reference to FIG. 1 (see FIG. 6).

音素認識装置200は、図8に示すように、認識手段201と、音素列生成手段202と、を備える。   As shown in FIG. 8, the phoneme recognition apparatus 200 includes a recognition unit 201 and a phoneme string generation unit 202.

認識手段201は、音響モデル40と、音素発音辞書50と、音素言語モデル60とを用いて、音声データから音素列を認識するものである。
この認識手段201は、外部から入力される音声データから音響特徴量を抽出し、音響モデル40と音素発音辞書50とから音素列単語の候補をリストアップする。そして、認識手段201は、その候補の中で、音素言語モデル60に基づく接続確率が最大となる音素列単語を認識結果とする。
The recognition means 201 recognizes a phoneme string from speech data using the acoustic model 40, the phoneme pronunciation dictionary 50, and the phoneme language model 60.
The recognizing unit 201 extracts an acoustic feature amount from voice data input from the outside, and lists phoneme sequence word candidates from the acoustic model 40 and the phoneme pronunciation dictionary 50. And the recognition means 201 makes the recognition result the phoneme string word with the largest connection probability based on the phoneme language model 60 among the candidates.

具体的には、認識手段201は、音素列単語列w,w,…,wで、以下の式(2)に示す、wn−1の次にwが出現する確率(事後確率)P(w|wn−1)の接続確率が最大となる音素列単語列を認識する。 Specifically, the recognition unit 201, a phoneme string word string w 1, w 2, ..., with w n, the following equation (2), the probability that w n appears in the next w n-1 (post Recognize a phoneme string word string having the maximum connection probability of probability (P) (w n | w n−1 ).

Figure 2019012095
Figure 2019012095

このように、認識手段201は、一般的な音声認識が発音辞書に登録されている単語単位で音声を認識するのに対し、音素発音辞書50に登録されている単語とみなした音素列単語単位で音声を認識する。
認識手段201は、認識した音素列単語を、順次、音素列生成手段202に出力する。
As described above, the recognition unit 201 recognizes speech in units of words registered in the pronunciation dictionary while general speech recognition recognizes a phoneme string word unit regarded as a word registered in the phoneme pronunciation dictionary 50. To recognize the voice.
The recognition unit 201 sequentially outputs the recognized phoneme string words to the phoneme string generation unit 202.

音素列生成手段202は、認識手段201で認識された1単語のテキストデータ形式である音素列単語から音素列を生成するものである。
具体的には、音素列生成手段202は、音素列単語から、音素以外の予め定めた文字(ここでは、“+”)をスペースに置き換えて、音素列を生成する。例えば、音素列生成手段202は、音素列単語“s+e+k+a+i+i+ch+i”を音素列“schi”に変換して出力する。
この音素列生成手段202が行う変換処理は、図1で説明した音素列単語生成手段11の変換処理の逆変換に相当する。
The phoneme string generation unit 202 generates a phoneme string from a phoneme string word in a text data format of one word recognized by the recognition unit 201.
Specifically, the phoneme string generation unit 202 generates a phoneme string by replacing a predetermined character other than a phoneme (here, “+”) with a space from a phoneme string word. For example, the phoneme string generation unit 202 converts the phoneme string word "s + e + k + a + i + i + ch + i" to the phoneme string "s △ e △ k △ a △ i △ i △ ch △ i".
The conversion process performed by the phoneme string generation unit 202 corresponds to the inverse conversion of the conversion process of the phoneme string word generation unit 11 described in FIG.

以上説明したように音素認識装置200を構成することで、従来、音響モデルにおけるトライフォンHMMにより文脈として前後の音素の依存性で認識をしていた音素認識に対し、音素認識装置200は、単語の繋がりを用いた、より長い文脈の依存性を考慮して音素認識を行う。   As described above, by configuring the phoneme recognition device 200, the phoneme recognition device 200, in contrast to the phoneme recognition that has been conventionally recognized by the triphone HMM in the acoustic model as the context, depending on the preceding and following phonemes, Phoneme recognition is performed in consideration of the longer context dependency using the connection.

これによって、音素認識装置200は、従来よりも精度よく音素認識を行うことができる。具体的には、従来技術の課題で説明したように、従来の音素認識の音素異なり率が22.8%であったのに対し、音素認識装置200は、音素異なり率を1.2%に改善することができた。
なお、音素認識装置200は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識プログラム)で動作させることができる。
As a result, the phoneme recognition device 200 can perform phoneme recognition more accurately than in the past. Specifically, as explained in the problem of the prior art, the phoneme recognition rate of the conventional phoneme recognition is 22.8%, whereas the phoneme recognition device 200 sets the phoneme difference rate to 1.2%. It was possible to improve.
Note that the phoneme recognition apparatus 200 can operate a computer (not shown) with a program (phoneme recognition program) that functions as each of the above-described units.

以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
ここでは、音素発音辞書50の見出し語と音素言語モデル60の接続対象とを、音素列単語生成手段11(図1参照)が生成した単語別音素列のスペースを“+”とした音素列単語とすることで、1単語分の音素列を1つの単語として扱うこととした。
As mentioned above, although embodiment of this invention was described, this invention is not limited to these embodiment.
Here, the phoneme string words with the space of the word-by-word phoneme string generated by the phoneme string word generation means 11 (see FIG. 1) as the connection target of the phoneme pronunciation dictionary 50 and the phoneme language model 60 are set to “+”. Thus, the phoneme string for one word is handled as one word.

しかし、音素列を1単語とみなす手法は、これに限定されるものではない。例えば、1単語分の音素列の末尾に音素以外の予め定めた文字(例えば、“¥”)を付加することとしてもよいし、単語分の音素列の前後に音素以外の予め定めた文字(例えば、“<”,“>”)を付加することとしてもよい。
この場合も、音素列生成手段202(図8参照)は、音素列単語生成手段11(図1参照)が行った処理の逆変換を行えばよい。
However, the method of regarding a phoneme string as one word is not limited to this. For example, a predetermined character other than a phoneme (for example, “¥”) may be added to the end of a phoneme string for one word, or a predetermined character other than a phoneme before and after a phoneme string for a word (for example, “¥”). For example, “<”, “>”) may be added.
Also in this case, the phoneme string generation unit 202 (see FIG. 8) may perform reverse conversion of the processing performed by the phoneme string word generation unit 11 (see FIG. 1).

また、ここでは、音素言語モデル生成手段14が生成する音素言語モデル60として、2−gram言語モデルを例示した。
しかし、音素言語モデル生成手段14は、N−gram言語モデルであれば、1−gram言語モデル、3−gram言語モデル等であっても構わない。
Here, a 2-gram language model is illustrated as the phoneme language model 60 generated by the phoneme language model generation unit 14.
However, the phoneme language model generation unit 14 may be a 1-gram language model, a 3-gram language model, or the like as long as it is an N-gram language model.

1 音素認識辞書生成装置
10 単語別音素列生成手段
11 音素列単語生成手段
12 音素発音辞書生成手段
120 単語別音素列登録手段
121 組み合わせ音素列登録手段
13 音素列単語リスト記憶手段
130 音素列単語リスト
14 音素言語モデル生成手段
2 学習コーパス記憶装置
20 学習コーパス
3 発音辞書記憶装置
30 発音辞書
4 音響モデル記憶装置
40 音響モデル
5 音素発音辞書記憶装置
50 音素発音辞書
6 音素言語モデル記憶装置
60 音素言語モデル
DESCRIPTION OF SYMBOLS 1 Phoneme recognition dictionary production | generation apparatus 10 Phoneme sequence production | generation means classified by word 11 Phoneme sequence word production | generation means 12 Phoneme pronunciation dictionary production | generation means 120 Phoneme sequence registration means classified by word 121 Combination phoneme sequence registration means 13 Phoneme sequence word list storage means 130 Phoneme sequence word list 14 phoneme language model generation means 2 learning corpus storage device 20 learning corpus 3 pronunciation dictionary storage device 30 pronunciation dictionary 4 acoustic model storage device 40 acoustic model 5 phoneme pronunciation dictionary storage device 50 phoneme pronunciation dictionary 6 phoneme language model storage device 60 phoneme language model

Claims (7)

音響モデルと発音辞書と学習コーパスとを用いて、音素認識に用いる音素発音辞書および音素言語モデルを生成する音素認識辞書生成装置であって、
前記学習コーパスの音声を、前記音響モデルと前記発音辞書とに基づいて音声認識し、前記発音辞書に登録されている見出し語に対応する単語ごとの音素列である単語別音素列を生成する単語別音素列生成手段と、
前記単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する音素列単語生成手段と、
前記音素列単語を見出し語とし、当該音素列単語に対応する前記単語別音素列を発音表記とすることで、前記音素発音辞書を生成する音素発音辞書生成手段と、
前記音素列単語生成手段で生成される前記音素列単語のリストから前記音素列単語の連鎖としてN−gram言語モデルを学習することにより、前記音素言語モデルを生成する音素言語モデル生成手段と、
を備えることを特徴とする音素認識辞書生成装置。
A phoneme recognition dictionary generation device that generates a phoneme pronunciation dictionary and a phoneme language model used for phoneme recognition using an acoustic model, a pronunciation dictionary, and a learning corpus,
A word that recognizes speech of the learning corpus based on the acoustic model and the pronunciation dictionary and generates a phoneme sequence by word that is a phoneme sequence for each word corresponding to a headword registered in the pronunciation dictionary Another phoneme sequence generation means;
Phoneme string word generation means for converting the phoneme string by word into a text data format of one word to generate a phoneme string word;
A phoneme pronunciation dictionary generating means for generating the phoneme pronunciation dictionary by using the phoneme string word as a headword and using the word-specific phoneme string corresponding to the phoneme string word as a pronunciation expression;
Phoneme language model generation means for generating the phoneme language model by learning an N-gram language model as a chain of the phoneme string words from the list of phoneme string words generated by the phoneme string word generation means;
A phoneme recognition dictionary generating device comprising:
前記単語別音素列生成手段は、前記単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、前記音素列単語を生成することを特徴とする請求項1に記載の音素認識辞書生成装置。   2. The phoneme string words according to claim 1, wherein the word-by-word phoneme string generation unit generates the phoneme string words by inserting predetermined characters other than phonemes between phonemes of the word-by-word phoneme strings. Recognition dictionary generator. 前記音素発音辞書生成手段は、予め定めた数の音素を組み合わせた音素列を前記テキストデータ形式に変換した見出し語とし、当該見出し語に対応する音素列を発音表記として前記音素発音辞書に登録することを特徴とする請求項1または請求項2に記載の音素認識辞書生成装置。   The phoneme pronunciation dictionary generating means uses a phoneme string obtained by combining a predetermined number of phonemes as a headword converted into the text data format, and registers the phoneme string corresponding to the headword as a phonetic notation in the phoneme pronunciation dictionary. The phoneme recognition dictionary generation device according to claim 1 or claim 2, wherein 前記音素言語モデル生成手段は、前記音素列単語生成手段で生成される前記音素列単語のリストに存在しない音素列単語の連鎖に対して、スムージングによりNグラム確率を与えることを特徴とする請求項1から請求項3のいずれか一項に記載の音素認識辞書生成装置。   The phoneme language model generation means gives an N-gram probability by smoothing to a chain of phoneme string words that do not exist in the list of phoneme string words generated by the phoneme string word generation means. The phoneme recognition dictionary production | generation apparatus as described in any one of Claims 1-3. コンピュータを、請求項1から請求項4のいずれか一項に記載の音素認識辞書生成装置として機能させるための音素認識辞書生成プログラム。   The phoneme recognition dictionary production | generation program for functioning a computer as a phoneme recognition dictionary production | generation apparatus as described in any one of Claims 1-4. 音響モデルと、請求項1から請求項4のいずれか一項に記載の音素認識辞書生成装置により生成された音素発音辞書および音素言語モデルとを用いて、音声の音素を認識する音素認識装置であって、
前記音響モデルと前記音素発音辞書と前記音素言語モデルとにより、前記音声を音素列単語単位で認識する認識手段と、
この認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する音素列生成手段と、
を備えることを特徴とする音素認識装置。
A phoneme recognition apparatus for recognizing phonemes of speech using an acoustic model and a phoneme pronunciation dictionary and a phoneme language model generated by the phoneme recognition dictionary generation apparatus according to any one of claims 1 to 4. There,
Recognizing means for recognizing the speech in units of phoneme sequence words by the acoustic model, the phoneme pronunciation dictionary, and the phoneme language model;
A phoneme string generating means for generating a phoneme string by separating a phoneme string word in a text data format of one word recognized by the recognition means into individual phonemes;
A phoneme recognition device comprising:
コンピュータを、請求項6に記載の音素認識装置として機能させるための音素認識プログラム。   A phoneme recognition program for causing a computer to function as the phoneme recognition device according to claim 6.
JP2017126929A 2017-06-29 2017-06-29 Phoneme recognition dictionary generator and phoneme recognition device and their programs Active JP6876543B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017126929A JP6876543B2 (en) 2017-06-29 2017-06-29 Phoneme recognition dictionary generator and phoneme recognition device and their programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017126929A JP6876543B2 (en) 2017-06-29 2017-06-29 Phoneme recognition dictionary generator and phoneme recognition device and their programs

Publications (2)

Publication Number Publication Date
JP2019012095A true JP2019012095A (en) 2019-01-24
JP6876543B2 JP6876543B2 (en) 2021-05-26

Family

ID=65226875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017126929A Active JP6876543B2 (en) 2017-06-29 2017-06-29 Phoneme recognition dictionary generator and phoneme recognition device and their programs

Country Status (1)

Country Link
JP (1) JP6876543B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489739A (en) * 2020-04-17 2020-08-04 杭州嘉楠耘智信息科技有限公司 Phoneme recognition method and device and computer readable storage medium
CN112530414A (en) * 2021-02-08 2021-03-19 数据堂(北京)科技股份有限公司 Iterative large-scale pronunciation dictionary construction method and device
CN113345442A (en) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 Voice recognition method and device, electronic equipment and storage medium
WO2022185437A1 (en) * 2021-03-03 2022-09-09 日本電気株式会社 Speech recognition device, speech recognition method, learning device, learning method, and recording medium
CN115831120A (en) * 2023-02-03 2023-03-21 北京探境科技有限公司 Corpus data acquisition method and device, electronic equipment and readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016161765A (en) * 2015-03-02 2016-09-05 日本放送協会 Phonetic sequence extension device and program thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016161765A (en) * 2015-03-02 2016-09-05 日本放送協会 Phonetic sequence extension device and program thereof

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489739A (en) * 2020-04-17 2020-08-04 杭州嘉楠耘智信息科技有限公司 Phoneme recognition method and device and computer readable storage medium
CN112530414A (en) * 2021-02-08 2021-03-19 数据堂(北京)科技股份有限公司 Iterative large-scale pronunciation dictionary construction method and device
WO2022185437A1 (en) * 2021-03-03 2022-09-09 日本電気株式会社 Speech recognition device, speech recognition method, learning device, learning method, and recording medium
CN113345442A (en) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 Voice recognition method and device, electronic equipment and storage medium
CN113345442B (en) * 2021-06-30 2024-06-04 西安乾阳电子科技有限公司 Speech recognition method, device, electronic equipment and storage medium
CN115831120A (en) * 2023-02-03 2023-03-21 北京探境科技有限公司 Corpus data acquisition method and device, electronic equipment and readable storage medium
CN115831120B (en) * 2023-02-03 2023-06-16 北京探境科技有限公司 Corpus data acquisition method and device, electronic equipment and readable storage medium

Also Published As

Publication number Publication date
JP6876543B2 (en) 2021-05-26

Similar Documents

Publication Publication Date Title
JP6052814B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
JP6876543B2 (en) Phoneme recognition dictionary generator and phoneme recognition device and their programs
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP5660441B2 (en) Speech recognition apparatus, speech recognition method, and program
JP2006038895A (en) Device and method for speech processing, program, and recording medium
JPWO2009078256A1 (en) Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP2004258658A (en) Continuous speech recognition method using inter-word phoneme information and device thereforfor
JP7295839B2 (en) Automatic speech recognition based on syllables
Helgadóttir et al. Building an ASR Corpus Using Althingi's Parliamentary Speeches.
WO2004047075A1 (en) Voice processing device and method, recording medium, and program
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
KR100573870B1 (en) multiple pronunciation dictionary structuring Method and System based on the pseudo-morpheme for spontaneous speech recognition and the Method for speech recognition by using the structuring system
JP6475517B2 (en) Pronunciation sequence expansion device and program thereof
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Yekache et al. Towards Quranic reader controlled by speech
Valizada Subword speech recognition for agglutinative languages
JP6568429B2 (en) Pronunciation sequence expansion device and program thereof
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
Veisi et al. Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Radha et al. Continuous speech recognition system for Tamil language using monophone-based hidden markov model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210426

R150 Certificate of patent or registration of utility model

Ref document number: 6876543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6876543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250