JP6125991B2 - 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体 - Google Patents

発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体 Download PDF

Info

Publication number
JP6125991B2
JP6125991B2 JP2013266469A JP2013266469A JP6125991B2 JP 6125991 B2 JP6125991 B2 JP 6125991B2 JP 2013266469 A JP2013266469 A JP 2013266469A JP 2013266469 A JP2013266469 A JP 2013266469A JP 6125991 B2 JP6125991 B2 JP 6125991B2
Authority
JP
Japan
Prior art keywords
pronunciation
pronunciation dictionary
dictionary conversion
label
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013266469A
Other languages
English (en)
Other versions
JP2015121731A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
孝典 芦原
孝典 芦原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013266469A priority Critical patent/JP6125991B2/ja
Publication of JP2015121731A publication Critical patent/JP2015121731A/ja
Application granted granted Critical
Publication of JP6125991B2 publication Critical patent/JP6125991B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、対象タスクに対応した発音辞書変換を実現するためのモデルを作成する発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体に関する。
一般的な音声認識システムでは、言語的な予測のための言語モデルと、音響的な予測のための音響モデルとを用いる。そして更に、言語的情報と音響的情報を結びつけるものとして「単語とその発音の関係」を表す発音辞書が用いられる。この発音辞書は、しばしば認識用辞書などと表記される場合がある。発音辞書は周知なものであり、例えば非特許文献1に開示されている。
発音辞書は、基本的に形態素解析器による正規の読み仮名に基づき各単語の発音が付与されている。しかし、人間は、単語の正規の読み仮名通りに発音しない場合も多い。例えば、「言った」という単語列の正規の読み仮名は「いった」であるが、「ゆった」と発音する場合もある。このように、単語と発音の関係は一対一の関係ではなく確率的な変動が起こり得るものである。
このような発音の確率的な変動を捉えた発音辞書を構築することができれば、音声認識の性能を向上させる効果が期待できる。但し、発音変動の起こり方は、音声認識タスクにより大きく異なることに注意する必要がある。例えば、教育現場における先生の発声は、丁寧な方向に発音変動が起こる。具体的には、発音が長音化する現象や、発話時に間を挟むといった現象が起こる。
一方、友人との会話などでは、発音が丁寧ではなく、発音時の音の脱落などの現象も起こり易い。したがって、想定する音声認識タスクごとに適切な発音辞書を構築することが音声認識においては重要となる。
音声認識タスクに合った発音辞書を構築するために、任意の単語に対して単語の表記や正規の読みの情報から、発音変動を予測する方法が提案されている。その方法は、統計的学習に基づくものである。統計的学習には、先ず学習データが必要である。学習データには、音声データとその単語系列の組を用いる。
従来技術では、最初に音響モデルのみを用いて音声データを連続音声認識し、発音変動を含む音素系列を得る。同時に単語系列に対して形態素解析して正規の音素系列を得る。この処理によって、「正規の音素系列−変動した音素系列」のデータを構築し、このデータから統計的なモデル化を行う。決定木を利用する方法が例えば非特許文献2に、ニューラルネットワークなどを利用する方法が例えば非特許文献3に開示されている。
鹿野清宏他「IT Text音声認識システム」オーム社出版局,pp.91-92. Riley, M., et al.,"Stochastic pronunciation modelling from hand-labelled phonetic corpora" , Speech Communication, 29(2-4):209-224, November 1999. T.Fukada, T.Yoshimura, and Y.Sagisaka. Automatic generation of multiple pronunciations based on neural networks and language statistics. Speech Communication, 27:63-73, 1999.
従来の発音辞書を構築する方法は、音声データを連続音声認識した結果を用いるので、発音変動の範囲をカバーした音素レベルのモデル化を実現するために大量の学習データを必要とする課題がある。あらゆる音素に対して「置換変動(音素が別の音素に置き換わる)」、「挿入変動(音素が新たに追加される)」、「脱落変動(音素が消える)」、これらの発音変動の範囲をカバーした音素レベルのモデル化を実現するためには、学習データを大量に準備しなければならない。
本発明は、この課題に鑑みてなされたものであり、少ない学習データで発音辞書を構築するためのモデルを作成する発音辞書変換モデル作成装置と、そのモデルを用いた発音辞書変換装置と、それらの方法とプログラムとその記録媒体を提供することを目的とする。
本発明の発音辞書変換モデル作成装置は、発音辞書変換ラベル整備部と、発音辞書変換モデル学習部と、を具備する。発音辞書変換ラベル整備部は、単語系列を構成する元単語と当該元単語の音声データとの組と、発音変動パターンを入力として、音声データを、音響モデルと発音変動パターンを考慮した文脈自由文法とを用いて音声認識し、発音変動パターンに対応した元単語と変動後のパターンとの組から成る発音辞書変換ラベルを、発音変動パターンの数分出力する。発音辞書変換モデル学習部は、発音辞書変換ラベルを入力として、当該発音辞書変換ラベルから変動後のパターンに対応した変換後の単語が出現する条件付き確率を機械学習によってモデル化した発音辞書変換モデルを学習する。
また、本発明の発音辞書変換装置は、発音辞書変換モデルと、発音辞書素性化部と、発音変動観測部と、発音辞書構築部と、を具備する。発音辞書変換モデルは、上記した本発明の発音辞書変換モデル作成装置で作成したものである。発音辞書素性化部は、正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを入力として、当該辞書エントリに対して正規読み素性ベクトルを構築する。発音変動観測部は、正規読み素性ベクトルを入力として、発音辞書変換モデルを用い各発音変動パターンの確率値を求める。発音辞書構築部は、発音変動パターンの確率値ごとに辞書エントリを配列して発音変動が考慮された発音辞書を構築する
本発明の発音辞書変換モデル作成装置によれば、単語系列を構成する元単語の音声データの単位で当該音声データを、音響モデルと発音変動パターンを考慮した文脈自由文法とを用いて音声認識した結果から発音辞書変換モデルを作成する。したがって、発音変動パターンに対応した発音辞書変換モデルを少ないデータ量で作成することができる。
また、本発明の発音辞書変換装置は、正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを、上記したこの発明の発音辞書変換モデルを用いて発音変動が考慮された発音辞書に変換する。したがって、音声認識タスクに適した発音辞書を少ないコストで構築することができる。
本発明の発音辞書変換モデル作成装置100の機能構成例を示す図。 発音辞書変換モデル作成装置100の動作フローを示す図。 文脈自由文法の一例を示す図。 発音辞書変換レベル整備部110の機能構成例を示す図。 発音辞書変換レベル整備部110の動作フローを示す図。 発音辞書変換モデル学習部140の機能構成例を示す図。 発音辞書変換モデル学習部140の動作フローを示す図。 本発明の発音辞書変換装置200の機能構成例を示す図。 発音辞書変換装置200の動作フローを示す図。 変換元発音辞書の辞書エントリの例を示す図。 発音辞書変換装置200で変換した発音変動が考慮された発音辞書の辞書エントリの例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の発音辞書変換モデル作成装置100の機能構成例を示す。その動作フローを図2に示す。発音辞書変換モデル作成装置100は、発音辞書変換ラベル整備部110と、音響モデル120と、発音辞書変換モデル学習部140と、を具備する。発音辞書変換モデル作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の装置についても同様である。
発音辞書変換ラベル整備部110は、単語系列を構成する元単語と当該元単語の音声データとの組(組1,組2,…,組M)と、発音変動パターンを入力として、当該元単語の音声データを音響モデル120と発音変動パターンを考慮した文脈自由文法とを用いて音声認識し、発音変動パターンに対応した元単語と変動後のパターンとの組から成る発音辞書変換ラベルを、発音変動パターンの数分出力する(ステップS110)。単語系列は、例えば「今日」、「は」、「晴れ」、「です」の単語の系列である。発音変動パターンとは、例えば丁寧な発音変動が考えられる音声認識タスク(教員の声の音声認識)であれば、「モーラ(mora)ごとに間(ポーズ)を入れる」、「モーラが全て長音化」、「変わらない」等、の例えば3種類が考えられる。
文脈自由文法とは、発音変動パターンのみを許容する文法であり、例えば図3に示すものである。「今日は晴れです」の単語系列を構成する元単語ごとに、発音変動パターンを当てはめたものを直列に並べたものである。各矢印は、選択可能な発音の経路を表す。発音辞書変換ラベルは、元単語と音声データの組の数分出力される。上記した単語系列の例では、4個の発音辞書変換ラベルが出力される。複数の発音辞書変換ラベルは、ラベル群130として一時記憶しても良い。
発音辞書変換モデル学習部140は、発音辞書変換ラベルを入力として、当該発音辞書変換ラベルから変動後のパターンに対応した変換後の単語が出現する条件付き確率を機械学習によってモデル化した発音辞書変換モデルを学習する(ステップS140)。発音辞書変換ラベルは、例えば、(今日−モーラごとに間を入れる)、(今日−モーラが全て長音化)、(今日−変わらない)である。この発音辞書変換ラベルは、元単語ごとに3種類ずつが、発音辞書変換ラベル整備部110から入力される。
発音辞書変換ラベル整備部110と発音辞書変換モデル学習部140の処理は、単語系列を構成する元単語と当該元単語の音声データとの組の全てが終了するまで繰り返される(ステップS150のNo)。この発音辞書変換ラベル整備部110と発音辞書変換モデル学習部140の時系列動作の制御と動作終了の制御は、制御部150が行う。この制御部150の機能は、この実施例の特別な技術的特徴では無く一般的なものである。
以上の構成で学習された発音辞書変換モデルは、元単語ごとに発音変動パターンの数を限定して求められたものなので、その作成に大量の学習データを必要としない。つまり、少ないデータ量で発音辞書変換モデルを学習することができる。
以降では、各部のより具体的な機能構成例を示して更に詳しく発音辞書変換モデル作成装置100の動作を説明する。
〔発音辞書変換ラベル整備部〕
図4に、発音辞書変換ラベル整備部110のより具体的な機能構成例を示す。その動作フローを図5に示す。発音辞書変換ラベル整備部110は、形態素解析手段111と、文脈自由文法構築手段112と、文脈自由文法記憶手段113と、最尤系列探索手段114と、ラベル生成手段115と、を備える。
形態素解析手段111は、単語系列から、読み情報付き形態素解析結果を得る(ステップS111)。形態素解析には、任意の形態素解析器を利用できる。例えば単語系列を「今日は晴れです」とした場合、その形態素解析結果は「今日;キョウ;名詞:日時:連用;は;ワ;連用助詞;晴れ;はれ;名詞;です;デス;判定詞:終止;」といった系列が得られれば良い。形態素解析手段111は、単語系列を形態素ごとに分けることと、正規の読みを付与することを満たすものであればどのような手段を用いても良い。
文脈自由文法構築手段112は、読み情報付き形態素解析結果と発音変動パターンを入力として、文脈自由文法を構築する(ステップS112)。ここで許容する文法は、予め規定した発音変動パターンに限る。この発音変動パターンは、様々に規定して良いが、単語単位で変動できるパターンに限る。
ここではその変動パターンを、例えば上記した「モーラ(mora)ごとに間(ポーズ)を入れる」、「モーラが全て長音化」、「変わらない」、の3種類として説明する。形態素解析結果にはL単語含まれるとする。上記した形態素解析結果ではL=4である。
元単語「今日」の場合、「変わらない(読み情報通り)」とは「ハレ」、「モーラごとに間を入れる」とは「ハ、レ、」、「モーラが全て長音化」とは「ハーレー」、という発音変動パターンになる。
これらの3種類の発音変動パターンを形態素解析結果の各単語について考慮して、それらを許容する文脈自由文法を構築する(図3)。なお、発音変動パターンは3種類に限られない。例えば「モーラごとに促音を入れる」などの発音変動パターンを加えても良い、その場合、図3に示す単語間の遷移を表す矢印は4つになる。構築された文脈自由文法は、文脈自由文法記憶手段113に記憶される。
最尤系列探索手段114は、元単語の音声データを、音響モデル120と文脈自由文法記憶手段113に記憶された文脈自由文法を用いて音声認識した最尤系列を出力する(ステップS114)。最尤系列とは、文脈自由文法の許すパス(経路)の中で、音響モデルからの生成確率が最大となる系列s^を見つけることである。系列s^は次式で求めることができる。
Figure 0006125991
ここでtは入力音声の特徴ベクトル系列である。音声認識の場合、例えばメル周波数ケプストラム係数(MFCC)分析によって求めた特徴ベクトルを用いるのが一般的である。音響モデル120は、隠れマルコフモデルと混合ガウス分布とで規定される一般的なものである。単語系列と組の音声データを、例えば「キョウ ハー ハ、レ、デースー」とした場合、最尤系列は図3に太線で示すパスが選択される。
ラベル生成手段115は、読み情報付き形態素解析結果と最尤系列を入力として、元単語と変動後のパターンとから成る発音辞書変換ラベルを生成する(S115)。最尤系列を「キョウ ハー ハ、レ、デースー」とした場合、発音辞書変換ラベルは、「今日;キョウ;名詞:日時:連用;−読み情報通り」、「は;ワ;連用助詞;−モーラが全て長音化」、「晴れ;ハレ;名詞;−モーラごとに間を入れる」、「です;デス;判定詞:終止;−モーラが全て長音化」、の4つの発音辞書変換ラベルを出力として得ることができる。
〔発音辞書変換モデル学習部〕
図6に、発音辞書変換モデル学習部140の機能構成例を示す。その動作フローを図7に示す。発音辞書変換モデル学習部140は、素性ベクトル抽出手段141と、発音辞書変換装置モデルパラメータ学習手段142と、を備える。
素性ベクトル抽出手段141は、発音辞書変換ラベルを入力として、当該発音辞書変換ラベルを構成する元単語の単語情報から抽出した素性ベクトルと、当該発音辞書変換ラベルを構成する変動後のパターンとを対にした学習ラベルを出力する(ステップS141)。学習ラベルは、素性ベクトルxと出力ラベルyの形で表される。
素性ベクトル抽出手段141は、先ず、元単語の単語情報から素性ベクトルを取り出す。様々な素性ベクトルを利用できるが、例えば、品詞情報、単語のモーラ長、を利用する場合を想定する。品詞の種類が「動詞、名詞、形容詞、副詞、その他」の5種類の場合であれば、品詞の情報のみで5次元分確保する。
元単語が名詞であれば、「名詞」の部分のみを1にセットし、その他の部分を0にリセットする。例えば、素性ベクトルx=[0,1,0,0,0]である。
同様にモーラ長に対しても、「1モーラ,2モーラ〜4モーラ,5モーラ以上」の3種類で考える場合、元単語が1モーラであればその部分のみを1にセットし、その他の部分には0を入れることになる。例えば、素性ベクトルx=[0,1,0,0,0,1,0,0]である。先頭から5個が品詞情報、その後の3個がモーラ長情報を表す。
出力ラベルyは、例えば「読み情報通り」の場合は1、「モーラごとに間(ポーズ)を入れる」の場合は2、「モーラが全て長音化」の場合は3、とする。
発音辞書変換ラベルが「今日;キョウ;名詞:日時連用−読み情報通り」であれば、学習ラベルは「x=[0,1,0,0,0,0,1,0],y=1」となる。
発音辞書変換装置モデルパラメータ学習手段142は、学習ラベルを入力として、素性ベクトルを入力特徴ベクトルとし、出力ラベルyが出力される条件付き確率を求めるモデルパラメータである発音辞書変換モデルを学習する(ステップS142)。学習すべきモデルは、入力の特徴ベクトルxと出力ラベルyから条件付き確率P(y|x)をモデル化できるものである。モデル化には様々なものが考えられるが、例えば最大エントロピーモデルを用いてモデル化を行う。
最大エントロピーモデルは、対数線形モデルと等価のモデルであり、周知のモデルである。最大エントロピーモデルは次式で表せる。
Figure 0006125991
ここでwはモデルパラメータである。具体的な学習方法は、例えば参考文献1(北健二「言語と計算-4確率的言語モデル」東京大学出版会,pp.162-165)に記載された周知の方法を用いる。
発音辞書変換モデルの学習が終わると、後述する発音辞書変換装置200の発音辞書素性化部220で構成された特徴ベクトルxを入力することで、読み情報通りである条件付き確率P(1|x)、モーラごとに間を入れる条件付き確率P(2|x)、モーラが全て長音化する条件付き確率P(3|x)、をそれぞれ計算することが可能になる。
〔発音辞書変換装置〕
図8に、この発明の発音辞書変換装置200の機能構成例を示す。その動作フローを図9に示す。発音辞書変換装置200は、発音辞書変換モデル210と、発音辞書素性化部220と、発音変動観測部230と、発音辞書構築部240と、を具備する。
発音辞書変換モデル210は、上記した発音辞書変換モデル作成装置100で作成した変換モデルである。発音辞書活性化部220は、正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを入力として、当該辞書エントリに対して正規読み素性ベクトルを構築する(ステップS220)。
図10に、既存の発音辞書の辞書エントリの例を示す。辞書エントリとは、図10の1行ずつのことであり、各単語「曇り」の正規の読みと品詞情報と、読み仮名とその確率値と、で構成される。辞書エントリに対する正規読み素性ベクトルは、上記した素性ベクトル抽出手段141と同じルールで生成される。例えば、辞書エントリ「曇り;クモリ;名詞;⇒クモリ=1.0」に対する正規読み素性ベクトルは、x=[0,1,0,0,0,0,1,0]といった形で表される。先頭から5個の品詞情報で名詞、その後の3個のモーラ長情報で2モーラ、であることを表している。
発音変動観測部230は、正規読み素性ベクトルを入力として、発音辞書変換モデル210を用い各発音変動パターンの条件付き確率P(y|x)を求める(ステップS230)。例えば、「曇り;クモリ;名詞;⇒クモリ=1.0」の正規読み素性ベクトルx=[0,1,0,0,0,0,1,0]を入力とすると、P(1|x)=0.65,P(2|x)=0.23,P(3|x)=0.12といった条件付き確率が得られる。発音変動観測部230は、条件付き確率を式(2)で計算する。
発音辞書構築部240は、発音変動パターンの条件付き確率P(y|x)ごとに辞書エントリを配列して発音変動が考慮された発音辞書を構築する(ステップS240)。発音辞書活性化部220と発音変動観測部230と発音辞書構築部240の処理は、全ての辞書エントリが終了するまで繰り返される(ステップS250のNo)。
図11に、発音辞書変換装置200で変換された発音変動が考慮された発音辞書の辞書エントリの例を示す。この例では、単語ごとに3つの変動パターンが配列されている。
発音辞書変換装置200によれば、正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを、発音変動の限定化を想定したこの発明の発音辞書変換モデルを用いて発音変動が考慮された発音辞書に変換する。したがって、音声認識タスクに適した発音辞書を低コストで構築することができる。
なお、上記した実施例では、素性ベクトルxを5個の品詞情報と3個のモーラ長情報とで表される例で説明を行ったが、この例は一例であって、例えば「表記内の漢字の有無」や「表記と標準読みの長さの差」などを、ベクトル要素に付加しても良い。また、機械学習の一例として最大エントロピーモデルを用いる例を説明したが、条件付き確率P(y|x)のモデル化には任意のモデルが利用可能である。例えば、ニューラルネットワークを利用しても良い。その場合は、ニューラルネットワークの中間層がシグモイド関数、出力層がソフトマトリックス関数となる。
以上説明したようにこの発明の発音辞書変換モデル作成装置100によれば、従来技術のような連続音声認識を行わない、そして、限定的な発音変動を想定した文脈自由文法を用いることで広範囲な発音変動に対応する必要がなくなる。その結果、少ないデータ量で頑健な発音辞書変換モデルを作成することができる。
また、この発明の発音辞書変換装置200は、その発音辞書変換モデルを使って音声認識タスクに適した発音辞書を構築するので、低コストで音声認識タスクに適応した発音辞書の作成を可能にする。この発音辞書は、個人の話し方の癖を再現する音声合成に利用するのにも好適である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、音声認識と音声合成の両分野全般で利用することができる。

Claims (8)

  1. 単語系列を構成する元単語と当該元単語の音声データとの組と、発音変動パターンを入力として、上記音声データを、音響モデルと上記発音変動パターンを考慮した文脈自由文法とを用いて音声認識し、上記発音変動パターンに対応した上記元単語と変動後のパターンとの組から成る発音辞書変換ラベルを、上記元単語と上記音声データとの組の数分出力する発音辞書変換ラベル整備部と、
    上記発音辞書変換ラベルを入力として、当該発音辞書変換ラベルを構成する元単語の単語情報から抽出した素性ベクトルxを入力した場合に当該発音辞書変換ラベルを構成する変動後のパターンを示す出力ラベルyが出力される条件付き確率P(y|x)を機械学習によってモデル化した発音辞書変換モデルを学習する発音辞書変換モデル学習部と、
    を具備する発音辞書変換モデル作成装置。
  2. 請求項1に記載した発音辞書変換モデル作成装置において、
    上記発音辞書変換ラベル整備部は、
    上記単語系列から、読み情報付き形態素解析結果を得る形態素解析手段と、
    上記読み情報付き形態素解析結果と上記発音変動パターンを入力として、文脈自由文法を構築する文脈自由文法構築手段と、
    上記文脈自由文法を記憶する文脈自由文法記憶手段と、
    上記元単語の音声データを、音響モデルと上記文脈自由文法を用いて音声認識した最尤系列を出力する最尤系列探索手段と、
    上記読み情報付き形態素解析結果と上記最尤系列を入力として、上記元単語と変動後のパターンとから成る発音辞書変換ラベルを生成するラベル生成手段と、
    を備えることを特徴とする発音辞書変換モデル作成装置。
  3. 請求項1又は2に記載した発音辞書変換モデル作成装置において、
    上記発音辞書変換モデル学習部は、
    上記発音辞書変換ラベルを入力として、当該発音辞書変換ラベルを構成する上記元単語の単語情報から素性ベクトルを抽出し、当該素性ベクトルを入力特徴ベクトルとし、上記変動後のパターンを出力ラベルとする対を学習ラベルとして出力する素性ベクトル抽出手段と、
    上記学習ラベルを入力として、上記素性ベクトルを入力特徴ベクトルとして上記出力ラベルが出力される条件付き確率を求めるモデルパラメータである発音辞書変換モデルを、最大エントロピーモデルを用いてモデル化する発音辞書変換装置モデルパラメータ学習手段と、
    を備えることを特徴とする発音辞書変換モデル作成装置。
  4. 請求項1乃至3の発音辞書変換モデル作成装置で作成した発音辞書変換モデルと、
    正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを入力として、当該辞書エントリに対して正規読み素性ベクトルを構築する発音辞書素性化部と、
    上記正規読み素性ベクトルを入力として、上記発音辞書変換モデルを用い各発音変動パターンの確率値を求める発音変動観測部と、
    上記発音変動パターンの確率値ごとに辞書エントリを配列して発音変動が考慮された発音辞書を構築する発音辞書構築部と、
    を具備する発音辞書変換装置。
  5. 発音辞書変換ラベル整備部が、単語系列を構成する元単語と当該元単語の音声データとの組と、発音変動パターンを入力として、上記音声データを、音響モデルと上記発音変動パターンを考慮した文脈自由文法とを用いて音声認識し、上記発音変動パターンに対応した上記元単語と変動後のパターンとの組から成る発音辞書変換ラベルを、上記元単語と上記音声データとの組の数分出力する発音辞書変換ラベル整備過程と、
    発音辞書変換モデル学習部が、上記発音辞書変換ラベルを入力として、当該発音辞書変換ラベルを構成する元単語の単語情報から抽出した素性ベクトルxを入力した場合に当該発音辞書変換ラベルを構成する変動後のパターンを示す出力ラベルyが出力される条件付き確率P(y|x)を機械学習によってモデル化した発音辞書変換モデルを学習する発音辞書変換モデル学習過程と、
    を備える発音辞書変換モデル作成方法。
  6. 発音辞書素性化部が、正規の読み仮名のみが付与された変換元発音辞書内の辞書エントリを入力として、当該辞書エントリに対して正規読み素性ベクトルを構築する発音辞書素性化過程と、
    発音変動観測部が、上記正規読み素性ベクトルを入力として、請求項5に記載した発音辞書変換モデル作成方法で作成した発音辞書変換モデルを用い各発音変動パターンの確率値を求める発音変動観測過程と、
    発音辞書構築部が、上記発音変動パターンの確率値ごとに辞書エントリを配列して発音変動が考慮された発音辞書を構築する発音辞書構築過程と、
    を備える発音辞書変換方法。
  7. 請求項1乃至3の何れかに記載した発音辞書変換モデル作成装置、請求項4に記載した発音辞書変換装置、の何れかの装置の各部の機能を、コンピュータに実行させるためのプログラム。
  8. 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2013266469A 2013-12-25 2013-12-25 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体 Expired - Fee Related JP6125991B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013266469A JP6125991B2 (ja) 2013-12-25 2013-12-25 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013266469A JP6125991B2 (ja) 2013-12-25 2013-12-25 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2015121731A JP2015121731A (ja) 2015-07-02
JP6125991B2 true JP6125991B2 (ja) 2017-05-10

Family

ID=53533377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013266469A Expired - Fee Related JP6125991B2 (ja) 2013-12-25 2013-12-25 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP6125991B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program

Also Published As

Publication number Publication date
JP2015121731A (ja) 2015-07-02

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
US10607598B1 (en) Determining input data for speech processing
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
Kurimo et al. Modeling under-resourced languages for speech recognition
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Pascual et al. Prosodic break prediction with RNNs
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Liu et al. Paraphrastic language models
Pakoci et al. Language model optimization for a deep neural network based speech recognition system for Serbian
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
Sakti et al. Incremental sentence compression using LSTM recurrent networks
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP6125991B2 (ja) 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体
JP5976037B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム
Fenghour et al. Disentangling homophemes in lip reading using perplexity analysis
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
Pala et al. Unsupervised stemmed text corpus for language modeling and transcription of Telugu broadcast news
JP5959598B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2015079383A (ja) 発話生成装置、方法、及びプログラム
Abdulhameed Cross Language Information Transfer Between Modern Standard Arabic and Its Dialects–a Framework for Automatic Speech Recognition System Language Model
Lyes et al. Building a pronunciation dictionary for the Kabyle language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170406

R150 Certificate of patent or registration of utility model

Ref document number: 6125991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees