JP4981076B2 - 発音辞書修正装置、音声認識装置、およびコンピュータプログラム - Google Patents

発音辞書修正装置、音声認識装置、およびコンピュータプログラム Download PDF

Info

Publication number
JP4981076B2
JP4981076B2 JP2009021942A JP2009021942A JP4981076B2 JP 4981076 B2 JP4981076 B2 JP 4981076B2 JP 2009021942 A JP2009021942 A JP 2009021942A JP 2009021942 A JP2009021942 A JP 2009021942A JP 4981076 B2 JP4981076 B2 JP 4981076B2
Authority
JP
Japan
Prior art keywords
pronunciation
group
data
storage unit
occurrence probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009021942A
Other languages
English (en)
Other versions
JP2010176103A (ja
Inventor
貴裕 奥
亨 今井
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009021942A priority Critical patent/JP4981076B2/ja
Publication of JP2010176103A publication Critical patent/JP2010176103A/ja
Application granted granted Critical
Publication of JP4981076B2 publication Critical patent/JP4981076B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識技術に関する。本発明は、特に、音声認識技術における発音辞書修正装置、およびそれを用いた音声認識装置、並びにそれらのコンピュータプログラムに関する。
音声認識処理のための発音辞書は、音声や文書などで用いられる単語の表記とその発音(読み)とのペアを要素として構成される。例えば日本語では、1つの漢字に複数の発音が対応するなど、ある単語に対してその発音は1つとは限らず、複数の発音が存在する可能性があるため、発音辞書では、1つの表記に対して1つ又は複数の発音が対応している。音声認識処理では、この発音辞書に基づいて単語の表記とその単語が発声された結果としての発音とを対応付けているため、発音辞書に正しい発音が登録されていなければ正しい音声認識処理を行なうことができない。
特に、数万種類以上の単語を扱う大語彙連続音声認識の分野では、例えば固有名詞などの新出単語の登録を常に行ない、発音辞書を維持していく必要がある。しかしながら、人手による辞書登録の際に入力誤りによって誤った発音のエントリーが登録されてしまったり、時間の経過につれて使われなくなった発音のエントリーが残ってしまったりする場合がある。これらの誤ったエントリー或いは不要なエントリーが発音辞書内に存在すると、音声認識処理の正解率の低下や、発音辞書の検索に要する時間が長くなることによる処理の遅延など、音声認識処理に悪影響を及ぼす場合がある。
非特許文献1には、学習データに基づき、発音辞書内の表記と発音のペアとしてなるエントリーに、生起確率を付加する手法が記載されている。同一の表記に対して、よく発音されやすい読みとそうでない読みとが存在する場合、非特許文献1に記載の方法では、それぞれの発音の生起確率を用いた認識処理を行なうことができる。
南條浩輝、河原達也,「講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング」,電子情報通信学会論文誌,2004年8月,vol.J87−D−2,no.8,pp.1581−1592
しかしながら、発声される音声には長母音化や無声化などによって、同じ意味の発声に対して更に細かく異なる発音が存在する場合がある。非特許文献1に記載の方法では、これら細かく異なる発音に対してもそれぞれに生起確率を付加するようにしているため、単語の意味を考慮した場合には不当に低い生起確率が付加され、その結果、認識の正解率が落ちる場合がある。
例えば、「思う」という表記に対して、「omou」という発音と「omo:」という発音(記号「:」は長音を表わす。従って、「o:」は長母音「おー」を表わす。)とがそれぞれ発音辞書に登録されており、それらの頻度がそれぞれ500回ずつであった場合、それぞれのエントリーには、生起確率0.5が付加される。しかし、これらの発音「omou」と「omo:」は互いに近い発音であるため、両者にはより高い生起確率を付与することが望まれる。
本発明は、上記の課題認識に基づいて為されたものであり、発音辞書のエントリーに対して、エントリー間の近さを考慮した生起確率を与えることのできる発音辞書修正装置、およびそのような発音辞書修正装置を用いた音声認識装置、並びにそれらのコンピュータプログラムを提供することを目的とする。
上記の課題を解決するため、本発明は、同一の表記に対する複数の発音のエントリーに対する近さを考慮し、発音が互いに近いエントリー同士をグループ化し、このグループとしての頻度に基づいて、グループ生起確率を算出し、算出されたグループ生起確率を、当該グループに属する各発音のエントリーに対して付加する。
[1]本発明の一態様による発音辞書修正装置は、変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部と、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理部と、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出部と、発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理部とを具備することを特徴とする。
これによれば、発音グルーピング処理部は、変化パターン定義記憶部から読み出したパターンデータを発音辞書データに含まれるエントリー中の発音に適用し、変化後の発音を得る。この変化後の発音が他のエントリー中の発音と同一である場合、これらエントリーは同一のグループとしてグループ化される。エントリーAとBが同一グループであり、さらにエントリーBとCが同一グループであるときに、エントリーAとBとCは全て同一のグループとしてグループ化される。所定のパターンデータを予め変化パターン定義記憶部に格納しておくことにより、発音が近いエントリー同士を同一のグループとしてグループ化できる。グループ生起確率算出部は、グループの出現頻度(これは、当該グループに属する個々の発音の出現頻度の総和)と当該グループに対応する表記の出現頻度とに基づき、グループ生起確率を算出する。辞書修正処理部は、算出されたグループ生起確率を、当該グループに属する個々の発音に対応するエントリーに付加して、修正済発音辞書データとして出力する。その結果、修正済発音辞書データの各エントリーは、表記と発音とグループ生起確率のデータを含む。
[2]また、本発明の一態様は、前記の発音辞書修正装置において、生起確率算出のためのスムージング係数を記憶するスムージング係数記憶部と、テスト音声データと、前記テスト音声データに対応する音声認識の正解データとを記憶するテストデータ記憶部と、前記修正済発音辞書データを用いて、前記テストデータ記憶部から読み出した前記テスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果と、前記テストデータ記憶部から読み出した前記正解データとから、音声認識処理の結果の正解率を算出する発音決定部と、前記スムージング係数を決定して前記スムージング係数記憶部に書き込むスムージング係数決定部とを更に具備し、前記グループ生起確率算出部は、前記スムージング係数記憶部から読み出したスムージング係数によって、前記グループ頻度の変化の度合いを緩和するように、前記グループ生起確率を算出することを特徴とする。
これにより、発音決定部は、修正済発音辞書を用いてテスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果とテスト音声データに対応した正解データとに基づき、音声認識処理の正解率を計算する。スムージング係数決定部は、適宜、スムージング係数を決定する。グループ生起確率算出部は、決定されたスムージング係数を用いて、グループ生起確率を算出する。これにより、適宜スムージング係数を変えながら、スムージング係数に対応して上記正解率が計算される。よって、正解率が高くなるように、適応的にスムージング係数を決定できる。
[3]また、本発明の一態様による音声認識装置は、前記の発音辞書修正装置と、前記発音辞書修正装置によって出力される修正済発音辞書データを記憶する辞書データ記憶部と、前記グループの音響的特徴の統計量を音響モデルとして記憶する音響モデル記憶部と、表記の統計的特徴量を言語モデルとして記憶する言語モデル記憶部と、入力音声の音響特徴量と、前記辞書データ記憶部から読み出した修正済み発音辞書データに含まれる表記と発音のグループとの統計的相関値と、前記音響モデル記憶部から読み出した前記音響モデルと、前記言語モデル記憶部から読み出した前記言語モデルとを用いてデコード処理を行ない、音声認識結果を出力するデコーダ部とを具備することを特徴とする。
これにより、上記の音声認識装置は、修正済辞書データを用いて音声認識処理を行なう。
[4]また、本発明の一態様によるコンピュータプログラムは、変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部を具備するコンピュータに、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理過程と、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出過程と、発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理過程との処理を実行させるものである。
本発明によれば、同一の表記で且つ近い発音のグループの頻度に基づいて、グループ生起確率を発音辞書データに付加することができる。これにより、個々の発音の頻度によって不当に低い生起確率が付加されるのを防ぐことができる。これにより、音声認識の精度が向上する。特に、大語彙連続音声認識における認識精度向上が可能となる。
また、本発明によれば、スムージング係数を用いることによって、特にグループ頻度が低い発音のグループに対して、グループ頻度の変化の度合いを緩和するようにグループ生起確率を算出するため、不当に低いグループ生起確率が付加されるのを防ぐことができる。つまり、同一の表記に対して発音ないしは発音のグループが多数存在するような場合でも、不当に低い生起確率となる可能性を回避することができる。
また、本発明によれば、適応的に、最適なスムージング係数を決定することができ、更なる認識精度向上につながる。
本発明の第1の実施形態による発音辞書修正装置の機能構成を示したブロック図である。 同実施形態による発音辞書データのデータ構成およびデータ例を示した概略図である。 同実施形態による修正済発音辞書データのデータ構成およびデータ例を示した概略図である。 同実施形態による変化パターン定義のデータの構成およびデータ例を示した概略図である。 同実施形態の発音グルーピング処理部による発音辞書のエントリーのグループ化の処理手順を示すフローチャートである。 本発明の第2の実施形態による発音辞書修正装置の機能構成を示したブロック図である。 同実施形態の発音辞書修正装置が適応的にスムージング係数を決定する処理の手順を示すフローチャートである。 本発明の第3の実施形態による音声認識装置の機能構成を示したブロック図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
[第1の実施の形態]
図1は、第1の実施形態による発音辞書修正装置の機能構成を示すブロック図である。図示するように、発音辞書修正装置101は、学習データセット処理部4と、変化パターン定義記憶部5と、発音グルーピング処理部6と、スムージング係数記憶部7と、グループ生起確率算出部8と、辞書修正処理部9とを含んで構成される。変化パターン定義記憶部5やスムージング係数記憶部7は、例えば、書き換え可能な半導体メモリや、磁気ハードディスク装置を用いて実現される。
また、発音辞書修正装置101は、発音辞書データ1と、学習データセット2とを入力データとして使用し、処理の結果として修正済発音辞書データ3を作成し、出力するようになっている。これらの各データは、例えば、磁気ハードディスク装置などに記録されている。
発音辞書修正装置101が使用するデータの概略は、次の通りである。
発音辞書データ1は、音声認識や音声合成などといった音声処理に用いるための辞書のデータであり、単語の文字での表記と、その単語の発音(読み)との関係を表わす。発音辞書データ1の詳細については後述する。
学習データセット2は、過去に実際に発話された音声(またはその読みを表わす発音データ)とその音声に対応する書き起こし文を含むデータである。
修正済発音辞書データ3は、発音辞書データ1が保持する単語の表記と読みとの関係に加えて、発音辞書修正装置101によって付加される情報を保持する。修正済発音辞書データ3の詳細については後述する。
発音辞書修正装置101内の変化パターン定義記憶部5は、例えば長母音化や無声化など、発音が変化するパターンに関する情報を記憶する。また、スムージング係数記憶部7は、グループ生起確率算出部8が発音のグループに関する生起確率を計算する際に用いる係数のデータを記憶する。これら各記憶部についても、後述する。
また、各処理部の概略は、次の通りである。
学習データセット処理部4は、学習データセット2から、単語の表記と発音とのペアを抽出し、これらのペアについて表記と発音との組み合わせの頻度をカウントすることによって、単語の表記と発音と出現頻度との組のデータを出力する。
発音グルーピング処理部6は、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出したパターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする。
グループ生起確率算出部8は、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率(表記と発音のグループとの統計的相関値)として算出する。また、グループ生起確率算出部8は、スムージング係数記憶部7から読み出したスムージング係数(λ)によって、特にグループ頻度が低い発音のグループに関して、グループ頻度の変化の度合いを緩和するように、グループ生起確率を算出する。このスムージングについては、後で具体的な式を用いて説明する。
辞書修正部9は、発音辞書データから読み出したエントリーに、当該エントリーが属するグループについて算出されたグループ生起確率を付加して、修正済発音辞書データとして出力する。
図2は、発音辞書データ1の構成及びそのデータ例を示す概略図である。図示するように、発音辞書データ1は表記と発音との対応関係を表わすペアを有するデータであり、本実施形態では、2次元の表形式のデータとして構成されている。なお、このデータにおける番号は、単にデータの各行を識別するために便宜的に付与されているものである。この図に示すデータ例では、「月」という表記が存在し、この表記「月」に対しては7種類の発音「gatsu」と「gats」と「geQ」と「getsu」と[gets]と「tsuki」と「tski」が存在している(番号104〜110)。また、同データ例では、「NHK」という表記が存在し、この表記「NHK」に対しては6種類の発音「eneQchike:」と「enueQchke:」と「enueichike:」と「enueichke:」と「enue:chike:」と「enue:chke:」とが存在している(番号1221〜1226)。なおここで、発音はローマ字表記で書かれている。また、「:」は長音を表わし、「Q」は促音を表わす。
図3は、修正済発音データ3の構成及びそのデータ例を示す概略図である。図示するように、この修正済発音データ3は、発音辞書データ1と同様に二次元の表形式のデータであり、発音辞書データ1が有していたデータ項目である番号と表記と発音(読み)に加えて、頻度と、グループID(グループ識別情報)と、グループ頻度と、グループ生起確率の各項目を有している。
頻度は、表記と発音の組み合わせが出現する頻度を表わす。後述するように、学習データセット処理部4が学習データセット2を基にこの頻度のデータを出力し、辞書修正処理部9がそのデータを修正済発音辞書データ3に書き込む。
グループIDは、表記と発音のペアを複数含むグループを識別する情報である。後述するように、発音グルーピング処理部6が変化パターン定義記憶部5から読み出す変化パターンに基づいてグループ化を行ない、発音辞書データ内の必要なエントリーに対してグループIDを付与する。そして、辞書修正処理部9がそのデータを修正済発音辞書データ3に書き込む。
グループ頻度は、上記のグループの出現頻度を表わす。グループ生起確率算出部8が、表記と発音のペアごとの頻度とグループ化の結果とからこのグループ頻度を算出し、辞書修正処理部9がそのデータを修正済発音辞書データ3に書き込む。
グループ生起確率は、上記のグループに付与された生起確率である。後述するように、グループ生起確率算出部8がグループ頻度に基づいてこのグループ生起確率を算出し、辞書修正処理部9がそのデータを修正済発音辞書データ3に書き込む。
図4は、変化パターン定義記憶部5に記憶される情報の構成及びそのデータ例を示す概略図である。図示するとおり、変化パターン定義のデータは、二次元の表形式であり、種別と、変形前パターンと、変形後パターンの項目を有している。そして、この表の各行が変化パターンに対応している。例えば、図示するデータの最初の行は、長母音化の一例であり、発音中に含まれるパターン「ou」が「o:」に変形し得ることを表わしている。第2行目および第3行目も同様に、それぞれ、「ei」から「e:」への変形、「iu」から「yu:」への変形を表わしている。最後の行は、無声化の一例を表わしており、発音中において無声子音に続いて狭母音(「i」や「u」など)が現れる場合には、その狭母音が発音されなくなる場合がこれに該当する。この「<無声子音><狭母音>→<無声子音>」の無声化の例は、「tsuki」が「tski」に変形したり、「hito」が「hto」に変形したりするというものである。
次に、各処理部の処理の詳細について説明する。
学習データセット処理部4は、学習データセット2に含まれる音声(またはその読みを表わす発音データ)と対応する書き起こし文とのアライメント処理を行なうことによって、単語ごとの表記と発音とのペアを抽出する。そして、学習データセット2内での各ペアの出現頻度をカウントすることによって、単語の表記と発音と出現頻度との組のデータを出力する。なお、学習データセット2は、放送等で過去に実際に発話された音声とその書き起こし文を元に作成されたデータである。
発音グルーピング処理部6は、発音辞書データ1から得られた表記と発音のペアである各エントリーと、変化パターン定義記憶部5から読み出す変化パターンとに基づいて、それらエントリーのグループ化を行なう。
図5は、発音グルーピング処理部6によるグループ化の処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
ステップS11で、発音グルーピング処理部6は、表記と発音のペアの中から未選択のものを1つ選択する。
次にステップS12で、発音グルーピング処理部6は、ステップS11で選択したエントリーに未適用の変化パターン1つを選択して変化パターン定義記憶部5から読み出して、そのエントリーに適用する。なお、当該発音の中において当該変化パターンの変形前パターンがマッチし得る場所が複数箇所存在する場合もあり得る。このように変化パターンを適用した結果、0個、1個または複数個の変化後の発音が得られるが、発音グルーピング処理部6は、得られたそれらすべての発音を、元の発音と関連付ける形で一時的メモリに書き込んでおく。
次にステップS13で、発音グルーピング処理部6は、ステップS11で選択したエントリーに全ての変化パターンを適用し終えたか否かを判定する。当該発音に全ての変化パターンを適応済の場合(ステップS13:YES)には次のステップS14に進み、そうでない場合(ステップS13:NO)には次の変化パターンを適用するためにステップS12に戻る。
次にステップS14で、発音グルーピング処理部6は、全てのエントリーを選択して処理を終えたか否かを判定する。全てのエントリーを選択済の場合(ステップS14:YES)には次のステップS15に進み、そうでない場合(ステップS14:NO)には次のエントリーを処理するためにステップS11に戻る。
次にステップS15で、発音グルーピング処理部6は、変化パターン適用後の発音に基づきエントリー同士をグループ化する。ここでは、上のステップS12で一時的メモリに書き込んだ情報に基づき、あるエントリーの発音に変化パターンを適用して得られた変化後の発音が、他のエントリーの発音と同一である場合、これらのエントリーを同一グループとしてまとめる。この結果、3つ以上のエントリーが同一グループとしてまとめあげられる場合もある。このステップS15の処理により、発音が近いエントリーが、グループとしてまとめられる。
なお、発音グルーピング処理部6は、既に説明したグループIDを適宜割り振る。その結果、同一グループに属するエントリーには同一のグループIDが与えられる。
グルーピングの具体例を説明する。図2に示した1221番のエントリーの発音は「enueQchike:」であり、これに図4に示した無声化の変化パターンを適用すると「enueQchke:」となる。この結果、1221番のエントリーと1222晩のエントリーは同一のグループとしてまとめられ、図3に示すデータではともにグループID「307」が与えられている。
また他の例を説明する。図2に示した1223番のエントリーの発音は「enueichike:」であり、これに図4に示した無声化の変化パターンを適用すると「enueichke:」となり、この結果、1223番と1224番のエントリーは同一グループにまとめられる。また、1223番のエントリーの発音に図4に示した2行目のデータを適用すると「enue:chike:」となり、この結果、1223番と1225番のエントリーは同一グループにまとめられる。また、1225番のエントリーの発音は「enue:chike:」であり、これに図4に示した無声化の変化パターンを適用すると「enue:chke:」となり、この結果1225番と1226番のエントリーは同一グループにまとめられる。このように、1223番から1226番までの4つのエントリーは互いに発音が近いために同一グループに属するものであり、図3においては共通のグループID「308」が与えられている。
グループ生起確率算出部8は、まず、同一グループに属する個々のエントリーの頻度を全て足し合わせることによって、そのグループのグループ頻度を求める。例えば、図3に示すデータにおいて、グループID「104」のグループには221番と222番のエントリーが属しており、それらそれぞれの頻度が247および48であるので、このグループのグループ頻度は295(=247+48)となる。また例えば、図3に示すデータにおいて、グループID「308」のグループには、1223番から1226番までの4つのエントリーが属しており、それらそれぞれの頻度が13、13、249、418であるので、このグループのグループ頻度は693(=13+13+249+418)他のグループについても同様に計算が行なわれる。
そして、グループ生起確率算出部8は、次の式(1)により、表記Wに対する発音のグループVの生起確率を算出する。
Figure 0004981076
ここで、P(V|W)は表記Wに対する発音のグループVの生起確率である。また、#(V,W)は表記Wに対する発音のグループVの学習データ内での頻度(つまり、上でグループ生起確率算出部8が計算したグループ頻度)である。また、#(W)は表記Wの当該学習データ内での頻度である。また、λはグループ生起確率算出部8がスムージング係数記憶部7から読み出したスムージング係数である。この係数λとしては、実験や経験に基づいた正の実数値を適宜用いればよいが、一例としては5〜15の範囲内の値を用いるのが適切である。また特に、λ=10程度が適切な値である場合は多い。
図3に示したグループ生起確率の値も、λ=10として計算した結果である。
例えば、グループID「308」のグループのグループ生起確率は、前記の式(1)により、P(V|W)=693/(10+(63+693))+10/(10+(63+693))=0.92となる(但し、小数点第2位未満を四捨五入している)。
なお、上記の計算手順から明らかなように、同一のグループに属するエントリー同士は、そのグループ生起確率も同一である。
このスムージング係数は、式(1)によって算出されるグループ生起確率が低くなりすぎないようにスムージングする作用を有する。つまり、このスムージング係数が、グループの頻度の変化の度合いを緩和してグループ生起確率を算出する作用を有する。
つまり、グループ生起確率算出部8は、表記の頻度と発音のグループ頻度の比(仮にスムージング係数λの項を除外した場合には、#(V,W)/#(W))によるグループ生起確率を算出するが、その際に、スムージング係数記憶部7から読み出したスムージング係数が、低くなりすぎないように作用する。言い換えれば、スムージング係数λを含んだ式(1)による計算により、相対的にグループ頻度の低い発音グループについてのグループ生起確率の分布が、滑らかになり(言い換えれば、グループ頻度そのものの値の比に対して、算出されるグループ生起確率の比が緩和され)、ある程度一様分布に近づく作用が生じる。
このようなスムージングを行なうことにより、算出されるグループ生起確率が必要以上に低くなることを防ぐことができる。よって、算出されたグループ生起確率を用いて音声認識処理を行なう場合に、正解率が上がる。
辞書修正処理部9は、発音辞書データ1のデータに、エントリーごとの頻度や、グルーピングの結果得られるグループIDや、上で計算されたグループ頻度およびグループ生起確率を付加した形で、修正済発音辞書データ3のデータを作成する。
以上説明したように、本実施形態による発音辞書修正装置では、頻度の低い発音であっても不当に低すぎる生起確率を付与することを回避することができる。
[第2の実施の形態]
次に第2の実施形態について説明する。なお、第1の実施形態と共通の事項については説明を省略する。
図6は、第2の実施形態による発音辞書修正装置の機能構成を示すブロック図である。図示するように、発音辞書修正装置102は、学習データセット処理部4と、変化パターン定義記憶部5と、発音グルーピング処理部6と、グループ生起確率算出部8と、辞書修正処理部9と、テストデータ記憶部20と、発音決定部21と、正解率データ記憶部22と、スムージング係数決定部23と、スムージング係数記憶部27とを含んで構成される。図示する構成のうち、発音辞書データ1と、学習データセット2と、修正済発音辞書データ3は、第1の実施形態と同様のデータである。また、学習データセット処理部4と、変化パターン定義記憶部5と、発音グルーピング処理部6と、グループ生起確率算出部8とは、第1の実施形態と同様の機能・作用を有する。
なお、テストデータ記憶部20は、例えば磁気ハードディスク装置や半導体メモリなどを用いて実現される。
本実施形態における特徴的構成は、正解が既知であるテストデータを記憶するテストデータ記憶部20を有し、発音決定部21が修正済発音辞書データ3から読み出す発音辞書を用いて上記のテストデータの音声認識処理を行なうとともにその音声認識処理結果を上記の正解に照らして音声認識処理の正解率を算出し、正解率データ記憶部22が算出された正解率を記憶し、スムージング係数決定部23はそれを受けてスムージング係数を決定してスムージング係数記憶部27に書き込むことができるという点である。グループ生起確率算出部8は、このスムージング係数を用いてグループ生起確率を算出する。そして、辞書修正処理部9が算出されたグループ生起確率を修正済発音辞書データ3に付加する。つまり、この構成によるフィードバックループにより、スムージング係数に応じた音声認識の正解率を算出することができ、従ってスムージング係数を適応的に決定することができる。
テストデータ記憶部20は、テストデータを記憶する。このテストデータは、テスト音声データと、このテスト音声データに対応する正解データ(音声認識の正解データ)とを含んでいる。
発音決定部21は、辞書修正処理部9によって作成された修正済発音辞書データ3を用いて音声認識処理を行なうことにより、テストデータ記憶部20から読み出したテスト音声データの音声認識結果を決定するとともに、その音声認識結果と上記の正解データとを比較することによって、上記決定された読みの正解率を算出する。
なお、ここでの正解率とは、例えば、音声認識の結果のデータと、テストデータ記憶部から読み出した正解データとを、形態素単位で対応付け、音声認識の結果の各形態素が正解データの形態素に合っているかどうかを判断して、合っている形態素の割合を計算することによって算出する。
図7は、本実施形態の発音辞書修正装置102が適応的にスムージング係数を決定する処理の手順を示すフローチャートである。
まずステップS21において、スムージング係数決定部23がスムージング係数の初期値λを適宜決定し、決定したスムージング係数の値をスムージング係数記憶部27に書き込む。この初期値は、例えばλ=10とする。
次にステップS22において、学習データセット処理部4が学習データセットに基づいて発音辞書データ1に含まれる各エントリーの頻度を求めるとともに、発音グルーピング処理部6がこれらエントリーをグルーピングする処理を行なう。このステップS22における処理の詳細は、第1の実施形態において述べたとおりであるので、ここでは説明を省略する。このステップS22における処理で、図3に示したデータ項目のうち、エントリー毎の頻度と、グループIDは既に得られている。
以下、ステップS23からS27までの処理は、ステップS26において終了条件が成立するまで繰り返されるループである。
ステップS23において、辞書修正処理部9は、修正済発音辞書データ3の中のグループ頻度およびグループ生起確率の項目を初期状態に戻す。
次に、ステップS24において、グループ生起確率算出部8は、スムージング係数記憶部27から読み出したスムージング係数(i回目のループの処理においては、スムージング係数λ(但し、i=1,2,3,・・・))を用い、各グループのグループ生起確率を算出する。このグループ生起確率の算出自体は、第1の実施形態において説明した通りであり、式(1)の係数λを上記の係数λに置き換えて計算を行なう。そして、辞書修正処理部9は、グループ生起確率算出部8によって求められたグループ頻度とグループ生起確率を、修正済発音辞書データ3に書き込む。
なお、このステップS23からS27までのループ処理が何回目であるかに関わらず、与えられた学習データセットに対してグループ頻度は一定であるので、ループの1回目の処理のステップS24のみにおいてグループ頻度を計算し、ループの2回目の処理のステップS23においてはグループ頻度を初期状態に戻さないようにしても良い。
次に、ステップS25において、発音決定部21が、テストデータ記憶部20からテスト音声データを読み出し、修正済発音辞書データ3を用いて当該音声の認識結果を決定するとともに、当該音声に対応する正解データを用いて、決定した発音の正解率αを算出する。ここで、αは繰り返し処理においてk回目(k=1,2,・・・・・・)に算出した正解率であり、0≦α≦1である。発音決定部21は、算出した正解率を正解率データ記憶部22に書き込む。
なおここで、発音決定部21における発音決定の処理自体は以下のように行なうことができる。音響モデルP(X|V)および言語モデルP(W)は予め与えられ、それぞれ音響モデル記憶部(不図示)と言語モデル記憶部(不図示)に記憶されている。なお、音響モデルP(X|V)は、グループ(V)の音響的特徴(X)の統計量である。また、言語モデルP(W)は表記(W)の統計的特徴量である。これらを読み出して用いて、発音決定部21は、次の式(2)により認識結果を得られる。式(2)において、Xはテスト音声データから抽出された音響的特徴であり、P(V|W)は修正済発音辞書データ3から得られるグループ生起確率である。
Figure 0004981076
なお、上の式(2)で、
Figure 0004981076
が認識結果である。
次に、ステップS26において、発音辞書修正装置102は、終了条件を満たすか否かを判定する。終了条件については下で説明する。終了条件を満たす場合(ステップS26:YES)、このフローチャート全体の処理を終了する。終了条件を満たさない場合、(ステップS26:NO)、次のスムージング係数を用いた処理を進めるためにステップS27に進む。
ステップS27においては、スムージング係数決定部23が、次のスムージング係数λを決定し、この値をスムージング係数記憶部27に書き込む。このステップの次は、ステップS23に戻る。
ここで、上のステップS26における終了条件、およびステップS27におけるスムージング係数の決め方について、代表的な2つの方法を説明する。
第1の方法:スムージング係数の初期値を前記の通りλ=10とする場合、2回目以降のスムージング係数を、λ=11、λ=12、・・・と順次1ずつ増加させていく。そして、スムージング係数の変化につれて認識結果の正解率が増加している限りは、終了条件を「偽」として、ループ処理を続ける。前回の正解率よりも今回の正解率のほうが低くなったときに、前回のスムージング係数とそのときの正解率(正解率の極大値R1)とを一時的メモリに書き込んでおく。そして、次のL回目からはスムージング係数を、λL=9、λL+1=8、・・・と順次1ずつ減少させていく。そして、スムージング係数の変化につれて認識結果の正解率が増加している限りは、終了条件を「偽」として、ループ処理を続ける。前回の正解率よりも今回の正解率のほうが低くなったときに、終了条件を「真」として、前回のスムージング係数とそのときの正解率(正解率の極大値R2)とを一時的メモリに書き込んでおく。正解率が単調に増加したままの状態でスムージング係数が0に達したときにも、終了条件を「真」として、そのスムージング係数(0)とそのときの正解率(正解率の極大値R2)とを一時的メモリに書き込んでおく。そして、上記の正解率R1と正解率R2とを読み出して比較し、それらのうちの高いほうの正解率を示したスムージング係数を最適値として採用する。
第2の方法:スムージング係数の初期値をλ=0とし、その後順次、λ=1、λ=2、λ=3、・・・と、1ずつスムージング係数を増加させていき(この間、終了条件は「偽」)、各々のスムージング係数に対応する正解率を一時的メモリに書き込んでおく。そして、スムージング係数が予め定めた上限値(例えばλ101=100)に達したときに、終了条件を「真」とする。そして、これら全てのスムージング係数の中で、最も高い正解率が得られたものを、スムージング係数の最適値として採用する。
上記の第1の方法は、第2の方法よりもループ回数(試行回数)がほぼ少なくて済むというメリットがある。一方で、上記の第2の方法は、より網羅的に広い範囲のスムージング係数についての試行を行なうことができるとともに、局所最適なスムージング係数を採用してしまうリスクを避けることができるというメリットがある。
以上説明したように、本実施形態では、スムージング係数(λ)を適応的に変更し、最適な値を決定することができる。この結果得られる修正済発音辞書データ3は、音声認識などに適用した際に、常に認識性能が良いものとなる。
[第3の実施の形態]
次に第3の実施形態について説明する。なお、第1或いは第2の実施形態と共通の事項については説明を省略する。
図8は、本実施形態による音声認識装置の機能構成を示すブロック図である。この音声認識装置201は、前述の発音辞書修正装置を利用して構成している。
図示するように、音声認識装置201は、入力音声データ記憶部51と、音響分析部52と、デコーダ部53と、認識結果データ記憶部54と、音響モデル記憶部58と、言語モデル記憶部59と、発音辞書データ1と、学習データセット2と、発音辞書修正装置101Aと、修正済発音辞書データ3とを含んで構成される。
音響モデル記憶部58は、発音のグループの音響的特徴の統計量(P(X|V))を音響モデルとして記憶する。
言語モデル記憶部59は、表記の統計的特徴量(P(W))を言語モデルとして記憶する。
ここで、発音辞書修正装置101Aは、第1の実施形態で説明した発音辞書修正装置101或いは第2の実施形態で説明した発音辞書修正装置102と同様のものである。この発音辞書修正装置101Aは、発音辞書データ1と学習データセット2とを基に、発音辞書データ1の各エントリーに、そのエントリーが所属するグループのグループ生起確率を付加し、修正済発音辞書データ3を作成・出力する。
音響分析部52は、入力音声データ記憶部51から読み出した音声データの音響特徴量(X)を抽出する。デコーダ部53は、修正済発音辞書データ3を用いて、音響分析部52によって抽出された音響特徴量から認識結果を決定して、認識結果データ記憶部54に書き込む。このとき、音響分析部52は、音響モデル記憶部58から読み出した音響モデルP(X|V)と言語モデル記憶部P(W)とを用いて、デコード処理を行なう。修正済発音辞書データ3からはグループ生起確率P(V|W)が得られるため、デコーダ部53は、前述の式(2)を用いた計算により、認識結果を得ることができる。
この音声認識システム201は、修正済発音辞書データ3を用いてデコード処理をしているため、グループ生起確率P(V|W)を用いる。従って、頻度の低い発音であっても、そのことのみによる悪影響が低減され、安定した良好な認識結果が得られる。つまり、同一の表記に対して発音の変形によって発音が多数存在するような場合でも、生起確率が不当に低くなることを回避し、認識精度の向上を図ることが可能となる。
なお、上述した実施形態における発音辞書修正装置や音声認識装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。このようにコンピュータを用いて本発明を実施する場合、処理対象となるデータは、コンピュータシステムが有する記憶装置に保持され、中央処理装置で実行されるプログラムの内容に従ってこれらデータが読み書きされる。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上では、日本語を例にとって説明したが、日本語に限らず同一表記に対して発音変形が生じ得るような言語に対して、上記の発音辞書修正装置或いは音声認識装置を適用することができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
[産業上の利用可能性]
本発明を、放送番組等の字幕制作や、音声対話システムや、会議議事録の音声認識による自動書き起こしなど、音声認識技術を利用したさまざまな分野の技術に適用することが可能である。
1,1A 発音辞書データ
2 学習データセット
3,3A 修正済発音辞書データ
4 学習データセット処理部
5 変化パターン定義記憶部
6 発音グルーピング処理部
7,27 スムージング係数記憶部
8 グループ生起確率算出部
9 辞書修正処理部
20 テストデータ記憶部
21 発音決定部
22 正解率データ記憶部
23 スムージング係数決定部
101,101A,102 発音辞書修正装置
201 音声認識装置

Claims (4)

  1. 変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部と、
    発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理部と、
    学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出部と、
    発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理部と、
    を具備することを特徴とする発音辞書修正装置。
  2. 請求項1に記載の発音辞書修正装置であって、
    生起確率算出のためのスムージング係数を記憶するスムージング係数記憶部と、
    テスト音声データと、前記テスト音声データに対応する音声認識の正解データとを記憶するテストデータ記憶部と、
    前記修正済発音辞書データを用いて、前記テストデータ記憶部から読み出した前記テスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果と、前記テストデータ記憶部から読み出した前記正解データとから、音声認識処理の結果の正解率を算出する発音決定部と、
    前記スムージング係数を決定して前記スムージング係数記憶部に書き込むスムージング係数決定部と、
    を更に具備し、
    前記グループ生起確率算出部は、前記スムージング係数記憶部から読み出したスムージング係数によって、前記グループ頻度の変化の度合いを緩和するように、前記グループ生起確率を算出する、
    ことを特徴とする発音辞書修正装置。
  3. 請求項1又は請求項2に記載の発音辞書修正装置と、
    前記発音辞書修正装置によって出力される修正済発音辞書データを記憶する辞書データ記憶部と、
    前記グループの音響的特徴の統計量を音響モデルとして記憶する音響モデル記憶部と、
    表記の統計的特徴量を言語モデルとして記憶する言語モデル記憶部と、
    入力音声の音響特徴量と、前記辞書データ記憶部から読み出した修正済み発音辞書データに含まれる表記と発音のグループとの統計的相関値と、前記音響モデル記憶部から読み出した前記音響モデルと、前記言語モデル記憶部から読み出した前記言語モデルとを用いてデコード処理を行ない、音声認識結果を出力するデコーダ部と、
    を具備することを特徴とする音声認識装置。
  4. 変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部を具備するコンピュータに、
    発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理過程と、
    学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出過程と、
    発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理過程と、
    の処理を実行させるコンピュータプログラム。
JP2009021942A 2009-02-02 2009-02-02 発音辞書修正装置、音声認識装置、およびコンピュータプログラム Active JP4981076B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009021942A JP4981076B2 (ja) 2009-02-02 2009-02-02 発音辞書修正装置、音声認識装置、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009021942A JP4981076B2 (ja) 2009-02-02 2009-02-02 発音辞書修正装置、音声認識装置、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010176103A JP2010176103A (ja) 2010-08-12
JP4981076B2 true JP4981076B2 (ja) 2012-07-18

Family

ID=42707099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009021942A Active JP4981076B2 (ja) 2009-02-02 2009-02-02 発音辞書修正装置、音声認識装置、およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4981076B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5888723B2 (ja) * 2011-09-12 2016-03-22 国立研究開発法人情報通信研究機構 発音辞書作成装置、発音辞書の生産方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3798530B2 (ja) * 1997-09-05 2006-07-19 松下電器産業株式会社 音声認識装置及び音声認識方法
JP2008026721A (ja) * 2006-07-24 2008-02-07 Nec Corp 音声認識装置、音声認識方法、および音声認識用プログラム
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
JP5207642B2 (ja) * 2007-03-06 2013-06-12 ニュアンス コミュニケーションズ,インコーポレイテッド 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2010176103A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US8346553B2 (en) Speech recognition system and method for speech recognition
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
KR20050076697A (ko) 컴퓨터 구현 음성 인식 시스템 및 이 시스템으로 학습하는방법
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP2007041319A (ja) 音声認識装置および音声認識方法
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4981076B2 (ja) 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP4990822B2 (ja) 辞書修正装置、システム、およびコンピュータプログラム
JP4808764B2 (ja) 音声認識システムおよび方法
JP2003345388A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
Kessens et al. On automatic phonetic transcription quality: lower word error rates do not guarantee better transcriptions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120419

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4981076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250