JP4981076B2

JP4981076B2 - 発音辞書修正装置、音声認識装置、およびコンピュータプログラム

Info

Publication number: JP4981076B2
Application number: JP2009021942A
Authority: JP
Inventors: 貴裕奥; 亨今井; 庄衛佐藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-02-02
Filing date: 2009-02-02
Publication date: 2012-07-18
Anticipated expiration: 2029-02-02
Also published as: JP2010176103A

Description

本発明は、音声認識技術に関する。本発明は、特に、音声認識技術における発音辞書修正装置、およびそれを用いた音声認識装置、並びにそれらのコンピュータプログラムに関する。

音声認識処理のための発音辞書は、音声や文書などで用いられる単語の表記とその発音（読み）とのペアを要素として構成される。例えば日本語では、１つの漢字に複数の発音が対応するなど、ある単語に対してその発音は１つとは限らず、複数の発音が存在する可能性があるため、発音辞書では、１つの表記に対して１つ又は複数の発音が対応している。音声認識処理では、この発音辞書に基づいて単語の表記とその単語が発声された結果としての発音とを対応付けているため、発音辞書に正しい発音が登録されていなければ正しい音声認識処理を行なうことができない。

特に、数万種類以上の単語を扱う大語彙連続音声認識の分野では、例えば固有名詞などの新出単語の登録を常に行ない、発音辞書を維持していく必要がある。しかしながら、人手による辞書登録の際に入力誤りによって誤った発音のエントリーが登録されてしまったり、時間の経過につれて使われなくなった発音のエントリーが残ってしまったりする場合がある。これらの誤ったエントリー或いは不要なエントリーが発音辞書内に存在すると、音声認識処理の正解率の低下や、発音辞書の検索に要する時間が長くなることによる処理の遅延など、音声認識処理に悪影響を及ぼす場合がある。

非特許文献１には、学習データに基づき、発音辞書内の表記と発音のペアとしてなるエントリーに、生起確率を付加する手法が記載されている。同一の表記に対して、よく発音されやすい読みとそうでない読みとが存在する場合、非特許文献１に記載の方法では、それぞれの発音の生起確率を用いた認識処理を行なうことができる。

南條浩輝、河原達也，「講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング」，電子情報通信学会論文誌，２００４年８月，ｖｏｌ．Ｊ８７−Ｄ−２，ｎｏ．８，ｐｐ．１５８１−１５９２

しかしながら、発声される音声には長母音化や無声化などによって、同じ意味の発声に対して更に細かく異なる発音が存在する場合がある。非特許文献１に記載の方法では、これら細かく異なる発音に対してもそれぞれに生起確率を付加するようにしているため、単語の意味を考慮した場合には不当に低い生起確率が付加され、その結果、認識の正解率が落ちる場合がある。

例えば、「思う」という表記に対して、「ｏｍｏｕ」という発音と「ｏｍｏ：」という発音（記号「：」は長音を表わす。従って、「ｏ：」は長母音「おー」を表わす。）とがそれぞれ発音辞書に登録されており、それらの頻度がそれぞれ５００回ずつであった場合、それぞれのエントリーには、生起確率０．５が付加される。しかし、これらの発音「ｏｍｏｕ」と「ｏｍｏ：」は互いに近い発音であるため、両者にはより高い生起確率を付与することが望まれる。

本発明は、上記の課題認識に基づいて為されたものであり、発音辞書のエントリーに対して、エントリー間の近さを考慮した生起確率を与えることのできる発音辞書修正装置、およびそのような発音辞書修正装置を用いた音声認識装置、並びにそれらのコンピュータプログラムを提供することを目的とする。

上記の課題を解決するため、本発明は、同一の表記に対する複数の発音のエントリーに対する近さを考慮し、発音が互いに近いエントリー同士をグループ化し、このグループとしての頻度に基づいて、グループ生起確率を算出し、算出されたグループ生起確率を、当該グループに属する各発音のエントリーに対して付加する。

［１］本発明の一態様による発音辞書修正装置は、変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部と、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理部と、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出部と、発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理部とを具備することを特徴とする。

これによれば、発音グルーピング処理部は、変化パターン定義記憶部から読み出したパターンデータを発音辞書データに含まれるエントリー中の発音に適用し、変化後の発音を得る。この変化後の発音が他のエントリー中の発音と同一である場合、これらエントリーは同一のグループとしてグループ化される。エントリーＡとＢが同一グループであり、さらにエントリーＢとＣが同一グループであるときに、エントリーＡとＢとＣは全て同一のグループとしてグループ化される。所定のパターンデータを予め変化パターン定義記憶部に格納しておくことにより、発音が近いエントリー同士を同一のグループとしてグループ化できる。グループ生起確率算出部は、グループの出現頻度（これは、当該グループに属する個々の発音の出現頻度の総和）と当該グループに対応する表記の出現頻度とに基づき、グループ生起確率を算出する。辞書修正処理部は、算出されたグループ生起確率を、当該グループに属する個々の発音に対応するエントリーに付加して、修正済発音辞書データとして出力する。その結果、修正済発音辞書データの各エントリーは、表記と発音とグループ生起確率のデータを含む。

［２］また、本発明の一態様は、前記の発音辞書修正装置において、生起確率算出のためのスムージング係数を記憶するスムージング係数記憶部と、テスト音声データと、前記テスト音声データに対応する音声認識の正解データとを記憶するテストデータ記憶部と、前記修正済発音辞書データを用いて、前記テストデータ記憶部から読み出した前記テスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果と、前記テストデータ記憶部から読み出した前記正解データとから、音声認識処理の結果の正解率を算出する発音決定部と、前記スムージング係数を決定して前記スムージング係数記憶部に書き込むスムージング係数決定部とを更に具備し、前記グループ生起確率算出部は、前記スムージング係数記憶部から読み出したスムージング係数によって、前記グループ頻度の変化の度合いを緩和するように、前記グループ生起確率を算出することを特徴とする。

これにより、発音決定部は、修正済発音辞書を用いてテスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果とテスト音声データに対応した正解データとに基づき、音声認識処理の正解率を計算する。スムージング係数決定部は、適宜、スムージング係数を決定する。グループ生起確率算出部は、決定されたスムージング係数を用いて、グループ生起確率を算出する。これにより、適宜スムージング係数を変えながら、スムージング係数に対応して上記正解率が計算される。よって、正解率が高くなるように、適応的にスムージング係数を決定できる。

［３］また、本発明の一態様による音声認識装置は、前記の発音辞書修正装置と、前記発音辞書修正装置によって出力される修正済発音辞書データを記憶する辞書データ記憶部と、前記グループの音響的特徴の統計量を音響モデルとして記憶する音響モデル記憶部と、表記の統計的特徴量を言語モデルとして記憶する言語モデル記憶部と、入力音声の音響特徴量と、前記辞書データ記憶部から読み出した修正済み発音辞書データに含まれる表記と発音のグループとの統計的相関値と、前記音響モデル記憶部から読み出した前記音響モデルと、前記言語モデル記憶部から読み出した前記言語モデルとを用いてデコード処理を行ない、音声認識結果を出力するデコーダ部とを具備することを特徴とする。

これにより、上記の音声認識装置は、修正済辞書データを用いて音声認識処理を行なう。

［４］また、本発明の一態様によるコンピュータプログラムは、変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部を具備するコンピュータに、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理過程と、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出過程と、発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理過程との処理を実行させるものである。

本発明によれば、同一の表記で且つ近い発音のグループの頻度に基づいて、グループ生起確率を発音辞書データに付加することができる。これにより、個々の発音の頻度によって不当に低い生起確率が付加されるのを防ぐことができる。これにより、音声認識の精度が向上する。特に、大語彙連続音声認識における認識精度向上が可能となる。

また、本発明によれば、スムージング係数を用いることによって、特にグループ頻度が低い発音のグループに対して、グループ頻度の変化の度合いを緩和するようにグループ生起確率を算出するため、不当に低いグループ生起確率が付加されるのを防ぐことができる。つまり、同一の表記に対して発音ないしは発音のグループが多数存在するような場合でも、不当に低い生起確率となる可能性を回避することができる。
また、本発明によれば、適応的に、最適なスムージング係数を決定することができ、更なる認識精度向上につながる。

本発明の第１の実施形態による発音辞書修正装置の機能構成を示したブロック図である。同実施形態による発音辞書データのデータ構成およびデータ例を示した概略図である。同実施形態による修正済発音辞書データのデータ構成およびデータ例を示した概略図である。同実施形態による変化パターン定義のデータの構成およびデータ例を示した概略図である。同実施形態の発音グルーピング処理部による発音辞書のエントリーのグループ化の処理手順を示すフローチャートである。本発明の第２の実施形態による発音辞書修正装置の機能構成を示したブロック図である。同実施形態の発音辞書修正装置が適応的にスムージング係数を決定する処理の手順を示すフローチャートである。本発明の第３の実施形態による音声認識装置の機能構成を示したブロック図である。

以下、本発明の実施形態について、図面を参照しながら説明する。
［第１の実施の形態］
図１は、第１の実施形態による発音辞書修正装置の機能構成を示すブロック図である。図示するように、発音辞書修正装置１０１は、学習データセット処理部４と、変化パターン定義記憶部５と、発音グルーピング処理部６と、スムージング係数記憶部７と、グループ生起確率算出部８と、辞書修正処理部９とを含んで構成される。変化パターン定義記憶部５やスムージング係数記憶部７は、例えば、書き換え可能な半導体メモリや、磁気ハードディスク装置を用いて実現される。
また、発音辞書修正装置１０１は、発音辞書データ１と、学習データセット２とを入力データとして使用し、処理の結果として修正済発音辞書データ３を作成し、出力するようになっている。これらの各データは、例えば、磁気ハードディスク装置などに記録されている。

発音辞書修正装置１０１が使用するデータの概略は、次の通りである。
発音辞書データ１は、音声認識や音声合成などといった音声処理に用いるための辞書のデータであり、単語の文字での表記と、その単語の発音（読み）との関係を表わす。発音辞書データ１の詳細については後述する。
学習データセット２は、過去に実際に発話された音声（またはその読みを表わす発音データ）とその音声に対応する書き起こし文を含むデータである。
修正済発音辞書データ３は、発音辞書データ１が保持する単語の表記と読みとの関係に加えて、発音辞書修正装置１０１によって付加される情報を保持する。修正済発音辞書データ３の詳細については後述する。

発音辞書修正装置１０１内の変化パターン定義記憶部５は、例えば長母音化や無声化など、発音が変化するパターンに関する情報を記憶する。また、スムージング係数記憶部７は、グループ生起確率算出部８が発音のグループに関する生起確率を計算する際に用いる係数のデータを記憶する。これら各記憶部についても、後述する。

また、各処理部の概略は、次の通りである。
学習データセット処理部４は、学習データセット２から、単語の表記と発音とのペアを抽出し、これらのペアについて表記と発音との組み合わせの頻度をカウントすることによって、単語の表記と発音と出現頻度との組のデータを出力する。

発音グルーピング処理部６は、発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出したパターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする。

グループ生起確率算出部８は、学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率（表記と発音のグループとの統計的相関値）として算出する。また、グループ生起確率算出部８は、スムージング係数記憶部７から読み出したスムージング係数（λ）によって、特にグループ頻度が低い発音のグループに関して、グループ頻度の変化の度合いを緩和するように、グループ生起確率を算出する。このスムージングについては、後で具体的な式を用いて説明する。

辞書修正部９は、発音辞書データから読み出したエントリーに、当該エントリーが属するグループについて算出されたグループ生起確率を付加して、修正済発音辞書データとして出力する。

図２は、発音辞書データ１の構成及びそのデータ例を示す概略図である。図示するように、発音辞書データ１は表記と発音との対応関係を表わすペアを有するデータであり、本実施形態では、２次元の表形式のデータとして構成されている。なお、このデータにおける番号は、単にデータの各行を識別するために便宜的に付与されているものである。この図に示すデータ例では、「月」という表記が存在し、この表記「月」に対しては７種類の発音「ｇａｔｓｕ」と「ｇａｔｓ」と「ｇｅＱ」と「ｇｅｔｓｕ」と［ｇｅｔｓ］と「ｔｓｕｋｉ」と「ｔｓｋｉ」が存在している（番号１０４〜１１０）。また、同データ例では、「ＮＨＫ」という表記が存在し、この表記「ＮＨＫ」に対しては６種類の発音「ｅｎｅＱｃｈｉｋｅ：」と「ｅｎｕｅＱｃｈｋｅ：」と「ｅｎｕｅｉｃｈｉｋｅ：」と「ｅｎｕｅｉｃｈｋｅ：」と「ｅｎｕｅ：ｃｈｉｋｅ：」と「ｅｎｕｅ：ｃｈｋｅ：」とが存在している（番号１２２１〜１２２６）。なおここで、発音はローマ字表記で書かれている。また、「：」は長音を表わし、「Ｑ」は促音を表わす。

図３は、修正済発音データ３の構成及びそのデータ例を示す概略図である。図示するように、この修正済発音データ３は、発音辞書データ１と同様に二次元の表形式のデータであり、発音辞書データ１が有していたデータ項目である番号と表記と発音（読み）に加えて、頻度と、グループＩＤ（グループ識別情報）と、グループ頻度と、グループ生起確率の各項目を有している。

頻度は、表記と発音の組み合わせが出現する頻度を表わす。後述するように、学習データセット処理部４が学習データセット２を基にこの頻度のデータを出力し、辞書修正処理部９がそのデータを修正済発音辞書データ３に書き込む。
グループＩＤは、表記と発音のペアを複数含むグループを識別する情報である。後述するように、発音グルーピング処理部６が変化パターン定義記憶部５から読み出す変化パターンに基づいてグループ化を行ない、発音辞書データ内の必要なエントリーに対してグループＩＤを付与する。そして、辞書修正処理部９がそのデータを修正済発音辞書データ３に書き込む。
グループ頻度は、上記のグループの出現頻度を表わす。グループ生起確率算出部８が、表記と発音のペアごとの頻度とグループ化の結果とからこのグループ頻度を算出し、辞書修正処理部９がそのデータを修正済発音辞書データ３に書き込む。
グループ生起確率は、上記のグループに付与された生起確率である。後述するように、グループ生起確率算出部８がグループ頻度に基づいてこのグループ生起確率を算出し、辞書修正処理部９がそのデータを修正済発音辞書データ３に書き込む。

図４は、変化パターン定義記憶部５に記憶される情報の構成及びそのデータ例を示す概略図である。図示するとおり、変化パターン定義のデータは、二次元の表形式であり、種別と、変形前パターンと、変形後パターンの項目を有している。そして、この表の各行が変化パターンに対応している。例えば、図示するデータの最初の行は、長母音化の一例であり、発音中に含まれるパターン「ｏｕ」が「ｏ：」に変形し得ることを表わしている。第２行目および第３行目も同様に、それぞれ、「ｅｉ」から「ｅ：」への変形、「ｉｕ」から「ｙｕ：」への変形を表わしている。最後の行は、無声化の一例を表わしており、発音中において無声子音に続いて狭母音（「ｉ」や「ｕ」など）が現れる場合には、その狭母音が発音されなくなる場合がこれに該当する。この「＜無声子音＞＜狭母音＞→＜無声子音＞」の無声化の例は、「ｔｓｕｋｉ」が「ｔｓｋｉ」に変形したり、「ｈｉｔｏ」が「ｈｔｏ」に変形したりするというものである。

次に、各処理部の処理の詳細について説明する。
学習データセット処理部４は、学習データセット２に含まれる音声（またはその読みを表わす発音データ）と対応する書き起こし文とのアライメント処理を行なうことによって、単語ごとの表記と発音とのペアを抽出する。そして、学習データセット２内での各ペアの出現頻度をカウントすることによって、単語の表記と発音と出現頻度との組のデータを出力する。なお、学習データセット２は、放送等で過去に実際に発話された音声とその書き起こし文を元に作成されたデータである。

発音グルーピング処理部６は、発音辞書データ１から得られた表記と発音のペアである各エントリーと、変化パターン定義記憶部５から読み出す変化パターンとに基づいて、それらエントリーのグループ化を行なう。

図５は、発音グルーピング処理部６によるグループ化の処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
ステップＳ１１で、発音グルーピング処理部６は、表記と発音のペアの中から未選択のものを１つ選択する。

次にステップＳ１２で、発音グルーピング処理部６は、ステップＳ１１で選択したエントリーに未適用の変化パターン１つを選択して変化パターン定義記憶部５から読み出して、そのエントリーに適用する。なお、当該発音の中において当該変化パターンの変形前パターンがマッチし得る場所が複数箇所存在する場合もあり得る。このように変化パターンを適用した結果、０個、１個または複数個の変化後の発音が得られるが、発音グルーピング処理部６は、得られたそれらすべての発音を、元の発音と関連付ける形で一時的メモリに書き込んでおく。

次にステップＳ１３で、発音グルーピング処理部６は、ステップＳ１１で選択したエントリーに全ての変化パターンを適用し終えたか否かを判定する。当該発音に全ての変化パターンを適応済の場合（ステップＳ１３：ＹＥＳ）には次のステップＳ１４に進み、そうでない場合（ステップＳ１３：ＮＯ）には次の変化パターンを適用するためにステップＳ１２に戻る。
次にステップＳ１４で、発音グルーピング処理部６は、全てのエントリーを選択して処理を終えたか否かを判定する。全てのエントリーを選択済の場合（ステップＳ１４：ＹＥＳ）には次のステップＳ１５に進み、そうでない場合（ステップＳ１４：ＮＯ）には次のエントリーを処理するためにステップＳ１１に戻る。

次にステップＳ１５で、発音グルーピング処理部６は、変化パターン適用後の発音に基づきエントリー同士をグループ化する。ここでは、上のステップＳ１２で一時的メモリに書き込んだ情報に基づき、あるエントリーの発音に変化パターンを適用して得られた変化後の発音が、他のエントリーの発音と同一である場合、これらのエントリーを同一グループとしてまとめる。この結果、３つ以上のエントリーが同一グループとしてまとめあげられる場合もある。このステップＳ１５の処理により、発音が近いエントリーが、グループとしてまとめられる。
なお、発音グルーピング処理部６は、既に説明したグループＩＤを適宜割り振る。その結果、同一グループに属するエントリーには同一のグループＩＤが与えられる。

グルーピングの具体例を説明する。図２に示した１２２１番のエントリーの発音は「ｅｎｕｅＱｃｈｉｋｅ：」であり、これに図４に示した無声化の変化パターンを適用すると「ｅｎｕｅＱｃｈｋｅ：」となる。この結果、１２２１番のエントリーと１２２２晩のエントリーは同一のグループとしてまとめられ、図３に示すデータではともにグループＩＤ「３０７」が与えられている。
また他の例を説明する。図２に示した１２２３番のエントリーの発音は「ｅｎｕｅｉｃｈｉｋｅ：」であり、これに図４に示した無声化の変化パターンを適用すると「ｅｎｕｅｉｃｈｋｅ：」となり、この結果、１２２３番と１２２４番のエントリーは同一グループにまとめられる。また、１２２３番のエントリーの発音に図４に示した２行目のデータを適用すると「ｅｎｕｅ：ｃｈｉｋｅ：」となり、この結果、１２２３番と１２２５番のエントリーは同一グループにまとめられる。また、１２２５番のエントリーの発音は「ｅｎｕｅ：ｃｈｉｋｅ：」であり、これに図４に示した無声化の変化パターンを適用すると「ｅｎｕｅ：ｃｈｋｅ：」となり、この結果１２２５番と１２２６番のエントリーは同一グループにまとめられる。このように、１２２３番から１２２６番までの４つのエントリーは互いに発音が近いために同一グループに属するものであり、図３においては共通のグループＩＤ「３０８」が与えられている。

グループ生起確率算出部８は、まず、同一グループに属する個々のエントリーの頻度を全て足し合わせることによって、そのグループのグループ頻度を求める。例えば、図３に示すデータにおいて、グループＩＤ「１０４」のグループには２２１番と２２２番のエントリーが属しており、それらそれぞれの頻度が２４７および４８であるので、このグループのグループ頻度は２９５（＝２４７＋４８）となる。また例えば、図３に示すデータにおいて、グループＩＤ「３０８」のグループには、１２２３番から１２２６番までの４つのエントリーが属しており、それらそれぞれの頻度が１３、１３、２４９、４１８であるので、このグループのグループ頻度は６９３（＝１３＋１３＋２４９＋４１８）他のグループについても同様に計算が行なわれる。
そして、グループ生起確率算出部８は、次の式（１）により、表記Ｗに対する発音のグループＶの生起確率を算出する。

ここで、Ｐ（Ｖ｜Ｗ）は表記Ｗに対する発音のグループＶの生起確率である。また、＃（Ｖ，Ｗ）は表記Ｗに対する発音のグループＶの学習データ内での頻度（つまり、上でグループ生起確率算出部８が計算したグループ頻度）である。また、＃（Ｗ）は表記Ｗの当該学習データ内での頻度である。また、λはグループ生起確率算出部８がスムージング係数記憶部７から読み出したスムージング係数である。この係数λとしては、実験や経験に基づいた正の実数値を適宜用いればよいが、一例としては５〜１５の範囲内の値を用いるのが適切である。また特に、λ＝１０程度が適切な値である場合は多い。

図３に示したグループ生起確率の値も、λ＝１０として計算した結果である。
例えば、グループＩＤ「３０８」のグループのグループ生起確率は、前記の式（１）により、Ｐ（Ｖ｜Ｗ）＝６９３／（１０＋(６３+６９３)）＋１０／（１０＋(６３+６９３)）＝０．９２となる（但し、小数点第２位未満を四捨五入している）。
なお、上記の計算手順から明らかなように、同一のグループに属するエントリー同士は、そのグループ生起確率も同一である。

このスムージング係数は、式（１）によって算出されるグループ生起確率が低くなりすぎないようにスムージングする作用を有する。つまり、このスムージング係数が、グループの頻度の変化の度合いを緩和してグループ生起確率を算出する作用を有する。
つまり、グループ生起確率算出部８は、表記の頻度と発音のグループ頻度の比（仮にスムージング係数λの項を除外した場合には、＃（Ｖ，Ｗ）／＃（Ｗ））によるグループ生起確率を算出するが、その際に、スムージング係数記憶部７から読み出したスムージング係数が、低くなりすぎないように作用する。言い換えれば、スムージング係数λを含んだ式（１）による計算により、相対的にグループ頻度の低い発音グループについてのグループ生起確率の分布が、滑らかになり（言い換えれば、グループ頻度そのものの値の比に対して、算出されるグループ生起確率の比が緩和され）、ある程度一様分布に近づく作用が生じる。
このようなスムージングを行なうことにより、算出されるグループ生起確率が必要以上に低くなることを防ぐことができる。よって、算出されたグループ生起確率を用いて音声認識処理を行なう場合に、正解率が上がる。

辞書修正処理部９は、発音辞書データ１のデータに、エントリーごとの頻度や、グルーピングの結果得られるグループＩＤや、上で計算されたグループ頻度およびグループ生起確率を付加した形で、修正済発音辞書データ３のデータを作成する。

以上説明したように、本実施形態による発音辞書修正装置では、頻度の低い発音であっても不当に低すぎる生起確率を付与することを回避することができる。

［第２の実施の形態］
次に第２の実施形態について説明する。なお、第１の実施形態と共通の事項については説明を省略する。
図６は、第２の実施形態による発音辞書修正装置の機能構成を示すブロック図である。図示するように、発音辞書修正装置１０２は、学習データセット処理部４と、変化パターン定義記憶部５と、発音グルーピング処理部６と、グループ生起確率算出部８と、辞書修正処理部９と、テストデータ記憶部２０と、発音決定部２１と、正解率データ記憶部２２と、スムージング係数決定部２３と、スムージング係数記憶部２７とを含んで構成される。図示する構成のうち、発音辞書データ１と、学習データセット２と、修正済発音辞書データ３は、第１の実施形態と同様のデータである。また、学習データセット処理部４と、変化パターン定義記憶部５と、発音グルーピング処理部６と、グループ生起確率算出部８とは、第１の実施形態と同様の機能・作用を有する。
なお、テストデータ記憶部２０は、例えば磁気ハードディスク装置や半導体メモリなどを用いて実現される。

本実施形態における特徴的構成は、正解が既知であるテストデータを記憶するテストデータ記憶部２０を有し、発音決定部２１が修正済発音辞書データ３から読み出す発音辞書を用いて上記のテストデータの音声認識処理を行なうとともにその音声認識処理結果を上記の正解に照らして音声認識処理の正解率を算出し、正解率データ記憶部２２が算出された正解率を記憶し、スムージング係数決定部２３はそれを受けてスムージング係数を決定してスムージング係数記憶部２７に書き込むことができるという点である。グループ生起確率算出部８は、このスムージング係数を用いてグループ生起確率を算出する。そして、辞書修正処理部９が算出されたグループ生起確率を修正済発音辞書データ３に付加する。つまり、この構成によるフィードバックループにより、スムージング係数に応じた音声認識の正解率を算出することができ、従ってスムージング係数を適応的に決定することができる。

テストデータ記憶部２０は、テストデータを記憶する。このテストデータは、テスト音声データと、このテスト音声データに対応する正解データ（音声認識の正解データ）とを含んでいる。
発音決定部２１は、辞書修正処理部９によって作成された修正済発音辞書データ３を用いて音声認識処理を行なうことにより、テストデータ記憶部２０から読み出したテスト音声データの音声認識結果を決定するとともに、その音声認識結果と上記の正解データとを比較することによって、上記決定された読みの正解率を算出する。

なお、ここでの正解率とは、例えば、音声認識の結果のデータと、テストデータ記憶部から読み出した正解データとを、形態素単位で対応付け、音声認識の結果の各形態素が正解データの形態素に合っているかどうかを判断して、合っている形態素の割合を計算することによって算出する。

図７は、本実施形態の発音辞書修正装置１０２が適応的にスムージング係数を決定する処理の手順を示すフローチャートである。
まずステップＳ２１において、スムージング係数決定部２３がスムージング係数の初期値λ_１を適宜決定し、決定したスムージング係数の値をスムージング係数記憶部２７に書き込む。この初期値は、例えばλ_１＝１０とする。
次にステップＳ２２において、学習データセット処理部４が学習データセットに基づいて発音辞書データ１に含まれる各エントリーの頻度を求めるとともに、発音グルーピング処理部６がこれらエントリーをグルーピングする処理を行なう。このステップＳ２２における処理の詳細は、第１の実施形態において述べたとおりであるので、ここでは説明を省略する。このステップＳ２２における処理で、図３に示したデータ項目のうち、エントリー毎の頻度と、グループＩＤは既に得られている。

以下、ステップＳ２３からＳ２７までの処理は、ステップＳ２６において終了条件が成立するまで繰り返されるループである。
ステップＳ２３において、辞書修正処理部９は、修正済発音辞書データ３の中のグループ頻度およびグループ生起確率の項目を初期状態に戻す。
次に、ステップＳ２４において、グループ生起確率算出部８は、スムージング係数記憶部２７から読み出したスムージング係数（ｉ回目のループの処理においては、スムージング係数λ_ｉ（但し、ｉ＝１，２，３，・・・））を用い、各グループのグループ生起確率を算出する。このグループ生起確率の算出自体は、第１の実施形態において説明した通りであり、式（１）の係数λを上記の係数λ_ｉに置き換えて計算を行なう。そして、辞書修正処理部９は、グループ生起確率算出部８によって求められたグループ頻度とグループ生起確率を、修正済発音辞書データ３に書き込む。
なお、このステップＳ２３からＳ２７までのループ処理が何回目であるかに関わらず、与えられた学習データセットに対してグループ頻度は一定であるので、ループの１回目の処理のステップＳ２４のみにおいてグループ頻度を計算し、ループの２回目の処理のステップＳ２３においてはグループ頻度を初期状態に戻さないようにしても良い。

次に、ステップＳ２５において、発音決定部２１が、テストデータ記憶部２０からテスト音声データを読み出し、修正済発音辞書データ３を用いて当該音声の認識結果を決定するとともに、当該音声に対応する正解データを用いて、決定した発音の正解率α_ｋを算出する。ここで、α_ｋは繰り返し処理においてｋ回目（ｋ＝１，２，・・・・・・）に算出した正解率であり、０≦α_ｋ≦１である。発音決定部２１は、算出した正解率を正解率データ記憶部２２に書き込む。
なおここで、発音決定部２１における発音決定の処理自体は以下のように行なうことができる。音響モデルＰ（Ｘ｜Ｖ）および言語モデルＰ（Ｗ）は予め与えられ、それぞれ音響モデル記憶部（不図示）と言語モデル記憶部（不図示）に記憶されている。なお、音響モデルＰ（Ｘ｜Ｖ）は、グループ（Ｖ）の音響的特徴（Ｘ）の統計量である。また、言語モデルＰ（Ｗ）は表記（Ｗ）の統計的特徴量である。これらを読み出して用いて、発音決定部２１は、次の式（２）により認識結果を得られる。式（２）において、Ｘはテスト音声データから抽出された音響的特徴であり、Ｐ（Ｖ｜Ｗ）は修正済発音辞書データ３から得られるグループ生起確率である。

なお、上の式（２）で、

が認識結果である。

次に、ステップＳ２６において、発音辞書修正装置１０２は、終了条件を満たすか否かを判定する。終了条件については下で説明する。終了条件を満たす場合（ステップＳ２６：ＹＥＳ）、このフローチャート全体の処理を終了する。終了条件を満たさない場合、（ステップＳ２６：ＮＯ）、次のスムージング係数を用いた処理を進めるためにステップＳ２７に進む。
ステップＳ２７においては、スムージング係数決定部２３が、次のスムージング係数λ_ｉを決定し、この値をスムージング係数記憶部２７に書き込む。このステップの次は、ステップＳ２３に戻る。

ここで、上のステップＳ２６における終了条件、およびステップＳ２７におけるスムージング係数の決め方について、代表的な２つの方法を説明する。
第１の方法：スムージング係数の初期値を前記の通りλ_１＝１０とする場合、２回目以降のスムージング係数を、λ_２＝１１、λ_３＝１２、・・・と順次１ずつ増加させていく。そして、スムージング係数の変化につれて認識結果の正解率が増加している限りは、終了条件を「偽」として、ループ処理を続ける。前回の正解率よりも今回の正解率のほうが低くなったときに、前回のスムージング係数とそのときの正解率（正解率の極大値Ｒ１）とを一時的メモリに書き込んでおく。そして、次のＬ回目からはスムージング係数を、λ_L＝９、λ_L＋１＝８、・・・と順次１ずつ減少させていく。そして、スムージング係数の変化につれて認識結果の正解率が増加している限りは、終了条件を「偽」として、ループ処理を続ける。前回の正解率よりも今回の正解率のほうが低くなったときに、終了条件を「真」として、前回のスムージング係数とそのときの正解率（正解率の極大値Ｒ２）とを一時的メモリに書き込んでおく。正解率が単調に増加したままの状態でスムージング係数が０に達したときにも、終了条件を「真」として、そのスムージング係数（０）とそのときの正解率（正解率の極大値Ｒ２）とを一時的メモリに書き込んでおく。そして、上記の正解率Ｒ１と正解率Ｒ２とを読み出して比較し、それらのうちの高いほうの正解率を示したスムージング係数を最適値として採用する。

第２の方法：スムージング係数の初期値をλ_１＝０とし、その後順次、λ_２＝１、λ_３＝２、λ_４＝３、・・・と、１ずつスムージング係数を増加させていき（この間、終了条件は「偽」）、各々のスムージング係数に対応する正解率を一時的メモリに書き込んでおく。そして、スムージング係数が予め定めた上限値（例えばλ_１０１＝１００）に達したときに、終了条件を「真」とする。そして、これら全てのスムージング係数の中で、最も高い正解率が得られたものを、スムージング係数の最適値として採用する。

上記の第１の方法は、第２の方法よりもループ回数（試行回数）がほぼ少なくて済むというメリットがある。一方で、上記の第２の方法は、より網羅的に広い範囲のスムージング係数についての試行を行なうことができるとともに、局所最適なスムージング係数を採用してしまうリスクを避けることができるというメリットがある。

以上説明したように、本実施形態では、スムージング係数（λ）を適応的に変更し、最適な値を決定することができる。この結果得られる修正済発音辞書データ３は、音声認識などに適用した際に、常に認識性能が良いものとなる。

［第３の実施の形態］
次に第３の実施形態について説明する。なお、第１或いは第２の実施形態と共通の事項については説明を省略する。
図８は、本実施形態による音声認識装置の機能構成を示すブロック図である。この音声認識装置２０１は、前述の発音辞書修正装置を利用して構成している。
図示するように、音声認識装置２０１は、入力音声データ記憶部５１と、音響分析部５２と、デコーダ部５３と、認識結果データ記憶部５４と、音響モデル記憶部５８と、言語モデル記憶部５９と、発音辞書データ１と、学習データセット２と、発音辞書修正装置１０１Ａと、修正済発音辞書データ３とを含んで構成される。
音響モデル記憶部５８は、発音のグループの音響的特徴の統計量（Ｐ（Ｘ｜Ｖ））を音響モデルとして記憶する。
言語モデル記憶部５９は、表記の統計的特徴量（Ｐ（Ｗ））を言語モデルとして記憶する。

ここで、発音辞書修正装置１０１Ａは、第１の実施形態で説明した発音辞書修正装置１０１或いは第２の実施形態で説明した発音辞書修正装置１０２と同様のものである。この発音辞書修正装置１０１Ａは、発音辞書データ１と学習データセット２とを基に、発音辞書データ１の各エントリーに、そのエントリーが所属するグループのグループ生起確率を付加し、修正済発音辞書データ３を作成・出力する。
音響分析部５２は、入力音声データ記憶部５１から読み出した音声データの音響特徴量（Ｘ）を抽出する。デコーダ部５３は、修正済発音辞書データ３を用いて、音響分析部５２によって抽出された音響特徴量から認識結果を決定して、認識結果データ記憶部５４に書き込む。このとき、音響分析部５２は、音響モデル記憶部５８から読み出した音響モデルＰ（Ｘ｜Ｖ）と言語モデル記憶部Ｐ（Ｗ）とを用いて、デコード処理を行なう。修正済発音辞書データ３からはグループ生起確率Ｐ（Ｖ｜Ｗ）が得られるため、デコーダ部５３は、前述の式（２）を用いた計算により、認識結果を得ることができる。

この音声認識システム２０１は、修正済発音辞書データ３を用いてデコード処理をしているため、グループ生起確率Ｐ（Ｖ｜Ｗ）を用いる。従って、頻度の低い発音であっても、そのことのみによる悪影響が低減され、安定した良好な認識結果が得られる。つまり、同一の表記に対して発音の変形によって発音が多数存在するような場合でも、生起確率が不当に低くなることを回避し、認識精度の向上を図ることが可能となる。

なお、上述した実施形態における発音辞書修正装置や音声認識装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。このようにコンピュータを用いて本発明を実施する場合、処理対象となるデータは、コンピュータシステムが有する記憶装置に保持され、中央処理装置で実行されるプログラムの内容に従ってこれらデータが読み書きされる。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上では、日本語を例にとって説明したが、日本語に限らず同一表記に対して発音変形が生じ得るような言語に対して、上記の発音辞書修正装置或いは音声認識装置を適用することができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

［産業上の利用可能性］
本発明を、放送番組等の字幕制作や、音声対話システムや、会議議事録の音声認識による自動書き起こしなど、音声認識技術を利用したさまざまな分野の技術に適用することが可能である。

１，１Ａ発音辞書データ
２学習データセット
３，３Ａ修正済発音辞書データ
４学習データセット処理部
５変化パターン定義記憶部
６発音グルーピング処理部
７，２７スムージング係数記憶部
８グループ生起確率算出部
９辞書修正処理部
２０テストデータ記憶部
２１発音決定部
２２正解率データ記憶部
２３スムージング係数決定部
１０１，１０１Ａ，１０２発音辞書修正装置
２０１音声認識装置

Claims

変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部と、
発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理部と、
学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出部と、
発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理部と、
を具備することを特徴とする発音辞書修正装置。
請求項１に記載の発音辞書修正装置であって、
生起確率算出のためのスムージング係数を記憶するスムージング係数記憶部と、
テスト音声データと、前記テスト音声データに対応する音声認識の正解データとを記憶するテストデータ記憶部と、
前記修正済発音辞書データを用いて、前記テストデータ記憶部から読み出した前記テスト音声データの音声認識処理を行なうとともに、この音声認識処理の結果と、前記テストデータ記憶部から読み出した前記正解データとから、音声認識処理の結果の正解率を算出する発音決定部と、
前記スムージング係数を決定して前記スムージング係数記憶部に書き込むスムージング係数決定部と、
を更に具備し、
前記グループ生起確率算出部は、前記スムージング係数記憶部から読み出したスムージング係数によって、前記グループ頻度の変化の度合いを緩和するように、前記グループ生起確率を算出する、
ことを特徴とする発音辞書修正装置。
請求項１又は請求項２に記載の発音辞書修正装置と、
前記発音辞書修正装置によって出力される修正済発音辞書データを記憶する辞書データ記憶部と、
前記グループの音響的特徴の統計量を音響モデルとして記憶する音響モデル記憶部と、
表記の統計的特徴量を言語モデルとして記憶する言語モデル記憶部と、
入力音声の音響特徴量と、前記辞書データ記憶部から読み出した修正済み発音辞書データに含まれる表記と発音のグループとの統計的相関値と、前記音響モデル記憶部から読み出した前記音響モデルと、前記言語モデル記憶部から読み出した前記言語モデルとを用いてデコード処理を行ない、音声認識結果を出力するデコーダ部と、
を具備することを特徴とする音声認識装置。
変形前発音および変形後発音のパターンデータを記憶する変化パターン定義記憶部を具備するコンピュータに、
発音辞書データから表記と発音のペアとしてなるエントリーを読み出すとともに、当該エントリーと、前記変化パターン定義記憶部から読み出した前記パターンデータを当該エントリーに含まれる発音に適用したときに得られる変化後発音を含み且つ当該エントリーと同一の表記を含む他のエントリーとを、同一のグループとしてグルーピングする発音グルーピング処理過程と、
学習データ中における表記の頻度と、前記学習データ中における前記グループごとの出現頻度であるグループ頻度とに基づき、前記表記に対する前記グループの生起確率をグループ生起確率として算出するグループ生起確率算出過程と、
発音辞書データから読み出した前記エントリーに、当該エントリーが属する前記グループについて算出された前記グループ生起確率を付加して、修正済発音辞書データとして出力する辞書修正処理過程と、
の処理を実行させるコンピュータプログラム。