JP6622681B2

JP6622681B2 - 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Info

Publication number: JP6622681B2
Application number: JP2016214874A
Authority: JP
Inventors: 清彰松井; 岡本　学; 学岡本; 隆朗福冨
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2019-12-18
Anticipated expiration: 2036-11-02
Also published as: JP2018072697A

Description

本発明は、音声認識技術に関し、特に不明瞭な発音に起因し発生した音素崩れ区間を検出する技術に関する。

自然発話に関する音声認識技術は、コールセンタでの対話分析、会議における議事録作成、人間とロボットの雑談対話など様々な用途で幅広く用いられている。

これまでの音声認識にはいくつかの方法がある。例えば、あらかじめ大量に用意した音声データを学習データとして各音素のテンプレートを生成し、認識対象となる音声データにテンプレートを順に当てはめていくことにより、最尤音素系列を生成する方法がある（非特許文献１）。

また、DNN(Deep Neural Networks)を用いた方法もある（非特許文献２）。この方法は、音声特徴量を入力として音素を出力するDNNを学習することにより、認識対象となる音声データの音声特徴量から直接音素へ変換し、音素系列を生成するものであり、学習データを大量に用意することで非常によい音声認識率が得られるものである。

その他、アテトーゼ型脳性麻痺による構音障害者の発話を認識するために、CNN(Convolutional Neural Networks)を用いた特徴量抽出を行い、スペクトログラムの揺らぎを緩和させる方法もある（非特許文献３）。

F. Jelinek, "Continuous speech recognition by statistical methods", Proceedings of the IEEE, Vol.64, No.4, pp.532-556, 1976. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE Signal Processing Magazine Vol.29, Issue 6, pp.82-97, 2012. 高島悠樹，中鹿亘，滝口哲也，有木康雄，"構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討"，電子情報通信学会，信学技報，vol. 115，no.100，pp.71-76，2015．

いずれの方法においても誤認識が生じることがあるが、その中でも特に問題となるのが、音声認識率が著しく低下してしまう場合である。その要因としていくつか考えられる。

現在の音声認識技術では、予め用意された学習用音声データから学習した音声の特徴を知識として音声認識に用いるため、雑音環境や話者の話し方が平均的なものから大きく逸脱した場合、音声認識率は著しく低下する。平均的なものから大きく逸脱する場合の例として、雑音環境の側面では学習用音声データにない新たな雑音環境にさらされる場合や非定常性の強い突発的な雑音が発生する場合などがあり、話者の話し方の側面では話者が強い感情をこめて発話する場合や声量が極端に大きい（極端に小さい）場合などがある。このようなケースが劣化要因となり、発話の一部あるいは全部で発生すると音声認識率が著しく低下してしまう。

また、現在の音声認識技術には、現在着目している語の前にどのような語が続いているかという情報を利用しているものもあり、このため、不明瞭な発音である音素崩れにより誤認識をいったん起こしてしまうと後続の語についても連鎖的に誤認識していまうという現象(ピットフォールエラー)が発生することがある（参考非特許文献１）。このピットフォールエラーも音声認識率を著しく低下させてしまう。
（参考非特許文献１）浅見太一，野田喜昭，高橋敏，“ピットフォールエラーに着目した音声認識誤りの分析”，日本音響学会講演論文集２００８年３月，1-10-18，pp.53-54，2008．

そこで本発明は、１つの音素崩れに起因して連鎖的に誤認識が生じてしまう音素崩れ区間を検出することができる音素崩れ区間検出技術を提供することを目的とする。

本発明の一態様は、学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部と、前記学習用音素ラベルと前記学習音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部とを含む。

本発明によれば、音声認識時に母音の音素崩れを検出するためのモデルである音素崩れ決定木を学習することができる。

音素区間情報系列の一例を示す図。学習用音素区間情報系列の一例を示す図。音素崩れ検出モデル学習装置１００の構成の一例を示す図。音素崩れ検出モデル学習装置１００の動作の一例を示す図。学習用音素情報抽出部１１０の構成の一例を示す図。学習用音素情報抽出部１１０の動作の一例を示す図。音素崩れ検出モデルである音素崩れ決定木の一例を示す図。音素崩れ区間検出装置２００の構成の一例を示す図。音素崩れ区間検出装置２００の動作の一例を示す図。音声認識部２３０による認識結果の一例を示す図。音声認識部２３０の構成の一例を示す図。音素照合部２５０の構成の一例を示す図。音素照合部２５０の動作の一例を示す図。推定音素系列生成部２４１の動作の一例を示す図。音素系列比較部２４３の動作の一例を示す図。音素照合部２５０による照合結果の一例を示す図。音素崩れ区間検出部２７０による検出結果の一例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜定義＞
以下、各実施形態で用いる用語について説明する。

［音声データ］
音声データとは、学習（具体的には、音素崩れ決定木の学習）や音声認識に用いるため、あらかじめ収録しておく音声データのことである。音声データは、話者が発話した文章の音声であり、例えばサンプリング周波数１６ｋＨｚで離散値化されたデジタルデータである。

［音素区間情報系列］
音素区間情報系列とは、音声データに対して付与される音素に関する情報（以下、音素区間情報という）の系列のことである。音声データに一つの音素区間情報系列が付与されている。

音素区間情報には、少なくとも音素を表す音素ラベル、音素の発話開始時間と発話終了時間の情報が含まれる。ここでいう発話開始時間・発話終了時間は、各発話の始点を0[秒]としたときの経過時間のことである。音素区間情報系列の一例を図１に示す。

また、音素崩れ決定木の学習に用いる学習データは、学習用音声データと学習用音素区間情報系列の組である。ここで、学習用音素区間情報は、音素区間情報に対して、人手により音素崩れを起こしている音素（不明瞭な発音となっている音素）にそのことを示す専用ラベル（以下、音素崩れラベルという）を対応付けたものである。学習用音素区間情報系列の一例を図２に示す。音素崩れラベルは、図２に示すように音素ラベルとは異なるラベルを付与する形としてもよいし、音素崩れを起こしている音素ラベルを音素崩れラベルで上書きする形としてもよい。この例では、記号”*”を付することにより、表の上から２行目、３行目、６行目、８行目の音素“a”、音素“r”、音素“u”、音素“u”が音素崩れを起こしていることを示している。なお、音素崩れを起こしていない音素に対して何も記号を付けない代わりに、音素が崩れていないことを示すnilなどの特別な記号を付してもよい。

以下では、各音素に対して、音素崩れラベルか、音素崩れを起こしていないことを示すラベルのいずれかが音素崩れの有無を示す音素崩れフラグとして対応づけられているものとする。

音素区間情報系列から学習用音素区間情報系列を生成する作業には、多少の主観が伴ってしまうが、例えば、音声認識処理の結果大きく認識誤りを起こしている箇所に作業範囲を限定して作業をすることで、作業者による音素崩れラベルの付与のばらつきをある程度抑制することができる。

＜第一実施形態＞
以下、図３〜図７を参照して音素崩れ検出モデル学習装置１００について説明する。

［音素崩れ検出モデル学習装置１００］
図３に示すように音素崩れ検出モデル学習装置１００は、学習用音素情報抽出部１１０、音素崩れ決定木学習部１３０、記録部１９０を含む。記録部１９０は、音素崩れ検出モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。音素崩れ検出モデル学習装置１００は、学習用音声データ、学習用音素区間情報系列を入力として、音素崩れ検出モデルである音素崩れ決定木を学習し、出力する。

図４に従い音素崩れ検出モデル学習装置１００の動作について説明する。学習用音素情報抽出部１１０は、学習用音声データ、学習用音素区間情報系列を入力として、学習用音素区間情報に含まれる母音音素を示す母音音素ラベル、半母音音素を示す半母音音素ラベル、促音音素を示す促音音素ラベル、音素崩れラベルと対応付けられている音素ラベル（以下、これらを学習用音素ラベルという）を抽出、当該学習用音素ラベルの音素に対応する発話区間（つまり、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間）に対応するフレームから音声特徴量（以下、学習用音素区間音声特徴量という）を抽出、学習用音素ラベルと当該学習音素ラベルの音素崩れフラグ、学習用音素区間音声特徴量の組を出力する（Ｓ１１０）。

ここで、音素崩れの大部分は、母音、半母音、促音のように語末に出現する音素がきちんと発音されないことに起因することが多いため、音素崩れラベルと対応付けられている音素に加えて、母音音素ラベル、半母音音素ラベル、促音音素ラベルの音素についても学習用音素ラベルの音素として選択することとした。したがって、日本語の場合、”a(あ)”、”i(い)”、”u(う)”、”e(え)”、”o(お)”、”ng(ん)”、”q(っ)”の７種の音素と音素崩れラベルが対応付けられた音素のラベルが抽出されることとなる。

図２の例でいえば、表の上から２行目、３行目、６行目、８行目の音素“a”、音素“r”、音素“u”、音素“u”が音素崩れラベルを付与されているため、学習用音素ラベルとなる。また、表の上から４行目の音素“a”が母音音素ラベルであるため、学習用音素ラベルとなる。

したがって、母音音素ラベルの音素、半母音音素ラベルの音素、促音音素ラベルの音素、音素崩れを起こしている音素を用いて音素崩れ決定木を学習することになる。

なお、母音音素ラベルの音素と音素崩れを起こしている音素のみを用いて音素崩れ決定木を学習してもよい。音素崩れが、母音がきちんと発音されないことに起因することが特に多いためである。

音素崩れ決定木学習部１３０は、学習用音素ラベルと学習音素ラベルの音素崩れフラグ、学習用音素区間音声特徴量を入力として、音素崩れ決定木を学習し、出力する（Ｓ１３０）。

以下、学習用音素情報抽出部１１０、音素崩れ決定木学習部１３０の構成、動作について詳細に説明していく。

まず、図５〜図６を参照して学習用音素情報抽出部１１０について説明する。図５に示すように学習用音素情報抽出部１１０は、音声特徴量生成部１０１、学習用音素選択部１０３を含む。図６に従い学習用音素情報抽出部１１０の動作について説明する。

音声特徴量生成部１０１は、学習用音声データをフレームに分割し、音声特徴量を生成し、各学習用音素区間情報の音素に対応する発話区間（つまり、当該音素の発話開始時間から発話終了時間までの区間）に対応するフレームの音声特徴量（以下、音素区間音声特徴量という）と当該音素の音素ラベルと音素崩れフラグの組を生成し、音素ラベルと音素崩れフラグと音素区間音声特徴量を出力する（Ｓ１０１）。音声特徴量としては、例えば、MFCC（Mel-Frequency Cepstrum Coefficients；メル周波数ケプストラム係数）、FBANK（対数メルフィルタバンク）を用いればよい。一般に、Nを1以上の整数として、各音素の発話区間はNフレームと対応するため、１つの音素ラベルにN個の音声特徴量が対応付けられることになる。

学習用音素選択部１０３は、音素ラベル、音素崩れフラグ、音素区間音声特徴量を入力として、当該音素ラベルが母音、半母音、促音のいずれかを示すものである場合、または、当該音素ラベルに音素崩れラベルが付されている（つまり、音声崩れフラグが記号”*”である）場合は、入力された音素ラベルと音素崩れフラグと音素区間音声特徴量を学習用音素ラベルと音素崩れフラグと学習用音素区間音声特徴量としてそのまま出力する。一方、それ以外の場合（つまり、音素ラベルが母音、半母音、促音のいずれを示すものでなく、音素崩れラベルも付されていない場合）は、入力された音素ラベル等はそのまま破棄し、出力しない（Ｓ１０３）。

次に、音素崩れ決定木学習部１３０について説明する。音素崩れ決定木学習部１３０は、学習用音素ラベルと音素崩れフラグと学習用音素区間音声特徴量を入力として、音素崩れ決定木を学習する（Ｓ１３０）。音素崩れ決定木は、図７に示すように、最上層の根ノードに入ってきた学習用音素区間音声特徴量に対して、Yes-Noクエスチョンを繰り返しながら（ここでは、学習用音素区間音声特徴量に関する属性についての質問とその答えを用いて）最下層の葉ノードまで到達し、到達した葉ノードに付与された学習用音素ラベルと音素崩れフラグを出力するものである。以下、音素崩れフラグが記号”*”である、つまり音素崩れが起きている葉ノードのことを音素崩れノードという。

一般に、決定木の学習では、各学習データをクラスタリングするために複数の属性と値のペアが必要になる。属性の数と種類は任意に決定することができるが、一般的に学習データは大量になるため、属性とその値は一定の手順に従い自動的に決定されるものが望ましい。例えば、音素区間の長さを属性とすることができる。この属性は、学習データである学習用音素区間音声特徴量の数から計算することができる。また、音の高さを表す特徴量であるF0の平均値を属性とすることができる。音素区間音声特徴量から計算で求めることができるからである。音素崩れは、口の動きの物理的制約により前後の音素を引きずってしまう音韻のなまけ現象が主要因となる。また、早口である人ほど音素崩れの傾向は強い。したがって、時間変化量に関する属性とその値、音素継続長に関する属性とその値を用いると音素崩れ決定木の学習が効率的に進む。

また、音素崩れ決定木の学習には、エントロピーを用いた学習法を適用することができる。エントロピーを用いた学習法は、音素崩れ決定木の構成に用いる属性の重要度を客観的に評価するためことができ、重要度の高い属性を根ノードに近づけることにより、よりコンパクトな決定木を構成することができる。以下、エントロピーを用いた学習法について簡単に説明する。決定木をT、m番目のノードをR_m、ノードR_m中の例題数（決定木Tに従い、クラスタリングしてきた際にノードR_mに割り当てられる学習データの数）をn_mとする。このとき、ノードR_mにおいてラベルがgになる確率P^_m,gは、式(1)のようになる。

ここで、I[]は個々の学習データ、y_iは学習データIのラベルであり、Σを足し合わせる範囲はノードR_mに割り当てられる学習データが1からn_mまででナンバリングされているものとして、すべての学習データについてである。

ノードR_mにおけるラベルの予測値y^(m)は、確率が最大となるラベルであるから、

となる。エントロピーに基づく学習では、ノードR_mのコストQ_m(T)を式(3)で定義する。

すなわち、ノードR_mにおけるエントロピー（各ラベルのエントロピーの総和）の符号を反転させたものが、ノードR_mにおけるコストQ_m(T)になる（Q_m(T)≦0）。

ここで、着目している属性が音素崩れの判別に有用であるならば、その属性がとる値と音素崩れのラベルの有無には大きな関連性が見られるはずである。すなわち、有用な属性に対しては、エントロピーは小さくなる（つまり、コストは大きくなる）。実際、式(3)において、p^_m,g=1、すなわち、100%の確率でラベルgを与えるような属性が存在する場合、そのエントロピーは0（コストも0）となり、純度が最大となる。つまり、コストの大きさが属性の重要度を示す。このため、コストが大きいノードをより上に（根ノードの近く）に配置することにより、よりコンパクトで、判定性能の高い決定木を構成することが可能となる。

その他、エントロピーに基づく決定木の学習には、下に続く枝の本数が二本以上でもよい、構成した木から不要な枝を削除する枝刈りが容易である等、多くのメリットがある。

以下、図８〜図１７を参照して音素崩れ区間検出装置２００について説明する。

［音素崩れ区間検出装置２００］
図８に示すように音素崩れ区間検出装置２００は、音声特徴量生成部２１０、音声認識部２３０、音素照合部２５０、音素崩れ区間検出部２７０、記録部２９０を含む。記録部２９０は、音素崩れ区間検出装置２００の処理に必要な情報を適宜記録する構成部である。音素崩れ区間検出装置２００は、認識用音声データを入力として、音素崩れ検出モデル学習装置１００が学習した音素崩れ決定木を用いて、音素崩れ区間付き最尤音素系列を生成し、出力する。音素崩れ区間付き最尤音素系列は、音声認識部２３０による認識結果である最尤音素系列に音素が崩れている区間（音素崩れ区間）の情報を付したものである。

図９に従い音素崩れ区間検出装置２００の動作について説明する。音声特徴量生成部２１０は、認識用音声データをフレームに分割し、音声特徴量を生成し、出力する（Ｓ２１０）。音声特徴量生成部２１０は、音声特徴量生成部１０１における音声特徴量の生成と同一条件にて音声特徴量を生成する。

音声認識部２３０は、Ｓ２１０で生成した音声特徴量を入力として、認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、最尤音素系列の各音素の発話区間に対応するフレームの音声特徴量の系列である音声特徴量系列を生成し、最尤音素系列と音声特徴量系列を認識結果として出力する（Ｓ２３０）。認識結果の一例を図１０に示す。音声認識部２３０の構成の一例を図１１に示す。当該構成では、デコーダ２２１が各モデル（音響モデル２２５、言語モデル２２７、辞書２２９）を用いて入力となる音声特徴量から最尤音素系列を含む認識結果を生成する。音声認識部２３０の構成にはDNNを用いればよい。

音素照合部２５０は、Ｓ２３０で生成した最尤音素系列と音声特徴量系列を入力として、音素崩れ検出モデル学習装置１００が学習した音素崩れ決定木を用いて、最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成し、出力する（Ｓ２５０）。図１２〜図１６を参照して音素照合部２５０について詳しく説明する。図１２に示すように音素照合部２５０は、推定音素系列生成部２４１、音素系列比較部２４３を含む。図１３に従い音素照合部２５０の動作について説明する。

推定音素系列生成部２４１は、最尤音素系列、音声特徴量系列を入力として、音素崩れ決定木を用いて、推定音素系列を生成する（Ｓ２４１）。推定音素系列生成部２４１の動作について詳細に説明する（図１４参照）。図１４は、最尤音素系列をa₁…a_K、音声特徴量系列をb₁…b_Kを入力として推定音素系列をc₁…c_Kを出力する推定音素系列生成部２４１の動作を説明するフローチャートである（ただし、Kは系列の長さ（つまり、最尤音素系列に含まれる音素の数））。

推定音素系列生成部２４１は、最尤音素系列中の音素ラベルが母音を示すものである場合は、音素崩れ決定木を用いて、音声特徴量系列中の当該母音に対応する音声特徴量から決定される音素を推定音素として生成する（Ｓ２４１−４ａ）。一方、最尤音素系列中の音素ラベルが子音等母音以外の音素を示すものである場合は、当該音素を推定音素として生成する（Ｓ２４１−４ｂ）。これらの推定音素を順に結合することで推定音素系列を生成する（Ｓ２４１−７）。

音素系列比較部２４３は、最尤音素系列、Ｓ２４１で生成した推定音素系列を入力として、音素崩れラベル付き最尤音素系列を生成する（Ｓ２４３）。音素系列比較部２４３の動作について詳細に説明する（図１５参照）。図１５は、最尤音素系列をa₁…a_K、推定音素系列をc₁…c_Kを入力として音素崩れラベル付き最尤音素系列をd₁…d_Kを出力する音素系列比較部２４３の動作を説明するフローチャートである。

音素系列比較部２４３は、Ｓ２４１で生成した推定音素系列の各音素ラベルと最尤音素系列の各音素ラベルを順に比較していき（Ｓ２４３−３）、一致する場合は最尤音素系列の音素ラベルのみを音素単位照合結果として生成する（Ｓ２４３−４ａ）。一方、一致しない場合は最尤音素系列の音素ラベルと音素崩れラベルの組を音素単位照合結果として生成する（Ｓ２４１−４ｂ）。これらの音素単位照合結果を順に結合することで音素崩れラベル付き最尤音素系列を照合結果として生成し、出力する（Ｓ２４３−７）。照合結果の一例を図１６に示す。

音素崩れ区間検出部２７０は、Ｓ２５０で生成した音素崩れラベル付き最尤音素系列を入力として、音素崩れラベルが付与された２つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成し、出力する（Ｓ２７０）。具体的には以下のようにして音素崩れ区間付き最尤音素系列を生成する。音素崩れラベル付き最尤音素系列を先頭から順に見ていき、音素崩れラベルが付与されている母音音素ラベル（母音音素ラベル１）を見つけ出す。見つけたら、その次に出現する母音音素ラベル（母音音素ラベル２）を見つけ出し、音素崩れラベルが付与されているか否かを確認する。音素崩れラベルが付与されている場合は、その間にあるすべての子音等の音素ラベルに対して音素崩れラベルを付与する（つまり、母音音素ラベル１から母音音素ラベル２までのすべての音素ラベルに音素崩れラベルを付与する）。一方、音素崩れラベルが付与されていない場合は、見つけ出した音素崩れラベルが付与されている母音音素ラベル（母音音素ラベル１）から音素崩れラベルを削除する。この手続きを繰り返すことにより、音素崩れラベルが付与された２つ以上の連接する音素群からなる音素崩れ区間が生成され、音素崩れ区間付き最尤音素系列が生成される。したがって、最尤音素系列の中で母音音素ラベルのみをみたとき隣り合う３つの母音音素ラベルすべてに音素崩れラベルが付与されている場合は、前から１番目の母音音素ラベルから３番目の母音音素ラベルまでのすべての音素ラベルに音素崩れラベルを付与することになる。検出結果の一例を図１７に示す。

本実施形態の発明によれば、音声認識時に母音の音素崩れを検出するためのモデルである音素崩れ決定木を学習することができる。また、音素崩れ決定木を用いて、母音の音素崩れのみを判定することにより音素崩れを迅速に検出することができる。さらに、音声認識率を著しく低下させる、音素崩れが２つ以上の音素で連続的に生じている音素崩れ区間を検出することができる。

＜変形例＞
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部と、
前記学習用音素ラベルと前記学習用音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部と
を含む音素崩れ検出モデル学習装置。
認識用音声データから、音声特徴量を生成する音声特徴量生成部と、
前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識部と、
請求項１に記載の音素崩れ検出モデル学習装置が学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合部と、
前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された２つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出部と
を含む音素崩れ区間検出装置。
学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
音素崩れ区間検出装置が、前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出ステップと、
前記音素崩れ区間検出装置が、前記学習用音素ラベルと前記学習音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習ステップと
を含む音素崩れ検出モデル学習方法。
音素崩れ区間検出装置が、認識用音声データから、音声特徴量を生成する音声特徴量生成ステップと、
前記音素崩れ区間検出装置が、前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識ステップと、
前記音素崩れ区間検出装置が、請求項３に記載の音素崩れ検出モデル学習方法により学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合ステップと、
前記音素崩れ区間検出装置が、前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された２つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出ステップと
を含む音素崩れ区間検出方法。
請求項１に記載の音素崩れ検出モデル学習装置または請求項２に記載の音素崩れ区間検出装置としてコンピュータを機能させるためのプログラム。