JP2007248730A

JP2007248730A - 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体

Info

Publication number: JP2007248730A
Application number: JP2006070961A
Authority: JP
Inventors: Yuichi Nakazawa; 裕一中澤; Satoru Kobashigawa; 哲小橋川; Atsunori Ogawa; 厚徳小川; Hirokazu Masataki; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-15
Filing date: 2006-03-15
Publication date: 2007-09-27
Anticipated expiration: 2026-03-15
Also published as: JP4594885B2

Abstract

【課題】容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築する。
【解決手段】信頼度付与部１５０が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部１６０が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部１７０が、発話選択部１６０が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。
【選択図】図２

Description

本発明は、音響モデルの適応を行う技術に関し、特に、音声認識結果の信頼度を利用して音響モデルの教師なし適応を行う技術に関する。

一般に、音声認識では、音声ファイルと音声ファイルの発話内容を表す正解テキストとを学習データとして音響モデルの適応を行う。なお「音響モデルの適応」とは、学習処理により、学習データ中の事例ができるだけ多く成り立つように、音響モデルのパラメータを最適化する処理を意味する。また、この音響モデルの適応は、音声ファイルに対応する読みを人間が書き起こすこと等によって作成される正解テキストを学習データとして用いる教師あり適応と、音声認識結果等を正解テキストとした学習データとして用いる教師なし適応とに大別される。

ここで、教師なし適応によって音響モデルの適応を行う場合、認識精度の高い音声認識結果を正解テキストとして用いる必要がある。認識精度の低い音声認識結果を正解テキストとして用いた場合、音響モデルの誤った適応によって、音響モデルの精度を低下させてしまう可能性があるからである。
このような問題に対し、音声認識結果に信頼度を付与し、信頼度の高さに応じて音声認識結果を選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が考えられる。これにより、認識精度の低い音声認識結果が正解テキストとして用いられ、音響モデルの精度が低下してしまうことを回避できる。

例えば、非特許文献１では、音声認識結果に対し、音素事後確率に基づいた信頼度を付与し、閾値以上の信頼度が付与された音声認識結果を用いて音響モデルの適応を行う手法が開示されている。この手法では、０から１の範囲で閾値を設定し、異なる値を闘値とした複数のデータ選択モデルを用意して、音響モデルの適応・評価を行っている。
緒方淳，有木康雄，「音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化」，信学技報NLC2001‐70，pp.19‐24

しかし、非特許文献１のような既存の技術では、どの値を闘値として設定し、音響モデルの適応に用いる音声認識結果を選択するのがよいかを判断することが非常に困難であった。
本発明はこのような点に鑑みてなされたものであり、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築できる技術を提供することを目的とする。

本発明では上記課題を解決するために、信頼度付与部が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部が、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。なお、「発話系列」とは、音声認識結果の単語系列（読みの単語系列）を所定の基準に従って区分して得られる各系列を意味する。また、「発話系列」は１以上の単語からなる。また、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値（例えば、認識率をα％と推定した場合のα）のみならず、認識率が属する範囲を推定した値（例えば、認識率がα％以上であると推定した場合のαや、認識率がα％以上β％未満であると推定した場合のα及びβ等）をも含む概念である。

ここで、本発明では、音響モデルの認識率を基準として発話系列の信頼度を評価し、音響モデルの適応に用いる発話系列を選択する。これにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。また、音響モデルの適応に用いる発話系列の選択は、音響モデルの認識率を基準に行われるため、従来のように適切な閾値を設定するための試行錯誤も必要もない。
また、本発明において好ましくは、発話選択部は、音響モデルの認識率以上の値に設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。

このように発話系列を選択することにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。
また、本発明において好ましくは、適応データ入力部に、教師あり正解テキストが入力され、音響モデル適応部は、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、音響モデルの適応を行う。なお、「教師あり正解テキスト」とは、音声ファイルに対応する読みを人間が書き起こすことによって作成又は訂正された正解テキストを意味する。ここで好ましくは、正解テキスト選択部が、発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択し、正解テキスト出力部が、選択された教師あり正解テキストを出力する。また好ましくは、適応データ入力部に入力される教師あり正解テキストは、正解テキスト出力部から出力された教師あり正解テキストである。このように信頼度が低い発話系列を、教師あり正解テキストに置き換えてモデル適応を行うことにより、教師なし適応の長所を維持しつつ、音響モデルの精度をさらに向上させることができる。

さらに好ましくは、正解テキスト選択部は、発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する。これにより、信頼度が極端に低く、データ自体に問題がある可能性がある音声ファイルが音響モデルの適応に用いられ、音響モデルの精度に悪影響を与えてしまうことを防止できる。

以上説明した通り、本発明では、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築することが可能となる。

以下、本発明を実施するための最良の形態を図面を参照して説明する。
〔第１の実施の形態〕
＜ハードウェア構成＞
図１は、第１の実施の形態における音響モデル適応装置１のハードウェア構成を例示したブロック図である。
図１に例示するように、この例の音響モデル適応装置１は、ＣＰＵ（Central Processing Unit）１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ（Read Only Memory）１５、ＲＡＭ（Random Access Memory）１６及びバス１７を有している。

この例のＣＰＵ１１は、制御部１１ａ、演算部１１ｂ及びレジスタ１１ｃを有し、レジスタ１１ｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部１２は、データが入力される入力ポート、キーボード、マウス等であり、出力部１３は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置１４は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、本形態の処理を実行するためのプログラムを格納したプログラム領域１４ａ及びタグ出力情報等の各種データが格納されるデータ領域１４ｂを有している。また、ＲＡＭ１６は、例えば、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域１６ａ及び各種データが書き込まれるデータ領域１６ｂを有している。また、この例のバス１７は、ＣＰＵ１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ１５及びＲＡＭ１６を、データのやり取りが可能なように接続する。

＜ハードウェアとソフトウェアとの協働＞
この例のＣＰＵ１１は、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１４のプログラム領域１４ａに格納されているプログラムを、ＲＡＭ１６のプログラム領域１６ａに書き込む。同様にＣＰＵ１１は、補助記憶装置１４のデータ領域１４ｂに格納されている各種データをＲＡＭ１６のデータ領域１６ｂに書き込む。さらに、ＣＰＵ１１は、当該プログラムや各種データが書き込まれたＲＡＭ１６上のアドレスをレジスタ１１ｃに格納する。そして、ＣＰＵ１１の制御部１１ａは、レジスタ１１ｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１６上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１１ｂに順次実行させ、その演算結果をレジスタ１１ｃに格納していく。

図２は、このようにＣＰＵ１１にプログラムが読み込まれることにより構成される音響モデル適応装置１のブロック図の例示である。なお、図２における矢印はデータの流れを示すが、制御部１９０に入出力されるデータの流れの記載は省略してある。
図２に示すように、本形態の音響モデル適応装置１は、メモリ１１０、音声認識結果入力部１３０、情報変換部１４０、信頼度付与部１５０、発話選択部１６０、音響モデル適応部１７０、一時メモリ１８０及び制御部１９０を有している。ここで、メモリ１１０は、各種データを格納する格納部１１１〜１１９を有している。また、信頼度付与部１５０は、特徴量ベクトル生成部１５１及び特徴量ベクトル評価部１５２を有している。なお、メモリ１１０及び一時メモリ１８０は、例えば、図１に記載したレジスタ１１ｃ、補助記憶装置１４、ＲＡＭ１６、或いはこれらの少なくとも一部を結合した記憶領域に相当する。また、情報変換部１４０、信頼度付与部１５０、発話選択部１６０、音響モデル適応部１７０及び制御部１９０は、例えば、図１に記載したＣＰＵ１１にプログラムが読み込まれることにより構成されるものである。さらに、音声認識結果入力部１３０は、例えば、プログラムが読み込まれたＣＰＵ１１の制御のもと動作する入力部１２である。また、音響モデル適応装置１は、制御部１９０の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ１８０に読み書きされる。

＜処理＞
次に、本形態の音響モデル適応装置１の処理について説明する。
図３は、第１の実施の形態における音響モデル適応装置１の処理を説明するためのフローチャートである。また、図４は、図３におけるステップＳ３の処理の詳細を説明するためのフローチャートである。以下、これらの図を用いて本形態の処理を説明する。
［前処理］
前処理として、メモリ１１０の格納部１１４に識別モデルを、格納部１１８に音声ファイルを、格納部１１９に音響モデルを、格納部１１６（「認識率格納部」に相当）に当該音響モデルの認識率を、それぞれ格納しておく。なお、識別モデルとは、音声認識結果から得られた特徴量を用い、認識率の推定値（信頼度）を求めるためのモデルを意味する（詳細は後述）。また、音響モデルは、音声の統計的な性質を表現するモデルであり、例えば、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）等を例示できる。また、音響モデルの認識率は、音響モデルを用いて実際の評価用データの音声認識を行い、その認識率を算出したものである。

［音響モデル適応処理］
以上のような前処理を前提に音響モデル適応処理が実行される。
まず、図示していない音声認識部が、メモリ１１０の格納部１１９に格納された音響モデルを用い、格納部１１８に格納された音声ファイルの音声認識を行う。この音声認識結果は、音声認識結果入力部１３０に入力され、対応する各音声ファイルに関連付けられて、メモリ１１０の格納部１１１に格納される（ステップＳ１）。なお、この音声認識結果は、音声認識により得られた読みの単語系列と、音声認識により各単語に付与される付加情報（例えば、各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長等）とを含む。

次に、情報変換部１４０が、メモリ１１０の格納部１１１から音声認識結果を読み込み、ある一定の基準に基づいて当該音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ１１０の格納部１１２に格納する（ステップＳ２）。なお、「発話系列」の定義は前述の通りである。単語系列を区切るための基準の例としては、単語間の無音区間の長さや単語の品詞情報などを例示できる。また、発話系列の具体例を示すと以下のようになる。
『その辺ではかなり収益も上がるんじゃないかなと思います。』
『なるほどね。』
『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
『んー』
次に、信頼度付与部１５０が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出する。算出された各信頼度は、対応する発話系列に関連付けられて、メモリ１１０の格納部１１５に格納される（ステップＳ３）。なお、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値（例えば、認識率をα％と推定した場合のα）のみならず、認識率が属する範囲を推定した値（例えば、認識率がα％以上であると推定した場合のαや、認識率がα％以上β％未満であると推定した場合のα及びβ等）をも含む概念である。この処理の詳細については後述する。

次に、発話選択部１６０が、メモリ１１０の格納部１１５から発話系列毎の信頼度を読み込み、格納部１１６から音響モデルの認識率を読み込む。そして、発話選択部１６０は、これらを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部１１７に格納する（ステップＳ４）。好ましくは、発話選択部１６０は、音響モデルの認識率に基づき設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。より好ましくは、この基準値は、音響モデルの認識率以上に設定される値である。具体的には、例えば、以下のように発話系列を選択する。

［例１］
基準値を音響モデルの認識率とし、信頼度が音響モデルの認識率以上である発話系列を選択するか、信頼度が音響モデルの認識率を超える発話系列を選択する。
［例２］
音響モデルの認識率に定数を加算又は乗算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
［例３］
音響モデルの認識率から定数を減算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
［例４］
音響モデルの認識率を所定の関数に代入した関数値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。

次に、音響モデル適応部１７０が、メモリ１１０の格納部１１７から選択情報を読み込み、選択情報を用いて発話選択部１６０が選択した発話系列を特定する。その後、音響モデル適応部１７０は、特定した発話系列を格納部１１２から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部１１８から読み込む。そして、音響モデル適応部１７０は、読み込んだ音声ファイルの特徴量と発話系列とを用い、既存の音響モデル適応手法を用い、音響モデルの適応を行う（ステップＳ５）。この際、発話系列は教師なし正解テキストとして機能する。また、音響モデル適応手法には限定はなく、例えば、バームウェルチ（Baum-Weltch）のアルゴリズム等を用いればよいが、データ量に応じ、最適な音響モデル適応手法を選択することにより、適応精度を向上させることができる。このように適応が行われた音響モデルは、メモリ１１０の格納部１１９に格納される。

［ステップＳ３の処理の詳細］
次に、前述したステップＳ３の処理の詳細について説明する。
まず、信頼度付与部１５０の特徴量ベクトル生成部１５１が、メモリ１１０の格納部１１２から１つの発話系列を読み込み、一時メモリ１８０に格納する（ステップＳ１１）。次に、特徴量ベクトル生成部１５１が、一時メモリ１８０から当該発話系列を読み込み、この発話系列に関連付けられている付加情報を格納部１１１から読み込む。そして、特徴量ベクトル生成部１５１は、読み込んだ付加情報を用いて発話系列毎の特徴量ベクトルを生成し、これを当該発話系列に関連付けて格納部１１３に格納する（ステップＳ１２）。なお、特徴量ベクトルの各要素としては、付加情報のうち、特徴量ベクトル評価部１５２で認識率を推定するために役立つ情報を用いる。例えば、発話系列が具備する各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長の全部または一部を特徴量ベクトルの要素とする。

図５は、このように生成される特徴量ベクトル２００の構成を例示した概念図である。
図５の例の特徴量ベクトル２００は、品詞情報２１０、音響尤度スコア２２０、…、音素継続時間長２３０から構成される。ここで、品詞情報２１０は、発話系列に含まれる複数の単語を1つのシンボルで表した特徴量である。図５の例の品詞情報２１０は、各品詞２１１−１〜ｍに対応するｍ個の要素（０又は１）から構成される。そして、発話系列が含む単語の品詞に対応する要素を１とし、それ以外の品詞に対応する要素を０とする。また、図５の例の音響尤度スコア２２０、…、音素継続時間長２３０は、発話系列に含まれる各単語に付与された音響尤度スコア、…、音素継続時間長毎の統計情報（この例では、平均値２２１，２３１、分散値２２２，２３２、最大値２２３，２３３、最小値２２４，２３４）を、それぞれ０〜１に正規化した値（Ｓ１〜Ｓ４，…，Ｓ５〜Ｓ８）からなる。例えば、３７種類（ｍ＝３７）の品詞を具備する品詞情報、並びに、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長それぞれについての発話系列毎の平均・分散・最大・最小要素によって特徴量ベクトルを構成した場合、その特徴量ベクトルは６１｛＝３７＋（６×４）｝次元となる。なお、特徴量ベクトルは、単語単位の情報を発話系列単位に変換した情報であればよく、図５に例示した構成に限定されるものではない。

次に、特徴量ベクトル評価部１５２が、メモリ１１０の格納部１１３から特徴量ベクトルを読み込み、格納部１１４から識別モデルを読み込む。そして、特徴量ベクトル評価部１５２は、特徴量ベクトルと識別モデルとを用いた統計的な評価を行い、特徴量ベクトルに対応する発話系列の信頼度（認識率の推定値）を算出する。算出された信頼度は、対応する発話系列に関連付けられてメモリ１１０の格納部１１５に格納される（ステップＳ１３）。以下に、ステップＳ１３の処理の詳細を例示する。
［ステップＳ１３の処理の詳細］
まず、識別モデルについて説明する。本形態の識別モデルは、特徴量ベクトルを用い、対応する発話系列の信頼度を求めるためのモデルである。すなわち、特徴量ベクトルの各要素を識別モデルに代入することにより、対応する発話系列の信頼度を特定するための情報を算出することができる。このような識別モデルは、学習データ（特徴量ベクトルと発話系列の信頼度を特定するための情報とを具備）を用いて生成される。すなわち、学習によって、学習データ中のより多くの事例が成り立つようにモデルパラメータを設定し、識別モデルを構成する。このような識別モデルとしては、ＳＶＭ（サポートベクターマシーン）やブーステイングといった機械学習に基づくもの、最尤推定法や最大エントロピー法といった確率モデルに基づくもの、ニューラルネットワークに基づくもの等を例示できる。

通常、特徴量ベクトルの次元数が非常に大きい場合、統計的な識別モデルの学習には大量の学習データが必要となり、学習データが少ないと過学習の問題が発生することが多い。これに対し、ＳＶＭは「マージン最大化」という基準から自動的に識別平面付近の少数の学習サンプルのみを選択して識別面を構成するため、少数の学習データでも比較的良い識別性能が得られる。この理由から、ＳＶＭは、本発明に適している。
ＳＶＭに基づく識別モデルは、入力された特徴量ベクトルに対する認識率が閾値（ｎ％）以上であるか否か、の２クラスのパターン認識を行うモデルである。このような識別モデルは、予め、学習データ（クラスの帰属が既知の特徴量ベクトル）を用意し、これらから特徴ベクトルとクラスとの確率的な対応関係を学習することによって生成される。また、ＳＶＭに基づく識別モデルが推定できるのは、特徴量ベクトルに対する認識率が閾値（ｎ％）以上であるか否かのみである。そのため、このような識別モデルは、０≦ｎ≦１００の範囲で必要とされる密度で作成する。例えば、認識率の推定値がどの範囲に属するのかを１０％間隔の精度で必要とする場合（例えば、認識率の推定値が７０〜８０％である等）は、１１個の識別モデル（ｎ=0,10,…,100）を作成する必要がある。一方、認識率の推定値がｎ％以上であるか否かの情報のみでよい場合（例えば、認識率の推定値が７０％以上であるか否か等）は、１個の識別モデル（n=70）のみを作成すればよい（［ステップＳ１３の処理の詳細］の説明終わり）。

次に、制御部１９０は、メモリ１１０の格納部１１２，１１５に格納された発話系列及び信頼度を参照し、全ての発話系列の信頼度が算出済みであるか否かを判断する（ステップＳ１４）。ここで、全ての発話系列の信頼度が算出済みでなかった場合、制御部１９０は、処理をステップＳ１１に戻す。一方、全ての発話系列の信頼度が算出済みであった場合、制御部１９０は、ステップＳ３の処理を終了する（［ステップＳ３の処理の詳細］の説明終わり）。
〔第２の実施の形態〕
次に、本発明における第２の実施の形態について説明する。

第２の実施の形態は、第１の実施の形態の変形例であり、信頼度が低い発話系列に対しては、教師あり正解テキストを用いて音響モデル適応を行う形態である。以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する事項については説明を省略する。
＜構成＞
図６は、第１の実施の形態と同様な公知のコンピュータに所定のプログラムが読み込まれることにより構成される音響モデル適応装置３０１のブロック図の例示である。なお、図６における矢印はデータの流れを示すが、制御部１９０に入出力されるデータの流れの記載は省略してある。また、図６において図２と共通する部分については、図２と同じ符号を付し、説明を簡略化する。

図６に示すように、本形態の音響モデル適応装置３０１は、メモリ１１０、音声認識結果入力部１３０、情報変換部１４０、信頼度付与部１５０、発話選択部１６０、音響モデル適応部１７０、一時メモリ１８０、制御部１９０、正解テキスト選択部３３０、正解テキスト出力部３４０及び適応データ入力部３５０を有している。ここで、メモリ１１０は、各種データを格納する格納部１１１〜１１９の他、格納部３１１，３１２を有している。また、正解テキスト選択部３３０は、図１のＣＰＵ１１にプログラムが読み込まれることにより構成されるものである。また、正解テキスト出力部３４０及び適応データ入力部３５０は、例えば、図１のＣＰＵ１１にプログラムが読み込まれることにより構成されるもの、或いは、プログラムが読み込まれたＣＰＵ１１の制御のもと動作する出力部１３及び入力部１２である。また、音響モデル適応装置３０１は、制御部１９０の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ１８０に読み書きされる。

＜処理＞
次に、本形態の音響モデル適応装置３０１の処理について説明する。
図７は、第２の実施の形態における音響モデル適応装置３０１の処理を説明するためのフローチャートである。以下、この図を用いて本形態の処理を説明する。
［前処理］
前処理として、メモリ１１０の格納部１１４に識別モデルを、格納部１１８に音声ファイルを、格納部１１９に音響モデルを、格納部１１６に当該音響モデルの認識率を格納しておく。また、格納部３１１に、格納部１１８に格納された音声ファイルに対応する教師あり正解テキストの集合である教師あり正解テキストファイルを格納しておく。

［音響モデル適応処理］
以上のような前処理を前提に音響モデル適応処理が実行される。
ステップＳ２１〜Ｓ２４は、第１の実施の形態のステップ１〜Ｓ４と同じである。すなわち、まず、音声認識結果が、音声認識結果入力部１３０に入力され、対応する各音声ファイルに関連付けられ、メモリ１１０の格納部１１１に格納される（ステップＳ２１）。次に、情報変換部１４０が、ある一定の基準に基づいて音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ１１０の格納部１１２に格納する（ステップＳ２２）。そして、信頼度付与部１５０が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出し、算出された各信頼度を、対応する発話系列に関連付けて、メモリ１１０の格納部１１５に格納する（ステップＳ２３）。次に、発話選択部１６０が、発話系列毎の信頼度と音響モデルの認識率とを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部１１７に格納する（ステップＳ２４）。

次に、正解テキスト選択部３３０が、メモリ１１０の格納部１１７から各選択情報を読み込み、格納部１１５から各信頼度を読み込む。そして、正解テキスト選択部３３０は、発話選択部１６０が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを、格納部３１１の教師あり正解テキストファイルから選択する（ステップＳ２５）。なお、「信頼度が所定の基準を満たすだけ良好な発話系列」は、例えば以下のように選択される。
［例１］
発話選択部１６０が選択しなかった発話系列を信頼度が高い順序で並び替え、信頼度が高い方から順番に所定個の発話系列を選択する。

［例２］
発話選択部１６０が用いた基準値よりも値が小さな値を閾値とし、この閾値よりも大きな信頼度を有する発話系列を選択する。
選択された教師あり正解テキストは、正解テキスト出力部３４０から出力され、メモリ１１０の格納部３１２に格納される。次に、格納部３１２に格納された教師あり正解テキストが、適応データ入力部３５０に入力され、音響モデル適応部１７０に送られる。音響モデル適応部１７０は、送られた教師あり正解テキストに対応する音声ファイルを格納部１１８から読み込む。

さらに、音響モデル適応部１７０は、メモリ１１０の格納部１１７から選択情報を読み込み、選択情報を用いて発話選択部１６０が選択した発話系列を特定し、特定した発話系列を格納部１１２から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部１１８から読み込む。そして、音響モデル適応部１７０は、読み込んだ音声ファイルの特徴量と発話系列と教師あり正解テキストとを用い（すなわち、発話選択部１６０が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部３５０に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い）音響モデルの適応を行う（ステップＳ２６）。このように適応が行われた音響モデルは、メモリ１１０の格納部１１９に格納される。

〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施の形態では、１つのコンピュータにプログラムを読み込ませて音響モデル適応装置を構成することとしたが、音響モデル装置の各機能を複数のコンピュータやＣＰＵに分散させて構成してもよい。例えば、第２の実施の形態における正解テキスト選択部３３０を、別のコンピュータ（別装置）によって実現してもよいし、複数のコンピュータによってそれぞれ構成される複数の正解テキスト選択部３３０を用いてもよい。なお、別装置で選択された教師あり正解テキストは、適応データ入力部３５０（この場合、プログラムが読み込まれたＣＰＵ１１の制御のもと動作する入力部１２に相当）から入力される。

また、上述の各実施の形態では、格納部１１８に音声ファイルを格納しておき、音響モデル適応部１７０が、音響ファイルから特徴量と抽出し、音響モデルの適応を行うこととした。しかし、格納部１１８に特徴量自体を格納しておき、音響モデル適応部１７０が、格納部１１８から読み込んだ特徴量を直接利用する構成であってもよい。
また、上述の第２の実施の形態では、正解テキスト選択部３３０が、発話選択部１６０が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択することとした。しかし、正解テキスト選択部３３０が、発話選択部１６０が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを任意に選択する構成であってもよい。さらには、発話選択部１６０の選択内容にかかわらず、正解テキスト選択部３３０が、任意に教師あり正解テキストを選択する構成であってもよい。

また、上述の各実施の形態のように適応が行われた音響モデルを用いて音声認識を行い、その音声認識結果を再び音声認識結果入力部１３０への入力とし、同様な処理を繰り返すこととしてもよい。これにより、高精度のモデル適応が可能となる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、各形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の産業上の利用分野としては、例えば、コンピュータと人間とが音声対話によってコミュニケーションを行う音声対話システムを例示できる。このような音声対話システムでは、コンピュータが人間と対話を行いながら音声を収集・選択・学習し、逐次自律適応を行う。本発明では、少量の適応データ即ち短い適応時間で、容易かつ効率的に高精度な音響モデルが構築できるため、容易に高精度な音声対話システムを構成できる。

図１は、第１の実施の形態における音響モデル適応装置のハードウェア構成を例示したブロック図である。図２は、第１の実施の形態における音響モデル適応装置のブロック図の例示である。図３は、第１の実施の形態における音響モデル適応装置の処理を説明するためのフローチャートである。図４は、図３におけるステップＳ３の処理の詳細を説明するためのフローチャートである。図５は、特徴量ベクトルの構成を例示した概念図である。図６は、第２の実施の形態における音響モデル適応装置のブロック図の例示である。図７は、第２の実施の形態における音響モデル適応装置の処理を説明するためのフローチャートである。

符号の説明

１，３０１音響モデル適応装置

Claims

音響モデルの適応を行う音響モデル適応装置であって、
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識結果が入力される音声認識結果入力部と、
上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する信頼度付与部と、
上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う音響モデル適応部と、
を有することを特徴とする音響モデル適応装置。
請求項１に記載の音響モデル適応装置であって、
上記発話選択部は、
上記音響モデルの認識率以上の値に設定される基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する、
ことを特徴とする音響モデル適応装置。
請求項１に記載の音響モデル適応装置であって、
教師あり正解テキストが入力される適応データ入力部をさらに有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う、
ことを特徴とする音響モデル適応装置。
請求項３に記載の音響モデル適応装置であって、
上記発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択する正解テキスト選択部と、
上記教師あり正解テキストを出力する正解テキスト出力部と、
を有することを特徴とする音響モデル適応装置。
請求項４に記載の音響モデル適応装置であって、
上記正解テキスト選択部は、
上記発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する、
ことを特徴とする音響モデル適応装置。
請求項４に記載の音響モデル適応装置であって、
上記適応データ入力部に入力される教師あり正解テキストは、
上記正解テキスト出力部から出力された教師あり正解テキストである、
ことを特徴とする音響モデル適応装置。
音響モデルの適応を行う音響モデル適応方法であって、
上記音響モデルを用いた音声認識結果が音声認識結果入力部に入力される過程と、
信頼度付与部が、上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する過程と、
発話選択部が、上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する過程と、
音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う過程と、
を有することを特徴とする音響モデル適応方法。
請求項１から６のいずれかに記載の音響モデル適応装置としてコンピュータを機能させるための音響モデル適応プログラム。
請求項８に記載の音響モデル適応プログラムを格納したコンピュータ読み取り可能な記録媒体。