JP2007248730A - 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 - Google Patents

音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 Download PDF

Info

Publication number
JP2007248730A
JP2007248730A JP2006070961A JP2006070961A JP2007248730A JP 2007248730 A JP2007248730 A JP 2007248730A JP 2006070961 A JP2006070961 A JP 2006070961A JP 2006070961 A JP2006070961 A JP 2006070961A JP 2007248730 A JP2007248730 A JP 2007248730A
Authority
JP
Japan
Prior art keywords
acoustic model
utterance
unit
sequence
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006070961A
Other languages
English (en)
Other versions
JP4594885B2 (ja
Inventor
Yuichi Nakazawa
裕一 中澤
Satoru Kobashigawa
哲 小橋川
Atsunori Ogawa
厚徳 小川
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006070961A priority Critical patent/JP4594885B2/ja
Publication of JP2007248730A publication Critical patent/JP2007248730A/ja
Application granted granted Critical
Publication of JP4594885B2 publication Critical patent/JP4594885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築する。
【解決手段】信頼度付与部150が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部160が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部170が、発話選択部160が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。
【選択図】図2

Description

本発明は、音響モデルの適応を行う技術に関し、特に、音声認識結果の信頼度を利用して音響モデルの教師なし適応を行う技術に関する。
一般に、音声認識では、音声ファイルと音声ファイルの発話内容を表す正解テキストとを学習データとして音響モデルの適応を行う。なお「音響モデルの適応」とは、学習処理により、学習データ中の事例ができるだけ多く成り立つように、音響モデルのパラメータを最適化する処理を意味する。また、この音響モデルの適応は、音声ファイルに対応する読みを人間が書き起こすこと等によって作成される正解テキストを学習データとして用いる教師あり適応と、音声認識結果等を正解テキストとした学習データとして用いる教師なし適応とに大別される。
ここで、教師なし適応によって音響モデルの適応を行う場合、認識精度の高い音声認識結果を正解テキストとして用いる必要がある。認識精度の低い音声認識結果を正解テキストとして用いた場合、音響モデルの誤った適応によって、音響モデルの精度を低下させてしまう可能性があるからである。
このような問題に対し、音声認識結果に信頼度を付与し、信頼度の高さに応じて音声認識結果を選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が考えられる。これにより、認識精度の低い音声認識結果が正解テキストとして用いられ、音響モデルの精度が低下してしまうことを回避できる。
例えば、非特許文献1では、音声認識結果に対し、音素事後確率に基づいた信頼度を付与し、閾値以上の信頼度が付与された音声認識結果を用いて音響モデルの適応を行う手法が開示されている。この手法では、0から1の範囲で閾値を設定し、異なる値を闘値とした複数のデータ選択モデルを用意して、音響モデルの適応・評価を行っている。
緒方淳,有木康雄,「音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化」,信学技報NLC2001‐70,pp.19‐24
しかし、非特許文献1のような既存の技術では、どの値を闘値として設定し、音響モデルの適応に用いる音声認識結果を選択するのがよいかを判断することが非常に困難であった。
本発明はこのような点に鑑みてなされたものであり、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築できる技術を提供することを目的とする。
本発明では上記課題を解決するために、信頼度付与部が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部が、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。なお、「発話系列」とは、音声認識結果の単語系列(読みの単語系列)を所定の基準に従って区分して得られる各系列を意味する。また、「発話系列」は1以上の単語からなる。また、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値(例えば、認識率をα%と推定した場合のα)のみならず、認識率が属する範囲を推定した値(例えば、認識率がα%以上であると推定した場合のαや、認識率がα%以上β%未満であると推定した場合のα及びβ等)をも含む概念である。
ここで、本発明では、音響モデルの認識率を基準として発話系列の信頼度を評価し、音響モデルの適応に用いる発話系列を選択する。これにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。また、音響モデルの適応に用いる発話系列の選択は、音響モデルの認識率を基準に行われるため、従来のように適切な閾値を設定するための試行錯誤も必要もない。
また、本発明において好ましくは、発話選択部は、音響モデルの認識率以上の値に設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。
このように発話系列を選択することにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。
また、本発明において好ましくは、適応データ入力部に、教師あり正解テキストが入力され、音響モデル適応部は、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、音響モデルの適応を行う。なお、「教師あり正解テキスト」とは、音声ファイルに対応する読みを人間が書き起こすことによって作成又は訂正された正解テキストを意味する。ここで好ましくは、正解テキスト選択部が、発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択し、正解テキスト出力部が、選択された教師あり正解テキストを出力する。また好ましくは、適応データ入力部に入力される教師あり正解テキストは、正解テキスト出力部から出力された教師あり正解テキストである。このように信頼度が低い発話系列を、教師あり正解テキストに置き換えてモデル適応を行うことにより、教師なし適応の長所を維持しつつ、音響モデルの精度をさらに向上させることができる。
さらに好ましくは、正解テキスト選択部は、発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する。これにより、信頼度が極端に低く、データ自体に問題がある可能性がある音声ファイルが音響モデルの適応に用いられ、音響モデルの精度に悪影響を与えてしまうことを防止できる。
以上説明した通り、本発明では、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築することが可能となる。
以下、本発明を実施するための最良の形態を図面を参照して説明する。
〔第1の実施の形態〕
<ハードウェア構成>
図1は、第1の実施の形態における音響モデル適応装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の音響モデル適応装置1は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部12は、データが入力される入力ポート、キーボード、マウス等であり、出力部13は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の処理を実行するためのプログラムを格納したプログラム領域14a及びタグ出力情報等の各種データが格納されるデータ領域14bを有している。また、RAM16は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域16a及び各種データが書き込まれるデータ領域16bを有している。また、この例のバス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を、データのやり取りが可能なように接続する。
<ハードウェアとソフトウェアとの協働>
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されているプログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2は、このようにCPU11にプログラムが読み込まれることにより構成される音響モデル適応装置1のブロック図の例示である。なお、図2における矢印はデータの流れを示すが、制御部190に入出力されるデータの流れの記載は省略してある。
図2に示すように、本形態の音響モデル適応装置1は、メモリ110、音声認識結果入力部130、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170、一時メモリ180及び制御部190を有している。ここで、メモリ110は、各種データを格納する格納部111〜119を有している。また、信頼度付与部150は、特徴量ベクトル生成部151及び特徴量ベクトル評価部152を有している。なお、メモリ110及び一時メモリ180は、例えば、図1に記載したレジスタ11c、補助記憶装置14、RAM16、或いはこれらの少なくとも一部を結合した記憶領域に相当する。また、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170及び制御部190は、例えば、図1に記載したCPU11にプログラムが読み込まれることにより構成されるものである。さらに、音声認識結果入力部130は、例えば、プログラムが読み込まれたCPU11の制御のもと動作する入力部12である。また、音響モデル適応装置1は、制御部190の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ180に読み書きされる。
<処理>
次に、本形態の音響モデル適応装置1の処理について説明する。
図3は、第1の実施の形態における音響モデル適応装置1の処理を説明するためのフローチャートである。また、図4は、図3におけるステップS3の処理の詳細を説明するためのフローチャートである。以下、これらの図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116(「認識率格納部」に相当)に当該音響モデルの認識率を、それぞれ格納しておく。なお、識別モデルとは、音声認識結果から得られた特徴量を用い、認識率の推定値(信頼度)を求めるためのモデルを意味する(詳細は後述)。また、音響モデルは、音声の統計的な性質を表現するモデルであり、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等を例示できる。また、音響モデルの認識率は、音響モデルを用いて実際の評価用データの音声認識を行い、その認識率を算出したものである。
[音響モデル適応処理]
以上のような前処理を前提に音響モデル適応処理が実行される。
まず、図示していない音声認識部が、メモリ110の格納部119に格納された音響モデルを用い、格納部118に格納された音声ファイルの音声認識を行う。この音声認識結果は、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられて、メモリ110の格納部111に格納される(ステップS1)。なお、この音声認識結果は、音声認識により得られた読みの単語系列と、音声認識により各単語に付与される付加情報(例えば、各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長等)とを含む。
次に、情報変換部140が、メモリ110の格納部111から音声認識結果を読み込み、ある一定の基準に基づいて当該音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ110の格納部112に格納する(ステップS2)。なお、「発話系列」の定義は前述の通りである。単語系列を区切るための基準の例としては、単語間の無音区間の長さや単語の品詞情報などを例示できる。また、発話系列の具体例を示すと以下のようになる。
『その辺ではかなり収益も上がるんじゃないかなと思います。』
『なるほどね。』
『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
『んー』
次に、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出する。算出された各信頼度は、対応する発話系列に関連付けられて、メモリ110の格納部115に格納される(ステップS3)。なお、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値(例えば、認識率をα%と推定した場合のα)のみならず、認識率が属する範囲を推定した値(例えば、認識率がα%以上であると推定した場合のαや、認識率がα%以上β%未満であると推定した場合のα及びβ等)をも含む概念である。この処理の詳細については後述する。
次に、発話選択部160が、メモリ110の格納部115から発話系列毎の信頼度を読み込み、格納部116から音響モデルの認識率を読み込む。そして、発話選択部160は、これらを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部117に格納する(ステップS4)。好ましくは、発話選択部160は、音響モデルの認識率に基づき設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。より好ましくは、この基準値は、音響モデルの認識率以上に設定される値である。具体的には、例えば、以下のように発話系列を選択する。
[例1]
基準値を音響モデルの認識率とし、信頼度が音響モデルの認識率以上である発話系列を選択するか、信頼度が音響モデルの認識率を超える発話系列を選択する。
[例2]
音響モデルの認識率に定数を加算又は乗算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例3]
音響モデルの認識率から定数を減算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例4]
音響モデルの認識率を所定の関数に代入した関数値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
次に、音響モデル適応部170が、メモリ110の格納部117から選択情報を読み込み、選択情報を用いて発話選択部160が選択した発話系列を特定する。その後、音響モデル適応部170は、特定した発話系列を格納部112から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部118から読み込む。そして、音響モデル適応部170は、読み込んだ音声ファイルの特徴量と発話系列とを用い、既存の音響モデル適応手法を用い、音響モデルの適応を行う(ステップS5)。この際、発話系列は教師なし正解テキストとして機能する。また、音響モデル適応手法には限定はなく、例えば、バームウェルチ(Baum-Weltch)のアルゴリズム等を用いればよいが、データ量に応じ、最適な音響モデル適応手法を選択することにより、適応精度を向上させることができる。このように適応が行われた音響モデルは、メモリ110の格納部119に格納される。
[ステップS3の処理の詳細]
次に、前述したステップS3の処理の詳細について説明する。
まず、信頼度付与部150の特徴量ベクトル生成部151が、メモリ110の格納部112から1つの発話系列を読み込み、一時メモリ180に格納する(ステップS11)。次に、特徴量ベクトル生成部151が、一時メモリ180から当該発話系列を読み込み、この発話系列に関連付けられている付加情報を格納部111から読み込む。そして、特徴量ベクトル生成部151は、読み込んだ付加情報を用いて発話系列毎の特徴量ベクトルを生成し、これを当該発話系列に関連付けて格納部113に格納する(ステップS12)。なお、特徴量ベクトルの各要素としては、付加情報のうち、特徴量ベクトル評価部152で認識率を推定するために役立つ情報を用いる。例えば、発話系列が具備する各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長の全部または一部を特徴量ベクトルの要素とする。
図5は、このように生成される特徴量ベクトル200の構成を例示した概念図である。
図5の例の特徴量ベクトル200は、品詞情報210、音響尤度スコア220、…、音素継続時間長230から構成される。ここで、品詞情報210は、発話系列に含まれる複数の単語を1つのシンボルで表した特徴量である。図5の例の品詞情報210は、各品詞211−1〜mに対応するm個の要素(0又は1)から構成される。そして、発話系列が含む単語の品詞に対応する要素を1とし、それ以外の品詞に対応する要素を0とする。また、図5の例の音響尤度スコア220、…、音素継続時間長230は、発話系列に含まれる各単語に付与された音響尤度スコア、…、音素継続時間長毎の統計情報(この例では、平均値221,231、分散値222,232、最大値223,233、最小値224,234)を、それぞれ0〜1に正規化した値(S1〜S4,…,S5〜S8)からなる。例えば、37種類(m=37)の品詞を具備する品詞情報、並びに、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長それぞれについての発話系列毎の平均・分散・最大・最小要素によって特徴量ベクトルを構成した場合、その特徴量ベクトルは61{=37+(6×4)}次元となる。なお、特徴量ベクトルは、単語単位の情報を発話系列単位に変換した情報であればよく、図5に例示した構成に限定されるものではない。
次に、特徴量ベクトル評価部152が、メモリ110の格納部113から特徴量ベクトルを読み込み、格納部114から識別モデルを読み込む。そして、特徴量ベクトル評価部152は、特徴量ベクトルと識別モデルとを用いた統計的な評価を行い、特徴量ベクトルに対応する発話系列の信頼度(認識率の推定値)を算出する。算出された信頼度は、対応する発話系列に関連付けられてメモリ110の格納部115に格納される(ステップS13)。以下に、ステップS13の処理の詳細を例示する。
[ステップS13の処理の詳細]
まず、識別モデルについて説明する。本形態の識別モデルは、特徴量ベクトルを用い、対応する発話系列の信頼度を求めるためのモデルである。すなわち、特徴量ベクトルの各要素を識別モデルに代入することにより、対応する発話系列の信頼度を特定するための情報を算出することができる。このような識別モデルは、学習データ(特徴量ベクトルと発話系列の信頼度を特定するための情報とを具備)を用いて生成される。すなわち、学習によって、学習データ中のより多くの事例が成り立つようにモデルパラメータを設定し、識別モデルを構成する。このような識別モデルとしては、SVM(サポートベクターマシーン)やブーステイングといった機械学習に基づくもの、最尤推定法や最大エントロピー法といった確率モデルに基づくもの、ニューラルネットワークに基づくもの等を例示できる。
通常、特徴量ベクトルの次元数が非常に大きい場合、統計的な識別モデルの学習には大量の学習データが必要となり、学習データが少ないと過学習の問題が発生することが多い。これに対し、SVMは「マージン最大化」という基準から自動的に識別平面付近の少数の学習サンプルのみを選択して識別面を構成するため、少数の学習データでも比較的良い識別性能が得られる。この理由から、SVMは、本発明に適している。
SVMに基づく識別モデルは、入力された特徴量ベクトルに対する認識率が閾値(n%)以上であるか否か、の2クラスのパターン認識を行うモデルである。このような識別モデルは、予め、学習データ(クラスの帰属が既知の特徴量ベクトル)を用意し、これらから特徴ベクトルとクラスとの確率的な対応関係を学習することによって生成される。また、SVMに基づく識別モデルが推定できるのは、特徴量ベクトルに対する認識率が閾値(n%)以上であるか否かのみである。そのため、このような識別モデルは、0≦n≦100の範囲で必要とされる密度で作成する。例えば、認識率の推定値がどの範囲に属するのかを10%間隔の精度で必要とする場合(例えば、認識率の推定値が70〜80%である等)は、11個の識別モデル(n=0,10,…,100)を作成する必要がある。一方、認識率の推定値がn%以上であるか否かの情報のみでよい場合(例えば、認識率の推定値が70%以上であるか否か等)は、1個の識別モデル(n=70)のみを作成すればよい([ステップS13の処理の詳細]の説明終わり)。
次に、制御部190は、メモリ110の格納部112,115に格納された発話系列及び信頼度を参照し、全ての発話系列の信頼度が算出済みであるか否かを判断する(ステップS14)。ここで、全ての発話系列の信頼度が算出済みでなかった場合、制御部190は、処理をステップS11に戻す。一方、全ての発話系列の信頼度が算出済みであった場合、制御部190は、ステップS3の処理を終了する([ステップS3の処理の詳細]の説明終わり)。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
第2の実施の形態は、第1の実施の形態の変形例であり、信頼度が低い発話系列に対しては、教師あり正解テキストを用いて音響モデル適応を行う形態である。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
<構成>
図6は、第1の実施の形態と同様な公知のコンピュータに所定のプログラムが読み込まれることにより構成される音響モデル適応装置301のブロック図の例示である。なお、図6における矢印はデータの流れを示すが、制御部190に入出力されるデータの流れの記載は省略してある。また、図6において図2と共通する部分については、図2と同じ符号を付し、説明を簡略化する。
図6に示すように、本形態の音響モデル適応装置301は、メモリ110、音声認識結果入力部130、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170、一時メモリ180、制御部190、正解テキスト選択部330、正解テキスト出力部340及び適応データ入力部350を有している。ここで、メモリ110は、各種データを格納する格納部111〜119の他、格納部311,312を有している。また、正解テキスト選択部330は、図1のCPU11にプログラムが読み込まれることにより構成されるものである。また、正解テキスト出力部340及び適応データ入力部350は、例えば、図1のCPU11にプログラムが読み込まれることにより構成されるもの、或いは、プログラムが読み込まれたCPU11の制御のもと動作する出力部13及び入力部12である。また、音響モデル適応装置301は、制御部190の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ180に読み書きされる。
<処理>
次に、本形態の音響モデル適応装置301の処理について説明する。
図7は、第2の実施の形態における音響モデル適応装置301の処理を説明するためのフローチャートである。以下、この図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116に当該音響モデルの認識率を格納しておく。また、格納部311に、格納部118に格納された音声ファイルに対応する教師あり正解テキストの集合である教師あり正解テキストファイルを格納しておく。
[音響モデル適応処理]
以上のような前処理を前提に音響モデル適応処理が実行される。
ステップS21〜S24は、第1の実施の形態のステップ1〜S4と同じである。すなわち、まず、音声認識結果が、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられ、メモリ110の格納部111に格納される(ステップS21)。次に、情報変換部140が、ある一定の基準に基づいて音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ110の格納部112に格納する(ステップS22)。そして、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出し、算出された各信頼度を、対応する発話系列に関連付けて、メモリ110の格納部115に格納する(ステップS23)。次に、発話選択部160が、発話系列毎の信頼度と音響モデルの認識率とを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部117に格納する(ステップS24)。
次に、正解テキスト選択部330が、メモリ110の格納部117から各選択情報を読み込み、格納部115から各信頼度を読み込む。そして、正解テキスト選択部330は、発話選択部160が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを、格納部311の教師あり正解テキストファイルから選択する(ステップS25)。なお、「信頼度が所定の基準を満たすだけ良好な発話系列」は、例えば以下のように選択される。
[例1]
発話選択部160が選択しなかった発話系列を信頼度が高い順序で並び替え、信頼度が高い方から順番に所定個の発話系列を選択する。
[例2]
発話選択部160が用いた基準値よりも値が小さな値を閾値とし、この閾値よりも大きな信頼度を有する発話系列を選択する。
選択された教師あり正解テキストは、正解テキスト出力部340から出力され、メモリ110の格納部312に格納される。次に、格納部312に格納された教師あり正解テキストが、適応データ入力部350に入力され、音響モデル適応部170に送られる。音響モデル適応部170は、送られた教師あり正解テキストに対応する音声ファイルを格納部118から読み込む。
さらに、音響モデル適応部170は、メモリ110の格納部117から選択情報を読み込み、選択情報を用いて発話選択部160が選択した発話系列を特定し、特定した発話系列を格納部112から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部118から読み込む。そして、音響モデル適応部170は、読み込んだ音声ファイルの特徴量と発話系列と教師あり正解テキストとを用い(すなわち、発話選択部160が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部350に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い)音響モデルの適応を行う(ステップS26)。このように適応が行われた音響モデルは、メモリ110の格納部119に格納される。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施の形態では、1つのコンピュータにプログラムを読み込ませて音響モデル適応装置を構成することとしたが、音響モデル装置の各機能を複数のコンピュータやCPUに分散させて構成してもよい。例えば、第2の実施の形態における正解テキスト選択部330を、別のコンピュータ(別装置)によって実現してもよいし、複数のコンピュータによってそれぞれ構成される複数の正解テキスト選択部330を用いてもよい。なお、別装置で選択された教師あり正解テキストは、適応データ入力部350(この場合、プログラムが読み込まれたCPU11の制御のもと動作する入力部12に相当)から入力される。
また、上述の各実施の形態では、格納部118に音声ファイルを格納しておき、音響モデル適応部170が、音響ファイルから特徴量と抽出し、音響モデルの適応を行うこととした。しかし、格納部118に特徴量自体を格納しておき、音響モデル適応部170が、格納部118から読み込んだ特徴量を直接利用する構成であってもよい。
また、上述の第2の実施の形態では、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択することとした。しかし、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを任意に選択する構成であってもよい。さらには、発話選択部160の選択内容にかかわらず、正解テキスト選択部330が、任意に教師あり正解テキストを選択する構成であってもよい。
また、上述の各実施の形態のように適応が行われた音響モデルを用いて音声認識を行い、その音声認識結果を再び音声認識結果入力部130への入力とし、同様な処理を繰り返すこととしてもよい。これにより、高精度のモデル適応が可能となる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、各形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の産業上の利用分野としては、例えば、コンピュータと人間とが音声対話によってコミュニケーションを行う音声対話システムを例示できる。このような音声対話システムでは、コンピュータが人間と対話を行いながら音声を収集・選択・学習し、逐次自律適応を行う。本発明では、少量の適応データ即ち短い適応時間で、容易かつ効率的に高精度な音響モデルが構築できるため、容易に高精度な音声対話システムを構成できる。
図1は、第1の実施の形態における音響モデル適応装置のハードウェア構成を例示したブロック図である。 図2は、第1の実施の形態における音響モデル適応装置のブロック図の例示である。 図3は、第1の実施の形態における音響モデル適応装置の処理を説明するためのフローチャートである。 図4は、図3におけるステップS3の処理の詳細を説明するためのフローチャートである。 図5は、特徴量ベクトルの構成を例示した概念図である。 図6は、第2の実施の形態における音響モデル適応装置のブロック図の例示である。 図7は、第2の実施の形態における音響モデル適応装置の処理を説明するためのフローチャートである。
符号の説明
1,301 音響モデル適応装置

Claims (9)

  1. 音響モデルの適応を行う音響モデル適応装置であって、
    上記音響モデルの認識率を格納する認識率格納部と、
    上記音響モデルを用いた音声認識結果が入力される音声認識結果入力部と、
    上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する信頼度付与部と、
    上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する発話選択部と、
    上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う音響モデル適応部と、
    を有することを特徴とする音響モデル適応装置。
  2. 請求項1に記載の音響モデル適応装置であって、
    上記発話選択部は、
    上記音響モデルの認識率以上の値に設定される基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する、
    ことを特徴とする音響モデル適応装置。
  3. 請求項1に記載の音響モデル適応装置であって、
    教師あり正解テキストが入力される適応データ入力部をさらに有し、
    上記音響モデル適応部は、
    上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う、
    ことを特徴とする音響モデル適応装置。
  4. 請求項3に記載の音響モデル適応装置であって、
    上記発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択する正解テキスト選択部と、
    上記教師あり正解テキストを出力する正解テキスト出力部と、
    を有することを特徴とする音響モデル適応装置。
  5. 請求項4に記載の音響モデル適応装置であって、
    上記正解テキスト選択部は、
    上記発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する、
    ことを特徴とする音響モデル適応装置。
  6. 請求項4に記載の音響モデル適応装置であって、
    上記適応データ入力部に入力される教師あり正解テキストは、
    上記正解テキスト出力部から出力された教師あり正解テキストである、
    ことを特徴とする音響モデル適応装置。
  7. 音響モデルの適応を行う音響モデル適応方法であって、
    上記音響モデルを用いた音声認識結果が音声認識結果入力部に入力される過程と、
    信頼度付与部が、上記音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出する過程と、
    発話選択部が、上記音響モデルの認識率と上記発話系列毎の信頼度とを用い、上記音響モデルの適応に用いる発話系列を選択する過程と、
    音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、上記音響モデルの適応を行う過程と、
    を有することを特徴とする音響モデル適応方法。
  8. 請求項1から6のいずれかに記載の音響モデル適応装置としてコンピュータを機能させるための音響モデル適応プログラム。
  9. 請求項8に記載の音響モデル適応プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2006070961A 2006-03-15 2006-03-15 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 Active JP4594885B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006070961A JP4594885B2 (ja) 2006-03-15 2006-03-15 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006070961A JP4594885B2 (ja) 2006-03-15 2006-03-15 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2007248730A true JP2007248730A (ja) 2007-09-27
JP4594885B2 JP4594885B2 (ja) 2010-12-08

Family

ID=38593111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006070961A Active JP4594885B2 (ja) 2006-03-15 2006-03-15 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4594885B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098970A (ja) * 2007-10-17 2009-05-07 Fuji Heavy Ind Ltd 安全運転支援システム
WO2010050414A1 (ja) * 2008-10-31 2010-05-06 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013160930A (ja) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
WO2016092807A1 (ja) * 2014-12-11 2016-06-16 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP2017045027A (ja) * 2015-08-24 2017-03-02 日本放送協会 音声言語コーパス生成装置およびそのプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
JP2003162293A (ja) * 2001-09-14 2003-06-06 Fujitsu Ltd 音声認識装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
JP2003162293A (ja) * 2001-09-14 2003-06-06 Fujitsu Ltd 音声認識装置及び方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098970A (ja) * 2007-10-17 2009-05-07 Fuji Heavy Ind Ltd 安全運転支援システム
WO2010050414A1 (ja) * 2008-10-31 2010-05-06 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
JP5376341B2 (ja) * 2008-10-31 2013-12-25 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013160930A (ja) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
WO2016092807A1 (ja) * 2014-12-11 2016-06-16 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
JPWO2016092807A1 (ja) * 2014-12-11 2017-08-31 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP2017045027A (ja) * 2015-08-24 2017-03-02 日本放送協会 音声言語コーパス生成装置およびそのプログラム

Also Published As

Publication number Publication date
JP4594885B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
US7949532B2 (en) Conversation controller
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
US8069042B2 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
WO2019156101A1 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
CN112668317A (zh) 用于确定输出词法单元的方法和设备
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2018004947A (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP2018147288A (ja) 対話破壊特徴量抽出装置、対話破壊モデル学習装置、対話破壊力推定装置、対話破壊特徴量抽出方法、プログラム
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
JP4897737B2 (ja) 単語追加装置、単語追加方法、そのプログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2019204117A (ja) 対話破壊特徴量抽出装置、対話破壊特徴量抽出方法、プログラム
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4594885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350