JP3841342B2

JP3841342B2 - 音声認識装置および音声認識プログラム

Info

Publication number: JP3841342B2
Application number: JP2002071638A
Authority: JP
Inventors: 寛之世木; 庄衛佐藤; 和穂尾上
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2006-11-01
Anticipated expiration: 2022-03-15
Also published as: JP2003271179A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識の対象となる音声を発声する話者に適応させて音声認識する音声認識装置および音声認識プログラムに関する。
【０００２】
【従来の技術】
従来、音声を発する話者の口調（話し方の癖）、よく使用する語彙等に適応させて音声認識する、いわゆる話者適応化による音声認識を行う方法として、例えば、次に記すようなものがある。
【０００３】
ＭＡＰ推定法を利用する方法（「音声言語処理」、北研二他、６５−６８）であり、この方法は音声認識の話者適応を行う際にＭＡＰ推定法（最大事後確率推定法）を適用するものである。この方法では、不特定話者の音響モデルのパラメータを適応化したい話者（特定話者）の発声（発声データ）で推定したパラメータに近づける方法である。この方法を使用することにより、不特定話者の音響モデルを特定話者の音響モデルに適応化することができる。
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の「ＭＡＰ推定法を利用する方法」では、適応化したい話者（特定話者）毎に特定話者の音響モデルを準備する必要があり、特定話者が複数の場合に、特定話者数の増加に伴って、不特定話者の音響モデルから適応化する特定話者の音響モデルの数が増加する。このため、この特定話者の音響モデルを記憶させるハードディスク等の記憶媒体の容量を大量に確保しなければならないという問題がある。
【０００５】
また、この特定話者毎の発声データを使用する場合には、予め、特定話者が誰であるのか特定話者を判別しなければならず、話者の判別を間違う可能性があり、その結果、音声認識率が低下するという問題がある。
【０００６】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、特定話者の音響モデル等を記憶させる大容量の記憶媒体を必要とすることなく、特定話者毎の発声データを使用する際に特定話者を判別することなく話者適応化による音声認識を行うことができる音声認識装置および音声認識プログラムを提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項１に記載の音声認識装置は、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、を備えることを特徴とする。
【００１２】
かかる構成によれば、音声認識装置は、統計分布特定手段によって、適応化したい話者が発した音声を予め音声認識結果した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、音響モデルの複数の正規分布の中から特定する。この場合、話者が発する音声は話者の意志により、自由に発声されたものである。そして、音声認識装置は、音声認識手段によって、特定された正規分布に基づいて認識対象音声を認識する。
【００１３】
請求項２に記載の音声認識装置は、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、を備えることを特徴とする。
【００１４】
かかる構成によれば、音声認識装置は、統計分布特定手段によって、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、音響モデルの複数の正規分布の中から特定する。そして、音声認識装置は、音声認識手段によって、特定された正規分布に基づいて認識対象音声を認識する。
【００１５】
請求項３に記載の音声認識プログラムは、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、である。
【００１６】
かかる構成によれば、音声認識プログラムは、統計分布特定手段によって、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、音響モデルの複数の正規分布の中から特定する。この場合、話者が発する音声は話者の意志により、自由に発声されたものである。そして、音声認識プログラムは、音声認識手段によって、特定された正規分布に基づいて認識対象音声を認識する。
【００１７】
請求項４に記載の音声認識プログラムは、音声認識の対象となる音声信号の各音素の各要素が複数の統計分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、である。
【００１８】
かかる構成によれば、音声認識プログラムは、統計分布特定手段によって、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、音響モデルの複数の正規分布の中から特定する。そして、音声認識プログラムは、音声認識手段によって、特定された正規分布に基づいて認識対象音声を認識する。
【００１９】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
この実施の形態の説明では、まず音声認識装置の構成を説明し、ついでこの音声認識装置の動作を説明する。そして、音声認識時の波形データと音響スコアとに関して補足的に説明する。
【００２０】
（音声認識装置の構成）
図１は音声認識装置のブロック図である。この図１に示すように、音声認識装置１は、主制御部３と、記憶部５と、テキスト入力部７と、音声入力部９と、表示出力部１１とを備えている。
音声認識装置１は、予め、話者が発した音声の音声認識結果に基づいて、音響モデルの正規分布の中から、出力確率の値が高かった正規分布のインデックスを記録しておき、その後、記録しておいた正規分布のインデックスを利用して当該話者が発した音声を認識するものである。なお、この実施の形態では、音声認識装置１は一般的なパーソナルコンピュータによって構成されている。
【００２１】
主制御部３は、ＣＰＵ、メインメモリ等から構成され、音声認識装置１の制御を司るもので、話者適応化手段３ａと、音声認識手段３ｂと、単語列出力手段３ｃとを備えている。
話者適応化手段３ａは、音声入力部９から入力される生の音声データ（発声データ）または生の音声データから抽出された音声特徴量に基づいて、記憶部５に記憶されている音響モデルデータ５ａ、言語モデルデータ５ｂおよび発音辞書５ｃを使用して音声認識を行い、利用音響モデル正規分布インデックス５ａ１を生成するものである。
【００２２】
つまり、この話者適応化手段３ａでは、音声認識対象となる音声を発する話者（適応化したい話者）に応じた音響モデルの正規分布インデックスが生成され、この利用音響モデル正規分布インデックス５ａ１は、入力された生の音声データまたは音声特徴量において出力確率が高かった正規分布を記録したものである。
【００２３】
また、この話者適応化手段３ａは、発声内容が既知の場合（例えば、予めテキストデータ化されている場合）には、この発声内容と、音声入力部９から入力される生の音声データ（発声データ）または生の音声データから抽出された音声特徴量とを対応付けした対応結果に基づいて、出力確率が高いものについて、利用音響モデル正規分布インデックス５ａ１を生成するものである。なお、この話者適応化手段３ａが請求項に記載した統計分布特定手段に相当するものである。
【００２４】
音声認識手段３ｂは、話者適応化手段３ａで生成された利用音響モデル正規分布インデックス５ａ１を利用して、音声入力部９から入力された音声認識する対象となる認識対象音声の音響スコア、言語スコア（言語モデルデータ５ｂを利用）を算出するものである。なお、音響スコアとは、音声入力部９から入力された認識対象音声の波形パターンの比較結果に基づいた隠れマルコフモデルにおける音響モデルから計算された数値である。言語スコアとは、単語間のつながりを算出した言語モデルの数値である。これら音響スコアおよび言語スコアのより高いものが音声認識結果となる。
【００２５】
単語列出力手段３ｃは、音声認識手段３ｂで算出された音響モデルのスコアおよび言語モデルのスコアに基づいて、音声認識結果である出力単語列を送出するものである。
記憶部５は、大容量のハードディスク等によって構成され、音響モデルデータ５ａと、言語モデルデータ５ｂと、発音辞書５ｃと、適応化音声データ５ｄと、認識音声データ５ｅと、テキストデータ５ｆとを記憶するものである。
【００２６】
音響モデルデータ５ａは、複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルのデータを集めたものである。言語モデルデータ５ｂはｎ−ｇｒａｍで表されるような統計分布である。発音辞書５ｃは単語に対して、この単語の読みが記されているものである。適応化音声データ５ｄは、音声入力部９から入力された適応化したい話者の発した音声データである。認識音声データ５ｅは、音声入力部９から入力された音声認識の対象となる音声データである。テキストデータ５ｆは、適応化音声データ５ｄから入力される音声データの発声内容が既知の場合に、テキスト入力部７から入力された当該発声内容のテキストデータである。なお、音響モデルデータ５ａが請求項に記載した音響モデルに、言語モデルデータ５ｂが請求項に記載した言語モデルに相当するものである。
【００２７】
これらのうち、適応化音声データ５ｄ、認識音声データ５ｅ、テキストデータ５ｆは、厳密には記憶部５における記憶領域を指し示すもので、適応時、つまり適応化したい話者が音声を発するまで適応化音声データ５ｄ或いはテキストデータ５ｆには、何も記憶されておらず、また、認識時、つまり適応化した話者が認識対象音声を発するまでは認識音声データ５ｅには何も記憶されていない。ただし、リアルタイムの音声認識の場合には、認識音声データ５ｅの記憶領域にはデータが記憶される必要はない。
【００２８】
テキスト入力部７は、キーボード、マウス等によって構成され、記憶部５の適応化音声データ５ｄに記憶させる音声データの発声内容が既知の場合に発声内容のテキストデータとして入力するものであり、当該音声認識装置１の操作に供されるのものである。
【００２９】
音声入力部９は、スピーカ等によって構成され、適応化したい話者が発した音声（音声データ）および音声認識時に話者が発した音声を入力するものである。
表示出力部１１は、ディスプレイ等によって構成され、主制御部３の単語列出力手段３ｃで生成される音声認識結果である出力単語列を表示するものである。
【００３０】
（音声認識装置の動作）
次に、図２を参照して、音声認識装置１の動作を説明する。この音声認識装置１の動作では、話者適応時と音声認識時とを一連の動作として説明している。
まず、記憶部５のテキストデータ５ｆに適応化したい話者が発する音声のテキストデータが記憶されているかどうかが判断される（Ｓ１）。テキストデータが記憶されていると判断されない場合（Ｓ１、Ｎｏ）、この音声認識装置１における動作は、適応化したい話者の発した発声内容が不明の場合の動作に該当する（後記するＳ２〜Ｓ６）。また、テキストデータが記憶されていると判断された場合（Ｓ１、Ｙｅｓ）、適応化したい話者の発した発声内容が既知の場合の動作に該当する（後記するＳ７、Ｓ３〜Ｓ６）。
【００３１】
発声内容が不明の場合の適応時の動作として、適応化したい話者の音声（音声データ）が音声入力部９から入力され、記憶部５の適応化音声データ５ｄに記憶される（Ｓ２）。そして、入力された適応化したい話者の音声（音声データ）は音響モデルデータ５ａ、言語モデルデータ５ｂ、発音辞書５ｃが利用され、音声認識される。音声認識された音声認識結果（適応時の音声認識結果）に基づいて、主制御部３の話者適応化手段３ａで記憶部５に記憶されている音響モデル正規分布データ５ａから利用音響モデル正規分布インデックス５ａ１が生成される（Ｓ３）。なお、この適応時の動作において入力された音声（音声データ）が極端に少ない場合には、認識時の動作において、音響モデルデータ５ａがそのまま利用される。
【００３２】
次に、認識時の動作として、適応化した話者が発した認識対象音声（認識対象音声データ）が音声入力部９から入力され、記憶部５の認識音声データ５ｅに記憶される（Ｓ４）。そして、主制御部３の音声認識手段３ｂで利用音響モデル正規分布インデックス５ａ１、音響モデルデータ５ａ、言語モデルデータ５ｂおよび発音辞書５ｃが利用され、これらに基づいて認識対象音声の音響スコアおよび言語スコアが算出される。これらの音響スコアおよび言語スコアの最も高いもの（音声認識結果となる）が単語列出力手段３ｃに出力される（Ｓ５）。そして、単語列出力手段３ｃで音声認識結果である出力単語列が表示出力部１１を送出される（Ｓ６）。
【００３３】
この音声認識装置１の動作によれば、話者適応化手段３ａで、適応化したい話者が発した音声の適応時音声認識結果に基づいて、音響モデルデータ５ａの複数の正規分布の中から出力確率の高い利用音響モデル正規分布インデックス５ａ１が記憶部５に記憶される。そして、音声認識手段３ｂで、この利用音響モデル正規分布インデックス５ａ１、音響モデルデータ５ａ、言語モデルデータ５ｂおよび発音辞書５ｃが利用されて音声入力部９から入力される認識対象音声が認識される。
【００３４】
このため、適応化したい話者毎に音響モデルデータ５ａの中から利用音響モデル正規分布インデックス５ａ１が生成されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶部５の記憶容量を抑えることができる。
【００３５】
また、通常の適応化の際において、話者が複数である場合、話者の発声は話者毎にまとめておく必要がある。しかしながら、この音声認識装置１では、複数の話者により発声された文章をまとめて適応化データとして扱い、利用音響モデル正規分布インデックス５ａ１を作成でき、さらに音声認識時も話者の判定をすることなく、利用音響モデル正規分布インデックス５ａ１を利用して、音声認識することができる。
【００３６】
さて、ここで記憶部５のテキストデータ５ｆに適応化した話者が発する音声のテキストデータが記憶されていると判断された場合（Ｓ１、ＹＥＳ）、つまり、適応化したい話者の発した発声内容が既知の場合の動作について説明する。
【００３７】
適応時の動作として、適応化したい話者の発した音声データ（音声の波形データ）が音声入力部９から入力され、記憶部５の適応化音声データ５ｄに記憶される（Ｓ７）。そして記憶された適応化音声データ５ｄと発声内容（テキストデータ５ｆ）とが話者適応化手段３ａにより対応付けられた対応結果が得られる。この対応結果に基づいて、主制御部３の話者適応化手段３ａで記憶部５に記憶されている音響モデルデータ５ａから利用音響モデル正規分布インデックス５ａ１が生成される（Ｓ８）。その後、認識時の動作Ｓ４〜Ｓ６が実行される。
【００３８】
この音声認識装置１の動作によれば、話者適応化手段３ａで、適応化したい話者が発した音声の波形データとテキストデータ５ｆとを対応付けした対応結果に基づいて、音響モデルデータ５ａの複数の正規分布の中から出力確率の高いものが利用音響モデル正規分布インデックス５ａ１として記憶部５に記憶される。そして、音声認識手段３ｂで、この利用音響モデル正規分布インデックス５ａ１、音響モデルデータ５ａ、言語モデルデータ５ｂおよび発音辞書５ｃが利用されて音声入力部９から入力される認識対象音声が認識される。
【００３９】
このため、適応化したい話者毎に音響モデルデータ５ａの中から利用音響モデル正規分布インデックス５ａ１が生成されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶部５の記憶容量を抑えることができる。
【００４０】
また、通常の適応化の際において、話者が複数である場合、話者の発声は話者毎にまとめておく必要がある。しかしながら、この音声認識装置１では、複数の話者により発声された文章をまとめて適応化データとして扱い、利用音響モデル正規分布インデックス５ａ１を作成でき、さらに音声認識時も話者の判定をすることなく、利用音響モデル正規分布インデックス５ａ１を利用して、音声認識することができる。
【００４１】
（音声認識時における音声波形と音素スコアの計算とに関して）
次に、図３を参照して音声認識時における音声波形と音素スコアの計算とに関して説明する（適宜、図１参照）。図３は、適応化したい話者が音声認識時に「次」（つぎ）と発した音声波形データ（音声認識時に音声入力部９から入力された音声波形データ）と、適応時に適応化された（優先順位が付された）利用音響モデル正規分布インデックス５ａ１との関係を示したものである。
【００４２】
図３（ａ）は、適応時に適応化したい話者が発した音声の発声内容が不明な場合の関係を示しており、図３（ｂ）は、適応時に適応化したい話者が発した音声の発声内容が既知の場合の関係を示している。つまり、図３（ａ）の場合、音声認識時に入力された音声波形データと比較されるものは、適応時に音声認識した結果（適応時音声認識結果）の音素列を成す各音素の音響的特徴パターンであり、図３（ｂ）の場合、音声認識時に入力された音声波形データと比較されるものは、予め与えられた音素列（若しくは単語列）を成す各音素の音響的特徴パターンである。
【００４３】
すなわち、適応時において、これらの音素列にどの音響的特徴パターンが使用されたかが利用音響モデル正規分布インデックス５ａ１（図中▲１▼▲２▼▲３▼▲４▼・・・▲８▼）に記憶されており、音声認識時において、音響的特徴パターンが音声波形データの各音素に該当するところと比較され、音声認識される。
【００４４】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
音声認識装置１の各構成を一つずつの処理（ステップ）とみなした音声認識方法と捉えることもでき、この場合、音声認識装置１と同様の効果が得られる。また、音声認識装置１の各構成の処理を汎用的なコンピュータ言語で記述した音声認識プログラムと捉えることもでき、この場合も、音声認識装置１と同様の効果が得られる。
【００４５】
請求項１、３に記載の発明によれば、統計分布特定手段で、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布が、音響モデルの複数の正規分布の中から特定され、音声認識手段で、音声認識されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶媒体の記憶容量を抑えることができる。
【００４６】
請求項２、４に記載の発明によれば、統計分布特定手段で、適応化したい話者が発した音声とテキストデータとを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率が高かった正規分布が、音響モデルの複数の正規分布の中から特定され、音声認識手段で、音声認識されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶媒体の記憶容量を抑えることができる。
【図面の簡単な説明】
【図１】本発明による一実施の形態を示す音声認識装置のブロック図である。
【図２】図１に示した音声認識装置の動作である。
【図３】音声認識時における音声波形と音素スコアの計算とを説明した説明図である。
【符号の説明】
１音声認識装置
３主制御部
３ａ話者適応化手段（統計分布特定手段）
３ｂ音声認識手段
３ｃ単語列出力手段
５記憶部
５ａ音響モデルデータ
５ｂ言語モデルデータ
５ｃ発音辞書
７テキスト入力部
９音声入力部
１１表示出力部

Claims

音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、
適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、
前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、
予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、
前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、
適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、
前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、
として機能させることを特徴とする音声認識プログラム。
音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、
予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、
前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、
として機能させることを特徴とする音声認識プログラム。