JP3871774B2 - 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体 - Google Patents

音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3871774B2
JP3871774B2 JP23303597A JP23303597A JP3871774B2 JP 3871774 B2 JP3871774 B2 JP 3871774B2 JP 23303597 A JP23303597 A JP 23303597A JP 23303597 A JP23303597 A JP 23303597A JP 3871774 B2 JP3871774 B2 JP 3871774B2
Authority
JP
Japan
Prior art keywords
normal distribution
speaker
hidden markov
markov model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23303597A
Other languages
English (en)
Other versions
JPH1173197A (ja
Inventor
誠 庄境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP23303597A priority Critical patent/JP3871774B2/ja
Publication of JPH1173197A publication Critical patent/JPH1173197A/ja
Application granted granted Critical
Publication of JP3871774B2 publication Critical patent/JP3871774B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、話者適応を行って不特定話者の音声認識を行う技術に係わり、より詳細には、不特定話者の音の部品をモデル化した隠れマルコフモデルを、ある特定の話者の音声に適応化させて音声認識を行う装置および方法に関する。
【0002】
【従来の技術】
近年の不特定話者の音声認識技術として、隠れマルコフモデル(HiddenMarkov Model、以下単に「HMM」と記す)を用いたものが多く提案されている。このHMMについては、例えば、中川著「確率モデルによる音声認識(電子情報通信学会出版)」等の文献に詳細に記載されている。
【0003】
多数語彙の不特定話者音声認識システムでは、多数話者の多数音声データを用いて、通常50個乃至100個程度の不特定話者用の音の部品モデル(音素モデル、音節モデル等)を学習させておいて、与えられた音声信号の認識処理を行うものであり、この音の部品モデルは、通常、1以上の状態を有するHMMで表現されることが知られている。
【0004】
今、N(x|μ,Σ)を平均ベクトルμ、共分散行列Σの正規分布とすると、連続HMMによる音の部品モデルの状態iの出力確率分布は、次式(式1)によって表現される。
【0005】
【数2】
Figure 0003871774
【0006】
ここで、wi m は、音の部品モデルの状態iでのm番目の正規分布N(x|μi m ,Σi m )の重みである。Mは、音の部品モデルの状態iでの正規分布数を表す。状態毎に異なる正規分布を有する場合、通常、Mは1〜16程度の値を持つことが多い。
【0007】
ところで、不特定話者音声認識システムは、通常、特定話者音声認識システムに比べて認識性能が低く、また、話者の中には不特定話者音声認識システムでの認識率が他の話者に比べて著しく低い者もいる。そこで、HMMを用いた不特定話者音声認識システムにおける話者適応技術として、不特定話者用の音の部品モデルのパラメータを、ある特定話者の音声サンプリングデータを用い、当該話者に適応化させる処理が音声認識を行ううえで有効であり、このような処理は話者適応と称されている。
【0008】
この話者適応を行う手法として、事後確率値最大化(MAP:Maximuma Posteriori)法(lee et al,IEEE Trans.on ASSP,1991)、ベクトル場平滑化(VFS:Vector Field Smoothing)法(高橋他、音学講論.2−8−19,1994−11)による正規分布の平均ベクトルの適応化、さらには、期待値最大化(EM:Expectation Maximization)法(松岡他、音学講論.1−1−6,1992−3)による正規分布の重みベクトルの適応化等の各種の手法が提案されている。
【0009】
ここでは、計算量が少なくてよく用いられる話者適応手法として、セグメンタルMAP法について説明しておくものとする。この手法では、まず、話者適応に用いる言葉の集合(例えば、10〜20単語)を予め決めておき、その言葉を順次話者に提示して、話者に発声してもらう。その音声は、ある一定の周期毎に特徴パラメータ(例えば、ケプストラム)の系列に変換される。なお、各言葉に対応する音の部品モデル(例えば、言葉を構成する音素モデル)の系列は、言語的な知識を用いて予め準備しておくことが可能である。そこで、各言葉の特徴パラメータの系列と音の部品モデルの系列との対応情報、即ち、音の各部品モデルが対応する特徴パラメータの区間の開始時刻および終了時刻を求めることができる。
【0010】
この処理は、通常、Viterbi Alignment(ビダビアライメント)という公知のアルゴリズムにしたがって実行される。ここで、「セグメンタル」という名称は、Viterbi Alignmentにより、音声の特徴パラメータ系列を音の部品モデルの状態に対応する部分区間(セグメント)に分割することに由来している。
【0011】
図2は従来技術の模式的な説明図であって、A、Sの2つの音素から構成される、今「あさ(ASA)」なる単語の部分区間を求めた様子を示している。「ASA」の夫々の音素は3つの状態からなっていて、具体的には「A」はa1、a2、a3、「S」はs1、s2、s3からなっている。「あさ(ASA)」なる単語を発声するとともに、特徴パラメータの一例であるケプストラムが所定周期で出力される。そして、この特徴パラメータと、音の部品モデルである音素を定義する各状態との対応が時間軸上で定まることになる。図2では一例として、a1に対するセグメント、即ち、a1に対する開始時刻と終了時刻とがViterbi Alignmentにより求まった様子を示しているが、他の各状態に対しても同様に、対応する特徴パラメータの区間の開始時刻および終了時刻が求まる。
【0012】
図2では、例えばa1は2カ所存在する。このように、音の部品モデルは話者適応用の単語の中に1カ所または複数箇所存在する。そこで、音の部品モデルのある状態に対応する部分区間を集めて、それらに含まれる全ての特徴パラメータに時刻1から順番に時刻を付番する。
【0013】
今、Viterbi Alignmentにより求められた、音の部品モデルの状態iに対応する時刻tの特徴パラメータのベクトルをxt と表すと、MAP法を用いて次式2、式3に従って、正規分布の平均ベクトルを話者に適応化させることが可能であることが知られている。式3において、Tは各状態に対応するフレームの総数を示し、左辺のμは更新された平均ベクトルを示している。
【0014】
【数3】
Figure 0003871774
【0015】
【数4】
Figure 0003871774
【0016】
ここで、τは適応化前の平均ベクトルと適応用音声の特徴パラメータの重みを制御するパラメータであり、τが∞の場合には、適応化を一切行わないことを意味し、また、τが0の場合には、適応用音声から計算される推定値で正規分布の平均ベクトルを置き換えることを意味する。
【0017】
また、HMMの1つに、Semi−Continuous(Tied−Mixture)HMM(半連続HMM)と称されるものがある。これは、音の部品モデルの全ての状態が、共通の正規分布を共有するもので、この場合、状態iの出力確率分布は、次式4で表現される。
【0018】
【数5】
Figure 0003871774
【0019】
ここで、Mは128や256程度の大きな値であることが多い。また、MAP法による正規分布の平均ベクトルの話者適応化は次式5、式6を用いた処理で実現されることが知られている。
【0020】
【数6】
Figure 0003871774
【0021】
【数7】
Figure 0003871774
【0022】
ここで、Iは話者適応に用いられる言葉に含まれる音の部品の状態の総数である。なお、式1と式4、式2と式5、式3と式6とを比較して分かるように、半連続HMMでは、平均ベクトルμ、共分散行列Σのサフィックスからiが除かれているが、これは、音の部品モデルの全ての状態が、共通の正規分布を共有するからである。
【0023】
【発明が解決しようとする課題】
ところで、不特定話者音声認識システムにおいて、不特定話者用の音の部品を表すHMMのパラメータを話者に適応させるためには、適応に用いるための音声を話者に発声してもらうが、この時間は極力短い方がユーザに受け入られやすいことは言うまでもなく、通常、時間的には1分程度、単語数としては10〜20単語程度が望ましいとされている。
【0024】
そして、10〜20語程度の単語しか適応のために用いることができない場合に確実な適応効果が得られる話者適応手法としてよく用いられるセグメンタルMAP法、あるいは、セグメンタルMAP法とVFS法とを併用した方法においては、正規分布の平均ベクトルのみの適応化を行うものであった。
【0025】
このように、式1で表現される連続HMM、あるいは、式4で表現される半連続HMMによる音の部品モデルにおいて、各状態が有する正規分布数Mが大きい場合には、正規分布の平均ベクトルのみの適応化では話者適応の効果は十分なものではなかった。
【0026】
一方、重みを適応化させる方法として、前述したEM法による方法が知られているが、この手法によっても適応化のための計算量が多いことや10〜20語程度の少数の単語では適応化される重みパラメータの総数に比べて、適応に用いることができるデータ量が少ないため、重みの推定値の推定精度が十分ではなく、話者適応の効果が十分なものではなかった。
【0027】
したがって、何らかの手法によって話者適応の効果が十分になるように正規分布の重みを効率良く適応化する技術の出現が望まれていた。
本発明の目的は、上述したような従来の問題点を解決するためになされたもので、その目的は、話者適応用の単語が少数である場合であっても、正規分布の重みを効率良く適応化させ音声認識率を向上させる手段を提供する点にある。
【0028】
【課題を解決するための手段】
上記目的を達成するために、請求項1に係る発明によれば、音声信号を所定周期の特徴パラメータの系列に変換する変換手段と、
不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータを蓄積する認識用データ蓄積手段と、
前記認識用データ蓄積手段に蓄積された隠れマルコフモデルのデータ、および、前記変換手段によって変換される特徴パラメータの系列を参照して、入力された音声信号を認識する認識手段と、
前記認識手段による認識結果を出力する出力手段と、
を備えた音声認識装置であって、
適用対象となる特定話者の音声信号を前記変換手段によって変換した特徴パラメータの系列と前記認識用データ蓄積手段に蓄積された隠れマルコフモデルのデータの系列との対応関係を求めて、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記認識用データ蓄積手段に蓄積された認識用データを前記適応対象となる特定話者用に適応化する適応手段を備えたことを特徴とする音声認識装置が提供される。
【0029】
なお、音の部品とは発生音の構成要素であり、例えば、音節、音素等が挙げられるが、これらに限られるものではない。
これによれば、適応手段が、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布に対する重みを所定の目標値に近づけて、隠れマルコフモデルを特定の話者に適応化するので、音声認識率が高くなる。
【0030】
また、アナログ音声信号をデジタル信号に変換する機能や、適応化対象となる特定話者の特徴パラメータの系列を蓄積しておくための適応用データ蓄積手段を有する装置も考えられる。
【0031】
即ち、話者適応機能を有する音声認識装置であって、
アナログ音声信号を入力してデジタル信号に変換する入力手段と、
前記デジタル信号を所定周期で特徴パラメータの系列に変換する変換手段と、
適応化対象となる特定話者の特徴パラメータの系列を蓄積しておくための適応用データ蓄積手段と、
不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルを蓄積しておく認識用データ蓄積手段と、
前記認識用データ蓄積手段に蓄積された隠れマルコフモデル、および、前記変換手段によって変換された特徴パラメータの系列を参照して、入力されたアナログ音声信号を認識する認識手段と、
適応化を行うための適応手段と、
前記認識手段による認識結果を出力する出力手段と、
を備え、
前記適応手段は、前記適応用データ蓄積手段に蓄積された特徴パラメータの系列と前記認識用データ蓄積手段に蓄積された隠れマルコフモデルとの対応関係を求めて、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることを特徴とする音声認識装置も考えられる。
【0032】
また、請求項2に係る発明は、請求項1において、
前記予め定めた規則は、
決定した隠れマルコフモデルの状態が有する正規分布の確率値を値の大きな順にソートして値の最も大きな1つの正規分布を選択すること、
決定した隠れマルコフモデルの状態が有する正規分布の確率値を値の大きな順にソートして値の大きなものから所定数個の正規分布を選択すること、
および、全ての正規分布を選択すること、のうちのいずれかであり、
前記適応手段は、このいずれかの規則に従って正規分布を選択することを特徴とする。
【0033】
これによれば、音声認識率と認識処理時間とのトレードオフ等を行って、適宜、いずれかの規則に従って正規分布を選択するかを定めることが可能となる。
さらに、請求項3に係る発明は、請求項1および2のいずれかにおいて、
前記目標値(Ωi m (t))は、
音の部品のモデルの状態iに対応する時刻tの特徴パラメータをxt 、前記状態iが有する正規分布をm、Nを平均ベクトルμ、共分散行列Σの正規分布、
時刻tにおける状態iが有する正規分布の重みの内で正の目標値を設定する対象となる正規分布の集合をFi (t)として、
【0034】
【数8】
Figure 0003871774
【0035】
であることを特徴とする。これによれば、目標値を2種類設定するだけでよく、簡易なアルゴリズムで認識率の向上を実現できる。
さらにまた、請求項4に係る発明は、請求項1、2および3のいずれかにおいて、
前記適応手段は、さらに、
正規分布の重みを適応化するとともに、事後確率値最大化法を用いて正規分布の平均ベクトルを最適化することを特徴とする。
【0036】
これによれば、適応手段が事後確率値最大化法を用いて正規分布の平均ベクトルの最適化をも行うので、さらに認識率が向上する。
また、本発明の他の態様である音声認識方法も提供される。即ち、請求項5に係る発明によれば、話者適応を行う音声認識方法であって、
適応化対象となる特定話者の音声信号を所定周期の特徴パラメータの系列に変換するステップと、
前記変換された特徴パラメータの系列と、予め蓄積された不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータの系列との対応関係を求めるステップと、
ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定するステップと、
その状態が有する1以上の正規分布を予め定めた規則に従って選択するステップと、
前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記予め蓄積された不特定話者音声認識用の隠れマルコフモデルのデータを適応対象となる特定話者用に適応化するステップと、
前記適応化された隠れマルコフモデルのデータを参照して、入力された音声信号を認識するステップと、を有する音声認識方法が提供される。
【0037】
また、アナログ音声信号をデジタル信号に変換する機能や、不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータ、および、適応化対象となる特定話者の特徴パラメータの系列を蓄積しておく方法も考えられる。
【0038】
即ち、話者適応を行う音声認識方法であって、
不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータを蓄積しておくステップと、
適応化対象となる特定話者の特徴パラメータの系列を蓄積しておくステップと、
入力されたアナログ音声信号をデジタル信号に変換したものを所定周期で特徴パラメータの系列に変換するステップと、
前記蓄積しておいた隠れマルコフモデル、および、前記変換された特徴パラメータの系列を参照して、入力されたアナログ音声信号を認識するステップと、
前記蓄積しておいた特徴パラメータの系列と前記蓄積しておいた隠れマルコフモデルとの対応関係を求めて、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけるステップと、を有する音声認識方法も考えられる。
【0039】
そして、請求項5のような音声認識方法は、例えばCPU(中央処置装置)とRAMとを有して構成されるコンピュータが、音声認識手順を記述したプログラムを読み込んで実行することによって実現される。
【0040】
請求項6に係る発明によれば、話者適応を行って音声認識を行うプログラムを記憶した記憶媒体であって、
適応化対象となる特定話者の音声信号を所定周期の特徴パラメータの系列に変換する処理と、
前記変換された特徴パラメータの系列と、予め蓄積された不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータの系列との対応関係を求める処理と、
ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定する処理と、
その状態が有する1以上の正規分布を予め定めた規則に従って選択する処理と、
前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記予め蓄積された不特定話者音声認識用の隠れマルコフモデルのデータを適応対象となる特定話者用に適応化する処理と、
前記適応化された隠れマルコフモデルのデータを参照して、入力された音声信号を認識する処理と、をコンピュータに実行させる音声認識プログラムを記憶した記憶媒体が提供される。
【0041】
このような記憶媒体としては、例えば、ICカード、ROM等の半導体記憶媒体、フレキシブルディスク等の磁気記憶媒体、CDROM、DVDROM等の光記憶媒体、MO等の光磁気記憶媒体が挙げられる。
【0042】
以下、この発明の作用について説明しておくことにする。
まず、セグメンタルMAP法と同様に、Viterbi Alignmentにより、音声の特徴パラメータ系列と音の部品モデルの系列の対応情報、即ち、音の各部品モデルの各状態が対応する区間の開始時刻および終了時刻を求める。
【0043】
式1で表される連続HMMの場合、音の部品モデルの状態iに対応する時刻tの特徴パラメータxt から、状態iが有する正規分布mの重みの値の適応後の目標値Ωi m (t)を次式で定義する。
【0044】
【数9】
Figure 0003871774
【0045】
状態iが有する正規分布mの時刻tでの確率値N(xt |μi m ,Σi m )に比例した(式7の分子がN(xt |μi m ,Σi m )である)、この目標値を用いて、状態iが有する正規分布mの重みwi m を次式8により適応化させる。なお、式7を参照すれば分かるように目標値は0.0〜1.0の範囲に正規化されている。
【0046】
【数10】
Figure 0003871774
【0047】
ここで、Tは状態iに対応する時間区間の長さを表し、Fi (t)は時刻tにおいて、状態iが有する正規分布の重みの中で正の目標値を設定する正規分布の集合を表す。式7を参照すれば分かるように、Fi (t)に属している正規分布に対しては(目標値が正の場合)には、重みの値をその目標値に近づけ、Fi (t)に属していない正規分布に対しては、重みの目標値を強制的に0に近づける。
【0048】
また、式8中のαは適応化の程度を制御するパラメータで、0≦α≦1なる値であり、α=1の場合には、重みの値を目標値の時間区間長Tにおける平均値で置き換えることを意味し、α=0の場合、重みの値を適応化しないことを意味する。また、Fi (t)の選択の仕方についてはいくつかの方法が考えられ、後に実施例で詳述する。
【0049】
同様に、式4で表される半連続HMMの場合には、音の部品モデルの状態iに対応する時刻tの特徴パラメータxt から、状態iが有する正規分布mの重みの値の適応後の目標値Ωi m (t)を次式9で定義する。
【0050】
【数11】
Figure 0003871774
【0051】
この目標値を用いて、状態iが有する正規分布mの重みwi m を式8により適応化させる。この場合にも、Fi (t)に属している正規分布に対しては(目標値が正の場合)には、重みの値をその目標値に近づけ、Fi (t)に属していない正規分布に対しては、重みの目標値を強制的に0に近づける。
【0052】
【発明の実施の形態】
以下、本発明の実施形態を図面を参照しつつ説明する。
まず、図4を参照して本発明の処理概要を説明し、その後、具体的な実施の形態について説明して理解の容易化に努める。
【0053】
通常、不特定話者用音声認識装置は、音声認識処理のみを行う。音声認識機能は、一般に、音と部品の隠れマルコフモデルを用いた処理(ステップS460)で実現する。
【0054】
不特定話者用音声認識装置は、特定話者音声認識装置に必須の処理である、全単語の音声データの登録を行う処理を使用者に強いることがない点で使用者の操作性に富むという利点を有しているが、一般に、特定話者用音声認識装置に比べて音声認識性能が低いという欠点や、他の話者に比べて著しく音声認識性能が劣る者が存在するという欠点を有している。
【0055】
そこで、例えば、1分程度、10〜20程度の数の単語の音声サンプルを使用者に提供させるだけで、その使用者の声に不特定話者音声認識装置を適応化させることができれば、より操作性の良い不特定話者音声認識装置を実現できることになる。
【0056】
この適応化は、一般に話者適応機能と称されていて、不特定話者の音声を認識する際に用いられる、音の部品の隠れマルコフモデルのデータを、その話者の音声に対して高い音声認識率を実現できるように更新することによって行える。
【0057】
本発明は、これを行うため、話者適応処理と音声認識処理の双方を行う音声認識装置の実現手段を提供する。
まず、話者適応に用いる言葉の集合(例えば、10〜20単語)を予め決めておき、その単語を順次話者に提示して発声してもらう(ステップS400)。次に、話者適応用音声データを、ある一定の周期毎に特徴パラメータ(例えば、ケプストラム)の系列に変換する(ステップS410)。
【0058】
次に、特徴パラメータの系列を、公知のアルゴリズムであるViterbi Alignmentにより、対応する言葉を構成する音の部品のモデルの各状態に対応する部分区間に分割する(ステップS420)。
【0059】
なお、音の部品モデルの各状態に対応する部分区間は、話者適応用音声データから変換された特徴パラメータの系列に1か所または複数箇所存在する。そこで、音の部品モデルのある状態に対応する部分区間を集めて、含まれる全ての特徴パラメータに、時刻1から順番に時刻番号を付与する(ステップS430)。
【0060】
次に、時刻番号が付された特徴パラメータを用いて、式7および式8により、音の部品モデルの各状態が有する正規分布の重みをその話者に適応化する(ステップS440)。
【0061】
そして、不特定話者の音声を認識するために標準的に備えている、音の部品の隠れマルコフモデルのデータを話者適応された音の部品の隠れマルコフモデルのデータで置き換える(ステップS450)。以上で話者適応処理が行われ、ステップS460では、適応化された、音の部品の隠れマルコフモデルを用いた音声認識が行われる。
【0062】
次に、図面を参照して本発明の具体的な実施の形態について説明する。図1は、本発明の実施の形態にかかる音声認識装置のブロック構成図である。
図1に示すように、この実施の形態の音声認識装置100は、アナログ音声信号を入力してデジタル信号に変換する入力手段10と、デジタル信号を所定のフレーム周期で、例えばケプストラム等の特徴パラメータの系列に変換する変換手段20と、適応化対象となる特定話者の特徴パラメータの系列を蓄積しておくための適応用データ蓄積手段30と、不特定話者音声認識用の音の部品(例えば、音素、音節等)をモデル化した隠れマルコフモデルを蓄積しておく認識用データ蓄積手段40と、認識用データ蓄積手段40に蓄積された隠れマルコフモデル、および、変換手段20によって変換された特徴パラメータの系列を参照して、入力されたアナログ音声信号を認識する認識手段50と、適応化を行うための適応手段60と、認識手段50による認識結果を出力する出力手段70とを有して構成される。
【0063】
なお、認識用データ蓄積手段40には、音の部品をモデル化したHMMの他に、認識すべき語彙の各単語に対する音の部品(音素、音節等)間の接続情報および認識すべき語彙同士の接続情報が予め蓄積されている。なお、音の部品のHMMは、式1で表現される連続HMMまたは式4で表現される半連続HMMである。音の部品のHMMは1以上の状態を有し、例えば音素をモデル化する場合には、通常、状態の数は「3」となる。
【0064】
入力手段10は、例えば、アナログデジタル変換器で実現可能であり、出力手段70はCRT、液晶ディスプレイ等の表示デバイスで実現可能であり、さらに、他の構成要素は、例えば、ROM等の記憶媒体に内蔵された音声認識プログラムにしたがった処理を実行するCPU(中央処理装置)、RAM等の電子デバイスで実現可能である。もちろん、全ての構成要素をゲートアレー化して製造したLSIで実現することも可能である。
【0065】
さて、この音声認識装置100の動作説明を行うが、この動作を適応化を行う適応モードと音声認識を行う認識モードとに分けて説明する。
最初に適応モードについて説明する。まず、適応対象となる話者が音声を発声すると、発声されたアナログ音声信号は入力手段10によってデジタル信号に変換されて変換手段20に与えられる。次に、このデジタル信号は、変換手段20によって、例えば、10(ms)程度のフレーム周期で、音声認識に用いられるケプストラム等の特徴パラメータの系列に変換される。
【0066】
次に、変換された特徴パラメータの系列は、適応用データ蓄積手段30に蓄積される。そして、適応手段60は、適応用データ蓄積手段33に蓄積された特徴パラメータの系列を用いて、認識用データ蓄積手段55に蓄積されいる認識用データである、不特定話者の音の部品のHMMのパラメータの適応化を行い、この適応化後のパラメータを新たな認識用データとして認識用データ蓄積手段40に蓄積する。
【0067】
さて、この発明の実施の形態の特徴部である適応手段60による話者適応化について以下具体的に説明する。
まず、適応用データ蓄積手段30に蓄積されている特徴パラメータの系列から、公知のアルゴリズムであるViterbi Alignment技術を用いて、音の部品のHMMの系列と特徴パラメータの系列との対応関係を求める。具体的には、音の部品のHMMの各状態毎に、対応する時間軸上での部分区間の開始時刻および終了時刻を求める。
【0068】
図3を参照してこの様子について説明する。今、「あさ」という音声を想定すると、「a」、「s」、「a」なる音の部品(音素)のHMMにより表現され、さらに、各音素のHMMは3つの状態を有する。このうち、s音素の3つの状態がs1,s2,s3であり、また、a音素の3つの状態がa1,a2,a3で表されている。
【0069】
図3では、Viterbi Alignmentにより、s1,s2,s3の3つの状態が対応する音声の部分区間が求められた状態を示していて、s1,s2,s3の3つの状態に対応する音声の部分区間をそれぞれ[t(s1),t(s2)]、[t(s2),t(s3)]、[t(s3),t(a1)]として表現している。これにより、ある時刻の特徴パラメータに最も類似する音の部品のHMMの状態を決定することができる。
【0070】
即ち、Viterbi Alignmentにより、状態s1に対応すると判断された、音声の部分区間[t(s1),t(s2)]に時刻t’が含まれていれば、時刻t’の特徴パラメータxt'は、状態s1に最も類似しているとみなすことができる。この時、時刻t’の特徴パラメータxt'が状態s1に対応するという。
【0071】
今、時刻tの特徴パラメータxt が状態iに対応するものとすると、この時、状態iが有する正規分布の確率値N(xt |μi m ,Σi m )を求め、値の大きい順にソートする。そして、前述した式7、式8を用いて、正規分布の重みを最適化する処理を行う。この時、重みに対し正の目標値を定義する正規分布の集合Fi (t)としては、以下の3通りが考えられ、いずれの集合Fi (t)を選択対象にするかは例えば適応手段60に設けたスイッチ等の操作によって行えるようにしておけばよい。
(1)第1に、確率値の最も大きな1つの正規分布のみでFi (t)を構成する。
(2)第2に、確率値の大きい方から所定数個の正規分布を選択してFi (t)を構成する。例えば、確率値の大きい順にソートした後、n番目に大きな正規分布の確率値をNs (xt |μi k ,Σk )で表す。この時、((ΣNs (xt |μi k ,Σi k ))/(ΣNs (xt |μi k ,Σi k )))>Th(分子の最初のシグマ記号はkについて1からKまで総和をとることを意味し、分母の最初のシグマ記号はkについて1からMまで総和をとることを意味する)を満たす最小のKを求め、1≦k≦Kなる正規分布Ns (x|μi k ,Σi k )からFi (t)を構成する。ここで、Mは状態iが有する正規分布の総数であり、また、Thは0≦Th≦1なる実数である。
(3)第3に、全ての正規分布を用いてFi (t)を構成する。
【0072】
また、式4で表される半連続HMMの場合も同様に、第1から第3のいずれかの態様でFi (t)を構成することができる。
なお、式8による正規分布の重みの適応化においてT=1とすることもでき、この時、式8は次式(10)のようになる。
【0073】
【数12】
Figure 0003871774
【0074】
この場合には、1フレーム毎に正規分布の重みを最適化することになる。また、1単語毎に式8で正規分布の重みを適応化することもでき、さらには、適応単語全部に対して、式8を用いて正規分布の重みを1回だけで適応化することも可能である。適応の程度を制御するパラメータαの値は、適宜適切な値に設定しておけばよい。
【0075】
次に、認識モードについて説明する。
まず、話者が音声を発声すると、発生されたアナログ音声信号は入力手段10によってデジタル信号に変換されて変換手段20に与えられる。次に、このデジタル信号は、変換手段20によって、例えば、10(ms)程度のフレーム周期で、音声認識に用いられるケプストラム等の特徴パラメータの系列に変換される。そして、この特徴パラメータの系列を受け取った認識手段50は、認識用データ蓄積手段55に蓄積されている隠れマルコフモデルや接続情報を参照して音声認識を行い、この認識結果は出力手段70から出力される。なお、出力態様としては、認識結果をデジタル信号で出力すること、認識結果を表示出力すること等各種の態様が考えられる。
【0076】
以上説明してきたように、適応手段60が、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布に対する重みを所定の目標値に近づけるので、音声認識率を向上することが可能になる。また、正規分布の選択態様も適宜変更可能となり、音声認識率と適応処理時間とのトレードオフ等を行うことが可能となる。さらに、式7に示すように目標値を2種類設定するだけでよく、簡易なアルゴリズムで音声認識率の向上を実現できる。
【0077】
また、本発明の他の実施の形態として、適応手段60が、音の部品モデルの状態が有する正規分布の重みの適応化と同時に、公知のアルゴリズムであるセグメンタルMAP法による、音の部品モデルの状態が有する正規分布の平均ベクトルの適応化を行うようにしておくことも考えられる。
【0078】
具体的には、適応手段60は、式7および式8を用いて、正規分布の重みを適応化させるとともに、式2および式3を用いて正規分布の平均ベクトルを適応化させる。これによれば、重みの適応化の効果と平均ベクトルの適応化の効果との相乗効果を得ることができる。
(実験値)
この発明にかかる音声認識装置で音声認識実験を行い以下の実験結果を得た。
【0079】
なお、車両内に音声認識装置を装着することを想定し、車両内での実験を行うために、指向性マイクを運転席のサンバイザー部に設置し、運転席自体は各自の好みの位置になるように移動した。この状態で、話者適応対象となる男女各1名が520語の単語をエンジンオフ状態で停車中の排気量2000(cc)の乗用車の運転席で発声した。
【0080】
この内、音素バランスを考慮せず等間隔で選んだ20語を話者適応用の単語として除外し、残りの500語を評価用データ(停車中)とした。また、評価用データ(停車中)から自動的に音声フレームの抽出を行い、音声フレームにおける音声、雑音パワーを用いて各データ毎にSN比10(dB)で自動車雑音を付加して、評価用データ(SN比10dB)とした。そして、予め作成した不特定話者用の54種類の音素モデル(半連続HMM)に対し、20単語を用いて、本発明法による話者適応を施し、500単語の認識実験を行った。なお、重みに対し正の目標値を定義する正規分布の集合Fi (t)の実施例としては、前述の(2)を用い、Thを0.8とした。分析条件は12(kHz)サンプリング、フレーム長21.3(ms)、フレームシフト10(ms)であり、特徴パラメータとして10次MFCC(Mel−Frequency Cepstrum Coefficient)、10次デルタMFCC、デルタエネルギーを使用した。また、各特徴パラメータに対する正規分布数は夫々256、256、64である。
【0081】
この時、500単語の評価用データ(停車中)に対する、▲1▼話者適応なしの場合、▲2▼事後確率値最大化法により正規分布の平均ベクトルを適用化した場合、▲3▼本発明により正規分布の重みを適応化した場合、▲4▼本発明による正規分布の重みの適応化と事後確率値最大化法による正規分布の平均ベクトルの適応化を併用した場合の認識率(男性/女性)は夫々「80.8/66.4」、「86.8/75.0」、「87.6/98.4」、「89.0/78.4」であった。同様に、評価用データ(SN比10dB)に対する、▲1▼話者適応なしの場合、▲2▼事後確率値最大化法により正規分布の平均ベクトルのみを適応化した場合、▲3▼本発明により正規分布の重みを適応化した場合、▲4▼本発明による正規分布の重みの適応化と事後確率値最大化法による正規分布の平均ベクトルの適応化を併用した場合の認識率(男性/女性)は夫々「81.2/70.0」、「84.4/78.2」、「86.4/79.0」、「85.2/79.4」であった。この実験結果によれば、正規分布の重みを適応化することにより、事後確率値最大化法により正規分布の平均ベクトルを適応化する場合を上回る性能が得られた。
【0082】
【発明の効果】
以上説明したように、請求項1に係る発明によれば、適応手段が、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布に対する重みを所定の目標値に近づけるので、音声認識率を向上することが可能になるという効果が得られる。
【0083】
また、請求項2に係る発明によれば、請求項1の効果に加えて、適応手段は、いずれかの規則に従って正規分布を選択するので、音声認識率と適応処理時間とのトレードオフ等を行って、適宜、いずれかの規則に従って正規分布を選択するかを定めることが可能となる。
【0084】
さらに、請求項3に係る発明によれば、請求項1および2のいずれかの効果に加えて、目標値を2種類設定するだけでよく、簡易なアルゴリズムで音声認識率の向上を実現できる。
【0085】
さらにまた、請求項4に係る発明によれば、請求項1、2および3のいずれかの効果に加えて、適応手段は事後確率値最大化法を用いて正規分布の平均ベクトルの最適化をも行うので、さらに音声認識率が向上するという効果が得られる。
【0086】
また、請求項5に係る発明によっても、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、選択した正規分布に対する重みを所定の目標値に近づけることにより、隠れマルコフモデルを特定の話者に適応化するので、音声認識率を向上可能な方法を実現できるという効果が得られる。 さらに、請求項6に係る発明によれば、コンピュータが音声認識プログラムを読み取って処理を実行していくので、これによっても、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、選択した正規分布に対する重みを所定の目標値に近づけることにより、隠れマルコフモデルを特定の話者に適応化することができるので、音声認識率を向上できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる音声認識装置のブロック構成図である。
【図2】従来技術の説明図である。
【図3】ビダビアライメントの説明図である。
【図4】本発明の処理概要の説明図である。
【符号の説明】
10 入力手段
20 変換手段
30 適応用データ蓄積手段
40 認識用データ蓄積手段
50 認識手段
60 適応手段
70 出力手段
100 音声認識装置

Claims (6)

  1. 音声信号を所定周期の特徴パラメータの系列に変換する変換手段と、
    不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータを蓄積する認識用データ蓄積手段と、
    前記認識用データ蓄積手段に蓄積された隠れマルコフモデルのデータ、および、前記変換手段によって変換される特徴パラメータの系列を参照して、入力された音声信号を認識する認識手段と、
    前記認識手段による認識結果を出力する出力手段と、
    を備えた音声認識装置であって、
    適用対象となる特定話者の音声信号を前記変換手段によって変換した特徴パラメータの系列と前記認識用データ蓄積手段に蓄積された隠れマルコフモデルのデータの系列との対応関係を求めて、ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定し、その状態が有する1以上の正規分布を予め定めた規則に従って選択し、前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記認識用データ蓄積手段に蓄積された認識用データを前記適応対象となる特定話者用に適応化する適応手段を備えたことを特徴とする音声認識装置。
  2. 請求項1において、
    前記予め定めた規則は、
    決定した隠れマルコフモデルの状態が有する正規分布の確率値を値の大きな順にソートして値の最も大きな1つの正規分布を選択すること、
    決定した隠れマルコフモデルの状態が有する正規分布の確率値を値の大きな順にソートして値の大きなものから所定数個の正規分布を選択すること、
    および、全ての正規分布を選択すること、のうちのいずれかであり、
    前記適応手段は、このいずれかの規則に従って正規分布を選択することを特徴とする音声認識装置。
  3. 請求項1および2のいずれかにおいて、
    前記目標値(Ωi m (t))は、
    音の部品のモデルの状態iに対応する時刻tの特徴パラメータをxt 、前記状態iが有する正規分布をm、Nを平均ベクトルμ、共分散行列Σの正規分布、
    時刻tにおける状態iが有する正規分布の重みの内で正の目標値を設定する対象となる正規分布の集合をFi (t)として、
    Figure 0003871774
    であることを特徴とする音声認識装置。
  4. 請求項1、2および3のいずれかにおいて、
    前記適応手段は、さらに、
    正規分布の重みを適応化するとともに、事後確率値最大化法を用いて正規分布の平均ベクトルを最適化することを特徴とする音声認識装置。
  5. 話者適応を行う音声認識方法であって、
    適応化対象となる特定話者の音声信号を所定周期の特徴パラメータの系列に変換するステップと、
    前記変換された特徴パラメータの系列と、予め蓄積された不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータの系列との対応関係を求めるステップと、
    ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定するステップと、
    その状態が有する1以上の正規分布を予め定めた規則に従って選択するステップと、
    前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記予め蓄積された不特定話者音声認識用の隠れマルコフモデルのデータを適応対象となる特定話者用に適応化するステップと、
    前記適応化された隠れマルコフモデルのデータを参照して、入力された音声信号を認識するステップと、を有する音声認識方法。
  6. 話者適応を行って音声認識を行うプログラムを記憶した記憶媒体であって、
    適応化対象となる特定話者の音声信号を所定周期の特徴パラメータの系列に変換する処理と、
    前記変換された特徴パラメータの系列と、予め蓄積された不特定話者音声認識用の音の部品をモデル化した隠れマルコフモデルのデータの系列との対応関係を求める処理と、
    ある時刻の特徴パラメータに最も類似する音の部品の隠れマルコフモデルの状態を決定する処理と、
    その状態が有する1以上の正規分布を予め定めた規則に従って選択する処理と、
    前記選択した各正規分布の確率値を前記選択した全ての確率値の和で除した値をその正規分布に対する重みの目標値とする一方で、選択されなかった正規分布に対する重みの目標値は0とし、正規分布に対する重みを前記目標値に近づけることにより、前記予め蓄積された不特定話者音声認識用の隠れマルコフモデルのデータを適応対象となる特定話者用に適応化する処理と、
    前記適応化された隠れマルコフモデルのデータを参照して、入力された音声信号を認識する処理と、をコンピュータに実行させる音声認識プログラムを記憶した記憶媒体。
JP23303597A 1997-08-28 1997-08-28 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体 Expired - Lifetime JP3871774B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23303597A JP3871774B2 (ja) 1997-08-28 1997-08-28 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23303597A JP3871774B2 (ja) 1997-08-28 1997-08-28 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH1173197A JPH1173197A (ja) 1999-03-16
JP3871774B2 true JP3871774B2 (ja) 2007-01-24

Family

ID=16948794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23303597A Expired - Lifetime JP3871774B2 (ja) 1997-08-28 1997-08-28 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3871774B2 (ja)

Also Published As

Publication number Publication date
JPH1173197A (ja) 1999-03-16

Similar Documents

Publication Publication Date Title
US6108628A (en) Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US5903863A (en) Method of partitioning a sequence of data frames
WO1998000834A1 (en) Method and system for dynamically adjusted training for speech recognition
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO1995034035A1 (en) Method of training neural networks used for speech recognition
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JPH075892A (ja) 音声認識方法
JP3803029B2 (ja) 音声認識装置
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
Boite et al. A new approach towards keyword spotting.
US7003465B2 (en) Method for speech recognition, apparatus for the same, and voice controller
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3871774B2 (ja) 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP4655184B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Kuah et al. A neural network-based text independent voice recognition system
JPH06175678A (ja) 音声認識装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091027

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111027

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111027

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121027

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121027

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131027

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

EXPY Cancellation because of completion of term