JP3563018B2 - Speech recognition device, speech recognition method, and program recording medium - Google Patents
Speech recognition device, speech recognition method, and program recording medium Download PDFInfo
- Publication number
- JP3563018B2 JP3563018B2 JP2000220576A JP2000220576A JP3563018B2 JP 3563018 B2 JP3563018 B2 JP 3563018B2 JP 2000220576 A JP2000220576 A JP 2000220576A JP 2000220576 A JP2000220576 A JP 2000220576A JP 3563018 B2 JP3563018 B2 JP 3563018B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- unit
- recognition target
- target vocabulary
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、コンピュータや携帯情報端末に搭載されて人間の発声による音声を認識する音声認識装置および音声認識方法、並びに、音声認識処理プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】
音声認識装置において、認識精度を高めるために、必要に応じて認識対象語彙を切り換えるという認識方法がある。このような認識方法を用いた音声認識装置の応用例として、パーソナルコンピュータや日本語ワードプロセッサ等の表示装置を有する機器において、表示装置を用いたメニュー表示による機器の操作ガイドを、音声認識を用いて行うことが考えられる。
【0003】
上述のような操作ガイドによれば、操作方法や操作による効果の表示を画面で確認しながら操作を学ぶことができる。そして、上記表示装置の画面が狭い等、上記表示装置からの情報量が少ない場合には、複数の機器操作に関する操作ガイドの表示を時間の経過と共に自動的に切り換える場合がある。このような操作ガイドに音声を用いれば、利用者にとって分り易く、且つ、操作ボタンの数を減らして操作を簡単にすることができる。その場合、複数の機器操作に関する操作ガイドの表示の切り換えと共に認識対象語彙を切り換えれば、認識対象語彙を少なくすることができるので高い認識精度を得ることができる。
【0004】
このような認識対象語彙を切り換える認識方法の応用においては、切り換え表示する各メニューに関連のある認識対象語彙のセットを、メニュー数分だけ複数記憶しておく。そして、利用者の操作や時間の経過等によるメニュー表示の切り換えに同期して認識対象語彙を切り換えることによって、夫々のメニューにおいては必要最小限の語彙を対象に認識処理を行うことができ、認識精度を向上させることができるのである。その場合、時間の経過と共にメニュー表示を自動的に切り換える際には、機器が自動的に認識対象語彙をも切り換えることになる。
【0005】
以下、上記認識対象語彙の切り換えが可能な音声認識装置について説明する。図4は、上記認識対象語彙の切り換えが可能な音声認識装置の一例を示すブロック図である。ここで、本音声認識装置1は、認識対象語彙の切り換えおよび出力部13による表示内容の切り換えは、所定時間毎に音声認識装置1自身が自動的に行うものとする。音声認識装置1は、A/D(アナログ/ディジタル)変換部2、音響分析部3、認識部4、音響モデル格納部5、認識対象語彙格納・判定部6、現認識対象語彙識別子記憶部7、タイマ部8、認識対象語彙切り換え要求部9、認識対象語彙切り換え要求時刻記憶部10、音声検出部11、音声時刻記憶部12、出力部13で構成される。
【0006】
話者によって上記音声認識装置1に入力された音声は、A/D変換部2に送出されてディジタル化される。そして、このディジタル化された音声波形は、音響分析部3で、20msec〜40msecの区間毎に比較的短時間の時間窓を掛けると共に、8msec〜16msec毎に上記時間窓をシフトしていく短時間スペクトル分析の手法によって分析される。上記時間窓によって切り出された音声波形は、切り出し時の時間長を有するフレームと呼ばれる単位の特徴ベクトルの時系列に変換される。ここで、上記特徴ベクトルは、その時刻における音声スペクトルの特微量を抽出したもので、通常は10次元〜100次元であり、LPC(線形予測分析)メルケプストラム係数等が広く用いられている。こうして変換された特徴ベクトルは認識部4に送出されると共に、音声入力の開始を検出する音声検出部11にも出力される。そうすると、音声時刻記憶部12は、音声検出部11からの音声入力開始信号とタイマ部8からの時刻信号とに基づいて、音声入力の開始時刻を検出して記憶する。
【0007】
上記音響モデル格納部5には、認識単位毎に用意されたHMM(隠れマルコフモデル)が用意されている。ここで、上記認識単位としては、音素や単語が広く用いられている。また、HMMとは、複数個の状態を有する非決定性確率有限オートマトンであり、非定常信号源を定常信号源の連結で表す統計的信号源モデルである。尚、出力確率や遷移確率等のパラメータは、対応する学習音声を与えてバウム‐ウェルチアルゴリズムと呼ばれるアルゴリズム等によって予め学習されている。以下、音響モデル格納部5には、認識単位が音素であるHMMが記憶されているものとする。
【0008】
上記認識対象語彙の切り換えの動作は、特開平6‐337695号公報に開示されている方法を適用する。上記認識対象語彙として、認識対象語彙セットAと認識対象語彙セットBとがあり、現時点においては認識対象語彙識別子記憶部7には認識対象語彙セットAの識別子が記憶されているものとする。また、出力部13は、認識対象語彙セットAに対応する表示内容を表示しているものとする。
【0009】
この状態で、所定時間が経過すると、タイマ部8から認識対象語彙切り換え要求部9及び出力部13に対して通知がなされる。そうすると、出力部13は、表示内容を認識対象語彙セットBに対応する表示内容に変更する。また、認識対象語彙切り換え要求部9から切り換えが要求され、その要求時刻が認識対象語彙切り換え要求時刻記憶部10に記憶される。そして、認識対象語彙格納・判定部6によって、認識対象語彙切り換え要求時刻記憶部10に記憶されている要求時刻Tcと音声時刻記憶部12に記憶されている音声入力開始時刻Tsとが比較され、音声入力開始時刻Tsが要求時刻Tcよりも後である場合には、認識対象語彙の切り換えが要求された後に発声が行われたのであるから適切な認識対象語彙セットは認識対象語彙セットBであると判定される。それ以外は、認識対象語彙セットAであると判定される。そして、該当する認識対象語彙セットの識別子で現認識対象語彙識別子記憶部7の記憶内容を更新するのである。
【0010】
こうして、適切な認識対象語彙セットの判定が終了すると、認識部4は、音響分析部3で得られた特徴ベクトルと、現認識対象語彙識別子記憶部7に記憶されている識別子に対応して認識対象語彙格納・判定部6から出力される何れかの認識対象語彙セットを構成する各単語の音素列と、音響モデル格納部5に格納されているHMMを用いて、以下のようにして音声認識を行う。
【0011】
すなわち、先ず、上記認識対象語彙に含まれる各単語のHMMを求める。具体的には、音響モデル格納部5に記憶されている各音素のHMMを、認識対象語彙セットを構成している各単語の音素列に対応させて結合するのである。
【0012】
次に、夫々の単語のHMMについて、音響分析部3からの特徴ベクトルを用いて生起確率を求める。HMMによる音声認識においては、音声は初期状態から最終状態までの状態遷移の間にHMMから出力されるシンボルの時系列として表される。そこで、初期状態の確率を任意の値に定め、順次状態遷移毎に出力確率および遷移確率を掛けていくことによって、発声がそのモデルM(単語のHMM)から発生される確率を求めることができる。逆に、発声を観測した場合に、その発声があるモデルMから発生したと仮定すると、そのモデルMからの発生の確率が計算できることになる。
【0013】
以下、上記認識部4における認識アルゴリズムについて詳細に説明する。認識部4は、音響分析部3によって得られた特徴ベクトルの時系列を入力とし、認識対象語彙格納・判定部6からの認識対象語彙に含まれる総ての単語のHMMに関してその生起確率を求め、最も高い生起確率を呈するHMMの単語を認識結果とする。すなわち、t(=1,2,…,I)をフレーム番号として、特徴ベクトルの時系列で表現された入力の系列を、
X=xvec1,xvec2,xvec3,…,xvect,…,xvecI
とする。尚、「xveci」は多次元のベクトルである。以下、ベクトルxを「xvec」と表記する。さらに、モデルMの初期状態の集合をSとし、最終状態の集合をFとする。また、「i,j」を状態番号として、j番目の状態の遷移系列を
Q=qO j,q1 j,q2 j,…,qt j,…,qI j
と表す。上式において、「qt j」は、t番目のフレームの入力記号xvectによって遷移した状態を表す。ここで、qO j∈Sであり、qI j∈Fである。更に、初期状態の初期確率をπi:Σqi ∈ Sπi=1で表し、状態qiから状態qjへの遷移確率をaijとし、そのときにxveciが出力される出力確率をbij(xveci)とすると、入力系列の生起確率(尤度)P(X|M)は、
で表される。この生起確率(尤度)P(X|M)の演算を、認識対象語彙に含まれる全単語に対応するHMMついて計算し、最も高い生起確率(尤度)Pを呈するHMMに対応する単語を認識結果として出力部13に出力して表示するのである。
【0014】
【発明が解決しようとする課題】
しかしながら、上記従来の特開平6‐337695号公報に開示された認識対象語彙切り換え動作を適用した音声認識装置には、以下のような問題がある。すなわち、上述したように、特開平6‐337695号公報に開示された認識対象語彙切り換え動作においては、音声入力開始時刻Tsが認識対象語彙切り換え要求時刻Tcよりも後である場合に認識対象語彙のセットを切り換えるようにしている。この方法は、話者の操作によって認識対象語彙切り換え要求がなされる場合には、必ず認識対象語彙の切り換え要求がなされた後に発声が行われるために有効である。
【0015】
ところが、図4に示す音声認識装置のように、時間の経過と共に自動的に認識対象語彙が切り換る音声認識装置の場合には、認識対象語彙の切り換えは、話者の意識とは全く関係なく行われる。したがって、何らかの理由で話者が認識対象語彙の発声の機会を逸してしまい、且つ、自動的に認識対象語彙の切り換えが行われた場合には、何らかの方法によって話者が発声したかった切り換え前の認識対象語彙の設定状態にもどす必要が生ずる。そして、その場合には、何らかの操作を話者に負担させるか、若しくは、自動的に切り換え前の認識対象語彙が設定されるまで話者を待たせることになるという問題がある。
【0016】
そこで、この発明の目的は、自動的に認識対象語彙を切り換える場合でも高い認識精度が得られる使い易い音声認識装置および音声認識方法、並びに、音声認識処理プログラムを記録したプログラム記録媒体を提供することにある。
【0017】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、入力された音声を認識する認識部と,この認識部の認識結果を含む情報を出力する出力部と,上記認識時に用いられる認識対象語彙が格納された認識語彙格納部と,タイマ部と,このタイマ部からの時刻信号に基づいて上記認識対象語彙の切り換えを要求する認識対象語彙切り換え要求部を有する音声認識装置において、上記出力部は,複数の出力内容を切り換え出力するようになっており、上記認識対象語彙は,上記出力部の出力内容に対応した認識対象語の集合でなる複数の認識対象語彙セットに分類され,上記認識対象語彙の切り換えは上記認識対象語彙セットの単位で行われるようになっており、上記タイマ部からの時刻信号に基づいて,上記各認識対象語彙セット用の重みを決定する重み決定部を備えて、上記認識部は,上記全認識対象語彙セットおよび上記決定された各重みを用いて,入力音声を認識するようになっていることを特徴としている。
【0018】
上記構成によれば、認識部によって、全認識対象語彙セットおよびタイマ部からの時刻信号に基づいて重み決定部によって決定された各認識対象語彙セット用の重みを用いて、入力音声が認識される。その際に、上記タイマ部からの時刻信号に基づいて認識対象語彙切り換え要求部によって認識対象語彙の切り換えが要求されると、現在用いられている認識対象語彙セットが、出力部の出力内容の切り換えに応じた認識対象語彙セットに切り換えられる。したがって、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、上記出力部の出力内容に対応している切り換え後の認識対象語彙の認識精度が高められる。
【0019】
さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに、切り換え前の認識対象語彙で発声したとしても、切り換え前の認識対象語彙セットの語をも用いて認識が行われているので、上記切り換え前の認識対象語彙セットの語に関しても高い認識精度が得られる。
【0020】
また、上記第1の発明の音声認識装置は、上記重み決定部を、上記認識対象語彙切り換え要求部によって認識対象語彙の切り換えが要求されてから重み決定までの経過時間に応じて、切り換え前の認識対象語彙セット用の重みを低下させる一方、切り換え後の認識対象語彙セット用の重みを上昇させるように成すことが望ましい。
【0021】
上記構成によれば、上記認識対象語彙切り換え要求部によって認識対象語彙の切り換えが要求されてからの経過時間が長くなるに連れて、切り換え前の認識対象語彙の認識精度が低くなる一方、切り換え後の認識対象語彙の認識精度が高くなる。こうして、認識に用いられる上記認識対象語彙の切り換えが徐々に行われる。
【0022】
また、上記第1の発明の音声認識装置は、上記認識部を、上記全認識対象語彙セットを構成する各語の尤度を算出し、各語の尤度の値に各語が属する認識対象語彙セット用の重みを掛け、その値が最も高い語を認識結果とするように成すことが望ましい。
【0023】
上記構成によれば、認識に用いられている認識対象語彙セット用の重みと認識に用いられていない認識対象語彙セット用の重みとを最適に設定することによって、上記出力部の出力内容に対応した切り換え後の認識対象語彙の認識精度を高めることと、話者が切り換え前の認識対象語彙で発声した場合でも高い認識精度を得ることとが、容易に達成される。
【0024】
また、上記第1の発明の音声認識装置は、上記出力部を、上記認識対象語彙切り換え要求部からの認識対象語彙切り換え要求がなされた時点に出力している出力内容に対応する認識対象語彙セット用の重みの値と、次に出力すべき出力内容に対応する認識対象語彙セット用の重みの値との差が所定値未満になると、上記出力内容を切り換えるように成すことが望ましい。
【0025】
上記構成によれば、上記認識対象語彙セットが切り換えられるのに呼応して、上記出力部の出力内容が対応する出力内容に切り換えられる。
【0026】
また、第2の発明の音声認識方法は、入力された音声を認識対象語彙を用いて認識して認識結果を出力するに際して,タイマ部からの時刻信号に基づいて上記認識対象語彙の切り換えを自動的に行う音声認識方法において、複数の出力内容を出力部に切り換え出力し、上記各出力内容に対応した認識対象語の集合でなる複数の認識対象語彙セットの単位で上記認識対象語彙の切り換えを行い、上記タイマ部からの時刻信号に基づいて上記各認識対象語彙セット用の重みを決定し、上記全認識対象語彙セットおよび上記決定された各重みを用いて上記入力音声の認識を行うことを特徴としている。
【0027】
上記構成によれば、全認識対象語彙セットおよびタイマ部からの時刻信号に基づいて決定された各認識対象語彙セット用の重みを用いて、入力音声が認識される。その際に、上記タイマ部からの時刻信号に基づいて認識対象語彙の切り換えが要求されると、現在用いられている認識対象語彙セットが、出力部の出力内容の切り換えに応じた認識対象語彙セットに切り換えられる。したがって、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、上記出力部の出力内容に対応している切り換え後の認識対象語彙の認識精度が高められる。
【0028】
さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに、切り換え前の認識対象語彙で発声したとしても、切り換え前の認識対象語彙セットの語をも用いて認識が行われているので、上記切り換え前の認識対象語彙セットの語に関しても高い認識精度が得られる。
【0029】
また、第3の発明のプログラム記録媒体は、コンピュータを、請求項1における認識部,出力部,タイマ部,認識対象語彙切り換え要求部および重み決定部として機能させる音声認識処理プログラムが記録されていることを特徴としている。
【0030】
上記構成によれば、請求項1の場合と同様に、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、上記出力部の出力内容に対応している切り換え後の認識対象語彙の認識精度が高められる。さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに切り換え前の認識対象語彙で発声したとしても、高い認識精度が得られる。
【0031】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声認識装置におけるブロック図である。この音声認識装置21は、音声入力部22,A/D変換部23,音響分析部24,認識部25,音響モデル格納部26,第1認識対象語彙セット格納部27,第2認識対象語彙セット格納部28,重み係数決定部29,タイマ部30,認識対象語彙切り換え要求部31および出力部32で構成される。
【0032】
上記音声入力部22は、マイクロホンを含む音声入力装置を備えて、入力された音声を電気信号(音声信号)に変換してA/D変換部23に出力する。A/D変換部23は、入力されたアナログ信号である音声信号をディジタル信号に変換し、ディジタル化された音声信号を音響分析部24に出力する。尚、上記ディジタル化された音声信号は、振幅値の時系列で表されている。
【0033】
上記音響分析部24は、A/D変換部23からのディジタル音声信号からフレーム毎に特徴ベクトルを抽出して認識部25に出力する。ここで、上記特徴ベクトルは、各フレームにおける音声信号のパワー,1次〜16次のLPCケプストラム係数,前フレームのパワーおよび前フレームのLPCケプストラム係数(1次〜16次)の合計34の要素からなる34次元ベクトルxvecを、総てのフレーム(t=1,2,…,I)に亘って配列したものである。
【0034】
上記認識部25は、音響モデルを利用して、音響分析部24で抽出された特徴ベクトルを用いて、第1認識対象語彙セット格納部27に格納されている認識対象語彙セットAおよび第2認識対象語彙セット格納部28に格納されている認識対象語彙セットBを構成する各単語の生起確率(尤度)Pを、従来の技術で説明した手法を用いて計算する。さらに、重み係数決定部29で決定された重みwを各単語の尤度Pに掛けて、最も高い尤度w・Pを呈するHMMに対応する単語を出力部32に出力するのである。
【0035】
上記音響モデル格納部26は、認識部25で音声認識を行う際に使用される音響モデルが格納されている。上記音響モデルは、音素を単位として、予め不特定話者の学習音声を用いてバウム‐ウェルチアルゴリズムと呼ばれるアルゴリズムによって学習(初期学習)されたHMMが用いられる。尚、上記HMMは、各状態における遷移確率と出力確率分布とを要素とする状態数分の配列で記憶されている。また、上記遷移確率は、各状態への遷移確率を要素として遷移数分の配列で記憶されている。また、上記出力確率は、複数の正規分布を重み付け加算した多次元の混合正規分布で表され、各正規分布における混合の重みと平均ベクトルと分散ベクトルとを要素とする次元数分の配列で記憶されている。ここで、上記平均ベクトルと分散ベクトルとは、音響分析部24で音声信号からフレーム毎に抽出される特徴ベクトルの要素数と同じ「34」の要素の配列で表される。
【0036】
上記タイマ部30は、時刻を表す時刻信号を認識対象語彙切り換え要求部31,重み係数決定部29および出力部32に出力して、時刻を通知する。そうすると、認識対象語彙切り換え要求部31は、上記通知された時刻に基づいて、認識対象語彙の切り換えを要求するか否かを判断する。そして、要求する場合には、重み係数決定部29に対して認識対象語彙の切り換えを要求する。
【0037】
上記重み係数決定部29は、第1認識対象語彙セット格納部27に格納されている認識対象語彙セットAおよび第2認識対象語彙セット格納部28に格納されている認識対象語彙セットBのうち、出力部32によって現在表示されている表示内容に対応する認識対象語彙セットを構成する単語に掛けられる重みw2、および、出力部32によって表示されていない表示内容に対応する認識対象語彙セットを構成する単語に掛けられる重みw1を決定する。これらの重みw1,w2は、記憶されている重み関数W1(t),W2(t)を用いて、認識対象語彙切り換え要求部31から切り換えが要求された時のタイマ部30からの時刻tOを基準として所定時間ΔTが経過する毎に決定される。そして、決定された両重みw1,w2の値は認識部25に順次出力される。
【0038】
上記第1認識対象語彙セット格納部27および第2認識対象語彙セット格納部28には、夫々の認識対象語彙セットA,Bを構成する単語が、各単語の表記と音素列との文字列を要素とする文字数分の配列で記憶されている。
【0039】
上記出力部32は、ディスプレイを含む画像表示装置を備えて、認識対象語彙セットAに対応した第1表示内容と認識対象語彙セットBに対応した第2表示内容とを格納している。そして、タイマ部30から通知される時刻に基づいて、第1,第2表示内容のうち現在表示している表示内容を変更するか否かを判断し、変更する場合は画面の表示内容を切り換える。さらに、認識部25からの認識結果を画面に表示する。
【0040】
図2は、上記出力部32が現在選択している表示内容に対応する認識対象語彙セット用の重み関数W2(t)と非選択表示内容に対応する認識対象語彙セット用の重み関数W1(t)との時間変化を示す。重み関数W1(t)の値は、認識対象語彙の切り換え要求が出力された時刻t0で1よりも小さい0近傍の所定値「a」から単調増加し始め、時刻t2以降は値「1」となる。一方、重み関数W2(t)の値は、重み関数W1(t)の値とは逆に、時刻t0で値「1」から単調減少し始めて、時刻t2以降は所定値「a」となる。その場合、時刻t1で重みw1と重みw2の差が閾値hとなる。そして、出力部32は、この差の値が閾値h未満になると、つまり認識対象語彙の切り換えが要求された時刻t0から時間T(>(t1−t0))が経過すると、画面に表示されている表示内容を切り換えるのである。
【0041】
すなわち、上記出力部32がタイマ部30から通知される時刻に基づいて表示内容を変更すると判断する時点は、認識対象語彙切り換え要求部31がタイマ部30から通知された時刻に基づいて上記切り換えを要求すると判断する時点よりも上記時間Tだけ遅れるように設定されているのである。
【0042】
このように、本実施の形態においては、出力部32によって、自動的に画面の表示内容が切り換えられるのであるが、表示内容が切り換る前であっても切り換った後であっても、認識部25は、認識対象語彙セットAおよび認識対象語彙セットBの両語彙セットの語彙を対象として尤度Pの計算を行う。そして、現在出力部32によって選択されている表示内容に対応する認識対象語彙セットを構成する単語の尤度Pには、表示内容切り換え前であれば1>w>(1+a+h)/2であり、切り換え後であれば1>w>(1+a−h)/2である重みwを掛ける。一方、非選択側の表示内容に対応する認識対象語彙セットを構成する単語の尤度Pには、表示内容切り換え前であれば(1+a−h)/2>w>aであり、切り換え後であれば(1+a+h)/2>w>aである重みwを掛ける。こうして、最終的な尤度w・Pを計算して認識結果を決定するようにしている。
【0043】
換言すれば、図4に示す従来の音声認識装置における認識対象語彙の切り換えは、尤度Pの演算に用いる認識対象語彙そのものを切り換えることによって行うのに対して、本実施の形態においては、尤度Pの演算に用いる2セットの認識対象語彙は切り換えずに尤度Pに掛ける重みwの値を「1」と0近傍の所定値「a」との間で徐々に変化させることによって行うのである。
【0044】
したがって、本実施の形態においては、何らかの理由で話者が認識対象語彙の発声の機会を逸してしまい、且つ、自動的に認識対象語彙の切り換えが行われた後でも、切り換え前の認識対象語彙の単語に関する尤度w・Pの計算も行われることになり、話者が切り換え前の認識対象語彙で発声しても正しく認識することが可能になる。また、その場合、図4に示す音声認識装置のように認識対象語彙そのものを切り換えた場合と同様に、出力部32の表示内容に対応した語彙の認識精度を高める機能は損なわれないのである。
【0045】
図3は、上記重み係数決定部29によって実行される重み決定処理動作のフローチャートである。以下、図3に従って、重み決定の動作について説明する。ここで、出力部32が現在選択している表示内容に対応する認識対象語彙セット用の重み関数をW2(t)とし、非選択表示内容に対応する認識対象語彙セット用の重み関数をW1(t)とする。認識対象語彙切り換え要求部31から切り換えが要求されると重み決定処理動作がスタートする。
【0046】
ステップS1で、上記タイマ部30からの時刻信号に基づいて、認識対象語彙の切り換え要求時刻t0が取得される。ステップS2で、重み値wの算出回数jが「0」に初期化される。ステップS3で、算出回数jがインクリメントされる。ステップS4で、切り換え要求時刻t0を取得してから又は前回重み値wを算出してから所定時間ΔTが経過したか否かが判別される。その結果、経過していればステップS5に進む。ステップS5で、現在の時刻(t0+j・ΔT)が時刻t2を越えているか否かが判別される。その結果、超えていれば重み決定処理動作を終了する一方、越えていなければステップS6に進む。
【0047】
ステップS6で、上記重み関数Wi(t)の関数番号iが「1」に初期化される。ステップS7で、重み関数W1(t)における切り換え要求時刻t0からの経過時間tに「j・ΔT」が代入されて、重みの値wiが算出される。ステップS8で、関数番号iがインクリメントされる。ステップS9で、関数番号iの値が「2」よりも大きいか否かが判別される。その結果、「2」以下であればステップS7にリターンして重み値w2の算出に移行する一方、「2」よりも大きければ、総ての認識対象語彙セットA,Bに対応する現時刻での重みが算出されたと判断されて、ステップS10に進む。ステップS10で、上記算出された現時刻での重み値w1,w2の配列が認識部25に出力される。そうした後、ステップS3にリターンして、次の時刻での重み値w1,w2の算出に移行する。
【0048】
以後、上記ステップS3〜ステップS10を繰り返し、ステップS5において現在の時刻が時刻t2を越えていると判別されると、重み決定処理動作を終了する。その後は、表示内容に対応する認識対象語彙セット用の重み値w2として「1」が所定時間ΔT毎に出力され、非選択表示内容に対応する認識対象語彙セット用の重み値w1として所定値「a」が所定時間ΔT毎に出力される。そして、次に認識対象語彙切り換え要求部31から切り換え要求が出力されると、上記重み決定処理動作がスタートするのである。
【0049】
上述のように、本実施の形態における認識部25は、音響モデル格納部26に格納された音響モデルを用いて、第1認識対象語彙セット格納部27に格納された認識対象語彙セットAと第2認識対象語彙セット格納部28に格納された認識対象語彙セットBとを構成する単語の尤度Pを算出する。その際における出力部32の表示内容の切り換えに伴う認識対象語彙セットの切り換えは、認識対象語彙セットそのものを切り換えるのではなく、選択,非選択認識対象語彙セットを構成する単語の尤度Pに掛ける重みw2,w1の値を「1」と0近傍の所定値「a」とに切り換えることによって行う。そして、その場合に、重みw2,w1の値を段階的に切り換えるのではなく、認識対象語彙切り換え要求部31から切り換え要求がなされた時刻t0からの経過時間「j・ΔT」に比例して徐々に値「1」から値「a」へ又は値「a」から値「1」へ切り換えるようにしている。
【0050】
したがって、本実施の形態によれば、何らかの理由で話者が認識対象語彙の発声の機会を逸してしまい、且つ、自動的に認識対象語彙が切り換えられてしまっても、切り換え前の認識対象語彙セットの単語に関する尤度w・Pの計算をも行うので、話者が切り換え前の認識対象語彙で発声しても正しく認識することができる。また、その場合に、図4に示す音声認識装置のごとく認識対象語彙そのものを切り換える場合と同様に、出力部32の表示内容に対応した認識対象語彙の認識精度を高める機能は損なわれることはない。
【0051】
尚、上記実施の形態においては、選択認識対象語彙セット用の重み関数W2(t)および非選択表示内容に対応する認識対象語彙セット用の重み関数W1(t)を、認識対象語彙切り換え要求部31による切り換え要求時刻t0からの経過時間「j・ΔT」に比例して、値「1」,「a」から値「a」,「1」へ直線的に切り換えるようにしている。しかしながら、この発明においては、関数W1(t),W2(t)の形状は直線に限定されるものではない。曲線にして、表示内容の切り換え時刻t1までの関数W2(t)の値を高める一方関数W1(t)の値を低め、表示内容の切り換え時刻t1以降の関数W2(t)の値を低める一方関数W1(t)の値を高めてもよい。
【0052】
また、上記実施の形態においては、上記重み係数決定部29を、認識対象語彙切り換え要求部31からの切り換え要求時刻tOを基準として所定時間ΔTが経過する毎に重み値w1,w2を決定して認識部25に出力するように構成し、認識部25は、入力される重み値w1,w2を必要に応じて用いて認識処理を行うように構成している。しかしながら、この発明はこれに限定されるものではなく、認識部25を、認識を行う際に重み係数決定部29に対して重み決定要求を出すように構成し、重み係数決定部29は、重み決定要求を受けると、認識対象語彙切り換え要求部31による切り換え要求時刻tOからの経過時間を重み関数Wi(t)に代入して算出するように構成しても差し支えない。
【0053】
ところで、上記各実施の形態における上記認識部,出力部,タイマ部,認識対象語彙切り換え要求部および重み決定部としての機能は、プログラム記録媒体に記録された音声認識処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声認識処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0054】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0055】
また、上記各実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0056】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0057】
【発明の効果】
以上より明らかなように、第1の発明の音声認識装置は、出力部の出力内容に対応した複数の認識対象語彙セットを認識語彙格納部に格納し、重み決定部によって、タイマ部からの時刻信号に基づいて上記各認識対象語彙セット用の重みを決定し、認識部によって、上記全認識対象語彙セットおよび上記決定された各重みを用いて入力音声を認識するので、認識対象語彙切り換え要求部による認識対象語彙の切り換え要求に基づいて、上記出力部の出力内容の切り換えに応じた認識対象語彙セットに切り換えられる際に、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、切り換え後の認識対象語彙の認識精度を高めることができる。
【0058】
さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに、切り換え前の認識対象語彙で発声しても、切り換え前の認識対象語彙セットの語をも用いて認識を行うので、上記切り換え前の認識対象語彙セットの語に関しても高い認識精度を得ることができる。
【0059】
すなわち、この発明によれば、自動的に認識対象語彙を切り換える場合でも高い認識精度を得ることができる。さらに、その際に話者に何らかの操作や待ち時間を負担させることがなく、使い易い音声認識装置を実現できる。
【0060】
また、上記第1の発明の音声認識装置は、上記重み決定部を、上記認識対象語彙切り換え要求部によって認識対象語彙の切り換えが要求されてから重み決定までの経過時間に応じて、切り換え前の認識対象語彙セット用の重みを低下させる一方、切り換え後の認識対象語彙セット用の重みを上昇させるように成せば、認識に用いられる上記認識対象語彙の切り換えを徐々に行うことができる。したがって、上記切り換え前の認識対象語彙セットの語に関しても高い認識精度を得ることができる。
【0061】
また、上記第1の発明の音声認識装置は、上記認識部を、全認識対象語彙セットを構成する各語の尤度を算出し、各語の尤度の値に各語が属する認識対象語彙セット用の重みを掛け、その値が最も高い語を認識結果とするように成せば、認識に用いられている認識対象語彙セット用の重みと認識に用いられていない認識対象語彙セット用の重みとを最適に設定すれば、上記出力部の出力内容に対応している切り換え後の認識対象語彙の認識精度を高めることと、話者が切り換え前の認識対象語彙で発声した場合でも高い認識精度を得ることとを、容易に達成することができる。
【0062】
また、上記第1の発明の音声認識装置は、上記出力部を、上記認識対象語彙切り換え要求部からの認識対象語彙切り換え要求がなされた時点に出力している出力内容に対応する認識対象語彙セット用の重みの値と、次に出力すべき出力内容に対応する認識対象語彙セット用の重みの値との差が所定値未満になると、上記出力内容を切り換えるように成せば、上記認識対象語彙セットが切り換えられるのに呼応して、上記出力部の出力内容を対応する出力内容に切り換えることができる。
【0063】
また、第2の発明の音声認識方法は、タイマ部からの時刻信号に基づいて出力部の出力内容に対応した複数の認識対象語彙セット用の重みを決定し、全認識対象語彙セットおよび上記決定された各重みを用いて入力音声を認識するので、認識対象語彙セットが切り換えられる際に、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、上記出力部の出力内容に応じた切り換え後の認識対象語彙の認識精度を高めることができる。
【0064】
さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに、切り換え前の認識対象語彙で発声しても、切り換え前の認識対象語彙セットの語をも用いて認識を行うので、上記切り換え前の認識対象語彙セットの語に関しても高い認識精度を得ることができる。
【0065】
また、第3の発明のプログラム記録媒体は、コンピュータを、請求項1における認識部,出力部,タイマ部,認識対象語彙切り換え要求部および重み決定部として機能させる音声認識処理プログラムが記録されているので、請求項1の場合と同様に、切り換え前の認識対象語彙セット用の重みの値を低めるようにすれば、上記出力部の出力内容に対応している切り換え後の認識対象語彙の認識精度を高めることができる。さらに、話者が、上記認識対象語彙セットが切り換えられたことを知らずに切り換え前の認識対象語彙で発声したとしても、高い認識精度を得ることができる。
【図面の簡単な説明】
【図1】この発明の音声認識装置におけるブロック図である。
【図2】選択,非選択認識対象語彙セット用の重み関数の時間変化を示す図である。
【図3】図1における重み係数決定部によって実行される重み決定処理動作のフローチャートである。
【図4】認識対象語彙の切り換えが可能な従来の音声認識装置のブロック図である。
【符号の説明】
21…音声認識装置、
22…音声入力部、
23…A/D変換部、
24…音響分析部、
25…認識部、
26…音響モデル格納部、
27…第1認識対象語彙セット格納部、
28…第2認識対象語彙セット格納部、
29…重み係数決定部、
30…タイマ部、
31…認識対象語彙切り換え要求部、
32…出力部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition device and a voice recognition method mounted on a computer or a portable information terminal for recognizing voice uttered by a human, and a program recording medium storing a voice recognition processing program.
[0002]
[Prior art]
In a speech recognition device, there is a recognition method in which a recognition target vocabulary is switched as needed in order to increase recognition accuracy. As an application example of the voice recognition device using such a recognition method, in a device having a display device such as a personal computer or a Japanese word processor, an operation guide of the device by menu display using the display device is provided by using voice recognition. It is possible to do.
[0003]
According to the operation guide as described above, the operation can be learned while confirming the operation method and the display of the effect by the operation on the screen. When the amount of information from the display device is small, such as when the screen of the display device is narrow, the display of the operation guide related to the operation of a plurality of devices may be automatically switched over time. If voice is used for such an operation guide, it is easy for the user to understand, and the number of operation buttons can be reduced to simplify the operation. In this case, if the recognition target vocabulary is switched together with the switching of the operation guide display relating to the operation of a plurality of devices, the recognition target vocabulary can be reduced, so that high recognition accuracy can be obtained.
[0004]
In the application of the recognition method for switching the recognition target words, a plurality of sets of the recognition target words related to each menu to be switched and displayed are stored for the number of menus. By switching the vocabulary to be recognized in synchronization with the switching of the menu display due to the operation of the user or the passage of time, the recognition processing can be performed on the minimum vocabulary in each menu. Accuracy can be improved. In this case, when the menu display is automatically switched over time, the device automatically switches the vocabulary to be recognized.
[0005]
Hereinafter, a speech recognition apparatus capable of switching the vocabulary to be recognized will be described. FIG. 4 is a block diagram showing an example of a speech recognition device capable of switching the vocabulary to be recognized. Here, it is assumed that the
[0006]
The voice input to the
[0007]
The acoustic
[0008]
The switching operation of the recognition target vocabulary is performed by a method disclosed in Japanese Patent Application Laid-Open No. Hei 6-337695. The recognition target vocabulary includes a recognition target vocabulary set A and a recognition target vocabulary set B. It is assumed that the recognition target vocabulary set A stores the identifier of the recognition target vocabulary set A at the present time. It is assumed that the
[0009]
In this state, when a predetermined time elapses, the
[0010]
When the determination of the appropriate vocabulary set to be recognized is completed, the recognizing
[0011]
That is, first, the HMM of each word included in the recognition target vocabulary is obtained. Specifically, the HMM of each phoneme stored in the acoustic
[0012]
Next, for the HMM of each word, the occurrence probability is obtained using the feature vector from the
[0013]
Hereinafter, the recognition algorithm in the
X = xvec1, xvec2, xvec3, ..., xvect, ..., xvecI
And Note that "xvec"i" is a multidimensional vector. Hereinafter, the vector x is referred to as “xvec". Further, a set of initial states of the model M is S, and a set of final states is F. Also, with “i, j” as the state number, the transition sequence of the j-th state is
Q = qO j, Q1 j, Q2 j, ..., qt j, ..., qI j
It expresses. In the above equation, “qt j] Is the input symbol x of the t-th frame.vecThe transition state is represented by t. Where qO j∈S and qI j∈F. Further, the initial probability of the initial state is πi: Σqi ∈ Sπi= 1 and state qiFrom state qjTransition probability to aijAnd then xvecThe output probability that i is output is bij(Xveci), the occurrence probability (likelihood) P (X | M) of the input sequence is
Is represented by The calculation of the occurrence probability (likelihood) P (X | M) is calculated for the HMMs corresponding to all the words included in the vocabulary to be recognized, and the word corresponding to the HMM exhibiting the highest occurrence probability (likelihood) P is calculated. The recognition result is output to the
[0014]
[Problems to be solved by the invention]
However, the speech recognition apparatus to which the recognition target vocabulary switching operation disclosed in the above-mentioned conventional Japanese Patent Laid-Open Publication No. Hei 6-337695 is applied has the following problems. That is, as described above, in the recognition target vocabulary switching operation disclosed in Japanese Patent Laid-Open No. 6-337695, when the speech input start time Ts is later than the recognition target vocabulary switching request time Tc, the recognition target vocabulary is not changed. The set is switched. This method is effective because when a request to switch the recognition target vocabulary is made by the operation of the speaker, the utterance is always performed after the request to switch the recognition target vocabulary is made.
[0015]
However, in the case of a speech recognition device in which the vocabulary to be recognized is automatically switched over time as in the speech recognition device shown in FIG. 4, the switching of the vocabulary to be recognized has nothing to do with the consciousness of the speaker. Done without. Therefore, if for some reason the speaker misses the opportunity to utter the recognition target vocabulary, and the recognition target vocabulary is automatically switched, before the switch that the speaker wanted to utter by any method, It is necessary to return to the setting state of the recognition target vocabulary. In that case, there is a problem that the speaker is burdened with some operation or the speaker is automatically made to wait until the recognition target vocabulary before switching is set.
[0016]
Therefore, an object of the present invention is to provide an easy-to-use speech recognition device and a speech recognition method capable of obtaining high recognition accuracy even when the recognition target vocabulary is automatically switched, and a program recording medium storing a speech recognition processing program. It is in.
[0017]
[Means for Solving the Problems]
In order to achieve the above object, a first aspect of the present invention provides a recognition unit for recognizing an input voice, an output unit for outputting information including a recognition result of the recognition unit, and a recognition target vocabulary used for the recognition. A recognition vocabulary storage unit, a timer unit, and a recognition target vocabulary switching request unit that requests switching of the recognition target vocabulary based on a time signal from the timer unit. The vocabulary to be recognized is classified into a plurality of vocabulary sets to be recognized, each of which is a set of words to be recognized, corresponding to the output of the output unit. The switching is performed in units of the recognition target vocabulary set, and a weight for determining the weight for each recognition target vocabulary set based on the time signal from the timer unit. Comprises a tough, the recognition unit, using each weight being the total recognition target vocabulary set and the determined, is characterized in that is adapted to recognize the input speech.
[0018]
According to the above configuration, the recognition unit recognizes the input speech using the weight for each recognition target vocabulary set determined by the weight determination unit based on the entire recognition target vocabulary set and the time signal from the timer unit. . At this time, if the recognition target vocabulary switching request unit requests the switching of the recognition target vocabulary based on the time signal from the timer unit, the currently used recognition target vocabulary set is switched to the output content of the output unit. Is switched to the vocabulary set to be recognized according to. Therefore, if the weight value for the recognition target vocabulary set before switching is reduced, the recognition accuracy of the recognition target vocabulary after switching corresponding to the output content of the output unit can be improved.
[0019]
Furthermore, even if the speaker does not know that the recognition target vocabulary set has been switched, and utters in the recognition target vocabulary before switching, the recognition is performed using the words of the recognition target vocabulary set before switching. Therefore, high recognition accuracy can be obtained for the words in the vocabulary set to be recognized before the switching.
[0020]
The speech recognition device according to the first aspect of the present invention may further comprise: the weight determining unit determines the weight before the switching according to an elapsed time from when the recognition target vocabulary switching request unit requests the switching of the recognition target vocabulary to when the weight is determined. It is desirable to reduce the weight for the recognition target vocabulary set while increasing the weight for the switched recognition target vocabulary set.
[0021]
According to the above configuration, as the elapsed time from when the switching of the recognition target vocabulary is requested by the recognition target vocabulary switching request unit increases, the recognition accuracy of the recognition target vocabulary before the switching decreases, , The recognition accuracy of the recognition target vocabulary is increased. In this way, the vocabulary to be recognized used for recognition is gradually switched.
[0022]
The speech recognition apparatus according to the first aspect of the present invention may be configured such that the recognition unit calculates the likelihood of each word constituting the all-recognition-target vocabulary set, and calculates the likelihood of each word belonging to the likelihood value of each word It is desirable that the weight for the vocabulary set is multiplied so that the word having the highest value is used as the recognition result.
[0023]
According to the above configuration, it is possible to cope with the output content of the output unit by optimally setting the weight for the recognition target vocabulary set used for recognition and the weight for the recognition target vocabulary set not used for recognition. It is easy to increase the recognition accuracy of the recognition target vocabulary after the switching, and to obtain high recognition accuracy even when the speaker utters in the recognition target vocabulary before the switching.
[0024]
Further, the speech recognition apparatus according to the first aspect of the present invention provides the recognition target vocabulary set corresponding to the output content that is output when the recognition target vocabulary switching request is made from the recognition target vocabulary switching request unit. It is desirable to switch the output contents when the difference between the value of the weight for use and the value of the weight for the recognition target vocabulary set corresponding to the output contents to be output next is less than a predetermined value.
[0025]
According to the configuration, in response to the switching of the vocabulary set to be recognized, the output content of the output unit is switched to the corresponding output content.
[0026]
Further, the speech recognition method of the second invention automatically switches the recognition target vocabulary based on a time signal from a timer unit when recognizing an input voice using the recognition target vocabulary and outputting a recognition result. A plurality of output contents are switched to an output unit and output, and the recognition target vocabulary is switched in units of a plurality of recognition target vocabulary sets each of which is a set of recognition target words corresponding to each of the output contents. And determining the weight for each of the recognition target vocabulary sets based on the time signal from the timer unit, and recognizing the input speech using the all recognition target vocabulary sets and the determined weights. Features.
[0027]
According to the above configuration, the input speech is recognized using the weights for each recognition target vocabulary set determined based on the entire recognition target vocabulary set and the time signal from the timer unit. At this time, when the switching of the recognition target vocabulary is requested based on the time signal from the timer unit, the currently used recognition target vocabulary set is changed to the recognition target vocabulary set corresponding to the switching of the output content of the output unit. Is switched to. Therefore, if the weight value for the recognition target vocabulary set before switching is reduced, the recognition accuracy of the recognition target vocabulary after switching corresponding to the output content of the output unit can be improved.
[0028]
Furthermore, even if the speaker does not know that the recognition target vocabulary set has been switched, and utters in the recognition target vocabulary before switching, the recognition is performed using the words of the recognition target vocabulary set before switching. Therefore, high recognition accuracy can be obtained for the words in the vocabulary set to be recognized before the switching.
[0029]
A program recording medium according to a third aspect of the present invention stores a speech recognition processing program for causing a computer to function as a recognition unit, an output unit, a timer unit, a recognition target vocabulary switching request unit, and a weight determination unit. It is characterized by:
[0030]
According to the above configuration, similarly to the case of
[0031]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the illustrated embodiments. FIG. 1 is a block diagram of the speech recognition device according to the present embodiment. The
[0032]
The
[0033]
The
[0034]
The recognizing
[0035]
The acoustic
[0036]
The
[0037]
The weighting
[0038]
In the first recognition target vocabulary set
[0039]
The
[0040]
FIG. 2 shows a weighting function W for a vocabulary set to be recognized corresponding to the display content currently selected by the output unit 32.2(T) and the weight function W for the vocabulary set to be recognized corresponding to the non-selected display contents1(T) shows a time change. Weight function W1The value of (t) is the time t at which the request to switch the vocabulary to be recognized is output.0Starts monotonically increasing from a predetermined value “a” near 0 which is smaller than 1 at time t2Thereafter, the value becomes “1”. On the other hand, the weight function W2The value of (t) is the weight function W1Contrary to the value of (t), time t0Starts decreasing monotonically from the value “1” at time t2Thereafter, the value becomes the predetermined value “a”. In that case, time t1And weight w1And weight w2Is the threshold value h. When the value of the difference is less than the threshold value h, that is, at the time t when the switching of the recognition target vocabulary is requested,0From time T (> (t1-T0After)), the display contents displayed on the screen are switched.
[0041]
That is, when the
[0042]
As described above, in the present embodiment, the display content of the screen is automatically switched by the
[0043]
In other words, the switching of the recognition target vocabulary in the conventional speech recognition apparatus shown in FIG. 4 is performed by switching the recognition target vocabulary itself used in the calculation of the likelihood P, whereas in the present embodiment, the recognition target vocabulary is switched. The two sets of recognition target words used in the calculation of the degree P are performed by gradually changing the value of the weight w applied to the likelihood P between “1” and a predetermined value “a” near 0 without switching. is there.
[0044]
Therefore, in the present embodiment, even if the speaker loses the opportunity to utter the recognition target vocabulary for some reason and the recognition target vocabulary is automatically switched, the recognition target vocabulary before switching is not changed. The likelihood w · P for the word is also calculated, so that even if the speaker utters the vocabulary to be recognized before switching, it can be correctly recognized. Also, in this case, the function of improving the recognition accuracy of the vocabulary corresponding to the display content of the
[0045]
FIG. 3 is a flowchart of the weight determination processing operation performed by the weight
[0046]
In step S1, based on the time signal from the
[0047]
In step S6, the weight function WiThe function number i of (t) is initialized to “1”. In step S7, the weight function W1Switching request time t in (t)0“J · ΔT” is substituted for the elapsed time t fromiIs calculated. In step S8, the function number i is incremented. In step S9, it is determined whether or not the value of the function number i is larger than “2”. As a result, if it is “2” or less, the process returns to step S7 to return to the weight value w2On the other hand, if it is larger than “2”, it is determined that the weights at the current time corresponding to all the vocabulary sets A and B to be recognized have been calculated, and the process proceeds to step S10. In step S10, the calculated weight value w at the current time is calculated.1, W2Are output to the recognizing
[0048]
Thereafter, steps S3 to S10 are repeated, and in step S5, the current time is set to time t.2If it is determined that the number exceeds the threshold value, the weight determination processing operation ends. After that, the weight value w for the recognition target vocabulary set corresponding to the display content2Is output every predetermined time ΔT, and the weight value w for the vocabulary set to be recognized corresponding to the non-selected display contents1Is output every predetermined time ΔT. Then, when a switching request is output from the recognition target vocabulary
[0049]
As described above, the
[0050]
Therefore, according to the present embodiment, even if the speaker misses the opportunity to utter the recognition target vocabulary for some reason and the recognition target vocabulary is automatically switched, the recognition target vocabulary before switching is not changed. Since the likelihood w · P for the words in the set is also calculated, even if the speaker utters the recognition target vocabulary before switching, it can be correctly recognized. Further, in this case, the function of improving the recognition accuracy of the recognition target vocabulary corresponding to the display content of the
[0051]
In the above embodiment, the weighting function W for the vocabulary set to be selected and recognized is2(T) and weighting function W for the vocabulary set to be recognized corresponding to the non-selected display contents1(T) is changed to a switching request time t by the recognition target vocabulary switching request unit 31.0Are linearly switched from the values “1” and “a” to the values “a” and “1” in proportion to the elapsed time “j · ΔT” from. However, in the present invention, the function W1(T), W2The shape of (t) is not limited to a straight line. Curve the display content switching time t1Function W up to2Function W while increasing the value of (t)1(T) is reduced, and the display content switching time t1Subsequent function W2Function W while lowering the value of (t)1The value of (t) may be increased.
[0052]
Further, in the above embodiment, the weighting
[0053]
By the way, the functions as the recognition unit, the output unit, the timer unit, the recognition target vocabulary switching request unit, and the weight determination unit in each of the above embodiments are realized by a speech recognition processing program recorded on a program recording medium. The program recording medium in the above embodiment is a program medium composed of a ROM (Read Only Memory). Alternatively, it may be a program medium that is mounted on and read from an external auxiliary storage device. In any case, the program reading means for reading the voice recognition processing program from the program medium may have a configuration of directly accessing and reading the program medium, or may be a RAM (random access memory). A configuration may be adopted in which the program is downloaded to a provided program storage area (not shown), and the program storage area is accessed and read. It is assumed that a download program for downloading from the program medium to the program storage area of the RAM is stored in the main unit in advance.
[0054]
Here, the above-mentioned program medium is configured to be separable from the main body side, such as a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy disk or a hard disk, a CD (compact disk) -ROM, an MO (magneto-optical). Disk system of optical disks such as disks, MDs (mini disks), DVDs (digital video disks), card systems such as IC (integrated circuit) cards and optical cards, mask ROMs, EPROMs (ultraviolet erasable ROMs), and EEPROMs (electrical This is a medium that fixedly carries a program, including a semiconductor memory system such as an erasable ROM) and a flash ROM.
[0055]
Further, if the voice recognition device in each of the above embodiments has a configuration that can be connected to a communication network including the Internet with a modem, the program media can be dynamically programmed by downloading from the communication network or the like. May be used as the medium. In this case, it is assumed that a download program for downloading from the communication network is stored in the main device in advance. Alternatively, it shall be installed from another recording medium.
[0056]
It should be noted that what is recorded on the recording medium is not limited to only a program, and data can also be recorded.
[0057]
【The invention's effect】
As is clear from the above, the speech recognition device of the first invention stores a plurality of recognition target vocabulary sets corresponding to the output contents of the output unit in the recognition vocabulary storage unit, and uses the weight determination unit to determine the time from the timer unit. A weight for each of the recognition target vocabulary sets is determined based on the signal, and the recognition unit recognizes the input speech using the entire recognition target vocabulary set and each of the determined weights. When switching to the recognition target vocabulary set corresponding to the switching of the output content of the output unit based on the request for switching the recognition target vocabulary by the above, the value of the weight for the recognition target vocabulary set before the switching is reduced. Thus, the recognition accuracy of the recognition target vocabulary after switching can be improved.
[0058]
Furthermore, even if the speaker utters in the recognition target vocabulary before switching without knowing that the recognition target vocabulary set has been switched, recognition is performed using the words in the recognition target vocabulary set before switching. High recognition accuracy can also be obtained for the words in the recognition target vocabulary set before the switching.
[0059]
That is, according to the present invention, high recognition accuracy can be obtained even when the vocabulary to be recognized is automatically switched. Furthermore, an easy-to-use speech recognition device can be realized without burdening the speaker with any operation or waiting time.
[0060]
The speech recognition device according to the first aspect of the present invention may further comprise: the weight determining unit determines the weight before the switching according to an elapsed time from when the recognition target vocabulary switching request unit requests the switching of the recognition target vocabulary to when the weight is determined. If the weight for the recognition target vocabulary set is reduced while the weight for the recognition target vocabulary set after switching is increased, the recognition target vocabulary used for recognition can be switched gradually. Therefore, high recognition accuracy can be obtained for the words in the vocabulary set to be recognized before the switching.
[0061]
The speech recognition apparatus according to the first aspect of the present invention may be configured such that the recognition unit calculates the likelihood of each word constituting the entire vocabulary set to be recognized, and the vocabulary to be recognized to which each word belongs to the likelihood value of each word. If the weight for the set is multiplied and the word having the highest value is used as the recognition result, the weight for the vocabulary set to be recognized used for recognition and the weight for the vocabulary set to be recognized not used for recognition If the setting is optimally set, the recognition accuracy of the vocabulary to be recognized after switching corresponding to the output content of the output unit is improved, and the recognition accuracy is high even when the speaker utters the vocabulary to be recognized before switching. Can be easily achieved.
[0062]
Further, the speech recognition apparatus according to the first aspect of the present invention provides the recognition target vocabulary set corresponding to the output content that is output when the recognition target vocabulary switching request is made from the recognition target vocabulary switching request unit. If the difference between the value of the weight for use and the value of the weight for the recognition target vocabulary set corresponding to the output content to be output next is less than a predetermined value, the output content is switched. In response to the switching of the set, the output content of the output unit can be switched to the corresponding output content.
[0063]
The speech recognition method according to a second aspect of the present invention determines a weight for a plurality of vocabulary sets to be recognized corresponding to the output content of the output unit based on a time signal from a timer unit, Since the input speech is recognized using the weights thus set, when the vocabulary set to be recognized is switched, if the value of the weight for the vocabulary set to be recognized before switching is reduced, the output content of the output unit can be reduced. The recognition accuracy of the vocabulary to be recognized after the switching can be improved.
[0064]
Furthermore, even if the speaker utters in the recognition target vocabulary before switching without knowing that the recognition target vocabulary set has been switched, recognition is performed using the words in the recognition target vocabulary set before switching. High recognition accuracy can also be obtained for the words in the recognition target vocabulary set before the switching.
[0065]
A program recording medium according to a third aspect of the present invention stores a speech recognition processing program for causing a computer to function as a recognition unit, an output unit, a timer unit, a recognition target vocabulary switching request unit, and a weight determination unit. Therefore, as in the case of
[Brief description of the drawings]
FIG. 1 is a block diagram of a speech recognition apparatus according to the present invention.
FIG. 2 is a diagram showing a temporal change of a weight function for a selected / non-selected vocabulary set to be recognized.
FIG. 3 is a flowchart of a weight determination processing operation performed by a weight coefficient determination unit in FIG. 1;
FIG. 4 is a block diagram of a conventional speech recognition apparatus capable of switching a vocabulary to be recognized.
[Explanation of symbols]
21 ... Speech recognition device,
22 ... voice input unit,
23 ... A / D converter,
24 ... Acoustic analysis unit,
25 ... Recognition unit
26 ... Acoustic model storage unit
27: first recognition target vocabulary set storage unit,
28 second vocabulary set to be recognized storage unit,
29 ... weight coefficient determining unit,
30 ... Timer part,
31: recognition target vocabulary switching request unit
32 output part.
Claims (6)
上記出力部は、複数の出力内容を切り換え出力するようになっており、
上記認識対象語彙は、上記出力部の出力内容に対応した認識対象語の集合でなる複数の認識対象語彙セットに分類され、上記認識対象語彙の切り換えは上記認識対象語彙セットの単位で行われるようになっており、
上記タイマ部からの時刻信号に基づいて、上記各認識対象語彙セット用の重みを決定する重み決定部を備えて、
上記認識部は、上記全認識対象語彙セットおよび上記決定された各重みを用いて、入力音声を認識するようになっていることを特徴とする音声認識装置。A recognition unit for recognizing an input voice, an output unit for outputting information including a recognition result of the recognition unit, a recognition vocabulary storage unit for storing a recognition target vocabulary used at the time of the recognition, a timer unit, In a speech recognition apparatus having a recognition target vocabulary switching request unit that requests the switching of the recognition target vocabulary based on a time signal from a timer unit,
The output unit is configured to switch and output a plurality of output contents,
The recognition target vocabulary is classified into a plurality of recognition target vocabulary sets each including a set of recognition target words corresponding to the output contents of the output unit, and the switching of the recognition target vocabulary is performed in units of the recognition target vocabulary set. Has become
Based on the time signal from the timer unit, comprising a weight determination unit that determines the weight for each of the recognition target vocabulary set,
The speech recognition device, wherein the recognition unit recognizes the input speech using the all-recognition target vocabulary set and each of the determined weights.
上記重み決定部は、上記認識対象語彙切り換え要求部によって認識対象語彙の切り換えが要求されてから重み決定までの経過時間に応じて、切り換え前の認識対象語彙セット用の重みを低下させる一方、切り換え後の認識対象語彙セット用の重みを上昇させるようになっていることを特徴とする音声認識装置。The speech recognition device according to claim 1,
The weight determining unit reduces the weight for the recognition target vocabulary set before switching according to the elapsed time from when the recognition target vocabulary switching request unit requests the switching of the recognition target vocabulary to when the weight is determined. A speech recognition apparatus characterized in that the weight for a later set of vocabulary to be recognized is increased.
上記出力部は、上記認識対象語彙切り換え要求部からの認識対象語彙切り換え要求がなされた時点に出力している出力内容に対応する認識対象語彙セット用の重みの値と、次に出力すべき出力内容に対応する認識対象語彙セット用の重みの値との差が所定値未満になると、上記出力内容を切り換えるようになっていることを特徴とする音声認識装置。The speech recognition device according to claim 2,
The output unit outputs a weight value for a recognition target vocabulary set corresponding to the output content output at the time when the recognition target vocabulary switching request is made from the recognition target vocabulary switching request unit, and an output to be output next. A speech recognition apparatus characterized in that the output contents are switched when a difference from a value of a weight for a recognition target vocabulary set corresponding to contents is less than a predetermined value.
複数の出力内容を出力部に切り換え出力し、
上記各出力内容に対応した認識対象語の集合でなる複数の認識対象語彙セットの単位で、上記認識対象語彙の切り換えを行い、
上記タイマ部からの時刻信号に基づいて、上記各認識対象語彙セット用の重みを決定し、
上記全認識対象語彙セットおよび上記決定された各重みを用いて、上記入力音声の認識を行うことを特徴とする音声認識方法。When recognizing an input voice using a recognition target vocabulary and outputting a recognition result, a voice recognition method for automatically switching the recognition target vocabulary based on a time signal from a timer unit,
Switching multiple output contents to the output section for output,
Switching of the recognition target vocabulary is performed in units of a plurality of recognition target vocabulary sets each including a set of recognition target words corresponding to the respective output contents,
Based on the time signal from the timer unit, determine the weight for each recognition vocabulary set,
A speech recognition method, wherein the input speech is recognized using the all vocabulary set to be recognized and each of the determined weights.
請求項1における認識部,出力部,タイマ部,認識対象語彙切り換え要求部および重み決定部
として機能させる音声認識処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。Computer
2. A computer-readable program recording medium, wherein the speech recognition processing program functioning as a recognition unit, an output unit, a timer unit, a recognition target vocabulary switching request unit and a weight determination unit according to claim 1 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000220576A JP3563018B2 (en) | 2000-07-21 | 2000-07-21 | Speech recognition device, speech recognition method, and program recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000220576A JP3563018B2 (en) | 2000-07-21 | 2000-07-21 | Speech recognition device, speech recognition method, and program recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002041078A JP2002041078A (en) | 2002-02-08 |
JP3563018B2 true JP3563018B2 (en) | 2004-09-08 |
Family
ID=18715159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000220576A Expired - Fee Related JP3563018B2 (en) | 2000-07-21 | 2000-07-21 | Speech recognition device, speech recognition method, and program recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3563018B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4056711B2 (en) * | 2001-03-19 | 2008-03-05 | 日産自動車株式会社 | Voice recognition device |
WO2006059451A1 (en) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device |
JPWO2011016129A1 (en) * | 2009-08-07 | 2013-01-10 | パイオニア株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
US9978367B2 (en) * | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
-
2000
- 2000-07-21 JP JP2000220576A patent/JP3563018B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002041078A (en) | 2002-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545243B (en) | Pronunciation quality evaluation method, pronunciation quality evaluation device, electronic equipment and storage medium | |
JP4195428B2 (en) | Speech recognition using multiple speech features | |
Rigoll | Speaker adaptation for large vocabulary speech recognition systems using speaker Markov models | |
JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
CN111402891B (en) | Speech recognition method, device, equipment and storage medium | |
US20060009965A1 (en) | Method and apparatus for distribution-based language model adaptation | |
US20050256706A1 (en) | Removing noise from feature vectors | |
US20050246171A1 (en) | Model adaptation apparatus, model adaptation method, storage medium, and pattern recognition apparatus | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
JPH08110791A (en) | Speech recognizing method | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
WO1995020217A1 (en) | Speech recognition system accommodating different sources | |
EP1385147B1 (en) | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes | |
EP1465154A2 (en) | Method of speech recognition using variational inference with switching state space models | |
JP5007401B2 (en) | Pronunciation rating device and program | |
JP2004226982A (en) | Method for speech recognition using hidden track, hidden markov model | |
JP4074543B2 (en) | Audio processing apparatus, audio processing method, audio processing program, and program recording medium | |
JP3563018B2 (en) | Speech recognition device, speech recognition method, and program recording medium | |
JP4666129B2 (en) | Speech recognition system using speech normalization analysis | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
JP4244524B2 (en) | Voice authentication apparatus, voice authentication method, and program | |
JP4798606B2 (en) | Speech recognition apparatus and program | |
JP4962930B2 (en) | Pronunciation rating device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040601 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090611 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100611 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |