JP2004191705A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004191705A
JP2004191705A JP2002360356A JP2002360356A JP2004191705A JP 2004191705 A JP2004191705 A JP 2004191705A JP 2002360356 A JP2002360356 A JP 2002360356A JP 2002360356 A JP2002360356 A JP 2002360356A JP 2004191705 A JP2004191705 A JP 2004191705A
Authority
JP
Japan
Prior art keywords
word
score
matching
model
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002360356A
Other languages
English (en)
Inventor
Masahiko Ikeda
雅彦 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renesas Technology Corp
Original Assignee
Renesas Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renesas Technology Corp filed Critical Renesas Technology Corp
Priority to JP2002360356A priority Critical patent/JP2004191705A/ja
Priority to US10/612,938 priority patent/US20040117187A1/en
Priority to CNA031541003A priority patent/CN1506937A/zh
Publication of JP2004191705A publication Critical patent/JP2004191705A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語ごとに行う音声認識の照合処理においても、照合処理数を削減して処理速度を高速化することが可能な音声認識装置を提供する。
【解決手段】単語モデル生成器4によって生成された単語モデルの集合は、照合対象単語選択器3に与えられ、そのうちから照合対象となる1つの単語モデルが選択される。単語照合処理器2では、照合対象となっている現状態に対するパス元のスコアが、単語照合処理器2に接続される最高値記憶バッファ8に記憶された、スコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入対象として累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は音声認識装置に関し、特に単語音声照合処理を高速化した音声認識装置に関する。
【0002】
【従来の技術】
従来の音声認識方法の一例として、特許文献1に開示される方法が挙げられる。すなわち、特許文献1においては、隠れマルコフモデル(Hidden Markov Model)によるネットワークを状態と接点(ノード)により表現し、このネットワーク上においてビタビ(Viterbi)アルゴリズムにより、各状態に生じる音声認識候補について、認識処理に必要な項目をすべて累積照合スコアと組にして伝播、処理することで累積照合スコアの計算量を減らし、記憶量も比較的小さくて済む音声認識方法が開示されている。
【0003】
【特許文献1】
特開平8-221090号公報(第4欄〜第8欄、図1)
【0004】
【発明が解決しようとする課題】
しかし、上記手法は、ビタビアルゴリズムを使用してフレーム同期で処理する音声認識を前提としており、技術の適用に制限があった。
【0005】
本発明は上記のような問題点を解消するためになされたもので、単語ごとに行う音声認識の照合処理においても、照合処理数を削減して処理速度を高速化することが可能な音声認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明に係る請求項1記載の音声認識装置は、時系列に与えられる入力音声信号を特徴ベクトルに変換し、複数のフレームに区分して出力する音響処理部と、予め準備された認識対象単語と音響モデルとに基づいて少なくとも1つの単語モデルを作成する単語モデル作成部と、前記少なくとも1つの単語モデルと前記特徴ベクトルとの照合処理を、最大確率を与える状態系列に沿うことで最終確率を得るビタビアルゴリズムを用いて単語ごとに行う照合処理部と、前記複数のフレームの各々に含まれる複数の状態について、確率に基づいて算出されるスコアの各フレーム中における最高値を記憶する最高値記憶部とを備え、前記照合処理部は、前記スコアの最高値に基づいて、前記複数の状態から、そのスコアを算出すべき計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行う。
【0007】
【発明の実施の形態】
<序論>
発明の実施の形態の説明に先立って、単語音声照合に用いる隠れマルコフモデル(Hidden Markov Model:以後HMMと呼称)について説明する。
【0008】
図1は、4つの状態を連結して構成される単語に対するHMM照合処理を模式的に示す図である。ここで、状態とは音声言語の最小単位である音素(phoneme)に相当する。なお、音素とは、一般的には母音や子音として知られている音がそれである。
【0009】
図1においては、横軸には時系列で入力された入力単語(音声)を所定長さのフレーム単位ごとに区分した場合のフレーム数(i)を表し、縦軸には登録された単語の音素番号(j)を表し、マトリックスの格子点には○印を配しているが、各格子点には、入力単語のフレームごとに抽出した音響特徴量と、登録単語の各状態における照合確率の情報が示されている。なお、以下においては音素番号を状態番号と呼称し、マトリックスの格子点を音素片と呼称する。
【0010】
図1に示すHMM照合処理は、図に向かって左下隅の開始状態S(0,0)から、右上隅の最終状態S(I,J)に至るまでの状態遷移系列を矢印で示しており、状態遷移系列が1つではないことを併せて示している。例えば、ある状態S(i,j)に着目した場合、状態S(i,j)に至るには、詳細図に示すように2つのパスP1およびP2が存在する。すなわち、パスP1は、状態S(i−1,j)からのパスであり同じ状態番号からの遷移(自己ループと呼称)であり、パスP2は、状態S(i−1,j−1)からのパスであり異なる状態番号からの遷移である。
【0011】
ここで、状態S(i−1,j)に達するまでの確率の累積値(累積スコア)をP(i−1,j)とした場合、パスP1を通って状態S(i,j)に至る場合の確率wk1は下記の数式(1)で表される。なお、開始状態S(0,0)のスコアは初期値として与えられる値であり、例えばP(0,0)=1となる。
【0012】
【数1】
Figure 2004191705
【0013】
ここで、a{(i−1,j),(i,j)}は、状態S(i−1,j)から状態S(i,j)への遷移確率、b{(i−1,j),(i,j),yi}は、状態S(i−1,j)から状態S(i,j)への遷移において、音声特徴ベクトルYiが出現する確率である。
【0014】
また、状態S(i−1,j−1)に達するまでの累積スコアをP(i−1,j−1)とした場合、パスP2を通って状態S(i,j)に至る場合の確率wk2は下記の数式(2)で表される。
【0015】
【数2】
Figure 2004191705
【0016】
ここで、a{(i−1,j−1),(i,j)}は、状態S(i−1,j−1)から状態S(i,j)への遷移確率、b{(i−1,j−1),(i,j),yi}は、状態S(i−1,j−1)から状態S(i,j)への遷移において、音声特徴ベクトルYiが出現する確率である。
【0017】
上記数式(1)、(2)から得られた確率wk1およびwk2に基づいて、状態S(i,j)における累積スコアP(i,j)は下記の数式(3)で与えられる。
【0018】
【数3】
Figure 2004191705
【0019】
すなわち、パスP1およびP2を通る場合に、それぞれ得られる確率wk1およびwk2のうち、大きい方を状態S(i,j)での累積スコアP(i,j)とする。
【0020】
上記処理を最終フレームまで行い、最終状態S(I,J)における累積スコアP(I,J)が単語スコアとなる。
【0021】
なお、パス元が1つしかない状態については、当該パス元のスコアを算入することで自らのスコアを算出し、上記数式(3)は用いない。
【0022】
なお、上記数式(1)および(2)については、対数表記することで加算式となるので、得られる確率については累積スコアと呼称している。
【0023】
なお、上述したHMM照合処理は、left-to-rightモデルとして周知のモデルである。
【0024】
HMM照合処理は、開始状態から最終状態に至るまでの、ある状態遷移系列に沿って信号が出力される累積スコアの大小によって入力単語と登録単語との類似性を判断するものであり、複数の登録単語に対して上述したHMM照合処理を行い、単語スコアが最も大きな登録単語が、入力単語に最も類似するものと判断される。このように、最大確率を与える状態系列に沿って確率を求めるアルゴリズムをビタビ(Viterbi)アルゴリズムと呼称する。
【0025】
<A.実施の形態1>
<A−1.装置構成および動作>
本発明に係る音声認識装置の実施の形態1の構成および動作について、図2〜図4を用いて説明する。
【0026】
<A−1−1.装置全体の動作>
図2は実施の形態1の音声認識装置100の構成を示すブロック図である。図2に示すように、時系列で入力された音声入力A1は、まず音声分析器11に与えられフレームごとに音響特徴量が抽出される。すなわち、音声分析器11においては、音声信号に、例えばLPC(Linear Predictive Coding 線形予測)分析を行って音声のパワースペクトルを取得し、当該パワースペクトルから、声帯の振動を主たる発生源とする音源信号のスペクトルと、肺や顎、舌などの調音器官により形成される音響フィルタ(調音フィルタ)のスペクトルを分離し、調音フィルタの特性のみに関連する情報を音響特徴量として抽出する。なお、音響特徴量の抽出には、ケプストラム(Cepstrum)分析が用いられ、また、ケプストラム分析で得られたケプストラム係数を人間の聴覚特性に基づいたメルケプストラム(Mel Cepstrum)係数に変換する処理が施されることがあるが、これらの音響特徴量の抽出には公知の技術を用いれば良いので、これ以上の説明は省略する。
【0027】
音声分析器11で音響特徴量を抽出した後、音声区間検出器12においてパワー(音の強さ)に基づいて音声区間を検出して、音響特徴量の時系列データとして入力音声特徴ベクトルV1を出力する。なお、音声分析器11および音声区間検出器12を含めて音響処理部と呼称する場合もある。
【0028】
入力音声特徴ベクトルV1は時系列に単語照合処理器2に与えられ、登録単語とのHMM照合処理を施される。
【0029】
ここで、HMM照合処理を施すための照合対象となる単語を選択するまでの動作について、照合対象単語選択器3、単語モデル生成器4および単語集合作成器5の動作に基づいて説明する。
【0030】
例えば、EEPROM(Electrically Erasable Programable ROM)で構成される認識対象単語辞書7には、例えばテキスト形式でひらがな表記された複数の単語(登録単語)が登録されており、単語集合作成器5はその中から、例えば、先頭の数音を共通項とし、先頭の数音が似ているものどうしで集合を作るように動作する。この動作に際しては、ひらがな表記された登録単語を、音響モデル記憶部6に登録された確率分布をマトリックス状に配置して表現された音響モデル(HMM)に書き換え、音響モデルどうしで比較することで上述した集合を作成する。
【0031】
すなわち、上述したように、音響モデルは確率分布を有しているので、先頭の数音について音響モデルどうしで確率分布を比較し合うことで、分布状態の類似性を判断し、類似する音響モデルで集合を作るようにすれば良い。
【0032】
そして、単語モデル生成器4では、単語集合作成器5で作成した単語集合に対して、単語照合処理器2で照合できる形式の単語モデルの集合に変換する動作を行う。
【0033】
ここで、単語集合の作成および音響モデルへの変換は、入力音声特徴ベクトルV1が入力されるごとに、毎回行っても良いし、認識対象単語辞書7が更新されたときに作成し、単語集合作成器5内にて集合情報を保持するようにしても良い。また、単語モデル生成器4内にて単語モデルの集合としてを保持してもよい。
【0034】
なお、音声分析器11、音声区間検出器12、照合対象単語選択器3、照合結果判定器9、単語モデル生成器4および単語集合作成器5の動作は、プログラムを実行するCPU(Central Processing Unit)によって実現できる。
【0035】
単語モデル生成器4によって生成された単語モデルの集合は、照合対象単語選択器3に与えられ、そのうちから照合対象となる1つの単語モデルが選択される。
【0036】
照合対象単語選択器3によって選択された1つの単語モデルは、単語照合処理器2に与えられ、入力音声特徴ベクトルV1、すなわち入力音声との照合処理が行われる。この照合処理が、先に説明したHMMを用いた処理である。
【0037】
単語照合処理器2では、照合対象単語選択器3によって次々と選択される複数の単語モデルに対してHMM照合処理を施し、各単語モデルの最終的な累積スコアである単語スコアを得る。なお、単語照合処理器2の動作は、単語モデル生成器4および単語集合作成器5を構成する前述のCPUで実現できるが、別途設けられたDSP(Digital Signal Processor)によっても実現できる。
【0038】
そして、照合結果判定器9においては、単語照合処理器2から与えられる各単語モデルの単語スコアを記憶し、最も単語スコアの高い単語モデルを音声入力された単語に相当するものと判断し、当該単語モデルの出力単語データD1を出力する。なお、照合結果判定器9は、照合結果に関する情報D2を照合対象単語選択器3にフィードバックする機能を併せて有し、照合対象単語選択器3では、当該情報D2に基づいて選択動作の効率化を図る。
【0039】
ここで、単語照合処理器2における照合処理および照合対象単語選択器3における選択動作について、最高値記憶バッファ8および照合結果判定器9の動作を含めて、それぞれ図3および図4に示すフローチャートを用いて説明する。なお、照合処理については図1に示すHMM照合処理を参照して説明する。
【0040】
<A−1−2.単語照合処理器の動作>
単語照合処理器2の動作について図3を用いて説明する。
照合処理が開始されると、まず、時系列に与えられる入力音声特徴ベクトルV1のフレーム番号0のフレーム(i=0)を照合対象に定める(ステップS11)。そして、まず、単語モデルの状態番号0(j=0)を指定する(ステップS12)ことで、照合対象が状態S(0,0)となる。なお、最終フレーム番号はJであり、最終状態番号はIとする。
【0041】
次に、ステップS13において、照合対象が状態S(0,0)であるか否かを判断し、状態S(0,0)である場合はステップS15に進んでスコアの取得を行う(ステップS13)。
【0042】
一方、ステップS13において状態S(0,0)以外の何れかの状態S(i、j)と判断された場合は、ステップS14において、パス元が計算対象状態であるかについて判定を行う。
【0043】
この動作は、スコア取得対象としている現在の状態S(i,j)の1つ前の状態、すなわちパス元のスコアが、単語照合処理器2に接続される最高値記憶バッファ8に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定する動作である。
【0044】
より具体的には、最高値記憶バッファ8には、入力音声特徴ベクトルV1の各フレームごとに、スコアの最高値が記憶されている。この値は、過去に行った同一入力との照合処理の結果として得られた値であるが、以下に説明するように、照合処理ごとに更新可能な値である。なお、音声認識装置100において一番最初に照合処理を行う場合には、デフォルト値として、予め予想される所定の値が設定されるようにしておけば良い。
【0045】
そして、当該スコアの最高値に対して、例えば所定のパーセンテージ以内の値というようにスコアの範囲を設定し、パス元のスコアが当該範囲内にあるか否かを判定する。
【0046】
パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入候補とし、数式(3)に基づいて状態S(i、j)の累積スコアを取得する(ステップS15)。そして、スコアの取得後はステップS16に進む。
【0047】
なお、パス元が1つしかない状態については、当該パス元のスコアを算入することで自らのスコアを算出し、数式(3)は用いない。
【0048】
一方、パス元のスコアが上記範囲外であると判定された場合は、状態S(i,j)についてはスコアの計算を省略し、ステップS16に進む。
【0049】
ステップS16では、現状の状態番号が最終番号(J)に達しているか否かを判断し、最終番号に達していない場合には、状態番号を1つインクリメントし、ステップS14以下を繰り返す。
【0050】
また、最終状態番号に達している場合にはステップS17に進み、1つのフレームにおいて状態番号0からJまでの状態に対して行った照合処理で得られた各状態でのスコアと、最高値記憶バッファ8に記憶されている現在照合対象となっているフレーム番号のフレームにおけるスコアの最高値とを比較し、より高いスコアが得られている場合には記憶されているスコアの最高値を、新たに得られたより高いスコアに更新する。
【0051】
次に、ステップS18において、現状のフレーム番号が最終番号(I)に達しているか否かを判断し、最終番号に達していない場合には、フレーム番号を1つインクリメントし、ステップS12以下を繰り返す。
【0052】
上記動作は、例えば、フレーム番号0のフレームについて状態番号0からJまでの状態に対しての照合処理が終了した後は、フレーム番号1のフレームについて状態番号0からJまでの状態に対して照合処理を行うことを意味している。
【0053】
なお、最終フレーム番号に達している場合には、照合対象単語選択器3によって選択された1つの単語モデルに対する照合動作が終了する。
【0054】
このように、所定の閾値に基づいて、スコアの計算を省略する状態を設けるようにすることで、照合処理に要する時間を短縮することができる。なお、HMM照合処理においては、図1に示したように、最終状態S(I,J)に至るまでの状態遷移系列は、状態(0,0)を始点としてほぼ対角線に沿う経路を採ることが多く、極端に外れた経路を通る可能性は小さく、図1の配列における左上部の角部領域や、右下部の角部領域についてはスコアの算出は不要である場合が多く、スコアの計算を省略しても支障はない。
【0055】
なお、図1を用いて説明したように、最終状態S(I,J)における累積スコアが単語スコアとなり、上記ステップS11〜S18の動作を、照合対象単語選択器3によって次々と選択される複数の単語モデルに対して施すことで、各単語モデルの単語スコアを得る。
【0056】
<A−1−3.照合対象単語選択器の動作>
照合対象単語選択器3は、単語モデル生成器4によって生成された単語モデルの集合から照合対象となる1つの単語モデルを選択すると説明したが、これは図4にステップS24〜S26で示す基本動作であり、この基本動作に先立って、ステップS21〜S23に示す前処理動作を行うことができる。
【0057】
すなわち、照合対象単語選択器3は、単語モデル生成器4によって生成された単語モデルの集合を受けるが、この集合が1つではなく複数である場合、複数の集合にそれぞれ含まれる複数の単語モデルに対して照合処理を行うとなると、最終的な出力単語データD1の出力までに長時間を有する可能性がある。
【0058】
そこで、単語モデルの集合が複数である場合は、各単語モデルの集合からそれぞれ代表モデルを選び、当該代表モデルを単語照合処理器2に与えて照合処理を施し、その結果得られた単語スコアについて、照合結果判定器9において予め設定された判定基準値との比較を行う。その結果、当該単語スコアが判定値からかけ離れた値である場合は、上記代表モデルを抽出した単語モデルの集合については照合処理を施すのに不適当な集合であると判断する動作が前処理動作である。
【0059】
なお、照合処理を施すのに不適当であると判断された集合は照合対象から外されることになる。
【0060】
上述した前処理動作を含めて、照合対象単語選択器3の動作について図4を用いてさらに説明する。
【0061】
単語選択動作が開始されると、まず、ステップS20において、単語モデル生成器4から入力された単語モデルの集合が複数であるか否かの判定を行い、複数である場合にはステップS21に進み、単語モデルの集合が1つである場合はステップS24に進む。
【0062】
ステップS21においては、単語モデル生成器4から入力された単語モデルの複数の集合から、それぞれ代表モデルを選択する。すなわち、単語集合作成器5の動作において説明したように、単語モデルの集合の作成においては、例えば、先頭の数音について音響モデルどうしで確率分布を比較し合うことで類似する音響モデルで集合を作るが、このとき、類似性の高低で集合内の音響モデルを分別し、類似性の高い音響モデルどうしを集めるようにし、この集合の最も中心にある音響モデルを代表モデルとすれば良い。
【0063】
次に、ステップS22において、複数の代表モデルのうちから何れか1つを選択して単語照合処理器2に与え、HMM照合処理を施す。なお、この場合の選択は無作為に行えば良い。
【0064】
単語照合処理器2でのHMM照合処理の結果として得られた単語スコアは照合結果判定器9に与えられ、予め設定された判定基準値と比較される。この判定基準値は経験値に基づいて設定すれば良く、例えば、過去に得られた単語スコアの平均値等を用いれば良い。そして、当該判定基準値を越えるか否かの判定結果を情報D2として照合対象単語選択器3にフィードバックする。
【0065】
次に、ステップS23において、上記判定基準値を越えるか否かの判定結果に基づいて、上記代表モデルを抽出した単語モデルの集合について照合対象集合か否かを判断する。そして、照合処理を施すのに不適当な集合であると判断した場合には、当該集合を照合対象から外し、他の集合を選択し(ステップS28)、ステップS21以下の動作を繰り返す。
【0066】
また、ステップS23において、照合処理を施すのに適当な集合であると判断した場合には、ステップS24において、当該集合から1つの単語モデルを選択する。そして、単語照合処理器2に与え(ステップS25)、図3を用いて説明した手順で照合処理を行う。
【0067】
なお、ステップS26において、集合内に未処理の単語モデルが存在するか否かを判断し、未処理の単語モデルが存在する場合にはステップS24以下の動作を繰り返し、集合内の全ての単語モデルが処理されている場合には、ステップS27において、未処理の集合が存在するか否かを判断し、未処理の集合が存在する場合にはステップS28において新たに集合を選択する。なお、全ての集合が処理されている場合には選択動作を終了する。
【0068】
<A−2.特徴的作用効果>
以上説明したように音声認識装置100においては、単語照合処理器2でのHMM照合処理において、複数の状態のうち、照合対象となっている現状態に対するパス元(すなわち前状態)のスコアが、単語照合処理器2に接続される最高値記憶バッファ8に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入対象として累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。
【0069】
このように、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、1つの単語に対する照合処理に費やす時間を削減できる。
【0070】
また、単語集合作成器5によって類似する単語どうしで集合を作成し、照合対象単語選択器3によって、各単語モデルから代表モデルを選び、当該代表モデルを単語照合処理器2に与えて照合処理を施し、その結果得られた単語スコアに基づいて、上記代表モデルを抽出した単語モデルの集合に対して照合処理を施すか否かを判断する前処理動作を行うので、照合処理に費やす時間を大幅に削減して、より高速な処理が可能となる。
【0071】
<B.実施の形態2>
<B−1.装置構成および動作>
本発明に係る音声認識装置の実施の形態2の構成および動作について、図5〜図7を用いて説明する。
【0072】
<B−1−1.装置全体の動作>
図5は実施の形態2の音声認識装置200の構成を示すブロック図である。なお、図5において、図2を用いて説明した音声認識装置100と同一の構成については同一の符号を付し、重複する説明は省略する。
【0073】
図5に示すように、入力音声特徴ベクトルV1は時系列に単語照合処理器24に与えられ、登録単語とのHMM照合処理を施される。単語照合処理器24は、基本的には図2に示す単語照合処理器2と同様の動作を行うが、最高値記憶バッファ8の他に一時記憶バッファ28が接続され、最高値記憶バッファ8に記憶されているスコアの最高値の更新手順に若干の相違を有している。なお、単語照合処理器24の動作の詳細については後述する。
【0074】
また、単語集合作成器25は認識対象単語辞書7の中から、例えば、先頭の数音が似ているものどうしで集合を作るように動作するが、このとき照合結果判定器9から出力される出力単語データD1を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器3において優先的に選択されるように、当該単語を含む単語集合の優先順位を高く設定したり、当該単語の単語集合内での優先順位を高めるように優先順位を付与する機能を併せて備えている。
【0075】
<B−1−2.単語照合処理器の動作>
単語照合処理器24の動作について図6を用いて説明する。なお、図6において、ステップS31〜S36までの動作は、図3を用いて説明したステップS11〜S16までの動作と同じであり、重複する説明は省略する。
【0076】
ステップS36では、現状の状態番号が最終番号(J)に達しているか否かを判断し、最終番号に達していない場合には、状態番号を1つインクリメントし、ステップS34以下を繰り返す。また、最終状態番号に達している場合にはステップS37に進む。
【0077】
ステップS37では、ステップS34〜S36を繰り返すことで取得した1つのフレームにおける状態番号0からJまでの各状態でのスコアのうち、最高値となるスコアを、一時記憶バッファ28に記憶させる。なお、この記憶は一時的なものであり、最高値記憶バッファ8に記憶されている各フレームの最高値のように、比較的長期に渡って保持されるものではなく、最高値記憶バッファ8とは異なるバッファを使用する。
【0078】
1つのフレームにおけるスコアの最高値を記録した後、ステップS38において、現状のフレーム番号が最終番号(I)に達しているか否かを判断し、最終番号に達していない場合には、フレーム番号を1つインクリメントし、ステップS32以下を繰り返す。
【0079】
また、最終状態番号に達している場合にはステップS39に進み、最終状態S(I,J)における累積スコアである単語スコアを照合結果判定器9に与える。
【0080】
照合結果判定器9では、過去に受け取った単語スコアと、単語照合処理器24から受け取った最新の単語スコアとを比較し、最新の単語スコアが、これまでの最高値となっている場合には、その情報を情報D3として単語照合処理器24にフィードバックする(ステップS40)。
【0081】
単語照合処理器24では、情報D3を受け、ステップS39で出力した単語スコアが最高値となっている場合には、一時記憶バッファ28に記憶した各フレームでのスコアの最高値を最高値記憶バッファ8に書き込むことで、最高値記憶バッファ8の記憶内容を更新する(ステップS41)。
【0082】
最高値記憶バッファ8の記憶内容を更新後は、照合対象単語選択器3によって選択された1つの単語モデルに対する照合動作が終了する。
【0083】
また、ステップS39で出力した単語スコアが最高値となっていない場合には、最高値記憶バッファ8の記憶内容は更新されず、照合対象単語選択器3によって選択された1つの単語モデルに対する照合動作が終了する。
【0084】
<B−2.特徴的作用効果>
以上説明したように音声認識装置200においては、単語照合処理器24でのHMM照合処理において、照合対象の状態に対するパス元のスコアが、単語照合処理器24に接続される最高値記憶バッファ8に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入して累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。このように、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、1つの単語に対する照合処理に費やす時間を削減できる。
【0085】
また、単語照合処理器24では、各フレームにおける各状態でのスコアの最高値を一時記憶バッファ28に記憶させ、1つの単語モデルに対する照合処理が修了した後、当該単語モデルの単語スコアが最高値である場合にのみ、一時記憶バッファ28に記憶した各フレームでのスコアの最高値を最高値記憶バッファ8に書き込むことで、最高値記憶バッファ8の記憶内容を更新するので、例えば、一部のフレームだけで、たまたま照合結果が良好であるような単語モデルのスコアが最高値記憶バッファ8に記録されることで、不正確な照合結果が得られることが防止できる。
【0086】
また、単語集合作成器25において類似する単語どうしで集合を作成し、照合対象単語選択器3によって、各単語モデルから代表モデルを選び、当該代表モデルを単語照合処理器24に与えて照合処理を施し、その結果得られた単語スコアに基づいて、上記代表モデルを抽出した単語モデルの集合に対して照合処理を施すか否かを判断する前処理動作を行うので、照合処理に費やす時間を大幅に削減して、より高速な処理が可能となる。
【0087】
また、単語集合作成器25においては、類照合結果判定器9から出力される出力単語データD1を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器3において単語集合の代表モデルになるように優先順位を付与するので、入力頻度の高い単語について優先的に照合対象にすることができ、例えば、音声入力される単語の語彙が少なく、しかも入力単語に偏りがある場合、照合の的中率を飛躍的に高めることができ、照合処理速度をさらに高速化できる。
【0088】
<B−3.変形例>
以上説明した音声認識装置200の変形例の構成を図7に示す。なお、図7において、図2および図5を用いて説明した音声認識装置100および200と同一の構成については同一の符号を付し、重複する説明は省略する。
【0089】
図7に示す音声認識装置200Aにおいては、単語モデル生成器4によって生成された単語モデルの集合のデータは、モデル辞書バッファ27に与えられ、一時的に記憶される。
【0090】
そして、モデル辞書バッファ27に保持された単語モデルの集合のデータは、照合対象単語選択器23に与えられ、そのうちから照合対象となる1つの単語モデルが選択される。
【0091】
ここで、照合対象単語選択器23は、図2を用いて説明した照合対象単語選択器3と同様の機能を有しているが、照合結果判定器9から出力される出力単語データD1を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器23において優先的に選択されるように、出力回数の多い単語を含む集合の照合順位を上げるようにモデル辞書バッファ27に保持された単語モデルの集合のデータの並べ換えを行う機能もさらに有している。なお、上記統計処理に基づいて、出力回数の多い単語の集合内での優先順位を高めるようにデータの並べ換えを行うようにしても良い。
【0092】
このように、音声認識装置200Aにおいては、単語モデル生成器4によって生成された単語モデルの集合のデータを記憶するモデル辞書バッファ27を有し、照合対象単語選択器23においては、照合結果判定器9から出力される出力単語データD1を受けて統計処理を行い、出力回数の多い単語を優先的に選択するように、モデル辞書バッファ27に記憶された単語モデルの集合のデータの並べ換えを行うので、入力単語に偏りがある場合、照合の的中率を飛躍的に高めることができ、照合処理速度をさらに高速化できる。
【0093】
<C.他の変形例>
以上説明した音声認識装置100および200の各々においては、単語集合作成器5または25が、先頭の数音が似ているものどうしで集合を作るように動作することを説明したが、これは一例であり、他には、登録単語の単語長で集合を作成するようにしても良い。
【0094】
すなわち、登録されている単語に基づいて作成された音響モデルは、音素と継続時間長に関する情報を有しており、単語長は容易に推定できるので、単語長に基づいて集合を作成することは容易である。
【0095】
この方式を採用する場合、音声入力された単語の単語長は、フレーム数と相関するので、フレーム数から入力単語長を推定し、照合対象単語選択器3において、当該入力単語長に近似する単語長を有する単語集合を優先的に選択して照合することで、さらに高速な照合処理が可能となる。
【0096】
また、音素の情報にはパワー(音の強さ)およびパワーの変動に関する情報も含まれているので、登録単語内のパワーの変動に基づいて、無音(もしくは低パワー)の回数に基づいて単語集合を作成しても良い。
【0097】
なお、単語の先頭の数音の類似性、単語長およびパワーの変動の何れを組み合わせて用いても良いことは言うまでもない。
【0098】
<D.照合処理の他の例>
以上説明した実施の形態1および2においては、照合処理としてHMM照合処理を用いる例を示したが、DPマッチング法による照合処理を使用しても良い。以下にDPマッチング法について説明する。
【0099】
同じ人が同じ言語を発しても、その継続時間はその都度変わり、しかも非線形に伸縮する。このため、標準パターンと入力音声との比較においては、同じ音素どうしが対応するように、時間軸を非線形に伸縮する時間正規化を行う。
【0100】
ここで、対応付けるべき2つの時系列をA=a1,a2,・・ai,・・aIと、B=b1,b2,・・bj,・・bIで表し、図8に示すように横軸を入力パターンフレームを時系列に並べた系列A、縦軸を標準パターンフレームを時系列に並べた系列Bとする平面を想定する。なお、標準パターンは複数種類準備されているので、その複数種類の標準パターンに対応した平面が複数枚想定される。この場合、A、B両系列の時間軸の対応関係、すなわち時間伸縮関数は、この平面上の格子点c=(i,j)の系列Fで表現される。
【0101】
そして、2つの特徴ベクトルaiとbiとのスペクトル距離をd(c)=d(i,j)で表すと、系列Fに沿った距離の総和H(F)は下記の数式(4)で表される。
【0102】
【数4】
Figure 2004191705
【0103】
この総和H(F)の値が小さいほど系列Aと系列Bとの対応付けが良いことを示す。
【0104】
ここで、wkは系列Fに関連する正の重みである。これに、単調性と連続性、および極端な伸縮を防ぐための諸制限を加えることで、図9に模式的に示すような時間伸縮関数Fの制限、すなわち、パスに対する傾斜制限が与えられる。
【0105】
図9においては、横軸を入力音声のフレームとし、縦軸を辞書に記憶された単語のフレームとし、それぞれ、i軸、j軸としてDPマッチングのパスモデルの例を示している。
【0106】
図9に示すように、4つのパスP11、P12、P13およびP14を想定した場合、パスP13およびP14のように、辞書フレーム番号を変更することのないパスどうしが連続することは制限され、パスP14は計算対象から外される。なお、パスP11〜P13は点(i,j)に集結している。
【0107】
図9のパスモデルの場合の累積計算を数式化したものが下記の数式(5)となる。
【0108】
【数5】
Figure 2004191705
【0109】
数式(5)において、g(i,j)は点(i,j)における累積距離、g(i−1,j)はパスP3の累積距離、g(i−1,j−1)はパスP2の累積距離、g(i−1,j−2)はパスP1の累積距離であり、d(i,j)は図示しない始点からのユークリッド距離である。
【0110】
ここで、g(1,1)=d(1,1)とし、まずj=1の場合に固定してiがIに達するまで、順次変化させながら上記数式(5)を計算しする。そして、次に、jの値を1つインクリメントしてiについて再び同様に変化させて計算を行う。この動作をj=Jに達するまで繰り返すことで、系列Aおよび系列Bの2つの時系列間での時間正規後の累積距離が得られる。
【0111】
この累積距離がHMM照合処理で説明した累積スコアに相当し、累積距離の大小によって入力単語と登録単語との類似性を判断することが、DPマッチング法による照合処理であり、本願発明においてHMM照合処理の代わりにDPマッチング法を使用することが可能である。
【0112】
【発明の効果】
本発明に係る請求項1記載の音声認識装置によれば、照合処理部において、スコアの最高値に基づいて、複数の状態から、そのスコアを算出する計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行うので、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、1つの単語に対する照合処理に費やす時間を削減できる。
【図面の簡単な説明】
【図1】HMMによる照合処理を説明する概念図である。
【図2】本発明に係る実施の形態1の音声認識装置の構成を示すブロック図である。
【図3】本発明に係る実施の形態1の音声認識装置の動作を説明するフローチャートである。
【図4】本発明に係る実施の形態1の音声認識装置の動作を説明するフローチャートである。
【図5】本発明に係る実施の形態2の音声認識装置の構成を示すブロック図である。
【図6】本発明に係る実施の形態2の音声認識装置の動作を説明するフローチャートである。
【図7】本発明に係る実施の形態2の音声認識装置の変形例の構成を示すブロック図である。
【図8】DPマッチング法による照合処理を説明する概念図である。
【図9】DPマッチング法による照合処理を説明する概念図である。

Claims (10)

  1. 時系列に与えられる入力音声信号を特徴ベクトルに変換し、複数のフレームに区分して出力する音響処理部と、
    予め準備された認識対象単語と音響モデルとに基づいて少なくとも1つの単語モデルを作成する単語モデル作成部と、
    前記少なくとも1つの単語モデルと前記特徴ベクトルとの照合処理を、最大確率を与える状態系列に沿うことで最終累積確率を得るビタビアルゴリズムを用いて単語ごとに行う照合処理部と、
    前記複数のフレームの各々に含まれる複数の状態について、確率に基づいて算出されるスコアの各フレーム中における最高値を記憶する最高値記憶部とを備え、
    前記照合処理部は、
    前記スコアの最高値に基づいて、前記複数の状態から、そのスコアを算出すべき計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行う、音声認識装置。
  2. 前記照合処理は、マトリックス状に配置された前記複数の状態に対して、それぞれが有する前記スコアを累積しつつ最終状態に到達するまでに取りうる複数のパスのうち、最大の累積スコアを与えるパスを特定することで、前記累積スコアを照合結果として取得する隠れマルコフモデルを用いた照合処理であって、
    前記照合処理部の前記間引き処理は、
    前記照合処理に際して、スコア算出の判断対象となっている現状態に至る前の前状態におけるスコアが、前記最高値記憶部に記憶された前記スコアの最高値に基づいて設定された所定の範囲内にある場合に、前記現状態を前記計算対象状態とし、前記前状態におけるスコアが前記所定の範囲外である場合は、前記現状態についてはそのスコアの算出を省略する処理を含む、請求項1記載の音声認識装置。
  3. 前記照合処理部は、
    前記最高値記憶部に記憶された前記スコアの最高値と、前記照合処理によって得られた各状態の最新スコアとをフレームごとに比較し、前記スコアの最高値を超える前記最新スコアが存在する場合には、前記スコアの最高値を前記最新スコアに書き換える機能をさらに含む、請求項2記載の音声認識装置。
  4. 前記少なくとも1つの単語モデルは、複数の単語モデルであって、
    前記音声認識装置は、
    前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を判定する照合結果判定部をさらに備え、
    前記照合処理部は、
    前記照合処理によって得られた各フレーム中の各状態の最新スコアの最高値を取得し、フレームごとに所定の一時記憶部に記憶される機能と、
    前記照合結果判定部の判定結果の情報とを受け、前記最新単語モデルに対する前記照合結果が、前記最良照合結果である場合に、前記最高値記憶部に記憶された前記最新スコアの最高値を、前記一時記憶部に記憶させた前記各フレーム中の各状態の最高値に書き換える機能をさらに含む、請求項2記載の音声認識装置。
  5. 前記少なくとも1つの単語モデルは、複数の単語モデルであって、
    前記単語モデル作成部は、
    前記複数の単語モデルを所定の共通項に基づいて複数の単語モデル集合に分類して出力する機能を備え、
    前記音声認識装置は、
    前記複数の単語モデル集合を受け、各単語モデル集合からそれぞれ代表となる代表モデルを選んで前記照合処理部に与え、前記代表モデルを用いた照合結果に基づいて前記単語モデル集合内の残りの単語モデルに前記照合処理を施すか否かを決定する照合対象単語選択部をさらに備える、請求項2記載の音声認識装置。
  6. 前記単語モデル作成部は、
    前記認識対象単語のうち、先頭から数えて2つ以上で予め定めた個数の音の類似性を前記所定の共通項として用いて分類を行う、請求項5記載の音声認識装置。
  7. 前記単語モデル作成部は、
    前記認識対象単語のうち、単語長を前記所定の共通項として用いて分類を行う、請求項5記載の音声認識装置。
  8. 前記単語モデルの作成部は、
    前記認識対象単語のうち、パワーの変動情報に基づいて、無音部もしくは低パワー部の出現回数を前記所定の共通項として用いて分類を行う、請求項5記載の音声認識装置。
  9. 前記音声認識装置は、
    前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を呈する単語モデルを、入力単語に相当する単語データとして出力する照合結果判定部をさらに備え、
    前記単語モデル作成部は、
    前記照合結果判定部が出力する前記単語データを受けて、統計処理を行い、出力回数の多い単語モデルが、前記照合対象単語選択部において優先的に選択されるように優先順位を付与する機能を備える、請求項5記載の音声認識装置。
  10. 前記音声認識装置は、
    前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を呈する単語モデルを、入力単語に相当する単語データとして出力する照合結果判定部と、
    前記単語モデル作成部によって生成された前記単語モデルのデータを一時的に記憶するモデル辞書部と、をさらに備え、
    前記照合対象単語選択部は、
    前記照合結果判定部が出力する前記単語データを受けて、統計処理を行い、出力回数の多い単語モデルを優先的に選択するように、前記モデル辞書部に記憶された前記単語モデルのデータの並び換えを行う機能を備える、請求項5記載の音声認識装置。
JP2002360356A 2002-12-12 2002-12-12 音声認識装置 Pending JP2004191705A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002360356A JP2004191705A (ja) 2002-12-12 2002-12-12 音声認識装置
US10/612,938 US20040117187A1 (en) 2002-12-12 2003-07-07 Speech recognition apparatus
CNA031541003A CN1506937A (zh) 2002-12-12 2003-08-19 语音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002360356A JP2004191705A (ja) 2002-12-12 2002-12-12 音声認識装置

Publications (1)

Publication Number Publication Date
JP2004191705A true JP2004191705A (ja) 2004-07-08

Family

ID=32500984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002360356A Pending JP2004191705A (ja) 2002-12-12 2002-12-12 音声認識装置

Country Status (3)

Country Link
US (1) US20040117187A1 (ja)
JP (1) JP2004191705A (ja)
CN (1) CN1506937A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096271A1 (ja) * 2004-03-30 2005-10-13 Pioneer Corporation 音声認識装置及び音声認識方法
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
CN103198722A (zh) * 2013-03-15 2013-07-10 肖云飞 英语培训方法及装置
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN113011177B (zh) * 2021-03-15 2023-09-29 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9021489D0 (en) * 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096271A1 (ja) * 2004-03-30 2005-10-13 Pioneer Corporation 音声認識装置及び音声認識方法
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium

Also Published As

Publication number Publication date
US20040117187A1 (en) 2004-06-17
CN1506937A (zh) 2004-06-23

Similar Documents

Publication Publication Date Title
KR100406604B1 (ko) 음성인식방법및장치
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH11175090A (ja) 話者クラスタリング処理装置及び音声認識装置
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
WO2001075862A2 (en) Discriminatively trained mixture models in continuous speech recognition
JP2006146090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5398295B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP2004191705A (ja) 音声認識装置
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
WO2003060878A1 (fr) Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3171107B2 (ja) 音声認識装置
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP4586386B2 (ja) 素片接続型音声合成装置及び方法
Seman et al. Acoustic Pronunciation Variations Modeling for Standard Malay Speech Recognition.
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2010230913A (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム