JP3004023B2

JP3004023B2 - 音声認識装置

Info

Publication number: JP3004023B2
Application number: JP1306477A
Authority: JP
Inventors: 洋一竹林; 宏之坪井; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-11-28
Filing date: 1989-11-28
Publication date: 2000-01-31
Anticipated expiration: 2015-01-31
Also published as: EP0430615B1; JPH03167600A; DE69026474T2; EP0430615A2; DE69026474D1; EP0430615A3

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は高騒音環境下における種々の雑音を伴った入
力音声や、単語音声等の前後に不本意な発声を伴った入
力音声を精度良く認識することのできる認識性能の高い
音声認識装置に関する。

（従来技術）従来より、単語や文節等を認識対象とした音声認識で
は、その入力音声の始終端（音声区間を示す始端および
終端）を音声エネルギーの変化や音声ピッチの変化，或
いは零交差波等の簡単なパラメータ情報を用いて検出し
ている。そして検出された始終端点を基準として音声パ
ターン（音声特徴ベクトル）を切り出し、この音声パタ
ーン（音声特徴ベクトル）と認識対象カテゴリについて
の認識辞書とを照合して、前記入力音声が示す認識対象
カテゴリを求めることで、入力音声を認識している。

このような入力音声の始終端検出（音声区間検出）に
より、認識辞書との照合に用いる音声パターンを切り出
す処理は、音声パターンと音声認識辞書との照合処理に
必要とする演算量が非常に多大であり、その演算負担を
軽減すると共に、認識処理には直接寄与することのない
冗長な情報を省くことを目的としてなされる。

尚、入力音声の始終端検出（セグメンテーション）を
行い、その音声区間についての音声特徴ベクトルを抽出
してパターン照合に供する手法は、動的計画法に基づく
DPマッチング法によりパターン照合を行う場合や、HMM
（Hidden Marcov Model）や複合類似度法に基づくパタ
ーン照合を行う場合でも、従来、一般的に採用されてい
る。

ところが従来では音声エネルギーの変化等の簡単なパ
ラメータにより音声区間検出を行っている。この為、例
えば高騒音環境下での入力音声を認識処理するような場
合、ノイズ（周囲雑音）の悪影響を受けて、入力音声に
対する誤った始終端検出が行われることが多々ある。ま
た単語音声や文節音声の前後に「あ〜」「え〜」等の不
本意な発声が伴うような場合にも始終端検出が誤ってな
されることが多々ある。これ故、入力音声の始終端を如
何にして高精度に検出するかが、音声認識装置を実用化
する上での大きな課題となっている。

一方、高騒音環境下における音声認識をロバストに、
しかも高精度に行うべく、従来のような入力音声に対す
る始終端検出を行うことなく、その始終端点を非固定と
したままで連続的にパターン照合を行うワードスポッテ
ィング法が提唱されている。

このワードスポッティング法は、入力音声の始終端点
が或る区間のどこかに存在するものと仮定し、仮定され
た複数の始端点および終端点の組み合わせ（音声区間候
補）毎に音声パターン（音声特徴ベクトル）を切り出し
て認識辞書とのパターン照合を逐次的に行うものであ
る。これ故、従来のように予め音声区間を検出し、その
音声区間についての音声特徴ベクトルを抽出して認識辞
書とのパターン照合を行う手法に比較し、上記ワードス
ポッティング法を用いた音声認識処理を行うには、膨大
な回数のパターン照合が必要となり、その処理時間も非
常に長くなると云う問題がある。

しかもワードスポッティング法によるパターン照合を
リアルタイムに行う装置やLSIを開発する際，所望とす
る性能を満足させる為にはそのハードウエアが大規模化
し、製作コストが増大することが否めない。このような
理由によりワードスポッティング法を導入する場合に
は、従来では専ら入力音声を分析して求められる音声特
徴パラメータの次数を低くしたり、音声特徴パラメータ
に対する時間方向のサンプル点を少なくする等してパタ
ーン照合に用いる音声特徴ベクトルの次元数を小さくす
ることが行われている。

然し乍ら、このようにして音声特徴ベクトルの次元数
を小さくすると、入力音声パターン（単語音声特徴ベク
トル）の大局的特徴は表現できても、その微細な特徴構
造を表現することができなくなる。この結果、十分なる
精度でパターン照合を行うことができなくなり、誤った
認識結果が求められる要因となっている。

この点、前述した始終端検出（音声区間検出）により
音声特徴ベクトルを検出してパターン照合を行う手法に
よれば、パターン照合に必要な演算量が少ないので、そ
の音声特徴ベクトルの次元数を十分に高く設定して高精
度なパターン照合を行うことが可能である。しかし音声
区間の検出に誤まりが生じるとパターン照合に供される
音声特徴ベクトルが誤って求められると云う致命的な欠
陥がある。この為、音声区間検出に誤りが生じ易い高騒
音環境下での認識性能を高く保つことが非常に困難であ
ると云う問題があった。

（発明が解決しようとする課題）このように従来の音声認識装置では、高騒音環境下に
おける入力音声からその音声始終端（音声区間）を精度
良く検出して認識辞書とのパターン照合に供する音声特
徴ベクトルを抽出することが非常に困難であると云う問
題があった。またワードスポッティングにより入力音声
の始終端を非固定のまま連続パターン照合により、入力
音声を認識処理するにしても、そのパターン照合に複合
類似度法のパターン変形に強い強力な計算演算手法を導
入するには、そこでの計算量が非常に膨大化することか
ら、入力音声特徴ベクトルの次元数を低く抑えることが
必要となる。これ故、その認識率を高めることが非常に
困難であった。

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、高騒音環境下における入力音
声や、音声入力の際の問題となる「あ〜」「え〜」等の
不用意な発声を伴う入力音声に対する認識性能（特に不
要語に対するリジェクト性能）を十分に高めることので
きる音声認識装置を提供することにある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識装置は、入力音声を分析して第
１の音声特徴パラメータの時系列を求める手段と、ワー
ドスポッティング法によって、前記第１の音声特徴パラ
メータの時系列から始終端検出を行うことなく求められ
る第１の音声特徴ベクトルの時系列と認識対象カテゴリ
についての第１の認識辞書とを照合してその類似度値の
時系列を求め、該類似度値の時系列に基づいて前記入力
音声に対する認識結果の候補となる１または複数の認識
対象カテゴリとその類似度値とそれを与えた前記入力音
声における始終端との組を求める第１の音声認識手段
と、前記入力音声を分析して前記第１の音声特徴パラメ
ータの次元数より大きい次元数を持つ第２の音声特徴パ
ラメータの時系列を求める手段と、前記第１の音声認識
手段により求められた前記認識結果の候補に対する前記
始終端と同一の始終端によって、前記第２の音声特徴パ
ラメータの時系列から、前記第１の音声特徴ベクトルの
次元数より大きい次元数を持つ第２の音声特徴ベクトル
を抽出する手段と、この手段により抽出された第２の音
声特徴ベクトルと前記第１の音声認識手段により求めら
れた前記認識結果の候補となる前記認識対象カテゴリに
ついての第２の認識辞書とを照合してその類似度値を求
める第２の音声認識手段と、前記第１の音声認識手段に
より求められた前記認識結果の候補となる１または複数
の認識対象カテゴリについて前記第１の音声認識手段お
よび前記第２の音声認識手段によりそれぞれ求められた
類似度値に基づいて、前記入力音声に対する最終的な認
識結果を決定する手段とを具備したことを特徴とする。

即ち、低次元の音声特徴ベクトルの時系列を用いてワ
ードスポッティングによる連続音声パターン照合により
入力音声の大まかな特徴に従う認識処理結果を求めると
共に、この連続パターン照合結果から求められる入力音
声の始終端情報に従って、入力音声区間の高次元の特徴
ベクトルを用いて入力音声の詳細な特徴に従う認識処理
結果を求め、これらの認識結果を総合判定して入力音声
に対する高精度な認識結果を求めるようにしたことを特
徴としている。

なお、好ましくは、前記抽出する手段は、前記第１の
音声認識手段により求められた前記認識結果の候補に対
する前記始終端を基準として該始端終端を前後に移動さ
せることによって得られる複数の異なる始終端のそれぞ
れによって、前記第２の音声特徴パラメータの時系列か
ら前記第２の音声特徴ベクトルを複数抽出するようにし
てもよい。

また、好ましくは、第１および第２の音声認識手段に
おける音声特徴ベクトルと認識辞書との照合は、同一の
計算方式により上記音声特徴ベクトルと認識辞書との類
似度値を計算して行われるようにしてもよい。

また、好ましくは、第１および第２の認識辞書に対す
る学習機能をさらに備えるようにしてもよい。さらに、
好ましくは、第１および第２の認識辞書の学習処理は、
音声データに人工的なパターン変形を加えて学習用音声
データを作成し、第１の音声認識手段を用いてワードス
ポッティング法により求められる類似度値の時系列に基
づいて求められる学習用音声データの始終端に従って、
前記学習用音声データを分析して求められる第１および
第２の音声特徴パラメータの時系列から第１および第２
の音声特徴パラメータをそれぞれ抽出して行われるよう
にしてもよい。

（作用）本発明によれば、入力音声の全体的な大まかな特徴を
示す比較的次元数の少ない第１の音声特徴ベクトルの時
系列を用いることで、膨大なパターン照合回数を要する
ワードスポッティングによる連続パターン照合の演算量
の負荷を軽減して、音声区間検出を予め行うことなく入
力音声の大まかな特徴に基づく音声認識処理を行い、ま
た入力音声の詳細な特徴を表わす次元数の高い第２の単
語音声特徴ベクトルを音声区間（始終端）決定の後に抽
出して、詳細なパターン照合が行われる。

そしてこれらの各認識処理による認識結果を総合判定
してその最終的な認識結果を求めるので、認識処理に要
する演算量をさほど増加させずに、しかも音声の始終端
の検出能力に左右されることなく、例えば高騒音環境下
においても認識性能の高い音声認識処理を高速に実行す
ることが可能となる。つまり騒音や不明瞭な発声，不用
意な発声を伴う等の入力音声パターンの変形に対して、
高速に認識処理を実行してその認識結果を高い認識率で
求めることを可能とする、信頼性の高い実用的な音声認
識装置を実現することが可能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認
識装置について説明する。

第１図は実施例装置の全体的な概略構成図で、１はマ
イクロホン等を介して入力される音声信号をディジタル
信号に変換して音声分析部２に与える音声入力部であ
る。

この音声入力部１は、例えば第２図に例示するように
入力音声信号に含まれる3.6KHz以上の高周波雑音成分を
除去するローパスフィルタ（LPF）1aと、このLPF1aを介
して取り込まれた入力音声（アナログ信号）を、例えば
標本化周波数;8KHz,量子化ビット数;12bitsでディジタ
ル信号に変換するA/D変換器1bと、このA/D変換器1bが出
力するディジタル信号処理に対して、例えば24mSecのハ
ミング窓を設定してエンファシス処理を施すプリエンフ
ァシス回路1cとにより構成される。

尚、上述した入力音声のディジタル化処理について
は、例えば12KHzの標本化周波数にて量子化ビット数が1
6bitsのディジタル信号を求めるようにしても良く、そ
の仕様は入力音声に対して要求される認識性能等に応じ
て定められる。

このような音声入力部１を介して入力された音声デー
タを分析する音声分析部２は、基本的にはFFT分析やLPC
分析，スペクトラム分析，フィルタ分析等の手法を用い
て、例えば8mSec毎にその特徴パラメータを求めるもの
である。このようにして音声分析部２にて求められる特
徴パラメータの時系列が後述する認識処理部３における
認識処理に用いられる。

しかして音声分析部２は、ここでは認識処理部３で用
いられる２種類の音声特徴パラメータを前記入力音声か
ら抽出する為の第１の分析部４と第２の分析部５とを備
えて構成されている。この第１の分析部４は、演算量が
膨大な始終端非固定による連続パターン照合処理に用い
る為の次元数の低い（周波数分解能の悪い）第１の特徴
パラメータを抽出する為のものである。また第２の分析
部５は、音声区間の詳細な特徴を利用したパターン照合
処理に用いる為の次元数の高い（周波数分解能の高い）
第２の音声特徴パラメータを抽出する為のものである。

これらの第１および第２の分析部4,5は、例えばフィ
ルタ分析によりその特徴パラメータを求める場合には、
第２図に例示するように８チャネルまたは16チャネルの
バンドパスフィルタ（BPF）4a,5aの出力に対して、スク
エア処理4b,5b,スムージング処理4c,5c,対数圧縮化処理
4d,5dを施すことにより、８次元の第１の音声特徴パラ
メータと16次元の第２の音声特徴パラメータを求める如
く構成される。

尚、FFT分析（高速フーリエ変換による周波数分析）
により上記第１および第２の音声特徴パラメータをそれ
ぞれ求めるような場合には、第３図にその処理概念を模
式的に示すように、例えばDFT分析処理により12KHzのサ
ンプリング周期で256点の離散的フーリエ変換を施し、1
28点の分解能を有する周波数スペクトル（DFTスペクト
ル）Xkを求める。そしてこの周波数スペクトルXkのパワ
ー|Xk|²を周波数方向に平滑化し、周波数方向を８個ま
たは16個に分割した８チャネル（次元）または16チャネ
ル（次元）のフィルタバンク相当出力Zi（ｉ＝1,2,〜８
またはｉ＝1,2,〜16）をそれぞれ求める。

具体的には、８チャネルのフィルタバンク相当出力Zi
（ｉ＝1,2,〜８）を求める場合には、として周波数方向に平滑化処理を施す。これらのフィル
タバンク相当出力Zi（ｉ＝1,2,〜８）を対数化すること
により、 Gi＝10 logZi （ｉ＝1,2,〜８）として８次元の第１の音声特徴パラメータが求められ
る。

同様にして前述した周波数分解能の高い16チャネルの
フィルタバング相当出力Zi（ｉ＝1,2,〜16）について
も、前述した周波数スペクトルのパワー|Xk|²を周波数
方向に平滑化し、これを対数化することにより求められ
る。

尚、このようにして同じ周波数スペクトル（DFTスペ
クトル）から次元数を異にする第１および第２の音声特
徴パラメータを求めることは、その演算量の点で非常に
効率的であるが、全く別個のFFT分析処理にて第１およ
び第２の音声特徴パラメータをそれぞれ求めるようにし
ても良いことは云うまでもない。更には、LPC分析やケ
プストラム分析により第１および第２の音声特徴パラメ
ータを求める場合にも同様に実施することができる。

即ち、この音声分析部２では、後述する認識処理部３
での、演算量が膨大な始終端非固定による連続パターン
照合処理に用いる為の第１の特徴パラメータとして次元
数の低い（周波数分解能の悪い）特徴パラメータを抽出
し、また認識処理部３での、音声区間の詳細な特徴を利
用したパターン照合処理に用いる為の第２の音声特徴パ
ラメータとして次元数の高い（周波数分解能の高い）音
声特徴パラメータを抽出するものとなっている。

尚、このようにして第１および第２の音声特徴パラメ
ータをそれぞれ求める為に必要な演算量は、後述する認
識処理部３でのパターン照合に必要な演算量に比較して
遥かに少ないものである。従って上述した如く２種類の
音声特徴パラメータを求めることは、装置全体にとって
さほど負担となることはない。

さて上述した如く求められた第１および第２の音声特
徴パラメータを用いて前記入力音声を認識処理する認識
処理部３は、第１の特徴パラメータを用いて始終端非固
定のまま連続的にて認識辞書６との間でパターン照合を
行う第１の音声認識手段と、第２の音声特徴パラメータ
を用いてパターン照合する際の入力音声の始終端を検出
し、検出された始終端間の音声特徴ベクトルを求めて前
記認識辞書６との間でパターン照合を行う第２の音声認
識手段とを備えて構成される。

具体的には、第１の音声認識手段は、第１の特徴パラ
メータの時系列を入力し、入力音声に対する始終端非固
定のまま、例えば周波数方向に８次元，時間軸方向に12
次元の音声特徴ベクトルの時系列を抽出して時間的に連
続して、前記認識辞書６に登録されている認識対象カテ
ゴリについての第１の認識辞書との間で連続的にパター
ン照合を行う連続パターン照合部７により構成されてい
る。

この連続パターン照合部７におけるワードスポッティ
ングによる連続パターン照合は、基本的には第４図に例
示するように入力音声の特徴パラメータの系列から、そ
の特徴パラメータを求めた各サンプル・タイミング（分
析フレーム）を仮に設定される終端点とし、その終端点
を基準として或る音声区間条件を満たす複数の始端点を
仮設定する。そしてこれらの始終端点間で示される仮の
音声区間の特徴パラメータの系列を時間軸方向にリサン
プル処理し、音声区間を異にする所定の次元数の特徴ベ
クトルを前記終端点を基準としてそれぞれ求める。この
ようにして終端点を基準として求められる所定の次元数
の複数の特徴ベクトルを、前記終端点を時間軸方向にシ
フトしながら順次連続的に抽出し、これらの各特徴ベク
トルと認識辞書６との類似度をそれぞれ求めていく。

尚、この特徴ベクトルと認識辞書６との類似度を求め
る演算処理は、例えば複合類似度演算の手法を用いる等
して行われる。

しかして各特徴ベクトルについて求められた類似度値
を、例えば第５図に示すように相互に比較し、最大類似
度を得た認識対象カテゴリと、その音声区間の情報（最
大類似度値を得た特徴ベクトルの始終端の情報）を前記
入力音声に対する認識結果として求めるものである。

このようなワードスポッティングによる音声認識処理
によれば、始終端の検出誤りに起因する前述した問題が
なくなるので、その分、認識性能を高めることが可能と
なる。しかし時間的に連続して入力音声の特徴ベクトル
を時系列に抽出し、これらの特徴ベクトルを時系列と認
識辞書との類似度を逐次計算することが必要となる。こ
れ故、その演算処理量が非常に膨大化することから、上
記特徴ベクトルの次元数をある程度低く抑えて、その計
算処理負担を軽減することが必要となる等の配慮が必要
となる。そしてこのように特徴ベクトルの次元数を低く
すると、この特徴ベクトルによって示される入力音声の
特徴はその全体に亘る大局的なものとなることが否めな
い。従って、入力音声の詳細な特徴に従って、その入力
音声を高精度に認識する上で問題がある。

このような不具合を効果的に補うべく、認識処理部３
では前述した第２の音声認識手段にて前記第２の音声特
徴パラメータから入力音声の詳細な特徴を表現し得る高
次元の特徴ベクトルを抽出し、この特徴ベクトルを用い
て認識辞書６との間でパターン照合を行うものとなって
いる。

即ち、始終端検出部８は、ここでは前記連続パターン
照合部７にて求められた入力音声の始終端情報に従って
入力音声に対する始終端を検出している。つまり連続パ
ターン照合部７におけるワードスポッティングによる連
続パターン照合は、入力音声の始終端非固定のまま時間
的に連続してパターン照合を行い、入力音声の大局部な
特徴から認識候補を求めている。このようにして求めら
れる認識候補に着目すれば、その認識候補を得た第１の
特徴ベクトルの始終端は、入力音声の大局的な特徴から
求められる音声区間を示していると云える。始終端検出
部８はこのような観点に立脚して、前記連続パターン照
合部７によるパターン照合結果に基づいて入力音声の始
終端情報を求めている。

尚、この始終端検出については、入力音声のエネルギ
ー変化を調べて、或いは連続DPマッチング処理等の手法
を用いることで、上述したワードスポッティングによる
連続パターン照合とは独立に行うことも可能である。

しかして単語特徴ベクトル抽出部９は上記始終端検出
部８にて検出された入力音声の始終端情報に従い、前記
音声分析部２の第２の分析部５にて求められた周波数方
向に次元数の高い第２の特徴パラメータから、当該始終
端情報により示される音声区間の特徴パラメータをリサ
ンプル抽出し、例えば第３図に示すように周波数方向に
16次元，時間軸方向に16次元の音声特徴ベクトルを求め
る。このようにして求められる高次元数の第２の音声特
徴ベクトルがパターン照合部10に与えられて認識辞書６
に登録されている認識対象カテゴリについての第２の認
識辞書との間でのパターン照合に供される。

このパターン照合部10における第２の音声特徴ベクト
ルに対するパターン照合は、例えば前述した連続パター
ン照合部７におけるパターン照合と同様に複合類似度法
を用いて行われるが、HMM照合,DP照合等の手法を用いて
行うことも可能である。

つまりこのパターン照合部10では、始終端検出結果に
従って前記第２の音声特徴パラメータの時系列から抽出
される音声区間についての、入力音声の詳細な特徴を表
している高次元の第２の音声特徴ベクトルを用いて認識
辞書６とのパターン照合を行い、その類似度値から前記
入力音声に対する認識候補を求めるものとなっている。
この認識候補は、類似度値の高い幾つかの認識対象カテ
ゴリ名を求めることによってなされる。

このようにして認識処理部３では、低次元の特徴ベク
トルの時系列を用い、第１の音声認識手段により入力単
語音声αについての始端点ｔ_ｓαと終端点ｔ_ｅα，およ
びその類似度Ｓ_α１を求めている。そしてこの第１の音
声認識手段で求められた始端点ｔ_ｓαと終端点ｔ_ｅαと
に従って高次元の第２の特徴ベクトルを抽出し、第２の
音声認識手段により前記入力単語音声αについての類似
度Ｓ_α２を求めている。つまり始終端非固定の連続パタ
ーン照合による第１の認識処理を核として、第２の認識
処理により始終端検出後の特徴ベクトルを用いた詳細な
パターン照合を行うものとなっている。

しかしてこのような認識処理部３で求められた認識結
果を総合判定して、前記入力音声に対する最終的な認識
結果を求める認識結果処理部11は次のように構成されて
いる。即ち、この認識結果処理部11は第１図のブロック
内に示すように、前記認識処理部３の連続パターン照合
部７（第１の音声認識手段）にて求められた認識候補に
対する処理を行う第１の結果処理部12と、前記認識処理
部３のパターン照合部10（第２の音声認識手段）にて求
められた認識候補に対する処理を行う第２の結果処理部
13、そしてこれらの第１および第２の結果処理部12,13
にてそれぞれ求められた認識候補に対する処理結果を総
合判定して最終的な認識結果を求める統合処理部14を備
えて構成される。

このような認識結果処理部11（統合処理部14）にて求
められた最終的な認識結果が、認識結果出力部15を介し
て出力され、所定の情報処理装置に与えられたり、音声
入力者に提示出力される。

次に認識結果処理部11における前述した第１および第
２の音声認識手段による認識結果（認識候補）に対する
総合判定処理について説明する。

今、前記認識処理部３の連続パターン照合部７（第１
の音声認識手段）にて高い類似度値を得た上位３位の認
識対象カテゴリC1,C2,C3が求められると、第１の結果処
理部12にはその認識対象カテゴリC1,C2,C3のカテゴリ名
と共に、これを得た類似度値S_C1,S_C2,S_C3がそれぞれ与
えられる。この際、これらの類似度値S_C1,S_C2,S_C3を得
た第１の特徴ベクトルの始終端情報が第２の音声認識手
段に与えられ、第２の特徴ベクトル抽出処理に利用され
る。

しかして第２の音声認識手段では上述した如く求めら
れた認識対象カテゴリC1,C2,C3についての第２の特徴ベ
クトルを用いた詳細な特徴に基づくパターン照合によ
り、その類似度値をＳ′_C1,S′_C2,S′_C3としてそれぞれ
求めている。

認識結果処理部11では、最も単純に上述した認識結果
に対する統合処理を行う場合には、上記第１および第２
の音声認識手段によりそれぞれ求められた認識対象カテ
ゴリC1,C2,C3についての第１の類似度値S_C1,S_C2,S_C3と
第２の類似度値Ｓ′_C1,S′_C2,S′_C3とを単純加算し、 S_TCi＝S_ci＋Ｓ′_Ci）（ｉ＝1,2,3）として類似度値の統合を行っている。そしてこのように
して統合された前記各認識対象カテゴリC1,C2,C3につい
ての類似度値S_TC1,S_TC2,S_TC3を相互に比較判定し、最も
類似度値の高い認識対象カテゴリを前記入力音声に対す
る最終的な認識結果として求めている。

尚、第１および第２の音声認識手段によりそれぞれ求
められた或る認識対象カテゴリについての類似度値を単
純に加算することに変えて、例えば S_TCi＝wS_Ci（１−ｗ）Ｓ′_Ci （ｉ＝1,2,3）のように所定の重み係数ｗを用いて加重平均的に統合さ
れた類似度値S_TCiを求めるようにすることも可能であ
る。この場合には、例えば［ｗ＝0.2］程度に設定する
ことにより、入力音声の詳細な特徴を表現した第２の特
徴ベクトルを用いたパターン照合結果（類似度値）に対
する重み付けを高める等の配慮を施すことが好ましい。

更には第２の特徴ベクトルに基づくパターン照合によ
り求められた認識対象カテゴリC1,C2,C3についての第２
の類似度値Ｓ′_C1,S′_C2,S′_C3間の差を求め、第１位と
第２位との差が大きい場合には、第１の類似度値S_C1,S
_C2,S_C3に拘りなく、第２の類似度値Ｓ′_C1,S′_C2,S′_C3
だけに基づいて最終的な認識結果を決定するようにして
も良い。この場合には上記類似度値の差が小さい場合に
だけ、第１の類似度値S_C1,S_C2,S_C3を参照しながらその
最終的な認識結果の判定処理を行うことになる。

この他にも、例えば類似度値を確率的な尺度に変換し
て認識結果を総合判定することも可能であり、第１およ
び第２の類似度値の分布を統計的に調べて最終的な認識
結果を判定するようにすることも可能である。

このような第１および第２の音声認識手段によりそれ
ぞれ求められる認識結果の、上述した認識結果処理部11
での統合処理により、前記入力音声に対する最終的な認
識結果が求められる。

第６図はこのように構成された実施例装置における全
体的な処理手続きの流れを示している。この図に示され
るように実施例装置では、音声分析部２にて求められた
周波数方向に次元数の低い第１の特徴パラメータの時系
列から次元数の低い特徴ベクトルを求めて始終端非固定
による連続パターン照合処理を実行し（ステップＡ）、
この連続パターン照合により求められる第１の類似度の
時系列から類似度値の高い単語候補（認識対象カテゴ
リ）とその始終端候補を求める（ステップＢ）。

しかる後、上述した連続パターン照合による第１の音
声認識処理にて求められる始終端候補に従って音声区間
を切り出し、その音声区間についての次元数の高い第２
の特徴ベクトルを求め（ステップＣ）、この第２の特徴
ベクトルについてパターン照合処理を実行して第２の類
似度値を求める（ステップＤ）。

その後、これらの第１および第２の類似度値を総合的
に判断することで前記入力音声に対する最終的な認識結
果を求めるものとなっている（ステップＥ）。

この処理手続きに示されるように、実施例装置では入
力音声を分析して求められる低次元数の第１の特徴パラ
メータから始終端非固定で時間的に連続して求められる
低次元数の第１の特徴ベクトルを用いて連続パターン照
合を実行することで、入力音声の大略的な特徴に基づく
認識結果を求め、その認識結果を得た第１の特徴ベクト
ルによって示される始終端情報に従って切り出される音
声区間についての、前記入力音声を分析して求められる
高次元数の第２の特徴パラメータから抽出される高次元
数の第２の特徴ベクトルを用いたパターン照合により、
入力音声の詳細な特徴に基づく認識結果を求めるものと
なっている。

そしてこれらの認識結果を総合判定して前記入力音声
に対する最終的な認識結果を求めるので、仮に入力音声
が高騒音環境下で求められたものであって、雑音に埋も
れているような場合であっても、連続パターン照合によ
り入力音声の大略的な特徴から雑音に左右されることの
ない第１の認識結果を求め、その上で、この第１の認識
結果に伴って検出される音声区間の情報に従って入力音
声の詳細な特徴に基づく認識処理が行われるので、その
認識性能を飛躍的に高めることが可能となる。

つまり第７図（ａ）に示すような入力音声パターンが
雑音に埋もれて第７図（ｂ）に示すような音声パターン
として与えられるような場合であっても、その雑音成分
の影響を受けることなしに、その入力音声を性能良く認
識することが可能となる。

尚、上述したようにして入力音声を認識処理するに際
しては、例えば第８図に示すように第１の音声認識手段
により求められた認識対象カテゴリについての類似度値
が所定の閾値θ１以上で、且つ最大類似度値Smaxとの類
似度値差がΔθ１以下のものだけを認識候補として求
め、上記条件を満たす認識候補が得られなかった場合に
は、これを認識リジェクトする。

そして第１の音声認識手段にて上記条件を満たす認識
候補が得られた場合にのみ、その認識候補について第２
の音声認識手段にて第２の音声特徴ベクトルに従う詳細
なパターン照合を行い、この第２の音声認識手段により
求められた類似度値が所定の閾値θ２以上で、且つその
最大類似度値Smaxとの類似度値差がΔθ２以下のものだ
けを認識候補として求めるようにしても良い。

このようにすれば不要語に対するリジェクト性能の向
上が図られるので、音声認識の実用化に大きく貢献でき
る。

また第１の音声認識手段（連続パターン照合）により
求められる始終端情報に従って第２の音声特徴パラメー
タからその特徴ベクトルを抽出するに際しては、必ずし
もその始終端情報が入力音声の始終端を正確に示してい
るとは限らない。従って、例えば上記第１の音声認識手
段（連続パターン照合）により求められた始終端の前後
数点を始終端候補としてそれぞれ求め、これらの各始終
端候補により示される音声区間の第２の音声特徴ベクト
ルを求めて詳細なパターン照合を行うようにすれば良
い。また或いはある認識対象カテゴリの類似度を大きく
する上位複数の始終端候補を求め、これらの各始終端候
補により示される音声区間の第２の音声特徴ベクトルを
求めて詳細なパターン照合を行うようにしても良い。

また実施例では、第１および第２の音声認識処理をそ
れぞれ１種類の特徴ベクトルを用いて行うものとした
が、周波数方向および時間方向に次元数の異なる複数種
類の特徴ベクトルをそれぞれ用いて上述した第１および
第２の音声認識処理をそれぞれ実行することも可能であ
る。このようにすれば計算処理負担が増えるものの、そ
の認識性能を更に高めることが可能となる。その他、パ
ターン照合の手法や、パターン照合に用いる音声特徴ベ
クトルの次元数等については、その要旨を逸脱しない範
囲で種々変形して実施することができる。

次に上述した音声認識処理に用いられる認識辞書６の
学習について説明する。

第９図は認識辞書６に対する辞書学習部の概略構成を
示す図である。この辞書学習部は、雑音のないクリーン
な環境下で収集された種々の認識対象カテゴリについて
の音声パターンを学習用音声データとして蓄積した音声
データファイル21と、種々の雑音データを収集した学習
用雑音データファイル22を備えている。この学習用雑音
データファイル22に収集される雑音データは、例えば街
頭や駅構内等の、所謂雑音環境下で収集された雑多な音
情報を含むデータからなる。

音声データ合成部23は、学習対象とする認識対象カテ
ゴリの音声データを前記学習用音声データファイル21か
ら読み出し、これに前記学習用雑音データファイル22か
ら求められる雑音データを重畳させて上記音声データに
人工的なパターン変形を加えるものである。このパター
ン変形の度合いは、例えば音声データに混入する雑音デ
ータのレベルを可変する等して調節される。このように
して雑音データが加えられた音声データが前記音声分析
部２に与えられて第１および第２の音声特徴パラメータ
が求められる。

前述した認識処理部３における連続パターン照合部７
は、このようにして入力される学習用の音声データにつ
いて、上記第１の特徴パラメータから第１の特徴ベクト
ルの時系列を求め、同様にして連続パターンマッチング
処理を実行して第１の類似度の時系列を求める。

尚、この場合には学習対象とするカテゴリが予め判っ
ていることから、その認識対象カテゴリについての認識
辞書パターンとの間でだけパターン照合を行っても良
い。或いは類似カテゴリとの識別性を高めるような認識
辞書の学習効果も期待する場合には、これらの類似カテ
ゴリについての辞書パターンとの間でもパターン照合を
行うことが望ましい。また類似カテゴリ（誤認識される
虞れのあるカテゴリ）が不明な場合には、認識モードの
場合と同様に、全ての認識対象カテゴリの辞書パターン
との間でパターン照合するようにすることも勿論可能で
ある。

しかして学習用特徴ベクトル抽出部24は、認識処理部
３（連続パターン照合部７）にて前記学習用音声データ
について求められた類似度の時系列に基づいて、例えば
学習対象カテゴリの辞書に対する最大類似度値maxS_ijを
基準とし、この最大類似度maxS_ijとの差が所定の閾値θ
以下の類似度S_ijとなっている第１の特徴ベクトルにつ
いての始端点t_sおよび終端点t_eをそれぞれ求める。そし
てその第１の特徴ベクトルX_ijと始端点t_s,終端点t_e,お
よびこの第１の特徴ベクトルX_ijを抽出する根拠となっ
た類似度値S_ijを、学習用音声特徴ベクトルの抽出候補
として求める。

しかる後、学習用音声特徴ベクトル抽出部24は、例え
ば上記学習対象とするカテゴリの音声データについての
始終端に関する情報を用いて、上記抽出候補として与え
られた特徴ベクトルについての始終端に関して検定す
る。そしてこの検定に合格した始終端候補に従って前記
音声分析部２で求められた第１および第２の音声特徴パ
ラメータからその音声区間についての第１および第２の
音声特徴ベクトルを第11図に示すようにそれぞれ求め
る。認識辞書作成部25は、このようにして求められる第
１および第２の音声特徴ベクトルに従って認識辞書を作
成し、前記音声認識辞書６に格納されている認識辞書パ
ターンを学習更新する。

この認識辞書の学習について説明すると、例えば複合
類似度法による場合には、抽出された学習用音声特徴ベ
クトルX_ijを用いて辞書パターンの共分散行列を更新
し、しかる後、この共分散行列をKL展開してその固定値
λと固有ベクトルφを求め、この固有値λと固有ベクト
ルφを認識辞書として更新登録することにより行われ
る。

第10図はこのような認識辞書６の学習処理手続きの流
れを示す図である。

この学習処理は、先ず音声データに対する雑音データ
の割合（S/N）を設定し（ステップａ）、設定されたS/N
に従って学習対象とするカテゴリの音声データに所定の
雑音データを加えて人工的なパターン変形を与え（ステ
ップｂ）、これを学習用の音声データとすることから行
われる。このようにして作成される学習データを分析し
て第１および第２の音声特徴パラメータをそれぞれ求
め、次元数の低い第１の音声特徴パラメータから求めら
れる第１の音声特徴ベクトルの時系列について、認識辞
書に予め登録されている辞書パターンを参照してワード
スポッティング法に基づく連続パターン照合処理を実行
し、その類似度の時系列を求める（ステップｃ）。

しかる後、この類似度の時系列に従い、例えば学習対
象カテゴリの辞書との最大類似度値Smaxとの差が所定の
閾値θ以内の類似度値をとる特徴ベクトルの始端点と終
端点とをそれぞれ入力音声データに対する始端候補およ
び終端候補として求める。この処理においては上述した
閾値θの設定にもよるが、必ずしも１つの特徴ベクトル
に対する始端候補および終端候補だけが抽出されると云
う保証はなく、一般的には複数組の始端候補および終端
候補が求められる。

ちなみに本発明者等が先に提唱した、例えば特願平１
−57978号における特徴ベクトルの抽出処理は、上述し
た連続パターン照合によって求められる類似度の時系列
中の、学習対象カテゴリについての最大類似度値Smaxに
注目して学習用の音声特徴ベクトルの抽出を行ってい
る。

これに対してここでは、例えば上述した類似度の時系
列から求められる複数の特徴ベクトルの始端点と終端点
をそれぞれ始端候補および終端候補とし、学習対象とす
る音声データについて予め求められている始端点と終端
点の情報に従って上記始端候補および終端候補を絞り込
み処理し、最も信頼性の高い始端候補および終端候補を
求める。

即ち、連続パターン照合によって求められた類似度の
時系列に基づいて求められた数組の始端候補および終端
候補はそれぞれの音声区間を表していることから、ここ
では先ずその音声区間が音声データの標準的な音声区間
の時間幅に適合している否かの検定を行い、始端候補お
よび終端候補の絞り込みを行う。具体的には、始端候補
および終端候補により示される音声区間が音声データの
最小継続時間以上で、且つ最大継続時間以内であるかの
検定を行う。

また求められた音声区間に対する音声データの最大・
最小継続時間による検定については、類似度の時系列を
求める際の始終端非固定の連続パターン照合時、つまり
ワードスポッティング時に行うようにしても良い。つま
りワードスポッティングを行う際、その音声区間が最大
継続時間以下で、最小継続時間以上となるような始終端
についてのみその類似度演算を行うようにしても良い。
このようにすれば上述した学習用音声特徴ベクトルの抽
出処理を行う際での音声区間幅のずれに対する検定を省
略することが可能となる。

しかしてこのような音声区間に対する検定を行った
後、次に上記始端候補および終端候補が標準的な始端点
および終端点に対して所定のずれ幅以内に収まっている
かの検定を行い、その始端候補および終端候補の絞り込
みを行う。

このような検定処理により、前述した如く求められた
始終端候補が上述した継続時間幅の条件に適合するか否
かを調べ、この条件に該当しない始終端候補を特徴ベク
トルの抽出対象から除外する。また始終端のずれに対す
る検定により、その始終端が許容ずれ範囲内に収まって
いるか否かを調べ、これによってその条件に適合しない
始終端候補を特徴ベクトルの抽出対象から除外する。

このような始終端に関する検定により始終端候補を絞
り込むことで、真に信頼性の高い候補だけが残されるこ
とになる。

しかる後、その信頼性の高い、最大類似度を得る区間
の始終端の情報に従い、前述した第１および第２の音声
特徴パラメータからその音声区間についての第１および
第２の音声特徴ベクトルを第11図に示すようにそれぞれ
抽出する（ステップｄ）。この結果、認識辞書６を学習
する為の音声特徴ベクトルが前述した雑音の影響を受け
ることなしに精度良く、しかも高い信頼性をもって抽出
される。しかる後、この抽出された第１および第２の音
声特徴ベクトルを用いて前記認識辞書６の学習処理が行
われ（ステップｅ）、認識辞書６の性能が効果的に高め
られる。

このような認識辞書６の学習処理は、学習対象として
いる全ての認識対象カテゴリについての学習処理が行わ
れるまで、繰り返し実行される（ステップｆ）。

かくしてこのような認識辞書の学習機能を備えた音声
認識装置によれば、人工的に雑音が加えられた学習用音
声データを用いて第１および第２の音声認識手段による
パターン照合にそれぞれ供される認識辞書の性能を非常
に効果的に高めていくことが可能となる。しかも始終端
非固定の連続パターン照合による認識結果に基づいて求
められる始終端情報に従ってその音声区間の特徴ベクト
ルを正確に抽出して認識辞書６の学習を行い、その性能
を高めていくことができる。

この結果、前述した音声認識処理の手法と相俟って、
その認識性能を飛躍的に高めることが可能となる。

尚、本発明は上述した実施例に限定されるものではな
い。例えば実施例では入力音声を単語を単位として認識
処理する例について示したが、音韻や音節を処理単位と
して認識処理することも可能であり、他のセグメント単
位や記号処理を基本として入力音声を認識処理すること
も可能である。また認識対象も上述した単語のみなら
ず、文節や連続単語，文等であっても良い。更には認識
処理に用いる音声特徴ベクトルの次元数やパターン照合
の手法についても特に限定されることはない。本発明の
ポイントは始終端非固定の連続パターン照合と始終端決
定後のパターン照合によるハイブリッドシステムであ
り、その要旨を逸脱しない範囲で種々変形して実施する
ことができる。

［発明の効果］以上説明したように本発明によれば、連続パターン照
合による入力音声の大略的な特徴に基づく認識結果と、
始終端検出後の高次元な特徴ベクトルを用いたパターン
照合による入力音声の詳細な特徴に基づく認識結果とを
総合判定してその入力音声に対する認識結果を求めるの
で、その認識性能を飛躍的に高めることができる。しか
も演算量の多い連続パターン照合による認識処理につい
ては次元数の低い音声特徴ベクトルを用い、始終端検出
後のパターン照合については、その演算量が少ないこと
から次元数の高い特徴ベクトルを用いて認識処理を行う
ので、その演算量をさほど増加させずに認識性能を高め
ることができる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

図は本発明の一実施例に係る音声認識装置について示す
もので、第１図は実施例装置の全体的な概略構成図、第
２図は実施例装置における音声入力部と音声分析部の構
成例を示す図、第３図は音声分析部における第１および
第２の音声特徴パラメータの抽出概念を示す図、第４図
および第５図はワードスポッティングによる連続パター
ン照合処理による音声認識処理の基本概念を示す図、第
６図は実施例装置での音声認識処理手続きの流れを示す
図である。また第７図は入力音声パターンの例を示す図、第８図は
音声認識処理手続きの変形例を示す図、第９図は認識辞
書の学習機能を示す図、第10図は認識辞書の学習処理手
続きの流れを示す図、第11図は入力音声パターンから抽
出される学習用音声特徴ベクトルの概念を示す図であ
る。１……音声入力部、２……音声分析部、３……認識処理
部、４……第１の分析部（第１の音声特徴パラメータの
抽出手段）、５……第２の分析部（第２の音声特徴パラ
メータの抽出手段）、６……認識辞書、７……連続パタ
ーン照合部（始終端非固定の第１の音声特徴ベクト
ル）、８……始終端検出部、９……単語特徴ベクトル抽
出部（第２の音声特徴ベクトル）、10……パターン照合
部、11……認識結果処理部、12……第１の結果処理部、
13……第２の結果処理部、14……統合処理部、15……認
識結果出力部、21……音声データファイル、22……雑音
データファイル、23……音声データ合成部、24……学習
用特徴ベクトル抽出部、25……認識辞書作成部。

フロントページの続き (56)参考文献特開平３−71200（ＪＰ，Ａ) 特開昭62−100799（ＪＰ，Ａ) 特開昭62−237500（ＪＰ，Ａ) 特開昭57−100799（ＪＰ，Ａ) 特開昭62−275300（ＪＰ，Ａ) 特開昭58−52696（ＪＰ，Ａ) 特開昭59−15993（ＪＰ，Ａ) 特公平６−34192（ＪＰ，Ｂ２) 特公平７−92678（ＪＰ，Ｂ２) 電子情報通信学会技術研究報告Ｖｏｌ．89，Ｎｏ．90，ＳＰ89−19「学習型ワードスポッティング法による騒音環境下の不特定話者単語音声認識」ｐ．51− 58（1989／６／22) 日本音響学会講演論文集平成元年10 月２−１−12「騒音学習型ワードスポッティング法による学習時の拘束条件に関する検討」ｐ．75−76 日本音響学会講演論文集平成元年３月３−７−14「不特定話者単語認識における雑音の影響に関する考察」ｐ. 115−116 斎藤・中田「音声情報処理の基礎」（昭56−11−30）オーム社ｐ．185−187 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 513 G10L 3/00 531 G10L 5/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を分析して第１の音声特徴パラメ
ータの時系列を求める手段と、ワードスポッティング法によって、前記第１の音声特徴
パラメータの時系列から始終端検出を行うことなく求め
られる第１の音声特徴ベクトルの時系列と認識対象カテ
ゴリについての第１の認識辞書とを照合してその類似度
値の時系列を求め、該類似度値の時系列に基づいて前記
入力音声に対する認識結果の候補となる１または複数の
認識対象カテゴリとその類似度値とそれを与えた前記入
力音声における始終端との組を求める第１の音声認識手
段と、前記入力音声を分析して前記第１の音声特徴パラメータ
の次元数より大きい次元数を持つ第２の音声特徴パラメ
ータの時系列を求める手段と、前記第１の音声認識手段により求められた前記認識結果
の候補に対する前記始終端と同一の始終端によって、前
記第２の音声特徴パラメータの時系列から、前記第１の
音声特徴ベクトルの次元数より大きい次元数を持つ第２
の音声特徴ベクトルを抽出する手段と、この手段により抽出された第２の音声特徴ベクトルと前
記第１の音声認識手段により求められた前記認識結果の
候補となる前記認識対象カテゴリについての第２の認識
辞書とを照合してその類似度値を求める第２の音声認識
手段と、前記第１の音声認識手段により求められた前記認識結果
の候補となる１または複数の認識対象カテゴリについて
前記第１の音声認識手段および前記第２の音声認識手段
によりそれぞれ求められた類似度値に基づいて、前記入
力音声に対する最終的な認識結果を決定する手段とを具
備したことを特徴とする音声認識装置。
【請求項２】前記抽出する手段は、前記第１の音声認識
手段により求められた前記認識結果の候補に対する前記
始終端を基準として該始端終端を前後に移動させること
によって得られる複数の異なる始終端のそれぞれによっ
て、前記第２の音声特徴パラメータの時系列から前記第
２の音声特徴ベクトルを複数抽出することを特徴とする
請求項（１）に記載の音声認識装置。
【請求項３】第１および第２の音声認識手段における音
声特徴ベクトルと認識辞書との照合は、同一の計算方式
により上記音声特徴ベクトルと認識辞書との類似度値を
計算して行われることを特徴とする請求項（１）に記載
の音声認識装置。
【請求項４】請求項（１）に記載の音声認識装置におい
て、第１および第２の認識辞書に対する学習機能を備え
たことを特徴とする音声認識装置。
【請求項５】第１および第２の認識辞書の学習処理は、
音声データに人工的なパターン変形を加えて学習用音声
データを作成し、第１の音声認識手段を用いてワードス
ポッティング法により求められる類似度値の時系列に基
づいて求められる学習用音声データの始終端に従って、
前記学習用音声データを分析して求められる第１および
第２の音声特徴パラメータの時系列から第１および第２
の音声特徴パラメータをそれぞれ抽出して行われること
を特徴とする請求項（４）に記載の音声認識装置。