JP3180655B2

JP3180655B2 - パターンマッチングによる単語音声認識方法及びその方法を実施する装置

Info

Publication number: JP3180655B2
Application number: JP04898096A
Authority: JP
Inventors: 芳夫中台; 哲真桜井; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-06-19
Filing date: 1996-03-06
Publication date: 2001-06-25
Anticipated expiration: 2016-03-06
Also published as: US5732394A; JPH0968994A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、単語音声認識方法お
よびその方法を実施する装置に関し、特に、単語単位で
音声を入力してその音声パターンと予め登録された複数
の単語音声の標準パターンとのマッチングを行うことに
より入力音声を認識し、認識結果を文字その他の記号で
出力する単語音声認識方法およびその方法を実施する装
置に関する。

【０００２】

【従来の技術】人間の手動操作の代わりに音声でコマン
ドを受け付け、電気機器などの操作を行う、いわゆる音
声認識技術について、従来より研究開発が行なわれてい
る。音声認識技術は、人間が任意の場所から任意のタイ
ミングで発声した任意長の音声を１００％の確率で認識
することができるのが理想である。しかし、騒音の存在
する実際の使用環境条件下において任意の時刻で発声さ
れた音声を捕捉しようとするには、音声入力処理におい
て雑音も含めて観測される信号区間の中から音声の始端
と終端とを何度も検出し、かつ雑音区間は除外する複雑
なアルゴリズムを常に実行する必要が生じ、計算量が膨
大になる。この様なことから、或る一定時間中において
音声の始端と終端とをそれぞれ一回のみ検出する簡易な
孤立単語音声認識技術が開発されている。

【０００３】ここで、一般に使用されている孤立単語音
声認識装置の従来例を図１を参照して説明する。図１に
おいて、音声入力部１１はマイクロホンその他の音響電
気変換器により入力音声を音声信号波形に変換する。Ａ
／Ｄ変換部１２は音声信号波形を一定のサンプル周期の
ディジタル値からなるディジタル音声信号波形に変換す
る。音声特徴抽出部１３はディジタル音声信号波形から
音声認識に必要とされる特徴パラメータを抽出する。起
動スイッチ部１４は単語音声認識に際して音声区間検出
時の始端検出開始のトリガを与える。音声区間検出部１
５は音声特徴抽出部１３から得られる音声特徴パラメー
タの変化に基づいて音声の始端および終端をそれぞれ一
箇所だけ決定する。入力パターン格納部１６は音声区間
検出部１５で決定された音声始端から音声終端までの音
声特徴パラメータを取り込んでこれを未知の入力音声パ
ターンとする。

【０００４】標準パターン記憶部１７には音声認識用の
複数の単語音声を予め登録する際に、音声特徴抽出部１
３、起動スイッチ部１４、音声区間検出部１５、入力パ
ターン格納部１６による音声認識時と同様の手順によ
り、登録単語音声の音声区間の特徴パラメータ系列から
なる音声パターンが生成され、それぞれラベル名を付与
されて標準パターンとして格納されている。パターンマ
ッチング部１８は、入力パターン格納部１６に格納され
た未知の入力音声パターンと標準パターン記憶部１７に
格納された標準パターンとの間のマッチングを行い、標
準パターンと入力音声パターンとの間の距離値を出力す
る。距離値はマハラノビス距離その他の数式で定義され
る特徴パラメータ上の距離値である。結果出力部１９
は、各標準パターンについてそれぞれ出力された未知入
力音声パターンとの間の距離値のうちの最も小さい距離
値を有する標準パターンを決定し、その標準パターンの
ラベル名を音声認識装置を動作させる図示していないホ
ストコンピュータへ出力する。ホストコンピュータは音
声認識処理手順を記述したプログラムを内部に有し、そ
れに従って各部１２〜１９の動作を制御する。

【０００５】以下、図１の音声認識装置の動作について
説明する。音声は常時、音声入力部１１、Ａ／Ｄ変換部
１２でディジタル音声信号に変換され、音声特徴抽出部
１３により短時間フレーム毎に（例えば１２８サンプ
ル：１６msec）分析され、特徴パラメータが抽出され
る。その分析結果の一部の情報である音声信号のパワー
は音声区間検出部１５に送信され、音声区間検出の情報
とされる。音声認識とは一般に韻律情報の認識を意味す
る。韻律情報を表す音声信号のスペクトル包絡を短時間
フレーム毎に線形予測分析する前処理として、入力信号
の自己相関関数を求める。その際に得られる０次の自己
相関関数はそのフレームの入力信号の短時間パワー値に
相当する。一般に信号パワーを対数パワーで表すと数値
表現上便利である。

【０００６】ここで、発声者あるいは音声認識装置を動
作させる上位ホストコンピュータが起動スイッチ部１４
を起動させ、音声区間検出開始のトリガが発生したもの
とする。音声区間検出部１５は初期化され、音声特徴抽
出部１３から入力する情報により音声始端の検出を開始
する。音声始端の検出方法としては、例えば信号パワー
値が音声の存在しない状態から或る一定閾値以上の大き
な値で一定時間継続したときに、その信号パワー値の立
ち上がり位置を始端とする方法を採用することができ
る。次いで、音声区間検出部１５は音声の信号パワー値
の減衰点を検出して音声の終端とし動作を終了する。

【０００７】音声特徴抽出部１３の分析結果である特徴
パラメータの系列の内の音声区間検出部１５により検出
された音声の始端から終端に到る区間の特徴パラメータ
の系列を、入力音声パターンとして入力パターン格納部
１６に格納する。パターンマッチング部１８は、入力音
声パターンの格納が完了したところで、入力パターン格
納部１６に格納した入力音声パターンと標準パターン記
憶部１７に記憶されている各標準パターンの内容を、Ｄ
Ｐマッチングその他のパターンマッチング手法により照
合し、両者間の距離計算を行う。各標準パターンに対す
る距離計算結果は結果出力部１９において過去の最小の
距離値と比較され、それより小さい場合、最も小さい距
離値とされた標準パターンのラベル名が出力部１０から
ホストコンピュータに出力される。

【０００８】上述のような単語音声認識装置において
は、音声区間の検出は特に正確であることを要請され
る。音声区間の検出の仕方として、例えば音声特徴抽出
により得られたすべての情報にニューラルネットその他
のフィルタリング操作を施し、正確に音声区間のみを抽
出する仕方があるが、この抽出の演算処理は大がかりな
ものとなり、通常の音声認識と大差のない計算量を必要
とされるところから、一般的には小規模の計算量により
区間検出をすることができる音声パワー、零交差数その
他の単純な情報に基づいて音声区間を検出する場合が多
い。また、音声区間検出段階において音声の一部が未検
出となることを防止するために、区間検出の閾値は雑音
部分の平均的な特徴量から決定する方法が採用されるこ
とが多い。

【０００９】この様な音声区間検出方法により切り出さ
れた音声の模式図を図２に示す。この例は音声区間を音
声信号パワーにより切り出した例である。この図におい
て、区間２Ａは***を動かし始めた時に収録されたノイ
ズである一般にリップノイズと呼ばれる区間である。区
間２Ｂは真の音声区間を示す。区間２Ｃは発声後に生じ
た呼吸音を示す区間である。区間２Ｄは周囲騒音或は音
声入力部に到る電気的な伝送系において発生した伝送ノ
イズを示す区間である。図２は音声入力部１１が発声者
の口元に近い電話機のハンドセットの様な場合に真の音
声区間の前後に平均的な雑音と異なるリップノイズおよ
び呼吸音が付随してこれらを音声区間と誤って判断し、
或は周囲騒音および伝送系に起因するノイズもこれを音
声区間と誤って判断する場合が生ずることを示してい
る。この様に、真の音声区間にそれ以外の不要な信号区
間が付随すると、不要な信号区間についても真の音声区
間と同様のパターンマッチング処理が実行されるところ
から、標準パターン自体は真の音声区間と同一のもので
あってもこれら二つのパターン間には食い違いを生じ、
結果的には音声認識誤りの原因となる。この様に音声認
識誤りの原因となる区間検出の状態を、一般に音声区間
検出誤りと呼ぶ。

【００１０】この様な音声区間検出誤りは未知入力音声
パターンを調整することにより回避しなければならな
い。その理由は、標準パターンの登録は、最適な認識率
が得られる様に発声者が注意深く発声することが期待さ
れ、或は標準パターン自体が音声特徴量から計算結果と
して自動生成されるなど殆どの場合区間検出誤りの問題
が排除されたパターンであるのに対して、未知音声の入
力時は殆どの場合肉声が使用されるので区間検出誤りの
原因や発生状況がその都度異なるためである。また、あ
らゆる環境条件の下における発声においても正確に認識
することが音声認識装置に求められるためである。

【００１１】未知音声入力時の音声区間検出誤りにより
生ずる誤認識を回避する方法としては連続パターンマッ
チング又はワードスポッティングという手法が採用され
てきた。即ち、入力音声区間については音声が含まれる
と思われる区間を事前に大まかに検出しておき、その区
間中の各時刻を真の入力音声の始端と考えて、標準パタ
ーンとの間で終端フリーのパターンマッチングを繰り返
し、その結果得られる最小の距離値を二つのパターン間
のマッチング結果とするものである。しかし、この方法
は大まかに切り出した音声区間の長さに応じてマッチン
グを繰り返すこととなり、計算量が膨大になる。

【００１２】計算規模が小規模であることが要求される
単語音声認識装置については、音声区間検出処理を簡素
化する結果、図２のように真の音声区間以外の不要な音
声区間が真の音声区間の前後に付随することになり、パ
ターンマッチング時に正しいパターンマッチングをする
ことができないという問題が生ずる。この問題を解決す
るには計算量が膨大になるアルゴリズムを使用しなけれ
ばならない。

【００１３】日本国特許公告3-67299 には認識対象音声
区間の始端と終端の検出位置の誤りに起因する認識誤り
率の増大を避けるため、予め決めた複数のパワー閾値で
切り出した区間に対しそれぞれパターンマッチングを行
うことが示されている。しかしながら、複数の選択した
パワー閾値及び入力音声のパワーの大きさの何れかまた
は両方によっては、どのパワー閾値に対しても真の音声
区間を検出できない可能性が生じる。

【００１４】上述のような不要信号区間を除去して、音
声区間を正確に検出する事により認識性能を改善したと
しても、実用的に充分高い認識性能を得ることが困難で
ある。その原因の一つとして音声の始端及び終端におけ
る発声のゆらぎの存在がある。例えば、単語/kitami/及
び /ibusuki/（いずれも日本の都市名）という単語を発
声する場合/ki/の母音部分/i/ は、何れも前後に弱く発
声される傾向のある/k/ 及び/t/ 、或は/s/ という無声
子音に付随しており、この影響を受ける形で明瞭に発声
されなくなってしまう場合がある。これは「母音の無声
化」として良く知られる現象である。ここで、単語/kit
ami/及び/ibusuki/ について、それぞれ/ki/の部分が明
瞭に発声された音声パターンと、無声化した音声パター
ンとを比較すると、パターンマッチング手法あるいは同
時に認識しようとする語彙によっては正しく認識されな
い場合がある。これは、/ki/の部分が無声化することに
より特徴パラメータが変化したり、音声区間検出時に無
声化した部分が区間として検出されなくなる現象による
ものである。

【００１５】以上は音声の始端及び終端における発声の
ゆらぎの一例として無声化の場合を示したものである
が、この他、/s/ 音から発声を開始する場合の破擦音部
分の長短、或は/n/ 音から発声を開始する直前の鼻音の
長短もこの様なゆらぎに相当する。この様なゆらぎが音
声の始端及び終端の何れにも存在すると、認識性能を向
上させるパターンマッチングアルゴリズムについても制
約が生じる。音声始端位置を固定して終端位置を自由に
する終端フリー形マッチング方法、或は逆に終端位置を
固定して始端位置を自由にする始端フリー形マッチング
方法は、それぞれ固定とした音声始端側或は音声終端側
に発声のゆらぎが生じた場合の認識誤りを防ぐことは困
難になる。従って、認識性能を向上させるには両端フリ
ー形マッチング方法の採用が不可欠になる。

【００１６】ところが、両端フリー形マッチング方法に
依っても認識誤りの回避は難しい。図３は両端フリー形
ダイナミックプログラミング（ＤＰ）マッチング方法に
おける２個のパターンの時間軸対応づけ、いわゆるＤＰ
パスを示したものである。ここで、時系列データＡＡ＝｛a₁，a₂，…，a_s，…，a_e，…，a_M｝は標準パターン、時系列データＢＢ＝｛b₁，b₂，…，b_s，…、b_e，…，b_N｝は未知入力パターンを示し、シェードの部分３１、３２
が時系列データＢにおいて母音の無声化、或は不要な鼻
音の付加その他音声始端及び終端に発声のゆらぎを生じ
てマッチング上影響を及ぼす部分である。パターン照合
を行う音声始端及び音声終端のＬ字形の部分３３、３４
は、両端フリー形認識アルゴリズムにおいて自由始端位
置及び自由終端位置となる部分である。また、点線３５
はＤＰ整合窓と呼ばれる時間伸縮マッチングを許容され
る空間の境界である。ここで、説明を簡略化するため
に、時系列データＡ及び時系列データＢの区間長は同一
であるものとしている。

【００１７】ここで、自由始終端位置３３、３４と入力
音声始終端でゆらぎを有する部分３１、３２との重なり
具合を図で見ると、自由始終端位置３３、３４のほとん
どがゆらぎの影響を受けている部分であることが判る。
このために、単純に決定した始端位置及び終端位置に基
づいてマッチングを行うと、図３中に実線３６により示
している様な極端な時間軸対応づけ（時間伸縮）を許容
したＤＰパスが得られなければ、始端或は終端のゆらぎ
の影響を受けた照合結果となる。ところが、ゆらぎの影
響の少ないパターンの中央部分については２個のパター
ンの照合は１対１対応となるため、ＤＰパスは実線３７
の様に始端終端でのみ極端な時間軸対応を取る様な軌跡
を描くべきである。しかし、ＤＰ漸化式によっては実線
３７の様な極端な時間軸対応のできないものもあり、結
局ＤＰ漸化式を満たす別のＤＰパスが選択されることに
なる。その結果、ＤＰパス上で得られる正規化距離値
は、ゆらぎを含まない部分だけの照合を行った場合より
も大きくなり、誤認識の原因となりやすい。

【００１８】U.S.Patent 5,222,190は、連続音声認識に
おいて、音声パターン間の境界を識別するために、予め
選択した使用頻度の高い単語をanchor wordsとして登録
しておき、スピーチ中に現れたアンカーワードと他のワ
ードの境界を見つけることにより非アンカーワードの始
端及び終端を正確に決めることができることを示してい
る。しかしながら、認識対象単語の始端と終端を正確に
決めたとしても、上述の理由から発声のゆらぎによる誤
認識を防ぐことができるとは限らない。

【００１９】

【発明が解決しようとする課題】この発明の目的は、入
力音声の前後に不要信号区間が付随する場合でも認識率
を改善した単語音声認識を簡易なアルゴリズムにより、
少ない演算処理量で実現することができる単語音声認識
方法およびその方法を実施する装置を提供することであ
る。

【００２０】この発明のもう１つの目的は、音声パター
ンの音声始端部分及び音声終端部分における音声のゆら
ぎにより生じる認識誤りを減少する単語音声認識方法及
びその方法を実施する装置を提供することである。

【００２１】

【課題を解決するための手段】この発明の第１の観点に
よる単語音声認識方法は、以下のステップを含む： (a) 未知の入力ディジタル音声信号をフレーム毎に分析
して特徴パラメータを抽出し、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
検出し、上記音声区間の音声信号の上記特徴パラメータ
の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの区間長と選択した標準パタ
ーンの区間長との間の差分ｄを求め、 (e) 上記差分ｄを予め決めた閾値長ε₁ と比較し、ε₁
は正の値であり、(e-1) 上記差分が上記閾値長ε₁ を越
えた場合は上記入力音声パターンから複数の異なる位置
で上記選択した標準パターンの区間長とほぼ同じ長さの
部分パターンをそれぞれ抽出し、(e-2) 上記部分パター
ンと上記選択した標準パターンとの間のパターンマッチ
ングを行ってそれら間の距離を求め、 (f) 得られた上記距離の中で最小のものを上記音声パタ
ーンと上記選択した標準パターンとの間の距離と決定
し、 (g) 上記ステップ(c)〜(f)をそれぞれの標準パターンに
ついて繰り返して、最小の距離を与える標準パターンの
ラベルを上記入力ディジタル音声信号に対する認識結果
として出力する。

【００２２】上記第１の観点による単語音声認識方法を
実施する認識装置は、以下を含む：ディジタル音声信号
を入力する入力手段と、入力された上記ディジタル音声
信号をフレーム毎に分析して音声特徴パラメータを抽出
する音声特徴抽出手段と、上記音声特徴抽出部の出力す
る上記音声特徴パラメータの系列に基づいて音声区間を
検出する音声区間検出手段と、区間検出結果に基づいて
音声区間の始端および終端を決定し、その音声区間の特
徴パラメータの列を音声パターンとして格納する入力パ
ターン格納手段と、音声認識に使用する複数個の標準パ
ターンを予め記憶した標準パターン記憶手段と、記憶さ
れた各標準パターンの音声区間長と上記入力パターン格
納手段に格納された上記音声パターンの音声区間長とを
比較する区間長比較手段と、上記区間長比較手段の出力
する音声区間長の比較結果および上記入力パターン格納
手段の出力結果とに基づいて上記入力パターン格納部に
格納した上記音声パターンから複数の異なる位置で部分
パターンをそれぞれ抽出する入力パターン抽出手段と、
複数の上記部分パターンのそれぞれと各標準パターンと
の間のパターンマッチングを行い計算結果である複数の
距離値を出力するパターンマッチング手段と、上記パタ
ーンマッチング手段の出力する複数の上記距離値を比較
して最小の距離値を上記音声パターンと上記標準パター
ンとの間の距離値として出力する距離比較手段と、各標
準パターンとの間のマッチング結果として出力された距
離値の内の最も距離値が小さいと判定された標準パター
ンのラベル名を出力する結果出力手段。

【００２３】この発明の第２の観点による単語音声認識
方法は、以下のステップを含む：(a) 未知の入力ディジ
タル音声信号をフレーム毎に分析して特徴パラメータを
求め、(b) 入力ディジタル音声信号の音声区間の始端と
終端を検出し、上記音声区間の音声信号の上記特徴パラ
メータの系列を入力音声パターンとして求め、(c) 標準
パターンを選択し、(d) 上記入力音声パターンの全区間
と上記選択した標準パターンの全区間とのパターンマッ
チングを行ってパターン間の第１の距離を求め、(e) 上
記選択した標準パターンの始端部分区間と終端部分区間
を除く標準パターン部分区間を抽出し、(f) 上記入力音
声パターンの始端部分区間と終端部分区間を除く音声パ
ターン部分区間を抽出し、(g) 上記標準パターン部分区
間と上記音声パターン部分区間とのパターンマッチング
を行ってパターン間の第２の距離を求め、(h) 上記第１
の距離と第２の距離を比較し、小さい方の距離を上記入
力音声パターンと上記選択した標準パターンとの間の距
離と決定し、(i) 上記ステップ(c)〜(h)をそれぞれの標
準パターンについて繰り返して、最小の距離を与える標
準パターンのラベルを上記入力ディジタル音声信号に対
する認識結果として出力する。

【００２４】上記第２の観点による単語音声認識方法を
実施する認識装置は、以下を含む：ディジタル音声信号
を入力する入力手段と、入力された上記ディジタル音声
信号をフレーム毎に分析して音声特徴パラメータを抽出
する音声特徴抽出手段と、上記音声特徴抽出部の出力す
る上記音声特徴パラメータの系列に基づいて音声区間を
第１音声区間として検出し、その両端を第１始端及び第
１終端と決める音声区間検出手段と、検出した上記第１
音声区間の特徴パラメータの列を音声パターンとして格
納する入力パターン格納手段と、上記音声区間検出手段
により得られた上記第１音声区間から始端部分区間と終
端部分区間を除く第２音声区間を規定する第２始端と第
２終端を決定する入力パターン部分区間決定手段と、音
声認識に使用する複数個の標準パターンをそれらの音声
区間をそれぞれ第１音声区間として規定する第１始端及
び第１終端を示す情報と共に予め記憶した標準パターン
記憶手段と、上記標準パターン記憶手段から選択した標
準パターンの第１音声区間の始端部分区間と終端部分区
間を除いた第２音声区間を規定する第２始端と第２終端
を決定する標準パターン部分区間決定手段と、上記音声
区間検出手段及び上記標準パターン記憶手段からの音声
パターン及び標準パターンのそれぞれに関する第１始端
及び第１終端と、第２始端及び第２終端を選択し、それ
によって上記入力パターン格納手段からの上記音声パタ
ーン及び上記標準パターン記憶手段からの上記標準パタ
ーンのそれぞれの第１音声区間と第２音声区間を選択す
るスイッチ手段と、上記スイッチ手段により選択された
上記音声パターンと上記標準パターンのそれぞれ第１音
声区間のパターンマッチングを行い第１距離を求め、上
記スイッチ手段により選択された上記音声パターンと上
記標準パターンのそれぞれの第２音声区間のパターンマ
ッチングを行い第２距離を求めるパターンマッチング手
段と、上記第１距離と第２距離を比較し、小さい方の距
離を上記入力音声パターンと上記選択した標準パターン
との距離値と決める距離比較手段と、上記入力音声パタ
ーンの各標準パターンに対するマッチング結果として上
記距離比較手段から出力される距離値を全て比較し最も
距離値が小さいと判定される標準パターンを決定し、そ
の標準パターンのラベル名を出力する結果出力手段。

【００２５】

【実施例】

第１実施例この発明の第１の観点による単語音声認識方法の原理を
説明するにあたり、真の音声区間に不要信号区間が付随
することについて再検討してみると、（１）不要信号区間は真の音声区間の前、後、或は前
後の双方に付随する。

【００２６】（２）真の音声区間の中に雑音が重畳し
たとしても音声区間検出に影響を与えることは少なく、
雑音成分を除去する分析或はパターンマッチングにより
解決することができる。（３）発声者が自分の音声を音声認識装置に正確に認
識させようとする場合に、入力音声は認識させたい標準
パターンにかなり類似した音声となる様に好意的に発声
されることを期待することができる。即ち、入力音声の
区間長は、認識させたい標準パターンの区間長とほぼ同
一の長さに近づく。

【００２７】従って、これら（１）ないし（３）の事象
より、音声区間検出について、検出された音声区間の区
間長から真の音声区間の他に不要信号区間が付随してい
ると判断された場合、パターンマッチングの対象である
標準パターンの区間長に相当する区間以外の前及び／又
は後の部分区間を信号区間から除去したものにパターン
マッチング処理を施すことにより、不要な音声区間に妨
害されない、より正しい認識結果を得ることができる。
更に、音声特徴抽出に使用した情報を使用して検出した
音声区間中の音声始端および音声終端の仮候補を算出す
れば、真の音声区間の前後の双方に不要区間が付随した
場合でも真の音声区間を推定することができ、認識性能
の向上につながる。

【００２８】図４はこの発明の音声認識方法を使った音
声認識処理手順の全体の概要を示す。ステップＳ１で使
用者の発声した単語の入力音声信号に対し、音声分析処
理を行って音声特徴パラメータ系列を得ると共に、認識
処理すべき音声区間を決定する。ステップＳ２では抽出
された音声区間が始端と終端を有し、かつ所定長以内で
あるか判定し、所定長より大であれば、音声区間の全長
がバッファに入らないと判定し、ステップＳ３で使用者
に再度発声を要求し、ステップＳ１に戻る。音声区間が
所定長以内であれば、その区間の特徴パラメータの系列
を入力音声パターンとし、ステップＳ４で、後述するこ
の発明の方法により、選択した現標準パターンとの入力
音声パターンとのマッチング処理を行い、パターン間の
距離を求める。ステップＳ５では、ステップＳ４で求め
た現標準パターンに対する距離が前回までの最小距離
（初期値は例えば無限大に設定する）より小さければ、
その過去の最小距離値とそれを与えた標準パターンのラ
ベルを、今回の距離値と現標準パターンのラベルに書き
換える更新処理を行う。今回の距離値が過去の最小距離
値以上であれば、更新処理を行わない。次に、ステップ
Ｓ６で全ての標準パターンとのマッチング処理が終了し
たかチェックし、終了してなければステップＳ７で次の
標準パターンを指定し、ステップＳ４のパターンマッチ
ング処理とステップＳ５の更新処理を繰り返す。全ての
標準パターンとのマッチング処理が終了するとステップ
Ｓ８で最小距離を与えた標準パターンのラベルを入力音
声に対する認識結果として出力する。

【００２９】この発明による単語音声認識装置の実施例
を図５を参照して説明する。図５において、音声入力部
１１は使用者が発声する入力音声を音声信号に変換する
例えばマイクロホンである。アナログ／ディジタル変換
部１２は音声信号波形を一定サンプリング速度でサンプ
リングし、ディジタル信号波形に変換し、音声特徴抽出
部１３に与える。この発明による単語音声認識装置によ
り認識すべき入力音声信号としては、この様に使用者が
直接入力したアナログ音声信号を認識する場合だけでな
く、例えばITU-T 勧告G.711 などに基づく図示してない
ディジタル回線を通して端子１１ｂに受信したディジタ
ル音声信号を認識する場合にも適用できる。ディジタル
回線を通して音声信号の送信を行う場合、送信側におい
て入力音声をディジタル信号に変換する際に情報圧縮
（例えばITU-T 勧告G.711,G.721,G.722 等に基づいた音
声波形の非線形圧縮等）を受けたディジタル音声信号を
端子１１ｂに受ける場合は、波線で示すように波形変換
部１２ｂで入力ディジタル音声信号を逆変換やサンプリ
ングレートの変換を行って音声特徴抽出部１３に送る。

【００３０】音声特徴抽出部１３は与えられたディジタ
ル音声信号をフレーム毎に分析して特徴パラメータを抽
出する。その分析手法としては、例えば、短時間パワー
分析、自己相関係数処理、ＰＡＲＣＯＲ分析、ＬＰＣ分
析、ＬＰＣケプストラム分析の手法がとられる。この分
析によって特徴パラメータの系列を得る。起動スイッチ
部１４は、単語音声認識するに際して音声区間検出時の
始端検出開始のトリガを与える。音声区間検出部１５は
音声特徴抽出部１３から得られる音声特徴パラメータの
系列から音声の始端および音声の終端をそれぞれ一箇所
だけ決定する。その手法としては、例えば音声発声以前
の平均雑音パワーレベルを測定しておき、入力音声信号
を分析して得られるパワー波形の短時間パワー値がその
平均雑音パワーレベルより一定閾値以上である区間が一
定時間以上継続する区間を音声区間とする手法を採用す
ることができる。ただし、短時間パワー値が一定閾値未
満である短い区間をはさんで２つの一定閾値以上の区間
が接近して存在するような場合（すなわち例えば/sappo
ro/ と発声するように無音区間を含む単語の発声）には
これら３つの信号区間を併せて１つの音声区間として検
出する。

【００３１】入力パターン格納部１６は音声区間検出部
１５において決定された音声始端から音声終端に到る音
声特徴パラメータを取り込んでこれを未知入力音声パタ
ーンとして格納する記憶部である。図６は上述の音声特
徴抽出部１３、音声区間検出部１５、入力パターン格納
部１６によって実行される図４の主にステップＳ１の音
声分析処理の手順を示す。ステップＳ１１で特徴抽出部
１３により使用者の音声発声前の環境雑音を含む全雑音
の短時間パワーP_Nを測定する。次にステップＳ１２で特
徴抽出部１３により使用者の発声した音声波形の１フレ
ームを分析し、特徴パラメータを得る。この分析におい
て信号の０次自己相関値である信号の短時間パワーも得
られる。ステップＳ１３で音声区間検出部１５により、
上記特徴パラメータ抽出時に得られた音声信号短時間パ
ワー（対数パワーで表す）P_S（図７参照）として求め、
その値を雑音パワーP_Nと比較し、予め決めた閾値ΔP_th
以上大きければ、即ちP_S-P_N≧ΔP_thであればサインsgn=
0 とし、そうでなければsgn=1 とし、ステップＳ１４で
そのフレームの特徴パラメータの組とサインsgn を音声
特徴抽出部１３内の図示してないワークバッファの、そ
のフレームに対応する位置に書き込み、ステップＳ１５
に進む。ステップＳ１５で入力音声波形の全フレームに
ついて分析処理が終了したか判定し、終了してなければ
ステップＳ１６で音声波形の次のフレームを取得してス
テップＳ１２に戻り、同様の処理手順を繰り返す。

【００３２】ステップＳ１５で全フレームについて終了
していればステップＳ１７で音声特徴抽出部１３のワー
クバッファ内の一連のサインsgn をチェックし、サイン
sgn=0 が一定区間長以上連続する区間が１つだけ存在す
れば、その区間の始端と終端を音声区間の始端と終端で
あると判定する。sgn=0 となる短い区間をはさんでsgn=
1 となる複数の区間が存在する場合、最初にsgn=1 とな
った位置を始端、最後にsgn=1 となった位置を終端とす
る１つの音声区間と判定する。この様にして図７に示す
ように音声区間の始端と終端と、それらによって決まる
音声区間長Ｌが得られる。更に、ステップＳ１７でこの
音声区間長Ｌが予め決めた値L_D以上であるか判定し、Ｌ
≧L_DであればステップＳ１８でその音声区間の一連の特
徴パラメータを入力音声パターンB_Sとして入力パターン
格納部１６に格納し、図４のステップＳ４に進む。音声
区間長ＬがL_Dより短い場合はステップＳ１９で全ての分
析結果を捨てて図４のステップＳ３に移行する。

【００３３】この発明の第１の実施例においては、区間
長比較部２１は音声区間検出部１５より得られる未知入
力パターンＢの音声区間長Ｌと標準パターン記憶部１７
から選択して読み出した標準パターンAmの音声区間長Km
とを比較して、区間長の差d=L-Kmが正の閾値ε₁ より大
の場合、入力音声パターンＢの複数の位置、少なくとも
始端と終端で標準パターンAmとほぼ同じ長さKmの部分パ
ターンをそれぞれ抽出する命令を部分パターン抽出部２
２に与える。差ｄが-ε₂≦d≦ε₁の場合は、部分パター
ン抽出部２２は入力音声パターンをそのままパターンマ
ッチング部１８に与える。ε₁ 及びε₂ の値は例えばパ
ターンマッチングにおけるパターンの時間伸縮許容範囲
から求められる。

【００３４】部分パターン抽出部２２は区間長比較部２
１から供給される抽出命令に応答して指定されたそれぞ
れの位置の部分パターン又は音声パターンの全区間をそ
れぞれ抽出する。標準パターン記憶部１７には、予め音
声特徴抽出部１３、音声区間検出部１５、入力パターン
格納部１６と同様の手順（図６のステップＳ１１〜Ｓ１
８）に従って音声認識用の複数の単語音声を分析して得
た特徴パラメータ系列を標準パターンとしてそれぞれラ
ベル名を付けて格納してある。

【００３５】ここで、標準パターンの個数をＭとし、標
準パターンをAm（m=1,2,3,…,M）と表記する。パターン
マッチング部１８は、入力パターン格納部１６に格納さ
れた未知の入力音声パターンＢから抽出された複数の部
分パターンと標準パターン記憶部１７に格納されている
各標準パターンAmとの間のマッチングを行い、入力音声
パターン又はその部分パターンと標準パターンの間の距
離値を出力する。その手法としては、音声認識のパター
ンマッチング法として例えばよく知られているＤＰマッ
チング法を採用することができる。d > ε₁ の場合、入
力音声パターンＢから抽出された始端から長さKmの部分
パターンと、終端から長さKmの部分パターンの少なくと
も２つがパターンマッチング部１８に与えられ、それら
と標準パターンAmのマッチング処理を行ってそれぞれの
距離を求める。距離比較部２３はこれら複数の部分パタ
ーンに対する標準パターンの距離のうち最小の距離を判
別し、その最小距離を入力音声パターンＢと標準パター
ンAmとの間のマッチング距離とする。-ε₂≦ d ≦ε₁の
場合はパターンマッチング部１８において入力音声パタ
ーンＢの全区間と標準パターンAmとのパターンマッチン
グを行ってこれら両パターン間の距離が求められる。こ
のようにして入力音声パターンＢに対するすべての標準
パターンの距離が求められ結果出力部１９に与えられ、
最小の距離を与えた標準パターンAmを判定し、その標準
パターンAmのラベル名ｍを音声認識装置を動作させる上
位ホストコンピュータへ出力する。

【００３６】標準パターン記憶部１７、パターンマッチ
ング部１８、区間長比較部２１、部分パターン抽出部２
２、距離比較部２３、結果出力部１９、区間長比較部２
１によるマッチング処理手順を図８に示す。ステップＳ
４１で標準パターン記憶部１７からｍ番目の標準パター
ンAmを選択し、区間長比較部２１に与える。未知入力音
声パターンＢの区間長をＬ、ｍ番目の標準パターンAmの
区間長をKm（m=1,2,…,M）とし、ステップＳ４２で区間
長比較部２１は比較しようとする標準パターンAmについ
て、区間長の差分d=L-Kmを算出する。ステップＳ４３で
差分ｄが予め決めた正の閾値ε₁ 及びε₂ に対しｄ＜-
ε₂であるか（即ちＬがKm-ε₂より短いか）、-ε₂≦ｄ
≦ε₁ であるか、又はｄ＞ε₁ であるかを判定する。ε
₁ 及びε₂ の値は例えばパターンマッチングにおけるパ
ターンの時間伸縮許容範囲から決められる。ｄ＜-ε₂で
あればマッチングにおける時間伸縮許容範囲外であると
判定し、認識不能のためステップＳ４４で両パターン間
の距離を例えば無限大として図４のステップＳ５に戻
る。ステップＳ４３で-ε₂≦ｄ≦ε₁ の場合はステップ
Ｓ４５で音声パターンＢをそのままパターンマッチング
部１８に与え、従来と同様に音声区間の音声パターンＢ
と現標準パターンAmとのマッチング処理を行って両者間
の距離を求め、図４のステップＳ５に戻る。あるいは、
ステップＳ４５で後述のこの発明の第２の実施例の方法
によりマッチング処理を行って距離を求めてもよい。ス
テップＳ４３でｄ＞ε₁と判定された場合、即ち、未知
入力音声パターンＢの区間長Ｌが標準パターンの区間長
Kmに対して明らかに長いパターンであると判定された場
合、部分パターン抽出部２２においては検出した未知入
力音声パターンから複数の部分区間を抽出して部分パタ
ーンとして順次パターンマッチング部１８へ送出する。

【００３７】ここで、入力音声パターンＢから標準パタ
ーンAmとマッチング処理すべき部分パターンの位置を決
め、パターンマッチングをとる形態は図７に示すように
４通りある： (ａ)未知音声パターンＢと標準パターンAmの始端位置を
合わせ、標準パターンの終端位置を第Kmフレームとして
部分パターンを抽出し、終端フリー形マッチングを行
う。

【００３８】(ｂ)未知音声パターンＢと標準パターンAm
の終端位置を合わせ、始端位置を第(L-Km)フレームとし
て部分パターンを抽出し、始端フリー形マッチングを行
う。 (ｃ)始端位置を第(L-Km)/2フレーム、終端位置を第(L+K
m)/2フレームとして部分パターンを抽出し、未知音声パ
ターンのほぼ中央位置で標準パターンAmと位置合わせを
行い、両端フリー形マッチングを行う。

【００３９】(ｄ)未知入力音声パターンＢの短時間パワ
ーP_Sが低いレベルから増加して非音声区間で計測した雑
音レベルP_Nに対し一定値ΔP_th 以上高くなる位置（フレ
ーム）毎、例えば図７で音声パターンのパワーP_Sが低い
レベルから或る一定値以上の傾きをもって立ち上がり、
レベルP_N+ΔP_thを越える毎に、その点を始端として、終
端をその位置から長さ（フレーム数）Ｌを超えない範囲
で長さKmだけ離れた位置として部分パターンを抽出し、
両端フリー形マッチングを行う。

【００４０】この発明ではこれら４つの形態のうち次の
組み合わせのいずれを使ってもよい。 (１) 形態(a)と(b)を実施する。 (２) 形態(a),(b),(c) を実施する。 (３) 形態(d) を実施する。図８の実施例では、組み合わせ(２)を使った場合を示し
てある。即ち、ステップS46-1 で音声パターンの始端
（第１フレーム）から第Kmフレームまでの部分区間を部
分パターンとして抽出してパターンマッチング部１８に
与え、ステップS47-1 で標準パターンAmと部分パターン
のパターンマッチングを行って第１のパターン間距離を
求める。ステップS46-2 で音声パターンの終端からKm番
目のフレーム（即ち始端からL-Km番目のフレーム）から
終端までの部分区間を部分パターンとして抽出し、ステ
ップS47-2 で標準パターンAmとのパターンマッチングを
行って第２の距離を求める。ステップS46-3 で音声パタ
ーンの(L-Km)/2番目のフレームから(L+Km)/2番目のフレ
ームまでの部分区間を部分パターンとして抽出し、ステ
ップS47-3 で標準パターンAmとのパターンマッチングを
行って第３の距離を求める。次に、ステップＳ４８で距
離比較部１２によりこれら第１、第２、第３距離のう
ち、最小の距離を判定し、ステップＳ４９でその距離を
音声パターンＢと標準パターンAm間の距離と決定し、図
４のステップＳ５に戻る。

【００４１】図８のパターンマッチング処理において、
ステップS46-1、S47-1、S46-2、S47-2、S46-3、S47-3、
Ｓ４８、Ｓ４９は前述のパターンマッチングの形態
(ａ)，(ｂ)，(ｃ)の組み合わせを用いた場合を示した
が、ステップS46-3、S47-3を省略した形態(ａ)，(ｂ)の
組み合わせ(１)でパターンマッチング処理を行ってもよ
い。

【００４２】形態(ｄ)を単独で使う場合のパターンマッ
チング処理の手順は図９のようになる。図９において、
ステップＳ４１〜Ｓ４５は図８と同様である。ステップ
Ｓ４６で、図７に示す音声区間において音声パターンの
パワーが所定値P_N+ΔP_thを越える第ｎ番目の立ち上がり
位置からKmフレーム長の部分区間を部分パターンとして
抽出し、ステップＳ４７で抽出された部分パターンの終
端が入力音声パターン内にあるか判定し、音声パターン
内であればステップＳ４８でパターンマッチング処理を
行って現標準パターンに対する抽出した第ｎ部分パター
ンの距離を部分パターン距離として求め、ステップＳ４
９で部分パターン距離が過去の最小部分パターン距離よ
り小さければ今回の部分パターン距離により最小部分パ
ターン距離を更新し、ステップＳ５０でｎを１歩進し、
ステップＳ４６に戻る。ステップＳ４７で抽出部分パタ
ーンの終端が音声パターン内に入っていない、即ち音声
パターンの終端を越えて外にでていることを検出する
と、そのとき得られている最小部分パターン距離を入力
音声パターンに対する現標準パターンの距離値と決定
し、図４のステップＳ５に戻る。

【００４３】図８又は９のパターンマッチング処理は図
４のステップＳ５，Ｓ６，Ｓ７と共に、全標準パターン
について繰り返し実行され、その間に最小距離とそれを
与えた標準パターンのラベルが更新され、その結果、入
力音声パターンに対し最小距離を与えた標準パターンの
ラベルが決定される。決定されたラベルは入力音声に対
する認識結果として例えばホストコンピュータへ出力さ
れる。

【００４４】上述ではいずれの場合も抽出する部分パタ
ーンの長さが選択している現標準パターンAmの長さKmと
同じ場合で説明したが、分割後の部分パターンの区間長
は検出した入力音声区間長の始端位置および終端位置を
超えない範囲で、かつ現標準パターンAmの区間長Kmに対
し、パターンマッチング部１８のマッチングアルゴリズ
ムで時間伸縮を許容することができる範囲±Wm/2内で任
意に選択してもよい。また上述においてε₁=ε₂ であっ
てもよい。第２実施例上述では入力音声パターンから複
数の部分パターンを異なる位置で抽出し、それぞれ標準
パターンとのマッチング処理により求めたパターン間距
離のうち、最小の距離を選択することにより、認識すべ
き単語音声の前及び／又は後に付随する不要音声区間を
除去した音声パターンの部分区間についてのパターンマ
ッチングを行うことになる。従って、認識率に対する不
要音の悪影響が少なくなる。しかしながら、実際には前
述のように入力音声単語の前／後に不要音が付随してな
い場合でも、単語音声の始端及び終端における発声のゆ
らぎが認識率に悪影響を及ぼす。そこで、この点を改善
したこの発明の第２の観点による実施例を次ぎに説明す
る。

【００４５】図１０はこの発明の第２の観点による音声
始端及び音声終端をマッチング範囲から除外したマッチ
ングアルゴリズムの概念図である。前述した通り、音声
特徴パラメータ上変化のある発声のゆらぎを始端及び終
端に含んだ音声パターンのマッチングを行う場合、その
影響を回避して正確なマッチングを行うことは難しい。
しかし、検出した音声区間から発声のゆらぎの影響が存
在しやすい始端部分及び終端部分を予め除外することに
より、より正確なマッチング結果を得ることができる。

【００４６】この第２の観点の発明によれば、標準パタ
ーンＡ及び入力音声パターンＢそれぞれの音声始端及び
音声終端からそれぞれ一定長あるいは発声区間長に応じ
た長さだけマッチング対象から除いた部分区間、 A'＝｛a_s，…，a_e｝及び B'＝｛b_s，…，b_e｝間で端点フリーのパターンマッチング処理を行う。これ
によりマッチングの始端及び終端の端点フリー区間にお
けるゆらぎの影響部分を少なくし、また、図１０中の実
線３８で示した様に図３の実線３７の始端部及び終端部
に見られた極端な時間伸縮を不要とすることが可能とな
り、より正確なＤＰパスを得ることができる。更に、ス
タッガードアレイＤＰマッチングアルゴリズムを使う場
合は、始端及び終端を外挿法により元の区間に合わせて
延伸することにより、図３の実線３６に示されるＤＰパ
スも図１０の実線３６の様に同様に得ることができる。

【００４７】また、音声区間検出が正しく行われ、かつ
標準パターンＡと入力パターンＢの発声のゆらぎが少な
い場合は、この様に始端の一部の区間及び終端の一部の
区間を除外したマッチング結果よりも、除外しない従来
のマッチング方法による結果の方がより距離値が小さい
結果を与える場合がある。この様なことから、この発明
の第２の実施例においては、未知入力音声パターンＢと
各標準パターンAmとの間の比較を行う際に、検出した全
音声区間での従来法によるマッチング結果の正規化距離
値と、この発明の第２の観点による始端の一部の区間及
び終端の一部の区間を除外したマッチング結果の正規化
距離値とを比較して、何れか一方の距離値の小さい方を
両パターン間のマッチング結果とすることにより、より
確実な結果を得ることができる。

【００４８】この発明による音声認識装置の実施例を図
１１を参照して説明する。図１１において、マイクロホ
ン１１ａ、Ａ／Ｄ変換部１２ａ、入力端子１１ｂ、波形
変換部１２ｂ、音声特徴抽出部１３、起動スイッチ部１
４、音声区間検出部１５、入力パターン格納部１６、標
準パターン記憶部１７、パターンマッチング部１８等の
構成は図５の第１実施例と基本的に同様である。音声区
間検出部１５は図５で説明したと同様の方法により音声
特徴抽出部１３で求められた音声特徴パラメータから第
１の音声始端及び第１の音声終端をそれぞれ１箇所だけ
決定する。この音声区間は第１の音声区間であり、真の
音声区間を示す。その検出の方法としては、図７を参照
して説明したように音声発生以前の雑音レベルを測定し
ておき、その雑音レベルより一定閾値以上のパワー値を
有する信号成分が一定時間以上継続する区間を音声区間
とする方法を採用することができる。

【００４９】入力パターン格納部１６は音声区間検出部
１５により決定された音声始端から音声終端に到る音声
特徴パラメータを取り込んでこれを未知入力音声パター
ンとして記憶する。標準パターン記憶部１７には、音声
認識における未知入力音声パターンの抽出と同様の手順
より、単語登録のために発生された複数の単語音声を分
析して生成した複数の音声パターンがそれぞれラベル名
（例えば番号ｍ）を付与された認識のための複数の単語
音声標準パターンAm(m=1,…,M)として予め格納されてい
る。この標準パターンには、単語の登録時に入力された
標準単語音声について音声区間検出部１５により検出し
た音声区間を示す情報、即ち第１始端及び第１終端情報
も含まれている。

【００５０】部分区間決定部２４Ａは標準パターンの始
端及び終端情報に基づいて各標準パターンについてその
始端及び終端から一定長、例えばセミシラブル長（音韻
又は音素単位であり、代表的には例えば約0.1secの長さ
を有し、これは例えば８フレーム長に相当する）の位置
を第２の音声始端及び第２の音声終端を決定する。部分
区間決定部２４Ｂは音声区間検出部１５により検出され
た音声区間Ｂの部分区間である第２音声区間B'を規定す
る第２の音声始端及び第２の音声終端を求める。第２の
始端及び第２の終端は検出された音声区間の始端及び終
端からそれぞれ予め決めた一定の長さ（フレーム数）の
位置としてもよいし、音声区間Ｂの長さＬに対しそれぞ
れ予め決めた割合の長さの位置としてもよい。ここで
は、標準パターンに対して決めた第２始端と第２終端で
の特徴パラメータにそれぞれ最も近い特徴パラメータ
を、音声区間Ｂの始端及び終端からそれぞれ予め決めた
長さの範囲内から探索し、それぞれ第２音声始端及び第
２音声終端とする場合を示す。

【００５１】スイッチ２５Ａ及びスイッチ２５Ｂは、パ
ターンマッチング部１８へ与える標準パターン及び入力
音声パターンの音声区間情報として第１の音声始端情報
及び第１の音声終端情報か、或は第２の音声始端情報及
び第２の音声終端情報の何れかに切り替えて与える。ス
イッチ２５Ａ及びスイッチ２５Ｂは連動する構成とされ
ており、一方の切り替え位置において双方の接点c1が選
択され、他方の切り替え位置において双方の接点c2が選
択される。パターンマッチング部１８は、入力パターン
格納部１６及び標準パターン記憶部１７に格納された未
知の入力音声パターンＢと各標準パターンAmとの間の、
それぞれ指定された第１又は第２音声区間でのマッチン
グを行い、入力音声パターンと標準パターンとの間の距
離値、例えばマハラノビス距離その他数式により定義さ
れる特徴パラメータ上の距離値を出力する。パターンマ
ッチング演算の基本形式は例えばＤＰマッチングであ
る。

【００５２】距離比較部２３は、スイッチ２５Ａ及びス
イッチ２５Ｂのスイッチ位置c1,c2を切り替えたときの
それぞれのパターンマッチング演算結果を保持し、第１
の音声区間を規定する第１の音声始端、終端情報が規定
する第１の音声区間と第２の音声始端、及び終端情報が
規定する第２の音声区間のどちらの音声区間の場合にマ
ッチング結果として得られる正規化距離値が小さくなる
かを判定して、その値を結果出力部１９へ出力する。結
果出力部１９は、各標準パターンについて、距離比較部
２３より出力された未知入力音声パターンとの間の距離
値の内の最も小さい距離値を有する標準パターンを決定
し、その決定された標準パターンのラベル名を音声認識
装置を動作させる上位ホストコンピュータへ出力する。

【００５３】以下、図１１の実施例の動作を説明する。
標準パターンは、上述した通り、未知の入力音声パター
ンと同様の分析に基づいて生成され整備されたものが予
め登録されている。マイクロホン１１ａ、Ａ／Ｄ変換部
１２ａを通して与えられたディジタル音声信号波形は音
声特徴抽出部１３で分析され、その分析結果の一部の情
報である例えば音声信号パワーは音声区間検出部１５に
送り込まれ、音声区間検出のための情報とされる。ここ
で、発声者、或は音声認識装置を動作させる上位ホスト
コンピュータの操作により、起動スイッチ部１４が音声
区間検出開始のトリガを発生したものとする。音声区間
検出部１５はこのトリガにより初期化され、音声特徴抽
出部１３から入力される情報により音声始端の検出を開
始する。音声始端の検出方法としては、例えば、音声信
号パワー値が音声のない雑音(P_N)だけの状態から或る一
定閾値ΔP_th 以上の大きな値、即ち音声信号パワーがP_N
+ΔP_th 以上で一定時間以上継続したときにその信号パ
ワー値の立ち上がり位置Fsを始端とする方法を採用する
ことができる。次いで、音声区間検出部１５は音声の信
号パワー値の減衰点(P_N+ΔP_thより下がる点)F_eを検出し
て音声の終端とし動作を終了する。この音声区間情報
F_s,F_e は第１の音声区間情報としてスイッチ２５Ｂの端
子c1に送出されると共に、同時に入力パターン格納部１
６にも送出される。入力パターン格納部１６には第１の
音声区間Ｌに対応する音声特徴抽出部１３の分析結果を
入力音声パターンとして格納する。また、部分区間決定
部２４Ｂは音声区間検出部１５より第１の音声区間情報
F_s,F_e を入力し、第２の音声区間情報F_s',F_e' を決定し
てこれをスイッチ２５Ｂの端子c2に送出する。

【００５４】音声区間検出部１５と部分区間決定部２４
Ｂによりそれぞれ決定する音声区間情報F_s,F_e, F_s',F_e'
の関係を図１２に示す。図１２は、説明の都合上、音声
信号波形P_Sを短時間対数パワー値として示した模式図で
ある。端点F_s及びF_eはそれぞれ音声区間検出部１５によ
り決定した波形から得られた第１の音声区間Ｌの始端位
置及び終端位置であり、端点F_s' 及びF_e' はそれぞれ部
分区間決定部２４Ｂにより決定される第２の音声区間L'
の始端位置及び終端位置である。端点F_s' 及びF_e' は、
端点F_s及びF_eから区間長ΔF_s及びΔF_eをそれぞれ除外し
てずらした位置関係にある。ここで、区間長ΔF_s及びΔ
F_eの長さは、例えば、発声時にゆらぎの影響が及びやす
いことが予め経験的に判っている半音節程度、例えば
０.1秒程度の一定時間長とする。あるいは、例えば、検
出した音声区間全長Ｌに一定値を乗じて得る長さ、例え
ば端点F_sとF_eの間が１.2秒としてその1/10を乗算した
０.12秒を除去する区間長ΔF_s、ΔF_eとすることができ
る。区間長ΔF_sと区間長ΔF_eとは異なる時間長としても
よい。この様にして決定した第２の音声区間情報F_s',
F_e' 及び除外する区間長ΔF_s及びΔF_eについては、同様
の区間長を標準パターンからも除外する必要があるの
で、部分区間決定部２４Ａへも送出される。即ち、部分
区間決定部２４Ａは、パターンマッチングすべき各標準
パターンについて、標準パターン記憶部１７から第１の
音声区間情報（標準パターンの始端位置と終端位置）が
スイッチ２５Ａの端子c1へ送出されると同時にその同じ
情報を受け取り、部分区間決定部２４Ｂにより決定され
た入力音声パターンの除外されるべき区間長ΔF_s及びΔ
F_eの値と同一の区間長を標準パターンの区間長から除外
して標準パターンに対する第２の音声区間情報を決定
し、スイッチ２５Ａの端子c2へ送出する。あるいは逆に
部分区間決定部２４Ａで標準パターンの両端における除
外すべき区間長をそれぞれ決め、それらに基づいて部分
区間決定部２４Ｂで入力音声パターンの両端における除
外すべき区間長を決めてもよい。

【００５５】パターンマッチング部１８は、入力音声信
号区間に対する音声特徴パラメータ、第１の音声区間情
報F_s,F_e 及び第２の音声区間情報F_s',F_e' が決定された
時点において、入力音声パターンと登録された各標準パ
ターンとの間のマッチングを行う。パターンマッチング
は１個の標準パターンに対して２通り実行される。即
ち、 (１) スイッチ２５Ａ及びスイッチ２５Ｂを端子c1に接
続して第１の音声区間情報を得たときの入力音声パター
ン及び標準パターンの真の音声区間長に対するマッチン
グ。

【００５６】(２) スイッチ２５Ａ及びスイッチ２５Ｂ
を端子c2に接続して第２の音声区間情報を得たときの始
端部分及び終端部分を除外した部分区間に対する入力音
声パターン及び同様に始端部分及び終端部分を除外した
標準パターンの部分区間のマッチング。パターンマッチ
ングの方法としては、ＤＰマッチングとしてよく知られ
ている方法を使用するが、文献"Staggered Array DPマ
ッチング"鹿野、相川著、音響学会音声研資Ｓ８２−
１５、１９８２年発表、に示されるＤＰマッチングの様
に、検出した音声の始端以前、終端以後の部分に対して
もパターンマッチングを行う必要がある場合、第２の音
声区間情報に対しては、始端以前、終端以後の位置の音
声特徴パターンはそれぞれ入力パターン格納部１６及び
標準パターン記憶部１７で格納した音声特徴パターンを
利用することができるため、上記文献に書かれている方
法の様に始端位置、終端位置のパターンで補間しなくて
もよい。

【００５７】マッチング結果である正規化距離値は、ス
イッチ２５Ａ及びスイッチ２５Ｂの接続した端子と同名
の端子を介して距離比較部２３に出力される。ここで、
正規化とはパターンマッチングを行ったときの各音声区
間長で正規化したという意味である。距離比較部２３
は、端子c1及び端子c2を介して受信した正規化距離値を
比較し、何れか小さい方をこの標準パターンに対するマ
ッチング結果とする。各標準パターンに対する距離計算
結果は結果出力部１９により小さい距離値の順に整理さ
れ、最も小さい距離値となった標準パターンのラベル名
が上位ホストコンピュータへ出力される。

【００５８】図１１で説明したこの発明の第２の実施例
による音声認識手順を次に説明する。音声認識手順の全
体は図４に示すものと同様である。この第２実施例で
は、図４のステップＳ４におけるパターンマッチング処
理を図１１、１２で説明した手法に従って図１３に示す
手順で行う。ただし、図１３の実施例では音声区間の両
端の音声ゆらぎ区間ΔF_s、ΔF_eを固定長、あるいは固定
比率として決めるのではなく、標準パターンの始端及び
終端から予め決めたフレーム数の位置における音声特徴
パラメータと最も近い音声パラメータをそれぞれ入力音
声パターンの両端の予め決めた範囲内から検索し、音声
パターンの両端からそれら検出パラメータまでの区間を
それぞれ音声ゆらぎ区間ΔF_s、ΔF_eと決める場合を示
す。

【００５９】ステップＳ５１で標準パターン記憶部１７
から第ｍ標準パターンAmを選択する。ステップＳ５２で
検出した全音声区間長Ｌの第１音声区間の音声パターン
と、長さKmの標準パターンAmとで従来と同様のパターン
マッチングを行って、第１マッチング距離を得る。次に
ステップＳ５３で標準パターンAmの始端及び終端からそ
れぞれ８フレーム目（約０.1秒）の音声特徴パラメータ
Rst 及びRed を抽出する。ステップＳ５４で入力音声パ
ターンＢの始端及び終端からそれぞれ１５フレーム目ま
での範囲内で、パラメータRst 及びRed に最も近い音声
特徴パラメータをそれぞれ検索し、検索されたパラメー
タの位置F_s' 及びF_e' を音声パターンの始端及び終端か
らそれぞれΔF_sフレーム目及びΔF_eフレーム目とする。
次にステップＳ５５で標準パターンAmの第８フレームか
ら第(Km-8)フレームの部分区間と、入力音声パターンＢ
の第ΔF_sフレームから第(L-ΔF_e)フレームの部分区間を
それぞれ切り出す。次にステップＳ５６で標準パターン
Amの部分区間と音声パターンＢの部分区間とのパターン
マッチングを行い第２距離を得る。次にステップＳ５７
で、ステップＳ５２で得られた第１距離とステップＳ５
６で得られた第２距離を比較し、小さい方を入力音声パ
ターンＢと標準パターンAmとの間のマッチング距離と決
定し、図４のステップＳ５に戻る。

【００６０】この第２の観点の発明は、上述した通り、
未知の音声を入力すると、入力信号の情報から第１の音
声区間を検出し、併せて始端部の一定区間及び終端部の
一定区間を除外した第２の音声区間を確定する。各標準
パターンとの間のマッチングについては先ず、検出され
た第１の音声区間全体に対して行われ、次いで第２の音
声区間について再度行われる。その結果、これら２個の
マッチング結果の内の正規化した距離値の小さい方を標
準パターンに対する距離値として出力するものであり、
音声のゆらぎ部分に起因して距離値が大きくなった部分
を含めることなく正確なマッチング結果を得ることがで
きる。

【００６１】図１３で説明した音声区間の両端における
音声のゆらぎの影響を防ぐ方法は、図８で説明した第１
の観点による方法と共に選択的に使ってもよい。即ち、
図８の実施例ではステップＳ４３で音声パターン長Ｌと
標準パターン長Kmの差分ｄが-ε₂≦ｄ≦ε₁ の場合、ス
テップＳ４５で従来の方法によりそれら２つのパターン
間のマッチング距離を求めたが、このステップＳ４５の
代わりに図１３のステップＳ５２〜Ｓ５７を使ってもよ
い。

【００６２】次に、以上説明したこの発明による入力音
声パターンから複数の位置で部分パターンを抽出してパ
ターンマッチングを行う第１の方法による図８のアルゴ
リズムを使った場合と、入力音声パターンの始端及び終
端のゆらぎ区間を除去してパターンマッチングを行う第
２の方法による図１３のアルゴリズムを使った場合につ
いて、実際の音声に対して音声認識を行った実験結果を
説明する。認識対象は日本都市名６０単語を男性話者４
名が発声したものである。音声は電話帯域（300Hz〜3.4
kHz）のフィルタを通して８kHz で変換され、16msec毎
の短時間ＬＰＣケプストラム分析が実行される。音声区
間検出は短時間対数パワーで行った。

【００６３】この発明の第１の方法による音声認識の有
効性を明確化するため、各認識対象単語について(１)単
語の前に「えー」（特定な意味を持たないスピーチの先
頭に付ける発声音）を付随させて発声する、(２)単語の
後に「です」を付随させて発声する、(３)単語の前と後
ろにそれぞれ「えー」と「です」を付随させて発声す
る、の３通りの態様でそれぞれ２回ずつ発声させた。そ
の結果、上記発声態様(１)、(２)、(３)に対し、音声区
間を１つに固定する従来の認識方法による認識率はそれ
ぞれ２％、５０％、３％であった。これに対し、この発
明の第１の方法では認識率がそれぞれ８３％、８０％、
４７％となり、顕著な有効性が認められた。

【００６４】なお、この発明の第１の方法はこの実験の
様に意図的に付随させた不要音声だけではなく、発声者
の意図に関係なく発生するリップノイズ、呼吸音、或は
背景雑音区間をも音声区間から除外して認識することが
できる。次に、この発明の第２の方法では６０の日本都
市名をそれぞれ単独に発声し、第２の音声区間L'を規定
する音声始端及び音声終端における除外区間長ΔFs及び
ΔFeは何れも0.128 秒に固定した。パターンマッチング
方法は始端固定、終端フリーのStaggered Array ＤＰで
ある。音声区間を検出したそのままの真の値である第１
の音声区間Ｌのみに固定する従来の認識方法において誤
認識率が８％であったのに対して、第２の音声区間L'に
よるマッチング結果を併用するこの発明の方法は、誤認
識率が５％に減少し、この発明が有効であることが確認
された。

【００６５】

【発明の効果】以上説明したように、この発明の第１の
観点による音声認識方法によれば、未知の音声を入力す
ると、これを信号パワーその他の簡易な情報に基づいて
音声区間を検出し、検出した区間長と比較されるべき標
準パターンの区間長との間の差分に着目して検出した区
間長に不要信号区間が付随しているか否かを判断し、不
要信号区間が付随していないと判断された場合は検出し
た未知入力音声パターン全区間と標準パターンとの間で
マッチングを行い、不要信号区間が付随していると判断
された場合は検出した未知入力音声パターンの複数の異
なる位置からそれぞれ部分パターンを抽出し、それらの
部分パターンと標準パターンとの間の複数回のマッチン
グを行う。このマッチングにより、不要信号区間を除外
された真の音声区間に近似するものと類推される部分パ
ターンと標準パターンとの間の最小の距離値をマッチン
グ結果とすることができ、音声区間検出誤りに起因する
認識誤りを回避することができる。

【００６６】この方法によれば、電話機のハンドセット
のように送話口と使用者の口が接近した状態で認識すべ
き単語音声が入力され、リップノイズ、呼吸音のような
不要音が付随する場合でも、認識誤りを著しく低減でき
る。また、この発明の第２の観点によれば、発声者の意
識と関係なく生じる音声始端及び音声終端の発声のゆら
ぎによる認識誤りを、音声区間検出アルゴリズムに対す
る簡易な演算の追加により回避することができる。ま
た、両端フリーマッチングを必要とする音声始端部分及
び音声終端部分を除外しているので、両端フリーのマッ
チングアルゴリズムを使用することなしに認識性能の改
善をすることができる。この第２の観点の音声認識方法
では、入力音声パターンの長さが標準パターンの長さと
ある程度近いことが期待されており、その点で特定話者
用音声認識に適している。

【図面の簡単な説明】

【図１】従来の音声認識装置の例を説明するブロック
図。

【図２】従来の音声区間の検出を説明するための音声パ
ワー波形図。

【図３】ＤＰマッチングによるパターンマッチング演算
を行ったときの時間伸縮関数の従来例を示す図。

【図４】この発明による音声認識処理手順の概略を示す
フロー図。

【図５】この発明の第１の観点による音声認識装置のブ
ロック図。

【図６】図４の音声認識処理手順における音声分析処理
の手順を示すフロー図。

【図７】入力音声パターンから標準パターンに合わせて
部分パターンを抽出する方法を示す音声パワー波形図。

【図８】この発明の第１の観点による音声認識方法にお
けるパターンマッチング処理手順の例を示すフロー図。

【図９】この発明の第１の観点による音声認識方法にお
けるパターンマッチング処理手順の他の例を示すフロー
図。

【図１０】この発明の第２の観点による方法においてＤ
Ｐマッチングによるパターンマッチング演算を行ったと
きの時間伸縮関数を示す図。

【図１１】この発明の第２の観点による音声認識装置を
示すブロック図。

【図１２】第１の音声区間及び第２の音声区間を決定す
るときの区間検出位置関係を示す図。

【図１３】この発明の第２の観点による音声認識方法に
おけるパターンマッチング処理手順を示すフロー図。

フロントページの続き (56)参考文献特開平４−31896（ＪＰ，Ａ) 特開平１−116599（ＪＰ，Ａ) 特開平１−116598（ＪＰ，Ａ) 特開昭62−81700（ＪＰ，Ａ) 特開昭62−70900（ＪＰ，Ａ) 特開昭61−240299（ＪＰ，Ａ) 特開昭63−44699（ＪＰ，Ａ) 特開平２−293899（ＪＰ，Ａ) 特許2710045（ＪＰ，Ｂ２) 特許3066920（ＪＰ，Ｂ２) 特公平６−105394（ＪＰ，Ｂ２) 特公平５−4680（ＪＰ，Ｂ２) 特公平４−51037（ＪＰ，Ｂ２) 特公平５−4679（ＪＰ，Ｂ２) 特公平５−4678（ＪＰ，Ｂ２) 特公平４−80398（ＪＰ，Ｂ２) 米国特許5732394（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声パターンと複数個の標準パター
ンとの間のパターンマッチングをとって両者間の距離値
の内の最も小さい距離値を有する標準パターンを探索し
て音声認識する単語音声認識方法において、以下のステ
ップを含む： (a) 未知の入力ディジタル音声信号をフレーム毎に分析
して特徴パラメータを抽出し、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
検出し、上記音声区間の音声信号の上記特徴パラメータ
の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの区間長と選択した標準パタ
ーンの区間長との間の差分ｄを求め、 (e) 上記差分ｄを予め決めた閾値長ε₁ と比較し、ε₁
は正の値であり、 (e-1) 上記差分が上記閾値長ε₁ を越えた場合は上記入
力音声パターンから複数の異なる位置で上記選択した標
準パターンの区間長とほぼ同じ長さの部分パターンをそ
れぞれ抽出し、 (e-2) 上記部分パターンと上記選択した標準パターンと
の間のパターンマッチングを行ってそれら間の距離を求
め、 (f) 得られた上記距離の中で最小のものを上記音声パタ
ーンと上記選択した標準パターンとの間の距離と決定
し、 (g) 上記ステップ(c)〜(f)をそれぞれの標準パターンに
ついて繰り返して、最小の距離を与える標準パターンの
ラベルを上記入力ディジタル音声信号に対する認識結果
として出力する。
【請求項２】請求項１の単語音声認識方法において、
上記ステップ(e-1)は上記入力音声パターンの上記始端
及び終端からそれぞれ上記標準パターンの長さとほぼ同
じ長さの上記部分パターンを上記入力音声パターンから
それぞれ抽出するステップを含む。
【請求項３】請求項２の単語音声認識方法において、
上記ステップ(e-1)は上記入力パターンのほぼ中央にお
いて上記標準パターンとほぼ同じ長さのもう１つの部分
パターンを抽出するステップを含む。
【請求項４】請求項２の単語音声認識方法において、
上記ステップ(e-2)は上記始端から抽出した部分パター
ンに対し終端フリーのパターンマッチングを行い、上記
終端から抽出した部分パターンに対し始端フリーのパタ
ーンマッチングを行う。
【請求項５】請求項３の単語音声認識方法において、
上記ステップ(e-2)は上記中央から抽出した部分パター
ンに対し両端フリーのパターンマッチングを行う。
【請求項６】請求項１、２又は３の単語音声認識方法
は更に上記ディジタル音声信号の入力前の非音声区間の
雑音パワーを測定するステップを含み、上記ステップ
(a) 上記音声分析から上記フレーム毎の上記入力ディジ
タル音声信号のパワーを求めるステップを含み、上記ス
テップ(b) は上記入力ディジタル音声信号のパワーが上
記雑音パワーと所定値の和である閾値レベルを越える最
初の立ち上がり位置を上記始端とし、上記入力ディジタ
ル音声信号のパワーが上記閾値レベル以下に下がるいず
れかの立ち下がり位置を上記終端とするステップを含
む。
【請求項７】請求項１、２又は３の単語音声認識方法
において、上記ステップ(e) は更に、 (e-3) 上記差分ｄが予め決めた第２の閾値長-ε₂より小
さい場合、上記音声パターンと上記選択した標準パター
ンとの距離を予め決めた最大値に設定するステップと、
ε₂ は正の値であり、 (e-4) 上記上記差分ｄが上記閾値長-ε₂とε₁ を含むそ
れらの間の場合は上記音声パターンの全長と上記選択し
た標準パターンの全長とのパターンマッチングを行うス
テップ、を含む。
【請求項８】請求項１の単語音声認識方法は更に上記
ディジタル音声信号の入力前の非音声区間の雑音パワー
を測定するステップを含み、上記ステップ(a) 上記音声
分析から上記フレーム毎の上記入力ディジタル音声信号
のパワーを求めるステップを含み、上記ステップ(b) は
上記入力ディジタル音声信号のパワーが上記雑音パワー
と所定値の和である閾値レベルを越える最初の立ち上が
り位置を上記始端とし、上記入力ディジタル音声信号の
パワーが上記閾値レベル以下に下がるいずれかの立ち下
がり位置を上記終端とするステップを含み、上記ステッ
プ(e) は更に、(e-3) 上記差分ｄが上記閾値長ε₁ より
大の場合、上記音声パターンの各立ち上がり位置から上
記選択した標準パターンとほぼ同じ長さの上記部分パタ
ーンを上記終端を越えない範囲内で抽出するステップを
含む。
【請求項９】請求項１、２又は３の単語音声認識方法
において、上記ステップ(e) は更に、以下のステップを
含む： (e-3) 上記差分ｄが予め決めた第２の閾値長-ε₂より小
さい場合、上記音声パターンと上記選択した標準パター
ンとの距離を予め決めた最大値に設定するステップと、
ε₂ は正の値であり、 (e-4) 上記上記差分ｄが上記閾値長-ε₂とε₁ を含むそ
れらの間の場合は(e-4-1) 上記入力音声パターンの全区
間と上記選択した標準パターンの全区間とのパターンマ
ッチングを行ってパターン間の第１の距離を求め、(e-4
-2) 上記選択した標準パターンの始端部分区間と終端部
分区間を除く標準パターン部分区間を抽出し、(e-4-3)
上記入力音声パターンの始端部分区間と終端部分区間を
除く音声パターン部分区間を抽出し、(e-4-4) 上記標準
パターン部分区間と上記音声パターン部分区間とのパタ
ーンマッチングを行ってパターン間の第２の距離を求
め、(e-4-5) 上記第１の距離と第２の距離を比較し、小
さい方の距離を上記入力音声パターンと上記選択した標
準パターンとの間の距離と決定する。
【請求項１０】請求項９の単語音声認識方法の上記ス
テップ(e-4-2) 及び(e-4-3) において、上記選択した標
準パターンの始端部分区間と終端部分区間の長さと上記
入力音声パターンの始端部分区間と終端部分区間の長さ
はそれぞれ予め決めた一定の長さである。
【請求項１１】請求項９の単語音声認識方法におい
て、上記選択した標準パターンの始端部分区間と終端部
分区間の長さはそれぞれ予め決めた一定の長さであり、
上記ステップ(e-4-2) は上記標準パターン部分区間の始
端と終端の特徴パラメータをそれぞれ検出するステップ
を含み、上記ステップ(e-4-3) は上記入力音声パターン
の始端及び終端からそれぞれ予め決めた長さの区間内で
上記第１及び第２特徴パラメータと最も近い第３及び第
４特徴パラメータを検出するステップと、上記入力音声
パターンの上記検出した第３特徴パラメータから上記第
４特徴パラメータまでの区間を上記音声パターン部分区
間として抽出するステップを含む。
【請求項１２】入力音声パターンと複数個の標準パタ
ーンとの間のパターンマッチングをとって両者間の距離
値の内の最も小さい距離値を有する標準パターンを探索
して音声認識する単語音声認識装置であり、以下を含
む：ディジタル音声信号を入力する入力手段と、入力された上記ディジタル音声信号をフレーム毎に分析
して音声特徴パラメータを抽出する音声特徴抽出手段
と、上記音声特徴抽出部の出力する上記音声特徴パラメータ
の系列に基づいて音声区間を検出する音声区間検出手段
と、区間検出結果に基づいて音声区間の始端および終端を決
定し、その音声区間の特徴パラメータの列を音声パター
ンとして格納する入力パターン格納手段と、音声認識に
使用する複数個の標準パターンを予め記憶した標準パタ
ーン記憶手段と、記憶された各標準パターンの音声区間長と上記入力パタ
ーン格納手段に格納された上記音声パターンの音声区間
長とを比較する区間長比較手段と、上記区間長比較手段の出力する音声区間長の比較結果お
よび上記入力パターン格納手段の出力結果とに基づいて
上記入力パターン格納部に格納した上記音声パターンか
ら複数の異なる位置で部分パターンをそれぞれ抽出する
入力パターン抽出手段と、複数の上記部分パターンのそれぞれと各標準パターンと
の間のパターンマッチングを行い計算結果である複数の
距離値を出力するパターンマッチング手段と、上記パターンマッチング手段の出力する複数の上記距離
値を比較して最小の距離値を上記音声パターンと上記標
準パターンとの間の距離値として出力する距離比較手段
と、各標準パターンとの間のマッチング結果として出力され
た距離値の内の最も距離値が小さいと判定された標準パ
ターンのラベル名を出力する結果出力手段。
【請求項１３】入力音声パターンと複数個の標準パタ
ーンとの間のパターンマッチングをとって両者間の距離
値の内の最も小さい距離値を有する標準パターンを探索
して音声認識する単語音声認識方法において、以下のス
テップを含む： (a) 未知の入力ディジタル音声信号をフレーム毎に分析
して特徴パラメータを求め、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
検出し、上記音声区間の音声信号の上記特徴パラメータ
の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの全区間と上記選択した標準
パターンの全区間とのパターンマッチングを行ってパタ
ーン間の第１の距離を求め、 (e) 上記選択した標準パターンの始端部分区間と終端部
分区間を除く標準パターン部分区間を抽出し、 (f) 上記入力音声パターンの始端部分区間と終端部分区
間を除く音声パターン部分区間を抽出し、 (g) 上記標準パターン部分区間と上記音声パターン部分
区間とのパターンマッチングを行ってパターン間の第２
の距離を求め、 (h) 上記第１の距離と第２の距離を比較し、小さい方の
距離を上記入力音声パターンと上記選択した標準パター
ンとの間の距離と決定し、 (i) 上記ステップ(c)〜(h)をそれぞれの標準パターンに
ついて繰り返して、最小の距離を与える標準パターンの
ラベルを上記入力ディジタル音声信号に対する認識結果
として出力する。
【請求項１４】請求項１３の単語音声認識方法の上記
ステップ(e) 及び(f) において、上記選択した標準パタ
ーンの始端部分区間と終端部分区間の長さと上記入力音
声パターンの始端部分区間と終端部分区間の長さはそれ
ぞれ予め決めた一定の長さである。
【請求項１５】請求項１３の単語音声認識方法におい
て、上記選択した標準パターンの始端部分区間と終端部
分区間の長さはそれぞれ予め決めた一定の長さであり、
上記ステップ(e) は上記標準パターン部分区間の始端と
終端の特徴パラメータをそれぞれ検出するステップを含
み、上記ステップ(f) は上記入力音声パターンの始端及
び終端からそれぞれ予め決めた長さの区間内で上記第１
及び第２特徴パラメータと最も近い第３及び第４特徴パ
ラメータを検出するステップと、上記入力音声パターン
の上記検出した第３特徴パラメータから上記第４特徴パ
ラメータまでの区間を上記音声パターン部分区間として
抽出するステップを含む。
【請求項１６】入力音声パターンと複数個の標準パタ
ーンとの間のパターンマッチングをとって両者間の距離
値の内の最も小さい距離値を有する標準パターンを探索
して音声認識する単語音声認識装置であり、以下を含
む：ディジタル音声信号を入力する入力手段と、入力された上記ディジタル音声信号をフレーム毎に分析
して音声特徴パラメータを抽出する音声特徴抽出手段
と、上記音声特徴抽出部の出力する上記音声特徴パラメータ
の系列に基づいて音声区間を第１音声区間として検出
し、その両端を第１始端及び第１終端と決める音声区間
検出手段と、検出した上記第１音声区間の特徴パラメータの列を音声
パターンとして格納する入力パターン格納手段と、上記音声区間検出手段により得られた上記第１音声区間
から始端部分区間と終端部分区間を除く第２音声区間を
規定する第２始端と第２終端を決定する入力パターン部
分区間決定手段と、音声認識に使用する複数個の標準パターンをそれらの音
声区間をそれぞれ第１音声区間として規定する第１始端
及び第１終端を示す情報と共に予め記憶した標準パター
ン記憶手段と、上記標準パターン記憶手段から選択した標準パターンの
第１音声区間の始端部分区間と終端部分区間を除いた第
２音声区間を規定する第２始端と第２終端を決定する標
準パターン部分区間決定手段と、上記音声区間検出手段及び上記標準パターン記憶手段か
らの音声パターン及び標準パターンのそれぞれに関する
第１始端及び第１終端と、第２始端及び第２終端を選択
し、それによって上記入力パターン格納手段からの上記
音声パターン及び上記標準パターン記憶手段からの上記
標準パターンのそれぞれの第１音声区間と第２音声区間
を選択するスイッチ手段と、上記スイッチ手段により選択された上記音声パターンと
上記標準パターンのそれぞれ第１音声区間のパターンマ
ッチングを行い第１距離を求め、上記スイッチ手段によ
り選択された上記音声パターンと上記標準パターンのそ
れぞれの第２音声区間のパターンマッチングを行い第２
距離を求めるパターンマッチング手段と、上記第１距離と第２距離を比較し、小さい方の距離を上
記入力音声パターンと上記選択した標準パターンとの距
離値と決める距離比較手段と、上記入力音声パターンの各標準パターンに対するマッチ
ング結果として上記距離比較手段から出力される距離値
を全て比較し最も距離値が小さいと判定される標準パタ
ーンを決定し、その標準パターンのラベル名を出力する
結果出力手段。