JP3180655B2 - パターンマッチングによる単語音声認識方法及びその方法を実施する装置 - Google Patents

パターンマッチングによる単語音声認識方法及びその方法を実施する装置

Info

Publication number
JP3180655B2
JP3180655B2 JP04898096A JP4898096A JP3180655B2 JP 3180655 B2 JP3180655 B2 JP 3180655B2 JP 04898096 A JP04898096 A JP 04898096A JP 4898096 A JP4898096 A JP 4898096A JP 3180655 B2 JP3180655 B2 JP 3180655B2
Authority
JP
Japan
Prior art keywords
pattern
voice
section
input
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP04898096A
Other languages
English (en)
Other versions
JPH0968994A (ja
Inventor
芳夫 中台
哲真 桜井
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP04898096A priority Critical patent/JP3180655B2/ja
Priority to US08/630,668 priority patent/US5732394A/en
Publication of JPH0968994A publication Critical patent/JPH0968994A/ja
Application granted granted Critical
Publication of JP3180655B2 publication Critical patent/JP3180655B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、単語音声認識方法お
よびその方法を実施する装置に関し、特に、単語単位で
音声を入力してその音声パターンと予め登録された複数
の単語音声の標準パターンとのマッチングを行うことに
より入力音声を認識し、認識結果を文字その他の記号で
出力する単語音声認識方法およびその方法を実施する装
置に関する。
【0002】
【従来の技術】人間の手動操作の代わりに音声でコマン
ドを受け付け、電気機器などの操作を行う、いわゆる音
声認識技術について、従来より研究開発が行なわれてい
る。音声認識技術は、人間が任意の場所から任意のタイ
ミングで発声した任意長の音声を100%の確率で認識
することができるのが理想である。しかし、騒音の存在
する実際の使用環境条件下において任意の時刻で発声さ
れた音声を捕捉しようとするには、音声入力処理におい
て雑音も含めて観測される信号区間の中から音声の始端
と終端とを何度も検出し、かつ雑音区間は除外する複雑
なアルゴリズムを常に実行する必要が生じ、計算量が膨
大になる。この様なことから、或る一定時間中において
音声の始端と終端とをそれぞれ一回のみ検出する簡易な
孤立単語音声認識技術が開発されている。
【0003】ここで、一般に使用されている孤立単語音
声認識装置の従来例を図1を参照して説明する。図1に
おいて、音声入力部11はマイクロホンその他の音響電
気変換器により入力音声を音声信号波形に変換する。A
/D変換部12は音声信号波形を一定のサンプル周期の
ディジタル値からなるディジタル音声信号波形に変換す
る。音声特徴抽出部13はディジタル音声信号波形から
音声認識に必要とされる特徴パラメータを抽出する。起
動スイッチ部14は単語音声認識に際して音声区間検出
時の始端検出開始のトリガを与える。音声区間検出部1
5は音声特徴抽出部13から得られる音声特徴パラメー
タの変化に基づいて音声の始端および終端をそれぞれ一
箇所だけ決定する。入力パターン格納部16は音声区間
検出部15で決定された音声始端から音声終端までの音
声特徴パラメータを取り込んでこれを未知の入力音声パ
ターンとする。
【0004】標準パターン記憶部17には音声認識用の
複数の単語音声を予め登録する際に、音声特徴抽出部1
3、起動スイッチ部14、音声区間検出部15、入力パ
ターン格納部16による音声認識時と同様の手順によ
り、登録単語音声の音声区間の特徴パラメータ系列から
なる音声パターンが生成され、それぞれラベル名を付与
されて標準パターンとして格納されている。パターンマ
ッチング部18は、入力パターン格納部16に格納され
た未知の入力音声パターンと標準パターン記憶部17に
格納された標準パターンとの間のマッチングを行い、標
準パターンと入力音声パターンとの間の距離値を出力す
る。距離値はマハラノビス距離その他の数式で定義され
る特徴パラメータ上の距離値である。結果出力部19
は、各標準パターンについてそれぞれ出力された未知入
力音声パターンとの間の距離値のうちの最も小さい距離
値を有する標準パターンを決定し、その標準パターンの
ラベル名を音声認識装置を動作させる図示していないホ
ストコンピュータへ出力する。ホストコンピュータは音
声認識処理手順を記述したプログラムを内部に有し、そ
れに従って各部12〜19の動作を制御する。
【0005】以下、図1の音声認識装置の動作について
説明する。音声は常時、音声入力部11、A/D変換部
12でディジタル音声信号に変換され、音声特徴抽出部
13により短時間フレーム毎に(例えば128サンプ
ル:16msec)分析され、特徴パラメータが抽出され
る。その分析結果の一部の情報である音声信号のパワー
は音声区間検出部15に送信され、音声区間検出の情報
とされる。音声認識とは一般に韻律情報の認識を意味す
る。韻律情報を表す音声信号のスペクトル包絡を短時間
フレーム毎に線形予測分析する前処理として、入力信号
の自己相関関数を求める。その際に得られる0次の自己
相関関数はそのフレームの入力信号の短時間パワー値に
相当する。一般に信号パワーを対数パワーで表すと数値
表現上便利である。
【0006】ここで、発声者あるいは音声認識装置を動
作させる上位ホストコンピュータが起動スイッチ部14
を起動させ、音声区間検出開始のトリガが発生したもの
とする。音声区間検出部15は初期化され、音声特徴抽
出部13から入力する情報により音声始端の検出を開始
する。音声始端の検出方法としては、例えば信号パワー
値が音声の存在しない状態から或る一定閾値以上の大き
な値で一定時間継続したときに、その信号パワー値の立
ち上がり位置を始端とする方法を採用することができ
る。次いで、音声区間検出部15は音声の信号パワー値
の減衰点を検出して音声の終端とし動作を終了する。
【0007】音声特徴抽出部13の分析結果である特徴
パラメータの系列の内の音声区間検出部15により検出
された音声の始端から終端に到る区間の特徴パラメータ
の系列を、入力音声パターンとして入力パターン格納部
16に格納する。パターンマッチング部18は、入力音
声パターンの格納が完了したところで、入力パターン格
納部16に格納した入力音声パターンと標準パターン記
憶部17に記憶されている各標準パターンの内容を、D
Pマッチングその他のパターンマッチング手法により照
合し、両者間の距離計算を行う。各標準パターンに対す
る距離計算結果は結果出力部19において過去の最小の
距離値と比較され、それより小さい場合、最も小さい距
離値とされた標準パターンのラベル名が出力部10から
ホストコンピュータに出力される。
【0008】上述のような単語音声認識装置において
は、音声区間の検出は特に正確であることを要請され
る。音声区間の検出の仕方として、例えば音声特徴抽出
により得られたすべての情報にニューラルネットその他
のフィルタリング操作を施し、正確に音声区間のみを抽
出する仕方があるが、この抽出の演算処理は大がかりな
ものとなり、通常の音声認識と大差のない計算量を必要
とされるところから、一般的には小規模の計算量により
区間検出をすることができる音声パワー、零交差数その
他の単純な情報に基づいて音声区間を検出する場合が多
い。また、音声区間検出段階において音声の一部が未検
出となることを防止するために、区間検出の閾値は雑音
部分の平均的な特徴量から決定する方法が採用されるこ
とが多い。
【0009】この様な音声区間検出方法により切り出さ
れた音声の模式図を図2に示す。この例は音声区間を音
声信号パワーにより切り出した例である。この図におい
て、区間2Aは***を動かし始めた時に収録されたノイ
ズである一般にリップノイズと呼ばれる区間である。区
間2Bは真の音声区間を示す。区間2Cは発声後に生じ
た呼吸音を示す区間である。区間2Dは周囲騒音或は音
声入力部に到る電気的な伝送系において発生した伝送ノ
イズを示す区間である。図2は音声入力部11が発声者
の口元に近い電話機のハンドセットの様な場合に真の音
声区間の前後に平均的な雑音と異なるリップノイズおよ
び呼吸音が付随してこれらを音声区間と誤って判断し、
或は周囲騒音および伝送系に起因するノイズもこれを音
声区間と誤って判断する場合が生ずることを示してい
る。この様に、真の音声区間にそれ以外の不要な信号区
間が付随すると、不要な信号区間についても真の音声区
間と同様のパターンマッチング処理が実行されるところ
から、標準パターン自体は真の音声区間と同一のもので
あってもこれら二つのパターン間には食い違いを生じ、
結果的には音声認識誤りの原因となる。この様に音声認
識誤りの原因となる区間検出の状態を、一般に音声区間
検出誤りと呼ぶ。
【0010】この様な音声区間検出誤りは未知入力音声
パターンを調整することにより回避しなければならな
い。その理由は、標準パターンの登録は、最適な認識率
が得られる様に発声者が注意深く発声することが期待さ
れ、或は標準パターン自体が音声特徴量から計算結果と
して自動生成されるなど殆どの場合区間検出誤りの問題
が排除されたパターンであるのに対して、未知音声の入
力時は殆どの場合肉声が使用されるので区間検出誤りの
原因や発生状況がその都度異なるためである。また、あ
らゆる環境条件の下における発声においても正確に認識
することが音声認識装置に求められるためである。
【0011】未知音声入力時の音声区間検出誤りにより
生ずる誤認識を回避する方法としては連続パターンマッ
チング又はワードスポッティングという手法が採用され
てきた。即ち、入力音声区間については音声が含まれる
と思われる区間を事前に大まかに検出しておき、その区
間中の各時刻を真の入力音声の始端と考えて、標準パタ
ーンとの間で終端フリーのパターンマッチングを繰り返
し、その結果得られる最小の距離値を二つのパターン間
のマッチング結果とするものである。しかし、この方法
は大まかに切り出した音声区間の長さに応じてマッチン
グを繰り返すこととなり、計算量が膨大になる。
【0012】計算規模が小規模であることが要求される
単語音声認識装置については、音声区間検出処理を簡素
化する結果、図2のように真の音声区間以外の不要な音
声区間が真の音声区間の前後に付随することになり、パ
ターンマッチング時に正しいパターンマッチングをする
ことができないという問題が生ずる。この問題を解決す
るには計算量が膨大になるアルゴリズムを使用しなけれ
ばならない。
【0013】日本国特許公告3-67299 には認識対象音声
区間の始端と終端の検出位置の誤りに起因する認識誤り
率の増大を避けるため、予め決めた複数のパワー閾値で
切り出した区間に対しそれぞれパターンマッチングを行
うことが示されている。しかしながら、複数の選択した
パワー閾値及び入力音声のパワーの大きさの何れかまた
は両方によっては、どのパワー閾値に対しても真の音声
区間を検出できない可能性が生じる。
【0014】上述のような不要信号区間を除去して、音
声区間を正確に検出する事により認識性能を改善したと
しても、実用的に充分高い認識性能を得ることが困難で
ある。その原因の一つとして音声の始端及び終端におけ
る発声のゆらぎの存在がある。例えば、単語/kitami/及
び /ibusuki/(いずれも日本の都市名)という単語を発
声する場合/ki/の母音部分/i/ は、何れも前後に弱く発
声される傾向のある/k/ 及び/t/ 、或は/s/ という無声
子音に付随しており、この影響を受ける形で明瞭に発声
されなくなってしまう場合がある。これは「母音の無声
化」として良く知られる現象である。ここで、単語/kit
ami/及び/ibusuki/ について、それぞれ/ki/の部分が明
瞭に発声された音声パターンと、無声化した音声パター
ンとを比較すると、パターンマッチング手法あるいは同
時に認識しようとする語彙によっては正しく認識されな
い場合がある。これは、/ki/の部分が無声化することに
より特徴パラメータが変化したり、音声区間検出時に無
声化した部分が区間として検出されなくなる現象による
ものである。
【0015】以上は音声の始端及び終端における発声の
ゆらぎの一例として無声化の場合を示したものである
が、この他、/s/ 音から発声を開始する場合の破擦音部
分の長短、或は/n/ 音から発声を開始する直前の鼻音の
長短もこの様なゆらぎに相当する。この様なゆらぎが音
声の始端及び終端の何れにも存在すると、認識性能を向
上させるパターンマッチングアルゴリズムについても制
約が生じる。音声始端位置を固定して終端位置を自由に
する終端フリー形マッチング方法、或は逆に終端位置を
固定して始端位置を自由にする始端フリー形マッチング
方法は、それぞれ固定とした音声始端側或は音声終端側
に発声のゆらぎが生じた場合の認識誤りを防ぐことは困
難になる。従って、認識性能を向上させるには両端フリ
ー形マッチング方法の採用が不可欠になる。
【0016】ところが、両端フリー形マッチング方法に
依っても認識誤りの回避は難しい。図3は両端フリー形
ダイナミックプログラミング(DP)マッチング方法に
おける2個のパターンの時間軸対応づけ、いわゆるDP
パスを示したものである。ここで、時系列データA A={a1,a2,…,as,…,ae,…,aM} は標準パターン、時系列データB B={b1,b2,…,bs,…、be,…,bN} は未知入力パターンを示し、シェードの部分31、32
が時系列データBにおいて母音の無声化、或は不要な鼻
音の付加その他音声始端及び終端に発声のゆらぎを生じ
てマッチング上影響を及ぼす部分である。パターン照合
を行う音声始端及び音声終端のL字形の部分33、34
は、両端フリー形認識アルゴリズムにおいて自由始端位
置及び自由終端位置となる部分である。また、点線35
はDP整合窓と呼ばれる時間伸縮マッチングを許容され
る空間の境界である。ここで、説明を簡略化するため
に、時系列データA及び時系列データBの区間長は同一
であるものとしている。
【0017】ここで、自由始終端位置33、34と入力
音声始終端でゆらぎを有する部分31、32との重なり
具合を図で見ると、自由始終端位置33、34のほとん
どがゆらぎの影響を受けている部分であることが判る。
このために、単純に決定した始端位置及び終端位置に基
づいてマッチングを行うと、図3中に実線36により示
している様な極端な時間軸対応づけ(時間伸縮)を許容
したDPパスが得られなければ、始端或は終端のゆらぎ
の影響を受けた照合結果となる。ところが、ゆらぎの影
響の少ないパターンの中央部分については2個のパター
ンの照合は1対1対応となるため、DPパスは実線37
の様に始端終端でのみ極端な時間軸対応を取る様な軌跡
を描くべきである。しかし、DP漸化式によっては実線
37の様な極端な時間軸対応のできないものもあり、結
局DP漸化式を満たす別のDPパスが選択されることに
なる。その結果、DPパス上で得られる正規化距離値
は、ゆらぎを含まない部分だけの照合を行った場合より
も大きくなり、誤認識の原因となりやすい。
【0018】U.S.Patent 5,222,190は、連続音声認識に
おいて、音声パターン間の境界を識別するために、予め
選択した使用頻度の高い単語をanchor wordsとして登録
しておき、スピーチ中に現れたアンカーワードと他のワ
ードの境界を見つけることにより非アンカーワードの始
端及び終端を正確に決めることができることを示してい
る。しかしながら、認識対象単語の始端と終端を正確に
決めたとしても、上述の理由から発声のゆらぎによる誤
認識を防ぐことができるとは限らない。
【0019】
【発明が解決しようとする課題】この発明の目的は、入
力音声の前後に不要信号区間が付随する場合でも認識率
を改善した単語音声認識を簡易なアルゴリズムにより、
少ない演算処理量で実現することができる単語音声認識
方法およびその方法を実施する装置を提供することであ
る。
【0020】この発明のもう1つの目的は、音声パター
ンの音声始端部分及び音声終端部分における音声のゆら
ぎにより生じる認識誤りを減少する単語音声認識方法及
びその方法を実施する装置を提供することである。
【0021】
【課題を解決するための手段】この発明の第1の観点に
よる単語音声認識方法は、以下のステップを含む: (a) 未知の入力ディジタル音声信号をフレーム毎に分析
して特徴パラメータを抽出し、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
検出し、上記音声区間の音声信号の上記特徴パラメータ
の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの区間長と選択した標準パタ
ーンの区間長との間の差分dを求め、 (e) 上記差分dを予め決めた閾値長ε1 と比較し、ε1
は正の値であり、(e-1) 上記差分が上記閾値長ε1 を越
えた場合は上記入力音声パターンから複数の異なる位置
で上記選択した標準パターンの区間長とほぼ同じ長さの
部分パターンをそれぞれ抽出し、(e-2) 上記部分パター
ンと上記選択した標準パターンとの間のパターンマッチ
ングを行ってそれら間の距離を求め、 (f) 得られた上記距離の中で最小のものを上記音声パタ
ーンと上記選択した標準パターンとの間の距離と決定
し、 (g) 上記ステップ(c)〜(f)をそれぞれの標準パターンに
ついて繰り返して、最小の距離を与える標準パターンの
ラベルを上記入力ディジタル音声信号に対する認識結果
として出力する。
【0022】上記第1の観点による単語音声認識方法を
実施する認識装置は、以下を含む:ディジタル音声信号
を入力する入力手段と、入力された上記ディジタル音声
信号をフレーム毎に分析して音声特徴パラメータを抽出
する音声特徴抽出手段と、上記音声特徴抽出部の出力す
る上記音声特徴パラメータの系列に基づいて音声区間を
検出する音声区間検出手段と、区間検出結果に基づいて
音声区間の始端および終端を決定し、その音声区間の特
徴パラメータの列を音声パターンとして格納する入力パ
ターン格納手段と、音声認識に使用する複数個の標準パ
ターンを予め記憶した標準パターン記憶手段と、記憶さ
れた各標準パターンの音声区間長と上記入力パターン格
納手段に格納された上記音声パターンの音声区間長とを
比較する区間長比較手段と、上記区間長比較手段の出力
する音声区間長の比較結果および上記入力パターン格納
手段の出力結果とに基づいて上記入力パターン格納部に
格納した上記音声パターンから複数の異なる位置で部分
パターンをそれぞれ抽出する入力パターン抽出手段と、
複数の上記部分パターンのそれぞれと各標準パターンと
の間のパターンマッチングを行い計算結果である複数の
距離値を出力するパターンマッチング手段と、上記パタ
ーンマッチング手段の出力する複数の上記距離値を比較
して最小の距離値を上記音声パターンと上記標準パター
ンとの間の距離値として出力する距離比較手段と、各標
準パターンとの間のマッチング結果として出力された距
離値の内の最も距離値が小さいと判定された標準パター
ンのラベル名を出力する結果出力手段。
【0023】この発明の第2の観点による単語音声認識
方法は、以下のステップを含む:(a) 未知の入力ディジ
タル音声信号をフレーム毎に分析して特徴パラメータを
求め、(b) 入力ディジタル音声信号の音声区間の始端と
終端を検出し、上記音声区間の音声信号の上記特徴パラ
メータの系列を入力音声パターンとして求め、(c) 標準
パターンを選択し、(d) 上記入力音声パターンの全区間
と上記選択した標準パターンの全区間とのパターンマッ
チングを行ってパターン間の第1の距離を求め、(e) 上
記選択した標準パターンの始端部分区間と終端部分区間
を除く標準パターン部分区間を抽出し、(f) 上記入力音
声パターンの始端部分区間と終端部分区間を除く音声パ
ターン部分区間を抽出し、(g) 上記標準パターン部分区
間と上記音声パターン部分区間とのパターンマッチング
を行ってパターン間の第2の距離を求め、(h) 上記第1
の距離と第2の距離を比較し、小さい方の距離を上記入
力音声パターンと上記選択した標準パターンとの間の距
離と決定し、(i) 上記ステップ(c)〜(h)をそれぞれの標
準パターンについて繰り返して、最小の距離を与える標
準パターンのラベルを上記入力ディジタル音声信号に対
する認識結果として出力する。
【0024】上記第2の観点による単語音声認識方法を
実施する認識装置は、以下を含む:ディジタル音声信号
を入力する入力手段と、入力された上記ディジタル音声
信号をフレーム毎に分析して音声特徴パラメータを抽出
する音声特徴抽出手段と、上記音声特徴抽出部の出力す
る上記音声特徴パラメータの系列に基づいて音声区間を
第1音声区間として検出し、その両端を第1始端及び第
1終端と決める音声区間検出手段と、検出した上記第1
音声区間の特徴パラメータの列を音声パターンとして格
納する入力パターン格納手段と、上記音声区間検出手段
により得られた上記第1音声区間から始端部分区間と終
端部分区間を除く第2音声区間を規定する第2始端と第
2終端を決定する入力パターン部分区間決定手段と、音
声認識に使用する複数個の標準パターンをそれらの音声
区間をそれぞれ第1音声区間として規定する第1始端及
び第1終端を示す情報と共に予め記憶した標準パターン
記憶手段と、上記標準パターン記憶手段から選択した標
準パターンの第1音声区間の始端部分区間と終端部分区
間を除いた第2音声区間を規定する第2始端と第2終端
を決定する標準パターン部分区間決定手段と、上記音声
区間検出手段及び上記標準パターン記憶手段からの音声
パターン及び標準パターンのそれぞれに関する第1始端
及び第1終端と、第2始端及び第2終端を選択し、それ
によって上記入力パターン格納手段からの上記音声パタ
ーン及び上記標準パターン記憶手段からの上記標準パタ
ーンのそれぞれの第1音声区間と第2音声区間を選択す
るスイッチ手段と、上記スイッチ手段により選択された
上記音声パターンと上記標準パターンのそれぞれ第1音
声区間のパターンマッチングを行い第1距離を求め、上
記スイッチ手段により選択された上記音声パターンと上
記標準パターンのそれぞれの第2音声区間のパターンマ
ッチングを行い第2距離を求めるパターンマッチング手
段と、上記第1距離と第2距離を比較し、小さい方の距
離を上記入力音声パターンと上記選択した標準パターン
との距離値と決める距離比較手段と、上記入力音声パタ
ーンの各標準パターンに対するマッチング結果として上
記距離比較手段から出力される距離値を全て比較し最も
距離値が小さいと判定される標準パターンを決定し、そ
の標準パターンのラベル名を出力する結果出力手段。
【0025】
【実施例】
第1実施例 この発明の第1の観点による単語音声認識方法の原理を
説明するにあたり、真の音声区間に不要信号区間が付随
することについて再検討してみると、 (1) 不要信号区間は真の音声区間の前、後、或は前
後の双方に付随する。
【0026】(2) 真の音声区間の中に雑音が重畳し
たとしても音声区間検出に影響を与えることは少なく、
雑音成分を除去する分析或はパターンマッチングにより
解決することができる。 (3) 発声者が自分の音声を音声認識装置に正確に認
識させようとする場合に、入力音声は認識させたい標準
パターンにかなり類似した音声となる様に好意的に発声
されることを期待することができる。即ち、入力音声の
区間長は、認識させたい標準パターンの区間長とほぼ同
一の長さに近づく。
【0027】従って、これら(1)ないし(3)の事象
より、音声区間検出について、検出された音声区間の区
間長から真の音声区間の他に不要信号区間が付随してい
ると判断された場合、パターンマッチングの対象である
標準パターンの区間長に相当する区間以外の前及び/又
は後の部分区間を信号区間から除去したものにパターン
マッチング処理を施すことにより、不要な音声区間に妨
害されない、より正しい認識結果を得ることができる。
更に、音声特徴抽出に使用した情報を使用して検出した
音声区間中の音声始端および音声終端の仮候補を算出す
れば、真の音声区間の前後の双方に不要区間が付随した
場合でも真の音声区間を推定することができ、認識性能
の向上につながる。
【0028】図4はこの発明の音声認識方法を使った音
声認識処理手順の全体の概要を示す。ステップS1で使
用者の発声した単語の入力音声信号に対し、音声分析処
理を行って音声特徴パラメータ系列を得ると共に、認識
処理すべき音声区間を決定する。ステップS2では抽出
された音声区間が始端と終端を有し、かつ所定長以内で
あるか判定し、所定長より大であれば、音声区間の全長
がバッファに入らないと判定し、ステップS3で使用者
に再度発声を要求し、ステップS1に戻る。音声区間が
所定長以内であれば、その区間の特徴パラメータの系列
を入力音声パターンとし、ステップS4で、後述するこ
の発明の方法により、選択した現標準パターンとの入力
音声パターンとのマッチング処理を行い、パターン間の
距離を求める。ステップS5では、ステップS4で求め
た現標準パターンに対する距離が前回までの最小距離
(初期値は例えば無限大に設定する)より小さければ、
その過去の最小距離値とそれを与えた標準パターンのラ
ベルを、今回の距離値と現標準パターンのラベルに書き
換える更新処理を行う。今回の距離値が過去の最小距離
値以上であれば、更新処理を行わない。次に、ステップ
S6で全ての標準パターンとのマッチング処理が終了し
たかチェックし、終了してなければステップS7で次の
標準パターンを指定し、ステップS4のパターンマッチ
ング処理とステップS5の更新処理を繰り返す。全ての
標準パターンとのマッチング処理が終了するとステップ
S8で最小距離を与えた標準パターンのラベルを入力音
声に対する認識結果として出力する。
【0029】この発明による単語音声認識装置の実施例
を図5を参照して説明する。図5において、音声入力部
11は使用者が発声する入力音声を音声信号に変換する
例えばマイクロホンである。アナログ/ディジタル変換
部12は音声信号波形を一定サンプリング速度でサンプ
リングし、ディジタル信号波形に変換し、音声特徴抽出
部13に与える。この発明による単語音声認識装置によ
り認識すべき入力音声信号としては、この様に使用者が
直接入力したアナログ音声信号を認識する場合だけでな
く、例えばITU-T 勧告G.711 などに基づく図示してない
ディジタル回線を通して端子11bに受信したディジタ
ル音声信号を認識する場合にも適用できる。ディジタル
回線を通して音声信号の送信を行う場合、送信側におい
て入力音声をディジタル信号に変換する際に情報圧縮
(例えばITU-T 勧告G.711,G.721,G.722 等に基づいた音
声波形の非線形圧縮等)を受けたディジタル音声信号を
端子11bに受ける場合は、波線で示すように波形変換
部12bで入力ディジタル音声信号を逆変換やサンプリ
ングレートの変換を行って音声特徴抽出部13に送る。
【0030】音声特徴抽出部13は与えられたディジタ
ル音声信号をフレーム毎に分析して特徴パラメータを抽
出する。その分析手法としては、例えば、短時間パワー
分析、自己相関係数処理、PARCOR分析、LPC分
析、LPCケプストラム分析の手法がとられる。この分
析によって特徴パラメータの系列を得る。起動スイッチ
部14は、単語音声認識するに際して音声区間検出時の
始端検出開始のトリガを与える。音声区間検出部15は
音声特徴抽出部13から得られる音声特徴パラメータの
系列から音声の始端および音声の終端をそれぞれ一箇所
だけ決定する。その手法としては、例えば音声発声以前
の平均雑音パワーレベルを測定しておき、入力音声信号
を分析して得られるパワー波形の短時間パワー値がその
平均雑音パワーレベルより一定閾値以上である区間が一
定時間以上継続する区間を音声区間とする手法を採用す
ることができる。ただし、短時間パワー値が一定閾値未
満である短い区間をはさんで2つの一定閾値以上の区間
が接近して存在するような場合(すなわち例えば/sappo
ro/ と発声するように無音区間を含む単語の発声)には
これら3つの信号区間を併せて1つの音声区間として検
出する。
【0031】入力パターン格納部16は音声区間検出部
15において決定された音声始端から音声終端に到る音
声特徴パラメータを取り込んでこれを未知入力音声パタ
ーンとして格納する記憶部である。図6は上述の音声特
徴抽出部13、音声区間検出部15、入力パターン格納
部16によって実行される図4の主にステップS1の音
声分析処理の手順を示す。ステップS11で特徴抽出部
13により使用者の音声発声前の環境雑音を含む全雑音
の短時間パワーPNを測定する。次にステップS12で特
徴抽出部13により使用者の発声した音声波形の1フレ
ームを分析し、特徴パラメータを得る。この分析におい
て信号の0次自己相関値である信号の短時間パワーも得
られる。ステップS13で音声区間検出部15により、
上記特徴パラメータ抽出時に得られた音声信号短時間パ
ワー(対数パワーで表す)PS(図7参照)として求め、
その値を雑音パワーPNと比較し、予め決めた閾値ΔPth
以上大きければ、即ちPS-PN≧ΔPthであればサインsgn=
0 とし、そうでなければsgn=1 とし、ステップS14で
そのフレームの特徴パラメータの組とサインsgn を音声
特徴抽出部13内の図示してないワークバッファの、そ
のフレームに対応する位置に書き込み、ステップS15
に進む。ステップS15で入力音声波形の全フレームに
ついて分析処理が終了したか判定し、終了してなければ
ステップS16で音声波形の次のフレームを取得してス
テップS12に戻り、同様の処理手順を繰り返す。
【0032】ステップS15で全フレームについて終了
していればステップS17で音声特徴抽出部13のワー
クバッファ内の一連のサインsgn をチェックし、サイン
sgn=0 が一定区間長以上連続する区間が1つだけ存在す
れば、その区間の始端と終端を音声区間の始端と終端で
あると判定する。sgn=0 となる短い区間をはさんでsgn=
1 となる複数の区間が存在する場合、最初にsgn=1 とな
った位置を始端、最後にsgn=1 となった位置を終端とす
る1つの音声区間と判定する。この様にして図7に示す
ように音声区間の始端と終端と、それらによって決まる
音声区間長Lが得られる。更に、ステップS17でこの
音声区間長Lが予め決めた値LD以上であるか判定し、L
≧LDであればステップS18でその音声区間の一連の特
徴パラメータを入力音声パターンBSとして入力パターン
格納部16に格納し、図4のステップS4に進む。音声
区間長LがLDより短い場合はステップS19で全ての分
析結果を捨てて図4のステップS3に移行する。
【0033】この発明の第1の実施例においては、区間
長比較部21は音声区間検出部15より得られる未知入
力パターンBの音声区間長Lと標準パターン記憶部17
から選択して読み出した標準パターンAmの音声区間長Km
とを比較して、区間長の差d=L-Kmが正の閾値ε1 より大
の場合、入力音声パターンBの複数の位置、少なくとも
始端と終端で標準パターンAmとほぼ同じ長さKmの部分パ
ターンをそれぞれ抽出する命令を部分パターン抽出部2
2に与える。差dが-ε2≦d≦ε1の場合は、部分パター
ン抽出部22は入力音声パターンをそのままパターンマ
ッチング部18に与える。ε1 及びε2 の値は例えばパ
ターンマッチングにおけるパターンの時間伸縮許容範囲
から求められる。
【0034】部分パターン抽出部22は区間長比較部2
1から供給される抽出命令に応答して指定されたそれぞ
れの位置の部分パターン又は音声パターンの全区間をそ
れぞれ抽出する。標準パターン記憶部17には、予め音
声特徴抽出部13、音声区間検出部15、入力パターン
格納部16と同様の手順(図6のステップS11〜S1
8)に従って音声認識用の複数の単語音声を分析して得
た特徴パラメータ系列を標準パターンとしてそれぞれラ
ベル名を付けて格納してある。
【0035】ここで、標準パターンの個数をMとし、標
準パターンをAm(m=1,2,3,…,M)と表記する。パターン
マッチング部18は、入力パターン格納部16に格納さ
れた未知の入力音声パターンBから抽出された複数の部
分パターンと標準パターン記憶部17に格納されている
各標準パターンAmとの間のマッチングを行い、入力音声
パターン又はその部分パターンと標準パターンの間の距
離値を出力する。その手法としては、音声認識のパター
ンマッチング法として例えばよく知られているDPマッ
チング法を採用することができる。d > ε1 の場合、入
力音声パターンBから抽出された始端から長さKmの部分
パターンと、終端から長さKmの部分パターンの少なくと
も2つがパターンマッチング部18に与えられ、それら
と標準パターンAmのマッチング処理を行ってそれぞれの
距離を求める。距離比較部23はこれら複数の部分パタ
ーンに対する標準パターンの距離のうち最小の距離を判
別し、その最小距離を入力音声パターンBと標準パター
ンAmとの間のマッチング距離とする。-ε2≦ d ≦ε1
場合はパターンマッチング部18において入力音声パタ
ーンBの全区間と標準パターンAmとのパターンマッチン
グを行ってこれら両パターン間の距離が求められる。こ
のようにして入力音声パターンBに対するすべての標準
パターンの距離が求められ結果出力部19に与えられ、
最小の距離を与えた標準パターンAmを判定し、その標準
パターンAmのラベル名mを音声認識装置を動作させる上
位ホストコンピュータへ出力する。
【0036】標準パターン記憶部17、パターンマッチ
ング部18、区間長比較部21、部分パターン抽出部2
2、距離比較部23、結果出力部19、区間長比較部2
1によるマッチング処理手順を図8に示す。ステップS
41で標準パターン記憶部17からm番目の標準パター
ンAmを選択し、区間長比較部21に与える。未知入力音
声パターンBの区間長をL、m番目の標準パターンAmの
区間長をKm(m=1,2,…,M)とし、ステップS42で区間
長比較部21は比較しようとする標準パターンAmについ
て、区間長の差分d=L-Kmを算出する。ステップS43で
差分dが予め決めた正の閾値ε1 及びε2 に対しd<-
ε2であるか(即ちLがKm-ε2より短いか)、-ε2≦d
≦ε1 であるか、又はd>ε1 であるかを判定する。ε
1 及びε2 の値は例えばパターンマッチングにおけるパ
ターンの時間伸縮許容範囲から決められる。d<-ε2
あればマッチングにおける時間伸縮許容範囲外であると
判定し、認識不能のためステップS44で両パターン間
の距離を例えば無限大として図4のステップS5に戻
る。ステップS43で-ε2≦d≦ε1 の場合はステップ
S45で音声パターンBをそのままパターンマッチング
部18に与え、従来と同様に音声区間の音声パターンB
と現標準パターンAmとのマッチング処理を行って両者間
の距離を求め、図4のステップS5に戻る。あるいは、
ステップS45で後述のこの発明の第2の実施例の方法
によりマッチング処理を行って距離を求めてもよい。ス
テップS43でd>ε1と判定された場合、即ち、未知
入力音声パターンBの区間長Lが標準パターンの区間長
Kmに対して明らかに長いパターンであると判定された場
合、部分パターン抽出部22においては検出した未知入
力音声パターンから複数の部分区間を抽出して部分パタ
ーンとして順次パターンマッチング部18へ送出する。
【0037】ここで、入力音声パターンBから標準パタ
ーンAmとマッチング処理すべき部分パターンの位置を決
め、パターンマッチングをとる形態は図7に示すように
4通りある: (a)未知音声パターンBと標準パターンAmの始端位置を
合わせ、標準パターンの終端位置を第Kmフレームとして
部分パターンを抽出し、終端フリー形マッチングを行
う。
【0038】(b)未知音声パターンBと標準パターンAm
の終端位置を合わせ、始端位置を第(L-Km)フレームとし
て部分パターンを抽出し、始端フリー形マッチングを行
う。 (c)始端位置を第(L-Km)/2フレーム、終端位置を第(L+K
m)/2フレームとして部分パターンを抽出し、未知音声パ
ターンのほぼ中央位置で標準パターンAmと位置合わせを
行い、両端フリー形マッチングを行う。
【0039】(d)未知入力音声パターンBの短時間パワ
ーPSが低いレベルから増加して非音声区間で計測した雑
音レベルPNに対し一定値ΔPth 以上高くなる位置(フレ
ーム)毎、例えば図7で音声パターンのパワーPSが低い
レベルから或る一定値以上の傾きをもって立ち上がり、
レベルPN+ΔPthを越える毎に、その点を始端として、終
端をその位置から長さ(フレーム数)Lを超えない範囲
で長さKmだけ離れた位置として部分パターンを抽出し、
両端フリー形マッチングを行う。
【0040】この発明ではこれら4つの形態のうち次の
組み合わせのいずれを使ってもよい。 (1) 形態(a)と(b)を実施する。 (2) 形態(a),(b),(c) を実施する。 (3) 形態(d) を実施する。 図8の実施例では、組み合わせ(2)を使った場合を示し
てある。即ち、ステップS46-1 で音声パターンの始端
(第1フレーム)から第Kmフレームまでの部分区間を部
分パターンとして抽出してパターンマッチング部18に
与え、ステップS47-1 で標準パターンAmと部分パターン
のパターンマッチングを行って第1のパターン間距離を
求める。ステップS46-2 で音声パターンの終端からKm番
目のフレーム(即ち始端からL-Km番目のフレーム)から
終端までの部分区間を部分パターンとして抽出し、ステ
ップS47-2 で標準パターンAmとのパターンマッチングを
行って第2の距離を求める。ステップS46-3 で音声パタ
ーンの(L-Km)/2番目のフレームから(L+Km)/2番目のフレ
ームまでの部分区間を部分パターンとして抽出し、ステ
ップS47-3 で標準パターンAmとのパターンマッチングを
行って第3の距離を求める。次に、ステップS48で距
離比較部12によりこれら第1、第2、第3距離のう
ち、最小の距離を判定し、ステップS49でその距離を
音声パターンBと標準パターンAm間の距離と決定し、図
4のステップS5に戻る。
【0041】図8のパターンマッチング処理において、
ステップS46-1、S47-1、S46-2、S47-2、S46-3、S47-3、
S48、S49は前述のパターンマッチングの形態
(a),(b),(c)の組み合わせを用いた場合を示した
が、ステップS46-3、S47-3を省略した形態(a),(b)の
組み合わせ(1)でパターンマッチング処理を行ってもよ
い。
【0042】形態(d)を単独で使う場合のパターンマッ
チング処理の手順は図9のようになる。図9において、
ステップS41〜S45は図8と同様である。ステップ
S46で、図7に示す音声区間において音声パターンの
パワーが所定値PN+ΔPthを越える第n番目の立ち上がり
位置からKmフレーム長の部分区間を部分パターンとして
抽出し、ステップS47で抽出された部分パターンの終
端が入力音声パターン内にあるか判定し、音声パターン
内であればステップS48でパターンマッチング処理を
行って現標準パターンに対する抽出した第n部分パター
ンの距離を部分パターン距離として求め、ステップS4
9で部分パターン距離が過去の最小部分パターン距離よ
り小さければ今回の部分パターン距離により最小部分パ
ターン距離を更新し、ステップS50でnを1歩進し、
ステップS46に戻る。ステップS47で抽出部分パタ
ーンの終端が音声パターン内に入っていない、即ち音声
パターンの終端を越えて外にでていることを検出する
と、そのとき得られている最小部分パターン距離を入力
音声パターンに対する現標準パターンの距離値と決定
し、図4のステップS5に戻る。
【0043】図8又は9のパターンマッチング処理は図
4のステップS5,S6,S7と共に、全標準パターン
について繰り返し実行され、その間に最小距離とそれを
与えた標準パターンのラベルが更新され、その結果、入
力音声パターンに対し最小距離を与えた標準パターンの
ラベルが決定される。決定されたラベルは入力音声に対
する認識結果として例えばホストコンピュータへ出力さ
れる。
【0044】上述ではいずれの場合も抽出する部分パタ
ーンの長さが選択している現標準パターンAmの長さKmと
同じ場合で説明したが、分割後の部分パターンの区間長
は検出した入力音声区間長の始端位置および終端位置を
超えない範囲で、かつ現標準パターンAmの区間長Kmに対
し、パターンマッチング部18のマッチングアルゴリズ
ムで時間伸縮を許容することができる範囲±Wm/2内で任
意に選択してもよい。また上述においてε12 であっ
てもよい。第2実施例上述では入力音声パターンから複
数の部分パターンを異なる位置で抽出し、それぞれ標準
パターンとのマッチング処理により求めたパターン間距
離のうち、最小の距離を選択することにより、認識すべ
き単語音声の前及び/又は後に付随する不要音声区間を
除去した音声パターンの部分区間についてのパターンマ
ッチングを行うことになる。従って、認識率に対する不
要音の悪影響が少なくなる。しかしながら、実際には前
述のように入力音声単語の前/後に不要音が付随してな
い場合でも、単語音声の始端及び終端における発声のゆ
らぎが認識率に悪影響を及ぼす。そこで、この点を改善
したこの発明の第2の観点による実施例を次ぎに説明す
る。
【0045】図10はこの発明の第2の観点による音声
始端及び音声終端をマッチング範囲から除外したマッチ
ングアルゴリズムの概念図である。前述した通り、音声
特徴パラメータ上変化のある発声のゆらぎを始端及び終
端に含んだ音声パターンのマッチングを行う場合、その
影響を回避して正確なマッチングを行うことは難しい。
しかし、検出した音声区間から発声のゆらぎの影響が存
在しやすい始端部分及び終端部分を予め除外することに
より、より正確なマッチング結果を得ることができる。
【0046】この第2の観点の発明によれば、標準パタ
ーンA及び入力音声パターンBそれぞれの音声始端及び
音声終端からそれぞれ一定長あるいは発声区間長に応じ
た長さだけマッチング対象から除いた部分区間、 A'={as,…,ae}及び B'={bs,…,be} 間で端点フリーのパターンマッチング処理を行う。これ
によりマッチングの始端及び終端の端点フリー区間にお
けるゆらぎの影響部分を少なくし、また、図10中の実
線38で示した様に図3の実線37の始端部及び終端部
に見られた極端な時間伸縮を不要とすることが可能とな
り、より正確なDPパスを得ることができる。更に、ス
タッガードアレイDPマッチングアルゴリズムを使う場
合は、始端及び終端を外挿法により元の区間に合わせて
延伸することにより、図3の実線36に示されるDPパ
スも図10の実線36の様に同様に得ることができる。
【0047】また、音声区間検出が正しく行われ、かつ
標準パターンAと入力パターンBの発声のゆらぎが少な
い場合は、この様に始端の一部の区間及び終端の一部の
区間を除外したマッチング結果よりも、除外しない従来
のマッチング方法による結果の方がより距離値が小さい
結果を与える場合がある。この様なことから、この発明
の第2の実施例においては、未知入力音声パターンBと
各標準パターンAmとの間の比較を行う際に、検出した全
音声区間での従来法によるマッチング結果の正規化距離
値と、この発明の第2の観点による始端の一部の区間及
び終端の一部の区間を除外したマッチング結果の正規化
距離値とを比較して、何れか一方の距離値の小さい方を
両パターン間のマッチング結果とすることにより、より
確実な結果を得ることができる。
【0048】この発明による音声認識装置の実施例を図
11を参照して説明する。図11において、マイクロホ
ン11a、A/D変換部12a、入力端子11b、波形
変換部12b、音声特徴抽出部13、起動スイッチ部1
4、音声区間検出部15、入力パターン格納部16、標
準パターン記憶部17、パターンマッチング部18等の
構成は図5の第1実施例と基本的に同様である。音声区
間検出部15は図5で説明したと同様の方法により音声
特徴抽出部13で求められた音声特徴パラメータから第
1の音声始端及び第1の音声終端をそれぞれ1箇所だけ
決定する。この音声区間は第1の音声区間であり、真の
音声区間を示す。その検出の方法としては、図7を参照
して説明したように音声発生以前の雑音レベルを測定し
ておき、その雑音レベルより一定閾値以上のパワー値を
有する信号成分が一定時間以上継続する区間を音声区間
とする方法を採用することができる。
【0049】入力パターン格納部16は音声区間検出部
15により決定された音声始端から音声終端に到る音声
特徴パラメータを取り込んでこれを未知入力音声パター
ンとして記憶する。標準パターン記憶部17には、音声
認識における未知入力音声パターンの抽出と同様の手順
より、単語登録のために発生された複数の単語音声を分
析して生成した複数の音声パターンがそれぞれラベル名
(例えば番号m)を付与された認識のための複数の単語
音声標準パターンAm(m=1,…,M)として予め格納されてい
る。この標準パターンには、単語の登録時に入力された
標準単語音声について音声区間検出部15により検出し
た音声区間を示す情報、即ち第1始端及び第1終端情報
も含まれている。
【0050】部分区間決定部24Aは標準パターンの始
端及び終端情報に基づいて各標準パターンについてその
始端及び終端から一定長、例えばセミシラブル長(音韻
又は音素単位であり、代表的には例えば約0.1secの長さ
を有し、これは例えば8フレーム長に相当する)の位置
を第2の音声始端及び第2の音声終端を決定する。部分
区間決定部24Bは音声区間検出部15により検出され
た音声区間Bの部分区間である第2音声区間B'を規定す
る第2の音声始端及び第2の音声終端を求める。第2の
始端及び第2の終端は検出された音声区間の始端及び終
端からそれぞれ予め決めた一定の長さ(フレーム数)の
位置としてもよいし、音声区間Bの長さLに対しそれぞ
れ予め決めた割合の長さの位置としてもよい。ここで
は、標準パターンに対して決めた第2始端と第2終端で
の特徴パラメータにそれぞれ最も近い特徴パラメータ
を、音声区間Bの始端及び終端からそれぞれ予め決めた
長さの範囲内から探索し、それぞれ第2音声始端及び第
2音声終端とする場合を示す。
【0051】スイッチ25A及びスイッチ25Bは、パ
ターンマッチング部18へ与える標準パターン及び入力
音声パターンの音声区間情報として第1の音声始端情報
及び第1の音声終端情報か、或は第2の音声始端情報及
び第2の音声終端情報の何れかに切り替えて与える。ス
イッチ25A及びスイッチ25Bは連動する構成とされ
ており、一方の切り替え位置において双方の接点c1が選
択され、他方の切り替え位置において双方の接点c2が選
択される。パターンマッチング部18は、入力パターン
格納部16及び標準パターン記憶部17に格納された未
知の入力音声パターンBと各標準パターンAmとの間の、
それぞれ指定された第1又は第2音声区間でのマッチン
グを行い、入力音声パターンと標準パターンとの間の距
離値、例えばマハラノビス距離その他数式により定義さ
れる特徴パラメータ上の距離値を出力する。パターンマ
ッチング演算の基本形式は例えばDPマッチングであ
る。
【0052】距離比較部23は、スイッチ25A及びス
イッチ25Bのスイッチ位置c1,c2を切り替えたときの
それぞれのパターンマッチング演算結果を保持し、第1
の音声区間を規定する第1の音声始端、終端情報が規定
する第1の音声区間と第2の音声始端、及び終端情報が
規定する第2の音声区間のどちらの音声区間の場合にマ
ッチング結果として得られる正規化距離値が小さくなる
かを判定して、その値を結果出力部19へ出力する。結
果出力部19は、各標準パターンについて、距離比較部
23より出力された未知入力音声パターンとの間の距離
値の内の最も小さい距離値を有する標準パターンを決定
し、その決定された標準パターンのラベル名を音声認識
装置を動作させる上位ホストコンピュータへ出力する。
【0053】以下、図11の実施例の動作を説明する。
標準パターンは、上述した通り、未知の入力音声パター
ンと同様の分析に基づいて生成され整備されたものが予
め登録されている。マイクロホン11a、A/D変換部
12aを通して与えられたディジタル音声信号波形は音
声特徴抽出部13で分析され、その分析結果の一部の情
報である例えば音声信号パワーは音声区間検出部15に
送り込まれ、音声区間検出のための情報とされる。ここ
で、発声者、或は音声認識装置を動作させる上位ホスト
コンピュータの操作により、起動スイッチ部14が音声
区間検出開始のトリガを発生したものとする。音声区間
検出部15はこのトリガにより初期化され、音声特徴抽
出部13から入力される情報により音声始端の検出を開
始する。音声始端の検出方法としては、例えば、音声信
号パワー値が音声のない雑音(PN)だけの状態から或る一
定閾値ΔPth 以上の大きな値、即ち音声信号パワーがPN
+ΔPth 以上で一定時間以上継続したときにその信号パ
ワー値の立ち上がり位置Fsを始端とする方法を採用する
ことができる。次いで、音声区間検出部15は音声の信
号パワー値の減衰点(PN+ΔPthより下がる点)Feを検出し
て音声の終端とし動作を終了する。この音声区間情報
Fs,Fe は第1の音声区間情報としてスイッチ25Bの端
子c1に送出されると共に、同時に入力パターン格納部1
6にも送出される。入力パターン格納部16には第1の
音声区間Lに対応する音声特徴抽出部13の分析結果を
入力音声パターンとして格納する。また、部分区間決定
部24Bは音声区間検出部15より第1の音声区間情報
Fs,Fe を入力し、第2の音声区間情報Fs',Fe' を決定し
てこれをスイッチ25Bの端子c2に送出する。
【0054】音声区間検出部15と部分区間決定部24
Bによりそれぞれ決定する音声区間情報Fs,Fe, Fs',Fe'
の関係を図12に示す。図12は、説明の都合上、音声
信号波形PSを短時間対数パワー値として示した模式図で
ある。端点Fs及びFeはそれぞれ音声区間検出部15によ
り決定した波形から得られた第1の音声区間Lの始端位
置及び終端位置であり、端点Fs' 及びFe' はそれぞれ部
分区間決定部24Bにより決定される第2の音声区間L'
の始端位置及び終端位置である。端点Fs' 及びFe' は、
端点Fs及びFeから区間長ΔFs及びΔFeをそれぞれ除外し
てずらした位置関係にある。ここで、区間長ΔFs及びΔ
Feの長さは、例えば、発声時にゆらぎの影響が及びやす
いことが予め経験的に判っている半音節程度、例えば
0.1秒程度の一定時間長とする。あるいは、例えば、検
出した音声区間全長Lに一定値を乗じて得る長さ、例え
ば端点FsとFeの間が1.2秒としてその1/10を乗算した
0.12秒を除去する区間長ΔFs、ΔFeとすることができ
る。区間長ΔFsと区間長ΔFeとは異なる時間長としても
よい。この様にして決定した第2の音声区間情報Fs',
Fe' 及び除外する区間長ΔFs及びΔFeについては、同様
の区間長を標準パターンからも除外する必要があるの
で、部分区間決定部24Aへも送出される。即ち、部分
区間決定部24Aは、パターンマッチングすべき各標準
パターンについて、標準パターン記憶部17から第1の
音声区間情報(標準パターンの始端位置と終端位置)が
スイッチ25Aの端子c1へ送出されると同時にその同じ
情報を受け取り、部分区間決定部24Bにより決定され
た入力音声パターンの除外されるべき区間長ΔFs及びΔ
Feの値と同一の区間長を標準パターンの区間長から除外
して標準パターンに対する第2の音声区間情報を決定
し、スイッチ25Aの端子c2へ送出する。あるいは逆に
部分区間決定部24Aで標準パターンの両端における除
外すべき区間長をそれぞれ決め、それらに基づいて部分
区間決定部24Bで入力音声パターンの両端における除
外すべき区間長を決めてもよい。
【0055】パターンマッチング部18は、入力音声信
号区間に対する音声特徴パラメータ、第1の音声区間情
報Fs,Fe 及び第2の音声区間情報Fs',Fe' が決定された
時点において、入力音声パターンと登録された各標準パ
ターンとの間のマッチングを行う。パターンマッチング
は1個の標準パターンに対して2通り実行される。即
ち、 (1) スイッチ25A及びスイッチ25Bを端子c1に接
続して第1の音声区間情報を得たときの入力音声パター
ン及び標準パターンの真の音声区間長に対するマッチン
グ。
【0056】(2) スイッチ25A及びスイッチ25B
を端子c2に接続して第2の音声区間情報を得たときの始
端部分及び終端部分を除外した部分区間に対する入力音
声パターン及び同様に始端部分及び終端部分を除外した
標準パターンの部分区間のマッチング。パターンマッチ
ングの方法としては、DPマッチングとしてよく知られ
ている方法を使用するが、文献"Staggered Array DPマ
ッチング"鹿野、相川 著、音響学会音声研資S82−
15、1982年発表、に示されるDPマッチングの様
に、検出した音声の始端以前、終端以後の部分に対して
もパターンマッチングを行う必要がある場合、第2の音
声区間情報に対しては、始端以前、終端以後の位置の音
声特徴パターンはそれぞれ入力パターン格納部16及び
標準パターン記憶部17で格納した音声特徴パターンを
利用することができるため、上記文献に書かれている方
法の様に始端位置、終端位置のパターンで補間しなくて
もよい。
【0057】マッチング結果である正規化距離値は、ス
イッチ25A及びスイッチ25Bの接続した端子と同名
の端子を介して距離比較部23に出力される。ここで、
正規化とはパターンマッチングを行ったときの各音声区
間長で正規化したという意味である。距離比較部23
は、端子c1及び端子c2を介して受信した正規化距離値を
比較し、何れか小さい方をこの標準パターンに対するマ
ッチング結果とする。各標準パターンに対する距離計算
結果は結果出力部19により小さい距離値の順に整理さ
れ、最も小さい距離値となった標準パターンのラベル名
が上位ホストコンピュータへ出力される。
【0058】図11で説明したこの発明の第2の実施例
による音声認識手順を次に説明する。音声認識手順の全
体は図4に示すものと同様である。この第2実施例で
は、図4のステップS4におけるパターンマッチング処
理を図11、12で説明した手法に従って図13に示す
手順で行う。ただし、図13の実施例では音声区間の両
端の音声ゆらぎ区間ΔFs、ΔFeを固定長、あるいは固定
比率として決めるのではなく、標準パターンの始端及び
終端から予め決めたフレーム数の位置における音声特徴
パラメータと最も近い音声パラメータをそれぞれ入力音
声パターンの両端の予め決めた範囲内から検索し、音声
パターンの両端からそれら検出パラメータまでの区間を
それぞれ音声ゆらぎ区間ΔFs、ΔFeと決める場合を示
す。
【0059】ステップS51で標準パターン記憶部17
から第m標準パターンAmを選択する。ステップS52で
検出した全音声区間長Lの第1音声区間の音声パターン
と、長さKmの標準パターンAmとで従来と同様のパターン
マッチングを行って、第1マッチング距離を得る。次に
ステップS53で標準パターンAmの始端及び終端からそ
れぞれ8フレーム目(約0.1秒)の音声特徴パラメータ
Rst 及びRed を抽出する。ステップS54で入力音声パ
ターンBの始端及び終端からそれぞれ15フレーム目ま
での範囲内で、パラメータRst 及びRed に最も近い音声
特徴パラメータをそれぞれ検索し、検索されたパラメー
タの位置Fs' 及びFe' を音声パターンの始端及び終端か
らそれぞれΔFsフレーム目及びΔFeフレーム目とする。
次にステップS55で標準パターンAmの第8フレームか
ら第(Km-8)フレームの部分区間と、入力音声パターンB
の第ΔFsフレームから第(L-ΔFe)フレームの部分区間を
それぞれ切り出す。次にステップS56で標準パターン
Amの部分区間と音声パターンBの部分区間とのパターン
マッチングを行い第2距離を得る。次にステップS57
で、ステップS52で得られた第1距離とステップS5
6で得られた第2距離を比較し、小さい方を入力音声パ
ターンBと標準パターンAmとの間のマッチング距離と決
定し、図4のステップS5に戻る。
【0060】この第2の観点の発明は、上述した通り、
未知の音声を入力すると、入力信号の情報から第1の音
声区間を検出し、併せて始端部の一定区間及び終端部の
一定区間を除外した第2の音声区間を確定する。各標準
パターンとの間のマッチングについては先ず、検出され
た第1の音声区間全体に対して行われ、次いで第2の音
声区間について再度行われる。その結果、これら2個の
マッチング結果の内の正規化した距離値の小さい方を標
準パターンに対する距離値として出力するものであり、
音声のゆらぎ部分に起因して距離値が大きくなった部分
を含めることなく正確なマッチング結果を得ることがで
きる。
【0061】図13で説明した音声区間の両端における
音声のゆらぎの影響を防ぐ方法は、図8で説明した第1
の観点による方法と共に選択的に使ってもよい。即ち、
図8の実施例ではステップS43で音声パターン長Lと
標準パターン長Kmの差分dが-ε2≦d≦ε1 の場合、ス
テップS45で従来の方法によりそれら2つのパターン
間のマッチング距離を求めたが、このステップS45の
代わりに図13のステップS52〜S57を使ってもよ
い。
【0062】次に、以上説明したこの発明による入力音
声パターンから複数の位置で部分パターンを抽出してパ
ターンマッチングを行う第1の方法による図8のアルゴ
リズムを使った場合と、入力音声パターンの始端及び終
端のゆらぎ区間を除去してパターンマッチングを行う第
2の方法による図13のアルゴリズムを使った場合につ
いて、実際の音声に対して音声認識を行った実験結果を
説明する。認識対象は日本都市名60単語を男性話者4
名が発声したものである。音声は電話帯域(300Hz〜3.4
kHz)のフィルタを通して8kHz で変換され、16msec毎
の短時間LPCケプストラム分析が実行される。音声区
間検出は短時間対数パワーで行った。
【0063】この発明の第1の方法による音声認識の有
効性を明確化するため、各認識対象単語について(1)単
語の前に「えー」(特定な意味を持たないスピーチの先
頭に付ける発声音)を付随させて発声する、(2)単語の
後に「です」を付随させて発声する、(3)単語の前と後
ろにそれぞれ「えー」と「です」を付随させて発声す
る、の3通りの態様でそれぞれ2回ずつ発声させた。そ
の結果、上記発声態様(1)、(2)、(3)に対し、音声区
間を1つに固定する従来の認識方法による認識率はそれ
ぞれ2%、50%、3%であった。これに対し、この発
明の第1の方法では認識率がそれぞれ83%、80%、
47%となり、顕著な有効性が認められた。
【0064】なお、この発明の第1の方法はこの実験の
様に意図的に付随させた不要音声だけではなく、発声者
の意図に関係なく発生するリップノイズ、呼吸音、或は
背景雑音区間をも音声区間から除外して認識することが
できる。次に、この発明の第2の方法では60の日本都
市名をそれぞれ単独に発声し、第2の音声区間L'を規定
する音声始端及び音声終端における除外区間長ΔFs及び
ΔFeは何れも0.128 秒に固定した。パターンマッチング
方法は始端固定、終端フリーのStaggered Array DPで
ある。音声区間を検出したそのままの真の値である第1
の音声区間Lのみに固定する従来の認識方法において誤
認識率が8%であったのに対して、第2の音声区間L'に
よるマッチング結果を併用するこの発明の方法は、誤認
識率が5%に減少し、この発明が有効であることが確認
された。
【0065】
【発明の効果】以上説明したように、この発明の第1の
観点による音声認識方法によれば、未知の音声を入力す
ると、これを信号パワーその他の簡易な情報に基づいて
音声区間を検出し、検出した区間長と比較されるべき標
準パターンの区間長との間の差分に着目して検出した区
間長に不要信号区間が付随しているか否かを判断し、不
要信号区間が付随していないと判断された場合は検出し
た未知入力音声パターン全区間と標準パターンとの間で
マッチングを行い、不要信号区間が付随していると判断
された場合は検出した未知入力音声パターンの複数の異
なる位置からそれぞれ部分パターンを抽出し、それらの
部分パターンと標準パターンとの間の複数回のマッチン
グを行う。このマッチングにより、不要信号区間を除外
された真の音声区間に近似するものと類推される部分パ
ターンと標準パターンとの間の最小の距離値をマッチン
グ結果とすることができ、音声区間検出誤りに起因する
認識誤りを回避することができる。
【0066】この方法によれば、電話機のハンドセット
のように送話口と使用者の口が接近した状態で認識すべ
き単語音声が入力され、リップノイズ、呼吸音のような
不要音が付随する場合でも、認識誤りを著しく低減でき
る。また、この発明の第2の観点によれば、発声者の意
識と関係なく生じる音声始端及び音声終端の発声のゆら
ぎによる認識誤りを、音声区間検出アルゴリズムに対す
る簡易な演算の追加により回避することができる。ま
た、両端フリーマッチングを必要とする音声始端部分及
び音声終端部分を除外しているので、両端フリーのマッ
チングアルゴリズムを使用することなしに認識性能の改
善をすることができる。この第2の観点の音声認識方法
では、入力音声パターンの長さが標準パターンの長さと
ある程度近いことが期待されており、その点で特定話者
用音声認識に適している。
【図面の簡単な説明】
【図1】従来の音声認識装置の例を説明するブロック
図。
【図2】従来の音声区間の検出を説明するための音声パ
ワー波形図。
【図3】DPマッチングによるパターンマッチング演算
を行ったときの時間伸縮関数の従来例を示す図。
【図4】この発明による音声認識処理手順の概略を示す
フロー図。
【図5】この発明の第1の観点による音声認識装置のブ
ロック図。
【図6】図4の音声認識処理手順における音声分析処理
の手順を示すフロー図。
【図7】入力音声パターンから標準パターンに合わせて
部分パターンを抽出する方法を示す音声パワー波形図。
【図8】この発明の第1の観点による音声認識方法にお
けるパターンマッチング処理手順の例を示すフロー図。
【図9】この発明の第1の観点による音声認識方法にお
けるパターンマッチング処理手順の他の例を示すフロー
図。
【図10】この発明の第2の観点による方法においてD
Pマッチングによるパターンマッチング演算を行ったと
きの時間伸縮関数を示す図。
【図11】この発明の第2の観点による音声認識装置を
示すブロック図。
【図12】第1の音声区間及び第2の音声区間を決定す
るときの区間検出位置関係を示す図。
【図13】この発明の第2の観点による音声認識方法に
おけるパターンマッチング処理手順を示すフロー図。
フロントページの続き (56)参考文献 特開 平4−31896(JP,A) 特開 平1−116599(JP,A) 特開 平1−116598(JP,A) 特開 昭62−81700(JP,A) 特開 昭62−70900(JP,A) 特開 昭61−240299(JP,A) 特開 昭63−44699(JP,A) 特開 平2−293899(JP,A) 特許2710045(JP,B2) 特許3066920(JP,B2) 特公 平6−105394(JP,B2) 特公 平5−4680(JP,B2) 特公 平4−51037(JP,B2) 特公 平5−4679(JP,B2) 特公 平5−4678(JP,B2) 特公 平4−80398(JP,B2) 米国特許5732394(US,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声パターンと複数個の標準パター
    ンとの間のパターンマッチングをとって両者間の距離値
    の内の最も小さい距離値を有する標準パターンを探索し
    て音声認識する単語音声認識方法において、以下のステ
    ップを含む: (a) 未知の入力ディジタル音声信号をフレーム毎に分析
    して特徴パラメータを抽出し、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
    検出し、上記音声区間の音声信号の上記特徴パラメータ
    の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの区間長と選択した標準パタ
    ーンの区間長との間の差分dを求め、 (e) 上記差分dを予め決めた閾値長ε1 と比較し、ε1
    は正の値であり、 (e-1) 上記差分が上記閾値長ε1 を越えた場合は上記入
    力音声パターンから複数の異なる位置で上記選択した標
    準パターンの区間長とほぼ同じ長さの部分パターンをそ
    れぞれ抽出し、 (e-2) 上記部分パターンと上記選択した標準パターンと
    の間のパターンマッチングを行ってそれら間の距離を求
    め、 (f) 得られた上記距離の中で最小のものを上記音声パタ
    ーンと上記選択した標準パターンとの間の距離と決定
    し、 (g) 上記ステップ(c)〜(f)をそれぞれの標準パターンに
    ついて繰り返して、最小の距離を与える標準パターンの
    ラベルを上記入力ディジタル音声信号に対する認識結果
    として出力する。
  2. 【請求項2】 請求項1の単語音声認識方法において、
    上記ステップ(e-1)は上記入力音声パターンの上記始端
    及び終端からそれぞれ上記標準パターンの長さとほぼ同
    じ長さの上記部分パターンを上記入力音声パターンから
    それぞれ抽出するステップを含む。
  3. 【請求項3】 請求項2の単語音声認識方法において、
    上記ステップ(e-1)は上記入力パターンのほぼ中央にお
    いて上記標準パターンとほぼ同じ長さのもう1つの部分
    パターンを抽出するステップを含む。
  4. 【請求項4】 請求項2の単語音声認識方法において、
    上記ステップ(e-2)は上記始端から抽出した部分パター
    ンに対し終端フリーのパターンマッチングを行い、上記
    終端から抽出した部分パターンに対し始端フリーのパタ
    ーンマッチングを行う。
  5. 【請求項5】 請求項3の単語音声認識方法において、
    上記ステップ(e-2)は上記中央から抽出した部分パター
    ンに対し両端フリーのパターンマッチングを行う。
  6. 【請求項6】 請求項1、2又は3の単語音声認識方法
    は更に上記ディジタル音声信号の入力前の非音声区間の
    雑音パワーを測定するステップを含み、上記ステップ
    (a) 上記音声分析から上記フレーム毎の上記入力ディジ
    タル音声信号のパワーを求めるステップを含み、上記ス
    テップ(b) は上記入力ディジタル音声信号のパワーが上
    記雑音パワーと所定値の和である閾値レベルを越える最
    初の立ち上がり位置を上記始端とし、上記入力ディジタ
    ル音声信号のパワーが上記閾値レベル以下に下がるいず
    れかの立ち下がり位置を上記終端とするステップを含
    む。
  7. 【請求項7】 請求項1、2又は3の単語音声認識方法
    において、上記ステップ(e) は更に、 (e-3) 上記差分dが予め決めた第2の閾値長-ε2より小
    さい場合、上記音声パターンと上記選択した標準パター
    ンとの距離を予め決めた最大値に設定するステップと、
    ε2 は正の値であり、 (e-4) 上記上記差分dが上記閾値長-ε2とε1 を含むそ
    れらの間の場合は上記音声パターンの全長と上記選択し
    た標準パターンの全長とのパターンマッチングを行うス
    テップ、を含む。
  8. 【請求項8】 請求項1の単語音声認識方法は更に上記
    ディジタル音声信号の入力前の非音声区間の雑音パワー
    を測定するステップを含み、上記ステップ(a) 上記音声
    分析から上記フレーム毎の上記入力ディジタル音声信号
    のパワーを求めるステップを含み、上記ステップ(b) は
    上記入力ディジタル音声信号のパワーが上記雑音パワー
    と所定値の和である閾値レベルを越える最初の立ち上が
    り位置を上記始端とし、上記入力ディジタル音声信号の
    パワーが上記閾値レベル以下に下がるいずれかの立ち下
    がり位置を上記終端とするステップを含み、上記ステッ
    プ(e) は更に、(e-3) 上記差分dが上記閾値長ε1 より
    大の場合、上記音声パターンの各立ち上がり位置から上
    記選択した標準パターンとほぼ同じ長さの上記部分パタ
    ーンを上記終端を越えない範囲内で抽出するステップを
    含む。
  9. 【請求項9】 請求項1、2又は3の単語音声認識方法
    において、上記ステップ(e) は更に、以下のステップを
    含む: (e-3) 上記差分dが予め決めた第2の閾値長-ε2より小
    さい場合、上記音声パターンと上記選択した標準パター
    ンとの距離を予め決めた最大値に設定するステップと、
    ε2 は正の値であり、 (e-4) 上記上記差分dが上記閾値長-ε2とε1 を含むそ
    れらの間の場合は(e-4-1) 上記入力音声パターンの全区
    間と上記選択した標準パターンの全区間とのパターンマ
    ッチングを行ってパターン間の第1の距離を求め、(e-4
    -2) 上記選択した標準パターンの始端部分区間と終端部
    分区間を除く標準パターン部分区間を抽出し、(e-4-3)
    上記入力音声パターンの始端部分区間と終端部分区間を
    除く音声パターン部分区間を抽出し、(e-4-4) 上記標準
    パターン部分区間と上記音声パターン部分区間とのパタ
    ーンマッチングを行ってパターン間の第2の距離を求
    め、(e-4-5) 上記第1の距離と第2の距離を比較し、小
    さい方の距離を上記入力音声パターンと上記選択した標
    準パターンとの間の距離と決定する。
  10. 【請求項10】 請求項9の単語音声認識方法の上記ス
    テップ(e-4-2) 及び(e-4-3) において、上記選択した標
    準パターンの始端部分区間と終端部分区間の長さと上記
    入力音声パターンの始端部分区間と終端部分区間の長さ
    はそれぞれ予め決めた一定の長さである。
  11. 【請求項11】 請求項9の単語音声認識方法におい
    て、上記選択した標準パターンの始端部分区間と終端部
    分区間の長さはそれぞれ予め決めた一定の長さであり、
    上記ステップ(e-4-2) は上記標準パターン部分区間の始
    端と終端の特徴パラメータをそれぞれ検出するステップ
    を含み、上記ステップ(e-4-3) は上記入力音声パターン
    の始端及び終端からそれぞれ予め決めた長さの区間内で
    上記第1及び第2特徴パラメータと最も近い第3及び第
    4特徴パラメータを検出するステップと、上記入力音声
    パターンの上記検出した第3特徴パラメータから上記第
    4特徴パラメータまでの区間を上記音声パターン部分区
    間として抽出するステップを含む。
  12. 【請求項12】 入力音声パターンと複数個の標準パタ
    ーンとの間のパターンマッチングをとって両者間の距離
    値の内の最も小さい距離値を有する標準パターンを探索
    して音声認識する単語音声認識装置であり、以下を含
    む:ディジタル音声信号を入力する入力手段と、 入力された上記ディジタル音声信号をフレーム毎に分析
    して音声特徴パラメータを抽出する音声特徴抽出手段
    と、 上記音声特徴抽出部の出力する上記音声特徴パラメータ
    の系列に基づいて音声区間を検出する音声区間検出手段
    と、 区間検出結果に基づいて音声区間の始端および終端を決
    定し、その音声区間の特徴パラメータの列を音声パター
    ンとして格納する入力パターン格納手段と、音声認識に
    使用する複数個の標準パターンを予め記憶した標準パタ
    ーン記憶手段と、 記憶された各標準パターンの音声区間長と上記入力パタ
    ーン格納手段に格納された上記音声パターンの音声区間
    長とを比較する区間長比較手段と、 上記区間長比較手段の出力する音声区間長の比較結果お
    よび上記入力パターン格納手段の出力結果とに基づいて
    上記入力パターン格納部に格納した上記音声パターンか
    ら複数の異なる位置で部分パターンをそれぞれ抽出する
    入力パターン抽出手段と、 複数の上記部分パターンのそれぞれと各標準パターンと
    の間のパターンマッチングを行い計算結果である複数の
    距離値を出力するパターンマッチング手段と、 上記パターンマッチング手段の出力する複数の上記距離
    値を比較して最小の距離値を上記音声パターンと上記標
    準パターンとの間の距離値として出力する距離比較手段
    と、 各標準パターンとの間のマッチング結果として出力され
    た距離値の内の最も距離値が小さいと判定された標準パ
    ターンのラベル名を出力する結果出力手段。
  13. 【請求項13】 入力音声パターンと複数個の標準パタ
    ーンとの間のパターンマッチングをとって両者間の距離
    値の内の最も小さい距離値を有する標準パターンを探索
    して音声認識する単語音声認識方法において、以下のス
    テップを含む: (a) 未知の入力ディジタル音声信号をフレーム毎に分析
    して特徴パラメータを求め、 (b) 入力ディジタル音声信号の音声区間の始端と終端を
    検出し、上記音声区間の音声信号の上記特徴パラメータ
    の系列を入力音声パターンとして求め、 (c) 標準パターンを選択し、 (d) 上記入力音声パターンの全区間と上記選択した標準
    パターンの全区間とのパターンマッチングを行ってパタ
    ーン間の第1の距離を求め、 (e) 上記選択した標準パターンの始端部分区間と終端部
    分区間を除く標準パターン部分区間を抽出し、 (f) 上記入力音声パターンの始端部分区間と終端部分区
    間を除く音声パターン部分区間を抽出し、 (g) 上記標準パターン部分区間と上記音声パターン部分
    区間とのパターンマッチングを行ってパターン間の第2
    の距離を求め、 (h) 上記第1の距離と第2の距離を比較し、小さい方の
    距離を上記入力音声パターンと上記選択した標準パター
    ンとの間の距離と決定し、 (i) 上記ステップ(c)〜(h)をそれぞれの標準パターンに
    ついて繰り返して、最小の距離を与える標準パターンの
    ラベルを上記入力ディジタル音声信号に対する認識結果
    として出力する。
  14. 【請求項14】 請求項13の単語音声認識方法の上記
    ステップ(e) 及び(f) において、上記選択した標準パタ
    ーンの始端部分区間と終端部分区間の長さと上記入力音
    声パターンの始端部分区間と終端部分区間の長さはそれ
    ぞれ予め決めた一定の長さである。
  15. 【請求項15】 請求項13の単語音声認識方法におい
    て、上記選択した標準パターンの始端部分区間と終端部
    分区間の長さはそれぞれ予め決めた一定の長さであり、
    上記ステップ(e) は上記標準パターン部分区間の始端と
    終端の特徴パラメータをそれぞれ検出するステップを含
    み、上記ステップ(f) は上記入力音声パターンの始端及
    び終端からそれぞれ予め決めた長さの区間内で上記第1
    及び第2特徴パラメータと最も近い第3及び第4特徴パ
    ラメータを検出するステップと、上記入力音声パターン
    の上記検出した第3特徴パラメータから上記第4特徴パ
    ラメータまでの区間を上記音声パターン部分区間として
    抽出するステップを含む。
  16. 【請求項16】 入力音声パターンと複数個の標準パタ
    ーンとの間のパターンマッチングをとって両者間の距離
    値の内の最も小さい距離値を有する標準パターンを探索
    して音声認識する単語音声認識装置であり、以下を含
    む:ディジタル音声信号を入力する入力手段と、 入力された上記ディジタル音声信号をフレーム毎に分析
    して音声特徴パラメータを抽出する音声特徴抽出手段
    と、 上記音声特徴抽出部の出力する上記音声特徴パラメータ
    の系列に基づいて音声区間を第1音声区間として検出
    し、その両端を第1始端及び第1終端と決める音声区間
    検出手段と、 検出した上記第1音声区間の特徴パラメータの列を音声
    パターンとして格納する入力パターン格納手段と、 上記音声区間検出手段により得られた上記第1音声区間
    から始端部分区間と終端部分区間を除く第2音声区間を
    規定する第2始端と第2終端を決定する入力パターン部
    分区間決定手段と、 音声認識に使用する複数個の標準パターンをそれらの音
    声区間をそれぞれ第1音声区間として規定する第1始端
    及び第1終端を示す情報と共に予め記憶した標準パター
    ン記憶手段と、 上記標準パターン記憶手段から選択した標準パターンの
    第1音声区間の始端部分区間と終端部分区間を除いた第
    2音声区間を規定する第2始端と第2終端を決定する標
    準パターン部分区間決定手段と、 上記音声区間検出手段及び上記標準パターン記憶手段か
    らの音声パターン及び標準パターンのそれぞれに関する
    第1始端及び第1終端と、第2始端及び第2終端を選択
    し、それによって上記入力パターン格納手段からの上記
    音声パターン及び上記標準パターン記憶手段からの上記
    標準パターンのそれぞれの第1音声区間と第2音声区間
    を選択するスイッチ手段と、 上記スイッチ手段により選択された上記音声パターンと
    上記標準パターンのそれぞれ第1音声区間のパターンマ
    ッチングを行い第1距離を求め、上記スイッチ手段によ
    り選択された上記音声パターンと上記標準パターンのそ
    れぞれの第2音声区間のパターンマッチングを行い第2
    距離を求めるパターンマッチング手段と、 上記第1距離と第2距離を比較し、小さい方の距離を上
    記入力音声パターンと上記選択した標準パターンとの距
    離値と決める距離比較手段と、 上記入力音声パターンの各標準パターンに対するマッチ
    ング結果として上記距離比較手段から出力される距離値
    を全て比較し最も距離値が小さいと判定される標準パタ
    ーンを決定し、その標準パターンのラベル名を出力する
    結果出力手段。
JP04898096A 1995-06-19 1996-03-06 パターンマッチングによる単語音声認識方法及びその方法を実施する装置 Expired - Lifetime JP3180655B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP04898096A JP3180655B2 (ja) 1995-06-19 1996-03-06 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US08/630,668 US5732394A (en) 1995-06-19 1996-04-10 Method and apparatus for word speech recognition by pattern matching

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP15169895 1995-06-19
JP7-151698 1995-06-22
JP7-155793 1995-06-22
JP15579395 1995-06-22
JP04898096A JP3180655B2 (ja) 1995-06-19 1996-03-06 パターンマッチングによる単語音声認識方法及びその方法を実施する装置

Publications (2)

Publication Number Publication Date
JPH0968994A JPH0968994A (ja) 1997-03-11
JP3180655B2 true JP3180655B2 (ja) 2001-06-25

Family

ID=27293477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04898096A Expired - Lifetime JP3180655B2 (ja) 1995-06-19 1996-03-06 パターンマッチングによる単語音声認識方法及びその方法を実施する装置

Country Status (2)

Country Link
US (1) US5732394A (ja)
JP (1) JP3180655B2 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0811906B1 (en) * 1996-06-07 2003-08-27 Hewlett-Packard Company, A Delaware Corporation Speech segmentation
US6847717B1 (en) 1997-05-27 2005-01-25 Jbc Knowledge Ventures, L.P. Method of accessing a dial-up service
US9978373B2 (en) 1997-05-27 2018-05-22 Nuance Communications, Inc. Method of accessing a dial-up service
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
TW333610B (en) * 1997-10-16 1998-06-11 Winbond Electronics Corp The phonetic detecting apparatus and its detecting method
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
US6199041B1 (en) * 1998-11-20 2001-03-06 International Business Machines Corporation System and method for sampling rate transformation in speech recognition
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
SE521465C2 (sv) * 1999-06-07 2003-11-04 Ericsson Telefon Ab L M Mobiltelefon med taligenkänningssystem innehållande en beräkningsenhet för spektralavstånd.
JP4298101B2 (ja) 1999-12-27 2009-07-15 日立ソフトウエアエンジニアリング株式会社 類似発現パターン抽出方法及び関連生体高分子抽出方法
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
GB2363236B (en) * 2000-06-05 2002-06-12 Motorola Inc Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6996551B2 (en) * 2000-12-18 2006-02-07 International Business Machines Corporation Apparata, articles and methods for discovering partially periodic event patterns
US6789065B2 (en) 2001-01-24 2004-09-07 Bevocal, Inc System, method and computer program product for point-to-point voice-enabled driving directions
US7069513B2 (en) 2001-01-24 2006-06-27 Bevocal, Inc. System, method and computer program product for a transcription graphical user interface
US20020143553A1 (en) * 2001-01-24 2002-10-03 Michael Migdol System, method and computer program product for a voice-enabled universal flight information finder
US20020133336A1 (en) * 2001-01-24 2002-09-19 Mikael Berner System, method and computer program product for supporting the delivery of localized content
US7444284B1 (en) 2001-01-24 2008-10-28 Bevocal, Inc. System, method and computer program product for large-scale street name speech recognition
US7383187B2 (en) * 2001-01-24 2008-06-03 Bevocal, Inc. System, method and computer program product for a distributed speech recognition tuning platform
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
WO2004015990A1 (en) * 2002-08-12 2004-02-19 Koninklijke Philips Electronics N.V. Method to process two audio input signals
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8577684B2 (en) 2005-07-13 2013-11-05 Intellisist, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
US8433915B2 (en) 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US9026447B2 (en) * 2007-11-16 2015-05-05 Centurylink Intellectual Property Llc Command and control of devices and applications by voice using a communication base system
US8244531B2 (en) * 2008-09-28 2012-08-14 Avaya Inc. Method of retaining a media stream without its private audio content
US9819798B2 (en) 2013-03-14 2017-11-14 Intellisist, Inc. Computer-implemented system and method for efficiently facilitating appointments within a call center via an automatic call distributor
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
KR20180094875A (ko) * 2015-12-18 2018-08-24 소니 주식회사 정보 처리 장치, 정보 처리 방법, 및 프로그램
US10854192B1 (en) * 2016-03-30 2020-12-01 Amazon Technologies, Inc. Domain specific endpointing
US10754978B2 (en) 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US4984275A (en) * 1987-03-13 1991-01-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US5220609A (en) * 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5369727A (en) * 1991-05-16 1994-11-29 Matsushita Electric Industrial Co., Ltd. Method of speech recognition with correlation of similarities
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
JPH0561496A (ja) * 1991-08-30 1993-03-12 Sony Corp 音声認識装置

Also Published As

Publication number Publication date
US5732394A (en) 1998-03-24
JPH0968994A (ja) 1997-03-11

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP0077194B1 (en) Speech recognition system
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH09500223A (ja) 多言語音声認識システム
JPS62231997A (ja) 音声認識システム及びその方法
JP3069531B2 (ja) 音声認識方法
JP3523382B2 (ja) 音声認識装置及び音声認識方法
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JPH0797279B2 (ja) 音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2798919B2 (ja) 音声区間検出方式
JP2001013988A (ja) 音声認識方法及び装置
JP3125928B2 (ja) 音声認識装置
JPH0772899A (ja) 音声認識装置
JP3231365B2 (ja) 音声認識装置
JPH0635495A (ja) 音声認識装置
JPH0640274B2 (ja) 音声認識装置
JP2000194385A (ja) 音声認識処理装置
JPS63259689A (ja) 音声認識応答装置
JPS59170894A (ja) 音声区間の切り出し方式
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置
JPH0424697A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090420

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090420

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term