JPH06100920B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06100920B2
JPH06100920B2 JP61267007A JP26700786A JPH06100920B2 JP H06100920 B2 JPH06100920 B2 JP H06100920B2 JP 61267007 A JP61267007 A JP 61267007A JP 26700786 A JP26700786 A JP 26700786A JP H06100920 B2 JPH06100920 B2 JP H06100920B2
Authority
JP
Japan
Prior art keywords
voice
standard pattern
silent
pattern
silence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61267007A
Other languages
English (en)
Other versions
JPS63121099A (ja
Inventor
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61267007A priority Critical patent/JPH06100920B2/ja
Publication of JPS63121099A publication Critical patent/JPS63121099A/ja
Publication of JPH06100920B2 publication Critical patent/JPH06100920B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、標準パターンと入力音声パターンとのパター
ンマッチングにより認識結果を導き出す音声認識装置に
関するものである。
従来の技術 一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマッチング(以下、DPマッチングと記す。)が
使用されている。特に、単語音声認識装置では、このDP
マッチング法により高い認識率を得ている。(例えば、
「ダイナミック プログラミング オプティミゼイショ
ン フォ スポークン ワード レコグニション」(H.
Sakoe and S.Chiba,"Dynamic programming optimizatio
n for sporken word recognition",IEEE trans.Acousti
c,Speech,Signal Processing,Vol.ASSP−27pp.336−34
9,1979)) 発明が解決しようとする問題点 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマッチングを行うため、異なった
音声パターン間のDPマッチングにおいても、極端な時間
軸の非線形伸縮のため両者の距離が小さくなる場合があ
り、誤認識を生じる原因となっていた。例えば「大阪」
と「大分」とはエネルギー系列で見ると、前者は三つ、
後者は二つのエネルギーの山があり明らかに異なった二
つのパターンであるが、音韻的には似通っているためDP
マッチングにより距離が小さくなってしまう。
また、類似した音声パターン間のDPマッチングでは、音
声パターン全体に渡ってDPマッチングを行なうため、両
者間の違いが埋もれてしまい、その結果、パターン間の
距離が小さくなり誤認識を生じやすいという問題点を有
していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマッチングしてしまい、対象外単語のリジェク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なDPマッチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のリジェクト
性能を高めることのできる音声認識装置を提供するもの
である。
問題点を解決するための手段 上記目的点を解決するために本発明の音声認識装置は、
入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析手段と、前記音声分析手段から出
力されるエネルギー系列から無音区間を検出する無音区
間検出手段と、各標準パターンの無音区間のフレーム位
置及び個数を管理する無音区間管理手段と、標準パター
ン各々の無音区間の優先順位をあらかじめ決定し管理す
る無音区間優先順位管理手段と、最も確実に検出できる
無音区間の個数が入力音声の無音区間の個数以下の標準
パターンのみを認識対象として選択する予備選択手段
と、標準パターンの無音区間の優先順位に従って入力音
声と標準パターンの無音区間のフレーム位置の交点をマ
ッチングパスが必ず通過するように制限を加えたパター
ンマッチングを行ない、両者間の距離を算出する認識手
段とを備えたものである。
作用 本発明は上記に述べた構成によって、あらかじめ標準パ
ターンの無音区間を調べ検出が確実な無音区間点から順
位付けを行い、その中でも最も確実な無音区間を最優先
無音区間として管理し、最優先無音区間の個数が入力音
声の無音区間の個数以下の標準パターンと入力音声との
間でのみ、優先順位に従ってそれぞれの無音区間のフレ
ーム位置を合わせて必ずその交点をマッチングパスが通
過するように制限をしたパターンマッチングを行い認識
結果を導き出すことにより、処理時間の短縮が図れ、類
似パターン間の誤認識および極端なマッチングによる誤
認識を極力抑えることができ、さらに認識対象外単語が
入力された時には極力リジェクトすることができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声入力部で、話
者の音声がマイクロホン、電話機のハンドセット等を通
して入力される。2は音声分析手段で、入力された音声
信号から特徴ベクトルの時系列を抽出する。3は音声区
間検出手段で、音声のエネルギー系列から無音区間部分
を検出する。4は標準パターン管理手段で、各標準パタ
ーンの記憶されているアドレス及びフレーム長を管理す
る。5は無音区間管理手段で、各標準パターンの無音区
間の個数、フレーム位置を管理する。6は無音区間優先
順位管理手段で、各標準パターンの無音区間を多数の音
声データより統計的手段等で順位付けを行い、その中で
も最も確実な無音区間を最優先無音区間として管理す
る。7は最優先無音区間の個数と入力音声の無音区間の
個数により認識対象の標準パターンを限定する予備選択
手段、8は入力パターンと予備選択手段7により選択さ
れた各標準パターンとの間で経路制限をしたパターンマ
ッチングを行う認識手段、9は認識候補音声をLED等に
表示、あるいは合成音声で結果を知らせる認識結果出力
部である。
第2図は本実施例の構成を示す回路図で、上記の無音区
間検出手段3、標準パターン管理手段4、無音区間管理
手段5、無音区間優先順位管理手段6,認識手段7をマイ
クロコンピュータ25で実現したものである。10は音声の
入力を行なうマイクロホン、11はマイクロホン10から入
力された音声信号をアナログ−ディジタル変換するアナ
ログ/ディジタル変換器(以下A/D変換器という。)で
ある。12は音声の特徴ベクトルの抽出を行う特徴抽出
部、13は入力音声の無音区間を検出する無音区間検出
部、14は入力音声の特徴ベクトルの時系列を記憶するバ
ッファメモリ、15は標準パターン音声の特徴ベクトルの
時系列を記憶する標準パターンメモリ、16は各標準パタ
ーンのアドレス及びフレーム長を管理する標準パターン
管理テーブル、17は各標準パターンの無音区間点を管理
する無音区間管理テーブル、18は各標準パターンの無音
区間の優先順位を記憶する優先順位テーブル、19は標準
パターンと入力パターンとの類似度を計算するパターン
マッチング部、20は認識候補音声を判定する認識判定
部、21は認識候補音声の合成音声を作り出す音声合成回
路、22は合成音のための音声メモリ、23は音声合成出力
を増幅する増幅器、24はスピーカである。
第3図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。以上の構成によ
る本実施例の動作を、第3図のフローチャートに沿って
詳細に説明する。
まず、マイクロホン10から音声を入力し、A/D変換器11
で音声信号をアナログ−ディジタル変換したあと、特徴
抽出部12で音声パターンの特徴ベクトル(例えば、10次
元の線形予測係数)の時系列とエネルギー系列を求め、
バッファメモリ14に記憶する。次に、ステップ30でバッ
ファメモリ14に記憶されたエネルギー系列からエネルギ
ー値がしきい値を下回る区間が一定時間T0を超える区間
を無音区間として検出し、無音区間の個数と各無音区間
の最終フレーム位置を記憶する。なお、あらかじめ各標
準パターンの特徴ベクトルの時系列が標準パターンメモ
リ15に、各標準パターンのメモリ配置、フレームの長さ
が標準パターン管理テーブル16に、各標準パターンに対
応した無音区間の個数とフレーム位置が無音区間管理テ
ーブル17に、各標準パターンの無音区間の優先順位及び
最優先無音区間の個数,フレーム長が優先順位テーブル
18に蓄えられているものとする。
まず標準パターンメモリ15に記憶された第一番目の標準
パターンから順次認識処理を行うべきかを以下の手順で
判定する。始めにステップ31でK=1とおく。これは、
第一番目の標準パターンを意味する。次にステップ32で
入力音声の無音区間数1Mと優先順位テーブル18に記憶さ
れた第K番目の標準パターンの最優先無音区間数JSK
を比較する。IM≧JSKの時は、ステップ33に進み今度は
入力音声の無音区間数IMと第K番目の標準パターンの無
音区間数JMKとを比較する。IM≧JMKのときはステップ33
に進む。ステップ31、ステップ32の判定処理により標準
パターンの予備選択を行っており、これらの条件を満た
さない標準パターンは認識候補からはずれたものとして
ステップ37以降に進みその他の標準パターンについて同
様の処理を続ける。
ステップ34では、入力音声の無音区間のフレーム位置を
優先順位テーブル18の優先順位に従って標準パターンの
無音区間のフレーム位置に一致させる。ここでは入力パ
ターンに一つ、標準パターンに三つ最も確からしい無音
区間が存在する場合について説明する。
入力パターンのフレーム長をI、その無音区間の最終フ
レーム位置をI1、標準パターンのフレーム長をJ、その
各無音区間の最終フレーム位置をJ1、J2、J3とする。こ
こで優先順位の最も高いフレームをJ1とすると、入力パ
ターンのI1フレームと標準パターンのJ1フレームとを対
応ずければよい。
そこで、ステップ35では、 0<i<I1かつJ1<j≦J または I1<i≦IかつO<j<J1 の条件を満たす入力パターンの第iフレームと標準パタ
ーンの第jフレームとの特徴ベクトル間の距離を無限大
にセットする。ステップ35の設定が終ると、ステップ36
により入力パターンと標準パターン間でDPマッチングを
行ない、両者間の距離を算出する。ここで得られる距離
は、入力パターンの第I1フレームと標準パターンの第J1
フレームの交点をマッチングパスが必ず通過するように
制限を加えたDPマッチングを行なった時に得られる結果
である。ここで、入力パターンの第I1フレームと標準パ
ターンの第J1フレームの交点が整合窓の範囲を超える場
合は両者のDPマッチングは不可能であるためこの標準パ
ターンは認識候補からはずす。
この後、ステップ37で次の標準パターンに進むためK=
K+1としステップ38でK>Nの判定を行い満足しなけ
ればステップ32に戻り同様の処理を続ける。ここで、N
は標準パターンメモリ15に記憶された全標準パターン数
である。
ステップ38の条件が満足すると、ステップ36に進み、認
識判定部20で得られた距離値のうち最小値を与える標準
パターンを認識候補音声と判定し、認識候補音声に対応
した合成音声を音声合成回路21及び音声メモリ22により
作り出し、増幅機23、スピーカ24を介して出力する。
なお、本実施例では、入力パターンの無音区間の個数が
1個の場合について説明したが、無音区間が2個以上存
在する場合にも、ステップ32、33の条件を満たしていれ
ば優先順位テーブルに従って同様の処理を行なうことが
できる。例えば、標準パターン、入力音声パターンの無
音区間の個数が各々3、2の場合、無音区間テーブルの
順位に従った上位2個に時間的順序に従って一致させ
る。
以上のように本実施例によれば、音声パターン中の無音
区間を検出する無音区間検出手段と各標準パターンの無
音区間の個数、フレーム位置を記憶する無音区間管理手
段と無音区間の優先順位及び最優先無音区間を管理する
無音区間優先順位管理手段を持ち、最優先無音区間の個
数が入力音声の無音区間の個数以下の標準パターンを選
択する予備選択手段により認識候補を限定し、各標準パ
ターンについて決定した優先順位に従って入力パターン
と標準パターンの無音区間のフレーム位置の交点を通過
するように制限を加えたDPマッチングを行なうことによ
り、認識処理時間が短縮でき、さらに極端なマッチング
による誤認識、および音韻的に類似したパターン間の誤
認識を減少させることができる。
発明の効果 以上のように本発明は、音声パターン中の無音区間の個
数とそのフレーム位置を検出する無音区間検出手段と、
各標準パターンの無音区間の個数、及びフレーム位置を
記憶する無音区間管理手段と、各標準パターンの無音区
間の出現の優先順位を多数の音声データの統計的性質等
から決定し、最も確実な無音区間は最優先無音区間とし
て管理する無音区間優先順位管理手段と、最優先無音区
間の個数が入力音声の無音区間の個数以下である標準パ
ターンのみを選択する予備選択手段を持ち、予備選択さ
れた標準パターンと入力音声との間で無音区間の優先順
位に従って入力パターンと標準パターンでの無音区間の
フレーム位置を時間的順序に従い合わせ、その交点をマ
ッチングパスが必ず通過するように制限したDPマッチン
グを行ない、距離の最小となる標準パターンを認識結果
として導き出すことにより、同単語間では二つのパター
ンを最適にマッチングさせ、異単語間では極端なマッチ
ングを生じさせることになり、音韻の類似したパターン
間での誤認識、および極端なマッチングによる誤認識を
極力抑えることのでき、また認識対象外単語が入力され
た時には極力リジェクとすることのできる音声認識装置
を提供することができる。また、認識処理を行う標準パ
ターンを予備選択することにより認識処理にかかる時間
を短縮することができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第2図は同装置の構成を示す回路
図、第3図は同装置の動作説明のための要部フローチャ
ートである。 3……音声区間検出手段、4……標準パターン管理手
段、5……無音区間管理手段、6……無音区間優先順位
管理手段、7……予備選択手段、8……認識手段、10…
…マイクロホン、14……バッファメモリ、15……標準パ
ターンメモリ、16……標準パターン管理テーブル、17…
…無音区間管理テーブル、18……優先順位テーブル、21
……音声合成回路、22……音声メモリ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声からエネルギー系列を含む特徴ベ
    クトルの時系列を出力する音声分析手段と、前記音声分
    析手段から出力されるエネルギー系列から音声パターン
    中の音声部分と無音部分を判別し、無音区間の個数およ
    びそのフレーム位置を検出する無音区間検出手段と各標
    準パターンの記憶されているアドレス、及びそのフレー
    ム長を管理する標準パターン管理手段と、前記標準パタ
    ーン管理手段により管理された各標準パターンの無音区
    間の位置をあらかじめ検出しそのフレーム位置と個数を
    管理する無音区間管理手段と、前記無音区間管理手段に
    管理された各標準パターンの無音区間のフレーム位置
    を、認識対象単語各々の多数の音声データの統計的性質
    から得られる確実な無音区間点から順位付けを行い、ま
    たその中で最も確実に検出できる無音区間点は最優先無
    音区間とし、それらはすべて第一位の順位としてその個
    数、フレーム位置を管理する無音区間優先順位管理手段
    と、前記無音区間優先順位管理手段で管理された標準パ
    ターンの最優先無音区間数が、前記無音区間検出手段か
    ら得られる入力音声の無音区間の個数以下の標準パター
    ンだけを認識対象とする予備選択手段と、前記予備選択
    手段で選択された標準パターンと入力音声との間で、前
    記無音区間管理手段に記憶された各標準パターンの最も
    確実な無音区間点から時間軸に沿って順に入力音声の最
    も確実な無音区間点とそのフレーム位置を一致させパタ
    ーンマッチングを行い両者間の距離を算出する認識手段
    とを備えたことを特徴とする音声認識装置。
JP61267007A 1986-11-10 1986-11-10 音声認識装置 Expired - Fee Related JPH06100920B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61267007A JPH06100920B2 (ja) 1986-11-10 1986-11-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61267007A JPH06100920B2 (ja) 1986-11-10 1986-11-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPS63121099A JPS63121099A (ja) 1988-05-25
JPH06100920B2 true JPH06100920B2 (ja) 1994-12-12

Family

ID=17438760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61267007A Expired - Fee Related JPH06100920B2 (ja) 1986-11-10 1986-11-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06100920B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01321498A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JPS63121099A (ja) 1988-05-25

Similar Documents

Publication Publication Date Title
US5167004A (en) Temporal decorrelation method for robust speaker verification
US4624008A (en) Apparatus for automatic speech recognition
US6023676A (en) Keyword recognition system and method
US4783804A (en) Hidden Markov model speech recognition arrangement
US5613037A (en) Rejection of non-digit strings for connected digit speech recognition
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
US6922668B1 (en) Speaker recognition
US20050119883A1 (en) Speech recognition device and speech recognition method
WO2021030918A1 (en) User-defined keyword spotting
JPS62217295A (ja) 音声認識方式
JP2808906B2 (ja) 音声認識装置
Sugamura et al. Isolated word recognition using phoneme-like templates
JPH04369696A (ja) 音声認識方法
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
US5487129A (en) Speech pattern matching in non-white noise
JPH0247760B2 (ja)
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
JPH06100920B2 (ja) 音声認識装置
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
JP3315565B2 (ja) 音声認識装置
JPH0632006B2 (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JPH0997095A (ja) 音声認識装置
JPS6247100A (ja) 音声認識装置
JPS59111699A (ja) 話者認識方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees