JPH02298998A

JPH02298998A - 音声認識装置とその方法

Info

Publication number: JPH02298998A
Application number: JP2092371A
Authority: JP
Inventors: Ian Bickerton; イアン　ビッカートン
Original assignee: Smiths Group PLC
Current assignee: Smiths Group PLC
Priority date: 1989-04-12
Filing date: 1990-04-09
Publication date: 1990-12-11
Also published as: DE4010028A1; GB2230370B; FR2645999A1; GB8908205D0; JP2001000007U; GB2230370A; GB9007067D0; DE4010028C2; FR2645999B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（技術分野）この発明はスピーチ信号の第１分析が異なる語（ｗｏｒ
ｄ　）の間の境界（ｂｏｕｎｄａｒｙ　）を識別し、か
つ蓄積語常（ｓｔｏｒｅｄ　ｖｏｃａｂｕｌａｒｙ　）
との比較によって会話された語（ｗｏｒｄｓ　５ｐｏｋ
ｅｎ）の第１表示を与えるよう実行される種類の音声認
識方法に関連している。

（背景技術）多重機能を有する複雑な装置において、会話された指令
（ｓｐｏｋｅｎ　ｃｏｍｍａｎｄｓ　）により装置を制
御できることは有用である。これはまたユーザーの手が
他の仕事に占有されるところ、あるいはユーザーが障害
を持ち、かつ通常の機械的スイッチや制御装置を操作す
るために自分の手が使えないところで有用である。

スピーチにより制御された装置による問題は、音声認識
が信頼性が無く、特に会話者の声が振動のような環境フ
ァクターで変更されるところではそうである。これは動
作の失敗あるいはさらに悪い場合には不正確な動作を導
く。

音声認識には種々の技術が使用されている。１つの技術
はマルコフモデルの使用を含み、これは連続音声の語の
間の境界を容易に識別できるという理由で有用である。

雑音の多い環境あるいはスピーチが会話者の緊張により
劣化されるところでは、マルコフモデル技術は会話され
た語の十分信頼性ある識別を与えないであろう。最近、
雑音補償、補間、シンタックス選択および他の方法によ
りそのような技術の性能を改良するかなりの努力が払わ
れてきた。

音声認識に提案されてきた代案の技術は神経網（ｎｅｕ
ｒａｌ　ｎｅｔｓ）を利用している。これらの神経網技
術はスピーチがひど（劣化されていても個別の語を高い
精度で識別することができる。しかしそれらは連続音声
の認識には通していない。というのはそれらが語の境界
を正確に識別できないからである。

（発明の開示）本発明の目的は改良された音声認識装置と音声認識方法
を与えることである。

本発明の一態様によると、上に規定された種類の音声認
識の方法が備えられ、それは該方法が会話された語の第
２表示を与えるために神経網技術と第１分析からの語境
界識別を使用してスピーチ信号の第２分析を実行し、か
つ少なくとも第２表示から会話された語を表す出力信号
を与えるステップを含むことを特徴としている。

第１分析はマルコフモデルを使用して実行できる。給電
はダイナミック時間ワーピングテンプレ）　（ｄｙｎａ
ｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ　ｔｅｍｐｌａｔｅ
　）を含み、かつ第１分析は非対称ダイナミック時間ワ
ーピングアルゴリズムを使用して実行できる。

第１分析は複数の異なるアルゴリズムを利用して実行さ
れることが好ましく、各アルゴリズムは表示された語が
会話された語であることの信転性（ｃｏｎ　ｆ　１ｄｅ
ｎｃｅ　）の表示と共にスピーチ信号に最も近い給電メ
モリの語を示す信号を与え、かつ異なるアルゴリズムに
より与え°られた信号間で比較が行われている。会話さ
れた語の第１表示が信顛性の測度を与えるところでは、
信顛性の測度が所定の値より大きい場合に出力信号が第
１表示のみに応答するよう備えられている。

第２分析は神経網と共に多層バーセプトロン技術（ｍｕ
ｌｔｉ−１ａｙｅｒ　ｐｅｒｃｅｐｔｒｏｎ　ｔｅｃｈ
ｎｉｑｕｅ）を使用して実行できる。

出力信号は会話された語の会話者にフィードバックを与
えるよう利用できる。

本方法はスピーチ信号に雑音マーキングアルゴリズム（
ｎｏｉｓｅ　ｍａｒｋｉｎｇ　ａ１ｇｏｒｉｔｈｎ＋　
）を実行するステップを含み、かつ以前に識別された語
のシンタックスに従って蓄積語彙にシンタックス制限を
実行するステップを含むことができる。

本発明は音声認識装置にも関連し、認識できる語の給電
についてのスピーチ情報を含むメモリと、異なる語の間
の境界を識別しかつ会話された語の第１表示を与えるた
めに蓄積語彙とスピーチ信号を比較するスピーチ信号の
第１分析を実行するパターンマツチングユニットを含む
ものにおいて、該装置が、パターンマッチングユニッｌ
−（１６）と接続された神経網ユニッ）　（２０）を含
み、該パターンマツチングユニット（１６）が神経網ユ
ニット（２０）の出力と第１分析からの語境界識別の双
方を利用するスピーチ信号の第２分析を実行し、がつパ
ターンマツチングユニット（１６）が会話された語を表
す出力信号を少なくとも第２分析から与えることを特徴
としている本発明による音声認識装置と方法は装置を概略示す添付
図面を参照して実例により説明されよう。

（実施例）音声認識装置は参照記号１により一般的に示され、かつ
航空機パイロン＋の酸素マスクに取り付けられているよ
うなマイクロホン２がら入力スピーチ信号を受信する。

識別された語を表す出力信号は装置ｌによりフィードバ
ックデバイス３および利用デバイス（ｕｔｉｌｉｓａｔ
ｉｏｎ　ｄｅｖｉｃｅ）　４に印加される。フィードバ
ックデバイス３は装置１により識別されたような語の会
話者に通知するために配列された可視表示あるいは可聴
デバイスであろう。利用デバイス４は装置の出力信号か
ら利用デバイスにより認識された会話された指令に応じ
て航空機装置の機能を制御するよう配列されよう。

マイクロホン２からの信号は前置増幅器１０に供給され
、この前置増幅器１０はすべての周波数チャネル出力が
同様なダイナミックレンジを占有することを保証する平
坦長期平均スピーチスペクトル（ｆｌａｔ　ｌｏｎｇ−
ｔｅｒａ＋　ａｖｅｒａｇｅ　５ｐｅｅｃｈ　５ｐｅｃ
ｔｒｕ１１）（この場合その特性は公称的に１ｋＨｚま
で平坦である）を生成するプリエンファシス段１１を含
んでいる。スイッチ１２は高い周波数で３　ｄＢ／オク
ターブあるいは６　ｄＢ／オクターブのいずれかを与え
るよう設定できる。前置増幅器１０はまた４ｋＨｚに設
定された一３ｄＢ遮断周波数を持つ８次バッターワース
低域通過フィルタの形をしているアンチアライアシング
フィルタ２１を含んでいる。

前置増幅器１０からの出力はアナログ対ディジタル変換
器１３を介してディジタルフィルタバンク１４に伝達さ
れる。フィルタバンク１４は７ＭＳ３２０１０マイクロ
プロセツサのアセンブリソフトウェア−として実現され
た１９個のチャネルを有し、かつアイイ−イー議事録（
ＩＥＥ　Ｐｒｏｃ、）　、第１２７巻、パートＦ、第１
号、１９８０年２月のジェー・エヌ・ホルメス（Ｊ、　
Ｎ、Ｈｏ１ａ＋ｅｓ）によるｒＪｓＲ１１チャネルボコ
ーダ−（ＪＳＲＵ　Ｃｈａｎｎｅｌ　Ｖｏｃｏｄｅｒ）
　Ｊに基づいている。フィルタバンク１４は周波数範囲
２５０　４０００）１ｚの聴覚（ａｕｄｉｔｏｒｙ　ｐ
ｅｒｃｅｐｔｉｏｎ　）の臨界帯域にほぼ対応する不均
等チャネル間隔を有している。隣接チャネルの応答はそ
れらのピークより約３ｄＢ下で交差している。チャネル
の中央において、近傍チャネルの減衰は約１１ｄＢであ
る。

フィルタバンク１４からの信号はジヱー・ニス・プライ
ドル（Ｊ、　Ｓ、　Ｂｒ１ｄｌｅ）等により記述された
種類の雑音マーキングアルゴリズムを組み込んだ積分・
雑音マーキングユニット１５に供給される。

自動音声認識に適用された雑音補償スペクトル距離測度
（ｎｏｉｓｅ　ｃｏｍｐｅｎｓａｔｉｎｇ　ｓｐｅｃｔ
ｒｕｍ　ｄｉｓｔａｎｃｅｍｅａｓｕｒｅ　）について
は音響国際会議録（Ｐｒｏｃ、　Ｉｎ５ｔ。

Ａｃｏｕｓｔ、　）　、ウィンドメアー（Ｗｉｎｄ＊ｅ
ｒｅ）　、１９８４年１１月を参照されたい。周期性雑
音を低減する適応雑音相殺技術（ａｄａｐｔｉｖｅ　ｎ
ｏｉｓｅ　ｃａｎｃｅｌｌａｔｉｏｎｔｅｃｈｎｉｑｕ
ｅ　）は例えば周期性ヘリコプタ−雑音の低減に使用で
きるユニット１５により実現できる。

雑音マーキングユニット１５の出力は種々のパターンマ
ツチングアルゴリズムを実行するパターンマツチングユ
ニット１６に供給される。パターンマツチングユニット
１６は語彙メモリ１７に接続され、この語彙メモｆ月７
はダイナミック時間ワーピング（ＤＴＷ　　：　Ｄｙｎ
ａｍｉｃ　Ｔｉｍｅ　Ｗａｒｐｉｎｇ）　）テンプレー
トと語彙中の各語のマルコフモデルを含んでいる。

ＤＴＷテンプレートは単一パスの時間整列平均化技術（
ｓｉｎｇｌｅ　ｐａｓｓ、　ｔｉｍｅ−ａｌｉｇｎｅｄ
　ａｖｅｒａｇｉｎｇｔｅｃｈｎｉｑｕｅ　）あるいは
埋め込みトレーニング技術（ｅｍｂｅｄｄｅｄ　ｔｒａ
ｉｎｉｎｇ　ｔｅｃｈｎｉｑｕｅ　）のいずれかを使用
して創成できる。このテンプレートは時間に対する周波
数およびスペクトルエネルギーを表している。

マルコフモデルは同じ語の多くの発声からの装置のトレ
ーニングの間に導かれ、スペクトルおよび時間変化は統
計的モデルで獲得される。マルコフモデルは多数のＭ敗
状態からなり、各状態は一対のスペクトルフレームおよ
び分散フレーム（ｖａｒｉａｎｃｅ　ｆｒａｍｅ）から
構成されている。スペクトルフレームは１２０Ｈｚから
４ＭＨｚの周波数範囲をカバーする１９個の値を含み、
分散フレームは状態平均期間（ｓｔａｔｅ　ｍｅａｎ　
ｄｕｒａｔｉｏｎ　）の形をした各スペクトルベクトル
／特徴（ｆｅａｔｕｒｅ　）に関連した分散情報と標準
偏差情報を含んでいる。

トレーニングの間の個別の発声は定常音声状態（Ｓむａ
ｔｉｏｎａｒｙ　ｐｈｏｎｅｔｆｃ　５ｔａｔｅｓ）と
それらのスペクトル遷移（ｓｐｅｃｔｒａｌ　ｔｒａｎ
ｓｉｔｉｏｎ　）を分類するよう分析される。モデルパ
ラメーターはエム・ジェー・ラッセル（Ｍ、　Ｊ、　Ｒ
ｕ５ｓｅｌｌ　）とアール・エッチ・ムアー（Ｒ，Ｈｏ
Ｍｏｏｒｅ　）の［自動音声認識のヒドンマルコフモデ
ルの状態占有の明確なモデリング（Ｅｘｐｌｃｉｔ　ｓ
ｏｄｅｌｌｉｎｇ　ｏｆ　５ｔａｔｅ　ｏｃｃｕｐａｎ
ｃｙｉｎ　　ｈｉｄｄｅｎ　　Ｍａｒｋｏｖ　　Ｍｏｄ
ｅｌｓ　　ｆｏｒ　　ａｕｔｏｍａｔｉｃ　　ｓｐｅｅ
ｃｈｒｅｃｏｇｎｉｔｉｏｎ　）　Ｊ　、アイイーイー
イー音響国際会議録（Ｐｒｏｃ’ＩＥＢＥ　Ｉｎｔ、　
Ｃｏｎｆ、　ｏｎ　Ａｃｏｕｓｔｉｃｓ　）、スピーチ
と信号の処理（Ｓｐｅｅｃｈ　ａｎｄ　ＳｉｇｎａｌＰ
ｒｏｃｅｓｓｉｎｇ）　、タンパ（Ｔａｌ１９ａ　）　
、１９８５年、３月２６−２９日により記述されたとタ
ビ再評価アルゴリズム（Ｖｉｔｅｒｂｉ　ｒｅ−ｅｓｔ
ｉｍａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　）を使用した回
帰プロセスにより評価される。最終語モデル（ｆｉｎａ
ｌ　ｗｏｒｄ　ｍｏｄｅｌ）は時間および抑揚（ｉｎｆ
ｌｅｃｔｉｏｎ）の双方の自然会話語変動性（ｎａｔｕ
ｒａｌｓｐｏｋｅｎ　ｗｏｒｄ　ｖａｒｉａｂｉｌＨｙ
　）を含んでいる。

メモリ１７とパターンマツチングユニット１６の中間に
シンタックスユニット１８があり、シンタックスユニッ
ト１８は以前に識別された語のシンタックスに従ってス
ピーチ信号が比較される蓄積語彙に通常のシンタックス
制限を実行する。

パターンマツチングユニット１６はまた神経網ユニット
２０に接続されている。神経網ユニット２０はニス・エ
ム・ピーリング（Ｓ、　Ｍ、　Ｐｅｅｌｉｎｇ　）とア
ール・エッチ・ムアー（Ｒ，Ｈ，Ｍｏｏｒｅ　）により
記述された「多層バーセプトロンを用いた孤立ディジッ
ト認識の実験（Ｅｘｐｅｒｉｍｅｎｔｓ　ｉｎ　１ｓｏ
ｌａｔｅｄ　ｄｉｇｉｔｒｅｃｏｇｎｉｔｉｏｎ　ｕｓ
ｉｎｇ　ｔｈｅ　ｍｕｌｔｉ−１ａｙｅｒ　ｐｅｒｃｅ
ｐｔｒｏｎ）、ＲＳＩ？Ｅメモランダム第４０７３号、
１９８７年のような多層パーセブトロン（ＭＬＰ　：　
Ｍｕｌｔｉ−Ｌａｙｅｒ　Ｐｅｒｃｅｐｔｒｏｎ）を組
み込んでいる。

ＭＬＰは高い背景雑音が低エネルギー摩擦音スピーチ（
ｆｒｉｃａｔｉｖｅ　５ｐｅｅｃｈ）のマスクを生起す
るように不完全パターンを認識できる性質を有している
。ＭＬＰはディー・イー・ルメルハー）　（Ｄ、　Ｅ。

Ｒｕｍｅｌｈａｒｔ　）等により記述された「エラー後
方伝搬による学習内部表現（Ｌｅａｒｎｉｎｇ　１ｎｔ
ｅｒｎａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｂｙ　ｅｒ
ｒｏｒ　ｂａｃｋ　ｐｒｏｐａｇａｔｉｏｎ）、認識科
学（Ｃｏｇｎｉｔｉｖｅ　５ｃｉｅｎｃｅ　）　、ＵＣ
５Ｄ、　ＩＣＳ報告第８５０６号、１９８５年９月のよ
うな態様で実現される。

パターンマツチングユニット１６は会話された語と語彙
の語との間の最良マツチングを選択する３つの異なるア
ルゴリズムを使用している。

その１つはディー・ニス・プライドル（Ｊ、　Ｓ。

Ｂｒ１ｄｌｅ）により記述された「統計モデルとテンプ
レートマツチング：自動会話認識の明らかに異なる２つ
の技術の間のいくつかの重要な関係（Ｓｔｏｃｈａｓｔ
ｉｃ　ｍｏｄｅｌ　ａｎｄ　ｔｅｍｐｌａｔｅ　ａ＋ａ
ｔｃｈｉｎｇ　：ｓｏｍｅ　　ｉｍｐｏｒｔａｎｔ　　
ｒｅｌａｔｉｏｎｓ　　ｂｅｔｗｅｅｎ　　ｔｗｏ　　
ａｐｐａｒｅｎｔｌｙ　ｄｉｆｆｅｒｅｎｔ　ｔｅｃｈ
ｎｉｑｕｅｓ　ｆｏｒ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅ
ｃｈｒｅｃｏｇｎｉｔｉｏｎ　）　、音響会議録（Ｐｒ
ｏｃ、Ｉｎ５ｔ、　ｏｆＡｃｏｕｓｔｉｃｓ　）　、ウ
ィンドメアー（Ｗｉｎｄｍｅｒｅ）、１９８４年１１月
およびディー・ニス・プライドル（Ｊ、Ｓ、　Ｂｒ１ｄ
ｌｅ）等による「全語テンプレートを使用する連続接続
語認識（Ｃｏｎｔｉｎｕｏｕｓ　ｃｏｎｎｅｃｔｅｄｗ
ｏｒｄ　ｒｅｃｏｇｎｉｔｉｏｎ　ｕｓｉｎｇ　ｗｈｏ
ｌｅ　ｖ＜ｏｒｄ　ｔｅａＩｐｌａｔｅｓ）　Ｊ、無線
・電子工学（Ｒａｄｉｏ　ａｎｄ　Ｅｌｅｃｔｒｏｎｉ
ｃ　Ｅｎｇｉｎｅｅｒ）、第３巻、第４号、１９８３年
４月のような種類の非対称ＤＴＷアルゴリ、ズムである
。これは実時間音声認識に特に適している効率のよい単
一パスプロセス（ｓｉｎｇｌｅ　ｐａｓｓ　ｐｒｏｃｅ
ｓｓ　）である。このアルゴリズムはユニッ）１５によ
り実現された雑音補償技術で効率よく作用する。

第２のアルゴリズムはヒドンセミマルコフモデル技術（
０３ＭＭ　：　Ｈｉｄｄｅｎ　５ｅａｔ　Ｍａｒｋｏｖ
　Ｍｏｄｅｌｔｅｃｈｎｉｑｕｅ　）を使用し、ここで
上述の語霊メモリ１７内に含まれたマルコフモデルは会
話された語信号と比較される。会話された語の時間変動
と抑揚変動についてのマルコフモデルの追加情報はパタ
ーンマツチングの間の認識性能を増大する。実際に、Ｄ
Ｔ−およびＨＳＭＭアルゴリズムはお互いに統合されて
いる。統合されたＤＴＷ技術と１５ＭＭ技術は連続スピ
ーチの隣接語間の境界の識別を可能にする。

第３のアルゴリズムは神経網２０と共にＮＬＰ技術を使
用している。ＭＬＰはＤＴＷ　／ＨＳＭＭアルゴリズム
により制御され、ＮＬＰはパターンマツチングユニット
１６内め（示されていない）スピーチバッファーを見る
可変窓を有し、この窓の大きさと位置はＤＴＷ／Ｈ５Ｍ
Ｍアルゴリズムによって決定されている。

このようにして、ＨＳＭＭアルゴリズムは語境界あるい
は端点の識別にＭＬＰにより使用され、かつスペクトル
時間セグメントあるいは語候補はＭＬＰにより処理でき
る。各アルゴリズムは信顛性測度と共にスピーチに最も
近いアルゴリズムによって識別された語彙メモリで語を
表示することによりスピーチ信号のその説明（ｅｘｐｌ
ａｎａｔｉｏｎ　）を示す信号を与える。いくつかの語
のリストはそれらの関連信顧性測度を持つ各アルゴリズ
ムによって生成できる。ユニット１６内のより高いレベ
ルのソフトウェア−は各アルゴリズムにより達成された
独立の結果を比較し、かつフィードバックデバイス３お
よび任意の加重の後のこれらの結果に基づく利用デバイ
ス４に出力を生成する。

このようにして、本発明の装置は以前には可能でなかっ
た自然連続スピーチの認識に神経網技術を使用すること
を可能にする０本発明の装置と方法の１つの利点はそれ
が短い応答時間を有し、かつ会話者に迅速なフィードバ
ックを与えることである。これは特に航空機への適用に
重要である。

代案のアルゴリズムが使用できることが評価され、それ
は神経網技術を使用する第２のアルゴリズムに従って語
境界を識別することのできる１つのアルゴリズムを与え
ることのみが必要である。

神経網アルゴリズムは各語に使用する必要は無い、いく
つかの装置ではその信鎖性の測度があるレベルの上にあ
る限りマルコフアルゴリズムのみが出力を与えるようそ
れが配列されよう、異なる語が会話される場合、あるい
は明瞭に会話されるか、あるいは高い背景雑音を持つ場
合に、信幀性の測度は落ち、かつ装置は独立意見（１ｎ
ｄｅｐｅｎｄｅｎｔｏｐｉｎｉｏｎ　）の神経網アルゴ
リズムを考慮する。

記述されたユニットにより遂行された機能が１つあるい
はそれ以上のコンピューターのプログラミングにより遂
行でき、かつ上に規定された離散ユニットにより実行さ
れる必要の無いことが評価されよう。

本装置は多くの適用に使用できるが、しかし機械と輸送
機関の制御、特に固定翼と回転翼航空機の制御のように
高い雑音環境での使用に特に適している。

【図面の簡単な説明】

第１図は本発明の音声認識装置の一実施例を示している
。１・・・音声認識装置　　２・・・マイクロホン３・・
・フィードバックデバイス４・・・利用デバイス　　１０・・・前置増幅器１１・
・・プリエンファシス段１２・・・スイッチ１３・・・アナログ対ディジタル変換器１４・・・ディ
ジ久ルフィルタバンク１５・・・雑音マーキングユニット１６・・・パターンマツチングユニット１７・・・語彙
メモリ１８・・・シンタックスユニット２０・・・神経網ユニット

Claims

【特許請求の範囲】１、スピーチ信号の第１分析が異なる語の間の境界を識
別し、かつ蓄積語彙との比較によって会話された語の第
１表示を与えるよう実行される種類の音声認識方法にお
いて、該方法が会話された語の第２表示を与えるために神経網
技術と第１分析からの語境界識別を使用してスピーチ信
号の第２分析を実行し、かつ少なくとも第２表示から会
話された語を表す出力信号を与えるステップを含むこと
を特徴とする方法。２、第１分析がマルコフモデルを使用して実行されるこ
とを特徴とする請求項１に記載の方法。３、語彙がダイナミック時間ワーピングテンプレートを
含むことを特徴とする請求項１あるいは２に記載の方法
。４、第１分析が非対称ダイナミック時間ワーピングアル
ゴリズムを使用して実行されることを特徴とする請求項
３に記載の方法。５、第１分析が複数の異なるアルゴリズムを利用して実
行され、各アルゴリズムは表示された語が会話された語
であることの信頼性の表示と共にスピーチ信号に最も近
い語彙メモリの語を示す信号を与え、かつ異なるアルゴ
リズムにより与えられた信号間で比較が行われることを
特徴とする請求項１から４のいずれか１つに記載の方法
。６、会話された語の第１表示が信頼性の測度を与え、か
つ信頼性の測度が所定の値より大きい場合に出力信号が
第１表示のみに応答するよう備えられていることを特徴
とする請求項１から５のいずれか１つに記載の方法。７、第２分析が神経網と共に多層パーセプトロン技術を
使用して実行されることを特徴とする請求項１から６の
いずれか１つに記載の方法。８、出力信号が会話された語の会話者にフィードバック
を与えるよう利用されることを特徴とする請求項１から
７のいずれか１つに記載の方法。９、該方法がスピーチ信号に雑音マーキングアルゴリズ
ムを実行するステップを含むことを特徴とする請求項１
から８のいずれか１つに記載の方法。１０、該方法が以前に識別された語のシンタックスに従
って蓄積語彙にシンタックス制限を実行するステップを
含むことを特徴とする請求項１から９のいずれか１つに
記載の方法。１１、音声認識装置であって、認識できる語の語彙につ
いてのスピーチ情報を含むメモリと、異なる語の間の境
界を識別しかつ会話された語の第１表示を与えるために
蓄積語彙とスピーチ信号を比較するスピーチ信号の第１
分析を実行するパターンマッチングユニットを含むもの
において、該装置が、パターンマッチングユニット（１６）と接続された神経
網ユニット（２０）を含み、該パターンマッチングユニ
ット（１６）が神経網ユニット（２０）の出力と第１分
析からの語境界識別の双方を利用するスピーチ信号の第
２分析を実行し、かつパターンマッチングユニット（１６）が会話された語を
表す出力信号を少なくとも第２分析から与えること、を特徴とする音声認識装置。