JP3045510B2

JP3045510B2 - 音声認識処理装置

Info

Publication number: JP3045510B2
Application number: JP1316991A
Authority: JP
Inventors: 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-12-06
Filing date: 1989-12-06
Publication date: 2000-05-29
Anticipated expiration: 2015-05-29
Also published as: EP0431890A3; DE69032282D1; DE69032282T2; EP0431890A2; EP0431890B1; US5257314A; JPH03177899A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、入力される音声信号の表す単語情報を実時
間で認識する音声認識処理装置に関し、特に、非常に多
くの単語情報をオペレータに違和感を与えることなく実
時間で認識できるようにする音声認識処理装置に関する
ものである。

近年、音声による文書の作成処理や音声による商品名
の入力処理等といったように、産業界の様々な分野で発
声された音声の表す単語を実時間で認識して出力してい
く音声認識処理装置が用いられるようになってきてい
る。このような音声認識処理装置では、より多くの単語
を認識対象とする要求が強まりつつあるので、この要求
に対応できるための手段を講じていく必要がある。

〔従来の技術〕

音声認識処理装置では、認識対象となる単語の特徴時
系列データ（スペクトルの時系列データ等）を管理する
単語辞書を用意するとともに、処理対象の音声信号の音
声区間を検出して該音声区間の音声信号の特徴時系列デ
ータを検出するよう構成し、この検出された音声信号の
特徴時系列データと単語辞書に管理される特徴時系列デ
ータとの間の類似性を類似度や確率や距離等に従って評
価して、上位の高い類似性をもつ１つ又は複数の単語情
報を認識結果として出力するという構成を採ることにな
る。ここで、類似度や確率で類似性を評価するときには
その値が大きい程類似性が高くなり、距離で類似性を評
価するときにはその値が小さい程類似性が高くなること
になる。

ここで実行される音声区間の検出処理は、具体的に
は、音声信号のパワーがある判定レベル値以上に入るこ
とを検出することで音声区間の始端を検出するととも
に、ある判定レベル値以下に下がることを検出すること
で音声区間の終端候補を検出する。そして、音声信号の
パワーのレベルがこの終端候補に続いて所定時間（通
常、0.3秒程度に設定される）の間判定レベル値以下に
あることを検出することで音声区間の終端を検出すると
ともに、この所定時間内に音声信号のパワーのレベルが
再び判定レベル値に上昇してしまう場合には、それまで
の音声区間が継続しているものと判断して検出した終端
候補を取り消していくことで、音声区間の終端の検出を
実行することになる。

第７図に、この音声区間の検出処理機能の状態遷移図
を図示する。図中、“S0"が無音声区間の状態、“S1"が
有音声区間の状態、“S2"が終端判定区間の状態を示し
ている。音声区間の検出処理は状態“S0"からスタート
する。この状態“S0"では音声パワーが閾値P_thを越える
かどうかを監視しており、越えると状態“S1"に遷移す
る。このときの遷移時刻ｉが音声区間の始端の時刻であ
り、stというレジスタに格納される。状態“S1"では、
音声パワーが閾値P_thを下回るかどうかを監視してお
り、下回ると状態“S2"に遷移する。このときの遷移時
刻ｉが終端候補の時刻であり、etmpというレジスタに格
納される。状態“S2"では閾値時間L_th（これが上述の0.
3秒である）内に音声パワーが閾値P_thを越えるかどうか
を監視することで、無声破裂音や破裂音の前の促進が単
語中にあることに基づく一時的な音声パワーの低下であ
るのかどうかを監視しており、音声パワーが閾値時間L
_th内に閾値P_thを越えるときには一時的な音声パワーの
低下であったと判断して状態“S1"に戻るべく遷移す
る。このとき、レジスタetmpがクリアされることで終端
候補が取り消される。そして、更に、状態“S2"ではこ
の状態が閾値時間L_th継続するかどうかを監視すること
で、検出された終端候補が終端として確定するかどうか
を監視しており、閾値時間L_thの間継続するときには音
声区間が終了したと判断して状態“S0"に遷移する。こ
のときの遷移時刻ｉが音声区間の終端の時刻として決定
される。第８図に、音声パワーの時間経過に従って変化
するこの状態遷移の一例を図示する。

従来の音声認識処理装置では、音声区間の終端候補が
検出されることで仮の音声区間が検出されると、その仮
の音声区間の特徴時系列データと単語辞書に管理される
特徴時系列データとの間の類似性を表現する値の算出処
理（以下、類似度に従う例で説明する）に入るととも
に、この算出処理と並行して認識対象の単語を算出され
る類似度の大きさの順に従って並び変えるソーティング
処理を実行していくことで、認識対象の単語との間の類
似度を評価する処理を実行する。そして、この評価処理
の終了後に検出されることになる音声区間の終端の検出
時点において、上位の大きい類似度をもつ１つ又は複数
の単語情報を認識結果として表示してオペレータに通知
していくとともに、オペレータがこの表示中に発声した
単語に対応する単語情報を見出せないときには、用意さ
れる候補選択スイッチを押させるよう指示して、この指
示に応じてオペレータがその候補選択スイッチを押して
いることを検出するときには、次順位に大きい類似度を
もつ１つ又は複数の単語情報を認識結果として表示して
いくことで認識処理を実行するよう構成していた。な
お、終端候補が取り消されることになる場合には、求め
られている類似度はすべてキャンセルされるよう処理さ
れることになる。

第９図は、この従来の音声認識処理装置が実行するタ
イムチャートを図示する。ここで、図中のは状態“S
1"から状態“S2"に遷移したときに発生される音声区間
の終端候補の検出信号を表し、は状態“S2"から状態
“S1"に遷移したときに発生される終端候補の取消信号
を表し、は状態“S0"から状態“S1"に遷移したときに
検出される始端と、状態“S2"から状態“S0"に遷移した
ときに検出される終端確定とによる区切られる音声区間
の検出信号を表し、は終端候補の検出に同期して実行
される類似度の算出処理の実行状態を表す照合信号を表
し、はこの算出処理に同期して実行される単語のソー
ティング処理の実行状態を表すソーティング信号を表
し、は認識結果の単語情報の表示処理の実行状態を表
す表示信号を表し、は候補選択スイッチのオン・オフ
状態を表すスイッチ信号を表している。

〔発明が解決しようとする課題〕

しかしながら、このような従来技術では、認識対象と
なる単語数、すなわち単語辞書に管理される単語数が例
えば１千単語程度のオーダーの場合には、音声区間の終
端候補の検出からその終端候補の終端としての確定まで
に要する時間である0.3秒程度の時間内に、すべての単
語についての類似度を計算できることになることから何
ら問題は起こらないものの、認識対象の単語数が数万単
語程度のオーダーとなると、すべての単語についての類
似度を計算できるまでに数秒〜数十秒程度の時間がかか
ることになり、これがために、音声区間の終端時点では
認識結果を表示することができないという問題点があっ
た。すなわち、従来技術では、認識対象の単語数が超大
語彙になると、第10図に示すように、音声区間の終端が
検出されてから数秒〜数十秒程度も経過してからようや
く認識結果の単語情報が表示されることになるという問
題点があった。この問題点は認識対象の単語数が増えれ
ば増える程大きな問題となることになる。ここで、図中
のないしは、第９図に示したものと同じ信号を表し
ている。

このように、従来技術では、認識対象の単語数が超大
語彙になると、実用的な実時間の音声認識処理装置を構
成できないという問題点があったのである。これを解決
するために、ハードウェアを並列構成すること等で類似
度や距離の計算時間を短縮していく方法を採ることも考
えられるが、この方法を採ると膨大なハードウェアを用
意しなくてはならないという別の問題点をもたらすこと
になる。

本発明はかかる事情に鑑みてなされたものであって、
マンマシン・インタフェース機能の改善を図ることで、
非常に多くの単語情報をハードウェアの増加を招くこと
なく、かつオペレータに違和感を与えることなく実時間
で認識できるようにする新たな音声認識処理装置の提供
を目的とするものである。

〔課題を解決するための手段〕

第１図は本発明の原理構成図である。

図中、１は本発明を具備する音声認識処理装置本体で
あって、発声された音声信号に対応する単語を認識して
出力するもの、２は単語辞書であって、認識対象の単語
とその単語のもつ特徴時系列データとを単語番号を付し
て好ましくは使用頻度の大きい順に管理するもの、３は
マイクロフォンであって、音声認識処理装置本体１に電
気信号に変換された音声信号を入力するもの、４は表示
装置であって、認識された単語を表示するもの、５は検
索要求手段であって、音声認識処理装置本体１に対して
表示装置４上に次順位の認識結果の単語を表示するよう
要求するもの、10は音響処理部であって、入力される音
声信号の特徴時系列データを算出するとともに、該音声
信号のパワー値を算出するもの、11は音声区間検出部で
あって、音声信号のもつパワー値に従って音声区間を検
出するもの、12は照合部であって、検出された音声区間
により抽出される音声信号の特徴時系列データと単語辞
書２の特徴時系列データとを照合することで、入力され
る音声信号と認識対象の単語との間の類似性を評価する
もの、13はソーティング部であって、評価された類似性
に従い類似性の高い順に従って認識対象の単語の単語番
号をソーティングするもの、14は一時メモリであって、
ソーティング結果をメモリするもの、15は認識単語出力
部であって、認識結果の１つ又は複数の単語を表示装置
４に出力するもの、16は認識単語出力部15を構成する出
力単語検索部であって、一時メモリ14のメモリデータを
参照することで出力すべき単語を検索するもの、17は認
識単語出力部15を構成する検索起動部であって、出力単
語検索部16に対して検索処理の起動を要求するもの、18
は認識単語出力部15を構成する出力単語管理部であっ
て、既に認識結果として出力された同一の音声信号に関
しての単語情報を管理もの、19は認識単語出力部15を構
成する単語出力部であって、出力単語検索部16により検
索された出力対象の単語を表示装置４に出力するもので
ある。

〔作用〕

本発明では、オペレータがマイクロフォン３に対して
発声することで音声信号が入力されると、音響処理部10
は、入力されてきた音声信号の特徴時系列データを算出
して照合部12に通知するとともに、その音声信号のパワ
ーを検出して音声区間検出部11に通知するよう処理す
る。この通知を受けて、音声区間検出部11が音声信号の
パワーが判定レベル値以上に入ることで音声区間の始端
を検出した後に判定レベル値以下に下がることで音声区
間の終端候補を検出すると、照合部12は、入力されてく
る特徴時系列データからその始端と終端候補との間の音
声区間により区切られる特徴時系列データを抽出すると
ともに、単語辞書２の管理する特徴時系列データをその
単語番号とともに読み出すよう処理する。

続いて、照合部12は、抽出した特徴時系列データと読
み出した単語辞書２の特徴時系列データとを照合するこ
とで、単語辞書２の各単語がもつ音声信号との間の類似
性を評価する処理を実行する。そして、ソーティング部
13は、この照合部12の照合処理を受けて、評価された類
似性の高い順に従って読み出した単語番号をソーティン
グして一時メモリ14に格納していく処理を実行する。こ
の処理時にあって、音声区間検出部11が例えば0.3秒経
過する前に音声信号のパワーが判定レベル値以上に転ず
ることで検出した終端候補が本来の音声区間の終端でな
いことを検出すると、照合部12は類似性を評価するため
の照合処理を中止するとともに、ソーティング部13はソ
ーティング処理を中止してそれまでに実行されたソーテ
ィング結果をクリアするよう処理する。

音声区間検出部11が終端候補から所定時間の間音声信
号のパワー値が判定レベル値以下にあることで音声区間
の終端を検出すると、検索起動部17は、出力単語検索部
16に対して一時メモリ14の検索処理の起動を要求する。
ここで、この音声区間の終端が検出されるときにあって
も、照合部12は類似性の評価処理を実行し続けるととも
に、ソーティング部13は単語番号のソーティング処理を
実行し続けるよう処理する。検索起動部17から起動要求
を受け取ると、出力単語検索部16は、一時メモリ14を参
照することでその時点までに求められている上位の高い
類似性をもつ１つ又は複数の単語の単語番号を特定し、
単語出力部19は、この特定された単語番号の単語を単語
辞書２から読み出して表示装置４に出力する。そして、
出力単語検索部16は、この出力された単語番号を出力単
語管理部18に登録する処理を実行する。

この認識結果の表示に対して、発声した単語が表示装
置４上に表示されないときには、オペレータは、検索要
求手段５に従って次の認識結果の単語を表示するよう要
求する。この検索要求手段５からの検索指示を受け取る
と、検索起動部17は、音声区間の終端の検出時と同様に
出力単語検索部16に対して一時メモリ14の検索処理の起
動を要求する。そして、この起動要求を受け取ると、出
力単語検索部16は、一時メモリ14を参照することで、そ
の時点までに求められている上位の高い類似性をもつ１
つ又は複数の単語の単語番号を特定するとともに、この
単語番号の内の出力単語管理部18に管理されていない単
語番号を特定することで既出力の単語を除いたものを出
力すべき単語として特定し、単語出力部19は、この特定
された単語番号の単語を単語辞書２から読み出して表示
装置４に出力し、続いて、出力単語検索部16は、この出
力された単語番号を出力単語管理部18に登録する処理を
実行する。

そして、この表示にあっても発声した単語が表示装置
４上に表示されないときには、オペレータは、更に検索
要求手段５に従って、続行されている類似性の評価処理
を考慮した次の認識結果の単語を表示するよう要求して
いくことで、発声した単語を表示装置４上に表示させる
よう処理していくことになる。

このように、本発明では、認識対象の単語数が多くな
ることで音声区間の終端の検出時点ですべての単語につ
いての類似性が評価されないようなことがあっても、音
声区間の終端の検出された時点で、それまでの照合処理
により求められた類似性に従って認識結果を表示装置４
に出力していくよう処理することから、発声の数秒〜数
十秒経過後に認識結果が出力されるというような従来技
術の欠点は解消されることになる。しかも、このとき、
使用頻度の大きい順に従って単語の類似性を評価するよ
う構成することで、ほとんどの場合にあっては、この音
声区間の終端の検出時点で発声された音声信号に対して
の認識処理が実現されることになる。そして、音声区間
の終端の検出時点では評価されないような低頻度の単語
については、オペレータが検索要求手段５を操作するま
での間に類似性が評価されることになるとともに、この
新たに評価される類似性を含めたものでもって認識すべ
き単語が特定されて出力されるよう構成されることか
ら、低頻度の単語にあっても、オペレータの違和感を招
くことなく認識処理が実現されることになる。

更に、本発明では、音声区間検出部11により次の音声
信号の音声区間の始端が検出されると、照合部12は実行
中の照合処理を中止するとともに、ソーティング部13は
実行中のソーティング処理を中止して一時メモリ14に格
納されているソーティング結果をクリアする処理を実行
する。この処理により、オペレータが発声した単語が表
示装置４に表示されたことを確認して次の単語を発声し
てくることがあっても、直ちに、その入力されてくる単
語の認識処理に入れるよう構成できることになる。ここ
で、次の音声信号の入力を指示するスイッチ手段を備え
る場合には、照合部12及びソーティング部13は、このス
イッチ手段からの入力要求に応動して実行中の処理の中
止を実行するという構成を採ることも可能である。

このように、本発明によれば、マンマシン・インタフ
ェース機能の改善を図ることで、特別なハードウェアの
追加をすることなく、非常に多くの単語情報をオペレー
タに違和感を与えることなく実時間で認識できるよう構
成できることになる。

〔実施例〕

以下、実施例に従って本発明を詳細に説明する。

第２図に、本発明の一実施例を図示する。図中、第１
図で説明したものと同じものについては同一の記号で示
してある。5aは候補選択スイッチであって、第１図の検
索要求手段５に相当するもの、20はパラメータバッファ
であって、音響処理部10により算出される特徴時系列デ
ータを一時的に記憶するもの、６は頻度付単語辞書であ
って、第３図に示すように、認識対象の単語の単語読み
ラベル、特徴時系列データ、単語番号及び使用頻度を例
えばアイウエオ順等の昇順に従って管理するもの、７は
単語辞書ソーティング部であって、頻度付単語辞書６の
管理データを使用頻度の大きい順にソーティングして、
そのソーティングの順番に従って単語辞書２に対して認
識対象の単語の単語読みラベル、特徴時系列データ及び
単語番号を登録するものである。例えば、頻度付単語辞
書６が第３図に示す管理データを管理するときには、単
語辞書ソーティング部７は、第４図に示す単語の順番に
従って認識対象の単語の単語読みラベル特徴時系列デー
タ及び単語番号を単語辞書２に登録する処理を実行す
る。これから、単語辞書ソーティング部７が動作する
と、単語辞書２は、第５図に示すように、使用頻度の大
きい順にソーティングされた認識対象の単語の単語読み
ラベル、特徴時系列データ及び単語番号を管理すること
になる。

音響処理部10は、第１図でも説明したように、入力さ
れる音声信号の特徴時系列データを算出するとともに、
該音声信号のパワー値を算出するよう処理するものであ
る。より具体的に説明するならば、数ミリ秒から数十ミ
リ秒の間隔に従って音声信号のパワー値の算出処理とス
ペクトル分析処理を実行することで、音声信号のパワー
値とスペクトルの特徴時系列データとを算出するもので
ある。スペクトル分析は、従来から用いられているアナ
ログフィルタバンクによる方式、ディジタルフィルタバ
ンクによる方式、高速フーリエ変換による方式等を適用
することで実行される。このようにして算出されたパワ
ー値は音声区間検出部11に出力されることになるととも
に、特徴時系列データはパラメータバッファ20を介して
照合部12に出力されることになる。

音声区間検出部11は、従来の音声認識処理装置の備え
る音声区間検出部と同様に、第７図に説明した状態遷移
処理を実行して音声区間の始端、終端候補、終端候補取
消及び終端を検出するもので、音声区間の始端を検出す
るときには照合部12に対して始端の検出信号を通知し、
音声区間の終端候補を検出するときには照合部12に対し
て終端候補の検出信号を通知し、音声区間の終端候補取
消を検出するときには、照合部12及びソーティング部13
に対して終端候補の取消信号を通知し、音声区間の終端
を検出するときには、認識単語出力部15に対して終端の
検出信号を通知するよう処理することになる。この音声
区間検出部11には、これらの信号の生成のために、第７
図の状態遷移図で説明したところの閾値P_th及びL_thが外
部から設定されるよう構成される。

そして、照合部12は、第１図でも説明したように、音
声区間検出部11で検出される音声区間により抽出される
音声信号の特徴時系列データと単語辞書２の管理する特
徴時系列データとから距離や類似度等を算出すること
で、入力される音声信号と認識対象の単語との間の類似
性を評価するよう処理するものである。例えば動的計画
法等に従って類似性を評価することになる。

次に、第６図のタイムチャートを参照しつつ、このよ
うに構成される本発明の実施例の動作処理について詳細
に説明する。ここで、以下の説明にあっては、説明の便
宜上、音声信号の特徴時系列データと単語辞書２の管理
する特徴時系列データとの間の類似性の評価処理は類似
度に従って実行することを想定している。また、第９図
と同様に、第６図中のは音声区間の終端候補の検出信
号を表し、は終端候補の取消信号を表し、は始端と
終端確定とにより区切られる音声区間の検出信号（認識
単語出力部15に通知される終端確定信号となる）を表
し、は類似度の算出処理の実行状態を表す照合信号を
表し、はソーティング処理の実行状態を表すソーティ
ング信号を表し、は認識された単語情報の表示処理の
実行状態を表す表示信号を表し、は候補選択スイッチ
5aのオン・オフ状態を表すスイッチ信号を表している。

オペレータがマイクロフォン３に対して発声すること
で音声信号が入力されると、音響処理部10は、入力され
てきた音声信号のスペクトル分析を実行することで特徴
時系列データを算出してパラメータバッファ20に格納し
ていくとともに、その音声信号のパワーを計算して音声
区間検出部11に送出する処理を実行する。

この音声信号のパワーを受け取ると、音声区間検出部
11は、入力されてくる音声パワーが閾値P_thを越えるこ
とを検出することで音声区間の始端を検出するよう処理
する。そして、この音声区間の始端を検出すると、音声
区間に入ったことを表すために、認識単語出力部15に対
して送出する終端確定信号（第６図中の）をLowにリ
セットするとともに、照合部12に始端の検出信号パルス
を送出する処理を実行する。続いて、音声区間検出部11
は、音声パワーが閾値P_thを下回ることを検出すること
で音声区間の終端候補を検出するよう処理する。そし
て、この音声区間の終端候補を検出すると、仮の音声区
間が検出されたことを表すために、照合部12に終端候補
の検出信号パルス（第６図中の）を送出する処理を実
行する。

このようにして、仮の音声区間が検出されると、照合
部12は、パラメータバッファ20からその検出された仮の
音声区間の特徴時系列データを読み出し、更に、単語辞
書２に管理されている特徴時系列データをその格納順
（すなわち使用頻度の大きい単語順）に従って単語番号
とともに読み出していくとともに、第６図のに示すよ
うに、仮の音声区間の特徴時系列データと読み出してい
く単語辞書２の特徴時系列データとの間の類似度を算出
していくよう処理する。そして、ソーティング部13は、
この算出されていく類似度に従って、第６図のに示す
ように、類似度の大きい順に類似度の求められた単語の
単語番号をソーティングして一時メモリ14に格納してい
くよう処理する。この処理時にあって、音声区間検出部
11が閾値L_thの時間経過する前に音声信号のパワーか閾
値P_thを越えることで検出した終端候補が本来の音声区
間の終端でないことを検出すると、第６図のに示すよ
うに、照合部12及びソーティング部13に終端候補の取消
信号パルス（第６図中の）を送出する処理を実行する
ことで、照合部12の類似度の算出処理を中止させるとと
もに、ソーティング部13のソーティング処理を中止させ
てそれまでに実行されたソーティング結果をクリアさせ
るよう処理する。

音声区間検出部11が終端候補から閾値L_thの時間の間
音声信号のパワーが閾値P_th以下にあることで音声区間
の終端を検出すると、音声区間検出部11は、認識単語出
力部15に送出する終端確定信号（第６図中の）をHigh
にセットする。この終端確定信号の立ち上がりにより、
認識単語出力部15は音声区間の終端の検出通知を受け取
ることになる。ここで、この音声区間の終端が検出され
るときにあっても、単語辞書２に格納される単語数が多
いので類似度の算出処理は継続して実行されている。こ
のようにして、音声区間の終端の検出信号を受け取る
と、認識単語出力部15は、一時メモリ14を参照すること
でその時点までに求められている例えば１位から20位ま
での大きな類似度をもつ単語番号を特定するとともに、
第６図のに示すように、この特定された単語番号の単
語の単語読みラベルを単語辞書２から読み出して表示装
置４に表示するよう処理する。このようにして表示され
る単語読みラベルは、使用頻度の大きい単語の中から認
識されることから、ほとんどの場合、この音声区間の検
出時点での認識処理に従って発声された音声信号の単語
読みラベルが表示装置４に表示されることになる。

この認識結果の表示に対して、発声した単語の単語読
みラベルが表示されないときには、オペレータは、第６
図のに示すように候補選択スイッチ5aをオンする。こ
の候補選択スイッチ5aのオン操作は表示内容の確認を伴
うことから通常数秒要することになる。このようにし
て、音声区間の終端の検出時点から数秒経過して候補選
択スイッチ5aがオンされると、認識単語出力部15は、一
時メモリ14を参照することでその時点までに求められて
いる上位の大きな類似度をもつ単語番号であって既に出
力されたものを除く単語番号を例えば20個特定するとと
もに、第６図のに示すように、この特定された単語番
号の単語の単語読みラベルを単語辞書２から読み出して
表示装置４に表示するよう処理する。

そして、この表示にあっても発声した単語が表示され
ないときには、オペレータは更に候補選択スイッチ5aを
オンし、認識単語出力部15は、このオン処理に対応して
同様の処理を繰り返していくことで、オペレータの発声
した単語の単語読みラベルを表示装置４上に表示させる
よう処理していくことになる。

このように、本発明では、使用頻度の大きい順に従っ
て認識対象の単語のもつ類似性を算出していくととも
に、音声区間の検出時点と要求のある時点において、そ
の時点までに求められた類似度に従って認識結果を出力
していくよう処理することから、高頻度の単語にあって
は音声区間の検出時点で認識されるようになるととも
に、低頻度の単語の単語にあってもオペレータの違和感
を招くことなく認識処理が実現されるようになる。

このように、本発明では、超大語彙の単語を認識対象
として扱うことから、音声区間の終端確定時点において
も類似度の算出処理を続行していく構成が採られること
になる。一方、上述したように、本発明によればほとん
どの場合音声区間の終端確定時点で認識が終了すること
になる。これから、本発明では、発声した単語読みラベ
ルが表示されたことを確認することで、オペレータが続
けて次の発声を行うことがあることを考慮して、音声区
間検出部11が類似度の算出処理中に音声区間の始端を検
出するときには、照合部12は実行中の類似度の算出処理
を直ちに中止するとともに、ソーティング部13もまた実
行中のソーティング処理を直ちに中止して一時メモリ14
に格納されているソーティング結果をクリアする処理を
実行するよう処理する構成を採る。これにより、次から
次にと発声されてくる音声情報の認識処理を迅速に実行
できるようになる。ここで、次の音声信号の入力を指示
するスイッチ手段を備える場合には、このスイッチ手段
のオン・オフモードを検出することで同様の処理に入る
よう構成することを可能である。

〔発明の効果〕

以上説明したように、本発明によれば、10万語以上と
いうような超大語彙を実時間で認識できる音声認識処理
装置を膨大なハードウェアを用いることなしに、かつ良
好なマンマシン・インタフェースを確保しつつ実現でき
るようになる。そして、高頻度の単語については、従来
通り音声区間の検出時点で認識されるようになるととも
に、低頻度の単語についても認識対象とすることができ
ることから、認識率の高い実用的な音声認識処理装置を
提供できるようになるのである。

【図面の簡単な説明】

第１図は本発明の原理構成図、第２図は本発明の一実施例、第３図は頻度付単語辞書の管理データの説明図、第４図は単語辞書ソーティング部の処理内容の説明図、第５図は単語辞書の管理データの説明図、第６図は本発明の処理を説明する説明図、第７図は音声認識処理装置が実行する音声区間検出処理
機能の状態遷移図、第８図は音声区間検出処理機能の状態遷移の一例、第９図は従来技術の説明図、第10図は従来技術の問題点を説明する説明図である。図中、１は音声認識処理装置本体、２は単語辞書、３は
マイクロフォン、４は表示装置、５は検索要求手段、5a
は候補選択スイッチ、６は頻度付単語辞書、７は単語辞
書ソーティング部、10は音響処理部、11は音声区間検出
部、12は照合部、13はソーティング部、14は一時メモ
リ、15は認識単語出力部、16は出力単語検索部、17は検
索起動部、18は出力単語管理部、19は単語出力部、20は
パラメータバッファである。

フロントページの続き (56)参考文献特開昭63−186298（ＪＰ，Ａ) 特開昭62−119597（ＪＰ，Ａ) 特公昭61−23560（ＪＰ，Ｂ２) 特公昭61−18199（ＪＰ，Ｂ２) 実公昭44−5526（ＪＰ，Ｙ１) 発明協会公開技報公技番号83−118 （昭和58年発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/22 G10L 15/28

Claims

(57)【特許請求の範囲】

【請求項１】単語辞書に格納される特徴時系列データ
と、認識対象の音声信号の特徴時系列データとを照合
し、その照合結果に従って、上位の高い類似度を持つ１
つ又は複数の単語を出力する音声認識処理装置におい
て、音声信号の特徴を示す値に従って、音声区間の始端と終
端候補とを検出するとともに、該音声信号の特徴を示す
値と該終端候補からの時間経過とに従って、該終端候補
をキャンセルするか終端として確定させるかを決定する
ことで音声区間を検出する検出手段と、上記検出手段により音声区間の終端候補が検出されると
きに、該音声区間の指定する特徴時系列データを認識対
象として、単語辞書との照合処理に入ることで照合結果
の単語を得るとともに、該終端候補がキャンセルされる
ときに、該照合結果を取り消し、更に、上記検出手段に
より音声区間の終端が検出されても、単語辞書の未照合
部分について照合処理を継続する照合手段と、上記検出手段により音声区間の終端が検出されるとき
に、その時点までに上記照合手段の得る単語の中から、
上位の高い類似度を持つ１つ又は複数の単語を特定して
出力するとともに、該終端検出以降に、出力指示が発行
されるときに、その時点までに上記照合手段の得る単語
の中で、かつ、未出力の単語の中から、上位の高い類似
度を持つ１つ又は複数の単語を特定して出力する出力手
段とを備えることを、特徴とする音声認識処理装置。
【請求項２】請求項１記載の音声認識処理装置におい
て、単語辞書は、使用頻度の大きい順に単語を管理し、照合
手段は、この単語の並び順に従って照合処理を実行する
ことを、特徴とする音声認識処理装置。
【請求項３】請求項１又は２記載の音声認識処理装置に
おいて、照合手段は、新たな音声信号の入力あるいは入力要求が
あるときに、照合処理を中止することを、特徴とする音声認識処理装置。