JP3045510B2 - 音声認識処理装置 - Google Patents

音声認識処理装置

Info

Publication number
JP3045510B2
JP3045510B2 JP1316991A JP31699189A JP3045510B2 JP 3045510 B2 JP3045510 B2 JP 3045510B2 JP 1316991 A JP1316991 A JP 1316991A JP 31699189 A JP31699189 A JP 31699189A JP 3045510 B2 JP3045510 B2 JP 3045510B2
Authority
JP
Japan
Prior art keywords
word
voice
words
series data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1316991A
Other languages
English (en)
Other versions
JPH03177899A (ja
Inventor
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1316991A priority Critical patent/JP3045510B2/ja
Priority to DE69032282T priority patent/DE69032282T2/de
Priority to EP90313149A priority patent/EP0431890B1/en
Priority to US07/622,598 priority patent/US5257314A/en
Publication of JPH03177899A publication Critical patent/JPH03177899A/ja
Application granted granted Critical
Publication of JP3045510B2 publication Critical patent/JP3045510B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、入力される音声信号の表す単語情報を実時
間で認識する音声認識処理装置に関し、特に、非常に多
くの単語情報をオペレータに違和感を与えることなく実
時間で認識できるようにする音声認識処理装置に関する
ものである。
近年、音声による文書の作成処理や音声による商品名
の入力処理等といったように、産業界の様々な分野で発
声された音声の表す単語を実時間で認識して出力してい
く音声認識処理装置が用いられるようになってきてい
る。このような音声認識処理装置では、より多くの単語
を認識対象とする要求が強まりつつあるので、この要求
に対応できるための手段を講じていく必要がある。
〔従来の技術〕
音声認識処理装置では、認識対象となる単語の特徴時
系列データ(スペクトルの時系列データ等)を管理する
単語辞書を用意するとともに、処理対象の音声信号の音
声区間を検出して該音声区間の音声信号の特徴時系列デ
ータを検出するよう構成し、この検出された音声信号の
特徴時系列データと単語辞書に管理される特徴時系列デ
ータとの間の類似性を類似度や確率や距離等に従って評
価して、上位の高い類似性をもつ1つ又は複数の単語情
報を認識結果として出力するという構成を採ることにな
る。ここで、類似度や確率で類似性を評価するときには
その値が大きい程類似性が高くなり、距離で類似性を評
価するときにはその値が小さい程類似性が高くなること
になる。
ここで実行される音声区間の検出処理は、具体的に
は、音声信号のパワーがある判定レベル値以上に入るこ
とを検出することで音声区間の始端を検出するととも
に、ある判定レベル値以下に下がることを検出すること
で音声区間の終端候補を検出する。そして、音声信号の
パワーのレベルがこの終端候補に続いて所定時間(通
常、0.3秒程度に設定される)の間判定レベル値以下に
あることを検出することで音声区間の終端を検出すると
ともに、この所定時間内に音声信号のパワーのレベルが
再び判定レベル値に上昇してしまう場合には、それまで
の音声区間が継続しているものと判断して検出した終端
候補を取り消していくことで、音声区間の終端の検出を
実行することになる。
第7図に、この音声区間の検出処理機能の状態遷移図
を図示する。図中、“S0"が無音声区間の状態、“S1"が
有音声区間の状態、“S2"が終端判定区間の状態を示し
ている。音声区間の検出処理は状態“S0"からスタート
する。この状態“S0"では音声パワーが閾値Pthを越える
かどうかを監視しており、越えると状態“S1"に遷移す
る。このときの遷移時刻iが音声区間の始端の時刻であ
り、stというレジスタに格納される。状態“S1"では、
音声パワーが閾値Pthを下回るかどうかを監視してお
り、下回ると状態“S2"に遷移する。このときの遷移時
刻iが終端候補の時刻であり、etmpというレジスタに格
納される。状態“S2"では閾値時間Lth(これが上述の0.
3秒である)内に音声パワーが閾値Pthを越えるかどうか
を監視することで、無声破裂音や破裂音の前の促進が単
語中にあることに基づく一時的な音声パワーの低下であ
るのかどうかを監視しており、音声パワーが閾値時間L
th内に閾値Pthを越えるときには一時的な音声パワーの
低下であったと判断して状態“S1"に戻るべく遷移す
る。このとき、レジスタetmpがクリアされることで終端
候補が取り消される。そして、更に、状態“S2"ではこ
の状態が閾値時間Lth継続するかどうかを監視すること
で、検出された終端候補が終端として確定するかどうか
を監視しており、閾値時間Lthの間継続するときには音
声区間が終了したと判断して状態“S0"に遷移する。こ
のときの遷移時刻iが音声区間の終端の時刻として決定
される。第8図に、音声パワーの時間経過に従って変化
するこの状態遷移の一例を図示する。
従来の音声認識処理装置では、音声区間の終端候補が
検出されることで仮の音声区間が検出されると、その仮
の音声区間の特徴時系列データと単語辞書に管理される
特徴時系列データとの間の類似性を表現する値の算出処
理(以下、類似度に従う例で説明する)に入るととも
に、この算出処理と並行して認識対象の単語を算出され
る類似度の大きさの順に従って並び変えるソーティング
処理を実行していくことで、認識対象の単語との間の類
似度を評価する処理を実行する。そして、この評価処理
の終了後に検出されることになる音声区間の終端の検出
時点において、上位の大きい類似度をもつ1つ又は複数
の単語情報を認識結果として表示してオペレータに通知
していくとともに、オペレータがこの表示中に発声した
単語に対応する単語情報を見出せないときには、用意さ
れる候補選択スイッチを押させるよう指示して、この指
示に応じてオペレータがその候補選択スイッチを押して
いることを検出するときには、次順位に大きい類似度を
もつ1つ又は複数の単語情報を認識結果として表示して
いくことで認識処理を実行するよう構成していた。な
お、終端候補が取り消されることになる場合には、求め
られている類似度はすべてキャンセルされるよう処理さ
れることになる。
第9図は、この従来の音声認識処理装置が実行するタ
イムチャートを図示する。ここで、図中のは状態“S
1"から状態“S2"に遷移したときに発生される音声区間
の終端候補の検出信号を表し、は状態“S2"から状態
“S1"に遷移したときに発生される終端候補の取消信号
を表し、は状態“S0"から状態“S1"に遷移したときに
検出される始端と、状態“S2"から状態“S0"に遷移した
ときに検出される終端確定とによる区切られる音声区間
の検出信号を表し、は終端候補の検出に同期して実行
される類似度の算出処理の実行状態を表す照合信号を表
し、はこの算出処理に同期して実行される単語のソー
ティング処理の実行状態を表すソーティング信号を表
し、は認識結果の単語情報の表示処理の実行状態を表
す表示信号を表し、は候補選択スイッチのオン・オフ
状態を表すスイッチ信号を表している。
〔発明が解決しようとする課題〕
しかしながら、このような従来技術では、認識対象と
なる単語数、すなわち単語辞書に管理される単語数が例
えば1千単語程度のオーダーの場合には、音声区間の終
端候補の検出からその終端候補の終端としての確定まで
に要する時間である0.3秒程度の時間内に、すべての単
語についての類似度を計算できることになることから何
ら問題は起こらないものの、認識対象の単語数が数万単
語程度のオーダーとなると、すべての単語についての類
似度を計算できるまでに数秒〜数十秒程度の時間がかか
ることになり、これがために、音声区間の終端時点では
認識結果を表示することができないという問題点があっ
た。すなわち、従来技術では、認識対象の単語数が超大
語彙になると、第10図に示すように、音声区間の終端が
検出されてから数秒〜数十秒程度も経過してからようや
く認識結果の単語情報が表示されることになるという問
題点があった。この問題点は認識対象の単語数が増えれ
ば増える程大きな問題となることになる。ここで、図中
のないしは、第9図に示したものと同じ信号を表し
ている。
このように、従来技術では、認識対象の単語数が超大
語彙になると、実用的な実時間の音声認識処理装置を構
成できないという問題点があったのである。これを解決
するために、ハードウェアを並列構成すること等で類似
度や距離の計算時間を短縮していく方法を採ることも考
えられるが、この方法を採ると膨大なハードウェアを用
意しなくてはならないという別の問題点をもたらすこと
になる。
本発明はかかる事情に鑑みてなされたものであって、
マンマシン・インタフェース機能の改善を図ることで、
非常に多くの単語情報をハードウェアの増加を招くこと
なく、かつオペレータに違和感を与えることなく実時間
で認識できるようにする新たな音声認識処理装置の提供
を目的とするものである。
〔課題を解決するための手段〕
第1図は本発明の原理構成図である。
図中、1は本発明を具備する音声認識処理装置本体で
あって、発声された音声信号に対応する単語を認識して
出力するもの、2は単語辞書であって、認識対象の単語
とその単語のもつ特徴時系列データとを単語番号を付し
て好ましくは使用頻度の大きい順に管理するもの、3は
マイクロフォンであって、音声認識処理装置本体1に電
気信号に変換された音声信号を入力するもの、4は表示
装置であって、認識された単語を表示するもの、5は検
索要求手段であって、音声認識処理装置本体1に対して
表示装置4上に次順位の認識結果の単語を表示するよう
要求するもの、10は音響処理部であって、入力される音
声信号の特徴時系列データを算出するとともに、該音声
信号のパワー値を算出するもの、11は音声区間検出部で
あって、音声信号のもつパワー値に従って音声区間を検
出するもの、12は照合部であって、検出された音声区間
により抽出される音声信号の特徴時系列データと単語辞
書2の特徴時系列データとを照合することで、入力され
る音声信号と認識対象の単語との間の類似性を評価する
もの、13はソーティング部であって、評価された類似性
に従い類似性の高い順に従って認識対象の単語の単語番
号をソーティングするもの、14は一時メモリであって、
ソーティング結果をメモリするもの、15は認識単語出力
部であって、認識結果の1つ又は複数の単語を表示装置
4に出力するもの、16は認識単語出力部15を構成する出
力単語検索部であって、一時メモリ14のメモリデータを
参照することで出力すべき単語を検索するもの、17は認
識単語出力部15を構成する検索起動部であって、出力単
語検索部16に対して検索処理の起動を要求するもの、18
は認識単語出力部15を構成する出力単語管理部であっ
て、既に認識結果として出力された同一の音声信号に関
しての単語情報を管理もの、19は認識単語出力部15を構
成する単語出力部であって、出力単語検索部16により検
索された出力対象の単語を表示装置4に出力するもので
ある。
〔作用〕
本発明では、オペレータがマイクロフォン3に対して
発声することで音声信号が入力されると、音響処理部10
は、入力されてきた音声信号の特徴時系列データを算出
して照合部12に通知するとともに、その音声信号のパワ
ーを検出して音声区間検出部11に通知するよう処理す
る。この通知を受けて、音声区間検出部11が音声信号の
パワーが判定レベル値以上に入ることで音声区間の始端
を検出した後に判定レベル値以下に下がることで音声区
間の終端候補を検出すると、照合部12は、入力されてく
る特徴時系列データからその始端と終端候補との間の音
声区間により区切られる特徴時系列データを抽出すると
ともに、単語辞書2の管理する特徴時系列データをその
単語番号とともに読み出すよう処理する。
続いて、照合部12は、抽出した特徴時系列データと読
み出した単語辞書2の特徴時系列データとを照合するこ
とで、単語辞書2の各単語がもつ音声信号との間の類似
性を評価する処理を実行する。そして、ソーティング部
13は、この照合部12の照合処理を受けて、評価された類
似性の高い順に従って読み出した単語番号をソーティン
グして一時メモリ14に格納していく処理を実行する。こ
の処理時にあって、音声区間検出部11が例えば0.3秒経
過する前に音声信号のパワーが判定レベル値以上に転ず
ることで検出した終端候補が本来の音声区間の終端でな
いことを検出すると、照合部12は類似性を評価するため
の照合処理を中止するとともに、ソーティング部13はソ
ーティング処理を中止してそれまでに実行されたソーテ
ィング結果をクリアするよう処理する。
音声区間検出部11が終端候補から所定時間の間音声信
号のパワー値が判定レベル値以下にあることで音声区間
の終端を検出すると、検索起動部17は、出力単語検索部
16に対して一時メモリ14の検索処理の起動を要求する。
ここで、この音声区間の終端が検出されるときにあって
も、照合部12は類似性の評価処理を実行し続けるととも
に、ソーティング部13は単語番号のソーティング処理を
実行し続けるよう処理する。検索起動部17から起動要求
を受け取ると、出力単語検索部16は、一時メモリ14を参
照することでその時点までに求められている上位の高い
類似性をもつ1つ又は複数の単語の単語番号を特定し、
単語出力部19は、この特定された単語番号の単語を単語
辞書2から読み出して表示装置4に出力する。そして、
出力単語検索部16は、この出力された単語番号を出力単
語管理部18に登録する処理を実行する。
この認識結果の表示に対して、発声した単語が表示装
置4上に表示されないときには、オペレータは、検索要
求手段5に従って次の認識結果の単語を表示するよう要
求する。この検索要求手段5からの検索指示を受け取る
と、検索起動部17は、音声区間の終端の検出時と同様に
出力単語検索部16に対して一時メモリ14の検索処理の起
動を要求する。そして、この起動要求を受け取ると、出
力単語検索部16は、一時メモリ14を参照することで、そ
の時点までに求められている上位の高い類似性をもつ1
つ又は複数の単語の単語番号を特定するとともに、この
単語番号の内の出力単語管理部18に管理されていない単
語番号を特定することで既出力の単語を除いたものを出
力すべき単語として特定し、単語出力部19は、この特定
された単語番号の単語を単語辞書2から読み出して表示
装置4に出力し、続いて、出力単語検索部16は、この出
力された単語番号を出力単語管理部18に登録する処理を
実行する。
そして、この表示にあっても発声した単語が表示装置
4上に表示されないときには、オペレータは、更に検索
要求手段5に従って、続行されている類似性の評価処理
を考慮した次の認識結果の単語を表示するよう要求して
いくことで、発声した単語を表示装置4上に表示させる
よう処理していくことになる。
このように、本発明では、認識対象の単語数が多くな
ることで音声区間の終端の検出時点ですべての単語につ
いての類似性が評価されないようなことがあっても、音
声区間の終端の検出された時点で、それまでの照合処理
により求められた類似性に従って認識結果を表示装置4
に出力していくよう処理することから、発声の数秒〜数
十秒経過後に認識結果が出力されるというような従来技
術の欠点は解消されることになる。しかも、このとき、
使用頻度の大きい順に従って単語の類似性を評価するよ
う構成することで、ほとんどの場合にあっては、この音
声区間の終端の検出時点で発声された音声信号に対して
の認識処理が実現されることになる。そして、音声区間
の終端の検出時点では評価されないような低頻度の単語
については、オペレータが検索要求手段5を操作するま
での間に類似性が評価されることになるとともに、この
新たに評価される類似性を含めたものでもって認識すべ
き単語が特定されて出力されるよう構成されることか
ら、低頻度の単語にあっても、オペレータの違和感を招
くことなく認識処理が実現されることになる。
更に、本発明では、音声区間検出部11により次の音声
信号の音声区間の始端が検出されると、照合部12は実行
中の照合処理を中止するとともに、ソーティング部13は
実行中のソーティング処理を中止して一時メモリ14に格
納されているソーティング結果をクリアする処理を実行
する。この処理により、オペレータが発声した単語が表
示装置4に表示されたことを確認して次の単語を発声し
てくることがあっても、直ちに、その入力されてくる単
語の認識処理に入れるよう構成できることになる。ここ
で、次の音声信号の入力を指示するスイッチ手段を備え
る場合には、照合部12及びソーティング部13は、このス
イッチ手段からの入力要求に応動して実行中の処理の中
止を実行するという構成を採ることも可能である。
このように、本発明によれば、マンマシン・インタフ
ェース機能の改善を図ることで、特別なハードウェアの
追加をすることなく、非常に多くの単語情報をオペレー
タに違和感を与えることなく実時間で認識できるよう構
成できることになる。
〔実施例〕
以下、実施例に従って本発明を詳細に説明する。
第2図に、本発明の一実施例を図示する。図中、第1
図で説明したものと同じものについては同一の記号で示
してある。5aは候補選択スイッチであって、第1図の検
索要求手段5に相当するもの、20はパラメータバッファ
であって、音響処理部10により算出される特徴時系列デ
ータを一時的に記憶するもの、6は頻度付単語辞書であ
って、第3図に示すように、認識対象の単語の単語読み
ラベル、特徴時系列データ、単語番号及び使用頻度を例
えばアイウエオ順等の昇順に従って管理するもの、7は
単語辞書ソーティング部であって、頻度付単語辞書6の
管理データを使用頻度の大きい順にソーティングして、
そのソーティングの順番に従って単語辞書2に対して認
識対象の単語の単語読みラベル、特徴時系列データ及び
単語番号を登録するものである。例えば、頻度付単語辞
書6が第3図に示す管理データを管理するときには、単
語辞書ソーティング部7は、第4図に示す単語の順番に
従って認識対象の単語の単語読みラベル特徴時系列デー
タ及び単語番号を単語辞書2に登録する処理を実行す
る。これから、単語辞書ソーティング部7が動作する
と、単語辞書2は、第5図に示すように、使用頻度の大
きい順にソーティングされた認識対象の単語の単語読み
ラベル、特徴時系列データ及び単語番号を管理すること
になる。
音響処理部10は、第1図でも説明したように、入力さ
れる音声信号の特徴時系列データを算出するとともに、
該音声信号のパワー値を算出するよう処理するものであ
る。より具体的に説明するならば、数ミリ秒から数十ミ
リ秒の間隔に従って音声信号のパワー値の算出処理とス
ペクトル分析処理を実行することで、音声信号のパワー
値とスペクトルの特徴時系列データとを算出するもので
ある。スペクトル分析は、従来から用いられているアナ
ログフィルタバンクによる方式、ディジタルフィルタバ
ンクによる方式、高速フーリエ変換による方式等を適用
することで実行される。このようにして算出されたパワ
ー値は音声区間検出部11に出力されることになるととも
に、特徴時系列データはパラメータバッファ20を介して
照合部12に出力されることになる。
音声区間検出部11は、従来の音声認識処理装置の備え
る音声区間検出部と同様に、第7図に説明した状態遷移
処理を実行して音声区間の始端、終端候補、終端候補取
消及び終端を検出するもので、音声区間の始端を検出す
るときには照合部12に対して始端の検出信号を通知し、
音声区間の終端候補を検出するときには照合部12に対し
て終端候補の検出信号を通知し、音声区間の終端候補取
消を検出するときには、照合部12及びソーティング部13
に対して終端候補の取消信号を通知し、音声区間の終端
を検出するときには、認識単語出力部15に対して終端の
検出信号を通知するよう処理することになる。この音声
区間検出部11には、これらの信号の生成のために、第7
図の状態遷移図で説明したところの閾値Pth及びLthが外
部から設定されるよう構成される。
そして、照合部12は、第1図でも説明したように、音
声区間検出部11で検出される音声区間により抽出される
音声信号の特徴時系列データと単語辞書2の管理する特
徴時系列データとから距離や類似度等を算出すること
で、入力される音声信号と認識対象の単語との間の類似
性を評価するよう処理するものである。例えば動的計画
法等に従って類似性を評価することになる。
次に、第6図のタイムチャートを参照しつつ、このよ
うに構成される本発明の実施例の動作処理について詳細
に説明する。ここで、以下の説明にあっては、説明の便
宜上、音声信号の特徴時系列データと単語辞書2の管理
する特徴時系列データとの間の類似性の評価処理は類似
度に従って実行することを想定している。また、第9図
と同様に、第6図中のは音声区間の終端候補の検出信
号を表し、は終端候補の取消信号を表し、は始端と
終端確定とにより区切られる音声区間の検出信号(認識
単語出力部15に通知される終端確定信号となる)を表
し、は類似度の算出処理の実行状態を表す照合信号を
表し、はソーティング処理の実行状態を表すソーティ
ング信号を表し、は認識された単語情報の表示処理の
実行状態を表す表示信号を表し、は候補選択スイッチ
5aのオン・オフ状態を表すスイッチ信号を表している。
オペレータがマイクロフォン3に対して発声すること
で音声信号が入力されると、音響処理部10は、入力され
てきた音声信号のスペクトル分析を実行することで特徴
時系列データを算出してパラメータバッファ20に格納し
ていくとともに、その音声信号のパワーを計算して音声
区間検出部11に送出する処理を実行する。
この音声信号のパワーを受け取ると、音声区間検出部
11は、入力されてくる音声パワーが閾値Pthを越えるこ
とを検出することで音声区間の始端を検出するよう処理
する。そして、この音声区間の始端を検出すると、音声
区間に入ったことを表すために、認識単語出力部15に対
して送出する終端確定信号(第6図中の)をLowにリ
セットするとともに、照合部12に始端の検出信号パルス
を送出する処理を実行する。続いて、音声区間検出部11
は、音声パワーが閾値Pthを下回ることを検出すること
で音声区間の終端候補を検出するよう処理する。そし
て、この音声区間の終端候補を検出すると、仮の音声区
間が検出されたことを表すために、照合部12に終端候補
の検出信号パルス(第6図中の)を送出する処理を実
行する。
このようにして、仮の音声区間が検出されると、照合
部12は、パラメータバッファ20からその検出された仮の
音声区間の特徴時系列データを読み出し、更に、単語辞
書2に管理されている特徴時系列データをその格納順
(すなわち使用頻度の大きい単語順)に従って単語番号
とともに読み出していくとともに、第6図のに示すよ
うに、仮の音声区間の特徴時系列データと読み出してい
く単語辞書2の特徴時系列データとの間の類似度を算出
していくよう処理する。そして、ソーティング部13は、
この算出されていく類似度に従って、第6図のに示す
ように、類似度の大きい順に類似度の求められた単語の
単語番号をソーティングして一時メモリ14に格納してい
くよう処理する。この処理時にあって、音声区間検出部
11が閾値Lthの時間経過する前に音声信号のパワーか閾
値Pthを越えることで検出した終端候補が本来の音声区
間の終端でないことを検出すると、第6図のに示すよ
うに、照合部12及びソーティング部13に終端候補の取消
信号パルス(第6図中の)を送出する処理を実行する
ことで、照合部12の類似度の算出処理を中止させるとと
もに、ソーティング部13のソーティング処理を中止させ
てそれまでに実行されたソーティング結果をクリアさせ
るよう処理する。
音声区間検出部11が終端候補から閾値Lthの時間の間
音声信号のパワーが閾値Pth以下にあることで音声区間
の終端を検出すると、音声区間検出部11は、認識単語出
力部15に送出する終端確定信号(第6図中の)をHigh
にセットする。この終端確定信号の立ち上がりにより、
認識単語出力部15は音声区間の終端の検出通知を受け取
ることになる。ここで、この音声区間の終端が検出され
るときにあっても、単語辞書2に格納される単語数が多
いので類似度の算出処理は継続して実行されている。こ
のようにして、音声区間の終端の検出信号を受け取る
と、認識単語出力部15は、一時メモリ14を参照すること
でその時点までに求められている例えば1位から20位ま
での大きな類似度をもつ単語番号を特定するとともに、
第6図のに示すように、この特定された単語番号の単
語の単語読みラベルを単語辞書2から読み出して表示装
置4に表示するよう処理する。このようにして表示され
る単語読みラベルは、使用頻度の大きい単語の中から認
識されることから、ほとんどの場合、この音声区間の検
出時点での認識処理に従って発声された音声信号の単語
読みラベルが表示装置4に表示されることになる。
この認識結果の表示に対して、発声した単語の単語読
みラベルが表示されないときには、オペレータは、第6
図のに示すように候補選択スイッチ5aをオンする。こ
の候補選択スイッチ5aのオン操作は表示内容の確認を伴
うことから通常数秒要することになる。このようにし
て、音声区間の終端の検出時点から数秒経過して候補選
択スイッチ5aがオンされると、認識単語出力部15は、一
時メモリ14を参照することでその時点までに求められて
いる上位の大きな類似度をもつ単語番号であって既に出
力されたものを除く単語番号を例えば20個特定するとと
もに、第6図のに示すように、この特定された単語番
号の単語の単語読みラベルを単語辞書2から読み出して
表示装置4に表示するよう処理する。
そして、この表示にあっても発声した単語が表示され
ないときには、オペレータは更に候補選択スイッチ5aを
オンし、認識単語出力部15は、このオン処理に対応して
同様の処理を繰り返していくことで、オペレータの発声
した単語の単語読みラベルを表示装置4上に表示させる
よう処理していくことになる。
このように、本発明では、使用頻度の大きい順に従っ
て認識対象の単語のもつ類似性を算出していくととも
に、音声区間の検出時点と要求のある時点において、そ
の時点までに求められた類似度に従って認識結果を出力
していくよう処理することから、高頻度の単語にあって
は音声区間の検出時点で認識されるようになるととも
に、低頻度の単語の単語にあってもオペレータの違和感
を招くことなく認識処理が実現されるようになる。
このように、本発明では、超大語彙の単語を認識対象
として扱うことから、音声区間の終端確定時点において
も類似度の算出処理を続行していく構成が採られること
になる。一方、上述したように、本発明によればほとん
どの場合音声区間の終端確定時点で認識が終了すること
になる。これから、本発明では、発声した単語読みラベ
ルが表示されたことを確認することで、オペレータが続
けて次の発声を行うことがあることを考慮して、音声区
間検出部11が類似度の算出処理中に音声区間の始端を検
出するときには、照合部12は実行中の類似度の算出処理
を直ちに中止するとともに、ソーティング部13もまた実
行中のソーティング処理を直ちに中止して一時メモリ14
に格納されているソーティング結果をクリアする処理を
実行するよう処理する構成を採る。これにより、次から
次にと発声されてくる音声情報の認識処理を迅速に実行
できるようになる。ここで、次の音声信号の入力を指示
するスイッチ手段を備える場合には、このスイッチ手段
のオン・オフモードを検出することで同様の処理に入る
よう構成することを可能である。
〔発明の効果〕
以上説明したように、本発明によれば、10万語以上と
いうような超大語彙を実時間で認識できる音声認識処理
装置を膨大なハードウェアを用いることなしに、かつ良
好なマンマシン・インタフェースを確保しつつ実現でき
るようになる。そして、高頻度の単語については、従来
通り音声区間の検出時点で認識されるようになるととも
に、低頻度の単語についても認識対象とすることができ
ることから、認識率の高い実用的な音声認識処理装置を
提供できるようになるのである。
【図面の簡単な説明】
第1図は本発明の原理構成図、 第2図は本発明の一実施例、 第3図は頻度付単語辞書の管理データの説明図、 第4図は単語辞書ソーティング部の処理内容の説明図、 第5図は単語辞書の管理データの説明図、 第6図は本発明の処理を説明する説明図、 第7図は音声認識処理装置が実行する音声区間検出処理
機能の状態遷移図、 第8図は音声区間検出処理機能の状態遷移の一例、 第9図は従来技術の説明図、 第10図は従来技術の問題点を説明する説明図である。 図中、1は音声認識処理装置本体、2は単語辞書、3は
マイクロフォン、4は表示装置、5は検索要求手段、5a
は候補選択スイッチ、6は頻度付単語辞書、7は単語辞
書ソーティング部、10は音響処理部、11は音声区間検出
部、12は照合部、13はソーティング部、14は一時メモ
リ、15は認識単語出力部、16は出力単語検索部、17は検
索起動部、18は出力単語管理部、19は単語出力部、20は
パラメータバッファである。
フロントページの続き (56)参考文献 特開 昭63−186298(JP,A) 特開 昭62−119597(JP,A) 特公 昭61−23560(JP,B2) 特公 昭61−18199(JP,B2) 実公 昭44−5526(JP,Y1) 発明協会公開技報 公技番号83−118 (昭和58年発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/22 G10L 15/28

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】単語辞書に格納される特徴時系列データ
    と、認識対象の音声信号の特徴時系列データとを照合
    し、その照合結果に従って、上位の高い類似度を持つ1
    つ又は複数の単語を出力する音声認識処理装置におい
    て、 音声信号の特徴を示す値に従って、音声区間の始端と終
    端候補とを検出するとともに、該音声信号の特徴を示す
    値と該終端候補からの時間経過とに従って、該終端候補
    をキャンセルするか終端として確定させるかを決定する
    ことで音声区間を検出する検出手段と、 上記検出手段により音声区間の終端候補が検出されると
    きに、該音声区間の指定する特徴時系列データを認識対
    象として、単語辞書との照合処理に入ることで照合結果
    の単語を得るとともに、該終端候補がキャンセルされる
    ときに、該照合結果を取り消し、更に、上記検出手段に
    より音声区間の終端が検出されても、単語辞書の未照合
    部分について照合処理を継続する照合手段と、 上記検出手段により音声区間の終端が検出されるとき
    に、その時点までに上記照合手段の得る単語の中から、
    上位の高い類似度を持つ1つ又は複数の単語を特定して
    出力するとともに、該終端検出以降に、出力指示が発行
    されるときに、その時点までに上記照合手段の得る単語
    の中で、かつ、未出力の単語の中から、上位の高い類似
    度を持つ1つ又は複数の単語を特定して出力する出力手
    段とを備えることを、 特徴とする音声認識処理装置。
  2. 【請求項2】請求項1記載の音声認識処理装置におい
    て、 単語辞書は、使用頻度の大きい順に単語を管理し、照合
    手段は、この単語の並び順に従って照合処理を実行する
    ことを、 特徴とする音声認識処理装置。
  3. 【請求項3】請求項1又は2記載の音声認識処理装置に
    おいて、 照合手段は、新たな音声信号の入力あるいは入力要求が
    あるときに、照合処理を中止することを、 特徴とする音声認識処理装置。
JP1316991A 1989-12-06 1989-12-06 音声認識処理装置 Expired - Lifetime JP3045510B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1316991A JP3045510B2 (ja) 1989-12-06 1989-12-06 音声認識処理装置
DE69032282T DE69032282T2 (de) 1989-12-06 1990-12-04 System zur Spracherkennung
EP90313149A EP0431890B1 (en) 1989-12-06 1990-12-04 A voice recognition system
US07/622,598 US5257314A (en) 1989-12-06 1990-12-05 Voice recognition system having word frequency and intermediate result display features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1316991A JP3045510B2 (ja) 1989-12-06 1989-12-06 音声認識処理装置

Publications (2)

Publication Number Publication Date
JPH03177899A JPH03177899A (ja) 1991-08-01
JP3045510B2 true JP3045510B2 (ja) 2000-05-29

Family

ID=18083200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1316991A Expired - Lifetime JP3045510B2 (ja) 1989-12-06 1989-12-06 音声認識処理装置

Country Status (4)

Country Link
US (1) US5257314A (ja)
EP (1) EP0431890B1 (ja)
JP (1) JP3045510B2 (ja)
DE (1) DE69032282T2 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2253296B (en) * 1991-02-28 1995-05-24 Toshiba Kk Pattern recognition apparatus
WO1995020215A1 (en) * 1994-01-21 1995-07-27 Kurzweil Applied Intelligence, Inc. Text generation from spoken input
CA2143980A1 (en) * 1994-04-06 1995-10-07 Raziel Haimi-Cohen User display in speech recognition system
US6160536A (en) * 1995-03-27 2000-12-12 Forest; Donald K. Dwell time indication method and apparatus
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
US6005549A (en) * 1995-07-24 1999-12-21 Forest; Donald K. User interface method and apparatus
US5999895A (en) * 1995-07-24 1999-12-07 Forest; Donald K. Sound operated menu method and apparatus
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6208713B1 (en) * 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6385581B1 (en) 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
EP1058236B1 (en) 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
JP3530109B2 (ja) * 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
JP3715469B2 (ja) * 1999-06-30 2005-11-09 パイオニア株式会社 音声操作装置
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US20220107919A1 (en) * 2017-05-19 2022-04-07 Takashi Suzuki Computerized systems and methods of data compression
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
DE3690416C2 (de) * 1986-04-16 1990-08-16 Ricoh Kk Sprach- und Stimmenerkennungsverfahren
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
EP0302614B1 (en) * 1987-07-16 1993-03-10 Fujitsu Limited Speech recognition device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
発明協会公開技報 公技番号83−118(昭和58年発行)

Also Published As

Publication number Publication date
EP0431890A3 (en) 1992-10-28
DE69032282D1 (de) 1998-06-04
DE69032282T2 (de) 1998-08-20
EP0431890A2 (en) 1991-06-12
EP0431890B1 (en) 1998-04-29
US5257314A (en) 1993-10-26
JPH03177899A (ja) 1991-08-01

Similar Documents

Publication Publication Date Title
JP3045510B2 (ja) 音声認識処理装置
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US4910784A (en) Low cost speech recognition system and method
US4811399A (en) Apparatus and method for automatic speech recognition
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
KR100770895B1 (ko) 음성 신호 분리 시스템 및 그 방법
JPS59121100A (ja) 連続音声認識装置
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
CN110689885A (zh) 机器合成语音识别方法、装置、存储介质及电子设备
US5295190A (en) Method and apparatus for speech recognition using both low-order and high-order parameter analyzation
JPH09206291A (ja) 人の感情・状態を検出する装置
JP2996019B2 (ja) 音声認識装置
JPS6129519B2 (ja)
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JP2813209B2 (ja) 大語彙音声認識装置
JPS63186298A (ja) 単語音声認識装置
JP2001083978A (ja) 音声認識装置
JP3061292B2 (ja) アクセント句境界検出装置
JP3011421B2 (ja) 音声認識装置
TWI755328B (zh) 孩童聲音偵測系統、方法及電腦可讀媒介
JP2710045B2 (ja) 音声認識方法
JP2892004B2 (ja) 単語音声認識装置
JPH0546658A (ja) 音声認識装置
CN111477223A (zh) 焊机控制方法、装置、终端设备及计算机可读存储介质
JPH06118983A (ja) 単語音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080317

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090317

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 10