JPH06161488A

JPH06161488A - 音声認識装置

Info

Publication number: JPH06161488A
Application number: JP4330896A
Authority: JP
Inventors: Tetsuya Muroi; 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-11-17
Filing date: 1992-11-17
Publication date: 1994-06-07

Abstract

(57)【要約】【目的】スポッティングに要する時間や処理量を著し
く低減でき、効率良くかつ信頼性良く音声認識を行なう
ことができる。【構成】この音声認識装置は、発声された音声を入力
する音声入力部１と、該音声入力部１から入力された音
声中から少なくとも１つ以上のキーワードを抽出するス
ポッティング部６とを有している。また、抽出対象とし
てのキーワードが複数のグループに分類されてキ−ワ−
ド保持部４に保持されており、また、各グループの認識
順序が認識順序規則として定められて認識順序規則保持
部５に保持されている。スポッティング部６は、該認識
順序規則に従った順序でグループを認識対象語彙として
入力音声に対しスポッティングを行ない、入力音声から
キーワードを順次に抽出する。これにより、最小限のス
ポッティング回数で入力音声中からキーワードを効率良
くかつ信頼性良く抽出できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、発声された音声をワー
ドスポッティングによって認識する音声認識装置に関す
る。

【０００２】

【従来の技術】発声された音声の音声区間全体を隙間な
く（１字１句）認識するのではなく、音声をワードスポ
ッティングによって認識する手法は、不用語の付加やポ
ーズなどの問題を避けることができ、音声対話システム
や音声理解システムに向いていることが知られている。

【０００３】文献「日本音響学会講演論文集（平成４年
３月，ｐ１３９〜１４０）」には、この種のワードスポ
ッティングによって音声を認識する技術が示されてお
り、この文献の技術は、抽出対象としての全てのキーワ
ードに対してスポッティングを行なって、ワードラティ
ス（どの単語が音声区間のどこから（始端）どこまで
（終端）にスコアが何点で存在するか）を算出し、その
後キーワードの組合せを構文的に解析して、発声された
音声中のキーワードの組を認識するようになっている。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識の手法では、構文や意味などの言語的
な制約なしに、抽出対象である全てのキーワードに対し
てワードスポッティングを実行するようになっていたの
で、スポッティングに相当の計算時間を要し、また、処
理量が多く、さらには信頼性の良い認識結果を得ること
ができないという欠点があった。

【０００５】本発明は、スポッティングに要する時間や
処理量を著しく低減することができ、効率良くかつ信頼
性良く音声認識を行なうことの可能な音声認識装置を提
供することを目的としている。

【０００６】

【課題を解決するための手段および作用】上記目的を達
成するために、請求項１乃至請求項３記載の発明は、発
声された音声を入力する音声入力手段と、該音声入力手
段から入力された音声中から少なくとも１つ以上のキー
ワードを抽出するスポッティング手段とを有する音声認
識装置において、抽出対象としてのキーワードが複数の
グループに分類され、また、各グループの認識順序が認
識順序規則として定められており、前記スポッティング
手段は、該認識順序規則に従った順序でグループを認識
対象語彙として入力音声に対しスポッティングを行な
い、入力音声からキーワードを順次に抽出することを特
徴としている。これにより、最小限のスポッティング回
数で入力音声中からキーワードを効率良くかつ信頼性良
く抽出することができる。

【０００７】また、請求項４記載の発明は、入力音声中
からキーワードを抽出する際に、上記スポッティング手
段が、すでにスポッティング抽出のなされたキーワード
の存在する音声区間を除外した音声区間をスポッティン
グすべき音声区間の範囲とすることを特徴としている。
これにより、スポッティングを行なう領域を狭くするこ
とができ、キーワードをより効率良くかつ信頼性良く抽
出することができて、認識効率をより向上させることが
できる。

【０００８】また、請求項５乃至請求項７記載の発明
は、上記認識順序規則に従ってグループを認識対象語彙
としてスポッティングを行なった際、抽出されたキーワ
ードのスコアが予め定められた閾値以下であった場合に
は、使用者に所定のメッセージを出力するメッセージ出
力手段がさらに設けられていることを特徴としている。
これにより、使用者との間で対話を進め、正しい認識を
行なうことができる。

【０００９】また、請求項８記載の発明は、上記複数の
グループの少なくとも１つのグループに、前回の認識結
果が誤まりであることを示すキーワードが含まれている
ことを特徴としている。これにより、認識効率をより向
上させることができる。

【００１０】また、請求項９記載の発明は、上記複数の
グループの少なくとも１つのグループに、対話を中断し
てやり直すことを示すキーワードが含まれていることを
特徴としている。これにより、使用者が対話を中断する
ためのキーワード，例えば「エスケープ」を発声した場
合には、最初に機能語のグループのスポッティングを行
なって、「エスケープ」が抽出された時点で即座に認識
装置の状態を最初に戻すので、無駄なスポッティングを
行なうことがなく、効率の良い処理を行なうことができ
る。

【００１１】

【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図１は本発明に係る音声認識装置の一実施例の
ブロック図である。図１を参照すると、この音声認識装
置は、音声を入力するマイクロフォンや受話器などの音
声入力部１と、入力された音声を特徴ベクトルの時系列
に変換する特徴抽出部２と、特徴抽出結果に基づき音韻
や音節，ＶＣＶ（母音−子音−母音）などの音声の基本
単位を認識する基本単位認識部３と、ワードスポッティ
ングを行なうためのキーワードが複数のグループに分類
されて格納されているキーワード保持部４と、複数のグ
ループに対する認識順序規則が保持されている認識順序
規則保持部５と、認識順序規則保持部５に保持されてい
る認識順序規則に従いグループを選択し、このグループ
に属するキーワードをキーワード保持部４から抽出する
スポッティング部６と、メッセージが保持されているメ
ッセージ保持部７と、スポッティング部６の抽出結果に
応じて、メッセージ保持部７から所定のメッセージを取
り出し、出力するメッセージ出力部８とを有している。

【００１２】図２はキーワード保持部４の具体的な構成
例を示す図である。この例では、キーワード保持部４
は、同種類の意味を持つキーワードを１つのグループに
まとめ、各グループごとにキーワードを保持するように
なっている。より具体的には、用件，人物，場所，日
付，時間を表わすキーワードをそれぞれ１つのグループ
にしている。また、このキーワード保持部４には、対話
をやり直すことを示す言葉や前回の認識結果が誤ってい
ることを示す言葉の集合である機能語を表わすキーワー
ド［エスケープ」，「違います」，「誤認識していま
す」も１つのグループにして保持されている。なお、
「エスケープ」は、対話を中断してやり直すことを示す
キーワードであり、また、「違います」，「誤認識して
います」は、前回の認識結果が誤まりであることを示す
キーワードである。

【００１３】図３には、「時間」のグループに属するキ
ーワードの保持例が示されており、この例では、「１時
半」，「２時半」，「３時半」等の時間についてのキー
ワードが、音声の基本単位として音節をアークとする１
つのオートマトンで記述され、保持されている。

【００１４】また、図４は認識順序規則保持部５の具体
的な構成例を示す図である。この例では、認識順序規則
保持部５には、キーワードごとに認識順序規則が記述さ
れている。すなわち、認識すべき音声が第１回目（すな
わち最初）の発声であれば、「用件」を最初にスポッテ
ィングし、第１回目の発声以外の発声（例えば第２回目
の発声）であれば「機能語」をスポッティングするよう
な認識順序規則が保持されており、また、「用件」を示
すキーワード（会議，年休）ごとに、次以降、どのグル
ープをスポッティングすべきかの認識順序規則が保持さ
れている。例えば、「会議」のキーワードでは、「場
所」の次に「日付」，「日付」の次に「時間」というよ
うな順序規則が保持されている。スポッティング部６で
は、このような順序規則に従ってグループを特定し、そ
のグループを認識対象語彙としてスポッティングを行な
い（例えばそのグループ内のオートマトンを認識対象と
してスポッティングを行ない）、所定のキーワードを抽
出するようになっている。また、この際、スポッティン
グ部６は、すでにスポッティングされたキーワードの存
在する区間を除外した音声区間をスポッティングすべき
音声区間の範囲とするようになっている。なお、ここ
で、「順序」とは、上述の説明からもわかるように、入
力音声中に出現するキーワードの時間的位置のことでは
なく、音声認識装置が入力音声に対して、スポッティン
グを試みる順序のことである。

【００１５】また、図５はメッセージ保持部７の具体的
な構成例を示す図である。この例では、各グループごと
にメッセージが保持されている。このメッセージは、上
記認識対象のグループの中のキーワードの発声を使用者
に促すものであり、例えば、「用件」のグループには、
「御用件をどうぞ」のメッセージが用意されている。メ
ッセージ出力部８は、スポッティング部６において上記
順序規則に従って上記グループを認識対象語彙としてス
ポッティングを行なった際、抽出されたキーワードのス
コアが予め定められた閾値以下であったり、あるいはキ
ーワードを抽出できなかった場合に、そのグループに対
応したメッセージをメッセージ保持部７から取り出し、
使用者に対し出力するようになっている。

【００１６】次にこのような構成の音声認識装置の処理
動作について説明する。音声入力部１から話者の音声が
入力すると、特徴抽出部２では、この音声を特徴ベクト
ルの時系列に変換する。より具体的には、特徴抽出部２
は、例えばバンドパスフィルタ群によるスペクトラムや
ＬＰＣケプストラムなどの音声認識用の特徴ベクトルに
変換する。

【００１７】次いで、基本単位認識部３では、音声の基
本単位を認識する。例えば音節を音声の基本単位として
認識する。この場合、認識された結果（スコア）は音節
ラティスと呼ばれるもので、ｃｖ_ｒｓｔ（ｃｖ，ｉ
ｓ，ｄｕｒ）の形式の配列に格納される。ここで、ｃｖ
は音節番号，ｉｓは音節の開始フレーム番号，ｄｕｒは
音節の継続フレーム数を表している。この音節ラティス
は、後述のスポッティング部６の計算の前に全て計算し
ても良いし、また、スポッティング部６で必要になった
際に逐次計算しても良い。また、音節ラティスの具体的
な計算方法は、音節ごとに標準パターンを持ってＤＰマ
ッチングによって計算する方法や、音節ごとにＨＭＭ
（Hidden Markov Model）を用意して認識する方法な
ど、様々な手法を用いることができる。

【００１８】スポッティング部６では、オートマトン制
御によって音節ラティスを接続してオートマトン上の最
適な１パスを求め、これを抽出したキーワードとする。
なお、オートマトンを用いて制御する方法は、従来知ら
れており、例えば、次式に示す漸化式を用いて、累積ス
コアＳ（ｉ，ｊ）を計算し、オートマトンの終端ノード
で最も大きなスコアを持つマッチングパスを認識結果
（スポッティング結果）とすることができる。

【００１９】

【数１】

【００２０】ここで、ｉは入力音声のフレーム番号、ｊ
はオートマトンのノード番号、Ｓ（ｉ，ｊ）は入力音声
の第ｉフレームがオートマトンの第ｊノードに到達した
マッチングパスの累積スコアである。また、ｊ’は第ｊ
ノードの親のノード番号であり、ｃｖ’は第ｊ’ノード
と第ｊノードを結ぶアーク（音節）であり、ｒｓｔ（ｃ
ｖ’，ｉ−ｄｕｒ，ｄｕｒ）は上述の音節の認識結果で
ある。

【００２１】ところで、本実施例では、抽出対象として
のキーワードを複数のグループに分類して、このグルー
プの認識すべき順序を定めた認識順序規則に従ってキー
ワードのスポッティングを行なうことにより、最小限の
スポッティング回数で音声中からキーワードを抽出する
ことができ、発声された音声の意味を効率良く理解する
ことができる。従って、これを例えばスケジュール管理
装置に適用した場合、効率の良いスケジュール管理を行
なうことができる。

【００２２】第１の例として、入力音声が図６（ａ）の
ようなものであり、これが、第１発声（第１回目の発
声）であった場合には、スポッティング部６は、認識順
序規則保持部５に保持されている図４に示すような認識
順序規則に従って「用件」のグループを認識対象とし、
キーワード保持部４に保持されている図２に示すような
グループとキーワードとの対応表を用いて、「用件」の
グループから所定のキーワードの抽出，すなわちスポッ
ティングを行なう。すなわち、図６（ａ）の音声区間
（領域Ａ）のうちで、「用件」のグループを認識対象と
して認識を行ない、その結果、領域Ｂの区間においてキ
ーワード「会議」が抽出されたとする。この場合には、
以後の認識順序は図４の認識順序規則においてキーワー
ド「会議」を条件とし、「場所」，「日付」，「時間」
のグループ順に定められる。すなわち、第１番目に、
「場所」のグループを認識対象として、図６の〔Ａ−
Ｂ〕の領域でスポッティングを行なう。この結果、領域
Ｃの区間にキーワード「第１会議室」が抽出されると、
第２番目に、「日付」のグループを認識対象として、図
６の〔Ａ−（Ｂ＋Ｃ）〕の領域でスポッティングを行な
う。この結果、領域Ｄの区間にキーワード「明後日」が
抽出されると、第３番目に、「時間」のグループを認識
対象として、図６の〔Ａ−（Ｂ＋Ｃ＋Ｄ）〕の領域でス
ポッティングを行なうというような仕方で、認識順序規
則に従って、順次にスポッティングを行なうことができ
る。

【００２３】また、第２の例として、入力音声が図６
（ｂ）のようなものである場合、この入力音声に対して
は、用件が「年休」であるということが認識さえできれ
ば、図４の認識順序規則に従って、次に認識すべきは
「日付」のグループのみであり、「場所」や「時間」な
どのグループを認識対象としてスポッティングを試みる
ことはない。このようにスポッティングを行なう領域を
狭くすることができるので、不必要なスポッティングが
なされることなく、最小限のスポッティング回数で音声
中からキーワードを抽出することができる。また、スポ
ッティングを行なう領域を狭くし、認識対象を限定する
ことにより信頼性の高い結果を効率良く得ることができ
る。

【００２４】このようにして得られた認識結果が使用者
の意図するものでなく、違っている場合、あるいは誤認
識している場合には、使用者は、「違います。…」，
「誤認識しています。…」などの機能語を次に発声す
る。例えば、上述の第１の例において、使用者が第１回
目の発声で「第１会議室」と発声したにもかかわらず、
これが「第２会議室」と誤認識された場合には、使用者
は、次に、「違います。第１会議室です。」，あるい
は、「誤認識しています。第１会議室です。」のように
発声する。

【００２５】この入力音声は、第１回目の発声ではな
く、次に発声された音声であるので、スポッティング部
６では、図４の認識順序規則に従って、「機能語」のス
ポッティングを試みる。すなわち、対話をやり直す言葉
や前回の認識結果が誤まっていることを示す言葉につい
てのスポッティングを試みる。ここで、「違います」あ
るいは「誤認識しています」のキーワードが抽出できた
場合には、図４の認識順序規則に従い、前回の認識対象
を認識する。すなわち、第１の例では、前回の認識結果
のキーワードのグループ「用件」，「場所」，「日付」
のスポッティングを試みる。この結果、「用件」のグル
ープの次の「場所」のグループにおいて、「第１会議
室」のキーワードを抽出することができる。この場合に
も、「日付」，「時間」のグループを認識対象とするこ
となく、「場所」のグループのみにおいて、目的とする
キーワードを抽出できるので、スポッティング回数を低
減し、また信頼性ある認識結果を得ることができる。

【００２６】すなわち、従来では、認識結果が誤まって
いて、使用者が訂正することも考慮すると、今回認識す
べき対象（すなわち「場所」）と前回の認識対象（すな
わち「用件」，「日付」，「時間」）との全てを認識対
象，すなわち抽出対象としなければならないが、本発明
によれば、最初に認識誤まりを示すキーワード（違いま
す，誤認識してます，…）が抽出できた場合のみ、前回
認識できなかった対象のみを認識するようにしている。
このため、「違いますよ、第１会議室ですよ」のような
入力音声に対して、「時間」のグループを認識対象とす
ることもなく、効率の良い認識を行なうことができる。

【００２７】また、本実施例では、図４の認識順序規則
に従ってスポッティングを行なった結果、あるグループ
のスポッティングに失敗した場合（認識できなかった場
合と、入力音声中に実際になかった場合とを含む）に、
このグループを発声するように使用者に促すメッセージ
を単純な構造で（対話の履歴を考慮することなく）出力
するようにしている。具体的には、上述の第１の例にお
いて、「用件」として「会議」が抽出され、「場所」と
して「第１会議室」が抽出され、「日付」として「明後
日」が抽出されたが、「時間」＝「２時」のスコアが所
定の閾値以下であったとする。このとき、メッセージ出
力部８では、「時間」のグループが認識できなかったの
で、メッセージ保持部７から「時間」の欄のメッセージ
「時間は何時ですか？」を出力し、使用者に対し、次の
発声では、「時間」を表わす言葉を発声するように促
す。

【００２８】これにより、使用者が「時間」に関する発
声を行なうと、この入力音声は、第１回目の発声ではな
く、次に発声された音声であるので、スポッティング部
６では、図４の認識順序規則に従って、機能語のスポッ
ティングを試みる。例えば、使用者が「ええと、２時で
すよ」と発声したとする。しかしながら、この入力音声
には、「機能語」が含まれておらず、従って、スポッテ
ィング部６は、「機能語」を抽出できない。このように
「機能語」を抽出できないときには、スポッティング部
６は、前回の認識においてスコアが所定の閾値以下のキ
ーワードの属するグループを認識対象としてスポッティ
ングを試みる。すなわち、上述の例では、「時間」のグ
ループを認識対象としてスポッティングを試みる。これ
により、「２時」をキーワードとして抽出することがで
きる。この場合にも、前回の認識対象である「用件」，
「場所」，「日付」のグループを認識の対象としないの
で、効率の良いかつ信頼性の良い認識を行なうことがで
きる。

【００２９】このようにして、装置との間で普通の対話
を続けて、正しい結果を効率良く得ることができる。

【００３０】また、使用者が対話を中断したい場合に
は、使用者は「エスケープ」と発声すれば良い。「エス
ケープ」と発声した場合には、最初に機能語のグループ
のスポッティングがなされ、「エスケープ」が抽出され
た時点で即座に認識装置の状態を最初に戻す。これによ
り、無駄なスポッティングを行なうことを防止すること
ができる。

【００３１】

【発明の効果】以上に説明したように、請求項１乃至請
求項３記載の発明によれば、キーワードを複数のグルー
プに分類し、各グループの認識すべき順序を定めた認識
順序規則に従って入力音声に対しスポッティングを行な
いキーワードを抽出するようになっているので、最小限
のスポッティング回数で入力音声中からキーワードを効
率良くかつ信頼性良く抽出することができる。

【００３２】また、請求項４記載の発明によれば、入力
音声の区間内ですでに抽出されたキーワードの区間を除
いて、次に認識すべきグループのスポッティングを行な
うようにしているので、スポッティングを行なう領域を
狭くすることができ、これにより、キーワードをより効
率良くかつ信頼性良く抽出することができ、認識効率を
より向上させることができる。

【００３３】また、請求項５乃至請求項７記載の発明に
よれば、認識順序規則に従って順にスポッティングを行
ない、スポッティングを行なったが認識できなかったも
のについて、使用者にメッセージを出力するようにして
いるので、使用者との間で対話を進め、正しい認識を行
なうことができる。

【００３４】また、請求項８記載の発明によれば、認識
結果に誤まりがあったキーワードの属するグループのみ
を認識対象とするので、認識効率をより向上させること
ができる。

【００３５】また、請求項９記載の発明によれば、使用
者が対話を中断するためのキーワード，例えば「エスケ
ープ」を発声した場合には、最初に機能語のグループの
スポッティングを行なって、「エスケープ」が抽出され
た時点で即座に認識装置の状態を最初に戻すので、無駄
なスポッティングを行なうことがなく、効率の良い処理
を行なうことができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の一実施例のブロッ
ク図である。

【図２】キーワード保持部の具体的な構成例を示す図で
ある。

【図３】「時間」のグループに属するキーワードの保持
例を示す図である。

【図４】認識順序規則保持部の具体的な構成例を示す図
である。

【図５】メッセージ保持部の具体的な構成例を示す図で
ある。

【図６】（ａ），（ｂ）は入力音声の一例を示す図であ
る。

【符号の説明】

１音声入力部２特徴抽出部３基本単位認識部４キーワード保持部５認識順序規則保持部６スポッティング部７メッセージ保持部８メッセージ出力部

Claims

【特許請求の範囲】

【請求項１】発声された音声を入力する音声入力手段
と、該音声入力手段から入力された音声中から少なくと
も１つ以上のキーワードを抽出するスポッティング手段
とを有する音声認識装置において、抽出対象としてのキ
ーワードが複数のグループに分類され、また、各グルー
プの認識順序が認識順序規則として定められており、前
記スポッティング手段は、該認識順序規則に従った順序
でグループを認識対象語彙として入力音声に対しスポッ
ティングを行ない、入力音声からキーワードを順次に抽
出するようになっていることを特徴とする音声認識装
置。
【請求項２】請求項１記載の音声認識装置において、
音声の基本単位を認識する音声基本単位認識手段を有
し、この場合に、前記各グループ内のキーワードは、音
声の基本単位をアークとするオートマトンにより各グル
ープごとに記述されており、前記スポッティング手段
は、入力音声に対し認識順序規則に従った順序でグルー
プを認識対象語彙としてスポッティングを行ない入力音
声からキーワードを抽出する際、１つのグループ内の前
記オートマトン上の最適なパスを求めて、該グループ内
のキーワードの抽出を行なうようになっていることを特
徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、
前記認識順序規則は、キーワードごとに記述されている
ことを特徴とする音声認識装置。
【請求項４】請求項１記載の音声認識装置において、
前記スポッティング手段は、入力音声中からキーワード
を抽出する際に、すでにスポッティング抽出のなされた
キーワードの存在する音声区間を除外した音声区間をス
ポッティングすべき音声区間の範囲とすることを特徴と
する音声認識装置。
【請求項５】請求項１記載の音声認識装置において、
前記認識順序規則に従ってグループを認識対象語彙とし
てスポッティングを行なった際、抽出されたキーワード
のスコアが予め定められた閾値以下であった場合には、
使用者に所定のメッセージを出力するメッセージ出力手
段がさらに設けられていることを特徴とする音声認識装
置。
【請求項６】請求項５記載の音声認識装置において、
使用者に出力する前記メッセージは、グループごとに予
め定められて保持されていることを特徴とする音声認識
装置。
【請求項７】請求項５記載の音声認識装置において、
使用者に出力する前記メッセージは、スコアが予め定め
られた閾値以下であったキーワードの属するグループ内
のキーワードを再度発声するように利用者に促すメッセ
ージであることを特徴とする音声認識装置。
【請求項８】請求項１記載の音声認識装置において、
前記複数のグループの少なくとも１つのグループには、
前回の認識結果が誤まりであることを示すキーワードが
含まれていることを特徴とする音声認識装置。
【請求項９】請求項１記載の音声認識装置において、
前記複数のグループの少なくとも１つのグループには、
対話を中断してやり直すことを示すキーワードが含まれ
ていることを特徴とする音声認識装置。