JP2007219190A

JP2007219190A - 音声認識装置と認識方法及びそのプログラム

Info

Publication number: JP2007219190A
Application number: JP2006040208A
Authority: JP
Inventors: Yasutaka Shinto; 安孝新堂
Original assignee: Murata Machinery Ltd
Current assignee: Murata Machinery Ltd
Priority date: 2006-02-17
Filing date: 2006-02-17
Publication date: 2007-08-30
Also published as: US20070198248A1

Abstract

【課題】ルールや辞書を複雑にせずに、解釈し得る入力音声の範囲を拡げる。
【解決手段】入力音声からキーワードを抽出し、サブジェクトとなるオブジェクト毎に設けたビットをセットすると共に、肯定／否定に関するビットをセットする。オブジェクト毎にセットされたビットを連結した範囲を対象と解釈し、肯定／否定のビットで対象に対する入力を解釈する。
【選択図】図１

Description

この発明は音声認識に関し、特に音声ガイダンスなどのために比較的小規模な辞書を用いる音声認識に関する。

音声認識では話者の音声からキーワードを抽出し、抽出したキーワードを組み合わせて、話者の意図を抽出する。特許文献１は文書処理装置に関し、キーワード「文章」には「文章印刷」，「文章作成」，「文章編集」の３つのコマンドを用意し、キーワード「出力」にはコマンド「文章印刷」を対応させて、「文章を出力したい」との入力をコマンド「文章印刷」に変換することを開示している。この手法を一般化すると、「文章」、「書類」等を同義語と見なせる辞書と、辞書で抽出したキーワードの組み合わせに対して単語レベルよりも上位の意味を対応させるルールを設けることが考えられる。

しかしながらこれを音声や画面、身振りなどでの質問に対する答えを解釈する小形の音声認識装置に適用すると、
・質問文に対して可能なキーワードの辞書を作成する、
・辞書で抽出したキーワードの組み合わせを解釈するための、辞書やルールを作成する、
の２段階で音声認識が可能になる。この内、キーワードの組み合わせに対して単語レベルよりも上位の意味を対応させる辞書やルールを設けると、辞書等の作成自体が大きな負担となり、また処理も複雑になる。

例えば電話で大学の各研究科の案内と入試要項の案内とを行うシステムで、「研究科と入試要項の、どちらを説明しましょうか？」との質問に対し、キーワード「研究科」「入試要項」「要項」「両方」「どちらも」などを用意したとする。すると「研究科について教えて下さい」「両方知りたいです」などの、システムの設計者が意図した通りの応答は簡単に認識できる。しかし上記のキーワードでは、「どちらも知りたくない」には「どちらも」を認識して、研究科と入試要項のガイダンスを行ってしまう。そこで「知りたくない」「要らない」などのキーワードを追加する必要がある。また「研究科と要項の両方」などの入力には、「両方」が入力されると「研究科」や「要項」は無視して良いなどのルールを追加する。さらに「研究科と要項をお願いします」のように、「研究科」と「要項」の双方を検出すると「両方」と同義語となる、とのルールを追加する。以上のようにして辞書やルールを追加すると、より正確に入力音声を認識できるが、辞書やルールの用意が面倒になり、かつ処理も複雑化する。特に音声ガイダンス装置などからの質問への回答を認識する場合、辞書やルールは質問文に対してその都度作成するため、大きな辞書や多数のルールを設けることは大変である。
特開平５−２０４５１８号公報

この発明の課題は、単純なルールでかつ小さな辞書で、認識可能な入力音声の表現の幅を拡げることにある。
請求項２の発明での追加の課題は、簡単なシステムで上記の課題を達成することにある。請求項３の発明での追加の課題は、同じサブジェクトが入力音声中で重複している場合にも、音声認識ができるようにすることにある。
請求項４の発明での追加の課題は、サブジェクトが入力されずに否定のみが入力された場合にも、入力音声の解釈を行えるようにすることにある。

この発明の音声認識装置は、入力音声からキーワードを抽出することにより音声認識を行う装置において、入力音声からキーワードを抽出するための手段と、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出手段と、抽出したキーワードから否定に関するキーワードを検出するための否定検出手段とを設けて、否定検出手段が否定に関するキーワードを検出しなかった際に、サブジェクト抽出手段で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出手段で抽出したサブジェクトが否定されたものとして認識結果を出力するようにしたことを特徴とする。

好ましくは、少なくともサブジェクト毎のデータと否定に関するデータとを備えた記憶部を設けて、前記サブジェクト抽出手段は抽出したキーワードに対応するサブジェクトのデータをセットし、前記否定検出手段は否定に関するキーワードを検出した際に否定に関するデータをセットすることにより、サブジェクト毎のデータと否定に関するデータの値とで、入力音声の意味を認識する。
特に好ましくは、前記サブジェクト抽出手段は、既にセット済みのデータに対応するサブジェクトを再度抽出した際に、そのデータをセットしたままにする。例えば各データが１ビットデータで、データの書き込みをOR論理で行う。

また好ましくは、音声認識装置は音声ガイダンスでの前記サブジェクトに言及した質問に対する音声入力を認識し、サブジェクトに対するデータがセットされずに、否定に関するデータのみがセットされている際に、質問で言及した全てのサブジェクトが否定されたものとする。

この発明の音声認識方法は、入力音声からキーワードを抽出することにより音声認識を行う方法において、入力音声からキーワードを抽出し、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出し、抽出したキーワードから否定に関するキーワードを検出し、否定に関するキーワードを検出しなかった際に、前記抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくとも前記サブジェクトが否定されたものとして認識結果を出力することを特徴とする。

またこの発明の音声認識プログラムは、入力音声からキーワードを抽出することにより音声認識を行う装置のためのプログラムにおいて、入力音声からキーワードを抽出するための命令と、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出命令と、抽出したキーワードから否定に関するキーワードを検出するための否定検出命令と、否定検出命令が否定に関するキーワードを検出しなかった際に、サブジェクト抽出命令で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出命令で抽出したサブジェクトが否定されたものとして認識結果を出力するための命令、とを設けたことを特徴とする。

この発明の音声認識装置や音声認識方法、音声認識プログラムでは、否定に関するキーワードを検出しなければ、抽出した１〜複数のサブジェクトの集まりを認識結果として出力し、否定に関するキーワードを検出すると、これらのサブジェクトが否定されたものとする。このためキーワードよりも上位レベルの解釈ルールや単語の組み合わせに関する辞書は不要〜極く簡単で、サブジェクトが否定されている場合もされていない場合も、正確に入力音声を認識できる。

ここで各サブジェクトにデータを割り当て、肯定／否定にもデータを割り当てて、これらのデータの全体を音声認識の結果とすると、サブジェクトを抽出する毎に該当するデータをセットし、肯定／否定のデータを検出すると対応するデータをセットことにより、認識結果のデータを作成できる。そしてこのデータは、対象となるサブジェクトを列記し、それを否定するか肯定するかを示したデータとして、一意に解釈できる。またこのデータの作成に、複雑な辞書やルールは不要である。

例えば「ＡとＢ、両方下さい」の入力音声で、「Ａ」、「Ｂ」、「両方」が全てキーワードで、「両方」はＡ及びＢを意味すると、この入力音声ではサブジェクト「Ａ」、「Ｂ」が重複して入力されている。そこでセット済みのデータは同じサブジェクトを再度検出した場合でもそのままにしておくと、重複した入力も解釈できる。
さらに否定を表すキーワードのみが入力されて対象となるサブジェクトが入力されない場合、質問での全てのサブジェクトが否定されたものとすると、サブジェクトが無い入力音声での否定も解釈できる。

なおこの明細書で、音声認識装置に関する記載は特に断らない限り音声認識方法やプログラムにもそのまま当てはまり、音声認識方法に関する記載は特に断らない限り音声認識装置やプログラムにもそのまま当てはまる。

以下に本発明を実施するための最適実施例を示す。

図１〜図６に、実施例の音声認識装置８や音声認識方法、音声認識プログラム６０を示す。図において、４はマイクロフォンで、６はそのアンプで設けなくても良く、８は音声認識装置である。音声認識装置８にはアンプ６からの入力音声に対し、キーワードを抽出するためのキーワード抽出部と、抽出するキーワードの辞書１２とがある。辞書１２はシナリオデータ記憶部２０で作成される質問文毎に変更され、抽出したキーワードに対応するオブジェクトに対して、レジスタ１４のビットをセットする。１６は解釈部でレジスタ１４のデータを解釈して音声認識結果を出力する。ただしレジスタ１４のデータは簡単に解釈できるので、処理システム１８で認識しても良い。

この明細書において、オブジェクトは入力音声から抽出される客体を意味し、「入試要項」と「要項」などのような同義語は同じオブジェクトに対応する。オブジェクトには入力音声での話題や対象を表すサブジェクトと、否定／肯定に関するデータとが含まれる。処理システム１８は、音声認識結果を参照しながら音声によるガイダンスを行い、シナリオデータ記憶部２０には個々の質問文やガイダンス文などの出力音声が用意され、質問文に対する入力音声の認識結果から、次にどの質問文やガイダンスに移るかのシナリオが記憶されている。そして辞書１２や解釈部１６は、質問文毎に処理システム１８により切り替えられる。２２は音声データ発生部、２４はアンプで設けなくても良く、２６はスピーカである。

実施例の音声認識装置８はガイダンスを行うロボットなどが音声認識を行うためや、テレフォンセンタやサポートセンタなどが電話で自動的に音声サービスを行う際などに用い、例えば銀行の残高証明や各種の予約、案内などに用いる。また実施例の音声ガイダンス装置は、ファクシミリ装置やコピー機能とプリンタ機能とを備えた複合機などの事務機器でのガイダンスに用いることができ、例えばユーザに対して操作方法を音声ガイダンスし、ユーザの質問を音声認識してガイダンス内容を切り替える。質問文やガイダンスの提示には音声以外に画面やロボットの身振りなどを加えても良く、音声認識を補助するためにユーザの表情や身振りを画像認識しても良い。

図２に、キーワード抽出部１０から解釈部１６までの処理を示す。レジスタ１４には質問のＩＤと肯定／否定に関するビット、並びに質問文で言及した各サブジェクトに対するビットが用意されるいる。なおこれらの各オブジェクトに対し１ビットずつ割り当てる代わりに、より多数のビットずつ割り当てても良い。キーワード抽出部１０は入力音声からキーワードを抽出し、辞書１２を参照して肯定もしくは否定に関するデータ並びに各サブジェクトに対するデータに変換する。この過程で同義語は同じオブジェクトに対応するものとして処理される。

レジスタ１４は、各ビットがセットされていない場合を０で，セットされている場合をＦで表すものとする。キーワード抽出部１０で抽出した肯定／否定の結果と、言及されたサブジェクトに応じて、レジスタ１４の質問ＩＤ以外の各ビットをセットする。肯定に関するデータは省略可能なので、否定に関するデータのみを抽出し、肯定に関するデータの抽出を行わなくても良い。次にサブジェクト毎のデータの集まりは全体としてそれらの和、言い換えると和集合を意味する。否定ビットのデータはサブジェクト集合の各要素が否定されたものとし、サブジェクトが特定されていない場合、質問文で提示した全ての選択肢が否定されたものとする。解釈部１６はレジスタ１４のデータを用いて以上の解釈を行い、音声認識結果を処理システム１８へ入力する。なお前記のように解釈部１６を設けず、レジスタ１４のデータを処理システム１８で直接処理しても良い。さらにレジスタ１４は記憶部の例であり、記憶部の形態やサブジェクト等に対するデータの記憶形態は任意である。

図２の処理を、研究科と入試要項のガイダンスを例に図３，図４に詳細に示す。例えば質問文は「研究科と入試要項の、どちらについて説明しましょうか？」であるとし、辞書１２では、この場合の質問文に対する認識すべきオブジェクトとして、「研究科」や「入試要項」並びにその同義語である「要項」、「両方」とその同義語である「どちら」、肯定の述語及び否定の述語に対し、ＩＤが付与されている。この質問文に対する入力音声の認識結果は、辞書１２のデータの下位３ビットで表すことができ、上位２ビットは省略可能である。さらに「両方」や「どちら」は、「研究科」と「入試要項」とに対するビット和「０ＦＦ」で表現できる。また否定の述語は、対象を表す下位２ビットのデータ全体に対する否定として作用する。

そこで入力された音声が、「研究科について教えてください」の場合、キーワード「研究科」から「０ｘ００Ｆ」が抽出され、「教えてください」が肯定の述語であることから、「０ｘ０００」が抽出される。そしてこれらのデータのビット和から「０ｘ００Ｆ」が抽出され、「研究科」についてガイダンスを行うとの処理が指定される。「入試要項について知りたいです」の場合、「入試要項」から「０ｘ０Ｆ０」がセットされ、「知りたいです」が肯定の述語なので「０ｘ０００」がセットされ、これらのビット和により「０ｘ０Ｆ０」がセットされる。「両方、お願いします」の場合、「０ｘ０ＦＦ」がセットされ、「どちらも知りたくない」場合、「どちら」に対応するデータが「０ｘ０ＦＦ」で、「知りたくない」が「０ｘＦ００」なので、ビット和の「０ｘＦＦＦ」がセットされる。「研究科」などのように肯定の術語も否定の述語も無しにサブジェクトを表すキーワードのみが入力された場合、レジスタには「０ｘ００Ｆ」がセットされ、これは「研究科をお願いします」などの入力と同じものと見なされる。

「研究科と要項、両方知りたい」の場合、「研究科」と「要項」とに対して、「０ｘ００Ｆ」と「０ｘ０Ｆ０」がセットされ、「両方」に対して「０ｘ０ＦＦ」がセットされ、「知りたい」に対して「０ｘ０００」がセットされる。ＯＲ加算によるこれらのビット和として、「０ｘ０ＦＦ」がセットされ、「研究科」と「要項」が意味として「両方」と重複するが問題は生じない。「研究科と要項についてお願い」の場合、「研究科」と「要項」に対し、「０ｘ００Ｆ」と「０ｘ０Ｆ０」がセットされ、「お願い」に対し「０ｘ０００」がセットされ、これらのビット和として「０ｘ０ＦＦ」がセットされる。

これらの結果、レジスタ１４でのデータで意味のある下位３ビットは、合計８通りの値をとることが可能である。例えばビット和が「０ｘ００Ｆ」の場合、「研究科」について説明し、「０ｘ０Ｆ０」の場合「入試要項」について説明し、「０ｘ０ＦＦ」では「研究科」と「入試要項」の両方について説明する。これらの３通りの場合、最上位の０のビットは肯定命題を表し、解釈上用いられていない。また「０ｘ０００」の場合肯定する対象がなく、さらにデータが入力されなかったのと同じなので、質問文に対する有効な答えが無かったものとし再質問するか、他の質問に切り替えるかなどを行う。回答のビット和が「０ｘＦ００」や「０ｘＦＦＦ」で「研究科」も「入試要項」も共に否定されたものとし、「０ｘＦ０Ｆ」や「０ｘＦＦ０」の場合、「研究科」や「入試要項」のみが否定されたものと見なして他方の「入試要項について説明しましょうか」や「研究科について説明しましょうか」などのガイダンスを行うか、「０ｘＦ００」と同様に否定のみが入力されたものとして扱うかは任意である。

図３の処理では、「研究科」や肯定の述語などの認識オブジェクトに対してＩＤが付与され、それらのビット和をレジスタ１４で求めることにより、音声認識を行う。これには「研究科と要項、両方知りたい」などのように、回答が重複する場合にも認識できるようにする作用がある。また各オブジェクトに対して５ビットあるいは３ビットなどの全ビットをセットするように説明したが、「研究科」の場合最下位のビットのみをセットし、「入試要項」の場合最下位の次のビットをセットするなどのように、１ビット毎の書き込みであると見なしても良い。

図３の処理を質問文に対する入力音声と認識結果としてまとめて示すと、図４のようになる。ここでは質問文での各サブジェクトに対して少なくとも１ビット割り当て、「知りたくない」あるいは「お願いします」などの、否定／肯定に関するデータに対し１ビット割り当て、「両方」や「どちら」などの広い範囲に渡るキーワードに対しては、これに含まれる各サブジェクトのビットをセットする。そして「どちらも知りたくない」などの入力に対しては、「どちら」が意味を成すかなどのルールを設けず、単純に「どちら」に対して下位２ビットをセットし、「知りたくない」に対してその上位の１ビットをセットする。また「研究科と要項、両方知りたい」などの重複した入力文に対して、該当する各サブジェクトに対してビット和を求める。これだけの単純な処理で、矛盾無く音声認識を行うことができる。

図５に実施例の音声認識方法を示し、図１〜図４に関する説明は、図５の音声認識方法にもそのまま当てはまる。ステップ１で質問文を出力し、ステップ２で音声入力を受け付け、ステップ３でキーワードを抽出する。そしてレジスタに対し、抽出したキーワードを同義語変換などを経て、サブジェクト毎のビットをセットし、肯定／否定の述語あるいは単に「いいえ」「はい」などの肯定／否定の語を探し、肯定／否定に関するビットをセットする（ステップ４）。入力音声の処理が終了すると、ステップ５でデータがセットされているかどうか、即ちレジスタに意味のあるデータが存在するかどうかをチェックし、存在しない場合質問文を再出力する。データがセットされていると、対象をサブジェクトの和で特定し、肯定／否定のビットでサブジェクトの和が否定されたか肯定されたかを解釈する（ステップ６）。なお対象無しに否定のビットのみがセットされている場合、全ての選択肢が否定された、もしくは質問文に対して全てが否定されたものと解釈する。そしてステップ７で回答に応じた処理を行う。

図６に実施例の音声認識プログラム６０の構造を示す。このプログラムは適宜のパーソナルコンピュータなどに実装され、図１の音声認識装置８を構成する。辞書記憶命令６１は質問文毎の辞書を記憶し、解釈データ記憶命令６２は図１のレジスタ１４のデータを解釈し、この命令は設けなくても良い。辞書／解釈データ切り替え命令６３は、図１の辞書１２及び解釈部１６を設ける場合には解釈部１６も質問文毎に切り替え、キーワード抽出命令６４は入力音声からキーワードを抽出する。そして抽出したキーワードに対し、サブジェクト抽出命令６５は対応するサブジェクトを特定し、肯定／否定抽出命令６６は肯定／否定に関するキーワードを抽出する。書き込み命令６８はサブジェクト抽出命令６５や肯定／否定抽出命令６６で抽出したデータを図１のレジスタ１４に書き込み、解釈命令６９は、質問文毎の解釈データを用いて図１のレジスタ１４のデータを解釈する。なお解釈命令６９は設けなくても良い。

実施例の音声認識装置とこれを用いた音声ガイダンス装置のブロック図実施例の音声認識装置でのレジスタへのデータの書き込みと解釈とを示す図実施例での音声認識過程の具体例を示す図図３の処理を、音声入力とそれに対する処理の形で示す図実施例の音声認識方法を示すフローチャート実施例の音声認識プログラムのブロック図

符号の説明

２音声ガイダンス装置
４マイクロフォン
６アンプ
８音声認識装置
１０キーワード抽出部
１２辞書
１４レジスタ
１６解釈部
１８処理システム
２０シナリオデータ記憶部
２２音声データ発生部
２４アンプ
２６スピーカ
６０音声認識プログラム
６１辞書記憶命令
６２解釈データ記憶命令
６３辞書／解釈データ切り替え命令
６４キーワード抽出命令
６５サブジェクト抽出命令
６６肯定／否定抽出命令
６８書き込み命令
６９解釈命令

Claims

入力音声からキーワードを抽出することにより音声認識を行う装置において、
入力音声からキーワードを抽出するための手段と、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出手段と、
抽出したキーワードから否定に関するキーワードを検出するための否定検出手段とを設けて、
否定検出手段が否定に関するキーワードを検出しなかった際に、サブジェクト抽出手段で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出手段で抽出したサブジェクトが否定されたものとして認識結果を出力するようにしたことを特徴とする、音声認識装置。
少なくともサブジェクト毎のデータと否定に関するデータとを備えた記憶部を設けて、前記サブジェクト抽出手段は抽出したキーワードに対応するサブジェクトのデータをセットし、前記否定検出手段は否定に関するキーワードを検出した際に否定に関するデータをセットすることにより、サブジェクト毎のデータのと否定に関するデータとで、入力音声の意味を認識するようにしたことを特徴とする、請求項１の音声認識装置。
前記サブジェクト抽出手段は、既にセット済みのデータに対応するサブジェクトを再度抽出した際に、そのデータをセットしたままにすることを特徴とする、請求項２の音声認識装置。
音声認識装置は音声ガイダンスでの前記サブジェクトに言及した質問に対する音声入力を認識し、
サブジェクトに対するデータがセットされずに、否定に関するデータのみがセットされている際に、質問で言及した全てのサブジェクトが否定されたものとすることを特徴とする、請求項２の音声認識装置。
入力音声からキーワードを抽出することにより音声認識を行う方法において、
入力音声からキーワードを抽出し、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出し、
抽出したキーワードから否定に関するキーワードを検出し、
否定に関するキーワードを検出しなかった際に、前記抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくとも前記サブジェクトが否定されたものとして認識結果を出力することを特徴とする、音声認識方法。
入力音声からキーワードを抽出することにより音声認識を行う装置のためのプログラムにおいて、
入力音声からキーワードを抽出するための命令と、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出命令と、
抽出したキーワードから否定に関するキーワードを検出するための否定検出命令と、
否定検出命令が否定に関するキーワードを検出しなかった際に、サブジェクト抽出命令で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出命令で抽出したサブジェクトが否定されたものとして認識結果を出力するための命令、とを設けたことを特徴とする、音声認識プログラム。