JP2004004239A

JP2004004239A - 音声認識対話装置およびプログラム

Info

Publication number: JP2004004239A
Application number: JP2002158985A
Authority: JP
Inventors: Ryosuke Iketani; 池谷　亮輔
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-05-31
Filing date: 2002-05-31
Publication date: 2004-01-08
Anticipated expiration: 2022-05-31
Also published as: JP3838159B2

Abstract

【課題】話者の発話内容に応じた応答を音声出力する音声認識対話装置において、音声認識対話装置のまわりに複数の話者がいる状況下で、時にはある特定の話者とだけ集中して対話をしたり、時には複数の話者と代わる代わる対話できるようにする。
【解決手段】集中度制御部１４は、音声認識部１３によって認識された話者の発話内容と変移条件テーブル２１の内容とに基づいて、上記話者に対する集中度のレベルを決定し、上記レベルと上記話者の識別名とを集中度設定テーブル２４に設定する。集中度制御部１４は、話者位置特定部１１によって特定された上記話者の方向と上記決定したレベルと定義テーブル２２の内容とに基づいて、音声入力部１０の指向性及び方向を調整する。また、集中度設定テーブル２４に設定されている上記話者の集中度のレベルに応じて、他の話者の発話を無効或いは有効にする。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、話者が発話した内容に対する応答を音声出力する音声認識対話装置に関し、特に音声認識対話装置の周囲に複数の話者がいる中で、ある特定の話者とだけ集中して対話をしたり、複数の話者と代わる代わる対話をしたりすることができる音声認識対話装置に関する。
【０００２】
【従来の技術】
話者の発話内容に対する応答を音声出力する音声認識対話装置においては、話者の発話内容を高い認識率で認識することが必要になる。認識率を高いものとするため、周囲雑音等の影響を低減し、ある特定の話者の発する音声を良好な品質で取り込むようにした音声認識装置は、従来から提案されている（例えば、特開２０００−１４８１８４号公報）。
【０００３】
図７は、特開２０００−１４８１８４号公報に記載されている音声認識装置の構成を示すブロック図である。図７を参照すると、マイクロフォンアレイ等の指向特性や感度特性等を可変できる構成とした音声情報入力部７０と、音声情報入力部７０の指向特性あるいは感度特性等を調整する音声入力制御部７１と、音声入力制御部７１の制御に基づいて音声情報入力部７０より入力された音声信号をＡ／Ｄ変換し、周波数分析を行い、音声の特徴ベクトル列に変換する音声特徴ベクトル抽出部７２と、音声特徴ベクトル抽出部７２から得られた音声特徴ベクトルによって音声認識を行う音声認識部７３と、音声認識部７３の認識結果を表示する認識結果表示部７４と、カメラ等の撮像装置で構成される画像情報入力部７５と、画像情報入力部７５から入力された画像情報を解析する画像情報解析部７６とを備えている。
【０００４】
続いて、特開２０００−１４８１８４号公報に記載されている音声認識装置の動作について説明する。図７において、画像情報解析部７６は、画像情報入力部７５から得られる画像データを解析し、画像内の話者の位置を検出する。画像内における話者の位置は、話者の顔画像を抽出し、それを追跡することなどで求めることができる。音声入力制御部７１は、画像情報解析部７６から送られてくる話者の位置データに基づいて、音声情報入力部７０の指向特性や入力特性、方向を制御する。
【０００５】
【発明が解決しようとする課題】
しかしながら、前述した従来の音声認識装置を音声認識対話装置に使用した場合、次のような問題が発生する。
【０００６】
第１の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、別の方向にいる複数の話者と代わる代わる対話を行うことができないことである。
【０００７】
その理由は、ある特定の話者の音声認識率を向上させるために、特定話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整しており、他の方向にいる話者の音声を捕捉しづらくしてしまうためである。
【０００８】
第２の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、同じ方向にいる特定の話者とだけ集中した対話を行うことができないことである。
【０００９】
その理由は、話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整するだけなので、同じ方向からの他の話者が発話した音声も捕捉して音声認識してしまうためである。
【００１０】
【発明の目的】
本発明の目的は、複数の話者が音声認識対話装置のまわりにいる中で、時にはある特定の話者とだけ集中して対話をしたり、時には複数の話者と代わる代わる対話をしたりすることが、対話の中で自然に切り替えてできる音声認識対話装置を提供することにある。
【００１１】
【課題を解決するための手段】
本発明の音声認識対話装置は、発話された音声情報を分析し得られる話者位置特定情報や照合話者情報や音声認識結果をもとに話者への集中度を管理し制御する話者への集中度制御部（図１の１４）と、話者への集中度制御部（図１の１４）が集中度を決定する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベース（図１の２０）とを有する。
【００１２】
より具体的には、本発明の音声認識対話装置は、
音声情報を取り込む音声入力部（図１の１０）と、
発話した話者の方向を特定する話者位置特定部（図１の１１）と、
発話した話者を特定する話者照合部（図１の１２）と、
前記音声入力部（図１の１０）から入力される音声情報を分析し、音声を認識する音声認識部（図１の１３）と、
特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブル（図１の２４）と、
該集中度設定テーブル（図１の２４）の内容と前記話者照合部（図１の１２）で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部（図１の１３）の認識結果に基づいて決定した集中度のレベルと前記話者照合部（図１の１２）で特定された話者の識別名とを用いて前記集中度設定テーブル（図１の２４）中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブル（図１の２４）の内容と前記話者位置特定部（図１の１１）で特定された話者の方向とに基づいて、前記音声入力部（図１の１０）の指向性及び方向を制御する集中度制御部（図１の１４）と、
該集中度制御部（図１の１４）で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部（図１の１９）とを備えている。
【００１３】
更に、本発明の音声認識対話装置は、所定のイベントが発生したとき、集中度設定テーブル（図１の２４）に設定されている特定話者の集中度のレベルを変更できるようにするため、
所定のイベントが発生したことを検出する他イベント管理部（図１の１６）を備え、且つ、
前記集中度制御部（図１の１４）が、前記他イベント管理部（図１の１６）によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブル（図１の２４）に設定されている集中度のレベルを変更する構成を有している。
【００１４】
より具体的には、
前記所定のイベントが、前記集中度設定テーブル（図１の２４）に特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
前記集中度制御部（図１の１４）が、前記他イベント管理部（図１の１６）で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブル（図１の２４）に設定されている集中度のレベルが、該集中度設定テーブル（図１の２４）に設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブル（図１の２４）に設定されている集中度のレベルを、他の話者による発話も有効にするレベルに下げる構成を有する。
【００１５】
【作用】
複数の話者と対話をする中で、予め設定しておく集中度の変移条件をもとに、話者への集中度を制御し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部（図１の１０）の指向性や方向を調整する。また、集中度のレベルに応じて、特定話者以外の話者の発話を無効にする。
【００１６】
特定話者に対する集中度のレベルを、特定話者の発話内容のみに基づいて決定すると、特定話者が集中度のレベルを高くする発話を行った後に音声認識対話装置から離れた場合、他の話者の発話が無効にされる状態が続いてしまい、他の話者が、音声認識対話装置と対話を行えなくなってしまう。そこで、他イベント管理部（図１の１６）で所定のイベント（例えば、特定話者による発話がない時間が所定時間継続）の発生が検出された場合、集中度制御部（図１の１４）が、集中度設定テーブル（図１の２４）に設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる。これにより、他の発話者も音声認識対話装置と対話することが可能になる。
【００１７】
【発明の実施の形態】
次に本発明の実施の形態について図面を参照して詳細に説明する。図１を参照すると、本発明に係る音声認識対話装置の第１の実施の形態は、音声入力部１０と、話者位置特定部１１と、話者照合部１２と、音声認識部１３と、集中度制御部１４と、音声入力制御部１５と、他イベント管理部１６と、対話制御部１７と、音声合成部１８と、音声出力部１９と、話者及び集中度管理のためのデータベース２０とから構成されている。
【００１８】
音声入力部１０は、音声情報を電気信号に変換する機能を有している。また、音声入力部１０は、指向性及び方向を変更可能なものであり、例えば、複数のマイクロフォンを円形状に一定の間隔で配置したマイクロフォンアレイにより構成される。
【００１９】
話者位置特定部１１は、音声入力部１０から入力される音声情報を分析し話者の方向を特定する機能を有する。例えば、音声入力部１０が、複数のマイクロフォンを円形状に配置したマイクロフォンアレイにより構成されている場合は、最も出力レベルの高いマイクロフォンの方向を話者の方向とする。上記マイクロフォンの方向は、音声認識対話装置の基準方向に対する方向であり、複数のマイクロフォンの内の基準マイクロフォンと出力レベルが最も高いマイクロフォンとの角度と、上記基準方向と上記基準マイクロフォンとの角度とを加算することにより求まる。
【００２０】
話者照合部１２は、音声入力部１０から入力される音声情報を分析し、登録済みの話者の音声情報と照合し話者を特定する機能を有する。
【００２１】
音声認識部１３は、音声入力部１０から入力される音声情報を分析し音声を認識する機能を有する。
【００２２】
集中度制御部１４は、話者位置特定部１１から入力される話者位置特定情報、話者照合部１２から入力される照合話者情報、音声認識部１３から入力される音声認識結果及び他イベント管理部１６からの通知をもとに話者への集中度を制御する機能を有する。
【００２３】
より具体的には、集中度制御部１４は、以下の機能を有する。
【００２４】
・集中度設定テーブル２４の内容と話者照合部１２からの照合話者情報（話者の識別名）とに基づいて、照合話者情報によって特定される話者の発話を有効にするか否かを判定する機能。
・有効にしないと判定した場合は、音声認識部１３から入力される認識結果を棄却する機能。
・有効にすると判定した場合は、音声認識部１３に認識結果を対話制御部１７に渡す機能。
・有効にすると判定した場合は、音声認識部１３の認識結果と変移条件テーブル２１の内容とに基づいて集中度のレベルを決定し、この決定した集中度のレベルと話者照合部１２からの照合話者情報とに基づいて集中度設定テーブル２４の内容を更新する機能。
・更新後の集中度設定テーブル２４の内容と、定義テーブル２２の内容と、情報テーブル２３の内容とに基づいて、音声入力制御部１５に対して音声入力部１０の方向及び指向性の調整を指示する機能。
【００２５】
なお、データベース２０中の各テーブル２１〜２４については、後で詳細に説明する。
【００２６】
音声入力制御部１５は、集中度制御部１４からの指示に従って、音声入力部１０のマイクロフォンアレイ等の指向性や方向（音声認識対話装置の基準方向に対する基準マイクロフォンの方向）を調整する機能を有する。
【００２７】
他イベント管理部１６は、音声入力以外の時間等の他のイベントを管理し、集中度制御部１４にイベント発生を通知する機能を有する。
【００２８】
対話制御部１７は、集中度制御部１４から送られてくる音声認識結果及び話者照合情報をもとに対話内容を管理し、次の応答内容を決定する機能を有する。
【００２９】
音声合成部１８は、対話制御部１７より入力される応答内容の合成音声を生成する機能を有する。
【００３０】
音声出力部１９は、音声合成部１８から入力される合成音声を出力する機能を有するものであり、スピーカー等によって構成される。
【００３１】
データベース２０は、集中度制御部１４が、話者への集中度を制御する際に使用する変移条件テーブル２１、定義テーブル２２、情報テーブル２３及び集中度設定テーブル２４を備えている。
【００３２】
変移条件テーブル２１には、特定話者に対する集中度のレベルを変移させる各種の条件が格納されている。各条件は、それぞれ条件内容と、現在の集中度のレベル（現在レベル）と、変移させる集中度のレベル（変移レベル）とを含んでいる。例えば、条件Ｎｏ１は、現在の集中度のレベルが「中」のときに、「ありがとう」或いは「もういいよ」が発話されたら、レベルを「低」に変移させることを示している。また、例えば、条件Ｎｏ７は、現在の集中度のレベルが「高」のときに、３０秒間にわたって特定話者による発話がなかった場合、レベルを「中」に変移させることを示している。
【００３３】
定義テーブル２２には、集中度のレベル毎に、集中度制御部１４が行う制御内容が定義されている。例えば、集中度のレベルが「低」の場合には、集中度制御部１４は、音声入力部１０の指向性を−１８０度〜１８０度とし、集中度設定テーブル２４に設定されている特定話者以外の音声認識結果も有効にする。また、集中度が「高」の場合には、集中度制御部１４は、音声入力部１０の方向を特定話者の方向にし、指向性を−４５度〜４５度とし、集中度設定テーブル２４に設定されている特定話者以外の音声認識結果を無効にする。
【００３４】
情報テーブル２３には、話者照合部１２が特定した話者の識別名と話者位置特定部１１で特定された方向とが対応付けて登録されている。この図１の例は、音声認識対話装置の基準方向に対して、父親が０度、母親が９０度、不明者が１８０度の位置に存在することを示している。
【００３５】
集中度設定テーブル２４には、現時点における集中度のレベルと、その対象となる特定話者の識別名とが対応して設定されている。この図１の例は、現時点の集中度のレベルが「高」で、父親が対象となっていることを示している。
【００３６】
次に、図１、図２及び図３を参照して本実施の形態の動作について詳細に説明する。
【００３７】
先ず、図１及び図２を参照して話者が発話したときの動作を説明する。話者が発話をすると、マイクロフォンアレイ等の音声入力部１０を介して入力された音声情報は、それぞれ話者位置特定部１１、話者照合部１２、音声認識部１３へ出力される。話者位置特定部１１では、入力された音声情報を分析し話者の音源方向の特定を行い、話者位置特定情報を集中度制御部１４へ出力する。話者照合部１２では、入力された音声情報を分析し、登録済みの話者の音声情報と照合し話者の特定を行い、照合話者情報を集中度制御部１４へ出力する。音声認識部１３では、入力された音声情報を分析し音声認識結果を集中度制御部１４へ出力する。
【００３８】
集中度制御部１４では、入力される話者位置特定情報と照合話者情報とをもとに、照合話者の情報テーブル２３の位置方向を更新する（図２、Ｓ２０）。
【００３９】
次に、集中度設定テーブル２４に設定されている集中度が、集中した対話状態であるか否かを判定する（Ｓ２１）。判定の結果、集中した対話状態を示すレベル「高」の場合は、照合された話者が、集中度設定テーブル２４中の特定話者の識別名と一致するか否かを判定する（Ｓ２２）。
【００４０】
そして、一致しない場合は、入力された音声認識結果を棄却する（Ｓ２３）。これに対して、一致する場合は、変移条件テーブル２１を検索し、現在レベルが集中度設定テーブル２４に設定されているレベルと一致し、且つ条件内容が音声認識結果と一致する条件を探す（Ｓ２４）。なお、ステップＳ２１でレベル「高」でないと判定された場合も、ステップＳ２４の処理が行われる。
【００４１】
ステップＳ２４において、該当する条件を探し出すことができなかった場合は、ステップＳ２６の処理を行う。これに対して該当する条件を探し出すことができた場合は、集中度設定テーブル２４に設定されている集中度のレベルを、ステップＳ２４で探し出した条件中の変移レベルに変更した後（Ｓ２５）、ステップＳ２６の処理を行う。ステップＳ２６では、集中度設定テーブル２４に設定されている特定話者の識別名を、話者照合部１２で特定された話者の識別名に変更する処理が行われる。
【００４２】
次に、話者への集中度制御部１４は、集中度設定テーブル２４と情報テーブル２３とを参照し、特定話者の位置方向をマイクロフォンアレイ等の方向の設定情報として音声入力制御部１５へ出力すると共に、定義テーブル２２を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部１５へ出力し（Ｓ２７）、更に、音声認識結果と照合話者情報とを対話制御部１７へ出力する（Ｓ２８）。
【００４３】
音声入力制御部１５では、話者への集中度制御部１４より入力されたマイクロフォンアレイ等の方向、指向性の設定情報をもとに、音声入力部１０のマイクロフォンアレイ等の指特性や方向を調整する。
【００４４】
対話制御部１７では、話者への集中度制御部１４より入力された音声認識結果と照合話者情報をもとに、次の応答する内容を決定し、音声合成部１８に応答内容を出力する。
【００４５】
音声合成部１８では、入力された応答内容から合成音声を生成し、スピーカー等の音声出力部１９を介して合成音声を出力する。
【００４６】
次に、図１及び図３を参照して、他イベント管理部１６が、予め定められているイベントの発生を検出した場合の動作を説明する。他イベント管理部１６は、予め定められているイベントの発生を検出すると、発生したイベントの種類を集中度制御部１４に通知する。
【００４７】
これにより、集中度制御部１４は、変移条件テーブル２１を検索し、現在レベルが集中度設定テーブル２４に設定されているレベルと一致し、且つ条件内容が通知されたイベントの種類と一致する条件を探す（図３、Ｓ３１）。
【００４８】
そして、ステップＳ３１において該当する条件を探し出すことができなかった場合は、集中度制御部１４は処理を終了する。これに対して、該当する条件を探し出すことができた場合は、集中度制御部１４は、集中度設定テーブル２４に設定されている集中度のレベルを、探し出した条件中の変移レベルに変更し（Ｓ３２）、定義テーブル２２を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部１５へ出力し（Ｓ３３）、その後、処理終了となる。
【００４９】
次に、データベース２０内の変移条件テーブル２１および定義テーブル２２の内容が図１に示すものであり、集中度設定テーブル２４に集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されている場合を例に挙げて本実施の形態の動作を詳細に説明する。
【００５０】
例えば、音声認識対話装置の背面、側面にそれぞれ父親、母親がいるような複数の話者が別の方向にいる状況下で、父親が「こんにちは」と発話したとする。
【００５１】
この場合、集中度制御部１４は、先ず、話者位置特定部１１から入力される話者位置特定情報と、話者照合部１２から入力される照合話者情報とに基づいて、情報テーブル２３中の父親の位置方向を更新する（図２、Ｓ２０）。その後、集中度制御部１４は、変移条件テーブル２１中の条件Ｎｏ５に従って、集中度設定テーブル２４の集中度のレベルを「中」に変更し、更に、集中度の対象となる特定話者を「父親」に変更する（Ｓ２１がＮｏ、Ｓ２４がＹｅｓ、Ｓ２５、Ｓ２６）。その後、集中度制御部１４は、定義テーブル２２中の集中度のレベル「中」の定義内容に従って、音声入力部１０の方向を特定話者である父親のいる背面方向に向けると共に指向性を−９０度〜９０度に調整する（Ｓ２７）。更に、集中度制御部１４は、ステップＳ２８の処理を行い、これにより、父親が発話した「こんにちは」に対する応答が音声出力部１９から出力される。
【００５２】
その後、側面にいる母親が「元気？」と変移条件テーブル２１の条件内容と一致しない発話を行った場合、集中度制御部１４は、情報テーブル２３中の母親の位置方向を更新し（Ｓ２０）、更に、集中度設定テーブル２４の集中度をレベル「中」の通常の対話状態を持続したまま、集中度の対象となる特定話者を「母親」に変更する（Ｓ２１がＮｏ、Ｓ２４がＮｏ、Ｓ２６）。その後、集中度制御部１４は、音声入力部１０の方向を特定話者である母親のいる側面方向に向けると共に、指向性を−９０度〜９０度に調整する（Ｓ２７）。更に、集中度制御部１４はステップＳ２８の処理を行い、これにより母親が発話した「元気？」に対する応答が音声出力部１９から出力される。
【００５３】
その後、父親が「元気だよね」等と発話した場合は、集中度制御部１４は、ステップＳ２０で情報テーブル２３中の父親の位置方向を更新し、ステップＳ２６で集中度設定テーブル２４中の集中度の対象となる特定話者を父親に変更し、ステップＳ２７で音声入力部１０の方向を、特定話者である父親のいる位置方向に変更する。このように、別の方向にいる父親と母親が代わる代わる音声認識対話装置を相手に対話を行うことができる。
【００５４】
このような通常の対話状態中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、「よく聞いて」と発話する。これにより、集中度制御部１４は、ステップＳ２０において情報テーブル２３中の父親の位置方向を変更し、ステップＳ２５において、変移条件テーブル２１の条件Ｎｏ４に従って、集中度設定テーブル２４の集中度のレベルを「高」に変移させ、ステップＳ２６において、集中度の対象となる特定話者を「父親」に変更し、ステップＳ２７において、音声入力部１０の方向を特定話者である父親のいる位置方向に向けると共に指向性を−４５度〜４５度に調整する。この状況下で、父親が続けて対話を行えば、音声入力部１０がまわりの関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。このため、この状況下で母親が何か発話した場合でも、指向性の調整結果により音声入力部１０が音声を捕捉する確率が低減する。仮に、音声入力部１０が音声を捕捉したとしても話者照合部１２で照合される話者は母親となり、現在の集中度設定テーブル２４の集中度の対象となる特定話者の父親と一致しないため（Ｓ２２がＮｏ）、母親の発話内容の音声認識結果は棄却されることになる（Ｓ２３）。
【００５５】
次に、この状況下で、父親が、「昨日のことだけど」等と変移条件テーブル２１の条件内容と一致しない発話を行った場合は、ステップＳ２４の判断結果がＮｏとなるので、集中度設定テーブル２４の集中度のレベルが「高」に保たれたままとなり、父親との集中した対話状態を持続される。
【００５６】
次に、この状況下で、父親が、集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部１４は、ステップＳ２５において、変移条件テーブル２１中の条件Ｎｏ２に従って、集中度設定テーブル２４の集中度のレベルを「低」に変移させ、ステップＳ２７において、定義テーブル２２の集中度のレベル「低」の定義内容に基づき、指向性を−１８０度〜１８０度に調整する。また、ステップＳ２５において、集中度設定テーブル２４中のレベルが「低」に変更されているので、次回から特定話者以外の音声認識結果も棄却されずに有効となる（Ｓ２１がＮｏ）。
【００５７】
また仮に、現在の集中度設定テーブル２４の集中度の対象となる特定話者である父親が、集中度のレベルを「高」にしたまま、即ち集中した対話状態にしたままその場を立ち去った場合でも、他イベント管理部１６からの通知に基づいて、母親や他の話者が音声認識対話装置と対話を行えるようになる。
【００５８】
即ち、他イベント管理部１６は、集中度設定テーブル２４に設定されている特定話者の発話がない時間が３０秒続くというイベントを検出すると、上記イベントの種類を集中度制御部１４に通知する。これにより、集中度制御部１４は、変移条件テーブル２１中の条件Ｎｏ７に基づいて、集中度設定テーブル２４中の集中度のレベルを「中」に変更し（図３、Ｓ３１がＹｅｓ、Ｓ３２）、その後、定義テーブル２２中のレベル「中」の指向性に基づいて、音声入力制御部１５に対して、音声入力部１０の指向性−９０度〜９０度に調整することを指示する（Ｓ３３）。
【００５９】
さらに、集中度設定テーブル２４に登録されている特定話者による発話がない時間が３０秒続くと、他イベント管理部１６は、再度上記イベントの種類を集中度制御部１４に通知する。これにより、集中度制御部１４は、変移条件テーブル２１中の条件Ｎｏ６に基づいて、集中度設定テーブル２４中の集中度のレベルを「低」とし（Ｓ３１がＹｅｓ、Ｓ３２）、その後、定義テーブル２２中のレベル「低」の指向性に基づいて音声入力制御部１５に対して、音声入力部１０の指向性を−１８０度〜１８０度に調整することを指示する（Ｓ３３）。以上のように、発話がない時間が３０秒続くと、集中度設定テーブル２４中のレベルが「高」から「中」へ、或いは「中」から「低」へ変更されるので、特定話者である父親が集中度のレベルを「高」にしたまま、その場を立ち去っても、母親や他の話者が音声認識対話装置と対話することが可能になる。
【００６０】
なお、他イベント管理部１６は、例えば、次のようにして、集中度設定テーブル２４に登録されている特定話者による発話がない時間が３０秒続いたことを検出する。
【００６１】
他イベント管理部１６には、集中度制御部１４からクリア信号と、カウント開始信号とが入力されている。クリア信号は、集中度制御部１４が、集中度設定テーブル２４に設定されている特定話者の発話開始を検出したときに出力する信号であり、カウント開始信号は、集中度制御部１４が集中度設定テーブル２４に設定されている特定話者の発話終了を検出したときに出力する信号である。他イベント管理部１６は、その内部にカウンタを有しており、クリア信号が入力されると、カウンタのカウント値を「０」にすると共にカウント動作を停止し、カウント開始信号が入力されると、カウント動作を開始する。そして、カウント値が３０秒に対応する値になると、集中度制御部１４に対して発話のない時間が３０秒続いたことを通知し、更に、カウント値を「０」にしてカウント動作を再開する。
【００６２】
次に、例えば、音声認識対話装置の背面に父親と母親がいるような複数の話者が同じ方向にいる状況下において、父親が「こんにちは」と発話した場合の動作を説明する。なお、変移条件テーブル２１、定義テーブル２２の内容は図１に示すものであり、集中度設定テーブル２４には、集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されているとする。
【００６３】
父親が「こんにちは」と発話すると、集中度制御部１４は、ステップＳ２０において、情報テーブル２３中の父親の位置方向を更新し、ステップＳ２５において、変移条件テーブル２１の条件Ｎｏ５に従って、集中度設定テーブル２４中の集中度のレベルを「中」に変更し、ステップＳ２６において集中度設定テーブル２４に集中度の対象となる特定話者として「父親」を設定する。その後、集中度制御部１４は、ステップＳ２７において、定義テーブル２２の集中度のレベル「中」の定義内容に基づいて、音声入力部１０の方向を特定話者である父親のいる背面方向に調整すると共に、指向性を−９０度〜９０度に調整する。
【００６４】
この状況下で、同じ方向にいる母親が「元気？」と発話した場合は、集中度制御部１４は、集中度設定テーブル２４の集中度をレベル「中」の通常の対話状態にしたまま、集中度の対象となる特定話者を母親に変更する（Ｓ２４がＮｏ、Ｓ２６）。集中度設定テーブル２４のレベルが「中」のままであるので、音声入力部１０は同じ方向を向いたままとなる。この状況下で父親が「元気だよね」等と発話した場合は、現在の集中度設定テーブル２４の集中度の対象となる特定話者が父親に変更されるというように、同じ方向にいる父親と母親とが音声認識対話装置と代わる代わる対話を行うことができる。
【００６５】
このような対話中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、父親は「よく聞いて」と発話する。これにより、集中度制御部１４は、ステップＳ２５において、変移条件テーブル２１中の条件Ｎｏ４に従って、集中度設定テーブル２４中の集中度のレベルが「高」に変更し、ステップＳ２６において、集中度の対象となる特定話者を「父親」に変更する。この状況下で同じ方向にいる母親が何か発話した場合、音声入力部１０で音声を捕捉するが話者照合部１２で照合される話者は母親となり、現在の集中度設定テーブル２４の集中度の対象となる特定話者の父親と一致しないため、母親の発話内容の音声認識結果は棄却されることになり（Ｓ２１がＹｅｓ、Ｓ２２がＮｏ、Ｓ２３）、父親と集中して対話ができるようになる。また、集中度設定テーブル２４の集中度のレベルが「高」の時は、集中度の定義テーブル２２の集中度のレベル「高」の定義内容により指向性も−４５度〜４５度に調整されるため、音声入力部１０が別の方向の関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。
【００６６】
次に、この状況下で、父親が、「昨日のことだけど」等と集中度の変移条件テーブル２１の集中度の条件内容と一致しない発話を行った場合（Ｓ２４がＮｏ）は、集中度設定テーブル２４の集中度のレベルを「高」にしたままの集中した対話状態を持続する。
【００６７】
次に、この状況下で、父親が集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部１４は、ステップＳ２５において、変移条件テーブル２１中の条件Ｎｏ２に従って、集中度設定テーブル２４中の集中度のレベルを「低」に変更し、ステップＳ２７において音声入力部１０の指向性を−１８０度〜１８０度に調整する。集中度設定テーブル２４の集中度のレベルが、あらゆる方向からの発話も捕捉できる集中度が発散した状態を表す「低」となるので、次回から特定話者以外の音声認識結果も棄却されずに有効とされる（Ｓ２１がＮｏ）。
【００６８】
また仮に、集中度設定テーブル２４に識別名が設定されている特定話者である父親が、集中度のレベル「高」の集中した対話状態にしたままその場を立ち去った場合でも、図３の流れ図を用いて既に説明してあるように、発話がない時間が３０秒続くと集中度の変移条件テーブル２１の条件Ｎｏ７により、集中度設定テーブル２４中の集中度のレベルが「中」に変移し、さらに発話がない時間が３０秒続くと集中度の変移条件テーブル２１の条件Ｎｏ６により、集中度設定テーブル２４中の集中度のレベルが「低」に変移するため、母親や他の話者も音声認識対話装置と対話することが可能になる。
【００６９】
次に本実施の形態の効果について説明する。
【００７０】
本実施の形態では、複数の話者が別の方向や同じ方向にいる状況下で、話者への集中度制御部１４で話者への集中度を制御することにより、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り換えを、対話の中で自然に行うことができる。
【００７１】
また、特定の話者との対話中に、他の関係のない人の発話や雑音を拾ってしまう確率を対話の中で低減させることができる。
【００７２】
【発明の他の実施例】
図４は、本発明の第２の実施の形態を示すブロック図である。図４を参照すると、本発明の第２の実施の形態は、図１に示された第１の実施の形態と、画像入力部４０が追加されている点、話者位置特定部１１の代わりに話者位置特定部４１を備えている点、話者照合部１２の代わりに話者照合部４２を備えている点が相違している。なお、他の図１と同一符号は同一部分を表している。
【００７３】
画像入力部４０は、３６０度の範囲の画像情報を取り込む機能を有するものであり、例えば、複数台のＣＣＤカメラ等により実現される。
【００７４】
話者位置特定部４１は、音声入力部１０から入力される音声情報と、画像入力部４０から入力される画像情報とに基づいて、発話した話者の方向を特定する機能を有する。
【００７５】
話者照合部４２は、音声入力部１０からの音声情報と画像入力部４０からの画像情報とに基づいて話者を特定する機能を有する。
【００７６】
次に本実施の形態の動作について説明する。
【００７７】
話者位置特定部４１は、音声入力部１０から音声情報が入力されると、先ず、音声情報に基づいて発話した話者の方向を特定する。その後、話者位置特定部４１は、画像入力部４０が入力した画像情報に基づいて、音声認識対話装置の周囲にいる全ての話者の方向を求める。その後、画像情報に基づいて求めた各話者の方向の内の、音声情報に基づいて求めた話者の方向に最も近い方向を発話した話者が存在する方向とし、その方向を集中度制御部１４に出力する。
【００７８】
話者照合部４２は、音声入力部１０から音声情報が入力されると、音声情報に基づいて発話した話者を特定する。更に、話者照合部４２は、画像入力部４０を解析し、口元が動いている話者を認識し、この話者の顔の画像と、予め登録されている複数の話者の顔画像とを照合することにより、発話した話者を特定する。音声情報により特定した話者と、画像情報により特定した話者とが一致する場合は、上記話者を示す照合話者情報を集中度制御部１４に対して出力し、一致しない場合は、例えば、画像情報により特定した話者を示す照合話者情報を集中度制御部１４に対して出力する。
【００７９】
上記した動作以外は、第１の実施の形態と同様であるので、ここでは、説明を省略する。
【００８０】
上述したように本実施の形態は、マイクロフォンアレイ等の音声入力部１０に加え、カメラ等の画像入力部４０を備えており、音声情報と画像情報の両方に基づいて、発話した話者の方向、発話した話者を認識しているので、認識精度を高いものにすることができる。
【００８１】
図５は、本発明の第３の実施の形態を示すブロック図である。図５を参照すると、本発明の第３の実施の形態は、図１に示された第１の実施の形態の構成に音声モデルデータベース５１を追加した点、音声認識部１３の代わりに音声認識部５２を備えた点、および集中度制御部１４の代わりに集中度制御部５３を備えた点で異なる。なお、他の図１と同一符号は、同一部分を表している。
【００８２】
音声モデルデータベース５１には、音声認識対話装置を使用する各話者それぞれの音声モデル、および標準音声モデルが登録されている。これらは、音声認識を行う際に使用される。
【００８３】
集中度制御部５３は、集中度制御部１４が備えている機能に加え、集中度設定テーブル２４に設定されている特定話者識別名を音声モデルデータベース５１に設定する。
【００８４】
音声認識部５２は、音声認識を行う際、音声モデルデータベース５１中の音声モデルの内、集中度制御部５３によって設定されている特定話者識別名と対応する話者の音声モデルを使用して音声認識を行う。このようにすることにより、集中度の対象となる特定話者の音声認識率を向上させることができる効果がある。なお、特定話者識別名が「不明」となっている場合は、音声認識部５２は、標準音声モデルを使用して音声認識を行う。
【００８５】
図６は本発明に係る音声認識対話装置のハードウェア構成の一例を示すブロック図であり、コンピュータ６１と、記録媒体６２と、音声入力部６３と、音声出力部６４と、データベース６５とから構成されている。音声入力部６３、音声出力部６４、データベース６５は、それぞれ図１に示した音声入力部１０、音声出力部１９、データベース２０に対応する。記録媒体６２は、ディスク、半導体メモリ、その他の記録媒体であり、コンピュータ６１を音声認識対話装置の一部として機能させるためのプログラムが記録されている。このプログラムは、コンピュータ６１によって読み取られ、その動作を制御することで、コンピュータ６１上に図１に示した話者位置特定部１１、話者照合部１２、音声認識部１３、集中度制御部１４、音声入力制御部１５、他イベント管理部１６、対話制御部１７、音声合成部１８を実現する。
【００８６】
【発明の効果】
第１の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、別の方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【００８７】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部の指向性や方向を調整させることができるためである。
【００８８】
第２の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、同じ方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【００８９】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、特定話者以外の話者の発話を無効にできるためである。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成例を示すブロック図である。
【図２】話者位置特定部１１、話者照合部１２、音声認識部１３から入力があったときの集中度制御部１４の処理例を示す流れ図である。
【図３】他イベント管理部１６から通知があったときの集中度制御部１４の処理例を示す流れ図である。
【図４】本発明の第２の実施の形態の構成例を示すブロック図である。
【図５】本発明の第３の実施の形態の構成例を示すブロック図である。
【図６】音声認識対話装置のハードウェア構成の一例を示すブロック図である。
【図７】従来の技術を説明するためのブロック図である。
【符号の説明】
１０　音声入力部
１１　話者位置特定部
１２　話者照合部
１３　音声認識部
１４　集中度制御部
１５　音声入力制御部
１６　他イベント管理部
１７　話者制御部
１８　音声合成部
１９　音声出力部
２０　データベース
２１　変移条件テーブル
２２　定義テーブル
２３　情報テーブル
２４　集中度設定テーブル
４０　画像入力部
４１　話者位置特定部
４２　話者照合部
５１　音声モデルデータベース
５２　音声認識部
５３　集中度制御部
６１　コンピュータ
６２　記録媒体
６３　音声入力部
６４　音声出力部
６５　データベース
７０　音声入力部
７１　音声入力制御部
７２　音声特徴ベクトル抽出部
７３　音声認識部
７４　認識結果表示部
７５　画像情報入力部
７６　画像情報解析部

Claims

音声情報を取り込むための音声入力部と、
発話した話者の方向を特定する話者位置特定部と、
発話した話者を特定する話者照合部と、
音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
話者への集中度を制御する話者への集中度制御部と、
集中度のレベルにあわせて、音声入力部の入力状態を調整する音声入力制御部と、
話者への集中度制御部が集中度を制御する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベースとを備えたことを特徴とする音声認識対話装置。
音声情報を取り込む音声入力部と、
発話した話者の方向を特定する話者位置特定部と、
発話した話者を特定する話者照合部と、
前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブルと、
該集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部と、
該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部とを備えたことを特徴とする音声認識対話装置。
請求項２記載の音声認識対話装置において、
所定のイベントが発生したことを検出する他イベント管理部を備え、且つ、
前記集中度制御部が、前記他イベント管理部によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブルに設定されている集中度のレベルを変更する構成を有することを特徴とする音声認識対話装置。
請求項３記載の音声認識対話装置において、
前記所定のイベントが、前記集中度設定テーブルに特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
前記集中度制御部が、前記他イベント管理部で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブルに設定されている集中度のレベルが、該集中度設定テーブルに設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブルに設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる構成を有することを特徴とする音声認識対話装置。
請求項１乃至４記載の何れか１つの音声認識対話装置において、
前記音声入力部が、指向性を可変できるマイクロフォンアレイから構成されることを特徴とする音声認識対話装置。
請求項１乃至５記載の何れか１つの音声認識対話装置において、
前記話者位置特定部が、前記音声入力部が入力した音声情報に基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。
請求項１乃至６記載の何れか１つの音声認識対話装置において、
前記話者照合部が、前記音声入力部が入力した音声情報に基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。
請求項１乃至５記載の何れか１つの音声認識対話装置において、
画像情報を取り込む画像入力部を備え、且つ、
前記話者位置特定部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。
請求項１乃至５記載の何れか１つの音声認識対話装置において、
画像情報を取り込む画像入力部を備え、且つ、
前記話者照合部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。
請求項１乃至５記載の何れか１つの音声認識対話装置において、
複数の話者それぞれの音声モデルが登録された音声モデルデータベースを備え、
前記音声認識部が、前記音声モデルデータベースに登録されている各話者の音声モデルの内、前記集中度設定テーブルに特定話者識別子が設定されている特定話者の音声モデルを使用して音声認識を行う構成を有することを特徴とする音声認識対話装置。
請求項１記載の音声認識対話装置において、
前記話者及び集中度管理のデータベースは、
話者への集中度のレベルが変移する条件内容を格納した集中度の変移条件テーブルと、
集中度のレベル毎の、マイクロフォンアレイ等の指向性や方向等を定義した集中度の定義テーブルと、
話者が発話したことにより照合される話者とその位置情報を格納する照合話者の情報テーブルと、
現在設定されている集中度のレベルとその対象となる話者情報を格納する現在の集中度設定テーブルとを備え、
話者への集中度を制御するための必要な情報を参照および更新できる構成を有することを特徴とする音声認識対話装置。
音声情報を取り込む音声入力部を備えたコンピュータを音声認識対話装置として機能させるためのプログラムであって、
前記コンピュータを、
発話した話者の方向を特定する話者位置特定部、
発話した話者を特定する話者照合部、
前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部、
特定話者を示す特定話者識別名および該特定話者識別名によって示される特定話者に対する集中度のレベルが設定される集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部、
該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部として機能させるためのプログラム。