JP2013037097A

JP2013037097A - 音声処理装置

Info

Publication number: JP2013037097A
Application number: JP2011171621A
Authority: JP
Inventors: 広宣 ▲柳▼田; Hironobu Yanagida
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2013-02-21

Abstract

【課題】対話シナリオを実行する音声処理装置を使用している利用者が居眠りに陥った場合に、利用者を目覚めさせることが可能な音声処理装置を提供する。
【解決手段】音声出力部と、音声認識部と、第１の制御部と、対話シナリオ及び音声出力データが記憶された第１の記憶部と、を含み、前記第１の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第１の制御部に伝達されないときは、前記第１の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする。
【選択図】図１

Description

本発明は、音声処理装置に関し、特に利用者との対話処理を行う音声処理システムに関する。

従来、人との会話を行うものとして会話ボット若しくはおしゃべりボットと呼ばれるものが存在する。会話ボットは人との会話をシミュレーションする装置であるが、会話の内容は理解しない。このため、会話ボットは人工無能とも呼ばれる。たとえば、利用者の音声をそのまま繰り返して利用者に話しかける、特許文献１に記載されたおしゃべりオウムのようなものも会話ボットである。しかしながら、その歴史は古く、１９６６年にジョセフ・ワイゼンハイムが開発したＥＬＩＺＡと呼ばれる会話ボットシステムが発端とされる。ＥＬＩＺＡは、セラピストを装い患者の言葉を質問に変換して鸚鵡返しするものである。その後、このような会話ボットシステムは、上記したような治療は基より、高齢者等の話し相手や自動車等の運転における居眠り防止などの用途に用いられるようになってきている。

上述したように、会話ボットは利用者の発する単語と同じ単語を発声することから、利用者にとって飽き易いという欠点もある。これを解決するために、特許文献２では、利用者にとって好ましいと思える会話の特性／話題等を把握し対話処理を行うことで、運転者等の利用者の退屈の解消や利用者の居眠り防止等を実現することができることが記載されている。

特開平１１−９４８７号公報特開２０１１−１２５９００号公報

しかしながら、利用者にとって好ましいと思える会話の特性／話題等を行うことが、逆に利用者に対してある種の緊張感の低下を招き、場合によっては利用者が居眠りしてしまうことがあると想定される。

本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。

［適用例１］
本適用例にかかる音声処理装置は、音声出力部と、音声認識部と、第１の制御部と、対話シナリオ及び音声出力データが記憶された第１の記憶部と、を含み、前記第１の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第１の制御部に伝達されないときは、前記第１の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする。

この構成によれば、音声処理装置が、音声出力部と、音声認識部と、第１の制御部と、対話シナリオ及び音声出力データが記憶された第１の記憶部とを含み、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第１の制御部に伝達されないときは、前記第１の制御部は前記音声出力部を用いて警告を示す音声を発声させることで、該音声処理装置を利用しながら居眠りに陥ってしまった人若しくは居眠りに陥ろうとしている人に注意を喚起することができる。

［適用例２］
上記適用例にかかる音声処理装置において、前記第１の制御部は、前記所定の時間を計測するための計測カウンターを有し、前記所定の時間を計測するためのカウント値は、前記返答待ちの場面毎に設定されることが好ましい。

この構成によれば、第１の制御部が所定の時間を計測するための計測カウンターを有し、該所定の時間を計測するためのカウント値を返答待ちの場面毎に設定することで、返答待ちの場面に応じた待ち時間の設定を行うことができる。対話シナリオにおける返答待ちの場面は、利用者が即座に返答できる場面や利用者が思考若しくは確認などを必要とする場面などの様々な場面があると考えられる。このため、例えば単に利用者の応答の平均時間で待ち時間を設定している場合、即答可能な対話の後で思考の必要な対話が出現した場合、思考中に待ち時間が経過してしまう可能性がある。返答待ちの場面における待ち時間を、その場面に応じて思考時間を加味して設定することで、利用者に対してより自然で好ましい対話環境を設定することができる。

［適用例３］
上記適用例にかかる音声処理装置において、前記対話シナリオにおける最初の前記返答待ちの場面において、前記所定の時間は前記計測カウンターで計測ができる最大値がカウント値として設定されることが好ましい。

この構成によれば、対話シナリオにおける最初の返答待ちの場面において所定の時間を計測カウンターで計測できる最大の時間とすることで、最初の返答待ちの場面において所定の時間が経過するという状況が発生する可能性の低下を図ることができる。対話シナリオがスタートしての最初の返答待ちの場面は、利用者が居眠りをしている状態にあることや退屈している状態にあることは他の場面と比較して少なく、利用者が自身にとって適切なタイミングで応答してくれることを期待することできる。従って、所定の時間の設定を計測カウンターで計測できる最大値としても該計測カウンターがカウントアップする可能性は低く、対話シナリオの実質的な進行に対する影響はないと判断でき、不用意な警告を発することを防ぐことができる。

［適用例４］
上記適用例にかかる音声処理装置において、前記所定の時間は、前記返答待ちの場面において、前記第１の制御部が前記音声認識結果を認識するまでに要した時間を基に変更されることが好ましい。

この構成によれば、所定の時間の変更が、返答待ちの場面に移行してから音声認識結果が伝達されるまでに要した時間を基に変更されることで、利用者にとって、所定の時間が適切な時間の長さとなるようにしていくことができる。上記したように、所定の時間は返答待ちの場面によって異なってくる。対話シナリオの中には返答待ちの時間が複数あり、該複数の返答待ちの場面は、例えば利用者が即答可能な返答待ちの場面や利用者が思考した上で返答することが必要な返答待ちの場面など、複数の種類分けが可能である。この種類毎に第１の制御部が音声認識結果を認識するまでに要した時間を基にそれぞれの返答待ちの場面における所定の時間のカウント値を変更していくことで、装置の対応をより利用者に適したものとすることができる。

［適用例５］
上記適用例にかかる音声処理装置において、前記第１の制御部は、前記対話シナリオに関連付けて、前記音声認識結果の履歴を前記第１の記憶部に記憶することが好ましい。

この構成によれば、第１の制御部が対話シナリオに関連付けて音声認識結果を第１の記憶部に記憶することで、該音声認識結果を該対話シナリオの履歴として用いることができる。該履歴は、利用者が患者である場合において後の治療に用いることも可能となる。

［適用例６］
上記適用例にかかる音声処理装置において、前記対話シナリオは異なる内容のものが複数存在し、対話者によりいずれの前記対話シナリオを用いるかの選択が可能であることが好ましい。

この構成によれば、複数の対話シナリオを用意し、利用者がいずれの対話シナリオを用いるかを選択可能とすることにより、利用者が繰り返し同じ対話シナリオを用いることをなくすことができる。複数の対話シナリオは、第１の記憶部に最初から記憶されていてもよく、外部記憶装置やネットワークなどを用いて第１の記憶部に新たに記憶させるようにしてもよい。いずれにしても、複数の対話シナリオを有することにより、利用者が装置の使用に飽きることを防ぐことができる。

音声処理装置の概略ブロック図。第１実施形態における処理のフローチャートの一部。第１実施形態における処理のフローチャートの一部。音声シナリオのチャート図の例。音声シナリオのチャート図の例。音声処理装置の一形態の概略ブロック図。

以下、図を用いて本発明の実施形態について説明する。本実施形態の説明に用いる図は、説明の便宜上、説明に不要な部分についての記載を省略若しくは簡単化して記載を行っている。尚、以降の記載において、２進数のデータは数値の末尾にｂをつけて表し、１６進数のデータは数字の末尾にｈをつけて表すものとする。

（第１実施形態）
図１に本実施形態における音声処理装置１０の概略ブロック図を示す。音声処理装置１０は、対話ボットの機能を有する装置であり、マイク２１とスピーカー２２が接続されている。利用者は、スピーカー２２から出力される音声を聞き、マイク２１に話しかけることで音声処理装置１０と対話を行う。尚、本実施形態において、マイク２１及びスピーカー２２は、音声処理装置１０とのインターフェイスが適切に取られているものとする。

音声処理装置１０は、音声認識部１１、第１制御部１２、第１記憶部１３及び音声出力部１４を有する。また、第１制御部１２は、計測カウンター３１を有する。また、第１記憶部１３には、対話シナリオ、スピーカー２２から出力する音声を合成するための音声データ、及び、音声認識のために必要なデータ（音声特徴データ）などが記憶されている。対話シナリオは、複数用意されているものとする。

音声認識部１１は、音声処理装置１０に取り込まれた音声を処理し、所定の記号列に変換する機能を有する。図示はしないが、音声認識部１１には、マイク２１からのアナログ信号をデジタル信号に変換するＡＤ変換器が含まれる。音声認識部１１は、デジタル変換された音声の所定の記号列の中から意味のあるフレーズを抽出し、第１制御部１２に伝搬する。該意味のあるフレーズの抽出には第１記憶部１３に記憶されている音声特徴データが用いられる。

音声出力部１４は、第１制御部１２の指示に従い、対話シナリオに定義された音声データの合成を行い、スピーカー２２を介して音声を出力する機能を有する。

第１制御部１２は、第１記憶部１３に記憶された対話シナリオに基づき音声認識部１１及び音声出力部１４の制御を行う部分である。図示しない操作手段により音声処理装置１０の電源が投入され利用者の操作により対話のスタートが指示されると、音声処理装置１０は、第１記憶部１３の対話シナリオを参照して音声認識部１１及び音声出力部１４に必要な処理を行わせることで、該対話シナリオを進行させる。

図２に、音声処理装置１０における処理の一部をフローチャート１００として示す。利用者により音声処理装置１０の電源の投入が行われると、ハードウェア動作としてのパワーオンリセットが実行される。その後、音声処理装置１０において必要な初期設定が行われる（Ｓ００１）。初期設定は音声処理装置１０が適切な動作を行うために必要な動作モード等の設定を行うことであり、これにより第１制御部１２、音声認識部１１及び音声出力部１４がそれぞれの機能を果たすにために適切な状態におかれることになる。

次にユーザーインターフェイス（ＵＩ）の起動が行われ、利用者が音声処理装置１０の操作ができるようになる（Ｓ００２）。これにより、音声処理装置１０は利用者からの指示待ちの状態となる（Ｓ００３）。本実施形態においては、説明の便宜上、利用者の操作は音声処理装置１０の処理を終了させるか対話シナリオの選択を行うことに限られるものとする。尚、特に言及しないが、初期設定若しくはＵＩの起動を実行する部分は、図１に図示しない音声処理装置１０の構成要素が行うことでもよく、第１制御部１２が行うことでもよい。

利用者により操作が行われると、まず終了指示かどうかの判断が行われる（Ｓ００４）。終了指示の場合、所定の終了処理を行い音声処理装置１０の処理は終了する。終了処理でない場合は利用者により対話シナリオの選択がされているので、シナリオ選択の処理を行う（Ｓ００５）。次いで、第１制御部１２は、対応する対話シナリオの該当場面（この場合はスタートの場面）のデータを読み出し、以降、対話シナリオの進行に必要な処理を行う（Ｓ００６、Ｓ００７及びＳ００９など）。該当場面が音声出力を行う場面である場合は、音声出力の処理を実行（Ｓ００８）し、シナリオが終了したかどうかを判断（Ｓ０１５）し、終了でない場合は次の場面の実行を行うためにシナリオ進行の処理（Ｓ００６）に戻る。また、該当場面が音声入力を行う場面である場合は音声認識の処理（Ｓ０１０〜Ｓ０１４）に進み、そうでない場合はシナリオが終了したかどうかを判断（Ｓ０１５）し、終了でない場合はシナリオ進行の処理（Ｓ００６）に戻る。尚、対話シナリオが終了したと判断した場合（Ｓ０１５）は、利用者の指示待ちの状態（Ｓ００３）に戻る。

第１制御部１２における音声認識の処理（Ｓ０１０〜Ｓ０１４）は、以下のように実行される。まず、第１制御部１２は、音声認識部１１の動作をオンとし、返答待ちの時間を監視するための計測カウンター３１に所定の値を設定し計測カウンター３１を起動させる（Ｓ０１０）。次に、音声認識部１１及び計測カウンター３１の割込みを許可とする（Ｓ０１１）。その後、音声認識部１１の割込み処理の中でオンにされる処理フラグの監視（Ｓ０１２）、計測カウンター３１の割込み処理の中でオンにされるカウントアップフラグの監視（Ｓ０１３）を行う。

処理フラグがオンの場合は、利用者からの返答があり音声認識処理が正常に行われたことを示す。この場合は、シナリオが終了したかどうかを判断（Ｓ０１５）し、終了でない場合はシナリオ進行の処理（Ｓ００６）に戻る。カウントアップフラグがオンの場合は、返答待ちの時間として設定した時間内に利用者の返答がなかった場合である。この場合は、利用者に返答を促すための警告処理（Ｓ０１４）が行われる。その後、計測カウンター３１の割込み処理は割込み不許可の状態で終了していることから、割込みを許可し（Ｓ０１１）し、割込み処理の終了を監視する上記の処理（Ｓ０１２、Ｓ０１３）を繰り返す。

対話シナリオの進行の上で正常な形で割込み処理の監視（Ｓ０１２、Ｓ０１３）の状態を抜けるのは、処理フラグがオンと判断（Ｓ０１２）されて抜ける場合である。これは、利用者から返答があり、該返答の内容を所定の時間経過前に認識することができたことを示す。この場合、対話シナリオを進行させるためにフローチャート１００のＳ０１５に処理が進むことになる。

対話シナリオの進行の上で正常でない形で割込み処理の監視（Ｓ０１２、Ｓ０１３）の状態を抜けるのは、利用者からの返答による音声認識結果が、計測カウンター３１で計測する所定の時間を経過しても得られないときである。この場合が、計測カウンター３１の割込み処理でカウントアップフラグがオンとなった場合である。この場合は、フローチャート１００のＳ０１３でフラグのオンが判断され、警告処理（Ｓ０１４）に進む。尚、警告処理（Ｓ０１４）については後述する。警告処理（Ｓ０１４）は、割込みマスクの状態で行われることから、警告処理（Ｓ０１４）の後は割込み許可（Ｓ０１１）に進み、利用者の返答を待つ状態に移行し、割込み処理の終了を監視する上記の処理（Ｓ０１２、Ｓ０１３）を繰り返す。尚、利用者からの返答の音声認識結果が得られない場合は、割込み処理の終了を監視する処理、警告処理が繰り返されることになる。

音声認識部１１からの割込みは、音声認識部１１が認識すべき所定のフレーズを認識したときに発生する。この割込みが発生したときは、第１制御部１２は、利用者の返答があり、該返答が正常に認識されたと判断する。

音声認識部１１の割込み処理の概略フローチャートを図３−（ａ）に示す。割込み処理に入ると、まず多重割込みとならないように割込みをマスクする（Ｓ１０１）。次に、第１制御部１２は、音声認識部１１の音声認識結果を確認し（Ｓ１０２）、その結果を第１記憶部１３の所定の領域に保存する（Ｓ１０３）。該認識結果は、対話シナリオのシーンナンバー（説明は後述）と関連付けて記憶され、該対話シナリオの終了後に対話シナリオと認識結果とを絡めて再構成することで、履歴として利用することが可能となる。その後、音声認識処理の終了を示す処理フラグをオン（Ｓ１０４）にして音声認識部１１の割込み処理を終了する。上述したように、フローチャート１００のＳ０１２において処理フラグがオンと判断されると、Ｓ０１２の処理及びＳ０１３の処理で構成される割込み監視のループを抜けて対話シナリオの終了の判断（Ｓ０１５）に進むことになる。

次に、計測カウンター３１の割込み処理について説明する。計測カウンター３１の割込みは、計測カウンター３１のカウントがカウントアップしたときに発生する。この割込みの発生は、返答待ちの場面において利用者の返答が所定の時間を経過してもなかったことを意味し、利用者が居眠り状態にあると推測される状態を示している。計測カウンター３１の割込み処理の概略フローチャートを図３−（ｂ）に示す。本割込み処理に入ると、まず、多重割込みとならないように割込みをマスクする（Ｓ２０１）。次に、カウントアップフラグをオンとして（Ｓ２０２）、割込み処理を終了する。上述したように、カウントアップフラグがオンであるかどうかは、フローチャート１００のＳ０１３で監視されている。カウントアップフラグがオンの場合は、警告処理（Ｓ０１４）に進むことになる。

警告処理の概略フローチャートを図３−（ｄ）に示す。第１制御部１２は、対話シナリオの場面を警告場面に移行させる（Ｓ４０１）。警告場面の説明は後述する。次に、該警告場面に設定された警告の音声を再生する指示を音声出力部１４に対して行い（Ｓ４０２）、計測カウンター３１にカウント値を再設定して（Ｓ４０３）警告処理を終了する。

また、音声認識部１１は、第１制御部１２により動作の開始が指示される（Ｓ０１０）と、マイク２１から入力される音の解析を開始する。音声認識部１１の処理の概略のフローチャートを図３−（ｃ）に示す。マイク２１からの音は音声認識部１１のＡＤ変換器によりデジタルデータに変換され、該デジタルデータは所定の記号列として音声認識部１１内において処理される。該所定の記号列を認識データとして取得（Ｓ３０１）し、認識データにおける特徴を第１記憶部１３に記憶された音声特徴データと比較することにより認識データの分析を行う（Ｓ３０２）。次に、認識データに対話シナリオの場面に応じた認証フレーズがあるかどうかを判断し（Ｓ３０３）、認証フレーズがない場合は認証データの取得を継続し（Ｓ３０１）、認証フレーズが抽出できた場合は所定のレジスターなどに保持し（Ｓ３０４）、割込み信号を発生させ（Ｓ３０５）、音声認識の処理を終了する。第１制御部１２は、音声認識部１１の割込み処理（図３−（ａ））において、音声認識の処理（図３−（ｃ））のＳ３０４で保持された認証フレーズを認識結果として取得する（Ｓ１０２、Ｓ１０３）。認証フレーズについては後述する。

次に、対話シナリオについて説明する。対話シナリオは、場面の実行内容を記載した場面情報が、会話の進行順にリンクされたものと考えてよい。例として、図４及び図５に対話シナリオのひとつの形式を示す。本実施形態においては３種類の場面情報を定義している。場面情報のひとつ目は、音声処理装置１０が利用者に話をする場面（以降、第１の場面と呼ぶ）の場面情報（以降、第１の場面情報と呼ぶ）である。第１の場面情報は、図４及び図５において、ＤＳ００１、ＤＳ００３及びＤＳ１０１で示したものである。場面情報のふたつ目は、利用者が返答をする場面即ち音声処理装置１０が音声認識を行う場面（以降、第２の場面と呼ぶ）の場面情報（以降、第２の場面情報と呼ぶ）である。第２の場面情報は、図４及び図５において、ＤＳ００２で示したものである。場面情報のみっつ目は、音声処理装置１０が利用者の返答待ちの場面において所定の時間を経過した後の場面（以降、第３の場面と呼ぶ）の場面情報（以降、第３の場面情報と呼ぶ）である。第３の場面情報は、図５においてＤＳ００２Ｗで示したものである。尚、上述した警告場面とは第３の場面のことである。それぞれの場面情報について以下に説明する。尚、それぞれの場面情報の具体的なデータ形式については特に言及しない。

第１の場面情報には、シーンナンバー（シーンＮｏ）、音声出力フラグ、音声認識フラグ及び音声フレーズの情報が含まれる。第１の場面情報及び第２の場面情報におけるシーンＮｏは共通のルールで割振られ、対話シナリオの種類を表すアルファベットと連続した数字で表される。本実施形態においては、便宜上、アルファベット１文字と数字４桁で構成されている。基本的に対話シナリオにおける場面の進行は、同一アルファベット文字において数字が１増加する場面の順番に行われる。即ち、シーンＮｏがＡ０１００の場面が実行された後は、シーンＮｏがＡ０１０１の場面が基本的に実行されることになる。

音声出力フラグは、音声の出力を指示するためのフラグである。本実施形態においては、２ビットのコード“０１ｂ”と定義した。入力された音声は、音声認識部１１により分析が行われる。音声フレーズは、出力する音声を定義するものである。

第２の場面情報には、シーンＮｏ、音声出力フラグ、音声認識フラグ、カウンター設定値及び認証フレーズ・シーンＮｏの情報が含まれる。シーンＮｏ、音声出力フラグ及び音声認識フラグの定義は、第１の場面情報と同じである。カウンター設定値は、返答待ちの時間を計測するためのカウント値であり、計測カウンター３１に設定される。計測カウンター３１はカウントの起動が指示される（Ｓ０１０）と、所定のクロックでカウントされる。カウントはインクリメント若しくはデクリメントのいずれでもよく、カウンター設定値は該所定のクロックの周波数及び計測カウンター３１の使用形態を考慮して決定されることでよい。また、キャリー又はボローにより計測カウンター３１のカウントアップを検出してもよく、比較レジスターなどを設け該比較レジスターの値との一致によりカウントアップを定義してもよい。上述したように、計測カウンター３１のカウントアップによる割込み処理の中でカウントアップフラグがオンにされ、フローチャート１００のＳ０１３でフラグのオンが判断されることにより、警告処理（Ｓ０１４）が実行される。

認証フレーズ・シーンＮｏの情報は、本場面において有効と判断する認証フレーズと該認証フレーズが認識された場合の次に実行する場面のシーンＮｏとを示したものである。例えば、図４のＤＳ００２は、音声認識部１１の音声認識結果として“はい”が認識された場合は、次に実行する場面のシーンＮｏはＡ０１０２であることを定義している。同様に、ＤＳ００２は、音声認識部１１の音声認識結果が“だめ”であった場合には、次に実行する場面のシーンＮｏはＢ０１００であることを定義している。

第３の場面情報には、シーンＮｏ、音声出力フラグ、音声認識フラグ、カウンター設定値、音声フレーズ及び認証フレーズ・シーンＮｏの情報が含まれる。第３の場面情報は、第１の場面情報における情報と第２の場面情報における情報の両方の情報を有することになる。シーンＮｏ以外の情報の定義は、第１の場面情報及び第２の場面情報で説明した内容と同じである。第３の場面情報のシーンＮｏは、返答待ちの場面のシーンＮｏの末尾にＷを付加したコードとして定義されている。上述したように、第３の場面情報は警告処理（Ｓ１０４）における場面である。利用者に警告を発した後は、直前の第２の場面と同じように利用者の返答を認識しなくてはいけない。従って、音声を発することと返答を認識することの両方を行う場面であることから、第１の場面情報における情報と第２の場面情報における情報の双方の情報を有している。尚、認証フレーズ・シーンＮｏの情報は直前の第２の場面と同じものである。

図４のＤＳ００１以降の対話シナリオの処理の流れは次のようになる。

まず、図２のＳ００６において、第１制御部１２により図４のＤＳ００１の情報が読み出され、場面情報の解釈が行われる。第１制御部１２は、音声出力フラグの設定があることから（図２のＳ００７）、第１制御部１２は音声出力部１４に音声フレーズにある音声データ“昔の話をしましょう”の出力を指示する（図２のＳ００８に含まれる）。音声出力部１４は、第１制御部１２の指示により該音声データを出力する（図２のＳ００８に含まれる）。

対話シナリオにはＤＳ００１の次の場面情報ＤＳ００２があることから（図２のＳ０１５）、第１制御部１２はＤＳ００２の情報を読み出し、場面情報の解釈を行う（図２のＳ００６）。ＤＳ００２には音声出力フラグの設定がなく（図２のＳ００７）、音声認識フラグの設定があることから（図２のＳ００９）、第１制御部１２は音声認識部１１の動作を開始をすると共にカウンター設定値の値を計測カウンター３１にセットして計測カウンターを起動させる（図２のＳ０１０）。つづいて、第１制御部１２は音声認識部１１及び計測カウンター３１からの割込みを許可し（図２のＳ０１１）、割込み処理により設定される各種フラグの確認待ちの状態となる（図２のＳ０１２、Ｓ０１３）。この状態も第２の場面（シーンＮｏがＡ０１０１）が実行されている状態に含まれる。

第２の場面（シーンＮｏがＡ０１０１）において、計測カウンター３１のカウントアップ前に利用者から“昔の話はいやだな”と返答があったとする。音声認識部１１は、利用者からの返答の認識データ（図３−（ｃ）のＳ３０１）の内容を分析し（図３−（ｃ）のＳ３０２）、ＤＳ００２に定義された認証フレーズに該当するものがあるかどうかを確認して該当するものがあった場合（図３−（ｃ）のＳ３０３）には、確認できた認証フレーズを認識データの中から抽出し（図３−（ｃ）のＳ３０４）、第１制御部１２がアクセス可能な所定の場所に抽出したフレーズを保持する。今回の返答の場合、“いや”というフレーズが抽出される。その後、音声認識部１１は割込みを発生させ、処理を終了する。

音声認識部１１からの割込みが発生したことで、音声認識割込み処理（図３−（ａ））が実行され、処理フラグがオンとなる（図３−（ａ）のＳ１０４）。処理フラグがオンとなったことが確認される（図２のＳ０１２）と、実行した場面が終了場面かどうかの確認を行い（図２のＳ０１５）、次に実行する場面の処理（図２のＳ００６）に進む。本対話シナリオの場合、シーンＮｏがＡ０１０１の場面で認識されたフレーズが“いや”であったことから、次に実行される場面は、図４のＤＳ００２に記載されているように、シーンＮｏがＢ０１００の場面である。第１制御部１２が実行するのは、図４のＤＳ１０１で示した第１の場面となる。

次に、第２の場面（シーンＮｏがＡ０１０１）において、音声認識部１１が認証フレーズの抽出を行う前に計測カウンター３１のカウントアップの割込みが発生した場合について説明する。この場合、計測カウンター割込み処理（図３−（ｂ））においてカウントアップフラグがオンとなる（図３−（ｂ）のＳ２０２）。カウントアップフラグがオンとなることにより（図２のＳ０１３）、警告処理（図２のＳ０１４）が実行される。第２の場面（シーンＮｏがＡ０１０１）における警告処理であることから、実行される場面の第３の場面のシーンＮｏは、Ａ０１０１Ｗ（図５のＤＳ００２Ｗ）となる。

ＤＳ００２Ｗの音声出力フラグが“０１ｂ”であることから、第１制御部１２は、音声出力部１４に対してＤＳ００２Ｗに定義された音声フレーズ“起きてるぅ〜”の出力を指示する（図３−（ｄ）のＳ４０２）。第１制御部１２は、ＤＳ００２Ｗに定義されたカウンター設定値を計測カウンター３１に設定して（図３−（ｄ）のＳ４０３）警告処理を終える。シーンＮｏがＡ０１０１Ｗの場面は、シーンＮｏがＡ０１０１の場面の延長と解される場面であることから、音声認識フラグには“１０ｂ”が設定されている。

所定の時間を経過しても返答がない場合は、上述したように警告処理が実行され、第３の場面情報に定義された音声フレーズが出力され、利用者に対して注意を促すことができる。これにより、利用者が居眠り状態にあった場合若しくは居眠りに陥ろうとしている状態にあった場合に、利用者を目覚めさせる効果が期待できることになる。

また、対話シナリオにおける最初の返答待ちの場面において所定の時間を計測カウンターで計測できる最大の時間とすることで、最初の返答待ちの場面において所定の時間が経過するという状況が発生する可能性の低下を図ることができる。対話シナリオがスタートしての最初の返答待ちの場面は、利用者が居眠りをしている状態にあることや退屈している状態にあることは他の場面と比較して少なく、利用者が自身にとって適切なタイミングで応答してくれることを期待することできる。従って、所定の時間の設定を計測カウンターで計測できる最大値としても該計測カウンターがカウントアップする可能性は低く、対話シナリオの実質的な進行に対する影響はないと判断でき、不用意な警告を発することを防ぐことができる。

尚、音声処理装置１０の同じ問いに対する返答に要する時間は、人によって様々である。従って、計測カウンター３１への設定値を、対話シナリオの進行が進むにつれ変更することで、タイムアップするまでの時間を利用者に適したものに変更することができる。上記したように、返答待ちの時間は、第２の場面毎に設定されている。複数に種類分けした中の、所定の種類の第２の場面において設定したカウンター設定値と該所定の種類の第２の場面においての音声認識に要した時間との平均を次回の該所定の種類の第２の場面のカウンター設定値とすることで、該所定の種類の第２の場面における返答待ち時間の計測を利用者に適したものとすることを図ることできる。

以上、本発明の実施形態について説明を行ったが、本発明は上記の実施形態に限られたものではい。例えば、対話シナリオの場面情報の定義の仕方には様々な方法が考えられる。また、音声処理装置１０を、図６に示すようにマイコンの形で構成（音声処理装置５０）してもよい。音声処理装置５０は、ＣＰＵ部、リセット制御部（Ｒｅｓｅｔ）、クロック生成部（Ｃｌｏｃｋ）、システムバス６０、ワークメモリー部、タイマー部５１、ペリフェラル部５２、記憶部５３、アナログ−デジタル変換器（Ａ／Ｄ変換）及びデジタル−アナログ変換器（Ｄ／Ａ変換）を備えている。本発明は、上記の適用例及び実施形態に限られず、趣旨を逸脱しない範囲において広く適用が可能である。

１０…音声処理装置、１１…音声認識部、１２…第１制御部、１３…第１記憶部、１４…音声出力部、２１…マイク、２２…スピーカー、３１…計測カウンター、５０…音声処理装置、５１…タイマー部、５２…ペリフェラル部、５３…記憶部、６０…システムバス、１００…フローチャート。

Claims

音声出力部と、
音声認識部と、
第１の制御部と、
対話シナリオ及び音声出力データが記憶された第１の記憶部と、を含み、
前記第１の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、
前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第１の制御部に伝達されないときは、前記第１の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする音声処理装置。
前記第１の制御部は、前記所定の時間を計測するための計測カウンターを有し、
前記所定の時間を計測するためのカウント値は、前記返答待ちの場面毎に設定されることを特徴とする請求項１に記載の音声処理装置。
前記対話シナリオにおける最初の前記返答待ちの場面において、前記所定の時間は前記計測カウンターで計測ができる最大値がカウント値として設定されることを特徴とする請求項１または２に記載の音声処理装置。
前記所定の時間は、前記返答待ちの場面において、前記第１の制御部が前記音声認識結果を認識するまでに要した時間を基に変更されることを特徴とする請求項１乃至３のいずれか一項に記載の音声処理装置。
前記第１の制御部は、前記対話シナリオに関連付けて、前記音声認識結果の履歴を前記第１の記憶部に記憶することを特徴とする請求項１乃至４のいずれか一項に記載の音声処理装置。
前記対話シナリオは異なる内容のものが複数存在し、対話者によりいずれの前記対話シナリオを用いるかの選択が可能であることを特徴とする請求項１乃至５のいずれか一項に記載の音声処理装置。