JP2004333543A

JP2004333543A - 音声対話システム及び音声対話方法

Info

Publication number: JP2004333543A
Application number: JP2003125168A
Authority: JP
Inventors: Kazuya Nomura; 和也野村; Akira Mochizuki; 亮望月; Hirofumi Nishimura; 洋文西村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-04-30
Filing date: 2003-04-30
Publication date: 2004-11-25

Abstract

【課題】システム側とユーザーが音声で対話する際、ユーザーの習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供すること。
【解決手段】音声対話システム１は、ユーザーに対してシステム側音声を出力可能なスピーカ２０と、スピーカ２０が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホン２１と、マイクロホン２１へ入力されたユーザー音声を音声認識する音声認識部２３と、ユーザー音声をマイクロホン２１により変換した音声信号および応答生成部２６からの応答音声信号に基づいて発声タイミングを検出する発声タイミング検出部２７と、発声タイミングを用いてユーザーの音声対話の習熟度を判定する習熟度判定部５０と、習熟度判定部５０で判定した習熟度に応じてシステム側音声の出力内容を変更する音声出力変更部６０とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、互いに音声を用いてシステムとユーザーとの間で対話を行う音声対話システム及び音声対話方法に関する。
【０００２】
【従来の技術】
従来、この種の音声対話システムは、ユーザー（話者）からの入力音声を取り込むマイクロホンと、システムの音声応答を出力するスピーカと、ユーザーからの入力音声に重畳された音声応答を除去する音声応答除去部と、音声応答除去部の出力を取り込んでユーザーの発話内容を認識する音声認識部と、認識された音声に対応する音声応答を選択制御する対話制御部と、実際に音声応答をスピーカおよび音声応答除去部に出力する音声応答部とが設けられて、ユーザーとシステムとの間で音声による対話を可能とし、その際、音声対話システムが音声応答を出力しているときであってもユーザーからの音声を認識できるようにしたバージイン機能を持たせたものであった（例えば、特許文献１参照。）。
【０００３】
【特許文献１】
特開２００１−２９６８９０号公報（図１）
【０００４】
【発明が解決しようとする課題】
しかし、このような従来の音声対話システムでは、バージイン機能を利用することにより音声対話システムの使用に慣れたユーザーがシステムの音声応答中に発声してもユーザーの音声内容を把握できるようにしているものの、その使用に慣れていないユーザーが使用できるようなレベルに音声応答の出力を固定すると、音声対話システムの使用に慣れたユーザーが音声応答の出力の途中で発声し始め、その発声を終了した後にもシステムから音声応答が出力され続け、待ち時間が生じてしまい、逆にこの待ち時間を減らすため音声応答のレベルを上げると、使用に慣れていないユーザーが使用しにくくなるという問題があった。
本発明はこのような問題を解決するためになされたもので、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能にした音声対話システム及び音声対話方法を提供することを目的とする。
【０００５】
【課題を解決するための手段】
本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えた構成を有している。
【０００６】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することが可能となる。
【０００７】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、システム側音声の出力の変更が、詳細な出力内容と詳細な内容より簡素な出力内容との少なくとも２つの出力内容間で行われる構成を有している。
【０００８】
この構成により、本音声対話システムに習熟していないユーザーに対しては詳細な出力内容のシステム側音声を出力することにより使用方法を容易に理解させ、本音声対話システムに習熟したユーザーに対しては簡素な出力内容のシステム側音声を出力することにより待ち時間を無しにするかあるいは少なくしてスムーズな使用を可能とすることができる。
【０００９】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてユーザーが発声する発声タイミングを検出する発声タイミング検出部を備え、習熟度判定部が、発声タイミングを用いて習熟度を判定する構成を有している。
【００１０】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーの発声タイミングを用いるようにしたので、ユーザーの音声発声を検出すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【００１１】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて発声タイミングとしてのユーザーの発声開始時間を検出する発声タイミング検出部を備え、習熟度判定部が発声開始時間とシステム側音声の出力開始時間との時間差を用いて習熟度を判定する構成を有している。
【００１２】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザー音声の発声開始時間と音声出力部によるシステム側音声出力開始時間との時間差を用いるようにしたので、ユーザー音声信号の入力開始時間とシステム側音声の出力開始時間とを検出してこの時間差を演算すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【００１３】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声入力の累積使用回数をカウントする使用回数カウント部を備え、習熟度判定部が、使用回数カウント部から得た累積使用回数を用いて習熟度を判定する構成を有している。
【００１４】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが音声対話システムを使用した累積使用回数を用いるようにしたので、ユーザー音声の信号入力を検出しその累積値を演算して累積使用回数を得ればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【００１５】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声入力の使用頻度を計算する使用頻度計算部を備え、習熟度判定部が、使用頻度計算部から得た使用頻度を用いて習熟度を判定する構成を有している。
【００１６】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの使用頻度を用いるようにしたので、ユーザー音声の信号の入力にて本音声対話システムの使用を検出しその頻度を演算して使用頻度を得ればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【００１７】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声の発声速度を計算する発声速度計算部を備え、習熟度判定部が、発声速度計算部から得たユーザーの発声速度を基に習熟度を判定する構成を有している。
【００１８】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーの発声信号を用いるようにしたので、たとえばユーザーの発声開始時間と発声終了時間とを検出して演算すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【００１９】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてシステム側音声に応答したユーザー音声の内容が正しい応答内容にどれだけ類似しているかを表す類似度を使って累積平均類似度を計算する累積平均類似度計算部を備え、習熟度判定部が、累積平均類似度計算部から得た累積平均類似度を用いて習熟度を判定する構成を有している。
【００２０】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの累積平均類似度を用いるようにしたので、ユーザー音声の信号入力を基にユーザー音声の内容を音声認識し、この認識内容がシステム側音声の問いかけに対する正しい応答内容にどれだけ類似しているかといった類似度を、閾値等を利用して検出しその累積平均値を演算すればよく、簡単な検出と演算で習熟度を判定できることとなる。
【００２１】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてシステム側音声に応答したユーザー音声の内容がシステム側音声の内容をどれだけ正確に認識してなされたか否かを表す認識率を使って累積平均認識率を計算する累積平均認識率計算部を備え、習熟度判定部が、累積平均認識率計算部から得た累積平均認識率を用いて習熟度を判定する構成を有している。
【００２２】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの累積平均認識率を用いるようにしたので、ユーザー音声の信号入力を基にユーザー音声の内容を音声認識し、この認識内容がシステム側音声の内容をどれだけ認識しているかといったに認識率を、閾値等を利用して検出しその累積平均値を演算すればよく、簡単な検出と演算で習熟度を判定できることとなる。
【００２３】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、習熟度判定部にて習熟度が所定値よりも低いと判定された場合に、類似度または認識率を決定するための閾値を下げるように閾値を変更する閾値変更部を備えた構成を有している。
【００２４】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、類似度または認識率を決定するための閾値を習熟度の判定結果を応じてフィードバックすることができ、閾値を妥当な値に修正して習熟度が低いユーザーの音声認識をも容易にすることが可能となる。
【００２５】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、習熟度判定部が、ユーザーに対して音声出力部が出力するシステム側音声の内容の意味を加味して習熟度を判定する構成を有している。
【００２６】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、システム側音声の問いかけ内容ごとにユーザーの習熟度を判定することができ、たとえばシステム側音声にてユーザーが習熟した内容の問いかけを行う場合には簡素な内容とし、習熟していない問いかけを行う場合には詳細な内容として、問いかけごとにその習熟度に合わせながらシステム側音声の出力内容を異ならせて出力することが可能となる。
【００２７】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて話者が誰であるかの認識を行う話者判定部を備え、習熟度判定部が話者判定部で認識したユーザーごとに習熟度を判定する構成を有している。
【００２８】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、どのユーザーが本音声対話システムを使用しているのかを認識して、この結果認識したユーザーごとに習熟度を判定しその習熟度に合ったシステム側音声に変更して出力することが可能となる。
【００２９】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、音声出力部からユーザーに対し出力されるシステム側音声の内容が変化したとき、変化した内容に応じてユーザーが発声すると予測される内容の辞書へ辞書を切り替える構成を有している。
【００３０】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、変化したシステム側音声の内容に合わせてユーザーが応答する可能性があると予測される内容の辞書に切り替えるので、辞書を固定した場合に比べ誤認識が減り、またユーザーの応答内容をより早く把握すること等が可能となる。
【００３１】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、マイクロホンから入力された音声信号から、音声出力部が出力したシステム側音声の出力相当信号分を除去する音声応答除去部を備えた構成を有している。
【００３２】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、システム側音声の出力中にユーザーが発声した場合、マイクロホンから出力される信号がシステム側音声とユーザー音声とを重畳した音声信号となるものの、システム側音声に相当する信号分を除去でき、ユーザー音声をその除去分だけより明確に認識できることとなる。
【００３３】
また、本発明の音声対話方法は、音声出力部からユーザーに対してシステム側音声を出力可能であり、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声をマイクロホンで音声信号に変換し、マイクロホンへ入力されたユーザー音声を音声認識部で音声認識するとともに、システム側音声に応答するユーザー音声がマイクロホンにより変換された音声信号に基づいてユーザーの音声対話の習熟度を判定した後に、判定した習熟度に応じてシステム側音声の出力を変更する構成を有している。
【００３４】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話方法を提供することが可能となる。
【００３５】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
なお、以下の各実施の形態において実質的に同一な構成部分については、同一の番号を付し、その重複する説明を省略する。ここでは、音声対話システムをカーナビゲーション装置に適用した例につき説明する。
【００３６】
図１に示すように、本発明の第１の実施の形態である音声対話システム１は、ユーザーに対してガイド音声や音声応答といったシステム側音声を出力するスピーカ（音声出力部）２０と、ユーザーが発した音声を音声信号に変換するマイクロホン２１と、マイクロホン２１から出力された音声信号からスピーカ２０で出力されたガイド音に相当する出力相当信号を除去する音声応答除去部２２と、マイクロホン２１から出力され音声応答除去部２２にて重畳信号分を除去して得た音声信号に基づきユーザー音声の発話内容を認識する音声認識部２３と、音声認識部２３で得たユーザー音声の内容に基づき対応する応答音声を選択してユーザーとの対話を制御する対話制御部２４と、応答音声データを記憶した応答音声データベース２５と、対話制御部２４の出力に基づき応答音声データベース２５のデータを利用してスピーカ２０や音声応答除去部２２に出力するための音声応答信号を生成する応答生成部２６と、ユーザーの発声タイミングを検出する発声タイミング検出部２７と、音声応答信号と上記重畳された信号分を除去した音声信号とを用いてユーザーの習熟度を判定して応答生成部２６へ出力する習熟度判定部５０と、を備えている。
【００３７】
なお、対話制御部２４と応答音声データベース２５と応答生成部２６とは、ユーザーの習熟度に応じてシステム側音声の出力を変更する本発明の音声出力変更部６０を構成する。
【００３８】
音声応答除去部２２は、マイクロホン２１から入力された音声信号と応答生成部２６から入力された応答音声信号とに基づき、たとえばＬＭＳ（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ）／ニュートンアルゴリズムを利用して得たフィルタ係数（インパルス応答）を学習しながら最適に調整するフィルタ係数学習手段２８と、このインパルス応答により応答音声信号を補正して出力する適応フィルタ２９と、マイクロホン２１より入力された音声信号から適応フィルタ２９より入力された出力信号を減算する減算器３０とを有している。
【００３９】
音声認識部２３は、マイクロホン２１から入力され音声応答除去部２２で音声応答の相当重畳分を減算した音声信号を音響処理する音響処理手段（図示せず）と、音響処理手段で得た音声の最小単位を基に最もそれらしい音素候補を選びだして識別する音素識別手段（図示せず）と、本音声対話システム１の利用目的に関連する単語等を記憶した辞書データベース（図示せず）と、音素認識手段で得られた音素と辞書データとを基にして単語の候補を選定し、構文、意味、文脈等の言語情報を利用しながら正しい文章を得るための言語処理を実行する言語処理手段（図示せず）とを有している。
【００４０】
なお、音響処理手段は、たとえば、ＬＰＣケプストラム（ＬｉｎｅａｒＰｒｅｄｉｃｔｏｒＣｏｅｆｆｉｃｉｅｎｔＣｅｐｓｔｒｕｍ：線形予測係数化ケプストラム）等を利用して、マイクロホン２１から入力された音声信号を特徴量ベクトルという時系列のベクトルに変換し、音声スペクトルの概形（スペクトル包絡）を推定するように構成する。
【００４１】
音素識別手段は、たとえばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）法等を利用して、入力された音声を基に音響処理手段で抽出した音響パラメータを用いて音声信号の音素記号化を行い、予め用意してある標準音素モデルと比較して最もそれらしい音素の候補を選び出すように構成する。
【００４２】
言語処理手段は、音素候補を基にして辞書データベースの単語辞書と比較し最もそれらしい単語を選択したり、言語モデルにて単語間の接続関係を規定したりするなど、構文処理や意味処理を行うように構成する。
【００４３】
一方、対話制御部２４は、音声認識部２３で認識した音声信号の内容に基づき応答内容を選択制御して応答生成部２６へ出力するようにしてある。
応答生成部２６は、対話制御部２４で決定した内容に基づき応答音声データベース２５からのデータを利用して応答音声信号を生成し、習熟度判定部５０とスピーカ２０へ出力する。また、この応答生成部２６では、習熟度判定部５０からの習熟度の高低に応じて、対話制御部２４で決定した内容のうち後でより詳細に説明するようにより詳細な応答内容とより簡略化された応答内容との一方に応じた応答音声信号（ガイド音声や音声応答を出力するための信号）を生成するように構成してある。
【００４４】
発声タイミング検出部２７は、マイクロホン２１から入力された音声信号のうちスピーカ２０から出力されたガイド音声相当分を音声応答除去部２２にて除去して得た音声信号に基づき、ユーザー音声の発声開始時間（発声のタイミング）を検出するようにしてある。
習熟度判定部５０は、応答生成部２６からの応答音声信号の出力開始時間と、発声タイミング検出部２７から入力されたユーザー音声の発声開始時間との時間差を演算して、この時間差が設定時間未満であればユーザーが音声対話システム１の使用に習熟していると判定し、時間差が設定時間以上であれば習熟していないと判定するように構成してある。
【００４５】
上記本発明の第１の実施の形態である音声対話システム１の動作を、図１の構成ブロック図および図２のタイムチャートに基づき以下に説明する。
同図中、上段（ａ）はユーザーが習熟していないケース、中段（ｂ）はユーザーが習熟して発声しているケース、下段（ｃ）はユーザーが習熟していると習熟度判定部５０が判定した後に応答生成部２６が音声応答の出力を変更して応答しているケースをそれぞれ示す。なお、同図中の各段において、横軸は矢印の方向へ時間が経過する時間軸を示しており、点線の上半部には音声対話システム１のガイド音声を、また点線の下半部にはユーザーの音声をそれぞれ示してある。
【００４６】
まず、ユーザーが習熟していない図２（ａ）のケースにつき説明すると、ナビゲーション装置の使用をユーザーが希望した場合、音声対話システム１が、スピーカ２０を通じてユーザーに「どちらまでですか」といった目的地に関する問いかけのガイド音声Ｓ１０を出力する。このガイド音声Ｓ１０の出力が終了すると、ユーザーは、この問いかけを受け、希望の目的地としてたとえば「横浜市」とのユーザー音声Ｕ１０を発声する。このユーザー音声Ｕ１０は、マイクロホン２１へ入力され、音声信号に変換される。
【００４７】
この場合、ガイド音声Ｓ１０とユーザー音声Ｕ１０とは、時間上で重畳していないので、マイクロホン２１から出力された音声信号は、音声応答除去部２２でガイド音声相当信号等を減算されることなくそのまま通過して、音声認識部２３と習熟度判定部５０とに入力される。
【００４８】
音声認識部２３では、音声信号に基づきユーザー音声Ｕ１０の内容、すなわち目的地が横浜市であることを認識するものの横浜市のいずこであるかが不明なので、対話制御部２４が、ユーザーに対し発すべき次の問いかけ（ガイド音声）の内容を選択する。すなわち、目的地が横浜市であることまでは認識されたので、目的地をさらに詳細に絞り込むため、横浜市では「市」の一つ下のレベルが「町」ではなく「区」であることから、目的地がどの区であるかの問いかけを行うように対話制御部２４が決定する。この決定に基づいて応答生成部２６が、どの区であるかの問いかけの音声応答信号を出力する。
【００４９】
すなわち、応答生成部２６は、対話制御部２４から入力された信号を基に応答音声データベース２５から読み出したデータを利用して音声応答信号を生成（音声合成）する。この音声応答信号は、フィルタ係数学習手段２８、適応フィルタ２９、および発声タイミング検出部２７に入力されるとともに、スピーカ２０にも入力され、図２に示すように「横浜市のどちらですか。区名をお話し下さい。」との区名を問いかけるガイド音声Ｓ２０を出力する。この場合、ガイド音声Ｓ２０は、単に「区名をお話し下さい。」と出力するだけでなく、ユーザーが回答した「横浜市」を加えて出力することにより、音声対話システム１がユーザーの要望である横浜市を正しく認識したことを、ユーザーが確認できるようにしてある。
【００５０】
上記ガイド音声を聞いたユーザーは、希望する区として、たとえば「都筑区」とのユーザー音声Ｕ２０を発する。このケースでは、ユーザーが音声対話システム１の使用に習熟していないので、上記ガイド音声Ｓ２０の出力のうち「区名をお話」辺りより以降の部分まで聞かないと次に何をしなければならないのか分からない。この結果、ユーザーがユーザー音声Ｕ２０で応答し始めるのは、たとえばこのケースに示すように、ガイド音声Ｓ２０の出力の「区名をお話し下」あたりの箇所となる。
【００５１】
このとき、スピーカ２０から出力されたガイド音声Ｓ２０の「・・・下さい。」とユーザー音声Ｕ２０の「都筑」とが重なってマイクロホン２１に入力されるが、音声応答除去部２２にてガイド音声相当分の信号がマイクロホン２１から入力された信号から除去されるので、音声認識部２３でユーザー音声Ｕ２０を正しく認識することができる。
また、このとき発声タイミング検出部２７が「都筑区」といったユーザーの発声Ｕ２０の開始時間までの時間（タイミング）Ｔを検出し、習熟度判定部５０へ入力する。
【００５２】
習熟度判定部５０は、応答生成部２６からの区名を問いかけるガイド音声Ｓ２０の信号と発声タイミング検出部２７からのユーザー音声Ｕ２０の発声タイミング信号とが入力され、ガイド音声Ｓ２０の出力開始時間とユーザー音声Ｕ２０の発声開始時間とからこれらの時間差Ｔを演算する。このケースでは、時間差Ｔが習熟度の判定基準値より大きくなり、習熟度判定部５０では、ユーザーが音声対話システム１の使用に習熟していないと判定する。この判定の結果、応答生成部２６は、次回の音声対話においても上記ガイド音声Ｓ２０等を変更することなく出力する。
【００５３】
一方、図２（ｂ）に示すように、ガイド音声Ｓ１０、ユーザー音声Ｕ１０が上記図２（ａ）と同様に行われ、続いて「横浜市のどちらですか。区名をお話下さい。」との問いかけの音声応答信号を応答生成部２６から出力するように対話制御部２４が決定しスピーカ２０からガイド音声を出力し始めたものの、今回ユーザーが問いかけの内容が途中で分かり、ガイド音声Ｓ２１が「横浜市の」まで音声出力された段階でユーザーが「都筑区」とのユーザー音声Ｕ２０を発したとする。
【００５４】
このとき、ガイド音声Ｓ２１の「のどちらで・・・」とユーザー音声Ｕ２０とが重なってマイクロホン２１に入力されるが、音声応答除去部２２にてガイド音声相当分の信号がマイクロホン２１に入力された信号から除去され、音声認識部２３ではユーザー音声Ｕ２０を正しく認識することができる。
また、このとき、発声タイミング検出部２７が「都筑区」といったユーザーの発声Ｕ２０の時間（タイミング）を検出し、習熟度判定部５０に入力する。
【００５５】
習熟度判定部５０は、応答生成部２６からの区名を問いかけるガイド音声Ｓ２１の信号と発声タイミング検出部５０からのユーザー音声Ｕ２０の発声タイミング信号とが入力され、ガイド音声Ｓ２１の出力開始時間とユーザー音声Ｕ２０の発声開始時間とからこれらの時間差ｔを演算する。このケースでは、時間差ｔが習熟度の判定基準値より小さくなり、習熟度判定部２７では、ユーザーが音声対話システム１の使用に習熟したと判定する。この判定の結果、応答生成部２６は、ガイド音声Ｓ２１に示すように「横浜市のどちらで」といった途中でその出力を中止し、以降このケースでは「ですか。区名をお話し下さい。」の部分を出力しないようにする。
【００５６】
そして、このユーザーが音声対話システム１を次に使用するときは、図２（ｃ）に示すように、ガイド音声Ｓ１０、ユーザー音声Ｕ１０が上記図２（ａ）と同様に行われた後は、応答生成部２６が、ガイド音声Ｓ２０に代えてこの内容をより省略したガイド音声Ｓ２２、すなわち「横浜市！」と出力する。ユーザーは、音声対話システム１に習熟しているので、上記ガイド音声Ｓ２２を聞いただけで「都筑区」といったユーザー音声Ｕ２０を発し、これを受けて音声対話システム１も「都筑区！」といった次ぎのより省略したガイド音声Ｓ３０を出力していく。このように、ユーザーが音声対話システム１に習熟したと判定された後は、ガイド音声や音声応答といったシステム側音声がより省略された内容へと変更されて出力されることになる。
【００５７】
以上のように、本発明の第１の実施の形態である音声対話システム１は、ガイド音声等のシステム側音声の出力とこれに応答するユーザーの音声発声とのタイミングを検出してユーザーの当該音声対話システム１の使用の習熟度を判定し、習熟度に応じてそれ以降のシステム側音声の出力を変更することができる。この習熟度の判定にあたっては、ユーザー音声の発声タイミングを検出して行っているので、簡単にその検出ができる。
【００５８】
図３に示すように、本発明の第２の実施の形態である音声対話システム２は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７で検出した発声タイミングのみにより習熟度を判定する習熟度判定部５０に代えて、時間−意味データベース３２と、この、時間−意味データベース３２からのデータを発声タイミングに加味して習熟度を判定する習熟度判定部５１とをさらに設けた点が図１の音声対話システム１と相違している。
【００５９】
時間−意味データベース３２は、スピーカ２０からガイド音声を発した場合にこれに応答するユーザー音声の発声開始時間までの間における当該ガイド音声の意味を把握するためのデータベースである。
習熟度判定部５１は、発声タイミング検出部２７で得たユーザーの発声タイミングに加え、時間−意味データベース３２を基にユーザーが応答して発声するまでのガイド音声の意味を加味してユーザーの習熟度を判定する。すなわち、上記ガイド音声の意味を加味することにより、例えばどの問い合わせのガイド音声に合った応答をユーザーが実行しているのかもチェックすることにより、ユーザーの習熟を把握するように構成してある。
【００６０】
上記本発明の第２の実施の形態である音声対話システム２の動作は、図２のタイムチャートと同様となるが、習熟度判定部５１で図２（ｂ）のユーザー音声Ｕ２０の内容がガイド音声Ｓ２１で問いかけている内容に合っているかを判断している点が図１の音声対話システム１の動作と相違するだけである。
【００６１】
以上のように、本発明の第２の実施の形態である音声対話システム２は、ユーザーの習熟度に合わせてガイド音声等のシステム側音声を出力することができ、習熟していないユーザーには詳細な内容で出力することで使用方法を分かりやすくし、また習熟したユーザーには上記内容を省略した簡素な内容で出力することで分かりきったガイド音声を長々と聞きながら次ぎのシステム側音声の出力を待つ必要をなくしスムーズな対応を可能とすることができるようになる。そして、ユーザーの習熟度を判定する場合に、システム側音声による問いかけの内容とユーザー音声による応答の内容とが合っていることも発声タイミングと併せて確認することができることから、図１の音声対話システム１よりさらに習熟度判定の精度を向上させることが可能となる。
【００６２】
図４に示すように、本発明の第３の実施の形態である音声対話システム３は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７と、この発声タイミング検出部２７から得た発声タイミングに基づき習熟度を判断する習熟度判定部５０とに代えて、ユーザーの音声対話システム３の累積使用回数をカウントする使用回数カウント部３３と、この使用回数カウント部３３でカウントした累積使用回を格納する使用回数格納部３４と、使用回数カウント部３３から得た累積使用回数を用いてユーザーの習熟度を判定する習熟度判定部５２とを設けた点が音声対話システム１と相違する。
【００６３】
使用回数カウント部３３は、ユーザーが音声対話システム３を新たに１回使用するたびに、使用回数格納部３４に格納しているそれ以前の累積使用回数に１回分をプラスして新たな累積使用回数を得、この累積使用回数を使用回数格納部３４へ入力して書き換え格納するとともに、習熟度判定部５２へも入力するようにしてある。
習熟度判定部５２は、使用回数カウント部３３から入力された累積使用回数を基に習熟度の判定基準値と比較して、ユーザーの習熟度を判定するようにしてある。この習熟度の判定基準値としては、このケースでは、第１設定値とこれより大きい値の第２設定値とを設けてある。
【００６４】
上記本発明の第３の実施の形態である音声対話システム３の動作につき、図４の構成ブロック図と図５のタイムチャートに基づき以下に説明する。
図５（ａ）は、習熟していないユーザーのケース、図５（ｂ）はある程度習熟してきたユーザーのケース、図５（ｃ）は十分習熟したユーザーのケースをそれぞれ示す。
【００６５】
ユーザーが音声対話システム３を使用するとき、その都度、使用回数カウント部３３が使用回数格納部３４に格納しているそれまでの累積使用回数に今回の使用回数である１を加えて新たな累積使用回数を得る。使用回数カウント部３３は、この新たな累積使用回数を使用回数格納部３４に格納するとともに習熟度判定部５２へ入力する。
【００６６】
習熟度判定部５２は、入力された累積回数を習熟度判定の基準である第１設定値および第２設定値との大小関係を比較する。
累積使用回数が第１設定値より小さい場合には、習熟度判定部５２は、ユーザーが音声対話システム３の使用に習熟していないと判断し、図３（ａ）に示すように、ガイド音声Ｓ１０、Ｓ２０を図５（ａ）の場合と同じ内容で出力する。この場合、ユーザー音声Ｕ１０、Ｕ２０も図５（ａ）の場合と同様になる。
【００６７】
ユーザーの使用回数が増えて、使用回数カウント部３３から入力された累積使用回数が第１設定値以上で第２設定値未満となった場合、習熟度判定部５２は、ユーザーが音声対話システム３にある程度習熟したと判定し、この判定結果を応答生成部２６に入力する。この入力により、応答生成部２６は、図５（ｂ）に示すように、ガイド音声Ｓ２０の内容をより省略したガイド音声Ｓ２３として、たとえば「区名をお話し下さい。」を省略した「横浜市のどちらですか。」との問いかけに変更してスピーカ２０から出力する。
【００６８】
ユーザーの使用回数がさらに増えて、使用回数カウント部３３から入力された累積使用回数が第２設定値以上となった場合、習熟度判定部５２は、ユーザーが音声対話システム３に十分習熟したと判定し、この判定結果を応答生成部２６に入力する。この入力により、応答生成部２６は、図５（ｃ）に示すように、ガイド音声Ｓ２３の内容をさらに省略したガイド音声Ｓ２２として、たとえば「横浜市！」と変更してスピーカ２０から出力する。
【００６９】
以上のように、本発明の第３の実施である形態である音声対話システム３は、累積使用回数に応じて習熟度を判定し、習熟度に応じてガイド音声等のシステム側音声の内容を変更することができる。この場合、習熟度を習熟していない、ある程度習熟している、十分習熟しているといった３段階で判定し、習熟度が上がるにしたがってシステム側音声の内容を順次より省略した簡素なものとして細やかな対応が可能となる。
【００７０】
図６に示すように、本発明の第４の実施の形態である音声対話システム４は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７を有する習熟度判定部５０に代えて、ユーザーの音声対話システム４の使用頻度を計算する使用頻度計算部３５と、使用頻度計算部３５で得た使用頻度を格納する使用頻度格納部３６と、使用頻度計算部３５から得た使用頻度を用いて習熟度判定部５３とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。
【００７１】
すなわち、使用頻度計算部３５は、ユーザーが音声対話システム４を使用するたびに、使用頻度格納部３６に格納されているそれまでの使用頻度と今回の使用とに基づき新たな使用頻度を計算し、この新たに得た使用頻度を使用頻度格納部３６へ入力して書き換え格納するとともに、習熟度判定部５３へも入力するようにしてある。
習熟度判定部５３は、使用頻度計算部３５から入力された使用頻度を用いて習熟度の判定基準と比較して、ユーザーの習熟度を判定するようにしてある。この習熟度の判定基準としては、このケースでは、第３設定値とこれより大きい値の第４設定値とを設けてある。
【００７２】
上記本発明の第４の実施の形態である音声対話システム４の動作につき、図６の構成ブロック図と図７のタイムチャートに基づき以下に説明する。
図７（ａ）は、習熟していないユーザーのケース、図７（ｂ）はある程度習熟してきたユーザーのケース、図７（ｃ）は十分習熟したユーザーのケースをそれぞれ示す。
【００７３】
ユーザーが音声対話システム４を使用するとき、その都度、使用頻度計算部３５が使用頻度格納部３６に格納しているそれまでの使用頻度と今回の使用とから計算して新たな使用頻度を得る。使用頻度計算部３５は、この新たな使用頻度を使用頻度格納部３６に格納するとともに習熟度判定部５３へ入力する。
【００７４】
習熟度判定部５３は、入力された使用頻度と習熟度判定の基準である第３設定値および第４設定値との大小関係を比較する。
使用頻度が第３設定値より小さい場合には、習熟度判定部５３は、ユーザーが音声対話システム４の使用に習熟していないと判断し、図７（ａ）に示すように、ガイド音声Ｓ１０、Ｓ２０のを図５（ａ）の場合と同じ内容で出力する。この場合、ユーザー音声Ｕ１０、Ｕ２０も図５（ａ）の場合と同様になる。
【００７５】
ユーザーの使用回数が増えて、使用頻度計算部３５から入力された使用頻度が第３設定値以上で第４設定値未満となった場合、習熟度判定部５３は、ユーザーが音声対話システム４にある程度習熟したと判定し、この判定結果を応答生成部２６に入力する。この入力により、応答生成部２６は、図７（ｂ）に示すように、ガイド音声Ｓ２０の内容をより省略したガイド音声Ｓ２３として、たとえば「区名をお話し下さい。」を省略した「横浜市のどちらですか。」との問いかけに内容を変更してスピーカ２０から出力する。
【００７６】
ユーザーの使用回数がさらに増えて、使用頻度計算部３５から入力された使用頻度が第４設定値以上となった場合、習熟度判定部５３は、ユーザーが音声対話システム４に十分習熟したと判定し、この判定結果を応答生成部２６に入力する。この入力により、応答生成部２６は、図７（ｃ）に示すように、ガイド音声Ｓ２３の内容をさらに省略したガイド音声Ｓ２２として、たとえば「横浜市！」と内容をさらに変更してスピーカ２０から出力する。
【００７７】
以上のように、本発明の第４の実施の形態である音声対話システム４は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、この場合、習熟度を判定するのに検出および演算が簡単な使用頻度を用いることが可能となる。
【００７８】
図８に示すように、本発明の第５の実施の形態である音声対話システム５は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部３８と習熟度判定部５０とに代えて、ユーザーの発声速度を計算する発声速度計算部３７と、発声速度計算部３７で得た発声速度を格納する発声速度格納部３０と、発声速度を用いて習熟度を判定する習熟度判定部５４とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。
【００７９】
すなわち、発声速度計算部３７は、ユーザーが発声する発声速度を計算して発声速度格納部３８と習熟度判定部５４へ入力する。ここで、発声速度は、たとえば（辞書の長さ）／（発声時間、すなわち発声が認識された時間区間）で定義する。
習熟度判定部５４は、ユーザーの発声速度が判定基準値より小さい（遅い）か大きい（速い）かでそれぞれ習熟していない、習熟していると判定するようにしてある。
【００８０】
上記本発明の第５の実施の形態である音声対話システム５の動作につき、図８の構成ブロック図と図９のタイムチャートに基づき以下に説明する。
図９（ａ）は、ユーザーが音声対話システム５に習熟していないケースを、また図９（ｂ）は、ユーザーが音声対話システム５に習熟しているケースを示す。
【００８１】
発声速度計算部３７は、ユーザーの発声速度を計算し、発声速度格納部３８と習熟度判定部５４へ入力する。習熟度判定部５４では、入力された発声速度と判定基準値とを比較し、発声速度が判定基準値より小さくゆっくり話している場合には、ユーザーが音声対話システム５に習熟していないと判定し、図９（ａ）に示すように丁寧な詳細内容のガイド音声Ｓ２０を応答生成部２６がスピーカ２０から出力する。
一方、習熟度判定部５４で発声速度が判定基準値以上であり早く話している場合には、ユーザーが音声対話システム５に習熟していると判定し、図９（ｂ）に示すようにガイド音声Ｓ２０の一部を省略した簡素な内容のガイド音声Ｓ２３へ変更して応答生成部２６がスピーカ２０から出力する。
【００８２】
以上のように、本発明の第５の実施の形態である音声対話システム５は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、この場合、ユーザーの習熟度を判定するのに検出および演算が簡単なユーザーの発声速度を用いることが可能となる。
【００８３】
図１０に示すように、本発明の第６の実施の形態である音声対話システム６は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７と習熟度判定部５０とに代えて、ユーザー音声信号からユーザー音声を認識するとともにガイド音声の問いかけに対するユーザーの応答内容がどれだけ正しい応答内容に類似しているかといった類似度を基に累積平均類似度を計算する累積平均類似度計算部３９と、累積平均類似度計算部３９が新たな累積平均類似度を計算するたびにその新たな累積平均類似度に書き直して格納する累積平均類似度格納部４０と、累積平均類似度計算部３９から入力された累積平均類似度を用いて習熟度を判定する習熟度判定部５５とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。なお、この音声対話システム６では、音声認識部２３の機能を下記のように増強してある。
【００８４】
すなわち、音声認識部２３は、マイクロホン２１で受け音声応答除去部２２がスピーカ２０から出力した重畳分を除去した信号に基づきユーザー音声の内容を認識して対話制御部２４に入力するとともに、対話制御部２４または応答生成部２６から上記ユーザー音声を引き出した問いかけのガイド音声の内容が入力され（同図中、この信号線は省略してある）、ユーザー音声の内容とガイド音声に対する正しい応答の内容とを比較してガイド音声の問いかけに対するユーザーの応答内容がどれだけ正しい応答に類似しているかといった類似度を演算して累積平均類似度計算部３９に入力するように構成してある。
累積平均類似度計算部３９は、音声認識部２３から新たに入力された類似度と累積平均類似度格納部４０に格納されていたそれまでの累積平均類似度とにより、新たな累積平均類似度を、たとえば（認識結果類似度の合計）／（認識回数）といった式を用いて計算し、累積平均類似度格納部４０と習熟度判定部５５とに入力するようにしてある。
習熟度判定部５５は、入力された累積平均類似度を判定基準値と比較してその高低で習熟度を判定するように構成している。
【００８５】
上記本発明の第６の実施の形態である音声対話システム６の動作につき、図１０の構成ブロック図と図１１のタイムチャートに基づき以下に説明する。
図１１（ａ）は、ユーザーが音声対話システム６の使用に習熟していないケースを、また図１１（ｂ）は、ユーザーが音声対話システム６の使用に習熟しているケースを示す。
【００８６】
ユーザーが音声対話システム６を使用し始めると、累積平均類似度計算部３９は、ユーザーの音声対話システム６の新たな使用に応じて音声認識部２３で得た類似度と累積平均類似度格納部４０に格納されていたそれまでの累積平均類似度とに基づき、新たな累積平均類似度を計算し、累積平均類似度格納部４０と習熟度判定部５５とに入力する。
習熟度判定部５５では、入力された累積平均類似度が判定基準値より低いときはユーザーが習熟していないと判定し、応答生成部２６が丁寧で詳細なガイド音声Ｓ２０をスピーカ２０から出力する。これに対し、累積平均類似度が判定基準値以上のときはユーザーが習熟していると判定してガイド音声を一部省略した簡素な内容のガイド音声Ｓ２３に変更してスピーカ２０から出力する。
【００８７】
以上のように、本発明の第６の実施の形態である音声対話システム６は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出および演算が簡単な累積平均類似度を用いることが可能となる。
【００８８】
図１２に示すように、本発明の第７の実施の形態である音声対話システム７は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７と習熟度判定部５０とに代えて、ガイド音声の問いかけの内容をユーザーがどれだけ正しく認識しているかといった認識率を基に累積平均認識率を計算する累積平均認識率計算部４１と、累積平均認識率計算部４１が新たな累積平均認識率を計算するたびにその新たな累積平均認識率に書き直して格納する累積平均認識率格納部４２と、累積平均認識率を基にユーザーの習熟度を判定する習熟度判定部５６とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。なお、この音声対話システム７では、音声認識部２３の機能を下記のように増強してある。
【００８９】
すなわち、音声認識部２３は、マイクロホン２１で受け音声応答除去部２２で重畳分を除去した信号に基づきユーザー音声の内容を認識して対話制御部２４に入力するとともに、対話制御部２４または応答生成部２６から上記ユーザー音声を引き出した問いかけのガイド音声の内容が入力され（同図中、この信号線は省略してある）、ガイド音声の問いかけの内容とユーザーの応答内容とを比較してユーザーがガイド音声の問いかけをどれだけ正しく認識しているかといった認識率を演算して累積平均認識率計算部４１に入力するように構成してある。
累積平均認識率計算部４１は、音声認識部２３から新たに入力された認識率とと累積平均認識率格納部４２に格納されていたそれまでの累積平均認識率とにより、新たな累積平均認識率を、たとえば（正しく認識した回数の合計）／（認識回数）といった式を用いて計算し、累積平均認識率格納部４２と習熟度判定部５６とに入力するようにする。
習熟度判定部５６は、累積平均認識率を判定基準値と比較してその高低で習熟度を判定するように構成している。
【００９０】
上記本発明の第７の実施の形態である音声対話システム７の動作につき、図１２の構成ブロック図と図１３のタイムチャートに基づき以下に説明する。
図１３（ａ）は、ユーザーが音声対話システム７の使用に習熟していないケースを、また図１３（ｂ）は、ユーザーが音声対話システム７の使用に習熟しているケースを示す。
【００９１】
ユーザーが音声対話システム７を使用し始めると、累積平均累積平均認識率計算部４１は、ユーザーの音声対話システム７の新たな使用に応じて音声認識部２３で得た認識率と累積平均認識率格納部４２に格納されていたそれまでの累積平均認識率とに基づき、新たな累積平均認識率を計算し、累積平均認識率格納部４２と習熟度判定部５６とに入力する。
習熟度判定部５６では、入力された累積平均認識率が判定基準値より低いときはユーザーが習熟していないと判定し、応答生成部２６が丁寧で詳細なガイド音声Ｓ２０をスピーカ２０から出力する。これに対し、累積平均認識率が判定基準値以上のときはユーザーが習熟していると判定してガイド音声を一部省略した簡素な内容のガイド音声Ｓ２３に変更してスピーカ２０から出力する。
【００９２】
以上のように、本発明の第７の実施の形態である音声対話システム７は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出や演算が簡単な累積平均認識率を用いることが可能となる。
【００９３】
図１４に示すように、本発明の第８の実施の形態である音声対話システム８は、図１に示した第１の実施の形態の音声対話システム１の発声タイミング検出部２７と習熟度判定部５０とに代えて、音声認識部２３で得た類似度や認識率などのいずれかを用いて習熟度を判定する習熟度判定部５７と、習熟度判定部５７で判定した習熟度が所定値より低い場合には音声認識部２３で上記類似度や認識率などを決定するのに用いる閾値を下げるように変更する閾値変更部４３とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。なお、音声対話システム８には、図１０における累積平均類似度計算部３９と累積平均類似度格納部４０、または図１２における累積平均認識率計算部４１と累積平均認識率格納部４２を設けるようにしているが、ここでは前者を用いるものとし、図８中では省略してある。また、音声認識部２３は、図１０や図１２の音声対話システム６、７のようにその機能を増強してある。
【００９４】
上記本発明の第８の実施の形態である音声対話システム８の動作につき、図１４の構成ブロック図と図１５のタイムチャートに基づき以下に説明する。なお、ここでは累積平均類似度を用いる場合につき説明する。
ユーザーが音声対話システム８を使用し始めると、図１０の音声対話システム６の場合と同様に、音声認識部２３が閾値を用いてユーザー音声を基に音声認識部２３でユーザーの応答がガイド音声の問いかけに対する正しい応答にどれだけ類似しているかといった類似度を検出する。累積平均類似度計算部では、入力された類似度を基に累積平均類似度を計算して、習熟度判定部５７へ入力する。習熟度判定部５７では、累積平均類似度を用いて習熟度を判定する。この結果、習熟度が低いと判定されたときは、閾値変更部４３で閾値を下げることにより音声対話システム８の使用に慣れていないユーザーの音声内容をも音声認識部２３でより認識し易いようにする。
【００９５】
すなわち、類似度の閾値が常に固定されているケースでは、図１５（ａ）に示すように、音声対話システム８の使用に習熟していると習熟度判定部５７で判定されたユーザーの場合には、類似度が音声認識部２３で類似度の判定に用いた閾値より高くなっており、ユーザーの音声をよく認識できるのに対し、音声対話システム８の使用に習熟していないと習熟度判定部５７で判定されたユーザーの場合には、類似度が音声認識部２３で類似度判定に用いた閾値より低くユーザーの音声をあまりよく認識できないことになる。
そこで、習熟度判定部５７がユーザーの習熟度が低いと判定した場合には、図１５（ｂ）に示すように、閾値変更部４３で閾値を下げ、以後この下げた閾値を用いて音声認識部２３で類似度を決定するようにすると、習熟度が低いユーザーでも音声認識部２３でユーザー音声がより容易に認識できるようになる。
【００９６】
以上のように、本発明の第８の実施の形態である音声対話システム８は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出や演算が簡単な累積平均類似度を用いることが可能となり、この場合、ユーザーの習熟度が低いときには、類似度を決定するときの閾値を下げるように変更することにより、習熟していないユーザーの音声をより容易に認識することが可能となる。
【００９７】
図１６に示すように、本発明の第９の実施の形態である音声対話システム９は、図１に示した第１の実施の形態の音声対話システム１の習熟度判定部５０に代えて、ユーザーである話者が誰であるかを判定する話者判定部４４と、この話者判定部４４で識別した話者情報と発声タイミング検出部２７から得た発声タイミング情報とが入力されてユーザーの習熟度を判定する習熟度判定部５８とを設けた点が音声対話システム１と相違しており、その他の構成は音声対話システム１と同一である。なお、同図では、省略しているが、話者判定部４４で判定された話者情報と習熟度判定部５８で判定された当該話者の習熟度情報とが入力されて話者ごとの習熟度に関する情報を格納しておく話者別習熟度格納部を設けてある。
【００９８】
上記本発明の第９の実施の形態である音声対話システム９の動作につき、図１６の構成ブロック図と図１７のタイムチャートに基づき以下に説明する。
ユーザーが音声対話システム９を使用し始めると、図１７に示すように、最初のユーザーが発声するユーザー音声Ｕ１０を基に話者判定部４４で話者を判定し、話者別習熟度格納部からその話者の習熟度情報を読み出し、続くガイド音声を読み出した習熟度に合わせてスピーカ２０から出力するようにする。
すなわち、話者が習熟していない場合には、図１７（ａ）に示すように続くガイド音声Ｓ２０を詳細な内容で出力し、話者が習熟している場合には、図１７（ｂ）に示すように続くガイド音声Ｓ２２をより簡素化した内容に変更して出力するようにする。
【００９９】
なお、話者が習熟していない場合には、図１の音声対話システム１の場合と同様に、発声タイミング検出部２７で図１７のガイド音声Ｓ２０の出力開始時間とユーザー音声Ｕ２０の発声開始時間との時間差を検出し、この時間差を用いて習熟度判定部５８で習熟度を判定する。この場合、ユーザーの習熟度が向上して音声対話システム９の使用にユーザーが慣れていると判定された場合には、話者判定部４４で判定した話者の習熟度を慣れていないレベルから慣れているとのレベルへ書き換えて話者別習熟度格納部に格納する。これに対し、発声タイミングを用いて判定した習熟度がまだ慣れていないレベルのままである場合には、話者別習熟度格納部に格納されている当該話者の習熟度の書き換えは実行しない。
【０１００】
以上のように、本発明の第９の実施の形態である音声対話システム９は、話者ごとに習熟度を判定し各ユーザーの習熟度に合わせて変更した内容のガイド音等のシステム側音声を出力することが可能となる。したがって、ガイド音声Ｓ１０に対するユーザー音声Ｕ１０の入力段階で話者を判定できることから、ガイド音声Ｓ２０とこれに対応するユーザー音声Ｕ２０とから習熟度を判定する音声対話システム１等に比べ、より早い段階で習熟度を判定してシステム側音声を出力することができる。また、たとえば使用を許可する話者をあらかじめ登録しておけば、ユーザーが使用許可を登録された者であるか否かを判定でき、音声対話システム９の使用者を制限することなども可能となる。
【０１０１】
図１８に示すように、本発明の第１０の実施の形態である音声対話システム１０は、本発明の第１の実施の形態である音声対話システム１に、異なる内容の辞書を有する音声認識辞書データベース４５と、音声認識部２３で用いる辞書を応答生成部２６で出力される往々音声信号を基に切り替える辞書切替部４６とをさらに追加した点が相違する。
【０１０２】
上記本発明の第１０の実施の形態である音声対話システム１０の動作につき、図１８の構成ブロック図と図１９のタイムチャートに基づき以下に説明する。
ユーザーが音声対話システム１０を使用し始めると、スピーカ２０から出力されるガイド音声に応えてユーザーが発するユーザー音声をマイクロホン２１で補足する。この補足された信号は、図１の音声対話システム１の場合と同様に、発声タイミング検出部２７で発声タイミングが検出される。この発声タイミングを用いて習熟度判定部５９が判定したユーザーの習熟度に応じてスピーカ２０から出力するガイド音声の内容を変更するように応答生成部２６で応答音声信号を生成する。
【０１０３】
この場合、応答生成部２６の応答音声信号の内容に基づき辞書切替部４６が音声認識辞書データベース４５の複数の辞書から上記内容に合った辞書を選択するように切り替え、音声認識部２３で利用可能とする。
たとえば、図１９（ａ）に示すように「横浜市のどちらですか。区名をお話し下さい。」とのガイド音声Ｓ２０を出力し、その応答がいずれかの区名であることを予想して横浜市の全区名辞書Ｄ１を用意しているにもかかわらず、ユーザーがガイド音声Ｓ２０の前半の部分である「横浜市のどちらですか。」のみに注意が向き後半の「区名をお話しください。」に気づかなかったり、あるいは「新横浜」が区名であると勘違いして、区名でない「新横浜」と言った内容のユーザー音声Ｕ２１を発したとすると、「新横浜」は横浜市の全区名辞書Ｄ１には入っていないので音声認識部２３では認識できないことになる。
【０１０４】
これに対し、本音声対話システム１０の辞書切替部４６では、ガイド音声Ｓ２０の前半部分ではユーザーが区名より下位の町や字などの名を言う可能性があるので、図１７（ｂ）に示すようにガイド音声Ｓ２０の出力開始からガイド音声Ｓ２０の終了後の所定時間までの間、横浜市の全区名辞書Ｄ１を利用できるようにするとともに、ガイド音声Ｓ２０の出力開始から「区名を・・・」の後半部分の途中までのみ横浜市の全町字辞書Ｄ２を音声認識部２３で利用できるように切り替える。したがって、ユーザーが「新横浜」といった区名でないユーザー音声Ｕ２１を発しても横浜市の全町字辞書Ｄ２を利用して正しく目的地を認識することができるようになる。
【０１０５】
一方、図１９（ｃ）に示すように、ガイド音声Ｓ２０の出力開始から「区名を」辺りまでは横浜市の全町字辞書Ｄ２とし、その後を横浜市の全区名辞書Ｄ１に切り替えるようにすることもできる。このようにすれば、ユーザーがガイド音声Ｓ２０の途中であわてて町名を言った場合にも、あるいはガイド音声Ｓ２０を聞き終えて区名を言わねばならないことを認識してたとえば「神奈川区」といったユーザー音声Ｕ２０を発声した場合にも音声認識部２３で認識することが可能となる。
【０１０６】
以上のように、本発明の第１０の実施の形態である音声対話システム１０は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、ガイド音声等のシステム側音声の問いかけ内容に応じてユーザーが応答しそうな内容（それがシステム側音声の問いかけに合った応答であれ誤りそうな内容であれ）の辞書に切り替えることができ、辞書を固定した場合に比べ誤認識が減りユーザーの応答内容をより早く把握すること等が可能となる。
【０１０７】
なお、本発明では上記実施の形態に限られず、それらの一部を変更または修正してもよい。
すなわち、上記実施の形態では、習熟度判定部で判定するための入力項目として発声タイミング、発声速度、累積使用回数、累積平均類似度、累積平均認識率等のうちの一つを用いたが、これに限ることなくこれらを組合せて用いるようにしてもよい。
また、システム側音声の内容ごとに習熟度を判定して記憶しておき、習熟したと判定したシステム側音声の内容のものだけシステム側音声の出力を変更するようにして、本当にユーザーが慣れた内容だけについて出力変更が行われるようにしてもよい。
【０１０８】
また、発声タイミング検出部２７では、システム側音声の出力開始時間とユーザー側音声の発声開始時間との時間差を取るようにしたが、必ずしも開始時間に限ることなく途中の時間を検出して時間差を求めるようにしてもよい。
【０１０９】
【発明の効果】
以上説明したように、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更することが可能な音声対話システムを提供することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態である音声対話システムの構成を示したブロック図
【図２】本発明の第１および第２の実施の形態である音声対話システムの動作を表したタイムチャート
【図３】本発明の第２の実施の形態である音声対話システムの構成を示したブロック図
【図４】本発明の第３の実施の形態である音声対話システムの構成を示したブロック図
【図５】本発明の第３の実施の形態である音声対話システムの動作を表したタイムチャート
【図６】本発明の第４の実施の形態である音声対話システムの構成を示したブロック図
【図７】本発明の第４の実施の形態である音声対話システムの動作を表したタイムチャート
【図８】本発明の第５の実施の形態である音声対話システムの構成を示したブロック図
【図９】本発明の第５の実施の形態である音声対話システムの動作を表したタイムチャート
【図１０】本発明の第６の実施の形態である音声対話システムの構成を示したブロック図
【図１１】本発明の第６の実施の形態である音声対話システムの動作を表したタイムチャート
【図１２】本発明の第７の実施の形態である音声対話システムの構成を示したブロック図
【図１３】本発明の第７の実施の形態である音声対話システムの動作を表したタイムチャート
【図１４】本発明の第８の実施の形態である音声対話システムの構成を示したブロック図
【図１５】本発明の第８の実施の形態である音声対話システムの動作を表したタイムチャート
【図１６】本発明の第９の実施の形態である音声対話システムの構成を示したブロック図
【図１７】本発明の第９の実施の形態である音声対話システムの動作を表したタイムチャート
【図１８】本発明の第１０の実施の形態である音声対話システムの構成を示したブロック図
【図１９】本発明の第１０の実施の形態である音声対話システムの動作を表したタイムチャート
【符号の説明】
１、２、３、４、５、６、６、７、８、９、１０音声対話システム
２０スピーカ
２１マイクロホン
２２音声応答除去部
２３音声認識部
２４対話制御部
２５応答音声データベース
２６応答生成部
２７発声タイミング検出部
３２時間−意味データベース
３３使用回数カウント部
３５使用頻度計算部
３７発声速度計算部
３９累積平均類似度計算部
４１累積平均認識率計算部
４３閾値変更部
４４話者判定部
４５音声認識辞書データベース
４６辞書切替部
５０、５１、５２、５３、５４、５５、５６、５７、５８、５９習熟度判定部

Claims

ユーザーに対してシステム側音声を出力可能な音声出力部と、前記音声出力部が出力したシステム側音声に従って前記ユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、前記マイクロホンへ入力された前記ユーザー音声を音声認識する音声認識部と、前記ユーザー音声を前記マイクロホンにより変換した前記音声信号に基づいて前記ユーザーの音声対話の習熟度を判定する習熟度判定部と、前記習熟度判定部で判定した前記習熟度に応じて前記システム側音声の出力を変更する音声出力変更部とを備えたことを特徴とする音声対話システム。
前記システム側音声の出力の変更は、詳細な出力内容と前記詳細な出力内容より簡素な出力内容との少なくとも２つの出力内容間で行うことを特徴とする請求項１に記載の音声対話システム。
入力された前記音声信号に基づいて前記ユーザーが発声する発声タイミングを検出する発声タイミング検出部を備え、前記習熟度判定部は、前記発声タイミングを用いて前記習熟度を判定することを特徴とする請求項１又は請求項２に記載の音声対話システム。
前記発声タイミングが前記ユーザーの発声開始時間であり、前記習熟度判定部が前記発声開始時間と前記システム側音声の出力開始時間との時間差を用いて前記習熟度を判定することを特徴とする請求項３に記載の音声対話システム。
入力された前記音声信号に基づいて前記音声認識を利用したユーザー音声入力の累積使用回数をカウントする使用回数カウント部を備え、前記習熟度判定部が、前記使用回数カウント部から得た前記累積使用回数を用いて前記習熟度を判定することを特徴とする請求項１に記載の音声対話システム。
入力された前記音声信号に基づいて前記音声認識を利用した前記ユーザー音声入力の使用頻度を計算する使用頻度計算部を備え、前記習熟度判定部が、前記使用頻度計算部から得た前記使用頻度を用いて前記習熟度を判定することを特徴とする請求項１に記載の音声対話システム。
入力された前記音声信号に基づいて前記音声認識を利用した前記ユーザー音声の発声速度を計算する発声速度計算部を備え、前記習熟度判定部が、前記発声速度計算部から得た前記ユーザーの発声速度を基に前記習熟度を判定することを特徴とする請求項１に記載の音声対話システム。
入力された前記音声信号に基づいて前記システム側音声に応答した前記ユーザー音声の内容が正しい応答内容にどれだけ類似しているかを表す類似度を使って累積平均類似度を計算する累積平均類似度計算部を備え、前記習熟度判定部が、前記累積平均類似度計算部から得た前記累積平均類似度を用いて前記習熟度を判定することを特徴とする請求項１に記載の音声対話システム。
入力された前記音声信号に基づいて前記システム側音声に応答した前記ユーザー音声の内容が前記システム側音声の内容をどれだけ正確に認識してなされたか否かを表す認識率を使って累積平均認識率を計算する累積平均認識率計算部を備え、前記習熟度判定部が、前記累積平均認識率計算部から得た前記累積平均認識率を用いて前記習熟度を判定することを特徴とする請求項１に記載の音声対話システム。
前記習熟度判定部にて前記習熟度が所定値より低いと判定された場合に、前記類似度または前記認識率を決定するための閾値を下げるように閾値を変更する閾値変更部を備えたことを特徴とする請求項８または請求項９のに記載の音声対話システム。
前記習熟度判定部は、前記ユーザーに対して前記音声出力部が出力する前記システム側音声の内容の意味を加味して前記習熟度を判定することを特徴とする請求項１乃至請求項１０のいずれかに記載の音声対話システム。
入力された前記音声信号に基づいて話者が誰であるかの認識を行う話者認識部を備え、前記習熟度判定部が前記話者判定部で認識したユーザーごとに前記習熟度を判定することを特徴とする請求項１乃至請求項１１のいずれかに記載の音声対話システム。
前記音声出力部からユーザーに対し出力される前記システム側音声の内容が変化したとき、変化した内容に応じて前記ユーザーが発声すると予測される内容の辞書へ辞書を切り替えることを特徴とする請求項１乃至請求項１１のいずれかに記載の音声対話システム。
前記マイクロホンから入力された音声信号から、前記音声出力部が出力した前記システム側音声の出力相当信号分を除去する音声応答除去部を備えたことを特徴とする請求項１乃至請求項１３のいずれかに記載の音声対話システム。
音声出力部からユーザーに対してシステム側音声を出力可能であり、前記音声出力部が出力した前記システム側音声に従って前記ユーザーが発声したユーザー音声をマイクロホンで音声信号に変換し、前記マイクロホンへ入力された前記ユーザー音声を音声認識部で音声認識するとともに、前記システム側音声に応答する前記ユーザー音声が前記マイクロホンにより変換された前記音声信号に基づいて前記ユーザーの音声対話の習熟度を判定した後に、前記判定した習熟度に応じて前記システム側音声の出力を変更することを特徴とする音声対話方法。