JP2004333543A - 音声対話システム及び音声対話方法 - Google Patents

音声対話システム及び音声対話方法 Download PDF

Info

Publication number
JP2004333543A
JP2004333543A JP2003125168A JP2003125168A JP2004333543A JP 2004333543 A JP2004333543 A JP 2004333543A JP 2003125168 A JP2003125168 A JP 2003125168A JP 2003125168 A JP2003125168 A JP 2003125168A JP 2004333543 A JP2004333543 A JP 2004333543A
Authority
JP
Japan
Prior art keywords
voice
user
proficiency
unit
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003125168A
Other languages
English (en)
Inventor
Kazuya Nomura
和也 野村
Akira Mochizuki
亮 望月
Hirofumi Nishimura
洋文 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003125168A priority Critical patent/JP2004333543A/ja
Publication of JP2004333543A publication Critical patent/JP2004333543A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】システム側とユーザーが音声で対話する際、ユーザーの習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供すること。
【解決手段】音声対話システム1は、ユーザーに対してシステム側音声を出力可能なスピーカ20と、スピーカ20が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホン21と、マイクロホン21へ入力されたユーザー音声を音声認識する音声認識部23と、ユーザー音声をマイクロホン21により変換した音声信号および応答生成部26からの応答音声信号に基づいて発声タイミングを検出する発声タイミング検出部27と、発声タイミングを用いてユーザーの音声対話の習熟度を判定する習熟度判定部50と、習熟度判定部50で判定した習熟度に応じてシステム側音声の出力内容を変更する音声出力変更部60とを備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、互いに音声を用いてシステムとユーザーとの間で対話を行う音声対話システム及び音声対話方法に関する。
【0002】
【従来の技術】
従来、この種の音声対話システムは、ユーザー(話者)からの入力音声を取り込むマイクロホンと、システムの音声応答を出力するスピーカと、ユーザーからの入力音声に重畳された音声応答を除去する音声応答除去部と、音声応答除去部の出力を取り込んでユーザーの発話内容を認識する音声認識部と、認識された音声に対応する音声応答を選択制御する対話制御部と、実際に音声応答をスピーカおよび音声応答除去部に出力する音声応答部とが設けられて、ユーザーとシステムとの間で音声による対話を可能とし、その際、音声対話システムが音声応答を出力しているときであってもユーザーからの音声を認識できるようにしたバージイン機能を持たせたものであった(例えば、特許文献1参照。)。
【0003】
【特許文献1】
特開2001−296890号公報(図1)
【0004】
【発明が解決しようとする課題】
しかし、このような従来の音声対話システムでは、バージイン機能を利用することにより音声対話システムの使用に慣れたユーザーがシステムの音声応答中に発声してもユーザーの音声内容を把握できるようにしているものの、その使用に慣れていないユーザーが使用できるようなレベルに音声応答の出力を固定すると、音声対話システムの使用に慣れたユーザーが音声応答の出力の途中で発声し始め、その発声を終了した後にもシステムから音声応答が出力され続け、待ち時間が生じてしまい、逆にこの待ち時間を減らすため音声応答のレベルを上げると、使用に慣れていないユーザーが使用しにくくなるという問題があった。
本発明はこのような問題を解決するためになされたもので、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能にした音声対話システム及び音声対話方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えた構成を有している。
【0006】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することが可能となる。
【0007】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、システム側音声の出力の変更が、詳細な出力内容と詳細な内容より簡素な出力内容との少なくとも2つの出力内容間で行われる構成を有している。
【0008】
この構成により、本音声対話システムに習熟していないユーザーに対しては詳細な出力内容のシステム側音声を出力することにより使用方法を容易に理解させ、本音声対話システムに習熟したユーザーに対しては簡素な出力内容のシステム側音声を出力することにより待ち時間を無しにするかあるいは少なくしてスムーズな使用を可能とすることができる。
【0009】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてユーザーが発声する発声タイミングを検出する発声タイミング検出部を備え、習熟度判定部が、発声タイミングを用いて習熟度を判定する構成を有している。
【0010】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーの発声タイミングを用いるようにしたので、ユーザーの音声発声を検出すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【0011】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて発声タイミングとしてのユーザーの発声開始時間を検出する発声タイミング検出部を備え、習熟度判定部が発声開始時間とシステム側音声の出力開始時間との時間差を用いて習熟度を判定する構成を有している。
【0012】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザー音声の発声開始時間と音声出力部によるシステム側音声出力開始時間との時間差を用いるようにしたので、ユーザー音声信号の入力開始時間とシステム側音声の出力開始時間とを検出してこの時間差を演算すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【0013】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声入力の累積使用回数をカウントする使用回数カウント部を備え、習熟度判定部が、使用回数カウント部から得た累積使用回数を用いて習熟度を判定する構成を有している。
【0014】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが音声対話システムを使用した累積使用回数を用いるようにしたので、ユーザー音声の信号入力を検出しその累積値を演算して累積使用回数を得ればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【0015】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声入力の使用頻度を計算する使用頻度計算部を備え、習熟度判定部が、使用頻度計算部から得た使用頻度を用いて習熟度を判定する構成を有している。
【0016】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの使用頻度を用いるようにしたので、ユーザー音声の信号の入力にて本音声対話システムの使用を検出しその頻度を演算して使用頻度を得ればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【0017】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて音声認識を利用したユーザー音声の発声速度を計算する発声速度計算部を備え、習熟度判定部が、発声速度計算部から得たユーザーの発声速度を基に習熟度を判定する構成を有している。
【0018】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーの発声信号を用いるようにしたので、たとえばユーザーの発声開始時間と発声終了時間とを検出して演算すればよく、簡単な信号検出と演算で習熟度を判定できることとなる。
【0019】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてシステム側音声に応答したユーザー音声の内容が正しい応答内容にどれだけ類似しているかを表す類似度を使って累積平均類似度を計算する累積平均類似度計算部を備え、習熟度判定部が、累積平均類似度計算部から得た累積平均類似度を用いて習熟度を判定する構成を有している。
【0020】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの累積平均類似度を用いるようにしたので、ユーザー音声の信号入力を基にユーザー音声の内容を音声認識し、この認識内容がシステム側音声の問いかけに対する正しい応答内容にどれだけ類似しているかといった類似度を、閾値等を利用して検出しその累積平均値を演算すればよく、簡単な検出と演算で習熟度を判定できることとなる。
【0021】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいてシステム側音声に応答したユーザー音声の内容がシステム側音声の内容をどれだけ正確に認識してなされたか否かを表す認識率を使って累積平均認識率を計算する累積平均認識率計算部を備え、習熟度判定部が、累積平均認識率計算部から得た累積平均認識率を用いて習熟度を判定する構成を有している。
【0022】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、習熟度の判定にユーザーが使用した音声対話システムの累積平均認識率を用いるようにしたので、ユーザー音声の信号入力を基にユーザー音声の内容を音声認識し、この認識内容がシステム側音声の内容をどれだけ認識しているかといったに認識率を、閾値等を利用して検出しその累積平均値を演算すればよく、簡単な検出と演算で習熟度を判定できることとなる。
【0023】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、習熟度判定部にて習熟度が所定値よりも低いと判定された場合に、類似度または認識率を決定するための閾値を下げるように閾値を変更する閾値変更部を備えた構成を有している。
【0024】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、類似度または認識率を決定するための閾値を習熟度の判定結果を応じてフィードバックすることができ、閾値を妥当な値に修正して習熟度が低いユーザーの音声認識をも容易にすることが可能となる。
【0025】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、習熟度判定部が、ユーザーに対して音声出力部が出力するシステム側音声の内容の意味を加味して習熟度を判定する構成を有している。
【0026】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、システム側音声の問いかけ内容ごとにユーザーの習熟度を判定することができ、たとえばシステム側音声にてユーザーが習熟した内容の問いかけを行う場合には簡素な内容とし、習熟していない問いかけを行う場合には詳細な内容として、問いかけごとにその習熟度に合わせながらシステム側音声の出力内容を異ならせて出力することが可能となる。
【0027】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、入力された音声信号に基づいて話者が誰であるかの認識を行う話者判定部を備え、習熟度判定部が話者判定部で認識したユーザーごとに習熟度を判定する構成を有している。
【0028】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、どのユーザーが本音声対話システムを使用しているのかを認識して、この結果認識したユーザーごとに習熟度を判定しその習熟度に合ったシステム側音声に変更して出力することが可能となる。
【0029】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、音声出力部からユーザーに対し出力されるシステム側音声の内容が変化したとき、変化した内容に応じてユーザーが発声すると予測される内容の辞書へ辞書を切り替える構成を有している。
【0030】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、変化したシステム側音声の内容に合わせてユーザーが応答する可能性があると予測される内容の辞書に切り替えるので、辞書を固定した場合に比べ誤認識が減り、またユーザーの応答内容をより早く把握すること等が可能となる。
【0031】
また、本発明の音声対話システムは、ユーザーに対してシステム側音声を出力可能な音声出力部と、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、マイクロホンへ入力されたユーザー音声を音声認識する音声認識部と、ユーザー音声をマイクロホンにより変換した音声信号に基づいてユーザーの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定した習熟度に応じてシステム側音声の出力を変更する音声出力変更部とを備えるとともに、マイクロホンから入力された音声信号から、音声出力部が出力したシステム側音声の出力相当信号分を除去する音声応答除去部を備えた構成を有している。
【0032】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能とすることができ、その場合、システム側音声の出力中にユーザーが発声した場合、マイクロホンから出力される信号がシステム側音声とユーザー音声とを重畳した音声信号となるものの、システム側音声に相当する信号分を除去でき、ユーザー音声をその除去分だけより明確に認識できることとなる。
【0033】
また、本発明の音声対話方法は、音声出力部からユーザーに対してシステム側音声を出力可能であり、音声出力部が出力したシステム側音声に従ってユーザーが発声したユーザー音声をマイクロホンで音声信号に変換し、マイクロホンへ入力されたユーザー音声を音声認識部で音声認識するとともに、システム側音声に応答するユーザー音声がマイクロホンにより変換された音声信号に基づいてユーザーの音声対話の習熟度を判定した後に、判定した習熟度に応じてシステム側音声の出力を変更する構成を有している。
【0034】
この構成により、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話方法を提供することが可能となる。
【0035】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
なお、以下の各実施の形態において実質的に同一な構成部分については、同一の番号を付し、その重複する説明を省略する。ここでは、音声対話システムをカーナビゲーション装置に適用した例につき説明する。
【0036】
図1に示すように、本発明の第1の実施の形態である音声対話システム1は、ユーザーに対してガイド音声や音声応答といったシステム側音声を出力するスピーカ(音声出力部)20と、ユーザーが発した音声を音声信号に変換するマイクロホン21と、マイクロホン21から出力された音声信号からスピーカ20で出力されたガイド音に相当する出力相当信号を除去する音声応答除去部22と、マイクロホン21から出力され音声応答除去部22にて重畳信号分を除去して得た音声信号に基づきユーザー音声の発話内容を認識する音声認識部23と、音声認識部23で得たユーザー音声の内容に基づき対応する応答音声を選択してユーザーとの対話を制御する対話制御部24と、応答音声データを記憶した応答音声データベース25と、対話制御部24の出力に基づき応答音声データベース25のデータを利用してスピーカ20や音声応答除去部22に出力するための音声応答信号を生成する応答生成部26と、ユーザーの発声タイミングを検出する発声タイミング検出部27と、音声応答信号と上記重畳された信号分を除去した音声信号とを用いてユーザーの習熟度を判定して応答生成部26へ出力する習熟度判定部50と、を備えている。
【0037】
なお、対話制御部24と応答音声データベース25と応答生成部26とは、ユーザーの習熟度に応じてシステム側音声の出力を変更する本発明の音声出力変更部60を構成する。
【0038】
音声応答除去部22は、マイクロホン21から入力された音声信号と応答生成部26から入力された応答音声信号とに基づき、たとえばLMS(Least Mean Square)/ニュートンアルゴリズムを利用して得たフィルタ係数(インパルス応答)を学習しながら最適に調整するフィルタ係数学習手段28と、このインパルス応答により応答音声信号を補正して出力する適応フィルタ29と、マイクロホン21より入力された音声信号から適応フィルタ29より入力された出力信号を減算する減算器30とを有している。
【0039】
音声認識部23は、マイクロホン21から入力され音声応答除去部22で音声応答の相当重畳分を減算した音声信号を音響処理する音響処理手段(図示せず)と、音響処理手段で得た音声の最小単位を基に最もそれらしい音素候補を選びだして識別する音素識別手段(図示せず)と、本音声対話システム1の利用目的に関連する単語等を記憶した辞書データベース(図示せず)と、音素認識手段で得られた音素と辞書データとを基にして単語の候補を選定し、構文、意味、文脈等の言語情報を利用しながら正しい文章を得るための言語処理を実行する言語処理手段(図示せず)とを有している。
【0040】
なお、音響処理手段は、たとえば、LPCケプストラム(Linear Predictor Coefficient Cepstrum: 線形予測係数化ケプストラム)等を利用して、マイクロホン21から入力された音声信号を特徴量ベクトルという時系列のベクトルに変換し、音声スペクトルの概形(スペクトル包絡)を推定するように構成する。
【0041】
音素識別手段は、たとえばHMM(Hidden Markov Model: 隠れマルコフモデル)法等を利用して、入力された音声を基に音響処理手段で抽出した音響パラメータを用いて音声信号の音素記号化を行い、予め用意してある標準音素モデルと比較して最もそれらしい音素の候補を選び出すように構成する。
【0042】
言語処理手段は、音素候補を基にして辞書データベースの単語辞書と比較し最もそれらしい単語を選択したり、言語モデルにて単語間の接続関係を規定したりするなど、構文処理や意味処理を行うように構成する。
【0043】
一方、対話制御部24は、音声認識部23で認識した音声信号の内容に基づき応答内容を選択制御して応答生成部26へ出力するようにしてある。
応答生成部26は、対話制御部24で決定した内容に基づき応答音声データベース25からのデータを利用して応答音声信号を生成し、習熟度判定部50とスピーカ20へ出力する。また、この応答生成部26では、習熟度判定部50からの習熟度の高低に応じて、対話制御部24で決定した内容のうち後でより詳細に説明するようにより詳細な応答内容とより簡略化された応答内容との一方に応じた応答音声信号(ガイド音声や音声応答を出力するための信号)を生成するように構成してある。
【0044】
発声タイミング検出部27は、マイクロホン21から入力された音声信号のうちスピーカ20から出力されたガイド音声相当分を音声応答除去部22にて除去して得た音声信号に基づき、ユーザー音声の発声開始時間(発声のタイミング)を検出するようにしてある。
習熟度判定部50は、応答生成部26からの応答音声信号の出力開始時間と、発声タイミング検出部27から入力されたユーザー音声の発声開始時間との時間差を演算して、この時間差が設定時間未満であればユーザーが音声対話システム1の使用に習熟していると判定し、時間差が設定時間以上であれば習熟していないと判定するように構成してある。
【0045】
上記本発明の第1の実施の形態である音声対話システム1の動作を、図1の構成ブロック図および図2のタイムチャートに基づき以下に説明する。
同図中、上段(a)はユーザーが習熟していないケース、中段(b)はユーザーが習熟して発声しているケース、下段(c)はユーザーが習熟していると習熟度判定部50が判定した後に応答生成部26が音声応答の出力を変更して応答しているケースをそれぞれ示す。なお、同図中の各段において、横軸は矢印の方向へ時間が経過する時間軸を示しており、点線の上半部には音声対話システム1のガイド音声を、また点線の下半部にはユーザーの音声をそれぞれ示してある。
【0046】
まず、ユーザーが習熟していない図2(a)のケースにつき説明すると、ナビゲーション装置の使用をユーザーが希望した場合、音声対話システム1が、スピーカ20を通じてユーザーに「どちらまでですか」といった目的地に関する問いかけのガイド音声S10を出力する。このガイド音声S10の出力が終了すると、ユーザーは、この問いかけを受け、希望の目的地としてたとえば「横浜市」とのユーザー音声U10を発声する。このユーザー音声U10は、マイクロホン21へ入力され、音声信号に変換される。
【0047】
この場合、ガイド音声S10とユーザー音声U10とは、時間上で重畳していないので、マイクロホン21から出力された音声信号は、音声応答除去部22でガイド音声相当信号等を減算されることなくそのまま通過して、音声認識部23と習熟度判定部50とに入力される。
【0048】
音声認識部23では、音声信号に基づきユーザー音声U10の内容、すなわち目的地が横浜市であることを認識するものの横浜市のいずこであるかが不明なので、対話制御部24が、ユーザーに対し発すべき次の問いかけ(ガイド音声)の内容を選択する。すなわち、目的地が横浜市であることまでは認識されたので、目的地をさらに詳細に絞り込むため、横浜市では「市」の一つ下のレベルが「町」ではなく「区」であることから、目的地がどの区であるかの問いかけを行うように対話制御部24が決定する。この決定に基づいて応答生成部26が、どの区であるかの問いかけの音声応答信号を出力する。
【0049】
すなわち、応答生成部26は、対話制御部24から入力された信号を基に応答音声データベース25から読み出したデータを利用して音声応答信号を生成(音声合成)する。この音声応答信号は、フィルタ係数学習手段28、適応フィルタ29、および発声タイミング検出部27に入力されるとともに、スピーカ20にも入力され、図2に示すように「横浜市のどちらですか。区名をお話し下さい。」との区名を問いかけるガイド音声S20を出力する。この場合、ガイド音声S20は、単に「区名をお話し下さい。」と出力するだけでなく、ユーザーが回答した「横浜市」を加えて出力することにより、音声対話システム1がユーザーの要望である横浜市を正しく認識したことを、ユーザーが確認できるようにしてある。
【0050】
上記ガイド音声を聞いたユーザーは、希望する区として、たとえば「都筑区」とのユーザー音声U20を発する。このケースでは、ユーザーが音声対話システム1の使用に習熟していないので、上記ガイド音声S20の出力のうち「区名をお話」辺りより以降の部分まで聞かないと次に何をしなければならないのか分からない。この結果、ユーザーがユーザー音声U20で応答し始めるのは、たとえばこのケースに示すように、ガイド音声S20の出力の「区名をお話し下」あたりの箇所となる。
【0051】
このとき、スピーカ20から出力されたガイド音声S20の「・・・下さい。」とユーザー音声U20の「都筑」とが重なってマイクロホン21に入力されるが、音声応答除去部22にてガイド音声相当分の信号がマイクロホン21から入力された信号から除去されるので、音声認識部23でユーザー音声U20を正しく認識することができる。
また、このとき発声タイミング検出部27が「都筑区」といったユーザーの発声U20の開始時間までの時間(タイミング)Tを検出し、習熟度判定部50へ入力する。
【0052】
習熟度判定部50は、応答生成部26からの区名を問いかけるガイド音声S20の信号と発声タイミング検出部27からのユーザー音声U20の発声タイミング信号とが入力され、ガイド音声S20の出力開始時間とユーザー音声U20の発声開始時間とからこれらの時間差Tを演算する。このケースでは、時間差Tが習熟度の判定基準値より大きくなり、習熟度判定部50では、ユーザーが音声対話システム1の使用に習熟していないと判定する。この判定の結果、応答生成部26は、次回の音声対話においても上記ガイド音声S20等を変更することなく出力する。
【0053】
一方、図2(b)に示すように、ガイド音声S10、ユーザー音声U10が上記図2(a)と同様に行われ、続いて「横浜市のどちらですか。区名をお話下さい。」との問いかけの音声応答信号を応答生成部26から出力するように対話制御部24が決定しスピーカ20からガイド音声を出力し始めたものの、今回ユーザーが問いかけの内容が途中で分かり、ガイド音声S21が「横浜市の」まで音声出力された段階でユーザーが「都筑区」とのユーザー音声U20を発したとする。
【0054】
このとき、ガイド音声S21の「のどちらで・・・」とユーザー音声U20とが重なってマイクロホン21に入力されるが、音声応答除去部22にてガイド音声相当分の信号がマイクロホン21に入力された信号から除去され、音声認識部23ではユーザー音声U20を正しく認識することができる。
また、このとき、発声タイミング検出部27が「都筑区」といったユーザーの発声U20の時間(タイミング)を検出し、習熟度判定部50に入力する。
【0055】
習熟度判定部50は、応答生成部26からの区名を問いかけるガイド音声S21の信号と発声タイミング検出部50からのユーザー音声U20の発声タイミング信号とが入力され、ガイド音声S21の出力開始時間とユーザー音声U20の発声開始時間とからこれらの時間差tを演算する。このケースでは、時間差tが習熟度の判定基準値より小さくなり、習熟度判定部27では、ユーザーが音声対話システム1の使用に習熟したと判定する。この判定の結果、応答生成部26は、ガイド音声S21に示すように「横浜市のどちらで」といった途中でその出力を中止し、以降このケースでは「ですか。区名をお話し下さい。」の部分を出力しないようにする。
【0056】
そして、このユーザーが音声対話システム1を次に使用するときは、図2(c)に示すように、ガイド音声S10、ユーザー音声U10が上記図2(a)と同様に行われた後は、応答生成部26が、ガイド音声S20に代えてこの内容をより省略したガイド音声S22、すなわち「横浜市!」と出力する。ユーザーは、音声対話システム1に習熟しているので、上記ガイド音声S22を聞いただけで「都筑区」といったユーザー音声U20を発し、これを受けて音声対話システム1も「都筑区!」といった次ぎのより省略したガイド音声S30を出力していく。このように、ユーザーが音声対話システム1に習熟したと判定された後は、ガイド音声や音声応答といったシステム側音声がより省略された内容へと変更されて出力されることになる。
【0057】
以上のように、本発明の第1の実施の形態である音声対話システム1は、ガイド音声等のシステム側音声の出力とこれに応答するユーザーの音声発声とのタイミングを検出してユーザーの当該音声対話システム1の使用の習熟度を判定し、習熟度に応じてそれ以降のシステム側音声の出力を変更することができる。この習熟度の判定にあたっては、ユーザー音声の発声タイミングを検出して行っているので、簡単にその検出ができる。
【0058】
図3に示すように、本発明の第2の実施の形態である音声対話システム2は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27で検出した発声タイミングのみにより習熟度を判定する習熟度判定部50に代えて、時間−意味データベース32と、この、時間−意味データベース32からのデータを発声タイミングに加味して習熟度を判定する習熟度判定部51とをさらに設けた点が図1の音声対話システム1と相違している。
【0059】
時間−意味データベース32は、スピーカ20からガイド音声を発した場合にこれに応答するユーザー音声の発声開始時間までの間における当該ガイド音声の意味を把握するためのデータベースである。
習熟度判定部51は、発声タイミング検出部27で得たユーザーの発声タイミングに加え、時間−意味データベース32を基にユーザーが応答して発声するまでのガイド音声の意味を加味してユーザーの習熟度を判定する。すなわち、上記ガイド音声の意味を加味することにより、例えばどの問い合わせのガイド音声に合った応答をユーザーが実行しているのかもチェックすることにより、ユーザーの習熟を把握するように構成してある。
【0060】
上記本発明の第2の実施の形態である音声対話システム2の動作は、図2のタイムチャートと同様となるが、習熟度判定部51で図2(b)のユーザー音声U20の内容がガイド音声S21で問いかけている内容に合っているかを判断している点が図1の音声対話システム1の動作と相違するだけである。
【0061】
以上のように、本発明の第2の実施の形態である音声対話システム2は、ユーザーの習熟度に合わせてガイド音声等のシステム側音声を出力することができ、習熟していないユーザーには詳細な内容で出力することで使用方法を分かりやすくし、また習熟したユーザーには上記内容を省略した簡素な内容で出力することで分かりきったガイド音声を長々と聞きながら次ぎのシステム側音声の出力を待つ必要をなくしスムーズな対応を可能とすることができるようになる。そして、ユーザーの習熟度を判定する場合に、システム側音声による問いかけの内容とユーザー音声による応答の内容とが合っていることも発声タイミングと併せて確認することができることから、図1の音声対話システム1よりさらに習熟度判定の精度を向上させることが可能となる。
【0062】
図4に示すように、本発明の第3の実施の形態である音声対話システム3は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27と、この発声タイミング検出部27から得た発声タイミングに基づき習熟度を判断する習熟度判定部50とに代えて、ユーザーの音声対話システム3の累積使用回数をカウントする使用回数カウント部33と、この使用回数カウント部33でカウントした累積使用回を格納する使用回数格納部34と、使用回数カウント部33から得た累積使用回数を用いてユーザーの習熟度を判定する習熟度判定部52とを設けた点が音声対話システム1と相違する。
【0063】
使用回数カウント部33は、ユーザーが音声対話システム3を新たに1回使用するたびに、使用回数格納部34に格納しているそれ以前の累積使用回数に1回分をプラスして新たな累積使用回数を得、この累積使用回数を使用回数格納部34へ入力して書き換え格納するとともに、習熟度判定部52へも入力するようにしてある。
習熟度判定部52は、使用回数カウント部33から入力された累積使用回数を基に習熟度の判定基準値と比較して、ユーザーの習熟度を判定するようにしてある。この習熟度の判定基準値としては、このケースでは、第1設定値とこれより大きい値の第2設定値とを設けてある。
【0064】
上記本発明の第3の実施の形態である音声対話システム3の動作につき、図4の構成ブロック図と図5のタイムチャートに基づき以下に説明する。
図5(a)は、習熟していないユーザーのケース、図5(b)はある程度習熟してきたユーザーのケース、図5(c)は十分習熟したユーザーのケースをそれぞれ示す。
【0065】
ユーザーが音声対話システム3を使用するとき、その都度、使用回数カウント部33が使用回数格納部34に格納しているそれまでの累積使用回数に今回の使用回数である1を加えて新たな累積使用回数を得る。使用回数カウント部33は、この新たな累積使用回数を使用回数格納部34に格納するとともに習熟度判定部52へ入力する。
【0066】
習熟度判定部52は、入力された累積回数を習熟度判定の基準である第1設定値および第2設定値との大小関係を比較する。
累積使用回数が第1設定値より小さい場合には、習熟度判定部52は、ユーザーが音声対話システム3の使用に習熟していないと判断し、図3(a)に示すように、ガイド音声S10、S20を図5(a)の場合と同じ内容で出力する。この場合、ユーザー音声U10、U20も図5(a)の場合と同様になる。
【0067】
ユーザーの使用回数が増えて、使用回数カウント部33から入力された累積使用回数が第1設定値以上で第2設定値未満となった場合、習熟度判定部52は、ユーザーが音声対話システム3にある程度習熟したと判定し、この判定結果を応答生成部26に入力する。この入力により、応答生成部26は、図5(b)に示すように、ガイド音声S20の内容をより省略したガイド音声S23として、たとえば「区名をお話し下さい。」を省略した「横浜市のどちらですか。」との問いかけに変更してスピーカ20から出力する。
【0068】
ユーザーの使用回数がさらに増えて、使用回数カウント部33から入力された累積使用回数が第2設定値以上となった場合、習熟度判定部52は、ユーザーが音声対話システム3に十分習熟したと判定し、この判定結果を応答生成部26に入力する。この入力により、応答生成部26は、図5(c)に示すように、ガイド音声S23の内容をさらに省略したガイド音声S22として、たとえば「横浜市!」と変更してスピーカ20から出力する。
【0069】
以上のように、本発明の第3の実施である形態である音声対話システム3は、累積使用回数に応じて習熟度を判定し、習熟度に応じてガイド音声等のシステム側音声の内容を変更することができる。この場合、習熟度を習熟していない、ある程度習熟している、十分習熟しているといった3段階で判定し、習熟度が上がるにしたがってシステム側音声の内容を順次より省略した簡素なものとして細やかな対応が可能となる。
【0070】
図6に示すように、本発明の第4の実施の形態である音声対話システム4は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27を有する習熟度判定部50に代えて、ユーザーの音声対話システム4の使用頻度を計算する使用頻度計算部35と、使用頻度計算部35で得た使用頻度を格納する使用頻度格納部36と、使用頻度計算部35から得た使用頻度を用いて習熟度判定部53とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。
【0071】
すなわち、使用頻度計算部35は、ユーザーが音声対話システム4を使用するたびに、使用頻度格納部36に格納されているそれまでの使用頻度と今回の使用とに基づき新たな使用頻度を計算し、この新たに得た使用頻度を使用頻度格納部36へ入力して書き換え格納するとともに、習熟度判定部53へも入力するようにしてある。
習熟度判定部53は、使用頻度計算部35から入力された使用頻度を用いて習熟度の判定基準と比較して、ユーザーの習熟度を判定するようにしてある。この習熟度の判定基準としては、このケースでは、第3設定値とこれより大きい値の第4設定値とを設けてある。
【0072】
上記本発明の第4の実施の形態である音声対話システム4の動作につき、図6の構成ブロック図と図7のタイムチャートに基づき以下に説明する。
図7(a)は、習熟していないユーザーのケース、図7(b)はある程度習熟してきたユーザーのケース、図7(c)は十分習熟したユーザーのケースをそれぞれ示す。
【0073】
ユーザーが音声対話システム4を使用するとき、その都度、使用頻度計算部35が使用頻度格納部36に格納しているそれまでの使用頻度と今回の使用とから計算して新たな使用頻度を得る。使用頻度計算部35は、この新たな使用頻度を使用頻度格納部36に格納するとともに習熟度判定部53へ入力する。
【0074】
習熟度判定部53は、入力された使用頻度と習熟度判定の基準である第3設定値および第4設定値との大小関係を比較する。
使用頻度が第3設定値より小さい場合には、習熟度判定部53は、ユーザーが音声対話システム4の使用に習熟していないと判断し、図7(a)に示すように、ガイド音声S10、S20のを図5(a)の場合と同じ内容で出力する。この場合、ユーザー音声U10、U20も図5(a)の場合と同様になる。
【0075】
ユーザーの使用回数が増えて、使用頻度計算部35から入力された使用頻度が第3設定値以上で第4設定値未満となった場合、習熟度判定部53は、ユーザーが音声対話システム4にある程度習熟したと判定し、この判定結果を応答生成部26に入力する。この入力により、応答生成部26は、図7(b)に示すように、ガイド音声S20の内容をより省略したガイド音声S23として、たとえば「区名をお話し下さい。」を省略した「横浜市のどちらですか。」との問いかけに内容を変更してスピーカ20から出力する。
【0076】
ユーザーの使用回数がさらに増えて、使用頻度計算部35から入力された使用頻度が第4設定値以上となった場合、習熟度判定部53は、ユーザーが音声対話システム4に十分習熟したと判定し、この判定結果を応答生成部26に入力する。この入力により、応答生成部26は、図7(c)に示すように、ガイド音声S23の内容をさらに省略したガイド音声S22として、たとえば「横浜市!」と内容をさらに変更してスピーカ20から出力する。
【0077】
以上のように、本発明の第4の実施の形態である音声対話システム4は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、この場合、習熟度を判定するのに検出および演算が簡単な使用頻度を用いることが可能となる。
【0078】
図8に示すように、本発明の第5の実施の形態である音声対話システム5は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部38と習熟度判定部50とに代えて、ユーザーの発声速度を計算する発声速度計算部37と、発声速度計算部37で得た発声速度を格納する発声速度格納部30と、発声速度を用いて習熟度を判定する習熟度判定部54とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。
【0079】
すなわち、発声速度計算部37は、ユーザーが発声する発声速度を計算して発声速度格納部38と習熟度判定部54へ入力する。ここで、発声速度は、たとえば(辞書の長さ)/(発声時間、すなわち発声が認識された時間区間)で定義する。
習熟度判定部54は、ユーザーの発声速度が判定基準値より小さい(遅い)か大きい(速い)かでそれぞれ習熟していない、習熟していると判定するようにしてある。
【0080】
上記本発明の第5の実施の形態である音声対話システム5の動作につき、図8の構成ブロック図と図9のタイムチャートに基づき以下に説明する。
図9(a)は、ユーザーが音声対話システム5に習熟していないケースを、また図9(b)は、ユーザーが音声対話システム5に習熟しているケースを示す。
【0081】
発声速度計算部37は、ユーザーの発声速度を計算し、発声速度格納部38と習熟度判定部54へ入力する。習熟度判定部54では、入力された発声速度と判定基準値とを比較し、発声速度が判定基準値より小さくゆっくり話している場合には、ユーザーが音声対話システム5に習熟していないと判定し、図9(a)に示すように丁寧な詳細内容のガイド音声S20を応答生成部26がスピーカ20から出力する。
一方、習熟度判定部54で発声速度が判定基準値以上であり早く話している場合には、ユーザーが音声対話システム5に習熟していると判定し、図9(b)に示すようにガイド音声S20の一部を省略した簡素な内容のガイド音声S23へ変更して応答生成部26がスピーカ20から出力する。
【0082】
以上のように、本発明の第5の実施の形態である音声対話システム5は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、この場合、ユーザーの習熟度を判定するのに検出および演算が簡単なユーザーの発声速度を用いることが可能となる。
【0083】
図10に示すように、本発明の第6の実施の形態である音声対話システム6は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27と習熟度判定部50とに代えて、ユーザー音声信号からユーザー音声を認識するとともにガイド音声の問いかけに対するユーザーの応答内容がどれだけ正しい応答内容に類似しているかといった類似度を基に累積平均類似度を計算する累積平均類似度計算部39と、累積平均類似度計算部39が新たな累積平均類似度を計算するたびにその新たな累積平均類似度に書き直して格納する累積平均類似度格納部40と、累積平均類似度計算部39から入力された累積平均類似度を用いて習熟度を判定する習熟度判定部55とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。なお、この音声対話システム6では、音声認識部23の機能を下記のように増強してある。
【0084】
すなわち、音声認識部23は、マイクロホン21で受け音声応答除去部22がスピーカ20から出力した重畳分を除去した信号に基づきユーザー音声の内容を認識して対話制御部24に入力するとともに、対話制御部24または応答生成部26から上記ユーザー音声を引き出した問いかけのガイド音声の内容が入力され(同図中、この信号線は省略してある)、ユーザー音声の内容とガイド音声に対する正しい応答の内容とを比較してガイド音声の問いかけに対するユーザーの応答内容がどれだけ正しい応答に類似しているかといった類似度を演算して累積平均類似度計算部39に入力するように構成してある。
累積平均類似度計算部39は、音声認識部23から新たに入力された類似度と累積平均類似度格納部40に格納されていたそれまでの累積平均類似度とにより、新たな累積平均類似度を、たとえば(認識結果類似度の合計)/(認識回数)といった式を用いて計算し、累積平均類似度格納部40と習熟度判定部55とに入力するようにしてある。
習熟度判定部55は、入力された累積平均類似度を判定基準値と比較してその高低で習熟度を判定するように構成している。
【0085】
上記本発明の第6の実施の形態である音声対話システム6の動作につき、図10の構成ブロック図と図11のタイムチャートに基づき以下に説明する。
図11(a)は、ユーザーが音声対話システム6の使用に習熟していないケースを、また図11(b)は、ユーザーが音声対話システム6の使用に習熟しているケースを示す。
【0086】
ユーザーが音声対話システム6を使用し始めると、累積平均類似度計算部39は、ユーザーの音声対話システム6の新たな使用に応じて音声認識部23で得た類似度と累積平均類似度格納部40に格納されていたそれまでの累積平均類似度とに基づき、新たな累積平均類似度を計算し、累積平均類似度格納部40と習熟度判定部55とに入力する。
習熟度判定部55では、入力された累積平均類似度が判定基準値より低いときはユーザーが習熟していないと判定し、応答生成部26が丁寧で詳細なガイド音声S20をスピーカ20から出力する。これに対し、累積平均類似度が判定基準値以上のときはユーザーが習熟していると判定してガイド音声を一部省略した簡素な内容のガイド音声S23に変更してスピーカ20から出力する。
【0087】
以上のように、本発明の第6の実施の形態である音声対話システム6は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出および演算が簡単な累積平均類似度を用いることが可能となる。
【0088】
図12に示すように、本発明の第7の実施の形態である音声対話システム7は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27と習熟度判定部50とに代えて、ガイド音声の問いかけの内容をユーザーがどれだけ正しく認識しているかといった認識率を基に累積平均認識率を計算する累積平均認識率計算部41と、累積平均認識率計算部41が新たな累積平均認識率を計算するたびにその新たな累積平均認識率に書き直して格納する累積平均認識率格納部42と、累積平均認識率を基にユーザーの習熟度を判定する習熟度判定部56とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。なお、この音声対話システム7では、音声認識部23の機能を下記のように増強してある。
【0089】
すなわち、音声認識部23は、マイクロホン21で受け音声応答除去部22で重畳分を除去した信号に基づきユーザー音声の内容を認識して対話制御部24に入力するとともに、対話制御部24または応答生成部26から上記ユーザー音声を引き出した問いかけのガイド音声の内容が入力され(同図中、この信号線は省略してある)、ガイド音声の問いかけの内容とユーザーの応答内容とを比較してユーザーがガイド音声の問いかけをどれだけ正しく認識しているかといった認識率を演算して累積平均認識率計算部41に入力するように構成してある。
累積平均認識率計算部41は、音声認識部23から新たに入力された認識率とと累積平均認識率格納部42に格納されていたそれまでの累積平均認識率とにより、新たな累積平均認識率を、たとえば(正しく認識した回数の合計)/(認識回数)といった式を用いて計算し、累積平均認識率格納部42と習熟度判定部56とに入力するようにする。
習熟度判定部56は、累積平均認識率を判定基準値と比較してその高低で習熟度を判定するように構成している。
【0090】
上記本発明の第7の実施の形態である音声対話システム7の動作につき、図12の構成ブロック図と図13のタイムチャートに基づき以下に説明する。
図13(a)は、ユーザーが音声対話システム7の使用に習熟していないケースを、また図13(b)は、ユーザーが音声対話システム7の使用に習熟しているケースを示す。
【0091】
ユーザーが音声対話システム7を使用し始めると、累積平均累積平均認識率計算部41は、ユーザーの音声対話システム7の新たな使用に応じて音声認識部23で得た認識率と累積平均認識率格納部42に格納されていたそれまでの累積平均認識率とに基づき、新たな累積平均認識率を計算し、累積平均認識率格納部42と習熟度判定部56とに入力する。
習熟度判定部56では、入力された累積平均認識率が判定基準値より低いときはユーザーが習熟していないと判定し、応答生成部26が丁寧で詳細なガイド音声S20をスピーカ20から出力する。これに対し、累積平均認識率が判定基準値以上のときはユーザーが習熟していると判定してガイド音声を一部省略した簡素な内容のガイド音声S23に変更してスピーカ20から出力する。
【0092】
以上のように、本発明の第7の実施の形態である音声対話システム7は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出や演算が簡単な累積平均認識率を用いることが可能となる。
【0093】
図14に示すように、本発明の第8の実施の形態である音声対話システム8は、図1に示した第1の実施の形態の音声対話システム1の発声タイミング検出部27と習熟度判定部50とに代えて、音声認識部23で得た類似度や認識率などのいずれかを用いて習熟度を判定する習熟度判定部57と、習熟度判定部57で判定した習熟度が所定値より低い場合には音声認識部23で上記類似度や認識率などを決定するのに用いる閾値を下げるように変更する閾値変更部43とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。なお、音声対話システム8には、図10における累積平均類似度計算部39と累積平均類似度格納部40、または図12における累積平均認識率計算部41と累積平均認識率格納部42を設けるようにしているが、ここでは前者を用いるものとし、図8中では省略してある。また、音声認識部23は、図10や図12の音声対話システム6、7のようにその機能を増強してある。
【0094】
上記本発明の第8の実施の形態である音声対話システム8の動作につき、図14の構成ブロック図と図15のタイムチャートに基づき以下に説明する。なお、ここでは累積平均類似度を用いる場合につき説明する。
ユーザーが音声対話システム8を使用し始めると、図10の音声対話システム6の場合と同様に、音声認識部23が閾値を用いてユーザー音声を基に音声認識部23でユーザーの応答がガイド音声の問いかけに対する正しい応答にどれだけ類似しているかといった類似度を検出する。累積平均類似度計算部では、入力された類似度を基に累積平均類似度を計算して、習熟度判定部57へ入力する。習熟度判定部57では、累積平均類似度を用いて習熟度を判定する。この結果、習熟度が低いと判定されたときは、閾値変更部43で閾値を下げることにより音声対話システム8の使用に慣れていないユーザーの音声内容をも音声認識部23でより認識し易いようにする。
【0095】
すなわち、類似度の閾値が常に固定されているケースでは、図15(a)に示すように、音声対話システム8の使用に習熟していると習熟度判定部57で判定されたユーザーの場合には、類似度が音声認識部23で類似度の判定に用いた閾値より高くなっており、ユーザーの音声をよく認識できるのに対し、音声対話システム8の使用に習熟していないと習熟度判定部57で判定されたユーザーの場合には、類似度が音声認識部23で類似度判定に用いた閾値より低くユーザーの音声をあまりよく認識できないことになる。
そこで、習熟度判定部57がユーザーの習熟度が低いと判定した場合には、図15(b)に示すように、閾値変更部43で閾値を下げ、以後この下げた閾値を用いて音声認識部23で類似度を決定するようにすると、習熟度が低いユーザーでも音声認識部23でユーザー音声がより容易に認識できるようになる。
【0096】
以上のように、本発明の第8の実施の形態である音声対話システム8は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、習熟度を判定するのに検出や演算が簡単な累積平均類似度を用いることが可能となり、この場合、ユーザーの習熟度が低いときには、類似度を決定するときの閾値を下げるように変更することにより、習熟していないユーザーの音声をより容易に認識することが可能となる。
【0097】
図16に示すように、本発明の第9の実施の形態である音声対話システム9は、図1に示した第1の実施の形態の音声対話システム1の習熟度判定部50に代えて、ユーザーである話者が誰であるかを判定する話者判定部44と、この話者判定部44で識別した話者情報と発声タイミング検出部27から得た発声タイミング情報とが入力されてユーザーの習熟度を判定する習熟度判定部58とを設けた点が音声対話システム1と相違しており、その他の構成は音声対話システム1と同一である。なお、同図では、省略しているが、話者判定部44で判定された話者情報と習熟度判定部58で判定された当該話者の習熟度情報とが入力されて話者ごとの習熟度に関する情報を格納しておく話者別習熟度格納部を設けてある。
【0098】
上記本発明の第9の実施の形態である音声対話システム9の動作につき、図16の構成ブロック図と図17のタイムチャートに基づき以下に説明する。
ユーザーが音声対話システム9を使用し始めると、図17に示すように、最初のユーザーが発声するユーザー音声U10を基に話者判定部44で話者を判定し、話者別習熟度格納部からその話者の習熟度情報を読み出し、続くガイド音声を読み出した習熟度に合わせてスピーカ20から出力するようにする。
すなわち、話者が習熟していない場合には、図17(a)に示すように続くガイド音声S20を詳細な内容で出力し、話者が習熟している場合には、図17(b)に示すように続くガイド音声S22をより簡素化した内容に変更して出力するようにする。
【0099】
なお、話者が習熟していない場合には、図1の音声対話システム1の場合と同様に、発声タイミング検出部27で図17のガイド音声S20の出力開始時間とユーザー音声U20の発声開始時間との時間差を検出し、この時間差を用いて習熟度判定部58で習熟度を判定する。この場合、ユーザーの習熟度が向上して音声対話システム9の使用にユーザーが慣れていると判定された場合には、話者判定部44で判定した話者の習熟度を慣れていないレベルから慣れているとのレベルへ書き換えて話者別習熟度格納部に格納する。これに対し、発声タイミングを用いて判定した習熟度がまだ慣れていないレベルのままである場合には、話者別習熟度格納部に格納されている当該話者の習熟度の書き換えは実行しない。
【0100】
以上のように、本発明の第9の実施の形態である音声対話システム9は、話者ごとに習熟度を判定し各ユーザーの習熟度に合わせて変更した内容のガイド音等のシステム側音声を出力することが可能となる。したがって、ガイド音声S10に対するユーザー音声U10の入力段階で話者を判定できることから、ガイド音声S20とこれに対応するユーザー音声U20とから習熟度を判定する音声対話システム1等に比べ、より早い段階で習熟度を判定してシステム側音声を出力することができる。また、たとえば使用を許可する話者をあらかじめ登録しておけば、ユーザーが使用許可を登録された者であるか否かを判定でき、音声対話システム9の使用者を制限することなども可能となる。
【0101】
図18に示すように、本発明の第10の実施の形態である音声対話システム10は、本発明の第1の実施の形態である音声対話システム1に、異なる内容の辞書を有する音声認識辞書データベース45と、音声認識部23で用いる辞書を応答生成部26で出力される往々音声信号を基に切り替える辞書切替部46とをさらに追加した点が相違する。
【0102】
上記本発明の第10の実施の形態である音声対話システム10の動作につき、図18の構成ブロック図と図19のタイムチャートに基づき以下に説明する。
ユーザーが音声対話システム10を使用し始めると、スピーカ20から出力されるガイド音声に応えてユーザーが発するユーザー音声をマイクロホン21で補足する。この補足された信号は、図1の音声対話システム1の場合と同様に、発声タイミング検出部27で発声タイミングが検出される。この発声タイミングを用いて習熟度判定部59が判定したユーザーの習熟度に応じてスピーカ20から出力するガイド音声の内容を変更するように応答生成部26で応答音声信号を生成する。
【0103】
この場合、応答生成部26の応答音声信号の内容に基づき辞書切替部46が音声認識辞書データベース45の複数の辞書から上記内容に合った辞書を選択するように切り替え、音声認識部23で利用可能とする。
たとえば、図19(a)に示すように「横浜市のどちらですか。区名をお話し下さい。」とのガイド音声S20を出力し、その応答がいずれかの区名であることを予想して横浜市の全区名辞書D1を用意しているにもかかわらず、ユーザーがガイド音声S20の前半の部分である「横浜市のどちらですか。」のみに注意が向き後半の「区名をお話しください。」に気づかなかったり、あるいは「新横浜」が区名であると勘違いして、区名でない「新横浜」と言った内容のユーザー音声U21を発したとすると、「新横浜」は横浜市の全区名辞書D1には入っていないので音声認識部23では認識できないことになる。
【0104】
これに対し、本音声対話システム10の辞書切替部46では、ガイド音声S20の前半部分ではユーザーが区名より下位の町や字などの名を言う可能性があるので、図17(b)に示すようにガイド音声S20の出力開始からガイド音声S20の終了後の所定時間までの間、横浜市の全区名辞書D1を利用できるようにするとともに、ガイド音声S20の出力開始から「区名を・・・」の後半部分の途中までのみ横浜市の全町字辞書D2を音声認識部23で利用できるように切り替える。したがって、ユーザーが「新横浜」といった区名でないユーザー音声U21を発しても横浜市の全町字辞書D2を利用して正しく目的地を認識することができるようになる。
【0105】
一方、図19(c)に示すように、ガイド音声S20の出力開始から「区名を」辺りまでは横浜市の全町字辞書D2とし、その後を横浜市の全区名辞書D1に切り替えるようにすることもできる。このようにすれば、ユーザーがガイド音声S20の途中であわてて町名を言った場合にも、あるいはガイド音声S20を聞き終えて区名を言わねばならないことを認識してたとえば「神奈川区」といったユーザー音声U20を発声した場合にも音声認識部23で認識することが可能となる。
【0106】
以上のように、本発明の第10の実施の形態である音声対話システム10は、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能な音声対話システムを提供することができるとともに、ガイド音声等のシステム側音声の問いかけ内容に応じてユーザーが応答しそうな内容(それがシステム側音声の問いかけに合った応答であれ誤りそうな内容であれ)の辞書に切り替えることができ、辞書を固定した場合に比べ誤認識が減りユーザーの応答内容をより早く把握すること等が可能となる。
【0107】
なお、本発明では上記実施の形態に限られず、それらの一部を変更または修正してもよい。
すなわち、上記実施の形態では、習熟度判定部で判定するための入力項目として発声タイミング、発声速度、累積使用回数、累積平均類似度、累積平均認識率等のうちの一つを用いたが、これに限ることなくこれらを組合せて用いるようにしてもよい。
また、システム側音声の内容ごとに習熟度を判定して記憶しておき、習熟したと判定したシステム側音声の内容のものだけシステム側音声の出力を変更するようにして、本当にユーザーが慣れた内容だけについて出力変更が行われるようにしてもよい。
【0108】
また、発声タイミング検出部27では、システム側音声の出力開始時間とユーザー側音声の発声開始時間との時間差を取るようにしたが、必ずしも開始時間に限ることなく途中の時間を検出して時間差を求めるようにしてもよい。
【0109】
【発明の効果】
以上説明したように、ユーザーの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更することが可能な音声対話システムを提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態である音声対話システムの構成を示したブロック図
【図2】本発明の第1および第2の実施の形態である音声対話システムの動作を表したタイムチャート
【図3】本発明の第2の実施の形態である音声対話システムの構成を示したブロック図
【図4】本発明の第3の実施の形態である音声対話システムの構成を示したブロック図
【図5】本発明の第3の実施の形態である音声対話システムの動作を表したタイムチャート
【図6】本発明の第4の実施の形態である音声対話システムの構成を示したブロック図
【図7】本発明の第4の実施の形態である音声対話システムの動作を表したタイムチャート
【図8】本発明の第5の実施の形態である音声対話システムの構成を示したブロック図
【図9】本発明の第5の実施の形態である音声対話システムの動作を表したタイムチャート
【図10】本発明の第6の実施の形態である音声対話システムの構成を示したブロック図
【図11】本発明の第6の実施の形態である音声対話システムの動作を表したタイムチャート
【図12】本発明の第7の実施の形態である音声対話システムの構成を示したブロック図
【図13】本発明の第7の実施の形態である音声対話システムの動作を表したタイムチャート
【図14】本発明の第8の実施の形態である音声対話システムの構成を示したブロック図
【図15】本発明の第8の実施の形態である音声対話システムの動作を表したタイムチャート
【図16】本発明の第9の実施の形態である音声対話システムの構成を示したブロック図
【図17】本発明の第9の実施の形態である音声対話システムの動作を表したタイムチャート
【図18】本発明の第10の実施の形態である音声対話システムの構成を示したブロック図
【図19】本発明の第10の実施の形態である音声対話システムの動作を表したタイムチャート
【符号の説明】
1、2、3、4、5、6、6、7、8、9、10 音声対話システム
20 スピーカ
21 マイクロホン
22 音声応答除去部
23 音声認識部
24 対話制御部
25 応答音声データベース
26 応答生成部
27 発声タイミング検出部
32 時間−意味データベース
33 使用回数カウント部
35 使用頻度計算部
37 発声速度計算部
39 累積平均類似度計算部
41 累積平均認識率計算部
43 閾値変更部
44 話者判定部
45 音声認識辞書データベース
46 辞書切替部
50、51、52、53、54、55、56、57、58、59 習熟度判定部

Claims (15)

  1. ユーザーに対してシステム側音声を出力可能な音声出力部と、前記音声出力部が出力したシステム側音声に従って前記ユーザーが発声したユーザー音声を音声信号に変換するマイクロホンと、前記マイクロホンへ入力された前記ユーザー音声を音声認識する音声認識部と、前記ユーザー音声を前記マイクロホンにより変換した前記音声信号に基づいて前記ユーザーの音声対話の習熟度を判定する習熟度判定部と、前記習熟度判定部で判定した前記習熟度に応じて前記システム側音声の出力を変更する音声出力変更部とを備えたことを特徴とする音声対話システム。
  2. 前記システム側音声の出力の変更は、詳細な出力内容と前記詳細な出力内容より簡素な出力内容との少なくとも2つの出力内容間で行うことを特徴とする請求項1に記載の音声対話システム。
  3. 入力された前記音声信号に基づいて前記ユーザーが発声する発声タイミングを検出する発声タイミング検出部を備え、前記習熟度判定部は、前記発声タイミングを用いて前記習熟度を判定することを特徴とする請求項1又は請求項2に記載の音声対話システム。
  4. 前記発声タイミングが前記ユーザーの発声開始時間であり、前記習熟度判定部が前記発声開始時間と前記システム側音声の出力開始時間との時間差を用いて前記習熟度を判定することを特徴とする請求項3に記載の音声対話システム。
  5. 入力された前記音声信号に基づいて前記音声認識を利用したユーザー音声入力の累積使用回数をカウントする使用回数カウント部を備え、前記習熟度判定部が、前記使用回数カウント部から得た前記累積使用回数を用いて前記習熟度を判定することを特徴とする請求項1に記載の音声対話システム。
  6. 入力された前記音声信号に基づいて前記音声認識を利用した前記ユーザー音声入力の使用頻度を計算する使用頻度計算部を備え、前記習熟度判定部が、前記使用頻度計算部から得た前記使用頻度を用いて前記習熟度を判定することを特徴とする請求項1に記載の音声対話システム。
  7. 入力された前記音声信号に基づいて前記音声認識を利用した前記ユーザー音声の発声速度を計算する発声速度計算部を備え、前記習熟度判定部が、前記発声速度計算部から得た前記ユーザーの発声速度を基に前記習熟度を判定することを特徴とする請求項1に記載の音声対話システム。
  8. 入力された前記音声信号に基づいて前記システム側音声に応答した前記ユーザー音声の内容が正しい応答内容にどれだけ類似しているかを表す類似度を使って累積平均類似度を計算する累積平均類似度計算部を備え、前記習熟度判定部が、前記累積平均類似度計算部から得た前記累積平均類似度を用いて前記習熟度を判定することを特徴とする請求項1に記載の音声対話システム。
  9. 入力された前記音声信号に基づいて前記システム側音声に応答した前記ユーザー音声の内容が前記システム側音声の内容をどれだけ正確に認識してなされたか否かを表す認識率を使って累積平均認識率を計算する累積平均認識率計算部を備え、前記習熟度判定部が、前記累積平均認識率計算部から得た前記累積平均認識率を用いて前記習熟度を判定することを特徴とする請求項1に記載の音声対話システム。
  10. 前記習熟度判定部にて前記習熟度が所定値より低いと判定された場合に、前記類似度または前記認識率を決定するための閾値を下げるように閾値を変更する閾値変更部を備えたことを特徴とする請求項8または請求項9のに記載の音声対話システム。
  11. 前記習熟度判定部は、前記ユーザーに対して前記音声出力部が出力する前記システム側音声の内容の意味を加味して前記習熟度を判定することを特徴とする請求項1乃至請求項10のいずれかに記載の音声対話システム。
  12. 入力された前記音声信号に基づいて話者が誰であるかの認識を行う話者認識部を備え、前記習熟度判定部が前記話者判定部で認識したユーザーごとに前記習熟度を判定することを特徴とする請求項1乃至請求項11のいずれかに記載の音声対話システム。
  13. 前記音声出力部からユーザーに対し出力される前記システム側音声の内容が変化したとき、変化した内容に応じて前記ユーザーが発声すると予測される内容の辞書へ辞書を切り替えることを特徴とする請求項1乃至請求項11のいずれかに記載の音声対話システム。
  14. 前記マイクロホンから入力された音声信号から、前記音声出力部が出力した前記システム側音声の出力相当信号分を除去する音声応答除去部を備えたことを特徴とする請求項1乃至請求項13のいずれかに記載の音声対話システム。
  15. 音声出力部からユーザーに対してシステム側音声を出力可能であり、前記音声出力部が出力した前記システム側音声に従って前記ユーザーが発声したユーザー音声をマイクロホンで音声信号に変換し、前記マイクロホンへ入力された前記ユーザー音声を音声認識部で音声認識するとともに、前記システム側音声に応答する前記ユーザー音声が前記マイクロホンにより変換された前記音声信号に基づいて前記ユーザーの音声対話の習熟度を判定した後に、前記判定した習熟度に応じて前記システム側音声の出力を変更することを特徴とする音声対話方法。
JP2003125168A 2003-04-30 2003-04-30 音声対話システム及び音声対話方法 Pending JP2004333543A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003125168A JP2004333543A (ja) 2003-04-30 2003-04-30 音声対話システム及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003125168A JP2004333543A (ja) 2003-04-30 2003-04-30 音声対話システム及び音声対話方法

Publications (1)

Publication Number Publication Date
JP2004333543A true JP2004333543A (ja) 2004-11-25

Family

ID=33502512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125168A Pending JP2004333543A (ja) 2003-04-30 2003-04-30 音声対話システム及び音声対話方法

Country Status (1)

Country Link
JP (1) JP2004333543A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189730A (ja) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話装置
JP2006208460A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置および車両
JP2007163895A (ja) * 2005-12-14 2007-06-28 Mitsubishi Electric Corp 音声認識装置
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
DE112008001334T5 (de) 2007-07-02 2010-05-12 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP2012230191A (ja) * 2011-04-25 2012-11-22 Denso Corp 音声入力装置
US8381238B2 (en) 2010-06-02 2013-02-19 Sony Corporation Information processing apparatus, information processing method, and program
US8719036B2 (en) 2010-09-29 2014-05-06 Kabushiki Kaisha Toshiba Voice dialogue system, method, and program
JP2014134675A (ja) * 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
JP2019159878A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
WO2019198667A1 (ja) * 2018-04-10 2019-10-17 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2021060464A (ja) * 2019-10-03 2021-04-15 日産自動車株式会社 音声対話装置、音声対話用学習済みモデル、及び音声対話方法
US11269936B2 (en) 2018-02-20 2022-03-08 Toyota Jidosha Kabushiki Kaisha Information processing device and information processing method

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189730A (ja) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話装置
JP4634156B2 (ja) * 2005-01-07 2011-02-16 パナソニック株式会社 音声対話方法および音声対話装置
JP2006208460A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置および車両
JP4722499B2 (ja) * 2005-01-25 2011-07-13 本田技研工業株式会社 音声認識型機器制御装置および車両
JP2007163895A (ja) * 2005-12-14 2007-06-28 Mitsubishi Electric Corp 音声認識装置
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
US8407051B2 (en) 2007-07-02 2013-03-26 Mitsubishi Electric Corporation Speech recognizing apparatus
DE112008001334T5 (de) 2007-07-02 2010-05-12 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP5281659B2 (ja) * 2009-01-20 2013-09-04 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
US8381238B2 (en) 2010-06-02 2013-02-19 Sony Corporation Information processing apparatus, information processing method, and program
US8719036B2 (en) 2010-09-29 2014-05-06 Kabushiki Kaisha Toshiba Voice dialogue system, method, and program
JP2012230191A (ja) * 2011-04-25 2012-11-22 Denso Corp 音声入力装置
JP2014134675A (ja) * 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
US11269936B2 (en) 2018-02-20 2022-03-08 Toyota Jidosha Kabushiki Kaisha Information processing device and information processing method
JP2019159878A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP7014646B2 (ja) 2018-03-14 2022-02-01 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
WO2019198667A1 (ja) * 2018-04-10 2019-10-17 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2021060464A (ja) * 2019-10-03 2021-04-15 日産自動車株式会社 音声対話装置、音声対話用学習済みモデル、及び音声対話方法
JP7373348B2 (ja) 2019-10-03 2023-11-02 日産自動車株式会社 音声対話装置、音声対話用学習済みモデル、及び音声対話方法

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US20220165268A1 (en) Indicator for voice-based communications
US10074369B2 (en) Voice-based communications
US11669300B1 (en) Wake word detection configuration
US10923111B1 (en) Speech detection and speech recognition
KR100812109B1 (ko) 자연어 인터페이스 제어 시스템
US8972243B1 (en) Parse information encoding in a finite state transducer
EP1936606B1 (en) Multi-stage speech recognition
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US20180061403A1 (en) Indicator for voice-based communications
KR20210114518A (ko) 종단간 음성 변환
US10325599B1 (en) Message response routing
US11798559B2 (en) Voice-controlled communication requests and responses
JP2007114475A (ja) 音声認識機器制御装置
JP2004333543A (ja) 音声対話システム及び音声対話方法
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
EP3507796A1 (en) Voice-based communications
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2003177779A (ja) 音声認識のための話者学習法
Lopes et al. Towards choosing better primes for spoken dialog systems
JP2004251998A (ja) 対話理解装置
US11735178B1 (en) Speech-processing system
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP2003330487A (ja) 対話エージェント
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体