JPWO2015132829A1

JPWO2015132829A1 - 音声対話装置、音声対話システムおよび音声対話方法

Info

Publication number: JPWO2015132829A1
Application number: JP2016505943A
Authority: JP
Inventors: 中西　雅浩; 雅浩中西; 釜井　孝浩; 孝浩釜井; 昌克星見
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-03-07
Filing date: 2014-11-12
Publication date: 2017-03-30
Anticipated expiration: 2034-11-12
Also published as: US20160210961A1; WO2015132829A1; JP6384681B2

Abstract

ユーザの発話を示す発話データを取得する取得部と、複数のキーワードが記憶されたメモリ（２２）と、発話データから複数の単語を抽出し、複数の単語のそれぞれについて、複数のキーワードのいずれかに一致するか否かを判定する単語判定部（２１ａ）と、複数の単語に、複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、複数の単語のうちの複数のキーワードの何れかに一致すると判定された第二単語を含む応答文であって、第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部（２１ｂ）と、応答文の音声データを生成する音声合成部（２１ｃ）とを備える。

Description

本開示は、音声対話装置、音声対話システムおよび音声対話方法に関する。

宿泊施設等の施設あるいは航空券等の自動予約を行う自動予約システムには、例えば、ユーザの発話による注文を受け付ける音声対話システムがある（例えば、特許文献１参照）。このような音声対話システムでは、ユーザの発話文を解析するために、例えば、特許文献２に示す音声解析技術が利用されている。特許文献２の音声解析技術では、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。

特開２００３−２４１７９５号公報特開平０５−１９７３８９号公報

音声対話システムのような自動予約システムでは、発話の認識率の向上が求められている。

本開示は、発話の認識率を向上させることができる音声対話装置、音声対話システムおよび音声対話方法を提供する。

本開示における音声対話装置は、ユーザの発話を示す発話データを取得する取得部と、複数のキーワードが記憶された記憶部と、前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定する単語判定部と、前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードのいずれかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部と、前記応答文の音声データを生成する音声生成部とを備える。

本開示における音声対話装置、音声対話システムおよび音声対話方法は、発話の認識率を向上させることができる。

図１は、実施の形態における音声対話システムの構成の一例を示す図である。図２は、実施の形態における自動オーダーポストおよび音声対話サーバの構成の一例を示すブロック図である。図３は、実施の形態のメニューＤＢの一例を示す図である。図４Ａは、実施の形態の注文データの一例を示す図である。図４Ｂは、実施の形態の注文データの一例を示す図である。図４Ｃは、実施の形態の注文データの一例を示す図である。図４Ｄは、実施の形態の注文データの一例を示す図である。図５は、実施の形態の注文データを表示する表示画面の一例を示す図である。図６は、実施の形態における音声対話サーバで実行される注文処理の処理手順の一例を示すフローチャートである。図７は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。図８は、実施の形態における音声対話サーバで実行される発話文解析処理の処理手順の一例を示すフローチャートである。図９は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。

（課題の詳細）
例えば、商品の注文に用いられる音声対話システムでは、少なくとも「商品名」および「個数」を抽出する必要がある。商品によっては、「サイズ」等の項目が必要な場合がある。

特許文献１に示す自動予約システムでは、商品の注文に必要な項目が全て取得できていない場合は、取得できていない項目の入力を促す音声を出力している。

しかしながら、発話による注文受け付けでは、発音が明確ではない部分がある場合、あるいは、取り扱われていない商品の商品名が発話された場合等には、発話の一部分を解析できない場合がある。

特許文献１のような従来の音声対話システムでは、発話に解析できない部分がある場合、ユーザに対し、再度、解析できない部分だけでなく発話全文を入力させていた。発話全文を入力させる場合、システム側でどの部分が解析できなかったかをユーザが知ることが困難であるため、同じ部分が解析不能となる可能性があると考えられ、さらに全文を入力させる必要が生じる可能性がある。このような場合には、注文にかかる時間を短縮することが困難である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態）
以下、図１〜図９を用いて、実施の形態を説明する。本実施の形態の音声対話システムは、ユーザの発話文のうちの解析できた第二単語を用いて、解析できなかった第一単語の再入力を促す応答文を作成する。

なお、本実施の形態では、音声対話システムが、ユーザが車両から降りることなく商品を購入することができるドライブスルーに適用される場合を例に説明する。

［１．全体構成］
図１は、本実施の形態における音声対話システムの構成の一例を示す図である。

図１に示すように、音声対話システム１００は、店舗２００外に設置される自動オーダーポスト１０と、店舗２００内に設置される音声対話サーバ（音声対話装置）２０とを備えて構成されている。音声対話システム１００の詳細については後述する。

なお、店舗２００外には、さらに、店員と直接対話しながら注文を行うオーダーポスト１０ｃが設けられている。また、店舗２００内には、さらに、オーダーポスト１０ｃと連携して店員とユーザとの対話を可能にする対話装置３０、および、ユーザが注文した商品を受け渡す商品受け渡しカウンタ４０が設けられている。

車両３００に乗っているユーザは、敷地外の道路から敷地内に車両３００を進入させ、敷地内に設置されたオーダーポスト１０ｃ、自動オーダーポスト１０ａまたは１０ｂの横に車両を駐車させ、オーダーポストを用いて注文を行う。注文が確定すると、商品受け渡しカウンタ４０で商品を受け取る。

［１−１．自動オーダーポストの構成］
図２は、本実施の形態における自動オーダーポスト１０および音声対話サーバ２０の構成の一例を示すブロック図である。

自動オーダーポスト１０は、図２に示すように、マイク１１と、スピーカ１２と、表示パネル１３と、車両検出センサ１４とを備えている。

マイク１１は、ユーザの発話データを取得し、音声対話サーバ２０に出力する音声入力部の一例であり、ユーザが発した声（音波）に応じた信号を音声対話サーバ２０に出力する。

スピーカ１２は、音声対話サーバ２０から出力された音声データを用いて音声出力する音声出力部の一例である。

表示パネル１３は、音声対話サーバ２０が受け付けた注文の内容を表示する。

図３は、表示パネル１３の画面の一例を示す図である。図３に示すように、表示パネル１３には、音声対話サーバ２０が取得できた注文の内容が表示される。注文の内容には、注文番号、商品面、サイズ、個数等が含まれる。

車両検出センサ１４は、例えば、光センサで構成されている。当該光センサでは、例えば、光源から光を照射し、車両３００がオーダーポストの横に移動すると、車両３００により反射される反射光を検出することで、車両３００が所定の位置に存在するか否かを検出する。車両検出センサ１４により車両３００が検出されると、音声対話サーバ２０は注文処理を開始する。なお、車両検出センサ１４は、本開示の必須構成ではない。他のセンサを用いても構わないし、自動オーダーポスト１０に注文開始ボタンを設けておき、ユーザの操作により注文の開始を検出するように構成しても構わない。

［１−２．音声対話サーバの構成］
音声対話サーバ２０は、図２に示すように、対話部２１と、メモリ２２と、表示制御部２３とを備えている。

対話部２１は、ユーザとの対話処理を行う制御部の一例であり、本実施の形態では、ユーザの発話による注文を受け付け、注文データを作成する。対話部２１は、図２に示すように、単語判定部２１ａと、応答文作成部２１ｂと、音声合成部２１ｃと、注文データ作成部２１ｄとを備えている。なお、対話部２１は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の集積回路で構成される。

単語判定部２１ａは、自動オーダーポスト１０のマイク１１から出力された信号からユーザの発話を示す発話データ取得し（取得部としても機能する）、発話文の解析を行う。発話文の解析は、本実施の形態では、キーワードスポッティングにより行う。キーワードスポッティングとは、ユーザの発話文から、予めキーワードＤＢに記憶されたキーワードを抽出し、それ以外の音は冗長語として破棄する。例えば、「にして」が変更を指示するキーワードとして記録されている場合、ユーザが「キーワードＡ」「を」「キーワードＢ」「にして」と発話したときは、キーワードＡをキーワードＢに変更するという指示であると解析する。また、例えば、特許文献１に記載の技術を利用して、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。

応答文作成部２１ｂは、自動オーダーポスト１０に出力させる対話文を作成する。詳細については後述する。

音声合成部２１ｃは、応答文作成部２１ｂが作成した対話文を、自動オーダーポスト１０のスピーカ１２から音声出力させるための音声データを生成する音声生成部の一例である。音声合成部２１ｃは、音声合成により応答文の合成音声を作成する。

注文データ作成部２１ｄは、単語判定部２１ａにおける発話データの解析結果を用いて所定の処理を行うデータ処理部の一例であり、本実施の形態では、単語判定部２１ａにおいて抽出された単語を用いた注文データの作成を行う。詳細については後述する。

メモリ２２は、ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ハードディスク等の記憶媒体で構成されている。メモリ２２には、音声対話サーバ２０が実行する注文処理で必要とされるデータが記憶されている。具体的には、メモリ２２には、キーワードＤＢ２２ａ、メニューＤＢ２２ｂ、注文データ２２ｃ等が記憶されている。

キーワードＤＢ２２ａは、複数のキーワードが記憶された記憶部の一例である。本実施の形態において、複数のキーワードは、発話文を解析するために用いられるキーワードである。キーワードＤＢ２２ａには、図示しないが、商品名を示す単語、数値（個数を示す単語）、サイズを示す単語、「〜にして」等の既注文の変更を指示する単語、注文の終了等を指示する単語等、注文を行うために使用されると考えられる複数のキーワードが記憶されている。なお、キーワードＤＢ２２ａには、注文処理には直接的には関係のないキーワードが記憶されていても構わない。

メニューＤＢ２２ｂは、本実施の形態では、店舗２００で取り扱っている商品の情報が記憶されたデータベースである。図３は、メニューＤＢ２２ｂの一例を示す図である。図３に示すように、メニューＤＢ２２ｂには、メニューＩＤおよび商品名が記憶されている。さらに、各メニューＩＤには、選択可能なサイズ、注文可能数が記憶されている。なお、ドリンクのホット、コールドの指定等、他の任意の情報がさらに追加されていても構わない。

注文データ２２ｃは、注文内容を示すデータであり、ユーザが発話する毎に順次作成される。図４Ａ〜図４Ｄは、注文データ２２ｃの一例を示す図である。注文データ２２ｃには、注文番号、商品名、サイズ、個数が含まれる。

表示制御部２３は、注文データ作成部２１ｄが作成した注文データを、自動オーダーポスト１０の表示パネル１３に表示させる。図５は、注文データ２２ｃを表示する表示画面の一例を示す図である。図５の表示画面は、図４Ａに対応している。図５では、注文番号、商品名、サイズ、および、個数が表示されている。

［２．音声対話サーバの動作］
図６は、音声対話サーバ２０で実行される注文処理（音声対話方法）の処理手順の一例を示すフローチャートである。図７および図９は、自動オーダーポスト１０のスピーカ１２から出力される音声とユーザとの間の問答の一例を示す図である。なお、図７および図９の文章が記載された欄の左側の欄に記載している数字は、問答の順序を示している。図７と図９とでは、４番までが同じである。

音声対話サーバ２０の対話部２１は、車両検出センサ１４により車両３００が検出されると、注文処理を開始する（Ｓ１）。注文処理の開始時には、音声合成部２１ｃは、図８に示すように、「ご注文をどうぞ」という音声をスピーカ１２から出力するための音声データを音声合成により生成し、スピーカ１２に出力する。

単語判定部２１ａは、マイク１１からユーザの発話を示す発話文を取得し（Ｓ２）、発話文を解析する発話文解析処理を行う（Ｓ３）。なお、発話文解析処理は、１文ずつ実行される。ユーザが複数の文を続けて発話した場合は、当該発話を１文ずつに分解して、１文ずつ処理する。

図８は、音声対話サーバ２０で実行される発話文解析処理の処理手順の一例を示すフローチャートである。

図８に示すように、単語判定部２１ａは、図６のステップＳ２で取得した発話文の解析を行う（Ｓ１１）。発話文の解析には、例えば、特許文献２の音声解析技術を利用しても構わない。

単語判定部２１ａは、先ず、発話文から冗長語を除去する。本実施の形態において、冗長語とは、注文処理を行うのに必要のない単語を示している。本実施の形態における冗長語には、例えば、「え〜と」、「おはよう」あるいは形容詞等の注文とは直接関係のない単語、助詞等が含まれる。これにより、例えば、商品名等の名詞、および、新規注文の追加を指示する単語あるいは既注文の変更を指示する単語等、注文処理を行う上で必要な単語のみを残すことが可能になる。

例えば、発話文として図７の表中の２の「えーっと、ハンバーガーとポテトのＳを２個ずつ」が入力された場合、単語判定部２１ａは、発話データを「えーっと」「ハンバーガー」「と」「ポテト」「の」「Ｓ」「を」「２個」「ずつ」に分解し、「えーっと」「と」「の」「を」を冗長語として除去する。

単語判定部２１ａは、冗長語が除去された発話データから、１以上の単語を抽出し、抽出された１以上の単語のそれぞれについて、キーワードＤＢ２２ａに記憶されたキーワードに一致するか否かを判定する。

例えば、図７の表中の２に示す発話文が入力された場合、単語判定部２１ａは、「えーっと」「ハンバーガー」「ポテト」「Ｓ」「２個」「ずつ」の５つの単語を抽出する。さらに、単語判定部２１ａは、「ハンバーガー」「ポテト」「Ｓ」「２個」「ずつ」の５つの単語のそれぞれについて、キーワードＤＢ２２ａに記憶されている複数のキーワードのいずれかに一致するか否かを判定する。以下、抽出された単語のうち、キーワードＤＢ２２ａに記憶された複数のキーワードのいずれにも一致しない単語を第一単語とし、複数のキーワードのいずれかに一致する単語を第二単語として説明する。

単語判定部２１ａは、発話文に要確認箇所があるか否かを判定する（Ｓ１２）。本実施の形態では、発話データに誤認識部分または条件不適合部分が含まれる場合に要確認箇所があると判定される。

誤認識部分とは、第一単語であると判定された部分である。第一単語には、より詳細には、不明瞭ではないがキーワードＤＢ２２ａにない単語の部分、「＊＊」のような不明瞭な音の部分が含まれる。

条件不適合部分とは、商品の受け渡し条件が整わない注文のことである。商品の受け渡し条件は、図３のメニューＤＢ２２ｂに記憶されている条件を満たさない注文のことである。単語判定部２１ａは、例えば、「ハンバーガーのＳを２個」が入力された場合、「ハンバーガー」「Ｓ」「２個」の３つの単語を抽出する。図３のメニューＤＢ２２ｂには、「ハンバーガー」（第一キーワードの一例）には、１〜注文可能数までの数値（第二キーワードに対応）は対応付けられているが、サイズを示す「Ｓ」は対応付けられていない。単語判定部２１ａは、「ハンバーガー（第一キーワードの一例）」に一致しない第二単語「Ｓ」があると判定する。また、例えば、「ハンバーガーを１００個」が入力された場合、単語判定部２１ａは、注文可能数よりも多い個数、つまり、「ハンバーガー（第一キーワード）」に一致しない第二単語「１００個」があると判定する。

単語判定部２１ａは、上述したように、第一キーワードに対応付けられていない第二単語を抽出した場合に、条件不適合であると判定する。なお、単語判定部２１ａは、１回の注文数として異常であると考えられる個数を示す単語がある場合についても、条件不適合であると判定する。

単語判定部２１ａは、誤認識部分または条件不適合部分があると判定した場合に、要確認箇所があると判定する。

図７の表中の２の発話文の場合、第一単語がないと判定される。

単語判定部２１ａは、発話文に要確認箇所がないと判定した場合（Ｓ１２のなし）、発話文が注文終了を示す第二単語で構成されているか否かを確認する（Ｓ１３）。図７の表中の２の発話文の場合、注文終了ではないと判定される。

注文データ作成部２１ｄは、単語判定部２１ａにより発話文が注文終了を示す第二単語で構成されていないと判定された場合（Ｓ１３のＮｏ）、発話文が既注文の変更を示すか否かを判定する（Ｓ１４）。図７の表中の２の発話文の場合、既注文の変更ではないと判定する。

発話文が既注文の変更ではないと判定した場合（Ｓ１４のＮｏ）、注文データ作成部２１ｄは、新規注文のデータを作成する（Ｓ１５）。

図７の表中の２の発話文の場合、図４Ａに示す注文データが生成される。発話文の中に商品名を示す第二単語が２つあるため、２つのレコードが作成される。各レコードには、商品名「ハンバーガー」または「ポテト」が記憶される。「ハンバーガー」のレコードのサイズの欄には、図３に示すように、サイズの指定はないため、サイズ指定ができないことを示す「−」が入力される。「ハンバーガー」のレコードの個数の欄には、「２」が入力される。「ポテト」のレコードについては、サイズの欄に「Ｓ」、個数の欄に「２」が記憶される。

発話文が既注文の変更であると判定した場合は（Ｓ１４のＹｅｓ）、注文データ作成部２１ｄは、既注文の変更を行う（Ｓ１６）。

注文データが更新された後、図６に示すように、注文終了であるか否かを確認する（Ｓ４）。ここでは、図８のステップＳ１３において、注文終了を示す第二単語はないと判定されているため（Ｓ４のＮｏ）、ステップＳ２に移行して、次の発話文を取得する（Ｓ２）。

単語判定部２１ａは、マイク１１からユーザの発話を示す発話文を取得し（Ｓ２）、発話文を解析する発話文解析処理を行う（Ｓ３）。

発話文解析処理では、図８に示すように、単語判定部２１ａは、図６のステップＳ２で取得した発話文の解析を行う（Ｓ１１）。

発話文として図７の表中の３の「２番を＊＊にして」が入力された場合、「２番」「にして」が第二単語として抽出され、「＊＊」が第一単語として抽出される。

音声対話サーバ２０は、発話文に要確認箇所があるか否かを判定する（Ｓ１２）。要確認箇所には、図７の表中の３の発話文の場合、「＊＊」があるため、第一単語が含まれると判定される。

音声対話サーバ２０は、発話文に要確認箇所がある場合（Ｓ１２の有り）、要確認箇所が誤認識であるか否かを確認する（Ｓ１７）。

応答文作成部２１ｂは、ステップＳ１２において単語判定部２１ａにより要確認箇所として誤認識部分があると判定されている場合（Ｓ１７の有り）、誤認識部分の再発話を促す応答文を作成する（Ｓ１８）。

本実施の形態の応答文作成部２１ｂは、誤認識があると判定された発話文から抽出された第二単語を用いて、応答文を作成する。図７の表中の３の発話文の場合、「２番」「にして」が第二単語として抽出されているため、「＊＊」の直前に発話された第二単語である「２番」を用いて、「２番の後が聞き取れませんでした。」という応答文を作成する（表中の４の応答文）。つまり、「『第二単語』の後が聞き取れませんでした。」のように、予め、第二単語を当てはめる箇所がある定型文を用意しておき、抽出された第二単語を『第二単語』の部分に当てはめて応答文を作成する。

なお、「＊＊」の直後に抽出された第二単語を用いても構わない。この場合は、「『第二単語』の前が聞き取れませんでした。」例えば、「＊＊」の直前に抽出された第二単語が、発話文中に複数ある場合、「＊＊」の直前に第二単語が発話されていない場合等には、「＊＊」の直後に抽出された第二単語を用いて応答文を作成しても構わない。

また、「『第二単語』の後、『第二単語』の前が聞き取れませんでした。」のように、複数の第二単語を用いて応答文を作成しても構わない。

音声合成部２１ｃはステップＳ１８で作成した応答文の音声データを作成し、スピーカ１２に出力させる（Ｓ１９）。

応答文作成部２１ｂは、ステップＳ１２において単語判定部２１ａにより要確認箇所として条件不適合部分があると判定されている場合（Ｓ１７のなし）、適合条件を含む応答文を作成する（Ｓ２０）。

例えば、上述した「ハンバーガーのＳを２個」という発話文が入力された場合、ステップＳ１２において、単語判定部２１ａにより、指定不可能なサイズ「Ｓ」が指定されていると判定されている。このため、応答文作成部２１ｂは、「ハンバーガーのサイズは指定できません」等、適合条件を含む応答文を作成する。

また、例えば、上述した「ハンバーガーを１００個」という発話文が入力された場合、ステップＳ１２において、単語判定部２１ａにより、注文可能数よりも多い個数が指定されていると判定されている。この場合、応答文作成部２１ｂは、１度に注文可能な個数（適合条件の一例、第二キーワードの一例）、例えば、『１０個』を含む応答文を作成する。応答文作成部２１ｂは、例えば、「ハンバーガーの個数を『１０個』以内で指定して下さい」等の応答文を作成する。

音声合成部２１ｃはステップＳ２０で作成した応答文の音声データを作成し、スピーカ１２に出力させる（Ｓ２１）。

単語判定部２１ａは、ステップＳ１９またはステップＳ２１の実行後、マイク１１からユーザの発話を示す回答文を取得し、当該回答文を解析する（Ｓ２２）。

音声対話サーバ２０は、回答文が、応答文に対する回答であるか否かを判定する（Ｓ２３）。

ここで、図７の表中の３の発話文の場合、「２番」「＊＊」「にして」の場合、「にして」が変更を指示する第二単語であることから、２番のポテトのサイズまたは個数を変更する指示であることが推測される。この場合、応答文の回答としては、ポテトの指定可能なサイズ「Ｓ」「Ｍ」「Ｌ」または数値が入力されると推定される。応答文の回答として推定される単語が含まれない場合、あるいは、商品面が含まれる場合等には、応答文に対する回答ではないと判定する。

例えば、音声対話サーバ２０は、回答文が、図７の表中の５の「Ｌ」の場合、応答文に対する回答であると判定する。

これに対し、音声対話サーバ２０は、回答文が、図９の表中の５の「あと、コーラを１つ」の場合、「コーラ」「１つ」の２つの第二単語を抽出する。この場合、商品名「コーラ」が抽出されたため、応答文に対する回答ではないと判定する。

音声対話サーバ２０は、応答文に対する回答であると判定した場合（Ｓ２３のＹｅｓ）、回答文が既注文の変更を示すか否かを判定する（Ｓ２４）。図７の表中の５の回答文の場合、既注文の変更であると判定する。

発話文が既注文の変更であると判定した場合（Ｓ２４のＹｅｓ）、注文データ作成部２１ｄは、注文データの変更を行う（Ｓ２６）。図７の表中の５の回答文の場合、図４Ｂに示すように、２番のサイズのデータを、ＳからＬに変更する。発話文が既注文の変更ではないと判定した場合（Ｓ２４のＮｏ）、注文データ作成部２１ｄは、新規注文のデータを作成する（Ｓ２５）。

音声対話サーバ２０は、応答文に対する回答ではないと判定した場合（Ｓ２３のＮｏ）、現在解析中の発話文を破棄し、Ｓ２２において取得した回答文を発話文として設定し、処理を続行する（Ｓ２７）。図９の表中の５の場合、回答文「あと、コーラを１つ」を発話文として設定する。

音声対話サーバ２０は、ステップＳ２２の回答文の解析結果を用いて、要確認箇所があるか否かを判定する（Ｓ１２）。図９の表中の５の場合、要確認箇所はないと判定し、ステップＳ１３に移行する。

音声対話サーバ２０は、上述したように、発話文に要確認箇所がない場合（Ｓ１２のなし）、発話文が注文終了を示す第二単語で構成されているか否かを確認する（Ｓ１３）。図９の表中の５の発話文の場合、注文終了ではないと判定される。また、図９の表中の５の発話文の場合、既注文の変更ではないため（Ｓ１４のＮｏ）、新規注文として注文データを更新する（Ｓ１５）。

ここで、図９の表中の５の場合、第二単語として「コーラ」「１つ」が抽出され、図４Ｃの３番に示すレコードが生成される。ここで、コーラは、サイズの指定が必要であるが、サイズに対応する第二単語がないため、応答文作成部２１ｂは、サイズを発話させるための応答文「コーラのサイズをご指定下さい。」の音声データを生成し、スピーカ１２に出力する。図９の表中の７のように、コーラのサイズ「Ｌ」が発話されマイク１１から入力されると、注文データ作成部２１ｄは、図４Ｄに示す注文データを生成する。

図６に示すように、ステップＳ３の発話文解析処理において発話文が注文の終了を示すキーワードではないと解析された場合（Ｓ４のＮｏ）、ステップＳ２に移行して単語判定部２１ａにより発話文の取得を行う。

発話文解析処理において発話文が注文の終了を示すキーワードであると解析された場合（Ｓ４のＹｅｓ）、注文内容の確認を行う（Ｓ５）。具体的には、応答文作成部２１ｂが、変更があるか否かを問い合わせる音声データを作成し、スピーカ１２に音声を出力させる。

変更がある場合は（Ｓ６のＹｅｓ）、音声対話サーバ２０は、ステップＳ２に移行して、変更内容を受け付ける。

変更がない場合は（Ｓ６のＮｏ）、音声対話サーバ２０は、注文データを確定する（Ｓ７）。注文データが確定されると、店舗２００により商品が用意される。車両３００は、商品受け渡しカウンタ４０に移動し、代金を支払い、商品を受け取る。

［３．効果等］
本実施の形態の音声対話サーバ（音声対話装置）２０は、誤認識部分があると判定された場合、誤認識部分があると判定された発話データのうちの聞き取れた部分を用いて応答文を作成する。これにより、要確認部分だけを聞き直すことが可能になり、発話の認識率を向上させることができる。

なお、発話文全部を聞き直す場合は、音声対話サーバ２０がどの部分が聞き取れなかったかをユーザが知ることは困難であるため、ユーザが同じ発話を繰り返し行うことになる可能性がある。これに対し、本実施の形態の音声対話サーバ２０は、要確認部分のみを聞き直すことができるので、音声対話サーバがどの部分が聞き取れなかったかをユーザがより明確に認識でき、再度要確認部分が生じるのを効果的に防止可能になる。要確認部分のみを聞き直すことで、回答文が単語のみあるいは非常に短い文章となり、発話の認識率を向上させることが可能になる。発話の認識率の向上により、本実施の形態の音声対話サーバ２０は、注文処理全体にかかる時間を短縮することが可能になる。

また、本実施の形態の音声対話サーバ２０は、応答文に対し、回答候補とは異なる発話がされたとき、発話データを破棄する。これは、応答文に対する発話が回答候補とは異なる場合は、前回の発話データをキャンセルする場合が多いと考えられるからである。これにより、ユーザが直前の発話を取り消す等の処理を短縮することが可能になる。

さらに、上記実施の形態の音声対話サーバ２０は、例えば、メニューＤＢ２２ｂに適合しない注文がされた場合、例えば、個数が１００個を超える場合等には、１度に注文可能な個数を含む応答文を作成する。これにより、ユーザが条件に適合する発話を行うことが容易になる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

（１）上記実施の形態では、音声対話サーバがドライブスルーに設置さえている場合を例に説明したが、これに限るものではない。例えば、空港あるいはコンビニエンスストア等の施設に設置される航空券のチケットの予約システム、または、宿泊施設の予約を行う予約システムに、上記実施の形態の音声対話サーバを適用しても構わない。

（２）音声対話サーバ２０の対話部２１が、ＡＳＩＣ等の集積回路を用いて構成される場合を例示したが、これに限るものではない。システムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）等を用いて構成されてもよい。あるいは、対話部２１は、単語判定部２１ａ、応答文作成部２１ｂ、音声合成部２１ｃおよび注文データ作成部２１ｄの機能を規定したコンピュータプログラム（ソフトウェア）を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することにより実現されても構わない。なお、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。

（３）また、本実施の形態では、店舗２００に音声対話サーバ２０が設けられている場合を例に説明したが、自動オーダーポスト１０に設けられていても構わないし、店舗２００外に設けられ、ネットワークを介して店舗２００内の各装置および自動オーダーポスト１０に接続されていても構わない。また、音声対話サーバ２０の各構成は、１つのサーバ内に設けられている必要は無く、クラウド上のコンピュータ、および、店舗２００に設けられたコンピュータ等に分散して設けられていても構わない。

（４）本実施の形態では、単語判定部２１ａが、音声認識処理、すなわちマイク１１が収音した音声信号をテキストデータに変換する処理を含んでいたが、これに限るものではない。音声認識処理は、対話部２１あるいは音声対話サーバ２０から分離した別の処理モジュールが実行するように構成してもよい。

（５）本実施の形態では、対話部２１が、音声合成部２１ｃを含んでいたが、音声合成部２１ｃは対話部２１あるいは音声対話サーバ２０から分離した別の処理モジュールで構成されていても構わない。対話部２１を構成する単語判定部２１ａ、応答文作成部２１ｂ、音声合成部２１ｃ、および注文データ作成部２１ｄのいずれも、対話部２１あるいは音声対話サーバ２０から分離した別の処理モジュールで構成されていても構わない。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、ユーザの発話を解析して自動的に商品の受注あるいは予約等を行う音声対話装置および音声対話システムに適用可能である。具体的には、例えば、ドライブスルーに設置されるシステム、あるいは、コンビニエンスストア等の施設に設置されるチケットの予約を行うシステム等に本開示は適用可能である。

１０、１０ａ、１０ｂ自動オーダーポスト
１０ｃオーダーポスト
１１マイク
１２スピーカ
１３表示パネル
２０音声対話サーバ
２１対話部
２１ａ単語判定部
２１ｂ応答文作成部
２１ｃ音声合成部
２１ｄ注文データ作成部
２２メモリ
２２ａキーワードＤＢ
２２ｂメニューＤＢ
２２ｃ注文データ
２３表示制御部
３０対話装置
４０商品受け渡しカウンタ
１００音声対話システム
２００店舗
３００車両

そこで、以下、他の実施の形態を例示する。

Claims

ユーザの発話を示す発話データを取得する取得部と、
複数のキーワードが記憶された記憶部と、
前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定する単語判定部と、
前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードのいずれかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部と、
前記応答文の音声データを生成する音声生成部とを備える、
音声対話装置。
前記取得部は、さらに、前記応答文の音声データが出力された後における前記ユーザの発話を示す回答データを取得し、
前記音声対話装置は、さらに、
前記応答文に対する１または複数の回答候補を取得し、前記回答データが前記１または複数の回答候補の何れかに一致しないときは、前記発話データを破棄するデータ処理部を備える、
請求項１に記載の音声対話装置。
前記記憶部は、前記複数のキーワードに含まれる第一キーワードと前記複数のキーワードに含まれる第二キーワードとが対応付けられて記憶され、
前記応答文作成部は、前記単語判定部が前記発話データから前記第一キーワードに一致する第二単語と前記第二キーワードに一致しない第二単語とを抽出した場合に、前記第二キーワードを含む応答文を作成する、
請求項１または２に記載の音声対話装置。
前記単語判定部は、前記発話データから冗長語を省いた後に、前記発話データからの前記複数の単語の抽出を行う、
請求項１〜３の何れか１項に記載の音声対話装置。
請求項１〜４の何れか１項に記載の音声対話装置と、
ユーザの発話データを取得し、前記音声対話装置に出力する音声入力部と、前記音声データを用いて音声出力する音声出力部とを備える自動オーダーポストとを備える、
音声対話システム。
複数の第二単語が記憶されたデータベースと、ユーザとの対話処理を行う制御部とを備えた音声対話装置において実行される音声対話方法であって、
前記制御部が、ユーザの発話データを取得するステップと、
前記制御部が、前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定するステップと、
前記制御部が、前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードの何れかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成するステップと、
前記制御部が、前記応答文の音声データを音声合成により作成するステップとを実行する、
音声対話方法。