JPWO2015132829A1 - 音声対話装置、音声対話システムおよび音声対話方法 - Google Patents

音声対話装置、音声対話システムおよび音声対話方法 Download PDF

Info

Publication number
JPWO2015132829A1
JPWO2015132829A1 JP2016505943A JP2016505943A JPWO2015132829A1 JP WO2015132829 A1 JPWO2015132829 A1 JP WO2015132829A1 JP 2016505943 A JP2016505943 A JP 2016505943A JP 2016505943 A JP2016505943 A JP 2016505943A JP WO2015132829 A1 JPWO2015132829 A1 JP WO2015132829A1
Authority
JP
Japan
Prior art keywords
word
utterance
voice
sentence
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016505943A
Other languages
English (en)
Other versions
JP6384681B2 (ja
Inventor
中西 雅浩
雅浩 中西
釜井 孝浩
孝浩 釜井
昌克 星見
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2015132829A1 publication Critical patent/JPWO2015132829A1/ja
Application granted granted Critical
Publication of JP6384681B2 publication Critical patent/JP6384681B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/10Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
    • H04M2203/1058Shopping and product ordering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

ユーザの発話を示す発話データを取得する取得部と、複数のキーワードが記憶されたメモリ(22)と、発話データから複数の単語を抽出し、複数の単語のそれぞれについて、複数のキーワードのいずれかに一致するか否かを判定する単語判定部(21a)と、複数の単語に、複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、複数の単語のうちの複数のキーワードの何れかに一致すると判定された第二単語を含む応答文であって、第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部(21b)と、応答文の音声データを生成する音声合成部(21c)とを備える。

Description

本開示は、音声対話装置、音声対話システムおよび音声対話方法に関する。
宿泊施設等の施設あるいは航空券等の自動予約を行う自動予約システムには、例えば、ユーザの発話による注文を受け付ける音声対話システムがある(例えば、特許文献1参照)。このような音声対話システムでは、ユーザの発話文を解析するために、例えば、特許文献2に示す音声解析技術が利用されている。特許文献2の音声解析技術では、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。
特開2003−241795号公報 特開平05−197389号公報
音声対話システムのような自動予約システムでは、発話の認識率の向上が求められている。
本開示は、発話の認識率を向上させることができる音声対話装置、音声対話システムおよび音声対話方法を提供する。
本開示における音声対話装置は、ユーザの発話を示す発話データを取得する取得部と、複数のキーワードが記憶された記憶部と、前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定する単語判定部と、前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードのいずれかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部と、前記応答文の音声データを生成する音声生成部とを備える。
本開示における音声対話装置、音声対話システムおよび音声対話方法は、発話の認識率を向上させることができる。
図1は、実施の形態における音声対話システムの構成の一例を示す図である。 図2は、実施の形態における自動オーダーポストおよび音声対話サーバの構成の一例を示すブロック図である。 図3は、実施の形態のメニューDBの一例を示す図である。 図4Aは、実施の形態の注文データの一例を示す図である。 図4Bは、実施の形態の注文データの一例を示す図である。 図4Cは、実施の形態の注文データの一例を示す図である。 図4Dは、実施の形態の注文データの一例を示す図である。 図5は、実施の形態の注文データを表示する表示画面の一例を示す図である。 図6は、実施の形態における音声対話サーバで実行される注文処理の処理手順の一例を示すフローチャートである。 図7は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。 図8は、実施の形態における音声対話サーバで実行される発話文解析処理の処理手順の一例を示すフローチャートである。 図9は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。
(課題の詳細)
例えば、商品の注文に用いられる音声対話システムでは、少なくとも「商品名」および「個数」を抽出する必要がある。商品によっては、「サイズ」等の項目が必要な場合がある。
特許文献1に示す自動予約システムでは、商品の注文に必要な項目が全て取得できていない場合は、取得できていない項目の入力を促す音声を出力している。
しかしながら、発話による注文受け付けでは、発音が明確ではない部分がある場合、あるいは、取り扱われていない商品の商品名が発話された場合等には、発話の一部分を解析できない場合がある。
特許文献1のような従来の音声対話システムでは、発話に解析できない部分がある場合、ユーザに対し、再度、解析できない部分だけでなく発話全文を入力させていた。発話全文を入力させる場合、システム側でどの部分が解析できなかったかをユーザが知ることが困難であるため、同じ部分が解析不能となる可能性があると考えられ、さらに全文を入力させる必要が生じる可能性がある。このような場合には、注文にかかる時間を短縮することが困難である。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態)
以下、図1〜図9を用いて、実施の形態を説明する。本実施の形態の音声対話システムは、ユーザの発話文のうちの解析できた第二単語を用いて、解析できなかった第一単語の再入力を促す応答文を作成する。
なお、本実施の形態では、音声対話システムが、ユーザが車両から降りることなく商品を購入することができるドライブスルーに適用される場合を例に説明する。
[1.全体構成]
図1は、本実施の形態における音声対話システムの構成の一例を示す図である。
図1に示すように、音声対話システム100は、店舗200外に設置される自動オーダーポスト10と、店舗200内に設置される音声対話サーバ(音声対話装置)20とを備えて構成されている。音声対話システム100の詳細については後述する。
なお、店舗200外には、さらに、店員と直接対話しながら注文を行うオーダーポスト10cが設けられている。また、店舗200内には、さらに、オーダーポスト10cと連携して店員とユーザとの対話を可能にする対話装置30、および、ユーザが注文した商品を受け渡す商品受け渡しカウンタ40が設けられている。
車両300に乗っているユーザは、敷地外の道路から敷地内に車両300を進入させ、敷地内に設置されたオーダーポスト10c、自動オーダーポスト10aまたは10bの横に車両を駐車させ、オーダーポストを用いて注文を行う。注文が確定すると、商品受け渡しカウンタ40で商品を受け取る。
[1−1.自動オーダーポストの構成]
図2は、本実施の形態における自動オーダーポスト10および音声対話サーバ20の構成の一例を示すブロック図である。
自動オーダーポスト10は、図2に示すように、マイク11と、スピーカ12と、表示パネル13と、車両検出センサ14とを備えている。
マイク11は、ユーザの発話データを取得し、音声対話サーバ20に出力する音声入力部の一例であり、ユーザが発した声(音波)に応じた信号を音声対話サーバ20に出力する。
スピーカ12は、音声対話サーバ20から出力された音声データを用いて音声出力する音声出力部の一例である。
表示パネル13は、音声対話サーバ20が受け付けた注文の内容を表示する。
図3は、表示パネル13の画面の一例を示す図である。図3に示すように、表示パネル13には、音声対話サーバ20が取得できた注文の内容が表示される。注文の内容には、注文番号、商品面、サイズ、個数等が含まれる。
車両検出センサ14は、例えば、光センサで構成されている。当該光センサでは、例えば、光源から光を照射し、車両300がオーダーポストの横に移動すると、車両300により反射される反射光を検出することで、車両300が所定の位置に存在するか否かを検出する。車両検出センサ14により車両300が検出されると、音声対話サーバ20は注文処理を開始する。なお、車両検出センサ14は、本開示の必須構成ではない。他のセンサを用いても構わないし、自動オーダーポスト10に注文開始ボタンを設けておき、ユーザの操作により注文の開始を検出するように構成しても構わない。
[1−2.音声対話サーバの構成]
音声対話サーバ20は、図2に示すように、対話部21と、メモリ22と、表示制御部23とを備えている。
対話部21は、ユーザとの対話処理を行う制御部の一例であり、本実施の形態では、ユーザの発話による注文を受け付け、注文データを作成する。対話部21は、図2に示すように、単語判定部21aと、応答文作成部21bと、音声合成部21cと、注文データ作成部21dとを備えている。なお、対話部21は、例えば、ASIC(Application Specific Integrated Circuit)等の集積回路で構成される。
単語判定部21aは、自動オーダーポスト10のマイク11から出力された信号からユーザの発話を示す発話データ取得し(取得部としても機能する)、発話文の解析を行う。発話文の解析は、本実施の形態では、キーワードスポッティングにより行う。キーワードスポッティングとは、ユーザの発話文から、予めキーワードDBに記憶されたキーワードを抽出し、それ以外の音は冗長語として破棄する。例えば、「にして」が変更を指示するキーワードとして記録されている場合、ユーザが「キーワードA」「を」「キーワードB」「にして」と発話したときは、キーワードAをキーワードBに変更するという指示であると解析する。また、例えば、特許文献1に記載の技術を利用して、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。
応答文作成部21bは、自動オーダーポスト10に出力させる対話文を作成する。詳細については後述する。
音声合成部21cは、応答文作成部21bが作成した対話文を、自動オーダーポスト10のスピーカ12から音声出力させるための音声データを生成する音声生成部の一例である。音声合成部21cは、音声合成により応答文の合成音声を作成する。
注文データ作成部21dは、単語判定部21aにおける発話データの解析結果を用いて所定の処理を行うデータ処理部の一例であり、本実施の形態では、単語判定部21aにおいて抽出された単語を用いた注文データの作成を行う。詳細については後述する。
メモリ22は、RAM(Randam Access Memory)およびROM(Read Only Memory)、ハードディスク等の記憶媒体で構成されている。メモリ22には、音声対話サーバ20が実行する注文処理で必要とされるデータが記憶されている。具体的には、メモリ22には、キーワードDB22a、メニューDB22b、注文データ22c等が記憶されている。
キーワードDB22aは、複数のキーワードが記憶された記憶部の一例である。本実施の形態において、複数のキーワードは、発話文を解析するために用いられるキーワードである。キーワードDB22aには、図示しないが、商品名を示す単語、数値(個数を示す単語)、サイズを示す単語、「〜にして」等の既注文の変更を指示する単語、注文の終了等を指示する単語等、注文を行うために使用されると考えられる複数のキーワードが記憶されている。なお、キーワードDB22aには、注文処理には直接的には関係のないキーワードが記憶されていても構わない。
メニューDB22bは、本実施の形態では、店舗200で取り扱っている商品の情報が記憶されたデータベースである。図3は、メニューDB22bの一例を示す図である。図3に示すように、メニューDB22bには、メニューIDおよび商品名が記憶されている。さらに、各メニューIDには、選択可能なサイズ、注文可能数が記憶されている。なお、ドリンクのホット、コールドの指定等、他の任意の情報がさらに追加されていても構わない。
注文データ22cは、注文内容を示すデータであり、ユーザが発話する毎に順次作成される。図4A〜図4Dは、注文データ22cの一例を示す図である。注文データ22cには、注文番号、商品名、サイズ、個数が含まれる。
表示制御部23は、注文データ作成部21dが作成した注文データを、自動オーダーポスト10の表示パネル13に表示させる。図5は、注文データ22cを表示する表示画面の一例を示す図である。図5の表示画面は、図4Aに対応している。図5では、注文番号、商品名、サイズ、および、個数が表示されている。
[2.音声対話サーバの動作]
図6は、音声対話サーバ20で実行される注文処理(音声対話方法)の処理手順の一例を示すフローチャートである。図7および図9は、自動オーダーポスト10のスピーカ12から出力される音声とユーザとの間の問答の一例を示す図である。なお、図7および図9の文章が記載された欄の左側の欄に記載している数字は、問答の順序を示している。図7と図9とでは、4番までが同じである。
音声対話サーバ20の対話部21は、車両検出センサ14により車両300が検出されると、注文処理を開始する(S1)。注文処理の開始時には、音声合成部21cは、図8に示すように、「ご注文をどうぞ」という音声をスピーカ12から出力するための音声データを音声合成により生成し、スピーカ12に出力する。
単語判定部21aは、マイク11からユーザの発話を示す発話文を取得し(S2)、発話文を解析する発話文解析処理を行う(S3)。なお、発話文解析処理は、1文ずつ実行される。ユーザが複数の文を続けて発話した場合は、当該発話を1文ずつに分解して、1文ずつ処理する。
図8は、音声対話サーバ20で実行される発話文解析処理の処理手順の一例を示すフローチャートである。
図8に示すように、単語判定部21aは、図6のステップS2で取得した発話文の解析を行う(S11)。発話文の解析には、例えば、特許文献2の音声解析技術を利用しても構わない。
単語判定部21aは、先ず、発話文から冗長語を除去する。本実施の形態において、冗長語とは、注文処理を行うのに必要のない単語を示している。本実施の形態における冗長語には、例えば、「え〜と」、「おはよう」あるいは形容詞等の注文とは直接関係のない単語、助詞等が含まれる。これにより、例えば、商品名等の名詞、および、新規注文の追加を指示する単語あるいは既注文の変更を指示する単語等、注文処理を行う上で必要な単語のみを残すことが可能になる。
例えば、発話文として図7の表中の2の「えーっと、ハンバーガーとポテトのSを2個ずつ」が入力された場合、単語判定部21aは、発話データを「えーっと」「ハンバーガー」「と」「ポテト」「の」「S」「を」「2個」「ずつ」に分解し、「えーっと」「と」「の」「を」を冗長語として除去する。
単語判定部21aは、冗長語が除去された発話データから、1以上の単語を抽出し、抽出された1以上の単語のそれぞれについて、キーワードDB22aに記憶されたキーワードに一致するか否かを判定する。
例えば、図7の表中の2に示す発話文が入力された場合、単語判定部21aは、「えーっと」「ハンバーガー」「ポテト」「S」「2個」「ずつ」の5つの単語を抽出する。さらに、単語判定部21aは、「ハンバーガー」「ポテト」「S」「2個」「ずつ」の5つの単語のそれぞれについて、キーワードDB22aに記憶されている複数のキーワードのいずれかに一致するか否かを判定する。以下、抽出された単語のうち、キーワードDB22aに記憶された複数のキーワードのいずれにも一致しない単語を第一単語とし、複数のキーワードのいずれかに一致する単語を第二単語として説明する。
単語判定部21aは、発話文に要確認箇所があるか否かを判定する(S12)。本実施の形態では、発話データに誤認識部分または条件不適合部分が含まれる場合に要確認箇所があると判定される。
誤認識部分とは、第一単語であると判定された部分である。第一単語には、より詳細には、不明瞭ではないがキーワードDB22aにない単語の部分、「**」のような不明瞭な音の部分が含まれる。
条件不適合部分とは、商品の受け渡し条件が整わない注文のことである。商品の受け渡し条件は、図3のメニューDB22bに記憶されている条件を満たさない注文のことである。単語判定部21aは、例えば、「ハンバーガーのSを2個」が入力された場合、「ハンバーガー」「S」「2個」の3つの単語を抽出する。図3のメニューDB22bには、「ハンバーガー」(第一キーワードの一例)には、1〜注文可能数までの数値(第二キーワードに対応)は対応付けられているが、サイズを示す「S」は対応付けられていない。単語判定部21aは、「ハンバーガー(第一キーワードの一例)」に一致しない第二単語「S」があると判定する。また、例えば、「ハンバーガーを100個」が入力された場合、単語判定部21aは、注文可能数よりも多い個数、つまり、「ハンバーガー(第一キーワード)」に一致しない第二単語「100個」があると判定する。
単語判定部21aは、上述したように、第一キーワードに対応付けられていない第二単語を抽出した場合に、条件不適合であると判定する。なお、単語判定部21aは、1回の注文数として異常であると考えられる個数を示す単語がある場合についても、条件不適合であると判定する。
単語判定部21aは、誤認識部分または条件不適合部分があると判定した場合に、要確認箇所があると判定する。
図7の表中の2の発話文の場合、第一単語がないと判定される。
単語判定部21aは、発話文に要確認箇所がないと判定した場合(S12のなし)、発話文が注文終了を示す第二単語で構成されているか否かを確認する(S13)。図7の表中の2の発話文の場合、注文終了ではないと判定される。
注文データ作成部21dは、単語判定部21aにより発話文が注文終了を示す第二単語で構成されていないと判定された場合(S13のNo)、発話文が既注文の変更を示すか否かを判定する(S14)。図7の表中の2の発話文の場合、既注文の変更ではないと判定する。
発話文が既注文の変更ではないと判定した場合(S14のNo)、注文データ作成部21dは、新規注文のデータを作成する(S15)。
図7の表中の2の発話文の場合、図4Aに示す注文データが生成される。発話文の中に商品名を示す第二単語が2つあるため、2つのレコードが作成される。各レコードには、商品名「ハンバーガー」または「ポテト」が記憶される。「ハンバーガー」のレコードのサイズの欄には、図3に示すように、サイズの指定はないため、サイズ指定ができないことを示す「−」が入力される。「ハンバーガー」のレコードの個数の欄には、「2」が入力される。「ポテト」のレコードについては、サイズの欄に「S」、個数の欄に「2」が記憶される。
発話文が既注文の変更であると判定した場合は(S14のYes)、注文データ作成部21dは、既注文の変更を行う(S16)。
注文データが更新された後、図6に示すように、注文終了であるか否かを確認する(S4)。ここでは、図8のステップS13において、注文終了を示す第二単語はないと判定されているため(S4のNo)、ステップS2に移行して、次の発話文を取得する(S2)。
単語判定部21aは、マイク11からユーザの発話を示す発話文を取得し(S2)、発話文を解析する発話文解析処理を行う(S3)。
発話文解析処理では、図8に示すように、単語判定部21aは、図6のステップS2で取得した発話文の解析を行う(S11)。
発話文として図7の表中の3の「2番を**にして」が入力された場合、「2番」「にして」が第二単語として抽出され、「**」が第一単語として抽出される。
音声対話サーバ20は、発話文に要確認箇所があるか否かを判定する(S12)。要確認箇所には、図7の表中の3の発話文の場合、「**」があるため、第一単語が含まれると判定される。
音声対話サーバ20は、発話文に要確認箇所がある場合(S12の有り)、要確認箇所が誤認識であるか否かを確認する(S17)。
応答文作成部21bは、ステップS12において単語判定部21aにより要確認箇所として誤認識部分があると判定されている場合(S17の有り)、誤認識部分の再発話を促す応答文を作成する(S18)。
本実施の形態の応答文作成部21bは、誤認識があると判定された発話文から抽出された第二単語を用いて、応答文を作成する。図7の表中の3の発話文の場合、「2番」「にして」が第二単語として抽出されているため、「**」の直前に発話された第二単語である「2番」を用いて、「2番の後が聞き取れませんでした。」という応答文を作成する(表中の4の応答文)。つまり、「『第二単語』の後が聞き取れませんでした。」のように、予め、第二単語を当てはめる箇所がある定型文を用意しておき、抽出された第二単語を『第二単語』の部分に当てはめて応答文を作成する。
なお、「**」の直後に抽出された第二単語を用いても構わない。この場合は、「『第二単語』の前が聞き取れませんでした。」例えば、「**」の直前に抽出された第二単語が、発話文中に複数ある場合、「**」の直前に第二単語が発話されていない場合等には、「**」の直後に抽出された第二単語を用いて応答文を作成しても構わない。
また、「『第二単語』の後、『第二単語』の前が聞き取れませんでした。」のように、複数の第二単語を用いて応答文を作成しても構わない。
音声合成部21cはステップS18で作成した応答文の音声データを作成し、スピーカ12に出力させる(S19)。
応答文作成部21bは、ステップS12において単語判定部21aにより要確認箇所として条件不適合部分があると判定されている場合(S17のなし)、適合条件を含む応答文を作成する(S20)。
例えば、上述した「ハンバーガーのSを2個」という発話文が入力された場合、ステップS12において、単語判定部21aにより、指定不可能なサイズ「S」が指定されていると判定されている。このため、応答文作成部21bは、「ハンバーガーのサイズは指定できません」等、適合条件を含む応答文を作成する。
また、例えば、上述した「ハンバーガーを100個」という発話文が入力された場合、ステップS12において、単語判定部21aにより、注文可能数よりも多い個数が指定されていると判定されている。この場合、応答文作成部21bは、1度に注文可能な個数(適合条件の一例、第二キーワードの一例)、例えば、『10個』を含む応答文を作成する。応答文作成部21bは、例えば、「ハンバーガーの個数を『10個』以内で指定して下さい」等の応答文を作成する。
音声合成部21cはステップS20で作成した応答文の音声データを作成し、スピーカ12に出力させる(S21)。
単語判定部21aは、ステップS19またはステップS21の実行後、マイク11からユーザの発話を示す回答文を取得し、当該回答文を解析する(S22)。
音声対話サーバ20は、回答文が、応答文に対する回答であるか否かを判定する(S23)。
ここで、図7の表中の3の発話文の場合、「2番」「**」「にして」の場合、「にして」が変更を指示する第二単語であることから、2番のポテトのサイズまたは個数を変更する指示であることが推測される。この場合、応答文の回答としては、ポテトの指定可能なサイズ「S」「M」「L」または数値が入力されると推定される。応答文の回答として推定される単語が含まれない場合、あるいは、商品面が含まれる場合等には、応答文に対する回答ではないと判定する。
例えば、音声対話サーバ20は、回答文が、図7の表中の5の「L」の場合、応答文に対する回答であると判定する。
これに対し、音声対話サーバ20は、回答文が、図9の表中の5の「あと、コーラを1つ」の場合、「コーラ」「1つ」の2つの第二単語を抽出する。この場合、商品名「コーラ」が抽出されたため、応答文に対する回答ではないと判定する。
音声対話サーバ20は、応答文に対する回答であると判定した場合(S23のYes)、回答文が既注文の変更を示すか否かを判定する(S24)。図7の表中の5の回答文の場合、既注文の変更であると判定する。
発話文が既注文の変更であると判定した場合(S24のYes)、注文データ作成部21dは、注文データの変更を行う(S26)。図7の表中の5の回答文の場合、図4Bに示すように、2番のサイズのデータを、SからLに変更する。発話文が既注文の変更ではないと判定した場合(S24のNo)、注文データ作成部21dは、新規注文のデータを作成する(S25)。
音声対話サーバ20は、応答文に対する回答ではないと判定した場合(S23のNo)、現在解析中の発話文を破棄し、S22において取得した回答文を発話文として設定し、処理を続行する(S27)。図9の表中の5の場合、回答文「あと、コーラを1つ」を発話文として設定する。
音声対話サーバ20は、ステップS22の回答文の解析結果を用いて、要確認箇所があるか否かを判定する(S12)。図9の表中の5の場合、要確認箇所はないと判定し、ステップS13に移行する。
音声対話サーバ20は、上述したように、発話文に要確認箇所がない場合(S12のなし)、発話文が注文終了を示す第二単語で構成されているか否かを確認する(S13)。図9の表中の5の発話文の場合、注文終了ではないと判定される。また、図9の表中の5の発話文の場合、既注文の変更ではないため(S14のNo)、新規注文として注文データを更新する(S15)。
ここで、図9の表中の5の場合、第二単語として「コーラ」「1つ」が抽出され、図4Cの3番に示すレコードが生成される。ここで、コーラは、サイズの指定が必要であるが、サイズに対応する第二単語がないため、応答文作成部21bは、サイズを発話させるための応答文「コーラのサイズをご指定下さい。」の音声データを生成し、スピーカ12に出力する。図9の表中の7のように、コーラのサイズ「L」が発話されマイク11から入力されると、注文データ作成部21dは、図4Dに示す注文データを生成する。
図6に示すように、ステップS3の発話文解析処理において発話文が注文の終了を示すキーワードではないと解析された場合(S4のNo)、ステップS2に移行して単語判定部21aにより発話文の取得を行う。
発話文解析処理において発話文が注文の終了を示すキーワードであると解析された場合(S4のYes)、注文内容の確認を行う(S5)。具体的には、応答文作成部21bが、変更があるか否かを問い合わせる音声データを作成し、スピーカ12に音声を出力させる。
変更がある場合は(S6のYes)、音声対話サーバ20は、ステップS2に移行して、変更内容を受け付ける。
変更がない場合は(S6のNo)、音声対話サーバ20は、注文データを確定する(S7)。注文データが確定されると、店舗200により商品が用意される。車両300は、商品受け渡しカウンタ40に移動し、代金を支払い、商品を受け取る。
[3.効果等]
本実施の形態の音声対話サーバ(音声対話装置)20は、誤認識部分があると判定された場合、誤認識部分があると判定された発話データのうちの聞き取れた部分を用いて応答文を作成する。これにより、要確認部分だけを聞き直すことが可能になり、発話の認識率を向上させることができる。
なお、発話文全部を聞き直す場合は、音声対話サーバ20がどの部分が聞き取れなかったかをユーザが知ることは困難であるため、ユーザが同じ発話を繰り返し行うことになる可能性がある。これに対し、本実施の形態の音声対話サーバ20は、要確認部分のみを聞き直すことができるので、音声対話サーバがどの部分が聞き取れなかったかをユーザがより明確に認識でき、再度要確認部分が生じるのを効果的に防止可能になる。要確認部分のみを聞き直すことで、回答文が単語のみあるいは非常に短い文章となり、発話の認識率を向上させることが可能になる。発話の認識率の向上により、本実施の形態の音声対話サーバ20は、注文処理全体にかかる時間を短縮することが可能になる。
また、本実施の形態の音声対話サーバ20は、応答文に対し、回答候補とは異なる発話がされたとき、発話データを破棄する。これは、応答文に対する発話が回答候補とは異なる場合は、前回の発話データをキャンセルする場合が多いと考えられるからである。これにより、ユーザが直前の発話を取り消す等の処理を短縮することが可能になる。
さらに、上記実施の形態の音声対話サーバ20は、例えば、メニューDB22bに適合しない注文がされた場合、例えば、個数が100個を超える場合等には、1度に注文可能な個数を含む応答文を作成する。これにより、ユーザが条件に適合する発話を行うことが容易になる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
そこで、以下、他の実施の形態を例示する。
(1)上記実施の形態では、音声対話サーバがドライブスルーに設置さえている場合を例に説明したが、これに限るものではない。例えば、空港あるいはコンビニエンスストア等の施設に設置される航空券のチケットの予約システム、または、宿泊施設の予約を行う予約システムに、上記実施の形態の音声対話サーバを適用しても構わない。
(2)音声対話サーバ20の対話部21が、ASIC等の集積回路を用いて構成される場合を例示したが、これに限るものではない。システムLSI(Large Scale Integration:大規模集積回路)等を用いて構成されてもよい。あるいは、対話部21は、単語判定部21a、応答文作成部21b、音声合成部21cおよび注文データ作成部21dの機能を規定したコンピュータプログラム(ソフトウェア)を、CPU(Central Processing Unit)が実行することにより実現されても構わない。なお、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
(3)また、本実施の形態では、店舗200に音声対話サーバ20が設けられている場合を例に説明したが、自動オーダーポスト10に設けられていても構わないし、店舗200外に設けられ、ネットワークを介して店舗200内の各装置および自動オーダーポスト10に接続されていても構わない。また、音声対話サーバ20の各構成は、1つのサーバ内に設けられている必要は無く、クラウド上のコンピュータ、および、店舗200に設けられたコンピュータ等に分散して設けられていても構わない。
(4)本実施の形態では、単語判定部21aが、音声認識処理、すなわちマイク11が収音した音声信号をテキストデータに変換する処理を含んでいたが、これに限るものではない。音声認識処理は、対話部21あるいは音声対話サーバ20から分離した別の処理モジュールが実行するように構成してもよい。
(5)本実施の形態では、対話部21が、音声合成部21cを含んでいたが、音声合成部21cは対話部21あるいは音声対話サーバ20から分離した別の処理モジュールで構成されていても構わない。対話部21を構成する単語判定部21a、応答文作成部21b、音声合成部21c、および注文データ作成部21dのいずれも、対話部21あるいは音声対話サーバ20から分離した別の処理モジュールで構成されていても構わない。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、ユーザの発話を解析して自動的に商品の受注あるいは予約等を行う音声対話装置および音声対話システムに適用可能である。具体的には、例えば、ドライブスルーに設置されるシステム、あるいは、コンビニエンスストア等の施設に設置されるチケットの予約を行うシステム等に本開示は適用可能である。
10、10a、10b 自動オーダーポスト
10c オーダーポスト
11 マイク
12 スピーカ
13 表示パネル
20 音声対話サーバ
21 対話部
21a 単語判定部
21b 応答文作成部
21c 音声合成部
21d 注文データ作成部
22 メモリ
22a キーワードDB
22b メニューDB
22c 注文データ
23 表示制御部
30 対話装置
40 商品受け渡しカウンタ
100 音声対話システム
200 店舗
300 車両
本開示は、音声対話装置、音声対話システムおよび音声対話方法に関する。
宿泊施設等の施設あるいは航空券等の自動予約を行う自動予約システムには、例えば、ユーザの発話による注文を受け付ける音声対話システムがある(例えば、特許文献1参照)。このような音声対話システムでは、ユーザの発話文を解析するために、例えば、特許文献2に示す音声解析技術が利用されている。特許文献2の音声解析技術では、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。
特開2003−241795号公報 特開平05−197389号公報
音声対話システムのような自動予約システムでは、発話の認識率の向上が求められている。
本開示は、発話の認識率を向上させることができる音声対話装置、音声対話システムおよび音声対話方法を提供する。
本開示における音声対話装置は、ユーザの発話を示す発話データを取得する取得部と、複数のキーワードが記憶された記憶部と、前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定する単語判定部と、前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードのいずれかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部と、前記応答文の音声データを生成する音声生成部とを備える。
本開示における音声対話装置、音声対話システムおよび音声対話方法は、発話の認識率を向上させることができる。
図1は、実施の形態における音声対話システムの構成の一例を示す図である。 図2は、実施の形態における自動オーダーポストおよび音声対話サーバの構成の一例を示すブロック図である。 図3は、実施の形態のメニューDBの一例を示す図である。 図4Aは、実施の形態の注文データの一例を示す図である。 図4Bは、実施の形態の注文データの一例を示す図である。 図4Cは、実施の形態の注文データの一例を示す図である。 図4Dは、実施の形態の注文データの一例を示す図である。 図5は、実施の形態の注文データを表示する表示画面の一例を示す図である。 図6は、実施の形態における音声対話サーバで実行される注文処理の処理手順の一例を示すフローチャートである。 図7は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。 図8は、実施の形態における音声対話サーバで実行される発話文解析処理の処理手順の一例を示すフローチャートである。 図9は、実施の形態における自動オーダーポストのスピーカから出力される音声とユーザとの間の問答の一例を示す図である。
(課題の詳細)
例えば、商品の注文に用いられる音声対話システムでは、少なくとも「商品名」および「個数」を抽出する必要がある。商品によっては、「サイズ」等の項目が必要な場合がある。
特許文献1に示す自動予約システムでは、商品の注文に必要な項目が全て取得できていない場合は、取得できていない項目の入力を促す音声を出力している。
しかしながら、発話による注文受け付けでは、発音が明確ではない部分がある場合、あるいは、取り扱われていない商品の商品名が発話された場合等には、発話の一部分を解析できない場合がある。
特許文献1のような従来の音声対話システムでは、発話に解析できない部分がある場合、ユーザに対し、再度、解析できない部分だけでなく発話全文を入力させていた。発話全文を入力させる場合、システム側でどの部分が解析できなかったかをユーザが知ることが困難であるため、同じ部分が解析不能となる可能性があると考えられ、さらに全文を入力させる必要が生じる可能性がある。このような場合には、注文にかかる時間を短縮することが困難である。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態)
以下、図1〜図9を用いて、実施の形態を説明する。本実施の形態の音声対話システムは、ユーザの発話文のうちの解析できた第二単語を用いて、解析できなかった第一単語の再入力を促す応答文を作成する。
なお、本実施の形態では、音声対話システムが、ユーザが車両から降りることなく商品を購入することができるドライブスルーに適用される場合を例に説明する。
[1.全体構成]
図1は、本実施の形態における音声対話システムの構成の一例を示す図である。
図1に示すように、音声対話システム100は、店舗200外に設置される自動オーダーポスト10と、店舗200内に設置される音声対話サーバ(音声対話装置)20とを備えて構成されている。音声対話システム100の詳細については後述する。
なお、店舗200外には、さらに、店員と直接対話しながら注文を行うオーダーポスト10cが設けられている。また、店舗200内には、さらに、オーダーポスト10cと連携して店員とユーザとの対話を可能にする対話装置30、および、ユーザが注文した商品を受け渡す商品受け渡しカウンタ40が設けられている。
車両300に乗っているユーザは、敷地外の道路から敷地内に車両300を進入させ、敷地内に設置されたオーダーポスト10c、自動オーダーポスト10aまたは10bの横に車両を駐車させ、オーダーポストを用いて注文を行う。注文が確定すると、商品受け渡しカウンタ40で商品を受け取る。
[1−1.自動オーダーポストの構成]
図2は、本実施の形態における自動オーダーポスト10および音声対話サーバ20の構成の一例を示すブロック図である。
自動オーダーポスト10は、図2に示すように、マイク11と、スピーカ12と、表示パネル13と、車両検出センサ14とを備えている。
マイク11は、ユーザの発話データを取得し、音声対話サーバ20に出力する音声入力部の一例であり、ユーザが発した声(音波)に応じた信号を音声対話サーバ20に出力する。
スピーカ12は、音声対話サーバ20から出力された音声データを用いて音声出力する音声出力部の一例である。
表示パネル13は、音声対話サーバ20が受け付けた注文の内容を表示する。
図3は、表示パネル13の画面の一例を示す図である。図3に示すように、表示パネル13には、音声対話サーバ20が取得できた注文の内容が表示される。注文の内容には、注文番号、商品面、サイズ、個数等が含まれる。
車両検出センサ14は、例えば、光センサで構成されている。当該光センサでは、例えば、光源から光を照射し、車両300がオーダーポストの横に移動すると、車両300により反射される反射光を検出することで、車両300が所定の位置に存在するか否かを検出する。車両検出センサ14により車両300が検出されると、音声対話サーバ20は注文処理を開始する。なお、車両検出センサ14は、本開示の必須構成ではない。他のセンサを用いても構わないし、自動オーダーポスト10に注文開始ボタンを設けておき、ユーザの操作により注文の開始を検出するように構成しても構わない。
[1−2.音声対話サーバの構成]
音声対話サーバ20は、図2に示すように、対話部21と、メモリ22と、表示制御部23とを備えている。
対話部21は、ユーザとの対話処理を行う制御部の一例であり、本実施の形態では、ユーザの発話による注文を受け付け、注文データを作成する。対話部21は、図2に示すように、単語判定部21aと、応答文作成部21bと、音声合成部21cと、注文データ作成部21dとを備えている。なお、対話部21は、例えば、ASIC(Application Specific Integrated Circuit)等の集積回路で構成される。
単語判定部21aは、自動オーダーポスト10のマイク11から出力された信号からユーザの発話を示す発話データ取得し(取得部としても機能する)、発話文の解析を行う。発話文の解析は、本実施の形態では、キーワードスポッティングにより行う。キーワードスポッティングとは、ユーザの発話文から、予めキーワードDBに記憶されたキーワードを抽出し、それ以外の音は冗長語として破棄する。例えば、「にして」が変更を指示するキーワードとして記録されている場合、ユーザが「キーワードA」「を」「キーワードB」「にして」と発話したときは、キーワードAをキーワードBに変更するという指示であると解析する。また、例えば、特許文献1に記載の技術を利用して、発話文から「え〜」等の不必要な音を除去して単語候補を抽出している。
応答文作成部21bは、自動オーダーポスト10に出力させる対話文を作成する。詳細については後述する。
音声合成部21cは、応答文作成部21bが作成した対話文を、自動オーダーポスト10のスピーカ12から音声出力させるための音声データを生成する音声生成部の一例である。音声合成部21cは、音声合成により応答文の合成音声を作成する。
注文データ作成部21dは、単語判定部21aにおける発話データの解析結果を用いて所定の処理を行うデータ処理部の一例であり、本実施の形態では、単語判定部21aにおいて抽出された単語を用いた注文データの作成を行う。詳細については後述する。
メモリ22は、RAM(Randam Access Memory)およびROM(Read Only Memory)、ハードディスク等の記憶媒体で構成されている。メモリ22には、音声対話サーバ20が実行する注文処理で必要とされるデータが記憶されている。具体的には、メモリ22には、キーワードDB22a、メニューDB22b、注文データ22c等が記憶されている。
キーワードDB22aは、複数のキーワードが記憶された記憶部の一例である。本実施の形態において、複数のキーワードは、発話文を解析するために用いられるキーワードである。キーワードDB22aには、図示しないが、商品名を示す単語、数値(個数を示す単語)、サイズを示す単語、「〜にして」等の既注文の変更を指示する単語、注文の終了等を指示する単語等、注文を行うために使用されると考えられる複数のキーワードが記憶されている。なお、キーワードDB22aには、注文処理には直接的には関係のないキーワードが記憶されていても構わない。
メニューDB22bは、本実施の形態では、店舗200で取り扱っている商品の情報が記憶されたデータベースである。図3は、メニューDB22bの一例を示す図である。図3に示すように、メニューDB22bには、メニューIDおよび商品名が記憶されている。さらに、各メニューIDには、選択可能なサイズ、注文可能数が記憶されている。なお、ドリンクのホット、コールドの指定等、他の任意の情報がさらに追加されていても構わない。
注文データ22cは、注文内容を示すデータであり、ユーザが発話する毎に順次作成される。図4A〜図4Dは、注文データ22cの一例を示す図である。注文データ22cには、注文番号、商品名、サイズ、個数が含まれる。
表示制御部23は、注文データ作成部21dが作成した注文データを、自動オーダーポスト10の表示パネル13に表示させる。図5は、注文データ22cを表示する表示画面の一例を示す図である。図5の表示画面は、図4Aに対応している。図5では、注文番号、商品名、サイズ、および、個数が表示されている。
[2.音声対話サーバの動作]
図6は、音声対話サーバ20で実行される注文処理(音声対話方法)の処理手順の一例を示すフローチャートである。図7および図9は、自動オーダーポスト10のスピーカ12から出力される音声とユーザとの間の問答の一例を示す図である。なお、図7および図9の文章が記載された欄の左側の欄に記載している数字は、問答の順序を示している。図7と図9とでは、4番までが同じである。
音声対話サーバ20の対話部21は、車両検出センサ14により車両300が検出されると、注文処理を開始する(S1)。注文処理の開始時には、音声合成部21cは、図8に示すように、「ご注文をどうぞ」という音声をスピーカ12から出力するための音声データを音声合成により生成し、スピーカ12に出力する。
単語判定部21aは、マイク11からユーザの発話を示す発話文を取得し(S2)、発話文を解析する発話文解析処理を行う(S3)。なお、発話文解析処理は、1文ずつ実行される。ユーザが複数の文を続けて発話した場合は、当該発話を1文ずつに分解して、1文ずつ処理する。
図8は、音声対話サーバ20で実行される発話文解析処理の処理手順の一例を示すフローチャートである。
図8に示すように、単語判定部21aは、図6のステップS2で取得した発話文の解析を行う(S11)。発話文の解析には、例えば、特許文献2の音声解析技術を利用しても構わない。
単語判定部21aは、先ず、発話文から冗長語を除去する。本実施の形態において、冗長語とは、注文処理を行うのに必要のない単語を示している。本実施の形態における冗長語には、例えば、「え〜と」、「おはよう」あるいは形容詞等の注文とは直接関係のない単語、助詞等が含まれる。これにより、例えば、商品名等の名詞、および、新規注文の追加を指示する単語あるいは既注文の変更を指示する単語等、注文処理を行う上で必要な単語のみを残すことが可能になる。
例えば、発話文として図7の表中の2の「えーっと、ハンバーガーとポテトのSを2個ずつ」が入力された場合、単語判定部21aは、発話データを「えーっと」「ハンバーガー」「と」「ポテト」「の」「S」「を」「2個」「ずつ」に分解し、「えーっと」「と」「の」「を」を冗長語として除去する。
単語判定部21aは、冗長語が除去された発話データから、1以上の単語を抽出し、抽出された1以上の単語のそれぞれについて、キーワードDB22aに記憶されたキーワードに一致するか否かを判定する。
例えば、図7の表中の2に示す発話文が入力された場合、単語判定部21aは、「えーっと」「ハンバーガー」「ポテト」「S」「2個」「ずつ」の5つの単語を抽出する。さらに、単語判定部21aは、「ハンバーガー」「ポテト」「S」「2個」「ずつ」の5つの単語のそれぞれについて、キーワードDB22aに記憶されている複数のキーワードのいずれかに一致するか否かを判定する。以下、抽出された単語のうち、キーワードDB22aに記憶された複数のキーワードのいずれにも一致しない単語を第一単語とし、複数のキーワードのいずれかに一致する単語を第二単語として説明する。
単語判定部21aは、発話文に要確認箇所があるか否かを判定する(S12)。本実施の形態では、発話データに誤認識部分または条件不適合部分が含まれる場合に要確認箇所があると判定される。
誤認識部分とは、第一単語であると判定された部分である。第一単語には、より詳細には、不明瞭ではないがキーワードDB22aにない単語の部分、「**」のような不明瞭な音の部分が含まれる。
条件不適合部分とは、商品の受け渡し条件が整わない注文のことである。商品の受け渡し条件は、図3のメニューDB22bに記憶されている条件を満たさない注文のことである。単語判定部21aは、例えば、「ハンバーガーのSを2個」が入力された場合、「ハンバーガー」「S」「2個」の3つの単語を抽出する。図3のメニューDB22bには、「ハンバーガー」(第一キーワードの一例)には、1〜注文可能数までの数値(第二キーワードに対応)は対応付けられているが、サイズを示す「S」は対応付けられていない。単語判定部21aは、「ハンバーガー(第一キーワードの一例)」に一致しない第二単語「S」があると判定する。また、例えば、「ハンバーガーを100個」が入力された場合、単語判定部21aは、注文可能数よりも多い個数、つまり、「ハンバーガー(第一キーワード)」に一致しない第二単語「100個」があると判定する。
単語判定部21aは、上述したように、第一キーワードに対応付けられていない第二単語を抽出した場合に、条件不適合であると判定する。なお、単語判定部21aは、1回の注文数として異常であると考えられる個数を示す単語がある場合についても、条件不適合であると判定する。
単語判定部21aは、誤認識部分または条件不適合部分があると判定した場合に、要確認箇所があると判定する。
図7の表中の2の発話文の場合、第一単語がないと判定される。
単語判定部21aは、発話文に要確認箇所がないと判定した場合(S12のなし)、発話文が注文終了を示す第二単語で構成されているか否かを確認する(S13)。図7の表中の2の発話文の場合、注文終了ではないと判定される。
注文データ作成部21dは、単語判定部21aにより発話文が注文終了を示す第二単語で構成されていないと判定された場合(S13のNo)、発話文が既注文の変更を示すか否かを判定する(S14)。図7の表中の2の発話文の場合、既注文の変更ではないと判定する。
発話文が既注文の変更ではないと判定した場合(S14のNo)、注文データ作成部21dは、新規注文のデータを作成する(S15)。
図7の表中の2の発話文の場合、図4Aに示す注文データが生成される。発話文の中に商品名を示す第二単語が2つあるため、2つのレコードが作成される。各レコードには、商品名「ハンバーガー」または「ポテト」が記憶される。「ハンバーガー」のレコードのサイズの欄には、図3に示すように、サイズの指定はないため、サイズ指定ができないことを示す「−」が入力される。「ハンバーガー」のレコードの個数の欄には、「2」が入力される。「ポテト」のレコードについては、サイズの欄に「S」、個数の欄に「2」が記憶される。
発話文が既注文の変更であると判定した場合は(S14のYes)、注文データ作成部21dは、既注文の変更を行う(S16)。
注文データが更新された後、図6に示すように、注文終了であるか否かを確認する(S4)。ここでは、図8のステップS13において、注文終了を示す第二単語はないと判定されているため(S4のNo)、ステップS2に移行して、次の発話文を取得する(S2)。
単語判定部21aは、マイク11からユーザの発話を示す発話文を取得し(S2)、発話文を解析する発話文解析処理を行う(S3)。
発話文解析処理では、図8に示すように、単語判定部21aは、図6のステップS2で取得した発話文の解析を行う(S11)。
発話文として図7の表中の3の「2番を**にして」が入力された場合、「2番」「にして」が第二単語として抽出され、「**」が第一単語として抽出される。
音声対話サーバ20は、発話文に要確認箇所があるか否かを判定する(S12)。要確認箇所には、図7の表中の3の発話文の場合、「**」があるため、第一単語が含まれると判定される。
音声対話サーバ20は、発話文に要確認箇所がある場合(S12の有り)、要確認箇所が誤認識であるか否かを確認する(S17)。
応答文作成部21bは、ステップS12において単語判定部21aにより要確認箇所として誤認識部分があると判定されている場合(S17の有り)、誤認識部分の再発話を促す応答文を作成する(S18)。
本実施の形態の応答文作成部21bは、誤認識があると判定された発話文から抽出された第二単語を用いて、応答文を作成する。図7の表中の3の発話文の場合、「2番」「にして」が第二単語として抽出されているため、「**」の直前に発話された第二単語である「2番」を用いて、「2番の後が聞き取れませんでした。」という応答文を作成する(表中の4の応答文)。つまり、「『第二単語』の後が聞き取れませんでした。」のように、予め、第二単語を当てはめる箇所がある定型文を用意しておき、抽出された第二単語を『第二単語』の部分に当てはめて応答文を作成する。
なお、「**」の直後に抽出された第二単語を用いても構わない。この場合は、「『第二単語』の前が聞き取れませんでした。」例えば、「**」の直前に抽出された第二単語が、発話文中に複数ある場合、「**」の直前に第二単語が発話されていない場合等には、「**」の直後に抽出された第二単語を用いて応答文を作成しても構わない。
また、「『第二単語』の後、『第二単語』の前が聞き取れませんでした。」のように、複数の第二単語を用いて応答文を作成しても構わない。
音声合成部21cはステップS18で作成した応答文の音声データを作成し、スピーカ12に出力させる(S19)。
応答文作成部21bは、ステップS12において単語判定部21aにより要確認箇所として条件不適合部分があると判定されている場合(S17のなし)、適合条件を含む応答文を作成する(S20)。
例えば、上述した「ハンバーガーのSを2個」という発話文が入力された場合、ステップS12において、単語判定部21aにより、指定不可能なサイズ「S」が指定されていると判定されている。このため、応答文作成部21bは、「ハンバーガーのサイズは指定できません」等、適合条件を含む応答文を作成する。
また、例えば、上述した「ハンバーガーを100個」という発話文が入力された場合、ステップS12において、単語判定部21aにより、注文可能数よりも多い個数が指定されていると判定されている。この場合、応答文作成部21bは、1度に注文可能な個数(適合条件の一例、第二キーワードの一例)、例えば、『10個』を含む応答文を作成する。応答文作成部21bは、例えば、「ハンバーガーの個数を『10個』以内で指定して下さい」等の応答文を作成する。
音声合成部21cはステップS20で作成した応答文の音声データを作成し、スピーカ12に出力させる(S21)。
単語判定部21aは、ステップS19またはステップS21の実行後、マイク11からユーザの発話を示す回答文を取得し、当該回答文を解析する(S22)。
音声対話サーバ20は、回答文が、応答文に対する回答であるか否かを判定する(S23)。
ここで、図7の表中の3の発話文の場合、「2番」「**」「にして」の場合、「にして」が変更を指示する第二単語であることから、2番のポテトのサイズまたは個数を変更する指示であることが推測される。この場合、応答文の回答としては、ポテトの指定可能なサイズ「S」「M」「L」または数値が入力されると推定される。応答文の回答として推定される単語が含まれない場合、あるいは、商品面が含まれる場合等には、応答文に対する回答ではないと判定する。
例えば、音声対話サーバ20は、回答文が、図7の表中の5の「L」の場合、応答文に対する回答であると判定する。
これに対し、音声対話サーバ20は、回答文が、図9の表中の5の「あと、コーラを1つ」の場合、「コーラ」「1つ」の2つの第二単語を抽出する。この場合、商品名「コーラ」が抽出されたため、応答文に対する回答ではないと判定する。
音声対話サーバ20は、応答文に対する回答であると判定した場合(S23のYes)、回答文が既注文の変更を示すか否かを判定する(S24)。図7の表中の5の回答文の場合、既注文の変更であると判定する。
発話文が既注文の変更であると判定した場合(S24のYes)、注文データ作成部21dは、注文データの変更を行う(S26)。図7の表中の5の回答文の場合、図4Bに示すように、2番のサイズのデータを、SからLに変更する。発話文が既注文の変更ではないと判定した場合(S24のNo)、注文データ作成部21dは、新規注文のデータを作成する(S25)。
音声対話サーバ20は、応答文に対する回答ではないと判定した場合(S23のNo)、現在解析中の発話文を破棄し、S22において取得した回答文を発話文として設定し、処理を続行する(S27)。図9の表中の5の場合、回答文「あと、コーラを1つ」を発話文として設定する。
音声対話サーバ20は、ステップS22の回答文の解析結果を用いて、要確認箇所があるか否かを判定する(S12)。図9の表中の5の場合、要確認箇所はないと判定し、ステップS13に移行する。
音声対話サーバ20は、上述したように、発話文に要確認箇所がない場合(S12のなし)、発話文が注文終了を示す第二単語で構成されているか否かを確認する(S13)。図9の表中の5の発話文の場合、注文終了ではないと判定される。また、図9の表中の5の発話文の場合、既注文の変更ではないため(S14のNo)、新規注文として注文データを更新する(S15)。
ここで、図9の表中の5の場合、第二単語として「コーラ」「1つ」が抽出され、図4Cの3番に示すレコードが生成される。ここで、コーラは、サイズの指定が必要であるが、サイズに対応する第二単語がないため、応答文作成部21bは、サイズを発話させるための応答文「コーラのサイズをご指定下さい。」の音声データを生成し、スピーカ12に出力する。図9の表中の7のように、コーラのサイズ「L」が発話されマイク11から入力されると、注文データ作成部21dは、図4Dに示す注文データを生成する。
図6に示すように、ステップS3の発話文解析処理において発話文が注文の終了を示すキーワードではないと解析された場合(S4のNo)、ステップS2に移行して単語判定部21aにより発話文の取得を行う。
発話文解析処理において発話文が注文の終了を示すキーワードであると解析された場合(S4のYes)、注文内容の確認を行う(S5)。具体的には、応答文作成部21bが、変更があるか否かを問い合わせる音声データを作成し、スピーカ12に音声を出力させる。
変更がある場合は(S6のYes)、音声対話サーバ20は、ステップS2に移行して、変更内容を受け付ける。
変更がない場合は(S6のNo)、音声対話サーバ20は、注文データを確定する(S7)。注文データが確定されると、店舗200により商品が用意される。車両300は、商品受け渡しカウンタ40に移動し、代金を支払い、商品を受け取る。
[3.効果等]
本実施の形態の音声対話サーバ(音声対話装置)20は、誤認識部分があると判定された場合、誤認識部分があると判定された発話データのうちの聞き取れた部分を用いて応答文を作成する。これにより、要確認部分だけを聞き直すことが可能になり、発話の認識率を向上させることができる。
なお、発話文全部を聞き直す場合は、音声対話サーバ20がどの部分が聞き取れなかったかをユーザが知ることは困難であるため、ユーザが同じ発話を繰り返し行うことになる可能性がある。これに対し、本実施の形態の音声対話サーバ20は、要確認部分のみを聞き直すことができるので、音声対話サーバがどの部分が聞き取れなかったかをユーザがより明確に認識でき、再度要確認部分が生じるのを効果的に防止可能になる。要確認部分のみを聞き直すことで、回答文が単語のみあるいは非常に短い文章となり、発話の認識率を向上させることが可能になる。発話の認識率の向上により、本実施の形態の音声対話サーバ20は、注文処理全体にかかる時間を短縮することが可能になる。
また、本実施の形態の音声対話サーバ20は、応答文に対し、回答候補とは異なる発話がされたとき、発話データを破棄する。これは、応答文に対する発話が回答候補とは異なる場合は、前回の発話データをキャンセルする場合が多いと考えられるからである。これにより、ユーザが直前の発話を取り消す等の処理を短縮することが可能になる。
さらに、上記実施の形態の音声対話サーバ20は、例えば、メニューDB22bに適合しない注文がされた場合、例えば、個数が100個を超える場合等には、1度に注文可能な個数を含む応答文を作成する。これにより、ユーザが条件に適合する発話を行うことが容易になる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
そこで、以下、他の実施の形態を例示する。
(1)上記実施の形態では、音声対話サーバがドライブスルーに設置さえている場合を例に説明したが、これに限るものではない。例えば、空港あるいはコンビニエンスストア等の施設に設置される航空券のチケットの予約システム、または、宿泊施設の予約を行う予約システムに、上記実施の形態の音声対話サーバを適用しても構わない。
(2)音声対話サーバ20の対話部21が、ASIC等の集積回路を用いて構成される場合を例示したが、これに限るものではない。システムLSI(Large Scale Integration:大規模集積回路)等を用いて構成されてもよい。あるいは、対話部21は、単語判定部21a、応答文作成部21b、音声合成部21cおよび注文データ作成部21dの機能を規定したコンピュータプログラム(ソフトウェア)を、CPU(Central Processing Unit)が実行することにより実現されても構わない。なお、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
(3)また、本実施の形態では、店舗200に音声対話サーバ20が設けられている場合を例に説明したが、自動オーダーポスト10に設けられていても構わないし、店舗200外に設けられ、ネットワークを介して店舗200内の各装置および自動オーダーポスト10に接続されていても構わない。また、音声対話サーバ20の各構成は、1つのサーバ内に設けられている必要は無く、クラウド上のコンピュータ、および、店舗200に設けられたコンピュータ等に分散して設けられていても構わない。
(4)本実施の形態では、単語判定部21aが、音声認識処理、すなわちマイク11が収音した音声信号をテキストデータに変換する処理を含んでいたが、これに限るものではない。音声認識処理は、対話部21あるいは音声対話サーバ20から分離した別の処理モジュールが実行するように構成してもよい。
(5)本実施の形態では、対話部21が、音声合成部21cを含んでいたが、音声合成部21cは対話部21あるいは音声対話サーバ20から分離した別の処理モジュールで構成されていても構わない。対話部21を構成する単語判定部21a、応答文作成部21b、音声合成部21c、および注文データ作成部21dのいずれも、対話部21あるいは音声対話サーバ20から分離した別の処理モジュールで構成されていても構わない。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、ユーザの発話を解析して自動的に商品の受注あるいは予約等を行う音声対話装置および音声対話システムに適用可能である。具体的には、例えば、ドライブスルーに設置されるシステム、あるいは、コンビニエンスストア等の施設に設置されるチケットの予約を行うシステム等に本開示は適用可能である。
10、10a、10b 自動オーダーポスト
10c オーダーポスト
11 マイク
12 スピーカ
13 表示パネル
20 音声対話サーバ
21 対話部
21a 単語判定部
21b 応答文作成部
21c 音声合成部
21d 注文データ作成部
22 メモリ
22a キーワードDB
22b メニューDB
22c 注文データ
23 表示制御部
30 対話装置
40 商品受け渡しカウンタ
100 音声対話システム
200 店舗
300 車両

Claims (6)

  1. ユーザの発話を示す発話データを取得する取得部と、
    複数のキーワードが記憶された記憶部と、
    前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定する単語判定部と、
    前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードのいずれかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成する応答文作成部と、
    前記応答文の音声データを生成する音声生成部とを備える、
    音声対話装置。
  2. 前記取得部は、さらに、前記応答文の音声データが出力された後における前記ユーザの発話を示す回答データを取得し、
    前記音声対話装置は、さらに、
    前記応答文に対する1または複数の回答候補を取得し、前記回答データが前記1または複数の回答候補の何れかに一致しないときは、前記発話データを破棄するデータ処理部を備える、
    請求項1に記載の音声対話装置。
  3. 前記記憶部は、前記複数のキーワードに含まれる第一キーワードと前記複数のキーワードに含まれる第二キーワードとが対応付けられて記憶され、
    前記応答文作成部は、前記単語判定部が前記発話データから前記第一キーワードに一致する第二単語と前記第二キーワードに一致しない第二単語とを抽出した場合に、前記第二キーワードを含む応答文を作成する、
    請求項1または2に記載の音声対話装置。
  4. 前記単語判定部は、前記発話データから冗長語を省いた後に、前記発話データからの前記複数の単語の抽出を行う、
    請求項1〜3の何れか1項に記載の音声対話装置。
  5. 請求項1〜4の何れか1項に記載の音声対話装置と、
    ユーザの発話データを取得し、前記音声対話装置に出力する音声入力部と、前記音声データを用いて音声出力する音声出力部とを備える自動オーダーポストとを備える、
    音声対話システム。
  6. 複数の第二単語が記憶されたデータベースと、ユーザとの対話処理を行う制御部とを備えた音声対話装置において実行される音声対話方法であって、
    前記制御部が、ユーザの発話データを取得するステップと、
    前記制御部が、前記発話データから複数の単語を抽出し、前記複数の単語のそれぞれについて、前記複数のキーワードのいずれかに一致するか否かを判定するステップと、
    前記制御部が、前記複数の単語に、前記複数のキーワードのいずれにも一致しないと判定された第一単語が含まれる場合に、前記複数の単語のうちの前記複数のキーワードの何れかに一致すると判定された第二単語を含む応答文であって、前記第一単語に相当する部分の再入力を促す応答文を作成するステップと、
    前記制御部が、前記応答文の音声データを音声合成により作成するステップとを実行する、
    音声対話方法。
JP2016505943A 2014-03-07 2014-11-12 音声対話装置、音声対話システムおよび音声対話方法 Active JP6384681B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014045724 2014-03-07
JP2014045724 2014-03-07
PCT/JP2014/005689 WO2015132829A1 (ja) 2014-03-07 2014-11-12 音声対話装置、音声対話システムおよび音声対話方法

Publications (2)

Publication Number Publication Date
JPWO2015132829A1 true JPWO2015132829A1 (ja) 2017-03-30
JP6384681B2 JP6384681B2 (ja) 2018-09-05

Family

ID=54054674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016505943A Active JP6384681B2 (ja) 2014-03-07 2014-11-12 音声対話装置、音声対話システムおよび音声対話方法

Country Status (3)

Country Link
US (1) US20160210961A1 (ja)
JP (1) JP6384681B2 (ja)
WO (1) WO2015132829A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6141483B1 (ja) * 2016-03-29 2017-06-07 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP7327536B2 (ja) * 2018-06-12 2023-08-16 トヨタ自動車株式会社 車両用コクピット
CN114678012A (zh) * 2022-02-18 2022-06-28 青岛海尔科技有限公司 语音交互数据的处理方法和装置、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JPH07282081A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声対話型情報検索装置
JP2001142484A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2007017990A (ja) * 2006-07-20 2007-01-25 Denso Corp 単語列認識装置
JP2007187799A (ja) * 2006-01-12 2007-07-26 Nissan Motor Co Ltd 音声対話装置および音声対話方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7331036B1 (en) * 2003-05-02 2008-02-12 Intervoice Limited Partnership System and method to graphically facilitate speech enabled user interfaces
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8457973B2 (en) * 2006-03-04 2013-06-04 AT&T Intellectual Propert II, L.P. Menu hierarchy skipping dialog for directed dialog speech recognition
US8600760B2 (en) * 2006-11-28 2013-12-03 General Motors Llc Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US20140372892A1 (en) * 2013-06-18 2014-12-18 Microsoft Corporation On-demand interface registration with a voice control system
US9214156B2 (en) * 2013-08-06 2015-12-15 Nuance Communications, Inc. Method and apparatus for a multi I/O modality language independent user-interaction platform

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JP2001142484A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JPH07282081A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声対話型情報検索装置
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2007187799A (ja) * 2006-01-12 2007-07-26 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2007017990A (ja) * 2006-07-20 2007-01-25 Denso Corp 単語列認識装置

Also Published As

Publication number Publication date
US20160210961A1 (en) 2016-07-21
WO2015132829A1 (ja) 2015-09-11
JP6384681B2 (ja) 2018-09-05

Similar Documents

Publication Publication Date Title
US11081107B2 (en) Contextual entity resolution
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11823659B2 (en) Speech recognition through disambiguation feedback
US9934785B1 (en) Identification of taste attributes from an audio signal
US11037553B2 (en) Learning-type interactive device
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
WO2019051044A1 (en) SYSTEMS AND METHODS FOR IMPROVING USER EXPERIENCE IN TRANSIENT ERROR COMMUNICATION
KR20160089152A (ko) 화행 분석을 통한 스티커 추천 방법 및 시스템
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
TW201337911A (zh) 電子裝置以及語音識別方法
WO2016136207A1 (ja) 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム
KR20160081244A (ko) 자동 통역 시스템 및 이의 동작 방법
JP6384681B2 (ja) 音声対話装置、音声対話システムおよび音声対話方法
KR20170061647A (ko) 화행 분석을 통한 스티커 추천 방법 및 시스템
JP2013088552A (ja) 発音トレーニング装置
Rudzionis et al. Web services based hybrid recognizer of Lithuanian voice commands
CN112562734B (zh) 一种基于语音检测的语音交互方法及其装置
KR102011595B1 (ko) 청각 장애인을 위한 소통 지원 장치 및 방법
JP2022018724A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JPWO2019098036A1 (ja) 情報処理装置、情報処理端末、および情報処理方法
Marie-Sainte et al. A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm
Radzikowski et al. Non-native speech recognition using audio style transfer
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2009271785A (ja) 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体
Hosier et al. Disambiguation and Error Resolution in Call Transcripts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180724

R151 Written notification of patent or utility model registration

Ref document number: 6384681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151