JP2015148758A - 音声対話システム及び音声対話方法 - Google Patents

音声対話システム及び音声対話方法 Download PDF

Info

Publication number
JP2015148758A
JP2015148758A JP2014022385A JP2014022385A JP2015148758A JP 2015148758 A JP2015148758 A JP 2015148758A JP 2014022385 A JP2014022385 A JP 2014022385A JP 2014022385 A JP2014022385 A JP 2014022385A JP 2015148758 A JP2015148758 A JP 2015148758A
Authority
JP
Japan
Prior art keywords
response
user
word
utterance
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014022385A
Other languages
English (en)
Inventor
佐和 樋口
Sawa Higuchi
佐和 樋口
生聖 渡部
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2014022385A priority Critical patent/JP2015148758A/ja
Publication of JP2015148758A publication Critical patent/JP2015148758A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】ユーザとの自然な対話を継続的に行う場合に、ユーザの意図に対してより的確な応答を実現する。
【解決手段】音声対話システム100は、ユーザ200からの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行うものであり、応答の候補を示す複数の応答文を予め記憶した応答文データベース170と、ユーザとの過去の対話内容を所定回数分記録する対話記録部160と、対話記録部160から対話内容におけるキーワードを抽出するキーワード抽出部110と、ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出する単語抽出部130と、応答文データベース内に記憶された複数の応答文のうち、抽出された単語と抽出されたキーワードとに対応する応答文を選択する選択部140と、ユーザへ選択した応答文を発話に対する応答として音声により出力する出力部150と、を備える。
【選択図】図1

Description

本発明は、音声対話システム及び音声対話方法に関し、特に、ユーザと連続した対話を行うための音声対話システム及び音声対話方法に関する。
ユーザとロボットが音声で対話する音声対話システムとしては、例えば、特許文献1に係る技術がある。特許文献1に係る技術は、ユーザの発話内容からキーワードを抽出し、抽出されたキーワードにより会話データベース等を検索し、ヒットしたコンテンツを応答として音声により出力するものである。
特開2006−171719号公報
ここで、人間同士がある話題に対して複数回の会話のやり取りを行う場合には、それまでの会話で出現した単語等を踏まえて次の発話が行われることが一般的である。そのため、会話における話題において重要な単語であっても、後続の発話においては省略されることもある。
特許文献1では、対話の対象となる発話に含まれる表現のみを解析し、解析により得られた単語をキーワードとして検索をしているため、ユーザの意図とは異なるコンテンツが応答としてヒットしてしまう可能性がある。
例えば、ユーザが「木星って何でできてるの?」と発話し、ロボットが「木星はガスで出来ていて、太陽系最大の惑星です。」と応答した後、続けてユーザが「直径を教えて」と発話した場合に、ロボットは、「土星の直径は約XXキロメートルです。」等と応答してしまう可能性がある。しかし、ユーザの2番目の発話「直径を教えて」における「直径」は、本来「木星の直径」を意図したものであったが、それまでの対話の続きであることから「木星の」という言葉が省略されたものである。そのため、検索キーワードに「木星」が含まれず、何らかの直径に関する応答がデータベースからヒットしてしまったことを示す。このように、特許文献1に係る技術では、ユーザからの入力に、特定の話題における重要なキーワードが省略されている場合に、省略されたキーワードを考慮していないために、ユーザの意図を正確に把握することができないという問題点がある。
本発明は、このような問題を解決するためになされたものであり、ユーザとの自然な対話を継続的に行う場合に、ユーザの意図に対してより的確な応答を実現するための音声対話システム及び音声対話方法を提供することを目的としている。
本発明の第1の態様にかかる音声対話システムは、
ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムであって、
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録する対話記録部と、
前記対話記録部から前記対話内容におけるキーワードを抽出するキーワード抽出部と、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出する単語抽出部と、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択する選択部と、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する出力部と、
を備える。
本発明の第2の態様にかかる音声対話方法は、
ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムを用いた音声対話方法であって、
前記音声対話システムは、
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録した対話記録部とを備え、
前記対話記録部から前記対話内容におけるキーワードを抽出し、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出し、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択し、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する。
このように、本発明の各態様では、ユーザの発話時における発話内容に含まれる単語だけでなく、直近における対話内容に含まれる単語(キーワード)も含めて、これらの単語に対応する応答文を選択する。そのため、ユーザがそれまでの対話内容を踏まえて重要なキーワードを省略した発話を行った場合であっても、ユーザの意図を把握することができ、それまでの対話内容に沿った応答文を出力することができる。
本発明により、ユーザとの自然な対話を継続的に行う場合に、ユーザの意図に対してより的確な応答を実現するための音声対話システム及び音声対話方法を提供することができる。
本発明の実施の形態1にかかる音声対話システムの構成を示す図である。 本発明の実施の形態1にかかる応答処理の流れを示すフローチャートである。 本発明の実施の形態2にかかる音声対話システムの構成を示す図である。 本発明の実施の形態2にかかる応答処理の流れを示すフローチャートである。
以下では、上述した各態様を含む本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
<発明の実施の形態1>
図1は、本発明の実施の形態1にかかる音声対話システム100の構成を示す図である。音声対話システム100は、ユーザ200との対話を複数回連続して行う情報システムである。ここで、対話とは、ユーザからの発話とその発話に対する応答との組み合わせを指すものとする。音声対話システム100は、例えば、対話型のロボット等であってもよい。音声対話システム100は、キーワード抽出部110と、発話受付部120と、単語抽出部130と、選択部140と、出力部150と、対話記録部160と、応答文データベース(DB)170とを備える。
対話記録部160は、ユーザ200との過去の対話内容を所定回数分記録する。ここで、対話内容とは、ユーザ200から音声対話システム100への発話をテキストデータに変換したものと、音声対話システム100からユーザ200への応答であるテキストデータとを含む。つまり、対話記録部160は、特定の話題に関してユーザ200と連続して行われている対話の過去数回分の履歴データを記録し、保持している。
応答文DB170は、ユーザ200からの発話に対する応答の候補を示す複数の応答文を予め記憶したデータベースである。対話記録部160及び応答文DB170は、音声対話システム100にかかるロボット等の内部の記憶装置(不図示)により実現されている。但し、対話記録部160及び応答文DB170は、当該ロボット等の外部の記憶装置内で実現しても構わない。
キーワード抽出部110は、対話記録部160から過去の対話内容におけるキーワードを抽出する。ここで、キーワード抽出部110は、対話記録部160に記録された過去の対話内容に含まれる単語のうち、一連の対話における話題に関して代表的な単語をキーワードとするものとする。つまり、キーワード抽出部110は、対話記録部160内の全ての単語ではなく一部の単語、しかも連続する対話における特徴的な単語をキーワードとすることが望ましい。例えば、過去の対話内容のうち、直近の数回で頻出する単語を次回の発話におけるキーワードとしてもよい。または、過去の対話内容のうち所定の基準において重要性の高い単語をキーワードとしてもよい。
発話受付部120は、ユーザ200からの発話の入力を受け付け、発話をテキストデータに変換し、対話記録部160へ格納する。単語抽出部130は、ユーザ200から新たに発話が入力された場合に、当該発話に含まれる単語を抽出する。ここで、単語抽出部130は、入力された発話に含まれる全て又は一部の単語を抽出するものとする。一部の単語を抽出する場合には、単語抽出部130は、所定の基準において重要性の高い単語を抽出してもよい。選択部140は、応答文DB170内に記憶された複数の応答文のうち、抽出された単語と抽出されたキーワードとに対応する応答文を選択する。ここで、抽出された単語と抽出されたキーワードとに対応する応答文としては、単語及びキーワードそのものを含む応答文、または、単語又はキーワードのいずれかを含まないとしても当該単語又はキーワードに関連する他の単語を含む応答文としてもよい。例えば、選択部140は、上記単語又はキーワードに関連する他の単語を特定し、特定した単語を含む応答文を選択しても構わない。
出力部150は、選択した応答文を発話に対する応答として音声に変換してユーザ200へ出力する。
尚、単語に関連する他の単語の特定としては、例えば、述語項構造解析の技術を用いてもよい。その場合、選択部140は、解析した構造が類似した文章を選択することとなる。ここで、述語項構造解析としては、例えば、“吉野幸一郎等、「述語項の類似度に基づく情報推薦を行う音声対話システム」、情報処理学会研究報告、Vol. 2011-SLP-87, No. 11”に開示された技術を適用することができる。その場合、単語抽出部130は、対象のテキストデータを形態素解析し、テキストデータに含まれる複数の単語を抽出する。そして、選択部140は、まず、抽出された複数の単語とキーワードとである検索語を全て含む応答文を、応答文DB170の中から検索する。検索できない場合、選択部140は、検索語の一部を選択し、選択した検索語を含む応答文を応答文DB170の中から検索する。このとき、選択部140は、例えば、各検索語について所定の手法により要素間の関連度を算出し、関連度のより高い検索語を一部の検索語として選択するとよい。これにより、選択される応答文の精度を向上させることができる。尚、上記において単語抽出部130をキーワード抽出部110に置き換えても同様となる。但し、述語項構造解析以外の技術を適用してもよい。
図2は、本発明の実施の形態1にかかる応答処理の流れを示すフローチャートである。前提として、既にユーザ200と音声対話システム100との間で、特定の話題に関する複数回の対話(発話と応答)の記録が対話記録部160に保持されているものとする。
まず、キーワード抽出部110は、対話記録部160を参照し、過去の対話記録からキーワードを抽出する(S11)。また、発話受付部120は、新たな発話を受け付け、受け付けた発話から変換されたテキストデータを対話記録部160に記録する(S12)。続いて、単語抽出部130は、受け付けた発話のテキストデータから形態素解析等により単語を抽出する(S13)。尚、実施の形態1では、ステップS11と、ステップS12及びS13との順序は問わない。
次に、選択部140は、ステップS11により抽出されたキーワード及びステップS13により抽出された単語に対応する応答文を応答文DB170の中から選択する(S14)。そして、選択部140は、選択した応答文を対話記録部160へ記録する(S15)。また、出力部150は、選択した応答文を音声に変換してユーザ200へ出力する(S16)。
このように、本発明の実施の形態1では、ステップS12でユーザ200から受け付けた発話内容に含まれる単語だけでなく、それ以前に対話記録部160に記録済みの対話内容に含まれる単語も含めて、これらに対応する応答文を選択する。そのため、ユーザがそれまでの対話内容を踏まえて重要なキーワードを省略した発話を行った場合であっても、ユーザの意図を正確に把握することができ、それまでの対話内容に沿った応答文を出力することができる。
<発明の実施の形態2>
本発明の実施の形態2は、上述した実施の形態1を改良したものである。実施の形態1では、ユーザ200からの発話を受け付けてから都度、応答文DB170を検索して応答文を取得している。つまり、単語が入力される度に、入力された単語と応答文DB170内の応答文との照合を行う必要がある。そのため、発話を受け付けてから応答するまでにある程度の処理時間を要することになる。ユーザ200とのより自然な会話を継続するには、応答時間を短縮することが望ましい。
ここで、図1の応答文DB170には、ユーザ200との様々な話題における発話に対応するために、多数の応答文が格納されている。しかし、特定の話題について連続して対話を行う場合には、実際に選択される応答文は当該特定の話題に関係するものに限られる。そこで、本発明の実施の形態2では、ユーザ200から新たな発話を受け付けるより前の段階で、既に行われた対話の履歴に基づいて予め応答文DB170から応答文の候補を選択しておくものである。例えば、直前の応答処理と並行して次に受け付けるであろう発話の応答文の候補を検索し、キャッシュとして保存しておくものである。これにより、新たな発話を受け付けてから大量のデータが保存された応答文DB170と照合を行う必要がなくなり、応答処理時間を短縮することができる。
図3は、本発明の実施の形態2にかかる音声対話システム100aの構成を示す図である。図3は、上述した音声対話システム100を改良したものであり、音声対話システム100と同一の構成には同一の符号を付し、詳細な説明を省略する。
音声対話システム100aは、音声対話システム100との違いとして、キーワード抽出部110がキーワード抽出部110a、選択部140が選択部140aに置き換わり、単語重要度DB180及びキャッシュ190が追加されたものである。
単語重要度DB180は、複数の単語のそれぞれについて所定の基準に基づく重要度が定義されたデータベースである。所定の基準とは例えば、複数の話題やテーマのそれぞれに応じた基準である。また、重要度は、ある話題における文書集合の中に含まれる各単語について、単語の出現頻度等に基づいて算出されたものである。例えば、tf−idf(tf : Term Frequency, idf : Inverse Document Frequency)といった公知の技術を用いて重要度を算出することができる。または、各単語の重要度を話題ごとに人間が判断して予め設定したものであってもよい。
キャッシュ190は、複数の応答文の一部を記憶可能な部分記憶部である。つまり、キャッシュ190に記憶されるデータ量は、応答文DB170に保存されるデータ量より少ない。また、キャッシュ190は、応答文DB170を実現する記憶装置よりも高速な記憶装置、例えば、一次記憶装置等により実現しても構わない。
キーワード抽出部110aは、キーワード抽出部110の機能に加え、対話記録部160から複数の単語がキーワードとして抽出された場合、単語重要度DB180を参照し、当該抽出された複数の単語のうち、重要度が所定値以上の単語をキーワードとする。尚、所定値は任意に設定可能である。また、キーワード抽出部110aは、ユーザからの発話が新たに入力される前に実行される。例えば、直前の発話により選択部140aや出力部150の処理と並行して実行される。または、ユーザ200が次の発話を行う前、一定時間以上、間が空いている際に実行してもよい。
選択部140aは、関連文選択部141と、応答文選択部142とを備える。関連文選択部141は、ユーザからの発話が新たに入力される前に、応答文DB170の中から抽出されたキーワードを含む複数の応答文(関連文)を選択する。そして、関連文選択部141は、選択した複数の応答文をキャッシュ190に格納する。応答文選択部142は、ユーザ200からの発話が新たに入力された後に、キャッシュ190の中から当該発話に含まれる単語に対応する応答文を選択する。尚、応答文選択部142における単語に対応する応答文の選択の仕方は、上記実施の形態1と同様に、単語に関連する他の単語を特定し、特定した他の単語を含む応答文を選択するようにしてもよい。
尚、本実施の形態においては、キーワード抽出部110a及び単語重要度DB180は、必須ではない。その場合であっても処理時間を短縮できる。そして、キーワード抽出部110a及び単語重要度DB180を用いることにより、応答文を選択する精度を向上させることができる。
図4は、本発明の実施の形態2にかかる応答処理の流れを示すフローチャートである。尚、以下では図2と同等の処理については説明を省略する。キーワード抽出部110aは、過去の対話記録と単語の重要度からキーワードを抽出する(S11a)。すなわち、キーワード抽出部110aは、直前の発話についての応答処理中又は応答処理後であって、次の発話が入力される前に、対話記録部160から複数の単語を抽出する。そして、キーワード抽出部110aは、抽出された各単語について重要度が所定値以上のものをキーワードとする。
次に、関連文選択部141は、応答文DB170の中から、キーワードを含む複数の応答文を関連文として選択する(S11b)。尚、関連文選択部141は、応答文DB170内に応答文の一部を選択するものとする。そして、関連文選択部141は、選択した関連文をキャッシュ190に格納する(S11c)。
その後、図2と同様にステップS12及びS13が実行される。そして、応答文選択部142は、キャッシュ190からステップS13により抽出された単語に対応する応答文を選択する(S14a)。その後、図2と同様にステップS15及びS16が実行される。
このように、本実施の形態では、過去の対話記録に基づき応答文の候補を予めリストアップしておき、その後、発話された際にはリストアップされた(絞り込まれた)候補の中から応答文を選択することとなるため、処理時間を短縮できる。そのため、これまでの対話内容に基づき重要なキーワードが省略された発話がされた場合であっても、ユーザの意図を短時間で正確に把握できる。
<その他の発明の実施の形態>
尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
100 音声対話システム
100a 音声対話システム
110 キーワード抽出部
110a キーワード抽出部
120 発話受付部
130 単語抽出部
140 選択部
140a 選択部
141 関連文選択部
142 応答文選択部
150 出力部
160 対話記録部
170 応答文DB
180 単語重要度DB
190 キャッシュ
200 ユーザ

Claims (5)

  1. ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムであって、
    前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
    前記ユーザとの過去の対話内容を所定回数分記録する対話記録部と、
    前記対話記録部から前記対話内容におけるキーワードを抽出するキーワード抽出部と、
    前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出する単語抽出部と、
    前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択する選択部と、
    前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する出力部と、
    を備える音声対話システム。
  2. 前記複数の応答文の一部を記憶可能な部分記憶部をさらに備え、
    前記選択部は、
    前記ユーザからの発話が新たに入力される前に、前記応答文データベースの中から前記抽出されたキーワードを含む複数の応答文を選択し、
    前記選択した複数の応答文を前記部分記憶部に格納し、
    前記ユーザからの発話が新たに入力された後に、前記部分記憶部の中から当該発話に含まれる単語を含む応答文を選択する
    請求項1に記載の音声対話システム。
  3. 複数の単語のそれぞれについて所定の基準に基づく重要度が定義された単語重要度データベースをさらに備え、
    前記キーワード抽出部は、前記対話記録部から複数の単語が前記キーワードとして抽出された場合、前記単語重要度データベースを参照し、当該抽出された複数の単語のうち、前記重要度が所定値以上の単語を前記キーワードとする
    請求項1又は2に記載の音声対話システム。
  4. 前記選択部は、前記抽出された単語又は前記抽出されたキーワードに関連する他の単語を特定し、前記抽出された単語又は前記抽出されたキーワードのいずれかを含まず、前記特定された他の単語を含む応答文を、前記複数の応答文のうち前記対応する応答文として選択する
    請求項1乃至3のいずれか1項に記載の音声対話システム。
  5. ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムを用いた音声対話方法であって、
    前記音声対話システムは、
    前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
    前記ユーザとの過去の対話内容を所定回数分記録した対話記録部とを備え、
    前記対話記録部から前記対話内容におけるキーワードを抽出し、
    前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出し、
    前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択し、
    前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する
    音声対話方法。
JP2014022385A 2014-02-07 2014-02-07 音声対話システム及び音声対話方法 Pending JP2015148758A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014022385A JP2015148758A (ja) 2014-02-07 2014-02-07 音声対話システム及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014022385A JP2015148758A (ja) 2014-02-07 2014-02-07 音声対話システム及び音声対話方法

Publications (1)

Publication Number Publication Date
JP2015148758A true JP2015148758A (ja) 2015-08-20

Family

ID=53892142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014022385A Pending JP2015148758A (ja) 2014-02-07 2014-02-07 音声対話システム及び音声対話方法

Country Status (1)

Country Link
JP (1) JP2015148758A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191390A (ja) * 2016-04-12 2017-10-19 ロボットスタート株式会社 コミュニケーションシステム、会話ログ収集システム、サーバ及びコミュニケーション方法
JP2019197183A (ja) * 2018-05-11 2019-11-14 トヨタ自動車株式会社 音声対話装置
JP2019211516A (ja) * 2018-05-31 2019-12-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
CN111554298A (zh) * 2020-05-18 2020-08-18 北京百度网讯科技有限公司 语音交互方法、语音交互设备和电子设备
CN113113002A (zh) * 2019-12-25 2021-07-13 斑马智行网络(香港)有限公司 车辆语音交互方法和***、以及语音更新***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191390A (ja) * 2016-04-12 2017-10-19 ロボットスタート株式会社 コミュニケーションシステム、会話ログ収集システム、サーバ及びコミュニケーション方法
JP2019197183A (ja) * 2018-05-11 2019-11-14 トヨタ自動車株式会社 音声対話装置
JP2019211516A (ja) * 2018-05-31 2019-12-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
US11170763B2 (en) 2018-05-31 2021-11-09 Toyota Jidosha Kabushiki Kaisha Voice interaction system, its processing method, and program therefor
JP7059813B2 (ja) 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
CN113113002A (zh) * 2019-12-25 2021-07-13 斑马智行网络(香港)有限公司 车辆语音交互方法和***、以及语音更新***
CN111554298A (zh) * 2020-05-18 2020-08-18 北京百度网讯科技有限公司 语音交互方法、语音交互设备和电子设备
CN111554298B (zh) * 2020-05-18 2023-03-28 阿波罗智联(北京)科技有限公司 语音交互方法、语音交互设备和电子设备

Similar Documents

Publication Publication Date Title
US11398236B2 (en) Intent-specific automatic speech recognition result generation
US20180268810A1 (en) System and method for rapid customization of speech recognition models
US9154629B2 (en) System and method for generating personalized tag recommendations for tagging audio content
US10019514B2 (en) System and method for phonetic search over speech recordings
Żelasko et al. Punctuation prediction model for conversational speech
US9442910B2 (en) Method and system for adding punctuation to voice files
US10489451B2 (en) Voice search system, voice search method, and computer-readable storage medium
US9898536B2 (en) System and method to perform textual queries on voice communications
US9922650B1 (en) Intent-specific automatic speech recognition result generation
JP2015148758A (ja) 音声対話システム及び音声対話方法
WO2017020011A1 (en) Searching the results of an automatic speech recognition process
US20140207451A1 (en) Method and Apparatus of Adaptive Textual Prediction of Voice Data
JP2013025648A (ja) 対話装置、対話方法および対話プログラム
US20150178274A1 (en) Speech translation apparatus and speech translation method
US8805871B2 (en) Cross-lingual audio search
Moyal et al. Phonetic search methods for large speech databases
US9747891B1 (en) Name pronunciation recommendation
JP6208631B2 (ja) 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
JP6709558B2 (ja) 会話処理装置
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
Neergaard et al. Graph theoretic approach to Mandarin syllable segmentation
JP2012173432A (ja) 音声対話装置および音声対話方法
Tadimeti et al. Evaluation of off-the-shelf speech recognizers on different accents in a dialogue domain
US11990136B2 (en) Speech recognition device, search device, speech recognition method, search method, and program
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置