JP2004109323A - 音声対話装置及びプログラム - Google Patents
音声対話装置及びプログラム Download PDFInfo
- Publication number
- JP2004109323A JP2004109323A JP2002269941A JP2002269941A JP2004109323A JP 2004109323 A JP2004109323 A JP 2004109323A JP 2002269941 A JP2002269941 A JP 2002269941A JP 2002269941 A JP2002269941 A JP 2002269941A JP 2004109323 A JP2004109323 A JP 2004109323A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- dialogue
- utterance
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Toys (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】音声対話装置1においては、ユーザから知らないことを聞かれた場合にユーザにその答えを問い返し、その質問内容と答えを記憶して、次からの対話に用いるようにする。このため、知らない対話内容によって対話を中断させたり、ユーザの提示する話題を変更したりする必要性が小さくなると共に、学習によって新たなシナリオや語彙を増やして知識を向上させ、次回からのユーザとの対話に反映することができる。その結果、学習を重ねる毎に特定のユーザに対して満足のできる対話を実現することができるようになる。また、異なるユーザに対しては新たな話題や情報を提供することができ、知的な対話を実現することができる。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、ユーザとの間で音声対話を行うための音声対話装置に関する。
【0002】
【従来の技術】
従来より、例えばカーナビゲーションシステムにおいてレストラン等の目的地の位置情報を音声により問い合わせたりする情報検索のための装置、音声対話を通じてユーザを楽しませる娯楽用の装置等の音声対話装置が知られている。特に近年では、こうした音声対話においてユーザとの間で自然な対話を実現するために、対話のためのシナリオを予め複数用意してユーザの発話に対応する音声対話装置が提案されている(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−357053号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上記特許文献1の音声対話装置では、ユーザの発話に対してシステム側の応答が予め対応づけられており、ユーザの質問等の発話に対して予め決められたことしか答えることができなかった。このため、答えを知らない場合には応答することができず、対話を中断するか話題を変えるなどの手段をとるしかなく、知的な対話を行うという観点からは十分ではなかった。
【0005】
また、ユーザの発話に対してシステム側の応答が予め対応づけられているため、決められた言葉に対して決まりきった発話をすることしかできず、自然な対話を行うという観点からも十分と言えるものではなかった。
本発明は、こうした問題に鑑みなされたものであり、ユーザとの対話状況に応じて発話内容を臨機応変に変えることができると共に、ユーザの知的好奇心にも応えることができ、知的で自然な音声対話を実現する音声対話装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題に鑑み、請求項1記載の音声対話装置においては、ユーザから対話のための音声入力がなされると、認識手段がこの入力内容を音声認識する。記憶手段には、ユーザとの対話内容に応じた複数のシナリオと、各シナリオに沿った発話対象語が予め記憶されており、選択手段が、認識手段による認識に応じて記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択し、出力手段が、この選択手段によって選択された発話語を音声により出力することにより、ユーザとの間で対話を行う。
【0007】
そして特に、学習手段が、記憶手段に記憶された発話対象語の中に、ユーザとの対話内容に応じた発話対象語がない場合に、選択手段にユーザにこの対話内容の答えを問い返すための発話語を選択させ、この問い返しに対してユーザから入力された対話内容の答えに基づき、この対話内容に応じたシナリオを学習し、このシナリオと各シナリオに沿った発話対象語を記憶手段に新たに記憶させる。
【0008】
すなわち、かかる音声認識装置においては、ユーザから知らないことを聞かれたら、その場では分からないと答えるが、次に同じようなことを聞かれたら、答えられるような学習機能を有する。つまり、ユーザから知らないことを聞かれた場合にユーザにその答えを問い返し、その質問内容と答えを記憶して、次からの対話に用いるようにする。
【0009】
このため、知らない対話内容によって対話を中断させたり、ユーザの提示する話題を変更したりする必要性が小さくなると共に、学習によって新たなシナリオや語彙を増やして知識を向上させ、次回からのユーザとの対話に反映することができる。その結果、学習を重ねる毎に特定のユーザに対して満足のできる対話を実現することができるようになる。また、異なるユーザに対しては新たな話題や情報を提供することができ、知的な対話を実現することができる。
【0010】
また、学習によって保有するシナリオや発話語彙のバリエーションを増加させることができ、同じ発話内容であってもその発話語を様々なタイプのユーザに応じて適宜変化させることができる。このため、様々なタイプのユーザとの間で自然な対話を実現することができる。
【0011】
具体的には、請求項2に記載のように、更新手段が、学習手段により学習された対話情報に基づき、記憶手段において、この対話内容についての音声対話に必要なシナリオ、対話辞書、認識辞書を、自動的に更新するようにすることで、これを実現することができる。
【0012】
すなわち、かかる音声対話装置においては、ユーザの発話を認識するための語彙が参照される認識辞書、ユーザとの対話内容に沿った発話を実現するために予め用意された複数種類のシナリオ、各シナリオに沿った発話を実現するための語彙が参照される対話辞書が設けられている。そして、ユーザとの対話を通じて学習手段により新たに学習されたシナリオや語彙を自動的に更新し、次回から参照可能なシナリオや語彙を増加させることにより、上記知的で自然な対話を実現するのである。
【0013】
しかし、ユーザにより教えられたことが間違っている場合もあるので、対話を行っていく中で、1つの質問に対する答えがいくつか返ってくる場合がある。その場合に上記更新手段が対話内容を逐次更新していくと、次回からの対話においてユーザに間違った情報を提供する虞がある。
【0014】
そこで、請求項3に記載のように、第2の記憶手段が、学習手段により学習された対話情報について、複数回交わされた同種の対話内容の履歴を記憶するようにし、上記更新手段が、同種の対話内容について互いに不整合なシナリオがある場合には、対話確率の高いシナリオに順次変更して更新するようにするとよい。
【0015】
すなわち、かかる構成では、例えば異なる複数のユーザとの間で交わされた対話内容を通じて学習手段が学習した問いかけと答えとを履歴情報として記憶する。そして、その問いかけと答えの対応が複数の対話間で異なる場合には、更新手段が、その問いかけに対して最も対話確率(頻度)の高い答えを採用するようにシナリオを順次変更していく。この結果、次回からの対話においては、同じ内容の問いかけに対して、この最も頻度の高いシナリオに沿った発話をすることになる。その結果、発話内容が自然に実際の答えに近づいていくようになり、知的な対話を実現することができるのである。
【0016】
その際、対話内容についての対話確率が等しい場合も考えられるので、請求項4に記載のように、更新手段は、不整合なシナリオ間で、その対話内容についての対話確率が等しい場合には、先に出現したものを優先するようにしてもよい。すなわち、対話確率が等しいからといって発話内容が直前に出現したものに度々されると、ユーザから優柔不断と思われ、不快感を感じられる場合がある。そこで、このように先に(より過去に)出現したものを優先することで、音声対話装置としての意志を強調して対話に勢いや信頼性を持たせることができる。
【0017】
また、請求項5記載の音声対話装置においては、ユーザから対話のための音声入力がなされると、認識手段がこの入力内容を音声認識する。記憶手段には、ユーザとの対話内容に応じた複数のシナリオと、各シナリオに沿った発話対象語が予め記憶されており、選択手段が、認識手段による認識に応じて記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択し、出力手段が、この選択手段によって選択された発話語を音声により出力することにより、ユーザとの間で対話を行う。
【0018】
そして特に、記憶手段が、同じ意味内容の対話について複数のバリエーションのシナリオ及び対話対象語を記憶し、選択手段が、ユーザとの音声対話におけるユーザの応答内容に応じて、記憶手段から選択する発話語を変化させる。
ここでいう「ユーザの応答内容」とは、例えば後述する実施例にて説明するようなユーザの応答速度(タイミング)、ユーザの答え方、ユーザの発話内容等が該当する。
【0019】
すなわち、かかる構成では、ユーザの受け答えのタイミングや発話内容等に応じて、音声対話装置側もその応答内容やタイミングを様々に変化させるのである。例えばユーザの受け答えが早い場合には、その事柄について興味がある、又はよく知っていることである可能性が高いので、装置側の応答も間をあけず、その事柄を強調するような発話をし、その話題が続くようなら、深く対話を進めるようにすることが考えられる。逆に、ユーザの受け答えが遅ければ、その事柄について興味がない、又は答えが曖昧であるという可能性が高いので、装置側の応答も、曖昧性を持たせた発話を返すようにすることが考えられる。さらに、タイミングだけでなく、ユーザの発話内容、例えば、発話文章の語尾の違い(「・・だよ」<断定>、「・・かな」<曖昧>、等)によっても、装置側がユーザの発話内容に合わせて発話を強調したり、曖昧性を持たせたりすることもできる。このような装置側の発話の変化により、自然な音声対話を実現することができる。
【0020】
さらに、請求項6に記載のように、識別手段が、ユーザからの音声入力に基づいてユーザの感情を識別し、選択手段が、この識別手段により識別されたユーザの感情情報に応じて、出力手段が出力する発話語の語調を変化させるように、記憶手段から発話語を選択するようにしてもよい。
【0021】
ここでいう「ユーザの感情」(喜怒哀楽)は、例えばユーザの発話音声の速さ、高さ、大きさ、発話語自体等から判断される口調により識別される。そして、例えばユーザが怒っているような口調で話し掛けた場合には、なだめるようなやさしい言葉で発話したり、ユーザが喜んでいる場合には、テンションを上げて気分をさらに高揚させるような発話をしたりすることにより、ユーザとの間でその後のより自然で円滑な対話を実現することができる。
【0022】
その際、請求項7に記載のように、識別手段が、ユーザの感情情報が当該音声対話装置に対してのものか、又は一般的なことに対してのものかを識別し、選択手段が、この識別手段による識別結果に応じて、出力手段が出力する発話語の語調を変化させるように、記憶手段から発話語を選択するようにするのがよい。
【0023】
すなわち、ユーザの感情が変わったとしても、その原因(喜怒哀楽の対象)が当該音声対話装置側の発言によるものなのか、対話内容に現れる一般的事象についてのことなのかによって、ユーザをなだめたり、同調したりする等の対応を変えるのである。かかる構成により、より人間の対話に近い知的で自然な対話を実現することができる。
【0024】
さらに、請求項8に記載のように、識別手段が、さらにユーザからの音声入力に基づいて方言を識別し、選択手段が、この識別手段により識別された方言に応じて、出力手段が出力する発話語の語調を変化させるように、記憶手段から発話語を選択するようにしてもよい。
【0025】
かかる構成によれば、ユーザの方言と同じ方言で対話することにより、ユーザに対して親しみを持たせたり、逆にユーザの方言と異なる方言で対話することにより、対話に面白みを持たせたりすることができる。
前者の場合には、請求項9に記載のように、選択手段が、識別手段により識別された方言に応じて、対話の話題がこの方言にかかる土地柄にちなんだものになるように、記憶手段から発話語を選択可能に構成されていてもよい。
【0026】
すなわち、対話における話題の転換に際して、ユーザの方言を手がかりにしてユーザにとって親しみ深い又は知識の豊富な話題に転換させることにより、ユーザが当該音声認識装置との対話に積極的になることができ、対話を自然に一層楽しむことができる。
【0027】
或いは、請求項10に記載のように、識別手段が、さらにユーザからの音声入力に基づいてその言語を識別し、選択手段が、この識別手段により識別された言語に応じて、出力手段が出力する発話語の語調を変化させるように、記憶手段から発話語を選択するようにしてもよい。
【0028】
かかる構成によれば、ユーザの言語と同じ言語で対話することにより、ユーザの理解が容易になり、国籍に拘わらず自然で円滑な対話を実現することができる。
この場合にも、請求項11に記載のように、選択手段が、識別手段により識別された言語に応じて、対話の話題がこの言語にかかる国にちなんだものになるように、記憶手段から発話語を選択可能に構成されていてもよい。
【0029】
かかる構成により、異国籍のユーザにとって親しみ深い又は知識の豊富な話題に転換させることにより、ユーザが当該音声認識装置との対話に積極的になることができ、対話を一層楽しむことができる。特に母国を離れたユーザにとっては、懐かしみや安堵感を与えることができる。
【0030】
また、請求項12に記載のように、判定手段が、ユーザからの音声入力に基づいてその声質からユーザの属性を判定し、選択手段が、判定手段により判定された属性に応じて、出力手段が出力する発話語の声質を変化させるように、記憶手段から発話語を選択するようにしてもよい。
【0031】
かかる構成では、ユーザから入力された音声の高さ、太さ、大きさ、発話の仕方等の声質からユーザの年齢や性別等の属性を判定し、その属性と対話状況等応じて適切な声質で応答する。例えば、小さい子供に対しては、幼稚園の先生のようなお姉さんの声で対応し、男の人には女の人の声で、女の人には男の人の声で応答することが考えられる。かかる構成により、ユーザに対話への欲求を高めさせたり、対話をより楽しませることができる。
【0032】
或いは、請求項13に記載のように、判定手段が、ユーザの姿態を撮像して画像認識してユーザの属性を判定し、選択手段が、判定手段により判定された属性に応じて、出力手段が出力する発話語の声質を変化させるように、記憶手段から発話語を選択するようにしてもよい。
【0033】
かかる構成により、請求項12と同様の効果を得ることができるが、画像認識によりユーザの属性を判定するため、その属性の判定結果がより正確となる可能性が高くなる。
その際、請求項14に記載のように、選択手段が、判定手段により判定された属性に応じて、対話の話題がこの属性にちなんだものになるように、記憶手段から発話語を選択可能に構成されたものでもよい。
【0034】
かかる構成により、対話における話題の転換に際して、ユーザにとって興味深い、親しみ深い又は知識の豊富な話題に転換させることにより、ユーザが当該音声認識装置との対話に積極的になることができ、対話を自然に一層楽しむことができる。
【0035】
また、請求項5記載の音声対話装置においては、ユーザから対話のための音声入力がなされると、認識手段がこの入力内容を音声認識する。記憶手段には、ユーザとの対話内容に応じた複数のシナリオと、各シナリオに沿った発話対象語が予め記憶されており、選択手段が、認識手段による認識に応じて記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択し、出力手段が、この選択手段によって選択された発話語を音声により出力することにより、ユーザとの間で対話を行う。
【0036】
そして特に、画像認識手段が、ユーザの顔画像を撮像し、その唇の動きに基づくリップリーディングにより画像認識し、認識手段が、画像認識手段による画像認識を併用して音声認識を行う。
かかる構成では、ユーザから音声入力された発話語の認識に際し、唇の動きを解析してユーザの発話語を解析する所謂リップリーディングによる画像認識が併用される。例えば、認識対象となる発話語の正確な認識率が、音声認識による方が高い発話語、リップリーディングによる画像認識による方が高い発話語、音声認識及び画像認識の双方によるマッチングによるのが良い発話語等、発話語の種類等によって認識方法を予めデータベース化しておき、それにより判定するようにすることができる。
【0037】
このように画像認識を併用することで、ユーザの発話語以外のノイズを除去して音声認識することができ、認識手段による発話語の認識率が向上する。それにより、ユーザの発話に対する装置側の錯誤が防止又は抑制することができ、ユーザとの間で自然な対話を実現することができる。その結果、ユーザとの間で知的な対話を進めることができる。
【0038】
尚、以上に述べた音声対話装置は、請求項16に記載のように、ユーザと対話するロボットとして構成することができる。
つまり、音声対話装置を人間の姿態に近似したロボットとして構成することにより、人間間の対話を擬似することができ、ユーザにとってより自然な対話を実現することができる。
【0039】
この場合、請求項17に記載のように、これをユーザの顔画像を撮像する目を備えたロボットとして構成し、画像認識手段が、この目により撮像された顔画像から、ユーザがロボットの正面を向いているか否かを判定し、認識手段が、画像認識手段によりユーザがロボットの正面を向いていると判定された場合にのみ、音声認識を行うようにすることが考えられる。
【0040】
このように、ロボットにユーザの顔が正面を向いているときの音声のみを認識するようにさせることで、ノイズ対策が行え、認識率の向上につながる。
その際、請求項18に記載のように、ロボットの目が四方を見渡せるように、その頭部周囲に複数設けられ、画像認識手段が、この複数の目のいずれかにより撮像されたユーザの顔画像により、ユーザがロボットの方向を向いているか否かを判定し、認識手段が、画像認識手段によりユーザがロボットの方向を向いていると判定された場合にのみ、音声認識を行うようにしてもよい。
【0041】
かかる構成によれば、ロボットがその目(「カメラ」等)により四方(360度)を見渡せるため、ロボットの後方からの音声であっても、ユーザがロボットの方向を向いて話し掛けてきた音声を特定して認識することができる。また、ロボットに話しかけられてない全く関係のない音声(ノイズ)についてはその認識をしないことで、ロボットにかかる処理負担を軽減する一方で、ユーザにとっては、自己が話しかけないロボットが突然対話に介入して驚かされることもなく、自然な対話を実現することができる。また、ロボット自身は、このようなユーザの顔の位置認識により、本当に認識したい語彙のみ認識する知的な音声対話ロボットとなる。ただし、ここでいうロボットの「目」は、必ずしもユーザからその全てをロボットの目として認識できるものである必要はなく、個々の目に撮像できる機能が備わっていればよい。つまり、複数の目のいずれか2つが、ユーザからロボットの目として認識できるように構成されていたほうが、ユーザがロボットの顔を人間と同様に認識できて好ましいとも考えられる。
【0042】
また、請求項19に記載のように、認定手段を構成するロボットの耳がその頭部周囲に複数設けられ、認識手段が、この複数の耳に入力される音声レベルに基づいてユーザがロボットの方向を向いているか否かを判定し、ユーザがロボットの方向を向いていると判定された場合にのみ、音声認識を行うようにしてもよい。
【0043】
かかる構成において、このロボットの耳は、例えば複数の指向性マイク等により構成され、ユーザの発話により入力される音声レベルの大きさやその音声レベルの変化により、ユーザがロボットの方向を向いて話し掛けてきたかどうか、また、どの方向から話し掛けてきたか等を認識することができる。このため、ロボットの後ろの方からの音声であっても、ユーザがロボットの方向を向いて話し掛けてきた音声を特定して認識することができる。その結果、請求項18に記載の効果と同様の効果を得ることができる。
【0044】
さらに、請求項20に記載のように、画像認識手段によりユーザとロボットが向き合っていないと判定された場合に、ロボットがユーザに向き合うようにロボットを動作させるようにしてもよい。これにより、人間が行っている会話のように、自然な動作や対話となる。
【0045】
尚、このような音声対話装置の各手段をコンピュータにて実現する機能は、例えば、コンピュータ側で起動するプログラムとして備えることができる(請求項21)。このようなプログラムの場合、例えば、FD、MO、DVD、CD−ROM、ハードディスク等のコンピュータ読取可能な記録媒体に記録し、必要に応じてコンピュータにロードして起動することにより用いることができる。この他、ROMやバックアップRAMをコンピュータ読取可能な記録媒体としてプログラムを記録しておき、このROM或いはバックアップRAMをコンピュータに組み込んでもよい。尚、ここでいう「各手段」とは、各請求項中の各構成要件としての個々の手段を意味するのではなく、請求項単位の手段の集まりを意味する。
【0046】
【発明の実施の形態】
以下、本発明の実施の形態を具体化した実施例を図面と共に説明する。図1は本実施例の音声対話装置の全体構成を表すブロック図である。
1.音声対話装置の構成
同図に示すように、音声対話装置1は、音声対話ロボットとして構成され、音声認識部10,シナリオインタープリタ20,対話シナリオ部30,顔画像認識判定部40,ロボット発話語決定部50,学習機能部60,及び音声合成部70等を備えている。また、ユーザの姿態を撮像可能なカメラがその頭部の周りに一定間隔で複数設けられており、ユーザがたとえロボットの後方から話し掛けてきても、これを認識することができるようになっている。そして、ユーザからはその複数のカメラのうちの2つがロボットの目として認識できるように構成されている。さらに、ユーザの音声を入力するための指向性マイクが、その頭部の周りに一定間隔で複数設けられており、四方からユーザの発話音声を入力できるようになっている。そして、ユーザからはその複数の指向性マイクのうちの2つがロボットの耳として認識できるように構成されている。
【0047】
そして、ユーザの発話音声は、上記指向性マイクを介してまず音声認識部10に入力される。音声認識部10は、ユーザの発話により指向性マイクから入力される音声レベルの大きさやその音声レベルの変化等により、ユーザがロボットの方向を向いて話し掛けてきたかどうか、また、どの方向から話し掛けてきたか等を認識することができる。また、顔画像認識判定部40は、これと同時に上記複数のカメラから入力されたユーザの顔画像からその顔の位置や向きを判定し、ユーザがロボットの方向を向いて話し掛けてきたかどうかの判定精度を向上させたり、ユーザの唇の動きを解析して所謂リップリーディングによる画像認識を行い、音声認識の精度を向上させることができる。
【0048】
そして、音声認識部10は、話し掛けてきたユーザの発話音声を認識すると、対話に必要な語彙が格納された認識辞書11を参照してこの発話音声の内容を認識し、この認識結果をシナリオインタープリタ20に出力する。
対話シナリオ部30には、対話上の条件分岐等を表す複数種類のシナリオが格納されている。この対話シナリオ部30は、シナリオインタープリタ20を介して得た上記認識結果,時間計測器80による経過時間情報等を参照して、対話の進行状況に適合したシナリオ(発話語)を生成し、その情報をシナリオインタープリタ20に出力する。
【0049】
シナリオインタープリタ20は、対話シナリオ部30にて決定されたシナリオに従って、対話用認識辞書21及び発話リスト格納部22を参照し、次の発話内容を設定するための演算処理を行う。ここで、対話用認識辞書21には、対話用の単語等の装置で用いられる単語が格納され、発話リスト格納部22には、対話のシナリオに応じて複数設定された文章化された発話語が選択可能に格納されている。
【0050】
さらに、シナリオインタープリタ20が、発話リスト格納部22や対話用認識辞書21を参照しても、ユーザとの対話内容に応じた発話対象語がない場合には、ユーザにこの対話内容の答えを問い返すことになる。その際、学習機能部60が、この問い返しに対してユーザから入力された対話内容の答えに基づき、この対話内容に応じたシナリオとこのシナリオに沿った発話対象語(語彙)を学習し、当該シナリオ及び発話対象語をシナリオインタープリタ20を介して、対話用認識辞書21,発話リスト格納部22,対話シナリオ部30に格納して更新し、次回からの対話に反映させる。つまり、ここでは円滑でかつ適切な対話をするために、シナリオの作成、及びそれに伴う対話辞書、発話リストの作成が行われる。
【0051】
そして、ユーザとの発話において、ロボット発話語決定部50が、対話シナリオ部30に新たに格納されたシナリオ等も含めてロボットの発話語を決定し、これに対応した発話語を発話リスト格納部22からシナリオインタープリタ20に出力させる。そして、シナリオインタープリタ20にて最終的に生成された応答内容が、音声合成部70にて音声合成され、ロボットの発話としてスピーカから出力される。
2.学習機能(知的な対話)
音声対話を進めていくうちに、ロボットが答えられない(シナリオに記述されていない)ことをユーザから聞かれることが出てくる。その際、はじめは分からないので、ユーザにその答えを問い返す。このことにより、ロボットはその質問内容と答えを学習し、自動的に音声対話装置1に必要なシナリオ、対話辞書、認識辞書を更新する。したがって、2回目以降は、今まで答えられなかったことに対しても、答えられるようになっていく。しかし、学習した答えが間違っている場合もあり、対話を行っていく中で、1つの質問に対して、いくつかの答えが発生する場合が出てくる。その場合は、その答えの中での出現確率が一番高いものをロボットが発話する答えとする。等確率のものが発生した場合は、先に出現したものを優先する。このような機能を備えることで、知らないことを学習できるようになり、また、その答えも高い確率で正確な答えに近づいていくようになる。
3.ロボット発話(自然な対話)
ロボットが応答する発話を、質問に対して、毎回同じことを発話するのではなく、ユーザの応答時間間隔や答え方、発話内容などによって、ロボットの発話も様々に変化させることができる。また、ユーザの感情や方言など、様々な要因によってもロボット発話を変化させることができる。
4.作動
次に、図2〜図4に示すフローチャートに基づいて、本実施例の音声対話装置の動作について説明する。
4.1 全体の流れ
本実施例の音声対話装置1の全体の流れとしては、対話シナリオ部30で設定したシナリオどおりに進んでいく。ユーザの応答待ち、すなわちシナリオの各分岐点において、図3に示す学習機能に関する動作フロー、図4に示すロボット発話に関する動作フローを適用し、それに対応するロボットの発話を出力していく。この操作を繰り返し、シナリオにより、対話終了となった時点で終了とする。
【0052】
すなわち、図2に示すように、ユーザの応答を待ち(S110)、まず顔画像認識判定処理を実行する(S120)。
この顔画像認識判定処理においては、上述したロボットの複数の目(カメラ)及び耳(マイク)を介して、音声認識部10が、ユーザがロボットの方向を向いて話し掛けてきたか否かを判定し、図10に示すように、ユーザがロボットの方向を向いて話し掛けてきたと判定されると音声認識を開始する。そのとき、発話中にユーザが顔を背けても、認識をストップさせず、その発話が完了するまで認識は止めない。また、ユーザがロボットの方向を向いていなくて入ってきた音声は認識せず、その途中で、ユーザがロボットの方向に顔を向けた場合は、その時点から認識を開始させるようにする。この場合、上述のように、ロボットにはその頭部周囲の360度全てにわたって一定の間隔で、目(カメラ)及び耳(マイク)が設けられているため、ロボットの後ろの方からの音声でも、ユーザがロボットの方向を向いて話し掛けてきた音声は認識することができる。本実施例では、その際、ロボットがそのユーザの方向を向くようにされており、これにより、人間が行っている会話のように自然な動作/対話をするようになっている。こうすることで、ロボットは、本当に認識したい語彙のみ認識するようになる。
【0053】
そして、ユーザの顔画像を認識したと判定されると(S130:YES)、続いて、図3に示す学習機能に関する動作フローを実行する(S140)。
4.2 学習機能(知的な対話)
音声対話を進めていくうちに、ロボットが答えられない(シナリオに記述されていない)ことをユーザから聞かれることが出てくる。本学習機能は、このような事態に対応できる知的な対話を実現するものである。尚、図5及び図6には、ユーザに知らないことを聞かれたときの対応例が示されている。
【0054】
すなわち、ユーザとの対話を通じて、シナリオインタープリタ20が対話シナリオ部30を参照し、ユーザからの発話内容(質問内容)についてロボットが知っている内容であるか否かを判定する(S210)。このとき、対応するシナリオがなく、知らない内容であると判定されると(S210:NO)、ロボット側からユーザに対して、「分からないので、教えて」などと言ってその答えを問い返し(S220)、これに対するユーザの回答に基づき、学習機能部60がその質問内容とその答えを学習する(S230)。そして、このとき得られた新たなシナリオや発話語彙をシナリオインタープリタ20を介して対話用認識辞書21,発話リスト格納部22,及び対話シナリオ部30等に格納する。つまり、全く知らないことに対してはシナリオを増やしていき、言葉の意味が分からないだけの場合には、認識語彙を増やしていく。このことにより、2回目以降は、分からなかったことに対しても答えられるようになり、新たなシナリオや発話語彙が蓄積されていくことで知的なロボットとなっていく。具体例を示すと、図5に示す如くである。
【0055】
一方、S210において、対応するシナリオがあり、知っている内容であると判定されると(S210:YES)、そのシナリオに記述されている発話を選択し、音声合成部70にて音声合成して発話する(S240)。そして、この発話に対してユーザに誤りを指摘されなければ(S250:NO)、当該動作フローを終了する。
【0056】
ただし、はじめに答えてもらったユーザの答えが必ずしも正解であるとは限らない。このため、2回目以降にユーザ側から「違うよ」と指摘されることも想定される。このため、S250において、ユーザに誤りを指摘された場合には(S250:YES)、学習機能部60が、まずその質問内容とその答えを学習する(S260)。そして、その質問内容と同じ対話内容について、発話リスト格納部22から過去の履歴を参照し、その質問内容に対して現在一番出現確率(累積値)の高い答えとの確率の比較を行う(S270)。
【0057】
このとき、今回の答えの出現確率が大きいと判定されると、当該質問内容についての答えを正解とみなし、次回からの答えに変更し、シナリオを更新して当該動作フローを終了する(S280)。一方、今回の答えの出現確率が小さいと判定されると、当該質問内容についての答えの変更は行わない(S290)。さらに、両者の確率が等しい場合には、先に(より過去に)出現したものを、次回の発話に使用するように設定する(S300)。これらの具体例を示すと、図6に示す如くである。
【0058】
図2に戻り、続いて図4に示すロボット発話に関する動作フローを実行する(S150)。
4.3 ロボット発話(自然な対話)
本動作フローでは、図4に示すように、ロボット側の発話に対するユーザの応答時間間隔(S310),ユーザの答え方(S340),及びユーザの発話内容の判断(S350)に基づき、その発話内容を強調した発話をしたり(S320)、曖昧性を持たせた発話をしたりする(S330)。
【0059】
具体的には図7に示すように、例えばロボットがユーザに対して、「好きな食べ物は」と聞いた場合、ユーザがすぐに、例えば「リンゴだよ」と答えたとすると、ロボットは「そうですか。リンゴが大好きなんだね。」などと、好きなことを強調するような発話にする。逆に、ユーザが間を開けて(例えば10秒程度)、「リンゴかな」と答えたとすると、ロボットは「本当にリンゴが好きなの。」といったような、ユーザが考えて出した答えに対して、曖昧性を持たせた返答とする。このように、返答に差をつけることで、意味、感情といった部分を考慮に入れた知的なロボットとなる。
【0060】
また、ユーザの答え方、例えば、「リンゴだよ」と「リンゴかな」の違いのように、「だよ」であると確信を持った断定的な言い方であるし、「かな」であると少し曖昧性を持った言い方であるので、このような点を見極めて、ロボット発話の返答をかえる。
【0061】
さらに、ユーザの発話内容から、「えーと、・・・」などと、頭に語彙が入ると、考えていて、あまり確信がなく曖昧な言い方と受け取れるので、このような点も考慮に入れて、ロボット発話の返答をかえる。
図2に戻り、以上のようにして決定されたロボットの発話内容に従って発話を行い(S160)、続いて終了条件判定処理を実行する(S170)。そして、シナリオに基づいて予め設定した終了条件を具備したと判定されると(S180:YES)、一連の処理を終了する。
5.その他の知的で自然なロボット音声対話に関する要因
図8に知的で自然なロボット音声対話装置に関する要因を示す。
5.1 感情
図8に示すように、ユーザの発話に含まれる感情を認識し、ロボットの発話口調を変化させる。例えば、ユーザがロボットに対して、怒っているような口調で話し掛けた場合には、ロボットの発話は、なだめるようなやさしい言葉で発話させるようにする。
【0062】
また図9に示すように、そのユーザの感情の対象の違い、例えば、ロボットの発話に対しての感情か、一般的なことに対しての感情かによっても、ロボット発話を変化させることができるようにする。
5.2 方言
図8に示すように、ユーザの発話の方言に対して、ロボットの発話も同様の方言を用いて発話させることで、親しみのわく知的なロボットとする。例えば、ユーザが関西弁で話し掛けた場合には、ロボットの発話も関西弁にするといった具合である。
【0063】
また、方言の認識より、話題をその土地柄にちなんだものに進めていくようにする。こうすることで、話題の転換ができ、ユーザにとっても答えやすい話題へと進んでいくという工夫を入れている。
5.3 言語
図8に示すように、ユーザの発話の言語に対して、ロボットの発話も同様の言語で発話させる。例えば、英語で話し掛けられたら、ロボットも英語で発話するといった具合である。
【0064】
また、言語の認識より、話題をその国にちなんだものに進めていくようにする。こうすることで、話題の転換ができ、ユーザにとっても答えやすい話題へと進んでいくという工夫を入れている。
5.4 発話音声
図8に示すように、ユーザの年齢や性別に応じて、ロボットの発話音声を変化させる。例えば、小さい子供に対しては、幼稚園の先生のようなお姉さんの声で対応し、男の人には女の人の声で、女の人には男の人の声で応答するといった具合である。
【0065】
また、発話音声だけでなく、年齢や性別にちなんだ話題へと進めていくことができるという工夫を入れている。
5.5 画像(目をもたせる)
図8に示すように、1つには、目をもたせることで、ユーザの唇の動きを見ることができるので、リップリーディングの技術を応用し、認識率の向上に努めることができ、どんな言葉でも認識できるという知的なロボットに役立つ。
【0066】
もう1つには、ユーザの顔の位置を認識し、ロボットはユーザの顔が正面を向いていると判定したときの音声のみを認識することで、ノイズ対策が行え、認識率向上につながる。
具体的には、上記において図10に基づいて説明したとおりである。
6.対話例
図11にロボット音声対話の対話例を示す。
以上に説明したように、本実施例の音声対話装置1においては、ユーザから知らないことを聞かれたら、その場では分からないと答えるが、次に同じようなことを聞かれたら、答えられるような学習機能を有する。つまり、ユーザから知らないことを聞かれた場合にユーザにその答えを問い返し、その質問内容と答えを記憶して、次からの対話に用いるようにする。
【0067】
このため、知らない対話内容によって対話を中断させたり、ユーザの提示する話題を変更したりする必要性が小さくなると共に、学習によって新たなシナリオや語彙を増やして知識を向上させ、次回からのユーザとの対話に反映することができる。その結果、学習を重ねる毎に特定のユーザに対して満足のできる対話を実現することができるようになる。また、異なるユーザに対しては新たな話題や情報を提供することができ、知的な対話を実現することができる。
【0068】
また、ユーザの受け答えのタイミングや発話内容等に応じて、音声対話装置1側もその応答内容やタイミングを様々に変化させる。このような装置側の発話の変化により、自然な音声対話を実現することができる。
さらに、音声対話装置1としてのロボットに複数の目(カメラ)や耳(マイク)を設けたり、リップリーディングの技術を応用することにより、ユーザの発話語以外のノイズを除去して音声認識することができ、認識手段による発話語の認識率が向上する。それにより、ユーザの発話に対する装置側の錯誤が防止又は抑制することができ、ユーザとの間で自然な対話を実現することができる。その結果、ユーザとの間で知的な対話を進めることができる。
【0069】
尚、本実施例において、音声認識部10が認識手段に該当し、顔画像認識判定部40が画像認識手段に該当し、シナリオインタープリタ20,対話シナリオ部30及びロボット発話語決定部50が、選択手段,判定手段,更新手段,識別手段に該当する。また、対話用認識辞書21,発話リスト格納部22が、記憶手段,第2の記憶手段に該当し、学習機能部60が学習手段に該当し、音声合成部70が出力手段に該当する。
【0070】
以上、本発明の実施例について説明したが、本発明の実施の形態は、上記実施例に何ら限定されることなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
例えば、上記実施例では、本発明の音声対話装置をロボットとして構成した例を示したが、これに限らず、ナビゲーションシステム等の装置として構成してもよいことはもちろんである。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声対話装置の概略構成を表すブロック図である。
【図2】実施例の音声対話装置の動作を表すフローチャートである。
【図3】音声対話装置の学習機能の動作を表すフローチャートである。
【図4】音声対話装置に係るロボット発話動作を表すフローチャートである。
【図5】ロボットが知らないことを聞かれたとき(学習機能)の対応例1を表す説明図である。
【図6】ロボットが知らないことを聞かれたとき(学習機能)の対応例2を表す説明図である。
【図7】ユーザの受け答えのタイミングの違いによるロボットの対応例を表す説明図である。
【図8】知的なロボットに関する要因を表す説明図である。
【図9】ユーザの感情の対象の違いによるロボット発話の対応例を表す説明図である。
【図10】ロボットの画像認識による音声対話の例を表す説明図である。
【図11】ロボット音声対話の対話例を表す説明図である。
【符号の説明】
1・・・音声対話装置、 10・・・音声認識部、
20・・・シナリオインタープリタ、 21・・・対話用認識辞書、
22・・・発話リスト格納部、 30・・・対話シナリオ部、
40・・・顔画像認識判定部、 50・・・ロボット発話語決定部、
60・・・学習機能部、 70・・・音声合成部
Claims (21)
- ユーザから対話のための音声入力がなされると、該入力内容を音声認識する認識手段と、
ユーザとの対話内容に応じた複数のシナリオと、該各シナリオに沿った発話対象語を予め記憶した記憶手段と、
前記認識手段による認識に応じて、前記記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択する選択手段と、
該選択手段によって選択された発話語を音声により出力する出力手段と、
を備え、ユーザとの間で対話を行う音声対話装置であって、さらに、
前記記憶手段に記憶された発話対象語の中に、ユーザとの対話内容に応じた発話対象語がない場合に、前記選択手段にユーザに該対話内容の答えを問い返すための発話語を選択させ、該問い返しに対してユーザから入力された対話内容の答えに基づき、該対話内容に応じたシナリオを学習し、該シナリオと該各シナリオに沿った発話対象語を前記記憶手段に新たに記憶させる学習手段を備えたことを特徴とする音声対話装置。 - 請求項1に記載の音声対話装置において、さらに、
前記学習手段により学習された対話情報に基づき、前記記憶手段において、該対話内容についての音声対話に必要なシナリオ、対話辞書、認識辞書を、自動的に更新する更新手段を備えたことを特徴とする音声対話装置。 - 請求項2に記載の音声対話装置において、
前記学習手段により学習された対話情報について、複数回交わされた同種の対話内容の履歴を記憶する第2の記憶手段を備え、
該第2の記憶手段が記憶した対話情報に基づき、同種の対話内容について互いに不整合なシナリオがある場合には、前記更新手段は、対話確率の高いシナリオに順次変更して更新することを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記更新手段は、前記不整合なシナリオ間で、その対話内容についての前記対話確率が等しい場合は、先に出現したものを優先することを特徴とする音声対話装置。 - ユーザから対話のための音声入力がなされると、該入力内容を音声認識する認識手段と、
ユーザとの対話内容に応じた複数のシナリオと、該各シナリオに沿った発話対象語を予め記憶した記憶手段と、
前記認識手段による認識に応じて、前記記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択する選択手段と、
該選択手段によって選択された発話語を音声により出力する出力手段と、
を備え、ユーザとの間で対話を行う音声対話装置であって、
前記記憶手段は、同じ意味内容の対話について複数のバリエーションのシナリオ及び対話対象語を記憶し、
前記選択手段は、ユーザとの音声対話における該ユーザの応答内容に応じて、前記記憶手段から選択する発話語を変化させることを特徴とする音声対話装置。 - 請求項5記載の音声対話装置において、さらに、ユーザからの音声入力に基づき、該ユーザの感情を識別する識別手段を備え、
前記選択手段は、該識別手段により識別されたユーザの感情情報に応じて、前記出力手段が出力する発話語の語調を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項6記載の音声対話装置において、
前記識別手段は、前記ユーザの感情情報が当該音声対話装置に対してのものか、又は一般的なことに対してのものかを識別し、
前記選択手段は、該識別手段による識別結果に応じて、前記出力手段が出力する発話語の語調を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項5記載の音声対話装置において、さらに、ユーザからの音声入力に基づき、方言を識別する識別手段を備え、
前記選択手段は、該識別手段により識別された方言に応じて、前記出力手段が出力する発話語の語調を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項8記載の音声対話装置において、
前記選択手段は、該識別手段により識別された方言に応じて、対話の話題が該方言にかかる土地柄にちなんだものになるように、前記記憶手段から発話語を選択可能に構成されたことを特徴とする音声対話装置。 - 請求項5記載の音声対話装置において、さらに、ユーザからの音声入力に基づき、その言語を識別する識別手段を備え、
前記選択手段は、該識別手段により識別された言語に応じて、前記出力手段が出力する発話語の語調を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項10記載の音声対話装置において、
前記選択手段は、該識別手段により識別された言語に応じて、対話の話題が該言語にかかる国にちなんだものになるように、前記記憶手段から発話語を選択可能に構成されたことを特徴とする音声対話装置。 - 請求項1〜11のいずれかに記載の音声対話装置において、さらに、ユーザからの音声入力に基づき、その声質から該ユーザの属性を判定する判定手段を備え、
前記選択手段は、該判定手段により判定された属性に応じて、前記出力手段が出力する発話語の声質を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項1〜12のいずれかに記載の音声対話装置において、さらに、ユーザの姿態を撮像して画像認識し、該ユーザの属性を判定する判定手段を備え、
前記選択手段は、該判定手段により判定された属性に応じて、前記出力手段が出力する発話語の声質を変化させるように、前記記憶手段から発話語を選択することを特徴とする音声対話装置。 - 請求項12又は請求項13に記載の音声対話装置において、前記選択手段は、該判定手段により判定された属性に応じて、対話の話題が該属性にちなんだものになるように、前記記憶手段から発話語を選択可能に構成されたことを特徴とする音声対話装置。
- ユーザから対話のための音声入力がなされると、該入力内容を音声認識する認識手段と、
ユーザとの対話内容に応じた複数のシナリオと、該各シナリオに沿った発話対象語を予め記憶した記憶手段と、
前記認識手段による認識に応じて、前記記憶手段に記憶された発話対象語の中からユーザに向けた発話語を選択する選択手段と、
該選択手段によって選択された発話語を音声により出力する出力手段と、
を備え、ユーザとの間で対話を行う音声対話装置であって、さらに、
ユーザの顔画像を撮像し、その唇の動きに基づくリップリーディングにより画像認識する画像認識手段を備え、
前記認識手段は、前記画像認識手段による画像認識を併用して前記音声認識を行うことを特徴とする音声対話装置。 - 請求項1〜15のいずれかに記載の音声対話装置において、ユーザと対話するロボットとして構成されたことを特徴とする音声対話装置。
- 請求項15に記載の音声対話装置において、前記ユーザの顔画像を撮像する目を備えたロボットとして構成され、
前記画像認識手段は、該目により撮像された顔画像から、前記ユーザがロボットの正面を向いているか否かを判定し、
前記認識手段は、前記画像認識手段により前記ユーザがロボットの正面を向いていると判定された場合にのみ、前記音声認識を行うことを特徴とする音声対話装置。 - 請求項17記載の音声対話装置において、
前記ロボットの目が四方を見渡せるように、その頭部周囲に複数設けられ、
前記画像認識手段は、該複数の目のいずれかにより撮像されたユーザの顔画像により、前記ユーザがロボットの方向を向いているか否かを判定し、
前記認識手段は、前記画像認識手段により前記ユーザがロボットの方向を向いていると判定された場合にのみ、前記音声認識を行うことを特徴とする音声対話装置。 - 請求項17又は請求項18に記載の音声対話装置において、
前記認定手段を構成するロボットの耳がその頭部周囲に複数設けられ、
前記認識手段は、該複数の耳に入力される音声レベルに基づき、前記ユーザがロボットの方向を向いているか否かを判定し、前記ユーザがロボットの方向を向いていると判定された場合にのみ、前記音声認識を行うことを特徴とする音声対話装置。 - 請求項18又は請求項19に記載の音声対話装置において、さらに、前記画像認識手段又は前記認識手段により前記ユーザと前記ロボットが向き合っていないと判定された場合に、該ロボットが前記ユーザに向き合うように該ロボットを動作させるように構成されたことを特徴とする音声対話装置。
- 請求項1〜20のいずれかに記載の音声対話装置の前記各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002269941A JP3945356B2 (ja) | 2002-09-17 | 2002-09-17 | 音声対話装置及びプログラム |
US10/608,002 US7640164B2 (en) | 2002-07-04 | 2003-06-30 | System for performing interactive dialog |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002269941A JP3945356B2 (ja) | 2002-09-17 | 2002-09-17 | 音声対話装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004109323A true JP2004109323A (ja) | 2004-04-08 |
JP3945356B2 JP3945356B2 (ja) | 2007-07-18 |
Family
ID=32267720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002269941A Expired - Fee Related JP3945356B2 (ja) | 2002-07-04 | 2002-09-17 | 音声対話装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3945356B2 (ja) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006038894A (ja) * | 2004-07-22 | 2006-02-09 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2006195449A (ja) * | 2004-12-15 | 2006-07-27 | Yamaha Corp | 声質判定装置、声質判定方法、および声質判定プログラム |
JP2008186027A (ja) * | 2008-04-03 | 2008-08-14 | Toyota Central R&D Labs Inc | 対話処理装置 |
JP2010073191A (ja) * | 2008-08-20 | 2010-04-02 | Universal Entertainment Corp | 顧客対応システム、並びに会話サーバ |
JP2011217018A (ja) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | 音声応答装置及びプログラム |
US8185395B2 (en) | 2004-09-14 | 2012-05-22 | Honda Motor Co., Ltd. | Information transmission device |
JP2012173432A (ja) * | 2011-02-18 | 2012-09-10 | Toshiba Corp | 音声対話装置および音声対話方法 |
WO2014181524A1 (ja) * | 2013-05-09 | 2014-11-13 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
JP2015064473A (ja) * | 2013-09-25 | 2015-04-09 | 株式会社グラモ | 音声認識装置、方法、及びコンピュータプログラム |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
WO2015190562A1 (ja) * | 2014-06-11 | 2015-12-17 | シャープ株式会社 | 出力メッセージ決定装置、出力メッセージ決定装置の制御方法、履歴管理装置、および書き込みデータ送信指示装置 |
WO2015196063A1 (en) * | 2014-06-19 | 2015-12-23 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
JP2016045584A (ja) * | 2014-08-20 | 2016-04-04 | ヤフー株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
JP2016109897A (ja) * | 2014-12-08 | 2016-06-20 | シャープ株式会社 | 電子機器、発話制御方法、およびプログラム |
WO2016103881A1 (ja) * | 2014-12-25 | 2016-06-30 | エイディシーテクノロジー株式会社 | ロボット |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2017517028A (ja) * | 2014-04-17 | 2017-06-22 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | ロボットとの対話を取り扱う方法とシステム |
WO2017199545A1 (ja) * | 2016-05-18 | 2017-11-23 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
JP2018140477A (ja) * | 2017-02-28 | 2018-09-13 | シャープ株式会社 | 発話制御装置、電子機器、発話制御装置の制御方法、および制御プログラム |
WO2018174285A1 (ja) * | 2017-03-24 | 2018-09-27 | 株式会社 ゼンショーホールディングス | 対話制御装置及び対話システム |
WO2019069588A1 (ja) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | 制御システム |
WO2019187590A1 (ja) * | 2018-03-29 | 2019-10-03 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2020036425A1 (en) * | 2018-08-13 | 2020-02-20 | Lg Electronics Inc. | Artificial intelligence device |
JP2020034895A (ja) * | 2018-08-30 | 2020-03-05 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 応答方法及び装置 |
US10593323B2 (en) | 2016-09-29 | 2020-03-17 | Toyota Jidosha Kabushiki Kaisha | Keyword generation apparatus and keyword generation method |
US10657960B2 (en) | 2015-09-24 | 2020-05-19 | Sharp Kabushiki Kaisha | Interactive system, terminal, method of controlling dialog, and program for causing computer to function as interactive system |
JP2021009416A (ja) * | 2020-10-26 | 2021-01-28 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
US11037553B2 (en) | 2017-09-13 | 2021-06-15 | Hitachi, Ltd. | Learning-type interactive device |
CN113160817A (zh) * | 2021-04-22 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于意图识别的语音交互方法及*** |
US11119722B2 (en) | 2016-11-08 | 2021-09-14 | Sharp Kabushiki Kaisha | Movable body control apparatus and recording medium |
JP2021531487A (ja) * | 2018-06-05 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 自然言語を使用した会話エージェントの訓練 |
JP2022103191A (ja) * | 2018-04-16 | 2022-07-07 | グーグル エルエルシー | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
JPH07152723A (ja) * | 1993-11-30 | 1995-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 対話処理装置 |
JPH07282081A (ja) * | 1994-04-12 | 1995-10-27 | Matsushita Electric Ind Co Ltd | 音声対話型情報検索装置 |
JP2000339314A (ja) * | 1999-05-25 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体 |
JP3468572B2 (ja) * | 1994-03-22 | 2003-11-17 | 三菱電機株式会社 | 対話処理装置 |
-
2002
- 2002-09-17 JP JP2002269941A patent/JP3945356B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
JPH07152723A (ja) * | 1993-11-30 | 1995-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 対話処理装置 |
JP3468572B2 (ja) * | 1994-03-22 | 2003-11-17 | 三菱電機株式会社 | 対話処理装置 |
JPH07282081A (ja) * | 1994-04-12 | 1995-10-27 | Matsushita Electric Ind Co Ltd | 音声対話型情報検索装置 |
JP2000339314A (ja) * | 1999-05-25 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体 |
Non-Patent Citations (2)
Title |
---|
Z. TRABELSI ET AL.: "A database-domain hierarchy-based technique for handling unknown terms in natural language database", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. 76, no. 6, JPN4007000418, 25 June 1993 (1993-06-25), JP, pages 668 - 679, XP000393752, ISSN: 0000808810 * |
Z. TRABELSI ET AL.: "A database-domain hierarchy-based technique for handling unknown terms in natural language database", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. 76, no. 6, JPNX007013829, 25 June 1993 (1993-06-25), JP, pages 668 - 679, XP000393752, ISSN: 0000830031 * |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4600736B2 (ja) * | 2004-07-22 | 2010-12-15 | ソニー株式会社 | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2006038894A (ja) * | 2004-07-22 | 2006-02-09 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
US8185395B2 (en) | 2004-09-14 | 2012-05-22 | Honda Motor Co., Ltd. | Information transmission device |
JP2006195449A (ja) * | 2004-12-15 | 2006-07-27 | Yamaha Corp | 声質判定装置、声質判定方法、および声質判定プログラム |
JP2008186027A (ja) * | 2008-04-03 | 2008-08-14 | Toyota Central R&D Labs Inc | 対話処理装置 |
JP2010073191A (ja) * | 2008-08-20 | 2010-04-02 | Universal Entertainment Corp | 顧客対応システム、並びに会話サーバ |
JP2011217018A (ja) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | 音声応答装置及びプログラム |
JP2012173432A (ja) * | 2011-02-18 | 2012-09-10 | Toshiba Corp | 音声対話装置および音声対話方法 |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
WO2014181524A1 (ja) * | 2013-05-09 | 2014-11-13 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
JP2014219594A (ja) * | 2013-05-09 | 2014-11-20 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
JP2015064473A (ja) * | 2013-09-25 | 2015-04-09 | 株式会社グラモ | 音声認識装置、方法、及びコンピュータプログラム |
US10008196B2 (en) | 2014-04-17 | 2018-06-26 | Softbank Robotics Europe | Methods and systems of handling a dialog with a robot |
JP2017517028A (ja) * | 2014-04-17 | 2017-06-22 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | ロボットとの対話を取り扱う方法とシステム |
WO2015190562A1 (ja) * | 2014-06-11 | 2015-12-17 | シャープ株式会社 | 出力メッセージ決定装置、出力メッセージ決定装置の制御方法、履歴管理装置、および書き込みデータ送信指示装置 |
JPWO2015190562A1 (ja) * | 2014-06-11 | 2017-04-20 | シャープ株式会社 | 出力メッセージ決定装置、出力メッセージ決定装置の制御方法、履歴管理装置、および書き込みデータ送信指示装置 |
WO2015196063A1 (en) * | 2014-06-19 | 2015-12-23 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
US10410630B2 (en) | 2014-06-19 | 2019-09-10 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
JP2016045584A (ja) * | 2014-08-20 | 2016-04-04 | ヤフー株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
JP2016109897A (ja) * | 2014-12-08 | 2016-06-20 | シャープ株式会社 | 電子機器、発話制御方法、およびプログラム |
JPWO2016103881A1 (ja) * | 2014-12-25 | 2017-10-05 | エイディシーテクノロジー株式会社 | ロボット |
WO2016103881A1 (ja) * | 2014-12-25 | 2016-06-30 | エイディシーテクノロジー株式会社 | ロボット |
JP6994781B2 (ja) | 2014-12-25 | 2022-01-14 | Case特許株式会社 | 車載機及び車両 |
JP2020173453A (ja) * | 2014-12-25 | 2020-10-22 | Case特許株式会社 | 車載機及び車両 |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
US10657960B2 (en) | 2015-09-24 | 2020-05-19 | Sharp Kabushiki Kaisha | Interactive system, terminal, method of controlling dialog, and program for causing computer to function as interactive system |
WO2017199545A1 (ja) * | 2016-05-18 | 2017-11-23 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
US10593323B2 (en) | 2016-09-29 | 2020-03-17 | Toyota Jidosha Kabushiki Kaisha | Keyword generation apparatus and keyword generation method |
US11119722B2 (en) | 2016-11-08 | 2021-09-14 | Sharp Kabushiki Kaisha | Movable body control apparatus and recording medium |
JP2018140477A (ja) * | 2017-02-28 | 2018-09-13 | シャープ株式会社 | 発話制御装置、電子機器、発話制御装置の制御方法、および制御プログラム |
WO2018174285A1 (ja) * | 2017-03-24 | 2018-09-27 | 株式会社 ゼンショーホールディングス | 対話制御装置及び対話システム |
US11037553B2 (en) | 2017-09-13 | 2021-06-15 | Hitachi, Ltd. | Learning-type interactive device |
WO2019069588A1 (ja) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | 制御システム |
JP2019066731A (ja) * | 2017-10-03 | 2019-04-25 | 東芝ライフスタイル株式会社 | 制御システム |
WO2019187590A1 (ja) * | 2018-03-29 | 2019-10-03 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム |
JP2022103191A (ja) * | 2018-04-16 | 2022-07-07 | グーグル エルエルシー | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
JP7486540B2 (ja) | 2018-04-16 | 2024-05-17 | グーグル エルエルシー | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
US11756537B2 (en) | 2018-04-16 | 2023-09-12 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
JP7196194B2 (ja) | 2018-06-05 | 2022-12-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 自然言語を使用した会話エージェントの訓練 |
JP2021531487A (ja) * | 2018-06-05 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 自然言語を使用した会話エージェントの訓練 |
WO2020036425A1 (en) * | 2018-08-13 | 2020-02-20 | Lg Electronics Inc. | Artificial intelligence device |
US11164581B2 (en) | 2018-08-13 | 2021-11-02 | Lg Electronics Inc. | Artificial intelligence device |
KR102225918B1 (ko) * | 2018-08-13 | 2021-03-11 | 엘지전자 주식회사 | 인공 지능 기기 |
KR20200023662A (ko) * | 2018-08-13 | 2020-03-06 | 엘지전자 주식회사 | 인공 지능 기기 |
JP2020034895A (ja) * | 2018-08-30 | 2020-03-05 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 応答方法及び装置 |
US11475897B2 (en) | 2018-08-30 | 2022-10-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for response using voice matching user category |
JP7160076B2 (ja) | 2020-10-26 | 2022-10-25 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2021009416A (ja) * | 2020-10-26 | 2021-01-28 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
CN113160817A (zh) * | 2021-04-22 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于意图识别的语音交互方法及*** |
Also Published As
Publication number | Publication date |
---|---|
JP3945356B2 (ja) | 2007-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3945356B2 (ja) | 音声対話装置及びプログラム | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
JP7243625B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP6601069B2 (ja) | 対話制御装置、対話制御方法及びプログラム | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
CN111226224B (zh) | 用于翻译语音信号的方法及电子设备 | |
WO2017168870A1 (ja) | 情報処理装置及び情報処理方法 | |
US7640164B2 (en) | System for performing interactive dialog | |
US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
JP5753869B2 (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
US11200902B2 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
JP2017049471A (ja) | 対話制御装置、対話制御方法及びプログラム | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
CN107403011B (zh) | 虚拟现实环境语言学习实现方法和自动录音控制方法 | |
JP2003022087A (ja) | 音声認識方法 | |
JP2018072650A (ja) | 音声対話装置及び音声対話方法 | |
JPWO2017200072A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP4729902B2 (ja) | 音声対話システム | |
JPWO2017200076A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
CN113314104B (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
JP7420109B2 (ja) | 情報出力システム、サーバ装置および情報出力方法 | |
JP6787472B2 (ja) | 対話制御装置、対話制御方法及びプログラム | |
JP7160076B2 (ja) | 対話制御装置、対話制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070402 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100420 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140420 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |