JP2015064450A - Information processing device, server, and control program - Google Patents
Information processing device, server, and control program Download PDFInfo
- Publication number
- JP2015064450A JP2015064450A JP2013197452A JP2013197452A JP2015064450A JP 2015064450 A JP2015064450 A JP 2015064450A JP 2013197452 A JP2013197452 A JP 2013197452A JP 2013197452 A JP2013197452 A JP 2013197452A JP 2015064450 A JP2015064450 A JP 2015064450A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- voice
- user
- unit
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置等に関するものである。 The present invention relates to an information processing apparatus or the like that presents a predetermined phrase to a user according to a voice uttered by the user.
人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、下記の特許文献1には、より自然にユーザとの対話を継続、発展させることのできる対話型情報システムが開示されている。また、下記の特許文献2には、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性を保持する対話方法、対話装置が開示されている。
2. Description of the Related Art Dialog systems that allow humans and robots to interact have been extensively studied. For example,
ここで、上記の特許文献1および2に開示された技術をはじめとして、従来技術においては、あくまでも「質問・回答サービス」(質問に対するロボットからの回答が終了するまで、ユーザは待機するであろうことが想定されるもの)における一問一答のコミュニケーションが前提とされている。
Here, in the prior art including the techniques disclosed in
上記対話システムにおいては、ユーザからロボットへの先の呼びかけ(質問)に対する先の回答が遅延することにより、当該先の回答と後の呼びかけに対する後の回答とが交錯する現象が起こり得るが、上記従来技術においては、上記前提(先の回答が未提示であるうちは、ユーザは後の呼びかけを行わない)により当該現象を無視できる。 In the above interactive system, a delay in the previous answer to the previous call (question) from the user to the robot may cause a phenomenon in which the previous answer and the later answer to the subsequent call are mixed. In the prior art, this phenomenon can be ignored by the above assumption (the user does not make a later call while the previous answer is not presented).
一方で、人間らしいコミュニケーションを前提とする「通常コミュニケーション」(質問に対するロボットからの回答が未提示であっても、ユーザは次の回答を要求するであろうことが想定されるもの)では、上記現象を無視できない。当該現象が起こった場合は、上記先の回答がユーザに未提示のままになるという問題が生じ得る。 On the other hand, in the case of “normal communication” that assumes human-like communication (that is, it is assumed that the user will request the next answer even if the answer from the robot to the question is not presented), the above phenomenon Cannot be ignored. When this phenomenon occurs, there may arise a problem that the above-mentioned answer remains unpresented to the user.
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、先の呼びかけに対する先のフレーズ(回答)と、後の呼びかけに対する後のフレーズとが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示できる情報処理装置等を提供することである。 The present invention has been made in view of the above problems, and its purpose is that even when the previous phrase (answer) for the previous call and the subsequent phrase for the subsequent call are interlaced, An object of the present invention is to provide an information processing apparatus and the like that can be reliably presented to the user without leaving the previous phrase unpresented.
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、前記音声が認識された結果に対応付けられた第1のフレーズを取得する取得手段と、前記第1のフレーズを提示する前に、当該第1のフレーズとは異なる第2のフレーズが前記取得手段によって新たに取得された場合、前記第1のフレーズを前記ユーザに提示することが必要であるときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示する提示手段とを備えている。 In order to solve the above-described problem, an information processing apparatus according to an aspect of the present invention is an information processing apparatus that presents a predetermined phrase to a user according to a voice uttered by the user, and the voice is recognized. Acquisition means for acquiring the first phrase associated with the obtained result, and before presenting the first phrase, a second phrase different from the first phrase is newly acquired by the acquisition means If it is necessary, when it is necessary to present the first phrase to the user, the information processing apparatus includes a presentation unit that presents the first phrase after presenting the second phrase.
上記の課題を解決するために、本発明の一態様に係るサーバは、ユーザが情報処理装置に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該情報処理装置を制御するサーバであって、前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセットにおいて特定する特定手段と、前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段と、前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段とを備えている。 In order to solve the above-described problem, a server according to one embodiment of the present invention causes the information processing apparatus to present a predetermined phrase to the user in accordance with a voice uttered by the user to the information processing apparatus. A server for controlling, which specifies a phrase associated with a result of recognizing the voice in a predetermined phrase set, and whether or not it is necessary to present the phrase to the user And generating means for generating necessity information and transmitting means for transmitting the phrase and the necessity information to the information processing apparatus.
本発明の一態様によれば、情報処理装置は、先の呼びかけに対する先のフレーズ(第1のフレーズ)と、後の呼びかけに対する後のフレーズ(第2のフレーズ)とが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示できるという効果を奏する。 According to one aspect of the present invention, the information processing apparatus is a case where a previous phrase (first phrase) for a previous call and a later phrase (second phrase) for a subsequent call cross each other. Also, there is an effect that the above phrase can be surely presented to the user without leaving it unpresented.
また、本発明の一態様によれば、サーバは、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示するように、上記情報処理装置を制御することができるという効果を奏する。 Further, according to one aspect of the present invention, the server may leave the previous phrase unpresented even when the previous phrase for the previous call and the subsequent phrase for the subsequent call cross. Thus, there is an effect that the information processing apparatus can be controlled so as to be surely presented to the user.
〔実施形態1〕
図1〜図5に基づいて、本発明の第1の実施の形態(実施形態1)を説明する。
The first embodiment (Embodiment 1) of the present invention will be described with reference to FIGS.
(対話システム300の概要)
図3は、対話システム300を概略的に示す模式図である。図3に示されるように、上記対話システム300は、対話ロボット100とサーバ200とを含む。上記対話システム300によれば、ユーザは自然言語を用いた音声によって上記対話ロボット100と対話することにより、様々な情報を得ることができる。
(Outline of Dialog System 300)
FIG. 3 is a schematic diagram schematically showing the
対話ロボット(情報処理装置)100は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズ(返答文)を提示する装置である。音声を入力可能であり、入力された音声に基づいて上記所定のフレーズを提示可能な機器でありさえすればよく、対話ロボットに限定されない(例えば、上記対話ロボット100は、タブレット端末、スマートフォン、パーソナルコンピュータなどによっても実現され得る)。
The interactive robot (information processing device) 100 is a device that presents a predetermined phrase (response text) to the user according to the voice uttered by the user. It is only necessary to be a device that can input voice and can present the predetermined phrase based on the input voice, and is not limited to a dialogue robot (for example, the
サーバ200は、ユーザが上記対話ロボット100に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該対話ロボット100を制御する装置である。なお、図3に示されるように、上記対話ロボット100と上記サーバ200とは、所定の通信方式にしたがう通信網を介して通信可能に接続されている。
The
上記対話システム300において、ユーザが発した音声に対する回答として、対話ロボット100がフレーズを取得する場合、以下の2つが考えられる。
In the
(1)フレーズをローカルから取得する
上記対話ロボット100が上記音声を認識した結果が、当該対話ロボット100が備える記憶部に格納されたフレーズセット(ローカル辞書)に含まれる場合、上記対話ロボット100は、上記フレーズセットにおいて上記認識した結果に対応する所定のフレーズを、上記記憶部から取得する。
(1) Acquire a phrase from the local When the result of recognition of the voice by the
例えば、ユーザが上記対話ロボット100に対して「おはよう」と音声によって呼びかけた場合、当該音声を認識した結果は上記フレーズセットに含まれるため、上記対話ロボット100は、上記フレーズセットにおいて上記認識した結果に対応する「おはよう、今日の調子はどう?」というフレーズ(図4の(a)に示される表の1行目を参照)を、上記記憶部から取得し、当該フレーズを音声によってユーザに提示する。上記(1)の場合のように、対話ロボット100は、簡単な呼びかけに対するフレーズをユーザに返すことができる。
For example, when the user calls the
(2)フレーズをクラウドから取得する
上記対話ロボット100が上記音声を認識した結果が上記フレーズセットに含まれない場合、上記対話ロボット100は、当該音声をサーバ200に送信(アップロード)する。サーバ200は、当該サーバ200が備える記憶部に格納されたフレーズセット(クラウド辞書)において、上記認識した結果に対応する所定のフレーズを特定する。上記対話ロボット100は、上記サーバ200によって特定されたフレーズを取得(ダウンロード)する。
(2) Acquiring a phrase from the cloud When the result of recognition of the voice by the
例えば、ユーザが上記対話ロボット100に対して「今日の天気は?」と音声によって呼びかけをした場合、当該音声を認識した結果は上記フレーズセット(ローカル辞書)には含まれないため、上記対話ロボット100は、上記サーバ200から「雨だよ、傘を持っていってね」という上記フレーズを取得し、当該フレーズを音声によってユーザに提示する。音声を認識した結果にマッチするパターン(検出ワード)は、上記ローカル辞書よりも上記クラウド辞書の方に多く含まれることが通常であるため、上記(2)の場合のように、対話ロボット100は、複雑な呼びかけに対しても適切なフレーズをユーザに返すことができる。
For example, when the user calls the
上記(1)および(2)のいずれの場合においても、上記対話ロボット100がフレーズを提示する前に、他のフレーズを提示することが求められることがある。例えば、ユーザが上記対話ロボット100に対して「今日の天気は?」(先の呼びかけ)と音声によって呼びかけた場合、当該対話ロボット100が「雨だよ、傘を持っていってね」(先のフレーズ)というフレーズをユーザに提示する前に、当該ユーザが「ところで、スポーツのニュースは?」(後の呼びかけ)と呼びかけることにより、「昨日、チームAは大勝だったよ」(後のフレーズ)というフレーズを提示することが求められることがある。
In both cases (1) and (2), it may be required to present another phrase before the
このように、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯するのは、上記先のフレーズをユーザに提示するタイミングが遅れることがあるからである。すなわち、上記(1)の場合においては、上記ローカル辞書から適切なフレーズを抽出(検索)する処理が重いことによって、上記(2)の場合においては、上記対話ロボット100と上記サーバ200との間で通信が停滞することによって、上記タイミングが遅延することがある。特に、本実施の形態で説明するように、主要なフレーズセットがサーバ200の側にある(クラウド構成をとる)場合、通信環境の悪化が原因となって上記タイミングが遅延しやすい。人間同士の会話を模擬する対話において、不自然な遅延が発生する(奇妙な間が空く)ことは許容されないため、先の呼びかけに対する先のフレーズが未提示であっても、ユーザは後のフレーズを要求することが想定される。このとき、先のフレーズが未提示のままになるおそれが考えられる。
Thus, the reason why the previous phrase for the previous call and the subsequent phrase for the subsequent call cross each other is because the timing of presenting the previous phrase to the user may be delayed. That is, in the case of (1) above, the process of extracting (searching) an appropriate phrase from the local dictionary is heavy, and in the case of (2) above, between the
そこで、上記対話ロボット100は、先のフレーズを提示する前に、後のフレーズが新たに取得された場合、先のフレーズをユーザに提示することが必要であるときは、後のフレーズを提示した後に、先のフレーズを提示する。これにより、上記対話ロボット100は、先のフレーズをユーザに提示することが必要と判断される場合、当該先のフレーズを未提示のままにすることなく、当該先のフレーズを必ずユーザに提示できる。
Therefore, when the subsequent phrase is newly acquired before the previous phrase is presented, the
以下の説明においては、一例として、「今日の天気は?」という先の呼びかけが音声1aによってユーザから行われ、その後に「ところで、スポーツのニュースは?」という後の呼びかけが音声1bによって行われたとする。そして、上記先の呼びかけに対する回答として「雨だよ、傘を持っていってね」という先のフレーズ(フレーズ6a)を音声1cによって、上記後の呼びかけに対する回答として「昨日、チームAは大勝だったよ」という後のフレーズ(フレーズ6b)を音声1dによって、上記対話ロボット100は、それぞれユーザに提示するとする。
In the following description, as an example, the previous call “What's the weather today?” Is made by the user with the
(対話ロボット100の構成)
図1は、対話ロボット100の要部構成を示すブロック図である。図1に示されるように、対話ロボット100は、通信部50a(受信部51a、送信部52a)、制御部10a(音声検出部11、音声認識部12、回答確定部13、回答取得部14、音声送出部15、音声出力部16、フラグ判定部17、回答格納部18)、音声入出力部40(マイク41、スピーカ42)、および、記憶部30aを備えている。
(Configuration of Dialogue Robot 100)
FIG. 1 is a block diagram showing a main configuration of the
音声入出力部40は、対話ロボット100に対する音声の入出力を制御するものである。音声入出力部40は、マイク41とスピーカ42とを含む。
The voice input /
マイク41は、対話ロボット100の周囲から音声を集め、当該音声1aおよび音声1bをそれぞれ表す音声信号2aおよび音声信号2bを、音声検出部11に出力する。
The
スピーカ42は、音声出力部16から入力される音声信号2cおよび音声信号2dを、音声1cおよび音声1dにそれぞれ変換し、当該音声1cおよび当該音声1dを外部に出力する。なお、スピーカ42は、対話ロボット100に内蔵されたものであってもよいし、外部接続端子を介して外付けされたものであってもよいし、通信可能に接続されたものであってもよい。
The
制御部10aは、対話ロボット100が有する各種の機能を統括的に制御する。制御部10aは、音声検出部11、音声認識部12、回答確定部13、回答取得部14、音声送出部15、音声出力部16、フラグ判定部17、および、回答格納部18を含む。
The
音声検出部11は、ユーザが発した音声を検出する。具体的には、マイク41から音声信号2aまたは音声信号2bが入力された場合、当該音声信号2aおよび当該音声信号2bを、対話ロボット100においてデジタル処理が可能な音声情報3aおよび音声情報3bにそれぞれ変換し、当該音声情報3aおよび当該音声情報3bを回答確定部13および音声認識部12に出力する。
The voice detection unit 11 detects voice uttered by the user. Specifically, when the audio signal 2 a or the audio signal 2 b is input from the
音声認識部12は、ユーザが対話ロボット100に対して発した音声を認識する。具体的には、音声検出部11から音声情報3aまたは音声情報3bが入力された場合、音声認識部12は、所定の音声認識のアルゴリズムにしたがって、当該音声情報3aまたは当該音声情報3bを認識した結果(認識結果4aまたは認識結果4b)をそれぞれ得る。ここで、当該認識結果4aまたは当該認識結果4bは、上記音声情報3aまたは上記音声情報3bから変換されたテキスト(ユーザが発話した内容を文字によって表現するもの)を少なくとも含む。なお、上記音声認識のアルゴリズムとしては、公知のものが適宜採用されてよい。音声認識部12は、上記認識結果4aおよび上記認識結果4bを回答確定部13に出力する。
The
回答確定部13は、音声を認識した結果に基づいて、ユーザに返す回答を確定する。具体的には、音声認識部12から上記認識結果4aまたは上記認識結果4bが入力された場合、回答確定部13は、記憶部30aに格納されたフレーズセット5aを参照し、上記認識結果4aまたは上記認識結果4bに含まれる上記テキストを含むパターン(検出ワード)が、当該フレーズセット5aに含まれるか否かを判定する。含まれると判定される場合、回答確定部13は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定し、回答取得部14に出力する。一方、含まれないと判定される場合、回答確定部13は、音声検出部11から入力された音声情報3aを音声送出部15に出力する。このとき、回答確定部13は、回答を保留するフレーズを回答取得部14に出力することによって、当該フレーズをユーザに提示してよい。
The
図4は、フレーズセットの一例を示す表であり、(a)は、対話ロボット100が記憶部30aに保持するフレーズセット5a(ローカル辞書)を示し、(b)は、サーバ200が記憶部30bに保持するフレーズセット5b(クラウド辞書)を示す。ここで、上記「フレーズセット」(辞書)は、所定のパターン(検出ワード)に所定のフレーズ(および重要フラグ7)を対応付けたデータセットである。また、上記「フレーズ」は、上記所定のパターンに対する好ましい回答を、所定のデータ形式(例えば、テキスト形式)によって表すものである。さらに、上記「重要フラグ」(要否情報)は、フレーズ6aをユーザに提示することが必要であるか否かを示す情報であり、例えば、「1」または「0」の値をとる2値フラグであってよい。このとき、当該重要フラグ7が「1」の場合は「重要」(フレーズ6aをユーザに提示することが必要であること)を示し、「0」の場合は「通常」(必要でないこと)を示してよい。
FIG. 4 is a table showing an example of a phrase set. (A) shows the phrase set 5a (local dictionary) held in the
例えば、音声認識部12から入力される認識結果4a(音声1aを認識した結果)に含まれる上記テキストは「今日の天気は」となるが、図4の(a)に示されるように、当該テキストを含むパターンは、フレーズセット5aには存在しない。このとき、回答確定部13は、音声情報3aを音声送出部15に出力するとともに、回答を保留するフレーズ(図4の(a)においては「ちょっとまってね」、「そうだね」、「うーん」などのフレーズ)を、回答取得部14に出力する。
For example, the text included in the recognition result 4a (the result of recognizing the
回答取得部(取得手段)14は、音声1aが認識された結果に対応付けられたフレーズ(第1のフレーズ)6aを取得する。具体的には、ユーザに返す回答として回答確定部13からフレーズ6aが入力された場合、回答取得部14は、当該フレーズ6aを音声出力部16に出力する。同様に、受信部51aからフレーズ(第2のフレーズ)6bおよび重要フラグ7が入力された場合、回答取得部14は、当該フレーズ6bを音声出力部16に出力する。
The answer acquisition unit (acquisition means) 14 acquires the phrase (first phrase) 6a associated with the result of recognition of the
一方、受信部51aからフレーズ6aおよび重要フラグ7が入力されたとき、(1)当該フレーズ6aを提示する前に、フレーズ6bが取得された場合(音声出力部16によってフレーズ6aが音声1cとして出力される前に、回答取得部14がフレーズ6bを取得したとき)、回答取得部14は、当該フレーズ6aおよび当該重要フラグ7をフラグ判定部17に出力する。(2)それ以外の場合、回答取得部14は、当該フレーズ6aを音声出力部16に出力する。
On the other hand, when the
音声送出部15は、所定の通信方式にしたがう通信網を介して、音声情報3aおよび音声情報3bをサーバ200に送信する。具体的には、回答確定部13から音声情報3aまたは音声情報3bが入力された場合、音声送出部15は、当該音声情報3aまたは当該音声情報3bを送信部52aに出力する。
The
音声出力部16は、スピーカ42を介して、フレーズ6aおよびフレーズ6bを音声によって出力することにより、当該フレーズ6aおよび当該フレーズ6bをユーザに提示する。具体的には、回答取得部14からフレーズ6aまたはフレーズ6bが入力された場合、当該フレーズ6aまたは当該フレーズ6bをスピーカ42に出力する。
The
フラグ判定部17は、フレーズ6aを提示する前に、フレーズ6bが新たに取得された場合、重要フラグ7に基づいて、上記フレーズ6aをユーザに提示することが必要であるか否かを判定する。具体的には、回答取得部14からフレーズ6aおよび重要フラグ7が入力された場合、フラグ判定部17は、当該重要フラグ7が「重要」を示すか、「通常」を示すかを判定する。「重要」を示すと判定される場合、フラグ判定部17は、上記フレーズ6aを回答格納部18に出力する。
When the
なお、「通常」を示すと判定される場合、フラグ判定部17は、上記フレーズ6aを回答格納部18に出力せず、当該フレーズ6aを破棄してよい。または、ユーザに後から提示することを再要求された場合に備えて、記憶部30aの所定の記憶領域に、当該フレーズ6aを格納してもよい。例えば、「おもしろい話聞かせて」という先の呼びかけが音声1aによってユーザから行われ、その後に「ところで、スポーツのニュースは?」という後の呼びかけが音声1bによって行われたとする。そして、上記先の呼びかけに対する回答として「昔々、おじいさんとおばあさんが・・・」(図4の(b)に示される表の6行目参照)という先のフレーズ(フレーズ6a)が取得された場合、当該フレーズ6aの重要フラグ7は「通常」を示すため、上記対話ロボット100は、上記後の呼びかけに対する回答として「昨日、チームAは大勝だったよ」という後のフレーズ(フレーズ6b)をユーザに提示した後でも、上記フレーズ6aを提示しなくともよい。
When it is determined that “normal” is indicated, the
回答格納部(格納手段)18は、フレーズ6aを提示する前に、フレーズ6bが新たに取得された場合、上記フレーズ6aをユーザに提示することが必要であるときは、当該フレーズ6aを所定の記憶部30aに格納する。具体的には、フラグ判定部17から上記フレーズ6aが入力された場合、回答格納部18は、当該フレーズ6aを上記記憶部30aに格納する。
When the
ここで、音声出力部(提示手段)16は、フレーズ6aを提示する前に、フレーズ6bが新たに取得された場合、上記フレーズ6aをユーザに提示することが必要であるときは、上記フレーズ6bを提示した後に、上記フレーズ6aを提示する。すなわち、フラグ判定部17によって重要フラグ7が「重要」を示すと判定されたことにより、回答格納部18によってフレーズ6aが記憶部30aに格納されている場合、音声出力部16は、上記フレーズ6bをスピーカ42に出力した後、上記フレーズ6aを上記記憶部30aから読み出し、当該フレーズ6aをスピーカ42に出力する。
Here, when the
通信部50aは、所定の通信方式にしたがう通信網を介して外部と通信する。外部の機器との通信を実現する本質的な機能が備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。通信部50aは、例えばイーサネット(登録商標)アダプタなどの機器で構成できる。また、通信部50aは、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。通信部50aは、受信部51aと送信部52aとを含む。
The communication unit 50a communicates with the outside via a communication network according to a predetermined communication method. It is only necessary to have an essential function for realizing communication with an external device, and the communication line, the communication method, the communication medium, and the like are not limited. The communication unit 50a can be configured by a device such as an Ethernet (registered trademark) adapter, for example. The communication unit 50a can use a communication method or a communication medium such as IEEE802.11 wireless communication or Bluetooth (registered trademark). The communication unit 50a includes a
受信部51aは、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、フレーズ6aおよびフレーズ6bをサーバ200から受信する。受信部51aは、受信したフレーズ6aおよびフレーズ6bを回答取得部14に出力する。
The receiving
送信部52aは、音声送出部15から音声情報3aまたは音声情報3bが入力された場合、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、サーバ200に当該音声情報3aまたは当該音声情報3bを送信する。
When the voice information 3a or the voice information 3b is input from the
記憶部30aは、フレーズセット5aおよびフレーズ6aを格納可能な記憶機器である。記憶部30aは、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなどで構成できる。
The
(サーバ200の構成)
図2は、サーバ200の要部構成を示すブロック図である。図2に示されるように、サーバ200は、通信部50b(受信部51b、送信部52b)、制御部10b(音声取得部21、音声認識部22、回答特定部23、フラグ生成部24、情報送出部25)、および、記憶部30bを備えている。
(Configuration of server 200)
FIG. 2 is a block diagram illustrating a main configuration of the
通信部50bは、通信部50aと同様であるため、詳細な説明を省略する。通信部50bは、受信部51bと送信部52bとを含む。
Since the
受信部51bは、所定の通信方式にしたがう通信網を介して外部と通信することによって、音声情報3aおよび音声情報3bを対話ロボット100から受信する。受信部51bは、受信した音声情報3aおよび音声情報3bを音声取得部21に出力する。
The receiving
送信部52bは、情報送出部25からフレーズ6aまたはフレーズ6bと重要フラグ7とが入力された場合、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、対話ロボット100に当該フレーズ6aまたは当該フレーズ6bと当該重要フラグ7とを送信する。
When the
音声取得部21は、所定の通信方式にしたがう通信網を介して、対話ロボット100から音声情報3aおよび音声情報3bを取得する。具体的には、受信部51bから音声情報3aまたは音声情報3bが入力された場合、音声取得部21は、当該音声情報3aまたは当該音声情報3bを音声認識部22に出力する。
The
音声認識部22は、ユーザが対話ロボット100に対して発した音声を認識する。具体的には、音声取得部21から音声情報3aまたは音声情報3bが入力された場合、音声認識部22は、所定の音声認識のアルゴリズムにしたがって、当該音声情報3aまたは当該音声情報3bを認識した結果(認識結果4aまたは認識結果4b)をそれぞれ得る。音声認識部22は、上記認識結果4aまたは上記認識結果4bを回答特定部23に出力する。
The
回答特定部(特定手段)23は、音声を認識した結果(認識結果4aまたは認識結果4b)に対応付けられたフレーズを、フレーズセット5bにおいて特定する。具体的には、音声認識部22から認識結果4aまたは認識結果4bが入力された場合、記憶部30bに格納されたフレーズセット5bを参照し、上記認識結果4aまたは上記認識結果4bに含まれる上記テキストを含むパターンを抽出する。そして、回答特定部23は、当該パターンに対応付けられたフレーズ(フレーズ6aまたはフレーズ6b)をユーザに返す回答として特定し、フラグ生成部24に出力する。
The answer specifying unit (specifying means) 23 specifies the phrase associated with the result of recognition of speech (recognition result 4a or recognition result 4b) in the phrase set 5b. Specifically, when the recognition result 4a or the recognition result 4b is input from the
例えば、音声認識部22から入力される認識結果4a(音声1aを認識した結果)に含まれる上記テキストは「今日の天気は」となるところ、当該テキストには「天気」というパターンが含まれるため、図4の(b)に示される表の1行目によれば、回答特定部23は「今日の天気は雨だよ、傘を持っていってね」というフレーズ6aを、ユーザに返す回答として特定し、フラグ生成部24に出力する。なお、上記テキストを含むパターンがフレーズセット5bに含まれない場合(図4の(b)に示される表の9行目「−マッチングなし−」を参照)、音声認識部22は、音声認識またはフレーズの特定に失敗したことをユーザにフィードバックするフレーズ(例えば、「全然分からないよ」など)をユーザに返す回答として特定し、フラグ生成部24に出力する(すなわち、上記テキストにマッチするパターンがフレーズセット5bに含まれない場合であっても、フレーズは必ず特定される)。
For example, the text included in the recognition result 4a (the result of recognizing the
フラグ生成部(生成手段)24は、フレーズをユーザに提示することが必要であるか否かに応じて、重要フラグを生成する。具体的には、回答特定部23からフレーズ6aまたはフレーズ6bが入力された場合、フラグ生成部24は、当該フレーズ6aまたは当該フレーズ6bに「重要度」(図4の(b)に示される表の2列目を参照、2列目に丸印が付された行のフレーズの重要度が「高い」ことを示す)が設定されているか否かを判定する。設定されていると判定される場合、フラグ生成部24は、「重要」(フレーズ6aをユーザに提示することが必要であることを表す)を示す重要フラグ7を生成し、当該重要フラグ7と、当該重要フラグ7に対応するフレーズ(フレーズ6aまたはフレーズ6b)とを情報送出部25に出力する。設定されていないと判定される場合、フラグ生成部24は、「通常」(フレーズ6aをユーザに提示することが必要でないことを表す)を示す重要フラグ7を生成し、当該重要フラグ7を情報送出部25に出力する。
The flag generation unit (generation means) 24 generates an important flag depending on whether or not it is necessary to present the phrase to the user. Specifically, when the
情報送出部(送信手段)25は、所定の通信方式にしたがう通信網を介して、フレーズ6aおよびフレーズ6bを対話ロボット100に送信する。具体的には、フラグ生成部24からフレーズ6aまたはフレーズ6bと重要フラグ7とが入力された場合、情報送出部25は、当該フレーズ6aまたは当該フレーズ6bと当該重要フラグ7とを送信部52bに出力する。
The information transmission unit (transmission means) 25 transmits the
記憶部30bは、フレーズセット5bを格納可能な記憶機器である。記憶部30bは、記憶部30aと同様に、例えば、ハードディスク、SSD、半導体メモリ、DVDなどで構成できる。
The
(対話システム300において実行される処理)
図5は、対話システム300において実行される処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、対話ロボット100の制御方法に含まれる各ステップを表す。
(Processes executed in the dialogue system 300)
FIG. 5 is a flowchart illustrating an example of processing executed in the
ユーザが発した「今日の天気は?」という音声1aを、音声検出部11が検出すると(ステップ1においてYES、以下「ステップ」を「S」と略記する)、音声認識部12が当該音声1aを認識する(S2)。回答確定部13は、記憶部30aに格納されたフレーズセット5a(ローカル辞書)を参照し、認識結果4aに含まれるテキストを含むパターンが、当該フレーズセット5aに含まれるか否か(マッチするか否か)を判定する(S3)。含まれると判定される場合(S3においてYES)、回答確定部13は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定する(S4)。回答取得部14が当該フレーズを取得すると(S16)、音声出力部16が当該フレーズを音声としてユーザに提示し(当該音声を再生する、S17)、処理が終了する。一方、含まれないと判定される場合(S3においてNO)、回答確定部13は、「ちょっとまってね」という回答を保留するフレーズを確定し(S5)、音声出力部16が当該フレーズを音声としてユーザに提示する(S6)。また、音声送出部15は、音声情報3aをサーバ200に送信する(S7)。
When the voice detection unit 11 detects the
サーバ200の受信部51bが上記音声情報3aを受信し、音声取得部21が当該音声情報3aを取得すると(S8)、音声認識部22が音声1aを認識する(S9)。回答特定部23は、音声1aを認識した結果(認識結果4a)に対応付けられたフレーズ6aを、フレーズセット5b(クラウド辞書)において特定する(S10)。フラグ生成部24は、当該フレーズ6aをユーザに提示することが必要であるか否か(当該フレーズ6aの重要度は「高い」か否か)を判定し(S11)、「高い」と判定される場合(S11においてYES)、「高い」を示す重要フラグ7を生成し(S12)、「高い」と判定されない場合(S11においてNO)、「通常」を示す重要フラグ7を生成する(S13)。情報送出部25は、上記フレーズ6aおよび上記重要フラグ7を対話ロボット100に送信し(S14)、当該対話ロボット100の受信部51aは、当該フレーズ6aおよび当該重要フラグ7を受信する(S15)。回答取得部14は、当該フレーズ6aおよび当該重要フラグ7を取得する(S16、取得ステップ)。
When the
上記S7〜S15の間に、ユーザがさらに発した「ところでスポーツのニュースは?」という音声1bを、音声検出部11が検出した場合(割り込み処理が発生した場合、S18においてYES)、フラグ判定部17は、上記S15において受信した上記重要フラグ7に基づいて、上記フレーズ6aをユーザに提示することが必要であるか否かを判定する(S19)。必要であると判定される場合(上記重要フラグ7が「重要」を示す場合、S19においてYES)、回答格納部18は、上記フレーズ6aを記憶部30aに格納する(S20)。
When the voice detection unit 11 detects the
対話ロボット100およびサーバ200は、上記音声1bに対して、上記S2〜S17の処理を実行する(図5に示されるフローチャートにおいて「A」と表される)。上記S7〜S15の間に、ユーザからさらなる音声を検出しなければ(S18においてNO)、回答取得部14は、上記音声1bに対する回答として「昨日、チームAは大勝だったよ」というフレーズ6bを取得し(S16、取得ステップ)、当該フレーズ6bを音声1dによってユーザに提示する(S17、提示ステップ)。上記「A」から呼び出された一連の処理S2〜S17が終了し、処理の流れはS21の直前に復帰する。
The
音声出力部16は、上記S16において取得した上記フレーズ6aをユーザに提示することが必要であるときは(すなわち、フラグ判定部17によって重要フラグ7が「重要」を示すと判定されたことにより、回答格納部18によって上記フレーズ6aが記憶部30aに格納されているときは、S21においてYES)、音声1cによって上記フレーズ6aをユーザに提示する(S17、提示ステップ)。なお、上記フレーズ6aがユーザに提示された後、音声出力部16は、上記記憶部30aに格納された上記フレーズ6aを、当該記憶部30aから削除してよい。
When the
上記のように、例えば、通信が停滞したことにより、対話ロボット100がユーザに回答(フレーズ6a)を提示するタイミングが遅延し、上記S7〜S15の間にユーザがさらなる音声1bを与えたことによって、上記フレーズ6aが提示される前に、フレーズ6bが新たに取得された場合、上記フレーズ6aをユーザに提示することが必要であるときは、上記対話ロボット100は、上記フレーズ6bを提示した後に、上記フレーズ6aを提示する。
As described above, for example, when the communication is stagnant, the timing at which the
なお、音声1bに対して上記S2〜S16の処理を実行している間に、ユーザからさらなる音声を検出した場合(2回目のS18においてYES)、対話ロボット100は、上記S19および上記S20の処理を実行した後、上記S2〜S17の処理をさらに実行できる。さらに実行できる回数は任意であり、当該回数は予め設定されていてよい。
In addition, when a further voice is detected from the user while performing the processes of S2 to S16 for the
〔実施形態2〕
図6および図7に基づいて、本発明の第2の実施の形態(実施形態2)を説明する。本実施の形態では、実施形態1に追加される構成や、実施形態1の構成とは異なる構成のみについて説明する。すなわち、実施形態1において記載された構成は、実施形態2にもすべて含まれ得る。また、実施形態1において記載された用語の定義は、実施形態2においても同じである。
[Embodiment 2]
A second embodiment (Embodiment 2) of the present invention will be described based on FIGS. In the present embodiment, only the configuration added to the first embodiment and the configuration different from the configuration of the first embodiment will be described. That is, all the configurations described in the first embodiment can be included in the second embodiment. Moreover, the definition of the term described in
(実施形態1との相違点)
図6は、対話ロボット101の要部構成を示すブロック図である。実施形態1に係る対話ロボット100は、サーバ20と通信可能に接続されて対話システム300を構成し、フレーズセット5aにフレーズ6aまたはフレーズ6bが存在しない場合、上記対話ロボット100は、当該フレーズ6aまたは当該フレーズ6bを上記サーバ20から取得した(クラウド構成)。
(Differences from Embodiment 1)
FIG. 6 is a block diagram showing a main configuration of the
一方、本実施の形態においては、対話ロボット101が備える記憶部30aにフレーズセット5aおよびフレーズセット5bが格納されており、対話ロボット101は、上記フレーズ6aまたは上記フレーズ6bを上記記憶部30aから取得する(スタンドアロン構成)。したがって、図6に示されるように、対話ロボット101は、対話ロボット100が備えた通信部50aおよび音声送出部15を備えない(フレーズを取得するためにサーバ20と通信する必要がないだけであるため、対話ロボット101は通信部50aまたは音声送出部15を備えていてもよい)。
On the other hand, in the present embodiment, the phrase set 5a and the phrase set 5b are stored in the
上記対話ロボット101はフレーズを取得するためにサーバ20と通信しないため、「対話ロボットとサーバとの間で通信が停滞する」ことを原因として、ユーザにフレーズを提示するタイミングが遅延するという問題は生じ得ない。しかし、実施形態1ではサーバ200が集中管理していたフレーズセット5b(フレーズセット5aよりも多くのパターンを含むクラウド辞書)を、実施形態2では対話ロボット101(記憶部30a)がローカル辞書として保持するため、当該ローカル辞書から適切なフレーズを抽出する処理が一層重くなり、上記タイミングが遅延し得る。したがって、前述したように、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯することにより、上記先のフレーズが未提示のままになるおそれが考えられる。
Since the
そこで、上記対話ロボット101は、先のフレーズを提示する前に、後のフレーズが新たに取得された場合、先のフレーズをユーザに提示することが必要であるときは、後のフレーズを提示した後に、先のフレーズを提示する。これにより、上記対話ロボット101は、先のフレーズをユーザに提示することが必要と判断される場合、当該先のフレーズを未提示のままにすることなく、当該先のフレーズを必ずユーザに提示できる。
Therefore, when the later phrase is newly acquired before the previous phrase is presented, the
(対話ロボット101の構成)
回答確定部13は、音声を認識した結果に基づいて、ユーザに返す回答を確定する。具体的には、音声認識部12から上記認識結果4aまたは上記認識結果4bが入力された場合、回答確定部13は、記憶部30aに格納されたフレーズセット5aを参照し、上記認識結果4aまたは上記認識結果4bに含まれる上記テキストを含むパターンが、当該フレーズセット5aに含まれるか否かを判定する。
(Configuration of Dialogue Robot 101)
The
含まれると判定される場合、回答確定部13は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定し、回答取得部14に出力する。一方、含まれないと判定される場合、回答確定部13は、記憶部30aに格納されたフレーズセット5bを参照し、上記テキストを含むパターンを抽出する。そして、回答確定部13は、当該パターンに対応付けられたフレーズ(フレーズ6aまたはフレーズ6b)をユーザに返す回答として確定する。このとき、回答確定部13は、回答を保留するフレーズを回答取得部14に出力することによって、当該フレーズをユーザに提示してよい。
If it is determined that the phrase is included, the
次に、回答確定部13は、フレーズをユーザに提示することが必要であるか否かに応じて、重要フラグを生成する。具体的には、回答確定部13は、上記フレーズ6aまたは上記フレーズ6bに「重要度」が設定されているか否かを判定する。設定されていると判定される場合、回答確定部13は、「重要」を示す重要フラグ7を生成し、当該重要フラグ7と、当該重要フラグ7に対応するフレーズ(フレーズ6aまたはフレーズ6b)とを回答取得部14に出力する。設定されていないと判定される場合、回答確定部13は、「通常」を示す重要フラグ7を生成し、当該重要フラグ7を回答取得部14に出力する。
Next, the
回答取得部(取得手段)14は、フレーズ6a、フレーズ6b、および、重要フラグ7を回答確定部13から取得する。これらを取得した後の処理は、実施形態1で説明したものと同じである。
The answer acquisition unit (acquisition means) 14 acquires the
(対話ロボット101が実行する処理)
図7は、対話ロボット101が実行する処理の一例を示すフローチャートである。上記フローチャートは、図5に例示されたフローチャート(対話システム300において実行される処理)から通信に関係する処理(S7、S8、S14、S15)、および、サーバ20が再度音声認識を行う処理(S9)が除かれ、サーバ200において実行された処理(S10〜S13)が上記対話ロボット101(回答確定部13)において実行される(S22〜S25)としたものである。
(Processing executed by the interactive robot 101)
FIG. 7 is a flowchart illustrating an example of processing executed by the
すなわち、回答確定部13は、音声1aを認識した結果(認識結果4a)に対応付けられたフレーズ6aを、フレーズセット5b(クラウド辞書)において特定する(S22)。そして、回答確定部13は、当該フレーズ6aをユーザに提示することが必要であるか否かを判定し(S23)、「高い」と判定される場合(S23においてYES)、「高い」を示す重要フラグ7を生成し(S24)、「高い」と判定されない場合(S23においてNO)、「通常」を示す重要フラグ7を生成する(S25)。
That is, the
〔実施形態3〕
本発明の第3の実施の形態(実施形態3)を説明する。本実施の形態では、実施形態1または実施形態2に追加される構成や、実施形態1または実施形態2の構成とは異なる構成のみについて説明する。すなわち、実施形態1または実施形態2において記載された構成は、実施形態3にもすべて含まれ得る。また、実施形態1または実施形態2において記載された用語の定義は、実施形態3においても同じである。
[Embodiment 3]
A third embodiment (Embodiment 3) of the present invention will be described. In the present embodiment, only a configuration added to the first embodiment or the second embodiment or a configuration different from the configuration of the first embodiment or the second embodiment will be described. That is, all the configurations described in the first embodiment or the second embodiment can be included in the third embodiment. Moreover, the definition of the term described in
(フレーズの動的変化)
対話ロボット(制御部10aを備えるもの)は、フレーズを取得した時点における状況を反映させるように、動的に変化させたフレーズをユーザに提示してよい。すなわち、ユーザが対話ロボットに対して「今日の天気は?」と音声1aによって呼びかけ、当該対話ロボットが「雨だよ、傘を持っていってね」というフレーズ6aを音声1cによって上記ユーザに提示する一例を前述したが、「今日の天気」が「晴れ」である場合、上記対話ロボットは「晴れだよ、傘はいらないね」というフレーズ6aを提示できる。
(Phrase dynamic change)
The interactive robot (including the
具体的には、回答確定部13(スタンドアロン構成の場合)または回答特定部23(クラウド構成の場合)は、所定のウェブサービスから動的に変化する情報(例えば、天気の予報を示すテキスト)を取得し、当該情報に基づいて補完したフレーズを生成して(例えば、「・・・だよ」の更新可能な箇所「・・・」に、「晴れ」、「雨」などの上記テキストを挿入する)、当該補完したフレーズでフレーズセット5bを更新する。そして、回答取得部14は、外部サービス(例えば、天気予報を提供する上記所定のウェブサービスなど)から取得可能な動的に変化する所定の情報によって補完された上記フレーズを取得する。これにより、上記対話ロボットは、動的に変化する上記フレーズをユーザに提示できる。
Specifically, the answer determination unit 13 (in the case of a stand-alone configuration) or the answer specifying unit 23 (in the case of a cloud configuration) receives information that dynamically changes from a predetermined web service (for example, text indicating a weather forecast). Acquire and generate a complemented phrase based on the information (for example, insert the above text such as “Sunny”, “Rain” in the updatable part “...” of “... Dayo”) The phrase set 5b is updated with the complemented phrase. And the
(重要フラグの動的設定)
フレーズセット5bに含まれる重要フラグ7は、パターンまたはフレーズに応じて、ユーザによってあらかじめ設定される。すなわち、ユーザは、フレーズセット5aまたはフレーズセット5bの所定のレコードにパターン(検出ワード)を登録し、当該パターンに対して重要フラグ7を設定することができる。また、ユーザは、パターンを登録した後でも上記重要フラグ7を新たに設定または変更できる。
(Dynamic setting of important flag)
The
一方、上記重要フラグ7は、動的に変更されてもよい。例えば、音声1aまたは音声1bの音量が通常よりも大きい場合(音声信号2aまたは音声信号2bのゲインが所定のしきい値(または、これまでに得たゲインの平均値)を超える場合)、回答確定部13(スタンドアロン構成の場合)またはフラグ生成部24(クラウド構成の場合)は、「重要」を示す重要フラグ7を生成してよい。逆に、上記音量が通常よりも小さい場合、「通常」を示す重要フラグ7を生成してよい。
On the other hand, the
あるいは、上記音声1aまたは上記音声1bが疑問形であると判定される場合(上記音声1aまたは上記音声1bの周波数が高くなる場合、認識結果4aまたは認識結果4bが所定のパターンで終了する場合など)回答確定部13またはフラグ生成部24は、「重要」を示す重要フラグ7を生成してよい。逆に、疑問形でないと判定される場合、「通常」を示す重要フラグ7を生成してよい。
Alternatively, when it is determined that the
〔ソフトウェアによる実現例〕
対話ロボット100およびサーバ200の制御ブロック(特に、制御部10aおよび制御部10b)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、対話ロボット100およびサーバ200は、各機能を実現するソフトウェアであるプログラム(制御プログラム)の命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
[Example of software implementation]
The control blocks (particularly, the
〔まとめ〕
本発明の態様1に係る情報処理装置は、ユーザが発した音声(1a、1b)に応じて、当該ユーザに所定のフレーズを提示する情報処理装置(対話ロボット100、対話ロボット101)であって、前記音声が認識された結果(4a、4b)に対応付けられた第1のフレーズ(6a)を取得する取得手段(回答取得部14)と、前記第1のフレーズを提示する前に、当該第1のフレーズとは異なる第2のフレーズ(6b)が前記取得手段によって新たに取得された場合、前記第1のフレーズを前記ユーザに提示することが必要であるときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示する提示手段(音声出力部16)とを備えている。
[Summary]
The information processing apparatus according to the first aspect of the present invention is an information processing apparatus (the
人間と機械とが自然にコミュニケーションすることが前提となる場合、ユーザから機械への呼びかけに対するフレーズの提示が遅れることによって、当該提示の前に、ユーザから機械へさらなる呼びかけが行われるときがある。このとき、当該さらなる呼びかけに対してのみフレーズが新たに提示され、先のフレーズが未提示のままとなるおそれがある。 When it is assumed that a human and a machine communicate naturally, there is a case in which a further call is made from the user to the machine before the presentation due to a delay in the presentation of the phrase for the call from the user to the machine. At this time, the phrase is newly presented only for the further call, and the previous phrase may remain unpresented.
上記構成によれば、上記情報処理装置は、上記第1のフレーズを提示する前に、上記第2のフレーズが新たに取得された場合、上記第1のフレーズをユーザに提示することが必要であるときは、上記第2のフレーズを提示した後に、上記第1のフレーズを提示する。したがって、上記情報処理装置は、上記先のフレーズ(第1のフレーズ)を未提示のままにすることなく、確実にユーザに提示できる。 According to the above configuration, the information processing apparatus needs to present the first phrase to the user when the second phrase is newly acquired before presenting the first phrase. In some cases, after presenting the second phrase, the first phrase is presented. Therefore, the information processing apparatus can reliably present to the user without leaving the previous phrase (first phrase) unpresented.
本発明の態様2に係る情報処理装置では、上記態様1において、前記取得手段は、前記第1のフレーズを前記ユーザに提示することが必要であるか否かを示す要否情報(重要フラグ7)をさらに取得し、前記提示手段は、前記要否情報が必要であることを示すときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示してよい。
In the information processing device according to aspect 2 of the present invention, in the
上記構成によれば、上記情報処理装置は、上記第1のフレーズをユーザに提示することが必要であるか否かを、上記要否情報によって知ることができる。そして、当該要否情報によってユーザに提示することが必要であると判定される場合、上記情報処理装置は、上記第2のフレーズを提示した後に、上記第1のフレーズを提示する。したがって、上記情報処理装置は、上記第1のフレーズを未提示のままにすることなく、確実にユーザに提示できる。 According to the configuration, the information processing apparatus can know whether or not it is necessary to present the first phrase to the user based on the necessity information. And when it determines with it being necessary to show to a user by the said necessity information, the said information processing apparatus presents the said 1st phrase after presenting the said 2nd phrase. Therefore, the information processing apparatus can reliably present the first phrase to the user without leaving the first phrase unpresented.
本発明の態様3に係る情報処理装置は、上記態様1または態様2において、前記第1のフレーズを提示する前に、前記第2のフレーズが新たに取得された場合、当該第1のフレーズを前記ユーザに提示することが必要であるときは、当該第1のフレーズを所定の記憶部(30a)に格納する格納手段(回答格納部18)をさらに備え、前記提示手段は、前記所定の記憶部に前記第1のフレーズが格納されている場合、前記第2のフレーズを提示した後に、当該第1のフレーズを当該所定の記憶部から読み出して提示してよい。
The information processing device according to
上記構成によれば、上記情報処理装置は、上記第1のフレーズをユーザに提示することが必要であるときは、当該第1のフレーズを記憶部に待避させる。そして、上記情報処理装置は、上記記憶部に上記第1のフレーズが存在する場合、上記第2のフレーズを提示した後に当該第1のフレーズをユーザに提示する。したがって、上記情報処理装置は、上記第1のフレーズを未提示のままにすることなく、確実にユーザに提示できる。 According to the above configuration, when the information processing apparatus needs to present the first phrase to the user, the information processing apparatus causes the storage unit to save the first phrase. Then, when the first phrase is present in the storage unit, the information processing apparatus presents the first phrase to the user after presenting the second phrase. Therefore, the information processing apparatus can reliably present the first phrase to the user without leaving the first phrase unpresented.
本発明の態様4に係るサーバは、ユーザが情報処理装置に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該情報処理装置を制御するサーバ(200)であって、前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセット(5b)において特定する特定手段(回答特定部23)と、前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段(フラグ生成部24)と、前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段(情報送出部25)とを備えている。 The server according to aspect 4 of the present invention is a server (200) that controls the information processing apparatus so as to present a predetermined phrase to the user in accordance with a voice uttered by the user to the information processing apparatus. , Specifying means (answer specifying unit 23) for specifying a phrase associated with the result of recognizing the voice in a predetermined phrase set (5b), and whether or not it is necessary to present the phrase to the user Accordingly, a generation unit (flag generation unit 24) for generating necessity information and a transmission unit (information transmission unit 25) for transmitting the phrase and the necessity information to the information processing apparatus are provided.
上記構成によれば、上記サーバは、上記音声を認識した結果に応じて、上記フレーズおよび上記要否情報を上記情報処理装置に送信する。ここで、上記音声を認識した結果にマッチするパターンは、上記情報処理装置が保持するフレーズセットよりも、上記サーバが保持するフレーズセットの方に多く含まれることが通常であるため、ユーザが上記情報処理装置に対して複雑な呼びかけを行った場合であっても、上記サーバは、適切なフレーズを返すように上記情報処理装置を制御できる。 According to the said structure, the said server transmits the said phrase and the said necessity information to the said information processing apparatus according to the result of having recognized the said audio | voice. Here, since the pattern that matches the result of recognizing the voice is usually included more in the phrase set held by the server than the phrase set held by the information processing apparatus, Even when a complicated call is made to the information processing apparatus, the server can control the information processing apparatus to return an appropriate phrase.
また、上記フレーズをユーザに提示することが必要であるか否かを、上記要否情報によって上記情報処理装置に知らせることができる。したがって、上記サーバは、上記フレーズを未提示のままにすることなく、確実にユーザに提示するように、上記情報処理装置を制御することができる。 Further, whether or not it is necessary to present the phrase to the user can be notified to the information processing apparatus by the necessity information. Therefore, the server can control the information processing apparatus so as to reliably present the phrase to the user without leaving the phrase unpresented.
本発明の別態様に係る対話システム(300)は、上記態様のいずれか1つの態様に係る情報処理装置と、上記態様に係るサーバとを含んでいる。 An interactive system (300) according to another aspect of the present invention includes the information processing apparatus according to any one of the above aspects and the server according to the above aspect.
したがって、上記対話システムは、上記態様のいずれか1つの態様に係る情報処理装置、または、上記態様に係るサーバと同様の効果を奏する。 Therefore, the dialog system has the same effect as the information processing apparatus according to any one of the aspects or the server according to the aspect.
本発明の別態様に係る情報処理装置の制御方法は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置の制御方法であって、前記音声が認識された結果に対応付けられた第1のフレーズを取得する取得ステップ(S16)と、前記第1のフレーズを提示する前に、当該第1のフレーズとは異なる第2のフレーズを前記取得ステップにおいて新たに取得した場合、当該第1のフレーズを前記ユーザに提示することが必要であるときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示する提示ステップ(S17)とを含んでいる。 An information processing apparatus control method according to another aspect of the present invention is an information processing apparatus control method for presenting a predetermined phrase to a user according to a voice uttered by the user, and the result of the recognition of the voice An acquisition step (S16) for acquiring a first phrase associated with the first phrase, and before presenting the first phrase, a second phrase different from the first phrase is newly acquired in the acquisition step In this case, when it is necessary to present the first phrase to the user, it includes a presenting step (S17) of presenting the first phrase after presenting the second phrase. .
したがって、上記情報処理装置の制御方法は、上記態様に係る情報処理装置と同様の効果を奏する。 Therefore, the control method of the information processing apparatus has the same effect as the information processing apparatus according to the aspect.
本発明の各態様に係る情報処理装置およびサーバは、コンピュータによって実現されてもよく、この場合、コンピュータを上記情報処理装置および上記サーバが備えた各手段として動作させることにより、上記情報処理装置および上記サーバをコンピュータにおいて実現させる情報処理装置の制御プログラム、サーバの制御プログラム、および、それらを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The information processing device and the server according to each aspect of the present invention may be realized by a computer. In this case, the information processing device and the server are operated by causing the computer to operate as each unit included in the information processing device and the server. A control program for an information processing apparatus that implements the server in a computer, a control program for the server, and a computer-readable recording medium that records them are also within the scope of the present invention.
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the technical means disclosed in different embodiments can be appropriately combined. Embodiments to be made are also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する装置に広く適用することができる。 The present invention can be widely applied to an apparatus that presents a predetermined phrase to the user according to the voice uttered by the user.
1a 音声
1b 音声
4a 認識結果(認識された結果)
4b 認識結果(認識された結果)
5b フレーズセット(所定のフレーズセット)
6a フレーズ(第1のフレーズ)
6b フレーズ(第2のフレーズ)
7 重要フラグ(要否情報)
14 回答取得部(取得手段)
16 音声出力部(提示手段)
18 回答格納部(格納手段)
23 回答特定部(特定手段)
24 フラグ生成部(生成手段)
25 情報送出部(送信手段)
30a 記憶部(所定の記憶部)
100 対話ロボット(情報処理装置)
101 対話ロボット(情報処理装置)
200 サーバ
300 対話システム
4b Recognition result (recognized result)
5b Phrase set (predetermined phrase set)
6a Phrase (first phrase)
6b Phrase (second phrase)
7 Important flag (necessity information)
14 Response acquisition unit (acquisition means)
16 Audio output unit (presentation means)
18 Answer storage (storage means)
23 answer identification part (identification means)
24 Flag generator (generator)
25 Information sending part (transmission means)
30a storage unit (predetermined storage unit)
100 Dialogue robot (information processing device)
101 Dialogue robot (information processing device)
200
Claims (5)
前記音声が認識された結果に対応付けられた第1のフレーズを取得する取得手段と、
前記第1のフレーズを提示する前に、当該第1のフレーズとは異なる第2のフレーズが前記取得手段によって新たに取得された場合、前記第1のフレーズを前記ユーザに提示することが必要であるときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示する提示手段とを備えたことを特徴とする情報処理装置。 An information processing apparatus that presents a predetermined phrase to the user according to the voice uttered by the user,
Obtaining means for obtaining a first phrase associated with the result of recognition of the voice;
Before presenting the first phrase, when a second phrase different from the first phrase is newly acquired by the acquisition unit, it is necessary to present the first phrase to the user. In some cases, an information processing apparatus comprising: a presentation unit that presents the first phrase after presenting the second phrase.
前記提示手段は、前記要否情報が必要であることを示すときは、前記第2のフレーズを提示した後に、前記第1のフレーズを提示することを特徴とする請求項1に記載の情報処理装置。 The acquisition means further acquires necessity information indicating whether or not it is necessary to present the first phrase to the user;
2. The information processing according to claim 1, wherein the presenting means presents the first phrase after presenting the second phrase when indicating that the necessity information is necessary. apparatus.
前記提示手段は、前記所定の記憶部に前記第1のフレーズが格納されている場合、前記第2のフレーズを提示した後に、当該第1のフレーズを当該所定の記憶部から読み出して提示することを特徴とする請求項1または2に記載の情報処理装置。 When the second phrase is newly acquired before presenting the first phrase, when it is necessary to present the first phrase to the user, the first phrase is predetermined. Storage means for storing in the storage unit of
When the first phrase is stored in the predetermined storage unit, the presenting means reads and presents the first phrase from the predetermined storage unit after presenting the second phrase. The information processing apparatus according to claim 1, wherein:
前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセットにおいて特定する特定手段と、
前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段と、
前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段とを備えたことを特徴とするサーバ。 A server that controls the information processing apparatus so as to present a predetermined phrase to the user in response to a voice uttered by the user to the information processing apparatus
A specifying means for specifying a phrase associated with the result of recognizing the voice in a predetermined phrase set;
Depending on whether or not it is necessary to present the phrase to the user, generating means for generating necessity information;
A server comprising: transmission means for transmitting the phrase and the necessity information to the information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197452A JP6265670B2 (en) | 2013-09-24 | 2013-09-24 | Information processing apparatus, server, and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197452A JP6265670B2 (en) | 2013-09-24 | 2013-09-24 | Information processing apparatus, server, and control program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064450A true JP2015064450A (en) | 2015-04-09 |
JP6265670B2 JP6265670B2 (en) | 2018-01-24 |
Family
ID=52832380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013197452A Active JP6265670B2 (en) | 2013-09-24 | 2013-09-24 | Information processing apparatus, server, and control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6265670B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019058453A1 (en) * | 2017-09-20 | 2019-03-28 | 三菱電機株式会社 | Voice interaction control device and method for controlling voice interaction |
WO2019142664A1 (en) * | 2018-01-16 | 2019-07-25 | ソニー株式会社 | Information processing device, information processing method, and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200480A (en) * | 2012-03-26 | 2013-10-03 | Fujitsu Ltd | Voice interaction system and program |
-
2013
- 2013-09-24 JP JP2013197452A patent/JP6265670B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200480A (en) * | 2012-03-26 | 2013-10-03 | Fujitsu Ltd | Voice interaction system and program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019058453A1 (en) * | 2017-09-20 | 2019-03-28 | 三菱電機株式会社 | Voice interaction control device and method for controlling voice interaction |
JPWO2019058453A1 (en) * | 2017-09-20 | 2019-12-12 | 三菱電機株式会社 | Voice dialogue control device and voice dialogue control method |
WO2019142664A1 (en) * | 2018-01-16 | 2019-07-25 | ソニー株式会社 | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6265670B2 (en) | 2018-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102660922B1 (en) | Management layer for multiple intelligent personal assistant services | |
JP6400129B2 (en) | Speech synthesis method and apparatus | |
CN103440867B (en) | Audio recognition method and system | |
WO2014208231A1 (en) | Voice recognition client device for local voice recognition | |
JP6257368B2 (en) | Information processing device | |
WO2015098306A1 (en) | Response control device and control program | |
JP2019204074A (en) | Speech dialogue method, apparatus and system | |
JP2014191030A (en) | Voice recognition terminal and voice recognition method using computer terminal | |
JP6614080B2 (en) | Spoken dialogue system and spoken dialogue method | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
JP2018045202A (en) | Voice interaction system and voice interaction method | |
JP2001086239A (en) | Voice input terminal, voice recognition device, voice communication system and voice communication method | |
JP6265670B2 (en) | Information processing apparatus, server, and control program | |
WO2015125560A1 (en) | Information processing device, voice interaction device, and control program | |
JP2018120203A (en) | Information processing method and program | |
JP6448950B2 (en) | Spoken dialogue apparatus and electronic device | |
JP6559417B2 (en) | Information processing apparatus, information processing method, dialogue system, and control program | |
JP6904225B2 (en) | Information processing device | |
CN113157240A (en) | Voice processing method, device, equipment, storage medium and computer program product | |
JPWO2018135276A1 (en) | Behavior control device, robot, control program, and control method of behavior control device | |
JP6644141B2 (en) | Response device, control method of response device, and control program | |
KR102204488B1 (en) | Communication device | |
JP2019139146A (en) | Voice recognition system and voice recognition method | |
JP2018081147A (en) | Communication device, server, control method and information processing program | |
JP7303091B2 (en) | CONTROLLER, ELECTRONIC DEVICE, CONTROL METHOD AND CONTROL PROGRAM FOR CONTROLLER |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170411 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6265670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |