JP2008249893A - Speech response device and its method - Google Patents
Speech response device and its method Download PDFInfo
- Publication number
- JP2008249893A JP2008249893A JP2007089640A JP2007089640A JP2008249893A JP 2008249893 A JP2008249893 A JP 2008249893A JP 2007089640 A JP2007089640 A JP 2007089640A JP 2007089640 A JP2007089640 A JP 2007089640A JP 2008249893 A JP2008249893 A JP 2008249893A
- Authority
- JP
- Japan
- Prior art keywords
- response
- voice
- user
- voice response
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声応答機能を持つテレビなどの家電機器に好適な音声応答装置及びその方法に関する。 The present invention relates to a voice response apparatus and method suitable for home appliances such as a television having a voice response function.
近年、音声インターフェイスを備えた一般家庭向けの製品が数多く商品化されている。特に、音声による使用方法のガイダンスにより、複雑な操作が必要となる家電機器も使いやすくなり、様々な機能を有効に活用することができるようになってきている。しかしながら、必ずしも利用者がガイダンスなどのシステム応答を聞き取り、適切な入力を行う状況であるとは限らず、利用者の状況に応じた応答処理を行う技術が必要となる。 In recent years, many products for households equipped with a voice interface have been commercialized. In particular, the usage guidance by voice makes it easier to use home appliances that require complicated operations, and various functions can be used effectively. However, this is not necessarily the situation where the user listens to a system response such as guidance and makes an appropriate input, and a technique for performing a response process according to the situation of the user is required.
そこで、特許文献1では、利用者入力の複雑さや入力までの時間などから利用者の作業負荷を推定してシステムの応答内容を変更する処理方法が提案されている。 Therefore, in Patent Document 1, a processing method is proposed in which the user's workload is estimated from the complexity of user input and the time until input, and the response content of the system is changed.
また、特許文献2では、音声対話インタフェースを持つカーナビゲーションシステムなどにおいて、車両情報より利用者の状況を判断し、応答処理を変更する機能が提案されている。 Patent Document 2 proposes a function of determining a user's situation from vehicle information and changing a response process in a car navigation system having a voice interaction interface.
また、特許文献3では、聞き手の「笑い声」や「拍手」などの情報によって応答内容を変更する機能が提案されている。 Further, Patent Document 3 proposes a function of changing the response content according to information such as “laughter” or “applause” of the listener.
また、特許文献4では利用者の入力音声から、その雑音レベルを推定し、応答内容を変更する方式が提案されている。 Patent Document 4 proposes a method of estimating the noise level from the input voice of the user and changing the response content.
また、特許文献5では、装置の音声出力に対して利用者が一定時間回答や操作の実行を行わなかった場合には、再度、入力を促す応答を出力する応答処理を行うことにより、利用者の回答を支援する方式が提案されている。
上記の背景技術のような音声応答機能や音声対話機能を備えた家電機器においては、音声応答出力時は、利用者がその応答を聞き、必要な回答や操作を実行できる状態であることが前提となっている。 For home appliances with voice response function and voice interaction function as in the background art above, it is assumed that the user can listen to the response and execute the necessary answer or operation when outputting the voice response It has become.
しかし、家庭内における利用状況を考えると、家庭内の様々な雑音により、装置の応答音声を利用者が聞き取れない状況や、装置とのやり取り以外の行為を利用者が行っていて装置の応答に対する回答や操作の実行ができない状況を考慮しなければならない。 However, considering the usage situation in the home, various noises in the home cause the situation where the user cannot hear the response voice of the device, or the user is performing actions other than the exchange with the device and the response to the device response You must consider situations where you cannot perform answers or operations.
例えば、音声応答機能を持つテレビの操作を考えると、音声応答が出力されたときに、利用者の周辺において他の家電機器の動作音があり音声応答装置の音声が聞こえない場合が考えられる。また、応答出力が行われている途中で利用者が携帯電話で話し始めるなど、装置の応答内容に対して回答や操作の実行ができない場合が考えられる。 For example, when considering an operation of a television having a voice response function, when a voice response is output, there may be a case where there is an operation sound of other home appliances around the user and the voice of the voice response device cannot be heard. In addition, there may be a case where an answer or operation cannot be executed with respect to the response content of the apparatus, such as when the user starts talking on the mobile phone while the response output is being performed.
このように、応答出力が聞こえず利用者が入力できない場合において、音声応答装置が処理を中断せずに進めてしまうと、利用者にとって意図しない動作が実行されることがある。また、音声応答装置に関係しない行為を行っている場合に応答出力を繰り返し行うと、利用者には不要な応答出力が必要となる。 As described above, when the response output cannot be heard and the user cannot input, if the voice response device proceeds without interrupting the process, an operation unintended for the user may be executed. Further, if the response output is repeated when an action not related to the voice response device is performed, an unnecessary response output is required for the user.
そこで、本発明は、上記問題点に鑑み利用者の行動に対応した反応が可能な音声応答装置及びその方法を提供する。 In view of the above problems, the present invention provides a voice response device capable of reacting to a user's action and a method thereof.
本発明は、利用者に対して音声応答する音声応答装置において、前記音声応答を行った時の利用者の周囲の音に関する周囲音情報を取得する周囲音声取得部と、前記周囲音情報に含まれる利用者音声、応答音声、環境音を分析し、(1)前記利用者が前記応答音声の回答している状態、(2)前記利用者に前記応答音声が聞こえていない状態、または、(3)前記利用者が前記音声応答に回答できない状態かを判断する聴取状態判断部と、(1)前記利用者が前記音声応答に回答している場合は、前記回答に対する新たな音声応答を生成し、(2)前記利用者に前記応答音声が聞こえていない場合は、前記音声応答を繰り返し、(3)前記利用者が前記音声応答に回答できない場合は、前記音声応答を中断する応答内容生成部と、を具備する音声応答装置である。 The present invention provides a voice response device for voice response to a user, an ambient voice acquisition unit that acquires ambient sound information related to sounds around the user when the voice response is made, and the ambient sound information (1) a state in which the user answers the response voice, (2) a state in which the user does not hear the response voice, or ( 3) a listening state determination unit that determines whether the user cannot answer the voice response; and (1) if the user answers the voice response, a new voice response is generated for the answer. (2) If the user does not hear the response voice, repeat the voice response. (3) If the user cannot answer the voice response, generate a response content that interrupts the voice response. And comprising It is a voice response unit.
本発明によれば、利用者の聴取状態を判断することにより利用者が音声応答装置への回答が困難な場合でも、利用者の状況に柔軟な応答の制御が可能となる。 According to the present invention, even when it is difficult for the user to answer the voice response device by determining the listening state of the user, it is possible to control the response flexibly according to the situation of the user.
以下図面を参照して、本発明の一実施形態に係る音声応答装置について説明する。 A voice response device according to an embodiment of the present invention will be described below with reference to the drawings.
(第1の実施形態)
本発明の第1の実施形態に係る音声応答装置10について図1〜図8に基づいて説明する。
(First embodiment)
A
(1)音声応答装置の構成
図1は、本実施形態に係る音声応答装置10の構成例である。音声応答装置10は、入力取得部101、応答内容生成部102、応答出力部103、周囲音取得部104、聴取状態判断部105から構成される。
(1) Configuration of Voice Response Device FIG. 1 is a configuration example of a
(1−1)入力取得部101
入力取得部101は、利用者からの入力を取得する。例えば、マイクなどによって利用者の発した音声信号を取り込み、音声判断処理を行い、テキスト情報に変換して出力する。あるいは、リモートコントローラの赤外線信号などを受信し、受信内容を出力する。
(1-1)
The
(1−2)応答内容生成部102
応答内容生成部102は、入力取得部101で取得した利用者の入力情報に基づき、応答内容を決定する。
(1-2) Response
The response
応答内容生成部102は、アプリケーションに入力情報を出力し、アプリケーションがデータベースシステムの場合は、入力された検索要求に対応する検索結果を取得し、検索結果に基づき、応答内容を生成する。
The response
また、応答内容生成部102は利用者の入力の有無に係らず、設定した時刻やアプリケーションにおいて状況が変化した場合に、応答音声が必要となる場合は、応答内容を生成し出力することができる。
In addition, the response
(1−3)応答出力部103
応答出力部103は、応答内容生成部2にて生成した応答内容を、例えば、テキストとして取得し、合成音に変換して出力する。なお、出力する音声は、予め録音をしていた音声を再生するだけでもよい。
(1-3)
The
(1−4)周囲音取得部104
周囲音取得部104は、利用者のそばにあるマイク、利用者のそばにあるリモートコントローラなどの装置に付属されたマイク、利用者の傍にいるロボットに付属されたマイク、または、壁や天井に備え付けられたマイクに入力された周囲音情報を取得する。
(1-4) Ambient
The ambient
(1−5)聴取状態判断部105
聴取状態判断部105は、周囲音取得部104の出力である周囲音情報を分析し、分析結果を利用して予め決められた聴取状態の判断基準に基づき利用者の聴取状態を判断し、その判断結果を聴取状態判断結果として出力する。
(1-5) Listening
The listening
(2)聴取状態判断方法
聴取状態の判断は、利用者の周囲音の分析を行い、決めたルールに基づき聴取判断内容を決定する。以下、具体例を説明する。
(2) Listening state determination method The listening state is determined by analyzing the ambient sounds of the user and determining the listening determination content based on the determined rules. Specific examples will be described below.
(2−1)第1の例
図2は、聴取状態判断方法の第1の例を示した図である。
(2-1) First Example FIG. 2 is a diagram illustrating a first example of the listening state determination method.
聴取状態判断部105では、応答出力部103より出力された応答音声の発声開始時刻及び発声終了時刻情報を取得し、取得した応答音声の発声開始時刻から応答音声の発声終了時刻までの周囲音情報を分析し、平均音量情報を取得する。平均音量が基準値を上回った場合には、聴取状態が「聞こえている」とし平均音量が一定値を下回った場合には聴取状態が「聞こえていない」とし、この聴取状態判断結果を出力する。この基準値は、予め決められた値でもよく、また、過去の装置利用時において、応答音声に対する利用者の回答が行われた時点の周囲音情報における装置応答音声の音量の平均値を元に算出してもよい。
The listening
なお、本実施形態では、平均音量を利用したが、周囲音情報より、ノイズレベルを計測し、所定の値を上回った場合には、「聞こえていない」とし、聴取状態判断結果としても良い。例えば、音声信号とノイズレベルの比率を計算し、その値が0dB以上であった場合には、「聞こえていない」と判断してもよい。 In the present embodiment, the average sound volume is used. However, when the noise level is measured from the ambient sound information and exceeds a predetermined value, “not audible” may be determined, and the listening state determination result may be used. For example, the ratio between the audio signal and the noise level may be calculated, and if the value is 0 dB or more, it may be determined that “not audible”.
(2−2)第2の例
図3は、聴取状態判断方法の第2の例を示した図である。
(2-2) Second Example FIG. 3 is a diagram showing a second example of the listening state determination method.
聴取状態判断部105では、周囲音情報より、発声区間及び発声区間の発声者を取得する。すなわち、応答出力部103より出力された応答音声の発声時刻及び発声終了時刻情報を取得し、応答音声の発声時間内において、利用者自身の発声と利用者以外の発声が含まれていることが確認された場合には、「利用者が他の話者に話していて回答できない」という判断を行い、聴取状態判断結果として出力する。
The listening
また、応答音声の発声時間内において、利用者音声区間の割合が例えば50%といった、ある値より大きかった場合には、「利用者が他の話者と話していて回答できない」という判断をしてもよい。 Also, if the percentage of the user voice interval is larger than a certain value, for example, 50% within the response voice utterance time, it is judged that the user is speaking with another speaker and cannot answer. May be.
(2−3)第3の例
図4は、聴取状態判断方法の第3の例を示した図である。
(2-3) Third Example FIG. 4 is a diagram showing a third example of the listening state determination method.
聴取状態判断部105では、周囲音情報より、発声区間及び発声区間の発声者を取得する。すなわち、応答出力部103より出力された応答音声の発声時刻及び発声終了時刻情報を取得し、周囲音情報より取得した利用者の発声区間に、応答音声の発声開始時刻、または、発声終了時刻が含まれている場合には、「利用者が他の話者と話していて回答できない」と判断し、判断結果を出力する。
The listening
(2−4)第4の例
図5は、聴取状態判断方法の第4の例を示した図である。
(2-4) Fourth Example FIG. 5 is a diagram showing a fourth example of the listening state determination method.
聴取状態判断部105では、周囲音情報より、装置利用に関係しない人間の発声以外の音の有無を判定する。有無を判断する音は、物がぶつかる時の音などの人間の発声以外の音や、電話やインターホンの呼び出し音など装置利用環境で発生しうる音で、過去の装置利用時には現れなかった音や、過去の装置利用時において、応答装置に対する回答が行なわれなかった場合に発生していた音などである。
The listening
このような人間の発声以外の音の音響的な特徴が周囲音情報に含まれている場合には、装置利用に関連しない特定の音があると判断する。 When the ambient sound information includes such acoustic features other than human speech, it is determined that there is a specific sound that is not related to the use of the device.
すなわち、応答出力部103より出力された応答音声の発声時刻及び発声終了時刻情報を取得し、応答音声の発声時間内あるいは、発声開始時刻の10秒前から発声終了時刻までといった一定の区間内において装置利用に関連しない特定の音が検出された場合には、利用者が「他のことをしていて回答できない」と判断し、判断結果を出力する。
That is, the utterance time and utterance end time information of the response voice output from the
(3)応答内容の生成
聴取状態判断部105によって取得された聴取状態判断結果に基づき、応答内容生成部102は、応答内容を生成する。
(3) Generation of Response Content Based on the listening state determination result acquired by the listening
「聞こえている」と判断され、利用者からその回答があった場合には、その回答に対する応答を生成する。 If it is determined that the user is “sounding” and a response is received from the user, a response to the response is generated.
一方、聴取状態が「聞こえていない」と判断された場合には、同一内容の応答内容を、音量を大きくして出力するか、聞こえやすいように音質(例えば、男性の声から女性の声)を変えて出力する。 On the other hand, if it is determined that the listening state is “not heard”, the response content with the same content is output at an increased volume, or the sound quality (for example, a male voice to a female voice) is easily heard. Change the output.
また、聴取状態が「利用が他の話者と話していて回答できない」あるいは「他のことをしていて回答できない」と判断された場合には、音声応答装置10の中断を示す応答内容を生成し、出力すると共に、音声応答装置10はその動作を中断する。
If it is determined that the listening state is “cannot answer because the user is talking to another speaker” or “cannot answer because he / she is doing other things”, the response content indicating interruption of the
なお、応答音声終了時刻から一定時間経過後、聴取状態判断結果に基づいた応答内容の生成を行うように設定してもよい。 In addition, you may set so that the response content based on a listening state judgment result may be produced | generated after progress for a fixed time from response voice end time.
また、音声応答装置10の動作中断時においても、一定区間毎に利用者の聴取状態を判断し、「他のことをしていて回答できない」「利用者が他の話者と話していて回答できない」という判断がなされなくなった場合には、応答内容生成部102は再度中断状態が終了を示す応答内容を生成し出力すると共に、音声応答装置10の動作を再開する。
Even when the operation of the
以上のような聴取状態判断結果に基づく応答内容の生成は、予め聴取状態判断に対応した応答生成方法を規定しておくことで、実現することができる。 The generation of the response content based on the listening state determination result as described above can be realized by prescribing a response generation method corresponding to the listening state determination.
(4)処理手順
以下、音声応答装置10の処理手順Aの詳細に説明する。なお、図6は処理手順Aの処理内容を説明するフローチャートである。
(4) Processing Procedure Hereinafter, the processing procedure A of the
ステップA1において、周囲音抽出を開始する。 In step A1, ambient sound extraction is started.
ステップA2において、音声応答装置10が応答音声を出力する。
In step A2, the
ステップA3において、応答音声出力後の聴取状態判断を行い、聴取状態判断結果が「聞こえている」と判断される場合にはステップA4へ進み、聴取状態判断結果が「聞こえていない」「他の人と話していて回答できない」「他のことをしていて回答できない」といった装置応答音声が伝達されていないと判断される場合にはステップA5へ進む。 In step A3, the listening state is determined after the response voice is output. If it is determined that the listening state determination result is “listening”, the process proceeds to step A4, and the listening state determination result is “not heard” or “other”. If it is determined that the device response voice such as “I cannot answer by talking to a person” or “I cannot answer by doing other things” is not transmitted, the process proceeds to Step A5.
ステップA4において、所定時間内に利用者の入力があった場合には、利用者の入力に対する処理を実行する。所定時間内に利用者の入力がなかった場合には再度応答内容を出力するためステップA2へ進む。 In step A4, if there is a user input within a predetermined time, processing for the user input is executed. If there is no user input within the predetermined time, the process proceeds to step A2 in order to output the response contents again.
ステップA5において、聴取状態判断結果が「聞こえていない」と判断された場合には、再度応答出力を行うためステップA2へ進む。この場合、応答出力の音量が大きくなるように、または、小さくなるように変更してもよい。また、聴取状態判断結果が「他の人と話していて回答できない」「他のことをしていて回答できない」などのように装置応答に対する入力を行うことが困難な聴取状態である場合には、応答装置の動作を中断する。 If it is determined in step A5 that the listening state determination result is “not audible”, the process proceeds to step A2 to output a response again. In this case, the response output volume may be increased or decreased. Also, if the listening state judgment result is a listening state in which it is difficult to input the device response, such as "I can't answer because I'm talking to another person" or "I can't answer because I'm doing other things" The operation of the response device is interrupted.
(5)具体例
上記処理について、音声応答装置10を内蔵したテレビを具体例にして詳しく説明する。
(5) Specific Example The above process will be described in detail with a specific example of a television incorporating the
図7は、音声応答装置10を内蔵したテレビと利用者のやり取りの例であり、野球の結果をデータベースとして管理していて、利用者からの問い合わせに回答すると共に、関連する映像再生が可能なテレビを想定している。
FIG. 7 is an example of user interaction with a television with a built-in
図7に示した対話例では、装置利用時において、装置応答2の出力中に利用者が携帯電話で他の人と話し出し回答ができなくなった場面を想定したものであり、このような場面での処理について説明する。 The dialogue example shown in FIG. 7 assumes a situation in which the user cannot speak and answer with another person on the mobile phone while the device response 2 is being output. The process will be described.
音声応答装置10は、利用者に「ホームランシーンを再生しますか」と問い合わせる装置応答2が再生終了後、聴取状態判断部105は周囲音声取得部103の出力を受け、聴取状態判断結果を出力する。
The
聴取状態を判断するため、ここでは、聴取状態判断ルールを用いている。図8は聴取状態判断ルールの一例である。 Here, in order to determine the listening state, a listening state determination rule is used. FIG. 8 is an example of the listening state determination rule.
例えば、携帯電話で話をしていて、応答音声再生中の利用者発声時間が基準値を超えた場合、聴取状態判断部105は聴取状態判断ルールに基づき「他の人と話していて回答できない」という判断結果として出力する。
For example, when talking on a mobile phone and the user utterance time during response voice playback exceeds a reference value, the listening
「他の人と話していて回答できない」という聴取状態判断結果を取得した応答内容生成部102は、装置応答2に対する入力を行うことが困難として、応答処理を中断することにより、音声応答装置10の不要な応答出力を中断することができる。また、このとき装置応答3として、「応答を中断します。」と応答してもよい。
The response
応答処理の動作は中断するが、周囲音情報を一定間隔で取得し、利用者の発声が検出されなくなった場合は、中断していた応答処理を再開し、「Aチームのホームランシーンが再生できます」といった応答出力を行うことにより、利用者が継続してテレビとのやり取りを続けることができる。 Although the response processing operation is interrupted, ambient sound information is acquired at regular intervals, and if the user's utterance is no longer detected, the interrupted response processing is resumed and “Team A's home run scene can be reproduced. The user can continue to interact with the television by performing a response output such as “Masu”.
なお、このような聴取状態判断結果に対する処理は予め規定されており、その処理方法に基づいて動作すればよく、聴取状態判断結果が「他の人と話していて回答できない」である場合でも、応答の重要性によっては、再度応答を繰り返すように処理を行っても良い。 It should be noted that the processing for such a listening state determination result is prescribed in advance, and it is only necessary to operate based on the processing method, and even when the listening state determination result is `` speaking with another person and cannot answer '', Depending on the importance of the response, processing may be performed so that the response is repeated again.
(6)効果
このように本実施形態によれば、利用者の聴取状態に応じた音声応答の制御が可能となり、利用者が音声応答装置への回答ができない状態になっても、音声応答装置10が意図しない動作をせず利用者に余分な負担を生じない。
(6) Effect As described above, according to the present embodiment, it is possible to control the voice response according to the listening state of the user, and the voice response device even when the user cannot answer the voice response device. 10 does not operate unintentionally and does not cause an extra burden on the user.
また、利用者が音声応答装置10とは関係のない行為を行っている場合に、音声応答装置10が利用者の行為を阻害する応答を出力することがなく、利用者に負担をかけない。
In addition, when the user is performing an action unrelated to the
(第2の実施形態)
次に、本発明の第2の実施形態に係る音声応答装置20について図9に基づいて説明する。
(Second Embodiment)
Next, a
(1)音声応答装置の構成
図9は、本実施形態に係る音声応答装置20の構成例である。
(1) Configuration of Voice Response Device FIG. 9 is a configuration example of the
音声応答装置20は、入力取得部201、応答内容生成部202、応答出力部203から構成される。聴取状態判断装置21は、周囲音取得部211、聴取状態判断部212から構成される。音声応答装置20と聴取状態判断装置21は、例えば無線LANなどのネットワークで接続されており、必要な情報のやり取りが自由に行えるようになっている。
The
(1−1)入力取得部201
入力取得部201は、例えば、マイクなどによって利用者の発した音声信号を取り込み、音声認識処理を行い、テキスト情報に変換して出力する。あるいは、リモートコントローラの赤外線信号などを受信し、受信内容を出力する。
(1-1)
For example, the
(1−2)応答内容生成部202
応答内容生成部202は、入力取得部201で取得した利用者の入力情報に基づき、応答内容を決定する。
(1-2) Response
The response
例えば、応答内容生成部202は、アプリケーションに入力情報を出力し、例えば、アプリケーションがデータベースシステムの場合は、入力された検索要求に対応する検索結果を取得し、検索結果に基づき、応答内容を生成する。
For example, the response
応答内容生成部202は利用者の入力の有無に係らず、設定した時刻やアプリケーションにおいて状況が変化した場合に、応答音声が必要となる場合は、応答内容を生成し出力することが可能でなる。
The response
(1−3)応答出力部203
応答出力部203は、応答内容生成部202にて生成した応答内容を、例えば、テキストとして取得し、合成音に変換して出力する。なお、出力する音声は予め録音をしていた音声を再生するだけでもよい。
(1-3)
The
(1−4)周囲音取得部204
周囲音取得部204は、利用者のそばにあるマイク、利用者の傍にいるロボットに付属されたマイク、または、壁や天井に備え付けられたマイクに入力された周囲音情報を取得する。
(1-4) Ambient
The ambient
(1−5)聴取状態判断部205
聴取状態判断部205は、周囲音取得部104の出力である周囲音情報を分析し、分析結果を利用して予め決められた聴取状態の判断基準に基づき利用者の聴取状態を判断し、聴取状態判断結果を音声応答装置20へと出力する。
(1-5) Listening
The listening
聴取状態判断部205において、聴取状態を判断するために音声応答装置20の応答発声開始時刻が必要な場合は、音声応答装置20より取得することが可能である。
When the listening
なお、音声応答装置20の発声開始時刻が取得できない場合でも、周囲音取得情報を分析し、音声応答装置20からの応答音声区間を特定することにより聴取状態判断が可能となる。
Even when the voice start time of the
(2)応答の内容
応答内容生成部202は応答処理を出力後、聴取状態判断部205に聴取状態判断結果を問い合わせ、聴取状態判断結果に応じて応答処理内容を決定する。なお、応答内容生成部202は所定時間利用者からの入力が行われなかった場合に、聴取状態判断結果を取得してもよい。
(2) Response content The response
(3)効果
以上のような、本実施形態の構成により、音声応答装置20が周囲音情報を取得するためのマイクを備えていなくても、聴取状態判断結果に基づいた応答内容生成の制御が可能となる。
(3) Effect With the configuration of the present embodiment as described above, the response content generation control based on the listening state determination result is possible even if the
また、聴取状態判断部105の処理量が膨大である場合にも、音声応答装置20には負荷がかからないため、音声応答装置20の処理に影響与えることなく応答内容生成の制御が可能となる。
In addition, even when the processing amount of the listening
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
(Example of change)
The present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the gist thereof.
上記実施形態は、音声応答機能を持つテレビとして説明したが、例えば、音声応答による受付を行うシステムやカーナビゲーションなどの音声応答機能を持つ機器において適用することが可能である。 Although the above embodiment has been described as a television having a voice response function, for example, the present invention can be applied to a system that accepts a voice response or a device having a voice response function such as car navigation.
また、上記実施形態は、利用者からの入力を音声による入力として説明したが、利用者入力がタッチパネルやリモコン入力であることを前提とした音声応答装置にも適用することができる。 Moreover, although the said embodiment demonstrated the input from a user as a voice input, it can be applied also to the voice response apparatus on the assumption that a user input is a touch panel or remote control input.
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
10 音声応答装置
101 入力取得部
102 応答内容生成部
103 応答出力部
104 周囲音取得部
105 聴取状態判断部
DESCRIPTION OF
Claims (11)
前記音声応答を行った時の利用者の周囲の音に関する周囲音情報を取得する周囲音声取得部と、
前記周囲音情報に含まれる利用者音声、応答音声、環境音を分析し、(1)前記利用者が前記応答音声の回答している状態、(2)前記利用者に前記応答音声が聞こえていない状態、または、(3)前記利用者が前記音声応答に回答できない状態かを判断する聴取状態判断部と、
(1)前記利用者が前記音声応答に回答している場合は、前記回答に対する新たな音声応答を生成し、(2)前記利用者に前記応答音声が聞こえていない場合は、前記音声応答を繰り返し、(3)前記利用者が前記音声応答に回答できない場合は、前記音声応答を中断する応答内容生成部と、
を具備する音声応答装置。 In a voice response device for voice response to a user,
An ambient sound acquisition unit that acquires ambient sound information related to sounds around the user when performing the audio response;
Analyzing user voice, response voice, and environmental sound included in the ambient sound information, (1) the user is answering the response voice, (2) the user is hearing the response voice Or (3) a listening state determination unit that determines whether the user cannot answer the voice response;
(1) When the user answers the voice response, a new voice response is generated for the answer. (2) When the user does not hear the response voice, the voice response is generated. (3) If the user cannot answer the voice response, a response content generation unit that interrupts the voice response;
A voice response device comprising:
前記応答内容生成部は、前記認識した利用者音声に基づいて前記音声応答を生成する、
請求項1記載の音声応答装置。 Comprising a voice recognition unit for recognizing voice uttered by the user;
The response content generation unit generates the voice response based on the recognized user voice.
The voice response device according to claim 1.
請求項1記載の音声応答装置。 The listening state determination unit determines that the voice response is not heard by the user when the volume of the response voice included in the ambient sound information does not reach a reference value.
The voice response device according to claim 1.
前記応答内容生成部は、前記応答音声の音量を大きくして繰り返す、
請求項1記載の音声応答装置。 When the listening state determination unit determines that the response voice is not heard,
The response content generation unit repeats with the volume of the response voice increased.
The voice response device according to claim 1.
請求項1記載の音声応答装置。 The listening state determination unit determines whether or not the user cannot answer the voice response based on a sound other than the response voice included in the ambient sound information within the utterance time of the response voice. To
The voice response device according to claim 1.
請求項5記載の音声応答装置。 The listening state determination unit is in a state where the user cannot answer the voice response when the ambient sound information within the utterance time of the response voice includes the user voice and voices other than the user. To judge,
The voice response device according to claim 5.
請求項5記載の音声応答装置。 When the utterance start time or the utterance end time of the response voice is included in the utterance section of the user acquired from the ambient sound information, the listening state determination unit determines that the user Judge that it is not possible to answer
The voice response device according to claim 5.
請求項5記載の音声応答装置。 The listening state determination unit determines that the user is unable to answer the voice response when any physical sound is included in the ambient sound information within the utterance time of the response voice.
The voice response device according to claim 5.
請求項1記載の音声応答装置。 Based on ambient sound information acquired after the interruption, comprising a response restart processing unit for restarting the voice response;
The voice response device according to claim 1.
前記音声応答を行った時の利用者の周囲の音に関する周囲音情報を取得する周囲音声取得ステップと、
前記周囲音情報に含まれる利用者音声、応答音声、環境音を分析し、(1)前記利用者が前記応答音声の回答している状態、(2)前記利用者に前記応答音声が聞こえていない状態、または、(3)前記利用者が前記音声応答に回答できない状態かを判断する聴取状態判断ステップと、
(1)前記利用者が前記音声応答に回答している場合は、前記回答に対する新たな音声応答を生成し、(2)前記利用者に前記応答音声が聞こえていない場合は、前記音声応答を繰り返し、(3)前記利用者が前記音声応答に回答できない場合は、前記音声応答を中断する応答内容生成ステップと、
を具備する音声応答方法。 In the voice response method for voice response to the user,
Ambient voice acquisition step of acquiring ambient sound information related to a user's ambient sound when performing the voice response;
Analyzing user voice, response voice, and environmental sound included in the ambient sound information, (1) the user is answering the response voice, (2) the user is hearing the response voice Or (3) a listening state determination step for determining whether the user cannot answer the voice response;
(1) When the user answers the voice response, a new voice response is generated for the answer. (2) When the user does not hear the response voice, the voice response is generated. Repetitively, (3) when the user cannot answer the voice response, a response content generation step for interrupting the voice response;
A voice response method comprising:
前記音声応答を行った時の利用者の周囲の音に関する周囲音情報を取得する周囲音声取得機能と、
前記周囲音情報に含まれる利用者音声、応答音声、環境音を分析し、(1)前記利用者が前記応答音声の回答している状態、(2)前記利用者に前記応答音声が聞こえていない状態、または、(3)前記利用者が前記音声応答に回答できない状態かを判断する聴取状態判断機能と、
(1)前記利用者が前記音声応答に回答している場合は、前記回答に対する新たな音声応答を生成し、(2)前記利用者に前記応答音声が聞こえていない場合は、前記音声応答を繰り返し、(3)前記利用者が前記音声応答に回答できない場合は、前記音声応答を中断する応答内容生成機能と、
を実現する音声応答プログラム。 In a voice response program realized by a computer for voice response to a user,
Ambient voice acquisition function for acquiring ambient sound information related to the surrounding sounds of the user when performing the voice response;
Analyzing user voice, response voice, and environmental sound included in the ambient sound information, (1) the user is answering the response voice, (2) the user is hearing the response voice Or (3) a listening state determination function for determining whether the user cannot answer the voice response;
(1) When the user answers the voice response, a new voice response is generated for the answer. (2) When the user does not hear the response voice, the voice response is generated. (3) If the user cannot answer the voice response, a response content generation function for interrupting the voice response;
Voice response program that realizes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007089640A JP2008249893A (en) | 2007-03-29 | 2007-03-29 | Speech response device and its method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007089640A JP2008249893A (en) | 2007-03-29 | 2007-03-29 | Speech response device and its method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008249893A true JP2008249893A (en) | 2008-10-16 |
Family
ID=39974925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007089640A Pending JP2008249893A (en) | 2007-03-29 | 2007-03-29 | Speech response device and its method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008249893A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708507A (en) * | 2019-03-18 | 2020-09-25 | 柯尼卡美能达株式会社 | Audio information processing device and recording medium |
JP2021051212A (en) * | 2019-09-25 | 2021-04-01 | トヨタ自動車株式会社 | Information processing method |
JP2022033841A (en) * | 2020-06-23 | 2022-03-02 | 株式会社ユピテル | System and program |
-
2007
- 2007-03-29 JP JP2007089640A patent/JP2008249893A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708507A (en) * | 2019-03-18 | 2020-09-25 | 柯尼卡美能达株式会社 | Audio information processing device and recording medium |
CN111708507B (en) * | 2019-03-18 | 2023-06-30 | 柯尼卡美能达株式会社 | Sound information processing device and recording medium |
JP2021051212A (en) * | 2019-09-25 | 2021-04-01 | トヨタ自動車株式会社 | Information processing method |
JP7259680B2 (en) | 2019-09-25 | 2023-04-18 | トヨタ自動車株式会社 | Information processing method |
JP2022033841A (en) * | 2020-06-23 | 2022-03-02 | 株式会社ユピテル | System and program |
JP7403171B2 (en) | 2020-06-23 | 2023-12-22 | 株式会社ユピテル | System and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922095B2 (en) | Device selection for providing a response | |
US10079017B1 (en) | Speech-responsive portable speaker | |
US11204685B1 (en) | Voice communication targeting user interface | |
JP2006504130A (en) | Device control based on voice | |
JP2005084253A (en) | Sound processing apparatus, method, program and storage medium | |
US9792901B1 (en) | Multiple-source speech dialog input | |
JP2014191029A (en) | Voice recognition system and method for controlling voice recognition system | |
KR20190024775A (en) | Headphone system | |
JP2011118822A (en) | Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program | |
WO2017141530A1 (en) | Information processing device, information processing method and program | |
WO2018034077A1 (en) | Information processing device, information processing method, and program | |
CN109473097B (en) | Intelligent voice equipment and control method thereof | |
US20240096343A1 (en) | Voice quality enhancement method and related device | |
JP2019184809A (en) | Voice recognition device and voice recognition method | |
JP6678315B2 (en) | Voice reproduction method, voice interaction device, and voice interaction program | |
JP2007334968A (en) | Voice switching apparatus | |
JP2008249893A (en) | Speech response device and its method | |
WO2018198791A1 (en) | Signal processing device, method, and program | |
JP5251588B2 (en) | Mobile phone terminal device and method for determining call transmission | |
JP7456387B2 (en) | Information processing device and information processing method | |
JP2005192004A (en) | Headset, and reproducing method for music data of the same | |
JP2018165805A (en) | Interactive device, method for controlling interactive device, and program | |
JP2014171202A (en) | Video reproduction device or voice reproduction device having temporary stop function | |
JP2018081147A (en) | Communication device, server, control method and information processing program | |
WO2020066154A1 (en) | Information processing device, information processing method, computer program, and dialogue system |