JP6629172B2 - Dialogue control device, its method and program - Google Patents
Dialogue control device, its method and program Download PDFInfo
- Publication number
- JP6629172B2 JP6629172B2 JP2016229908A JP2016229908A JP6629172B2 JP 6629172 B2 JP6629172 B2 JP 6629172B2 JP 2016229908 A JP2016229908 A JP 2016229908A JP 2016229908 A JP2016229908 A JP 2016229908A JP 6629172 B2 JP6629172 B2 JP 6629172B2
- Authority
- JP
- Japan
- Prior art keywords
- scenario
- dialogue
- response
- start index
- talking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、対話型ロボットや音声リモコン等のコンピュータによる対話技術に関する。 The present invention relates to a computer-based interactive technology such as an interactive robot and a voice remote controller.
コンピュータによる対話技術の従来技術として特許文献1が知られている。図1は特許文献1の対話装置の機能ブロック図を示す。応答部93によって、ユーザ発話の入力文字列に対して、単語列を取得すると共に、抽象化された文字列を取得する。次に、単語パターンデータベース91又は抽象化パターンデータベース92に記憶された単語パターン又は抽象化パターンから、取得した単語列と一致すると判断される単語パターン又は抽象化パターンを検索する。一致すると判断される単語パターン又は抽象化パターンが検索されると、応答部93は、検索された単語パターン又は抽象化パターンの後の発話データの単語列を用いて応答する。
しかしながら、従来技術では、応答をするかしないかの選択しかない。そのため、何らかの音声に対して応答すべきか否かが不確かな場合であっても、全く応答しないか、不確かな情報に基づき応答するかしか選択できない。そのため、誤った応答となってしまう可能性が高い。人間が話しかけに応答する場合、自分に対する話しかけかどうかがあやふやな場合には、質問で聞き返したり、そちらのほうを向いて自分への話しかけであるかを確認したりする。 However, in the prior art, there is no choice but to respond or not. Therefore, even if it is uncertain whether or not to respond to any voice, it is only possible to select whether to respond at all or to respond based on uncertain information. Therefore, there is a high possibility that an incorrect response will result. When a human responds to a talk, if it is unclear whether he is talking to himself or not, he / she asks a question and turns to look at it to see if it is talking to himself.
本発明は、人間の行う上述のような確認動作を行うように対話装置を制御し、対話装置の誤った応答を低減することができる対話制御装置、その方法、及びプログラムを提供することを目的とする。 An object of the present invention is to provide a dialogue control device, a method thereof, and a program which can control a dialogue device so as to perform the above-described confirmation operation performed by a human and reduce an erroneous response of the dialogue device. And
上記の課題を解決するために、本発明の一態様によれば、対話制御装置は、(i)対話装置側から対話の契機となる音声を出力して対話を開始する話しかけシナリオ、(ii)利用者側からの発話に対して応答する応答シナリオ、及び、(iii)利用者に対して対話を開始するか否かを確認する確認シナリオを記憶するシナリオ記憶部と、対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択するシナリオ選択部を含む。 In order to solve the above-described problems, according to one aspect of the present invention, a dialogue control apparatus includes: (i) a talking scenario that starts a dialogue by outputting a voice that triggers a dialogue from the dialogue apparatus side; (ii) A scenario storage unit for storing a response scenario for responding to an utterance from the user, and (iii) a confirmation scenario for confirming whether or not to start a dialog with the user; Speaking start index S indicating whether or not to start a dialogue by outputting a voice as a trigger, and a response start index R indicating whether to respond to a certain voice as an input, Each of J and K is an integer of 1 or more , and a magnitude relationship between a talking start index S and J thresholds Th s, 1 , Th s, 2 , ..., Th s, J , and a response start index R And the K thresholds Thr , 1 , Thr , 2 ,..., Thr , K , based on the magnitude relationship between the talking scenario, the response scenario, or And a scenario selection unit for selecting a confirmation scenario.
上記の課題を解決するために、本発明の他の態様によれば、対話制御方法は、シナリオ記憶部には、(i)対話装置側から対話の契機となる音声を出力して対話を開始する話しかけシナリオ、(ii)利用者側からの発話に対して応答する応答シナリオ、及び、(iii)利用者に対して対話を開始するか否かを確認する確認シナリオが記憶されるものとし、シナリオ選択部が、対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択するシナリオ選択ステップを含む。 According to another embodiment of the present invention, there is provided a dialogue control method, comprising the steps of: (i) outputting a voice that triggers a dialogue from a dialogue device side to a scenario storage unit to start the dialogue; (Ii) a response scenario for responding to the utterance from the user, and (iii) a confirmation scenario for confirming whether or not to start dialogue with the user. The scenario selection unit outputs a voice that triggers the dialogue from the dialogue device side to indicate whether or not the dialogue should be started, and a talking start index S, and whether to respond to a certain voice. , And J and K are each an integer of 1 or more, and the talking start index S and J thresholds Th s, 1 , Th s, 2 , ..., Th s, J Based on the magnitude relationship between the response start index R and the K thresholds Thr , 1 , Thr , 2 , ..., Thr , K. Includes a scenario selection step of selecting a betting scenario, a response scenario, or a confirmation scenario.
本発明によれば、誤った応答を低減することができるという効果を奏する。 ADVANTAGE OF THE INVENTION According to this invention, there exists an effect that an incorrect response can be reduced.
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described. In the drawings used in the following description, components having the same functions and steps performing the same processing are denoted by the same reference numerals, and redundant description will be omitted.
<第一実施形態>
図2は第一実施形態に係る対話制御装置100の機能ブロック図を、図3はその処理フローを示す。
<First embodiment>
FIG. 2 is a functional block diagram of the
この対話制御装置100は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。対話制御装置100は、開始指標計算部110と対応決定部120とを含む。
The
対話制御装置100は、マイクロホンアレイ61の出力信号x(t0)に基づくデータと、カメラ71のイメージセンサの出力信号y(u)に基づくデータと、人感センサ81の出力信号I7(t7)とを入力とし、図示しない対話装置を動作させるための制御信号z(t8)を出力する。制御信号z(t8)は、対話装置に実行させる動作に応じて適宜変更すればよい。例えば、(i)対話装置が音声による対話を行うのであれば、発話に対応する再生信号を制御信号z(t8)として出力し、対話装置のスピーカで再生すればよいし、(ii)対話装置が非言語コミュニケーション(例えば、身ぶり)により意思表示を行うのであれば、非言語コミュニケーションに対応する駆動信号を制御信号z(t8)として出力し、対話装置のモータなどを駆動させ機械的動作により所望の非言語コミュニケーションを行えばよいし、(iii)対話制御装置100が文字やイラスト、所定の意味を持つ光信号により対話を行うのであれば、発話に対応する画像データ、動画データ、LEDの点滅をさせる信号を制御信号z(t8)として出力し、対話装置のディスプレイやLED等で再生し、文字やイラスト、光信号等を使って対話を実現する。
The
なお、t0,u,t7はそれぞれマイクロホンアレイ61、カメラ71のイメージセンサ、人感センサ81のサンプル番号またはサンプル番号に対応する時刻を示す。それぞれのサンプリング周期は必ずしも一致しないため、異なるサンプル番号を使って表す。またt8は出力信号の番号を示す。
Note that t 0 , u, and t 7 indicate the sample numbers of the
<マイクロホンアレイ61の出力信号x(t0)に基づくデータ>
例えば、マイクロホンアレイ61は、N個のマイクロホンからなり、出力信号x(t0)はx1(t0),x2(t0),…,xN(t0)を含む。例えば、x(t0)={x1(t0),x2(t0),…,xN(t0)}である。Nは1以上の整数の何れかである。
<Data based on output signal x (t 0 ) of
For example, the
発音検出部62は、出力信号x(t0)を入力とし、出力信号x(t0)に含まれる人間の発音を検出し、発音の検出結果I1(t0)を出力する。例えば、サンプル時刻t0において発音がある場合I1(t0)=1であり、発音がない場合I1(t0)=0である。発音検出の方法は既存のいかなる発音検出技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
The
音源方向推定部63は、出力信号x(t0)を入力とし、音源方向を推定し、推定結果xD(t0)を出力する。音源方向推定の方法は既存のいかなる音源方向推定技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、特開2010−175431号公報記載の技術により実現する。
The sound source
音レベル推定部64は、出力信号x(t0)を入力とし、出力信号x(t0)に含まれる音声のレベルを推定し、推定結果xL(t0)を出力する。音声レベル推定の方法は既存のいかなる音声レベル推定技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
The sound
音声認識部65は、出力信号x(t0)に対して、音声認識を行い、その結果xR(t4)を出力する。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、特開2015−1695号公報記載の技術により実現する。なお、t4は、音声認識結果の番号を示す。例えば、1つの発話に対する時系列の出力信号x(t0)(複数個)を入力とし、その発話に対する音声認識結果xR(t4)を1つ出力する。なお、本実施形態では、音声認識部65は、音声信号である出力信号x(t0)を入力とし、形態素解析され、単語化された文字列を出力する。そのため、対話制御装置100は、単語化された文字列が入力されるものとする。
The
よって、マイクロホンアレイ61の出力信号x(t0)に基づくデータは、例えば、発音の検出結果I1(t0)、音源方向の推定結果xD(t0)、音声のレベルの推定結果xL(t0)、音声認識結果xR(t4)を含む。
Therefore, data based on the output signal x (t 0 ) of the
なお、本実施形態では、マイクロホンアレイ61のサンプリング周期と、発音の検出結果I1(t0)、音源方向の推定結果xD(t0)及び音声のレベルの推定結果xL(t0)との出力の周期とを同一としているが、処理方法に応じてそれぞれ別の周期で出力してもよい。その場合には、ある出力(例えば音声認識結果xR(t4))を基準として、その出力に対して直近の他の出力を用いる構成とすればよい。
In the present embodiment, the sampling period of the
<カメラ71のイメージセンサの出力信号y(u)に基づくデータ>
顔検出部72は、イメージセンサの出力信号y(u)を入力とし、出力信号y(u)に対応する画像に含まれる顔がカメラ71から見てどの方向にあるかを求め、求めた方向を検出結果yD(u)として出力する。
<Data based on output signal y (u) of image sensor of
The
顔検出部73は、イメージセンサの出力信号y(u)を入力とし、出力信号y(u)に対応する画像に含まれる顔の大きさを求め、求めた大きさを検出結果yS(u)として出力する。顔検出の方法は既存のいかなる顔検出技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
The
よって、カメラ71のイメージセンサの出力信号y(u)に基づくデータは、例えば、カメラから見た顔の方向を示す検出結果yD(u)、顔の大きさを示す検出結果yS(u)を含む。
Therefore, data based on the output signal y (u) of the image sensor of the
なお、本実施形態では、カメラ71のイメージセンサのサンプリング周期と、検出結果yD(u)及び検出結果yS(u)との出力の周期とを同一としているが、処理方法に応じてそれぞれ別の周期で出力してもよい。その場合には、何れかの出力を基準として、その出力に対して直近の他の出力を用いる構成とすればよい。
In the present embodiment, the sampling cycle of the image sensor of the
<人感センサ81>
人感センサ81は、例えば、赤外線、超音波、可視光などを用いたセンサであり、人の所在を検知し、検知結果を出力信号I7(t7)として出力する。例えば、サンプル時刻t7において人感センサ81の感知しうる範囲に人が存在する場合I7(t7)=1であり、人が存在しないI7(t7)=0である。
<
The
<開始指標計算部110>
開始指標計算部110は、発音の検出結果I1(t0)、音源方向の推定結果xD(t0)、音声のレベルの推定結果xL(t0)、音声認識結果xR(t4)、顔の方向を示す検出結果yD(u)、顔の大きさを示す検出結果yS(u)、人感センサ81の出力信号I7(t7)を入力とする。開始指標計算部110は、これらの入力値を総合的に解析して、話しかけ開始指標S(u)と応答開始指標R(t4)とを求め(S110)、対応決定部120に出力する。
<Start
The start
対話を行う際には、対話装置側からきっかけとなる音声を出力して対話を開始する場合と、人間側からきっかけとなる発話をして対話を開始する場合がある。対話装置側からきっかけとなる音声を出力して対話を開始するべきであるか否かを示す指標を「話しかけ開始指標」とする。話しかけ開始指標Sは例えば0〜1の値をとり、1に近いほど話しかけを開始すべきであり、0に近いほど話しかけを開始すべきでないという意味を持つ。「ある音声」に対して、対話装置側が応答すべきであるか否かを示す指標を「応答開始指標」とする。応答開始指標Rは例えば0〜1の値をとり、1に近いほど応答を開始すべきであり、0に近いほど応答を開始すべきでないという意味を持つ。なお、「ある音声」が対話のきっかけとなる人間側からの発話であれば、当然応答を開始すべきであるが、「ある音声」が対話装置に対する発話ではない場合や対話を意図せずTVから発せられた音声である場合など、対話装置に向けられたものでない場合には、応答を開始すべきではないと判断する。 When performing a dialogue, there are a case where the dialogue device outputs a trigger voice to start the dialogue, and a case where the human side speaks as a trigger to start the dialogue. An index indicating whether or not the dialogue should be output from the dialogue apparatus to start the dialogue is referred to as a “talking start index”. The speaking start index S takes a value of, for example, 0 to 1, meaning that speaking should be started closer to 1, and speaking should not be started closer to 0. An index indicating whether or not the interactive device should respond to “a certain voice” is referred to as a “response start index”. The response start index R takes a value of, for example, 0 to 1, meaning that a response should be started closer to 1 and a response should not be started closer to 0. If "a certain voice" is an utterance from the human side that triggers the dialogue, the response should be started naturally, but if the "a certain voice" is not an utterance to the dialogue device or the TV If the voice is not directed to the interactive device, such as when the voice is emitted from, it is determined that the response should not be started.
なお、本実施形態では、顔の方向、大きさを示す検出結果yD(u)、yS(u)を取得する度に話しかけ開始指標S(u)を求め、音声認識結果xR(t4)を取得する度に応答開始指標R(t4)を求めるものとし、話しかけ開始指標の番号をuで、応答開始指標の番号をt4で表す。 In the present embodiment, each time the detection results y D (u) and y S (u) indicating the face direction and size are obtained, a talking start index S (u) is obtained, and the speech recognition result x R (t Each time 4 ) is obtained, a response start index R (t 4 ) is obtained. The number of the talk start index is represented by u, and the number of the response start index is represented by t 4 .
<対応決定部120>
対応決定部120は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、これらの指標に基づき、対話装置の動作を決定し(S120)、対話装置を動作させるための制御信号z(t8)を出力する。なお、話しかけ開始指標S(u)及び応答開始指標R(t4)は異なるタイミングで対応決定部120に入力される。そのため、対応決定部120は、話しかけ開始指標S(u)及び応答開始指標R(t4)の何れかが入力された時点で動作する。
<
The
図4は、対応決定部120の機能ブロック図を示す。対応決定部120は、シナリオ選択部122とシナリオ記憶部123とを含む。
FIG. 4 is a functional block diagram of the
(シナリオ記憶部123)
シナリオ記憶部123には、話しかけシナリオ、応答シナリオ、及び、確認シナリオを利用に先立ち記憶しておく。なお、(i)話しかけシナリオとは、対話装置側から対話の契機となる音声を出力して対話を開始する対話シナリオであり、(ii)応答シナリオとは、話し利用者側からの発話に対して応答する対話シナリオであり、(iii)確認シナリオとは、利用者に対して対話を開始するか否かを確認する対話シナリオである。
(Scenario storage unit 123)
The
話しかけシナリオとして、例えば、従来技術のような対話装置側からの発話を用意する。応答シナリオとして、例えば、従来技術のような質問やあいさつに対する直接的な反応を用意する。確認シナリオ1として、例えば、話しかけられたかどうかが、あやふやな場合に「何?」、「何か用ですか?」、「私ですか?」、「ん?」など、自分に話しかけているのかを問いかけるシナリオ(以下「確認シナリオ1」ともいう)や、近くに人はいるが対話を開始すべきか否かがが確実でない場合に、音声は出力せずに顔認識された方向に対話装置の顔を向けるようにモータを動作させることや、「なんかつまんないなー」など独り言を言うなどして、自然な挙動で対話を開始するかを確認するシナリオ(以下「確認シナリオ2」ともいう)を用意する。
As a talking scenario, for example, an utterance from the interactive device side as in the related art is prepared. As a response scenario, for example, a direct response to a question or a greeting as in the related art is prepared. As
(シナリオ選択部122)
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、話しかけ開始指標S(u)とJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、応答開始指標R(t4)とK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。なお、本実施形態では、上述の2つの確認シナリオ(確認シナリオ1、確認シナリオ2)を用意する。また、対話装置側からきっかけとなる音声を出力して対話を開始するべきではなく、かつ、対話装置側が応答すべきでない場合のために、「動作無し」というシナリオを用意する。「動作無し」の場合には、制御信号z(t8)を出力しなくともよいし、動作しないことを示す制御信号z(t8)を出力してもよい。なお、J及びKは、それぞれ1以上の整数の何れかである。
(Scenario selection unit 122)
The
前述の通り、対応決定部120は、話しかけ開始指標S(u)及び応答開始指標R(t4)の何れかが入力された時点で動作する。ここで、通常、ある応答開始指標R(t4-1)が入力されてから次の応答開始指標R(t4)が入力されるまでに複数の話しかけ開始指標S(u)が入力される。そこで、シナリオ選択部122では、応答開始指標R(t4)が入力されたとき、最新の話しかけ開始指標S(u)のみを用いてもよいし、ある応答開始指標R(t4-1)が入力されてから次の応答開始指標R(t4)が入力されるまでに入力された話しかけ開始指標S(u)の平均値を用いてよいし、最新のN個の話しかけ開始指標S(u),S(u-1),…,S(u-N+1)の平均値を用いて閾値との比較を行ってもよい。なお、話しかけ開始指標S(u)が入力された時点で動作する場合には、直近の応答開始指標R(t4)を用いて閾値との比較を行えばよい。
As described above, the
例えば、シナリオ選択部122は、話しかけ開始指標S(u)を、あらかじめ設定された二つの閾値Ths,1,Ths,2により(J=2)、高、中、低の3段階に分類する。高は閾値Ths,1を話しかけ開始指標S(u)が超えた場合(Ths,1<S(u))、低は話しかけ開始指標S(u)が閾値Ths,2以下である場合(S(u)≦Ths,2)、中はこれら以外(Ths,2<S(u)≦Ths,1)のように分類する。分類の数は2以上であればいくつでもよい。
For example, the
応答開始指標R(t4)も同様にして、例えば、高、中、低の3段階に分類される(K=2)。なお、応答開始指標R(t4)の分類のための閾値Thr,1,Thr,2は、話しかけ開始指標S(u)の閾値Ths,1,Ths,2とは独立に設定される。
Similarly, the response start index R (t 4 ) is classified into, for example, three stages of high, medium, and low (K = 2). The
図5は、シナリオ選択部122において話しかけシナリオ、応答シナリオ、または、確認シナリオを選択する際の選択基準を示す。話しかけ開始指標S(u)と応答開始指標R(t4)をそれぞれ3段階に分類した場合、その組み合わせで9個の分類ができる。それぞれの分類で、どのシナリオを用いるかあらかじめ設定しておき、実際の話しかけ開始指標S(u)と応答開始指標R(t4)の入力に対してシナリオを選択する。
FIG. 5 shows selection criteria for selecting a talking scenario, a response scenario, or a confirmation scenario in the
例えば、以下のように選択基準を作成する。
(i)話しかけ開始指標S(u)の値が大きい(対話装置側からきっかけとなる音声を出力して対話を開始するべきである)と話しかけシナリオを選択しやすく、応答開始指標R(t4)の値が大きい(ある音声に対して、対話装置側が応答すべきである)と応答シナリオを選択しやすくなるように選択基準を作成する。
(ii)対話装置側からきっかけとなる音声を出力して対話を開始するべきか否かが不明確な場合、自然な挙動で対話を開始するかを確認するシナリオ(確認シナリオ2)を選択しやすくなるように選択基準を作成する。また、対話装置側が応答すべきであるか否かが不明確な場合、自分に話しかけているのかを問いかけるシナリオ(確認シナリオ1)を選択しやすくなるように選択基準を作成する。
(iii)対話装置側からきっかけとなる音声を出力して対話を開始するべきではなく、かつ、対話装置側が応答すべきでない場合、対話装置は動作しないように選択基準を作成する。
(iv)より高い区分に分類された指標を優先するように選択基準を作成する。例えば、話しかけ開始指標S(u)が高に分類され、応答開始指標R(t4)が中や低に分類された場合には、話しかけ開始指標S(u)が高の場合に選択される話しかけシナリオが選択しやすくなるように選択基準を作成する。
(v)応答開始指標R(t4)と話しかけ開始指標S(u)とに対して同程度の分類がなされた場合、応答開始指標R(t4)を優先するように選択基準を作成する。例えば、Ths,1<S(u)かつThR,1<R(t4)の場合には応答シナリオを選択し、Ths,2<S(u)≦Ths,1かつThR,2<R(t4)≦ThR,1の場合には、確認シナリオ1(問いかけ)を選択する。利用者が話しかけているのに応答がない場合(無視された場合)、誤って対話装置が応答しているよりも、対話意欲は削がれると想定し、このような選択基準を作成することで、利用者の対話意欲が削がれることを防ぐ。
For example, a selection criterion is created as follows.
(i) If the value of the talking start index S (u) is large (the dialogue device should output a trigger voice to start the dialogue), it is easy to select a talking scenario, and the response starting index R (t 4 A selection criterion is created so that if the value of) is large (the dialogue device should respond to a certain voice), it is easy to select a response scenario.
(ii) If it is not clear whether or not to start the dialogue by outputting a trigger voice from the dialogue device side, select a scenario (confirmation scenario 2) for confirming whether to start the dialogue with natural behavior. Create selection criteria to make it easier. If it is not clear whether the dialogue device should respond, a selection criterion is created so that it is easy to select a scenario (confirmation scenario 1) asking whether the user is talking to himself.
(iii) If the dialogue device should not start the dialogue by outputting a trigger voice and the dialogue device should not respond, a selection criterion is created so that the dialogue device does not operate.
(iv) Selection criteria are created to give priority to indicators classified into higher categories. For example, if the speaking start index S (u) is classified as high and the response starting index R (t 4 ) is classified as medium or low, it is selected when the speaking start index S (u) is high. Create selection criteria to make it easier to select talking scenarios.
(v) When the response start index R (t 4 ) and the talk start index S (u) are classified at the same level, a selection criterion is created so that the response start index R (t 4 ) is prioritized. . For example, if Th s, 1 <S (u) and Th R, 1 <R (t 4 ), a response scenario is selected, and Th s, 2 <S (u) ≦ Th s, 1 and Th R, If 2 <R (t 4 ) ≦ Th R, 1 , check scenario 1 (question) is selected. Create a selection criterion that assumes that if the user is speaking but there is no response (ignored), the willingness to interact is reduced more than if the interactive device responds by mistake. This prevents the user's willingness to interact.
なお、図5では、話しかけ開始指標S(u)と応答開始指標R(t4)をそれぞれ3段階に分類しているが、それ以外の分類(JやKが2の場合や、4以上の場合)においても上述の(i)〜(v)の条件を満たすように選択基準を作成すればよい。 In FIG. 5, the talk start index S (u) and the response start index R (t 4 ) are classified into three stages, respectively. However, other classifications (when J and K are 2 or 4 or more) In this case, the selection criteria may be created so as to satisfy the above-described conditions (i) to (v).
<効果>
このような構成により、対話装置への話しかけかどうかあやふやな場合に、質問で聞き返したり、利用者のほうを向いて自分への話しかけであるかを確認したりすることができ、より人間らしいふるまいをすることができる。その結果、誤った応答を低減することができる。
<Effect>
With such a configuration, if it is unclear whether or not the user is talking to the interactive device, he / she can ask questions and return to the user to confirm whether or not the user is talking to the user. can do. As a result, erroneous responses can be reduced.
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
<Second embodiment>
The following description focuses on the differences from the first embodiment.
第一実施形態において、確認シナリオ1が連続して選択されてしまうと、何度も確認行為を行うことになり、不自然な対応となってしまう。これを防ぐために、本実施形態では状態を考慮する。
In the first embodiment, if the
シナリオ選択部122は、(I)待ち受け状態、(II)確認シナリオを実行後の状態である確認状態、(III)話しかけシナリオまたは応答シナリオを実行後の状態である対話状態の3つの状態を持つ。シナリオ選択部122は、(I)待ち受け状態、(II)確認状態、(III)対話状態の何れかの状態に遷移し、待ち受け状態、確認状態、対話状態の何れかの状態に応じて、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択する際の選択基準を変更する。図6は、各状態における選択基準を示す。
The
シナリオ選択部122は、話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係と、シナリオ選択部122の状態に対応する選択基準に基づき、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択し(S122)、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。図6ではJ=2,K=2とする。
The
図7は、本実施形態の状態遷移図を示す。待ち受け状態を初期状態とする。 FIG. 7 shows a state transition diagram of the present embodiment. Let the waiting state be the initial state.
(待ち受け状態)
待ち受け状態において、シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、待ち受け状態における判定基準に基づき、応答シナリオ、話しかけシナリオ、確認シナリオ1、確認シナリオ2、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。
(Standby state)
In the standby state, the
応答シナリオまたは話しかけシナリオが選択された場合には対話状態に遷移し、確認シナリオ1または確認シナリオ2が選択された場合には確認状態に遷移し、何れのシナリオも選択されなかった場合(動作無しが選択された場合)には待ち受け状態から待ち受け状態に遷移する(待ち受け状態を維持する)。
When the response scenario or the talking scenario is selected, the state transitions to the interactive state. When the
(確認状態)
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、確認状態における判定基準に基づき、応答シナリオ、話しかけシナリオ、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。応答シナリオまたは話しかけシナリオが選択された場合には対話状態に遷移し、何れのシナリオも選択されなかった場合(動作無しが選択された場合)には確認状態から確認状態に遷移する。但し、動作無しが選択されつづけ、確認状態のまま一定時間が経過すると(または一定回数の入力S(u),R(t4)を受け付けると)待ち受け状態に遷移する。
(Confirmation status)
The
(対話状態)
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、対話状態における判定基準に基づき、応答シナリオ、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。この状態では対話状態から対話状態に遷移する。但し、動作無しが選択されつづけ、一定時間が経過すると(または一定回数の入力S(u),R(t4)を受け付けると)待ち受け状態に遷移する。
(Dialogue state)
The
このように、確認状態では、再度確認シナリオが実行されることがないように、シナリオの選択基準から確認シナリオをなくした選択基準を用い、対話状態では、確認シナリオ及び話しかけシナリオを削除した選択基準を用いる。 In this manner, in the confirmation state, the selection criterion in which the confirmation scenario is eliminated from the selection criterion of the scenario is used so that the confirmation scenario is not executed again. In the dialogue state, the selection criterion in which the confirmation scenario and the talking scenario are deleted is used. Is used.
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、確認シナリオを連続して実施して不自然な対応となってしまうことを防ぐことができる。
<Effect>
With such a configuration, the same effect as in the first embodiment can be obtained. Further, it is possible to prevent an unnatural response by continuously executing the confirmation scenarios.
<第三実施形態>
第一実施形態及び第二実施形態と異なる部分を中心に説明する。
<Third embodiment>
A description will be given focusing on portions different from the first embodiment and the second embodiment.
特許文献1等の従来技術ではユーザ発話に対応する文字列だけを用いてどのような対応を行うかを判断している。そのため、例えば、テレビの音声など、対話装置と対話をするために発せられた音声でなかったとしても、あらかじめ用意した単語パターンと一致する場合は、対話をしてしまう。つまり、従来技術では、対話とは無関係の音声などに反応した誤動作が起こってしまう。
In the related art such as
そこで、本実施形態では、音声だけではなく、様々なセンサからの情報に基づき対話音声であるかの確からしさ数値化し、その確からしさに基づいて、入力音声に対する対応を決定する。このような構成により、対話とは無関係の音声などに対して反応することを防ぐことができる。 Therefore, in the present embodiment, a numerical value of the probability of being a dialogue voice is made based on information from various sensors as well as the voice, and a response to the input voice is determined based on the probability. With such a configuration, it is possible to prevent the user from reacting to a voice or the like unrelated to the conversation.
上述の効果を得るために本実施形態では、開始指標計算部110における処理を限定する。
In the present embodiment, the processing in the start
<開始指標計算部110>
図8は開始指標計算部110の機能ブロック図を、図9はその処理フローの例を示す。
<Start
FIG. 8 is a functional block diagram of the start
開始指標計算部110は、方向一致度計算部111、発話距離指標計算部112、キーワード検出部113、キーワードデータベース114、発話頻度計算部115、顔の距離指標計算部116、応答開始指標計算部117及び話しかけ開始指標計算部118を含む。
The start
<方向一致度計算部111>
方向一致度計算部111は、カメラから見た顔の方向を示す検出結果yD(u)と音源方向の推定結果xD(t0)とを入力とし、音源方向の推定結果と映像による顔認識方向の一致度合いI2(u)を計算し(S111)、出力する。一致度合いI2(u)は、例えば0.0〜1.0の値をとり1.0に近いほど一致していることを表す指標である。例えば、カメラから見た顔の方向を示す検出結果yD(u)と音源方向の推定結果xD(t0)との差分の絶対値|(xD(t0))-(yD(u))|をとり、その値があらかじめ設定した第1の閾値T1よりも大きければI2(u)=0を出力し、あらかじめ設定した第2の閾値T2よりも小さければI2(u)=1を出力し、どちらでもなければ以下の式により、差分の絶対値|(xD(t0))-(yD(u))|が第1の閾値T1の時に0になり、第2の閾値T2のときに1となる直線上の値を出力する。
I2(u)={|(xD(t0))-(yD(u))|-(T1)}/{(T2)-(T1)}
この関係をグラフにしたものを図10に示す。つまり、
I2(u)=0 if |(xD(t0))-(yD(u))|>T1
I2(u)=1 if |(xD(t0))-(yD(u))|<T2
I2(u)={|(xD(t0))-(yD(u))|-(T1)}/{(T2)-(T1)} if T2≦|(xD(t0))-(yD(u))|≦T1
となる。
<
The direction matching
I 2 (u) = {| (x D (t 0 ))-(y D (u)) |-(T 1 )} / {(T 2 )-(T 1 )}
FIG. 10 shows a graph of this relationship. That is,
I 2 (u) = 0 if | (x D (t 0 ))-(y D (u)) |> T 1
I 2 (u) = 1 if | (x D (t 0 ))-(y D (u)) | <T 2
I 2 (u) = {| (x D (t 0 ))-(y D (u)) |-(T 1 )} / {(T 2 )-(T 1 )} if T 2 ≤ | (x D (t 0 ))-(y D (u)) | ≦ T 1
It becomes.
<発話距離指標計算部112>
発話距離指標計算部112は、音声のレベルの推定結果xL(t0)を入力とし、マイクロホンアレイ61と発話者と距離に応じて変化する発話距離指標I3(t0)を計算し(S112)、出力する。例えば、発話距離指標I3(t0)を、マイクロホンアレイ61に含まれるマイクロホンと発話者との距離が近いほど1.0に近くなり、距離が遠いほど0.0に近くなる指標とする。音は音源から受音位置までの距離に反比例して受音される音の大きさが変化する。よって、マイクロホンで観測された音声のレベルからおおよその距離を推定することができる。例えば1mの位置で標準的な音量で発話したときのマイクロホンの出力のレベルをAとした場合、推定対象音声のマイクロホンの出力のレベルがBであったとすれば、推定対象音声のマイクロホンから音源までの距離は、その比A/B(m)で推定することができる。推定された距離があらかじめ設定した第3の閾値T3よりも大きければI3(t0)=0を出力し、あらかじめ設定した第4の閾値T4よりも小さければI3(t0)=1を出力し、どちらでもなければ以下の式により第3の閾値T3の時に0になりと第4の閾値T4のときに1となる直線上の値を出力する。
I3(t0)={A/B-(T3)}/{(T4)-(T3)}
<Utterance distance
The utterance distance
I 3 (t 0 ) = {A / B- (T 3 )} / {(T 4 )-(T 3 )}
<キーワード検出部113及びキーワードデータベース114>
キーワード検出部113は、音声認識結果xR(t4)を入力とし、音声認識結果xR(t4)に含まれる単語列と、キーワードデータベース114に格納されているキーワードとのマッチングを行い、音声認識結果xR(t4)に含まれる単語列の何れかがキーワードデータベース114にある場合には検出結果I4(t4)=1を出力し、無い場合には検出結果I4(t4)=0を出力する(S113)。キーワードデータベース114に格納されているキーワードは、話しかけるきっかけに良く使われるものである。または、キーワードデータベース114に格納されているキーワード毎に0.0〜1.0の数値をあらかじめ指定しておき、そのキーワードが検出された際に対応する数値を検出結果I4(t4)として出力する構成としてもよい。数値は、話しかけるきっかけに良く使われるキーワードほど1に近い値をあらかじめ設定しておく。
<
<発話頻度計算部115>
発話頻度計算部115は、発音の検出結果I1(t0)と音源方向の推定結果xD(t0)とを入力とし、同一の方向からの発話が過去T秒の間にどのくらいあったかを計算する(S115)。例えば、過去T秒の間に音源方向の推定結果xD(t0)がθであり、かつ、発音があった時間(I1(t0)=1)の合計をA(θ)秒とすれば、θ方向の発音頻度を、それらの比D(θ)=A(θ)/Tとして求めることができる。発話頻度計算部115は、この頻度D(θ)を現時点t0の推定結果(音源方向)xD(t0)について求める。例えば音源がテレビや音楽受聴用のスピーカであった場合、これらは長時間の間ほとんど無音になることなく、同じ方向から音が到来し続けることとなる。このような音源がθ方向にあった場合、発音頻度D(θ)は1に近い大きな値をとることになる。発話頻度計算部115は、発音頻度D(θ)があらかじめ設定した第7の閾値T7よりも大きければ発話頻度指標I5=0を出力し、あらかじめ設定した第8の閾値T8よりも小さければ発話頻度指標I5=1を出力し、どちらでもなければ以下の式により第7の閾値T7の時にI5=0になりと第8の閾値T8のときにI5=1となる直線上の値を出力する。
I5(t0)={D(θ)-(T7)}/{(T8)-(T7)}
<Speech
The speech
I 5 (t 0 ) = {D (θ)-(T 7 )} / {(T 8 )-(T 7 )}
<顔の距離指標計算部116>
顔の距離指標計算部116は、顔の大きさを示す検出結果yS(u)を入力とし、この値を用いて、利用者とカメラ71との距離を示す距離指標I6(u)を計算し(S116)、出力する。例えば、距離指標I6(u)は、利用者とカメラ71との距離が近いほど1.0に近くなり、距離が遠いほど0.0に近くなる指標である。
<Face distance
The face distance
顔が近いほど大きく映像に映るので、検出された顔の大きさから距離を推定することができる。例えば1mの位置で標準的な大きさの顔が顔認識で認識された際の大きさをFとした場合、検出結果yS(u)の大きさがGであったとすれば、顔までの距離は、その比F/G(m)で推定することができる。推定された距離があらかじめ設定した第5の閾値T5よりも大きければI6(u)=0を出力し、あらかじめ設定した第6の閾値よりも小さければI6(u)=1を出力し、どちらでもなければ以下の式により第5の閾値の時に0になりと第6の閾値のときに1となる直線上の値を出力する。
I6(u)={F/G-(T5)}/{(T6)-(T5)}
Since the closer the face is, the larger the image is displayed on the image, the distance can be estimated from the size of the detected face. For example, if the size of a face of standard size at the position of 1 m is recognized by face recognition is F, and if the size of the detection result y S (u) is G, the The distance can be estimated by the ratio F / G (m). If the estimated distance is larger than a preset fifth threshold value T 5 , I 6 (u) = 0 is output, and if it is smaller than a preset sixth threshold value, I 6 (u) = 1 is output. Otherwise, a value on a straight line that becomes 0 at the fifth threshold and 1 at the sixth threshold is output by the following equation.
I 6 (u) = {F / G- (T 5 )} / {(T 6 )-(T 5 )}
<応答開始指標計算部117>
応答開始指標計算部117は、発音の検出結果I1(t0),一致度合いI2(u),発話距離指標I3(t0),検出結果I4(t4),発話頻度指標I5(t0),距離指標I6(u),人感センサ81の出力信号I7(t7)を入力とし、これらの情報の全てを使って、応答するか否かを判定するための指標である応答開始指標R(t4)を計算し(S117)、出力する。
<Response start
The response start
前述の通り、発音の検出結果I1(t0)は、発音有の場合1となり、発音なしの場合0となる。ただし、t0はマイクロホンアレイ61のサンプル番号またはサンプル番号に対応する時刻を表す。一致度合いI2(u)は、0〜1の値をとり、音による音源方向の推定結果と映像による顔認識結果が一致するほど1に近い値となる。ただし、uはカメラ71のイメージセンサのサンプル番号またはサンプル番号に対応する時刻を表す。発話距離指標I3(t0)は、0〜1の値をとり、利用者とマイクロホンアレイ61との距離が近いほど1に近い値となる。検出結果I4(t4)は、話しかけるきっかけに良く使われるキーワードを検出した場合1となり、検出できなかった場合0となる。ただし、t4は音声認識結果の番号を表す。発話頻度指標I5(t0)は、0〜1の値をとり、過去の同一方向の発話頻度が低いほど1に近い値となる。距離指標I6(u)は、0〜1の値をとり、利用者とカメラ71との距離が近いほど1に近い値となる。人感センサ81の出力信号I7(t7)は、人検出有の場合1となり、人検出なしの場合0となる。ただし、t7は、人感センサ81のサンプル番号またはサンプル番号に対応する時刻を表す。
As described above, the sound detection result I 1 (t 0 ) is 1 when there is a sound, and is 0 when there is no sound. Here, t 0 represents a sample number of the
応答開始指標計算部117の入出力間の関係式を関数Fとすれば、次式で応答開始指標R(t4)を計算できる。
R(t4)=F{I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)}
If the relational expression between the input and output of the response start
R (t 4 ) = F {I 1 (t 0 ), I 2 (u), I 3 (t 0 ), I 4 (t 4 ), I 5 (t 0 ), I 6 (u), I 7 (t 7 )}
関数Fは、例えば一次方程式とすることができ、各入力I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)にあらかじめ設定した重みWnを乗じて加算した総和にあらかじめ設定した定数Cを加算した次式が用いられる。 The function F can be, for example, a linear equation, and each input I 1 (t 0 ), I 2 (u), I 3 (t 0 ), I 4 (t 4 ), I 5 (t 0 ), I 6 (u), the following equation obtained by adding a constant C that is previously set to a sum obtained by adding multiplied by the weight W n set in advance to I 7 (t 7) is used.
ただし、I1(t4),I2(t4),I3(t4),I5(t4),I6(u),I7(t4)は、I4(t4)の取得時からみて直近のI1(t0),I2(u),I3(t0),I5(t0),I6(u),I7(t7)である。音声認識結果を出力するタイミングと他の出力値が出力される周期とは、通常、一致しない。応答開始指標R(t4)は、複数の入力値の中で、音声認識結果xR(t4)から得られる検出結果I4(t4)の影響を最も受けると考えられる。そこで、応答開始指標R(t4)は音声認識結果xR(t4)の入力を契機に、その時刻t4に最も近い他の指標をバッファから読みだして処理を実行する。 Where I 1 (t 4 ), I 2 (t 4 ), I 3 (t 4 ), I 5 (t 4 ), I 6 (u), I 7 (t 4 ) are I 4 (t 4 ) Are the most recent I 1 (t 0 ), I 2 (u), I 3 (t 0 ), I 5 (t 0 ), I 6 (u), and I 7 (t 7 ) from the time of acquisition. The timing at which the speech recognition result is output and the cycle at which another output value is output usually do not match. It is considered that the response start index R (t 4 ) is most affected by the detection result I 4 (t 4 ) obtained from the speech recognition result x R (t 4 ) among a plurality of input values. Therefore, the response start index R (t 4 ) is read out from the buffer and executed by inputting the speech recognition result x R (t 4 ), reading another index closest to the time t 4 .
関数Fは、二次方程式でもよい。その場合、各入力In(t4)にあらかじめ設定した重みWnを乗じて加算した総和と、入力の2つを乗じた値In(t4)Im(t4)にあらかじめ設定した重みVn,mを乗じて加算した総和と、あらかじめ設定した定数Cとを加算した次式が用いられる。 The function F may be a quadratic equation. In that case, the sum obtained by adding multiplied by the weight W n set in advance for each input I n (t 4), is set in advance to a value obtained by multiplying the two input I n (t 4) I m (t 4) The following equation is used in which the sum total obtained by multiplying by the weight V n, m and a preset constant C are added.
関数Fは、一次方程式や二次方程式で重み付の加算値を計算した後で、0〜1でクリッピングする関数をかけることで0〜1の間の出力値となるように制限しても良い(次式)。クリッピングをする関数はシグモイド関数G(x)などが用いられる。 The function F may be limited to an output value between 0 and 1 by calculating a weighted addition value with a linear equation or a quadratic equation, and then multiplying the function by clipping at 0 to 1. (The following equation). A sigmoid function G (x) or the like is used as the clipping function.
ただし、a、bは予め設定される定数である。 Here, a and b are constants set in advance.
<話しかけ開始指標計算部118>
話しかけ開始指標計算部118は、上述のI1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)を入力とし、これらの情報の全てを使って、話しかけをするか否かを判定するための指標である話しかけ開始指標S(u)を計算し(S118)、出力する。話しかけ開始指標計算部118は、応答開始指標計算部117と同様の方法で話しかけ開始指標S(u)を計算することができる。ただし、あらかじめ設定した重みWnやVn,mの値は応答開始指標計算部117とは異なる数値で設定される。また、話しかけ開始指標S(u)は、外部からの話しかけがない場合に大きな値をとるので、発音の検出結果I1(t0)、一致度合いI2(u)、発話距離指標I3(t0)、キーワード検出部113の出力値I4(t4)を、それぞれ、1から減算した値を入力するように置きなおしてもよい。つまり、I1(t0)を1-I1(t0)に、I2(u)を1-I2(u)に、I3(t0)を1-I3(t0)に、I4(t4)を1-I4(t4)に置き換えてもよい。
<Talking start
The talking start
なお、話しかけ開始指標S(u)は、複数の入力値の中で、顔の方向を示す検出結果yD(u)及び顔の大きさを示す検出結果yS(u)の影響を最も受けると考えられる。そこで、話しかけ開始指標S(u)は顔の方向を示す検出結果yD(u)及び顔の大きさを示す検出結果yS(u)の入力を契機に、その時刻uに最も近い他の指標をバッファから読みだして処理を実行する。 The talking start index S (u) is most affected by the detection result y D (u) indicating the direction of the face and the detection result y S (u) indicating the size of the face among a plurality of input values. it is conceivable that. Therefore, the talking start index S (u) is triggered by input of the detection result y D (u) indicating the direction of the face and the detection result y S (u) indicating the size of the face. Read the index from the buffer and execute the process.
<効果>
このような構成により、様々なセンサの情報から、外部からの音に対して応答するか否かの指標である応答開始指標Rと、対話装置側から会話を開始すべきか否かの指標である話しかけ開始指標Sを求め、これに基づいて対話の開始の制御をすることができ、対話とは無関係の音声などに対して反応することを防ぐことができる。
<Effect>
With such a configuration, based on information from various sensors, a response start index R that is an index of whether or not to respond to an external sound and an index of whether or not to start a conversation from the interactive device side. The talk start index S is obtained, and the start of the dialogue can be controlled based on this, and it is possible to prevent the user from reacting to a voice unrelated to the dialogue.
<変形例>
本実施形態の開始指標計算部110は、話しかけ開始指標S(u)と応答開始指標R(t4)とを求め、出力しているが、何れか一方の指標のみを求める構成としてもよい。その場合、他方の指標は、本実施形態とは異なる方法を用いて求めればよい。または、シナリオ選択部122は、話しかけ開始指標S(u)または応答開始指標R(t4)を入力とし、話しかけ開始指標S(u)とJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、または、応答開始指標R(t4)とK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、(A)話しかけシナリオ若しくは確認シナリオ(例えば確認シナリオ2(動作、独り言))、または、(B)応答シナリオ若しくは確認シナリオ(例えば確認シナリオ1(問いかけ))を選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。
<Modification>
Although the start
本実施形態では、マイクロホンアレイ61の出力信号x(t0)に基づくデータと、カメラ71のイメージセンサの出力信号y(u)に基づくデータと、人感センサ81の出力信号I7(t7)とを入力としているが、必要に応じて、マイクロホンアレイ61の出力信号x(t0)とカメラ71のイメージセンサの出力信号y(u)と人感センサ81の出力信号I7(t7)との3つの出力信号のうちの2つの出力信号を用いればよい。そのような構成とすることで、音声だけではなく、様々なセンサからの情報に基づき対話音声であるかの確からしさ数値化することができる。
In the present embodiment, data based on the output signal x (t 0 ) of the
本実施形態では、I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)を全て使って、話しかけ開始指標S(u)と応答開始指標R(t4)とを求めているが、必ずしも全て使う必要はなく、話しかけ開始指標S(u)と応答開始指標R(t4)を求める際に影響が大きいものを適宜選択してもよい。例えば、話しかけ開始指標S(u)は、顔の方向を示す検出結果yD(u)及び顔の大きさを示す検出結果yS(u)の影響を大きく受けると考えられるため、yD(u)またはyS(u)を使って求めることが望ましい。よって、話しかけ開始指標計算部118は、マイクロホンアレイ61の出力信号x(t0)及び人感センサ81の出力信号I7(t7)のうちの少なくとも1つの出力信号とカメラ71のイメージセンサの出力信号y(u)とに基づき、話しかけ開始指標S(u)を計算する。要は、yD(u)またはyS(u)に基づき得られるI2(u)またはI6(u)と、それ以外のI1(t0),I3(t0),I4(t4),I5(t0),I7(t7)の中から1つ以上を用いて話しかけ開始指標S(u)を計算すればよい。一方、応答開始指標R(t4)は、音声認識結果xR(t4)の影響を大きく受けると考えられるため、xR(t4)を使って求めることが望ましい。よって、応答開始指標計算部117は、カメラ71のイメージセンサの出力信号y(u)及び人感センサ81の出力信号I7(t7)のうちの少なくとも1つの出力信号とマイクロホンアレイ61の出力信号x(t0)とに基づき、応答開始指標R(t4)を計算する。要は、xR(t4)に基づき得られるI4(t4)と、カメラ71のイメージセンサの出力信号y(u)及び人感センサ81の出力信号I7(t7)のうちの少なくとも1つの出力信号に基づくI2(u),I6(u),I7(t7)の中から1つ以上を用いて応答開始指標R(t4)を計算すればよい。この場合にも、必要な重みWn,Vn,m、定数Cを予め設定すればよい。
In the present embodiment, I 1 (t 0 ), I 2 (u), I 3 (t 0 ), I 4 (t 4 ), I 5 (t 0 ), I 6 (u), I 7 (t 7 ) Are used to obtain the talk start index S (u) and the response start index R (t 4 ), but it is not necessary to use all of them, and the talk start index S (u) and the response start index R (t 4 ) The one having a large influence when obtaining the above may be appropriately selected. For example, since the talking start index S (u) is considered to be greatly influenced by the detection result y D (u) indicating the direction of the face and the detection result y S (u) indicating the size of the face, y D ( It is desirable to use u) or y S (u). Therefore, the talking start
要は、マイクロホンアレイ61、カメラ71のイメージセンサ、人感センサ81の3つのセンサ情報のうち2つ以上が含まれるように入力信号を設定することで、様々なセンサからの情報に基づき対話音声らしさを数値化でき性能が良くなる。
In short, by setting the input signal so that two or more of the three sensor information of the
<第四実施形態>
第三実施形態と異なる部分を中心に説明する。
<Fourth embodiment>
The following description focuses on the differences from the third embodiment.
第三実施形態の対話制御装置100の応答開始指標計算部117において応答開始指標モデルを用いて応答開始指標R(t4)を計算し(S117)、話しかけ開始指標計算部118において話しかけ開始指標モデルを用いて話しかけ開始指標S(u)を計算する(S118)。
The response start
本実施形態では、応答開始指標モデルを学習する応答開始指標モデル学習部211と、話しかけ開始指標モデルを学習する話しかけ開始指標モデル学習部212とを追加した構成である(図8中、破線で示す)。
In this embodiment, a response start index
応答開始指標モデル学習部211は、応答開始指標計算モデルの入力信号I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)と、応答開始指標R(t4)との関係を事前に学習データを用いて学習する。学習データは、実環境で取得した実入力データI1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)に対し、人手で正解の応答開始指標R(t4)の値を付与したものなどを用いる。このようなデータから、機械学習の手法を用いて入出力の関係が近くなるようにモデルを学習する。例えばニューラルネットワークで構成されたモデルをバックプロパゲーションの手法を使って学習するなどの手法が用いられる。
The response start index
話しかけ開始指標モデル学習部212も同様にして、入力信号I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)と、話しかけ開始指標S(u)との関係を事前に学習データを用いて学習する。
Similarly, the talking start index
応答開始指標計算部117は、応答開始指標モデル学習部211で学習された応答開始指標モデルを用いて、入力信号I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)から応答開始指標R(t4)を計算する。
The response start
話しかけ開始指標計算部118は、話しかけ開始指標モデル学習部212で学習された話しかけ開始指標モデルを用いて、入力信号I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)から話しかけ開始指標S(u)を計算する。
The talking start
<効果>
このような構成により、第三実施形態では人手により設定されていた計算式や重みWnやVn,mを、実データを用いて最適に自動設定することが可能となり、より精度の高い指標の出力が可能となる。
<Effect>
With such a configuration, the calculation formula and the weights W n and V n, m that were manually set in the third embodiment can be optimally automatically set using actual data, and a more accurate index Can be output.
<第五実施形態>
第三実施形態及び第四実施形態と異なる部分を中心に説明する。
<Fifth embodiment>
The following description focuses on the differences from the third embodiment and the fourth embodiment.
第三実施形態または第四実施形態の対話制御装置100に時間補正部310を追加した構成である(図8中、破線で示す)。音声認識や顔検出は処理に遅延が生じ、また処理遅延が一定しないため、この遅延時間の補正を行わないと、様々なセンサからの情報が異なる時刻の情報となってしまい、誤った応答開始指標R(t4)や話しかけ開始指標S(u)を出力してしまう可能性がある。これを防ぐために、時間補正部310を追加し、各センサからの情報を時刻とともにバッファリングし、最も遅延の大きい情報に合わせて、情報の読み出し位置を決定する。
This is a configuration in which a
<時間補正部310>
図11は、時間補正部310の機能ブロック図を示す。
<
FIG. 11 is a functional block diagram of the
時間補正部310は、発音の検出結果I1(t0)、音源方向の推定結果xD(t0)、音声のレベルの推定結果xL(t0)、音声認識結果xR(t4)、顔の方向を示す検出結果yD(u)、顔の大きさを示す検出結果yS(u)、人感センサ81の出力信号I7(t7)をそれぞれ格納する格納する7つのバッファ311−nと、対応時刻選択部312とを含む。
The
各バッファ311−nには、それぞれ各入力信号がFIFO(先入れ先出し)によりバッファリングされる。バッファ311−nには入力信号のデータと、そのデータの時刻とがともに記憶される。 Each input signal is buffered in each buffer 311-n by FIFO (first in first out). The buffer 311-n stores both the data of the input signal and the time of the data.
対応時刻選択部312は、FIFOの出力のうち最も新しい時刻(遅い時刻、遅延の大きい時刻)を探索し、その時刻に最も近い時刻に対応するデータを、それぞれのFIFOから読み出し出力する。また、その読み出しデータよりも古いデータはバッファより破棄する。例えば、図12の場合、まず、最も新しい時刻のデータを探索し、時刻(00:04)のデータxR(1)を得る。次に、時刻(00:04)に最も近い時刻に対応するデータであるI1(3)(時刻00:05)、xD(3)(時刻00:05)、xL(3)(時刻00:05)、yD(2)(時刻00:05)、yS(2)(時刻00:05)、I7(4)(時刻00:04)を読み出し、出力する。そして、その読み出しデータよりも古いデータを破棄する。さらに、読み出しデータの次のFIFOの出力のうち最も新しい時刻を探索するという動作を繰り返す。
The corresponding
このようにすることにより、もっとも遅延の大きいデータと同時刻のデータをそれぞれ出力することができ、時間ずれによる誤動作を防ぐことができる。 By doing so, it is possible to output the data with the largest delay and the data at the same time, respectively, and it is possible to prevent a malfunction due to a time lag.
なお、本実施形態では、開始指標計算部110の入力値に対してバッファリングを行っているが、応答開始指標計算部117及び話しかけ開始指標計算部118の入力値I1〜I7に対してバッファリングを行っても同様の効果を得ることができる。
In the present embodiment, the input value of the start
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other modifications>
The present invention is not limited to the above embodiments and modified examples. For example, the above-described various processes may be executed not only in chronological order as described, but also in parallel or individually according to the processing capability of an apparatus that executes the processes or as necessary. In addition, changes can be made as appropriate without departing from the spirit of the present invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing content of the function that each device should have is described by a program. By executing this program on a computer, various processing functions of the above-described devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 A program describing this processing content can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The distribution of the program is carried out, for example, by selling, transferring, lending, or the like, a portable recording medium such as a DVD or a CD-ROM on which the program is recorded. Further, the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, when executing the process, the computer reads the program stored in its own storage unit and executes the process according to the read program. Further, as another embodiment of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be sequentially performed. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service which realizes a processing function only by executing an instruction and acquiring a result without transferring a program from the server computer to the computer. It may be. It should be noted that the program includes information used for processing by the computer and which is similar to the program (data that is not a direct command to the computer but has characteristics that define the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, each device is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.
Claims (8)
対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、前記話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、前記応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択するシナリオ選択部を含む、
対話制御装置。 (i) a talking scenario in which a dialogue device side outputs a voice that triggers a dialogue to start a dialogue, (ii) a response scenario in response to an utterance from a user side, and (iii) a user A scenario storage unit for storing a confirmation scenario for confirming whether or not to start a dialogue;
A speech start indicator S indicating whether or not the dialogue should be started by outputting a speech which triggers the dialogue from the dialogue device, and a response start indicator indicating whether or not to respond to a certain voice R as an input, J and K each being an integer of 1 or more , and a magnitude relationship between the talking start index S and J thresholds Th s, 1 , Th s, 2 , ..., Th s, J , And based on the magnitude relationship between the response start index R and the K thresholds Thr , 1 , Thr , 2 , ..., Thr , K , the talking scenario, the response scenario, or the confirmation scenario Including a scenario selection unit for selecting
Dialogue control device.
前記シナリオ選択部は、(I)待ち受け状態、(II)前記確認シナリオを実行後の状態である確認状態、(III)前記話しかけシナリオまたは前記応答シナリオを実行後の状態である対話状態の何れかの状態に遷移し、前記待ち受け状態、前記確認状態、前記対話状態の何れかの状態に応じて、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択する際の選択基準を変更する、
対話制御装置。 The dialogue control device according to claim 1, wherein
The scenario selection unit may be any one of (I) a standby state, (II) a confirmation state after execution of the confirmation scenario, and (III) an interaction state after execution of the talking scenario or the response scenario. Transition to the state, the standby state, the confirmation state, according to any one of the dialogue state, the talking scenario, the response scenario, or, change the selection criteria when selecting the confirmation scenario,
Dialogue control device.
マイクロホンの出力信号及び人感センサの出力信号のうちの少なくとも1つの出力信号とイメージセンサの出力信号とに基づき、前記話しかけ開始指標を計算する話しかけ開始指標計算部を含み、
前記話しかけ開始指標計算部は、前記イメージセンサの出力信号を用いて得られる顔の方向を示す検出結果及び顔の大きさを示す検出結果の少なくとも何れかを用いて、前記話しかけ開始指標を計算する、
対話制御装置。 The interactive control device according to claim 1 or 2, wherein:
Based on at least one output signal of the output signal of the microphone and the output signal of the human sensor and the output signal of the image sensor, including a talking start index calculating unit that calculates the talking start index,
The talking start index calculation unit calculates the talking start index using at least one of a detection result indicating a face direction and a detection result indicating a face size obtained using an output signal of the image sensor. ,
Dialogue control device.
イメージセンサ及び人感センサの出力信号のうちの少なくとも1つの出力信号とマイクロホンの出力信号とに基づき、前記応答開始指標を計算する応答開始指標計算部を含み、
前記応答開始指標計算部は、前記マイクロホンの出力信号を用いて得られる音声認識結果を用いて応答開始指標を計算する、
対話制御装置。 The interactive control device according to any one of claims 1 to 3, wherein
Based on at least one output signal of the output signal of the image sensor and the human sensor and the output signal of the microphone, a response start index calculation unit that calculates the response start index,
The response start index calculation unit calculates a response start index using a speech recognition result obtained using the output signal of the microphone,
Dialogue control device.
シナリオ選択部が、対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、前記話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、前記応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択するシナリオ選択ステップを含む、
対話制御方法。 In the scenario storage unit, (i) a talking scenario in which a dialogue device side outputs a voice that triggers the dialogue to start the dialogue, (ii) a response scenario in response to an utterance from the user side, and ( iii) A confirmation scenario for confirming whether or not to start dialogue with the user shall be stored,
The scenario selection unit outputs a voice that triggers the dialogue from the dialogue device side to indicate whether or not the dialogue should be started, and a talking start index S, and whether to respond to a certain voice. , And J and K are each an integer of 1 or more, and the talking start index S and J thresholds Th s, 1 , Th s, 2 , ..., Th s, J, and based on the magnitude relationship between the response start index R and the K thresholds Thr , 1 , Thr , 2 , ..., Thr , K , the talking scenario, the response scenario, Or including a scenario selection step of selecting the confirmation scenario,
Dialogue control method.
話しかけ開始指標計算部が、マイクロホンの出力信号及び人感センサの出力信号のうちの少なくとも1つの出力信号とイメージセンサの出力信号とに基づき、前記話しかけ開始指標を計算する話しかけ開始指標計算ステップを含み、
前記話しかけ開始指標計算ステップは、前記イメージセンサの出力信号を用いて得られる顔の方向を示す検出結果及び顔の大きさを示す検出結果の少なくとも何れかを用いて、前記話しかけ開始指標を計算する、
対話制御方法。 The interaction control method according to claim 5, wherein
The speaking start index calculating unit includes a speaking start index calculating step of calculating the speaking start index based on at least one of an output signal of the microphone and an output signal of the human sensor and an output signal of the image sensor. ,
The talking start index calculating step calculates the talking start index using at least one of a detection result indicating a face direction and a detection result indicating a face size obtained using an output signal of the image sensor. ,
Dialogue control method.
応答開始指標計算部が、イメージセンサ及び人感センサの出力信号のうちの少なくとも1つの出力信号とマイクロホンの出力信号とに基づき、前記応答開始指標を計算する応答開始指標計算ステップを含み、
前記応答開始指標計算ステップは、前記マイクロホンの出力信号を用いて得られる音声認識結果を用いて応答開始指標を計算する、
対話制御方法。 The interactive control method according to claim 5 or 6, wherein:
A response start index calculating unit that calculates the response start index based on at least one output signal of the output signals of the image sensor and the human sensor and the output signal of the microphone,
The response start index calculation step calculates a response start index using a speech recognition result obtained using an output signal of the microphone,
Dialogue control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229908A JP6629172B2 (en) | 2016-11-28 | 2016-11-28 | Dialogue control device, its method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229908A JP6629172B2 (en) | 2016-11-28 | 2016-11-28 | Dialogue control device, its method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018087847A JP2018087847A (en) | 2018-06-07 |
JP6629172B2 true JP6629172B2 (en) | 2020-01-15 |
Family
ID=62493011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016229908A Active JP6629172B2 (en) | 2016-11-28 | 2016-11-28 | Dialogue control device, its method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6629172B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102168802B1 (en) | 2018-09-20 | 2020-10-22 | 한국전자통신연구원 | Apparatus and method for interaction |
JP7032284B2 (en) * | 2018-10-24 | 2022-03-08 | Kddi株式会社 | A device, program and method for estimating the activation timing based on the image of the user's face. |
US11511410B2 (en) | 2019-06-17 | 2022-11-29 | Lg Electronics Inc. | Artificial intelligence (AI) robot and control method thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014191029A (en) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | Voice recognition system and method for controlling voice recognition system |
JP6359935B2 (en) * | 2014-09-30 | 2018-07-18 | 株式会社Nttドコモ | Dialogue device and dialogue method |
-
2016
- 2016-11-28 JP JP2016229908A patent/JP6629172B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018087847A (en) | 2018-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
US20200335128A1 (en) | Identifying input for speech recognition engine | |
CN109086264B (en) | Speaking continuation determination method, speaking continuation determination device, and recording medium | |
JP2019053126A (en) | Growth type interactive device | |
JP7230806B2 (en) | Information processing device and information processing method | |
US11289085B2 (en) | Automatic turn delineation in multi-turn dialogue | |
JP7229847B2 (en) | Dialogue device, dialogue method, and dialogue computer program | |
RU2720359C1 (en) | Method and equipment for recognizing emotions in speech | |
US10836044B2 (en) | Robot control device and robot control method | |
JP6629172B2 (en) | Dialogue control device, its method and program | |
US20220335953A1 (en) | Voice shortcut detection with speaker verification | |
WO2019026617A1 (en) | Information processing device and information processing method | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
JP2020119221A (en) | Interactive device, interactive method, and program | |
JP4864783B2 (en) | Pattern matching device, pattern matching program, and pattern matching method | |
CN115700877A (en) | Audio feature detection techniques | |
CN117708305B (en) | Dialogue processing method and system for response robot | |
US20240212678A1 (en) | Multi-participant voice ordering | |
US20240029717A1 (en) | System to provide natural utterance by a voice assistant and method thereof | |
JP2023115649A (en) | Analysis system, information processing apparatus, analysis method, and program | |
CN117876047A (en) | Control method and system of evaluation terminal, computer equipment and readable storage medium | |
WO2024138102A1 (en) | Multi-participant voice ordering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6629172 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |