JP6480351B2 - Speech control system, speech control device and speech control program - Google Patents
Speech control system, speech control device and speech control program Download PDFInfo
- Publication number
- JP6480351B2 JP6480351B2 JP2016001177A JP2016001177A JP6480351B2 JP 6480351 B2 JP6480351 B2 JP 6480351B2 JP 2016001177 A JP2016001177 A JP 2016001177A JP 2016001177 A JP2016001177 A JP 2016001177A JP 6480351 B2 JP6480351 B2 JP 6480351B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- robot
- probability
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
Description
本発明は、発話制御システム、発話制御装置及び発話制御プログラムに関する。 The present invention relates to a speech control system, a speech control device, and a speech control program.
従来、ヒューマノイドロボット及びコンピュータグラフィックにより描画されたエージェント(仮想的な人物)を表示するエージェントシステムは、周囲にいる複数の利用者と会話を行う会話機能を有するものがある。 BACKGROUND Conventionally, an agent system that displays an agent (virtual person) drawn by a humanoid robot and a computer graphic may have a conversation function of making conversations with a plurality of surrounding users.
複数の利用者と対話を行う対話システムとして、例えば、利用者の発話の内容から、次に対話システムが発話するべきであるか否かを推定し、対話システムからの発話を行う技術が開示されている(特許文献1を参照。)。 As a dialog system that interacts with a plurality of users, for example, a technique is disclosed that estimates whether or not the dialog system should speak next from the content of the user's speech, and performs a speech from the dialog system. (See Patent Document 1).
しかしながら、特許文献1に記載の対話システムは、利用者の発話の内容にのみ基づいて発話の判断を行い、利用者の発話が誰に向けてのものかを考慮していない。このため、特許文献1に記載の対話システムは、誤った判断により発話する可能性がある。例えば、利用者A及び利用者Bを含む複数の利用者の会話において、利用者Aが利用者Bに対して「どう思う?」と質問をしたとする。この場合は、特許文献1に記載の対話システムは、誰に対して「どう思う?」と質問をしたのかを把握できないため、誤った判断により発話する可能性がある。このように、従来のヒューマノイドロボット及びエージェントの発話は、周囲にいる複数の利用者に対して適切なタイミングで発話することが困難であった。
However, the dialog system described in
上記事情に鑑み、本発明は、複数の利用者と会話するロボット又はエージェントにより適切なタイミングで発話を行わせることができる発話制御システム、発話制御装置及び発話制御プログラムを提供することを目的としている。 In view of the above circumstances, the present invention has an object to provide a speech control system, a speech control device and a speech control program that can cause a robot or an agent talking to a plurality of users to make speech at appropriate timing. .
本発明の一態様は、複数の利用者と会話を行うロボットの発話を、又は、複数の利用者と会話を行う表示装置に表示される話者の発話を制御する発話制御部と、前記利用者が任意の時刻に次話者となる確率である第1の次話者確率を取得する次話者推定部と、を備え、前記発話制御部は、前記次話者推定部が取得した前記利用者の前記第1の次話者確率に基づいて前記ロボット又は前記話者の発話を制御する発話制御システムである。 According to one aspect of the present invention, there is provided an utterance control unit for controlling an utterance of a robot talking with a plurality of users or an utterance of a speaker displayed on a display device performing a conversation with a plurality of users; A second speaker estimation unit for acquiring a first next speaker probability that is a probability that the speaker will be the next speaker at any time, and the speech control unit is configured to acquire the first speaker obtained by the next speaker estimation unit. It is a speech control system which controls a speech of said robot or said speaker based on said 1st next speaker probability of a user.
本発明の一態様は、前記の発話制御システムであって、前記発話制御部は、複数の前記利用者の前記第1の次話者確率が所定の閾値以下の場合に前記ロボット又は前記話者の発話を行わせるよう制御する。 One aspect of the present invention is the speech control system, wherein the speech control unit is configured to set the robot or the speaker when the first next speaker probability of a plurality of the users is equal to or less than a predetermined threshold. Control to make them speak.
本発明の一態様は、前記の発話制御システムであって、前記発話制御部は、複数の前記利用者の前記第1の次話者確率を所定時間積分した積分値が所定の閾値以下の場合に前記ロボット又は前記話者の発話を行わせるよう制御する。 One embodiment of the present invention is the speech control system, wherein the speech control unit is configured such that an integral value obtained by integrating the first next speaker probability of a plurality of the users for a predetermined time is equal to or less than a predetermined threshold. Control to cause the robot or the speaker to speak.
本発明の一態様は、前記の発話制御システムであって、前記次話者推定部は、前記利用者の非言語行動に基づいて前記第1の次話者確率を取得する。 One embodiment of the present invention is the speech control system, wherein the next speaker estimation unit acquires the first next speaker probability based on the non-verbal behavior of the user.
本発明の一態様は、前記の発話制御システムであって、前記ロボット又は前記話者は、前記非言語行動に対応した動作を行うよう制御が可能であり、前記次話者推定部は、前記ロボットの前記非言語行動に対応した動作に関する情報に基づいて、前記時刻に前記ロボット又は前記話者が次話者となる確率である第2の次話者確率を取得し、前記発話制御部は、複数の前記利用者の前記第1の次話者確率と、前記ロボット又は前記話者の前記第2の次話者確率との比較に基づいて、前記ロボット又は前記話者の発話を制御する。 One embodiment of the present invention is the speech control system described above, wherein the robot or the speaker can be controlled to perform an operation corresponding to the non-verbal behavior, and the next speaker estimation unit is configured to A second next speaker probability, which is a probability that the robot or the speaker will be the next speaker, is obtained at the time based on the information on the motion corresponding to the non-verbal behavior of the robot, and the utterance control unit Controlling the speech of the robot or the speaker based on a comparison of the first next speaker probability of the plurality of users and the second next speaker probability of the robot or the speaker .
本発明の一態様は、前記の発話制御システムであって、前記発話制御部は、前記ロボット又は前記話者の発話の必要性を表す指標である発話必要度を取得して、取得した前記発話必要度に応じて前記次話者推定部が取得した前記第2の次話者確率の値を変化させる。 One aspect of the present invention is the speech control system described above, wherein the speech control unit acquires a speech necessity degree which is an index indicating the necessity of speech of the robot or the speaker, and acquires the speech The value of the second next speaker probability acquired by the next speaker estimation unit is changed according to the degree of necessity.
本発明の一態様は、複数の利用者と会話を行うロボットの発話を、又は、複数の利用者と会話を行う表示装置に表示される話者の発話を制御する発話制御部と、前記利用者が任意の時刻に次話者となる確率である第1の次話者確率を取得する次話者推定部と、を備え、前記発話制御部は、前記次話者推定部が取得した前記利用者の前記第1の次話者確率に基づいて前記ロボット又は前記話者の発話を制御する発話制御装置である。 According to one aspect of the present invention, there is provided an utterance control unit for controlling an utterance of a robot talking with a plurality of users or an utterance of a speaker displayed on a display device performing a conversation with a plurality of users; A second speaker estimation unit for acquiring a first next speaker probability that is a probability that the speaker will be the next speaker at any time, and the speech control unit is configured to acquire the first speaker obtained by the next speaker estimation unit. It is an utterance control device which controls an utterance of the robot or the speaker based on the first next speaker probability of the user.
本発明の一態様は、複数の利用者と会話を行うロボットの発話を、又は、複数の利用者と会話を行う表示装置に表示される話者の発話を制御する発話制御プログラムであって、前記利用者が任意の時刻に次話者となる確率である第1の次話者確率を取得する次話者推定ステップと、前記次話者推定ステップにおいて取得した前記利用者の前記第1の次話者確率に基づいて前記ロボット又は前記話者の発話を制御する発話制御ステップと、をコンピュータに実行させるための発話制御プログラムである。 One embodiment of the present invention is a speech control program for controlling a speech of a robot talking with a plurality of users, or a speech of a speaker displayed on a display device talking with a plurality of users, A next speaker estimation step of acquiring a first next speaker probability that is a probability that the user will be the next speaker at any time; and the first of the user acquired in the next speaker estimation step A speech control program for causing a computer to execute a speech control step of controlling speech of the robot or the speaker based on the next speaker probability.
本発明により、複数の利用者と会話するロボット又はエージェントにより適切なタイミングで発話を行わせることができる。 According to the present invention, a robot or an agent who talks with a plurality of users can make speech occur at an appropriate timing.
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態におけるロボット(発話制御システム)100が備える機能構成の概略を示す図である。第1の実施形態におけるロボット100は、複数人の利用者と会話を行うロボットである。図1に示すように、ロボット100は、マイク101と、カメラ102と、センサ103と、音声入力部104と、映像入力部105と、センサ入力部106と、発話区間検出部107と、次話者推定部108と、発話制御部109と、音制御部110と、スピーカ115とを備える。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First Embodiment
FIG. 1 is a diagram showing an outline of a functional configuration provided in a robot (utterance control system) 100 in the first embodiment. The
マイク101は、会話する利用者の音声等を含むロボット100の周囲の音を集音して、音声信号を含む音信号(以下の説明では単に音声信号という)を出力する。なお、マイク101は、複数の各利用者それぞれに装着された複数のマイクで構成される。なお、ロボット100自身にマイク101が搭載されていても良い。マイク101は、利用者やロボット100に装着される構成に限られるものではなく、利用者又はロボット100の周囲に配置しても良い。マイク101は、利用者の口元により近い位置に配置することが望ましいが、少なくとも利用者の声が集音可能な位置であれば、任意の位置及び任意の数を配置してよい。ロボット100において、複数のマイク101と音声入力部104とは、有線又は無線で音声信号の送受信が可能に接続された構成である。
The microphone 101 collects sounds around the
カメラ102は、会話する利用者の映像を撮影して、映像信号を出力する。カメラ102は、好ましくは、利用者全員の姿が画角にはいるよう広角な画角を有する撮像装置である。また、カメラ102は、利用者全員の姿をそれぞれ撮影する利用者の人数分の複数のカメラであってもよい。カメラ102は、少なくとも利用者全員を撮影可能な位置に配置するのであれば、任意の位置及び任意の台数で構成してもよい。この場合には、ロボット100において、映像入力部105と、複数のカメラとは、有線又は無線で映像信号を送受信可能に接続された構成となる。
The
センサ103は、会話する利用者の位置を計測する第1のセンサ、利用者の呼吸動作を計測する第2のセンサ、利用者の注視対象を検出する第3のセンサ及び利用者の頭部動作を検出する第4のセンサ等の複数のセンサを備え、それらの各センサからのセンサ信号をセンサ入力部106へ出力する。
The
図2は、第1の実施形態におけるセンサ103の具体的な構成例を示す図である。
図2に示すように、センサ103は、会話する利用者の位置を計測する位置計測装置(第1のセンサ)201と、利用者の呼吸動作を計測する呼吸動作計測装置(第2のセンサ)202と、利用者の注視対象を検出する注視対象検出装置(第3のセンサ)203と、利用者の頭部動作を検出する頭部動作検出装置(第4のセンサ)204とを備える。位置計測装置201は、例えばロボット100内に設置され、呼吸動作計測装置202、注視対象検出装置203及び頭部動作検出装置204は、利用者の頭部等に装着される。位置計測装置201は、センサ入力部106と接続されている。呼吸動作計測装置202、注視対象検出装置203及び頭部動作検出装置204は、センサ入力部106と、有線又は無線でセンサ信号の送受信が可能に接続されている。
FIG. 2 is a view showing a specific configuration example of the
As shown in FIG. 2, the
音声入力部104は、マイク101からの音声信号を入力とし、発話区間検出部107、次話者推定部108及び音制御部110へ音声信号を出力する。音声入力部104は、マイク101からの音声信号を、ロボット100内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部105は、カメラ102からの映像信号を入力とし、次話者推定部108へ映像信号を出力する。映像入力部105は、カメラ102からの映像信号を、ロボット100内で処理可能な信号形式の映像信号に変換する等の処理を行う。センサ入力部106は、センサ103からのセンサ信号を入力とし、次話者推定部108へセンサ信号を出力する。センサ入力部106は、センサ103からのセンサ信号を、ロボット100内で処理可能な信号形式のセンサ信号に変換する等の処理を行う。
The
発話区間検出部107は、音声入力部104からの音声信号に基づいて、任意の窓幅を設けてその区間内の音声信号のパワー、ゼロ交差数、周波数などを、音声の特徴を示す値である音声特徴量として算出する。発話区間検出部107は、算出した音声特徴量と所定の閾値を比較して発話区間を検出する。発話区間検出部107は、検出した発話区間に関する情報である発話区間情報を次話者推定部108及び音制御部110へ出力する。なお、マイク101から取得される音声信号において、音声の存在する区間(発話区間)と音声の存在しない区間(非発話区間)を自動的に検出するVAD(Voice Activity Detection)技術は、以下の参考文献1に示すように公知の技術である。発話区間検出部107は、公知のVAD技術を用いて発話区間を検出する。
参考文献1:澤田 宏、外4名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会 春季研究発表会、pp.679−680、2007年3月
The speech
Reference 1: Hiroshi Sawada, 4 others, "Speech segment detection with a large number of microphones-a case with pin microphones", Spring Meeting of the Acoustical Society of Japan, pp. 679-680, March 2007
次話者推定部108は、音声入力部104からの音声信号と、映像入力部105からの映像信号と、センサ入力部106からのセンサ信号と、発話区間検出部107からの発話区間情報とを入力とし、各利用者が時刻tに次話者となる確率である次話者確率を出力する。次話者推定部108は、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者推定部108は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各利用者iが時刻tに次話者となる確率である次話者確率Pns i(t)を算出して、発話制御部109へ出力する。次話者推定部108は、利用者の非言語行動に基づいて次話者確率Pns i(t)を算出している。すなわち、次話者推定部108での、次話者確率Pns i(t)の算出は、利用者の発話内容を解析等して利用者の言語行動に関する情報を得る必要はない。
The next
図3は、第1の実施形態における次話者推定部108が出力する次話者確率Pns i(t)の例を示す図である。図3においては、4名の利用者A〜Dについて利用者Aの発話の切れ目となる時刻tbue以降における次話者確率Pns i(t)の変化例を示している。符号31を付与した矩形は、利用者Aの発話区間を示している。発話区間31は、発話終了時刻tbueで終了している。次話者確率Pns A(t)32で示す点線は、利用者Aにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns B(t)33で示す点線は、利用者Bにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns C(t)34で示す点線は、利用者Cにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns D(t)35で示す点線は、利用者Dにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。このように、次話者推定部108は、利用者iの発話終了時刻tbue以降の時刻tにおける次話者確率Pns i(t)の変化を算出する。なお、次話者推定部108における次話者の推定処理の詳細については後述する。
FIG. 3 is a diagram showing an example of the next speaker probability P ns i (t) output by the next
発話制御部109は、次話者推定部108からの次話者確率を入力とし、音制御部110に対して発話制御信号を出力する。発話制御部109は、次話者推定部108からの各利用者の次話者確率に基づいて、ロボット100に発話を行わせるか否かを制御する発話制御信号を出力する。発話制御部109は、例えば利用者のいずれか一人の次話者確率が閾値以上であれば、ロボット100に発話させず、全利用者の次話者確率が閾値以下であれば、ロボット100に発話させるように制御する発話制御信号を出力する。これにより、ロボット100は、他の利用者における発話開始の確率が低いタイミングで、発話を開始することができる。このように、ロボット100は、複数の利用者と会話する際に、より適切なタイミングで発話を行うことができる。
The
発話制御部109は、具体的には、以下に示す第1制御方法〜第4制御方法の4つの制御方法のいずれかを用いてロボット100の発話の制御を行う。なお、以下の説明においては、利用者A、B、C、Dの4名とロボット100とが会話を行う場合について説明する。
Specifically, the
(第1制御方法)
発話制御部109は、次話者推定部108から取得した時刻tにおける利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D})と、第1の閾値である任意の確率Pαとを比較する(以下、第1の比較という。)。発話制御部109は、上記第1の比較により、利用者A〜Dのいずれか一人の次話者確率Pns i(t)が確率Pα以上である(Pns i(t)≧Pα)と判断した場合は、ロボット100に発話させないよう制御する発話制御信号を出力する。発話制御部109は、上記第1の比較により、利用者A〜Dの全員の次話者確率Pns i(t)が確率Pα未満である(Pns i(t)<Pα)と判断した場合は、ロボット100に時刻tで発話させるよう制御する発話制御信号を出力する。
(First control method)
The
(第2制御方法)
発話制御部109は、次話者推定部108から取得した時刻tにおける利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D})を、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns iを取得する。発話制御部109は、この積分値Pns iと、第2の閾値である任意の確率Pβとを比較する(以下、第2の比較という。)。発話制御部109は、上記第2の比較により、利用者A〜Dのいずれか一人の積分値Pns iが確率Pβ以上である(Pns i≧Pβ)と判断した場合は、ロボット100に発話させないよう制御する発話制御信号を出力する。発話制御部109は、上記第2の比較により、利用者A〜Dの全員の積分値Pns iが確率Pβ未満である(Pns i<Pβ)と判断した場合は、ロボット100に時刻tで発話させるよう制御する発話制御信号を出力する。
(Second control method)
The
(第3制御方法)
発話制御部109は、次話者推定部108から取得した時刻tにおける利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D})を用いて、利用者全員の次話者確率を加算した加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))を取得する。発話制御部109は、加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))と、第3の閾値である任意の確率Pγとを比較する(以下、第3の比較という。)。発話制御部109は、上記第3の比較により、利用者A〜Dのいずれか一人の加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))が確率Pγ以上である((Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))≧Pγ)と判断した場合は、ロボット100に発話させないよう制御する発話制御信号を出力する。発話制御部109は、上記第3の比較により、利用者A〜Dの全員の加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))が確率Pγ未満である((Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))<Pγ)と判断した場合は、ロボット100に時刻tで発話させるよう制御する発話制御信号を出力する。
(Third control method)
The
(第4制御方法)
発話制御部109は、次話者推定部108から取得した時刻tにおける利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D})を、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns iを取得する。発話制御部109は、利用者全員の積分値Pns iを加算した加算値(Pns A+Pns B+Pns C+Pns D)を取得する。発話制御部109は、加算値(Pns A+Pns B+Pns C+Pns D)と、第4の閾値である任意の確率Pθとを比較する(以下、第4の比較という。)。発話制御部109は、上記第4の比較により、利用者A〜Dのいずれか一人の加算値(Pns A+Pns B+Pns C+Pns D)が確率Pθ以上である((Pns A+Pns B+Pns C+Pns D)≧Pθ)と判断した場合は、ロボット100に発話させないよう制御する発話制御信号を出力する。発話制御部109は、上記第4の比較により、利用者A〜Dの全員の加算値(Pns A+Pns B+Pns C+Pns D)が確率Pθ未満である((Pns A+Pns B+Pns C+Pns D)<Pθ)と判断した場合は、ロボット100に時刻tで発話させるよう制御する発話制御信号を出力する。
(4th control method)
The
次話者確率Pns i(t),(i∈{A,B,C,D})は、図3に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、発話制御部109は、第1制御方法〜第4制御方法において、次話者確率Pns i(t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻tにおける次話者確率Pns i(t)として出力するようにしてもよい。また、発話制御部109は、第1制御方法〜第4制御方法において、次話者確率Pns i(t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、n番目(nは1以上の整数)のピークの次話者確率を、時刻tにおける次話者確率Pns i(t)として出力するようにしてもよい。
The next speaker probability P ns i (t), ( i A {A, B, C, D}) often has a peak after a predetermined time from the end of the speech, as shown in FIG. Therefore, in the first control method to the fourth control method, the
音制御部110は、音声入力部104からの音声信号と、発話区間検出部107からの発話区間情報と、発話制御部109からの発話制御信号とに基づいて、スピーカ115に対して音信号を出力する。音制御部110は、発話制御信号に基づいて、ロボット100に発話を行わせるか否かを判断する。音制御部110は、発話制御信号に基づいて、ロボット100に発話を行わせると判断した場合には、ロボット100に発話させる会話内容(言葉)を含む会話情報を生成し、生成した会話情報に基づいた音信号を出力する。音制御部110は、例えば、音声信号及び発話区間情報に基づいて利用者の会話内容を解析し、解析結果に基づいて、ロボット100に発話させるための会話情報を生成する。
The
ここで、第1の実施形態における音制御部110の構成の詳細について一例を示して説明する。
図4は、第1の実施形態における音制御部110の構成の詳細の具体例を示す図である。音制御部110は、音声解析部401と、会話情報生成部402と、会話情報DB(データベース)403と、発声情報生成部404と、音信号生成部405とを備える。
Here, the details of the configuration of the
FIG. 4 is a diagram showing a specific example of the details of the configuration of the
会話情報DB403は、ロボット100に会話させるための会話サンプル情報を格納する。会話サンプル情報とは、日常の会話でよく使われる名詞、「こんにちは」等の挨拶及び「ありがとうございます」、「大丈夫ですか」等の日常会話でよく利用するフレーズの音声信号を含む情報である。
The
音声解析部401は、音声入力部104からの音声信号と、発話区間検出部107からの発話区間情報とに基づいて、音声信号を解析して、その内容(言葉)を特定し、解析結果を出力する。
The
会話情報生成部402は、音声解析部401の解析結果に基づいて、ロボット100の発話内容となる会話情報を生成する。会話情報生成部402は、音声解析部401の解析結果に基づいて、会話する内容に応じた会話サンプル情報を会話情報DB403から取得する。会話情報生成部402は、取得した会話サンプル情報に基づいて、会話情報を生成する。会話情報生成部402は、発声情報生成部404からの会話情報の要求に応じて、会話情報を生成し、発声情報生成部404へ出力する。
The conversation
発声情報生成部404は、会話情報生成部402からの会話情報と、発話制御部109からの発話制御情報とを入力として、発話信号を出力する。発声情報生成部404は、発話制御部109からの発話制御情報に基づいて、会話情報生成部402に対して会話情報を要求する。発声情報生成部404は、要求に応じて会話情報生成部402から取得した会話情報と、発話制御部109からの発話制御情報とに基づいて、ロボット100が発声するための発話信号を生成する。発声情報生成部404は、生成した発話信号を音信号生成部405へ出力する。
The utterance
音信号生成部405は、発声情報生成部404からの発話信号を入力とし、音信号を出力する。音信号生成部405は、発声情報生成部404からの発話信号に基づいてスピーカ115から発話させるための音信号を生成して、スピーカ115へ出力する。
The sound
図5は、第1の実施形態におけるロボット100の外観及び構成の具体例を示す図である。第1の実施形態におけるロボット100は、例えば図5に示す外観を有し、図1に示す機能構成を有する。
FIG. 5 is a view showing a specific example of the appearance and configuration of the
図5に示すように、ロボット100は、例えば、人間の上半身をモデルとした形状のヒューマノイドロボット(人型ロボット)である。ロボット100は、発話を行う発話機能、人の音声を認識する音声認識機能、利用者を撮影するカメラ機能を少なくとも備える。ロボット100は、右目51a及び左目51bと、口部52とが配置された顔を有する頭部53を備える。
As shown in FIG. 5, the
ロボット100は、頭部53を支持する頸部54と、頸部54を支える胴部55とを備える。胴部55は、右腕55aと左腕55bとが側面上部に設けられている。また、頭部53の右目51a、左目51bの間には、カメラ102が設置されている。以下の説明において、右目51a、左目51bをまとめて説明する場合は、眼部51と称する。
The
図1に示す構成の内、図5に示しているのは、カメラ102のみであるので、カメラ102以外の図1に示す構成の設置位置の一例について説明する。マイク101及びセンサ103は、ロボット100の胴部55内における任意の位置又は胴部55から離れた位置(例えば利用者の位置)に設置される。図1に示すマイク101、カメラ102及びセンサ103以外の構成は、ロボット100内部に設置されるものであり、例えば、スピーカ115は、図5に示した口部52の内部に設置されている。
Of the configuration shown in FIG. 1, only the
次に、第1の実施形態におけるロボット100の動作について説明する。
図6は、第1の実施形態におけるロボット100の動作を示すフロー図である。図6に示す処理は、ロボット100において、複数の利用者と会話を行う動作を開始した際に行う処理である。
Next, the operation of the
FIG. 6 is a flow chart showing the operation of the
音声入力部104は、マイク101からの音声信号が入力され、映像入力部105は、カメラ102からの映像信号が入力され、センサ入力部106は、センサ103からのセンサ信号が入力される(ステップS101)。発話区間検出部107は、音声入力部104からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する(ステップS102)。
The
次話者推定部108は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各利用者iが時刻tに次話者となる確率である次話者確率Pns i(t)を算出する(ステップS103)。発話制御部109は、次話者推定部108からの各利用者の次話者確率に基づいて、ロボット100に発話を行わせるか否かを制御する発話制御信号を出力する(ステップS104)。
The next
音制御部110は、発話制御部109からの発話制御信号に基づいて、ロボット100に発話を行わせるか否かを判断する(ステップS105)。ここで、ロボット100に発話を行わせないと判断した場合(ステップS105のNO)には、ステップS101の処理に戻る。ロボット100に発話を行わせると判断した場合(ステップS105のYES)には、音制御部110は、ロボット100に発話させるための会話情報を生成し、生成した会話情報に基づいた音信号をスピーカ115へ出力する(ステップS106)。これにより、ロボット100は、音信号に応じた発話をスピーカ115から発音する。
The
音制御部110は、発話制御部109からの発話制御信号に基づいて、ロボット100の発話を終了するか否かを判断する(ステップS107)。ここで、ロボット100の発話を終了しない場合(ステップS107のNO)には、音制御部110は、ステップS106の処理に戻る。ロボット100の発話を終了する場合(ステップS107のYES)には、音制御部110は、会話情報の生成を停止することに応じて音信号の出力を停止する。
The
次に、ロボット100は、複数の利用者と会話を行う会話動作を終了するか否かを判断する(ステップS108)。ここで、会話動作を終了しないと判断した場合(ステップS108のNO)には、ステップS101の処理に戻る。会話動作を終了すると判断した場合(ステップS108のYES)には、ロボット100は、会話動作を終了する。例えば、利用者が電源スイッチ(図示せず)を入れたタイミングや会話モードのスイッチ(図示せず)をオンにしたタイミングで、ロボット100は、会話動作を開始し、利用者が電源スイッチを切ったタイミングや会話モードのスイッチをオフにしたタイミングで、ロボット100は、会話動作を終了する。
Next, the
以上に説明したとおり、第1の実施形態におけるロボット100は、複数の利用者と会話する際に、各利用者の次話者確率に基づいて、各利用者が発話する可能性の低い、より適切なタイミングで発話を行うことができる。これにより、ロボット100は、他の利用者と発話のタイミングが重なる発話衝突の発生を低減した発話を行うことができる。また、発話中のロボット100は、各利用者の次話者確率に基づいて、利用者の内の誰かが発話をしそうな場合には、発話を終了することができる。
As described above, when the
(第2の実施形態)
第2の実施形態におけるロボット100Aについて説明する。第2の実施形態におけるロボット100Aが、第1の実施形態におけるロボット100と異なる点は、ロボット100A自身の動き(呼吸動作、視線動作、頭部動作)からロボット100A自身の次話者確率Pns R(t)を求める点と、求めた次話者確率Pns R(t)と他の利用者の次話者確率とに基づいて、ロボット100Aの発話を制御する点である。
Second Embodiment
The
また、第2の実施形態におけるロボット100Aは、会話中に、会話中の人間同様の動きを行う点でも異なる。ロボット100Aは、会話中に、呼吸音を発したり胸の膨らみを変化させたりする呼吸動作、視線を現話者に向ける等の視線動作、会話に応じて頷いたりする頭部動作を行う。
In addition, the
図7は、第2の実施形態におけるロボット100Aが備える機能構成の概略を示す図である。図7に示す第2の実施形態におけるロボット100Aは、第1の実施形態におけるロボット100と同じ構成要素を含む。よって、ロボット100Aの説明においては、第1の実施形態におけるロボット100と同じ構成要素については、同じ符号を付与して説明を省略する。
FIG. 7 is a diagram schematically showing the functional configuration of the
図7に示すように、ロボット100Aは、マイク101と、カメラ102と、センサ103と、音声入力部104と、映像入力部105と、センサ入力部106と、発話区間検出部107と、次話者推定部108Aと、制御部109Aと、音制御部110Aと、口部制御部111と、視線制御部112と、頭部制御部113と、胴部制御部114と、スピーカ115と、口部駆動部116と、眼部駆動部117と、頭部駆動部118と、胴部駆動部119とを備える。
As shown in FIG. 7, the
次話者推定部108Aは、音声入力部101からの音声信号と、映像入力部102からの映像信号と、センサ入力部106からのセンサ信号と、発話区間検出部107からの発話区間情報と、制御部109Aからの疑似センサ信号とを入力とし、各利用者及びロボット100Aが時刻tに次話者となる確率である次話者確率を出力する。疑似センサ信号は、制御部109Aが生成する動作制御信号に基づいてロボット100Aを動作させ、かつ、そのロボット100Aの動作をセンサ103で検出したと仮定した場合に、センサ103が出力するセンサ信号である。
The next
次話者推定部108Aは、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者推定部108Aは、音声信号、映像信号、センサ信号、疑似センサ信号及び取得した発話者情報に基づいて、ロボット100A及び各利用者iが時刻tに次話者となる確率である次話者確率Pns i(t)を算出して、制御部109Aへ出力する。次話者推定部108Aは、次話者確率Pns i(t)の他に、発話者情報及び利用者の位置情報を制御部109Aへ出力する。
The next
次話者推定部108Aは、利用者の位置情報を、例えば、センサ103からの利用者の位置を計測したセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ103からの利用者の位置を計測したセンサ信号及び映像信号に基づいて取得してもよい。
The next
制御部109Aは、次話者推定部108Aからの次話者確率Pns i(t)、発話者情報及び利用者の位置情報を入力とし、発話制御信号及び動作制御信号を出力する。制御部109Aは、次話者推定部108Aからのロボット100A及び各利用者の次話者確率に基づいて、ロボット100Aに発話を行わせるか否かを制御する発話制御信号を生成し、生成した発話制御信号を音制御部110Aへ出力する。制御部109Aは、生成した発話制御信号と、発話者情報と、利用者の位置情報とに基づいて、動作制御信号を生成し、生成した動作制御信号を口部制御部111、視線制御部112、頭部制御部113及び胴部制御部114へ出力する。
The
制御部109Aは、動作制御信号に基づいて疑似センサ信号を生成し、生成した疑似センサ信号を次話者推定部108Aへ出力する。これにより、次話者推定部108Aは、ロボット100Aが時刻tに次話者となる確率である次話者確率Pns R(t)を推定することができる。なお、第2の実施形態における制御部109Aは、疑似センサ信号を生成する構成であるが、この構成に限られるものではない。例えば、制御部109Aは、疑似センサ信号を生成する機能を有さずに、次話者推定部108Aが、ロボット100Aの動作制御信号から疑似センサ信号を生成する機能を有する構成としてもよい。また、次話者推定部108Aにおいて、ロボット100Aの動作制御信号に基づいてロボット100Aの次話者確率を推定する構成としてもよい。
制御部109Aは、ロボット100Aの次話者確率Pns R(t)と、全利用者の次話者確率との関係に応じて、ロボット100Aの発話を制御する発話制御信号を出力する。例えば、制御部109Aは、ロボット100Aの次話者確率Pns R(t)が、全利用者の次話者確率以下の値であれば、ロボット100Aに発話させないように制御する発話制御信号を出力する。制御部109Aは、ロボット100Aの次話者確率Pns R(t)が、全利用者の次話者確率より大きい値であれば、ロボット100Aに発話させるように制御する発話制御信号を出力する。これにより、ロボット100Aは、自身の次話者確率が高く、他の利用者における次話者確率が低いタイミングで、発話を開始することができる。このように、ロボット100は、複数の利用者と会話する際に、より適切なタイミングで発話を行うことができる。
制御部109Aは、具体的には、以下に示す第5制御方法〜第8制御方法の4つの制御方法のいずれかを用いてロボット100Aの発話の制御を行う。なお、以下の説明においては、利用者A、B、C、Dの4名とロボット100AであるRとが会話を行う場合について説明する。
Specifically,
(第5制御方法)
制御部109Aは、次話者推定部108Aから、時刻tにおける利用者A〜D及びロボット100AであるRの次話者確率Pns i(t),(i∈{A,B,C,D,R})を取得する。制御部109Aは、ロボット100Aの次話者確率Pns R(t)と、利用者A〜Dの次話者確率Pns A(t)、Pns B(t)、Pns C(t)、Pns D(t)とを比較して、Pns R(t)が最大であると判断した場合は、ロボット100Aに時刻tで発話させるよう制御する発話制御信号を出力する。制御部109Aは、上記比較においてPns R(t)が最大でないと判断した場合は、ロボット100Aに発話させないよう制御する発話制御信号を出力する。
(Fifth control method)
From
(第6制御方法)
制御部109Aは、次話者推定部108Aから取得した時刻tにおけるロボット100A及び利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D,R})を、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns iを取得する。制御部109Aは、ロボット100Aの積分値Pns Rと、利用者A〜Dの積分値Pns A、Pns B、Pns C、Pns Dとを比較して、Pns Rが最大であると判断した場合は、ロボット100AにPns R(t)が最大となる時刻tで発話させるよう制御する発話制御信号を出力する。制御部109Aは、上記比較において、Pns Rが最大でないと判断した場合は、ロボット100Aに発話させないよう制御する発話制御信号を出力する。
(Sixth control method)
(第7制御方法)
制御部109Aは、次話者推定部108Aから、時刻tにおける利用者A〜D及びロボット100AであるRの次話者確率Pns i(t),(i∈{A,B,C,D,R})を取得する。制御部109Aは、利用者全員の次話者確率を加算した加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))を取得する。制御部109Aは、加算値(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))と、ロボット100Aの次話者確率Pns R(t)に定数ιを乗算したPns R(t)・ιとを比較する(ιは正の値となる任意の定数)。制御部109Aは、(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))≧Pns R(t)・ιと判断した場合は、ロボット100Aに発話させないよう制御する発話制御信号を出力する。制御部109Aは、(Pns A(t)+Pns B(t)+Pns C(t)+Pns D(t))<Pns R(t)・ιと判断した場合は、ロボット100Aに時刻tで発話させるよう制御する発話制御信号を出力する。なお、定数ιは、例えば、利用者の人数と同じ値としてもよく、ロボット100Aの発話機会を増やしたければより大きな値としてもよく、ロボット100Aの発話を控えめにしたければより小さい値としてもよい。
(Seventh control method)
From
(第8制御方法)
制御部109Aは、次話者推定部108Aから取得した時刻tにおけるロボット100A及び利用者A〜Dの次話者確率Pns i(t),(i∈{A,B,C,D,R})を、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns iを取得する。制御部109Aは、利用者全員の積分値Pns iを加算した加算値(Pns A+Pns B+Pns C+Pns D)を取得する。発話制御部109は、加算値(Pns A+Pns B+Pns C+Pns D)と、ロボット100Aの積分値Pns Rに定数ζを乗算したPns R・ζとを比較する(ζは正の値となる任意の定数)。制御部109Aは、(Pns A+Pns B+Pns C+Pns D)≧Pns R・ζと判断した場合は、ロボット100Aに発話させないよう制御する発話制御信号を出力する。制御部109Aは、(Pns A+Pns B+Pns C+Pns D)<Pns R・ζと判断した場合は、ロボット100にPns R(t)が最大となる時刻tで発話させるよう制御する発話制御信号を出力する。
(Eighth control method)
次話者確率Pns i(t),(i∈{A,B,C,D,R})は、図3に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、制御部109Aは、第5制御方法〜第8制御方法において、次話者確率Pns i(t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻tにおける次話者確率Pns i(t)として出力するようにしてもよい。また、制御部109Aは、第5制御方法〜第8制御方法において、次話者確率Pns i(t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、n番目(nは1以上の整数)のピークの次話者確率を、時刻tにおける次話者確率Pns i(t)として出力するようにしてもよい。
The next speaker probability P ns i (t), ( i ∈ {A, B, C, D, R}) often has a peak after a predetermined time from the end of the speech, as shown in FIG. Therefore, in the fifth control method to the eighth control method,
音制御部110Aは、音声入力部104からの音声信号と、発話区間検出部107からの発話区間情報と、制御部109Aからの発話制御信号とに基づいて、スピーカ115に対して音信号を出力する。音制御部110Aは、発話制御信号に基づいて、ロボット100Aに発話を行わせるか否かを判断する。音制御部110Aは、発話制御信号に基づいて、ロボット100Aに発話を行わせると判断した場合には、ロボット100Aに発話させる会話内容(言葉)を含む会話情報を生成し、生成した会話情報に基づいた音信号を出力する。音制御部110Aは、例えば、音声信号及び発話区間情報に基づいて利用者の会話内容を解析し、解析結果に基づいて、ロボット100Aに発話させるための会話情報を生成する。
The
口部制御部111は、制御部109Aからの動作制御信号に基づいて、口部駆動部116に対して口部駆動信号を出力する。視線制御部112は、制御部109Aからの動作制御信号に基づいて、眼部駆動部117に対して眼部駆動信号を出力する。頭部制御部113は、制御部109Aからの動作制御信号に基づいて、頭部駆動部118に対して頭部駆動信号を出力する。胴部制御部114は、制御部109Aからの動作制御信号に基づいて、胴部駆動部119に対して胴部駆動信号を出力する。
The
第2の実施形態におけるロボット100Aの外観は、図2に示したロボット100と同一である。ここで、図2を用いてロボット100Aが備える口部駆動部116、眼部駆動部117、頭部駆動部118及び胴部駆動部119の配置と駆動する対象について説明する。頭部23は、右目21a及び左目21bの黒目(視線)を移動させる眼部駆動部117と、口部22の開閉を行う口部駆動部116とを備える。
The appearance of the
頸部24は、頭部23に対して所定の動き(例えば、頷かせたり、顔の方向を変えたりする動き)を行わせる頭部駆動部118を備え、頭部23を支持する。胴部25は、呼吸をしているかのように、肩を動かしたり、胸の部分を膨らませたりする胴部駆動部119を備える。口部駆動部116は、口部制御部111からの口部駆動信号に基づいてロボット100Aの口部22の開閉を行う。眼部駆動部117は、視線制御部112からの眼部駆動信号に基づいてロボット100Aの眼部21における黒目の方向(=ロボット100の視線の方向)を制御する。
The neck 24 includes a
頭部駆動部118は、頭部制御部113からの頭部駆動信号に基づいてロボット100Aの頭部23の動きを制御する。胴部駆動部119は、胴部制御部114からの胴部駆動信号に基づいてロボット100の胴部25の形状を制御する。また、胴部駆動部119は、胴部制御部114からの胴部駆動信号に基づいてロボット100の右腕25a及び左腕25bの動きも制御する。
The
第2の実施形態における制御部109Aの構成の詳細について一例を示して説明する。
図8は、第2の実施形態における制御部109Aの構成の詳細の具体例を示す図である。制御部109Aは、発話制御部301と、動作パターン情報格納部302と、動作制御部303と、センサ信号変換部304とを備える。発話制御部301は、ロボット100Aの発話を制御する発話制御信号を出力する。
The details of the configuration of the
FIG. 8 is a diagram showing a specific example of details of the configuration of the
発話制御部301は、次話者推定部108Aからの次話者確率を入力とし、音制御部110Aに対して発話制御信号を出力する。発話制御部301は、次話者推定部108Aからのロボット100A及び各利用者の次話者確率に基づいて、上述した第5制御方法〜第8制御方法の4つの制御方法のいずれかを用いてロボット100Aの発話の制御を行う発話制御信号を出力する。発話制御部301は、動作制御部303に対しても発話制御信号を出力する。発話制御部301は、動作制御部303からの呼吸音やフィラーを発音するよう指示する発音指示信号に応じて、その発音指示信号を音制御部110Aへ出力する。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。
The
動作パターン情報格納部302は、ロボット100Aが会話中に行う動作の動作パターンの情報である動作パターン情報を格納する。動作パターン情報格納部302は、例えば、発話を開始する前に、これから発話を行うことを周りの人に察知させるよう人が行っている動作と同様の動作をロボット100Aに行わせる動作パターン情報を格納している。
The motion pattern
複数人が会話している際に、非話者である人が次話者として発話する直前に行う行動を解析した結果、以下の(1)〜(3)の行動が「次は私が話を始めます」ということを周囲に示す行動であると考えられる。
(1)吸気音又はフィラーを発声する
(2)現話者に視線向ける
(3)現話者の会話に頷く
As a result of analyzing the action taken immediately before the non-speaker speaks as the next speaker while multiple people are talking, the following actions (1) to (3) It is thought that it is an action shown to the surrounding that "it begins".
(1) Speak inspiratory noise or filler (2) Look at the current speaker (3) Look at the conversation of the current speaker
上述した解析結果を参考にして、制御部109Aは、ロボット100Aの発話前に、ロボット100Aに上述した(1)〜(3)の動作を行わせるよう制御することで、ロボット100がもうすぐ発話を開始することを利用者に予見させることができる。ロボット100Aが上述した(1)〜(3)の動作を行うと次話者推定部108Aが推定するロボット100Aの次話者確率Pns R(t)が上昇する。すなわち、発話を行うことを周りの人に察知させる動作とは、例えば、現話者に視線を移動させる動作、頭を頷かせる動作、吸気音とともに吸気する動作等を含む。
Based on the analysis result described above, the
制御部109Aは、以下の参考文献に記載の技術を用いてロボット100Aに上述した(1)〜(3)の動作を行わせるよう制御してもよい。
(1)の吸気音を発声する動作をロボット100Aに行わせるための技術として以下の参考文献2に記載された公知技術がある。
参考文献2:吉田直人、外3名、“吐息と腹部運動を伴う呼吸表現に関する因子分析に基づいた生物的身体感情インタラクションの設計”、HAIシンポジウム2014、2014年
(2)の現話者に視線を向ける動作をロボット100Aに行わせるための技術として以下の参考文献3に記載された公知技術がある。
参考文献3:石井 亮、外2名、“アバタ音声チャットシステムにおける会話促進のための注視制御”、ヒューマンインタフェース学会論文誌、2008年
(3)の現話者の会話に頷く動作をロボット100Aに行わせるための技術として以下の参考文献4に記載された公知技術がある。
参考文献4:渡辺富夫、外3名、“InterActorを用いた発話音声に基づく身体的インタラクションシステム”、ヒューマンインタフェース学会論文誌、Vol.2、No.2、pp.21−29、2000年
The
As a technique for causing the
Reference 2: Naoto Yoshida, 3 others, "Design of biological body emotion interaction based on factor analysis on respiratory expression with exhalation and abdominal movement", Gaze to current speakers in HAI Symposium 2014, 2014 (2) There is a known technique described in the following reference 3 as a technique for causing the
Reference 3: Atsushi Ishii and 2 others, "Gaze control to promote conversation in avatar voice chat system", Human Interface Society Journal, 2008 (3) Motion to talk to the speaker of the current speaker to
Reference 4: Tomio Watanabe, 3 others, "A physical interaction system based on speech voice using InterActor", Journal of Human Interface Society, Vol. 2, No. 2, pp. 21-29, 2000
動作制御部303は、発話制御部301からの発話制御信号と、次話者推定部108Aからの発話者情報及び利用者の位置情報とに基づいて、動作パターン情報格納部302から動作パターン情報を取得して動作制御信号を生成し、生成した動作制御信号を口部制御部111、視線制御部112、頭部制御部113及び胴部制御部114へ出力する。動作制御部303は、動作パターン情報に応じて、呼吸音やフィラーを発音するよう指示する発音指示信号を発話制御部301へ出力する。位置計測装置201は、利用者の位置情報として、利用者の顔の位置を特定する位置情報を取得する機能を有してもよい。これにより、ロボット100は、利用者の位置情報として、利用者の顔の位置を特定する位置情報を用いることで、例えば、現話者の顔に対してのロボット100の顔および視線を向ける動作を行うことができる。
The
第2の実施形態における音制御部110Aの構成の詳細について一例を示して説明する。
図9は、第2の実施形態における音制御部110Aの構成の詳細の具体例を示す図である。図9に示す第2の実施形態における音制御部110Aは、第1の実施形態における音制御部110と同じ構成要素を含む。よって、音制御部110Aの説明においては、第1の実施形態における音制御部110と同じ構成要素については、同じ符号を付与して説明を省略する。
The details of the configuration of the
FIG. 9 is a diagram showing a specific example of the details of the configuration of the
音制御部110Aは、音声解析部401と、会話情報生成部402と、会話情報DB403Aと、発声情報生成部404Aと、音信号生成部405とを備える。
The
会話情報DB403Aは、上述した第1の実施形態の会話情報DB403が格納していた会話サンプル情報に加えて、更に呼吸音情報及びフィラー情報を格納する。呼吸音情報は、ロボット100Aに発音させる呼吸音の情報である。呼吸音情報は、例えば、「スーッ」又は「シュー」という人が吸気する際に出す吸気音の音声信号を含む情報である。フィラー情報は、ロボット100に発音させるフィラーの情報であるフィラー情報を格納する。フィラー情報は、「あのー」、「そのー」、「えっと」等のフィラーの音声信号を含む情報である。
The
発声情報生成部404Aは、上述した第1の実施形態の発声情報生成部404の機能に加えて、制御部109Aからの呼吸音やフィラーを発音するよう指示する発音指示信号に応じて、会話情報生成部402に対して呼吸音やフィラーを発音する会話情報を要求する。これにより、会話情報生成部402は、呼吸音やフィラーを発音するための音声信号を含む呼吸音情報やフィラー情報を会話情報DB403Aから参照して、呼吸音やフィラーを発音する会話情報を発声情報生成部404Aへ出力する。発声情報生成部404Aは、要求に応じて会話情報生成部402から取得した呼吸音やフィラーを発音する会話情報に基づいて、ロボット100に呼吸音やフィラーを発声させるための発話信号を生成する。発声情報生成部404は、生成した発話信号を音信号生成部405へ出力する。
In addition to the function of the utterance
以上の構成により、ロボット100Aは、発話を行いたい場合に、発話前に、動作制御信号に基づいて視線を利用者に向けたり、呼吸音やフィラーを発音したりすることができる。これにより、ロボット100Aの次話者確率Pns R(t)が上昇するので、制御部109Aが、ロボット100Aに発話させる発話制御情報を出力する可能性が高まる。利用者は、ロボット100が発話を開始する前に、ロボット100がまもなく発話することを予見することができる。この予見により、利用者とロボット100との発話衝突を防ぎ、スムーズな会話を実現することができる。
With the above-described configuration, when the
図10は、第2の実施形態におけるロボット100Aの会話前動作の具体例を示す図である。図10に示すとおり、ロボット100Aと発話中の利用者である現話者60とがいる場合の具体例について説明する。図10の左側は、現話者60の話をロボット100Aが聞いている状態を示している。図10の右側は、ロボット100Aが発話を開始する直前の動作を示している。図10に示すとおり、ロボット100は、発話開始の直前に、頭部53を矢印61に示す方向に回転させることで、視線を現話者60に向ける。その頭部53の回転と同時又は前後して口部52内にあるスピーカ115から「スーッ」という吸気音62を発音する。これにより、ロボット100Aの次話者確率Pns R(t)を上昇するので、ロボット100Aの発話の可能性を高めることができる。現話者60は、ロボット100Aがもうすぐ発話することを予見することができる。すなわち、ロボット100Aは、より適切なタイミングで発話を行うことができる。
FIG. 10 is a diagram showing a specific example of the pre-conversation operation of the
次に、第2の実施形態におけるロボット100Aの会話動作について説明する。
図11は、第2の実施形態におけるロボット100Aの会話動作を示すフロー図である。図11に示す処理は、図6に示した処理と同様に、ロボット100Aにおいて、複数の利用者と会話を行う動作を開始した際に行う処理である。
Next, the conversation operation of the
FIG. 11 is a flowchart showing the conversation operation of the
音声入力部104は、マイク101からの音声信号が入力され、映像入力部105は、カメラ102からの映像信号が入力され、センサ入力部106は、センサ103からのセンサ信号が入力される。また、制御部109Aの制御によりロボット100Aの会話動作を行う(ステップS201)。ロボット100Aの会話動作には、上述した(1)〜(3)の動作が含まれる。このロボット100Aの会話動作に応じて、制御部109Aは、疑似センサ信号を次話者推定部108Aに出力する。
The
発話区間検出部107は、音声入力部104からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する(ステップS202)。次話者推定部108Aは、音声信号、映像信号、センサ信号、疑似センサ信号及び発話者情報に基づいて、ロボット100A及び各利用者iが時刻tに次話者となる確率である次話者確率Pns i(t)を算出する(ステップS203)。
The speech
制御部109Aは、次話者推定部108Aからのロボット100A及び各利用者の次話者確率に基づいて、発話制御信号を出力する(ステップS204)。音制御部110Aは、制御部109Aからの発話制御信号に基づいて、ロボット100Aに発話を行わせるか否かを判断する(ステップS205)。ここで、ロボット100Aに発話を行わせないと判断した場合(ステップS205のNO)には、ステップS201の処理に戻る。ロボット100Aに発話を行わせると判断した場合(ステップS105のYES)には、音制御部110Aは、ロボット100Aに発話させるための会話情報を生成し、生成した会話情報に基づいた音信号をスピーカ115へ出力する(ステップS206)。これにより、ロボット100Aは、音信号に応じた発話をスピーカ115から発音する。
The
音制御部110Aは、制御部109Aからの発話制御信号に基づいて、ロボット100Aの発話を終了するか否かを判断する(ステップS207)。ここで、ロボット100Aの発話を終了しない場合(ステップS207のNO)には、音制御部110Aは、ステップS206の処理に戻る。ロボット100Aの発話を終了する場合(ステップS207のYES)には、音制御部110Aは、会話情報の生成を停止することに応じて音信号の出力を停止する。
The
次に、ロボット100Aは、複数の利用者と会話を行う会話動作を終了するか否かを判断する(ステップS208)。ここで、会話動作を終了しないと判断した場合(ステップS208のNO)には、ステップS201の処理に戻る。会話動作を終了すると判断した場合(ステップS208のYES)には、ロボット100Aは、会話動作を終了する。
Next, the
以上に説明したとおり、第2の実施形態におけるロボット100Aは、複数の利用者と会話する際に、ロボット100Aの次話者確率と、各利用者の次話者確率との比較に基づいて、より適切なタイミングで発話を行うことができる。これにより、ロボット100Aは、他の利用者と発話のタイミングが重なる発話衝突の発生を低減した発話を行うことができる。また、ロボット100Aは、発話前にこれから発話を行うことを周りの人に察知させる動作を行うことで、より確実に発話衝突の発生を低減した発話を行うことができる。
As described above, when the
(第2の実施形態の変形例)
第2の実施形態の変形例は、ロボット100Aの発話の必要性を表す指標であり、発話の必要性が高いほど大きな値となる、発話必要度を算出し、算出した発話必要度を用いて、ロボット100Aの次話者確率を変更する構成である。ロボット100Aは、公知の音声認識技術を用いて利用者の発話の内容を取得して、取得した発話内容に応じて発話必要度を算出する。
発話必要度の具体的な算出方法として、「発話内容」、「相手との関係」及び「発話者の性格」に基づいて、発話必要度を示す発話レベルULを算出する方法が、以下の参考文献5に記載されている。
参考文献5:河添 麻衣子、北村 泰彦“発話タイミングを考慮したマルチエージェント対話システム”、電子情報通信学会技術研究報告、AI、人工知能と知識処理、106(617)、pp53−56、2007年3月21日
(Modification of the second embodiment)
The modification of the second embodiment is an index that indicates the necessity of speech of the
As a specific calculation method of the degree of necessity of speech, a method of calculating the speech level U L indicating the degree of necessity of speech on the basis of "speech contents", "relationship with the other party" and "personality of the speaker" It is described in reference 5.
Reference 5: Mai Kawagoe, Yasuhiko Kitamura "Multi-Agent Dialogue System Considering Utterance Timing", IEICE Technical Report, AI, Artificial Intelligence and Knowledge Processing, 106 (617), pp 53-56, March 2007 21st
制御部109Aは、発話レベルULを用いて例えば、下記の式により上述した第5制御方法又は第7制御方法で用いる次話者確率Pns R(t)の代わりのPns R(t)’を求める。
Pns R(t)’=Pns R(t)・UL・ζ(ζは任意の定数)
なお、上記式の変形例として以下の式を用いてもよい。
Pns R(t)’=Pns R(t)+UL・ζ(ζは任意の定数)
P ns R (t) '= P ns R (t) · U L · ζ (ζ is an arbitrary constant)
The following equation may be used as a modification of the above equation.
P ns R (t) '= P ns R (t) + U L ζ (ζ is an arbitrary constant)
制御部109Aは、発話レベルULを用いて例えば、下記の式により上述した第6制御方法又は第8制御方法で用いる積分値Pns Rの代わりのPns R’を求める。
Pns R’=Pns R・UL・ζ(ζは任意の定数)
なお、上記式の変形例として以下の式を用いてもよい。
Pns R’=Pns R+UL・ζ(ζは任意の定数)
P ns R '= P ns R · U L · ζ (ζ is an arbitrary constant)
The following equation may be used as a modification of the above equation.
P ns R '= P ns R + U L · ζ (ζ is an arbitrary constant)
このように発話必要度に応じて変化する次話者確率に基づいて発話を制御することにより、ロボット100Aは、発話が必要な際により発話を行うようになり、発話が不必要な時は、より発話を行わないようになる。すなわち、ロボット100Aは、より適切なタイミングで発話を行うことができる。
By controlling the speech on the basis of the next speaker probability which changes in accordance with the degree of necessity of speech in this manner, the
(第1、第2の実施形態に共通の次話者を推定する処理の具体例)
次に、上述した第1の実施形態におけるロボット100および第2の実施形態におけるロボット100Aに共通である次話者を推定する処理の具体例について説明する。ロボット100及びロボット100Aにおける次話者推定には、例えば、以下の参考文献6、7の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献6、7記載の技術を利用した場合は、注視対象検出装置203が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部108又は次話者推定部108Aは、次発話者および発話のタイミングを予測する。
(Specific example of processing for estimating the next speaker common to the first and second embodiments)
Next, a specific example of processing for estimating the next speaker common to the
参考文献6:特開2014−238525号公報
参考文献7:石井亮、外4名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年
Reference 6: Japanese Patent Laid-Open No. 2014-238525 Reference 7: Jun Ishii, 4 others, "Prediction of the next speaker and the speech timing based on the gaze transition pattern in multi-person dialogue", Artificial Intelligence Society research meeting material, SIG -SLUD-B301-06, pp. 27-34, 2013
以下に、本実施形態に適用可能な参考文献6、7以外の次話者推定技術の例を示す。
会話の利用者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の利用者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
An example of the next speaker estimation technique other than the references 6 and 7 applicable to the present embodiment will be shown below.
The user's breathing behavior of the conversation is closely related to the timing of the next speaker and the speech. Using this fact, the user's respiratory activity of the conversation is measured in real time, and the characteristic respiratory activity performed just before the start of the speech is detected from the measured respiratory activity, and the next utterance is made based on this respiratory activity. People and their speech timing with high accuracy. Specifically, as a feature of the breathing movement performed immediately before the start of the utterance, when the utterer is uttering continuously (when the utterer continues), the breath immediately immediately after the end of the utterance immediately and sharply Inhale. On the other hand, when the utterer does not speak next (during utterer substitution), he / she breathes in slowly, leaving a gap from the end of the uttering as compared with the uttering continuation. In addition, at the time of speaker change, the next speaker who speaks next inhales a large amount of breath compared to the non-speaker who does not speak. The breathing performed prior to such an utterance is performed at a roughly determined timing relative to the start of the utterance. As described above, since the next speaker performs characteristic breath suction immediately before the speech, such breath suction information is useful for predicting the next speaker and the timing of his / her speech. In this next speaker estimation technology, attention is focused on the inhaling of a person's breath, and information on the amount of inhaling breath, the length of the inhaling section, the timing, and the like is used to predict the next utterer and the utterance timing.
以下では、A人の利用者P1,…,PAが対面コミュニケーションを行う状況を想定する。利用者Pa(ただし、a=1,…,A、A≧2)には呼吸動作計測装置202およびマイク101が装着される。呼吸動作計測装置202は、利用者Paの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、次話者推定部108又は次話者推定部108Aに出力する。呼吸動作計測装置202が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて利用者Paごとに異なる大きさを取る。そこで、これに起因するPaごとのRSP値の相違を排除するために、各利用者PaのRSP値の平均値μaと標準偏差値δaを用いて、μa+δaが1、μa−δaが−1になるように利用者PaごとにRSP値を正規化する。これによって、すべての利用者Paの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置202は、正規化されたRSP値を呼吸情報Ba,tとして次話者推定部108又は次話者推定部108Aに送る。
In the following, the user P 1 of the A's, ..., P A is assumed a situation to perform a face-to-face communication. The respiratory
さらに、マイク101は、利用者Paの音声を取得し、各離散時刻tでの利用者Paの音声を表す音声信号Va,tを得て、次話者推定部108又は次話者推定部108Aに出力する。次話者推定部108又は次話者推定部108Aは、入力された音声信号Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間Uk(ただし、kは発話区間Ukの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はuk=1,…,Aを表す。1つの発話区間UkをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Ukを発話の一つの単位と規定する。これにより、次話者推定部108又は次話者推定部108Aは、各発話区間Ukを表す発話区間情報、およびその発話者Pukを表す発話者情報(利用者P1,…,PAのうち何れが発話区間Ukでの発話者Pukであるかを表す発話者情報)を得る。
Further, the
次話者推定部108又は次話者推定部108Aは、各利用者Paの呼吸情報Ba,tを用いて、各利用者Paの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。
Next
図12は、息の吸い込み区間の例を示す図である。図12を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで利用者Paの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図12に例示するように、例えば、以下の(式1)が成り立つとき、 FIG. 12 is a diagram illustrating an example of a breath suction section. A method of calculating the breathing interval Ia, k will be illustrated using FIG. Here, the RSP value at the discrete time t of the user P a is expressed as R a, t . The RSP value Ra, t corresponds to the respiration information Ba, t . As exemplified in FIG. 12, for example, when the following (Expression 1) holds,
離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに、以下の(式2)が成り立つとき、 RSP value R a in the previous two frames discrete time t = t s (k), t continuously decreases, RSP value R a in the subsequent two frames, since t is increasing continuously, discrete time t Let s (k) be the starting point for breathing. Furthermore, when the following (formula 2) holds,
離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、利用者Paの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。 The RSP value Ra, t in the previous two frames of discrete time t = t e (k) rises continuously, and then the RSP value Ra, t in two frames decreases continuously, so discrete time t Let e (k) be the end position of the breath intake. In this case, the user P a suction section I a breath, k becomes the interval from t s (k) to t e (k), the length of the suction section of breath t e (k) -t s ( k) .
次話者推定部108又は次話者推定部108Aは、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Ukの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、利用者Paの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Ukと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:利用者Paの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:利用者Paの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:利用者Paの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:利用者Paの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)。
・SLOa,k:利用者Paの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Ukの終了時刻tue(k)(発話区間末)から利用者Paの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Ukの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Ukと吸い込み区間Ia,kとの時間関係を表す。
Next
· MIN a, k: user P a suction at the start of the RSP value R a breath, t, that is, the suction section I a breath, k of the RSP value R a, minimum value of t.
· MAX a, k: user P a suction at the end of the RSP value R a breath, t, that is, the suction section I a breath, k of the RSP value R a, the maximum value of t.
· AMP a, k: User P a suction section I a breath, k of RSP values R a, the amplitude of t, i.e., MAX a, k -MIN a, value calculated by k. It represents the amount of inhaled breath in the inhaling section Ia, k .
DUR a, k : The length of the breathing interval I a, k of the user P a , that is, the discrete time of the starting position from the discrete time t e (k) of the ending position of the breathing interval I a, k the value obtained by subtracting t s (k) t e ( k) -t s (k).
SLO a, k : The average value of the slope per unit time of the RSP value R a, t in the breathing interval I a, k of the user P a , that is, calculated by AMP a, k / DUR a, k Value. It represents the time change of the amount of inhaled breath in the inhale section Ia, k .
• INT1 a, k : an interval from the end time t ue (k) of the preceding utterance section U k (end of the utterance section) to the start of breathing of the user P a , that is, a breath inspiration section I a , discrete time t s (k) from the speech segment U k of the end time t ue value obtained by subtracting the (k) t s of the start position of k (k) -t ue (k ). This represents the time relationship between the speech interval U k and the suction interval I a, k .
次話者推定部108又は次話者推定部108Aは、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:利用者Paの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
The next
· INT2 a, k: interval up to the speech segment U k + 1 of the next speaker is started from the time of the end intake of breath of the user P a, ie, the next speaker of the speech segment U k + 1 of the start time t us (k + 1 The value tus (k + 1) -te (k) obtained by subtracting the discrete time te (k) at the end position of the breathing interval Ia, k from the It represents the time relationship between the speech interval U k + 1 and the suction interval I a, k . Parameters λ 'a, INT2 a, a plus k is denoted as parameter lambda a, k to k.
次話者推定部108又は次話者推定部108Aは、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Ukおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,Uk,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、次話者推定部108又は次話者推定部108Aが発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。
The next
次話者推定部108又は次話者推定部108Aは、発話者情報Puk、発話区間Uk、利用者Paの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Ukと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、利用者P1,…,PAのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Ukの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Ukの発話者Pukと同一である。一方、発話区間Ukの発話者Puk以外の利用者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Ukの発話者Puk以外の利用者である。
Next
次話者推定部108又は次話者推定部108Aは、発話者情報Puk、発話区間Uk、利用者Paの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Ukと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間Uk、利用者Paの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Ukと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uiと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間Ui,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
Next
次話者推定部108又は次話者推定部108Aによる次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
A next speaker / speech timing estimation process by the next
次発話者推定モデルを学習する場合、次話者推定部108又は次話者推定部108Aは、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間Ui,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。次話者推定部108又は次話者推定部108Aは、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびUi,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。
When learning the next-speaker estimation model, the next-
次話者推定部108又は次話者推定部108Aは、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの利用者Paを確定的に表すものであってもよいし、確率的に表すものであってもよい。利用者Paが次話者になる確率を、P1aとする。
Next
発話タイミング推定モデルを学習する場合、次話者推定部108又は次話者推定部108Aは、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間Ui,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。次話者推定部108又は次話者推定部108Aは、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびUi,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。
When learning a speech timing estimation model, the next
次話者推定部108又は次話者推定部108Aは、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。次話者推定部108又は次話者推定部108Aは、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。利用者Paが時刻tに発話を開始する確率(時刻tが利用者Paの発話タイミングである確率)を、P2a(t)とする。
上述した実施形態の次話者推定部108又は次話者推定部108Aが推定する利用者iの時刻tにおける次話者確率Pns i(t)は、利用者iが本次話者推定技術における利用者Paである場合、確率P1a×確率P2a(t)により算出される。
If the next
The next speaker probability P ns i (t) at time t of the user i estimated by the next
上述の次話者推定部108又は次話者推定部108Aは、呼吸動作の観測値に基づいて次に発話を開始する利用者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各利用者Pa(ただし、a=1,…,A)には注視対象検出装置203がさらに装着される。注視対象検出装置203は、利用者Paが誰を注視しているか(注視対象)を検出し、利用者Paおよび各離散時刻tでの注視対象Ga,tを表す情報を次話者推定部108又は次話者推定部108Aに送る。次話者推定部108又は次話者推定部108Aは、注視対象情報G1,t,…,GA,t、発話区間Uk、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Ukの終了時点Tseに対応する時間区間における利用者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における利用者Paの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Ukの終了時点Tseよりも前の時点Tse−Tbから終了時点Tseよりも後の時点Tse+Taまでの区間に出現した注視行動を扱う。Tb,Taは0以上の任意の値でよいが、目安として、Tbは0秒〜2.0秒、Taは0秒〜3.0秒程度にするのが適当である。
The above-mentioned next-
When the eye-gaze action is further used, the gaze
次話者推定部108又は次話者推定部108Aは、注視対象の利用者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:現話者(すなわち、現話者である利用者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である利用者を識別し、ξ=1,…,A−1である。例えば、ある利用者が、非話者P2、非話者P3、の順に注視をしていたとき、非話者P2にL1というラベル、非話者P3にL2というラベルが割り当てられる。)
・ラベルX:誰も見ていない
The next
Label S: current speaker (ie, represents the user P uk who is the current speaker)
Label L ξ : Non-speaker (However, 識別 identifies different non-speaker users, and, = 1,..., A−1. For example, a certain user is a non-speaker P 2 , The non-speaker P 3 , the non-speaker P 2 is assigned the label L 1 , and the non-speaker P 3 the label L 2 ).
・ Label X: No one is watching
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、SM,LξM(下付き添え字の「ξM」はξMを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。 Label when S or L xi] are mutually gaze (line-of-sight intersections) to impart information that whether happened. In this embodiment, when the mutual gaze has occurred is, S M, as in the L ξM (under "KushiM" in superscript represents xi] M), imparts M label at the end of the label S, L xi] .
図13は、注視対象ラベルの具体例を示す図である。図13はA=4の例であり、発話区間Uk,Uk+1と各利用者の注視対象が時系列に示されている。図13の例では、利用者P1が発話した後、発話交替が起き、新たに利用者P2が発話をした際の様子を示している。ここでは、現話者である利用者P1が利用者P4を注視した後、利用者P2を注視している。Tse−Tbの時点からTse+Taの時点までの区間では、利用者P1が利用者P2を見ていたとき、利用者P2は利用者P1を見ている。これは、利用者P1と利用者P2とで相互注視が起きていることを表す。この場合、利用者P1の注視対象情報G1,tから生成される注視対象ラベルはL1とL2Mの2つとなる。上述の区間では、利用者P2は利用者P4を注視した後、現話者である利用者P1を注視している。この場合、利用者P2の注視対象ラベルはL1とSMの2つとなる。また、上述の区間では、利用者P3は現話者である利用者P1を注視している。この場合、利用者P3の注視対象ラベルはSとなる。また、上述の区間では、利用者P4は誰も見ていない。この場合、利用者P4の注視対象ラベルはXとなる。したがって、図13の例では、V=6である。 FIG. 13 is a diagram illustrating a specific example of the gaze target label. FIG. 13 shows an example of A = 4, where utterance segments U k and U k + 1 and gaze targets of each user are shown in time series. In the example of FIG. 13, after the user P 1 is uttered, occurs speech alternation shows how when a new user P 2 has an utterance. In this case, after the user P 1 is the current speaker was gazing at the user P 4, gazing at the user P 2. In the period from the time of T se -T b up to the point of T se + T a, when the user P 1 had seen the user P 2, the user P 2 is a look at the user P 1. This represents that the mutual fixation is happening at the user P 1 and the user P 2. In this case, the gaze target labels generated from the gaze target information G 1, t of the user P 1 are two, L 1 and L 2 M. In the above-mentioned period, the user P 2 After watching the user P 4, gazing at the user P 1 is the current speaker. In this case, you gaze target label of the user P 2 is two and the L 1 and S M. In addition, in the above-mentioned period, the user P 3 is gazing at the user P 1 is the current speaker. In this case, the gaze target label of the user P 3 is a S. In addition, in the above-mentioned period, the user P 4 is not anyone seen. In this case, the gaze target label of the user P 4 is the X. Therefore, in the example of FIG. 13, V = 6.
次話者推定部108又は次話者推定部108Aは、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,SM,L1,L1M,L2,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは利用者の発話状態(現話者か非話者か)を表し、Sは現話者、Lは非話者である。例えば、図13の例において、利用者P1の最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
The next
次話者推定部108又は次話者推定部108Aは、注視対象ラベル情報θv,kを用いて、各利用者Paの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図13の例を考えると、利用者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL1−L2Mである。同様にして、利用者P2の注視対象遷移パターンE2,kはL1−SM、利用者P3の注視対象遷移パターンE3,kはS、利用者P4の注視対象遷移パターンE4,kはXとなる。
Next
注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Ukおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,Uk,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。 The gaze target transition pattern E a, k is, for example, a speech period U k and its speaker P uk after the speech period U k + 1 is started, and a next utterer P uk +1 and a next utter that perform speech corresponding to the speech period U k + 1 It is sent to the database together with information representing the start timing T uk + 1 . In the database, the gaze target transition pattern E a, k is merged with the parameters λ a, k , and part or all of the information representing E a, k , λ a, k , U k , P uk , P uk + 1 , T uk + 1 Is kept in the database.
次話者推定部108又は次話者推定部108Aは、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は利用者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
The next
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
Specific parameters of time structure information are shown below. In the following, the start time of the speech section is defined as ST_U, and the end time of the speech section is defined as ET_U.
· INT1 (= ET_R GL -ST_R GL ): gazing target label R GL of the start time ST_R GL and end time ET_R interval of GL · INT2 (= ST_U-ST_R GL): start time ST_R GL of the gaze target label R GL utterance How long ago the start time ST_U of the section was • INT3 (= ET_U-ST_R GL ): how long the start time ST_R GL of the gaze target label R GL was before the end time ET_U of the speech section INT4 (= ET_R GL -ST_U): gazing target label R GL of the end time ET_R GL Do · INT5 was after much than the start time ST_U of the speech segment (= ET_U-ET_R GL): end time ET_R GL is the utterance section of the gaze target label R GL Any more than the end time ET_U of Have either · INT6 had been before (= ST_R GL -ST_R GL ') : the gaze target label R GL of the start time ST_R GL other of the gaze target label R GL' of the start time ST_R GL or was after much than '· INT7 ( = ET_R GL '-ST_R GL): gazing target label R GL of the start time ST_R GL other of the gaze target label R GL' of the end time ET_R GL 'or was before much than · INT8 (= ET_R GL -ST_R GL ' ): gaze target label R GL of the end time ET_R GL is gazing target label R GL 'of the start time ST_R GL' or was after much than · INT9 (= ET_R GL -ET_R GL '): the end of the gazing target label R GL time ET_R GL is none than the 'end time ET_R GL of' gaze target label R GL Did even after leprosy
なお、INT6〜INT9については、すべての利用者の注視対象ラベルとの組み合わせに対して取得する。図13の例では、注視対象ラベル情報は全部で6つ(L1,L2M,L1,SM,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。 In addition, about INT6-INT9, it acquires with respect to the combination with the gaze object label of all the users. In the example of FIG. 13, since there are six gaze target label information in total (L 1 , L 2 M , L 1 , S M , S, X), each of INT 6 to INT 9 has 6 × 5 = 30 pieces of data. It is generated.
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図14を用いて具体的に示す。図14は、現話者である利用者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、利用者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図14の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
Temporal structure information Θ v, k is information composed of
· INT1 = ET_S L1- ST_S L1
・ INT2 = ST_U-ST_S L1
・ INT3 = ET_U-ST_S L1
· INT4 = ET_S L1- ST_U
・ INT5 = ET_U-ET_S L1
-INT6 = ST_S L1- ST_L L1
-INT7 = ET_L L1- ST_S L1
-INT 8 = ET_S L1- ST_L L1
・ INT9 = ET_S L1 -ET_L L1
時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Ukおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,Uk,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。 Time structure information theta v, k, for example after the speech segment U k + 1 is started, the speech segment U k and its speaker P uk, next speaker P uk + 1 and the next utterance start performing speech corresponding to the speech segment U k + 1 It is sent to the database together with information representing the timing T uk + 1 . In the database, temporal structure information Θ v, k is merged with the parameters λ a, k and one of the information representing Θ v, k , λ a, k , U k , P uk , U k + 1 , P uk + 1 , T uk + 1 Part or all is kept in the database.
次話者推定部108又は次話者推定部108Aは、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間Uk、利用者Paの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Ukと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Pns i(t)を得て出力する。
The next-
上述の次話者推定部108又は次話者推定部108Aは、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する利用者およびタイミングを推定しているが、さらに、利用者の頭部の動きに関する情報を用いてもよい。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者推定部108又は次話者推定部108Aは、映像入力部102からの各利用者の画像データを解析して、頭部が上下に動いたか否かにより利用者が頷いたか否かを判定する。次話者推定部108又は次話者推定部108Aは、利用者iが時刻tの数秒前に頷いたと判定した場合には、利用者iの時刻tにおける次話者確率Pns i(t)に所定値を加算する処理等を行う。また、次話者推定部108又は次話者推定部108Aは、呼吸動作の観測値、視線の観測値および、利用者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Pns i(t)を算出してもよい。
Although the above-described next-
また、次話者推定部108又は次話者推定部108Aが呼吸動作の観測値、視線の観測値および、利用者の頭部の動きに関する情報の少なくとも一つを用いている場合は、次話者推定部108又は次話者推定部108Aで用いる情報に応じて、センサ103は、位置計測装置201、呼吸動作計測装置202、注視対象検出装置203及び頭部動作検出装置204のいずれか一つ又は複数を備える構成でよい。
In addition, when the next
なお、第1の実施形態におけるロボット100及び第2の実施形態におけるロボット100Aは、マイク101、カメラ102、センサ103、音声入力部104、映像入力部105、センサ入力部106、発話区間検出部107、次話者推定部108又は次話者推定部108A及び発話制御部109又は制御部109Aを内蔵する構成としたが、この構成に限られるものではない。マイク101、カメラ102、センサ103、音声入力部104、映像入力部105、センサ入力部106、発話区間検出部107、次話者推定部108(又は次話者推定部108A)及び発話制御部109(又は制御部109A)を備える発話制御装置をロボット100(又はロボット100A)と別装置で設ける構成としてもよい。発話制御装置は、ロボット100(又はロボット100A)と通信可能な構成であり、発話制御部109(又は制御部109A)からの制御信号をロボット100(又はロボット100A)へ送信することで、ロボット100(又はロボット100A)の発話を制御する。
The
ロボット100及びロボット100Aは、その体の一部をディスプレイ等の表示部に体の一部を表示する構成であっても良く、全身が仮想的な人物であるエージェントとして表示部に表示されるものであってもよい。ロボット100及びロボット100Aの体の一部を表示部で表現するとは、例えば、顔全体が表示部となっており、その表示部に顔の画像を表示する構成等が考えられる。表示部に表示した顔の画像を変化させていろいろな表現を行うことができる。話者となるエージェントを表示部に表示する表示装置は、ロボット100と同様に、マイク101と、カメラ102と、センサ103と、音声入力部104と、映像入力部105と、センサ入力部106と、発話区間検出部107と、利用者情報取得部108と、動作制御部109と、音制御部110と、口部制御部111と、視線制御部112と、頭部制御部113と、胴部制御部114と、スピーカ115とを備える。エージェントは、例えば、口を含む口部及び目を含む眼部を有する顔があり、顔を含む頭部の下には手、腕、及び足を有する胴部がある人物である。表示装置は、口部制御部111、視線制御部112、頭部制御部113及び胴部制御部114からの制御信号に応じて、表示部に表示中のエージェントの口、目の視線、頭及び胴体(手、腕及び足等を含む)を動かす画像処理部をさらに備える。なお、ロボット100及びロボット100Aは、複数のマイク101及びセンサ103を備えない構成であってもよく、例えば、ロボット100及びロボット100Aの外部に設置された複数のマイク101及びセンサ103と有線又は無線にて信号を送受信可能な構成であってもよい。
The
第1の実施形態におけるロボット100及び第2の実施形態におけるロボット100Aにおいて、上述した発話制御処理の妨げにならない範囲であれば、図1及び図7に示した機能以外の通常のロボットが備えている機能等を備えてもよい。例えば、第1の実施形態におけるロボット100は、第2の実施形態におけるロボット100Aのような呼吸動作等の会話時の人間と同様の動作を行うことができる構成としてもよい。
In the
上述した本実施形態におけるロボット100又はロボット100Aの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
Each function part with which
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within the scope of the present invention.
利用者と会話を行うロボットの制御に適用したり、利用者と会話を行う表示装置に表示されたエージェント(仮想的な人物)の動きの制御に適用したりすることができる。 The present invention can be applied to control of a robot that talks with a user, and can be applied to control of movement of an agent (virtual person) displayed on a display device that talks to the user.
51a…右目,51b…左目,52…口部,53…頭部,54…頸部,55…胴部,100、100A…ロボット, 101…マイク, 102…カメラ, 103…センサ, 104…音声入力部, 105…映像入力部, 106…センサ入力部, 107…発話区間検出部, 108、108A…次話者推定部, 109、301…発話制御部,109A…制御部, 110、110A…音制御部, 111…口部制御部, 112…視線制御部, 113…頭部制御部, 114…胴部制御部, 115…スピーカ(発音部), 116…口部駆動部, 117…眼部駆動部, 118…頭部駆動部, 119…胴部駆動部, 201…位置計測装置, 202…呼吸動作計測装置, 203…注視対象検出装置, 204…頭部動作検出装置,302…動作パターン情報格納部, 303…動作制御部, 304…センサ信号変換部, 401…音声解析部, 402…会話情報生成部, 403、403A…会話情報DB, 404、404A…発声情報生成部, 405…音信号生成部
51a: right eye, 51b: left eye, 52: mouth, 53: head, 54: neck, 55: trunk, 100, 100A: robot, 101: microphone, 102: camera, 103: sensor, 104:
Claims (4)
前記利用者が任意の時刻に次話者となる確率である第1の次話者確率を取得する次話者推定部と、
を備え、
前記発話制御部は、前記次話者推定部が取得した前記利用者の前記第1の次話者確率に基づいて前記ロボット又は前記話者の発話を制御し、
前記次話者推定部は、前記利用者の非言語行動に基づいて前記第1の次話者確率を取得し、
前記ロボット又は前記話者は、前記非言語行動に対応した動作を行うよう制御が可能であり、
前記次話者推定部は、前記ロボット又は前記話者の前記非言語行動に対応した動作に関する情報に基づいて、前記時刻に前記ロボット又は前記話者が次話者となる確率である第2の次話者確率を取得し、
前記発話制御部は、複数の前記利用者の前記第1の次話者確率と、前記ロボット又は前記話者の前記第2の次話者確率との比較に基づいて、前記ロボット又は前記話者の発話を制御する発話制御システム。 An utterance control unit for controlling an utterance of a robot talking with a plurality of users, or an utterance of a speaker displayed on a display device talking with a plurality of users;
A next speaker estimation unit that acquires a first next speaker probability that is a probability that the user will be the next speaker at any time;
Equipped with
The speech control unit controls the speech of the robot or the speaker based on the first next speaker probability of the user acquired by the next speaker estimation unit .
The next speaker estimation unit acquires the first next speaker probability based on the non-verbal behavior of the user,
The robot or the speaker can be controlled to perform an action corresponding to the non-verbal action,
The second speaker estimation unit is a second probability that the robot or the speaker will be the next speaker at the time based on the information on the motion corresponding to the non-verbal behavior of the robot or the speaker. Get next speaker probability,
The utterance control unit is configured to compare the robot or the speaker based on comparison between the first speaker next probability of the plurality of users and the robot or the second speaker next probability of the speaker. A speech control system that controls the speech of the person.
前記利用者が任意の時刻に次話者となる確率である第1の次話者確率を取得する次話者推定部と、
を備え、
前記発話制御部は、前記次話者推定部が取得した前記利用者の前記第1の次話者確率に基づいて前記ロボット又は前記話者の発話を制御し、
前記次話者推定部は、前記利用者の非言語行動に基づいて前記第1の次話者確率を取得し、
前記ロボット又は前記話者は、前記非言語行動に対応した動作を行うよう制御が可能であり、
前記次話者推定部は、前記ロボット又は前記話者の前記非言語行動に対応した動作に関する情報に基づいて、前記時刻に前記ロボット又は前記話者が次話者となる確率である第2の次話者確率を取得し、
前記発話制御部は、複数の前記利用者の前記第1の次話者確率と、前記ロボット又は前記話者の前記第2の次話者確率との比較に基づいて、前記ロボット又は前記話者の発話を制御する発話制御装置。 An utterance control unit for controlling an utterance of a robot talking with a plurality of users, or an utterance of a speaker displayed on a display device talking with a plurality of users;
A next speaker estimation unit that acquires a first next speaker probability that is a probability that the user will be the next speaker at any time;
Equipped with
The speech control unit controls the speech of the robot or the speaker based on the first next speaker probability of the user acquired by the next speaker estimation unit .
The next speaker estimation unit acquires the first next speaker probability based on the non-verbal behavior of the user,
The robot or the speaker can be controlled to perform an action corresponding to the non-verbal action,
The second speaker estimation unit is a second probability that the robot or the speaker will be the next speaker at the time based on the information on the motion corresponding to the non-verbal behavior of the robot or the speaker. Get next speaker probability,
The utterance control unit is configured to compare the robot or the speaker based on comparison between the first speaker next probability of the plurality of users and the robot or the second speaker next probability of the speaker. Utterance control device which controls the utterance of.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001177A JP6480351B2 (en) | 2016-01-06 | 2016-01-06 | Speech control system, speech control device and speech control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001177A JP6480351B2 (en) | 2016-01-06 | 2016-01-06 | Speech control system, speech control device and speech control program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017121680A JP2017121680A (en) | 2017-07-13 |
JP6480351B2 true JP6480351B2 (en) | 2019-03-06 |
Family
ID=59306133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016001177A Active JP6480351B2 (en) | 2016-01-06 | 2016-01-06 | Speech control system, speech control device and speech control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6480351B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6516805B2 (en) * | 2017-08-18 | 2019-05-22 | ヤフー株式会社 | DECISION DEVICE, DECISION METHOD, AND DECISION PROGRAM |
JP6916130B2 (en) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | Speaker estimation method and speaker estimation device |
JP7085500B2 (en) * | 2019-02-13 | 2022-06-16 | ヤフー株式会社 | Speech processor, speech processing method and speech processing program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006071936A (en) * | 2004-09-01 | 2006-03-16 | Matsushita Electric Works Ltd | Dialogue agent |
JP5296455B2 (en) * | 2008-08-26 | 2013-09-25 | 日本放送協会 | Speaker identification device and computer program |
JP5751610B2 (en) * | 2010-09-30 | 2015-07-22 | 学校法人早稲田大学 | Conversation robot |
JP2013006232A (en) * | 2011-06-23 | 2013-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Motion controller for communication agent, motion control method for communication agent, and program for the same |
JP5989603B2 (en) * | 2013-06-10 | 2016-09-07 | 日本電信電話株式会社 | Estimation apparatus, estimation method, and program |
-
2016
- 2016-01-06 JP JP2016001177A patent/JP6480351B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017121680A (en) | 2017-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101991163B1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
US20190279642A1 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
JP6923827B2 (en) | Communication skill evaluation systems, devices, methods, and programs | |
US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
JP2017118364A (en) | Communication system, communication device, and communication program | |
WO2022033236A1 (en) | Audio enhancement method and apparatus, storage medium, and wearable device | |
JP6480351B2 (en) | Speech control system, speech control device and speech control program | |
JP2008139762A (en) | Presentation support device, method, and program | |
JP2011186521A (en) | Emotion estimation device and emotion estimation method | |
JP6775387B2 (en) | Estimating method and estimation system | |
JP6445473B2 (en) | Conversation support system, conversation support apparatus, and conversation support program | |
CN110634505A (en) | Sound period detection device, sound period detection method, storage medium, sound recognition device, and robot | |
US11682389B2 (en) | Voice conversation system, control system for voice conversation system, and control program, and control method | |
JP5223605B2 (en) | Robot system, communication activation method and program | |
Bilac et al. | Gaze and filled pause detection for smooth human-robot conversations | |
JP2015103183A (en) | Medical examination support system | |
JP6363987B2 (en) | Voice processing system, voice processing apparatus, and voice processing program | |
JP6887035B1 (en) | Control systems, control devices, control methods and computer programs | |
JP6502865B2 (en) | Conversation support system, conversation support device and conversation support program | |
JP6383349B2 (en) | Communication skill evaluation system, communication skill evaluation device, and communication skill evaluation program | |
JP2016042345A (en) | Estimation device, method thereof, and program | |
JP6335157B2 (en) | Conversation support system, conversation support apparatus, and conversation support program | |
JP6363986B2 (en) | Communication skill evaluation system, communication skill evaluation device, and communication skill evaluation program | |
JP6712303B2 (en) | Conversation support system, conversation support device, and conversation support program | |
Okuno et al. | Realizing personality in audio-visually triggered non-verbal behaviors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6480351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |