以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、複数人で会議を行う場合における対話(会議での発言)を統括的に支援する対話支援装置と、各々対話の参加者が個別に用いる複数の端末と、を含む対話支援システムに適用した場合について説明する。また、本実施形態では、対話の各参加者が互いに異なる遠隔地に分散している場合について説明する。
まず、図1及び図2を参照して、本実施形態に係る対話支援システム90の構成を説明する。図1に示すように、本実施形態に係る対話支援システム90は、ネットワーク80に各々アクセス可能とされた、対話支援装置10と、複数の端末20と、を含む。なお、対話支援装置10の例としては、パーソナルコンピュータ及びサーバコンピュータ等の情報処理装置が挙げられる。また、端末20の例としては、据え置き型やノートブック型等のパーソナルコンピュータや、スマートフォン、タブレット端末等の携帯型の端末が挙げられる。
本実施形態に係る端末20は、対話支援システム90を用いた会議での対話の参加者(以下、単に「参加者」という。)に各々割り当てられた端末である。端末20は、CPU(Central Processing Unit)21、一時記憶領域としてのメモリ22、不揮発性の記憶部23、タッチパネル等の入力部24、液晶ディスプレイ等の表示部25及び媒体読み書き装置(R/W)26を備えている。また、端末20は、カメラ28、マイク29及び無線通信部27を備えている。CPU21、メモリ22、記憶部23、入力部24、表示部25、媒体読み書き装置26、カメラ28、マイク29及び無線通信部27はバスB1を介して互いに接続されている。媒体読み書き装置26は、記録媒体96に書き込まれている情報の読み出し及び記録媒体96への情報の書き込みを行う。
記憶部23は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現される。なお、本実施形態に係る対話支援システム90では、各端末20のカメラ28の画角内に端末20を用いる参加者の顔が収まり、かつ、各端末20のマイク29による集音範囲内に端末20を用いる参加者の発言が入るように、各端末20が位置決めされている。
一方、対話支援装置10は、対話支援システム90で取り扱う各種情報を統括的に保管して管理する装置である。対話支援装置10は、CPU11、一時記憶領域としてのメモリ12、不揮発性の記憶部13、キーボードとマウス等の入力部14、液晶ディスプレイ等の表示部15、媒体読み書き装置16及び通信インタフェース(I/F)部18を備えている。CPU11、メモリ12、記憶部13、入力部14、表示部15、媒体読み書き装置16及び通信I/F部18はバスB2を介して互いに接続されている。媒体読み書き装置16は、記録媒体17に書き込まれている情報の読み出し及び記録媒体17への情報の書き込みを行う。
記憶部13はHDD、SSD、フラッシュメモリ等によって実現される。記憶媒体としての記憶部13には、対話支援プログラム13Aが記憶されている。対話支援プログラム13Aは、対話支援プログラム13Aが書き込まれた記録媒体17が媒体読み書き装置16にセットされ、媒体読み書き装置16が記録媒体17からの対話支援プログラム13Aの読み出しを行うことで、記憶部13へ記憶される。CPU11は、対話支援プログラム13Aを記憶部13から読み出してメモリ12に展開し、対話支援プログラム13Aが有するプロセスを順次実行する。
また、記憶部13には、状況対応情報データベース13B、対話情報データベース13C及び顔文字・誇張情報データベース13Dが記憶される。状況対応情報データベース13B、対話情報データベース13C及び顔文字・誇張情報データベース13Dについては、詳細を後述する。
次に、図2を参照して、本実施形態に係る対話支援装置10及び端末20の機能的な構成について説明する。図2に示すように、対話支援装置10は、取得部11A、導出部11B及び処理部11Cを含む。対話支援装置10のCPU11が対話支援プログラム13Aを実行することで、取得部11A、導出部11B及び処理部11Cとして機能する。
本実施形態に係る取得部11Aは、参加者の対話における状況を導出可能な物理量を取得する。本実施形態に係る取得部11Aでは、上記物理量として、参加者を撮影して得られた画像(以下、「撮影画像」という。)、及び参加者の発言を示す音声(以下、「発言音声」という。)の2種類の物理量を適用しているが、これに限らない。例えば、撮影画像及び発言音声の何れか一方のみを上記物理量として適用する形態としてもよい。
また、導出部11Bは、取得部11Aによって取得された物理量を用いて、参加者の対話における状況を導出する。本実施形態に係る導出部11Bでは、上記状況として、参加者の感情の度合いを表す物理量(以下、「感情度」という。)、及び参加者の動作を表す物理量(以下、「動作量」という。)の2種類の物理量を参加者別に導出する。より具体的には、本実施形態に係る導出部11Bは、上記動作量として、撮影画像から得られる受話者の所定期間(本実施形態では、10秒間)当たりのうなずきの回数(以下、「うなずき頻度」という。)N、及び発言音声から得られる発話者の発言の度合いを示す物理量(以下、「発言度」という。)Hを導出する。また、導出部11Bは、上記感情度として、撮影画像から得られる参加者の表情の度合いを示す物理量(以下、「表情度」という。)を導出する。
より具体的に、本実施形態に係る導出部11Bは、上記表情度として、対応する参加者の怒りの度合いを示す怒り度I、対応する参加者の嫌悪の度合いを示す嫌悪度K、及び対応する参加者の恐れの度合いを示す恐れ度Oを導出する。また、本実施形態に係る導出部11Bは、上記表情度として、対応する参加者の喜びの度合いを示す喜び度Y、対応する参加者の悲しみの度合いを示す悲しみ度S、及び対応する参加者の驚きの度合いを示す驚き度Bを導出する。
なお、本実施形態では、これらの6種類の感情度を、対応する参加者が用いる端末20のカメラ28により得られた撮影画像に基づいて、例えば、“Real-time face detection and emotion/gender classification”、インターネット<URL:https://github.com/oarriaga/face_classification>等に記載の既知の技術を適用して導出する。
この技術では、ニューラルネットワークライブラリであるKerasをベースとして、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)により顔の特徴を抽出し、各感情を認識する。例えば、笑顔(喜び度Y)であれば笑顔の特徴に関するデータベースが用意されており、対象となる撮影画像から顔の要素(例えば、部分的な目、鼻、口などの形。)から類似度を判定する。本実施形態では、この類似度を感情度として適用する。また、本実施形態では、上記6種類の感情度を、共に共通の範囲(本実施形態では、0から100までの範囲)とするように正規化した値として導出する。
なお、各感情度の導出は、他にもマイクロソフト社のAzure(登録商標)で提供されているサービスであるEmotion API(Application Programming Interface)等の多くの既知の技術を適用することにより可能であるため、ここでの、これ以上の説明は省略する。
このように、本実施形態では、上記6種類の感情度を適用しているが、これに限らず、上記6種類のうちの1種類、又は5種類以下の複数種類の組み合わせを適用する形態としてもよい。
一方、本実施形態に係る導出部11Bは、発言度Hを次の式(1)により算出する。式(1)におけるs(t)は、対象とする発話者の発言速度(=発言文字数/秒)を表す。
即ち、式(1)は、直近の10分間(600秒間)の発言速度s(t)を、算出時点に近い発言ほど重み値を大きくして積算して得られる値を発言度Hとして算出する。本実施形態では、発話者の発言速度s(t)を導出する際に用いる発言文字数として、対応する発言音声を、既知の音声認識技術によって認識し、これによって得られたテキスト情報の文字数を適用するが、これに限るものではない。
例えば、通常、会議の場における各参加者の発言は、一例として図3に示すように、他者の発言の間に纏めて行われるが、本実施形態では、算出時点に近いタイミングでの発言速度s(t)ほど重視するものとしている。これにより、発言度Hを、対応する発話者の対話中の話題に対する理解の高さを、より的確に表すものとして算出できるようにしている。
なお、発言度Hを算出する数式は、式(1)には限らない。例えば、式(1)において適用した直近の10分間は一例であり、他の期間としてもよいことは言うまでもない。また、式(1)では、算出時点に近い発言ほど重み値を大きくしているが、この重み付けを行うことなく発言度Hを算出する形態としてもよい。また、本実施形態では、発言度Hの導出に数式を用いる場合について説明したが、この形態に限らず、例えば、テーブル変換により発言度Hを導出する形態としてもよい。更に、本実施形態では、発言度Hを、発言音声を用いて導出しているが、これに限らない。例えば、撮影画像を用いて、各参加者の口の動きから発言速度s(t)を導出し、この発言速度s(t)を式(1)に代入することによって発言度Hを算出する形態等としてもよい。
また、本実施形態に係る導出部11Bは、うなずき頻度Nを次の式(2)により算出する。式(2)におけるn(t)は、対象とする受話者の所定時間当たりのうなずき回数(=うなずき回数/秒)を表す。
即ち、式(2)は、直近の10分間(600秒間)の所定時間当たりのうなずき回数n(t)を、算出時点に近いうなずきほど重み値を大きくして積算して得られる値をうなずき頻度Nとして算出する。本実施形態では、撮影画像に含まれる受話者の顔画像が、当該受話者から見て前方で、かつ、下方に傾斜したことに引き続いてほぼ元の位置に復帰した場合に、1回うなずいたと判断している。なお、本実施形態では、顔画像の傾斜及び復帰の検出を、顔画像の所定部位の画像(本実施形態では、目の画像)が下方に所定距離(本実施形態では、3mm)以上移動した後に、ほぼ元の位置に戻ったことを検出することにより行っているが、これに限るものではないことは言うまでもない。
なお、うなずき頻度Nを算出する数式は、式(2)には限らない。例えば、式(2)において適用した直近の10分間は一例であり、他の期間としてもよいことは言うまでもない。また、式(2)では、算出時点に近いうなずき回数n(t)ほど重み値を大きくしているが、この重み付けを行うことなくうなずき頻度Nを算出する形態としてもよい。また、本実施形態では、うなずき頻度Nの導出に数式を用いる場合について説明したが、この形態に限らず、例えば、テーブル変換によりうなずき頻度Nを導出する形態としてもよい。
そして、処理部11Cは、導出部11Bによって導出された上記状況に対応する状況情報を端末20の表示部25に表示する表示処理、及び上記状況情報を記憶部13に記憶する記憶処理の双方の処理を行う。但し、この形態に限らず、上記表示処理及び上記記憶処理の何れか一方の処理を行う形態としてもよい。
本実施形態では、上記状況情報として、対応する参加者の感情を表す情報を適用している。より具体的には、本実施形態では、上記感情を表す情報として、当該感情を表すテキスト情報、画像情報、及び各参加者の相互間における感情の関係を示す情報を適用している。
なお、本実施形態では、上記テキスト情報として、対応する参加者のうちの何れかの発言者による発言に対する他者の感情を表す情報を適用している。また、本実施形態では、上記画像情報として、顔文字を適用している。また、本実施形態では、上記画像情報として、感情の度合いが最大となった場合における、対応する参加者の顔を撮影して得られた顔撮影画像情報及び感情を誇張する情報が含まれる画像情報も適用している。
一方、本実施形態に係る端末20は、制御部21Aを含む。端末20のCPU21が、記憶部23に予め記憶された図示しない対話支援アプリケーション・プログラムを実行することで、制御部21Aとして機能する。
本実施形態に係る制御部21Aは、送信部としての無線通信部27を介して、対話支援装置10の取得部11Aに、上記対話における状況を導出可能な物理量を送信する。また、制御部21Aは、対話支援装置10の処理部11Cが上記表示処理を行う場合に、当該表示処理の表示対象となる表示部25を制御する。
次に、図4を参照して、本実施形態に係る状況対応情報データベース13Bについて説明する。図4に示すように、本実施形態に係る状況対応情報データベース13Bは、状況を示す情報と、対応する状況において、対応する参加者の感情を示すものとして当該参加者に対応付けて表示するテキスト情報である対応情報とが関連付けられて記憶されている。上記対応情報が、本発明の感情を表すテキスト情報に相当する。
ここで、上記状況を示す情報には、図4に示すように、発話者による発言度H及び受話者による6種類の感情度に加えて、受話者によるうなずき頻度Nの所定時間(本実施形態では、60秒)前からの低下率を示す、うなずき頻度低下率Uが含まれる。
また、対応する状況に対応する上記対応情報は、一例として以下のように導出する。即ち、まず、一例として図5に示すように、会議の場で想定される「IF(状況)THEN(対応情報)」を予め仮説として多数用意する。図5に示す例では、発話者の発言度Hが180以上であり、かつ、受話者のうなずき頻度低下率Uが50%以上であり、かつ、受話者の怒り度Iが50以上である状況の場合、受話者の感情を示す対応情報として「ちょっと話についていけないなぁ」を仮説としている。
そして、本実施形態では、仮説として用意した多数の状況及び対応情報の組み合わせを実際の会議の場で適用して、状況の条件を満足する対応情報を端末20に表示させ、当該表示が有効であったか否かを繰り返し評価することにより学習する。そして、この学習によって得られた対応情報を状況対応情報データベース13Bに反映させる。なお、ここで行う評価は、受話者の主観による評価でもよいし、対応情報を表示した後の実際の改善効果(例えば、笑顔が増える、発言が増える等)といった客観的な評価でもよい。
このように、本実施形態では、状況に対応する対応情報を学習させているが、必ずしも学習を行う必要はなく、予め仮説として用意した状況及び対応情報そのものを状況対応情報データベース13Bに選択的に適用する形態としてもよい。
次に、図6を参照して、本実施形態に係る対話情報データベース13Cについて説明する。図6に示すように、本実施形態に係る対話情報データベース13Cは、端末ID(IDentification)、画像データ、音声データ、テキストデータ、時刻、及び最大感情度の各情報が関連付けられて記憶される。
上記端末IDは、各参加者が用いる端末20を識別するために割り振られた情報である。なお、本実施形態では、端末IDと、当該端末IDが割り振られた端末20を用いる参加者を示す情報(本実施形態では、名前)とが対応付けられて記憶部13に記憶されている。従って、対話支援装置10は、何れかの端末20との間で通信を行う場合に、当該端末20を用いる参加者を特定することができる。
また、上記画像データは、対応する端末20から取得された撮影画像を示す情報であり、上記音声データは、対応する端末20から取得された発言音声を示す情報であり、上記テキストデータは、対応する発言音声をテキスト化した情報である。なお、本実施形態では、上記テキストデータを、対応する音声データを、既知の音声認識技術を用いてテキストデータに変換することで得ている。
また、上記時刻は、対応する画像データ及び音声データが取得された日時を示す情報であり、上記最大感情度は、対応する参加者の、対応する画像データが得られている期間内における最大値となる感情度の種類を示す情報である。
なお、本実施形態では、図6に示すように、最大感情度における各参加者を示す情報として、当該参加者が用いる端末20の端末IDを適用しているが、これに限らないことは言うまでもない。また、図6では、最大感情度の種類を符号のみで表しているが、例えば、‘I’は怒り度Iを表し、‘O’は恐れ度Oを表している。更に、図6では、最大感情度を発話者のみについて対話情報データベース13Cに記憶している場合を例示しているが、これに限らず、対応する期間における受話者の最大感情度も対話情報データベース13Cに記憶する形態としてもよい。
次に、図7を参照して、本実施形態に係る顔文字・誇張情報データベース13Dについて説明する。図7に示すように、本実施形態に係る顔文字・誇張情報データベース13Dは、最大感情度、顔文字、及び誇張情報の各情報が関連付けられて記憶されている。
上記最大感情度は上述した対話情報データベース13Cの最大感情度と同一の情報であり、上記顔文字は、対応する最大感情度に対応する顔文字を示すデータであり、上記誇張情報は、対応する最大感情度に対応する誇張の内容を示す情報である。
例えば、図7に示す顔文字・誇張情報データベース13Dでは、最大感情度となる感情度の種類が恐れ度Oである場合に対応する顔文字が「(^_^;)」であることを示している。また、図7に示す例では、最大感情度となる感情度の種類が恐れ度Oである場合に対応する誇張情報が示す誇張の内容が、「ガーン」とのテキスト情報、及び恐れを示す画像であることを示している。なお、上記恐れを示す画像は、例えば、後述する図9に示す、対応する参加者の顔画像の額付近に複数の縦線が重畳された画像25G等が例示される。
次に、図8~図11を参照して、本実施形態に係る対話支援システム90の作用を説明する。まず、図8及び図9を参照して、対話支援処理を実行する場合の対話支援装置10の作用を説明する。会議の各参加者が用いる端末20によって上述した対話支援アプリケーション・プログラムの実行が開始されることに応じて、対話支援装置10のCPU11が対話支援プログラム13Aを実行することにより、図8に示す対話支援処理が実行される。なお、ここでは、錯綜を回避するために、複数の参加者による対話が時間的に重複することなく進められる場合について説明する。また、ここでは、錯綜を回避するために、状況対応情報データベース13B及び顔文字・誇張情報データベース13Dが構築済みである場合について説明する。
対話支援アプリケーション・プログラムの実行が開始されると、各参加者が用いる端末20は、自身のカメラ28による撮影及びマイク29の作動を開始し、これによって得られた撮影画像を示す画像データ及び発言音声を示す音声データの対話支援装置10への送信を開始する。
そこで、図8のステップ200で、取得部11Aは、各端末20から送信された画像データ及び音声データの受信、及び受信した各データの記憶部13への記憶を開始する。なお、取得部11Aは、受信した各データを記憶部13に記憶する際に、対応するデータの送信元の端末20に割り振られた端末ID及び取得した時点の時刻を関連付けて記憶する。
ステップ202で、取得部11Aは、各端末20から受信している音声データによる発言音声が所定期間(本実施形態では、5秒間)途切れるまで待機することにより、対話の各参加者の一連の発言(以下、「一連発言」という。)が終了するまで待機する。
ステップ204で、導出部11Bは、各参加者の直近の一連発言分の画像データ及び音声データを記憶部13から読み出す。ステップ206で、導出部11Bは、読み出した音声データを既知の音声認識技術を用いて各参加者別にテキストデータに変換する。
ステップ208で、導出部11Bは、読み出した画像データを用いて、各参加者別に上記6種類の感情度(本実施形態では、怒り度I、嫌悪度K、恐れ度O、喜び度Y、悲しみ度S、驚き度B)を上述したように導出する。なお、本実施形態では、感情度を、参加者毎で、かつ、感情度毎に、読み出した直近の一連発言分の画像データにおける最大値を導出する。但し、この形態に限らず、例えば、読み出した直近の一連発言分の画像データにおける時系列順の中央の画像データを用いて導出する形態や、読み出した直近の一連発言分の画像データにおける時系列順の最後の画像データを用いて導出する形態等を適用してもよい。
ステップ210で、導出部11Bは、各参加者別の6種類の感情度のうち、最大値となった感情度(最大感情度)の導出対象の時点に対応する画像データ(静止画像データ)を各参加者別に特定する。ステップ212で、処理部11Cは、ステップ210の処理によって特定した静止画像データが示す撮影画像、及びステップ206の処理によって得られたテキストデータを用いて、対話を支援するための画像(以下、「対話支援画像」という。)を構成する。この際、処理部11Cは、一例として図9に示すように、対応する参加者の撮影画像25Cに対して、テキストデータにより示されるテキスト25Dを、所謂吹き出しの形態で表示されるように対話支援画像30を構成する。
ステップ214で、導出部11Bは、ステップ206の処理によって得られたテキストデータを用いて、上述したように、式(1)を用いて各参加者別の発言度Hを算出する。ステップ216で、導出部11Bは、ステップ204の処理によって読み出した画像データを用いて、上述したように、うなずき頻度低下率Uを算出する。この際、読み出した画像データでは、うなずき頻度低下率Uを算出する際に適用する所定時間(本実施形態では、60秒)前のうなずき頻度N(以下、「起算頻度」という。)が得られない場合がある。この場合、本実施形態では、起算頻度として、各参加者別の過去のうなずき頻度Nの平均値を適用する。但し、この形態に限らず、例えば、各参加者別の直近のうなずき頻度Nを起算頻度として適用する形態等としてもよい。
ステップ218で、処理部11Cは、ステップ210の処理において用いた各参加者別の最大感情度に、顔文字・誇張情報データベース13Dに顔文字が登録されている最大感情度が含まれるか否かを判定し、肯定判定となった場合はステップ220に移行する。
ステップ220で、処理部11Cは、ステップ218の処理において含まれると判定された最大感情度に対応する顔文字を顔文字・誇張情報データベース13Dから読み出す。ステップ222で、処理部11Cは、一例として図9に示すように、読み出した顔文字25Eが、対応する参加者に対応するテキスト25Dに含めて吹き出し内に表示されるように対話支援画像30を更新し、その後にステップ224に移行する。
一方、ステップ218において否定判定となった場合は、ステップ220及びステップ222の処理を実行することなくステップ224に移行する。
ステップ224で、処理部11Cは、ステップ210の処理において用いた各参加者別の最大感情度に、顔文字・誇張情報データベース13Dに誇張情報が登録されている最大感情度が含まれるか否かを判定し、肯定判定となった場合はステップ226に移行する。
ステップ226で、処理部11Cは、ステップ224の処理において含まれると判定された最大感情度に対応する誇張情報を顔文字・誇張情報データベース13Dから読み出す。ステップ228で、処理部11Cは、一例として図9に示すように、読み出した誇張情報が示す情報を、対応する参加者に対応されて表示されるように対話支援画像30を更新し、その後にステップ230に移行する。なお、図9に示す対話支援画像30の例では、上記誇張情報が示す情報として、対応する参加者の撮影画像の上部に「ガーン」とのテキスト25Fが表示され、対応する参加者の撮影画像における顔の額付近に複数の縦線が重畳された画像25Gが表示される。
一方、ステップ224において否定判定となった場合は、ステップ226及びステップ228の処理を実行することなくステップ230に移行する。
ステップ230で、処理部11Cは、以上の処理によって算出した発言度H、うなずき頻度低下率U、及び感情度の各参加者別の組み合わせに合致する条件が状況対応情報データベース13Bに含まれるか否かを判定し、肯定判定となった場合はステップ232に移行する。
ステップ232で、処理部11Cは、ステップ230の処理において含まれると判定された条件に対応する対応情報を状況対応情報データベース13Bから読み出す。ステップ234で、処理部11Cは、一例として図9に示すように、読み出した対応情報25Hが所定の位置(図9に示す例では、対話支援画像30の上端部近傍の位置)に表示されるように対話支援画像30を更新し、その後にステップ236に移行する。
一方、ステップ230において否定判定となった場合は、ステップ232及びステップ234の処理を実行することなくステップ236に移行する。
ステップ236で、処理部11Cは、対話を支援するための他の支援情報が表示されるように対話支援画像30を更新する。なお、本実施形態では、上記支援情報として、一例として図9に示すように、各参加者の撮影画像、発言度H(図9では「発言」と表記。)、うなずき頻度N(図9では「肯定」と表記。)及び顔文字(図9では「気分」と表記。)を含む支援情報25Iが表示されるように対話支援画像30を更新する。また、本実施形態では、上記他の支援情報として、対応する音声の再生の指示を受け付けるための音声ボタン25Jが表示されるように対話支援画像30を更新する。更に、本実施形態では、上記他の支援情報として、表示している対話支援画像30の上下方向へのスクロールの指示を受け付けるためのスクロールボタン25Kが表示されるように対話支援画像30を更新する。なお、その他の支援情報として、図9に示すように、発話者が発言している際の受話者の撮影画像25Pを当該発話者における各吹き出しの近傍に並べて表示する形態としてもよい。
ステップ238で、処理部11Cは、以上の処理によって得られた各種情報を対話情報データベース13Cに登録(記憶)する。このステップ238の処理により、対話情報データベース13Cが逐次構築されることになる。
ステップ240で、処理部11Cは、以上の処理によって得られた対話支援画像30を示す画像情報を各端末20に送信するように通信I/F部18を制御する。この処理により、上述した対話支援アプリケーション・プログラムにより、一例として図9に示す対話支援画像30が各端末20の表示部25に表示される。各参加者は、自身が用いる端末20に表示された対話支援画像30を参照し、音声を再生させたい場合は対応する音声ボタン25Jを指定し、対話支援画像30を上下方向にスクロールさせたい場合はスクロールボタン25Kを所望の方向に移動させる。これに応じて、各端末20で実行されている対話支援アプリケーション・プログラムは、参加者によって音声ボタン25J及びスクロールボタン25Kの少なくとも一方が操作された場合に、操作された状態を示す状態情報を対話支援装置10に送信する。
そこで、ステップ242で、処理部11Cは、何れかの端末20から音声ボタン25Jが指定された旨を示す状態情報が受信されたか否かを判定し、否定判定となった場合はステップ246に移行する一方、肯定判定となった場合はステップ244に移行する。
ステップ244で、処理部11Cは、指定された音声ボタン25Jに対応する音声データを記憶部13から読み出して、対応する状態情報の送信元の端末20に送信し、その後にステップ246に移行する。ステップ244の処理により、音声ボタン25Jが指定された旨を示す状態情報を送信した端末20では、対話支援アプリケーション・プログラムによって参加者が指定した音声が再生される。
ステップ246で、処理部11Cは、何れかの端末20からスクロールボタン25Kが操作された旨を示す状態情報が受信されたか否かを判定し、否定判定となった場合はステップ250に移行する一方、肯定判定となった場合はステップ248に移行する。
ステップ248で、処理部11Cは、スクロールボタン25Kが上方向に移動された場合には、スクロールボタン25Kの移動量に応じた量だけ対話支援画像30を上方向にスクロールさせるための情報を、対応する状態情報の送信元の端末20に送信する。また、処理部11Cは、スクロールボタン25Kが下方向に移動された場合には、スクロールボタン25Kの移動量に応じた量だけ対話支援画像30を下方向にスクロールさせるための情報を、対応する状態情報の送信元の端末20に送信する。そして、処理部11Cは、以上の処理を行った後にステップ250の処理に移行する。ステップ248の処理により、スクロールボタン25Kが操作された状態を示す状態情報を送信した端末20では、対話支援アプリケーション・プログラムによって、表示部25で表示されている対話支援画像30が上記操作に応じてスクロールされる。
ステップ250で、処理部11Cは、本対話支援処理の終了タイミングが到来したか否かを判定し、否定判定となった場合はステップ202に戻る一方、肯定判定となった時点でステップ252に移行する。なお、本実施形態では、対話支援処理の終了タイミングを、本対話支援処理が対象としている会議に参加している全ての参加者の端末20で実行されている対話支援アプリケーション・プログラムが終了されるタイミングとしているが、これに限らない。例えば、対象としている会議が所定時間(例えば、10分)以上停止したタイミング、対象としている会議に予め設定された時間(例えば、1時間)が経過したタイミング等を対話支援処理の終了タイミングとしてもよい。
ステップ252で、処理部11Cは、ステップ200の処理によって開始した、各端末20から送信された画像データ及び音声データの受信、及び受信した各データの記憶部13への記憶を終了した後、本対話支援処理を終了する。
一方、本実施形態に係る対話支援システム90では、何れかの参加者が対話支援画像30における派閥情報表示ボタン25Aを指定すると、各参加者の相互間における感情の関係をグラフィカルに示す情報である派閥関係表示画像を表示する派閥関係表示機能を有している。
次に、図10~図11を参照して、派閥関係表示機能の実行時における対話支援システム90の作用を説明する。なお、図10は、対象としている会話に参加している何れかの参加者の端末20から、派閥情報表示ボタン25Aが指定された旨を示す情報が受信された場合に、対話支援装置10のCPU11により実行される派閥情報表示処理の流れを示すフローチャートである。
図10のステップ300で、処理部11Cは、その時点から所定時間(本実施形態では、10分間)遡った時間から、その時間までに記憶した画像データを、対応する端末IDと共に対話情報データベース13Cから読み出す。ステップ302で、処理部11Cは、読み出した画像データを用いて、予め定められた構成とされた派閥関係表示画像を構成する。ステップ304で、処理部11Cは、構成した派閥関係表示画像を示す情報を、派閥情報表示ボタン25Aが指定された旨を示す情報の送信元の端末20に送信する。派閥関係表示画像を示す情報を受信した端末20では、一例として図11に示す派閥関係表示画像32を表示部25に表示する。図11に示すように、本実施形態に係る派閥関係表示画像32では、対象としている会議の参加者間で相互に抱いている感情がグラフィカルに表示される。
なお、本実施形態では、各参加者間で相互に抱いている感情を示す情報として、次の式(3)で算出される相互近接度SKxyを適用している。なお、式(3)におけるx及びyは各々異なる参加者を表し、nxは参加者yが発言している際の参加者xのうなずき回数を表し、nyは参加者xが発言している際の参加者yのうなずき回数を表す。ここで、うなずき回数nx及びうなずき回数nyは、読み出した画像データが示す撮影画像を用いて、上述した式(2)に用いるうなずき回数n(t)と同様に導出する。
そして、本実施形態に係る派閥関係表示画像32では、算出した相互近接度SKxyの逆数を離間距離として各参加者の撮影画像を配置する。この際、うなずき回数nxとうなずき回数nyとの差分が所定値より大きな場合、一例として図11に示すように、うなずき回数が少ない方から多い方に向けて矢印を表示し、かつ、敵対視を示す画像25Lを表示可能とする。また、この場合、うなずき回数が多い方から少ない方に向けて矢印を表示し、かつ、好感を示す画像25Mを表示可能とする。また、上記離間距離が所定距離未満である場合、対応する参加者間を他よりも太い直線で結び、かつ、直線上に好感を示す画像25Mを表示可能とする。更に、上記離間距離が上記所定距離以上である場合、対応する参加者間を直線で結び、かつ、直線上に衝突感を示す画像25Nを表示可能とする。
図11に示す例では、例えば、Aさんと、他の参加者(Bさん、Cさん、Dさん)との間は相互に衝突感を抱いていることを示しており、また、例えば、CさんはDさんに対して敵対視しているが、DさんはCさんに対して好感を抱いていることを示している。更に、図11に示す例では、BさんとDさんとは互いに好感を抱いていることを示している。
この派閥関係表示画像32を参照することにより、対話の参加者は、他者が自分に抱いている感情の推定結果を把握することができるため、その場に応じた、より効果的な発言を行ったり、態度をとったりすることができる。また、派閥関係表示画像32を参照することにより、対話の参加者は、自身の他者に対する感情の推定結果が妥当か否かを判断することができるため、推定結果が誤っている場合に是正することが可能となる。
派閥関係表示画像32が表示部25に表示されると、参加者は、当該派閥関係表示画像32を参照した後、終了ボタン25Bを指定する。これに応じて、対応する端末20の制御部21Aは、派閥関係表示画像32の表示を終了する旨を示す情報(以下、「表示終了情報」という。)を対話支援装置10に無線通信部27を介して送信する。
そこで、次のステップ306で、処理部11Cは、表示終了情報が指定されるまで待機した後、本派閥情報表示処理を終了する。
以上説明したように、本実施形態によれば、対話の参加者の対話における状況を導出可能な物理量を取得する取得部11Aと、取得部11Aによって取得された物理量を用いて、参加者の対話における状況を導出する導出部11Bと、導出部11Bによって導出された状況に対応する状況情報を表示する表示処理、及び状況情報を記憶する記憶処理の双方の処理を行う処理部11Cと、を備えている。従って、対話を効果的に活性化することができる。
また、本実施形態によれば、上記状況情報を、参加者の感情を表す情報としている。従って、より効果的に対話の活性化を促すことができる。
また、本実施形態によれば、上記感情を表す情報を、感情を表すテキスト情報としている。従って、より具体的に参加者の感情を把握することができる。
また、本実施形態によれば、上記テキスト情報を、参加者のうちの何れかの発言者による発言に対する他者の感情を表す情報としている。従って、発言を聞いている参加者の感情を把握することができる。
また、本実施形態によれば、上記感情を表す情報を、感情を表す画像情報としている。従って、より直感的に参加者の感情を把握することができる。
また、本実施形態によれば、上記画像情報を、顔文字としている。従って、より直感的に参加者の感情を把握することができる。
また、本実施形態によれば、上記画像情報を、感情の度合いが最大となった場合における、対応する参加者の顔を撮影して得られた顔撮影画像情報としている。従って、より効果的に参加者の感情を把握することができる。
また、本実施形態によれば、上記画像情報を、顔撮影画像情報に加えて、感情を誇張する情報が含まれる画像情報としている。従って、より効果的に参加者の感情を把握することができる。
また、本実施形態によれば、上記感情を表す情報を、参加者の相互間における感情の関係を示す情報としている。従って、より効果的に対話の活性化を促すことができる。
また、本実施形態によれば、上記物理量を、参加者を撮影して得られた画像、及び参加者の発言を示す音声としている。従って、より低コストで対話の活性化を促すことができる。
また、本実施形態によれば、上記状況を、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量としている。従って、より簡易に対話の活性化を促すことができる。
更に、本実施形態によれば、上記状況を、画像から得られる参加者のうなずきの頻度を示す物理量、画像から得られる参加者の表情の度合いを示す物理量、音声から得られる参加者の発言の度合いを示す物理量としている。従って、より簡易に対話の活性化を促すことができる。
なお、上記実施形態では、各参加者の個別の感情度を用いて、端末20に表示する対応情報を決定する場合について説明したが、これに限定されない。例えば、参加者全員の感情度を用いて対応情報を決定する形態としてもよい。例えば、一例として図12に示すように、各参加者の喜び度Yが同時に所定値(一例として、50)以上となった場合、参加者全員が一体的に喜んでいると想定できる。この場合、対応情報として、一例として「一体感があり、良い状況です。」といった表示を各端末20で行うことで、より効果的に対話を活性化することができる。
また、上記実施形態では、本発明を、対話の参加者が互いに異なる場所に分散して会議を行っている形態に適用した場合について説明したが、これに限定されない。例えば、対話の各参加者が同一の会議室等で会議を行う形態に本発明を適用してもよい。この場合、各端末20に設けられたカメラ28及びマイク29に代えて、端末20とは別体として構成された1つ又は複数のカメラ及びマイクを用いて、会議の参加者全員の画像及び音声を収集する形態としてもよい。
また、上記実施形態では、対話支援装置10において対話支援処理を実行する場合について説明したが、これに限定されない。例えば、少なくとも1台の端末20によって対話支援処理を実行する形態としてもよい。この形態の場合、本発明の対話支援装置が該当する端末20に含まれることになる。また、例えば、各参加者の発言度H、うなずき頻度低下率U、及び各感情度の少なくとも1つを、対応する参加者が用いる端末20で導出する形態としてもよい。
また、上記実施形態では、各端末20において対話支援画像30を表示する場合について説明したが、これに限定されない。例えば、対話支援画像30を対話支援装置10において表示する形態としてもよい。
また、上記実施形態では、本発明を会議に適用した場合について説明したが、これに限定されない。例えば、人事面接、商談等といった会議以外の複数人で行う対話の場に本発明を適用する形態としてもよい。
また、上記実施形態では、本発明の感情を表す画像情報として顔文字を適用した場合について説明したが、これに限定されない。例えば、顔文字に加えて、絵文字、アイコン(Icon)の少なくとも1つを適用する形態としてもよい。
また、上記実施形態では、上記状況として、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量の双方を適用した場合について説明したが、これに限定されない。例えば、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量の何れか一方のみを適用する形態としてもよい。
また、上記実施形態では、上記状況として、画像から得られる参加者のうなずきの頻度を示す物理量、画像から得られる参加者の表情の度合いを示す物理量、音声から得られる参加者の発言の度合いを示す物理量、の全てを適用した場合について説明したが、これに限定されない。例えば、これらの物理量の1つ、又は全てを除く複数の組み合わせを適用する形態としてもよい。
また、上記実施形態では、うなずき頻度低下率Uを用いて対応情報を決定する場合について説明したが、これに限定されない。例えば、うなずき頻度Nそのものを用いて対応情報を決定する形態としてもよい。
また、上記実施形態では、状況対応情報データベース13Bとして、発話者と受話者の双方に関する情報が混在しているデータベースを適用した場合について説明したが、これに限定されない。例えば、発話者と受話者の各々別に異なるデータベースを構築して適用する形態としてもよい。
その他、式(1)~式(3)は何れも一例であり、本発明の主旨を逸脱しない範囲内において、適宜変更して適用することができることは言うまでもない。
また、上記実施形態において、例えば、取得部11A、導出部11B、処理部11Cの各処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、処理部を1つのプロセッサで構成してもよい。
処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)を用いることができる。