JP7323098B2

JP7323098B2 - 対話支援装置、対話支援システム、及び対話支援プログラム

Info

Publication number: JP7323098B2
Application number: JP2019076447A
Authority: JP
Inventors: 友裕黒木; 幹雄高橋; 勇志 ▲高▼井; 貴弘大塚; 隼人内出; 友哉澤田; 啓吾川島; 由佳津田; 哲郎志田; 諒吉田; 美穂石川; 隆義飯田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2023-08-08
Anticipated expiration: 2039-04-12
Also published as: JP2020173714A

Description

本発明は、対話支援装置、対話支援システム、及び対話支援プログラムに関する。

日常的な対話において、相手の感情が把握できなかったり、相手に意図が正確に伝わらなかったりすることは少なくない。特に、テレビ会議システムや、スカイプ（登録商標）等を用いた遠隔地との対話においては、伝達される情報は、劣化した映像や音声となるため、より問題は顕著になる。

一方、複数人で行うディスカッション等の場面では、全体を俯瞰しながら対話を適切にコントロールすることは難しい。例えば、発言が偏らない、意見のある人がきちんと発言の機会を与えられる、議論が白熱し過ぎない、といったコントロールである。

このような問題を解決するために適用することのできる技術として、特許文献１には、人物の動画像から顔の表情を分析する表情分析手段と、人物の動画像から人物の顔の簡略画像を作成して記憶装置に蓄積する簡略画像作成手段と、表情の分析結果に従って記憶装置に蓄積されている簡略画像から対応する簡略画像を選択する簡略画像選択手段と、選択された簡略画像に対して、表情分析手段により分析した表情に応じて特殊効果を施す特殊効果処理手段とを備えた技術が開示されている。

また、特許文献２には、第１及び第２の装置が接続されたネットワークシステムであって、ユーザ情報と画像データとを第１の装置で取得する取得手段と、取得した画像データに含まれる顔領域を抽出する抽出手段と、抽出手段で抽出した顔領域の顔の表情を識別する識別手段と、顔の表情毎に、顔の表情を示す表情識別情報と表示情報とを関連付けて記憶する記憶手段と、表示情報の中から、識別手段で識別した顔の表情に対応する表情識別情報と関連付けて記憶されている表示情報を特定する特定手段と、特定された表示情報と取得手段で取得したユーザ情報とを対応付けて第２の装置の表示部に表示させる表示手段とを有する技術が開示されている。

特開２００４－６４１０２号公報特開２０１５－１６５４０７号公報

しかしながら、特許文献１及び特許文献２の各文献に記載の技術では、対話の参加者の当該対話における全体的な状況については考慮されていないため、必ずしも効果的に対話を活性化することができるとは限らなかった。

本発明は、以上の事情を鑑みて成されたものであり、対話を効果的に活性化することのできる対話支援装置、対話支援システム、及び対話支援プログラムを提供することを目的とする。

請求項１に記載の本発明に係る対話支援装置は、対話の参加者の前記対話における状況を導出可能な物理量を取得する取得部と、前記取得部によって取得された前記物理量を用いて、前記参加者の前記対話における状況を導出する導出部と、前記導出部によって導出された前記状況に対応する状況情報を表示する表示処理、及び前記状況情報を記憶する記憶処理の少なくとも一方の処理を行う処理部と、を備え、前記状況情報は、前記参加者の感情を表す情報であり、前記感情を表す情報は、前記感情を表す画像情報であり、前記画像情報は、前記感情の度合いが最大となった場合における、対応する前記参加者の顔を撮影して得られた顔撮影画像情報であるものである。

請求項１に記載の本発明に係る対話支援装置によれば、対話における状況に対応する状況情報の表示及び記憶の少なくとも一方の処理を行うことで、対話を効果的に活性化することができる。

また、請求項１に記載の本発明に係る対話支援装置によれば、状況情報を、参加者の感情を表す情報とすることで、より効果的に対話の活性化を促すことができる。

また、請求項１に記載の本発明に係る対話支援装置によれば、感情を表す情報を、感情を表す画像情報とすることで、より直感的に参加者の感情を把握することができる。

また、請求項１に記載の本発明に係る対話支援装置によれば、画像情報を、感情の度合いが最大となった場合における、対応する参加者の顔を撮影して得られた顔撮影画像情報とすることで、より効果的に参加者の感情を把握することができる。

請求項２に記載の本発明に係る対話支援装置は、請求項１に記載の対話支援装置であって、前記画像情報が、前記顔撮影画像情報に加えて、前記感情を誇張する情報が含まれる画像情報とされている。

請求項２に記載の本発明に係る対話支援装置によれば、画像情報を、顔撮影画像情報に加えて、感情を誇張する情報が含まれる画像情報とすることで、より効果的に参加者の感情を把握することができる。

請求項３に記載の本発明に係る対話支援装置は、請求項１に記載の対話支援装置であって、前記物理量が、前記参加者を撮影して得られた画像、及び前記参加者の発言を示す音声の少なくとも一方とされている。

請求項３に記載の本発明に係る対話支援装置によれば、物理量を、参加者を撮影して得られた画像、及び参加者の発言を示す音声の少なくとも一方とすることで、特殊な装置を用いることなく、対話の活性化を促すことができる。

請求項４に記載の本発明に係る対話支援装置は、請求項３に記載の対話支援装置であって、前記状況が、前記参加者の感情の度合いを表す物理量、及び前記参加者の動作を表す物理量の少なくとも一方とされている。

請求項４に記載の本発明に係る対話支援装置によれば、状況を、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量の少なくとも一方とすることで、より効果的に対話の活性化を促すことができる。

請求項５に記載の本発明に係る対話支援装置は、請求項４に記載の対話支援装置であって、前記状況が、前記画像から得られる前記参加者のうなずきの頻度を示す物理量、前記画像から得られる前記参加者の表情の度合いを示す物理量、前記画像及び前記音声の少なくとも一方から得られる前記参加者の発言の度合いを示す物理量、の少なくとも１つとされている。

請求項５に記載の本発明に係る対話支援装置によれば、状況を、画像から得られる参加者のうなずきの頻度を示す物理量、画像から得られる参加者の表情の度合いを示す物理量、画像及び音声の少なくとも一方から得られる参加者の発言の度合いを示す物理量、の少なくとも１つとすることで、より簡易に対話の活性化を促すことができる。
請求項６に記載の本発明に係る対話支援装置は、請求項５に記載の対話支援装置であって、前記発言の度合いが、直近の予め定められた期間の発言速度に応じた度合いであるものである。
請求項７に記載の本発明に係る対話支援装置は、請求項５に記載の対話支援装置であって、前記うなずきの頻度を示す物理量が、当該頻度の低下率を示す情報であるものである。
請求項８に記載の本発明に係る対話支援装置は、請求項１に記載の対話支援装置であって、前記感情を表す情報を学習するものである。
請求項９に記載の本発明に係る対話支援装置は、請求項１に記載の対話支援装置であって、前記状況情報が、前記対話の参加者全員の感情を表す情報であるものである。

請求項１０に記載の本発明に係る対話支援システムは、請求項１から請求項９の何れか１項に記載の対話支援装置と、前記対話支援装置の前記取得部に前記対話における状況を導出可能な物理量を送信する送信部、及び前記対話支援装置の前記処理部が前記表示処理を行う場合に、当該表示処理の表示対象となる表示部、を備えた端末と、を含む。

請求項１０に記載の本発明に係る対話支援システムによれば、対話における状況に対応する状況情報の表示及び記憶の少なくとも一方の処理を行うことで、対話を効果的に活性化することができる。

請求項１１に記載の本発明に係る対話支援プログラムは、対話の参加者の前記対話における状況を導出可能な物理量を取得し、取得した前記物理量を用いて、前記参加者の前記対話における状況を導出し、導出した前記状況に対応する状況情報を表示する表示処理、及び前記状況情報を記憶する記憶処理の少なくとも一方の処理を行う、処理をコンピュータが実行する対話支援プログラムであって、前記状況情報は、前記参加者の感情を表す情報であり、前記感情を表す情報は、前記感情を表す画像情報であり、前記画像情報は、前記感情の度合いが最大となった場合における、対応する前記参加者の顔を撮影して得られた顔撮影画像情報であるものである。

請求項１１に記載の本発明に係る対話支援プログラムによれば、対話における状況に対応する状況情報の表示及び記憶の少なくとも一方の処理を行うことで、対話を効果的に活性化することができる。

以上説明したように、本発明によれば、対話を効果的に活性化することができる。

実施形態に係る対話支援システムのハードウェア構成の一例を示すブロック図である。実施形態に係る対話支援システムの機能的な構成の一例を示すブロック図である。実施形態に係る発言度の説明に供するタイムチャートである。実施形態に係る状況対応情報データベースの構成の一例を示す模式図である。実施形態に係る対応情報の学習方法の説明に供する模式図である。実施形態に係る対話情報データベースの構成の一例を示す模式図である。実施形態に係る顔文字・誇張情報データベースの構成の一例を示す模式図である。実施形態に係る対話支援処理の一例を示すフローチャートである。実施形態に係る対話支援画像の構成の一例を示す正面図である。実施形態に係る派閥情報表示処理の一例を示すフローチャートである。実施形態に係る派閥関係表示画像の構成の一例を示す正面図である。実施形態に係る対応情報の他の決定方法の説明に供するタイムチャートである。

以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、複数人で会議を行う場合における対話（会議での発言）を統括的に支援する対話支援装置と、各々対話の参加者が個別に用いる複数の端末と、を含む対話支援システムに適用した場合について説明する。また、本実施形態では、対話の各参加者が互いに異なる遠隔地に分散している場合について説明する。

まず、図１及び図２を参照して、本実施形態に係る対話支援システム９０の構成を説明する。図１に示すように、本実施形態に係る対話支援システム９０は、ネットワーク８０に各々アクセス可能とされた、対話支援装置１０と、複数の端末２０と、を含む。なお、対話支援装置１０の例としては、パーソナルコンピュータ及びサーバコンピュータ等の情報処理装置が挙げられる。また、端末２０の例としては、据え置き型やノートブック型等のパーソナルコンピュータや、スマートフォン、タブレット端末等の携帯型の端末が挙げられる。

本実施形態に係る端末２０は、対話支援システム９０を用いた会議での対話の参加者（以下、単に「参加者」という。）に各々割り当てられた端末である。端末２０は、ＣＰＵ（Central Processing Unit）２１、一時記憶領域としてのメモリ２２、不揮発性の記憶部２３、タッチパネル等の入力部２４、液晶ディスプレイ等の表示部２５及び媒体読み書き装置（Ｒ／Ｗ）２６を備えている。また、端末２０は、カメラ２８、マイク２９及び無線通信部２７を備えている。ＣＰＵ２１、メモリ２２、記憶部２３、入力部２４、表示部２５、媒体読み書き装置２６、カメラ２８、マイク２９及び無線通信部２７はバスＢ１を介して互いに接続されている。媒体読み書き装置２６は、記録媒体９６に書き込まれている情報の読み出し及び記録媒体９６への情報の書き込みを行う。

記憶部２３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現される。なお、本実施形態に係る対話支援システム９０では、各端末２０のカメラ２８の画角内に端末２０を用いる参加者の顔が収まり、かつ、各端末２０のマイク２９による集音範囲内に端末２０を用いる参加者の発言が入るように、各端末２０が位置決めされている。

一方、対話支援装置１０は、対話支援システム９０で取り扱う各種情報を統括的に保管して管理する装置である。対話支援装置１０は、ＣＰＵ１１、一時記憶領域としてのメモリ１２、不揮発性の記憶部１３、キーボードとマウス等の入力部１４、液晶ディスプレイ等の表示部１５、媒体読み書き装置１６及び通信インタフェース（Ｉ／Ｆ）部１８を備えている。ＣＰＵ１１、メモリ１２、記憶部１３、入力部１４、表示部１５、媒体読み書き装置１６及び通信Ｉ／Ｆ部１８はバスＢ２を介して互いに接続されている。媒体読み書き装置１６は、記録媒体１７に書き込まれている情報の読み出し及び記録媒体１７への情報の書き込みを行う。

記憶部１３はＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現される。記憶媒体としての記憶部１３には、対話支援プログラム１３Ａが記憶されている。対話支援プログラム１３Ａは、対話支援プログラム１３Ａが書き込まれた記録媒体１７が媒体読み書き装置１６にセットされ、媒体読み書き装置１６が記録媒体１７からの対話支援プログラム１３Ａの読み出しを行うことで、記憶部１３へ記憶される。ＣＰＵ１１は、対話支援プログラム１３Ａを記憶部１３から読み出してメモリ１２に展開し、対話支援プログラム１３Ａが有するプロセスを順次実行する。

また、記憶部１３には、状況対応情報データベース１３Ｂ、対話情報データベース１３Ｃ及び顔文字・誇張情報データベース１３Ｄが記憶される。状況対応情報データベース１３Ｂ、対話情報データベース１３Ｃ及び顔文字・誇張情報データベース１３Ｄについては、詳細を後述する。

次に、図２を参照して、本実施形態に係る対話支援装置１０及び端末２０の機能的な構成について説明する。図２に示すように、対話支援装置１０は、取得部１１Ａ、導出部１１Ｂ及び処理部１１Ｃを含む。対話支援装置１０のＣＰＵ１１が対話支援プログラム１３Ａを実行することで、取得部１１Ａ、導出部１１Ｂ及び処理部１１Ｃとして機能する。

本実施形態に係る取得部１１Ａは、参加者の対話における状況を導出可能な物理量を取得する。本実施形態に係る取得部１１Ａでは、上記物理量として、参加者を撮影して得られた画像（以下、「撮影画像」という。）、及び参加者の発言を示す音声（以下、「発言音声」という。）の２種類の物理量を適用しているが、これに限らない。例えば、撮影画像及び発言音声の何れか一方のみを上記物理量として適用する形態としてもよい。

また、導出部１１Ｂは、取得部１１Ａによって取得された物理量を用いて、参加者の対話における状況を導出する。本実施形態に係る導出部１１Ｂでは、上記状況として、参加者の感情の度合いを表す物理量（以下、「感情度」という。）、及び参加者の動作を表す物理量（以下、「動作量」という。）の２種類の物理量を参加者別に導出する。より具体的には、本実施形態に係る導出部１１Ｂは、上記動作量として、撮影画像から得られる受話者の所定期間（本実施形態では、１０秒間）当たりのうなずきの回数（以下、「うなずき頻度」という。）Ｎ、及び発言音声から得られる発話者の発言の度合いを示す物理量（以下、「発言度」という。）Ｈを導出する。また、導出部１１Ｂは、上記感情度として、撮影画像から得られる参加者の表情の度合いを示す物理量（以下、「表情度」という。）を導出する。

より具体的に、本実施形態に係る導出部１１Ｂは、上記表情度として、対応する参加者の怒りの度合いを示す怒り度Ｉ、対応する参加者の嫌悪の度合いを示す嫌悪度Ｋ、及び対応する参加者の恐れの度合いを示す恐れ度Ｏを導出する。また、本実施形態に係る導出部１１Ｂは、上記表情度として、対応する参加者の喜びの度合いを示す喜び度Ｙ、対応する参加者の悲しみの度合いを示す悲しみ度Ｓ、及び対応する参加者の驚きの度合いを示す驚き度Ｂを導出する。

なお、本実施形態では、これらの６種類の感情度を、対応する参加者が用いる端末２０のカメラ２８により得られた撮影画像に基づいて、例えば、“Real-time face detection and emotion/gender classification”、インターネット＜ＵＲＬ：https://github.com/oarriaga/face_classification＞等に記載の既知の技術を適用して導出する。

この技術では、ニューラルネットワークライブラリであるＫｅｒａｓをベースとして、ＣＮＮ（Convolutional Neural Network、畳み込みニューラルネットワーク）により顔の特徴を抽出し、各感情を認識する。例えば、笑顔（喜び度Ｙ）であれば笑顔の特徴に関するデータベースが用意されており、対象となる撮影画像から顔の要素（例えば、部分的な目、鼻、口などの形。）から類似度を判定する。本実施形態では、この類似度を感情度として適用する。また、本実施形態では、上記６種類の感情度を、共に共通の範囲（本実施形態では、０から１００までの範囲）とするように正規化した値として導出する。

なお、各感情度の導出は、他にもマイクロソフト社のＡｚｕｒｅ（登録商標）で提供されているサービスであるＥｍｏｔｉｏｎＡＰＩ（Application Programming Interface）等の多くの既知の技術を適用することにより可能であるため、ここでの、これ以上の説明は省略する。

このように、本実施形態では、上記６種類の感情度を適用しているが、これに限らず、上記６種類のうちの１種類、又は５種類以下の複数種類の組み合わせを適用する形態としてもよい。

一方、本実施形態に係る導出部１１Ｂは、発言度Ｈを次の式（１）により算出する。式（１）におけるｓ（ｔ）は、対象とする発話者の発言速度（＝発言文字数／秒）を表す。

即ち、式（１）は、直近の１０分間（６００秒間）の発言速度ｓ（ｔ）を、算出時点に近い発言ほど重み値を大きくして積算して得られる値を発言度Ｈとして算出する。本実施形態では、発話者の発言速度ｓ（ｔ）を導出する際に用いる発言文字数として、対応する発言音声を、既知の音声認識技術によって認識し、これによって得られたテキスト情報の文字数を適用するが、これに限るものではない。

例えば、通常、会議の場における各参加者の発言は、一例として図３に示すように、他者の発言の間に纏めて行われるが、本実施形態では、算出時点に近いタイミングでの発言速度ｓ（ｔ）ほど重視するものとしている。これにより、発言度Ｈを、対応する発話者の対話中の話題に対する理解の高さを、より的確に表すものとして算出できるようにしている。

なお、発言度Ｈを算出する数式は、式（１）には限らない。例えば、式（１）において適用した直近の１０分間は一例であり、他の期間としてもよいことは言うまでもない。また、式（１）では、算出時点に近い発言ほど重み値を大きくしているが、この重み付けを行うことなく発言度Ｈを算出する形態としてもよい。また、本実施形態では、発言度Ｈの導出に数式を用いる場合について説明したが、この形態に限らず、例えば、テーブル変換により発言度Ｈを導出する形態としてもよい。更に、本実施形態では、発言度Ｈを、発言音声を用いて導出しているが、これに限らない。例えば、撮影画像を用いて、各参加者の口の動きから発言速度ｓ（ｔ）を導出し、この発言速度ｓ（ｔ）を式（１）に代入することによって発言度Ｈを算出する形態等としてもよい。

また、本実施形態に係る導出部１１Ｂは、うなずき頻度Ｎを次の式（２）により算出する。式（２）におけるｎ（ｔ）は、対象とする受話者の所定時間当たりのうなずき回数（＝うなずき回数／秒）を表す。

即ち、式（２）は、直近の１０分間（６００秒間）の所定時間当たりのうなずき回数ｎ（ｔ）を、算出時点に近いうなずきほど重み値を大きくして積算して得られる値をうなずき頻度Ｎとして算出する。本実施形態では、撮影画像に含まれる受話者の顔画像が、当該受話者から見て前方で、かつ、下方に傾斜したことに引き続いてほぼ元の位置に復帰した場合に、１回うなずいたと判断している。なお、本実施形態では、顔画像の傾斜及び復帰の検出を、顔画像の所定部位の画像（本実施形態では、目の画像）が下方に所定距離（本実施形態では、３ｍｍ）以上移動した後に、ほぼ元の位置に戻ったことを検出することにより行っているが、これに限るものではないことは言うまでもない。

なお、うなずき頻度Ｎを算出する数式は、式（２）には限らない。例えば、式（２）において適用した直近の１０分間は一例であり、他の期間としてもよいことは言うまでもない。また、式（２）では、算出時点に近いうなずき回数ｎ（ｔ）ほど重み値を大きくしているが、この重み付けを行うことなくうなずき頻度Ｎを算出する形態としてもよい。また、本実施形態では、うなずき頻度Ｎの導出に数式を用いる場合について説明したが、この形態に限らず、例えば、テーブル変換によりうなずき頻度Ｎを導出する形態としてもよい。

そして、処理部１１Ｃは、導出部１１Ｂによって導出された上記状況に対応する状況情報を端末２０の表示部２５に表示する表示処理、及び上記状況情報を記憶部１３に記憶する記憶処理の双方の処理を行う。但し、この形態に限らず、上記表示処理及び上記記憶処理の何れか一方の処理を行う形態としてもよい。

本実施形態では、上記状況情報として、対応する参加者の感情を表す情報を適用している。より具体的には、本実施形態では、上記感情を表す情報として、当該感情を表すテキスト情報、画像情報、及び各参加者の相互間における感情の関係を示す情報を適用している。

なお、本実施形態では、上記テキスト情報として、対応する参加者のうちの何れかの発言者による発言に対する他者の感情を表す情報を適用している。また、本実施形態では、上記画像情報として、顔文字を適用している。また、本実施形態では、上記画像情報として、感情の度合いが最大となった場合における、対応する参加者の顔を撮影して得られた顔撮影画像情報及び感情を誇張する情報が含まれる画像情報も適用している。

一方、本実施形態に係る端末２０は、制御部２１Ａを含む。端末２０のＣＰＵ２１が、記憶部２３に予め記憶された図示しない対話支援アプリケーション・プログラムを実行することで、制御部２１Ａとして機能する。

本実施形態に係る制御部２１Ａは、送信部としての無線通信部２７を介して、対話支援装置１０の取得部１１Ａに、上記対話における状況を導出可能な物理量を送信する。また、制御部２１Ａは、対話支援装置１０の処理部１１Ｃが上記表示処理を行う場合に、当該表示処理の表示対象となる表示部２５を制御する。

次に、図４を参照して、本実施形態に係る状況対応情報データベース１３Ｂについて説明する。図４に示すように、本実施形態に係る状況対応情報データベース１３Ｂは、状況を示す情報と、対応する状況において、対応する参加者の感情を示すものとして当該参加者に対応付けて表示するテキスト情報である対応情報とが関連付けられて記憶されている。上記対応情報が、本発明の感情を表すテキスト情報に相当する。

ここで、上記状況を示す情報には、図４に示すように、発話者による発言度Ｈ及び受話者による６種類の感情度に加えて、受話者によるうなずき頻度Ｎの所定時間（本実施形態では、６０秒）前からの低下率を示す、うなずき頻度低下率Ｕが含まれる。

また、対応する状況に対応する上記対応情報は、一例として以下のように導出する。即ち、まず、一例として図５に示すように、会議の場で想定される「ＩＦ（状況）ＴＨＥＮ（対応情報）」を予め仮説として多数用意する。図５に示す例では、発話者の発言度Ｈが１８０以上であり、かつ、受話者のうなずき頻度低下率Ｕが５０％以上であり、かつ、受話者の怒り度Ｉが５０以上である状況の場合、受話者の感情を示す対応情報として「ちょっと話についていけないなぁ」を仮説としている。

そして、本実施形態では、仮説として用意した多数の状況及び対応情報の組み合わせを実際の会議の場で適用して、状況の条件を満足する対応情報を端末２０に表示させ、当該表示が有効であったか否かを繰り返し評価することにより学習する。そして、この学習によって得られた対応情報を状況対応情報データベース１３Ｂに反映させる。なお、ここで行う評価は、受話者の主観による評価でもよいし、対応情報を表示した後の実際の改善効果（例えば、笑顔が増える、発言が増える等）といった客観的な評価でもよい。

このように、本実施形態では、状況に対応する対応情報を学習させているが、必ずしも学習を行う必要はなく、予め仮説として用意した状況及び対応情報そのものを状況対応情報データベース１３Ｂに選択的に適用する形態としてもよい。

次に、図６を参照して、本実施形態に係る対話情報データベース１３Ｃについて説明する。図６に示すように、本実施形態に係る対話情報データベース１３Ｃは、端末ＩＤ（IDentification）、画像データ、音声データ、テキストデータ、時刻、及び最大感情度の各情報が関連付けられて記憶される。

上記端末ＩＤは、各参加者が用いる端末２０を識別するために割り振られた情報である。なお、本実施形態では、端末ＩＤと、当該端末ＩＤが割り振られた端末２０を用いる参加者を示す情報（本実施形態では、名前）とが対応付けられて記憶部１３に記憶されている。従って、対話支援装置１０は、何れかの端末２０との間で通信を行う場合に、当該端末２０を用いる参加者を特定することができる。

また、上記画像データは、対応する端末２０から取得された撮影画像を示す情報であり、上記音声データは、対応する端末２０から取得された発言音声を示す情報であり、上記テキストデータは、対応する発言音声をテキスト化した情報である。なお、本実施形態では、上記テキストデータを、対応する音声データを、既知の音声認識技術を用いてテキストデータに変換することで得ている。

また、上記時刻は、対応する画像データ及び音声データが取得された日時を示す情報であり、上記最大感情度は、対応する参加者の、対応する画像データが得られている期間内における最大値となる感情度の種類を示す情報である。

なお、本実施形態では、図６に示すように、最大感情度における各参加者を示す情報として、当該参加者が用いる端末２０の端末ＩＤを適用しているが、これに限らないことは言うまでもない。また、図６では、最大感情度の種類を符号のみで表しているが、例えば、‘Ｉ’は怒り度Ｉを表し、‘Ｏ’は恐れ度Ｏを表している。更に、図６では、最大感情度を発話者のみについて対話情報データベース１３Ｃに記憶している場合を例示しているが、これに限らず、対応する期間における受話者の最大感情度も対話情報データベース１３Ｃに記憶する形態としてもよい。

次に、図７を参照して、本実施形態に係る顔文字・誇張情報データベース１３Ｄについて説明する。図７に示すように、本実施形態に係る顔文字・誇張情報データベース１３Ｄは、最大感情度、顔文字、及び誇張情報の各情報が関連付けられて記憶されている。

上記最大感情度は上述した対話情報データベース１３Ｃの最大感情度と同一の情報であり、上記顔文字は、対応する最大感情度に対応する顔文字を示すデータであり、上記誇張情報は、対応する最大感情度に対応する誇張の内容を示す情報である。

例えば、図７に示す顔文字・誇張情報データベース１３Ｄでは、最大感情度となる感情度の種類が恐れ度Ｏである場合に対応する顔文字が「(^_^;)」であることを示している。また、図７に示す例では、最大感情度となる感情度の種類が恐れ度Ｏである場合に対応する誇張情報が示す誇張の内容が、「ガーン」とのテキスト情報、及び恐れを示す画像であることを示している。なお、上記恐れを示す画像は、例えば、後述する図９に示す、対応する参加者の顔画像の額付近に複数の縦線が重畳された画像２５Ｇ等が例示される。

次に、図８～図１１を参照して、本実施形態に係る対話支援システム９０の作用を説明する。まず、図８及び図９を参照して、対話支援処理を実行する場合の対話支援装置１０の作用を説明する。会議の各参加者が用いる端末２０によって上述した対話支援アプリケーション・プログラムの実行が開始されることに応じて、対話支援装置１０のＣＰＵ１１が対話支援プログラム１３Ａを実行することにより、図８に示す対話支援処理が実行される。なお、ここでは、錯綜を回避するために、複数の参加者による対話が時間的に重複することなく進められる場合について説明する。また、ここでは、錯綜を回避するために、状況対応情報データベース１３Ｂ及び顔文字・誇張情報データベース１３Ｄが構築済みである場合について説明する。

対話支援アプリケーション・プログラムの実行が開始されると、各参加者が用いる端末２０は、自身のカメラ２８による撮影及びマイク２９の作動を開始し、これによって得られた撮影画像を示す画像データ及び発言音声を示す音声データの対話支援装置１０への送信を開始する。

そこで、図８のステップ２００で、取得部１１Ａは、各端末２０から送信された画像データ及び音声データの受信、及び受信した各データの記憶部１３への記憶を開始する。なお、取得部１１Ａは、受信した各データを記憶部１３に記憶する際に、対応するデータの送信元の端末２０に割り振られた端末ＩＤ及び取得した時点の時刻を関連付けて記憶する。

ステップ２０２で、取得部１１Ａは、各端末２０から受信している音声データによる発言音声が所定期間（本実施形態では、５秒間）途切れるまで待機することにより、対話の各参加者の一連の発言（以下、「一連発言」という。）が終了するまで待機する。

ステップ２０４で、導出部１１Ｂは、各参加者の直近の一連発言分の画像データ及び音声データを記憶部１３から読み出す。ステップ２０６で、導出部１１Ｂは、読み出した音声データを既知の音声認識技術を用いて各参加者別にテキストデータに変換する。

ステップ２０８で、導出部１１Ｂは、読み出した画像データを用いて、各参加者別に上記６種類の感情度（本実施形態では、怒り度Ｉ、嫌悪度Ｋ、恐れ度Ｏ、喜び度Ｙ、悲しみ度Ｓ、驚き度Ｂ）を上述したように導出する。なお、本実施形態では、感情度を、参加者毎で、かつ、感情度毎に、読み出した直近の一連発言分の画像データにおける最大値を導出する。但し、この形態に限らず、例えば、読み出した直近の一連発言分の画像データにおける時系列順の中央の画像データを用いて導出する形態や、読み出した直近の一連発言分の画像データにおける時系列順の最後の画像データを用いて導出する形態等を適用してもよい。

ステップ２１０で、導出部１１Ｂは、各参加者別の６種類の感情度のうち、最大値となった感情度（最大感情度）の導出対象の時点に対応する画像データ（静止画像データ）を各参加者別に特定する。ステップ２１２で、処理部１１Ｃは、ステップ２１０の処理によって特定した静止画像データが示す撮影画像、及びステップ２０６の処理によって得られたテキストデータを用いて、対話を支援するための画像（以下、「対話支援画像」という。）を構成する。この際、処理部１１Ｃは、一例として図９に示すように、対応する参加者の撮影画像２５Ｃに対して、テキストデータにより示されるテキスト２５Ｄを、所謂吹き出しの形態で表示されるように対話支援画像３０を構成する。

ステップ２１４で、導出部１１Ｂは、ステップ２０６の処理によって得られたテキストデータを用いて、上述したように、式（１）を用いて各参加者別の発言度Ｈを算出する。ステップ２１６で、導出部１１Ｂは、ステップ２０４の処理によって読み出した画像データを用いて、上述したように、うなずき頻度低下率Ｕを算出する。この際、読み出した画像データでは、うなずき頻度低下率Ｕを算出する際に適用する所定時間（本実施形態では、６０秒）前のうなずき頻度Ｎ（以下、「起算頻度」という。）が得られない場合がある。この場合、本実施形態では、起算頻度として、各参加者別の過去のうなずき頻度Ｎの平均値を適用する。但し、この形態に限らず、例えば、各参加者別の直近のうなずき頻度Ｎを起算頻度として適用する形態等としてもよい。

ステップ２１８で、処理部１１Ｃは、ステップ２１０の処理において用いた各参加者別の最大感情度に、顔文字・誇張情報データベース１３Ｄに顔文字が登録されている最大感情度が含まれるか否かを判定し、肯定判定となった場合はステップ２２０に移行する。

ステップ２２０で、処理部１１Ｃは、ステップ２１８の処理において含まれると判定された最大感情度に対応する顔文字を顔文字・誇張情報データベース１３Ｄから読み出す。ステップ２２２で、処理部１１Ｃは、一例として図９に示すように、読み出した顔文字２５Ｅが、対応する参加者に対応するテキスト２５Ｄに含めて吹き出し内に表示されるように対話支援画像３０を更新し、その後にステップ２２４に移行する。

一方、ステップ２１８において否定判定となった場合は、ステップ２２０及びステップ２２２の処理を実行することなくステップ２２４に移行する。

ステップ２２４で、処理部１１Ｃは、ステップ２１０の処理において用いた各参加者別の最大感情度に、顔文字・誇張情報データベース１３Ｄに誇張情報が登録されている最大感情度が含まれるか否かを判定し、肯定判定となった場合はステップ２２６に移行する。

ステップ２２６で、処理部１１Ｃは、ステップ２２４の処理において含まれると判定された最大感情度に対応する誇張情報を顔文字・誇張情報データベース１３Ｄから読み出す。ステップ２２８で、処理部１１Ｃは、一例として図９に示すように、読み出した誇張情報が示す情報を、対応する参加者に対応されて表示されるように対話支援画像３０を更新し、その後にステップ２３０に移行する。なお、図９に示す対話支援画像３０の例では、上記誇張情報が示す情報として、対応する参加者の撮影画像の上部に「ガーン」とのテキスト２５Ｆが表示され、対応する参加者の撮影画像における顔の額付近に複数の縦線が重畳された画像２５Ｇが表示される。

一方、ステップ２２４において否定判定となった場合は、ステップ２２６及びステップ２２８の処理を実行することなくステップ２３０に移行する。

ステップ２３０で、処理部１１Ｃは、以上の処理によって算出した発言度Ｈ、うなずき頻度低下率Ｕ、及び感情度の各参加者別の組み合わせに合致する条件が状況対応情報データベース１３Ｂに含まれるか否かを判定し、肯定判定となった場合はステップ２３２に移行する。

ステップ２３２で、処理部１１Ｃは、ステップ２３０の処理において含まれると判定された条件に対応する対応情報を状況対応情報データベース１３Ｂから読み出す。ステップ２３４で、処理部１１Ｃは、一例として図９に示すように、読み出した対応情報２５Ｈが所定の位置（図９に示す例では、対話支援画像３０の上端部近傍の位置）に表示されるように対話支援画像３０を更新し、その後にステップ２３６に移行する。

一方、ステップ２３０において否定判定となった場合は、ステップ２３２及びステップ２３４の処理を実行することなくステップ２３６に移行する。

ステップ２３６で、処理部１１Ｃは、対話を支援するための他の支援情報が表示されるように対話支援画像３０を更新する。なお、本実施形態では、上記支援情報として、一例として図９に示すように、各参加者の撮影画像、発言度Ｈ（図９では「発言」と表記。）、うなずき頻度Ｎ（図９では「肯定」と表記。）及び顔文字（図９では「気分」と表記。）を含む支援情報２５Ｉが表示されるように対話支援画像３０を更新する。また、本実施形態では、上記他の支援情報として、対応する音声の再生の指示を受け付けるための音声ボタン２５Ｊが表示されるように対話支援画像３０を更新する。更に、本実施形態では、上記他の支援情報として、表示している対話支援画像３０の上下方向へのスクロールの指示を受け付けるためのスクロールボタン２５Ｋが表示されるように対話支援画像３０を更新する。なお、その他の支援情報として、図９に示すように、発話者が発言している際の受話者の撮影画像２５Ｐを当該発話者における各吹き出しの近傍に並べて表示する形態としてもよい。

ステップ２３８で、処理部１１Ｃは、以上の処理によって得られた各種情報を対話情報データベース１３Ｃに登録（記憶）する。このステップ２３８の処理により、対話情報データベース１３Ｃが逐次構築されることになる。

ステップ２４０で、処理部１１Ｃは、以上の処理によって得られた対話支援画像３０を示す画像情報を各端末２０に送信するように通信Ｉ／Ｆ部１８を制御する。この処理により、上述した対話支援アプリケーション・プログラムにより、一例として図９に示す対話支援画像３０が各端末２０の表示部２５に表示される。各参加者は、自身が用いる端末２０に表示された対話支援画像３０を参照し、音声を再生させたい場合は対応する音声ボタン２５Ｊを指定し、対話支援画像３０を上下方向にスクロールさせたい場合はスクロールボタン２５Ｋを所望の方向に移動させる。これに応じて、各端末２０で実行されている対話支援アプリケーション・プログラムは、参加者によって音声ボタン２５Ｊ及びスクロールボタン２５Ｋの少なくとも一方が操作された場合に、操作された状態を示す状態情報を対話支援装置１０に送信する。

そこで、ステップ２４２で、処理部１１Ｃは、何れかの端末２０から音声ボタン２５Ｊが指定された旨を示す状態情報が受信されたか否かを判定し、否定判定となった場合はステップ２４６に移行する一方、肯定判定となった場合はステップ２４４に移行する。

ステップ２４４で、処理部１１Ｃは、指定された音声ボタン２５Ｊに対応する音声データを記憶部１３から読み出して、対応する状態情報の送信元の端末２０に送信し、その後にステップ２４６に移行する。ステップ２４４の処理により、音声ボタン２５Ｊが指定された旨を示す状態情報を送信した端末２０では、対話支援アプリケーション・プログラムによって参加者が指定した音声が再生される。

ステップ２４６で、処理部１１Ｃは、何れかの端末２０からスクロールボタン２５Ｋが操作された旨を示す状態情報が受信されたか否かを判定し、否定判定となった場合はステップ２５０に移行する一方、肯定判定となった場合はステップ２４８に移行する。

ステップ２４８で、処理部１１Ｃは、スクロールボタン２５Ｋが上方向に移動された場合には、スクロールボタン２５Ｋの移動量に応じた量だけ対話支援画像３０を上方向にスクロールさせるための情報を、対応する状態情報の送信元の端末２０に送信する。また、処理部１１Ｃは、スクロールボタン２５Ｋが下方向に移動された場合には、スクロールボタン２５Ｋの移動量に応じた量だけ対話支援画像３０を下方向にスクロールさせるための情報を、対応する状態情報の送信元の端末２０に送信する。そして、処理部１１Ｃは、以上の処理を行った後にステップ２５０の処理に移行する。ステップ２４８の処理により、スクロールボタン２５Ｋが操作された状態を示す状態情報を送信した端末２０では、対話支援アプリケーション・プログラムによって、表示部２５で表示されている対話支援画像３０が上記操作に応じてスクロールされる。

ステップ２５０で、処理部１１Ｃは、本対話支援処理の終了タイミングが到来したか否かを判定し、否定判定となった場合はステップ２０２に戻る一方、肯定判定となった時点でステップ２５２に移行する。なお、本実施形態では、対話支援処理の終了タイミングを、本対話支援処理が対象としている会議に参加している全ての参加者の端末２０で実行されている対話支援アプリケーション・プログラムが終了されるタイミングとしているが、これに限らない。例えば、対象としている会議が所定時間（例えば、１０分）以上停止したタイミング、対象としている会議に予め設定された時間（例えば、１時間）が経過したタイミング等を対話支援処理の終了タイミングとしてもよい。

ステップ２５２で、処理部１１Ｃは、ステップ２００の処理によって開始した、各端末２０から送信された画像データ及び音声データの受信、及び受信した各データの記憶部１３への記憶を終了した後、本対話支援処理を終了する。

一方、本実施形態に係る対話支援システム９０では、何れかの参加者が対話支援画像３０における派閥情報表示ボタン２５Ａを指定すると、各参加者の相互間における感情の関係をグラフィカルに示す情報である派閥関係表示画像を表示する派閥関係表示機能を有している。

次に、図１０～図１１を参照して、派閥関係表示機能の実行時における対話支援システム９０の作用を説明する。なお、図１０は、対象としている会話に参加している何れかの参加者の端末２０から、派閥情報表示ボタン２５Ａが指定された旨を示す情報が受信された場合に、対話支援装置１０のＣＰＵ１１により実行される派閥情報表示処理の流れを示すフローチャートである。

図１０のステップ３００で、処理部１１Ｃは、その時点から所定時間（本実施形態では、１０分間）遡った時間から、その時間までに記憶した画像データを、対応する端末ＩＤと共に対話情報データベース１３Ｃから読み出す。ステップ３０２で、処理部１１Ｃは、読み出した画像データを用いて、予め定められた構成とされた派閥関係表示画像を構成する。ステップ３０４で、処理部１１Ｃは、構成した派閥関係表示画像を示す情報を、派閥情報表示ボタン２５Ａが指定された旨を示す情報の送信元の端末２０に送信する。派閥関係表示画像を示す情報を受信した端末２０では、一例として図１１に示す派閥関係表示画像３２を表示部２５に表示する。図１１に示すように、本実施形態に係る派閥関係表示画像３２では、対象としている会議の参加者間で相互に抱いている感情がグラフィカルに表示される。

なお、本実施形態では、各参加者間で相互に抱いている感情を示す情報として、次の式（３）で算出される相互近接度ＳＫ_ｘｙを適用している。なお、式（３）におけるｘ及びｙは各々異なる参加者を表し、ｎ_ｘは参加者ｙが発言している際の参加者ｘのうなずき回数を表し、ｎ_ｙは参加者ｘが発言している際の参加者ｙのうなずき回数を表す。ここで、うなずき回数ｎ_ｘ及びうなずき回数ｎ_ｙは、読み出した画像データが示す撮影画像を用いて、上述した式（２）に用いるうなずき回数ｎ（ｔ）と同様に導出する。

そして、本実施形態に係る派閥関係表示画像３２では、算出した相互近接度ＳＫ_ｘｙの逆数を離間距離として各参加者の撮影画像を配置する。この際、うなずき回数ｎ_ｘとうなずき回数ｎ_ｙとの差分が所定値より大きな場合、一例として図１１に示すように、うなずき回数が少ない方から多い方に向けて矢印を表示し、かつ、敵対視を示す画像２５Ｌを表示可能とする。また、この場合、うなずき回数が多い方から少ない方に向けて矢印を表示し、かつ、好感を示す画像２５Ｍを表示可能とする。また、上記離間距離が所定距離未満である場合、対応する参加者間を他よりも太い直線で結び、かつ、直線上に好感を示す画像２５Ｍを表示可能とする。更に、上記離間距離が上記所定距離以上である場合、対応する参加者間を直線で結び、かつ、直線上に衝突感を示す画像２５Ｎを表示可能とする。

図１１に示す例では、例えば、Ａさんと、他の参加者（Ｂさん、Ｃさん、Ｄさん）との間は相互に衝突感を抱いていることを示しており、また、例えば、ＣさんはＤさんに対して敵対視しているが、ＤさんはＣさんに対して好感を抱いていることを示している。更に、図１１に示す例では、ＢさんとＤさんとは互いに好感を抱いていることを示している。

この派閥関係表示画像３２を参照することにより、対話の参加者は、他者が自分に抱いている感情の推定結果を把握することができるため、その場に応じた、より効果的な発言を行ったり、態度をとったりすることができる。また、派閥関係表示画像３２を参照することにより、対話の参加者は、自身の他者に対する感情の推定結果が妥当か否かを判断することができるため、推定結果が誤っている場合に是正することが可能となる。

派閥関係表示画像３２が表示部２５に表示されると、参加者は、当該派閥関係表示画像３２を参照した後、終了ボタン２５Ｂを指定する。これに応じて、対応する端末２０の制御部２１Ａは、派閥関係表示画像３２の表示を終了する旨を示す情報（以下、「表示終了情報」という。）を対話支援装置１０に無線通信部２７を介して送信する。

そこで、次のステップ３０６で、処理部１１Ｃは、表示終了情報が指定されるまで待機した後、本派閥情報表示処理を終了する。

以上説明したように、本実施形態によれば、対話の参加者の対話における状況を導出可能な物理量を取得する取得部１１Ａと、取得部１１Ａによって取得された物理量を用いて、参加者の対話における状況を導出する導出部１１Ｂと、導出部１１Ｂによって導出された状況に対応する状況情報を表示する表示処理、及び状況情報を記憶する記憶処理の双方の処理を行う処理部１１Ｃと、を備えている。従って、対話を効果的に活性化することができる。

また、本実施形態によれば、上記状況情報を、参加者の感情を表す情報としている。従って、より効果的に対話の活性化を促すことができる。

また、本実施形態によれば、上記感情を表す情報を、感情を表すテキスト情報としている。従って、より具体的に参加者の感情を把握することができる。

また、本実施形態によれば、上記テキスト情報を、参加者のうちの何れかの発言者による発言に対する他者の感情を表す情報としている。従って、発言を聞いている参加者の感情を把握することができる。

また、本実施形態によれば、上記感情を表す情報を、感情を表す画像情報としている。従って、より直感的に参加者の感情を把握することができる。

また、本実施形態によれば、上記画像情報を、顔文字としている。従って、より直感的に参加者の感情を把握することができる。

また、本実施形態によれば、上記画像情報を、感情の度合いが最大となった場合における、対応する参加者の顔を撮影して得られた顔撮影画像情報としている。従って、より効果的に参加者の感情を把握することができる。

また、本実施形態によれば、上記画像情報を、顔撮影画像情報に加えて、感情を誇張する情報が含まれる画像情報としている。従って、より効果的に参加者の感情を把握することができる。

また、本実施形態によれば、上記感情を表す情報を、参加者の相互間における感情の関係を示す情報としている。従って、より効果的に対話の活性化を促すことができる。

また、本実施形態によれば、上記物理量を、参加者を撮影して得られた画像、及び参加者の発言を示す音声としている。従って、より低コストで対話の活性化を促すことができる。

また、本実施形態によれば、上記状況を、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量としている。従って、より簡易に対話の活性化を促すことができる。

更に、本実施形態によれば、上記状況を、画像から得られる参加者のうなずきの頻度を示す物理量、画像から得られる参加者の表情の度合いを示す物理量、音声から得られる参加者の発言の度合いを示す物理量としている。従って、より簡易に対話の活性化を促すことができる。

なお、上記実施形態では、各参加者の個別の感情度を用いて、端末２０に表示する対応情報を決定する場合について説明したが、これに限定されない。例えば、参加者全員の感情度を用いて対応情報を決定する形態としてもよい。例えば、一例として図１２に示すように、各参加者の喜び度Ｙが同時に所定値（一例として、５０）以上となった場合、参加者全員が一体的に喜んでいると想定できる。この場合、対応情報として、一例として「一体感があり、良い状況です。」といった表示を各端末２０で行うことで、より効果的に対話を活性化することができる。

また、上記実施形態では、本発明を、対話の参加者が互いに異なる場所に分散して会議を行っている形態に適用した場合について説明したが、これに限定されない。例えば、対話の各参加者が同一の会議室等で会議を行う形態に本発明を適用してもよい。この場合、各端末２０に設けられたカメラ２８及びマイク２９に代えて、端末２０とは別体として構成された１つ又は複数のカメラ及びマイクを用いて、会議の参加者全員の画像及び音声を収集する形態としてもよい。

また、上記実施形態では、対話支援装置１０において対話支援処理を実行する場合について説明したが、これに限定されない。例えば、少なくとも１台の端末２０によって対話支援処理を実行する形態としてもよい。この形態の場合、本発明の対話支援装置が該当する端末２０に含まれることになる。また、例えば、各参加者の発言度Ｈ、うなずき頻度低下率Ｕ、及び各感情度の少なくとも１つを、対応する参加者が用いる端末２０で導出する形態としてもよい。

また、上記実施形態では、各端末２０において対話支援画像３０を表示する場合について説明したが、これに限定されない。例えば、対話支援画像３０を対話支援装置１０において表示する形態としてもよい。

また、上記実施形態では、本発明を会議に適用した場合について説明したが、これに限定されない。例えば、人事面接、商談等といった会議以外の複数人で行う対話の場に本発明を適用する形態としてもよい。

また、上記実施形態では、本発明の感情を表す画像情報として顔文字を適用した場合について説明したが、これに限定されない。例えば、顔文字に加えて、絵文字、アイコン（Icon）の少なくとも１つを適用する形態としてもよい。

また、上記実施形態では、上記状況として、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量の双方を適用した場合について説明したが、これに限定されない。例えば、参加者の感情の度合いを表す物理量、及び参加者の動作を表す物理量の何れか一方のみを適用する形態としてもよい。

また、上記実施形態では、上記状況として、画像から得られる参加者のうなずきの頻度を示す物理量、画像から得られる参加者の表情の度合いを示す物理量、音声から得られる参加者の発言の度合いを示す物理量、の全てを適用した場合について説明したが、これに限定されない。例えば、これらの物理量の１つ、又は全てを除く複数の組み合わせを適用する形態としてもよい。

また、上記実施形態では、うなずき頻度低下率Ｕを用いて対応情報を決定する場合について説明したが、これに限定されない。例えば、うなずき頻度Ｎそのものを用いて対応情報を決定する形態としてもよい。

また、上記実施形態では、状況対応情報データベース１３Ｂとして、発話者と受話者の双方に関する情報が混在しているデータベースを適用した場合について説明したが、これに限定されない。例えば、発話者と受話者の各々別に異なるデータベースを構築して適用する形態としてもよい。

その他、式（１）～式（３）は何れも一例であり、本発明の主旨を逸脱しない範囲内において、適宜変更して適用することができることは言うまでもない。

また、上記実施形態において、例えば、取得部１１Ａ、導出部１１Ｂ、処理部１１Ｃの各処理を実行する処理部（processing unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（processor）を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア（プログラム）を実行して処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせや、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、処理部を１つのプロセッサで構成してもよい。

処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：SoC）等に代表されるように、処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）を用いることができる。

１０対話支援装置
１１ＣＰＵ
１１Ａ取得部
１１Ｂ導出部
１１Ｃ処理部
１２メモリ
１３記憶部
１３Ａ対話支援プログラム
１３Ｂ状況対応情報データベース
１３Ｃ対話情報データベース
１３Ｄ顔文字・誇張情報データベース
１４入力部
１５表示部
１６媒体読み書き装置
１７記録媒体
１８通信Ｉ／Ｆ部
２０端末
２１ＣＰＵ
２２メモリ
２３記憶部
２４入力部
２５表示部
２５Ａ派閥情報表示ボタン
２５Ｂ終了ボタン
２５Ｃ撮影画像
２５Ｄテキスト
２５Ｅ顔文字
２５Ｆテキスト
２５Ｇ画像
２５Ｈ対応情報
２５Ｉ支援情報
２５Ｊ音声ボタン
２５Ｋスクロールボタン
２５Ｌ、２５Ｍ、２５Ｎ画像
２５Ｐ撮影画像
２６媒体読み書き装置
２７無線通信部
２８カメラ
２９マイク
３０対話支援画像
３２派閥関係表示画像
８０ネットワーク
９０対話支援システム
９６記録媒体

Claims

対話の参加者の前記対話における状況を導出可能な物理量を取得する取得部と、
前記取得部によって取得された前記物理量を用いて、前記参加者の前記対話における状況を導出する導出部と、
前記導出部によって導出された前記状況に対応する状況情報を表示する表示処理、及び前記状況情報を記憶する記憶処理の少なくとも一方の処理を行う処理部と、
を備え、
前記状況情報は、前記参加者の感情を表す情報であり、
前記感情を表す情報は、前記感情を表す画像情報であり、
前記画像情報は、前記感情の度合いが最大となった場合における、対応する前記参加者の顔を撮影して得られた顔撮影画像情報である、
対話支援装置。
前記画像情報は、前記顔撮影画像情報に加えて、前記感情を誇張する情報が含まれる画像情報である、
請求項１に記載の対話支援装置。
前記物理量は、前記参加者を撮影して得られた画像、及び前記参加者の発言を示す音声の少なくとも一方である、
請求項１に記載の対話支援装置。
前記状況は、前記参加者の感情の度合いを表す物理量、及び前記参加者の動作を表す物理量の少なくとも一方である、
請求項３に記載の対話支援装置。
前記状況は、前記画像から得られる前記参加者のうなずきの頻度を示す物理量、前記画像から得られる前記参加者の表情の度合いを示す物理量、前記画像及び前記音声の少なくとも一方から得られる前記参加者の発言の度合いを示す物理量、の少なくとも１つである、
請求項４に記載の対話支援装置。
前記発言の度合いは、直近の予め定められた期間の発言速度に応じた度合いである、
請求項５に記載の対話支援装置。
前記うなずきの頻度を示す物理量は、当該頻度の低下率を示す情報である、
請求項５に記載の対話支援装置。
前記感情を表す情報を学習する、
請求項１に記載の対話支援装置。
前記状況情報は、前記対話の参加者全員の感情を表す情報である、
請求項１に記載の対話支援装置。
請求項１から請求項９の何れか１項に記載の対話支援装置と、
前記対話支援装置の前記取得部に前記対話における状況を導出可能な物理量を送信する送信部、及び前記対話支援装置の前記処理部が前記表示処理を行う場合に、当該表示処理の表示対象となる表示部、を備えた端末と、
を含む対話支援システム。
対話の参加者の前記対話における状況を導出可能な物理量を取得し、
取得した前記物理量を用いて、前記参加者の前記対話における状況を導出し、
導出した前記状況に対応する状況情報を表示する表示処理、及び前記状況情報を記憶する記憶処理の少なくとも一方の処理を行う、
処理をコンピュータが実行する対話支援プログラムであって、
前記状況情報は、前記参加者の感情を表す情報であり、
前記感情を表す情報は、前記感情を表す画像情報であり、
前記画像情報は、前記感情の度合いが最大となった場合における、対応する前記参加者の顔を撮影して得られた顔撮影画像情報である、
対話支援プログラム。