JP7036046B2

JP7036046B2 - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: JP7036046B2
Application number: JP2019005363A
Authority: JP
Inventors: 慎江上; 一希笠井; 純一和田
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2022-03-15
Anticipated expiration: 2039-01-16
Also published as: JP2020113197A; WO2020148920A1

Description

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

ユーザ間の円滑なコミュニケーションを支援するサービスが従来技術として知られている。特許文献１には、コールセンターのオペレータと顧客との会話における音声に基づいて感情を認識し、音声と感情とを組み合わせて音声分析することで、オペレータのパフォーマンスを評価する電話音声モニタリング評価システムが記載されている。特許文献２には、ユーザが入力したチャット文が示す感情を認識し、ユーザ間の感情の類似度を求める感情マッチング装置が記載されている。

特開２０１７－１３５６４２号公報（２０１７年８月３日公開）特開２００５－２８４８２２号公報（２００５年１０月１３日公開）

しかしながら、上述のような従来技術は、会話における音声のみに基づいて、又は、入力されたチャット文のみに基づいて、話者の感情を認識するため、多面的な感情認識ができないという問題がある。

本発明の一態様は、会話中の各ユーザの感情を多面的に認識し、認識された感情に基づく会話の評価を通知するコミュニケーション支援技術を提供することを目的とする。

前記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数の参加者のうち第１の参加者の表情に関する第１の表情情報と、前記複数の参加者のうち第２の参加者の表情に関する第２の表情情報とを取得する表情情報取得部と、当該第１の参加者の発話に関する第１の発話情報と、前記複数の参加者のうち第２の参加者の発話に関する第２の発話情報とを取得する音声情報取得部と、前記第１の表情情報と前記第２の表情情報とを参照して、前記第１の参加者と前記第２の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、前記第１の発話情報と前記第２の発話情報とを参照して、前記第１の参加者と前記第２の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、前記表情関係性情報と前記発話関係性情報とを参照して前記第１の参加者と前記第２の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、を備えていることを特徴としている。

これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性を評価することができる。

前記一態様に係る情報処理装置において、前記関係性情報は、前記第１の参加者と前記第２の参加者との関係を示すリアルタイム又は経時的な情報である。

これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性をリアルタイムで評価することができる。

前記一態様に係る情報処理装置において、前記第１の表情情報には、前記第１の参加者の表情を表現する複数の第１の指標が含まれており、前記第２の表情情報には、前記第２の参加者の表情を表現する複数の第２の指標が含まれており、前記表情関係性情報生成部は、前記第１の指標と前記第２の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める。

これによれば、表情関係性情報を生成するために参照する参加者の表情を表現するために複数の指標を用いるため、より正確に参加者の表情を表現することができる。

前記一態様に係る情報処理装置において、前記第１の表情情報には、前記第１の参加者の視線方向に関する第１の視線情報が含まれており、前記第２の表情情報には、前記第２の参加者の視線方向に関する第２の視線情報が含まれており、前記表情関係性情報生成部は、前記第１の視線情報と前記第２の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める。

これによれば、表情関係性情報を生成するために参照する参加者の表情情報に参加者の視線情報も含むため、より正確に参加者の表情を表現することができる。

前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第１の発話情報が示す前記第１の参加者の発話時間と、前記第２の発話情報が示す前記第２の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める。

これによれば、発話関係性情報を生成するために参照する参加者の発話情報に発話時間関係性情報も含むため、より正確に参加者の発話関係性情報を生成することができる。

前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第１の発話情報及び前記第２の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める。

これによれば、発話関係性情報に特定のカテゴリーに含まれる発話内容が含まれているか否かの判定結果に応じた情報も含むため、より正確に参加者間の関係性情報を生成することができる。

前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第１の発話情報及び前記第２の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含める。

これによれば、発話関係性情報に頻度の高い単語の上方も含むため、より正確に参加者間の関係性情報を生成することができる。

前記一態様に係る情報処理装置において、前記関係性情報生成部は、前記関係性情報を参照して、前記第１の参加者及び前記第２の参加者の少なくとも何れかに提示する提示情報を生成する。

これによれば、提示情報を参加者に提示することで、関係性情報を参加者に認識させることができる。

前記提示情報には、前記第１の参加者の発話時間と、前記第２の参加者の発話時間との割合を示す情報、及び、前記第１の参加者の視線方向と、前記第２の参加者の視線方向との合致率の経時変化に関する情報が含まれている。

これによれば、提示情報を参加者に提示することで、各参加者の発話時間の割合、及び、各参加者の視線方向の合致率の経時変化を参加者に認識させることができる。

前記一態様に係る情報処理装置において、前記表情関係性情報生成部、及び前記発話関係性情報生成部は、前記第１及び第２の参加者の属性を示す参加者情報を更に参照して、前記表情関係性情報及び前記発話関係性情報を生成する。

これによれば、表情関係性情報及び発話関係性情報の生成に参加者の属性も参照するので、より正確な表情関係性情報及び発話関係性情報を生成することができる。

また、前記課題を解決するために、本発明の一態様に係る情報処理方法は、複数の参加者のうち第１の参加者の表情に関する第１の表情情報と、前記複数の参加者のうち第２の参加者の表情に関する第２の表情情報とを取得する表情情報取得ステップと、当該第１の参加者の発話に関する第１の発話情報と、前記複数の参加者のうち第２の参加者の発話に関する第２の発話情報とを取得する音声情報取得ステップと、前記第１の表情情報と前記第２の表情情報とを参照して、前記第１の参加者と前記第２の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、前記第１の発話情報と前記第２の発話情報とを参照して、前記第１の参加者と前記第２の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、前記表情関係性情報と前記発話関係性情報とを参照して前記第１の参加者と前記第２の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、を含む、ことを特徴としている。

これによれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。

また、前記課題を解決するために、本発明の一態様に係る情報処理プログラムは、前記何れかに記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、前記表情情報取得部、前記音声情報取得部、前記表情関係性情報生成部、前記発話関係性情報生成部、及び前記関係性情報生成部としてコンピュータを機能させる。

本発明の一態様によれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。

本発明の一実施形態に係る情報処理装置を含む情報処理システムの構成要素の一例を示すブロック図である。本発明の一実施形態に係る情報処理装置を含む情報処理システムの概要を示す図である。本発明の一実施形態に係る情報処理装置を含む情報処理システムにおけるデータの流れの概要を示す図である。本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の一例を示す図である。本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の他の例を示す図である。

［実施形態１］
以下、本発明の一実施形態について、詳細に説明する。図１は、本実施形態の情報処理装置１０を含む情報処理システム１００の概要を示す図である。図１に示すように、情報処理システム１００は、情報処理装置１０、第１の端末装置２０、及び第２の端末装置３０を備えている。なお端末装置の数は、本実施形態を限定するものではなく、３以上であってもよい。

図２は、本発明の一実施形態に係る情報処理装置１０を含む情報処理システム１００の概要を示す図である。情報処理システム１００においては、図２に示すように、第１の端末装置２０を使用する第１の参加者２００と、第２の端末装置３０を使用する第２の参加者２０１との間の関係性を評価する。

情報処理システム１００においては、第１の端末装置２０及び第２の端末装置３０から得られる第１の参加者２００及び第２の参加者２０１の会議中の表情情報及び発話情報を元に、情報処理装置１０が第１の参加者２００と第２の参加者２０１との会議中の関係性を評価する。情報処理システム１００は、関係性を評価した結果を、第１の端末装置２０及び第２の端末装置３０の少なくとも一方に表示させることで、第１の参加者２００及び第２の参加者２０１の少なくとも一方に評価結果をリアルタイムでフィードバックし、会議中のコミュニケーション状態の改善を促す。

なお、本実実施形態において、「会議」とは、狭義の意味の会議に限定されるものではなく、面談、面接、カウンセリング、問診、接客、接見、相談等が含まれる。一例として、
・上司と部下との面談
・医師による患者への問診
・カウンセラーによる対象者へのカウンセリング
・客に対する店員の接客や窓口相談
・ＷｅｂＭｅｅｔｉｎｇ等の遠隔でのコミュニケーション
・ｅ－Ｌｅａｒｎｉｎｇ等の対ビデオ画像に対するコミュニケーション
等が含まれる。

また、図３は、情報処理システム１００におけるデータの流れの概要を示す図である。

〔第１の端末装置２０〕
図１に示すように、第１の端末装置２０は、カメラ２１、マイク２２、表示部２３、制御部２４、スピーカ２５、及び通信部２６を備えている。

＜動画取得処理＞
カメラ２１は、第１の参加者を撮像し、撮像画像を制御部２４に供給する。ここで、カメラ２１による撮像画像は、動画像であることが好ましく、当該構成の場合、図３に示すように、カメラ２１は、制御部２４に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ２１は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部２４に供給する。

なお、第１の端末装置２０は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部２４は、カメラデバイス識別情報を参照することによって、カメラ２１を特定することができる。

＜画像認識処理＞
制御部２４は、カメラ２１から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。

一例として、図３に示すように、制御部２４は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第１の参加者の表情に関する第１の表情情報の一例である。

＜音声取得処理＞
マイク２２は、主として、第１の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部２４に供給する。

なお、第１の端末装置２０は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部２４は、音声デバイス識別情報を参照することによって、マイク２２を特定することができる。

＜発話認識処理＞
制御部２４は、マイク２２から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。

一例として、図３に示すように、制御部２４は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第１の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第１の参加者の発話を示す第１の発話情報の一例である。

〔第２の端末装置３０〕
また、第２の端末装置３０は、カメラ３１、マイク３２、表示部３３、制御部３４、スピーカ３５、及び通信部３６を備えている。

＜動画取得処理＞
カメラ３１は、第２の参加者を撮像し、撮像画像を制御部３４に供給する。ここで、カメラ３１による撮像画像は、動画像であることが好ましく、当該構成の場合、図３に示すように、カメラ３１は、制御部３４に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ３１は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部３４に供給する。

なお、第２の端末装置３０は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部３４は、カメラデバイス識別情報を参照することによって、カメラ３１を特定することができる。

＜画像認識処理＞
制御部３４は、カメラ３１から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。

一例として、図３に示すように、制御部３４は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第２の参加者の表情に関する第２の表情情報の一例である。

＜音声取得処理＞
マイク３２は、主として、第２の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部３４に供給する。

なお、第２の端末装置３０は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部３４は、音声デバイス識別情報を参照することによって、マイク３２を特定することができる。

＜発話認識処理＞
制御部３４は、マイク３２から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。

一例として、図３に示すように、制御部３４は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第２の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第２の参加者の発話を示す第２の発話情報の一例である。

〔情報処理装置１０〕
情報処理装置１０は、表情情報取得部１３、音声情報取得部１４、表情関係性情報生成部１５、発話関係性情報生成部１６、及び関係性情報生成部１７を備えている。情報処理装置１０は、さらに、通信部１１を備えている。表情情報取得部１３、音声情報取得部１４、表情関係性情報生成部１５、発話関係性情報生成部１６、関係性情報生成部１７は、演算部１２が備えている。

（表情情報取得部１３）
表情情報取得部１３は、通信部１１を介して複数の会議参加者のうち第１の参加者の表情に関する第１の表情情報と、複数の会議参加者のうち第２の参加者の表情に関する第２の表情情報とを取得する。

＜数値データ洗浄処理＞
表情情報取得部１３は、一例として、通信部１１を介して、第１の参加者に関する表情情報に含まれる時系列数値データである時系列表情値、時系列顔パーツ座標、及び時系列視線座標を参照し、当該時系列数値データに対して、一例として以下の処理を行うことによって、数値データ洗浄処理を行う。
・無効データ区間を削除する
・有効データ区間におけるデータを平均する
・分散及び項数に変換する
表情情報取得部１３は、上述の数値データ洗浄処理を行うことによって、第１の参加者に関する区間時系列数値データを生成する。当該区間時系列数値データは、有効区間における時系列表情値、時系列顔パーツ座標、及び時系列視線座標を含んでいる。

表情情報取得部１３は、第２の参加者に関する表情情報についても同様の処理を行い、第２の参加者に関する区間時系列数値データを生成する。

＜表情の検出＞
表情情報取得部１３は、第１の参加者に関する区間時系列数値データを参照して、第１の参加者の表情を表現する複数の第１の指標を算出する。また、表情情報取得部１３は、第２の参加者に関する区間時系列数値データを参照して、第２の参加者の表情を表現する複数の第２の指標を算出する。

ここで、表情を表現する指標の例には、以下の指標が挙げられる。
・怒り（anger）
・侮辱（contempt）
・嫌悪（disgust）
・恐怖（fear）
・喜び（happiness）
・中立（neutral）
・悲しみ（sadness）
・驚き（surprise）
したがって、表情を表現する指標とは、当該表情が示す感情を表現する指標ということもできる。

なお、表情情報取得部１３は、第１の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第１の参加者の表情を表現する複数の第１の指標として用いてもよい。同様に、表情情報取得部１３は、第２の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第２の参加者の表情を表現する複数の第２の指標として用いてもよい。

また、第１の参加者の表情及び第２の参加者の表情は、上記の指標を各成分とするベクトルとして表現することもできる。こられのベクトルを、表情ベクトルと呼ぶこともある。

なお、各参加者の表情を検出する技術及び検出した表情が示す感情を指標化して表現する技術は、本実施形態を限定するものではなく、例えば、公知の技術を用いることができる。

＜視線の検出＞
また、表情情報取得部１３は、通信部１１を介して、第１の端末装置２０及び第２の端末装置３０から、第１の参加者及び第２の参加者の視線方向に関する情報を取得する。具体的には、一例として、表情情報取得部１３は、第１の参加者の視線方向に関する情報として、上述した第１の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。同様に、表情情報取得部１３は、第２の参加者の視線方向に関する情報として、上述した第２の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。

なお、視線座標の取得方法としては、特に限定されないが、第１の端末装置２０及び第２の端末装置３０に、点光源（不図示）を設け、点光源からの光の角膜反射像をカメラ２１及びカメラ３１で所定時間撮影することにより、ユーザの視線座標を取得する方法が挙げられる。点光源の種類は特に限定されず、可視光、赤外光が挙げられるが、例えば赤外線ＬＥＤを用いることで、ユーザに不快感を与えることなく、視線座標を取得することができる。

＜距離の検出＞
また、表情情報取得部１３は、当該区間時系列数値データに含まれる第１の参加者の時系列顔パーツ座標を取得し、第１の参加者と撮像手段（カメラ２１）との間の距離を算出してもよい。また、表情情報取得部１３は、当該区間時系列数値データに含まれる第２の参加者の時系列顔パーツ座標を取得し、第２の参加者と撮像手段（カメラ３１）との間の距離を算出してもよい。参加者と撮像手段との間の距離は、例えば、顔パーツ座標から得られる撮像画像中の顔の目尻距離を顔角度補正したものを目尻距離とし、この目尻距離の逆数として算出することができる。

（音声情報取得部１４）
音声情報取得部１４は、第１の参加者の発話に関する第１の発話情報と、複数の会議参加者のうち第２の参加者の発話に関する第２の発話情報とを取得する。すなわち、音声情報取得部１４は、通信部１１を介して、第１の端末装置２０及び第２の端末装置３０から第１の参加者及び第２の参加者の発話に関する情報を取得する。

音声情報取得部１４は、一例として、上述した第１の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。同様に、音声情報取得部１４は、一例として、上述した第２の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。

また、一例として、音声情報取得部１４は、第１の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部１４は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第１の参加者の口が開いていれば、当該時系列発話テキストを第１の参加者の発話に関する第１の発話情報に含める。同様に、音声情報取得部１４は、第２の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部１４は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第２の参加者の口が開いていれば、当該時系列発話テキストを第２の参加者の発話に関する第２の発話情報に含める。これにより、マイク２２又はマイク３２として、指向性の無い簡易なマイクを用いた場合でも、発話した人物を特定できる。

（表情関係性情報生成部１５）
表情関係性情報生成部１５は、第１の表情情報と第２の表情情報とを参照して、第１の参加者と第２の参加者との表情に関する関係性を示す表情関係性情報を生成する。

会議参加者の会議に対する満足度は、会議の内容及び結論のみならず、参加者間の良好なコミュニケーションの有無にも依存する。参加者間のコミュニケーション状態は、会議中の参加者間の関係性により表され、参加者間の関係性は感情の一致度により評価することができる。表情関係性情報生成部１５は、表情情報取得部１３から第１の表情情報及び第２の表情情報を取得し、これらの表情情報を元に、会議中の参加者間の感情の一致度を参加者双方の表情から評価することで、参加者間のコミュニケーション状態をリアルタイムで評価する。

表情関係性情報生成部１５が表情情報取得部１３から取得するそれぞれの表情情報は、区間時系列数値データを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な表情に関する情報に基づいて算出されたものである。表情関係性情報生成部１５は、各参加者のリアルタイム又は経時的な表情情報を元に、表情関係性情報を生成するので、生成された表情関係性情報は、参加者間のリアルタイム又は経時的な表情に関する関係性を表している。

＜表情一致率判定＞
上述のように、第１の表情情報には、第１の参加者の表情を表現する複数の第１の指標が含まれており、第２の表情情報には、第２の参加者の表情を表現する複数の第２の指標が含まれている。

表情関係性情報生成部１５は、第１の指標と第２の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、表情関係性情報に含めてもよい。

一例として、表情関係性情報生成部１５は、第１の参加者の表情を表現する複数の指標を要素とする第１の表情ベクトルと、第２の参加者の表情を表現する複数の指標を要素とする第２の表情ベクトルとの差の絶対値を用いて、表情不一致量を算出する。算出された表情不一致量は、参加者間の会議中の感情の融和状態を表す指標とも言える。また、表情関係性情報生成部１５は、会議開始から現時点までに、表情が一致した割合を示す指標として表情一致率を算出してもよい。表情一致率は、例えば、会議開始から現時点までの時間から表情が不一致であった時間を引いて、会議開始から現時点までの時間で除算することによって得られる。

＜視線合致率判定＞
また、第１の表情情報が、第１の参加者の視線方向に関する第１の視線情報を含む構成とし、第２の表情情報が、第２の参加者の視線方向に関する第２の視線情報を含む構成としてもよい。表情関係性情報生成部１５は、第１の視線情報と第２の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、表情関係性情報に含めてもよい。

一例として、表情関係性情報生成部１５は、視線関係性情報として、第１の参加者と第２の参加者との視線合致率を算出する。算出された視線合致率は、会議中に他の参加者の様子を気にかけている状態を表す指標とも言える。より具体的には、まず、制御部２４又は表情関係性情報生成部１５が、カメラ２１の撮像画像を解析することにより、会議室における第１の参加者の目の位置を特定し、制御部３４又は表情関係性情報生成部１５が、カメラ３１の撮像画像を解析することにより、会議室における第２の参加者の目の位置を特定する。

そして、表情関係性情報生成部１５は、各時点において、第１の視線情報が示す第１の参加者の視線方向が、第２の参加者の目に向かっているか否かを判定し、第２の視線情報が示す第２の参加者の視線方向が、第１の参加者の目に向かっているか否かを判定することにより、各時点において、第１の参加者の視線と第２の参加者の視線とが合致しているかを判定する。

一例として、表情関係性情報生成部１５は、第１の参加者の視線が第２の参加者の目に向かっていると判定した場合に、第１の参加者の視線フラグを１に設定する。また、表情関係性情報生成部１５は、第２の参加者の視線が第１の参加者の目に向かっていると判定した場合に、第２の参加者の視線フラグを１に設定する。そして、表情関係性情報生成部１５は、双方の視線フラグが共に１である場合に、視線が合致していると判定する。

そして、表情関係性情報生成部１５は、会議開始から現時点までに、視線が合致した割合を示す指標として視線合致率を算出する。視線合致率は、例えば、視線が合致した時間を、会議開始から現時点までの時間で除算することによって得られる。

なお、視線が互いの目に向かっているか否かの判定には、第１の端末装置２０と第２の端末装置３０との相対的な位置関係を示す位置情報を更に参照する構成としてもよい。

また、互いの視線が必ずしも相手の目ではなく、相手の顔又は相手の身体の方向を向いている場合に、視線が合致していると判定する構成としてもよい。

また、参加者がインターネット等を介して会議する場合には、端末装置の画面を通した参加者間の視線合致率を算出する。より具体的には、一例として、第１の端末装置２０の表示画面に表示される第２の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第１の参加者の視線が向けられている場合に、第１の参加者の視線フラグを１に設定する。同様に、第２の端末装置３０の表示画面に表示される第１の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第２の参加者の視線が向けられている場合に、第２の参加者の視線フラグを１に設定する。

＜前のめり率判定＞
また、表情関係性情報生成部１５は、第１の参加者と第２の参加者との前のめり率を算出し、算出した前のめり率を表情関係性情報に含めてもよい。算出された前のめり率は、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。一例として、表情関係性情報生成部１５は、第１の参加者及び第２の参加者の、それぞれの撮像手段からの距離が、予め設定された一定時間内においてしきい値よりも下回った場合に、第１の参加者及び第２の参加者が前のめり状態であると判定する。

そして、表情関係性情報生成部１５は、会議開始から現時点までの時間において、第１の参加者が前のめりになっている時間の割合を、第１の参加者に関する前のめり率として特定し、第２の参加者が前のめりになっている時間の割合を、第２の参加者に関する前のめり率として特定する。

また、表情関係性情報生成部１５は、第１の参加者及び第２の参加者それぞれの撮像手段からの距離を元に得られる顔画像サイズについて、予め設定された一定時間内の変化から会議中の参加者の姿勢を算出し、表情関係性情報に含めてもよい。算出された参加者の姿勢は、会議中に他の参加者の発話を聞くにふさわしい態度を表す指標とも言える。

さらに、表情関係性情報生成部１５は、第１の参加者の姿勢の変化と第２の参加者の第２の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。姿勢の変化と表情ベクトルの変化との相関は、一の参加者の姿勢が他の参加者の表情に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部１５は、第２の参加者の姿勢の変化と第１の参加者の第１の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。

また、表情関係性情報生成部１５は、第１の参加者の姿勢と第２の参加者の姿勢とを参照して、第１の参加者と第２の参加者との姿勢状態の類似度を算出し、算出した類似度を表情関係性情報に含めてもよい。姿勢状態の類似度は、ミラーリング状態を表しており、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。

なお、表情関係性情報生成部１５は、第１及び第２の参加者の属性を示す参加者情報を更に参照して、表情関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。

一例として、表情関係性情報生成部１５は、参加者情報を参照し、当該参加者が特定の表情が出やすいと判断した場合には、当該特定の表情に対応する指標に１より小さい重み係数を乗算する補正を行うことによって当該参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成してもよい。
例えば、第１の参加者の属性を示す参加者情報が、当該第１の参加者が内気であることを示している場合、表情関係性情報生成部１５は、「中立（neutral）」の指標に対して重み０．８を乗算し、残り０．２の重みを他の指標に比例配分する等の処理を行うことによって、当該第１の参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成する構成としてもよい。

情報処理装置１０は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、表情関係性情報生成部１５は、生体情報及び環境情報を更に参照して、表情関係性情報を生成してもよい。

一例として、表情関係性情報生成部１５は、第１の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第２の参加者の表情を表現する第２の指標を参照し、第１の参加者にストレスを与える第２の参加者の表情を推定する。そして、表情関係性情報生成部１５は、推定された第２の参加者の表情を、第１の参加者に対するＮＧ表情と認定し、その情報を表情関係性情報に含めてもよい。一の参加者の他の参加者に対するＮＧ表情は、一の参加者の表情が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部１５は、第２の参加者にストレスを与える第１の参加者の表情を推定し、第２の参加者に対するＮＧ表情を認定してもよい。

また、表情関係性情報生成部１５は、予め定められた一定期間内の、参加者の周囲の環境情報の変化と、第１の参加者の第１の表情ベクトル及び第２の参加者の第２の表情ベクトルの平均値の変化との相関を算出し、その相関を表情関係性情報に含めてもよい。環境情報の変化と表情ベクトルの平均値の変化との相関は、参加者の周囲の環境が参加者間のコミュニケーション状態に及ぼす影響を表す指標とも言える。

＜対話管理処理＞
表情関係性情報生成部１５は、一例として、通信部１１を介して、第１の参加者及び第２の参加者それぞれのユーザＩＤと、当該ユーザＩＤが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。表情関係性情報生成部１５は、一の参加者に関する区間時系列数値データのある時点のデータについて、その時点に対話している他の参加者のユーザＩＤを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を表情関係性情報に含めてもよい。

（発話関係性情報生成部１６）
発話関係性情報生成部１６は、第１の発話情報と第２の発話情報とを参照して、第１の参加者と第２の参加者との発話に関する関係性を示す発話関係性情報を生成する。発話関係性情報生成部１６は、音声情報取得部１４から第１の発話情報及び第２の発話情報を取得し、これらの発話情報を元に、会議中の参加者間の感情の一致度を参加者双方の発話から評価することで、参加者間のコミュニケーション状態を評価する。

発話関係性情報生成部１６が音声情報取得部１４から取得するそれぞれの発話情報は、区間時系列テキストデータを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な発話に関する情報に基づいて算出されたものである。発話関係性情報生成部１６は、各参加者のリアルタイム又は経時的な発話情報を元に、発話関係性情報を生成するので、生成された発話関係性情報は、参加者間のリアルタイム又は経時的な発話に関する関係性を表している。

＜発話比率判定＞
発話関係性情報生成部１６は、第１の発話情報が示す第１の参加者の発話時間と、第２の発話情報が示す第２の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、発話関係性情報に含めてもよい。

一例として、発話関係性情報生成部１６は予め定められた一定時間内の、第１の参加者の発話時間と第２の参加者の発話時間との発話比率を算出し、発話関係性情報に含める。算出された発話比率は、参加者間の関係の対等性を表す指標とも言える。

＜発話頻度判定＞
また、発話関係性情報生成部１６は、第１の発話情報及び第２の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含めてもよい。

発話内容に含まれる特定のカテゴリーの例には、オープンクエスチョン、行動促しワード（それで？、なるほど、確かに）、オウム返し、発話の遮り、発話の被り、否定ワード（でも、だけど）が含まれる。一例として、発話関係性情報生成部１６は、予め定められた一定時間内における、このような特定のカテゴリーに含まれる発話内容が発話された頻度を算出し、算出した頻度に関する情報を発話関係性情報に含める。

具体的には、一例として、発話内容に含まれる特定カテゴリーをオープンクエスチョンと設定し、発話関係性情報生成部１６は、第１の参加者の区間時系列テキストデータから、一定時間内に含まれるオープンクエスチョンを表すテキストデータを抽出する。そして、発話関係性情報生成部１６は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、オープンクエスチョンが発話された頻度をオープン質問率として算出する。同様に、発話関係性情報生成部１６は、第２の参加者の区間時系列テキストデータから、オープン質問率を算出する。そして、発話関係性情報生成部１６は、第１の参加者のオープン質問率と第２の参加者のオープン質問率とを比較して、オープン質問比率を算出し、発話関係性情報に含める。算出されたオープン質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部１６は、第１の参加者のオープン質問率及び第２の参加者のオープン質問率を、発話関係性情報に含めてもよい。

同様に、発話内容に含まれる特定カテゴリーを行動促しワードと設定し、発話関係性情報生成部１６は、第１の参加者の区間時系列テキストデータから、一定時間内に含まれる行動促しワードを表すテキストデータを抽出する。そして、発話関係性情報生成部１６は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、行動促しワードが発話された頻度を促し質問率として算出する。
同様に、発話関係性情報生成部１６は、第２の参加者の区間時系列テキストデータから、促し質問率を算出する。そして、発話関係性情報生成部１６は、第１の参加者の促し質問率と第２の参加者の促し質問率とを比較して、促し質問比率を算出し、発話関係性情報に含める。算出された促し質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部１６は、第１の参加者の促し質問率及び第２の参加者の促し質問率を、発話関係性情報に含めてもよい。

＜単語に基づく評価＞
また、発話関係性情報生成部１６は、第１の発話情報及び第２の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を発話関係性情報に含めてもよい。

一例として、発話関係性情報生成部１６は、第１の参加者及び第２の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる各単語の出現数を参加者毎に算出して順位付けし、相対的に出現頻度の高い単語を上位から複数抽出する。そして、発話関係性情報生成部１６は、抽出した出現頻度の上位の単語を頻出単語として発話関係性情報に含める。また、発話関係性情報生成部１６は、第１の参加者及び第２の参加者のそれぞれの頻出単語及びその順位が一致しているかを判定し、その判定結果を発話関係性情報に含めてもよい。

また、発話関係性情報生成部１６は、第１の参加者及び第２の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる単語を参加者毎に抽出し、抽出された単語の一致率を算出して、発話関係性情報に含めてもよい。単語の一致率は、予め定められた一定時間内の区間時系列テキストデータに含まれる全単語中における、第１の参加者と第２の参加者とで一致した単語の比率として算出することができる。算出された単語の一致率は、オウム返しができているかの指標とも言える。

また、発話関係性情報生成部１６は、第１の参加者及び第２の参加者のそれぞれの区間時系列テキストデータから発話タイミングを抽出し、発話タイミングの時間的なオーバーラップを算出してもよい。そして、発話関係性情報生成部１６は、予め定められた一定時間内のオーバーラップの回数をオーバーラップ頻度として算出し、発話関係性情報に含めてもよい。算出したオーバーラップ頻度は、他の参加者の発話をさえぎる頻度を表す指標とも言える。

さらに、発話関係性情報生成部１６は、第１及び第２の参加者の属性を示す参加者情報を更に参照して、発話関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。

情報処理装置１０は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、発話関係性情報生成部１６は、生体情報及び環境情報を更に参照して、発話関係性情報を生成してもよい。

また、一例として、発話関係性情報生成部１６は、第１の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第２の参加者の区間時系列テキストデータとを参照し、第１の参加者にストレスを与える第２の参加者のテキストデータを推定する。そして、発話関係性情報生成部１６は、推定された第２の参加者のテキストデータを、第１の参加者に対するＮＧワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対するＮＧワードは、一の参加者の発言が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部１６は、第２の参加者にストレスを与える第１の参加者のテキストデータを推定し、第２の参加者に対するＮＧワードを認定してもよい。

また、一例として、発話関係性情報生成部１６は、第１の参加者の脳波から判定した参加者の思考の活性度と、その直前又はその時点における第２の参加者の区間時系列テキストデータとを参照し、第１の参加者の思考を活性化させる第２の参加者のテキストデータを推定する。そして、発話関係性情報生成部１６は、推定された第２の参加者のテキストデータを、第１の参加者に対する重要ワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対する重要ワードは、一の参加者の発言が他の参加者の思考の活性化に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部１６は、第２の参加者の思考を活性化する第１の参加者のテキストデータを推定し、第２の参加者に対する重要ワードを認定してもよい。

また、発話関係性情報生成部１６は、参加者間の声のトーンの一致度、発話スピードの一致度、音量の一致度等を算出してもよい。

さらに、発話関係性情報生成部１６は、蓄積された区間時系列テキストデータから、第１の参加者及び第２の参加者それぞれの発話を表すログを抽出し、その形態素解析データを取得して、過去の発話中の頻出単語をリストアップし、発話関係性情報に含めてもよい。過去の発話中の頻出単語は、会議中の参加者双方に提示することで、会議のテーマ決定を支援するために利用され得る。

＜対話管理処理＞
発話関係性情報生成部１６は、一例として、通信部１１を介して、第１の参加者及び第２の参加者それぞれのユーザＩＤと、当該ユーザＩＤが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。発話関係性情報生成部１６は、一の参加者に関する区間時系列テキストデータのある時点のデータについて、その時点に対話している他の参加者のユーザＩＤを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を発話関係性情報に含めてもよい。

（関係性情報生成部１７）
関係性情報生成部１７は、表情関係性情報と前記発話関係性情報とを参照して前記第１の参加者と前記第２の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する。会議中の参加者双方の表情及び発話の両方を評価することで、参加者間のコミュニケーション状態をより詳細に評価することができる。また、関係性情報生成部１７は、参加者間のリアルタイム又は経時的な表情情報及び発話情報を元に関係性情報を生成するので、参加者間のリアルタイム又は経時的なコミュニケーション状態を評価することができる。

関係性情報生成部１７は、第１の参加者及び第２の参加者の少なくとも何れかに提示する提示情報を生成してもよい。提示情報には、表情関係性情報と発話関係性情報とに基づき総合的に評価した参加者双方の感情の一致度等が含まれていてもよい（例えば、視線合致率が高く、発話比率が対等であれば感情の一致度を高くする等）。

関係性情報生成部１７が生成した提示情報を参加者に提示することで、参加者間の関係性を参加者にフィードバックすることができる。提示情報をリアルタイムで参加者に提示すれば、会話中にリアルタイムで関係性を確認することができるので、リアルタイムでコミュニケーションの改善を促すことも可能である。

提示情報は、第１の参加者及び第２の参加者の双方に提示するものであってもよいし、いずれか一方に提示するものであってもよい。また、関係性情報は、第１の参加者及び第２の参加者に同じ内容を提示するものであってもよいし、異なる内容を提示するものであってもよい。第１の参加者及び第２の参加者に同じ内容を提示する関係性情報を生成することで、参加者間のフラットな関係性の構築が期待できる。また、提示情報を参加者自身が選択できるようになっていてもよいし、ルール又は参加者間の合意により提示される提示情報が変更されてもよい。

関係性情報には、第１の参加者の発話時間と、第２の参加者の発話時間との割合を示す情報、及び、第１の参加者の視線方向と、第２の参加者の視線方向との合致率の経時変化に関する情報が含まれていてもよい。また、関係性情報には、表情一致率又は表情不一致率の経時変化、前のめり率、発話内容のテキスト、頻出単語等に関する情報が含まれていてもよい。さらに、関係性情報には、参加者のＩＤ、参加者自身の顔画像、他の参加者の表情を表すアバター画像、発話内容に基づき蓄積データから抽出した推奨議題又は推奨ワードの表示等が含まれていてもよい。

また、提示情報に、会議参加者のコミュニケーションスキルを向上させるための評価結果を含めてもよい。一例として、表情一致率と共に、表情一致率を高めることで反射的傾聴スキルが向上させることを促す情報を提示したり、視線合致率と共に、視線合致率を高めることでコミュニケーションに適した姿勢、態度を取るように促す情報を提示したりしてもよい。また、推奨するワードや質問内容を提示して、対話レベル及び質問レベルの控除を促してもよい。

提示情報を提示する方法は、具体的には、一例として、会議参加者の表示部（表示部２３及び表示部３３のそれぞれ）に表示する方法、会議参加者全員が視認できる共通の表示部に表示する方法、ネットワーク配信等により会議参加者以外にも提示する方法、腕時計型デバイスのようなウェアラブルデバイスからの物理的な作用（振動、電気刺激等）により提示する方法、環境設備（証明、空調、音楽等）からの物理的な作用（議論が白熱した場合に部屋を赤く照らす等）により提示する方法、感情を表す指標に対応した画像イメージ（怒りを表す火山の噴火等）により提示する方法、感情を表す指標に対応したアバターの表情により提示する方法等が挙げられる。

図４及び５を参照して、表示部２３及び表示部３３の少なくとも一方に提示情報を提示される画面例を説明する。図４は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の一例を示す図であり、図５は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の他の例を示す図である。

図４に示すように、画面４００において、領域４０１に会議参加者のユーザＩＤを表示し、領域４０２に会議参加者の顔画像を表示して、提示情報を提示する対象を特定する。領域４０３に発話比率をトーク比率として、例えば円グラフで表示し、領域４０４に対話中の参加者の感情を表す指標に対応したアバターの表情を表示し、また、領域４０５に表情一致率の経時変化をグラフで表示することで、会議中にコミュニケーションの状態の現状を瞬時に確認できるようにする。また、領域４０６に、発話内容を表すテキストをＴａｌｋＳｔｒｅａｍとして表示し、また、会議中に推奨される会話テーマや単語を表示する。領域４０５に表示する表情一致率は、表情関係性情報について、過去から現在までの経時的な情報に基づき生成された提示情報の例である。領域４０４に表示するアバターの表情は、表情関係性情報について、リアルタイムの情報に基づき生成された提示情報の例である。

また、図５に示すように、画面５００において、画面４００と同様に、領域５０１にユーザＩＤを表示し、領域５０２に顔画像を表示し、領域５０３にトーク比率を表示し、領域５０４にアバター表情を表示し、領域５０５に発話内容及び推奨テーマ等を表示すると共に、領域５０５に、表情一致率ではなく視線合致率を表示してもよい。

＜付記事項１＞
端末装置の制御部における処理の一部又は全部を、情報処理装置１０の備える演算部１２において行う構成としてもよい。例えば、演算部１２が、通信部１１を介して、カメラ２１の撮像画像を取得し、表情情報取得部１３において、第１の参加者の表情に関する第１の表情情報、及び、第２の参加者の表情に関する第２の表情情報を生成する構成としてもよい。

＜付記事項２＞
また、上記の例では、第１の参加者及び第２の参加者の２名による会議を例にしたが、本実施形態はこれに限定されるものではない。当然、Ｎ名（Ｎは３以上）による会議に対しても本明細書に記載の発明を適用することができる。その場合、Ｎ名中の任意の２人のペアに対して、本明細書に記載の構成を個別に適用することができる。例えば、３名（Ａ、Ｂ、Ｃ）による会議に対しては、（Ａ、Ｂ）（Ａ、Ｃ）（Ｂ、Ｃ）の３組に対して本明細書に記載の発明を個別に適用することができる。
このように、本実施形態に記載の発明は、Ｎ人の状態を表すデータ，Ｎ人の状態の履歴データおよびＮ人の環境情報を用いて、当該Ｎ人の内の一部又は全部の参加者間の関係を示す「関係性情報」を生成するものであると表現することもできる。
＜付記事項３＞
また、上記の例では、第１の参加者及び第２の参加者が共に人間である場合を例に挙げたが、これは本実施形態を限定するものではない。
例えば、第２の参加者は、人間ではなく、予め設定されたアバターやＢＯＴのようにコンピュータによって表現される疑似的な人間であってもよい。このような構成の場合、第２の端末装置は、必須ではなく、表情情報取得部１３及び音声情報取得部１４は、予め作成された当該ＢＯＴが表す表情及び発話内容を、第２の参加者の表情情報及び音声情報として取得する構成とすればよい。
なお、ＢＯＴが表す表情及び発話内容は、会議前に事前に作成されたデータを用いてもよいし、会議中の第１の参加者の表情や発話に応じて適応的に変更される構成としてもよい。

〔ソフトウェアによる実現例〕
情報処理装置１の制御ブロック（特に演算部１２）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、情報処理装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１００情報処理システム
１０情報処理装置
２０第１の端末装置
３０第２の端末装置
１３表情情報取得部
１４音声情報取得部
１５表情関係性情報生成部
１６発話関係性情報生成部
１７関係性情報生成部

Claims

複数の参加者のうち第１の参加者の表情に関する第１の表情情報と、前記複数の参加者のうち第２の参加者の表情に関する第２の表情情報とを取得する表情情報取得部と、
当該第１の参加者の発話に関する第１の発話情報と、前記複数の参加者のうち第２の参加者の発話に関する第２の発話情報とを取得する音声情報取得部と、
前記第１の表情情報と前記第２の表情情報とを参照して、前記第１の参加者と前記第２の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、
前記第１の発話情報と前記第２の発話情報とを参照して、前記第１の参加者と前記第２の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、
前記表情関係性情報と前記発話関係性情報とを参照して前記第１の参加者と前記第２の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、
を備えていることを特徴とする情報処理装置。
前記関係性情報は、前記第１の参加者と前記第２の参加者との関係を示すリアルタイム又は経時的な情報である
ことを特徴とする請求項１に記載の情報処理装置。
前記第１の表情情報には、前記第１の参加者の表情を表現する複数の第１の指標が含まれており、
前記第２の表情情報には、前記第２の参加者の表情を表現する複数の第２の指標が含まれており、
前記表情関係性情報生成部は、前記第１の指標と前記第２の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記第１の表情情報には、前記第１の参加者の視線方向に関する第１の視線情報が含まれており、
前記第２の表情情報には、前記第２の参加者の視線方向に関する第２の視線情報が含まれており、
前記表情関係性情報生成部は、前記第１の視線情報と前記第２の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める
ことを特徴とする請求項１から３の何れか１項に記載の情報処理装置。
前記発話関係性情報生成部は、
前記第１の発話情報が示す前記第１の参加者の発話時間と、前記第２の発話情報が示す前記第２の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める
ことを特徴とする請求項１から４の何れか１項に記載の情報処理装置。
前記発話関係性情報生成部は、
前記第１の発話情報及び前記第２の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める
ことを特徴とする請求項１から５の何れか１項に記載の情報処理装置。
前記発話関係性情報生成部は、
前記第１の発話情報及び前記第２の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含めることを特徴とする請求項１から６の何れか１項に記載の情報処理装置。
前記関係性情報生成部は、前記関係性情報を参照して、前記第１の参加者及び前記第２の参加者の少なくとも何れかに提示する提示情報を生成する
ことを特徴とする請求項１から７の何れか１項に記載の情報処理装置。
前記提示情報には、
前記第１の参加者の発話時間と、前記第２の参加者の発話時間との割合を示す情報、
及び、
前記第１の参加者の視線方向と、前記第２の参加者の視線方向との合致率の経時変化に関する情報
が含まれている
ことを特徴とする請求項８に記載の情報処理装置。
前記表情関係性情報生成部、及び前記発話関係性情報生成部は、前記第１及び第２の参加者の属性を示す参加者情報を更に参照して、前記表情関係性情報及び前記発話関係性情報を生成する
ことを特徴とする請求項１から９の何れか１項に記載の情報処理装置。
ソフトウェアの制御によってコンピュータが行う情報処理方法であって、
複数の参加者のうち第１の参加者の表情に関する第１の表情情報と、前記複数の参加者のうち第２の参加者の表情に関する第２の表情情報とを取得する表情情報取得ステップと、
当該第１の参加者の発話に関する第１の発話情報と、前記複数の参加者のうち第２の参加者の発話に関する第２の発話情報とを取得する音声情報取得ステップと、
前記第１の表情情報と前記第２の表情情報とを参照して、前記第１の参加者と前記第２の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、
前記第１の発話情報と前記第２の発話情報とを参照して、前記第１の参加者と前記第２の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、
前記表情関係性情報と前記発話関係性情報とを参照して前記第１の参加者と前記第２の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、
を前記コンピュータが行うことを特徴とする情報処理方法。
請求項１～１０の何れか１項に記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、前記表情情報取得部、前記音声情報取得部、前記表情関係性情報生成部、前記発話関係性情報生成部、及び前記関係性情報生成部としてコンピュータを機能させるための情報処理プログラム。