JP7036046B2 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP7036046B2
JP7036046B2 JP2019005363A JP2019005363A JP7036046B2 JP 7036046 B2 JP7036046 B2 JP 7036046B2 JP 2019005363 A JP2019005363 A JP 2019005363A JP 2019005363 A JP2019005363 A JP 2019005363A JP 7036046 B2 JP7036046 B2 JP 7036046B2
Authority
JP
Japan
Prior art keywords
information
participant
utterance
relationship
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019005363A
Other languages
English (en)
Other versions
JP2020113197A (ja
Inventor
慎 江上
一希 笠井
純一 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2019005363A priority Critical patent/JP7036046B2/ja
Priority to PCT/JP2019/009523 priority patent/WO2020148920A1/ja
Publication of JP2020113197A publication Critical patent/JP2020113197A/ja
Application granted granted Critical
Publication of JP7036046B2 publication Critical patent/JP7036046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
ユーザ間の円滑なコミュニケーションを支援するサービスが従来技術として知られている。特許文献1には、コールセンターのオペレータと顧客との会話における音声に基づいて感情を認識し、音声と感情とを組み合わせて音声分析することで、オペレータのパフォーマンスを評価する電話音声モニタリング評価システムが記載されている。特許文献2には、ユーザが入力したチャット文が示す感情を認識し、ユーザ間の感情の類似度を求める感情マッチング装置が記載されている。
特開2017-135642号公報(2017年8月3日公開) 特開2005-284822号公報(2005年10月13日公開)
しかしながら、上述のような従来技術は、会話における音声のみに基づいて、又は、入力されたチャット文のみに基づいて、話者の感情を認識するため、多面的な感情認識ができないという問題がある。
本発明の一態様は、会話中の各ユーザの感情を多面的に認識し、認識された感情に基づく会話の評価を通知するコミュニケーション支援技術を提供することを目的とする。
前記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得部と、当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得部と、前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、を備えていることを特徴としている。
これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性を評価することができる。
前記一態様に係る情報処理装置において、前記関係性情報は、前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である。
これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性をリアルタイムで評価することができる。
前記一態様に係る情報処理装置において、前記第1の表情情報には、前記第1の参加者の表情を表現する複数の第1の指標が含まれており、前記第2の表情情報には、前記第2の参加者の表情を表現する複数の第2の指標が含まれており、前記表情関係性情報生成部は、前記第1の指標と前記第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める。
これによれば、表情関係性情報を生成するために参照する参加者の表情を表現するために複数の指標を用いるため、より正確に参加者の表情を表現することができる。
前記一態様に係る情報処理装置において、前記第1の表情情報には、前記第1の参加者の視線方向に関する第1の視線情報が含まれており、前記第2の表情情報には、前記第2の参加者の視線方向に関する第2の視線情報が含まれており、前記表情関係性情報生成部は、前記第1の視線情報と前記第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める。
これによれば、表情関係性情報を生成するために参照する参加者の表情情報に参加者の視線情報も含むため、より正確に参加者の表情を表現することができる。
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報が示す前記第1の参加者の発話時間と、前記第2の発話情報が示す前記第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める。
これによれば、発話関係性情報を生成するために参照する参加者の発話情報に発話時間関係性情報も含むため、より正確に参加者の発話関係性情報を生成することができる。
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報及び前記第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める。
これによれば、発話関係性情報に特定のカテゴリーに含まれる発話内容が含まれているか否かの判定結果に応じた情報も含むため、より正確に参加者間の関係性情報を生成することができる。
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報及び前記第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含める。
これによれば、発話関係性情報に頻度の高い単語の上方も含むため、より正確に参加者間の関係性情報を生成することができる。
前記一態様に係る情報処理装置において、前記関係性情報生成部は、前記関係性情報を参照して、前記第1の参加者及び前記第2の参加者の少なくとも何れかに提示する提示情報を生成する。
これによれば、提示情報を参加者に提示することで、関係性情報を参加者に認識させることができる。
前記提示情報には、前記第1の参加者の発話時間と、前記第2の参加者の発話時間との割合を示す情報、及び、前記第1の参加者の視線方向と、前記第2の参加者の視線方向との合致率の経時変化に関する情報が含まれている。
これによれば、提示情報を参加者に提示することで、各参加者の発話時間の割合、及び、各参加者の視線方向の合致率の経時変化を参加者に認識させることができる。
前記一態様に係る情報処理装置において、前記表情関係性情報生成部、及び前記発話関係性情報生成部は、前記第1及び第2の参加者の属性を示す参加者情報を更に参照して、前記表情関係性情報及び前記発話関係性情報を生成する。
これによれば、表情関係性情報及び発話関係性情報の生成に参加者の属性も参照するので、より正確な表情関係性情報及び発話関係性情報を生成することができる。
また、前記課題を解決するために、本発明の一態様に係る情報処理方法は、複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得ステップと、当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得ステップと、前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、を含む、ことを特徴としている。
これによれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。
また、前記課題を解決するために、本発明の一態様に係る情報処理プログラムは、前記何れかに記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、前記表情情報取得部、前記音声情報取得部、前記表情関係性情報生成部、前記発話関係性情報生成部、及び前記関係性情報生成部としてコンピュータを機能させる。
これによれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。
本発明の一態様によれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。
本発明の一実施形態に係る情報処理装置を含む情報処理システムの構成要素の一例を示すブロック図である。 本発明の一実施形態に係る情報処理装置を含む情報処理システムの概要を示す図である。 本発明の一実施形態に係る情報処理装置を含む情報処理システムにおけるデータの流れの概要を示す図である。 本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の一例を示す図である。 本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の他の例を示す図である。
[実施形態1]
以下、本発明の一実施形態について、詳細に説明する。図1は、本実施形態の情報処理装置10を含む情報処理システム100の概要を示す図である。図1に示すように、情報処理システム100は、情報処理装置10、第1の端末装置20、及び第2の端末装置30を備えている。なお端末装置の数は、本実施形態を限定するものではなく、3以上であってもよい。
図2は、本発明の一実施形態に係る情報処理装置10を含む情報処理システム100の概要を示す図である。情報処理システム100においては、図2に示すように、第1の端末装置20を使用する第1の参加者200と、第2の端末装置30を使用する第2の参加者201との間の関係性を評価する。
情報処理システム100においては、第1の端末装置20及び第2の端末装置30から得られる第1の参加者200及び第2の参加者201の会議中の表情情報及び発話情報を元に、情報処理装置10が第1の参加者200と第2の参加者201との会議中の関係性を評価する。情報処理システム100は、関係性を評価した結果を、第1の端末装置20及び第2の端末装置30の少なくとも一方に表示させることで、第1の参加者200及び第2の参加者201の少なくとも一方に評価結果をリアルタイムでフィードバックし、会議中のコミュニケーション状態の改善を促す。
なお、本実実施形態において、「会議」とは、狭義の意味の会議に限定されるものではなく、面談、面接、カウンセリング、問診、接客、接見、相談等が含まれる。一例として、
・上司と部下との面談
・医師による患者への問診
・カウンセラーによる対象者へのカウンセリング
・客に対する店員の接客や窓口相談
・Web Meeting等の遠隔でのコミュニケーション
・e-Learning等の対ビデオ画像に対するコミュニケーション
等が含まれる。
また、図3は、情報処理システム100におけるデータの流れの概要を示す図である。
〔第1の端末装置20〕
図1に示すように、第1の端末装置20は、カメラ21、マイク22、表示部23、制御部24、スピーカ25、及び通信部26を備えている。
<動画取得処理>
カメラ21は、第1の参加者を撮像し、撮像画像を制御部24に供給する。ここで、カメラ21による撮像画像は、動画像であることが好ましく、当該構成の場合、図3に示すように、カメラ21は、制御部24に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ21は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部24に供給する。
なお、第1の端末装置20は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部24は、カメラデバイス識別情報を参照することによって、カメラ21を特定することができる。
<画像認識処理>
制御部24は、カメラ21から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。
一例として、図3に示すように、制御部24は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第1の参加者の表情に関する第1の表情情報の一例である。
<音声取得処理>
マイク22は、主として、第1の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部24に供給する。
なお、第1の端末装置20は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部24は、音声デバイス識別情報を参照することによって、マイク22を特定することができる。
<発話認識処理>
制御部24は、マイク22から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。
一例として、図3に示すように、制御部24は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第1の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第1の参加者の発話を示す第1の発話情報の一例である。
〔第2の端末装置30〕
また、第2の端末装置30は、カメラ31、マイク32、表示部33、制御部34、スピーカ35、及び通信部36を備えている。
<動画取得処理>
カメラ31は、第2の参加者を撮像し、撮像画像を制御部34に供給する。ここで、カメラ31による撮像画像は、動画像であることが好ましく、当該構成の場合、図3に示すように、カメラ31は、制御部34に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ31は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部34に供給する。
なお、第2の端末装置30は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部34は、カメラデバイス識別情報を参照することによって、カメラ31を特定することができる。
<画像認識処理>
制御部34は、カメラ31から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。
一例として、図3に示すように、制御部34は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第2の参加者の表情に関する第2の表情情報の一例である。
<音声取得処理>
マイク32は、主として、第2の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部34に供給する。
なお、第2の端末装置30は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部34は、音声デバイス識別情報を参照することによって、マイク32を特定することができる。
<発話認識処理>
制御部34は、マイク32から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。
一例として、図3に示すように、制御部34は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第2の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第2の参加者の発話を示す第2の発話情報の一例である。
〔情報処理装置10〕
情報処理装置10は、表情情報取得部13、音声情報取得部14、表情関係性情報生成部15、発話関係性情報生成部16、及び関係性情報生成部17を備えている。情報処理装置10は、さらに、通信部11を備えている。表情情報取得部13、音声情報取得部14、表情関係性情報生成部15、発話関係性情報生成部16、関係性情報生成部17は、演算部12が備えている。
(表情情報取得部13)
表情情報取得部13は、通信部11を介して複数の会議参加者のうち第1の参加者の表情に関する第1の表情情報と、複数の会議参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する。
<数値データ洗浄処理>
表情情報取得部13は、一例として、通信部11を介して、第1の参加者に関する表情情報に含まれる時系列数値データである時系列表情値、時系列顔パーツ座標、及び時系列視線座標を参照し、当該時系列数値データに対して、一例として以下の処理を行うことによって、数値データ洗浄処理を行う。
・無効データ区間を削除する
・有効データ区間におけるデータを平均する
・分散及び項数に変換する
表情情報取得部13は、上述の数値データ洗浄処理を行うことによって、第1の参加者に関する区間時系列数値データを生成する。当該区間時系列数値データは、有効区間における時系列表情値、時系列顔パーツ座標、及び時系列視線座標を含んでいる。
表情情報取得部13は、第2の参加者に関する表情情報についても同様の処理を行い、第2の参加者に関する区間時系列数値データを生成する。
<表情の検出>
表情情報取得部13は、第1の参加者に関する区間時系列数値データを参照して、第1の参加者の表情を表現する複数の第1の指標を算出する。また、表情情報取得部13は、第2の参加者に関する区間時系列数値データを参照して、第2の参加者の表情を表現する複数の第2の指標を算出する。
ここで、表情を表現する指標の例には、以下の指標が挙げられる。
・怒り(anger)
・侮辱(contempt)
・嫌悪(disgust)
・恐怖(fear)
・喜び(happiness)
・中立(neutral)
・悲しみ(sadness)
・驚き(surprise)
したがって、表情を表現する指標とは、当該表情が示す感情を表現する指標ということもできる。
なお、表情情報取得部13は、第1の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第1の参加者の表情を表現する複数の第1の指標として用いてもよい。同様に、表情情報取得部13は、第2の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第2の参加者の表情を表現する複数の第2の指標として用いてもよい。
また、第1の参加者の表情及び第2の参加者の表情は、上記の指標を各成分とするベクトルとして表現することもできる。こられのベクトルを、表情ベクトルと呼ぶこともある。
なお、各参加者の表情を検出する技術及び検出した表情が示す感情を指標化して表現する技術は、本実施形態を限定するものではなく、例えば、公知の技術を用いることができる。
<視線の検出>
また、表情情報取得部13は、通信部11を介して、第1の端末装置20及び第2の端末装置30から、第1の参加者及び第2の参加者の視線方向に関する情報を取得する。具体的には、一例として、表情情報取得部13は、第1の参加者の視線方向に関する情報として、上述した第1の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。同様に、表情情報取得部13は、第2の参加者の視線方向に関する情報として、上述した第2の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。
なお、視線座標の取得方法としては、特に限定されないが、第1の端末装置20及び第2の端末装置30に、点光源(不図示)を設け、点光源からの光の角膜反射像をカメラ21及びカメラ31で所定時間撮影することにより、ユーザの視線座標を取得する方法が挙げられる。点光源の種類は特に限定されず、可視光、赤外光が挙げられるが、例えば赤外線LEDを用いることで、ユーザに不快感を与えることなく、視線座標を取得することができる。
<距離の検出>
また、表情情報取得部13は、当該区間時系列数値データに含まれる第1の参加者の時系列顔パーツ座標を取得し、第1の参加者と撮像手段(カメラ21)との間の距離を算出してもよい。また、表情情報取得部13は、当該区間時系列数値データに含まれる第2の参加者の時系列顔パーツ座標を取得し、第2の参加者と撮像手段(カメラ31)との間の距離を算出してもよい。参加者と撮像手段との間の距離は、例えば、顔パーツ座標から得られる撮像画像中の顔の目尻距離を顔角度補正したものを目尻距離とし、この目尻距離の逆数として算出することができる。
(音声情報取得部14)
音声情報取得部14は、第1の参加者の発話に関する第1の発話情報と、複数の会議参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する。すなわち、音声情報取得部14は、通信部11を介して、第1の端末装置20及び第2の端末装置30から第1の参加者及び第2の参加者の発話に関する情報を取得する。
音声情報取得部14は、一例として、上述した第1の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。同様に、音声情報取得部14は、一例として、上述した第2の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。
また、一例として、音声情報取得部14は、第1の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部14は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第1の参加者の口が開いていれば、当該時系列発話テキストを第1の参加者の発話に関する第1の発話情報に含める。同様に、音声情報取得部14は、第2の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部14は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第2の参加者の口が開いていれば、当該時系列発話テキストを第2の参加者の発話に関する第2の発話情報に含める。これにより、マイク22又はマイク32として、指向性の無い簡易なマイクを用いた場合でも、発話した人物を特定できる。
(表情関係性情報生成部15)
表情関係性情報生成部15は、第1の表情情報と第2の表情情報とを参照して、第1の参加者と第2の参加者との表情に関する関係性を示す表情関係性情報を生成する。
会議参加者の会議に対する満足度は、会議の内容及び結論のみならず、参加者間の良好なコミュニケーションの有無にも依存する。参加者間のコミュニケーション状態は、会議中の参加者間の関係性により表され、参加者間の関係性は感情の一致度により評価することができる。表情関係性情報生成部15は、表情情報取得部13から第1の表情情報及び第2の表情情報を取得し、これらの表情情報を元に、会議中の参加者間の感情の一致度を参加者双方の表情から評価することで、参加者間のコミュニケーション状態をリアルタイムで評価する。
表情関係性情報生成部15が表情情報取得部13から取得するそれぞれの表情情報は、区間時系列数値データを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な表情に関する情報に基づいて算出されたものである。表情関係性情報生成部15は、各参加者のリアルタイム又は経時的な表情情報を元に、表情関係性情報を生成するので、生成された表情関係性情報は、参加者間のリアルタイム又は経時的な表情に関する関係性を表している。
<表情一致率判定>
上述のように、第1の表情情報には、第1の参加者の表情を表現する複数の第1の指標が含まれており、第2の表情情報には、第2の参加者の表情を表現する複数の第2の指標が含まれている。
表情関係性情報生成部15は、第1の指標と第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、表情関係性情報に含めてもよい。
一例として、表情関係性情報生成部15は、第1の参加者の表情を表現する複数の指標を要素とする第1の表情ベクトルと、第2の参加者の表情を表現する複数の指標を要素とする第2の表情ベクトルとの差の絶対値を用いて、表情不一致量を算出する。算出された表情不一致量は、参加者間の会議中の感情の融和状態を表す指標とも言える。また、表情関係性情報生成部15は、会議開始から現時点までに、表情が一致した割合を示す指標として表情一致率を算出してもよい。表情一致率は、例えば、会議開始から現時点までの時間から表情が不一致であった時間を引いて、会議開始から現時点までの時間で除算することによって得られる。
<視線合致率判定>
また、第1の表情情報が、第1の参加者の視線方向に関する第1の視線情報を含む構成とし、第2の表情情報が、第2の参加者の視線方向に関する第2の視線情報を含む構成としてもよい。表情関係性情報生成部15は、第1の視線情報と第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、表情関係性情報に含めてもよい。
一例として、表情関係性情報生成部15は、視線関係性情報として、第1の参加者と第2の参加者との視線合致率を算出する。算出された視線合致率は、会議中に他の参加者の様子を気にかけている状態を表す指標とも言える。より具体的には、まず、制御部24又は表情関係性情報生成部15が、カメラ21の撮像画像を解析することにより、会議室における第1の参加者の目の位置を特定し、制御部34又は表情関係性情報生成部15が、カメラ31の撮像画像を解析することにより、会議室における第2の参加者の目の位置を特定する。
そして、表情関係性情報生成部15は、各時点において、第1の視線情報が示す第1の参加者の視線方向が、第2の参加者の目に向かっているか否かを判定し、第2の視線情報が示す第2の参加者の視線方向が、第1の参加者の目に向かっているか否かを判定することにより、各時点において、第1の参加者の視線と第2の参加者の視線とが合致しているかを判定する。
一例として、表情関係性情報生成部15は、第1の参加者の視線が第2の参加者の目に向かっていると判定した場合に、第1の参加者の視線フラグを1に設定する。また、表情関係性情報生成部15は、第2の参加者の視線が第1の参加者の目に向かっていると判定した場合に、第2の参加者の視線フラグを1に設定する。そして、表情関係性情報生成部15は、双方の視線フラグが共に1である場合に、視線が合致していると判定する。
そして、表情関係性情報生成部15は、会議開始から現時点までに、視線が合致した割合を示す指標として視線合致率を算出する。視線合致率は、例えば、視線が合致した時間を、会議開始から現時点までの時間で除算することによって得られる。
なお、視線が互いの目に向かっているか否かの判定には、第1の端末装置20と第2の端末装置30との相対的な位置関係を示す位置情報を更に参照する構成としてもよい。
また、互いの視線が必ずしも相手の目ではなく、相手の顔又は相手の身体の方向を向いている場合に、視線が合致していると判定する構成としてもよい。
また、参加者がインターネット等を介して会議する場合には、端末装置の画面を通した参加者間の視線合致率を算出する。より具体的には、一例として、第1の端末装置20の表示画面に表示される第2の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第1の参加者の視線が向けられている場合に、第1の参加者の視線フラグを1に設定する。同様に、第2の端末装置30の表示画面に表示される第1の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第2の参加者の視線が向けられている場合に、第2の参加者の視線フラグを1に設定する。
<前のめり率判定>
また、表情関係性情報生成部15は、第1の参加者と第2の参加者との前のめり率を算出し、算出した前のめり率を表情関係性情報に含めてもよい。算出された前のめり率は、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。一例として、表情関係性情報生成部15は、第1の参加者及び第2の参加者の、それぞれの撮像手段からの距離が、予め設定された一定時間内においてしきい値よりも下回った場合に、第1の参加者及び第2の参加者が前のめり状態であると判定する。
そして、表情関係性情報生成部15は、会議開始から現時点までの時間において、第1の参加者が前のめりになっている時間の割合を、第1の参加者に関する前のめり率として特定し、第2の参加者が前のめりになっている時間の割合を、第2の参加者に関する前のめり率として特定する。
また、表情関係性情報生成部15は、第1の参加者及び第2の参加者それぞれの撮像手段からの距離を元に得られる顔画像サイズについて、予め設定された一定時間内の変化から会議中の参加者の姿勢を算出し、表情関係性情報に含めてもよい。算出された参加者の姿勢は、会議中に他の参加者の発話を聞くにふさわしい態度を表す指標とも言える。
さらに、表情関係性情報生成部15は、第1の参加者の姿勢の変化と第2の参加者の第2の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。姿勢の変化と表情ベクトルの変化との相関は、一の参加者の姿勢が他の参加者の表情に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部15は、第2の参加者の姿勢の変化と第1の参加者の第1の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。
また、表情関係性情報生成部15は、第1の参加者の姿勢と第2の参加者の姿勢とを参照して、第1の参加者と第2の参加者との姿勢状態の類似度を算出し、算出した類似度を表情関係性情報に含めてもよい。姿勢状態の類似度は、ミラーリング状態を表しており、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。
なお、表情関係性情報生成部15は、第1及び第2の参加者の属性を示す参加者情報を更に参照して、表情関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。
一例として、表情関係性情報生成部15は、参加者情報を参照し、当該参加者が特定の表情が出やすいと判断した場合には、当該特定の表情に対応する指標に1より小さい重み係数を乗算する補正を行うことによって当該参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成してもよい。
例えば、第1の参加者の属性を示す参加者情報が、当該第1の参加者が内気であることを示している場合、表情関係性情報生成部15は、「中立(neutral)」の指標に対して重み0.8を乗算し、残り0.2の重みを他の指標に比例配分する等の処理を行うことによって、当該第1の参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成する構成としてもよい。
情報処理装置10は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、表情関係性情報生成部15は、生体情報及び環境情報を更に参照して、表情関係性情報を生成してもよい。
一例として、表情関係性情報生成部15は、第1の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第2の参加者の表情を表現する第2の指標を参照し、第1の参加者にストレスを与える第2の参加者の表情を推定する。そして、表情関係性情報生成部15は、推定された第2の参加者の表情を、第1の参加者に対するNG表情と認定し、その情報を表情関係性情報に含めてもよい。一の参加者の他の参加者に対するNG表情は、一の参加者の表情が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部15は、第2の参加者にストレスを与える第1の参加者の表情を推定し、第2の参加者に対するNG表情を認定してもよい。
また、表情関係性情報生成部15は、予め定められた一定期間内の、参加者の周囲の環境情報の変化と、第1の参加者の第1の表情ベクトル及び第2の参加者の第2の表情ベクトルの平均値の変化との相関を算出し、その相関を表情関係性情報に含めてもよい。環境情報の変化と表情ベクトルの平均値の変化との相関は、参加者の周囲の環境が参加者間のコミュニケーション状態に及ぼす影響を表す指標とも言える。
<対話管理処理>
表情関係性情報生成部15は、一例として、通信部11を介して、第1の参加者及び第2の参加者それぞれのユーザIDと、当該ユーザIDが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。表情関係性情報生成部15は、一の参加者に関する区間時系列数値データのある時点のデータについて、その時点に対話している他の参加者のユーザIDを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を表情関係性情報に含めてもよい。
(発話関係性情報生成部16)
発話関係性情報生成部16は、第1の発話情報と第2の発話情報とを参照して、第1の参加者と第2の参加者との発話に関する関係性を示す発話関係性情報を生成する。発話関係性情報生成部16は、音声情報取得部14から第1の発話情報及び第2の発話情報を取得し、これらの発話情報を元に、会議中の参加者間の感情の一致度を参加者双方の発話から評価することで、参加者間のコミュニケーション状態を評価する。
発話関係性情報生成部16が音声情報取得部14から取得するそれぞれの発話情報は、区間時系列テキストデータを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な発話に関する情報に基づいて算出されたものである。発話関係性情報生成部16は、各参加者のリアルタイム又は経時的な発話情報を元に、発話関係性情報を生成するので、生成された発話関係性情報は、参加者間のリアルタイム又は経時的な発話に関する関係性を表している。
<発話比率判定>
発話関係性情報生成部16は、第1の発話情報が示す第1の参加者の発話時間と、第2の発話情報が示す第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、発話関係性情報に含めてもよい。
一例として、発話関係性情報生成部16は予め定められた一定時間内の、第1の参加者の発話時間と第2の参加者の発話時間との発話比率を算出し、発話関係性情報に含める。算出された発話比率は、参加者間の関係の対等性を表す指標とも言える。
<発話頻度判定>
また、発話関係性情報生成部16は、第1の発話情報及び第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含めてもよい。
発話内容に含まれる特定のカテゴリーの例には、オープンクエスチョン、行動促しワード(それで?、なるほど、確かに)、オウム返し、発話の遮り、発話の被り、否定ワード(でも、だけど)が含まれる。一例として、発話関係性情報生成部16は、予め定められた一定時間内における、このような特定のカテゴリーに含まれる発話内容が発話された頻度を算出し、算出した頻度に関する情報を発話関係性情報に含める。
具体的には、一例として、発話内容に含まれる特定カテゴリーをオープンクエスチョンと設定し、発話関係性情報生成部16は、第1の参加者の区間時系列テキストデータから、一定時間内に含まれるオープンクエスチョンを表すテキストデータを抽出する。そして、発話関係性情報生成部16は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、オープンクエスチョンが発話された頻度をオープン質問率として算出する。同様に、発話関係性情報生成部16は、第2の参加者の区間時系列テキストデータから、オープン質問率を算出する。そして、発話関係性情報生成部16は、第1の参加者のオープン質問率と第2の参加者のオープン質問率とを比較して、オープン質問比率を算出し、発話関係性情報に含める。算出されたオープン質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部16は、第1の参加者のオープン質問率及び第2の参加者のオープン質問率を、発話関係性情報に含めてもよい。
同様に、発話内容に含まれる特定カテゴリーを行動促しワードと設定し、発話関係性情報生成部16は、第1の参加者の区間時系列テキストデータから、一定時間内に含まれる行動促しワードを表すテキストデータを抽出する。そして、発話関係性情報生成部16は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、行動促しワードが発話された頻度を促し質問率として算出する。
同様に、発話関係性情報生成部16は、第2の参加者の区間時系列テキストデータから、促し質問率を算出する。そして、発話関係性情報生成部16は、第1の参加者の促し質問率と第2の参加者の促し質問率とを比較して、促し質問比率を算出し、発話関係性情報に含める。算出された促し質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部16は、第1の参加者の促し質問率及び第2の参加者の促し質問率を、発話関係性情報に含めてもよい。
<単語に基づく評価>
また、発話関係性情報生成部16は、第1の発話情報及び第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を発話関係性情報に含めてもよい。
一例として、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる各単語の出現数を参加者毎に算出して順位付けし、相対的に出現頻度の高い単語を上位から複数抽出する。そして、発話関係性情報生成部16は、抽出した出現頻度の上位の単語を頻出単語として発話関係性情報に含める。また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの頻出単語及びその順位が一致しているかを判定し、その判定結果を発話関係性情報に含めてもよい。
また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる単語を参加者毎に抽出し、抽出された単語の一致率を算出して、発話関係性情報に含めてもよい。単語の一致率は、予め定められた一定時間内の区間時系列テキストデータに含まれる全単語中における、第1の参加者と第2の参加者とで一致した単語の比率として算出することができる。算出された単語の一致率は、オウム返しができているかの指標とも言える。
また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから発話タイミングを抽出し、発話タイミングの時間的なオーバーラップを算出してもよい。そして、発話関係性情報生成部16は、予め定められた一定時間内のオーバーラップの回数をオーバーラップ頻度として算出し、発話関係性情報に含めてもよい。算出したオーバーラップ頻度は、他の参加者の発話をさえぎる頻度を表す指標とも言える。
さらに、発話関係性情報生成部16は、第1及び第2の参加者の属性を示す参加者情報を更に参照して、発話関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。
情報処理装置10は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、発話関係性情報生成部16は、生体情報及び環境情報を更に参照して、発話関係性情報を生成してもよい。
また、一例として、発話関係性情報生成部16は、第1の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第2の参加者の区間時系列テキストデータとを参照し、第1の参加者にストレスを与える第2の参加者のテキストデータを推定する。そして、発話関係性情報生成部16は、推定された第2の参加者のテキストデータを、第1の参加者に対するNGワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対するNGワードは、一の参加者の発言が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部16は、第2の参加者にストレスを与える第1の参加者のテキストデータを推定し、第2の参加者に対するNGワードを認定してもよい。
また、一例として、発話関係性情報生成部16は、第1の参加者の脳波から判定した参加者の思考の活性度と、その直前又はその時点における第2の参加者の区間時系列テキストデータとを参照し、第1の参加者の思考を活性化させる第2の参加者のテキストデータを推定する。そして、発話関係性情報生成部16は、推定された第2の参加者のテキストデータを、第1の参加者に対する重要ワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対する重要ワードは、一の参加者の発言が他の参加者の思考の活性化に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部16は、第2の参加者の思考を活性化する第1の参加者のテキストデータを推定し、第2の参加者に対する重要ワードを認定してもよい。
また、発話関係性情報生成部16は、参加者間の声のトーンの一致度、発話スピードの一致度、音量の一致度等を算出してもよい。
さらに、発話関係性情報生成部16は、蓄積された区間時系列テキストデータから、第1の参加者及び第2の参加者それぞれの発話を表すログを抽出し、その形態素解析データを取得して、過去の発話中の頻出単語をリストアップし、発話関係性情報に含めてもよい。過去の発話中の頻出単語は、会議中の参加者双方に提示することで、会議のテーマ決定を支援するために利用され得る。
<対話管理処理>
発話関係性情報生成部16は、一例として、通信部11を介して、第1の参加者及び第2の参加者それぞれのユーザIDと、当該ユーザIDが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。発話関係性情報生成部16は、一の参加者に関する区間時系列テキストデータのある時点のデータについて、その時点に対話している他の参加者のユーザIDを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を発話関係性情報に含めてもよい。
(関係性情報生成部17)
関係性情報生成部17は、表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する。会議中の参加者双方の表情及び発話の両方を評価することで、参加者間のコミュニケーション状態をより詳細に評価することができる。また、関係性情報生成部17は、参加者間のリアルタイム又は経時的な表情情報及び発話情報を元に関係性情報を生成するので、参加者間のリアルタイム又は経時的なコミュニケーション状態を評価することができる。
関係性情報生成部17は、第1の参加者及び第2の参加者の少なくとも何れかに提示する提示情報を生成してもよい。提示情報には、表情関係性情報と発話関係性情報とに基づき総合的に評価した参加者双方の感情の一致度等が含まれていてもよい(例えば、視線合致率が高く、発話比率が対等であれば感情の一致度を高くする等)。
関係性情報生成部17が生成した提示情報を参加者に提示することで、参加者間の関係性を参加者にフィードバックすることができる。提示情報をリアルタイムで参加者に提示すれば、会話中にリアルタイムで関係性を確認することができるので、リアルタイムでコミュニケーションの改善を促すことも可能である。
提示情報は、第1の参加者及び第2の参加者の双方に提示するものであってもよいし、いずれか一方に提示するものであってもよい。また、関係性情報は、第1の参加者及び第2の参加者に同じ内容を提示するものであってもよいし、異なる内容を提示するものであってもよい。第1の参加者及び第2の参加者に同じ内容を提示する関係性情報を生成することで、参加者間のフラットな関係性の構築が期待できる。また、提示情報を参加者自身が選択できるようになっていてもよいし、ルール又は参加者間の合意により提示される提示情報が変更されてもよい。
関係性情報には、第1の参加者の発話時間と、第2の参加者の発話時間との割合を示す情報、及び、第1の参加者の視線方向と、第2の参加者の視線方向との合致率の経時変化に関する情報が含まれていてもよい。また、関係性情報には、表情一致率又は表情不一致率の経時変化、前のめり率、発話内容のテキスト、頻出単語等に関する情報が含まれていてもよい。さらに、関係性情報には、参加者のID、参加者自身の顔画像、他の参加者の表情を表すアバター画像、発話内容に基づき蓄積データから抽出した推奨議題又は推奨ワードの表示等が含まれていてもよい。
また、提示情報に、会議参加者のコミュニケーションスキルを向上させるための評価結果を含めてもよい。一例として、表情一致率と共に、表情一致率を高めることで反射的傾聴スキルが向上させることを促す情報を提示したり、視線合致率と共に、視線合致率を高めることでコミュニケーションに適した姿勢、態度を取るように促す情報を提示したりしてもよい。また、推奨するワードや質問内容を提示して、対話レベル及び質問レベルの控除を促してもよい。
提示情報を提示する方法は、具体的には、一例として、会議参加者の表示部(表示部23及び表示部33のそれぞれ)に表示する方法、会議参加者全員が視認できる共通の表示部に表示する方法、ネットワーク配信等により会議参加者以外にも提示する方法、腕時計型デバイスのようなウェアラブルデバイスからの物理的な作用(振動、電気刺激等)により提示する方法、環境設備(証明、空調、音楽等)からの物理的な作用(議論が白熱した場合に部屋を赤く照らす等)により提示する方法、感情を表す指標に対応した画像イメージ(怒りを表す火山の噴火等)により提示する方法、感情を表す指標に対応したアバターの表情により提示する方法等が挙げられる。
図4及び5を参照して、表示部23及び表示部33の少なくとも一方に提示情報を提示される画面例を説明する。図4は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の一例を示す図であり、図5は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の他の例を示す図である。
図4に示すように、画面400において、領域401に会議参加者のユーザIDを表示し、領域402に会議参加者の顔画像を表示して、提示情報を提示する対象を特定する。領域403に発話比率をトーク比率として、例えば円グラフで表示し、領域404に対話中の参加者の感情を表す指標に対応したアバターの表情を表示し、また、領域405に表情一致率の経時変化をグラフで表示することで、会議中にコミュニケーションの状態の現状を瞬時に確認できるようにする。また、領域406に、発話内容を表すテキストをTalk Streamとして表示し、また、会議中に推奨される会話テーマや単語を表示する。領域405に表示する表情一致率は、表情関係性情報について、過去から現在までの経時的な情報に基づき生成された提示情報の例である。領域404に表示するアバターの表情は、表情関係性情報について、リアルタイムの情報に基づき生成された提示情報の例である。
また、図5に示すように、画面500において、画面400と同様に、領域501にユーザIDを表示し、領域502に顔画像を表示し、領域503にトーク比率を表示し、領域504にアバター表情を表示し、領域505に発話内容及び推奨テーマ等を表示すると共に、領域505に、表情一致率ではなく視線合致率を表示してもよい。
<付記事項1>
端末装置の制御部における処理の一部又は全部を、情報処理装置10の備える演算部12において行う構成としてもよい。例えば、演算部12が、通信部11を介して、カメラ21の撮像画像を取得し、表情情報取得部13において、第1の参加者の表情に関する第1の表情情報、及び、第2の参加者の表情に関する第2の表情情報を生成する構成としてもよい。
<付記事項2>
また、上記の例では、第1の参加者及び第2の参加者の2名による会議を例にしたが、本実施形態はこれに限定されるものではない。当然、N名(Nは3以上)による会議に対しても本明細書に記載の発明を適用することができる。その場合、N名中の任意の2人のペアに対して、本明細書に記載の構成を個別に適用することができる。例えば、3名(A、B、C)による会議に対しては、(A、B)(A、C)(B、C)の3組に対して本明細書に記載の発明を個別に適用することができる。
このように、本実施形態に記載の発明は、N人の状態を表すデータ,N人の状態の履歴データおよびN人の環境情報を用いて、当該N人の内の一部又は全部の参加者間の関係を示す「関係性情報」を生成するものであると表現することもできる。
<付記事項3>
また、上記の例では、第1の参加者及び第2の参加者が共に人間である場合を例に挙げたが、これは本実施形態を限定するものではない。
例えば、第2の参加者は、人間ではなく、予め設定されたアバターやBOTのようにコンピュータによって表現される疑似的な人間であってもよい。このような構成の場合、第2の端末装置は、必須ではなく、表情情報取得部13及び音声情報取得部14は、予め作成された当該BOTが表す表情及び発話内容を、第2の参加者の表情情報及び音声情報として取得する構成とすればよい。
なお、BOTが表す表情及び発話内容は、会議前に事前に作成されたデータを用いてもよいし、会議中の第1の参加者の表情や発話に応じて適応的に変更される構成としてもよい。
〔ソフトウェアによる実現例〕
情報処理装置1の制御ブロック(特に演算部12)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、情報処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
100 情報処理システム
10 情報処理装置
20 第1の端末装置
30 第2の端末装置
13 表情情報取得部
14 音声情報取得部
15 表情関係性情報生成部
16 発話関係性情報生成部
17 関係性情報生成部

Claims (12)

  1. 複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得部と、
    当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得部と、
    前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、
    前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、
    前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、
    を備えていることを特徴とする情報処理装置。
  2. 前記関係性情報は、前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の表情情報には、前記第1の参加者の表情を表現する複数の第1の指標が含まれており、
    前記第2の表情情報には、前記第2の参加者の表情を表現する複数の第2の指標が含まれており、
    前記表情関係性情報生成部は、前記第1の指標と前記第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記第1の表情情報には、前記第1の参加者の視線方向に関する第1の視線情報が含まれており、
    前記第2の表情情報には、前記第2の参加者の視線方向に関する第2の視線情報が含まれており、
    前記表情関係性情報生成部は、前記第1の視線情報と前記第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める
    ことを特徴とする請求項1から3の何れか1項に記載の情報処理装置。
  5. 前記発話関係性情報生成部は、
    前記第1の発話情報が示す前記第1の参加者の発話時間と、前記第2の発話情報が示す前記第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める
    ことを特徴とする請求項1から4の何れか1項に記載の情報処理装置。
  6. 前記発話関係性情報生成部は、
    前記第1の発話情報及び前記第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める
    ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。
  7. 前記発話関係性情報生成部は、
    前記第1の発話情報及び前記第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含めることを特徴とする請求項1から6の何れか1項に記載の情報処理装置。
  8. 前記関係性情報生成部は、前記関係性情報を参照して、前記第1の参加者及び前記第2の参加者の少なくとも何れかに提示する提示情報を生成する
    ことを特徴とする請求項1から7の何れか1項に記載の情報処理装置。
  9. 前記提示情報には、
    前記第1の参加者の発話時間と、前記第2の参加者の発話時間との割合を示す情報、
    及び、
    前記第1の参加者の視線方向と、前記第2の参加者の視線方向との合致率の経時変化に関する情報
    が含まれている
    ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記表情関係性情報生成部、及び前記発話関係性情報生成部は、前記第1及び第2の参加者の属性を示す参加者情報を更に参照して、前記表情関係性情報及び前記発話関係性情報を生成する
    ことを特徴とする請求項1から9の何れか1項に記載の情報処理装置。
  11. ソフトウェアの制御によってコンピュータが行う情報処理方法であって、
    複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得ステップと、
    当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得ステップと、
    前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、
    前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、
    前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、
    前記コンピュータが行うことを特徴とする情報処理方法。
  12. 請求項1~10の何れか1項に記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、前記表情情報取得部、前記音声情報取得部、前記表情関係性情報生成部、前記発話関係性情報生成部、及び前記関係性情報生成部としてコンピュータを機能させるための情報処理プログラム。
JP2019005363A 2019-01-16 2019-01-16 情報処理装置、情報処理方法、及び情報処理プログラム Active JP7036046B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019005363A JP7036046B2 (ja) 2019-01-16 2019-01-16 情報処理装置、情報処理方法、及び情報処理プログラム
PCT/JP2019/009523 WO2020148920A1 (ja) 2019-01-16 2019-03-08 情報処理装置、情報処理方法、及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019005363A JP7036046B2 (ja) 2019-01-16 2019-01-16 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2020113197A JP2020113197A (ja) 2020-07-27
JP7036046B2 true JP7036046B2 (ja) 2022-03-15

Family

ID=71614064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019005363A Active JP7036046B2 (ja) 2019-01-16 2019-01-16 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (2)

Country Link
JP (1) JP7036046B2 (ja)
WO (1) WO2020148920A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022264222A1 (ja) * 2021-06-14 2022-12-22 株式会社I’mbesideyou 動画像分析システム
JP7440844B2 (ja) * 2021-09-30 2024-02-29 株式会社調和技研 情報処理装置及びプログラム
WO2023074129A1 (ja) * 2021-11-01 2023-05-04 ソニーグループ株式会社 情報処理装置、コミュニケーション支援装置、およびコミュニケーション支援システム
WO2023084715A1 (ja) * 2021-11-11 2023-05-19 日本電信電話株式会社 情報処理装置、情報処理方法、及びプログラム
JP2023132597A (ja) 2022-03-11 2023-09-22 株式会社リコー 情報処理システム、組織構成支援システム、情報処理方法及びプログラム
WO2023243009A1 (ja) * 2022-06-15 2023-12-21 日本電信電話株式会社 情報提示装置、情報提示方法、およびプログラム
JP2024006627A (ja) * 2022-07-04 2024-01-17 パナソニックIpマネジメント株式会社 評価システム、評価装置および評価方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284822A (ja) 2004-03-30 2005-10-13 Seiko Epson Corp 感情マッチング装置、感情マッチング方法、及びプログラム
JP2016103081A (ja) 2014-11-27 2016-06-02 Kddi株式会社 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
JP2016177483A (ja) 2015-03-19 2016-10-06 キヤノン株式会社 コミュニケーション支援装置、コミュニケーション支援方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284822A (ja) 2004-03-30 2005-10-13 Seiko Epson Corp 感情マッチング装置、感情マッチング方法、及びプログラム
JP2016103081A (ja) 2014-11-27 2016-06-02 Kddi株式会社 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
JP2016177483A (ja) 2015-03-19 2016-10-06 キヤノン株式会社 コミュニケーション支援装置、コミュニケーション支援方法及びプログラム

Also Published As

Publication number Publication date
JP2020113197A (ja) 2020-07-27
WO2020148920A1 (ja) 2020-07-23

Similar Documents

Publication Publication Date Title
JP7036046B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US10706873B2 (en) Real-time speaker state analytics platform
US20220392625A1 (en) Method and system for an interface to provide activity recommendations
Gratch et al. Can virtual humans be more engaging than real ones?
EP3897388B1 (en) System and method for reading and analysing behaviour including verbal, body language and facial expressions in order to determine a person's congruence
US11417045B2 (en) Dialog-based testing using avatar virtual assistant
Sun et al. Towards visual and vocal mimicry recognition in human-human interactions
Lucas et al. Towards an affective interface for assessment of psychological distress
US20210271864A1 (en) Applying multi-channel communication metrics and semantic analysis to human interaction data extraction
US11699043B2 (en) Determination of transcription accuracy
Chollet et al. A multimodal corpus for the assessment of public speaking ability and anxiety
JP6715410B2 (ja) 評価方法、評価装置、評価プログラム、および、評価システム
US11163965B2 (en) Internet of things group discussion coach
Byun et al. Honest signals in video conferencing
US20220383896A1 (en) System and method for collecting behavioural data to assist interpersonal interaction
Kim et al. Perceiving emotion from a talker: How face and voice work together
RU2293518C1 (ru) Способ оценки искренности-неискренности говорящего
WO2022065446A1 (ja) 感情判定装置、感情判定方法及び感情判定プログラム
US20220198293A1 (en) Systems and methods for evaluation of interpersonal interactions to predict real world performance
Torre et al. Exploring the effects of virtual agents’ smiles on human-agent interaction: A mixed-methods study
CN111886565B (zh) 处理装置、处理方法、数据处理装置、数据处理***、数据处理方法和程序
Ochs et al. From emotions to interpersonal stances: Multi-level analysis of smiling virtual characters
Grůber et al. Czech Senior COMPANION: Wizard of Oz data collection and expressive speech corpus recording and annotation
Vatikiotis-Bateson et al. 23 Time-Varying Coordination in Multisensory Speech Processing
WO2023135939A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7036046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150