JP2021111239A

JP2021111239A - 提供システム、提供方法、提供装置、及びコンピュータプログラム

Info

Publication number: JP2021111239A
Application number: JP2020003983A
Authority: JP
Inventors: 裕介本家; Yusuke Honke
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2021-08-02

Abstract

【課題】ユーザ同士の円滑なコミュニケーションを支援する提供システムを提供する。【解決手段】提供システムは、話者である第１ユーザの音声を聴取する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える。【選択図】図４

Description

本開示は、提供システム、提供方法、提供装置、及びコンピュータプログラムに関する。

従来、ネットワークを介してユーザ同士がコミュニケーションを図る電子会議システムが提案されている（例えば、特許文献１参照）。

特開２０１８−１３９６５２号公報

特許文献１に記載のような電子会議システムでは、通常のフェイストゥーフェイスの会議と比較して、対話相手の顔が画面上に小さく映ったりだとか、互いの目線が合いにくいなどの理由により、互いの意思疎通が図りにくい。このため、会議の生産性が低くなるという課題がある。

また、話者に対して反対の意見を持っていたとしても、目上の人に対しては意見を言い出しにくく、建設的な議論にならない場合もある。

これは、ネットワーク越しの会話では、聞き手の感情が話者に伝わりにくいという事情からであると考えられる。

本開示は、このような事情に鑑みてなされてものであり、ユーザ同士の円滑なコミュニケーションを支援する提供システム、提供方法、提供装置、及びコンピュータプログラムを提供することを目的とする。

本開示の一態様に係る提供システムは、話者である第１ユーザの音声を聴取する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える。

本開示の他の態様に係る提供方法は、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得するステップと、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第１ユーザに提供するステップとを含む。

本開示の他の態様に係る提供装置は、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える。

本開示の他の態様に係るコンピュータプログラムは、コンピュータを、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部として機能させる。

なお、コンピュータプログラムを、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、提供装置の一部又は全部を実現する半導体集積回路として実現したり、提供装置を含む提供システムとして実現したりすることもできる。

本開示によると、ユーザ同士の円滑なコミュニケーションを支援することができる。

図１は、本開示の実施形態１に係る提供システムの概略構成を示す図である。図２は、本開示の実施形態１に係る第１装置の機能的構成を示すブロック図である。図３は、ディスプレイに表示される映像の一例を示す図である。図４は、本開示の実施形態１に係る第２装置の機能的構成を示すブロック図である。図５は、本開示の実施形態１に係る提供システムによる、第１装置から第２装置への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。図６は、本開示の実施形態１に係る提供システムによる、第２装置から第１装置への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。図７は、本開示の実施形態２に係る第１装置の機能的構成を示すブロック図である。図８は、本開示の実施形態２に係る第２装置の機能的構成を示すブロック図である。図９は、本開示の実施形態２に係る提供システムによる、第１装置から第２装置への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。図１０は、本開示の実施形態２に係る提供システムによる、第２装置から第１装置への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。図１１は、本開示の実施形態３に係る第１装置の機能的構成を示すブロック図である。図１２は、本開示の実施形態３に係る第２装置の機能的構成を示すブロック図である。図１３は、本開示の実施形態３に係る提供システムによる、第１装置から第２装置への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。図１４は、本開示の実施形態３に係る提供システムによる、第２装置から第１装置への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

［本開示の実施形態の概要］
最初に本開示の実施形態の概要を列記して説明する。
（１）本開示の一実施形態に係る提供システムは、話者である第１ユーザの音声を聴取する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える。

この構成によると、第１ユーザの発話内容の聞き手である第２ユーザの感情及び集中度の少なくとも一方の判断結果が、第１ユーザに提供される。このため、第１ユーザは、自分の発話内容に対し、第２ユーザがどのような感情を抱いているか、又は第２ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第１ユーザは、例えば、発話内容に対して否定的な感情を抱く第２ユーザに対して質問を行ったり、第２ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。

（２）好ましくは、前記提供システムは、さらに、前記第２ユーザの音声を取得する音声取得部を備え、前記判断部は、取得された前記第２ユーザの映像及び音声に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する。

この構成によると、第２ユーザの音声を考慮して第２ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第２ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第２ユーザの感情又は集中度を高精度で判断することができる。

（３）さらに好ましくは、前記提供システムは、ネットワークを介して相互に接続される第１装置及び第２装置を備え、前記第１装置は、前記第１ユーザの音声及び映像を取得する第１取得部と、取得された前記第１ユーザの音声及び映像を前記第２装置に送信する第１送信部と、前記第２装置から、前記第２ユーザの音声及び映像を受信する第１受信部と、受信された前記第２ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第１出力部とを含み、前記第２装置は、前記第２ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第２取得部と、取得された前記第２ユーザの音声及び映像を前記第１装置に送信する第２送信部と、前記第１装置から、前記第１ユーザの音声及び映像を受信する第２受信部と、受信された前記第１ユーザの音声及び映像を出力する第２出力部とを含む。

この構成によると、第１ユーザと第２ユーザとの間でネットワーク越しに対話を行い、第２ユーザの感情及び集中度の少なくとも一方の判断結果を第１ユーザに提供することができる。このため、例えば、第１ユーザを会議の進行役とする電子会議システムにおいて、第１ユーザが第２ユーザの感情又は集中度を把握しながら、第２ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、判断部は、第２ユーザの場合と同様に、第１ユーザの音声及び映像から第１ユーザの感情及び集中度の少なくとも一方を判断し、第２装置の第２出力部が、第１ユーザの感情及び集中度の少なくとも一方の判断結果を出力するようにしてもよい。これにより、第１ユーザ及び第２ユーザは、相互に相手の感情又は集中度を把握することができる。

（４）また、前記判断部は、前記第１装置に備えられ、前記第１受信部が受信した前記第２ユーザの音声及び映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断してもよい。

この構成によると、第１装置が、第２装置から送信される第２ユーザの音声及び映像に基づいて、第２ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第１装置は、第２ユーザの音声及び映像と第２ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第２ユーザの音声及び映像と第２ユーザの感情又は集中度とを正確に対応付けて第１ユーザに提供することができる。

（５）また、前記提供システムは、ネットワークを介して相互に接続される第１装置及び第２装置を備え、前記第１装置は、前記第１ユーザの音声を取得する第１取得部と、取得された前記第１ユーザの音声を前記第２装置に送信する第１送信部と、前記第２装置から、前記第２ユーザの音声を受信する第１受信部と、受信された前記第２ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第１出力部とを含み、前記第２装置は、前記第２ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第２取得部と、取得された前記第２ユーザの音声を前記第１装置に送信する第２送信部と、前記第１装置から、前記第１ユーザの音声を受信する第２受信部と、受信された前記第１ユーザの音声を出力する第２出力部とを含み、前記判断部は、前記第２装置に備えられ、前記第２取得部が取得した前記第２ユーザの音声及び映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断し、前記第２送信部は、さらに、前記判断部による判断結果を送信し、前記第１受信部は、さらに、前記判断部による判断結果を受信し、前記第１出力部は、前記第１受信部が受信した前記判断部による判断結果を出力してもよい。

この構成によると、第２装置から第１装置に第２ユーザの映像を送信することなく、第２装置が第２ユーザの感情及び集中度の少なくとも一方の判断結果を、第２ユーザの音声とともに第１装置に送信することができる。このため、第２装置から第１装置への伝送データを削減しつつ、第２ユーザの感情又は集中度の判断結果を第１装置に送信することができる。また、第２装置から第１装置へ映像を送信する必要がない。このため、例えば、第１出力部は、第２ユーザの映像の代わりに、第２ユーザの感情に基づく表情を有する第２ユーザのアバターを表示装置に出力することもできる。これにより、第２ユーザのプライバシーを保護することもできる。

（６）また、前記第２装置は、さらに、前記第２ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第２ユーザに対して発言を促す発言促進部を備えてもよい。

この構成によると、例えば、第２ユーザが第１ユーザの発話内容に対して否定的な感情を抱いていたり、第２ユーザが集中していない場合などに、第２ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。

（７）また、前記提供システムは、さらに、前記判断部による判断結果に基づいて、前記第１ユーザと前記第２ユーザとの対話における前記第２ユーザの貢献度を算出する算出部を備えてもよい。

この構成によると、第２ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、第２ユーザの対話における貢献度を算出することができる。例えば、対話に集中していた第２ユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高い第２ユーザの貢献度を高く算出したりすることが可能である。

（８）また、前記判断部は、さらに、前記第２ユーザの感情及び集中度の少なくとも一方の判断結果の履歴に基づいて、当該第２ユーザの感情及び集中度の少なくとも一方の判断結果を補正してもよい。

この構成によると、感情又は集中度の判断結果をスコアにより表現した場合に、感情の起伏や集中度の変化が相対的に小さい第２ユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きい第２ユーザの各スコアとを正規化又は標準化することができる。これにより、第２ユーザ間で感情又は集中度を正確に比較することができる。

（９）本開示の他の実施形態に係る提供方法は、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得するステップと、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第１ユーザに提供するステップとを含む。

この構成は、上述の提供システムが備える特徴的な処理部に対応するステップを含む。このため、この構成によると、上述の提供システムと同様の作用及び効果を奏することができる。

（１０）本開示の他の実施形態に係る提供装置は、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える。

この構成によると、第１ユーザの発話内容に聞き手である第２ユーザの感情及び集中度の少なくとも一方の判断結果が、第１ユーザに提供される。このため、第１ユーザは、自分の発話内容に対し、第２ユーザがどのような感情を抱いているか、又は第２ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第２ユーザは、例えば、発話内容に対して否定的な感情を抱く第２ユーザに対して質問を行ったり、第２ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。

（１１）本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第１ユーザに提供する提供部として機能させる。

この構成によると、コンピュータを、上述の提供装置として機能させることができる。このため、上述の提供装置と同様の作用及び効果を奏することができる。

［本開示の実施形態の詳細］
以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。

また、同一の構成要素には同一の符号を付す。それらの機能及び名称も同様であるため、それらの説明は適宜省略する。

＜実施形態１＞
〔提供システムの全体構成〕
図１は、本開示の実施形態１に係る提供システムの概略構成を示す図である。提供システム１は、相互にネットワーク３を介して接続された第１装置２、第２装置４及び感情・集中力データベース（以下、「感情・集中力ＤＢ」という。）５を備える。

第１装置２は、例えば、第１拠点にいる１又は複数の第１ユーザの映像データ（以下、「映像」という。）及び音声データ（以下、「音声」という。）を取得し、取得した第１ユーザの映像及び音声に基づいて第１ユーザごとに第１ユーザの感情及び集中度の少なくとも一方を判断する。第１装置２は、第１ユーザの映像及び音声と、第１ユーザの感情及び集中度の少なくとも一方とを第２装置４に送信することにより第２装置４に提供する。第１装置２は、例えば、企業の一の事業所である第１拠点に設置される。

第２装置４は、第１装置２から、第１装置２が送信する上記データを受信する。第２装置４は、受信した第１ユーザの映像をディスプレイに表示し、受信した第１ユーザの音声をスピーカーから出力する。また、第２装置４は、受信した第１ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第２装置４に内蔵されていてもよいし、有線又は無線により接続されていてもよい。

第２装置４は、例えば、第２拠点にいる１又は複数の第２ユーザの映像及び音声を取得し、取得した第２ユーザの映像及び音声に基づいて、第２ユーザごとに第２ユーザの感情及び集中度の少なくとも一方を判断する。第２装置４は、第２ユーザの映像及び音声と、第２ユーザの感情及び集中度の少なくとも一方とを第１装置２に送信することにより第１装置２に提供する。第２装置４は、例えば、上記企業の他の事業所である第２拠点に設置される。

第１装置２は、第２装置４から、第２装置４が送信する上記データを受信する。第１装置２は、受信した第２ユーザの映像をディスプレイに表示し、受信した第２ユーザの音声をスピーカーから出力する。また、第１装置２は、受信した第２ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第１装置２に内蔵されていてもよいし、外部接続されていてもよい。

感情・集中力ＤＢ５は、第１装置２及び第２装置４のそれぞれで判断されたユーザごとの感情又は集中度の判断結果の履歴を記憶する。

〔第１装置２の構成〕
図２は、本開示の実施形態１に係る第１装置２の機能的構成を示すブロック図である。

第１装置２は、映像取得部２１と、映像符号化部２２と、映像解析部２３と、音声取得部２４と、音声符号化部２５と、音声解析部２６と、多重化部２７と、感情・集中力判断部２８と、第１送信部２９と、第１受信部３０と、分離部３１と、映像復号化部３２と、音声復号化部３３と、感情・集中力処理部３４と、表示・出力部３５とを備える。

第１装置２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、ＨＤＤに記録されたコンピュータプログラムをＲＡＭ上に展開し、ＣＰＵ上で実行することにより、各処理部２１〜３５は機能的に実現される。ただし、各処理部２１〜３５の一部又は全部がＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアにより実現されていてもよい。

映像取得部２１は、第１取得部として機能し、第１装置２に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部２１は、取得した映像を、映像符号化部２２及び映像解析部２３に出力する。

映像符号化部２２は、映像取得部２１から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部２２は、映像が４Ｋ映像又は８Ｋ映像の場合には、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）に従って映像を符号化する。映像符号化部２２は、符号化済み映像を多重化部２７に出力する。

映像解析部２３は、映像取得部２１から映像を受け、映像に映っているユーザ（以下、「第１ユーザ」という）と第１ユーザの映像中の位置とを特定する。例えば、映像解析部２３は、顔認識アルゴリズムを用いて映像中の第１ユーザを特定する。ただし、第１ユーザを識別するための情報（例えば、ユーザ名）と映像中の第１ユーザの位置を第１装置２の操作者が外部入力により指定するものであってもよい。

映像解析部２３は、当該映像を解析することにより第１ユーザの感情及び集中度を判断する。つまり、映像解析部２３は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部２３が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部２３は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第１ユーザの感情スコアを算出する。

識別器として、例えば、映像を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

また、映像解析部２３は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部２３は、識別器に映像を入力することにより第１ユーザの集中度を算出する。

識別器として、例えば、映像を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

なお、映像解析部２３は、映像中に複数の第１ユーザが含まれる場合には、第１ユーザごとに感情スコア及び集中度を算出する。

映像解析部２３は、第１ユーザを識別するための情報及び第１ユーザの映像中の位置と、算出した第１ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部２８に出力する。

音声取得部２４は、第１取得部として機能し、第１装置２に内蔵又は有線もしくは無線により接続されたマイクから第１ユーザの音声を取得する。音声取得部２４は、取得した第１ユーザの音声を、音声符号化部２５及び音声解析部２６に出力する。

音声符号化部２５は、音声取得部２４から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部２５は、ＭＰＥＧ−４ＡＡＣに従い音声を符号化する。音声符号化部２５は、符号化済み音声を多重化部２７に出力する。

音声解析部２６は、音声取得部２４から音声を受け、音声を発している第１ユーザを特定する。第１ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部２６は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第１ユーザが発話する際に、第１ユーザを識別するための情報を第１ユーザ又は第１装置２の操作者が外部入力するものであってもよい。

音声解析部２６は、当該音声を解析することにより第１ユーザの感情及び集中度を判断する。つまり、音声解析部２６は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部２６が解析対象とする感情の種類は、映像解析部２３が解析対象とする感情の種類と同様である。音声解析部２６は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。

識別器として、例えば、音声を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

また、音声解析部２６は、入力音声に基づいて、第１ユーザの集中度を算出する。

識別器として、例えば、音声を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

なお、音声解析部２６は、音声中に複数の第１ユーザが含まれる場合には、第１ユーザごとに感情スコア及び集中度を算出する。

音声解析部２６は、第１ユーザを識別するための情報と、算出した第１ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部２８に出力する。

多重化部２７は、映像符号化部２２及び音声符号化部２５から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部２７は、ＭＰＥＧ−ＨＭＭＴ（MPEG Media Transport）に従って多重化を行う。多重化部２７は、生成した多重化データを第１送信部２９に出力する。

感情・集中力判断部２８は、映像解析部２３から第１ユーザを識別するための情報及び第１ユーザの映像中の位置と、第１ユーザの感情の種類ごとの感情スコア及び第１ユーザの集中度を受ける。また、感情・集中力判断部２８は、音声解析部２６から第１ユーザを識別するための情報と、第１ユーザの感情の種類ごとの感情スコア及び第１ユーザの集中度を受ける。

感情・集中力判断部２８は、映像解析部２３及び音声解析部２６から受けた第１ユーザの感情の種類ごとの感情スコアに基づいて、第１ユーザの感情を判断する。例えば、感情・集中力判断部２８は、感情の種類ごとに、映像解析部２３から受けた第１ユーザの当該種類に対応する感情スコアと、音声解析部２６から受けた第１ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの感情スコアに応じて変化させてもよい。

なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部２８は、感情の種類ごとに設けられた識別器を用いて、第１ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部２８は、各感情の種類の識別器に映像解析部２３から受けた第１ユーザの当該種類に対応する感情スコアと、音声解析部２６から受けた第１ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第１ユーザの感情スコアを算出する。

識別器として、例えば、映像に基づき算出された感情スコアと音声に基づき算出された感情スコアを入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された感情スコア及び音声に基づき算出された感情スコアと、ニューラルネットワークの設計者が判断した感情スコアとを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

また、感情・集中力判断部２８は、映像解析部２３及び音声解析部２６から受けた第１ユーザの感情の種類ごとの集中度に基づいて、第１ユーザの集中度を判断する。例えば、感情・集中力判断部２８は、映像解析部２３から受けた第１ユーザの集中度と、音声解析部２６から受けた第１ユーザの集中度とを単純加算又は重みづけ加算することで、第１ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの集中度に応じて変化させてもよい。

なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部２８は、識別器を用いて、第１ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部２８は、識別器に映像解析部２３から受けた第１ユーザの集中度と、音声解析部２６から受けた第１ユーザの集中度とを入力することにより、第１ユーザの集中度を算出する。

識別器として、例えば、映像に基づき算出された集中度と音声に基づき算出された集中度を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された集中度及び音声に基づき算出された集中度と、ニューラルネットワークの設計者が判断した集中度とを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、ＡｄａＢｏｏｓｔ、ナイーブベイズ、ｋ近傍法等の他の識別器を用いることができる。

なお、感情・集中力判断部２８は、第１ユーザが複数いる場合には、第１ユーザごとに感情スコア及び集中度を算出する。

感情・集中力判断部２８は、算出した感情の種類ごとの第１ユーザの感情スコアと、第１ユーザの集中度とを、第１ユーザの識別子及び算出時刻と対応付けて感情・集中力ＤＢ５に書き込む。なお、第１ユーザの識別子には、第１ユーザを識別するための情報（例えば、ユーザ名）と、第１ユーザの映像中の位置情報とが含まれるものとする。

なお、感情・集中力判断部２８は、第１ユーザの感情スコアの履歴に基づいて、算出した第１ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部２８は、感情の種類ごとに、過去一定期間の第１ユーザの感情スコアを感情・集中力ＤＢ５から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部２８は、以下の式１に従い、感情の種類ごとに、算出した第１ユーザの感情スコアを、算出した感情スコアの標準偏差及び平均を用いて標準化する。これにより、第１ユーザ間で感情スコアを標準化することができる。

標準化された感情スコア＝（算出した感情スコア−感情スコアの平均）
／感情スコアの標準偏差 …（式１）

また、感情・集中力判断部２８は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部２８は、感情の種類ごとに、過去一定期間の第１ユーザの感情スコアを感情・集中力ＤＢ５から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部２８は、以下の式２に従い、感情の種類ごとに、算出した第１ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第１ユーザ間で感情スコアを正規化することができる。

正規化された感情スコア＝（感情スコア−感情スコアの最小値）
／（感情スコアの最大値−感情スコアの最小値） …（式２）

また、感情・集中力判断部２８は、第１ユーザの集中度の履歴に基づいて、算出した第１ユーザの集中度を補正してもよい。例えば、感情・集中力判断部２８は、過去一定期間の第１ユーザの集中度を感情・集中力ＤＢ５から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部２８は、以下の式３に従い、算出した第１ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第１ユーザ間で集中度を標準化することができる。

標準化された集中度＝（算出した集中度−集中度の平均）
／集中度の標準偏差 …（式３）

また、感情・集中力判断部２８は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部２８は、過去一定期間の第１ユーザの集中度を感情・集中力ＤＢ５から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部２８は、以下の式４に従い、感情の種類ごとに、算出した第１ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第１ユーザ間で集中度を正規化することができる。

正規化された集中度＝（集中度−集中度の最小値）
／（集中度の最大値−集中度の最小値） …（式４）

感情・集中力判断部２８は、算出した感情の種類ごとの第１ユーザの感情スコアと、第１ユーザの集中度とを、第１ユーザの識別子及び算出時刻と合わせて第１送信部２９に出力する。

第１送信部２９は、多重化部２７から多重化データを受け、感情・集中力判断部２８から第１ユーザの識別子及び算出時刻が付加された感情の種類ごとの第１ユーザの感情スコアと、第１ユーザの集中度とを受ける。第１送信部２９は、受けたこれらのデータを、第２装置４に送信する。

第１受信部３０は、第２装置４から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第２ユーザの感情スコアと、第２ユーザの集中度とを受信する。なお、これらのデータには、第２ユーザの識別子と、第２ユーザの感情スコア及び集中度の算出時刻とが付加されている。第１受信部３０は、第２装置４から受信したこれらのデータのセットを分離部３１に出力する。なお、第２ユーザの識別子には、第２ユーザを識別するための情報（例えば、ユーザ名）と、第２ユーザの映像中の位置情報とが含まれているものとする。

分離部３１は、第１受信部３０からデータセットを受け、データセットを分離する。つまり、分離部３１は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部３２及び音声復号化部３３にそれぞれ出力する。また、分離部３１は、データセットから第２ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部３４に出力する。

映像復号化部３２は、分離部３１から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第２装置４における映像の符号化方法に対応する方法とする。例えば、映像が４Ｋ映像又は８Ｋ映像の場合であって、第２装置４がＨ．２６５／ＨＥＶＣに従って映像を符号化した場合には、映像復号化部３２は、Ｈ．２６５／ＨＥＶＣに従って符号化済み映像を復号化する。映像復号化部３２は、復号化した映像を感情・集中力処理部３４及び表示・出力部３５に出力する。

音声復号化部３３は、分離部３１から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第２装置４における音声の符号化方法に対応する方法とする。例えば、第２装置４がＭＰＥＧ−４ＡＡＣに従い音声を符号化した場合には、音声復号化部３３は、ＭＰＥＧ−４ＡＡＣに従い音声を復号化する。音声復号化部３３は、復号化した音声を表示・出力部３５に出力する。

感情・集中力処理部３４は、分離部３１から第２ユーザの識別子及び計測時刻と、第２ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部３４は、映像復号化部３２から映像を受ける。

感情・集中力処理部３４は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部３４は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部３４は、幸せな感情についての感情スコアが８０以上である第２ユーザに対して、当該第２ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部３４は、不快な感情についての感情スコアが８０以上である第２ユーザに対して、当該第２ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。

また、感情・集中力処理部３４は、例えば、映像から第２ユーザの映像を切り出し、切り出した映像の隣に、第２ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。

感情・集中力処理部３４は、作成した表示用データを表示・出力部３５に出力する。

表示・出力部３５は、提供部及び第１出力部として機能し、音声復号化部３３から音声を受け、音声をスピーカーから出力する。

また、表示・出力部３５は、映像復号化部３２から映像を受け、感情・集中力処理部３４から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。

図３は、ディスプレイに表示される映像の一例を示す図である。

映像は、映像表示領域６０と感情履歴通知領域６１とを含む。映像表示領域６０には、映像復号化部３２から受けた映像が表示される。ここでは、第２ユーザであるユーザ７１Ａ〜７１Ｃが表示されている。また、ユーザ７１Ａ〜７１Ｃの近傍には、感情・集中力処理部３４から受けた表示用データに示されるアイコン７２Ａ〜７２Ｃがそれぞれ表示されている。アイコン７２Ａ及び７２Ｃは幸せな感情に対応したアイコンであり、アイコン７２Ｂは不快な感情に対応したアイコンである。つまり、ユーザ７１Ａ及びユーザ７１Ｃの幸せな感情についての感情スコアは８０以上であり、アイコン７２Ｂの不快な感情についての感情スコアは８０以上であることが示されている。

感情履歴通知領域６１には、映像から切り出されたユーザ７１Ａ〜７１Ｃの映像が表示されている。また、その隣には、第２ユーザごとに判断結果７３Ａ〜７３Ｃが表示されている。判断結果７３Ａ〜７３Ｃは、ユーザ７１Ａ〜７１Ｃから検出された感情及び感情の計測時刻と、集中度とがそれぞれ示されている。例えば、判断結果７３Ａは、１４：１０：２５にユーザ７１Ａの幸せな感情についての感情スコアが８０以上になったことと、その時の集中度が８０％であることとを示している。また、判断結果７３Ｂは、１４：０８：１０にユーザ７１Ｂの不快な感情についての感情スコアが８０以上になったことと、その時の集中度が６０％であることとを示している。さらに、判断結果７３Ｃは、１４：０７：５０にユーザ７１Ｃの幸せな感情についての感情スコアが８０以上になったことと、その時の集中度が９０％であることとを示している。なお、判断結果７３Ａ〜７３Ｃは、計測時刻の集中度ではなく、現在時刻の集中度を示してもよい。

〔第２装置４の構成〕
図４は、本開示の実施形態１に係る第２装置４の機能的構成を示すブロック図である。第２装置４の構成は、第１装置２の構成と対をなす。

第２装置４は、映像取得部４１と、映像符号化部４２と、映像解析部４３と、音声取得部４４と、音声符号化部４５と、音声解析部４６と、多重化部４７と、感情・集中力判断部４８と、第２送信部４９と、第２受信部５０と、分離部５１と、映像復号化部５２と、音声復号化部５３と、感情・集中力処理部５４と、表示・出力部５５とを備える。

第２装置４は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＨＤＤ、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、ＨＤＤに記録されたコンピュータプログラムをＲＡＭ上に展開し、ＣＰＵ上で実行することにより、各処理部２１〜３５は機能的に実現される。ただし、各処理部４１〜５５の一部又は全部がＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等のハードウェアにより実現されていてもよい。

映像取得部４１は、第２取得部として機能し、第２装置４に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部４１は、取得した映像を、映像符号化部４２及び映像解析部４３に出力する。

映像符号化部４２は、映像取得部４１から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部４２は、映像が４Ｋ映像又は８Ｋ映像の場合には、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）に従って映像を符号化する。映像符号化部４２は、符号化済み映像を多重化部４７に出力する。

映像解析部４３は、映像取得部４１から映像を受け、映像に映っているユーザ（以下、「第２ユーザ」という）と第２ユーザの映像中の位置とを特定する。例えば、映像解析部４３は、顔認識アルゴリズムを用いて映像中の第２ユーザを特定する。ただし、第２ユーザを識別するための情報（例えば、ユーザ名）と映像中の第２ユーザの位置を第２装置４の操作者が外部入力により指定するものであってもよい。

映像解析部４３は、判断部として機能し、当該映像を解析することにより第２ユーザの感情及び集中度を判断する。つまり、映像解析部４３は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部４３が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部４３は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第２ユーザの感情スコアを算出する。

また、映像解析部４３は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部４３は、識別器に映像を入力することにより第２ユーザの集中度を算出する。

なお、映像解析部４３は、映像中に複数の第２ユーザが含まれる場合には、第２ユーザごとに感情スコア及び集中度を算出する。

映像解析部４３は、第２ユーザを識別するための情報及び第２ユーザの映像中の位置と、算出した第２ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部４８に出力する。

音声取得部４４は、第２取得部として機能し、第２装置４に内蔵又は有線もしくは無線により接続されたマイクから第２ユーザの音声を取得する。音声取得部４４は、取得した第２ユーザの音声を、音声符号化部４５及び音声解析部４６に出力する。

音声符号化部４５は、音声取得部４４から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部４５は、ＭＰＥＧ−４ＡＡＣに従い音声を符号化する。音声符号化部４５は、符号化済み音声を多重化部４７に出力する。

音声解析部４６は、音声取得部４４から音声を受け、音声を発している第２ユーザを特定する。第２ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部４６は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第２ユーザが発話する際に、第２ユーザを識別するための情報を第２ユーザ又は第２装置４の操作者が外部入力するものであってもよい。

音声解析部４６は、判断部として機能し、当該音声を解析することにより第２ユーザの感情及び集中度を判断する。つまり、音声解析部４６は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部４６が解析対象とする感情の種類は、映像解析部４３が解析対象とする感情の種類と同様である。音声解析部４６は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。

また、音声解析部４６は、入力音声に基づいて、第２ユーザの集中度を算出する。

なお、音声解析部４６は、音声中に複数の第２ユーザが含まれる場合には、第２ユーザごとに感情スコア及び集中度を算出する。

音声解析部４６は、第２ユーザを識別するための情報と、算出した第２ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部４８に出力する。

多重化部４７は、映像符号化部４２及び音声符号化部４５から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部４７は、ＭＰＥＧ−ＨＭＭＴに従って多重化を行う。多重化部４７は、生成した多重化データを第２送信部４９に出力する。

感情・集中力判断部４８は、映像解析部４３から第２ユーザを識別するための情報及び第２ユーザの映像中の位置と、第２ユーザの感情の種類ごとの感情スコア及び第２ユーザの集中度を受ける。また、感情・集中力判断部４８は、音声解析部４６から第２ユーザを識別するための情報と、第２ユーザの感情の種類ごとの感情スコア及び第２ユーザの集中度を受ける。

感情・集中力判断部４８は、判断部として機能し、映像解析部４３及び音声解析部４６から受けた第２ユーザの感情の種類ごとの感情スコアに基づいて、第２ユーザの感情を判断する。例えば、感情・集中力判断部４８は、感情の種類ごとに、映像解析部４３から受けた第２ユーザの当該種類に対応する感情スコアと、音声解析部４６から受けた第２ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの感情スコアに応じて変化させてもよい。

なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部４８は、感情の種類ごとに設けられた識別器を用いて、第２ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部４８は、各感情の種類の識別器に映像解析部４３から受けた第２ユーザの当該種類に対応する感情スコアと、音声解析部４６から受けた第２ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第２ユーザの感情スコアを算出する。

また、感情・集中力判断部４８は、映像解析部４３及び音声解析部４６から受けた第２ユーザの感情の種類ごとの集中度に基づいて、第２ユーザの集中度を判断する。例えば、感情・集中力判断部４８は、映像解析部４３から受けた第２ユーザの集中度と、音声解析部４６から受けた第２ユーザの集中度とを単純加算又は重みづけ加算することで、第２ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの集中度に応じて変化させてもよい。

なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部４８は、識別器を用いて、第２ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部４８は、識別器に映像解析部４３から受けた第２ユーザの集中度と、音声解析部４６から受けた第２ユーザの集中度とを入力することにより、第２ユーザの集中度を算出する。

なお、感情・集中力判断部４８は、第２ユーザが複数いる場合には、第２ユーザごとに感情スコア及び集中度を算出する。

感情・集中力判断部４８は、算出した感情の種類ごとの第２ユーザの感情スコアと、第２ユーザの集中度とを、第２ユーザの識別子及び算出時刻と対応付けて感情・集中力ＤＢ５に書き込む。なお、第２ユーザの識別子には、第２ユーザを識別するための情報（例えば、ユーザ名）と、第２ユーザの映像中の位置情報とが含まれるものとする。

なお、感情・集中力判断部４８は、第２ユーザの感情スコアの履歴に基づいて、算出した第２ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部４８は、感情の種類ごとに、過去一定期間の第２ユーザの感情スコアを感情・集中力ＤＢ５から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部４８は、上述の式１に従い、感情の種類ごとに、算出した第２ユーザの感情スコアを、算出した感情スコアの標準偏差及び分散を用いて標準化する。これにより、第２ユーザ間で感情スコアを標準化することができる。

また、感情・集中力判断部４８は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部４８は、感情の種類ごとに、過去一定期間の第２ユーザの感情スコアを感情・集中力ＤＢ５から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部４８は、上述の式２に従い、感情の種類ごとに、算出した第２ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第２ユーザ間で感情スコアを正規化することができる。

また、感情・集中力判断部４８は、第２ユーザの集中度の履歴に基づいて、算出した第２ユーザの集中度を補正してもよい。例えば、感情・集中力判断部４８は、過去一定期間の第２ユーザの集中度を感情・集中力ＤＢ５から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部４８は、上述の式３に従い、算出した第２ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第２ユーザ間で集中度を標準化することができる。

また、感情・集中力判断部４８は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部４８は、過去一定期間の第２ユーザの集中度を感情・集中力ＤＢ５から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部４８は、上述の式４に従い、感情の種類ごとに、算出した第２ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第２ユーザ間で集中度を正規化することができる。

感情・集中力判断部４８は、算出した感情の種類ごとの第２ユーザの感情スコアと、第２ユーザの集中度とを、第２ユーザの識別子及び算出時刻と合わせて第２送信部４９に出力する。

第２送信部４９は、多重化部４７から多重化データを受け、感情・集中力判断部４８から第２ユーザの識別子及び算出時刻が付加された感情の種類ごとの第２ユーザの感情スコアと、第２ユーザの集中度とを受ける。第２送信部４９は、受けたこれらのデータを、第１装置２に送信する。

第２受信部５０は、第１装置２から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第１ユーザの感情スコアと、第１ユーザの集中度とを受信する。なお、これらのデータには、第１ユーザの識別子と、第１ユーザの感情スコア及び集中度の算出時刻とが付加されている。第２受信部５０は、第１装置２から受信したこれらのデータのセットを分離部５１に出力する。なお、第１ユーザの識別子には、第１ユーザを識別するための情報（例えば、ユーザ名）と、第１ユーザの映像中の位置情報とが含まれているものとする。

分離部５１は、第２受信部５０からデータセットを受け、データセットを分離する。つまり、分離部５１は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部５２及び音声復号化部５３にそれぞれ出力する。また、分離部５１は、データセットから第１ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部５４に出力する。

映像復号化部５２は、分離部５１から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第１装置２における映像の符号化方法に対応する方法とする。例えば、映像が４Ｋ映像又は８Ｋ映像の場合であって、第１装置２がＨ．２６５／ＨＥＶＣに従って映像を符号化した場合には、映像復号化部５２は、Ｈ．２６５／ＨＥＶＣに従って符号化済み映像を復号化する。映像復号化部５２は、復号化した映像を感情・集中力処理部５４及び表示・出力部５５に出力する。

音声復号化部５３は、分離部５１から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第１装置２における音声の符号化方法に対応する方法とする。例えば、第１装置２がＭＰＥＧ−４ＡＡＣに従い音声を符号化した場合には、音声復号化部５３は、ＭＰＥＧ−４ＡＡＣに従い音声を復号化する。音声復号化部５３は、復号化した音声を表示・出力部５５に出力する。

感情・集中力処理部５４は、分離部５１から第１ユーザの識別子及び計測時刻と、第１ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部５４は、映像復号化部５２から映像を受ける。

感情・集中力処理部５４は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部５４は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部５４は、幸せな感情についての感情スコアが８０以上である第１ユーザに対して、当該第１ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部５４は、不快な感情についての感情スコアが８０以上である第１ユーザに対して、当該第１ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。

また、感情・集中力処理部５４は、例えば、映像から第１ユーザの映像を切り出し、切り出した映像の隣に、第１ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。

感情・集中力処理部５４は、作成した表示用データを表示・出力部５５に出力する。

表示・出力部５５は、第２出力部として機能し、音声復号化部５３から音声を受け、音声をスピーカーから出力する。

また、表示・出力部５５は、映像復号化部５２から映像を受け、感情・集中力処理部５４から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。

〔提供システム１の処理フロー〕
図５は、本開示の実施形態１に係る提供システム１による、第１装置２から第２装置４への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

第１装置２の映像取得部２１は、カメラから映像を取得する（Ｓ１）。

第１装置２の音声取得部２４は、マイクから音声を取得する（Ｓ２）。

第１装置２の映像解析部２３は、ステップＳ１において取得された映像を解析することにより、映像から第１ユーザを特定し、第１ユーザの位置、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ３）。

第１装置２の音声解析部２６は、ステップＳ２において取得された音声を解析することにより、音声から第１ユーザを特定し、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ４）。

第１装置２の感情・集中力判断部２８は、ステップＳ３において決定された第１ユーザの感情の種類ごとの感情スコア及び集中度と、ステップＳ４において決定された第１ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ５）。

第１装置２の映像符号化部２２は、ステップＳ１において取得された映像を符号化する（Ｓ６）。

第１装置２の音声符号化部２５は、ステップＳ２において取得された音声を符号化する（Ｓ７）。

第１装置２の多重化部２７は、ステップＳ６において符号化された映像と、ステップＳ７において符号化された音声とを多重化し、多重化データを生成する（Ｓ８）。

第１装置２の第１送信部２９は、ステップＳ８において生成された多重化データと、ステップＳ５において決定された第１ユーザの感情の種類ごとの感情スコア及び集中度に第１ユーザの識別子及び算出時刻が付加されたデータセットを、第２装置４に送信する。第２装置４の第２受信部５０は、当該データセットを受信する（Ｓ９）。

第２装置４の第２受信部５０は、ステップＳ９において受信されたデータセットを、符号化済み映像、符号化済み音声、第１ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する（Ｓ１０）。

第２装置４の映像復号化部５２は、ステップＳ１０において分離された符号化済み映像を復号化する（Ｓ１１）。

第２装置４の音声復号化部５３は、ステップＳ１０において分離された符号化済み音声を復号化する（Ｓ１２）。

第２装置４の感情・集中力処理部５４は、ステップＳ１１において復号化された映像と、ステップＳ１０において分離された第１ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第１ユーザの感情及び集中度を表示するための表示用データを作成する（Ｓ１３）。

第２装置４の表示・出力部５５は、ステップＳ１３において作成された表示用データをステップＳ１１において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる（Ｓ１４）。

第２装置４の表示・出力部５５は、ステップＳ１２において復号された音声をスピーカーから出力する（Ｓ１５）。

図５に示した処理を実行することにより、第１ユーザの感情及び集中度が第２ユーザに提供されることになる。

図６は、本開示の実施形態１に係る提供システム１による、第２装置４から第１装置２への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

第２装置４の映像取得部４１は、カメラから映像を取得する（Ｓ２１）。

第２装置４の音声取得部４４は、マイクから音声を取得する（Ｓ２２）。

第２装置４の映像解析部４３は、ステップＳ２１で取得された映像を解析することにより、映像から第２ユーザを特定し、第２ユーザの位置、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ２３）。

第２装置４の音声解析部４６は、ステップＳ２２において取得された音声を解析することにより、音声から第２ユーザを特定し、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ２４）。

第２装置４の感情・集中力判断部４８は、ステップＳ２３において決定された第２ユーザの感情の種類ごとの感情スコア及び集中度と、ステップＳ２４において決定された第２ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ２５）。

第２装置４の映像符号化部４２は、ステップＳ２１において取得された映像を符号化する（Ｓ２６）。

第２装置４の音声符号化部４５は、ステップＳ２２において取得された音声を符号化する（Ｓ２７）。

第２装置４の多重化部４７は、ステップＳ２６において符号化された映像と、ステップＳ２７において符号化された音声とを多重化し、多重化データを生成する（Ｓ２８）。

第２装置４の第２送信部４９は、ステップＳ２８において生成された多重化データと、ステップＳ２５において決定された第２ユーザの感情の種類ごとの感情スコア及び集中度に第２ユーザの識別子及び算出時刻が付加されたデータセットを、第１装置２に送信する。第１装置２の第１受信部３０は、当該データセットを受信する（Ｓ２９）。

第１装置２の第１受信部３０は、ステップＳ２９において受信されたデータセットを、符号化済み映像、符号化済み音声、第２ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する（Ｓ３０）。

第１装置２の映像復号化部３２は、ステップＳ３０において分離された符号化済み映像を復号化する（Ｓ３１）。

第１装置２の音声復号化部３３は、ステップＳ３０において分離された符号化済み音声を復号化する（Ｓ３２）。

第１装置２の感情・集中力処理部３４は、ステップＳ３１において復号化された映像と、ステップＳ３０において分離された第２ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第２ユーザの感情及び集中度を表示するための表示用データを作成する（Ｓ３３）。

第１装置２の表示・出力部３５は、ステップＳ３３において作成された表示用データをステップＳ３１において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる（Ｓ３４）。

第１装置２の表示・出力部３５は、ステップＳ３２において復号された音声をスピーカーから出力する（Ｓ３５）。

図６に示した処理を実行することにより、第２ユーザの感情及び集中度が第１ユーザに提供されることになる。

〔実施形態１の効果等〕
実施形態１によると、第１ユーザの発話内容の聞き手である第２ユーザの感情及び集中度の少なくとも一方の判断結果が、第１ユーザに提供される。このため、第１ユーザは、自分の発話内容に対し、第２ユーザがどのような感情を抱いているか、又は第２ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第１ユーザは、例えば、発話内容に対して否定的な感情を抱く第２ユーザに対して質問を行ったり、第２ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。

同様に、第２ユーザの発話内容の聞き手である第１ユーザの感情及び集中度の少なくとも一方の判断結果が、第２ユーザに提供される。これにより、第２ユーザも、第１ユーザと同様の対策を行うことが可能である。

また、第２ユーザの音声を考慮して第２ユーザの感情及び集中度の少なくとも一方が判断される。このため、第２ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第２ユーザの感情又は集中度を高精度で判断することができる。第１ユーザの感情及び集中度の判断においても同様である。

また、第１ユーザと第２ユーザとの間でネットワーク３越しに対話を行い、第２ユーザの感情及び集中度の少なくとも一方の判断結果を第１ユーザに提供することができる。このため、例えば、第１ユーザを会議の進行役とする電子会議システムにおいて、第１ユーザが第２ユーザの感情又は集中度を把握しながら、第２ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、第１装置２は、第２ユーザの場合と同様に、第１ユーザの音声及び映像から第１ユーザの感情及び集中度の少なくとも一方を判断し、第２装置４が、第１ユーザの感情及び集中度の少なくとも一方の判断結果をディスプレイに表示する。これにより、第１ユーザ及び第２ユーザは、相互に相手の感情又は集中度を把握することができる。

また、第１装置２で第１ユーザの感情及び集中度を判断し、第２装置４で第２ユーザの感情及び集中度を判断している。このため、第１装置２は、第２装置４に映像を送信しないようにしてもよく、第２装置４は、第１装置２に映像を送信しないようにしてもよい。これにより、第１装置２から第２装置４への伝送データを削減しつつ、第１ユーザの感情又は集中度の判断結果を第２装置４に送信することができる。また、第２装置４から第１装置２への伝送データを削減しつつ、第２ユーザの感情又は集中度の判断結果を第１装置２に送信することができる。

なお、第１装置２の感情・集中力処理部３４は、第２ユーザの感情に基づく表情を有する第２ユーザのアバターを表示させるための表示用データを作成してもよい。同様に、第２装置４の感情・集中力処理部５４は、第１ユーザの感情に基づく第１ユーザのアバターを表示させるための表示用データを作成してもよい。これにより、ユーザの映像の代わりにアバターを表示させることができるため、第２ユーザ及び第１ユーザのプライバシーを保護することもできる。

また、第１装置２の感情・集中力判断部２８及び第２装置４の感情・集中力判断部４８は、過去のユーザの感情スコア及び集中度に基づいて、感情スコア及び集中度を標準化することができる。つまり、感情の起伏や集中度の変化が相対的に小さいユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きいユーザの各スコアとを標準化することができる。これにより、ユーザ間で感情又は集中度を正確に比較することができる。

＜実施形態２＞
実施形態１では、第１装置２が第１ユーザの感情及び集中度を判断し、第２装置４が第２ユーザの感情及び集中度を判断した。実施形態２では、第１装置２が第２ユーザの感情及び集中度を判断し、第２装置４が第１ユーザの感情及び集中度を判断する例について説明する。

実施形態２に係る提供システム１の構成は実施形態１と同様である。

〔第１装置２の構成〕
図７は、本開示の実施形態２に係る第１装置２の機能的構成を示すブロック図である。

第１装置２は、映像取得部２１と、映像符号化部２２と、音声取得部２４と、音声符号化部２５と、多重化部２７と、第１送信部２９と、第１受信部３０と、分離部３１と、映像復号化部３２と、音声復号化部３３と、映像解析部２３と、音声解析部２６と、感情・集中力判断部２８と、表示・出力部３５とを備える。

映像取得部２１、映像符号化部２２、音声取得部２４、音声符号化部２５及び多重化部２７の処理は、実施形態１と同様である。

第１送信部２９は、多重化部２７から多重化データを受け、当該多重化データを第２装置４に送信する。

第１受信部３０は、第２装置４から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第１受信部３０は、受信した多重化データを分離部３１に出力する。

分離部３１は、第１受信部３０から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部３１は、分離した符号化済み映像および符号化済み音声を映像復号化部３２及び音声復号化部３３にそれぞれ出力する。

映像復号化部３２及び音声復号化部３３の処理は、実施形態１と同様である。映像復号化部３２は、映像取得部として機能し、復号化した映像を映像解析部２３及び感情・集中力判断部２８に出力し、音声復号化部３３は、音声取得部として機能し、復号化した音声を音声解析部２６に出力する。

映像解析部２３は、映像復号化部３２から映像を受け、映像に映っている第２ユーザと第２ユーザの映像中の位置とを特定する。また、映像解析部２３は、判断部として機能し、当該映像を解析することにより第２ユーザの感情及び集中度を判断する。映像解析部２３は、第２ユーザを識別するための情報及び第２ユーザの映像中の位置と、算出した第２ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部２８に出力する。なお、映像解析部２３の処理は、処理の対象とするユーザが第２ユーザである点を除いて実施形態１の映像解析部２３と同様である。

音声解析部２６は、音声復号化部３３から音声を受け、音声を発している第２ユーザを特定する。また、音声解析部２６は、判断部として機能し、当該音声を解析することにより、第２ユーザの感情及び集中度を判断する。音声解析部２６は、第２ユーザを識別するための情報と、算出した第２ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部２８に出力する。なお、音声解析部２６の処理は、処理の対象とするユーザが第２ユーザである点を除いて実施形態１の音声解析部２６と同様である。

感情・集中力判断部２８は、映像解析部２３から第２ユーザを識別するための情報及び第２ユーザの映像中の位置と、第２ユーザの感情の種類ごとの感情スコア及び第２ユーザの集中度を受ける。また、感情・集中力判断部２８は、音声解析部２６から第２ユーザを識別するための情報と、第２ユーザの感情の種類ごとの感情スコア及び第２ユーザの集中度を受ける。

感情・集中力判断部２８は、判断部として機能し、映像解析部２３及び音声解析部２６から受けた第２ユーザの感情の種類ごとの感情スコアに基づいて、第２ユーザの感情を判断する。例えば、感情・集中力判断部２８は、感情の種類ごとに、映像解析部２３から受けた第２ユーザの当該種類に対応する感情スコアと、音声解析部２６から受けた第２ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの感情スコアに応じて変化させてもよい。

また、感情・集中力判断部２８は、映像解析部２３及び音声解析部２６から受けた第２ユーザの感情の種類ごとの集中度に基づいて、第２ユーザの集中度を判断する。例えば、感情・集中力判断部２８は、映像解析部２３から受けた第２ユーザの集中度と、音声解析部２６から受けた第２ユーザの集中度とを単純加算又は重みづけ加算することで、第２ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの集中度に応じて変化させてもよい。

なお、感情・集中力判断部２８は、第２ユーザが複数いる場合には、第２ユーザごとに感情スコア及び集中度を算出する。

また、感情・集中力判断部２８は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部２８は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部２８は、幸せな感情についての感情スコアが８０以上である第２ユーザに対して、当該第２ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部２８は、不快な感情についての感情スコアが８０以上である第２ユーザに対して、当該第２ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。

また、感情・集中力判断部２８は、例えば、映像から第２ユーザの映像を切り出し、切り出した映像の隣に、第２ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。

感情・集中力判断部２８は、作成した表示用データを表示・出力部３５に出力する。

表示・出力部３５の処理は、実施形態１の表示・出力部３５と同様である。

〔第２装置４の構成〕
図８は、本開示の実施形態２に係る第２装置４の機能的構成を示すブロック図である。

第２装置４は、映像取得部４１と、映像符号化部４２と、音声取得部４４と、音声符号化部４５と、多重化部４７と、第２送信部４９と、第２受信部５０と、分離部５１と、映像復号化部５２と、音声復号化部５３と、映像解析部４３と、音声解析部４６と、感情・集中力判断部４８と、表示・出力部５５とを備える。

映像取得部４１、映像符号化部４２、音声取得部４４、音声符号化部４５及び多重化部４７の処理は、実施形態１と同様である。

第２送信部４９は、多重化部４７から多重化データを受け、当該多重化データを第１装置２に送信する。

第２受信部５０は、第１装置２から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第２受信部５０は、受信した多重化データを分離部５１に出力する。

分離部５１は、第２受信部５０から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部５１は、分離した符号化済み映像および符号化済み音声を映像復号化部５２及び音声復号化部５３にそれぞれ出力する。

映像復号化部５２及び音声復号化部５３の処理は、実施形態１と同様である。映像復号化部５２は、復号化した映像を映像解析部４３及び感情・集中力判断部４８に出力し、音声復号化部５３は、復号化した音声を音声解析部４６に出力する。

映像解析部４３は、映像復号化部５２から映像を受け、映像に映っている第１ユーザと第１ユーザの映像中の位置とを特定する。また、映像解析部４３は、当該映像を解析することにより第１ユーザの感情及び集中度を判断する。映像解析部４３は、第１ユーザを識別するための情報及び第１ユーザの映像中の位置と、算出した第１ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部４８に出力する。なお、映像解析部４３の処理は、処理の対象とするユーザが第１ユーザである点を除いて実施形態１の映像解析部４３と同様である。

音声解析部４６は、音声復号化部５３から音声を受け、音声を発している第１ユーザを特定する。また、音声解析部４６は、当該音声を解析することにより、第１ユーザの感情及び集中度を判断する。音声解析部４６は、第１ユーザを識別するための情報と、算出した第１ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部４８に出力する。なお、音声解析部４６の処理は、処理の対象とするユーザが第１ユーザである点を除いて実施形態１の音声解析部４６と同様である。

感情・集中力判断部４８は、映像解析部４３から第１ユーザを識別するための情報及び第１ユーザの映像中の位置と、第１ユーザの感情の種類ごとの感情スコア及び第１ユーザの集中度を受ける。また、感情・集中力判断部４８は、音声解析部４６から第１ユーザを識別するための情報と、第１ユーザの感情の種類ごとの感情スコア及び第１ユーザの集中度を受ける。

感情・集中力判断部４８は、映像解析部４３及び音声解析部４６から受けた第１ユーザの感情の種類ごとの感情スコアに基づいて、第１ユーザの感情を判断する。例えば、感情・集中力判断部４８は、感情の種類ごとに、映像解析部４３から受けた第１ユーザの当該種類に対応する感情スコアと、音声解析部４６から受けた第１ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの感情スコアに応じて変化させてもよい。

また、感情・集中力判断部４８は、映像解析部４３及び音声解析部４６から受けた第１ユーザの感情の種類ごとの集中度に基づいて、第１ユーザの集中度を判断する。例えば、感情・集中力判断部４８は、映像解析部４３から受けた第１ユーザの集中度と、音声解析部４６から受けた第１ユーザの集中度とを単純加算又は重みづけ加算することで、第１ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、２つの集中度に応じて変化させてもよい。

なお、感情・集中力判断部４８は、第１ユーザが複数いる場合には、第１ユーザごとに感情スコア及び集中度を算出する。

また、感情・集中力判断部４８は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部４８は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部４８は、幸せな感情についての感情スコアが８０以上である第１ユーザに対して、当該第１ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部４８は、不快な感情についての感情スコアが８０以上である第１ユーザに対して、当該第１ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。

また、感情・集中力判断部４８は、例えば、映像から第１ユーザの映像を切り出し、切り出した映像の隣に、第１ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。

感情・集中力判断部４８は、作成した表示用データを表示・出力部５５に出力する。

表示・出力部５５の処理は、実施形態１の表示・出力部５５と同様である。

〔提供システム１の処理フロー〕
図９は、本開示の実施形態２に係る提供システム１による、第１装置２から第２装置４への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

第１装置２は、図４に示したのと同様のステップＳ１、Ｓ２、Ｓ６〜Ｓ８の処理を実行する。

第１装置２の第１送信部２９は、ステップＳ８において生成された多重化データを第２装置４に送信し、第２装置４の第２受信部５０は当該多重化データを受信する（Ｓ１６）。

第２装置４の分離部５１は、ステップＳ１６において受信された多重化データを符号化済み映像及び符号化済み音声に分離する（Ｓ１０）。

第２装置４は、図４に示したのと同様のステップＳ１１及びＳ１２の処理を実行する。

第２装置４の映像解析部４３は、ステップＳ１１において復号された映像を解析することにより、映像から第１ユーザを特定し、第１ユーザの位置、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ１７）。

第２装置４の音声解析部４６は、ステップＳ１２において復号された音声を解析することにより、音声から第１ユーザを特定し、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ１８）。

第２装置４の感情・集中力判断部４８は、ステップＳ１７において決定された第１ユーザの感情の種類ごとの感情スコア及び集中度と、ステップＳ１８において決定された第１ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第１ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部４８は、ステップＳ１１において復号化された映像と、決定された第１ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第１ユーザの感情及び集中度を表示するための表示用データを作成する（Ｓ１９）。

第２装置４の表示・出力部５５は、ステップＳ１９において作成された表示用データをステップＳ１１において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる（Ｓ１４）。

図９に示した処理を実行することにより、第１ユーザの感情及び集中度が第２ユーザに提供されることになる。

図１０は、本開示の実施形態２に係る提供システム１による、第２装置４から第１装置２への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

第２装置４は、図５に示したのと同様のステップＳ２１、Ｓ２２、Ｓ２６〜Ｓ２８の処理を実行する。

第２装置４の第２送信部４９は、ステップＳ２８において生成された多重化データを第１装置２に送信し、第１装置２の第１受信部３０は当該多重化データを受信する（Ｓ３６）。

第１装置２の分離部３１は、ステップＳ３６において受信された多重化データを符号化済み映像及び符号化済み音声に分離する（Ｓ３０）。

第１装置２は、図５に示したのと同様のステップＳ３１及びＳ３２の処理を実行する。

第１装置２の映像解析部２３は、ステップＳ３１において復号された映像を解析することにより、映像から第２ユーザを特定し、第２ユーザの位置、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ３７）。

第１装置２の音声解析部２６は、ステップＳ３２において復号された音声を解析することにより、音声から第２ユーザを特定し、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する（Ｓ３８）。

第１装置２の感情・集中力判断部２８は、ステップＳ３７において決定された第２ユーザの感情の種類ごとの感情スコア及び集中度と、ステップＳ３８において決定された第２ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第２ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部２８は、ステップＳ３１において復号化された映像と、決定された第２ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第２ユーザの感情及び集中度を表示するための表示用データを作成する（Ｓ３９）。

第１装置２の表示・出力部５５は、ステップＳ３９において作成された表示用データをステップＳ３１において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる（Ｓ３４）。

第１装置２の表示・出力部５５は、ステップＳ３２において復号された音声をスピーカーから出力する（Ｓ３５）。

図１０に示した処理を実行することにより、第２ユーザの感情及び集中度が第２ユーザに提供されることになる。

〔実施形態２の効果等〕
実施形態２によると、第１装置２が、第２装置４から送信される第２ユーザの音声及び映像に基づいて、第２ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第１装置２は、第２ユーザの音声及び映像と第２ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第２ユーザの音声及び映像と第２ユーザの感情又は集中度とを正確に対応付けて第１ユーザに提供することができる。

また、第２装置４が、第１装置２から送信される第１ユーザの音声及び映像に基づいて、第１ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第２装置４は、第１ユーザの音声及び映像と第１ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第１ユーザの音声及び映像と第１ユーザの感情又は集中度とを正確に対応付けて第２ユーザに提供することができる。

＜実施形態３＞
実施形態１及び２に示した提供システム１では、相手側の装置を利用するユーザの感情又は集中度をユーザに提示することはできるのの、当該感情又は集中度に基づいた処理はなされていない。

実施形態３では、ユーザの感情又は集中度に基づいて、所定の処理を実行する例について説明する。具体的には、感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザに対して発言を促す提供システム１について説明する。

実施形態３に係る提供システム１の構成は実施形態１と同様である。

〔第１装置２の構成〕
図１１は、本開示の実施形態３に係る第１装置２の機能的構成を示すブロック図である。実施形態３に係る第１装置２の構成は、実施形態１と同様である。ただし、感情・集中力処理部３４の処理結果が第１送信部２９に入力される点が、実施形態１と異なる。

感情・集中力処理部３４は、発言促進部として機能し、分離部３１から受けた第２ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第２ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部３４は、集中度と所定の閾値とを比較し、第２ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部３４は、集中度が所定の閾値（例えば、３０）未満の第２ユーザに対して発言を促すことを決定する。

また、感情・集中力処理部３４は、所定の種類の感情と所定の閾値とを比較し、第２ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部３４は、怒りの感情が所定の閾値（例えば、９０）以上の第２ユーザに対して発言を促すことを決定する。また、感情・集中力処理部３４は、喜びの感情が所定の閾値（例えば、３０）未満の第２ユーザに対して発言を促すことを決定する。

感情・集中力処理部３４は、発言を促す第２ユーザを特定した（第２ユーザの識別子を含む）発言促進指示信号を第１送信部２９に出力する。

第１送信部２９は、感情・集中力処理部３４から発言促進指示信号を受け、当該発言促進指示信号を第２装置４に送信する。

一方、第２装置４から発言を促進する第１ユーザを特定した発言促進指示信号が送信された場合には、第１受信部３０は、当該信号を受信し、分離部３１に出力する。

分離部３１は、第１受信部３０から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部３４に出力する。

感情・集中力処理部３４は、分離部３１から発言促進指示信号を受けた場合には、発言促進指示信号に示される第１ユーザに発言を促すための表示用データ作成し、表示・出力部３５に出力する。例えば、感情・集中力処理部３４は、第１ユーザのユーザ名が「Ａ」である場合には、「Ａさんは何か意見ありませんか？」などのようなメッセージの表示用データを作成する。

表示・出力部３５は、感情・集中力処理部３４から表示用データを受け、当該表示用データをディスプレイに表示させる。

図１２は、本開示の実施形態３に係る第２装置４の機能的構成を示すブロック図である。実施形態３に係る第２装置４の構成は、実施形態１と同様である。ただし、感情・集中力処理部５４の処理結果が第２送信部４９に入力される点が、実施形態１と異なる。

感情・集中力処理部５４は、分離部５１から受けた第１ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第１ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部５４は、集中度と所定の閾値とを比較し、第１ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部５４は、集中度が所定の閾値（例えば、３０）未満の第１ユーザに対して発言を促すことを決定する。

また、感情・集中力処理部５４は、所定の種類の感情と所定の閾値とを比較し、第１ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部５４は、怒りの感情が所定の閾値（例えば、９０）以上の第１ユーザに対して発言を促すことを決定する。また、感情・集中力処理部５４は、喜びの感情が所定の閾値（例えば、３０）未満の第１ユーザに対して発言を促すことを決定する。

感情・集中力処理部５４は、発言を促す第１ユーザを特定した（第１ユーザの識別子を含む）発言促進指示信号を第２送信部４９に出力する。

第２送信部４９は、感情・集中力処理部５４から発言促進指示信号を受け、当該発言促進指示信号を第１装置２に送信する。

一方、第１装置２から発言を促進する第２ユーザを特定した発言促進指示信号が送信された場合には、第２受信部５０は、当該信号を受信し、分離部５１に出力する。

分離部５１は、第２受信部５０から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部５４に出力する。

感情・集中力処理部５４は、分離部５１から発言促進指示信号を受けた場合には、発言促進指示信号に示される第２ユーザに発言を促すための表示用データ作成し、表示・出力部５５に出力する。例えば、感情・集中力処理部５４は、第２ユーザのユーザ名が「Ｂ」である場合には、「Ｂさんは何か意見ありませんか？」などのようなメッセージの表示用データを作成する。

表示・出力部５５は、感情・集中力処理部５４から表示用データを受け、当該表示用データをディスプレイに表示させる。

〔提供システム１の処理フロー〕
図１３は、本開示の実施形態３に係る提供システム１による、第１装置２から第２装置４への第１ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

提供システム１は、図５に示した実施形態１と同様のステップＳ１からＳ１５までの処理を実行する。

第２装置４の感情・集中力処理部５４は、ステップＳ１０において分離された第１ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第１ユーザに発言を促すか否かを決定し、発言を促す第１ユーザを特定した発言促進指示信号を第２送信部４９に出力する（Ｓ４１）。

第２装置４の第２送信部４９は、発言促進指示信号を第１装置２に送信し、第１装置２の第１受信部３０は、当該信号を受信する（Ｓ４２）。

第１装置２の分離部３１は、ステップＳ４２において受信された発言促進信号を感情・集中力処理部３４に出力し、感情・集中力処理部３４は、発言促進指示信号に示される第１ユーザに発言を促すための表示用データ作成し、表示・出力部３５に出力する。表示・出力部３５は、感情・集中力処理部３４から表示用データを受け、当該表示用データをディスプレイに表示させる（Ｓ４３）。

図１４は、本開示の実施形態３に係る提供システム１による、第２装置４から第１装置２への第２ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。

提供システム１は、図６に示した実施形態１と同様のステップＳ２１からＳ３５までの処理を実行する。

第１装置２の感情・集中力処理部３４は、ステップＳ３０において分離された第２ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第２ユーザに発言を促すか否かを決定し、発言を促す第２ユーザを特定した発言促進指示信号を第１送信部２９に出力する（Ｓ４４）。

第１装置２の第１送信部２９は、発言促進指示信号を第２装置４に送信し、第２装置４の第２受信部５０は、当該信号を受信する（Ｓ４５）。

第２装置４の分離部５１は、ステップＳ４５において受信された発言促進信号を感情・集中力処理部５４に出力し、感情・集中力処理部５４は、発言促進指示信号に示される第２ユーザに発言を促すための表示用データ作成し、表示・出力部５５に出力する。表示・出力部５５は、感情・集中力処理部５４から表示用データを受け、当該表示用データをディスプレイに表示させる（Ｓ４６）。

〔実施形態３の効果等〕
実施形態３によると、例えば、第２ユーザが第１ユーザの発話内容に対して否定的な感情を抱いていたり、第２ユーザが集中していない場合などに、第２ユーザに発言を促すことができる。同様に、第１ユーザが第２ユーザの発話内容に対して否定的な感情を抱いていたり、第１ユーザが集中していない場合などに、第１ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。

なお、第１装置２の感情・集中力処理部３４は、第２ユーザに発言を促すか否かを決定したが、第１ユーザに発言を促すか否かを決定してもよい。つまり、感情・集中力処理部３４は、感情・集中力判断部２８から、第１ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第１ユーザに発言を促すか否かを決定する。感情・集中力処理部３４は、決定した結果に基づいて、第１ユーザに発言を促すための表示用データ作成し、表示・出力部３５に出力する。

同様に、第２装置４の感情・集中力処理部５４は、第２ユーザに発言を促すかを決定してもよい。つまり、感情・集中力処理部５４は、感情・集中力判断部４８から、第２ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第２ユーザに発言を促すか否かを決定する。感情・集中力処理部５４は、決定した結果に基づいて、第２ユーザに発言を促すための表示用データ作成し、表示・出力部５５に出力する。

＜実施形態の変形例＞
上述の実施形態において、会議に参加する第１ユーザ及び第２ユーザのそれぞれについて、第１ユーザと第２ユーザとの対話における各ユーザの貢献度を算出してもよい。

例えば、図２又は図１１に示した第１装置２の構成において、感情・集中力判断部２８は、第１ユーザの感情の種類ごとの感情スコアと集中度とに基づいて第１ユーザの貢献度を算出してもよい。例えば、感情・集中力判断部２８は、会議における第１ユーザの平均の集中度を算出し、平均集中度が大きい程、値が大きくなるような変換式に従い貢献度を算出してもよい。感情・集中力判断部２８は、算出した第１ユーザの貢献度を、第１ユーザの識別子とともに感情・集中力ＤＢ５に書き込む。

同様に、図４又は図１２に示した第２装置４の構成において、感情・集中力判断部４８が、第２ユーザの貢献度を算出し、算出結果を感情・集中力ＤＢ５に書き込んでもよい。

また、図７に示した第１装置２の構成において、感情・集中力判断部２８が、第２ユーザの貢献度を算出し、算出結果を感情・集中力ＤＢ５に書き込んでもよい。

また、図８に示した第２装置４の構成において、感情・集中力判断部４８が、第１ユーザの貢献度を算出し、算出結果を感情・集中力ＤＢ５に書き込んでもよい。

本変形例によると、ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザの対話における貢献度を算出することができる。例えば、対話に集中していたユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高いユーザの貢献度を高く算出したりすることが可能である。

［付記］
以上、本開示の実施形態に係る提供システム１について説明したが、本開示は、この実施形態に限定されるものではない。

上記各装置は、複数のコンピュータにより実現されてもよい。

上記各装置の一部又は全部の機能がクラウドコンピューティングによって提供されてもよい。つまり、各装置の一部又は全部の機能がクラウドサーバにより実現されていてもよい。

さらに、上記実施形態及び上記変形例の少なくとも一部を任意に組み合わせてもよい。

今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１提供システム
２第１装置
３ネットワーク
４第２装置
５感情・集中力ＤＢ
２１映像取得部（第１取得部）
２２映像符号化部
２３映像解析部（判断部）
２４音声取得部（第１取得部）
２５音声符号化部
２６音声解析部（判断部）
２７多重化部
２８感情・集中力判断部（判断部）
２９第１送信部（提供部）
３０第１受信部
３１分離部
３２映像復号化部（映像取得部）
３３音声復号化部（音声取得部）
３４感情・集中力処理部（発言促進部、算出部）
３５表示・出力部（提供部、第１出力部）
４１映像取得部（映像取得部、第２取得部）
４２映像符号化部
４３映像解析部（判断部）
４４音声取得部（音声取得部、第２取得部）
４５音声符号化部
４６音声解析部（判断部）
４７多重化部
４８感情・集中力判断部（判断部）
４９第２送信部（提供部）
５０第２受信部
５１分離部
５２映像復号化部
５３音声復号化部
５４感情・集中力処理部
５５表示・出力部（第２出力部）
６０映像表示領域
６１感情履歴通知領域
７１Ａユーザ
７１Ｂユーザ
７１Ｃユーザ
７２Ａアイコン
７２Ｂアイコン
７２Ｃアイコン
７３Ａ判断結果
７３Ｂ判断結果
７３Ｃ判断結果

Claims

話者である第１ユーザの音声を聴取する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、
取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える、提供システム。
前記提供システムは、さらに、前記第２ユーザの音声を取得する音声取得部を備え、
前記判断部は、取得された前記第２ユーザの映像及び音声に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する、請求項１に記載の提供システム。
前記提供システムは、ネットワークを介して相互に接続される第１装置及び第２装置を備え、
前記第１装置は、
前記第１ユーザの音声及び映像を取得する第１取得部と、
取得された前記第１ユーザの音声及び映像を前記第２装置に送信する第１送信部と、
前記第２装置から、前記第２ユーザの音声及び映像を受信する第１受信部と、
受信された前記第２ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第１出力部とを含み、
前記第２装置は、
前記第２ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第２取得部と、
取得された前記第２ユーザの音声及び映像を前記第１装置に送信する第２送信部と、
前記第１装置から、前記第１ユーザの音声及び映像を受信する第２受信部と、
受信された前記第１ユーザの音声及び映像を出力する第２出力部とを含む、請求項２に記載の提供システム。
前記判断部は、前記第１装置に備えられ、前記第１受信部が受信した前記第２ユーザの音声及び映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する、請求項３に記載の提供システム。
前記提供システムは、ネットワークを介して相互に接続される第１装置及び第２装置を備え、
前記第１装置は、
前記第１ユーザの音声を取得する第１取得部と、
取得された前記第１ユーザの音声を前記第２装置に送信する第１送信部と、
前記第２装置から、前記第２ユーザの音声を受信する第１受信部と、
受信された前記第２ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第１出力部とを含み、
前記第２装置は、
前記第２ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第２取得部と、
取得された前記第２ユーザの音声を前記第１装置に送信する第２送信部と、
前記第１装置から、前記第１ユーザの音声を受信する第２受信部と、
受信された前記第１ユーザの音声を出力する第２出力部とを含み、
前記判断部は、前記第２装置に備えられ、前記第２取得部が取得した前記第２ユーザの音声及び映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断し、
前記第２送信部は、さらに、前記判断部による判断結果を送信し、
前記第１受信部は、さらに、前記判断部による判断結果を受信し、
前記第１出力部は、前記第１受信部が受信した前記判断部による判断結果を出力する、請求項２に記載の提供システム。
前記第２装置は、さらに、
前記第２ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第２ユーザに対して発言を促す発言促進部を備える、請求項３から請求項５のいずれか１項に記載の提供システム。
前記提供システムは、さらに、
前記判断部による判断結果に基づいて、前記第１ユーザと前記第２ユーザとの対話における前記第２ユーザの貢献度を算出する算出部を備える、請求項３から請求項６のいずれか１項に記載の提供システム。
前記判断部は、さらに、前記第２ユーザの感情及び集中度の少なくとも一方の判断結果の履歴に基づいて、当該第２ユーザの感情及び集中度の少なくとも一方の判断結果を補正する、請求項１から請求項７のいずれか１項に記載の提供システム。
話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得するステップと、
取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断するステップと、
前記判断するステップにおける判断結果を、前記第１ユーザに提供するステップとを含む、提供方法。
話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、
取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第１ユーザに提供する提供部とを備える、提供装置。
コンピュータを、
話者である第１ユーザの音声及び映像を視聴する第２ユーザを撮影することにより得られる、前記第２ユーザの映像を取得する映像取得部と、
取得された前記第２ユーザの映像に基づいて、前記第２ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第１ユーザに提供する提供部として機能させるための、コンピュータプログラム。