JP2021111239A - 提供システム、提供方法、提供装置、及びコンピュータプログラム - Google Patents

提供システム、提供方法、提供装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2021111239A
JP2021111239A JP2020003983A JP2020003983A JP2021111239A JP 2021111239 A JP2021111239 A JP 2021111239A JP 2020003983 A JP2020003983 A JP 2020003983A JP 2020003983 A JP2020003983 A JP 2020003983A JP 2021111239 A JP2021111239 A JP 2021111239A
Authority
JP
Japan
Prior art keywords
user
emotion
unit
concentration
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020003983A
Other languages
English (en)
Inventor
裕介 本家
Yusuke Honke
裕介 本家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP2020003983A priority Critical patent/JP2021111239A/ja
Publication of JP2021111239A publication Critical patent/JP2021111239A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザ同士の円滑なコミュニケーションを支援する提供システムを提供する。【解決手段】提供システムは、話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。【選択図】図4

Description

本開示は、提供システム、提供方法、提供装置、及びコンピュータプログラムに関する。
従来、ネットワークを介してユーザ同士がコミュニケーションを図る電子会議システムが提案されている(例えば、特許文献1参照)。
特開2018−139652号公報
特許文献1に記載のような電子会議システムでは、通常のフェイストゥーフェイスの会議と比較して、対話相手の顔が画面上に小さく映ったりだとか、互いの目線が合いにくいなどの理由により、互いの意思疎通が図りにくい。このため、会議の生産性が低くなるという課題がある。
また、話者に対して反対の意見を持っていたとしても、目上の人に対しては意見を言い出しにくく、建設的な議論にならない場合もある。
これは、ネットワーク越しの会話では、聞き手の感情が話者に伝わりにくいという事情からであると考えられる。
本開示は、このような事情に鑑みてなされてものであり、ユーザ同士の円滑なコミュニケーションを支援する提供システム、提供方法、提供装置、及びコンピュータプログラムを提供することを目的とする。
本開示の一態様に係る提供システムは、話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。
本開示の他の態様に係る提供方法は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得するステップと、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む。
本開示の他の態様に係る提供装置は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。
本開示の他の態様に係るコンピュータプログラムは、コンピュータを、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させる。
なお、コンピュータプログラムを、CD−ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、提供装置の一部又は全部を実現する半導体集積回路として実現したり、提供装置を含む提供システムとして実現したりすることもできる。
本開示によると、ユーザ同士の円滑なコミュニケーションを支援することができる。
図1は、本開示の実施形態1に係る提供システムの概略構成を示す図である。 図2は、本開示の実施形態1に係る第1装置の機能的構成を示すブロック図である。 図3は、ディスプレイに表示される映像の一例を示す図である。 図4は、本開示の実施形態1に係る第2装置の機能的構成を示すブロック図である。 図5は、本開示の実施形態1に係る提供システムによる、第1装置から第2装置への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。 図6は、本開示の実施形態1に係る提供システムによる、第2装置から第1装置への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。 図7は、本開示の実施形態2に係る第1装置の機能的構成を示すブロック図である。 図8は、本開示の実施形態2に係る第2装置の機能的構成を示すブロック図である。 図9は、本開示の実施形態2に係る提供システムによる、第1装置から第2装置への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。 図10は、本開示の実施形態2に係る提供システムによる、第2装置から第1装置への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。 図11は、本開示の実施形態3に係る第1装置の機能的構成を示すブロック図である。 図12は、本開示の実施形態3に係る第2装置の機能的構成を示すブロック図である。 図13は、本開示の実施形態3に係る提供システムによる、第1装置から第2装置への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。 図14は、本開示の実施形態3に係る提供システムによる、第2装置から第1装置への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
[本開示の実施形態の概要]
最初に本開示の実施形態の概要を列記して説明する。
(1)本開示の一実施形態に係る提供システムは、話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。
この構成によると、第1ユーザの発話内容の聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第1ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。
(2)好ましくは、前記提供システムは、さらに、前記第2ユーザの音声を取得する音声取得部を備え、前記判断部は、取得された前記第2ユーザの映像及び音声に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する。
この構成によると、第2ユーザの音声を考慮して第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第2ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第2ユーザの感情又は集中度を高精度で判断することができる。
(3)さらに好ましくは、前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、前記第1装置は、前記第1ユーザの音声及び映像を取得する第1取得部と、取得された前記第1ユーザの音声及び映像を前記第2装置に送信する第1送信部と、前記第2装置から、前記第2ユーザの音声及び映像を受信する第1受信部と、受信された前記第2ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、前記第2装置は、前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、取得された前記第2ユーザの音声及び映像を前記第1装置に送信する第2送信部と、前記第1装置から、前記第1ユーザの音声及び映像を受信する第2受信部と、受信された前記第1ユーザの音声及び映像を出力する第2出力部とを含む。
この構成によると、第1ユーザと第2ユーザとの間でネットワーク越しに対話を行い、第2ユーザの感情及び集中度の少なくとも一方の判断結果を第1ユーザに提供することができる。このため、例えば、第1ユーザを会議の進行役とする電子会議システムにおいて、第1ユーザが第2ユーザの感情又は集中度を把握しながら、第2ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、判断部は、第2ユーザの場合と同様に、第1ユーザの音声及び映像から第1ユーザの感情及び集中度の少なくとも一方を判断し、第2装置の第2出力部が、第1ユーザの感情及び集中度の少なくとも一方の判断結果を出力するようにしてもよい。これにより、第1ユーザ及び第2ユーザは、相互に相手の感情又は集中度を把握することができる。
(4)また、前記判断部は、前記第1装置に備えられ、前記第1受信部が受信した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断してもよい。
この構成によると、第1装置が、第2装置から送信される第2ユーザの音声及び映像に基づいて、第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第1装置は、第2ユーザの音声及び映像と第2ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第2ユーザの音声及び映像と第2ユーザの感情又は集中度とを正確に対応付けて第1ユーザに提供することができる。
(5)また、前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、前記第1装置は、前記第1ユーザの音声を取得する第1取得部と、取得された前記第1ユーザの音声を前記第2装置に送信する第1送信部と、前記第2装置から、前記第2ユーザの音声を受信する第1受信部と、受信された前記第2ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、前記第2装置は、前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、取得された前記第2ユーザの音声を前記第1装置に送信する第2送信部と、前記第1装置から、前記第1ユーザの音声を受信する第2受信部と、受信された前記第1ユーザの音声を出力する第2出力部とを含み、前記判断部は、前記第2装置に備えられ、前記第2取得部が取得した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断し、前記第2送信部は、さらに、前記判断部による判断結果を送信し、前記第1受信部は、さらに、前記判断部による判断結果を受信し、前記第1出力部は、前記第1受信部が受信した前記判断部による判断結果を出力してもよい。
この構成によると、第2装置から第1装置に第2ユーザの映像を送信することなく、第2装置が第2ユーザの感情及び集中度の少なくとも一方の判断結果を、第2ユーザの音声とともに第1装置に送信することができる。このため、第2装置から第1装置への伝送データを削減しつつ、第2ユーザの感情又は集中度の判断結果を第1装置に送信することができる。また、第2装置から第1装置へ映像を送信する必要がない。このため、例えば、第1出力部は、第2ユーザの映像の代わりに、第2ユーザの感情に基づく表情を有する第2ユーザのアバターを表示装置に出力することもできる。これにより、第2ユーザのプライバシーを保護することもできる。
(6)また、前記第2装置は、さらに、前記第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第2ユーザに対して発言を促す発言促進部を備えてもよい。
この構成によると、例えば、第2ユーザが第1ユーザの発話内容に対して否定的な感情を抱いていたり、第2ユーザが集中していない場合などに、第2ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。
(7)また、前記提供システムは、さらに、前記判断部による判断結果に基づいて、前記第1ユーザと前記第2ユーザとの対話における前記第2ユーザの貢献度を算出する算出部を備えてもよい。
この構成によると、第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、第2ユーザの対話における貢献度を算出することができる。例えば、対話に集中していた第2ユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高い第2ユーザの貢献度を高く算出したりすることが可能である。
(8)また、前記判断部は、さらに、前記第2ユーザの感情及び集中度の少なくとも一方の判断結果の履歴に基づいて、当該第2ユーザの感情及び集中度の少なくとも一方の判断結果を補正してもよい。
この構成によると、感情又は集中度の判断結果をスコアにより表現した場合に、感情の起伏や集中度の変化が相対的に小さい第2ユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きい第2ユーザの各スコアとを正規化又は標準化することができる。これにより、第2ユーザ間で感情又は集中度を正確に比較することができる。
(9)本開示の他の実施形態に係る提供方法は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得するステップと、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む。
この構成は、上述の提供システムが備える特徴的な処理部に対応するステップを含む。このため、この構成によると、上述の提供システムと同様の作用及び効果を奏することができる。
(10)本開示の他の実施形態に係る提供装置は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。
この構成によると、第1ユーザの発話内容に聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第2ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。
(11)本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させる。
この構成によると、コンピュータを、上述の提供装置として機能させることができる。このため、上述の提供装置と同様の作用及び効果を奏することができる。
[本開示の実施形態の詳細]
以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。
また、同一の構成要素には同一の符号を付す。それらの機能及び名称も同様であるため、それらの説明は適宜省略する。
<実施形態1>
〔提供システムの全体構成〕
図1は、本開示の実施形態1に係る提供システムの概略構成を示す図である。提供システム1は、相互にネットワーク3を介して接続された第1装置2、第2装置4及び感情・集中力データベース(以下、「感情・集中力DB」という。)5を備える。
第1装置2は、例えば、第1拠点にいる1又は複数の第1ユーザの映像データ(以下、「映像」という。)及び音声データ(以下、「音声」という。)を取得し、取得した第1ユーザの映像及び音声に基づいて第1ユーザごとに第1ユーザの感情及び集中度の少なくとも一方を判断する。第1装置2は、第1ユーザの映像及び音声と、第1ユーザの感情及び集中度の少なくとも一方とを第2装置4に送信することにより第2装置4に提供する。第1装置2は、例えば、企業の一の事業所である第1拠点に設置される。
第2装置4は、第1装置2から、第1装置2が送信する上記データを受信する。第2装置4は、受信した第1ユーザの映像をディスプレイに表示し、受信した第1ユーザの音声をスピーカーから出力する。また、第2装置4は、受信した第1ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第2装置4に内蔵されていてもよいし、有線又は無線により接続されていてもよい。
第2装置4は、例えば、第2拠点にいる1又は複数の第2ユーザの映像及び音声を取得し、取得した第2ユーザの映像及び音声に基づいて、第2ユーザごとに第2ユーザの感情及び集中度の少なくとも一方を判断する。第2装置4は、第2ユーザの映像及び音声と、第2ユーザの感情及び集中度の少なくとも一方とを第1装置2に送信することにより第1装置2に提供する。第2装置4は、例えば、上記企業の他の事業所である第2拠点に設置される。
第1装置2は、第2装置4から、第2装置4が送信する上記データを受信する。第1装置2は、受信した第2ユーザの映像をディスプレイに表示し、受信した第2ユーザの音声をスピーカーから出力する。また、第1装置2は、受信した第2ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第1装置2に内蔵されていてもよいし、外部接続されていてもよい。
感情・集中力DB5は、第1装置2及び第2装置4のそれぞれで判断されたユーザごとの感情又は集中度の判断結果の履歴を記憶する。
〔第1装置2の構成〕
図2は、本開示の実施形態1に係る第1装置2の機能的構成を示すブロック図である。
第1装置2は、映像取得部21と、映像符号化部22と、映像解析部23と、音声取得部24と、音声符号化部25と、音声解析部26と、多重化部27と、感情・集中力判断部28と、第1送信部29と、第1受信部30と、分離部31と、映像復号化部32と、音声復号化部33と、感情・集中力処理部34と、表示・出力部35とを備える。
第1装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、HDDに記録されたコンピュータプログラムをRAM上に展開し、CPU上で実行することにより、各処理部21〜35は機能的に実現される。ただし、各処理部21〜35の一部又は全部がLSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェアにより実現されていてもよい。
映像取得部21は、第1取得部として機能し、第1装置2に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部21は、取得した映像を、映像符号化部22及び映像解析部23に出力する。
映像符号化部22は、映像取得部21から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部22は、映像が4K映像又は8K映像の場合には、H.265/HEVC(High Efficiency Video Coding)に従って映像を符号化する。映像符号化部22は、符号化済み映像を多重化部27に出力する。
映像解析部23は、映像取得部21から映像を受け、映像に映っているユーザ(以下、「第1ユーザ」という)と第1ユーザの映像中の位置とを特定する。例えば、映像解析部23は、顔認識アルゴリズムを用いて映像中の第1ユーザを特定する。ただし、第1ユーザを識別するための情報(例えば、ユーザ名)と映像中の第1ユーザの位置を第1装置2の操作者が外部入力により指定するものであってもよい。
映像解析部23は、当該映像を解析することにより第1ユーザの感情及び集中度を判断する。つまり、映像解析部23は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部23が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部23は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第1ユーザの感情スコアを算出する。
識別器として、例えば、映像を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、映像解析部23は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部23は、識別器に映像を入力することにより第1ユーザの集中度を算出する。
識別器として、例えば、映像を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、映像解析部23は、映像中に複数の第1ユーザが含まれる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
映像解析部23は、第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、算出した第1ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部28に出力する。
音声取得部24は、第1取得部として機能し、第1装置2に内蔵又は有線もしくは無線により接続されたマイクから第1ユーザの音声を取得する。音声取得部24は、取得した第1ユーザの音声を、音声符号化部25及び音声解析部26に出力する。
音声符号化部25は、音声取得部24から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部25は、MPEG−4 AACに従い音声を符号化する。音声符号化部25は、符号化済み音声を多重化部27に出力する。
音声解析部26は、音声取得部24から音声を受け、音声を発している第1ユーザを特定する。第1ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部26は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第1ユーザが発話する際に、第1ユーザを識別するための情報を第1ユーザ又は第1装置2の操作者が外部入力するものであってもよい。
音声解析部26は、当該音声を解析することにより第1ユーザの感情及び集中度を判断する。つまり、音声解析部26は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部26が解析対象とする感情の種類は、映像解析部23が解析対象とする感情の種類と同様である。音声解析部26は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。
識別器として、例えば、音声を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、音声解析部26は、入力音声に基づいて、第1ユーザの集中度を算出する。
識別器として、例えば、音声を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、音声解析部26は、音声中に複数の第1ユーザが含まれる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
音声解析部26は、第1ユーザを識別するための情報と、算出した第1ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部28に出力する。
多重化部27は、映像符号化部22及び音声符号化部25から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部27は、MPEG−H MMT(MPEG Media Transport)に従って多重化を行う。多重化部27は、生成した多重化データを第1送信部29に出力する。
感情・集中力判断部28は、映像解析部23から第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。また、感情・集中力判断部28は、音声解析部26から第1ユーザを識別するための情報と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。
感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第1ユーザの感情の種類ごとの感情スコアに基づいて、第1ユーザの感情を判断する。例えば、感情・集中力判断部28は、感情の種類ごとに、映像解析部23から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第1ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部28は、感情の種類ごとに設けられた識別器を用いて、第1ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部28は、各感情の種類の識別器に映像解析部23から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第1ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第1ユーザの感情スコアを算出する。
識別器として、例えば、映像に基づき算出された感情スコアと音声に基づき算出された感情スコアを入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された感情スコア及び音声に基づき算出された感情スコアと、ニューラルネットワークの設計者が判断した感情スコアとを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第1ユーザの感情の種類ごとの集中度に基づいて、第1ユーザの集中度を判断する。例えば、感情・集中力判断部28は、映像解析部23から受けた第1ユーザの集中度と、音声解析部26から受けた第1ユーザの集中度とを単純加算又は重みづけ加算することで、第1ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部28は、識別器を用いて、第1ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部28は、識別器に映像解析部23から受けた第1ユーザの集中度と、音声解析部26から受けた第1ユーザの集中度とを入力することにより、第1ユーザの集中度を算出する。
識別器として、例えば、映像に基づき算出された集中度と音声に基づき算出された集中度を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された集中度及び音声に基づき算出された集中度と、ニューラルネットワークの設計者が判断した集中度とを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、感情・集中力判断部28は、第1ユーザが複数いる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
感情・集中力判断部28は、算出した感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを、第1ユーザの識別子及び算出時刻と対応付けて感情・集中力DB5に書き込む。なお、第1ユーザの識別子には、第1ユーザを識別するための情報(例えば、ユーザ名)と、第1ユーザの映像中の位置情報とが含まれるものとする。
なお、感情・集中力判断部28は、第1ユーザの感情スコアの履歴に基づいて、算出した第1ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部28は、感情の種類ごとに、過去一定期間の第1ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部28は、以下の式1に従い、感情の種類ごとに、算出した第1ユーザの感情スコアを、算出した感情スコアの標準偏差及び平均を用いて標準化する。これにより、第1ユーザ間で感情スコアを標準化することができる。
標準化された感情スコア=(算出した感情スコア−感情スコアの平均)
/感情スコアの標準偏差 …(式1)
また、感情・集中力判断部28は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部28は、感情の種類ごとに、過去一定期間の第1ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部28は、以下の式2に従い、感情の種類ごとに、算出した第1ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第1ユーザ間で感情スコアを正規化することができる。
正規化された感情スコア=(感情スコア−感情スコアの最小値)
/(感情スコアの最大値−感情スコアの最小値) …(式2)
また、感情・集中力判断部28は、第1ユーザの集中度の履歴に基づいて、算出した第1ユーザの集中度を補正してもよい。例えば、感情・集中力判断部28は、過去一定期間の第1ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部28は、以下の式3に従い、算出した第1ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第1ユーザ間で集中度を標準化することができる。
標準化された集中度=(算出した集中度−集中度の平均)
/集中度の標準偏差 …(式3)
また、感情・集中力判断部28は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部28は、過去一定期間の第1ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部28は、以下の式4に従い、感情の種類ごとに、算出した第1ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第1ユーザ間で集中度を正規化することができる。
正規化された集中度=(集中度−集中度の最小値)
/(集中度の最大値−集中度の最小値) …(式4)
感情・集中力判断部28は、算出した感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを、第1ユーザの識別子及び算出時刻と合わせて第1送信部29に出力する。
第1送信部29は、多重化部27から多重化データを受け、感情・集中力判断部28から第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを受ける。第1送信部29は、受けたこれらのデータを、第2装置4に送信する。
第1受信部30は、第2装置4から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを受信する。なお、これらのデータには、第2ユーザの識別子と、第2ユーザの感情スコア及び集中度の算出時刻とが付加されている。第1受信部30は、第2装置4から受信したこれらのデータのセットを分離部31に出力する。なお、第2ユーザの識別子には、第2ユーザを識別するための情報(例えば、ユーザ名)と、第2ユーザの映像中の位置情報とが含まれているものとする。
分離部31は、第1受信部30からデータセットを受け、データセットを分離する。つまり、分離部31は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部32及び音声復号化部33にそれぞれ出力する。また、分離部31は、データセットから第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部34に出力する。
映像復号化部32は、分離部31から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第2装置4における映像の符号化方法に対応する方法とする。例えば、映像が4K映像又は8K映像の場合であって、第2装置4がH.265/HEVCに従って映像を符号化した場合には、映像復号化部32は、H.265/HEVCに従って符号化済み映像を復号化する。映像復号化部32は、復号化した映像を感情・集中力処理部34及び表示・出力部35に出力する。
音声復号化部33は、分離部31から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第2装置4における音声の符号化方法に対応する方法とする。例えば、第2装置4がMPEG−4 AACに従い音声を符号化した場合には、音声復号化部33は、MPEG−4 AACに従い音声を復号化する。音声復号化部33は、復号化した音声を表示・出力部35に出力する。
感情・集中力処理部34は、分離部31から第2ユーザの識別子及び計測時刻と、第2ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部34は、映像復号化部32から映像を受ける。
感情・集中力処理部34は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部34は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部34は、幸せな感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部34は、不快な感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
また、感情・集中力処理部34は、例えば、映像から第2ユーザの映像を切り出し、切り出した映像の隣に、第2ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
感情・集中力処理部34は、作成した表示用データを表示・出力部35に出力する。
表示・出力部35は、提供部及び第1出力部として機能し、音声復号化部33から音声を受け、音声をスピーカーから出力する。
また、表示・出力部35は、映像復号化部32から映像を受け、感情・集中力処理部34から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。
図3は、ディスプレイに表示される映像の一例を示す図である。
映像は、映像表示領域60と感情履歴通知領域61とを含む。映像表示領域60には、映像復号化部32から受けた映像が表示される。ここでは、第2ユーザであるユーザ71A〜71Cが表示されている。また、ユーザ71A〜71Cの近傍には、感情・集中力処理部34から受けた表示用データに示されるアイコン72A〜72Cがそれぞれ表示されている。アイコン72A及び72Cは幸せな感情に対応したアイコンであり、アイコン72Bは不快な感情に対応したアイコンである。つまり、ユーザ71A及びユーザ71Cの幸せな感情についての感情スコアは80以上であり、アイコン72Bの不快な感情についての感情スコアは80以上であることが示されている。
感情履歴通知領域61には、映像から切り出されたユーザ71A〜71Cの映像が表示されている。また、その隣には、第2ユーザごとに判断結果73A〜73Cが表示されている。判断結果73A〜73Cは、ユーザ71A〜71Cから検出された感情及び感情の計測時刻と、集中度とがそれぞれ示されている。例えば、判断結果73Aは、14:10:25にユーザ71Aの幸せな感情についての感情スコアが80以上になったことと、その時の集中度が80%であることとを示している。また、判断結果73Bは、14:08:10にユーザ71Bの不快な感情についての感情スコアが80以上になったことと、その時の集中度が60%であることとを示している。さらに、判断結果73Cは、14:07:50にユーザ71Cの幸せな感情についての感情スコアが80以上になったことと、その時の集中度が90%であることとを示している。なお、判断結果73A〜73Cは、計測時刻の集中度ではなく、現在時刻の集中度を示してもよい。
〔第2装置4の構成〕
図4は、本開示の実施形態1に係る第2装置4の機能的構成を示すブロック図である。第2装置4の構成は、第1装置2の構成と対をなす。
第2装置4は、映像取得部41と、映像符号化部42と、映像解析部43と、音声取得部44と、音声符号化部45と、音声解析部46と、多重化部47と、感情・集中力判断部48と、第2送信部49と、第2受信部50と、分離部51と、映像復号化部52と、音声復号化部53と、感情・集中力処理部54と、表示・出力部55とを備える。
第2装置4は、CPU、ROM、RAM、HDD、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、HDDに記録されたコンピュータプログラムをRAM上に展開し、CPU上で実行することにより、各処理部21〜35は機能的に実現される。ただし、各処理部41〜55の一部又は全部がLSI、ASIC、FPGA等のハードウェアにより実現されていてもよい。
映像取得部41は、第2取得部として機能し、第2装置4に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部41は、取得した映像を、映像符号化部42及び映像解析部43に出力する。
映像符号化部42は、映像取得部41から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部42は、映像が4K映像又は8K映像の場合には、H.265/HEVC(High Efficiency Video Coding)に従って映像を符号化する。映像符号化部42は、符号化済み映像を多重化部47に出力する。
映像解析部43は、映像取得部41から映像を受け、映像に映っているユーザ(以下、「第2ユーザ」という)と第2ユーザの映像中の位置とを特定する。例えば、映像解析部43は、顔認識アルゴリズムを用いて映像中の第2ユーザを特定する。ただし、第2ユーザを識別するための情報(例えば、ユーザ名)と映像中の第2ユーザの位置を第2装置4の操作者が外部入力により指定するものであってもよい。
映像解析部43は、判断部として機能し、当該映像を解析することにより第2ユーザの感情及び集中度を判断する。つまり、映像解析部43は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部43が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部43は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第2ユーザの感情スコアを算出する。
識別器として、例えば、映像を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、映像解析部43は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部43は、識別器に映像を入力することにより第2ユーザの集中度を算出する。
識別器として、例えば、映像を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、映像解析部43は、映像中に複数の第2ユーザが含まれる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
映像解析部43は、第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、算出した第2ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部48に出力する。
音声取得部44は、第2取得部として機能し、第2装置4に内蔵又は有線もしくは無線により接続されたマイクから第2ユーザの音声を取得する。音声取得部44は、取得した第2ユーザの音声を、音声符号化部45及び音声解析部46に出力する。
音声符号化部45は、音声取得部44から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部45は、MPEG−4 AACに従い音声を符号化する。音声符号化部45は、符号化済み音声を多重化部47に出力する。
音声解析部46は、音声取得部44から音声を受け、音声を発している第2ユーザを特定する。第2ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部46は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第2ユーザが発話する際に、第2ユーザを識別するための情報を第2ユーザ又は第2装置4の操作者が外部入力するものであってもよい。
音声解析部46は、判断部として機能し、当該音声を解析することにより第2ユーザの感情及び集中度を判断する。つまり、音声解析部46は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部46が解析対象とする感情の種類は、映像解析部43が解析対象とする感情の種類と同様である。音声解析部46は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。
識別器として、例えば、音声を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、音声解析部46は、入力音声に基づいて、第2ユーザの集中度を算出する。
識別器として、例えば、音声を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、音声解析部46は、音声中に複数の第2ユーザが含まれる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
音声解析部46は、第2ユーザを識別するための情報と、算出した第2ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部48に出力する。
多重化部47は、映像符号化部42及び音声符号化部45から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部47は、MPEG−H MMTに従って多重化を行う。多重化部47は、生成した多重化データを第2送信部49に出力する。
感情・集中力判断部48は、映像解析部43から第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。また、感情・集中力判断部48は、音声解析部46から第2ユーザを識別するための情報と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。
感情・集中力判断部48は、判断部として機能し、映像解析部43及び音声解析部46から受けた第2ユーザの感情の種類ごとの感情スコアに基づいて、第2ユーザの感情を判断する。例えば、感情・集中力判断部48は、感情の種類ごとに、映像解析部43から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第2ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部48は、感情の種類ごとに設けられた識別器を用いて、第2ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部48は、各感情の種類の識別器に映像解析部43から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第2ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第2ユーザの感情スコアを算出する。
識別器として、例えば、映像に基づき算出された感情スコアと音声に基づき算出された感情スコアを入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された感情スコア及び音声に基づき算出された感情スコアと、ニューラルネットワークの設計者が判断した感情スコアとを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
また、感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第2ユーザの感情の種類ごとの集中度に基づいて、第2ユーザの集中度を判断する。例えば、感情・集中力判断部48は、映像解析部43から受けた第2ユーザの集中度と、音声解析部46から受けた第2ユーザの集中度とを単純加算又は重みづけ加算することで、第2ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部48は、識別器を用いて、第2ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部48は、識別器に映像解析部43から受けた第2ユーザの集中度と、音声解析部46から受けた第2ユーザの集中度とを入力することにより、第2ユーザの集中度を算出する。
識別器として、例えば、映像に基づき算出された集中度と音声に基づき算出された集中度を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された集中度及び音声に基づき算出された集中度と、ニューラルネットワークの設計者が判断した集中度とを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。
なお、感情・集中力判断部48は、第2ユーザが複数いる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
感情・集中力判断部48は、算出した感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを、第2ユーザの識別子及び算出時刻と対応付けて感情・集中力DB5に書き込む。なお、第2ユーザの識別子には、第2ユーザを識別するための情報(例えば、ユーザ名)と、第2ユーザの映像中の位置情報とが含まれるものとする。
なお、感情・集中力判断部48は、第2ユーザの感情スコアの履歴に基づいて、算出した第2ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部48は、感情の種類ごとに、過去一定期間の第2ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部48は、上述の式1に従い、感情の種類ごとに、算出した第2ユーザの感情スコアを、算出した感情スコアの標準偏差及び分散を用いて標準化する。これにより、第2ユーザ間で感情スコアを標準化することができる。
また、感情・集中力判断部48は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部48は、感情の種類ごとに、過去一定期間の第2ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部48は、上述の式2に従い、感情の種類ごとに、算出した第2ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第2ユーザ間で感情スコアを正規化することができる。
また、感情・集中力判断部48は、第2ユーザの集中度の履歴に基づいて、算出した第2ユーザの集中度を補正してもよい。例えば、感情・集中力判断部48は、過去一定期間の第2ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部48は、上述の式3に従い、算出した第2ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第2ユーザ間で集中度を標準化することができる。
また、感情・集中力判断部48は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部48は、過去一定期間の第2ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部48は、上述の式4に従い、感情の種類ごとに、算出した第2ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第2ユーザ間で集中度を正規化することができる。
感情・集中力判断部48は、算出した感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを、第2ユーザの識別子及び算出時刻と合わせて第2送信部49に出力する。
第2送信部49は、多重化部47から多重化データを受け、感情・集中力判断部48から第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを受ける。第2送信部49は、受けたこれらのデータを、第1装置2に送信する。
第2受信部50は、第1装置2から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを受信する。なお、これらのデータには、第1ユーザの識別子と、第1ユーザの感情スコア及び集中度の算出時刻とが付加されている。第2受信部50は、第1装置2から受信したこれらのデータのセットを分離部51に出力する。なお、第1ユーザの識別子には、第1ユーザを識別するための情報(例えば、ユーザ名)と、第1ユーザの映像中の位置情報とが含まれているものとする。
分離部51は、第2受信部50からデータセットを受け、データセットを分離する。つまり、分離部51は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部52及び音声復号化部53にそれぞれ出力する。また、分離部51は、データセットから第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部54に出力する。
映像復号化部52は、分離部51から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第1装置2における映像の符号化方法に対応する方法とする。例えば、映像が4K映像又は8K映像の場合であって、第1装置2がH.265/HEVCに従って映像を符号化した場合には、映像復号化部52は、H.265/HEVCに従って符号化済み映像を復号化する。映像復号化部52は、復号化した映像を感情・集中力処理部54及び表示・出力部55に出力する。
音声復号化部53は、分離部51から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第1装置2における音声の符号化方法に対応する方法とする。例えば、第1装置2がMPEG−4 AACに従い音声を符号化した場合には、音声復号化部53は、MPEG−4 AACに従い音声を復号化する。音声復号化部53は、復号化した音声を表示・出力部55に出力する。
感情・集中力処理部54は、分離部51から第1ユーザの識別子及び計測時刻と、第1ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部54は、映像復号化部52から映像を受ける。
感情・集中力処理部54は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部54は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部54は、幸せな感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部54は、不快な感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
また、感情・集中力処理部54は、例えば、映像から第1ユーザの映像を切り出し、切り出した映像の隣に、第1ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
感情・集中力処理部54は、作成した表示用データを表示・出力部55に出力する。
表示・出力部55は、第2出力部として機能し、音声復号化部53から音声を受け、音声をスピーカーから出力する。
また、表示・出力部55は、映像復号化部52から映像を受け、感情・集中力処理部54から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。
〔提供システム1の処理フロー〕
図5は、本開示の実施形態1に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
第1装置2の映像取得部21は、カメラから映像を取得する(S1)。
第1装置2の音声取得部24は、マイクから音声を取得する(S2)。
第1装置2の映像解析部23は、ステップS1において取得された映像を解析することにより、映像から第1ユーザを特定し、第1ユーザの位置、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S3)。
第1装置2の音声解析部26は、ステップS2において取得された音声を解析することにより、音声から第1ユーザを特定し、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S4)。
第1装置2の感情・集中力判断部28は、ステップS3において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS4において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S5)。
第1装置2の映像符号化部22は、ステップS1において取得された映像を符号化する(S6)。
第1装置2の音声符号化部25は、ステップS2において取得された音声を符号化する(S7)。
第1装置2の多重化部27は、ステップS6において符号化された映像と、ステップS7において符号化された音声とを多重化し、多重化データを生成する(S8)。
第1装置2の第1送信部29は、ステップS8において生成された多重化データと、ステップS5において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度に第1ユーザの識別子及び算出時刻が付加されたデータセットを、第2装置4に送信する。第2装置4の第2受信部50は、当該データセットを受信する(S9)。
第2装置4の第2受信部50は、ステップS9において受信されたデータセットを、符号化済み映像、符号化済み音声、第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する(S10)。
第2装置4の映像復号化部52は、ステップS10において分離された符号化済み映像を復号化する(S11)。
第2装置4の音声復号化部53は、ステップS10において分離された符号化済み音声を復号化する(S12)。
第2装置4の感情・集中力処理部54は、ステップS11において復号化された映像と、ステップS10において分離された第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第1ユーザの感情及び集中度を表示するための表示用データを作成する(S13)。
第2装置4の表示・出力部55は、ステップS13において作成された表示用データをステップS11において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S14)。
第2装置4の表示・出力部55は、ステップS12において復号された音声をスピーカーから出力する(S15)。
図5に示した処理を実行することにより、第1ユーザの感情及び集中度が第2ユーザに提供されることになる。
図6は、本開示の実施形態1に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
第2装置4の映像取得部41は、カメラから映像を取得する(S21)。
第2装置4の音声取得部44は、マイクから音声を取得する(S22)。
第2装置4の映像解析部43は、ステップS21で取得された映像を解析することにより、映像から第2ユーザを特定し、第2ユーザの位置、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S23)。
第2装置4の音声解析部46は、ステップS22において取得された音声を解析することにより、音声から第2ユーザを特定し、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S24)。
第2装置4の感情・集中力判断部48は、ステップS23において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS24において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S25)。
第2装置4の映像符号化部42は、ステップS21において取得された映像を符号化する(S26)。
第2装置4の音声符号化部45は、ステップS22において取得された音声を符号化する(S27)。
第2装置4の多重化部47は、ステップS26において符号化された映像と、ステップS27において符号化された音声とを多重化し、多重化データを生成する(S28)。
第2装置4の第2送信部49は、ステップS28において生成された多重化データと、ステップS25において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度に第2ユーザの識別子及び算出時刻が付加されたデータセットを、第1装置2に送信する。第1装置2の第1受信部30は、当該データセットを受信する(S29)。
第1装置2の第1受信部30は、ステップS29において受信されたデータセットを、符号化済み映像、符号化済み音声、第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する(S30)。
第1装置2の映像復号化部32は、ステップS30において分離された符号化済み映像を復号化する(S31)。
第1装置2の音声復号化部33は、ステップS30において分離された符号化済み音声を復号化する(S32)。
第1装置2の感情・集中力処理部34は、ステップS31において復号化された映像と、ステップS30において分離された第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第2ユーザの感情及び集中度を表示するための表示用データを作成する(S33)。
第1装置2の表示・出力部35は、ステップS33において作成された表示用データをステップS31において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S34)。
第1装置2の表示・出力部35は、ステップS32において復号された音声をスピーカーから出力する(S35)。
図6に示した処理を実行することにより、第2ユーザの感情及び集中度が第1ユーザに提供されることになる。
〔実施形態1の効果等〕
実施形態1によると、第1ユーザの発話内容の聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第1ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。
同様に、第2ユーザの発話内容の聞き手である第1ユーザの感情及び集中度の少なくとも一方の判断結果が、第2ユーザに提供される。これにより、第2ユーザも、第1ユーザと同様の対策を行うことが可能である。
また、第2ユーザの音声を考慮して第2ユーザの感情及び集中度の少なくとも一方が判断される。このため、第2ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第2ユーザの感情又は集中度を高精度で判断することができる。第1ユーザの感情及び集中度の判断においても同様である。
また、第1ユーザと第2ユーザとの間でネットワーク3越しに対話を行い、第2ユーザの感情及び集中度の少なくとも一方の判断結果を第1ユーザに提供することができる。このため、例えば、第1ユーザを会議の進行役とする電子会議システムにおいて、第1ユーザが第2ユーザの感情又は集中度を把握しながら、第2ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、第1装置2は、第2ユーザの場合と同様に、第1ユーザの音声及び映像から第1ユーザの感情及び集中度の少なくとも一方を判断し、第2装置4が、第1ユーザの感情及び集中度の少なくとも一方の判断結果をディスプレイに表示する。これにより、第1ユーザ及び第2ユーザは、相互に相手の感情又は集中度を把握することができる。
また、第1装置2で第1ユーザの感情及び集中度を判断し、第2装置4で第2ユーザの感情及び集中度を判断している。このため、第1装置2は、第2装置4に映像を送信しないようにしてもよく、第2装置4は、第1装置2に映像を送信しないようにしてもよい。これにより、第1装置2から第2装置4への伝送データを削減しつつ、第1ユーザの感情又は集中度の判断結果を第2装置4に送信することができる。また、第2装置4から第1装置2への伝送データを削減しつつ、第2ユーザの感情又は集中度の判断結果を第1装置2に送信することができる。
なお、第1装置2の感情・集中力処理部34は、第2ユーザの感情に基づく表情を有する第2ユーザのアバターを表示させるための表示用データを作成してもよい。同様に、第2装置4の感情・集中力処理部54は、第1ユーザの感情に基づく第1ユーザのアバターを表示させるための表示用データを作成してもよい。これにより、ユーザの映像の代わりにアバターを表示させることができるため、第2ユーザ及び第1ユーザのプライバシーを保護することもできる。
また、第1装置2の感情・集中力判断部28及び第2装置4の感情・集中力判断部48は、過去のユーザの感情スコア及び集中度に基づいて、感情スコア及び集中度を標準化することができる。つまり、感情の起伏や集中度の変化が相対的に小さいユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きいユーザの各スコアとを標準化することができる。これにより、ユーザ間で感情又は集中度を正確に比較することができる。
<実施形態2>
実施形態1では、第1装置2が第1ユーザの感情及び集中度を判断し、第2装置4が第2ユーザの感情及び集中度を判断した。実施形態2では、第1装置2が第2ユーザの感情及び集中度を判断し、第2装置4が第1ユーザの感情及び集中度を判断する例について説明する。
実施形態2に係る提供システム1の構成は実施形態1と同様である。
〔第1装置2の構成〕
図7は、本開示の実施形態2に係る第1装置2の機能的構成を示すブロック図である。
第1装置2は、映像取得部21と、映像符号化部22と、音声取得部24と、音声符号化部25と、多重化部27と、第1送信部29と、第1受信部30と、分離部31と、映像復号化部32と、音声復号化部33と、映像解析部23と、音声解析部26と、感情・集中力判断部28と、表示・出力部35とを備える。
映像取得部21、映像符号化部22、音声取得部24、音声符号化部25及び多重化部27の処理は、実施形態1と同様である。
第1送信部29は、多重化部27から多重化データを受け、当該多重化データを第2装置4に送信する。
第1受信部30は、第2装置4から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第1受信部30は、受信した多重化データを分離部31に出力する。
分離部31は、第1受信部30から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部31は、分離した符号化済み映像および符号化済み音声を映像復号化部32及び音声復号化部33にそれぞれ出力する。
映像復号化部32及び音声復号化部33の処理は、実施形態1と同様である。映像復号化部32は、映像取得部として機能し、復号化した映像を映像解析部23及び感情・集中力判断部28に出力し、音声復号化部33は、音声取得部として機能し、復号化した音声を音声解析部26に出力する。
映像解析部23は、映像復号化部32から映像を受け、映像に映っている第2ユーザと第2ユーザの映像中の位置とを特定する。また、映像解析部23は、判断部として機能し、当該映像を解析することにより第2ユーザの感情及び集中度を判断する。映像解析部23は、第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、算出した第2ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部28に出力する。なお、映像解析部23の処理は、処理の対象とするユーザが第2ユーザである点を除いて実施形態1の映像解析部23と同様である。
音声解析部26は、音声復号化部33から音声を受け、音声を発している第2ユーザを特定する。また、音声解析部26は、判断部として機能し、当該音声を解析することにより、第2ユーザの感情及び集中度を判断する。音声解析部26は、第2ユーザを識別するための情報と、算出した第2ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部28に出力する。なお、音声解析部26の処理は、処理の対象とするユーザが第2ユーザである点を除いて実施形態1の音声解析部26と同様である。
感情・集中力判断部28は、映像解析部23から第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。また、感情・集中力判断部28は、音声解析部26から第2ユーザを識別するための情報と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。
感情・集中力判断部28は、判断部として機能し、映像解析部23及び音声解析部26から受けた第2ユーザの感情の種類ごとの感情スコアに基づいて、第2ユーザの感情を判断する。例えば、感情・集中力判断部28は、感情の種類ごとに、映像解析部23から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第2ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
また、感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第2ユーザの感情の種類ごとの集中度に基づいて、第2ユーザの集中度を判断する。例えば、感情・集中力判断部28は、映像解析部23から受けた第2ユーザの集中度と、音声解析部26から受けた第2ユーザの集中度とを単純加算又は重みづけ加算することで、第2ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
なお、感情・集中力判断部28は、第2ユーザが複数いる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
また、感情・集中力判断部28は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部28は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部28は、幸せな感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部28は、不快な感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
また、感情・集中力判断部28は、例えば、映像から第2ユーザの映像を切り出し、切り出した映像の隣に、第2ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
感情・集中力判断部28は、作成した表示用データを表示・出力部35に出力する。
表示・出力部35の処理は、実施形態1の表示・出力部35と同様である。
〔第2装置4の構成〕
図8は、本開示の実施形態2に係る第2装置4の機能的構成を示すブロック図である。
第2装置4は、映像取得部41と、映像符号化部42と、音声取得部44と、音声符号化部45と、多重化部47と、第2送信部49と、第2受信部50と、分離部51と、映像復号化部52と、音声復号化部53と、映像解析部43と、音声解析部46と、感情・集中力判断部48と、表示・出力部55とを備える。
映像取得部41、映像符号化部42、音声取得部44、音声符号化部45及び多重化部47の処理は、実施形態1と同様である。
第2送信部49は、多重化部47から多重化データを受け、当該多重化データを第1装置2に送信する。
第2受信部50は、第1装置2から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第2受信部50は、受信した多重化データを分離部51に出力する。
分離部51は、第2受信部50から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部51は、分離した符号化済み映像および符号化済み音声を映像復号化部52及び音声復号化部53にそれぞれ出力する。
映像復号化部52及び音声復号化部53の処理は、実施形態1と同様である。映像復号化部52は、復号化した映像を映像解析部43及び感情・集中力判断部48に出力し、音声復号化部53は、復号化した音声を音声解析部46に出力する。
映像解析部43は、映像復号化部52から映像を受け、映像に映っている第1ユーザと第1ユーザの映像中の位置とを特定する。また、映像解析部43は、当該映像を解析することにより第1ユーザの感情及び集中度を判断する。映像解析部43は、第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、算出した第1ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部48に出力する。なお、映像解析部43の処理は、処理の対象とするユーザが第1ユーザである点を除いて実施形態1の映像解析部43と同様である。
音声解析部46は、音声復号化部53から音声を受け、音声を発している第1ユーザを特定する。また、音声解析部46は、当該音声を解析することにより、第1ユーザの感情及び集中度を判断する。音声解析部46は、第1ユーザを識別するための情報と、算出した第1ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部48に出力する。なお、音声解析部46の処理は、処理の対象とするユーザが第1ユーザである点を除いて実施形態1の音声解析部46と同様である。
感情・集中力判断部48は、映像解析部43から第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。また、感情・集中力判断部48は、音声解析部46から第1ユーザを識別するための情報と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。
感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第1ユーザの感情の種類ごとの感情スコアに基づいて、第1ユーザの感情を判断する。例えば、感情・集中力判断部48は、感情の種類ごとに、映像解析部43から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第1ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
また、感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第1ユーザの感情の種類ごとの集中度に基づいて、第1ユーザの集中度を判断する。例えば、感情・集中力判断部48は、映像解析部43から受けた第1ユーザの集中度と、音声解析部46から受けた第1ユーザの集中度とを単純加算又は重みづけ加算することで、第1ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
なお、感情・集中力判断部48は、第1ユーザが複数いる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
また、感情・集中力判断部48は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部48は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部48は、幸せな感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部48は、不快な感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
また、感情・集中力判断部48は、例えば、映像から第1ユーザの映像を切り出し、切り出した映像の隣に、第1ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
感情・集中力判断部48は、作成した表示用データを表示・出力部55に出力する。
表示・出力部55の処理は、実施形態1の表示・出力部55と同様である。
〔提供システム1の処理フロー〕
図9は、本開示の実施形態2に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
第1装置2は、図4に示したのと同様のステップS1、S2、S6〜S8の処理を実行する。
第1装置2の第1送信部29は、ステップS8において生成された多重化データを第2装置4に送信し、第2装置4の第2受信部50は当該多重化データを受信する(S16)。
第2装置4の分離部51は、ステップS16において受信された多重化データを符号化済み映像及び符号化済み音声に分離する(S10)。
第2装置4は、図4に示したのと同様のステップS11及びS12の処理を実行する。
第2装置4の映像解析部43は、ステップS11において復号された映像を解析することにより、映像から第1ユーザを特定し、第1ユーザの位置、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S17)。
第2装置4の音声解析部46は、ステップS12において復号された音声を解析することにより、音声から第1ユーザを特定し、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S18)。
第2装置4の感情・集中力判断部48は、ステップS17において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS18において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部48は、ステップS11において復号化された映像と、決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第1ユーザの感情及び集中度を表示するための表示用データを作成する(S19)。
第2装置4の表示・出力部55は、ステップS19において作成された表示用データをステップS11において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S14)。
第2装置4の表示・出力部55は、ステップS12において復号された音声をスピーカーから出力する(S15)。
図9に示した処理を実行することにより、第1ユーザの感情及び集中度が第2ユーザに提供されることになる。
図10は、本開示の実施形態2に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
第2装置4は、図5に示したのと同様のステップS21、S22、S26〜S28の処理を実行する。
第2装置4の第2送信部49は、ステップS28において生成された多重化データを第1装置2に送信し、第1装置2の第1受信部30は当該多重化データを受信する(S36)。
第1装置2の分離部31は、ステップS36において受信された多重化データを符号化済み映像及び符号化済み音声に分離する(S30)。
第1装置2は、図5に示したのと同様のステップS31及びS32の処理を実行する。
第1装置2の映像解析部23は、ステップS31において復号された映像を解析することにより、映像から第2ユーザを特定し、第2ユーザの位置、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S37)。
第1装置2の音声解析部26は、ステップS32において復号された音声を解析することにより、音声から第2ユーザを特定し、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S38)。
第1装置2の感情・集中力判断部28は、ステップS37において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS38において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部28は、ステップS31において復号化された映像と、決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第2ユーザの感情及び集中度を表示するための表示用データを作成する(S39)。
第1装置2の表示・出力部55は、ステップS39において作成された表示用データをステップS31において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S34)。
第1装置2の表示・出力部55は、ステップS32において復号された音声をスピーカーから出力する(S35)。
図10に示した処理を実行することにより、第2ユーザの感情及び集中度が第2ユーザに提供されることになる。
〔実施形態2の効果等〕
実施形態2によると、第1装置2が、第2装置4から送信される第2ユーザの音声及び映像に基づいて、第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第1装置2は、第2ユーザの音声及び映像と第2ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第2ユーザの音声及び映像と第2ユーザの感情又は集中度とを正確に対応付けて第1ユーザに提供することができる。
また、第2装置4が、第1装置2から送信される第1ユーザの音声及び映像に基づいて、第1ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第2装置4は、第1ユーザの音声及び映像と第1ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第1ユーザの音声及び映像と第1ユーザの感情又は集中度とを正確に対応付けて第2ユーザに提供することができる。
<実施形態3>
実施形態1及び2に示した提供システム1では、相手側の装置を利用するユーザの感情又は集中度をユーザに提示することはできるのの、当該感情又は集中度に基づいた処理はなされていない。
実施形態3では、ユーザの感情又は集中度に基づいて、所定の処理を実行する例について説明する。具体的には、感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザに対して発言を促す提供システム1について説明する。
実施形態3に係る提供システム1の構成は実施形態1と同様である。
〔第1装置2の構成〕
図11は、本開示の実施形態3に係る第1装置2の機能的構成を示すブロック図である。実施形態3に係る第1装置2の構成は、実施形態1と同様である。ただし、感情・集中力処理部34の処理結果が第1送信部29に入力される点が、実施形態1と異なる。
感情・集中力処理部34は、発言促進部として機能し、分離部31から受けた第2ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第2ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部34は、集中度と所定の閾値とを比較し、第2ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部34は、集中度が所定の閾値(例えば、30)未満の第2ユーザに対して発言を促すことを決定する。
また、感情・集中力処理部34は、所定の種類の感情と所定の閾値とを比較し、第2ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部34は、怒りの感情が所定の閾値(例えば、90)以上の第2ユーザに対して発言を促すことを決定する。また、感情・集中力処理部34は、喜びの感情が所定の閾値(例えば、30)未満の第2ユーザに対して発言を促すことを決定する。
感情・集中力処理部34は、発言を促す第2ユーザを特定した(第2ユーザの識別子を含む)発言促進指示信号を第1送信部29に出力する。
第1送信部29は、感情・集中力処理部34から発言促進指示信号を受け、当該発言促進指示信号を第2装置4に送信する。
一方、第2装置4から発言を促進する第1ユーザを特定した発言促進指示信号が送信された場合には、第1受信部30は、当該信号を受信し、分離部31に出力する。
分離部31は、第1受信部30から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部34に出力する。
感情・集中力処理部34は、分離部31から発言促進指示信号を受けた場合には、発言促進指示信号に示される第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。例えば、感情・集中力処理部34は、第1ユーザのユーザ名が「A」である場合には、「Aさんは何か意見ありませんか?」などのようなメッセージの表示用データを作成する。
表示・出力部35は、感情・集中力処理部34から表示用データを受け、当該表示用データをディスプレイに表示させる。
図12は、本開示の実施形態3に係る第2装置4の機能的構成を示すブロック図である。実施形態3に係る第2装置4の構成は、実施形態1と同様である。ただし、感情・集中力処理部54の処理結果が第2送信部49に入力される点が、実施形態1と異なる。
感情・集中力処理部54は、分離部51から受けた第1ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第1ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部54は、集中度と所定の閾値とを比較し、第1ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部54は、集中度が所定の閾値(例えば、30)未満の第1ユーザに対して発言を促すことを決定する。
また、感情・集中力処理部54は、所定の種類の感情と所定の閾値とを比較し、第1ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部54は、怒りの感情が所定の閾値(例えば、90)以上の第1ユーザに対して発言を促すことを決定する。また、感情・集中力処理部54は、喜びの感情が所定の閾値(例えば、30)未満の第1ユーザに対して発言を促すことを決定する。
感情・集中力処理部54は、発言を促す第1ユーザを特定した(第1ユーザの識別子を含む)発言促進指示信号を第2送信部49に出力する。
第2送信部49は、感情・集中力処理部54から発言促進指示信号を受け、当該発言促進指示信号を第1装置2に送信する。
一方、第1装置2から発言を促進する第2ユーザを特定した発言促進指示信号が送信された場合には、第2受信部50は、当該信号を受信し、分離部51に出力する。
分離部51は、第2受信部50から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部54に出力する。
感情・集中力処理部54は、分離部51から発言促進指示信号を受けた場合には、発言促進指示信号に示される第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。例えば、感情・集中力処理部54は、第2ユーザのユーザ名が「B」である場合には、「Bさんは何か意見ありませんか?」などのようなメッセージの表示用データを作成する。
表示・出力部55は、感情・集中力処理部54から表示用データを受け、当該表示用データをディスプレイに表示させる。
〔提供システム1の処理フロー〕
図13は、本開示の実施形態3に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
提供システム1は、図5に示した実施形態1と同様のステップS1からS15までの処理を実行する。
第2装置4の感情・集中力処理部54は、ステップS10において分離された第1ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第1ユーザに発言を促すか否かを決定し、発言を促す第1ユーザを特定した発言促進指示信号を第2送信部49に出力する(S41)。
第2装置4の第2送信部49は、発言促進指示信号を第1装置2に送信し、第1装置2の第1受信部30は、当該信号を受信する(S42)。
第1装置2の分離部31は、ステップS42において受信された発言促進信号を感情・集中力処理部34に出力し、感情・集中力処理部34は、発言促進指示信号に示される第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。表示・出力部35は、感情・集中力処理部34から表示用データを受け、当該表示用データをディスプレイに表示させる(S43)。
図14は、本開示の実施形態3に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
提供システム1は、図6に示した実施形態1と同様のステップS21からS35までの処理を実行する。
第1装置2の感情・集中力処理部34は、ステップS30において分離された第2ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第2ユーザに発言を促すか否かを決定し、発言を促す第2ユーザを特定した発言促進指示信号を第1送信部29に出力する(S44)。
第1装置2の第1送信部29は、発言促進指示信号を第2装置4に送信し、第2装置4の第2受信部50は、当該信号を受信する(S45)。
第2装置4の分離部51は、ステップS45において受信された発言促進信号を感情・集中力処理部54に出力し、感情・集中力処理部54は、発言促進指示信号に示される第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。表示・出力部55は、感情・集中力処理部54から表示用データを受け、当該表示用データをディスプレイに表示させる(S46)。
〔実施形態3の効果等〕
実施形態3によると、例えば、第2ユーザが第1ユーザの発話内容に対して否定的な感情を抱いていたり、第2ユーザが集中していない場合などに、第2ユーザに発言を促すことができる。同様に、第1ユーザが第2ユーザの発話内容に対して否定的な感情を抱いていたり、第1ユーザが集中していない場合などに、第1ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。
なお、第1装置2の感情・集中力処理部34は、第2ユーザに発言を促すか否かを決定したが、第1ユーザに発言を促すか否かを決定してもよい。つまり、感情・集中力処理部34は、感情・集中力判断部28から、第1ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第1ユーザに発言を促すか否かを決定する。感情・集中力処理部34は、決定した結果に基づいて、第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。
同様に、第2装置4の感情・集中力処理部54は、第2ユーザに発言を促すかを決定してもよい。つまり、感情・集中力処理部54は、感情・集中力判断部48から、第2ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第2ユーザに発言を促すか否かを決定する。感情・集中力処理部54は、決定した結果に基づいて、第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。
<実施形態の変形例>
上述の実施形態において、会議に参加する第1ユーザ及び第2ユーザのそれぞれについて、第1ユーザと第2ユーザとの対話における各ユーザの貢献度を算出してもよい。
例えば、図2又は図11に示した第1装置2の構成において、感情・集中力判断部28は、第1ユーザの感情の種類ごとの感情スコアと集中度とに基づいて第1ユーザの貢献度を算出してもよい。例えば、感情・集中力判断部28は、会議における第1ユーザの平均の集中度を算出し、平均集中度が大きい程、値が大きくなるような変換式に従い貢献度を算出してもよい。感情・集中力判断部28は、算出した第1ユーザの貢献度を、第1ユーザの識別子とともに感情・集中力DB5に書き込む。
同様に、図4又は図12に示した第2装置4の構成において、感情・集中力判断部48が、第2ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
また、図7に示した第1装置2の構成において、感情・集中力判断部28が、第2ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
また、図8に示した第2装置4の構成において、感情・集中力判断部48が、第1ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
本変形例によると、ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザの対話における貢献度を算出することができる。例えば、対話に集中していたユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高いユーザの貢献度を高く算出したりすることが可能である。
[付記]
以上、本開示の実施形態に係る提供システム1について説明したが、本開示は、この実施形態に限定されるものではない。
上記各装置は、複数のコンピュータにより実現されてもよい。
上記各装置の一部又は全部の機能がクラウドコンピューティングによって提供されてもよい。つまり、各装置の一部又は全部の機能がクラウドサーバにより実現されていてもよい。
さらに、上記実施形態及び上記変形例の少なくとも一部を任意に組み合わせてもよい。
今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 提供システム
2 第1装置
3 ネットワーク
4 第2装置
5 感情・集中力DB
21 映像取得部(第1取得部)
22 映像符号化部
23 映像解析部(判断部)
24 音声取得部(第1取得部)
25 音声符号化部
26 音声解析部(判断部)
27 多重化部
28 感情・集中力判断部(判断部)
29 第1送信部(提供部)
30 第1受信部
31 分離部
32 映像復号化部(映像取得部)
33 音声復号化部(音声取得部)
34 感情・集中力処理部(発言促進部、算出部)
35 表示・出力部(提供部、第1出力部)
41 映像取得部(映像取得部、第2取得部)
42 映像符号化部
43 映像解析部(判断部)
44 音声取得部(音声取得部、第2取得部)
45 音声符号化部
46 音声解析部(判断部)
47 多重化部
48 感情・集中力判断部(判断部)
49 第2送信部(提供部)
50 第2受信部
51 分離部
52 映像復号化部
53 音声復号化部
54 感情・集中力処理部
55 表示・出力部(第2出力部)
60 映像表示領域
61 感情履歴通知領域
71A ユーザ
71B ユーザ
71C ユーザ
72A アイコン
72B アイコン
72C アイコン
73A 判断結果
73B 判断結果
73C 判断結果

Claims (11)

  1. 話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、
    取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
    前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える、提供システム。
  2. 前記提供システムは、さらに、前記第2ユーザの音声を取得する音声取得部を備え、
    前記判断部は、取得された前記第2ユーザの映像及び音声に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する、請求項1に記載の提供システム。
  3. 前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、
    前記第1装置は、
    前記第1ユーザの音声及び映像を取得する第1取得部と、
    取得された前記第1ユーザの音声及び映像を前記第2装置に送信する第1送信部と、
    前記第2装置から、前記第2ユーザの音声及び映像を受信する第1受信部と、
    受信された前記第2ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、
    前記第2装置は、
    前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、
    取得された前記第2ユーザの音声及び映像を前記第1装置に送信する第2送信部と、
    前記第1装置から、前記第1ユーザの音声及び映像を受信する第2受信部と、
    受信された前記第1ユーザの音声及び映像を出力する第2出力部とを含む、請求項2に記載の提供システム。
  4. 前記判断部は、前記第1装置に備えられ、前記第1受信部が受信した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する、請求項3に記載の提供システム。
  5. 前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、
    前記第1装置は、
    前記第1ユーザの音声を取得する第1取得部と、
    取得された前記第1ユーザの音声を前記第2装置に送信する第1送信部と、
    前記第2装置から、前記第2ユーザの音声を受信する第1受信部と、
    受信された前記第2ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、
    前記第2装置は、
    前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、
    取得された前記第2ユーザの音声を前記第1装置に送信する第2送信部と、
    前記第1装置から、前記第1ユーザの音声を受信する第2受信部と、
    受信された前記第1ユーザの音声を出力する第2出力部とを含み、
    前記判断部は、前記第2装置に備えられ、前記第2取得部が取得した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断し、
    前記第2送信部は、さらに、前記判断部による判断結果を送信し、
    前記第1受信部は、さらに、前記判断部による判断結果を受信し、
    前記第1出力部は、前記第1受信部が受信した前記判断部による判断結果を出力する、請求項2に記載の提供システム。
  6. 前記第2装置は、さらに、
    前記第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第2ユーザに対して発言を促す発言促進部を備える、請求項3から請求項5のいずれか1項に記載の提供システム。
  7. 前記提供システムは、さらに、
    前記判断部による判断結果に基づいて、前記第1ユーザと前記第2ユーザとの対話における前記第2ユーザの貢献度を算出する算出部を備える、請求項3から請求項6のいずれか1項に記載の提供システム。
  8. 前記判断部は、さらに、前記第2ユーザの感情及び集中度の少なくとも一方の判断結果の履歴に基づいて、当該第2ユーザの感情及び集中度の少なくとも一方の判断結果を補正する、請求項1から請求項7のいずれか1項に記載の提供システム。
  9. 話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得するステップと、
    取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、
    前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む、提供方法。
  10. 話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、
    取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
    前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える、提供装置。
  11. コンピュータを、
    話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、
    取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
    前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させるための、コンピュータプログラム。
JP2020003983A 2020-01-14 2020-01-14 提供システム、提供方法、提供装置、及びコンピュータプログラム Pending JP2021111239A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020003983A JP2021111239A (ja) 2020-01-14 2020-01-14 提供システム、提供方法、提供装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020003983A JP2021111239A (ja) 2020-01-14 2020-01-14 提供システム、提供方法、提供装置、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2021111239A true JP2021111239A (ja) 2021-08-02

Family

ID=77060011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020003983A Pending JP2021111239A (ja) 2020-01-14 2020-01-14 提供システム、提供方法、提供装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2021111239A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032056A1 (ja) * 2021-08-31 2023-03-09 株式会社I’mbesideyou 動画像分析システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277462A (ja) * 2004-03-22 2005-10-06 Fujitsu Ltd 会議支援システム、議事録生成方法、およびコンピュータプログラム
JP2010183444A (ja) * 2009-02-06 2010-08-19 Fuji Xerox Co Ltd 情報処理装置及び音声補正プログラム
WO2016178329A1 (ja) * 2015-05-07 2016-11-10 ソニー株式会社 情報処理システム、制御方法、および記憶媒体
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2019071515A (ja) * 2017-10-06 2019-05-09 富士ゼロックス株式会社 通信装置、通信システムおよびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277462A (ja) * 2004-03-22 2005-10-06 Fujitsu Ltd 会議支援システム、議事録生成方法、およびコンピュータプログラム
JP2010183444A (ja) * 2009-02-06 2010-08-19 Fuji Xerox Co Ltd 情報処理装置及び音声補正プログラム
WO2016178329A1 (ja) * 2015-05-07 2016-11-10 ソニー株式会社 情報処理システム、制御方法、および記憶媒体
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2019071515A (ja) * 2017-10-06 2019-05-09 富士ゼロックス株式会社 通信装置、通信システムおよびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032056A1 (ja) * 2021-08-31 2023-03-09 株式会社I’mbesideyou 動画像分析システム

Similar Documents

Publication Publication Date Title
US20210407520A1 (en) Detecting user identity in shared audio source contexts
US10706873B2 (en) Real-time speaker state analytics platform
US11216784B2 (en) Systems and methods for automating validation and quantification of interview question responses
US10068588B2 (en) Real-time emotion recognition from audio signals
US20160379643A1 (en) Group Status Determining Device and Group Status Determining Method
US11184412B1 (en) Modifying constraint-based communication sessions
US20170270930A1 (en) Voice tallying system
US9053096B2 (en) Language translation based on speaker-related information
US9293133B2 (en) Improving voice communication over a network
US20080240379A1 (en) Automatic retrieval and presentation of information relevant to the context of a user's conversation
JP2005277462A (ja) 会議支援システム、議事録生成方法、およびコンピュータプログラム
Samareh et al. Detect depression from communication: How computer vision, signal processing, and sentiment analysis join forces
JP6238083B2 (ja) 情報処理装置、サーバ、情報処理方法、および情報処理システム
JP2017010309A (ja) 意思決定支援装置および意思決定支援方法
US20220231873A1 (en) System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation
TW202223804A (zh) 電子資源推送方法及系統
CN114566187B (zh) 操作包括电子装置的***的方法、电子装置及其***
JP2021111239A (ja) 提供システム、提供方法、提供装置、及びコンピュータプログラム
WO2021210332A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6285377B2 (ja) コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム
JP2010086356A (ja) 意識関与度測定装置、意識関与度測定方法および意識関与度測定プログラム
Jiao et al. Objective intelligibility assessment by automated segmental and suprasegmental listening error analysis
CN111179943A (zh) 一种对话辅助设备及获取信息的方法
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
US11532300B1 (en) System to determine sentiment from audio data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231010