JP2021064833A - サーバ装置及びテレビ会議システム - Google Patents

サーバ装置及びテレビ会議システム Download PDF

Info

Publication number
JP2021064833A
JP2021064833A JP2019187054A JP2019187054A JP2021064833A JP 2021064833 A JP2021064833 A JP 2021064833A JP 2019187054 A JP2019187054 A JP 2019187054A JP 2019187054 A JP2019187054 A JP 2019187054A JP 2021064833 A JP2021064833 A JP 2021064833A
Authority
JP
Japan
Prior art keywords
image
user
information
image information
user device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019187054A
Other languages
English (en)
Inventor
明 ▲高▼橋
明 ▲高▼橋
Akira Takahashi
章弥 稲垣
Akiya Inagaki
章弥 稲垣
浩孝 津田
Hirotaka Tsuda
浩孝 津田
直也 佐藤
Naoya Sato
直也 佐藤
実沙子 小泉
Misako Koizumi
実沙子 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2019187054A priority Critical patent/JP2021064833A/ja
Publication of JP2021064833A publication Critical patent/JP2021064833A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】テレビ会議を円滑に進行させる。【解決手段】サーバ装置10は、以下の構成を備える。取得部111は、各ユーザの画像及び当該ユーザの音を示す個別情報、並びに各ユーザに対応するユーザ装置の画面サイズに関する画面情報を複数のユーザ装置の各々から取得する。画像生成部112は、複数のユーザ装置と1対1に対応する複数の個別情報及び複数のユーザ装置と1対1に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を複数のユーザ装置の各々について生成する。通信装置130は、複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する。【選択図】図2

Description

本発明は、サーバ装置及びテレビ会議システムに関する。
特許文献1には、会議に参加する複数の参加者のうち、話者を特定することによって、会議を支援する会議支援システムが開示されている。会議支援システムでは、会議テーブルに魚眼レンズを用いた撮像装置が配置される。会議支援システムは、撮像装置によって撮像された撮像情報から参加者の唇の動きを抽出し、抽出された唇の動きに基づいて話者を特定する。さらに、会議支援システムは、撮像情報に基づいて、複数の参加者の顔と話者を示すマイクのアイコンとを含む画像を生成し、ディスプレイに表示する。
特開2015−19162号公報
しかし、従来の会議支援システムは、異なる場所にいる複数のユーザが参加するテレビ会議には対応していない。テレビ会議に参加するユーザが使用するユーザ装置は、例えば、スマートフォン、パーソナルコンピュータ、あるいは時計型のリスタブル装置などがある。すなわち、ユーザ装置の画面サイズは、小画面のサイズもあれば、大画面のサイズもある。画面サイズの異なる複数のユーザ装置を使用してテレビ会議を行う場合、大画面用の画像を複数のユーザ装置に配信すると、あるユーザ装置では画像を表示できないことがある。一方、小画面用の画像を複数のユーザ装置に配信すると、他のユーザ装置では表示能力を十分に発揮できないことがある。このため、従来の技術は、テレビ会議を円滑に進行できないといった問題がある。
以上の課題を解決するために、本開示の好適な態様に係るサーバ装置は、テレビ会議に参加する複数のユーザと1対1に対応する複数のユーザ装置と通信するサーバ装置であって、各ユーザの画像及び当該ユーザの音を示す個別情報、並びに前記各ユーザに対応するユーザ装置の画面サイズに関する画面情報を前記複数のユーザ装置の各々から取得する取得部と、前記複数のユーザ装置と1対1に対応する複数の個別情報及び前記複数のユーザ装置と1対1に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を前記複数のユーザ装置の各々について生成する画像生成部と、前記複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する送信部と、を備える。
本開示によれば、サーバ装置は、複数のユーザ装置に画面サイズに応じた画像情報を送信するので、テレビ会議を円滑に進行できる。
テレビ会議システム1の構成の一例を示すブロック図である。 ユーザ装置20_1の構成の一例を示す斜視図である。 ユーザ装置20_2の構成の一例を示す平面図である。 サーバ装置10の構成の一例を示すブロック図である。 テレビ会議の参加人数が4名の場合における、画面レイアウトの一例を示す説明図である。 テレビ会議の参加人数が6名の場合における、画面レイアウトの一例を示す説明図である。 テレビ会議の画像の一例を示す説明図である。 テレビ会議の画像の一例を示す説明図である。 画像情報G2の示す画像の一例を示す説明図である。 ユーザ装置20_jの構成の一例を示すブロック図である。 テレビ会議における画像情報の生成に関するサーバ装置10の動作の一例を示すフローチャートである。 密談に関するサーバ装置10の動作の一例を示すフローチャートである。 密談の相手方であるユーザ装置20_1に表示される画像の一例を示す説明図である。 画像情報G3に対応する画像の一例を示す説明図である。 チャット中にユーザ装置20_1に表示される画像の一例を示す説明図である。
1.実施形態
1−1:全体構成
図1は、実施形態に係るテレビ会議システム1の構成例を示すブロック図である。テレビ会議システム1は、互いに異なる場所にいる複数のユーザU1、U2、…Unが参加するテレビ会議のサービスを提供する。さらに、テレビ会議システム1は、テレビ会議中に密談を行うサービスを提供する。密談は、複数のユーザU1、U2、…Unの一部のユーザで行うことができる。密談の典型例は、複数のユーザU1、U2、…Unのうち2人のユーザで行われる。密談の内容は、密談の参加者のみに共有され、密談の参加者以外のユーザには、秘密とされる。nは2以上の整数である。
テレビ会議システム1は、サーバ装置10、及び複数のユーザ装置20_1、20_2、…20_nを備える。これらの構成要素は、インターネットなどの通信網NETに接続される。複数のユーザ装置20_1〜20_nは、複数のユーザU1〜Unと1対1に対応する。以下の説明では、1以上n以下の任意の整数をjとする。複数のユーザ装置20_1〜20_nのうち、任意のユーザ装置をユーザ装置20_jと表記する。複数のユーザU1〜Unのうち、任意のユーザをユーザUjと表記する。また、ユーザ装置20_1は第1のユーザ装置の一例である。ユーザ装置20_2は第2のユーザ装置の一例である。
ユーザ装置20_jは、通話機能、撮像機能、及び通信機能を備える装置を用いることができる。ユーザ装置20_jとして、例えば、時計型のウェアラブル装置、パーソナルコンピュータ、又はスマートフォンが用いられる。以下の説明では、ユーザU1が使用するユーザ装置20_1としてパーソナルコンピュータが用いられ、ユーザU2が使用するユーザ装置20_2として時計型のウェアラブル装置が用いられる。
図2は、ユーザ装置20_1の構成例を示す斜視図である。ユーザ装置20_1は、表示装置240、入力装置250、撮像装置260、及びマイク270を備える。表示装置240は、テレビ会議の画像を表示する。撮像装置260は、被写体を撮像して、撮像結果を示す撮像情報を出力する。マイク270は、音を電気信号に変換し、変換結果を示す音声信号を出力する。テレビ会議の画像にはユーザの顔画像の他、発言ボタンB1の画像が含まれる。発言ボタンB1については、後述する。
図3は、ユーザ装置20_2の構成例を示す平面図である。ユーザ装置20_2は、ユーザ装置20_1と同様に、表示装置240、入力装置250、撮像装置260、及びマイク270を備える。ユーザ装置20_2はベルトを有している。ユーザ装置20_2は、ユーザU1の手首にベルトを巻回することによって、使用される。
1−2:サーバ装置
図4は、サーバ装置10の構成の一例を示すブロック図である。サーバ装置10は、情報処理装置の一例である。サーバ装置10は、処理装置110、記憶装置120、及び通信装置130を備える。サーバ装置10の各要素は、情報を通信するための単体又は複数のバスで相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、サーバ装置10の各要素は、単数又は複数の機器で構成され、サーバ装置10の一部の要素は省略されてもよい。
処理装置110は、サーバ装置10の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置110は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置110の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置110は、各種の処理を並列的又は逐次的に実行する。
記憶装置120は、処理装置110が読取可能な記録媒体であり、処理装置110が実行する制御プログラムPR1を含む複数のプログラム、及び処理装置110が使用する各種の情報、例えば、管理情報Kなどを記憶する。記憶装置120は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つによって構成されてもよい。記憶装置120は、レジスタ、キャッシュ、メインメモリ(主記憶装置)等と呼ばれてもよい。
管理情報Kは、テレビ会議を識別するサービスID、サービスを利用するユーザを識別するユーザID、ユーザが使用するユーザ装置の画面サイズを示す画面情報、話者を示す話者フラグ、及び密談を識別する密談IDを対付ける情報である。管理情報Kは、処理装置110は、管理情報Kを参照及び更新することによって、テレビ会議のサービスを提供する。
通信装置130は、他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置130は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。
処理装置110は、記憶装置120から制御プログラムPR1を読み出して実行することによって、取得部111、画像生成部112、認識部113、及び管理部114として機能する。
取得部111は、複数のユーザ装置20_1〜20_nの各々から、各種の情報を取得する。ユーザ装置20_jから取得される情報には、個別情報Xj、画面情報Yj、指定情報Zj及び検出情報Djが含まれる。個別情報Xj、画面情報Yj、指定情報Zj、検出情報Djは、ユーザ装置20_jによって生成される。また、これらの情報は、ユーザ装置20_jから、直接、サーバ装置10に送信されてもよいし、他の装置を経由してサーバ装置10に送信されてもよい。例えば、ユーザ装置20_jが、時計型のリスタブル装置である場合、これらの情報は、ユーザUjが所持するスマートフォンを介して、サーバ装置10に送信されてもよい。
個別情報Xjは、ユーザUjの画像及びユーザUjの音を示す情報である。画面情報Yjは、ユーザ装置20_jの画面サイズに関する情報である。画面情報Yjは、例えば、画面の解像度、ユーザ装置20_jの型番、又はユーザ装置20_jの装置の種類を示してもよい。ユーザ装置20_jの型番は、直接的に画面サイズを示す情報ではない。しかし、ユーザ装置20_jの型番によって、ユーザ装置20_jの画面サイズは一意に特定される。このため、ユーザ装置20_jの型番は、間接的に画面サイズを示す情報である。ユーザ装置20_jの装置の種類としては、時計型のリスタブル装置、スマートフォン、タブレット端末、及びパーソナルコンピュータが含まれ得る。指定情報Zjは、密談の相手方及び密談のコユニケーション方法を指定する情報である。
検出情報Djは、ユーザ装置20_jにおいて、テレビ会議の画像に含まれる発言ボタンB1が操作されたことが検出されたことを示す情報である。発言ボタンB1は、発言を希望する意志を伝えるための操作子の一例である。テレビ会議において、複数のユーザが同時に発言すると、テレビ会議の進行が妨げられる。そこで、テレビ会議システム1において、発言ボタンB1の操作によって、複数のユーザ装置20_1〜20_nは、発言の意志を伝える画像を表示する。
画像生成部112は、個別情報Xj及び画面情報Yjに基づいて、ユーザ装置20_jの画面サイズに応じた画像情報Gjを生成する。即ち、画像生成部112は、複数の個別情報X1〜Xn及び複数の画面情報Y1〜Yjに基づいて、各ユーザ装置の画面サイズに応じた画像情報G1〜Gnを複数のユーザ装置20_1〜20_nの各々について生成する。画像情報G1は第1の画像情報の一例である。画像情報G2は第2の画像情報の一例である。
画像生成部112は、複数の個別情報X1〜Xnに基づいて、ユーザの顔を含む部分の画像を抽出することによって、複数のユーザU1〜Unと1対1に対応する複数の顔画像情報Gf1〜Gfnを生成する。ユーザの顔を含む部分の画像の形状は、例えば、楕円形、円形、又は長方形である。ユーザの顔を含む部分の画像は、背景とユーザの顔とから構成される。
画像生成部112は、テレビ会議に参加するユーザの数と画面情報Yjとに基づいて、ユーザ装置20_jに送信する画像情報Gjの示す画像の画面レイアウトを決定する。画像生成部112は、例えば、ユーザの数及び画面情報Yjの示す画面サイズと画面レイアウトとを対応付けたレイアウト情報を参照することによって、画面レイアウトを決定する。
画像生成部112は、テレビ会議に参加するユーザの数と画面情報Yjとに基づいて、ユーザ装置20_jに送信する画像情報Gjの示す画像の画面レイアウトを決定する。画像生成部112は、例えば、ユーザの数及び画面情報Yjの示す画面サイズと画面レイアウトとを対応付けたレイアウト情報を参照することによって、画面レイアウトを決定する。
例えば、画面情報Yjの画面サイズがパーソナルコンピュータを示し、テレビ会議の参加人数が4名の場合、画面レイアウトは、例えば、図5Aに示されるように4個の顔画像領域Ra1〜Ra4が割り当てられる。また、画面情報Yjの画面サイズがパーソナルコンピュータを示し、テレビ会議の参加人数が6名の場合、画面レイアウトは、例えば、図5Bに示されるように4個の顔画像領域Rb1〜Rb6が割り当てられる。一方、画面情報Yjの画面サイズが時計型のウェアラブル装置を示す場合、テレビ会議の参加人数に関らず、図3に示されるように1個の顔画像領域Rc1が割り当てられる。
画像生成部112は、画面レイアウトの顔画像領域に顔画像を挿入することによって、画像情報Gjを生成する。図5Bに示される画面レイアウトの場合、画像生成部112は、顔画像領域Rb1〜Rb6に1対1に対応するユーザU1〜U6の顔画像を挿入して、画像情報Gjを生成する。この場合、テレビ会議の参加者は6名である。一方、図3に示される画面レイアウトの場合、画像生成部112は、顔画像領域Rc1にユーザU1〜Unのうちいずれか1名の顔画像を挿入して、画像情報Gjを生成する。
画像生成部112は、取得部111が検出情報Djを取得すると、検出情報Djの送信元のユーザ装置20_jのユーザUjを、発言を希望するユーザとして特定する。画像生成部112は、画像情報Gjを更新することによって、特定されたユーザの顔画像を他のユーザの顔画像と識別可能な画像をテレビ会議の画像に含ませる。例えば、ユーザ装置20_jに図6Aに示すテレビ会議の画像が表示される場合を想定する。図6Aに示される例では、6個の顔画像領域Rb1〜Rb6に1対1に対応してユーザU1〜U6の顔画像が配置される。また、話者の顔画像の大きさは他のユーザの顔画像の大きさよりも大きい。即ち、顔画像領域Rb2に表示される顔画像のユーザU2が話者である。ここで、ユーザU6が、ユーザ装置20_6において表示されるテレビ会議の画像中の発言ボタンB1を操作すると、ユーザ装置20_6は検出情報D6をサーバ装置10に送信する。取得部111が検出情報D6を取得することを契機に、画像生成部112は、画像情報Gjを更新する。この結果、画像情報Gjの示す画像は、図6Bに示すテレビ会議の画像となる。図6Bに示されるように、ユーザU6の顔画像が表示される顔画像領域Rb6の境界と重なる位置にアイコンA1が配置される。アイコンA1は、発言を希望することを示す画像である。アイコンA1によって、ユーザU6以外の他のユーザU1〜U5は、ユーザU6が発言を希望していることを知る。
ところで、ユーザ装置20_1〜20_nには時計型のウェアラブル装置が含まれることがある。例えば、図3に示すユーザ装置20_2は時計型のウェアラブル装置である。画像生成部112は、時計型のウェアラブル装置において、発言を希望するユーザを識別可能な画像情報G2を生成する。図6Cは、画像情報G2の示す画像の一例を示す説明図である。図6Cに示されるように、顔画像領域Rc2に発言を希望するユーザU6の顔画像が配置される。画像生成部112は、顔画像情報Gf6を用いて画像情報G2を生成する。この例では、ユーザU6の顔画像がワイプ表示されるので、ユーザU2はユーザU6が発言を希望していることを任s期できる。
説明を図4に戻す、認識部113は、複数の個別情報X1〜Xnに基づいて、話者を特定する。認識部113は、例えば、複数の個別情報X1〜Xnの示す音の大きさを比較し、比較結果に基づいて、最も大きな音を示す個別情報に対応するユーザを話者とする。
管理部114は、密談が行われる場合、指定情報Zjで指定される密談に用いるコミュニケーション方法に応じて、指定情報Zjの送信元のユーザ装置20_jと指定情報Zjで指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える。
1−3:ユーザ装置
次に、ユーザ装置20_jについて説明する。図7は、ユーザ装置20_jの構成の一例を示すブロック図である。ユーザ装置20_jは、処理装置210、記憶装置220、通信装置230、表示装置240、入力装置250、撮像装置260、及びマイク270を備える。ユーザ装置20_jの各要素は、情報を通信するための単体又は複数のバスで相互に接続される。ユーザ装置20_jの各要素は、単数又は複数の機器で構成され、ユーザ装置20_jの一部の要素は省略されてもよい。
処理装置210は、ユーザ装置20_jの全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置210は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置で構成される。処理装置210は、各種の処理を並列的又は逐次的に実行する。
記憶装置220は、処理装置210が読取可能な記録媒体であり、処理装置210が実行する制御プログラムPR2を含む複数のプログラム、及び処理装置210が使用する各種の情報、例えば、画面情報Yjなどを記憶する。記憶装置220は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つによって構成されてもよい。記憶装置220は、レジスタ、キャッシュ、メインメモリ(主記憶装置)等と呼ばれてもよい。
通信装置230は、他の装置と通信を行うためのハードウェア(送受信デバイス)である。
表示装置240は、画像を表示する。表示装置240は、処理装置210による制御のもとで各種の画像を表示する。例えば、液晶表示パネル及び有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが表示装置240として好適に利用される。
入力装置250は、外部からの入力を受付けるデバイスである。例えば、入力装置250は、数字及び文字等の符号を処理装置110に入力するための操作と、表示装置240に表示されるアイコンなどの画像を選択するための操作とを受付ける。例えば、表示装置240の表示面に対する接触を検出するタッチパネルが入力装置250として好適である。なお、入力装置250は、ユーザが操作可能な一又は複数の操作子を含んでもよい。入力装置250はユーザの操作に応じた入力情報を出力する。
撮像装置260は、被写体を撮像して、撮像結果を示す撮像情報を処理装置210に出力する。テレビ会議のサービスを利用する場合、被写体はユーザ装置20_jを使用するユーザUjである。ユーザUjがユーザ装置20_jを用いて自らを撮像する。この撮像情報の示す画像は、ユーザUjの顔を含む。
マイク270は、音を電気信号に変換し、変換結果を示す音情報を処理装置210に出力する。
処理装置210は、記憶装置220から制御プログラムPR2を読み出し、読み出された制御プログラムPR2を実行することによって、第1生成部211、第2生成部212、及び送信制御部213として機能する。
第1生成部211は、撮像情報及び音情報に基づいて、個別情報Xjを生成する。撮像情報は、ユーザUjを被写体とする画像を示す。音情報は、ユーザUjが発話した場合にはユーザUjの音声を示す。なお、個別情報XjにユーザIDを含まれてもよい。通信装置230は、個別情報Xjをサーバ装置10に送信する。
第2生成部212は、入力情報に基づいて、検出情報Dj及び指定情報Zjを生成する。
第2生成部212は、入力情報が発言ボタンB1の操作を示す場合に、検出情報Djを生成する。
第2生成部212は、入力情報が、ユーザU1〜Unのうち、ユーザUj以外のユーザの顔画像に対する操作に応じて指定情報Zjを生成する。顔画像に対する操作は、操作を識別できるのであれば、どのような操作であってもよい。例えば、顔画像に対する操作には、タップ操作と長押し操作とが含まれる。長押し操作とは、顔画像を所定時間以上、継続して押す操作を意味する。第2生成部212は、入力情報が顔画像に対するタップ操作である場合、当該顔画像のユーザに対して、第1のコミュニケーション方法を用いた密談を指定する指定情報Zjを生成する。第2生成部212は、入力情報が顔画像に対する長押し操作である場合、当該顔画像のユーザに対して、第2のコミュニケーション方法を用いた密談を指定する指定情報Zjを生成する。
第1のコミュニケーション方法は、例えば、音声通話である。第2のコミュニケーション方法は、例えば、チャット及びノンバーバルコミュニケーションである。ノンバーバルコミュニケーションとは、言語によらないコミュニケーションの意味である。ノンバーバルコミュニケーションには、いわゆるスタンプなどの具象化されたアイコン及び写真の送信、顔画像に対するエフェクトが含まれる。エフェクトの対象となる顔画像は、密談の相手方のユーザ装置に表示されるテレビ会議の画像において、指定情報の送信元のユーザ装置に対応するユーザの顔画像である。また、エフェクトは、例えば、当該顔画像を左右に揺らすこと、当該顔画像の大きさを周期的に変化させること等が含まれ得る。
送信制御部213は、通信装置230を制御することによって、個別情報Xj、画面情報Yj、指定情報Zj、及び検出情報Djをサーバ装置10に送信する。
1−4:サーバ装置の動作
サーバ装置10の動作を、テレビ会議と密談に分けて説明する。図8は、テレビ会議における画像情報の生成に関するサーバ装置10の動作を示すフローチャートである。処理装置110は、テレビ会議の起動を検知する(ステップS1)。テレビ会議に参加するユーザ装置20_1〜20_nには、予め特定のURLが通知されている。ユーザ装置20_1〜20_nは、特定のURLにアクセスすることによって、テレビ会議のサービスを利用できる。処理装置110は、例えば特定のURLにユーザ装置がアクセスしたことを検知することによって、テレビ会議の起動を検知する。
次に、処理装置110は取得部111として機能し、テレビ会議に参加するユーザ装置20_1〜20_nから、個別情報X1〜Xn及び画面情報Y1〜Ynを取得する(ステップS2)。
ステップS3において、処理装置110は、画像生成部112として機能し、個別情報X1〜Xnに基づいて顔画像を抽出する。個別情報X1〜Xnに基づいて、ユーザの顔を含む部分の画像を抽出することによって、処理装置110は、複数のユーザU1〜Unと1対1に対応する複数の顔画像情報Gf1〜Gfnを生成する。
ステップS4において、処理装置110は、画像生成部112として機能し、テレビ会議の参加人数に応じた画面レイアウトを、ユーザ装置20_1〜20_nの画面サイズごとに決定する。処理装置110は、取得された個別情報X1〜Xnの数をテレビ会議の参加人数としてもよい。あるいは、処理装置110は、ステップS2で抽出した複数の顔画像を計数することによって、テレビ会議に参加するユーザの人数を特定してもよい。
ステップS5において、処理装置110は、画像生成部112として機能し、画像情報G1〜Gnを生成する。具体的には、処理装置110は、ユーザ装置20_1〜20_nごとに、決定された画面レイアウトに、顔画像情報Gf1〜Gfnによって示される複数の顔画像を挿入することによって、画像情報G1〜Gnを生成する。
ステップS6において、処理装置110は、認識部113として機能し、個別情報X1〜Xnの各々に基づいて話者が認識できたかを判定する。判定結果が否定の場合、処理装置110は判定結果が肯定になるまで、判定を繰り返す。
ステップS6の判定結果が肯定の場合、処理装置110は、画像生成部112として機能し、話者の顔画像を強調する(ステップS7)。ステップS8において、処理装置110は、画像生成部112として機能し、話者の顔画像が強調されていない画像を示す画像情報を、話者の顔画像が強調された画像を示す画像情報に更新する。
ステップS9において、処理装置110は画像生成部112として機能し、取得部111が検出情報Djを取得したか否かを判定する。
ステップS9の判定結果が否定である場合、処理装置110は、処理をステップS6に戻す。ステップS9の判定結果が肯定である場合、処理装置110は、画像生成部112として機能し、検出情報Djの送信元のユーザ装置20_jのユーザUjを、発話を希望するユーザとして特定する(ステップS10)。
ステップS11において、処理装置110は、画像生成部112として機能し、テレビ会議の画像に、特定されたユーザの顔画像を識別可能な画像を含ませることによって、画像情報G1〜Gnを更新する。特定されたユーザの顔画像を識別可能な画像は、例えば、図6Bに示すアイコンA1の画像が対応する。
この後、処理装置110は、テレビ会議の終了条件を充足したか否かを判定する(ステップS12)。判定結果が否定の場合、処理装置110は、処理をステップS6に戻す。一方、判定結果が肯定の場合、処理装置110は処理を終了する。テレビ会議の終了条件は、例えば、テレビ会議に参加するためにサーバ装置10に通信接続されていた全てのユーザ装置20_1〜20_nについて、通信接続が終了したこととしてもよい。
以上の処理によって、画像情報G1〜Gnは生成される。生成された画像情報G1〜Gnは、1対1に対応するユーザ装置20_1〜20_nに送信される。
次に、密談におけるサーバ装置10の動作を説明する。図9は、密談に関するサーバ装置10の動作を示すフローチャートである。
処理装置110は、複数のユーザ装置20_1〜20_nのいずれかから、指定情報が取得されたか否かを判定する(ステップS21)。ステップS21の判定結果が否定である場合、処理装置110は、判定結果が肯定になるまで、ステップS21の処理を繰り返す。以下の説明では、サーバ装置10は、ユーザ装置20_3から指定情報Z3を取得する場合を王定する。また、指定情報Z3は、密談の相手方としてユーザ装置20_1を使用するユーザU1を指定する場合を想定する。即ち、ユーザU3が密談の要求元であり、ユーザU1が密談の相手方である。
ステップS21の判定結果が肯定である場合、処理装置110は画像生成部112として機能し、指定情報Z3の示すコミュニケーション方法が第1態様であるか否かを判定する。この例において、密談のコミュニケーション方法は、第1態様と第2態様の2つである。第1態様のコミュニケーション方法は音声通話である。また、第2態様のコミュニケーション方法はチャットである。
ステップS21の判定結果が肯定である場合、処理装置110は、画像生成部112として機能し、密談の相手方に対応し、且つ第1態様に対応する画像情報G1を生成する(ステップS24)。この後、処理装置110は、密談の相手方であるユーザU1が使用するユーザ装置20_1に画像情報G1を送信する(ステップS24)。
図10は、密談の相手方であるユーザ装置20_1に表示される画像の一例を示す説明図である。図10に示されるように、画像には、密談を要求するユーザU3の顔画像が配置される顔画像領域Rb3に電話機が具象化されたアイコンA2が配置される。ユーザU1は、第1態様のコミュニケーション方法に対応するアイコンA2が、顔画像領域Rb3に配置されることによって、ユーザU3が音声通話により密談を求めていることが分かる。
ステップS25において、処理装置110は、密談の相手方が密談を了承したか否かを判定する。具体的には、処理装置110は、密談の相手方であるユーザU1が、所定期間中に、図10に示されるアイコンA2に対してタップ操作をしたか否かを判定する。ユーザ装置20_1では、上記タップ操作がなされると、検出情報D1が生成される。処理装置110は、所定期間中に検出情報D1を取得したか否かによって、密談の相手方が密談を了承したか否かを判定する。
ステップS25の判定結果が肯定の場合、処理装置110は、ユーザ装置20_1とユーザ装置20_3との間の音声通話を開始する(ステップS26)。ステップS26において、処理装置110は、ユーザ装置20_1から取得した音声情報をユーザ装置20_3に転送し、ユーザ装置20_3から取得した音声情報をユーザ装置20_1に転送する。この処理によって、ユーザU1とユーザU3との間の音声通話が可能となる。
ステップS25の判定結果が否定である場合、処理装置110は、密談の要求元に対応する画像情報G3を生成する(ステップS27)。この後、処理装置110は、密談の要求元であるユーザ装置20_3に画像情報G3を送信する(ステップS28)。図11は、画像情報G3に対応する画像の一例を示す説明図である。図11に示されるように、画像には、密談の相手方であるユーザU1の顔画像が配置される顔画像領域Rb1に通話不能であることを示すアイコンA3が配置される。ユーザU3は、アイコンA3が、顔画像領域Rb1に配置されることによって、ユーザU1が音声通話による密談を了承しないことが分かる。
次に、ステップS22の判定結果が否定である場合、指定情報Z3によって指定されるコミュニケーション方法は第2態様である。この場合、処理装置110は、第2態様であるチャットに対応した画像情報G1及びG3を生成する(ステップS29)。画像情報G1の示す画像と及び画像情報G3の示す画像は同一である。処理装置110は、ユーザ装置20_3に画像情報G3を送信し、ユーザ装置20_1に画像情報G1を送信する(ステップS30)。
この後、処理装置110は、ユーザ装置20_1とユーザ装置20_3との間でチャットを開始する(ステップS31)。チャット中の処理装置110は、ユーザ装置20_1から取得したテキスト情報及びユーザ装置20_3から取得したテキスト情報を反映させた画像を示す画像情報G1及びG3を生成し、生成された画像情報G1及びG3をユーザ装置20_1及びユーザ装置20_3に送信する。
図12は、チャット中にユーザ装置20_1に表示される画像の一例を示す説明図である。図12に示されるように、画像には、チャット領域Rdが設けられる。チャット領域Rdにはテキストが表示される。また、チャット領域Rdには、終了の指示を入力するための終了ボタンB2が配置される。この例のチャット領域Rdは、密談の要求元であるユーザU3の顔画像、密談の相手方であるユーザU1の顔画像、及び話者であるユーザU2の顔画像と重ならない領域に配置される。この画面レイアウトによれば、ユーザは、密談の要求元と密談の相手方を一見して認識できる。また、この画面レイアウトによれば、話者の様子を認識できるので、密談の要求元及び相手方は、テレビ会議の進行を把握しながら、密談できる。
この後、処理装置110は、密談の終了条件が充足されたか否かを判定する(ステップS32)。ステップS32の判定結果が否定ある場合、処理装置110は判定結果が肯定になるまでステップS32の判定処理を繰り返す。処理装置110は、判定結果が肯定になると、密談の処理を終了し、通常のテレビ会議の処理に戻る。
以上、説明したように、サーバ装置10は、テレビ会議に参加する複数のユーザU1〜Unと1対1に対応する複数のユーザ装置20_1〜20_nと通信する。取得部111は、各ユーザの画像及び当該ユーザの音を示す個別情報Xj、並びに各ユーザに対応するユーザ装置の画面サイズに関する画面情報Yjを複数のユーザ装置20_1〜20_nの各々から取得する。画像生成部112は、複数のユーザ装置20_1〜20_nと1対1に対応する複数の個別情報X1〜Xn及び複数のユーザ装置20_1〜20_nと1対1に対応する複数の画面情報Y1〜Ynに基づいて、各ユーザ装置の画面サイズに応じた画像情報Gjを複数のユーザ装置20_1〜20_nの各々について生成する。送信部の一例である通信装置130は、複数のユーザ装置20_1〜20_nの各々について生成された画像情報Gjを、対応するユーザ装置20_jに送信する。
以上の構成によれば、複数のユーザ装置20_1〜20_nの画面サイズが一部、相違する場合であっても、サーバ装置10は、複数のユーザ装置20_1〜20_nの各々に画面サイズに応じた画像情報Gjを送信するので、テレビ会議を円滑に進行できる。
また、複数のユーザ装置20_1〜20_nには、第1のユーザ装置の一例であるユーザ装置20_1と第2のユーザ装置の一例であるユーザ装置20_2とが含まれる。ユーザ装置20_1に対応する画面情報Y1の示す画面サイズは、ユーザ装置20_2に対応する画面情報Y2の示す画面サイズよりも大きい。画像生成部112は、ユーザ装置20_1に対応する画像情報G1と、ユーザ装置20_2に対応する画像情報G2とを生成する。画像情報G1の示す画像は、複数のユーザU1〜Unの顔を含む。画像情報G2の示す画像は、複数のユーザU1〜Unのうち話者の顔を含む。画像情報G2の示す画像に含まれるユーザの顔の数は、画像情報G1の示す画像に含まれるユーザの顔の数よりも少ない。通信装置130は、画像情報G1をユーザ装置20_1に送信し、画像情報G2をユーザ装置20_2に送信する。
以上の構成によれば、画面サイズが小さいユーザ装置に表示されるユーザの顔は、画面サイズが大きいユーザ装置に表示されるユーザの顔の数は、画面サイズが小さいユーザ装置に表示されるユーザの顔と比較して多いので、画面サイズに応じて、テレビ会議に参加するユーザの顔の数を変動できる。表示するユーザの顔の数が減少すると、情報量が減少するが、画面サイズの小さいユーザ装置であっても、話者の顔は表示されるので、テレビ会議の利便性が高まる。
また、画像生成部112は、複数の個別情報X1〜Xnに基づいて、ユーザの顔を含む部分の画像を抽出することによって、複数のユーザU1〜Unと1対1に対応する複数の顔画像情報Gf1〜Gfnを生成する。画像生成部112は、画像情報G1として、複数のユーザU1〜Unの顔画像情報Gf1〜Gfnを含む情報を生成する。画像生成部112は、画像情報G2として、複数のユーザU1〜Unの顔画像情報Gf1〜Gfnのうち話者の顔画像情報を含み、且つ複数のユーザU1〜Unの顔画像情報Gf1〜Gfnのうち一部の顔画像情報を含まない情報を生成する。
以上の構成によれば、画像生成部112は、複数の顔画像情報Gf1〜Gfnを生成し、生成された複数の顔画像情報Gf1〜Gfnを用いて、複数の画像情報G1〜Gnを生成する。従って、複数の画像情報G1〜Gnごとに必要なユーザの顔画像を抽出する場合と比較して、画像生成部112は、複数の画像情報G1〜Gnを簡単に生成できる。
サーバ装置10は、複数の個別情報X1〜Xnの示す音声に基づいて、複数のユーザU1〜Unのうち話者を認識する認識部113を備える。画像生成部112は、認識部113の認識結果に基づいて、複数の顔画像情報Gf1〜Gfnのうち、話者に対応する顔画像情報を特定する。
以上の構成によれば、音声に基づいて話者を特定するので、画像を解析して唇の動きの特徴量を生成し、生成された特徴量から話者を特定する場合と比較して、処理負荷が低減する。
画像情報G2の示す画像に含まれるユーザの顔の数が「1」である場合、画像生成部112は、話者に対応する顔画像情報の示す顔画像を強調することによって、画像情報G1を生成する。画像生成部112は、話者に対応する顔画像情報の示す顔画像を強調することなく、画像情報G2を生成する。
話者の顔画像を強調する理由は、画像に複数の顔画像が含まれる場合に、話者の識別を容易にするためである。画像情報G2の示す画像に含まれるユーザの顔の数が「1」であるので、話者のみが表示される。従って、画像情報G2の示す画像に含まれる顔画像を強調する必要がない。以上の構成によれば、画像情報G2の示す画像に含まれるユーザの顔の数が「1」である場合に、話者の顔画像を強調しないので、画像情報G2を生成する処理負荷が軽減される。
複数の画像情報G1〜Gnの各々が示す画像は、発言を希望する意志を伝えるための操作子の一例である発言ボタンB1の画像を含む。取得部111は、発言ボタンB1の画像が操作されたこと示す検出情報Djを複数のユーザ装置20_1〜20_nのうちいずれかのユーザ装置20_jから取得可能である。画像生成部112は、複数の画像情報G1〜Gnの各々が示す画像に、検出情報Djの送信元であるユーザ装置20_jを使用するユーザUjを識別可能な画像を含ませる。
以上の構成によれば、発言を希望するユーザは、発言ボタンB1を操作することによって、テレビ会議に参加する他のユーザに、発言を希望する意志を伝えことができるので、テレビ会議を円滑に進行できる。
取得部111は、複数のユーザ装置20_1〜20_nから、密談の相手方となるユーザ及び密談に用いるコミュニケーション方法を指定する指定情報Z1〜Znを取得可能である。管理部114は、密談が行われる場合、指定情報Zjで指定される密談に用いるコミュニケーション方法に応じて、指定情報Zjの送信元のユーザ装置20_jと指定情報Zjで指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える。
以上の構成によれば、密談の要求元で生成された指定情報Zjに従って、コミュニケーション方法を指定できるので、密談のコミュニケーション方法が一つである場合と比較して、状況に応じた密談ができる。
指定情報Zjは、複数のユーザ装置20_1〜20_nのうち一のユーザ装置20_jで生成される。密談の相手方となるユーザは、一のユーザ装置20_jに表示される複数の顔の画像うち、操作の対象となる顔の画像によって指定される。密談におけるコミュニケーション方法は、顔の画像に対する操作によって指定される。
以上の構成によれば、密談の相手方の指定と密談におけるコミュニケーション方法の指定は、一つの顔の画像に対する操作によって指定できるので、互いに異なる画像に対する操作によって指定する場合と比較して、ユーザの利便性が向上する。
画像生成部112は、テレビ会議において、密談の相手方のユーザ装置20_jに表示される画像に、複数のユーザU1〜Unの顔が表示される場合、指定情報の送信元のユーザの顔を強調した画像を示す画像情報Gjを生成する。
以上の構成によれば、密談の相手方のユーザに密談の要求元のユーザを知らせることができる。
2.変形例
本開示は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
2−1:変形例1
実施形態では画像情報G1〜Gnの各々が示す画像は1頁で構成されるが、本開示はこれに限定されない。例えば、画面サイズに応じて、1頁に表示する顔画像の最大値を定め、画像生成部112は、テレビ会議の参加者の人数が最大値を超える場合は、複数頁でテレビ会議の画像を構成する画像情報Gjを生成してもよい。例えば、画面サイズが時計型のウェアラブル装置の場合、最大値を「1」としてもよい。画像生成部112は、テレビ会議の画像をn頁で構成する画像情報Gjを生成する。例えば、画面サイズがスマートフォンの場合、最大値を「3」としてもよい。テレビ会議の参加者の人数が6名であれば、画像生成部112は、テレビ会議の画像を2頁で構成する画像情報Gjを生成してもよい。テレビ会議の画像が複数頁で構成される場合、ユーザ装置20_jにおいて、フリック操作によって表示される頁を変更できる。
2−2:変形例2
本開示において画像情報G1〜Gnは、動画であってもよいし、静止画であってもよい。また、話者に関する画像情報を動画とし、話者以外の他のユーザに関する画像情報を静止画としてもよい。画像情報G1〜Gnを動画とし、話者の画像情報のフレームレートを、話者以外の他のユーザに関する画像情報のフレームレートよりも高くしてもよい。この場合、処理装置110は、ユーザ装置20_1〜20_nの各々に対して、個別情報のフレームレートを指示してもよい。
3.その他
(1)上述した実施形態では、記憶装置120又は220は、処理装置110又は210が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、電気通信回線を介してネットワークから送信されてもよい。また、プログラムは、電気通信回線を介して通信網から送信されてもよい。
(2)上述した実施形態において、説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
(3)上述した実施形態において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
(4)上述した実施形態において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
(5)上述した実施形態において例示した処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
(6)図1に例示された各機能は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
また、通信装置130及び230は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置130は、例えば、周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。
(7)上述した実施形態で例示したプログラムは、ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
(8)前述の各形態において、「システム」及び「ネットワーク」という用語は、互換的に使用される。
(9)本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
(10)上述した実施形態において、店舗装置及びユーザ装置は、移動局(MS:Mobile Station)である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。また、本開示においては、「移動局」、「ユーザ端末(user terminal)」、「ユーザ装置(UE:User Equipment)」、「端末」等の用語は、互換的に使用され得る。
(11)上述した実施形態において、「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
(12)上述した実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
(13)本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
(14)上述した実施形態において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。更に、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
(15)本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
(16)本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」等の用語も、「異なる」と同様に解釈されてもよい。
(17)本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されない。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。従って、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
1…テレビ会議システム、10…サーバ装置、20_1〜20_n…ユーザ装置、111…取得部、112…画像生成部、113…認識部、114…管理部、Dj…検出情報、Gf1〜Gf6…顔画像情報、Gj…画像情報、Uj…ユーザ、Xj…個別情報、Yj…画面情報、Zj…指定情報。

Claims (10)

  1. テレビ会議に参加する複数のユーザと1対1に対応する複数のユーザ装置と通信するサーバ装置であって、
    各ユーザの画像及び当該ユーザの音を示す個別情報、並びに前記各ユーザに対応するユーザ装置の画面サイズに関する画面情報を前記複数のユーザ装置の各々から取得する取得部と、
    前記複数のユーザ装置と1対1に対応する複数の個別情報及び前記複数のユーザ装置と1対1に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を前記複数のユーザ装置の各々について生成する画像生成部と、
    前記複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する送信部と、
    を備えるサーバ装置。
  2. 前記複数のユーザ装置には、第1のユーザ装置と第2のユーザ装置とが含まれ、
    前記第1のユーザ装置に対応する画面情報の示す画面サイズは、前記第2のユーザ装置に対応する画面情報の示す画面サイズよりも大きく、
    前記画像生成部は、前記第1のユーザ装置に対応する第1の画像情報と、前記第2のユーザ装置に対応する第2の画像情報とを生成し、
    前記第1の画像情報の示す画像は、前記複数のユーザの顔を含み、
    前記第2の画像情報の示す画像は、前記複数のユーザのうち話者の顔を含み、
    前記第2の画像情報の示す画像に含まれるユーザの顔の数は、前記第1の画像情報の示す画像に含まれるユーザの顔の数よりも少なく、
    前記送信部は、前記第1の画像情報を前記第1のユーザ装置に送信し、前記第2の画像情報を前記第2のユーザ装置に送信する、
    請求項1に記載のサーバ装置。
  3. 前記画像生成部は、
    前記複数の個別情報に基づいて、前記ユーザの顔を含む部分の画像を抽出することによって、前記複数のユーザと1対1に対応する複数の顔画像情報を生成し、
    前記第1の画像情報として、前記複数のユーザの顔画像情報を含む情報を生成し、
    前記第2の画像情報として、前記複数のユーザの顔画像情報のうち、前記話者の顔画像情報を含み、且つ前記複数のユーザの顔画像情報のうち一部の顔画像情報を含まない情報を生成する、
    請求項2に記載のサーバ装置。
  4. 前記複数の個別情報の示す音声に基づいて、前記複数のユーザのうち話者を認識する認識部を、さらに備え、
    前記画像生成部は、前記認識部の認識結果に基づいて、前記複数の顔画像情報のうち、前記話者に対応する顔画像情報を特定する、
    請求項3に記載のサーバ装置。
  5. 前記第2の画像情報の示す画像に含まれるユーザの顔の数が1である場合、前記画像生成部は、
    前記話者に対応する顔画像情報の示す顔画像を強調することによって、前記第1の画像情報を生成し、
    前記話者に対応する顔画像情報の示す顔画像を強調することなく、前記第2の画像情報を生成する、
    請求項3又は4に記載のサーバ装置。
  6. 前記複数の画像情報の各々が示す画像は、発言を希望する意志を伝えるための操作子の画像を含み、
    前記取得部は、前記操作子の画像が操作されたこと示す検出情報を前記複数のユーザ装置のうちいずれかのユーザ装置から取得可能であり、
    前記画像生成部は、
    前記複数の画像情報の各々が示す画像に、前記検出情報の送信元であるユーザ装置を使用するユーザを識別可能な画像を含ませる、
    請求項1から請求項5までのうちいずれか1項に記載のサーバ装置。
  7. 前記取得部は、前記複数のユーザ装置から、密談の相手方となるユーザ及び密談に用いるコミュニケーション方法を指定する指定情報を取得可能であり、
    前記密談が行われる場合、前記指定情報で指定される密談に用いるコミュニケーション方法に応じて、前記指定情報の送信元のユーザ装置と前記指定情報で指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える管理部を備える、
    請求項1から請求項6のうちいずれか1項に記載のサーバ装置。
  8. 前記指定情報は、
    前記複数のユーザ装置のうち一のユーザ装置で生成され、
    前記密談の相手方となるユーザは、前記一のユーザ装置に表示される複数の顔の画像うち、操作の対象となる顔の画像によって指定され、
    前記密談におけるコミュニケーション方法は、前記顔の画像に対する操作によって指定される、
    請求項7に記載のサーバ装置。
  9. 前記画像生成部は、
    前記テレビ会議において、前記密談の相手方の前記ユーザ装置に表示される画像に、前記複数のユーザの顔が表示される場合、前記指定情報の送信元のユーザの顔を強調した画像を示す前記画像情報を生成する、請求項7又は8に記載のサーバ装置。
  10. 請求項1から9までのうちいずれか1項に記載のサーバ装置と、
    テレビ会議に参加する複数のユーザと1対1に対応する複数のユーザ装置と、
    を備えるテレビ会議システム。
JP2019187054A 2019-10-10 2019-10-10 サーバ装置及びテレビ会議システム Pending JP2021064833A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019187054A JP2021064833A (ja) 2019-10-10 2019-10-10 サーバ装置及びテレビ会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019187054A JP2021064833A (ja) 2019-10-10 2019-10-10 サーバ装置及びテレビ会議システム

Publications (1)

Publication Number Publication Date
JP2021064833A true JP2021064833A (ja) 2021-04-22

Family

ID=75486699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019187054A Pending JP2021064833A (ja) 2019-10-10 2019-10-10 サーバ装置及びテレビ会議システム

Country Status (1)

Country Link
JP (1) JP2021064833A (ja)

Similar Documents

Publication Publication Date Title
US8411130B2 (en) Apparatus and method of video conference to distinguish speaker from participants
KR20080056529A (ko) 이동 단말의 영상 파일 저장 방법 및 장치
US11652763B2 (en) Information display method and apparatus, and electronic device
WO2015043547A1 (en) A method, device and system for message response cross-reference to related applications
JP6485935B1 (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
CN114371896B (zh) 一种基于文档共享的提示方法、装置、设备及介质
CN112136102A (zh) 信息处理装置、信息处理方法以及信息处理***
US20160294892A1 (en) Storage Medium Storing Program, Server Apparatus, and Method of Controlling Server Apparatus
CN111935442A (zh) 信息显示方法、装置和电子设备
WO2020220782A1 (zh) 信息分享方法、装置、设备和介质
CN115486051A (zh) 网络会议***
CN109032554A (zh) 一种音频处理方法和电子设备
CN110673811A (zh) 基于声音信息定位的全景画面展示方法、装置及存储介质
JP7462070B2 (ja) インタラクション情報処理方法、装置、電子デバイス及び記憶媒体
JP2001268078A (ja) 通信制御装置、その方法およびその提供媒体と通信装置
JP2021064833A (ja) サーバ装置及びテレビ会議システム
EP4322090A1 (en) Information processing device and information processing method
CN113905177A (zh) 视频生成方法、装置、设备及存储介质
KR100884280B1 (ko) 이동 단말의 영상 파일 저장 방법 및 장치
CN114500912B (zh) 通话处理方法、电子设备以及存储介质
US20240098183A1 (en) Marking method on image combined with sound signal, terminal apparatus, and server
CN115550505B (zh) 来电处理方法和装置
US20240146673A1 (en) Method for correcting profile image in online communication service and apparatus therefor
JP7427936B2 (ja) ユーザサポートシステム、ユーザサポート方法およびプログラム
US11568866B2 (en) Audio processing system, conferencing system, and audio processing method