JP2021064833A

JP2021064833A - サーバ装置及びテレビ会議システム

Info

Publication number: JP2021064833A
Application number: JP2019187054A
Authority: JP
Inventors: 明 ▲高▼橋; Akira Takahashi; 章弥稲垣; Akiya Inagaki; 浩孝津田; Hirotaka Tsuda; 直也佐藤; Naoya Sato; 実沙子小泉; Misako Koizumi
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2021-04-22

Abstract

【課題】テレビ会議を円滑に進行させる。【解決手段】サーバ装置１０は、以下の構成を備える。取得部１１１は、各ユーザの画像及び当該ユーザの音を示す個別情報、並びに各ユーザに対応するユーザ装置の画面サイズに関する画面情報を複数のユーザ装置の各々から取得する。画像生成部１１２は、複数のユーザ装置と1対１に対応する複数の個別情報及び複数のユーザ装置と１対１に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を複数のユーザ装置の各々について生成する。通信装置１３０は、複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する。【選択図】図２

Description

本発明は、サーバ装置及びテレビ会議システムに関する。

特許文献１には、会議に参加する複数の参加者のうち、話者を特定することによって、会議を支援する会議支援システムが開示されている。会議支援システムでは、会議テーブルに魚眼レンズを用いた撮像装置が配置される。会議支援システムは、撮像装置によって撮像された撮像情報から参加者の唇の動きを抽出し、抽出された唇の動きに基づいて話者を特定する。さらに、会議支援システムは、撮像情報に基づいて、複数の参加者の顔と話者を示すマイクのアイコンとを含む画像を生成し、ディスプレイに表示する。

特開２０１５−１９１６２号公報

しかし、従来の会議支援システムは、異なる場所にいる複数のユーザが参加するテレビ会議には対応していない。テレビ会議に参加するユーザが使用するユーザ装置は、例えば、スマートフォン、パーソナルコンピュータ、あるいは時計型のリスタブル装置などがある。すなわち、ユーザ装置の画面サイズは、小画面のサイズもあれば、大画面のサイズもある。画面サイズの異なる複数のユーザ装置を使用してテレビ会議を行う場合、大画面用の画像を複数のユーザ装置に配信すると、あるユーザ装置では画像を表示できないことがある。一方、小画面用の画像を複数のユーザ装置に配信すると、他のユーザ装置では表示能力を十分に発揮できないことがある。このため、従来の技術は、テレビ会議を円滑に進行できないといった問題がある。

以上の課題を解決するために、本開示の好適な態様に係るサーバ装置は、テレビ会議に参加する複数のユーザと１対１に対応する複数のユーザ装置と通信するサーバ装置であって、各ユーザの画像及び当該ユーザの音を示す個別情報、並びに前記各ユーザに対応するユーザ装置の画面サイズに関する画面情報を前記複数のユーザ装置の各々から取得する取得部と、前記複数のユーザ装置と1対１に対応する複数の個別情報及び前記複数のユーザ装置と1対１に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を前記複数のユーザ装置の各々について生成する画像生成部と、前記複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する送信部と、を備える。

本開示によれば、サーバ装置は、複数のユーザ装置に画面サイズに応じた画像情報を送信するので、テレビ会議を円滑に進行できる。

テレビ会議システム１の構成の一例を示すブロック図である。ユーザ装置２０_1の構成の一例を示す斜視図である。ユーザ装置２０_2の構成の一例を示す平面図である。サーバ装置１０の構成の一例を示すブロック図である。テレビ会議の参加人数が４名の場合における、画面レイアウトの一例を示す説明図である。テレビ会議の参加人数が６名の場合における、画面レイアウトの一例を示す説明図である。テレビ会議の画像の一例を示す説明図である。テレビ会議の画像の一例を示す説明図である。画像情報Ｇ２の示す画像の一例を示す説明図である。ユーザ装置２０_jの構成の一例を示すブロック図である。テレビ会議における画像情報の生成に関するサーバ装置１０の動作の一例を示すフローチャートである。密談に関するサーバ装置１０の動作の一例を示すフローチャートである。密談の相手方であるユーザ装置２０_1に表示される画像の一例を示す説明図である。画像情報Ｇ３に対応する画像の一例を示す説明図である。チャット中にユーザ装置２０_1に表示される画像の一例を示す説明図である。

１．実施形態
１−１：全体構成
図１は、実施形態に係るテレビ会議システム１の構成例を示すブロック図である。テレビ会議システム１は、互いに異なる場所にいる複数のユーザＵ１、Ｕ２、…Ｕｎが参加するテレビ会議のサービスを提供する。さらに、テレビ会議システム１は、テレビ会議中に密談を行うサービスを提供する。密談は、複数のユーザＵ１、Ｕ２、…Ｕｎの一部のユーザで行うことができる。密談の典型例は、複数のユーザＵ１、Ｕ２、…Ｕｎのうち２人のユーザで行われる。密談の内容は、密談の参加者のみに共有され、密談の参加者以外のユーザには、秘密とされる。ｎは２以上の整数である。

テレビ会議システム１は、サーバ装置１０、及び複数のユーザ装置２０_1、２０_2、…２０_nを備える。これらの構成要素は、インターネットなどの通信網ＮＥＴに接続される。複数のユーザ装置２０_1〜２０_nは、複数のユーザＵ１〜Ｕｎと1対１に対応する。以下の説明では、１以上ｎ以下の任意の整数をｊとする。複数のユーザ装置２０_1〜２０_nのうち、任意のユーザ装置をユーザ装置２０_jと表記する。複数のユーザＵ１〜Ｕｎのうち、任意のユーザをユーザＵｊと表記する。また、ユーザ装置２０_1は第１のユーザ装置の一例である。ユーザ装置２０_2は第２のユーザ装置の一例である。

ユーザ装置２０_jは、通話機能、撮像機能、及び通信機能を備える装置を用いることができる。ユーザ装置２０_jとして、例えば、時計型のウェアラブル装置、パーソナルコンピュータ、又はスマートフォンが用いられる。以下の説明では、ユーザＵ１が使用するユーザ装置２０_1としてパーソナルコンピュータが用いられ、ユーザＵ２が使用するユーザ装置２０_2として時計型のウェアラブル装置が用いられる。

図２は、ユーザ装置２０_1の構成例を示す斜視図である。ユーザ装置２０_1は、表示装置２４０、入力装置２５０、撮像装置２６０、及びマイク２７０を備える。表示装置２４０は、テレビ会議の画像を表示する。撮像装置２６０は、被写体を撮像して、撮像結果を示す撮像情報を出力する。マイク２７０は、音を電気信号に変換し、変換結果を示す音声信号を出力する。テレビ会議の画像にはユーザの顔画像の他、発言ボタンＢ１の画像が含まれる。発言ボタンＢ１については、後述する。

図３は、ユーザ装置２０_2の構成例を示す平面図である。ユーザ装置２０_2は、ユーザ装置２０_1と同様に、表示装置２４０、入力装置２５０、撮像装置２６０、及びマイク２７０を備える。ユーザ装置２０_2はベルトを有している。ユーザ装置２０_2は、ユーザＵ１の手首にベルトを巻回することによって、使用される。

１−２：サーバ装置
図４は、サーバ装置１０の構成の一例を示すブロック図である。サーバ装置１０は、情報処理装置の一例である。サーバ装置１０は、処理装置１１０、記憶装置１２０、及び通信装置１３０を備える。サーバ装置１０の各要素は、情報を通信するための単体又は複数のバスで相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、サーバ装置１０の各要素は、単数又は複数の機器で構成され、サーバ装置１０の一部の要素は省略されてもよい。

処理装置１１０は、サーバ装置１０の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置１１０は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成される。なお、処理装置１１０の機能の一部又は全部を、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアによって実現してもよい。処理装置１１０は、各種の処理を並列的又は逐次的に実行する。

記憶装置１２０は、処理装置１１０が読取可能な記録媒体であり、処理装置１１０が実行する制御プログラムＰＲ１を含む複数のプログラム、及び処理装置１１０が使用する各種の情報、例えば、管理情報Ｋなどを記憶する。記憶装置１２０は、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）等の少なくとも１つによって構成されてもよい。記憶装置１２０は、レジスタ、キャッシュ、メインメモリ（主記憶装置）等と呼ばれてもよい。
管理情報Ｋは、テレビ会議を識別するサービスＩＤ、サービスを利用するユーザを識別するユーザＩＤ、ユーザが使用するユーザ装置の画面サイズを示す画面情報、話者を示す話者フラグ、及び密談を識別する密談ＩＤを対付ける情報である。管理情報Ｋは、処理装置１１０は、管理情報Ｋを参照及び更新することによって、テレビ会議のサービスを提供する。

通信装置１３０は、他の装置と通信を行うためのハードウェア（送受信デバイス）である。通信装置１３０は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。

処理装置１１０は、記憶装置１２０から制御プログラムＰＲ１を読み出して実行することによって、取得部１１１、画像生成部１１２、認識部１１３、及び管理部１１４として機能する。

取得部１１１は、複数のユーザ装置２０_1〜２０_nの各々から、各種の情報を取得する。ユーザ装置２０_jから取得される情報には、個別情報Ｘｊ、画面情報Ｙｊ、指定情報Ｚｊ及び検出情報Ｄｊが含まれる。個別情報Ｘｊ、画面情報Ｙｊ、指定情報Ｚｊ、検出情報Ｄｊは、ユーザ装置２０_jによって生成される。また、これらの情報は、ユーザ装置２０_jから、直接、サーバ装置１０に送信されてもよいし、他の装置を経由してサーバ装置１０に送信されてもよい。例えば、ユーザ装置２０_jが、時計型のリスタブル装置である場合、これらの情報は、ユーザＵｊが所持するスマートフォンを介して、サーバ装置１０に送信されてもよい。

個別情報Ｘｊは、ユーザＵｊの画像及びユーザＵｊの音を示す情報である。画面情報Ｙｊは、ユーザ装置２０_jの画面サイズに関する情報である。画面情報Ｙｊは、例えば、画面の解像度、ユーザ装置２０_jの型番、又はユーザ装置２０_jの装置の種類を示してもよい。ユーザ装置２０_jの型番は、直接的に画面サイズを示す情報ではない。しかし、ユーザ装置２０_jの型番によって、ユーザ装置２０_jの画面サイズは一意に特定される。このため、ユーザ装置２０_jの型番は、間接的に画面サイズを示す情報である。ユーザ装置２０_jの装置の種類としては、時計型のリスタブル装置、スマートフォン、タブレット端末、及びパーソナルコンピュータが含まれ得る。指定情報Ｚｊは、密談の相手方及び密談のコユニケーション方法を指定する情報である。

検出情報Ｄｊは、ユーザ装置２０_jにおいて、テレビ会議の画像に含まれる発言ボタンＢ１が操作されたことが検出されたことを示す情報である。発言ボタンＢ１は、発言を希望する意志を伝えるための操作子の一例である。テレビ会議において、複数のユーザが同時に発言すると、テレビ会議の進行が妨げられる。そこで、テレビ会議システム１において、発言ボタンＢ１の操作によって、複数のユーザ装置２０_1〜２０_nは、発言の意志を伝える画像を表示する。

画像生成部１１２は、個別情報Ｘｊ及び画面情報Ｙｊに基づいて、ユーザ装置２０_jの画面サイズに応じた画像情報Ｇｊを生成する。即ち、画像生成部１１２は、複数の個別情報Ｘ１〜Ｘｎ及び複数の画面情報Ｙ１〜Ｙｊに基づいて、各ユーザ装置の画面サイズに応じた画像情報Ｇ１〜Ｇｎを複数のユーザ装置２０_1〜２０_nの各々について生成する。画像情報Ｇ１は第１の画像情報の一例である。画像情報Ｇ２は第２の画像情報の一例である。

画像生成部１１２は、複数の個別情報Ｘ１〜Ｘｎに基づいて、ユーザの顔を含む部分の画像を抽出することによって、複数のユーザＵ１〜Ｕｎと1対１に対応する複数の顔画像情報Ｇｆ１〜Ｇｆｎを生成する。ユーザの顔を含む部分の画像の形状は、例えば、楕円形、円形、又は長方形である。ユーザの顔を含む部分の画像は、背景とユーザの顔とから構成される。

画像生成部１１２は、テレビ会議に参加するユーザの数と画面情報Ｙｊとに基づいて、ユーザ装置２０_jに送信する画像情報Ｇｊの示す画像の画面レイアウトを決定する。画像生成部１１２は、例えば、ユーザの数及び画面情報Ｙｊの示す画面サイズと画面レイアウトとを対応付けたレイアウト情報を参照することによって、画面レイアウトを決定する。

例えば、画面情報Ｙｊの画面サイズがパーソナルコンピュータを示し、テレビ会議の参加人数が４名の場合、画面レイアウトは、例えば、図５Ａに示されるように４個の顔画像領域Ｒａ１〜Ｒａ４が割り当てられる。また、画面情報Ｙｊの画面サイズがパーソナルコンピュータを示し、テレビ会議の参加人数が６名の場合、画面レイアウトは、例えば、図５Ｂに示されるように４個の顔画像領域Ｒｂ１〜Ｒｂ６が割り当てられる。一方、画面情報Ｙｊの画面サイズが時計型のウェアラブル装置を示す場合、テレビ会議の参加人数に関らず、図３に示されるように１個の顔画像領域Ｒｃ１が割り当てられる。

画像生成部１１２は、画面レイアウトの顔画像領域に顔画像を挿入することによって、画像情報Ｇｊを生成する。図５Ｂに示される画面レイアウトの場合、画像生成部１１２は、顔画像領域Ｒｂ１〜Ｒｂ６に１対１に対応するユーザＵ１〜Ｕ６の顔画像を挿入して、画像情報Ｇｊを生成する。この場合、テレビ会議の参加者は６名である。一方、図３に示される画面レイアウトの場合、画像生成部１１２は、顔画像領域Ｒｃ１にユーザＵ１〜Ｕｎのうちいずれか１名の顔画像を挿入して、画像情報Ｇｊを生成する。

画像生成部１１２は、取得部１１１が検出情報Ｄｊを取得すると、検出情報Ｄｊの送信元のユーザ装置２０_jのユーザＵｊを、発言を希望するユーザとして特定する。画像生成部１１２は、画像情報Ｇｊを更新することによって、特定されたユーザの顔画像を他のユーザの顔画像と識別可能な画像をテレビ会議の画像に含ませる。例えば、ユーザ装置２０_jに図６Ａに示すテレビ会議の画像が表示される場合を想定する。図６Ａに示される例では、６個の顔画像領域Ｒｂ１〜Ｒｂ６に１対１に対応してユーザＵ１〜Ｕ６の顔画像が配置される。また、話者の顔画像の大きさは他のユーザの顔画像の大きさよりも大きい。即ち、顔画像領域Ｒｂ２に表示される顔画像のユーザＵ２が話者である。ここで、ユーザＵ６が、ユーザ装置２０_6において表示されるテレビ会議の画像中の発言ボタンＢ１を操作すると、ユーザ装置２０_6は検出情報Ｄ６をサーバ装置１０に送信する。取得部１１１が検出情報Ｄ６を取得することを契機に、画像生成部１１２は、画像情報Ｇｊを更新する。この結果、画像情報Ｇｊの示す画像は、図６Ｂに示すテレビ会議の画像となる。図６Ｂに示されるように、ユーザＵ６の顔画像が表示される顔画像領域Ｒｂ６の境界と重なる位置にアイコンＡ１が配置される。アイコンＡ１は、発言を希望することを示す画像である。アイコンＡ１によって、ユーザＵ６以外の他のユーザＵ１〜Ｕ５は、ユーザＵ６が発言を希望していることを知る。

ところで、ユーザ装置２０_1〜２０_nには時計型のウェアラブル装置が含まれることがある。例えば、図3に示すユーザ装置２０_2は時計型のウェアラブル装置である。画像生成部１１２は、時計型のウェアラブル装置において、発言を希望するユーザを識別可能な画像情報Ｇ２を生成する。図６Ｃは、画像情報Ｇ２の示す画像の一例を示す説明図である。図６Ｃに示されるように、顔画像領域Ｒｃ２に発言を希望するユーザＵ６の顔画像が配置される。画像生成部１１２は、顔画像情報Ｇｆ６を用いて画像情報Ｇ２を生成する。この例では、ユーザＵ６の顔画像がワイプ表示されるので、ユーザＵ２はユーザＵ６が発言を希望していることを任ｓ期できる。

説明を図４に戻す、認識部１１３は、複数の個別情報Ｘ１〜Ｘｎに基づいて、話者を特定する。認識部１１３は、例えば、複数の個別情報Ｘ１〜Ｘｎの示す音の大きさを比較し、比較結果に基づいて、最も大きな音を示す個別情報に対応するユーザを話者とする。

管理部１１４は、密談が行われる場合、指定情報Ｚｊで指定される密談に用いるコミュニケーション方法に応じて、指定情報Ｚｊの送信元のユーザ装置２０_jと指定情報Ｚｊで指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える。

１−３：ユーザ装置
次に、ユーザ装置２０_jについて説明する。図７は、ユーザ装置２０_jの構成の一例を示すブロック図である。ユーザ装置２０_jは、処理装置２１０、記憶装置２２０、通信装置２３０、表示装置２４０、入力装置２５０、撮像装置２６０、及びマイク２７０を備える。ユーザ装置２０_jの各要素は、情報を通信するための単体又は複数のバスで相互に接続される。ユーザ装置２０_jの各要素は、単数又は複数の機器で構成され、ユーザ装置２０_jの一部の要素は省略されてもよい。

処理装置２１０は、ユーザ装置２０_jの全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置２１０は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置で構成される。処理装置２１０は、各種の処理を並列的又は逐次的に実行する。

記憶装置２２０は、処理装置２１０が読取可能な記録媒体であり、処理装置２１０が実行する制御プログラムＰＲ２を含む複数のプログラム、及び処理装置２１０が使用する各種の情報、例えば、画面情報Ｙｊなどを記憶する。記憶装置２２０は、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）等の少なくとも１つによって構成されてもよい。記憶装置２２０は、レジスタ、キャッシュ、メインメモリ（主記憶装置）等と呼ばれてもよい。

通信装置２３０は、他の装置と通信を行うためのハードウェア（送受信デバイス）である。

表示装置２４０は、画像を表示する。表示装置２４０は、処理装置２１０による制御のもとで各種の画像を表示する。例えば、液晶表示パネル及び有機ＥＬ（Electro Luminescence）表示パネル等の各種の表示パネルが表示装置２４０として好適に利用される。

入力装置２５０は、外部からの入力を受付けるデバイスである。例えば、入力装置２５０は、数字及び文字等の符号を処理装置１１０に入力するための操作と、表示装置２４０に表示されるアイコンなどの画像を選択するための操作とを受付ける。例えば、表示装置２４０の表示面に対する接触を検出するタッチパネルが入力装置２５０として好適である。なお、入力装置２５０は、ユーザが操作可能な一又は複数の操作子を含んでもよい。入力装置２５０はユーザの操作に応じた入力情報を出力する。

撮像装置２６０は、被写体を撮像して、撮像結果を示す撮像情報を処理装置２１０に出力する。テレビ会議のサービスを利用する場合、被写体はユーザ装置２０_jを使用するユーザＵｊである。ユーザＵｊがユーザ装置２０_jを用いて自らを撮像する。この撮像情報の示す画像は、ユーザＵｊの顔を含む。

マイク２７０は、音を電気信号に変換し、変換結果を示す音情報を処理装置２１０に出力する。

処理装置２１０は、記憶装置２２０から制御プログラムＰＲ２を読み出し、読み出された制御プログラムＰＲ２を実行することによって、第１生成部２１１、第２生成部２１２、及び送信制御部２１３として機能する。

第１生成部２１１は、撮像情報及び音情報に基づいて、個別情報Ｘｊを生成する。撮像情報は、ユーザＵｊを被写体とする画像を示す。音情報は、ユーザＵｊが発話した場合にはユーザＵｊの音声を示す。なお、個別情報ＸｊにユーザＩＤを含まれてもよい。通信装置２３０は、個別情報Ｘｊをサーバ装置１０に送信する。

第２生成部２１２は、入力情報に基づいて、検出情報Ｄｊ及び指定情報Ｚｊを生成する。
第２生成部２１２は、入力情報が発言ボタンＢ１の操作を示す場合に、検出情報Ｄｊを生成する。

第２生成部２１２は、入力情報が、ユーザＵ１〜Ｕｎのうち、ユーザＵｊ以外のユーザの顔画像に対する操作に応じて指定情報Ｚｊを生成する。顔画像に対する操作は、操作を識別できるのであれば、どのような操作であってもよい。例えば、顔画像に対する操作には、タップ操作と長押し操作とが含まれる。長押し操作とは、顔画像を所定時間以上、継続して押す操作を意味する。第２生成部２１２は、入力情報が顔画像に対するタップ操作である場合、当該顔画像のユーザに対して、第１のコミュニケーション方法を用いた密談を指定する指定情報Ｚｊを生成する。第２生成部２１２は、入力情報が顔画像に対する長押し操作である場合、当該顔画像のユーザに対して、第２のコミュニケーション方法を用いた密談を指定する指定情報Ｚｊを生成する。

第１のコミュニケーション方法は、例えば、音声通話である。第２のコミュニケーション方法は、例えば、チャット及びノンバーバルコミュニケーションである。ノンバーバルコミュニケーションとは、言語によらないコミュニケーションの意味である。ノンバーバルコミュニケーションには、いわゆるスタンプなどの具象化されたアイコン及び写真の送信、顔画像に対するエフェクトが含まれる。エフェクトの対象となる顔画像は、密談の相手方のユーザ装置に表示されるテレビ会議の画像において、指定情報の送信元のユーザ装置に対応するユーザの顔画像である。また、エフェクトは、例えば、当該顔画像を左右に揺らすこと、当該顔画像の大きさを周期的に変化させること等が含まれ得る。

送信制御部２１３は、通信装置２３０を制御することによって、個別情報Ｘｊ、画面情報Ｙｊ、指定情報Ｚｊ、及び検出情報Ｄｊをサーバ装置１０に送信する。

１−４：サーバ装置の動作
サーバ装置１０の動作を、テレビ会議と密談に分けて説明する。図８は、テレビ会議における画像情報の生成に関するサーバ装置１０の動作を示すフローチャートである。処理装置１１０は、テレビ会議の起動を検知する（ステップＳ１）。テレビ会議に参加するユーザ装置２０_1〜２０_nには、予め特定のＵＲＬが通知されている。ユーザ装置２０_1〜２０_nは、特定のＵＲＬにアクセスすることによって、テレビ会議のサービスを利用できる。処理装置１１０は、例えば特定のＵＲＬにユーザ装置がアクセスしたことを検知することによって、テレビ会議の起動を検知する。

次に、処理装置１１０は取得部１１１として機能し、テレビ会議に参加するユーザ装置２０_1〜２０_nから、個別情報Ｘ１〜Ｘｎ及び画面情報Ｙ１〜Ｙｎを取得する（ステップＳ２）。

ステップＳ３において、処理装置１１０は、画像生成部１１２として機能し、個別情報Ｘ１〜Ｘｎに基づいて顔画像を抽出する。個別情報Ｘ１〜Ｘｎに基づいて、ユーザの顔を含む部分の画像を抽出することによって、処理装置１１０は、複数のユーザＵ１〜Ｕｎと1対１に対応する複数の顔画像情報Ｇｆ１〜Ｇｆｎを生成する。

ステップＳ４において、処理装置１１０は、画像生成部１１２として機能し、テレビ会議の参加人数に応じた画面レイアウトを、ユーザ装置２０_1〜２０_nの画面サイズごとに決定する。処理装置１１０は、取得された個別情報Ｘ１〜Ｘｎの数をテレビ会議の参加人数としてもよい。あるいは、処理装置１１０は、ステップＳ２で抽出した複数の顔画像を計数することによって、テレビ会議に参加するユーザの人数を特定してもよい。

ステップＳ５において、処理装置１１０は、画像生成部１１２として機能し、画像情報Ｇ１〜Ｇｎを生成する。具体的には、処理装置１１０は、ユーザ装置２０_1〜２０_nごとに、決定された画面レイアウトに、顔画像情報Ｇｆ１〜Ｇｆｎによって示される複数の顔画像を挿入することによって、画像情報Ｇ１〜Ｇｎを生成する。

ステップＳ６において、処理装置１１０は、認識部１１３として機能し、個別情報Ｘ１〜Ｘｎの各々に基づいて話者が認識できたかを判定する。判定結果が否定の場合、処理装置１１０は判定結果が肯定になるまで、判定を繰り返す。

ステップＳ６の判定結果が肯定の場合、処理装置１１０は、画像生成部１１２として機能し、話者の顔画像を強調する（ステップＳ７）。ステップＳ８において、処理装置１１０は、画像生成部１１２として機能し、話者の顔画像が強調されていない画像を示す画像情報を、話者の顔画像が強調された画像を示す画像情報に更新する。

ステップＳ９において、処理装置１１０は画像生成部１１２として機能し、取得部１１１が検出情報Ｄｊを取得したか否かを判定する。
ステップＳ９の判定結果が否定である場合、処理装置１１０は、処理をステップＳ６に戻す。ステップＳ９の判定結果が肯定である場合、処理装置１１０は、画像生成部１１２として機能し、検出情報Ｄｊの送信元のユーザ装置２０_jのユーザＵｊを、発話を希望するユーザとして特定する（ステップＳ１０）。

ステップＳ１１において、処理装置１１０は、画像生成部１１２として機能し、テレビ会議の画像に、特定されたユーザの顔画像を識別可能な画像を含ませることによって、画像情報Ｇ１〜Ｇｎを更新する。特定されたユーザの顔画像を識別可能な画像は、例えば、図６Ｂに示すアイコンＡ１の画像が対応する。

この後、処理装置１１０は、テレビ会議の終了条件を充足したか否かを判定する（ステップＳ１２）。判定結果が否定の場合、処理装置１１０は、処理をステップＳ６に戻す。一方、判定結果が肯定の場合、処理装置１１０は処理を終了する。テレビ会議の終了条件は、例えば、テレビ会議に参加するためにサーバ装置１０に通信接続されていた全てのユーザ装置２０_1〜２０_nについて、通信接続が終了したこととしてもよい。

以上の処理によって、画像情報Ｇ１〜Ｇｎは生成される。生成された画像情報Ｇ１〜Ｇｎは、１対１に対応するユーザ装置２０_1〜２０_nに送信される。

次に、密談におけるサーバ装置１０の動作を説明する。図９は、密談に関するサーバ装置１０の動作を示すフローチャートである。

処理装置１１０は、複数のユーザ装置２０_1〜２０_nのいずれかから、指定情報が取得されたか否かを判定する（ステップＳ２１）。ステップＳ２１の判定結果が否定である場合、処理装置１１０は、判定結果が肯定になるまで、ステップＳ２１の処理を繰り返す。以下の説明では、サーバ装置１０は、ユーザ装置２０_3から指定情報Ｚ３を取得する場合を王定する。また、指定情報Ｚ３は、密談の相手方としてユーザ装置２０_1を使用するユーザＵ１を指定する場合を想定する。即ち、ユーザＵ３が密談の要求元であり、ユーザＵ１が密談の相手方である。

ステップＳ２１の判定結果が肯定である場合、処理装置１１０は画像生成部１１２として機能し、指定情報Ｚ３の示すコミュニケーション方法が第１態様であるか否かを判定する。この例において、密談のコミュニケーション方法は、第１態様と第２態様の２つである。第１態様のコミュニケーション方法は音声通話である。また、第２態様のコミュニケーション方法はチャットである。

ステップＳ２１の判定結果が肯定である場合、処理装置１１０は、画像生成部１１２として機能し、密談の相手方に対応し、且つ第１態様に対応する画像情報Ｇ１を生成する（ステップＳ２４）。この後、処理装置１１０は、密談の相手方であるユーザＵ１が使用するユーザ装置２０_1に画像情報Ｇ１を送信する（ステップＳ２４）。

図１０は、密談の相手方であるユーザ装置２０_1に表示される画像の一例を示す説明図である。図１０に示されるように、画像には、密談を要求するユーザＵ３の顔画像が配置される顔画像領域Ｒｂ３に電話機が具象化されたアイコンＡ２が配置される。ユーザＵ１は、第１態様のコミュニケーション方法に対応するアイコンＡ２が、顔画像領域Ｒｂ３に配置されることによって、ユーザＵ３が音声通話により密談を求めていることが分かる。

ステップＳ２５において、処理装置１１０は、密談の相手方が密談を了承したか否かを判定する。具体的には、処理装置１１０は、密談の相手方であるユーザＵ１が、所定期間中に、図１０に示されるアイコンＡ２に対してタップ操作をしたか否かを判定する。ユーザ装置２０_1では、上記タップ操作がなされると、検出情報Ｄ１が生成される。処理装置１１０は、所定期間中に検出情報Ｄ１を取得したか否かによって、密談の相手方が密談を了承したか否かを判定する。

ステップＳ２５の判定結果が肯定の場合、処理装置１１０は、ユーザ装置２０_1とユーザ装置２０_3との間の音声通話を開始する（ステップＳ２６）。ステップＳ２６において、処理装置１１０は、ユーザ装置２０_1から取得した音声情報をユーザ装置２０_3に転送し、ユーザ装置２０_3から取得した音声情報をユーザ装置２０_1に転送する。この処理によって、ユーザＵ１とユーザＵ３との間の音声通話が可能となる。

ステップＳ２５の判定結果が否定である場合、処理装置１１０は、密談の要求元に対応する画像情報Ｇ３を生成する（ステップＳ２７）。この後、処理装置１１０は、密談の要求元であるユーザ装置２０_3に画像情報Ｇ３を送信する（ステップＳ２８）。図１１は、画像情報Ｇ３に対応する画像の一例を示す説明図である。図１１に示されるように、画像には、密談の相手方であるユーザＵ１の顔画像が配置される顔画像領域Ｒｂ１に通話不能であることを示すアイコンＡ３が配置される。ユーザＵ３は、アイコンＡ３が、顔画像領域Ｒｂ１に配置されることによって、ユーザＵ１が音声通話による密談を了承しないことが分かる。

次に、ステップＳ２２の判定結果が否定である場合、指定情報Ｚ３によって指定されるコミュニケーション方法は第２態様である。この場合、処理装置１１０は、第２態様であるチャットに対応した画像情報Ｇ１及びＧ３を生成する（ステップＳ２９）。画像情報Ｇ１の示す画像と及び画像情報Ｇ３の示す画像は同一である。処理装置１１０は、ユーザ装置２０_3に画像情報Ｇ３を送信し、ユーザ装置２０_1に画像情報Ｇ１を送信する（ステップＳ３０）。

この後、処理装置１１０は、ユーザ装置２０_1とユーザ装置２０_3との間でチャットを開始する（ステップＳ３１）。チャット中の処理装置１１０は、ユーザ装置２０_1から取得したテキスト情報及びユーザ装置２０_3から取得したテキスト情報を反映させた画像を示す画像情報Ｇ１及びＧ３を生成し、生成された画像情報Ｇ１及びＧ３をユーザ装置２０_1及びユーザ装置２０_3に送信する。

図１２は、チャット中にユーザ装置２０_1に表示される画像の一例を示す説明図である。図１２に示されるように、画像には、チャット領域Ｒｄが設けられる。チャット領域Ｒｄにはテキストが表示される。また、チャット領域Ｒｄには、終了の指示を入力するための終了ボタンＢ２が配置される。この例のチャット領域Ｒｄは、密談の要求元であるユーザＵ３の顔画像、密談の相手方であるユーザＵ１の顔画像、及び話者であるユーザＵ２の顔画像と重ならない領域に配置される。この画面レイアウトによれば、ユーザは、密談の要求元と密談の相手方を一見して認識できる。また、この画面レイアウトによれば、話者の様子を認識できるので、密談の要求元及び相手方は、テレビ会議の進行を把握しながら、密談できる。

この後、処理装置１１０は、密談の終了条件が充足されたか否かを判定する（ステップＳ３２）。ステップＳ３２の判定結果が否定ある場合、処理装置１１０は判定結果が肯定になるまでステップＳ３２の判定処理を繰り返す。処理装置１１０は、判定結果が肯定になると、密談の処理を終了し、通常のテレビ会議の処理に戻る。

以上、説明したように、サーバ装置１０は、テレビ会議に参加する複数のユーザＵ１〜Ｕｎと１対１に対応する複数のユーザ装置２０_1〜２０_nと通信する。取得部１１１は、各ユーザの画像及び当該ユーザの音を示す個別情報Ｘｊ、並びに各ユーザに対応するユーザ装置の画面サイズに関する画面情報Ｙｊを複数のユーザ装置２０_1〜２０_nの各々から取得する。画像生成部１１２は、複数のユーザ装置２０_1〜２０_nと1対１に対応する複数の個別情報Ｘ１〜Ｘｎ及び複数のユーザ装置２０_1〜２０_nと1対１に対応する複数の画面情報Ｙ１〜Ｙｎに基づいて、各ユーザ装置の画面サイズに応じた画像情報Ｇｊを複数のユーザ装置２０_1〜２０_nの各々について生成する。送信部の一例である通信装置１３０は、複数のユーザ装置２０_1〜２０_nの各々について生成された画像情報Ｇｊを、対応するユーザ装置２０_jに送信する。
以上の構成によれば、複数のユーザ装置２０_1〜２０_nの画面サイズが一部、相違する場合であっても、サーバ装置１０は、複数のユーザ装置２０_1〜２０_nの各々に画面サイズに応じた画像情報Ｇｊを送信するので、テレビ会議を円滑に進行できる。

また、複数のユーザ装置２０_1〜２０_nには、第１のユーザ装置の一例であるユーザ装置２０_1と第２のユーザ装置の一例であるユーザ装置２０_2とが含まれる。ユーザ装置２０_1に対応する画面情報Ｙ１の示す画面サイズは、ユーザ装置２０_2に対応する画面情報Ｙ２の示す画面サイズよりも大きい。画像生成部１１２は、ユーザ装置２０_1に対応する画像情報Ｇ１と、ユーザ装置２０_2に対応する画像情報Ｇ２とを生成する。画像情報Ｇ１の示す画像は、複数のユーザＵ１〜Ｕｎの顔を含む。画像情報Ｇ２の示す画像は、複数のユーザＵ１〜Ｕｎのうち話者の顔を含む。画像情報Ｇ２の示す画像に含まれるユーザの顔の数は、画像情報Ｇ１の示す画像に含まれるユーザの顔の数よりも少ない。通信装置１３０は、画像情報Ｇ１をユーザ装置２０_1に送信し、画像情報Ｇ２をユーザ装置２０_2に送信する。

以上の構成によれば、画面サイズが小さいユーザ装置に表示されるユーザの顔は、画面サイズが大きいユーザ装置に表示されるユーザの顔の数は、画面サイズが小さいユーザ装置に表示されるユーザの顔と比較して多いので、画面サイズに応じて、テレビ会議に参加するユーザの顔の数を変動できる。表示するユーザの顔の数が減少すると、情報量が減少するが、画面サイズの小さいユーザ装置であっても、話者の顔は表示されるので、テレビ会議の利便性が高まる。

また、画像生成部１１２は、複数の個別情報Ｘ１〜Ｘｎに基づいて、ユーザの顔を含む部分の画像を抽出することによって、複数のユーザＵ１〜Ｕｎと1対１に対応する複数の顔画像情報Ｇｆ１〜Ｇｆｎを生成する。画像生成部１１２は、画像情報Ｇ１として、複数のユーザＵ１〜Ｕｎの顔画像情報Ｇｆ１〜Ｇｆｎを含む情報を生成する。画像生成部１１２は、画像情報Ｇ２として、複数のユーザＵ１〜Ｕｎの顔画像情報Ｇｆ１〜Ｇｆｎのうち話者の顔画像情報を含み、且つ複数のユーザＵ１〜Ｕｎの顔画像情報Ｇｆ１〜Ｇｆｎのうち一部の顔画像情報を含まない情報を生成する。

以上の構成によれば、画像生成部１１２は、複数の顔画像情報Ｇｆ１〜Ｇｆｎを生成し、生成された複数の顔画像情報Ｇｆ１〜Ｇｆｎを用いて、複数の画像情報Ｇ１〜Ｇｎを生成する。従って、複数の画像情報Ｇ１〜Ｇｎごとに必要なユーザの顔画像を抽出する場合と比較して、画像生成部１１２は、複数の画像情報Ｇ１〜Ｇｎを簡単に生成できる。

サーバ装置１０は、複数の個別情報Ｘ１〜Ｘｎの示す音声に基づいて、複数のユーザＵ１〜Ｕｎのうち話者を認識する認識部１１３を備える。画像生成部１１２は、認識部１１３の認識結果に基づいて、複数の顔画像情報Ｇｆ１〜Ｇｆｎのうち、話者に対応する顔画像情報を特定する。

以上の構成によれば、音声に基づいて話者を特定するので、画像を解析して唇の動きの特徴量を生成し、生成された特徴量から話者を特定する場合と比較して、処理負荷が低減する。

画像情報Ｇ２の示す画像に含まれるユーザの顔の数が「１」である場合、画像生成部１１２は、話者に対応する顔画像情報の示す顔画像を強調することによって、画像情報Ｇ１を生成する。画像生成部１１２は、話者に対応する顔画像情報の示す顔画像を強調することなく、画像情報Ｇ２を生成する。

話者の顔画像を強調する理由は、画像に複数の顔画像が含まれる場合に、話者の識別を容易にするためである。画像情報Ｇ２の示す画像に含まれるユーザの顔の数が「１」であるので、話者のみが表示される。従って、画像情報Ｇ２の示す画像に含まれる顔画像を強調する必要がない。以上の構成によれば、画像情報Ｇ２の示す画像に含まれるユーザの顔の数が「１」である場合に、話者の顔画像を強調しないので、画像情報Ｇ２を生成する処理負荷が軽減される。

複数の画像情報Ｇ１〜Ｇｎの各々が示す画像は、発言を希望する意志を伝えるための操作子の一例である発言ボタンＢ１の画像を含む。取得部１１１は、発言ボタンＢ１の画像が操作されたこと示す検出情報Ｄｊを複数のユーザ装置２０_1〜２０_nのうちいずれかのユーザ装置２０_jから取得可能である。画像生成部１１２は、複数の画像情報Ｇ１〜Ｇｎの各々が示す画像に、検出情報Ｄｊの送信元であるユーザ装置２０_jを使用するユーザＵｊを識別可能な画像を含ませる。

以上の構成によれば、発言を希望するユーザは、発言ボタンＢ１を操作することによって、テレビ会議に参加する他のユーザに、発言を希望する意志を伝えことができるので、テレビ会議を円滑に進行できる。

取得部１１１は、複数のユーザ装置２０_1〜２０_nから、密談の相手方となるユーザ及び密談に用いるコミュニケーション方法を指定する指定情報Ｚ１〜Ｚｎを取得可能である。管理部１１４は、密談が行われる場合、指定情報Ｚｊで指定される密談に用いるコミュニケーション方法に応じて、指定情報Ｚｊの送信元のユーザ装置２０_jと指定情報Ｚｊで指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える。

以上の構成によれば、密談の要求元で生成された指定情報Ｚｊに従って、コミュニケーション方法を指定できるので、密談のコミュニケーション方法が一つである場合と比較して、状況に応じた密談ができる。

指定情報Ｚｊは、複数のユーザ装置２０_1〜２０_nのうち一のユーザ装置２０_jで生成される。密談の相手方となるユーザは、一のユーザ装置２０_jに表示される複数の顔の画像うち、操作の対象となる顔の画像によって指定される。密談におけるコミュニケーション方法は、顔の画像に対する操作によって指定される。

以上の構成によれば、密談の相手方の指定と密談におけるコミュニケーション方法の指定は、一つの顔の画像に対する操作によって指定できるので、互いに異なる画像に対する操作によって指定する場合と比較して、ユーザの利便性が向上する。

画像生成部１１２は、テレビ会議において、密談の相手方のユーザ装置２０_jに表示される画像に、複数のユーザＵ１〜Ｕｎの顔が表示される場合、指定情報の送信元のユーザの顔を強調した画像を示す画像情報Ｇｊを生成する。
以上の構成によれば、密談の相手方のユーザに密談の要求元のユーザを知らせることができる。

２．変形例
本開示は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を併合してもよい。

２−１：変形例１
実施形態では画像情報Ｇ１〜Ｇｎの各々が示す画像は１頁で構成されるが、本開示はこれに限定されない。例えば、画面サイズに応じて、１頁に表示する顔画像の最大値を定め、画像生成部１１２は、テレビ会議の参加者の人数が最大値を超える場合は、複数頁でテレビ会議の画像を構成する画像情報Ｇｊを生成してもよい。例えば、画面サイズが時計型のウェアラブル装置の場合、最大値を「１」としてもよい。画像生成部１１２は、テレビ会議の画像をｎ頁で構成する画像情報Ｇｊを生成する。例えば、画面サイズがスマートフォンの場合、最大値を「３」としてもよい。テレビ会議の参加者の人数が６名であれば、画像生成部１１２は、テレビ会議の画像を２頁で構成する画像情報Ｇｊを生成してもよい。テレビ会議の画像が複数頁で構成される場合、ユーザ装置２０_jにおいて、フリック操作によって表示される頁を変更できる。

２−２：変形例２
本開示において画像情報Ｇ１〜Ｇｎは、動画であってもよいし、静止画であってもよい。また、話者に関する画像情報を動画とし、話者以外の他のユーザに関する画像情報を静止画としてもよい。画像情報Ｇ１〜Ｇｎを動画とし、話者の画像情報のフレームレートを、話者以外の他のユーザに関する画像情報のフレームレートよりも高くしてもよい。この場合、処理装置１１０は、ユーザ装置２０_1〜２０_nの各々に対して、個別情報のフレームレートを指示してもよい。

３．その他
（１）上述した実施形態では、記憶装置１２０又は２２０は、処理装置１１０又は２１０が読取可能な記録媒体であり、ＲＯＭ及びＲＡＭなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、ＣＤ−ＲＯＭ（Compact Disc−ＲＯＭ）、レジスタ、リムーバブルディスク、ハードディスク、フロッピー（登録商標）ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、電気通信回線を介してネットワークから送信されてもよい。また、プログラムは、電気通信回線を介して通信網から送信されてもよい。

（２）上述した実施形態において、説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

（３）上述した実施形態において、入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

（４）上述した実施形態において、判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

（５）上述した実施形態において例示した処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

（６）図１に例示された各機能は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

また、通信装置１３０及び２３０は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１３０は、例えば、周波数分割複信（ＦＤＤ：Frequency Division Duplex）及び時分割複信（ＴＤＤ：Time Division Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。

（７）上述した実施形態で例示したプログラムは、ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

（８）前述の各形態において、「システム」及び「ネットワーク」という用語は、互換的に使用される。

（９）本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

（１０）上述した実施形態において、店舗装置及びユーザ装置は、移動局（ＭＳ：Mobile Station）である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。また、本開示においては、「移動局」、「ユーザ端末（user terminal）」、「ユーザ装置（ＵＥ：User Equipment）」、「端末」等の用語は、互換的に使用され得る。

（１１）上述した実施形態において、「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

（１２）上述した実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

（１３）本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

（１４）上述した実施形態において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。更に、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

（１５）本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

（１６）本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」等の用語も、「異なる」と同様に解釈されてもよい。

（１７）本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されない。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。従って、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

１…テレビ会議システム、１０…サーバ装置、２０_1〜２０_n…ユーザ装置、１１１…取得部、１１２…画像生成部、１１３…認識部、１１４…管理部、Ｄｊ…検出情報、Ｇｆ１〜Ｇｆ６…顔画像情報、Ｇｊ…画像情報、Ｕｊ…ユーザ、Ｘｊ…個別情報、Ｙｊ…画面情報、Ｚｊ…指定情報。

Claims

テレビ会議に参加する複数のユーザと１対１に対応する複数のユーザ装置と通信するサーバ装置であって、
各ユーザの画像及び当該ユーザの音を示す個別情報、並びに前記各ユーザに対応するユーザ装置の画面サイズに関する画面情報を前記複数のユーザ装置の各々から取得する取得部と、
前記複数のユーザ装置と1対１に対応する複数の個別情報及び前記複数のユーザ装置と1対１に対応する複数の画面情報に基づいて、各ユーザ装置の画面サイズに応じた画像情報を前記複数のユーザ装置の各々について生成する画像生成部と、
前記複数のユーザ装置の各々について生成された画像情報を、対応するユーザ装置に送信する送信部と、
を備えるサーバ装置。
前記複数のユーザ装置には、第１のユーザ装置と第２のユーザ装置とが含まれ、
前記第１のユーザ装置に対応する画面情報の示す画面サイズは、前記第２のユーザ装置に対応する画面情報の示す画面サイズよりも大きく、
前記画像生成部は、前記第１のユーザ装置に対応する第１の画像情報と、前記第２のユーザ装置に対応する第２の画像情報とを生成し、
前記第１の画像情報の示す画像は、前記複数のユーザの顔を含み、
前記第２の画像情報の示す画像は、前記複数のユーザのうち話者の顔を含み、
前記第２の画像情報の示す画像に含まれるユーザの顔の数は、前記第１の画像情報の示す画像に含まれるユーザの顔の数よりも少なく、
前記送信部は、前記第１の画像情報を前記第１のユーザ装置に送信し、前記第２の画像情報を前記第２のユーザ装置に送信する、
請求項１に記載のサーバ装置。
前記画像生成部は、
前記複数の個別情報に基づいて、前記ユーザの顔を含む部分の画像を抽出することによって、前記複数のユーザと1対１に対応する複数の顔画像情報を生成し、
前記第１の画像情報として、前記複数のユーザの顔画像情報を含む情報を生成し、
前記第２の画像情報として、前記複数のユーザの顔画像情報のうち、前記話者の顔画像情報を含み、且つ前記複数のユーザの顔画像情報のうち一部の顔画像情報を含まない情報を生成する、
請求項２に記載のサーバ装置。
前記複数の個別情報の示す音声に基づいて、前記複数のユーザのうち話者を認識する認識部を、さらに備え、
前記画像生成部は、前記認識部の認識結果に基づいて、前記複数の顔画像情報のうち、前記話者に対応する顔画像情報を特定する、
請求項３に記載のサーバ装置。
前記第２の画像情報の示す画像に含まれるユーザの顔の数が１である場合、前記画像生成部は、
前記話者に対応する顔画像情報の示す顔画像を強調することによって、前記第１の画像情報を生成し、
前記話者に対応する顔画像情報の示す顔画像を強調することなく、前記第２の画像情報を生成する、
請求項３又は４に記載のサーバ装置。
前記複数の画像情報の各々が示す画像は、発言を希望する意志を伝えるための操作子の画像を含み、
前記取得部は、前記操作子の画像が操作されたこと示す検出情報を前記複数のユーザ装置のうちいずれかのユーザ装置から取得可能であり、
前記画像生成部は、
前記複数の画像情報の各々が示す画像に、前記検出情報の送信元であるユーザ装置を使用するユーザを識別可能な画像を含ませる、
請求項１から請求項５までのうちいずれか1項に記載のサーバ装置。
前記取得部は、前記複数のユーザ装置から、密談の相手方となるユーザ及び密談に用いるコミュニケーション方法を指定する指定情報を取得可能であり、
前記密談が行われる場合、前記指定情報で指定される密談に用いるコミュニケーション方法に応じて、前記指定情報の送信元のユーザ装置と前記指定情報で指定される密談の相手方のユーザ装置との間におけるコミュニケーション方法を切り替える管理部を備える、
請求項１から請求項６のうちいずれか1項に記載のサーバ装置。
前記指定情報は、
前記複数のユーザ装置のうち一のユーザ装置で生成され、
前記密談の相手方となるユーザは、前記一のユーザ装置に表示される複数の顔の画像うち、操作の対象となる顔の画像によって指定され、
前記密談におけるコミュニケーション方法は、前記顔の画像に対する操作によって指定される、
請求項７に記載のサーバ装置。
前記画像生成部は、
前記テレビ会議において、前記密談の相手方の前記ユーザ装置に表示される画像に、前記複数のユーザの顔が表示される場合、前記指定情報の送信元のユーザの顔を強調した画像を示す前記画像情報を生成する、請求項７又は８に記載のサーバ装置。
請求項１から９までのうちいずれか1項に記載のサーバ装置と、
テレビ会議に参加する複数のユーザと１対１に対応する複数のユーザ装置と、
を備えるテレビ会議システム。