JP2023083063A

JP2023083063A - 画像解析装置、会議支援システム、画像解析方法、およびプログラム

Info

Publication number: JP2023083063A
Application number: JP2021197171A
Authority: JP
Inventors: 慎治浜田; Shinji Hamada
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-06-15

Abstract

【課題】議論の過程において何が注目されたのかを誰でも容易に知ることができるようにする。【解決手段】取得部（１１）は、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得し、推定部（１２）は、第１の撮影画像に映る会議の参加者が注視する方向を推定し、特定部（１３）は、第２の撮影画像において、会議の参加者が注視する議論の対象物を特定し、抽出部（１４）は、第２の撮影画像において、特定された議論の対象物の画像領域を抽出し、記録部（１５）は、議論の対象物の画像領域のデータを記録する。【選択図】図２

Description

本発明は、画像解析装置、会議支援システム、画像解析方法、およびプログラムに関し、例えば、撮影装置により撮影された取得した第２の撮影画像を画像解析することによって、会議の参加者の状態を分析する画像解析装置、会議支援システム、画像解析方法、およびプログラムに関する。

会議における議論の活性化を支援するための様々な関連技術が提案されている。例えば、特許文献１に記載の情報処理装置は、カメラ、マイクロフォン、および各種のセンサを用いて、会議の参加者の位置、声量、手の動き、および活動量など、議論の活性度の指標となる参加者の状態を特定する。そして、特許文献１に記載の情報処理装置は、議論の活性度が低く、議論が停滞していると判定した場合、議論を促進するための情報（例えば、アイデアのヒント）を提示する。

ブレインストーミングやＫＪ法では、会議の参加者が、自由にアイデアや意見を述べて、ホワイトボードやポスター紙上などに、参加者のアイデアや意見を記載した付箋が貼付されることが行われる。また、発表者が、会議資料のデータが投影されたスクリーン上に、図形や補足の説明などを描きながら、会議資料の内容を詳細に説明する場合がある。

オンライン会議では、遠隔地にいる参加者は、付箋あるいは描画を、直接に見ることができないため、会議室における議論を正確に把握することができない。この課題を解決するための関連技術が開発されている。

例えば、特許文献２には、発表者がスクリーン上に描いた文字や図形などを撮影することによって、付加情報を生成し、生成した付加情報を、スクリーン上に投影されていた会議資料のデータと対応付けて、記録媒体に保存することが記載されている。会議の終了後、会議の参加者および非参加者（欠席者など）は、記録媒体に保存された付加情報および会議資料のデータを確認することで、会議における議論を振り返ることができる。

また、特許文献３には、スクリーンを撮影した第２の撮影画像から、スクリーン上に貼付された付箋を特定して、特定した付箋の画像領域を含む部分画像を生成して、その部分画像のデータを、記憶装置に保存することが記載されている。

国際公開第２０２０／０７０７３３号公報特開２００６－１８４３３３号公報特開２０１４－１８６８２３号公報

特許文献２に記載の関連技術では、スクリーン上に描かれた文字または図形が、どのような説明とともに描かれたのか、会議の非参加者はもちろん、会議の参加者であっても思い出せない場合がある。また、特許文献３に記載の関連技術では、どの付箋に書かれたアイデアや意見が、議論の過程で特に注目されたものか、不明になる場合がある。その結果、会議室では参加者らから注目されていたアイデアや意見などの情報を、議論の現場にいなかった者と共有することが難しい。

本発明は上記の課題に鑑みてなされたものであり、その目的は、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることにある。

本発明の一態様に係る画像解析装置は、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えている。

本発明の一態様に係る会議支援システムは、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた画像解析装置と、前記第２の撮影画像を前記画像解析装置へ送信する撮影装置と、前記議論の対象物の前記画像領域のデータが記録された記憶装置と、を備えている。

本発明の一態様に係る画像解析方法は、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得し、前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、前記議論の対象物の前記画像領域のデータを記録する。

本発明の一態様に係るプログラムは、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得することと、前記第１の撮影画像に映る会議の参加者が注視する方向を推定することと、前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、前記議論の対象物の前記画像領域のデータを記録することとをコンピュータに実行させる。

本発明の一態様は、議論の過程において何が注目されたのかを誰でも容易に知ることを可能にする。

実施形態１～３のいずれかに係る画像解析装置を備えた画像解析装置の構成の一例を概略的に示す図である。実施形態１に係る画像解析装置の構成を示すブロック図である。実施形態１に係る画像解析装置の動作を示すフローチャートである。実施形態１に係る画像解析装置の記録部が記憶装置に記録する画像領域のデータのデータ構造の一例を示す図である。実施形態２に係る画像解析装置の構成を示すブロック図である。実施形態２に係る画像解析装置の動作を示すフローチャートである。実施形態２に係る画像解析装置が備えた録音部の動作を示すフローチャートである。実施形態２に係る画像解析装置の録音部が作成する音声ファイルを示す情報の一例を示す図である。実施形態３に係る画像解析装置の構成を示すブロック図である。実施形態３に係る画像解析装置の動作を示すフローチャートである。実施形態３に係る画像解析装置が備えた生成部の動作を示すフローチャートである。実施形態３に係る画像解析装置が備えた生成部が生成する仮想空間の一例を模式的に示す図である。実施形態１～３のいずれか１に係る画像解析装置のハードウェア構成の一例を示す図である。

（会議支援システム１）
図１を参照して、オンライン会議を支援する会議支援システム１について説明する。図１は、会議支援システム１の構成の一例を概略的に示す図である。オンライン会議では、会議の参加者の一部または全員が、遠隔地より、ネットワークを通じて、仮想的な会議室に入場する。ここでの遠隔地とは、会議室とは異なる任意の場所を指す。例えば、遠隔地とは、会議室がある建物とは別棟の建物、サテライトオフィス、コワーキングスペース、あるいは、参加者の自宅である。

オンライン会議では、Ｗｅｂ会議システムのソフトウェアなど、ユーザ端末１００にインストール可能なアプリケーションソフトウェアが使用される。

図１に示すように、会議支援システム１は、後述する実施形態１～３に係る画像解析装置１０（２０、３０）を備えている。ここで、「画像解析装置１０（２０、３０）」とは、画像解析装置１０，２０，３０のいずれかを意味する。

また、会議支援システム１は、会議室にいる参加者が使用するユーザ端末１００、および、遠隔地にいる参加者が使用するユーザ端末１００を含む。さらに、会議支援システム１は、会議室に設置された撮影装置２００、および記憶装置３００を備えている。

会議支援システム１を構成するユーザ端末１００および撮影装置２００は、ネットワークを介して、画像解析装置１０（２０、３０）と通信可能に接続されている。また、記憶装置３００は、少なくとも画像解析装置１０（２０、３０）からアクセス可能である。ネットワークは、ローカルエリアネットワークであってもよいし、あるいはインターネットであってもよい。

ユーザ端末１００は、会議の参加者が利用する通信機器である。ユーザ端末１００は、例えば、モバイルフォン、スマートデバイス、あるいはパーソナルコンピュータである。ユーザ端末１００は、マイク、カメラ、スピーカー、およびディスプレイを備えている。撮影装置２００は、会議室内に設置されている。撮影装置２００は、例えば、俯瞰撮影のための監視カメラ、または、３６０度カメラである。

記憶装置３００には、撮影装置２００により生成された撮影画像のデータが記録される。また、記憶装置３００には、後述する画像解析装置１０（２０、３０）またはＡＲ（Augmented Realty）処理装置（実施形態３）が生成したデータや情報も記録される。記憶装置３００は、例えばネットワークサーバである。画像解析装置１０（２０、３０）は、記憶装置３００にアクセス可能であるように構成されている。

〔実施形態１〕
図２～図４を参照して、実施形態１について説明する。

（画像解析装置１０）
図２は、本実施形態１に係る画像解析装置１０の構成を示すブロック図である。図２に示すように、画像解析装置１０は、取得部１１、推定部１２、特定部１３、抽出部１４、および記録部１５を備えている。

取得部１１は、撮影装置２００により撮影された画像（以下、撮影画像と呼ぶ）を取得する。取得部１１は、取得手段の一例である。

一例では、取得部１１は、会議支援システム１の撮影装置２００（図１）から、ネットワーク（例えば、インターネット、またはローカルエリアネットワーク）を介して、撮影画像のデータを取得する。あるいは、取得部１１は、記憶装置３００に記録された撮影画像のデータを取得してもよい。

更なる別の一例では、取得部１１は、ネットワークを通じて、撮影装置２００の動作をリモート制御することによって、撮影装置２００に撮影を実行させる。そして、取得部１１は、撮影により得られた撮影画像を、撮影装置２００から取得する。

取得部１１は、取得した第１の撮影画像のデータを、推定部１２へ出力する。第１の撮影画像は、会議の参加者（以下の説明における「人物」の一例である）の顔が映る。また、取得部１１は、取得した第２の撮影画像のデータを、特定部１３へ出力する。第２の撮影画像は、会議室の内部の全体が映る。ここでの全体とは、会議室の内壁、会議室内にある物体、および、会議室内にいる人物を包含する。第１の撮影画像と第２の撮影画像は、同じ撮影装置２００により撮影されたものであってもよいし、異なる撮影装置２００により撮影されたものであってもよい。

推定部１２は、第１の撮影画像に映る人物が注視する方向を推定する。推定部１２は、推定手段の一例である。

一例では、推定部１２は、取得部１１から、第１の撮影画像のデータを受信する。推定部１２は、顔検出の関連技術を用いて、受信した第１の撮影画像のデータから、人物の顔を検出する。推定部１２は、検出した人物の顔の向きを推定する。

あるいは、推定部１２は、検出した人物の目の領域を検出する。そして、推定部１２は、人物の目の領域における瞳の偏りに基づいて、人物の視線を推定する。推定部１２は、推定した人物の顔の向き、あるいは、推定した人物の視線の向きに基づいて、人物が注視する方向を特定する。

推定部１２は、人物が注視する方向を示す情報を、特定部１３へ出力する。

特定部１３は、第２の撮影画像において、人物が注視する議論の対象物を特定する。特定部１３は、特定手段の一例である。

一例では、特定部１３は、取得部１１から、第２の撮影画像のデータを受信する。また、特定部１３は、推定部１２から、人物が注視する方向を示す情報を受信する。

特定部１３は、第２の撮影画像において、人物から見て、人物の顔の向きの先、あるいは、人物の視線の向きの先にある物体、すなわち人物が注視する物体を検出する。物体は、議論の対象物である。物体は、例えば、会議室の壁、ディスプレイ、ホワイトボード、ポスター、あるいは、壁やホワイトボード上に貼付された付箋である。

特定部１３は、画像解析の技術分野における物体の検出に関わる技術（例えばエッジ検出やコントラスト分析）を用いて、第２の撮影画像から、人物が注視する物体を検出することができる。

なお、第１の撮影画像と第２の撮影画像が、異なる撮影装置２００により撮影されたものである場合、特定部１３は、推定部１２が第１の撮影画像において検出した人物を、第２の撮影画像において検出する必要がある。そのため、特定部１３は、推定部１２から、人物が注視する方向を示す情報とともに、人物の識別情報も受信する。例えば、人物の識別情報は、人物の顔の特徴、および／または、絶対座標系における人物の位置座標を含む。

また、人物が注視する物体に対して、物体の識別情報（例えば物体ＩＤ）を既に発行済であった場合を除いて、特定部１３は、人物が注視する物体を識別するための識別情報を発行する。その後、特定部１３は、人物が注視する物体を特定するための情報を、物体の識別情報と対応付けて、記憶装置３００等に記録する。

特定部１３は、人物が注視する物体を特定するための情報を、第２の撮影画像のデータとともに、抽出部１４へ出力する。人物が注視する物体を特定するための情報は、物体の識別情報（例えば物体ＩＤ）、物体が注視された時間を示す情報、および、第２の撮影画像における物体の位置座標（範囲）を示す情報を含む（図４）。

なお、特定部１３は、特定の種類の物体のみを検出してもよい。この場合、特定部１３は、人物が注視する物体を特定する処理を実行することに先立って、第２の撮影画像に映る特定の物体を予め検出しておいてもよい。より詳細には、特定の種類の物体とは、議論の対象物であり、例えば、ホワイトボード、ディスプレイ、および付箋がその具体例である。

例えば、特定部１３は、特定の種類の物体の特徴を学習した識別器を利用することができる。特定部１３は、学習済みの識別器を用いて、第２の撮影画像から、特定の種類の物体の画像領域を抽出する。その後、特定部１３は、第２の撮影画像において、人物から見て、人物が注視する方向に、特定の種類の物体の画像領域が存在するかどうかを判定する。

以上のように、特定部１３は、人物が注視する方向にある特定の種類の物体を検出することができる。なお、特定の種類の物体が「付箋」である場合の一例を、実施形態３において説明する。

抽出部１４は、第２の撮影画像において、特定された物体の画像領域を抽出する。抽出部１４は、抽出手段の一例である。

一例では、抽出部１４は、特定部１３から、第２の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部１４は、人物が注視する物体を特定するための情報を用いて、第２の撮影画像から、人物が注視する物体の画像領域を抽出する。

例えば、抽出部１４は、人物が注視する物体を特定するための情報から、物体が注視された時間を示す情報、および、第２の撮影画像における物体の位置座標（範囲）を示す情報を抽出する。ここでの「位置座標（範囲）」とは、物体上の特定の一点、あるいは、物体の輪郭により占有される領域を意味する。

抽出部１４は、物体が注視された時間中に撮影された第２の撮影画像から、物体の位置座標（範囲）を示す情報によって特定される画像領域を抽出する。

このようにして、抽出部１４は、第２の撮影画像において、特定部１３が特定した物体の画像領域、すなわち、人物が注視する物体の画像領域を、第２の撮影画像から抽出する。

また、抽出部１４は、人物が注視する物体の画像領域のデータを、特定部１３から受信した物体の識別情報（例えば物体ＩＤ）に対応付けて、記憶装置３００等に記録する（図４）。

抽出部１４は、人物が注視する物体の画像領域のデータを、記録部１５へ出力する。

記録部１５は、物体の画像領域のデータを記録する。記録部１５は、記録手段の一例である。

一例では、記録部１５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。記録部１５は、物体の画像領域のデータを、記憶装置３００（図１）を記録する。

（画像解析装置１０の動作）
図３を参照して、本実施形態１に係る画像解析装置１０の動作を説明する。図３は、画像解析装置１０の各部が実行する処理の流れを示すフローチャートである。

図３に示すように、まず、取得部１１は、撮影装置２００（図１）により撮影された第１の撮影画像および第２の撮影画像を取得する（Ｓ１０１）。

取得部１１は、取得した第１の撮影画像のデータを、推定部１２へ出力する。また、取得部１１は、取得した第２の撮影画像のデータを、特定部１３へ出力する。

推定部１２は、取得部１１が取得した第１の撮影画像のデータを受信する。推定部１２は、第１の撮影画像に映る人物が注視する方向を推定する（Ｓ１０２）。

特定部１３は、取得部１１が取得した第２の撮影画像のデータを受信する。特定部１３は、第２の撮影画像において、人物が注視する物体を特定する（Ｓ１０３）。

特定部１３は、人物が注視する物体を特定するための情報を、第２の撮影画像のデータとともに、抽出部１４へ出力する。

抽出部１４は、特定部１３から、第２の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部１４は、第２の撮影画像において、特定された物体の画像領域を抽出する（Ｓ１０４）。

記録部１５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。記録部１５は、物体の画像領域のデータを記録する（Ｓ１０５）。

以上で、本実施形態１に係る画像解析装置１０の動作は終了する。

（人物が注視する物体を特定するための情報の一例）
図４は、人物が注視する物体を特定するための情報の一例を示す。人物が注視する物体を特定するための情報は、前述した画像解析装置１０の特定部１３および抽出部１４により、記憶装置３００等に記録される。

具体的には、特定部１３により、物体が注視された時間を示す情報、および、第２の撮影画像における物体の位置座標（範囲）を示す情報が、物体の識別情報（例えば、物体ＩＤ）と対応付けられて、記憶装置３００等に記録される。

図４では、「２０：００：００」および「２０：１０：００」が、物体が注視された時間を示す情報を表す。一方、「ＡＡ：ＡＡ：ＡＡ」および「ＢＢ：ＢＢ：ＢＢ」が、第２の撮影画像における物体の位置座標（範囲）を表す。

また、抽出部１４により、人物が注視する物体の画像領域のデータが、物体の識別情報（例えば、物体ＩＤ）と対応付けられて、記憶装置３００等に記録される。図４では、「ａａａａａ」および「ｂｂｂｂｂ」が、人物が注視する物体の画像領域のデータを表す。

（本実施形態の効果）
本実施形態の構成によれば、取得部１１は、撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する。推定部１２は、第１の撮影画像に映る人物が注視する方向を推定する。特定部１３は、第２の撮影画像において、人物が注視する議論の対象物を特定する。抽出部１４は、第２の撮影画像において、特定された物体の画像領域を抽出する。記録部１５は、物体の画像領域のデータを記録する。会議の参加者だけでなく、非参加者も、物体の画像領域のデータを参照することで、会議中に人物が注視していた物体を知ることができる。これにより、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることができる。

〔実施形態２〕
図５～図８を参照して、実施形態２について説明する。本実施形態２では、会議の参加者同士の議論や会話、あるいは発表を録音して、音声ファイルを作成し、作成した音声ファイルを、会議中に参加者が注視している物体の画像領域のデータと対応付ける構成を説明する。

本実施形態２において、前記実施形態１と同じ符号を付した構成要素に関し、前記実施形態１と重複する説明を省略する。

（画像解析装置２０）
図５は、本実施形態２に係る画像解析装置２０の構成を示すブロック図である。図５に示すように、画像解析装置２０は、取得部１１、推定部１２、特定部１３、抽出部１４、および記録部１５を備えている。画像解析装置２０は、録音部２５をさらに備えている。

録音部２５は、人物と他の参加者との間での議論を録音して、音声ファイルを作成する。録音部２５は、録音手段の一例である。

一例では、録音部２５は、会議室にあるユーザ端末１００（図１）、あるいは遠隔地にあるユーザ端末１００（図１）から、会議の参加者の音声によりマイクロフォンへ入力された音声信号を受信する。

録音部２５は、受信した音声信号を、Ａ／Ｄ変換することによって、デジタルデータである音声ファイルを作成する。録音部２５は、作成した録音ファイルを、記録部１５へ出力する。

また、録音部２５は、特定部１３から、人物が注視する物体を特定するための情報を受信する。人物が注視する物体を特定するための情報は、物体の識別情報（例えば、物体ＩＤ）を含む。

録音部２５は、音声ファイルを識別するための識別情報（例えば音声ＩＤ）を発行する。その後、録音部２５は、音声ファイルを、音声ファイルの識別情報、および、物体の識別情報と対応付けて、記憶装置３００等に記録する（図８）。

なお、前記実施形態１において説明したように、人物が注視する物体に対して、識別情報を既に発行済であった場合を除いて、特定部１３は、人物が注視する物体を識別するための識別情報（例えば物体ＩＤ）を発行する。一方、人物が注視する物体を特定できない場合、特定部１３は、物体の識別情報を発行できない。この場合、録音部２５は、音声ファイルを、音声ファイルの識別情報のみと対応付けて、記憶装置３００等に記録する（図８）。

記録部１５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。また、記録部１５は、録音部２５が作成した音声ファイルを受信する。

記録部１５は、物体の画像領域のデータを、記憶装置３００（図１）を記録する。記録部１５は、物体の画像領域のデータに対して、物体が注視された時間を特定するための情報を付加してもよい。

また、記録部１５は、音声ファイルと、人物が注視する物体の画像領域のデータを対応付けて、記憶装置３００等に記録してもよい。

（画像解析装置２０の動作）
図６を参照して、本実施形態２に係る画像解析装置２０の動作を説明する。図６は、画像解析装置２０の各部が実行する処理の流れを示すフローチャートである。

図６に示すように、まず、取得部１１は、撮影装置２００（図１）により撮影された第２の撮影画像を取得する（Ｓ２０１）。

推定部１２は、取得部１１が取得した第１の撮影画像のデータを受信する。推定部１２は、第１の撮影画像に映る人物が注視する方向を推定する（Ｓ２０２）。

特定部１３は、取得部１１が取得した第２の撮影画像のデータを受信する。特定部１３は、第２の撮影画像において、人物が注視する物体を特定する（Ｓ２０３）。

特定部１３は、人物が注視する物体を特定するための情報を、第２の撮影画像のデータとともに、抽出部１４へ出力する。また、特定部１３は、人物が注視する物体を特定するための情報、少なくとも物体の識別情報（例えば、物体ＩＤ）を、録音部２５へ出力する。

録音部２５は、人物と他の参加者との間での議論を録音して、音声ファイルを作成する（Ｓ２０３）。なお、ステップＳ２０３の詳細を、別のフローチャート（図７）を参照して、後述する。

録音部２５は、特定部１３から、人物が注視する物体を特定するための情報を受信する。録音部２５は、人物が注視する物体を特定するための情報から、物体の識別情報（例えば、物体ＩＤ）を抽出する。そして、録音部２５は、音声ファイルを、物体の識別情報と対応付けて、記憶装置３００等に記録する。

抽出部１４は、特定部１３から、第２の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部１４は、第２の撮影画像において、特定された物体の画像領域を抽出する（Ｓ２０５）。

記録部１５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。記録部１５は、物体の画像領域のデータを記録する（Ｓ２０６）。このとき、記録部１５は、音声ファイルと、人物が注視する物体の画像領域のデータとを対応付けて記録してもよい。

以上で、本実施形態２に係る画像解析装置２０の動作は終了する。

（録音部２５が実行する処理；Ｓ２０３の詳細）
図７を参照して、上述したフローチャート（図６）のステップＳ２０３において、録音部２５が実行する処理の詳細を説明する。

図７に示すように、ステップＳ２０３において、録音部２５は、まず、ユーザ端末１００（図１）のマイクロフォンに入力された音声信号をＡ／Ｄ変換することにより、音声ファイルを作成する（Ｓ２０３１）。

録音部２５は、作成した音声ファイルを、音声ファイルの識別情報、および、物体の識別情報と対応付けて、記憶装置３００等に記録する（図８）。

次に、録音部２５は、一定数以上の人物が同じ物体を注視しているかどうかを判定する（Ｓ２０３２）。

例えば、録音部２５は、記録された音声ファイルと対応付けられている物体の識別情報の数をカウントする。記録された音声ファイルと対応付けられている物体の識別情報の数が一定数以上である場合、録音部２５は、一定数以上の人物が同じ物体を注視していると判定する。

一定数以上の人物が同じ物体を注視していない場合（Ｓ２０３２でＮｏ）、つまり、同じ物体を注視している人物の人数が一定数に満たない場合、本フローは終了する。

一方、一定数以上の人物が同じ物体を注視している場合（Ｓ２０３２でＹｅｓ）、録音部２５は、中止されている物体の識別情報を、音声ファイルと対応付ける（Ｓ２０３３）。

その後、フローは、上述したフローチャート（図６）のステップＳ３０５へ進む。

（物体の識別情報と対応付けられた音声ファイルの一例）
図８は、人物が注視する物体の識別情報（例えば、物体ＩＤ）と対応付けられた音声ファイルの一例を示す。物体の識別情報は、人物が注視する物体を特定するための情報（図４）のインデックスである。図８に示すように、音声ファイルは、音声ファイルの識別情報（例えば、音声ＩＤ）、および、物体の識別情報（例えば、物体ＩＤ）と対応付けられて、記憶装置３００等に記録される。

さらに、本実施形態の構成によれば、録音部２５は、人物と他の参加者との間での議論や会話、あるいは発表を録音して、音声ファイルを作成する。記録部１５は、音声ファイルと、物体の画像領域のデータとを対応付けて記録する。これにより、会議の参加者だけでなく、非参加者も、会議の参加者がどの物体を注視しながら、どのような議論、会話、または発表をしていたのかを知ることができる。

〔実施形態３〕
図９～図１２を参照して、実施形態３について説明する。本実施形態３では、会議中に参加者が注視している物体を、遠隔地の参加者が仮想空間上で視認することを可能にする構成を説明する。ここでの仮想空間とは、拡張現実の世界、拡張仮想の世界、および複合現実の世界の概念を包含する。

本実施形態３において、前記実施形態１または前記実施形態２と同じ符号を付した構成要素に関し、前記実施形態１または前記実施形態２と重複する説明を省略する。

（画像解析装置３０）
図９は、本実施形態３に係る画像解析装置３０の構成を示すブロック図である。図９に示すように、画像解析装置３０は、取得部１１、推定部１２、特定部１３、抽出部１４、および記録部１５を備えている。画像解析装置３０は、生成部３５をさらに備えている。

生成部３５は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する。生成部３５は、生成手段の一例である。

一例では、生成部３５は、特定部１３から、人物が注視する物体を特定するための情報（図４）を受信する。生成部３５は、少なくとも、第２の撮影画像における物体の位置座標（範囲）を示す情報を受信する。また、生成部３５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。

生成部３５は、第２の撮影画像における物体の位置座標（範囲）を示す情報を用いて、受信した画像領域のデータを、仮想空間のモデルに貼付することによって、仮想空間のデータを生成する。

一例では、生成部３５は、仮想空間内にある特定の視点から見たとき、仮想空間のモデル上に貼付された複数の画像領域が互いに重ならないように、仮想空間における複数の画像領域を奥行き方向に並べて配置する。生成部３５は、仮想空間における複数の画像領域を、物体が注視された時間の順に、特定の視点から見たときの奥行き方向に並べて配置してもよい。

生成部３５は、生成した仮想空間のデータを、記憶装置３００等に記録する。加えて、生成部３５は、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを、記録部１５へ出力する。

記録部１５は、生成部３５から、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを受信する。記録部１５は、人物が注視する物体の画像領域のデータに代えて、生成部３５が生成した仮想空間のデータを記録してもよい。

（画像解析装置３０の動作）
図１０を参照して、本実施形態３に係る画像解析装置３０の動作を説明する。図１０は、画像解析装置３０の各部が実行する処理の流れを示すフローチャートである。

図１０に示すように、まず、取得部１１は、撮影装置２００（図１）により撮影された第２の撮影画像を取得する（Ｓ３０１）。

推定部１２は、取得部１１が取得した第１の撮影画像のデータを受信する。推定部１２は、第１の撮影画像に映る人物が注視する方向を推定する（Ｓ３０２）。

特定部１３は、取得部１１が取得した第２の撮影画像のデータを受信する。特定部１３は、第２の撮影画像において、人物が注視する物体を特定する（Ｓ３０３）。

抽出部１４は、特定部１３から、第２の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部１４は、第２の撮影画像において、特定された物体の画像領域を抽出する（Ｓ３０４）。

抽出部１４は、人物が注視する物体の画像領域のデータを、記録部１５および生成部３５へ出力する。

生成部３５は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する（Ｓ３０５）。なお、ステップＳ３０５の詳細を、別のフローチャート（図１１）を参照して、後述する。

生成部３５は、生成した仮想空間のデータを、記録部１５へ出力する。

記録部１５は、抽出部１４から、人物が注視する物体の画像領域のデータを受信する。また、記録部１５は、生成部３５から、仮想空間のデータを受信する。記録部１５は、人物が注視する物体の画像領域のデータを記録する。または、記録部１５は、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを記録する（Ｓ３０６）。

以上で、本実施形態３に係る画像解析装置３０の動作は終了する。

（生成部３５が実行する処理；Ｓ３０５の詳細）
図１１を参照して、上述したフローチャート（図１０）のステップＳ３０５において、生成部３５が実行する処理の詳細を説明する。ここでは、人物が注視する物体が「付箋」である例を取り上げる。

図１１に示すように、まず、生成部３５は、特定部１３から、付箋を含む画像領域のデータ、および、人物が注視する付箋を特定するための情報（図４）を受信する（Ｓ３０５１）。

次に、生成部３５は、仮想空間のモデルのデータを、記憶装置３００等の記録媒体から取得する（Ｓ３０５２）。あるいは、生成部３５は、汎用の仮想空間（例えば、立方体の空間）のモデルのデータを取得してもよい。仮想空間における各点の位置座標は、第２の撮影画像における各点の位置座標と、一対一で対応している。位置座標の間の対応関係を示す情報は、予め、記憶装置３００等に格納されているか、あるいは、画像解析装置３０によって所持されている。

また、生成部３５は、人物が注視する付箋を特定するための情報から、付箋の位置座標（範囲）を示す情報を抽出する（Ｓ３０５３）。

そして、生成部３５は、付箋の位置座標を示す情報を用いて、付箋の画像領域のデータを、仮想空間のモデルに貼付する（Ｓ３０５４）。このとき、生成部３５は、仮想空間における各点の位置座標と、第２の撮影画像における各点の位置座標とを一対一で対応付ける情報（例えば、関数または対応表）を用いて、付箋の位置座標を、仮想空間における位置座標に変換する。

その後、フローは、上述したフローチャート（図１０）のステップＳ３０６へ進む。

（仮想空間の会議室の一例）
図１２は、本実施形態３に係る画像解析装置生成部３５が生成する仮想空間の一例を模式的に示す。図１２に示す例では、仮想空間内にある付箋（物体の一例である）を示している。また、ＡＲ（augmented realty）グラスなどを用いて仮想空間を視認する会議の参加者の視線を矢印で表す。

仮想空間の会議室では、会議の参加者は３６０度を見渡すことができる。会議の参加者が移動または方向転換したとき、図示しないＡＲ処理装置は、会議の参加者が付箋を視認することができるように、仮想空間内で付箋を回転する。

また、ＡＲ処理装置は、仮想空間上において、付箋を拡大または縮小してもよい。さらに、ＡＲ処理装置は、会議の参加者から見て、付箋同士が重ならないように、仮想空間内で付箋を移動させてもよい。これにより、仮想空間を視認する会議の参加者から見て、付箋の視認性（例えば、付箋に描かれた文字の読みやすさ）を向上させることができる。

なお、ＡＲ処理装置は、画像解析装置３０の一部であってもよい。すなわち、一変形例では、画像解析装置３０は、ＡＲ処理装置としての機能を具備していてもよい。

さらに、本実施形態の構成によれば、生成部３５は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する。記録部１５は、物体の画像領域のデータ、または、それを貼付した仮想空間のデータを記録する。これにより、遠隔地にいる会議の参加者であっても、仮想空間の世界を視認するためのデバイスを用いることで、実空間にいる会議の参加者が注視する物体を、仮想空間上で視認することができる。

（ハードウェア構成について）
前記実施形態１～３で説明した画像解析装置１０、２０、３０の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図１３に示すような情報処理装置９００により実現される。図１３は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

図１３に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
ＲＡＭ９０３にロードされるプログラム９０４
プログラム９０４を格納する記憶装置９０５
記録媒体９０６の読み書きを行うドライブ装置９０７
通信ネットワーク９０９と接続する通信インタフェース９０８
データの入出力を行う入出力インタフェース９１０
各構成要素を接続するバス９１１
前記実施形態１～３で説明した画像解析装置１０、２０、３０の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

上記の構成によれば、前記実施形態１～３で説明した画像解析装置１０、２０、３０が、ハードウェアとして実現される。したがって、前記実施形態１～３のいずれかにおいて説明した効果と同様の効果を奏することができる。

（付記）
本発明の一態様は、以下の付記のようにも記載されるが、以下に限定されない。

（付記１）
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置。

（付記２）
前記議論の対象物は付箋であり、
前記特定手段は、前記第２の撮影画像において、前記会議の参加者が注視する付箋を特定する
ことを特徴とする付記１に記載の画像解析装置。

（付記３）
前記会議の参加者と他の参加者との間での議論を録音して、音声ファイルを作成する録音手段をさらに備え、
前記記録手段は、前記音声ファイルと、前記議論の対象物の前記画像領域のデータとを対応付けて記録する
ことを特徴とする付記１または２に記載の画像解析装置。

（付記４）
前記記録手段は、前記議論の対象物の前記画像領域のデータに対して、前記会議の参加者が注視する議論の対象物を特定するための情報前記議論の対象物が注視された時間を特定するための情報を付加する
ことを特徴とする付記１から３のいずれか１項に記載の画像解析装置。

（付記５）
前記議論の対象物の画像領域が抽出された後、前記議論の対象物の前記画像領域のデータを、仮想空間のモデル上に貼付することによって、前記議論の対象物を含む実空間と対応する仮想空間のデータを生成する生成手段をさらに備えた
ことを特徴とする付記１または２に記載の画像解析装置。

（付記６）
前記生成手段は、前記拡張空間内にある特定の視点から見たとき、前記仮想空間のモデル上に貼付された複数の前記画像領域が互いに重ならないように、前記仮想空間における複数の前記画像領域を奥行き方向に並べて配置する
ことを特徴とする付記５に記載の画像解析装置。

（付記７）
前記生成手段は、前記仮想空間における複数の前記画像領域を、前記議論の対象物が注視された時間の順に、前記特定の視点から見たときの奥行き方向に並べて配置する
ことを特徴とする付記５または６に記載の画像解析装置。

（付記８）
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置と、
前記第２の撮影画像を前記画像解析装置へ送信する撮影装置と、
前記議論の対象物の前記画像領域のデータが記録された記憶装置と、
を備えた会議支援システム。

（付記９）
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得し、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定し、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、
前記議論の対象物の前記画像領域のデータを記録する
画像解析方法。

（付記１０）
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得することと、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定することと、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、
前記議論の対象物の前記画像領域のデータを記録することと
をコンピュータに実行させるためのプログラム。

（付記１１）
前記議論の対象物はホワイトボードであり、
前記特定手段は、前記第２の撮影画像において、前記会議の参加者が注視するホワイトボードを特定する
ことを特徴とする付記１から７のいずれか１項に記載の画像解析装置。

本発明は、例えば、オンライン会議における議論の活性化を支援する会議支援システムに利用することができる。

１会議支援システム
１０画像解析装置
１１取得部
１２推定部
１３特定部
１４抽出部
１５記録部
２０画像解析装置
２５録音部
３０画像解析装置
３５生成部
１００ユーザ端末
２００撮影装置
３００記憶装置
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４プログラム
９０５記憶装置
９０６記録媒体
９０７ドライブ装置
９０８通信インタフェース
９０９通信ネットワーク

Claims

撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置。
前記議論の対象物は付箋であり、
前記特定手段は、前記第２の撮影画像において、前記会議の参加者が注視する付箋を特定する
ことを特徴とする請求項１に記載の画像解析装置。
前記会議の参加者と他の参加者との間での議論を録音して、音声ファイルを作成する録音手段をさらに備え、
前記記録手段は、前記音声ファイルと、前記議論の対象物の前記画像領域のデータとを対応付けて記録する
ことを特徴とする請求項１または２に記載の画像解析装置。
前記記録手段は、前記議論の対象物の前記画像領域のデータに対して、前記議論の対象物が注視された時間を特定するための情報を付加する
ことを特徴とする請求項１から３のいずれか１項に記載の画像解析装置。
前記議論の対象物の画像領域が抽出された後、前記議論の対象物の前記画像領域のデータを、仮想空間のモデル上に貼付することによって、前記議論の対象物を含む実空間と対応する仮想空間のデータを生成する生成手段をさらに備えた
ことを特徴とする請求項１または２に記載の画像解析装置。
前記生成手段は、前記仮想空間内にある特定の視点から見たとき、前記仮想空間のモデル上に貼付された複数の前記画像領域が互いに重ならないように、前記仮想空間における複数の前記画像領域を奥行き方向に並べて配置する
ことを特徴とする請求項５に記載の画像解析装置。
前記生成手段は、前記仮想空間における複数の前記画像領域を、前記議論の対象物が注視された時間の順に、前記特定の視点から見たときの奥行き方向に並べて配置する
ことを特徴とする請求項５または６に記載の画像解析装置。
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得する取得手段と、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置と、
前記第２の撮影画像を前記画像解析装置へ送信する撮影装置と、
前記議論の対象物の前記画像領域のデータが記録された記憶装置と、
を備えた会議支援システム。
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得し、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定し、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、
前記議論の対象物の前記画像領域のデータを記録する
画像解析方法。
撮影装置により撮影された第１の撮影画像および第２の撮影画像を取得することと、
前記第１の撮影画像に映る会議の参加者が注視する方向を推定することと、
前記第２の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、
前記第２の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、
前記議論の対象物の前記画像領域のデータを記録することと
をコンピュータに実行させるためのプログラム。