JP2023083063A - 画像解析装置、会議支援システム、画像解析方法、およびプログラム - Google Patents

画像解析装置、会議支援システム、画像解析方法、およびプログラム Download PDF

Info

Publication number
JP2023083063A
JP2023083063A JP2021197171A JP2021197171A JP2023083063A JP 2023083063 A JP2023083063 A JP 2023083063A JP 2021197171 A JP2021197171 A JP 2021197171A JP 2021197171 A JP2021197171 A JP 2021197171A JP 2023083063 A JP2023083063 A JP 2023083063A
Authority
JP
Japan
Prior art keywords
image
discussion
captured image
unit
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021197171A
Other languages
English (en)
Inventor
慎治 浜田
Shinji Hamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2021197171A priority Critical patent/JP2023083063A/ja
Publication of JP2023083063A publication Critical patent/JP2023083063A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】 議論の過程において何が注目されたのかを誰でも容易に知ることができるようにする。【解決手段】 取得部(11)は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得し、推定部(12)は、第1の撮影画像に映る会議の参加者が注視する方向を推定し、特定部(13)は、第2の撮影画像において、会議の参加者が注視する議論の対象物を特定し、抽出部(14)は、第2の撮影画像において、特定された議論の対象物の画像領域を抽出し、記録部(15)は、議論の対象物の画像領域のデータを記録する。【選択図】 図2

Description

本発明は、画像解析装置、会議支援システム、画像解析方法、およびプログラムに関し、例えば、撮影装置により撮影された取得した第2の撮影画像を画像解析することによって、会議の参加者の状態を分析する画像解析装置、会議支援システム、画像解析方法、およびプログラムに関する。
会議における議論の活性化を支援するための様々な関連技術が提案されている。例えば、特許文献1に記載の情報処理装置は、カメラ、マイクロフォン、および各種のセンサを用いて、会議の参加者の位置、声量、手の動き、および活動量など、議論の活性度の指標となる参加者の状態を特定する。そして、特許文献1に記載の情報処理装置は、議論の活性度が低く、議論が停滞していると判定した場合、議論を促進するための情報(例えば、アイデアのヒント)を提示する。
ブレインストーミングやKJ法では、会議の参加者が、自由にアイデアや意見を述べて、ホワイトボードやポスター紙上などに、参加者のアイデアや意見を記載した付箋が貼付されることが行われる。また、発表者が、会議資料のデータが投影されたスクリーン上に、図形や補足の説明などを描きながら、会議資料の内容を詳細に説明する場合がある。
オンライン会議では、遠隔地にいる参加者は、付箋あるいは描画を、直接に見ることができないため、会議室における議論を正確に把握することができない。この課題を解決するための関連技術が開発されている。
例えば、特許文献2には、発表者がスクリーン上に描いた文字や図形などを撮影することによって、付加情報を生成し、生成した付加情報を、スクリーン上に投影されていた会議資料のデータと対応付けて、記録媒体に保存することが記載されている。会議の終了後、会議の参加者および非参加者(欠席者など)は、記録媒体に保存された付加情報および会議資料のデータを確認することで、会議における議論を振り返ることができる。
また、特許文献3には、スクリーンを撮影した第2の撮影画像から、スクリーン上に貼付された付箋を特定して、特定した付箋の画像領域を含む部分画像を生成して、その部分画像のデータを、記憶装置に保存することが記載されている。
国際公開第2020/070733号公報 特開2006-184333号公報 特開2014-186823号公報
特許文献2に記載の関連技術では、スクリーン上に描かれた文字または図形が、どのような説明とともに描かれたのか、会議の非参加者はもちろん、会議の参加者であっても思い出せない場合がある。また、特許文献3に記載の関連技術では、どの付箋に書かれたアイデアや意見が、議論の過程で特に注目されたものか、不明になる場合がある。その結果、会議室では参加者らから注目されていたアイデアや意見などの情報を、議論の現場にいなかった者と共有することが難しい。
本発明は上記の課題に鑑みてなされたものであり、その目的は、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることにある。
本発明の一態様に係る画像解析装置は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えている。
本発明の一態様に係る会議支援システムは、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた画像解析装置と、前記第2の撮影画像を前記画像解析装置へ送信する撮影装置と、前記議論の対象物の前記画像領域のデータが記録された記憶装置と、を備えている。
本発明の一態様に係る画像解析方法は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得し、前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、前記議論の対象物の前記画像領域のデータを記録する。
本発明の一態様に係るプログラムは、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得することと、前記第1の撮影画像に映る会議の参加者が注視する方向を推定することと、前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、前記議論の対象物の前記画像領域のデータを記録することとをコンピュータに実行させる。
本発明の一態様は、議論の過程において何が注目されたのかを誰でも容易に知ることを可能にする。
実施形態1~3のいずれかに係る画像解析装置を備えた画像解析装置の構成の一例を概略的に示す図である。 実施形態1に係る画像解析装置の構成を示すブロック図である。 実施形態1に係る画像解析装置の動作を示すフローチャートである。 実施形態1に係る画像解析装置の記録部が記憶装置に記録する画像領域のデータのデータ構造の一例を示す図である。 実施形態2に係る画像解析装置の構成を示すブロック図である。 実施形態2に係る画像解析装置の動作を示すフローチャートである。 実施形態2に係る画像解析装置が備えた録音部の動作を示すフローチャートである。 実施形態2に係る画像解析装置の録音部が作成する音声ファイルを示す情報の一例を示す図である。 実施形態3に係る画像解析装置の構成を示すブロック図である。 実施形態3に係る画像解析装置の動作を示すフローチャートである。 実施形態3に係る画像解析装置が備えた生成部の動作を示すフローチャートである。 実施形態3に係る画像解析装置が備えた生成部が生成する仮想空間の一例を模式的に示す図である。 実施形態1~3のいずれか1に係る画像解析装置のハードウェア構成の一例を示す図である。
(会議支援システム1)
図1を参照して、オンライン会議を支援する会議支援システム1について説明する。図1は、会議支援システム1の構成の一例を概略的に示す図である。オンライン会議では、会議の参加者の一部または全員が、遠隔地より、ネットワークを通じて、仮想的な会議室に入場する。ここでの遠隔地とは、会議室とは異なる任意の場所を指す。例えば、遠隔地とは、会議室がある建物とは別棟の建物、サテライトオフィス、コワーキングスペース、あるいは、参加者の自宅である。
オンライン会議では、Web会議システムのソフトウェアなど、ユーザ端末100にインストール可能なアプリケーションソフトウェアが使用される。
図1に示すように、会議支援システム1は、後述する実施形態1~3に係る画像解析装置10(20、30)を備えている。ここで、「画像解析装置10(20、30)」とは、画像解析装置10,20,30のいずれかを意味する。
また、会議支援システム1は、会議室にいる参加者が使用するユーザ端末100、および、遠隔地にいる参加者が使用するユーザ端末100を含む。さらに、会議支援システム1は、会議室に設置された撮影装置200、および記憶装置300を備えている。
会議支援システム1を構成するユーザ端末100および撮影装置200は、ネットワークを介して、画像解析装置10(20、30)と通信可能に接続されている。また、記憶装置300は、少なくとも画像解析装置10(20、30)からアクセス可能である。ネットワークは、ローカルエリアネットワークであってもよいし、あるいはインターネットであってもよい。
ユーザ端末100は、会議の参加者が利用する通信機器である。ユーザ端末100は、例えば、モバイルフォン、スマートデバイス、あるいはパーソナルコンピュータである。ユーザ端末100は、マイク、カメラ、スピーカー、およびディスプレイを備えている。撮影装置200は、会議室内に設置されている。撮影装置200は、例えば、俯瞰撮影のための監視カメラ、または、360度カメラである。
記憶装置300には、撮影装置200により生成された撮影画像のデータが記録される。また、記憶装置300には、後述する画像解析装置10(20、30)またはAR(Augmented Realty)処理装置(実施形態3)が生成したデータや情報も記録される。記憶装置300は、例えばネットワークサーバである。画像解析装置10(20、30)は、記憶装置300にアクセス可能であるように構成されている。
〔実施形態1〕
図2~図4を参照して、実施形態1について説明する。
(画像解析装置10)
図2は、本実施形態1に係る画像解析装置10の構成を示すブロック図である。図2に示すように、画像解析装置10は、取得部11、推定部12、特定部13、抽出部14、および記録部15を備えている。
取得部11は、撮影装置200により撮影された画像(以下、撮影画像と呼ぶ)を取得する。取得部11は、取得手段の一例である。
一例では、取得部11は、会議支援システム1の撮影装置200(図1)から、ネットワーク(例えば、インターネット、またはローカルエリアネットワーク)を介して、撮影画像のデータを取得する。あるいは、取得部11は、記憶装置300に記録された撮影画像のデータを取得してもよい。
更なる別の一例では、取得部11は、ネットワークを通じて、撮影装置200の動作をリモート制御することによって、撮影装置200に撮影を実行させる。そして、取得部11は、撮影により得られた撮影画像を、撮影装置200から取得する。
取得部11は、取得した第1の撮影画像のデータを、推定部12へ出力する。第1の撮影画像は、会議の参加者(以下の説明における「人物」の一例である)の顔が映る。また、取得部11は、取得した第2の撮影画像のデータを、特定部13へ出力する。第2の撮影画像は、会議室の内部の全体が映る。ここでの全体とは、会議室の内壁、会議室内にある物体、および、会議室内にいる人物を包含する。第1の撮影画像と第2の撮影画像は、同じ撮影装置200により撮影されたものであってもよいし、異なる撮影装置200により撮影されたものであってもよい。
推定部12は、第1の撮影画像に映る人物が注視する方向を推定する。推定部12は、推定手段の一例である。
一例では、推定部12は、取得部11から、第1の撮影画像のデータを受信する。推定部12は、顔検出の関連技術を用いて、受信した第1の撮影画像のデータから、人物の顔を検出する。推定部12は、検出した人物の顔の向きを推定する。
あるいは、推定部12は、検出した人物の目の領域を検出する。そして、推定部12は、人物の目の領域における瞳の偏りに基づいて、人物の視線を推定する。推定部12は、推定した人物の顔の向き、あるいは、推定した人物の視線の向きに基づいて、人物が注視する方向を特定する。
推定部12は、人物が注視する方向を示す情報を、特定部13へ出力する。
特定部13は、第2の撮影画像において、人物が注視する議論の対象物を特定する。特定部13は、特定手段の一例である。
一例では、特定部13は、取得部11から、第2の撮影画像のデータを受信する。また、特定部13は、推定部12から、人物が注視する方向を示す情報を受信する。
特定部13は、第2の撮影画像において、人物から見て、人物の顔の向きの先、あるいは、人物の視線の向きの先にある物体、すなわち人物が注視する物体を検出する。物体は、議論の対象物である。物体は、例えば、会議室の壁、ディスプレイ、ホワイトボード、ポスター、あるいは、壁やホワイトボード上に貼付された付箋である。
特定部13は、画像解析の技術分野における物体の検出に関わる技術(例えばエッジ検出やコントラスト分析)を用いて、第2の撮影画像から、人物が注視する物体を検出することができる。
なお、第1の撮影画像と第2の撮影画像が、異なる撮影装置200により撮影されたものである場合、特定部13は、推定部12が第1の撮影画像において検出した人物を、第2の撮影画像において検出する必要がある。そのため、特定部13は、推定部12から、人物が注視する方向を示す情報とともに、人物の識別情報も受信する。例えば、人物の識別情報は、人物の顔の特徴、および/または、絶対座標系における人物の位置座標を含む。
また、人物が注視する物体に対して、物体の識別情報(例えば物体ID)を既に発行済であった場合を除いて、特定部13は、人物が注視する物体を識別するための識別情報を発行する。その後、特定部13は、人物が注視する物体を特定するための情報を、物体の識別情報と対応付けて、記憶装置300等に記録する。
特定部13は、人物が注視する物体を特定するための情報を、第2の撮影画像のデータとともに、抽出部14へ出力する。人物が注視する物体を特定するための情報は、物体の識別情報(例えば物体ID)、物体が注視された時間を示す情報、および、第2の撮影画像における物体の位置座標(範囲)を示す情報を含む(図4)。
なお、特定部13は、特定の種類の物体のみを検出してもよい。この場合、特定部13は、人物が注視する物体を特定する処理を実行することに先立って、第2の撮影画像に映る特定の物体を予め検出しておいてもよい。より詳細には、特定の種類の物体とは、議論の対象物であり、例えば、ホワイトボード、ディスプレイ、および付箋がその具体例である。
例えば、特定部13は、特定の種類の物体の特徴を学習した識別器を利用することができる。特定部13は、学習済みの識別器を用いて、第2の撮影画像から、特定の種類の物体の画像領域を抽出する。その後、特定部13は、第2の撮影画像において、人物から見て、人物が注視する方向に、特定の種類の物体の画像領域が存在するかどうかを判定する。
以上のように、特定部13は、人物が注視する方向にある特定の種類の物体を検出することができる。なお、特定の種類の物体が「付箋」である場合の一例を、実施形態3において説明する。
抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する。抽出部14は、抽出手段の一例である。
一例では、抽出部14は、特定部13から、第2の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部14は、人物が注視する物体を特定するための情報を用いて、第2の撮影画像から、人物が注視する物体の画像領域を抽出する。
例えば、抽出部14は、人物が注視する物体を特定するための情報から、物体が注視された時間を示す情報、および、第2の撮影画像における物体の位置座標(範囲)を示す情報を抽出する。ここでの「位置座標(範囲)」とは、物体上の特定の一点、あるいは、物体の輪郭により占有される領域を意味する。
抽出部14は、物体が注視された時間中に撮影された第2の撮影画像から、物体の位置座標(範囲)を示す情報によって特定される画像領域を抽出する。
このようにして、抽出部14は、第2の撮影画像において、特定部13が特定した物体の画像領域、すなわち、人物が注視する物体の画像領域を、第2の撮影画像から抽出する。
また、抽出部14は、人物が注視する物体の画像領域のデータを、特定部13から受信した物体の識別情報(例えば物体ID)に対応付けて、記憶装置300等に記録する(図4)。
抽出部14は、人物が注視する物体の画像領域のデータを、記録部15へ出力する。
記録部15は、物体の画像領域のデータを記録する。記録部15は、記録手段の一例である。
一例では、記録部15は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。記録部15は、物体の画像領域のデータを、記憶装置300(図1)を記録する。
(画像解析装置10の動作)
図3を参照して、本実施形態1に係る画像解析装置10の動作を説明する。図3は、画像解析装置10の各部が実行する処理の流れを示すフローチャートである。
図3に示すように、まず、取得部11は、撮影装置200(図1)により撮影された第1の撮影画像および第2の撮影画像を取得する(S101)。
取得部11は、取得した第1の撮影画像のデータを、推定部12へ出力する。また、取得部11は、取得した第2の撮影画像のデータを、特定部13へ出力する。
推定部12は、取得部11が取得した第1の撮影画像のデータを受信する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する(S102)。
推定部12は、人物が注視する方向を示す情報を、特定部13へ出力する。
特定部13は、取得部11が取得した第2の撮影画像のデータを受信する。特定部13は、第2の撮影画像において、人物が注視する物体を特定する(S103)。
特定部13は、人物が注視する物体を特定するための情報を、第2の撮影画像のデータとともに、抽出部14へ出力する。
抽出部14は、特定部13から、第2の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する(S104)。
抽出部14は、人物が注視する物体の画像領域のデータを、記録部15へ出力する。
記録部15は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。記録部15は、物体の画像領域のデータを記録する(S105)。
以上で、本実施形態1に係る画像解析装置10の動作は終了する。
(人物が注視する物体を特定するための情報の一例)
図4は、人物が注視する物体を特定するための情報の一例を示す。人物が注視する物体を特定するための情報は、前述した画像解析装置10の特定部13および抽出部14により、記憶装置300等に記録される。
具体的には、特定部13により、物体が注視された時間を示す情報、および、第2の撮影画像における物体の位置座標(範囲)を示す情報が、物体の識別情報(例えば、物体ID)と対応付けられて、記憶装置300等に記録される。
図4では、「20:00:00」および「20:10:00」が、物体が注視された時間を示す情報を表す。一方、「AA:AA:AA」および「BB:BB:BB」が、第2の撮影画像における物体の位置座標(範囲)を表す。
また、抽出部14により、人物が注視する物体の画像領域のデータが、物体の識別情報(例えば、物体ID)と対応付けられて、記憶装置300等に記録される。図4では、「aaaaa」および「bbbbb」が、人物が注視する物体の画像領域のデータを表す。
(本実施形態の効果)
本実施形態の構成によれば、取得部11は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する。特定部13は、第2の撮影画像において、人物が注視する議論の対象物を特定する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する。記録部15は、物体の画像領域のデータを記録する。会議の参加者だけでなく、非参加者も、物体の画像領域のデータを参照することで、会議中に人物が注視していた物体を知ることができる。これにより、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることができる。
〔実施形態2〕
図5~図8を参照して、実施形態2について説明する。本実施形態2では、会議の参加者同士の議論や会話、あるいは発表を録音して、音声ファイルを作成し、作成した音声ファイルを、会議中に参加者が注視している物体の画像領域のデータと対応付ける構成を説明する。
本実施形態2において、前記実施形態1と同じ符号を付した構成要素に関し、前記実施形態1と重複する説明を省略する。
(画像解析装置20)
図5は、本実施形態2に係る画像解析装置20の構成を示すブロック図である。図5に示すように、画像解析装置20は、取得部11、推定部12、特定部13、抽出部14、および記録部15を備えている。画像解析装置20は、録音部25をさらに備えている。
録音部25は、人物と他の参加者との間での議論を録音して、音声ファイルを作成する。録音部25は、録音手段の一例である。
一例では、録音部25は、会議室にあるユーザ端末100(図1)、あるいは遠隔地にあるユーザ端末100(図1)から、会議の参加者の音声によりマイクロフォンへ入力された音声信号を受信する。
録音部25は、受信した音声信号を、A/D変換することによって、デジタルデータである音声ファイルを作成する。録音部25は、作成した録音ファイルを、記録部15へ出力する。
また、録音部25は、特定部13から、人物が注視する物体を特定するための情報を受信する。人物が注視する物体を特定するための情報は、物体の識別情報(例えば、物体ID)を含む。
録音部25は、音声ファイルを識別するための識別情報(例えば音声ID)を発行する。その後、録音部25は、音声ファイルを、音声ファイルの識別情報、および、物体の識別情報と対応付けて、記憶装置300等に記録する(図8)。
なお、前記実施形態1において説明したように、人物が注視する物体に対して、識別情報を既に発行済であった場合を除いて、特定部13は、人物が注視する物体を識別するための識別情報(例えば物体ID)を発行する。一方、人物が注視する物体を特定できない場合、特定部13は、物体の識別情報を発行できない。この場合、録音部25は、音声ファイルを、音声ファイルの識別情報のみと対応付けて、記憶装置300等に記録する(図8)。
記録部15は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。また、記録部15は、録音部25が作成した音声ファイルを受信する。
記録部15は、物体の画像領域のデータを、記憶装置300(図1)を記録する。記録部15は、物体の画像領域のデータに対して、物体が注視された時間を特定するための情報を付加してもよい。
また、記録部15は、音声ファイルと、人物が注視する物体の画像領域のデータを対応付けて、記憶装置300等に記録してもよい。
(画像解析装置20の動作)
図6を参照して、本実施形態2に係る画像解析装置20の動作を説明する。図6は、画像解析装置20の各部が実行する処理の流れを示すフローチャートである。
図6に示すように、まず、取得部11は、撮影装置200(図1)により撮影された第2の撮影画像を取得する(S201)。
取得部11は、取得した第1の撮影画像のデータを、推定部12へ出力する。また、取得部11は、取得した第2の撮影画像のデータを、特定部13へ出力する。
推定部12は、取得部11が取得した第1の撮影画像のデータを受信する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する(S202)。
推定部12は、人物が注視する方向を示す情報を、特定部13へ出力する。
特定部13は、取得部11が取得した第2の撮影画像のデータを受信する。特定部13は、第2の撮影画像において、人物が注視する物体を特定する(S203)。
特定部13は、人物が注視する物体を特定するための情報を、第2の撮影画像のデータとともに、抽出部14へ出力する。また、特定部13は、人物が注視する物体を特定するための情報、少なくとも物体の識別情報(例えば、物体ID)を、録音部25へ出力する。
録音部25は、人物と他の参加者との間での議論を録音して、音声ファイルを作成する(S203)。なお、ステップS203の詳細を、別のフローチャート(図7)を参照して、後述する。
録音部25は、特定部13から、人物が注視する物体を特定するための情報を受信する。録音部25は、人物が注視する物体を特定するための情報から、物体の識別情報(例えば、物体ID)を抽出する。そして、録音部25は、音声ファイルを、物体の識別情報と対応付けて、記憶装置300等に記録する。
抽出部14は、特定部13から、第2の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する(S205)。
抽出部14は、人物が注視する物体の画像領域のデータを、記録部15へ出力する。
記録部15は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。記録部15は、物体の画像領域のデータを記録する(S206)。このとき、記録部15は、音声ファイルと、人物が注視する物体の画像領域のデータとを対応付けて記録してもよい。
以上で、本実施形態2に係る画像解析装置20の動作は終了する。
(録音部25が実行する処理;S203の詳細)
図7を参照して、上述したフローチャート(図6)のステップS203において、録音部25が実行する処理の詳細を説明する。
図7に示すように、ステップS203において、録音部25は、まず、ユーザ端末100(図1)のマイクロフォンに入力された音声信号をA/D変換することにより、音声ファイルを作成する(S2031)。
録音部25は、作成した音声ファイルを、音声ファイルの識別情報、および、物体の識別情報と対応付けて、記憶装置300等に記録する(図8)。
次に、録音部25は、一定数以上の人物が同じ物体を注視しているかどうかを判定する(S2032)。
例えば、録音部25は、記録された音声ファイルと対応付けられている物体の識別情報の数をカウントする。記録された音声ファイルと対応付けられている物体の識別情報の数が一定数以上である場合、録音部25は、一定数以上の人物が同じ物体を注視していると判定する。
一定数以上の人物が同じ物体を注視していない場合(S2032でNo)、つまり、同じ物体を注視している人物の人数が一定数に満たない場合、本フローは終了する。
一方、一定数以上の人物が同じ物体を注視している場合(S2032でYes)、録音部25は、中止されている物体の識別情報を、音声ファイルと対応付ける(S2033)。
その後、フローは、上述したフローチャート(図6)のステップS305へ進む。
(物体の識別情報と対応付けられた音声ファイルの一例)
図8は、人物が注視する物体の識別情報(例えば、物体ID)と対応付けられた音声ファイルの一例を示す。物体の識別情報は、人物が注視する物体を特定するための情報(図4)のインデックスである。図8に示すように、音声ファイルは、音声ファイルの識別情報(例えば、音声ID)、および、物体の識別情報(例えば、物体ID)と対応付けられて、記憶装置300等に記録される。
(本実施形態の効果)
本実施形態の構成によれば、取得部11は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する。特定部13は、第2の撮影画像において、人物が注視する議論の対象物を特定する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する。記録部15は、物体の画像領域のデータを記録する。会議の参加者だけでなく、非参加者も、物体の画像領域のデータを参照することで、会議中に人物が注視していた物体を知ることができる。これにより、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることができる。
さらに、本実施形態の構成によれば、録音部25は、人物と他の参加者との間での議論や会話、あるいは発表を録音して、音声ファイルを作成する。記録部15は、音声ファイルと、物体の画像領域のデータとを対応付けて記録する。これにより、会議の参加者だけでなく、非参加者も、会議の参加者がどの物体を注視しながら、どのような議論、会話、または発表をしていたのかを知ることができる。
〔実施形態3〕
図9~図12を参照して、実施形態3について説明する。本実施形態3では、会議中に参加者が注視している物体を、遠隔地の参加者が仮想空間上で視認することを可能にする構成を説明する。ここでの仮想空間とは、拡張現実の世界、拡張仮想の世界、および複合現実の世界の概念を包含する。
本実施形態3において、前記実施形態1または前記実施形態2と同じ符号を付した構成要素に関し、前記実施形態1または前記実施形態2と重複する説明を省略する。
(画像解析装置30)
図9は、本実施形態3に係る画像解析装置30の構成を示すブロック図である。図9に示すように、画像解析装置30は、取得部11、推定部12、特定部13、抽出部14、および記録部15を備えている。画像解析装置30は、生成部35をさらに備えている。
生成部35は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する。生成部35は、生成手段の一例である。
一例では、生成部35は、特定部13から、人物が注視する物体を特定するための情報(図4)を受信する。生成部35は、少なくとも、第2の撮影画像における物体の位置座標(範囲)を示す情報を受信する。また、生成部35は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。
生成部35は、第2の撮影画像における物体の位置座標(範囲)を示す情報を用いて、受信した画像領域のデータを、仮想空間のモデルに貼付することによって、仮想空間のデータを生成する。
一例では、生成部35は、仮想空間内にある特定の視点から見たとき、仮想空間のモデル上に貼付された複数の画像領域が互いに重ならないように、仮想空間における複数の画像領域を奥行き方向に並べて配置する。生成部35は、仮想空間における複数の画像領域を、物体が注視された時間の順に、特定の視点から見たときの奥行き方向に並べて配置してもよい。
生成部35は、生成した仮想空間のデータを、記憶装置300等に記録する。加えて、生成部35は、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを、記録部15へ出力する。
記録部15は、生成部35から、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを受信する。記録部15は、人物が注視する物体の画像領域のデータに代えて、生成部35が生成した仮想空間のデータを記録してもよい。
(画像解析装置30の動作)
図10を参照して、本実施形態3に係る画像解析装置30の動作を説明する。図10は、画像解析装置30の各部が実行する処理の流れを示すフローチャートである。
図10に示すように、まず、取得部11は、撮影装置200(図1)により撮影された第2の撮影画像を取得する(S301)。
取得部11は、取得した第1の撮影画像のデータを、推定部12へ出力する。また、取得部11は、取得した第2の撮影画像のデータを、特定部13へ出力する。
推定部12は、取得部11が取得した第1の撮影画像のデータを受信する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する(S302)。
推定部12は、人物が注視する方向を示す情報を、特定部13へ出力する。
特定部13は、取得部11が取得した第2の撮影画像のデータを受信する。特定部13は、第2の撮影画像において、人物が注視する物体を特定する(S303)。
特定部13は、人物が注視する物体を特定するための情報を、第2の撮影画像のデータとともに、抽出部14へ出力する。
抽出部14は、特定部13から、第2の撮影画像のデータ、および、人物が注視する物体を特定するための情報を受信する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する(S304)。
抽出部14は、人物が注視する物体の画像領域のデータを、記録部15および生成部35へ出力する。
生成部35は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する(S305)。なお、ステップS305の詳細を、別のフローチャート(図11)を参照して、後述する。
生成部35は、生成した仮想空間のデータを、記録部15へ出力する。
記録部15は、抽出部14から、人物が注視する物体の画像領域のデータを受信する。また、記録部15は、生成部35から、仮想空間のデータを受信する。記録部15は、人物が注視する物体の画像領域のデータを記録する。または、記録部15は、人物が注視する物体の画像領域のデータを貼付された仮想空間のデータを記録する(S306)。
以上で、本実施形態3に係る画像解析装置30の動作は終了する。
(生成部35が実行する処理;S305の詳細)
図11を参照して、上述したフローチャート(図10)のステップS305において、生成部35が実行する処理の詳細を説明する。ここでは、人物が注視する物体が「付箋」である例を取り上げる。
図11に示すように、まず、生成部35は、特定部13から、付箋を含む画像領域のデータ、および、人物が注視する付箋を特定するための情報(図4)を受信する(S3051)。
次に、生成部35は、仮想空間のモデルのデータを、記憶装置300等の記録媒体から取得する(S3052)。あるいは、生成部35は、汎用の仮想空間(例えば、立方体の空間)のモデルのデータを取得してもよい。仮想空間における各点の位置座標は、第2の撮影画像における各点の位置座標と、一対一で対応している。位置座標の間の対応関係を示す情報は、予め、記憶装置300等に格納されているか、あるいは、画像解析装置30によって所持されている。
また、生成部35は、人物が注視する付箋を特定するための情報から、付箋の位置座標(範囲)を示す情報を抽出する(S3053)。
そして、生成部35は、付箋の位置座標を示す情報を用いて、付箋の画像領域のデータを、仮想空間のモデルに貼付する(S3054)。このとき、生成部35は、仮想空間における各点の位置座標と、第2の撮影画像における各点の位置座標とを一対一で対応付ける情報(例えば、関数または対応表)を用いて、付箋の位置座標を、仮想空間における位置座標に変換する。
その後、フローは、上述したフローチャート(図10)のステップS306へ進む。
(仮想空間の会議室の一例)
図12は、本実施形態3に係る画像解析装置生成部35が生成する仮想空間の一例を模式的に示す。図12に示す例では、仮想空間内にある付箋(物体の一例である)を示している。また、AR(augmented realty)グラスなどを用いて仮想空間を視認する会議の参加者の視線を矢印で表す。
仮想空間の会議室では、会議の参加者は360度を見渡すことができる。会議の参加者が移動または方向転換したとき、図示しないAR処理装置は、会議の参加者が付箋を視認することができるように、仮想空間内で付箋を回転する。
また、AR処理装置は、仮想空間上において、付箋を拡大または縮小してもよい。さらに、AR処理装置は、会議の参加者から見て、付箋同士が重ならないように、仮想空間内で付箋を移動させてもよい。これにより、仮想空間を視認する会議の参加者から見て、付箋の視認性(例えば、付箋に描かれた文字の読みやすさ)を向上させることができる。
なお、AR処理装置は、画像解析装置30の一部であってもよい。すなわち、一変形例では、画像解析装置30は、AR処理装置としての機能を具備していてもよい。
(本実施形態の効果)
本実施形態の構成によれば、取得部11は、撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する。推定部12は、第1の撮影画像に映る人物が注視する方向を推定する。特定部13は、第2の撮影画像において、人物が注視する議論の対象物を特定する。抽出部14は、第2の撮影画像において、特定された物体の画像領域を抽出する。記録部15は、物体の画像領域のデータを記録する。会議の参加者だけでなく、非参加者も、物体の画像領域のデータを参照することで、会議中に人物が注視していた物体を知ることができる。これにより、議論の過程において何が注目されたのかを誰でも容易に知ることができるようにすることができる。
さらに、本実施形態の構成によれば、生成部35は、物体の画像領域が抽出された後、物体の画像領域のデータを、仮想空間のモデル上に貼付することによって、物体を含む実空間と対応する仮想空間のデータを生成する。記録部15は、物体の画像領域のデータ、または、それを貼付した仮想空間のデータを記録する。これにより、遠隔地にいる会議の参加者であっても、仮想空間の世界を視認するためのデバイスを用いることで、実空間にいる会議の参加者が注視する物体を、仮想空間上で視認することができる。
(ハードウェア構成について)
前記実施形態1~3で説明した画像解析装置10、20、30の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図13に示すような情報処理装置900により実現される。図13は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
図13に示すように、情報処理装置900は、一例として、以下のような構成を含む。
CPU(Central Processing Unit)901
ROM(Read Only Memory)902
RAM(Random Access Memory)903
RAM903にロードされるプログラム904
プログラム904を格納する記憶装置905
記録媒体906の読み書きを行うドライブ装置907
通信ネットワーク909と接続する通信インタフェース908
データの入出力を行う入出力インタフェース910
各構成要素を接続するバス911
前記実施形態1~3で説明した画像解析装置10、20、30の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
上記の構成によれば、前記実施形態1~3で説明した画像解析装置10、20、30が、ハードウェアとして実現される。したがって、前記実施形態1~3のいずれかにおいて説明した効果と同様の効果を奏することができる。
(付記)
本発明の一態様は、以下の付記のようにも記載されるが、以下に限定されない。
(付記1)
撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、
前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置。
(付記2)
前記議論の対象物は付箋であり、
前記特定手段は、前記第2の撮影画像において、前記会議の参加者が注視する付箋を特定する
ことを特徴とする付記1に記載の画像解析装置。
(付記3)
前記会議の参加者と他の参加者との間での議論を録音して、音声ファイルを作成する録音手段をさらに備え、
前記記録手段は、前記音声ファイルと、前記議論の対象物の前記画像領域のデータとを対応付けて記録する
ことを特徴とする付記1または2に記載の画像解析装置。
(付記4)
前記記録手段は、前記議論の対象物の前記画像領域のデータに対して、前記会議の参加者が注視する議論の対象物を特定するための情報前記議論の対象物が注視された時間を特定するための情報を付加する
ことを特徴とする付記1から3のいずれか1項に記載の画像解析装置。
(付記5)
前記議論の対象物の画像領域が抽出された後、前記議論の対象物の前記画像領域のデータを、仮想空間のモデル上に貼付することによって、前記議論の対象物を含む実空間と対応する仮想空間のデータを生成する生成手段をさらに備えた
ことを特徴とする付記1または2に記載の画像解析装置。
(付記6)
前記生成手段は、前記拡張空間内にある特定の視点から見たとき、前記仮想空間のモデル上に貼付された複数の前記画像領域が互いに重ならないように、前記仮想空間における複数の前記画像領域を奥行き方向に並べて配置する
ことを特徴とする付記5に記載の画像解析装置。
(付記7)
前記生成手段は、前記仮想空間における複数の前記画像領域を、前記議論の対象物が注視された時間の順に、前記特定の視点から見たときの奥行き方向に並べて配置する
ことを特徴とする付記5または6に記載の画像解析装置。
(付記8)
撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、
前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
画像解析装置と、
前記第2の撮影画像を前記画像解析装置へ送信する撮影装置と、
前記議論の対象物の前記画像領域のデータが記録された記憶装置と、
を備えた会議支援システム。
(付記9)
撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得し、
前記第1の撮影画像に映る会議の参加者が注視する方向を推定し、
前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、
前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、
前記議論の対象物の前記画像領域のデータを記録する
画像解析方法。
(付記10)
撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得することと、
前記第1の撮影画像に映る会議の参加者が注視する方向を推定することと、
前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、
前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、
前記議論の対象物の前記画像領域のデータを記録することと
をコンピュータに実行させるためのプログラム。
(付記11)
前記議論の対象物はホワイトボードであり、
前記特定手段は、前記第2の撮影画像において、前記会議の参加者が注視するホワイトボードを特定する
ことを特徴とする付記1から7のいずれか1項に記載の画像解析装置。
本発明は、例えば、オンライン会議における議論の活性化を支援する会議支援システムに利用することができる。
1 会議支援システム
10 画像解析装置
11 取得部
12 推定部
13 特定部
14 抽出部
15 記録部
20 画像解析装置
25 録音部
30 画像解析装置
35 生成部
100 ユーザ端末
200 撮影装置
300 記憶装置
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 プログラム
905 記憶装置
906 記録媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク

Claims (10)

  1. 撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、
    前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
    前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
    前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
    前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
    画像解析装置。
  2. 前記議論の対象物は付箋であり、
    前記特定手段は、前記第2の撮影画像において、前記会議の参加者が注視する付箋を特定する
    ことを特徴とする請求項1に記載の画像解析装置。
  3. 前記会議の参加者と他の参加者との間での議論を録音して、音声ファイルを作成する録音手段をさらに備え、
    前記記録手段は、前記音声ファイルと、前記議論の対象物の前記画像領域のデータとを対応付けて記録する
    ことを特徴とする請求項1または2に記載の画像解析装置。
  4. 前記記録手段は、前記議論の対象物の前記画像領域のデータに対して、前記議論の対象物が注視された時間を特定するための情報を付加する
    ことを特徴とする請求項1から3のいずれか1項に記載の画像解析装置。
  5. 前記議論の対象物の画像領域が抽出された後、前記議論の対象物の前記画像領域のデータを、仮想空間のモデル上に貼付することによって、前記議論の対象物を含む実空間と対応する仮想空間のデータを生成する生成手段をさらに備えた
    ことを特徴とする請求項1または2に記載の画像解析装置。
  6. 前記生成手段は、前記仮想空間内にある特定の視点から見たとき、前記仮想空間のモデル上に貼付された複数の前記画像領域が互いに重ならないように、前記仮想空間における複数の前記画像領域を奥行き方向に並べて配置する
    ことを特徴とする請求項5に記載の画像解析装置。
  7. 前記生成手段は、前記仮想空間における複数の前記画像領域を、前記議論の対象物が注視された時間の順に、前記特定の視点から見たときの奥行き方向に並べて配置する
    ことを特徴とする請求項5または6に記載の画像解析装置。
  8. 撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得する取得手段と、
    前記第1の撮影画像に映る会議の参加者が注視する方向を推定する推定手段と、
    前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定する特定手段と、
    前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出する抽出手段と、
    前記議論の対象物の前記画像領域のデータを記録する記録手段とを備えた
    画像解析装置と、
    前記第2の撮影画像を前記画像解析装置へ送信する撮影装置と、
    前記議論の対象物の前記画像領域のデータが記録された記憶装置と、
    を備えた会議支援システム。
  9. 撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得し、
    前記第1の撮影画像に映る会議の参加者が注視する方向を推定し、
    前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定し、
    前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出し、
    前記議論の対象物の前記画像領域のデータを記録する
    画像解析方法。
  10. 撮影装置により撮影された第1の撮影画像および第2の撮影画像を取得することと、
    前記第1の撮影画像に映る会議の参加者が注視する方向を推定することと、
    前記第2の撮影画像において、前記会議の参加者が注視する議論の対象物を特定することと、
    前記第2の撮影画像において、特定された前記議論の対象物の画像領域を抽出することと、
    前記議論の対象物の前記画像領域のデータを記録することと
    をコンピュータに実行させるためのプログラム。
JP2021197171A 2021-12-03 2021-12-03 画像解析装置、会議支援システム、画像解析方法、およびプログラム Pending JP2023083063A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021197171A JP2023083063A (ja) 2021-12-03 2021-12-03 画像解析装置、会議支援システム、画像解析方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021197171A JP2023083063A (ja) 2021-12-03 2021-12-03 画像解析装置、会議支援システム、画像解析方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2023083063A true JP2023083063A (ja) 2023-06-15

Family

ID=86729118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021197171A Pending JP2023083063A (ja) 2021-12-03 2021-12-03 画像解析装置、会議支援システム、画像解析方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2023083063A (ja)

Similar Documents

Publication Publication Date Title
JP6616288B2 (ja) 通信における情報交換のための方法、ユーザ端末、及びサーバ
CN112243583B (zh) 多端点混合现实会议
JP4902765B2 (ja) 情報処理システム及び情報処理方法
US9275254B2 (en) Augmented reality system for public and private seminars
CN109891365A (zh) 虚拟现实和跨设备体验
US20100060713A1 (en) System and Method for Enhancing Noverbal Aspects of Communication
KR102402580B1 (ko) 메타버스 환경에서의 영상 처리 시스템 및 방법
CN112233690B (zh) 双录方法、装置、终端及存储介质
KR20220101672A (ko) 오디오-비주얼 스트림에서 프라이버시-인식 회의실 전사
US11822879B2 (en) Separately collecting and storing form contents
US11182600B2 (en) Automatic selection of event video content
US20210166461A1 (en) Avatar animation
US20210135892A1 (en) Automatic Detection Of Presentation Surface and Generation of Associated Data Stream
JP6888854B1 (ja) 遠隔勤務支援システム及び遠隔勤務支援方法
JP2022507502A (ja) 拡張現実(ar)のインプリント方法とシステム
CN116210217A (zh) 用于视频会议的方法和装置
CN109934150B (zh) 一种会议参与度识别方法、装置、服务器和存储介质
CN111651049B (zh) 交互方法、装置、计算机设备及存储介质
JP2023083063A (ja) 画像解析装置、会議支援システム、画像解析方法、およびプログラム
CN107995538B (zh) 视频批注方法及***
KR20110021428A (ko) 증강현실을 이용한 마크 인식 기반의 디지털 명함 컨텐츠 제공 매체 및 제공방법
EP4392912A1 (en) Method and system of automated question generation for speech assistance
US11195336B2 (en) Framework for augmented reality applications
JP6303723B2 (ja) 表示制御装置および表示制御装置の制御プログラム
CN113821104A (zh) 一种基于全息投影的可视化交互***