JP2019121991A - 動画マニュアル作成システム - Google Patents

動画マニュアル作成システム Download PDF

Info

Publication number
JP2019121991A
JP2019121991A JP2018002062A JP2018002062A JP2019121991A JP 2019121991 A JP2019121991 A JP 2019121991A JP 2018002062 A JP2018002062 A JP 2018002062A JP 2018002062 A JP2018002062 A JP 2018002062A JP 2019121991 A JP2019121991 A JP 2019121991A
Authority
JP
Japan
Prior art keywords
storage target
determination unit
photographer
image
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018002062A
Other languages
English (en)
Inventor
拓也 小倉
Takuya Ogura
拓也 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2018002062A priority Critical patent/JP2019121991A/ja
Publication of JP2019121991A publication Critical patent/JP2019121991A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成する。【解決手段】動画マニュアル作成システム1は、撮像部2と、視線検出部3と、判別部14と、記憶対象決定部16と、記憶部12とを備える。撮像部2は、撮影者の視界を動画で撮影して視界画像を取得する。視線検出部3は、撮影者の視線情報を検出する。判別部14は、上記視線情報に基づいて、撮影者の注視の有無を判別する。記憶対象決定部16は、判別部14の判別結果に基づいて、視界画像の少なくとも一部を記憶対象として決定する。記憶部12は、記憶対象決定部14によって決定された記憶対象を、動画マニュアルのデータとして記憶する。【選択図】図2

Description

本発明は、動画マニュアルを作成する動画マニュアル作成システムに関する。
従来から、業務の共有・効率化、新人教育などで文書マニュアルが活用されている一方で、マニュアルを動画で表示する動画マニュアルが近年では注目されており、その作成技術が例えば特許文献1に開示されている。特許文献1では、入力されるテキストデータに基づいて、作業内容を示す作業画像データ(例えば3Dアニメーションデータ)を作成し、作業画像データとテキストデータとを対応付けて出力するようにしている。
一方、動画に対する画像処理の一手法が、例えば特許文献2に開示されている。特許文献2では、動画を構成する各フレームを、所定のサイズの領域ごとに走査して、領域ごとの重要度を算出し、上記領域を重要度に基づいてクラスタリングすることにより、少なくとも1つの領域クラスタを生成し、上記少なくとも1つの領域クラスタから、重要度に基づいて重要領域クラスタを選択し、各フレームの重要領域クラスタを含む部分フレームを抽出し、上記部分フレームにより構成される部分動画を生成するようにしている。これにより、動画に含まれる重要度が大きい領域を効率的に視聴することが可能となっている。
また、例えば特許文献3では、動画に含まれるフレームからオブジェクトを検出し、検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づいてオブジェクトを識別し、動画においてオブジェクトに関連する動作を検出し、検出されたオブジェクトの位置と、オブジェクトに関連する動作の検出結果とに基づいて、動画の各フレームにおける注目領域を決定している。これにより、注目領域のトリミングや拡大表示によって、動画閲覧者が注目領域を容易に閲覧することができるようにしている。
また、例えば特許文献4では、記録媒体に、撮影画像の画像データと、視線情報または視線情報から検出される主要被写体の情報とを記録するようにしている。これにより、記録媒体に記録された情報を用いて、主要被写体が存在する見たいシーンの検出や、主要被写体を中心とした画像の再生や編集等を効率よく行い、貴重な画像データを十分に活用することが可能となっている。また、特許文献4では、動画の画像データから、主要被写体を特定できるシーンのみ(あるいはさらに、その前後の所定数フレーム)を抽出して、これを1つの動画の画像データに編集したり、同じ主要被写体が存在する複数の動画から同じ主要被写体が存在するシーンをまとめて、1つの動画の画像データに編集してもよいことも開示されている。
特開2006−215986号公報(請求項1、段落〔0027〕、〔0051〕、図1等参照) 特開2016−219879号公報(請求項1、段落〔0008〕、〔0009〕、〔0035〕、図1等参照) 特開2014−85845号公報(請求項1、段落〔0008〕、〔0009〕、図1等参照) 特開2004−7158号公報(請求項1、段落〔0055〕、〔0060〕、〔0063〕、図1等参照)
ところが、特許文献1の動画マニュアルの作成方法では、テキストデータの入力の作業や工程が必要であり、簡単な手法で動画マニュアルを作成することができない。また、特許文献2および3は、いずれも動画の一部を抽出することを開示しているが、抽出にあたって動画の撮影者の意図が全く反映されていない。さらに、特許文献4では、記録媒体に記録された情報から、主要被写体を中心とする画像の編集作業を行うことは可能であるが、記録媒体に記録される情報(画像データ)自体を、撮影者の視線情報に応じて変える思想は全くない。このため、特許文献2〜4の技術を動画マニュアルの作成に適用しても、撮影者の意図を的確に反映した動画マニュアルを作成することができない。
本発明は、上記の問題点を解決するためになされたもので、その目的は、撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成することができる動画マニュアル作成システムを提供することにある。
本発明の一側面に係る動画マニュアル作成システムは、撮影者の視界を動画で撮影して視界画像を取得する撮像部と、前記撮影者の視線情報を検出する視線検出部と、前記視線情報に基づいて、前記撮影者の注視の有無を判別する判別部と、前記判別部の判別結果に基づいて、前記視界画像の少なくとも一部を記憶対象として決定する記憶対象決定部と、前記記憶対象決定部によって決定された前記記憶対象を、動画マニュアルのデータとして記憶する記憶部とを備えている。
上記の動画マニュアル作成システムにおいて、前記判別部は、前記視線情報に基づいて、前記視界画像における前記撮影者の視線の位置と、前記視線の位置の滞留時間とを求める視線解析部と、前記視線の位置および前記滞留時間に基づいて、前記撮影者の前記注視状態を判断する注視判断部とを含んでいてもよい。
上記の動画マニュアル作成システムにおいて、前記注視判断部は、前記視線の位置に基づいて、前記視線のブレを示すドリフト量を検出し、前記ドリフト量が閾値以下で、かつ、前記滞留時間が所定時間以上である場合に、前記撮影者の注視ありと判断してもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって前記撮影者の注視があると判別された場合に、前記視界画像の中で前記撮影者によって注視されている被写体が存在する被写体領域を特定して、前記視界画像から前記被写体領域を抽出し、抽出した前記被写体領域を前記記憶対象として決定してもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、抽出した前記被写体領域を拡大し、拡大後の画像を前記記憶対象として決定してもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される情報に応じて、前記視界画像から前記被写体領域を抽出する際の抽出範囲を変化させてもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される前記滞留時間に応じて、前記抽出範囲を変化させてもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される前記視線の複数位置の重心の変化に応じて、前記抽出範囲を変化させてもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって前記撮影者の注視がないと判別された場合に、前記視界画像を前記記憶対象として決定してもよい。
上記の動画マニュアル作成システムは、前記撮影者の音声が入力される音声入力部と、前記音声入力部によって入力された音声を認識してテキストデータに変換する音声認識部とをさらに備え、前記記憶対象決定部は、前記テキストデータを、前記視界画像の少なくとも一部に合成して、前記記憶対象を決定してもよい。
上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記記憶対象において被写体が存在する領域の外側に前記テキストデータが位置するように、前記テキストデータを前記視界画像の少なくとも一部に合成してもよい。
上記の動画マニュアル作成システムの構成によれば、撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成することができる。
本発明の実施の形態に係る動画マニュアル作成システムの概略の構成を模式的に示す斜視図である。 上記動画マニュアル作成システムが有する制御ボックスの詳細な構成を示すブロック図である。 上記動画マニュアル作成システムにおける処理の流れを示すフローチャートである。 同期処理を行う場合の視界画像および視線情報を示す説明図である。 同期処理後に得られる視界画像、視線情報および音声情報の一例を示す説明図である。 撮像部の水平方向の画角および垂直方向の画角をそれぞれX軸およびY軸に対応させたXY座標平面を模式的に示す説明図である。 記憶部に記憶される記憶対象の画像の一例を示す説明図である。 同期処理後の視界画像、視線情報および音声情報の他の例を示す説明図である。 視線の滞留時間と、記憶対象の再生時における表示の拡大率との関係を模式的に示す説明図である。 視界画像から抽出される記憶対象の画像の例を示す説明図である。 同期処理後の視界画像、視線情報および音声情報のさらに他の例を示す説明図である。 視界画像から抽出される記憶対象の画像の他の例を示す説明図である。
本発明の実施の一形態に係る動画マニュアル作成システムについて、図面に基づいて説明すれば以下の通りである。なお、本発明は、以下の内容に限定されるわけではない。
〔動画マニュアル作成システムの構成〕
図1は、本実施形態の動画マニュアル作成システム1の概略の構成を模式的に示す斜視図である。動画マニュアル作成システム1は、撮像部2と、視線検出部3と、マイク4と、制御ボックス10とを備えて構成されている。撮像部2および視線検出部3は、例えば眼鏡5に搭載されている。眼鏡5は、視度矯正用のレンズを備えた通常の眼鏡であってもよいし、視度を矯正しないダミーレンズを備えた眼鏡であってもよいし、頭部搭載型の虚像表示装置(ヘッドマウントディスプレイ)であってもよい。
撮像部2は、撮影者の視界を動画で撮影して視界画像を取得するカメラ(視線カメラ)であり、例えば眼鏡5の左右のレンズをつなぐ中央のブリッジに搭載されている。このため、撮影者が眼鏡5をかけたとき、撮像部2は撮影者の眼に近い位置から撮影者の視界を撮影することになる。
視線検出部3は、撮影者の視線情報を検出する素子であり、照明部(イルミネータ)および受光部を有している。イルミネータによって撮影者の角膜付近に近赤外線を照射し、その反射光を受光部で検出することにより、撮影者の角膜表面にできるプルキニエ像の位置と撮影者の瞳孔の位置との相対的な位置の変化を検出することができ、これによって撮影者の視線方向を上記視線情報として検出することができる(角膜反射法)。例えば、左眼の角膜反射の位置(プルキニエ像の位置)よりも瞳孔が目じり側にあれば、撮影者は左側を見ており(撮影者の視線が左方向を向いており)、角膜反射の位置よりも瞳孔が目頭側にあれば、撮影者は右側を見ている(撮影者の視線が右方向を向いている)ことを検出できる。なお、本実施形態の視線検出部3は、上記のように代表的な角膜反射法によって視線検出(アイトラッキング)を行う構成であるが、強膜反射法などの他の方法で視線検出を行う構成であってもよい。また、本実施形態では、視線検出部3は、眼鏡5の左右のレンズのそれぞれの縁に設けられて、両眼について視線を検出する構成としているが、どちらか一方のレンズの縁に設けられて、片眼について視線を検出する構成としてもよい。
マイク4は、撮影者の音声が入力される音声入力部である。
撮像部2、視線検出部3およびマイク4は、配線6を介して制御ボックス10と接続されている。これにより、撮像部2で取得された情報(撮影者の視界画像のデータ)、視線検出部3で取得された情報(撮影者の視線情報)、およびマイク4で取得された情報(撮影者の音声情報)が、配線6を介して制御ボックス10に出力される。なお、撮像部2、視線検出部3およびマイク4と、制御ボックス10とは、無線で情報を伝達する構成であってもよい。
〔制御ボックスの構成〕
図2は、制御ボックス10の詳細な構成を示すブロック図である。制御ボックス10は、撮像部2、視線検出部3およびマイク4から出力される情報に基づいて、動画マニュアルの作成を実行する。この制御ボックス10は、操作部11と、記憶部12と、制御部13とを有している。
操作部11は、撮影者によって操作されて各種の指示入力を受け付けるボタンやスイッチで構成されている。記憶部12は、制御部13の動作プログラムのほか、各種の情報を記憶するメモリであり、例えばRAM(Random Access Memory)、ROM(Read Only Memory)、不揮発性メモリなどを含んで構成されている。特に、本実施形態では、記憶部12は、後述する記憶対象決定部16によって決定された記憶対象を、動画マニュアルのデータとして記憶するメモリである。
なお、本実施形態では、記憶部12に記憶された情報(記憶対象のデータ)を読み出して、図示しない再生装置の表示部に記憶対象の画像を表示させることを、「動画マニュアルの再生」、「記憶対象の再生」、または単に「再生」と称する。
制御部13は、例えばCPU(Central Processing Unit;中央演算処理装置)で構成されている。この制御部13は、判別部14と、音声認識部15と、記憶対象決定部16と、主制御部17とを有しており、上記のCPUがこれらの各部の機能を発揮する。なお、判別部14、音声認識部15、記憶対象決定部16および主制御部17は、別々のCPUで構成されていてもよいし、所定の機能を発揮する専用の処理回路で構成されていてもよい。
判別部14は、視線検出部3によって検出された視線情報に基づいて、撮影者の注視の有無を判別する。このような判別部14は、視線解析部14aと、注視判断部14bとを含んで構成されている。
視線解析部14aは、上記視線情報に基づいて、視界画像における撮影者の視線の位置と、上記視線の位置の滞留時間とを解析して求める。視線解析部14aは、計時部(図示せず)を内蔵しており、これによって、上記滞留時間を計時することができる。
注視判断部14bは、視線解析部14aによって取得された上記視線の位置および上記滞留時間に基づいて、撮影者の注視状態(注視の有無)を判断する。例えば、注視判断部14bは、撮影者の視線の位置のブレが所定範囲内に収まっており、その状態が所定時間以上続いた場合には、撮影者が被写体を注視していると判断でき、それ以外の場合は、撮影者が被写体を注視していないと判断することができる。
音声認識部15は、マイク4によって入力された音声を認識してテキストデータに変換する。記憶対象決定部16は、判別部14の判別結果(注視の有無の判別結果)に基づいて、視界画像の少なくとも一部を記憶対象として決定する。主制御部17は、制御ボックス10内の各部の動作を制御する。
〔処理フロー〕
次に、本実施形態の動画マニュアル作成システム1における各処理を具体的に説明する。図3は、動画マニュアル作成システム1における処理の流れを示すフローチャートである。
まず、撮影者は、視線検出部3によって取得される視線情報と、撮像部2によって取得される視界画像との同期を図る(S1)。この同期処理により、撮影者の被写体に対する視線の方向と、視界画像の中での被写体の位置とを合わせる(同期させる)ことができる。
この同期処理は、具体的には、マニュアル作成のための動画撮影の前に、撮影者がマーカーを注視することによって行われる。つまり、図4に示すように、撮影者はマーカーMの中心Moを注視し、このときの視界画像を撮像部2によって取得する。同時に、撮影者がマーカーMの中心Moを注視しているときの視線情報を視線検出部3によって取得する。取得された上記視線情報は、マーカーMの中心Moを注視する撮影者の視線の方向を示すため、この状態で視線情報と視界画像との同期がとれていることになる。そこで、撮影者は、この状態で操作部11を操作して同期を確立させ、同期処理を終了させる。
次に、撮影者は、操作部11を操作して、撮像部2によってマニュアル作成のための動画撮影を開始させる(S2)。撮影者が作業内容を説明しながら実際の作業を進めていくことで、そのときの撮影者の視界画像(動画)が撮像部2によって取得され、撮影者の視線情報が視線検出部3によって取得され、撮影者の音声情報がマイク4によって取得される(S3)。なお、視線検出部3による視線情報の取得は、任意の間隔でよく、本実施形態では、例えば0.1秒ごとに視線情報が取得されているとする。
図5は、S3で取得した視界画像、視線情報および音声情報の一例を示している。ここでは例として、動画マニュアルの作成対象となる作業が、ドライバA1を用いて、ネジA2を筐体A3に締める作業であるとする。同図より、視界画像に含まれるドライバA1、ネジA2および筐体A3と対応する位置に視線映像(視線の位置を示す映像)P1〜P3が位置する視線情報が得られていることがわかる。撮像部2、視線検出部3、およびマイク4によって取得された各情報(視界画像の情報、視線情報、音声情報)は、配線6を介して制御ボックス10に送られる。
制御ボックス10の判別部14は、視線検出部3によって取得された視線情報を解析して、撮影者の注視状態を判断する(S4)。具体的には、判別部14の視線解析部14aは、上記視線情報に基づいて、撮像部2によって取得された視界画像における撮影者の視線の位置と、上記視線の位置の滞留時間とを求める。そして、注視判断部14bは、上記視線の位置および上記滞留時間に基づいて、撮影者の注視の有無を判断する。
例えば、注視判断部14bは、水平方向の画角および垂直方向の画角がそれぞれX軸およびY軸に対応するXY座標平面上で、上記視線情報に基づいて得られる撮影者の最新の視線位置と、直近で得られた9個の視線位置の合計10個についての位置座標の重心の移動量(移動前後の各重心に向かう2つの視線方向の角度差)を算出する。なお、上記重心のX座標は、10個の視線位置のX座標の平均であり、上記重心のY座標は、10個の視線位置のY座標の平均である。そして、注視判断部14bは、上記角度差が例えば0.5°以内であると、視線のブレを示すドリフト量が小さいと判断し、その状態(滞留時間)が所定時間(例えば2秒)以上継続すると、注視と判断する。なお、本実施形態では、重心を求める際に用いた視線位置の数を10個とし、上記角度差を1°以内の0.5°とし、上記所定時間を2秒としたが、これらの値は作業内容に応じて適宜変更可能である。
ここで、上記角度差が0.5°以内であるか否かは、撮像部2の撮影画角(水平方向、垂直方向の各画角)と撮像素子のパラメータ(画素数、1画素の大きさ)とを用いて判断することができる。例えば、図6は、上記のXY座標平面を模式的に示している。なお、X軸は、撮像部2の水平方向の画角に対応しており、Y軸は、撮像部2の垂直方向の画角に対応している。撮像部2において、画角a°が画素数b個に対応している場合、画角0.5°は、画素数(0.5b/a)個に対応する。また、撮像素子の1画素(正方形とする)の一辺の長さをc(μm)とすると、角度差0.5°に相当する長さ(μm)は、(画素数)×(1画素の一辺の長さ)=(0.5b/a)×cで表される。したがって、10個の視線位置の重心Gの移動量Tが、(0.5b/a)×c以下であるか否かを判断することにより、上記の角度差が0.5°以内であるか否かを判断することができる。
注視判断部14bによって撮影者の注視ありと判断された場合(S5にてYes)、記憶対象決定部16は、公知の稜線検出法を用いた画像処理によって、視界画像の中で被写体の輪郭線を検出し、輪郭線で囲まれた領域を、被写体が存在する被写体領域として特定する(S6)。
次に、記憶対象決定部16は、視界画像から、S6で特定された被写体領域を画像処理によって抽出(トリミング)する(S7)。そして、記憶対象決定部16は、抽出された上記被写体領域を、記憶部12に記憶させる記憶対象の画像として決定する(S8)。このとき、記憶対象決定部16は、上記被写体領域を等倍のまま記憶対象の画像として決定してもよいし、上記被写体領域を拡大して拡大画像を生成し、この拡大画像を記憶対象の画像として決定してもよい。ここでは、記憶対象決定部16は、後者のように被写体領域の拡大画像を記憶対象の画像として決定しているとする。なお、上記の記憶対象は、作成された動画マニュアルを再生するときに、表示部に表示される表示対象でもある。
一方、注視判断部14bによって撮影者の注視がないと判断された場合(S5にてNo)、記憶対象決定部16は、S3で取得された全体の視界画像を、記憶部12に記憶させる記憶対象の画像として決定する(S9)。
次に、音声認識部15は、S3で取得された音声情報を、音声認識してテキストデータに変換する(S10)。そして、記憶対象決定部16は、上記した記憶対象の画像に対して、S10で取得されたテキストデータをコメントとして付加するコメント付加領域を設定する(S11)。このとき、コメント付加領域は、記憶対象の画像において、撮影者の注視がある場合は、注視されている被写体の外側の領域に設定され、撮影者の注視がない場合は、被写体が存在しない領域(被写体と重ならない領域)に設定される。なお、記憶対象の画像において、被写体が存在する領域であるか否かは、記憶対象決定部16がS6と同様の処理(例えば稜線検出法を用いた画像処理)を行うことによって判断することができる。
そして、記憶対象決定部16は、S8またはS9で取得した記憶対象の画像のコメント付加領域に、S10で取得したテキストデータをコメントとして付加して、これらを合成する(S12)。そして、記憶対象決定部16は、合成後の記憶対象の画像を経過時間と対応付けて記憶部12に記憶させる(S13)。撮影者が操作部11を操作して作業終了を入力するまで、以上の処理が繰り返し行われ(S14)、作業が終了すると、一連の処理が終了する。
図7は、S13において、記憶部12に記憶される記憶対象の画像(記憶画像、表示画像)の一例を示している。撮影者の注視がない場合、記憶対象は視界画像であるため、視界画像において「5か所のネジを締めます」というコメントが付加された画像が、動画マニュアルのデータとして記憶部12に記憶される。このとき、被写体(ドライバA1、筐体A2、ネジA3)に対する注視がないため、上記コメントは、視界画像において被写体が存在しない領域(ドライバA1、筐体A2およびネジA3と重ならない領域)に付加される。
また、撮影者がネジA2を注視している場合、記憶対象は、視界画像から抽出されて拡大されたネジA2の画像(被写体領域)であるため、ネジA2の画像の外側に上記コメントが付加された画像が、動画マニュアルのデータとして記憶部12に記憶される。また、撮影者が筐体A3を注視している場合、記憶対象は、視界画像から抽出されて拡大された筐体A3の画像(被写体領域)であるため、筐体A3の画像の外側に上記コメントが付加された画像が、動画マニュアルのデータとして記憶部12に記憶される。
動画マニュアルを再生する場合、記憶部12に記憶された動画マニュアルのデータが再生装置(図示せず)によって読み出され、表示部(図示せず)に、上記データに基づく動画マニュアル(図7と同様の画像)が表示される。これにより、視聴者は、表示された動画マニュアルを視聴することが可能となる。
以上のように、本実施形態の動画マニュアル作成システム1では、判別部14が、視線検出部3によって取得された視線情報に基づいて、撮影者の注視の有無を判別する(S3〜S5)。そして、記憶対象決定部16が、判別部14の判別結果に基づいて、撮像部2によって取得された視界画像の少なくとも一部を記憶対象として決定する(S6〜S9)。決定された記憶対象は、動画マニュアルのデータとして記憶部12に記憶される(S13)。
記憶対象決定部16は、判別部14の判別結果(撮影者の注視の有無)に基づいて、記憶対象を決定するため、撮影者が注視ありの場合と注視なしの場合とで、つまり、撮影者の視線情報に応じて、記憶対象を異ならせることができる。これにより、視線情報に応じて異なる記憶対象を動画マニュアルのデータとして記憶部12に記憶させて、撮影者の視線による意図を的確に反映した動画マニュアルを作成することができる。したがって、動画マニュアルの再生時には、撮影者の視線による意図を直観的でわかりやすく視聴者に伝えることができる。
また、撮影者の視界画像および視線情報を用いて記憶対象を決定するため、例えば撮影者が操作部11を操作してデータを手動入力する作業や工程は一切不要である。したがって、撮影者の視界画像および視線情報を用いて、動画マニュアルを簡単な方法で自動作成することができる。
また、判別部14は、上述した視線解析部14aと、注視判断部14bとを含んで構成されるため、注視判断部14bは、視線解析部14aによって求めた撮影者の視線の位置と、上記視線の位置の滞留時間とに基づいて、撮影者の注視状態(注視の有無)を的確に判断することができる。また、撮影者が作業時に集中して物体(被写体)を見ると、注視度が高くなるが、この注視度を、撮影者の視線の位置および滞留時間に基づいて的確に判断することも可能となる。
また、注視判断部14bは、視線解析部14aによって求めた撮影者の視線の位置に基づいて、視線のブレを示すドリフト量を検出し、ドリフト量が閾値以下で、かつ、滞留時間が所定時間以上である場合に、撮影者の注視ありと判断する(S4、S5)。ドリフト量が閾値以下で、滞留時間が所定時間以上である場合、撮影者の注視度が高いと判断できるため、この場合に撮影者の注視ありと判断することで、判断の精度を向上させることができる。
また、記憶対象決定部16は、判別部14によって撮影者の注視があると判別された場合に、視界画像の中で撮影者によって注視されている被写体が存在する被写体領域を特定して(S6)、視界画像から被写体領域を抽出し(S7)、抽出した被写体領域を記憶対象として決定する(S8)。撮影者が意図する被写体領域のみを抽出して記憶対象として決定することにより、記憶対象の再生時に、必要な領域(被写体領域)の情報のみを視聴者に提示することができる(再生時に不要な情報は視聴者に提示されないようにすることができる)。これにより、視聴者は提示される情報を見て、迷うことなく所定の作業に取り掛かることができる。
また、記憶対象決定部16は、抽出した被写体領域を拡大し、拡大後の画像を記憶対象として決定する(S8)。この場合、記憶対象の再生時に、必要な領域(被写体領域)が拡大表示されるため、視聴者は表示される画像から、被写体の細部を確認することが可能かつ容易となる。
また、記憶対象決定部16は、判別部14によって撮影者の注視がないと判別された場合に、撮像部2によって取得された視界画像を記憶対象として決定する(S9)。撮影者の注視がない場合、視界画像全体が記憶対象として決定されるため、記憶対象の再生時に、視聴者は、撮影者の視界全体を俯瞰して(広い視野で把握して)、大まかな情報(例えば作業内容)を把握することができる。
また、音声認識部15は、マイク4によって入力された撮影者の音声を認識してテキストデータに変換し(S10)、記憶対象決定部16は、上記のテキストデータを、視界画像の少なくとも一部に合成して、記憶対象を決定する(S12)。このように、音声認識によるテキストデータを記憶対象に付加するため、記憶対象の再生時には、視聴者は表示される画像を見ながら、撮影者の指示や助言を視覚情報(テキストデータ)として明確に認識することができる。また、音声認識部15を備えているため、本実施形態のように、視界の撮影と同時に音声入力を行う構成が可能となり、テキストデータを別途手動で入力して画像と合成するような編集の手間を省くことも可能となる。
特に、記憶対象決定部16は、音声認識によって取得されたテキストデータが、記憶対象において被写体が存在する領域の外側に位置するように、上記テキストデータを視界画像の少なくとも一部に合成する(S11、S12)。合成後の記憶対象において、被写体が存在する重要な領域にテキストデータが重ならないため、記憶対象の再生時に、視聴者は、重要な被写体およびテキストデータの両方を明確に認識することが可能となる。
〔被写体領域の抽出のバリエーション(1)〕
上述したS7の工程では、記憶対象決定部16が、判別部14によって取得される情報に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させてもよい。以下、このような抽出のバリエーションについて説明する。
図8は、S3で取得される視界画像、視線情報および音声情報の他の例を示している。記憶対象決定部16は、視線解析部14aによって取得される視線の滞留時間に応じて、上記抽出範囲を変化させてもよい。例えば、記憶対象決定部16は、上記滞留時間が長くなると、上記抽出範囲を狭めて、被写体領域の一部を抽出してもよい。また、記憶対象決定部16は、視界画像から抽出した被写体領域の一部を拡大し、拡大後の画像を記憶対象として決定してもよい。この場合、記憶対象の再生時には、上記拡大後の画像が表示されることになる。
図9は、視線の滞留時間と、記憶対象の再生時における表示の拡大率との関係を模式的に示している。ここでは、視線のブレを示すドリフト量が小さい状態(視線の変化の前後での角度差が例えば0.5°以内の状態)を滞留時間の開始(基準、0秒)としている。図3で示したフローに基づき、まず、ドリフト量小の状態が2秒間続くと、注視と判定されるが(S4、S5)、それまでは、注視なしの判定であるため、記憶対象として決定される画像は視界画像であり(S9)、記憶対象の再生時には、視界画像が表示される。
注視ありの判定後、次に示す抽出範囲の縮小開始までは(ドリフト量小の開始から2秒後〜5秒後の間は)、視界画像の中で被写体領域が特定されて、被写体領域の全体が抽出される(S6、S7)。このため、記憶対象の再生時には、上記被写体領域が表示される。図10の上段は、注視判定から抽出範囲縮小開始までの間で、図8の視界画像から抽出された被写体領域R1の画像(被写体画像)を示している。
注視ありの判定後、ドリフト量小の状態が3秒間続くと(ドリフト量小の開始から5秒経過後)、記憶対象決定部16は、抽出範囲の縮小を開始させるととともに、上記抽出範囲内で被写体領域の一部を抽出し(S7)、抽出した被写体領域の一部を拡大して記憶対象として決定する(S8)。図10の下段は、抽出範囲の縮小開始後に、図8の視界画像から、被写体領域R1の一部の領域R2を抽出して拡大した画像(被写体画像)を示している。なお、領域R2は、被写体領域R1の一部の領域であるため、被写体領域R1よりも抽出範囲が小さい領域であることは明らかである。
抽出領域の縮小に応じて、抽出された被写体領域は拡大され、拡大開始後3秒で(ドリフト量小の開始から8秒で)、目的の枠サイズまで拡大される。なお、目的の枠サイズとは、視線位置の標準偏差(ばらつき)をσとしたときに、ドリフト量小の状態が開始されてから、拡大開始の間に変動する視線位置の3σが包括される状態である。記憶対象の再生時には、所定の拡大率で被写体領域の一部(拡大画像)が表示される。なお、図9の縦軸の拡大率Lは、視線位置の3σが包括される状態に対応している。また、記憶対象の再生時の表示の中心は、同期間(拡大開始から拡大終了までの期間)での視線位置の平均である。
なお、上記の角度差、注視判定のタイミング(ドリフト量小の開始から2秒後)、表示拡大のタイミング(注視判定から3秒後)、拡大の速度、目的の枠サイズ等は一例であり、状況に応じて適宜変更可能である。
例えば、基板のはんだ付けのような細かい作業では、撮影者の視線の滞留時間(注視時間)も自然と長くなり、記憶対象の再生時には、細部まで視聴者に見えたほうがよいことが多い。上記のように、記憶対象決定部16が、視線解析部14aによって取得される滞留時間に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させることにより、上述のように、滞留時間に応じて抽出範囲を狭くするとともに、抽出した被写体領域の一部を拡大させた画像を記憶対象とすることができる。これにより、記憶対象の再生時に、視聴者に被写体の細部を大きく表示して細かい情報を伝えることが可能となる。
また、例えば注視の初期から(視線位置の滞留時間が短いうちから)抽出範囲を大きく狭めて、視界画像の一部の領域を抽出し、抽出した領域を拡大して記憶対象として記憶させると、記憶対象の再生の初期に、視聴者は被写体および作業の全体を把握しにくく、画像を見てどの作業であるか、あるいは被写体のどの部分であるかを把握することが困難になるおそれがある。本実施形態のように抽出範囲の縮小を段階的に行い、抽出された領域の拡大を段階的に行って記憶対象とすることにより、記憶対象の再生時には表示倍率(拡大倍率)が徐々に上がることになり、再生の初期において、視聴者は被写体および作業の全体を把握することが容易となるため、上記の不都合を回避することができる。
〔被写体領域の抽出のバリエーション(2)〕
図11は、S3で取得される視界画像、視線情報および音声情報のさらに他の例を示している。上述したS7の工程では、記憶対象決定部16が、判別部14によって取得される視線の複数位置の重心の変化に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させてもよい。なお、上記重心については、判別部14の注視判断部14bによって求めることができるが、その求め方は上述した通りである。
図3で示したフローに基づき、撮影者が図11に示す視界画像の中で、ある被写体を注視していると判断された場合(S4、S5)、記憶対象決定部16は、視界画像の中で上記被写体が存在する被写体領域R11を特定し(S6)、視界画像から被写体領域R11を抽出し(S7)、抽出した被写体領域R11を記憶対象として決定する(S8)。図12の上段は、このときの記憶対象の画像、つまり、図11の視界画像から抽出された被写体領域R11の画像(被写体画像)を示している。
次に、被写体に対してシールを左側から貼り合わせる作業に伴い、撮影者が被写体の左側を注視すると、視線解析部14aで検出される視線の複数位置(例えば直近の10点の視線位置)の重心が移動する。注視判断部14bにより、視線の複数位置の重心の変化が認識されると、記憶対象決定部16は、視界画像から、被写体領域R11の中で撮影者の視線の重心が位置している領域、つまり、撮影者が注視している左側の領域R12を抽出し(S7)、これを拡大して記憶対象とする(S8)。図12の中段は、このときの記憶対象の画像、つまり、図11の視界画像から抽出された領域R12の画像(拡大画像)を示している。
さらに、被写体に対してシールの右側を貼り合わせるべく、被写体の右側を注視すると、視線解析部14aで検出される視線の複数位置(例えば直近の10点の視線位置)の重心も右側に移動する。注視判断部14bにより、視線の複数位置の重心の変化が認識されると、記憶対象決定部16は、視界画像から、被写体領域R11の中で撮影者の視線の重心が位置している領域、つまり、撮影者が注視している右側の領域R13を抽出し(S7)、これを拡大して記憶対象とする(S8)。図12の下段は、このときの記憶対象の画像、つまり、図11の視界画像から抽出された領域R13の画像(拡大画像)を示している。
シール貼りの工程で厳密な位置合わせが必要となる場合、同一被写体の中で注視位置が変化することはよくある。上記のように、記憶対象決定部16が、判別部14によって取得される視線の複数位置の重心の変化に応じて、抽出範囲を変化させることにより、撮影者の注視位置が同一被写体内で移動する場合でも、それに追随して抽出範囲を変化させて注視位置の画像を抽出し、抽出した画像を拡大して記憶対象を得ることができる。これにより、記憶対象の再生時に、重要な位置を拡大した画像を視聴者に提供(表示)して、重要な情報を確実に視聴者に伝えることができる。また、再生時に、撮影者の視線の重心位置を表示画像の中心に持ってくることができるため、撮影者の意図を的確に反映した画像を表示させて、視聴者に情報を伝えることができる。
以上、記憶対象決定部16が、判別部14によって取得される情報(滞留時間、視線の複数位置の重心の変化)に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させることにより、視界画像の中から、撮影者の意図を的確に反映した重要な領域だけを抽出して拡大し、再生時に視聴者に提供することができる。これにより、視聴者は、表示画像において、撮影者の意図する重要な領域を直ちに認識し、把握するとともに、表示画像に基づく作業の内容も適切に把握することが可能となる。
なお、本実施形態では、撮像部2および視線検出部3が眼鏡5に搭載される例について説明したが、例えば視線検出部3を撮像部2に組み込んで構成することも可能である。この場合、撮影者が撮像部2を保持しながら視界画像を撮影することになるが、眼鏡5を用いずに動画マニュアル作成システム1を構成でき、部品点数を削減できる点で有効である。
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。
本発明は、例えば動画マニュアルを自動で作成するシステムに利用可能である。
1 動画マニュアル作成システム
2 撮像部
3 視線検出部
4 マイク(音声入力部)
12 記憶部
14 判別部
14a 視線解析部
14b 注視判断部
15 音声認識部
16 記憶対象決定部

Claims (11)

  1. 撮影者の視界を動画で撮影して視界画像を取得する撮像部と、
    前記撮影者の視線情報を検出する視線検出部と、
    前記視線情報に基づいて、前記撮影者の注視の有無を判別する判別部と、
    前記判別部の判別結果に基づいて、前記視界画像の少なくとも一部を記憶対象として決定する記憶対象決定部と、
    前記記憶対象決定部によって決定された前記記憶対象を、動画マニュアルのデータとして記憶する記憶部とを備えていることを特徴とする動画マニュアル作成システム。
  2. 前記判別部は、
    前記視線情報に基づいて、前記視界画像における前記撮影者の視線の位置と、前記視線の位置の滞留時間とを求める視線解析部と、
    前記視線の位置および前記滞留時間に基づいて、前記撮影者の前記注視状態を判断する注視判断部とを含むことを特徴とする請求項1に記載の動画マニュアル作成システム。
  3. 前記注視判断部は、前記視線の位置に基づいて、前記視線のブレを示すドリフト量を検出し、前記ドリフト量が閾値以下で、かつ、前記滞留時間が所定時間以上である場合に、前記撮影者の注視ありと判断することを特徴とする請求項2に記載の動画マニュアル作成システム。
  4. 前記記憶対象決定部は、前記判別部によって前記撮影者の注視があると判別された場合に、前記視界画像の中で前記撮影者によって注視されている被写体が存在する被写体領域を特定して、前記視界画像から前記被写体領域を抽出し、抽出した前記被写体領域を前記記憶対象として決定することを特徴とする請求項2または3に記載の動画マニュアル作成システム。
  5. 前記記憶対象決定部は、抽出した前記被写体領域を拡大し、拡大後の画像を前記記憶対象として決定することを特徴とする請求項4に記載の動画マニュアル作成システム。
  6. 前記記憶対象決定部は、前記判別部によって取得される情報に応じて、前記視界画像から前記被写体領域を抽出する際の抽出範囲を変化させることを特徴とする請求項4に記載の動画マニュアル作成システム。
  7. 前記記憶対象決定部は、前記判別部によって取得される前記滞留時間に応じて、前記抽出範囲を変化させることを特徴とする請求項6に記載の動画マニュアル作成システム。
  8. 前記記憶対象決定部は、前記判別部によって取得される前記視線の複数位置の重心の変化に応じて、前記抽出範囲を変化させることを特徴とする請求項6に記載の動画マニュアル作成システム。
  9. 前記記憶対象決定部は、前記判別部によって前記撮影者の注視がないと判別された場合に、前記視界画像を前記記憶対象として決定することを特徴とする請求項4から8のいずれかに記載の動画マニュアル作成システム。
  10. 前記撮影者の音声が入力される音声入力部と、
    前記音声入力部によって入力された音声を認識してテキストデータに変換する音声認識部とをさらに備え、
    前記記憶対象決定部は、前記テキストデータを、前記視界画像の少なくとも一部に合成して、前記記憶対象を決定することを特徴とする請求項1から9のいずれかに記載の動画マニュアル作成システム。
  11. 前記記憶対象決定部は、前記記憶対象において被写体が存在する領域の外側に前記テキストデータが位置するように、前記テキストデータを前記視界画像の少なくとも一部に合成することを特徴とする請求項10に記載の動画マニュアル作成システム。
JP2018002062A 2018-01-10 2018-01-10 動画マニュアル作成システム Pending JP2019121991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018002062A JP2019121991A (ja) 2018-01-10 2018-01-10 動画マニュアル作成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018002062A JP2019121991A (ja) 2018-01-10 2018-01-10 動画マニュアル作成システム

Publications (1)

Publication Number Publication Date
JP2019121991A true JP2019121991A (ja) 2019-07-22

Family

ID=67306537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018002062A Pending JP2019121991A (ja) 2018-01-10 2018-01-10 動画マニュアル作成システム

Country Status (1)

Country Link
JP (1) JP2019121991A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023085124A1 (ja) * 2021-11-15 2023-05-19 株式会社Nttドコモ 情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023085124A1 (ja) * 2021-11-15 2023-05-19 株式会社Nttドコモ 情報処理装置

Similar Documents

Publication Publication Date Title
US8964066B2 (en) Apparatus and method for generating image including multiple people
JP4725595B2 (ja) 映像処理装置、映像処理方法、プログラム及び記録媒体
US8976255B2 (en) Imaging apparatus
KR20190015573A (ko) 시선 추적에 기초하여 자동 초점 조정하는 이미지 포착 시스템, 장치 및 방법
JP6731616B2 (ja) バーチャルメイク装置、バーチャルメイク方法、およびバーチャルメイクプログラム
US20210004081A1 (en) Information processing apparatus, information processing method, and program
JPWO2016021034A1 (ja) 3次元上の注視点の位置特定アルゴリズム
WO2015035745A1 (zh) 信息观察方法及信息观察装置
CN109600555A (zh) 一种对焦控制方法、***及拍照设备
CN109799899B (zh) 交互控制方法、装置、存储介质和计算机设备
TW201814356A (zh) 頭戴顯示裝置與其鏡片位置調整方法
CN115103094A (zh) 一种基于注视点的摄像头模组远视角调节方法及***
CN112840379A (zh) 信息处理装置、信息处理方法及程序
JP2011135527A (ja) デジタルカメラ
JP3307075B2 (ja) 撮影装置
JP2019121991A (ja) 動画マニュアル作成システム
JP6494455B2 (ja) 映像処理装置、映像処理方法、及びプログラム
JP2006267767A (ja) 画像表示装置
CN111736692B (zh) 显示方法、显示装置、存储介质与头戴式设备
JP2000132329A (ja) 面認識装置、面認識方法及び仮想画像立体合成装置
US10783853B2 (en) Image provision device, method and program that adjusts eye settings based on user orientation
JP2000182058A (ja) 三次元運動入力方法及び三次元運動入力システム
JP2002094980A (ja) 映像投影システム
US20230254466A1 (en) Control device
US20240185543A1 (en) Head-mounted display apparatus that controls exposure timings of plurality of imaging units