JP2019121991A

JP2019121991A - 動画マニュアル作成システム

Info

Publication number: JP2019121991A
Application number: JP2018002062A
Authority: JP
Inventors: 拓也小倉; Takuya Ogura
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2019-07-22

Abstract

【課題】撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成する。【解決手段】動画マニュアル作成システム１は、撮像部２と、視線検出部３と、判別部１４と、記憶対象決定部１６と、記憶部１２とを備える。撮像部２は、撮影者の視界を動画で撮影して視界画像を取得する。視線検出部３は、撮影者の視線情報を検出する。判別部１４は、上記視線情報に基づいて、撮影者の注視の有無を判別する。記憶対象決定部１６は、判別部１４の判別結果に基づいて、視界画像の少なくとも一部を記憶対象として決定する。記憶部１２は、記憶対象決定部１４によって決定された記憶対象を、動画マニュアルのデータとして記憶する。【選択図】図２

Description

本発明は、動画マニュアルを作成する動画マニュアル作成システムに関する。

従来から、業務の共有・効率化、新人教育などで文書マニュアルが活用されている一方で、マニュアルを動画で表示する動画マニュアルが近年では注目されており、その作成技術が例えば特許文献１に開示されている。特許文献１では、入力されるテキストデータに基づいて、作業内容を示す作業画像データ（例えば３Ｄアニメーションデータ）を作成し、作業画像データとテキストデータとを対応付けて出力するようにしている。

一方、動画に対する画像処理の一手法が、例えば特許文献２に開示されている。特許文献２では、動画を構成する各フレームを、所定のサイズの領域ごとに走査して、領域ごとの重要度を算出し、上記領域を重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成し、上記少なくとも１つの領域クラスタから、重要度に基づいて重要領域クラスタを選択し、各フレームの重要領域クラスタを含む部分フレームを抽出し、上記部分フレームにより構成される部分動画を生成するようにしている。これにより、動画に含まれる重要度が大きい領域を効率的に視聴することが可能となっている。

また、例えば特許文献３では、動画に含まれるフレームからオブジェクトを検出し、検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づいてオブジェクトを識別し、動画においてオブジェクトに関連する動作を検出し、検出されたオブジェクトの位置と、オブジェクトに関連する動作の検出結果とに基づいて、動画の各フレームにおける注目領域を決定している。これにより、注目領域のトリミングや拡大表示によって、動画閲覧者が注目領域を容易に閲覧することができるようにしている。

また、例えば特許文献４では、記録媒体に、撮影画像の画像データと、視線情報または視線情報から検出される主要被写体の情報とを記録するようにしている。これにより、記録媒体に記録された情報を用いて、主要被写体が存在する見たいシーンの検出や、主要被写体を中心とした画像の再生や編集等を効率よく行い、貴重な画像データを十分に活用することが可能となっている。また、特許文献４では、動画の画像データから、主要被写体を特定できるシーンのみ（あるいはさらに、その前後の所定数フレーム）を抽出して、これを１つの動画の画像データに編集したり、同じ主要被写体が存在する複数の動画から同じ主要被写体が存在するシーンをまとめて、１つの動画の画像データに編集してもよいことも開示されている。

特開２００６−２１５９８６号公報（請求項１、段落〔００２７〕、〔００５１〕、図１等参照）特開２０１６−２１９８７９号公報（請求項１、段落〔０００８〕、〔０００９〕、〔００３５〕、図１等参照）特開２０１４−８５８４５号公報（請求項１、段落〔０００８〕、〔０００９〕、図１等参照）特開２００４−７１５８号公報（請求項１、段落〔００５５〕、〔００６０〕、〔００６３〕、図１等参照）

ところが、特許文献１の動画マニュアルの作成方法では、テキストデータの入力の作業や工程が必要であり、簡単な手法で動画マニュアルを作成することができない。また、特許文献２および３は、いずれも動画の一部を抽出することを開示しているが、抽出にあたって動画の撮影者の意図が全く反映されていない。さらに、特許文献４では、記録媒体に記録された情報から、主要被写体を中心とする画像の編集作業を行うことは可能であるが、記録媒体に記録される情報（画像データ）自体を、撮影者の視線情報に応じて変える思想は全くない。このため、特許文献２〜４の技術を動画マニュアルの作成に適用しても、撮影者の意図を的確に反映した動画マニュアルを作成することができない。

本発明は、上記の問題点を解決するためになされたもので、その目的は、撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成することができる動画マニュアル作成システムを提供することにある。

本発明の一側面に係る動画マニュアル作成システムは、撮影者の視界を動画で撮影して視界画像を取得する撮像部と、前記撮影者の視線情報を検出する視線検出部と、前記視線情報に基づいて、前記撮影者の注視の有無を判別する判別部と、前記判別部の判別結果に基づいて、前記視界画像の少なくとも一部を記憶対象として決定する記憶対象決定部と、前記記憶対象決定部によって決定された前記記憶対象を、動画マニュアルのデータとして記憶する記憶部とを備えている。

上記の動画マニュアル作成システムにおいて、前記判別部は、前記視線情報に基づいて、前記視界画像における前記撮影者の視線の位置と、前記視線の位置の滞留時間とを求める視線解析部と、前記視線の位置および前記滞留時間に基づいて、前記撮影者の前記注視状態を判断する注視判断部とを含んでいてもよい。

上記の動画マニュアル作成システムにおいて、前記注視判断部は、前記視線の位置に基づいて、前記視線のブレを示すドリフト量を検出し、前記ドリフト量が閾値以下で、かつ、前記滞留時間が所定時間以上である場合に、前記撮影者の注視ありと判断してもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって前記撮影者の注視があると判別された場合に、前記視界画像の中で前記撮影者によって注視されている被写体が存在する被写体領域を特定して、前記視界画像から前記被写体領域を抽出し、抽出した前記被写体領域を前記記憶対象として決定してもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、抽出した前記被写体領域を拡大し、拡大後の画像を前記記憶対象として決定してもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される情報に応じて、前記視界画像から前記被写体領域を抽出する際の抽出範囲を変化させてもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される前記滞留時間に応じて、前記抽出範囲を変化させてもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって取得される前記視線の複数位置の重心の変化に応じて、前記抽出範囲を変化させてもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記判別部によって前記撮影者の注視がないと判別された場合に、前記視界画像を前記記憶対象として決定してもよい。

上記の動画マニュアル作成システムは、前記撮影者の音声が入力される音声入力部と、前記音声入力部によって入力された音声を認識してテキストデータに変換する音声認識部とをさらに備え、前記記憶対象決定部は、前記テキストデータを、前記視界画像の少なくとも一部に合成して、前記記憶対象を決定してもよい。

上記の動画マニュアル作成システムにおいて、前記記憶対象決定部は、前記記憶対象において被写体が存在する領域の外側に前記テキストデータが位置するように、前記テキストデータを前記視界画像の少なくとも一部に合成してもよい。

上記の動画マニュアル作成システムの構成によれば、撮影者の視線情報を用いて、撮影者の意図を的確に反映した動画マニュアルを簡単な方法で作成することができる。

本発明の実施の形態に係る動画マニュアル作成システムの概略の構成を模式的に示す斜視図である。上記動画マニュアル作成システムが有する制御ボックスの詳細な構成を示すブロック図である。上記動画マニュアル作成システムにおける処理の流れを示すフローチャートである。同期処理を行う場合の視界画像および視線情報を示す説明図である。同期処理後に得られる視界画像、視線情報および音声情報の一例を示す説明図である。撮像部の水平方向の画角および垂直方向の画角をそれぞれＸ軸およびＹ軸に対応させたＸＹ座標平面を模式的に示す説明図である。記憶部に記憶される記憶対象の画像の一例を示す説明図である。同期処理後の視界画像、視線情報および音声情報の他の例を示す説明図である。視線の滞留時間と、記憶対象の再生時における表示の拡大率との関係を模式的に示す説明図である。視界画像から抽出される記憶対象の画像の例を示す説明図である。同期処理後の視界画像、視線情報および音声情報のさらに他の例を示す説明図である。視界画像から抽出される記憶対象の画像の他の例を示す説明図である。

本発明の実施の一形態に係る動画マニュアル作成システムについて、図面に基づいて説明すれば以下の通りである。なお、本発明は、以下の内容に限定されるわけではない。

〔動画マニュアル作成システムの構成〕
図１は、本実施形態の動画マニュアル作成システム１の概略の構成を模式的に示す斜視図である。動画マニュアル作成システム１は、撮像部２と、視線検出部３と、マイク４と、制御ボックス１０とを備えて構成されている。撮像部２および視線検出部３は、例えば眼鏡５に搭載されている。眼鏡５は、視度矯正用のレンズを備えた通常の眼鏡であってもよいし、視度を矯正しないダミーレンズを備えた眼鏡であってもよいし、頭部搭載型の虚像表示装置（ヘッドマウントディスプレイ）であってもよい。

撮像部２は、撮影者の視界を動画で撮影して視界画像を取得するカメラ（視線カメラ）であり、例えば眼鏡５の左右のレンズをつなぐ中央のブリッジに搭載されている。このため、撮影者が眼鏡５をかけたとき、撮像部２は撮影者の眼に近い位置から撮影者の視界を撮影することになる。

視線検出部３は、撮影者の視線情報を検出する素子であり、照明部（イルミネータ）および受光部を有している。イルミネータによって撮影者の角膜付近に近赤外線を照射し、その反射光を受光部で検出することにより、撮影者の角膜表面にできるプルキニエ像の位置と撮影者の瞳孔の位置との相対的な位置の変化を検出することができ、これによって撮影者の視線方向を上記視線情報として検出することができる（角膜反射法）。例えば、左眼の角膜反射の位置（プルキニエ像の位置）よりも瞳孔が目じり側にあれば、撮影者は左側を見ており（撮影者の視線が左方向を向いており）、角膜反射の位置よりも瞳孔が目頭側にあれば、撮影者は右側を見ている（撮影者の視線が右方向を向いている）ことを検出できる。なお、本実施形態の視線検出部３は、上記のように代表的な角膜反射法によって視線検出（アイトラッキング）を行う構成であるが、強膜反射法などの他の方法で視線検出を行う構成であってもよい。また、本実施形態では、視線検出部３は、眼鏡５の左右のレンズのそれぞれの縁に設けられて、両眼について視線を検出する構成としているが、どちらか一方のレンズの縁に設けられて、片眼について視線を検出する構成としてもよい。

マイク４は、撮影者の音声が入力される音声入力部である。

撮像部２、視線検出部３およびマイク４は、配線６を介して制御ボックス１０と接続されている。これにより、撮像部２で取得された情報（撮影者の視界画像のデータ）、視線検出部３で取得された情報（撮影者の視線情報）、およびマイク４で取得された情報（撮影者の音声情報）が、配線６を介して制御ボックス１０に出力される。なお、撮像部２、視線検出部３およびマイク４と、制御ボックス１０とは、無線で情報を伝達する構成であってもよい。

〔制御ボックスの構成〕
図２は、制御ボックス１０の詳細な構成を示すブロック図である。制御ボックス１０は、撮像部２、視線検出部３およびマイク４から出力される情報に基づいて、動画マニュアルの作成を実行する。この制御ボックス１０は、操作部１１と、記憶部１２と、制御部１３とを有している。

操作部１１は、撮影者によって操作されて各種の指示入力を受け付けるボタンやスイッチで構成されている。記憶部１２は、制御部１３の動作プログラムのほか、各種の情報を記憶するメモリであり、例えばＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、不揮発性メモリなどを含んで構成されている。特に、本実施形態では、記憶部１２は、後述する記憶対象決定部１６によって決定された記憶対象を、動画マニュアルのデータとして記憶するメモリである。

なお、本実施形態では、記憶部１２に記憶された情報（記憶対象のデータ）を読み出して、図示しない再生装置の表示部に記憶対象の画像を表示させることを、「動画マニュアルの再生」、「記憶対象の再生」、または単に「再生」と称する。

制御部１３は、例えばＣＰＵ（Central Processing Unit；中央演算処理装置）で構成されている。この制御部１３は、判別部１４と、音声認識部１５と、記憶対象決定部１６と、主制御部１７とを有しており、上記のＣＰＵがこれらの各部の機能を発揮する。なお、判別部１４、音声認識部１５、記憶対象決定部１６および主制御部１７は、別々のＣＰＵで構成されていてもよいし、所定の機能を発揮する専用の処理回路で構成されていてもよい。

判別部１４は、視線検出部３によって検出された視線情報に基づいて、撮影者の注視の有無を判別する。このような判別部１４は、視線解析部１４ａと、注視判断部１４ｂとを含んで構成されている。

視線解析部１４ａは、上記視線情報に基づいて、視界画像における撮影者の視線の位置と、上記視線の位置の滞留時間とを解析して求める。視線解析部１４ａは、計時部（図示せず）を内蔵しており、これによって、上記滞留時間を計時することができる。

注視判断部１４ｂは、視線解析部１４ａによって取得された上記視線の位置および上記滞留時間に基づいて、撮影者の注視状態（注視の有無）を判断する。例えば、注視判断部１４ｂは、撮影者の視線の位置のブレが所定範囲内に収まっており、その状態が所定時間以上続いた場合には、撮影者が被写体を注視していると判断でき、それ以外の場合は、撮影者が被写体を注視していないと判断することができる。

音声認識部１５は、マイク４によって入力された音声を認識してテキストデータに変換する。記憶対象決定部１６は、判別部１４の判別結果（注視の有無の判別結果）に基づいて、視界画像の少なくとも一部を記憶対象として決定する。主制御部１７は、制御ボックス１０内の各部の動作を制御する。

〔処理フロー〕
次に、本実施形態の動画マニュアル作成システム１における各処理を具体的に説明する。図３は、動画マニュアル作成システム１における処理の流れを示すフローチャートである。

まず、撮影者は、視線検出部３によって取得される視線情報と、撮像部２によって取得される視界画像との同期を図る（Ｓ１）。この同期処理により、撮影者の被写体に対する視線の方向と、視界画像の中での被写体の位置とを合わせる（同期させる）ことができる。

この同期処理は、具体的には、マニュアル作成のための動画撮影の前に、撮影者がマーカーを注視することによって行われる。つまり、図４に示すように、撮影者はマーカーＭの中心Ｍｏを注視し、このときの視界画像を撮像部２によって取得する。同時に、撮影者がマーカーＭの中心Ｍｏを注視しているときの視線情報を視線検出部３によって取得する。取得された上記視線情報は、マーカーＭの中心Ｍｏを注視する撮影者の視線の方向を示すため、この状態で視線情報と視界画像との同期がとれていることになる。そこで、撮影者は、この状態で操作部１１を操作して同期を確立させ、同期処理を終了させる。

次に、撮影者は、操作部１１を操作して、撮像部２によってマニュアル作成のための動画撮影を開始させる（Ｓ２）。撮影者が作業内容を説明しながら実際の作業を進めていくことで、そのときの撮影者の視界画像（動画）が撮像部２によって取得され、撮影者の視線情報が視線検出部３によって取得され、撮影者の音声情報がマイク４によって取得される（Ｓ３）。なお、視線検出部３による視線情報の取得は、任意の間隔でよく、本実施形態では、例えば０．１秒ごとに視線情報が取得されているとする。

図５は、Ｓ３で取得した視界画像、視線情報および音声情報の一例を示している。ここでは例として、動画マニュアルの作成対象となる作業が、ドライバＡ１を用いて、ネジＡ２を筐体Ａ３に締める作業であるとする。同図より、視界画像に含まれるドライバＡ１、ネジＡ２および筐体Ａ３と対応する位置に視線映像（視線の位置を示す映像）Ｐ１〜Ｐ３が位置する視線情報が得られていることがわかる。撮像部２、視線検出部３、およびマイク４によって取得された各情報（視界画像の情報、視線情報、音声情報）は、配線６を介して制御ボックス１０に送られる。

制御ボックス１０の判別部１４は、視線検出部３によって取得された視線情報を解析して、撮影者の注視状態を判断する（Ｓ４）。具体的には、判別部１４の視線解析部１４ａは、上記視線情報に基づいて、撮像部２によって取得された視界画像における撮影者の視線の位置と、上記視線の位置の滞留時間とを求める。そして、注視判断部１４ｂは、上記視線の位置および上記滞留時間に基づいて、撮影者の注視の有無を判断する。

例えば、注視判断部１４ｂは、水平方向の画角および垂直方向の画角がそれぞれＸ軸およびＹ軸に対応するＸＹ座標平面上で、上記視線情報に基づいて得られる撮影者の最新の視線位置と、直近で得られた９個の視線位置の合計１０個についての位置座標の重心の移動量（移動前後の各重心に向かう２つの視線方向の角度差）を算出する。なお、上記重心のＸ座標は、１０個の視線位置のＸ座標の平均であり、上記重心のＹ座標は、１０個の視線位置のＹ座標の平均である。そして、注視判断部１４ｂは、上記角度差が例えば０．５°以内であると、視線のブレを示すドリフト量が小さいと判断し、その状態（滞留時間）が所定時間（例えば２秒）以上継続すると、注視と判断する。なお、本実施形態では、重心を求める際に用いた視線位置の数を１０個とし、上記角度差を１°以内の０．５°とし、上記所定時間を２秒としたが、これらの値は作業内容に応じて適宜変更可能である。

ここで、上記角度差が０．５°以内であるか否かは、撮像部２の撮影画角（水平方向、垂直方向の各画角）と撮像素子のパラメータ（画素数、１画素の大きさ）とを用いて判断することができる。例えば、図６は、上記のＸＹ座標平面を模式的に示している。なお、Ｘ軸は、撮像部２の水平方向の画角に対応しており、Ｙ軸は、撮像部２の垂直方向の画角に対応している。撮像部２において、画角ａ°が画素数ｂ個に対応している場合、画角０．５°は、画素数（０．５ｂ／ａ）個に対応する。また、撮像素子の１画素（正方形とする）の一辺の長さをｃ（μｍ）とすると、角度差０．５°に相当する長さ（μｍ）は、（画素数）×（１画素の一辺の長さ）＝（０．５ｂ／ａ）×ｃで表される。したがって、１０個の視線位置の重心Ｇの移動量Ｔが、（０．５ｂ／ａ）×ｃ以下であるか否かを判断することにより、上記の角度差が０．５°以内であるか否かを判断することができる。

注視判断部１４ｂによって撮影者の注視ありと判断された場合（Ｓ５にてＹｅｓ）、記憶対象決定部１６は、公知の稜線検出法を用いた画像処理によって、視界画像の中で被写体の輪郭線を検出し、輪郭線で囲まれた領域を、被写体が存在する被写体領域として特定する（Ｓ６）。

次に、記憶対象決定部１６は、視界画像から、Ｓ６で特定された被写体領域を画像処理によって抽出（トリミング）する（Ｓ７）。そして、記憶対象決定部１６は、抽出された上記被写体領域を、記憶部１２に記憶させる記憶対象の画像として決定する（Ｓ８）。このとき、記憶対象決定部１６は、上記被写体領域を等倍のまま記憶対象の画像として決定してもよいし、上記被写体領域を拡大して拡大画像を生成し、この拡大画像を記憶対象の画像として決定してもよい。ここでは、記憶対象決定部１６は、後者のように被写体領域の拡大画像を記憶対象の画像として決定しているとする。なお、上記の記憶対象は、作成された動画マニュアルを再生するときに、表示部に表示される表示対象でもある。

一方、注視判断部１４ｂによって撮影者の注視がないと判断された場合（Ｓ５にてＮｏ）、記憶対象決定部１６は、Ｓ３で取得された全体の視界画像を、記憶部１２に記憶させる記憶対象の画像として決定する（Ｓ９）。

次に、音声認識部１５は、Ｓ３で取得された音声情報を、音声認識してテキストデータに変換する（Ｓ１０）。そして、記憶対象決定部１６は、上記した記憶対象の画像に対して、Ｓ１０で取得されたテキストデータをコメントとして付加するコメント付加領域を設定する（Ｓ１１）。このとき、コメント付加領域は、記憶対象の画像において、撮影者の注視がある場合は、注視されている被写体の外側の領域に設定され、撮影者の注視がない場合は、被写体が存在しない領域（被写体と重ならない領域）に設定される。なお、記憶対象の画像において、被写体が存在する領域であるか否かは、記憶対象決定部１６がＳ６と同様の処理（例えば稜線検出法を用いた画像処理）を行うことによって判断することができる。

そして、記憶対象決定部１６は、Ｓ８またはＳ９で取得した記憶対象の画像のコメント付加領域に、Ｓ１０で取得したテキストデータをコメントとして付加して、これらを合成する（Ｓ１２）。そして、記憶対象決定部１６は、合成後の記憶対象の画像を経過時間と対応付けて記憶部１２に記憶させる（Ｓ１３）。撮影者が操作部１１を操作して作業終了を入力するまで、以上の処理が繰り返し行われ（Ｓ１４）、作業が終了すると、一連の処理が終了する。

図７は、Ｓ１３において、記憶部１２に記憶される記憶対象の画像（記憶画像、表示画像）の一例を示している。撮影者の注視がない場合、記憶対象は視界画像であるため、視界画像において「５か所のネジを締めます」というコメントが付加された画像が、動画マニュアルのデータとして記憶部１２に記憶される。このとき、被写体（ドライバＡ１、筐体Ａ２、ネジＡ３）に対する注視がないため、上記コメントは、視界画像において被写体が存在しない領域（ドライバＡ１、筐体Ａ２およびネジＡ３と重ならない領域）に付加される。

また、撮影者がネジＡ２を注視している場合、記憶対象は、視界画像から抽出されて拡大されたネジＡ２の画像（被写体領域）であるため、ネジＡ２の画像の外側に上記コメントが付加された画像が、動画マニュアルのデータとして記憶部１２に記憶される。また、撮影者が筐体Ａ３を注視している場合、記憶対象は、視界画像から抽出されて拡大された筐体Ａ３の画像（被写体領域）であるため、筐体Ａ３の画像の外側に上記コメントが付加された画像が、動画マニュアルのデータとして記憶部１２に記憶される。

動画マニュアルを再生する場合、記憶部１２に記憶された動画マニュアルのデータが再生装置（図示せず）によって読み出され、表示部（図示せず）に、上記データに基づく動画マニュアル（図７と同様の画像）が表示される。これにより、視聴者は、表示された動画マニュアルを視聴することが可能となる。

以上のように、本実施形態の動画マニュアル作成システム１では、判別部１４が、視線検出部３によって取得された視線情報に基づいて、撮影者の注視の有無を判別する（Ｓ３〜Ｓ５）。そして、記憶対象決定部１６が、判別部１４の判別結果に基づいて、撮像部２によって取得された視界画像の少なくとも一部を記憶対象として決定する（Ｓ６〜Ｓ９）。決定された記憶対象は、動画マニュアルのデータとして記憶部１２に記憶される（Ｓ１３）。

記憶対象決定部１６は、判別部１４の判別結果（撮影者の注視の有無）に基づいて、記憶対象を決定するため、撮影者が注視ありの場合と注視なしの場合とで、つまり、撮影者の視線情報に応じて、記憶対象を異ならせることができる。これにより、視線情報に応じて異なる記憶対象を動画マニュアルのデータとして記憶部１２に記憶させて、撮影者の視線による意図を的確に反映した動画マニュアルを作成することができる。したがって、動画マニュアルの再生時には、撮影者の視線による意図を直観的でわかりやすく視聴者に伝えることができる。

また、撮影者の視界画像および視線情報を用いて記憶対象を決定するため、例えば撮影者が操作部１１を操作してデータを手動入力する作業や工程は一切不要である。したがって、撮影者の視界画像および視線情報を用いて、動画マニュアルを簡単な方法で自動作成することができる。

また、判別部１４は、上述した視線解析部１４ａと、注視判断部１４ｂとを含んで構成されるため、注視判断部１４ｂは、視線解析部１４ａによって求めた撮影者の視線の位置と、上記視線の位置の滞留時間とに基づいて、撮影者の注視状態（注視の有無）を的確に判断することができる。また、撮影者が作業時に集中して物体（被写体）を見ると、注視度が高くなるが、この注視度を、撮影者の視線の位置および滞留時間に基づいて的確に判断することも可能となる。

また、注視判断部１４ｂは、視線解析部１４ａによって求めた撮影者の視線の位置に基づいて、視線のブレを示すドリフト量を検出し、ドリフト量が閾値以下で、かつ、滞留時間が所定時間以上である場合に、撮影者の注視ありと判断する（Ｓ４、Ｓ５）。ドリフト量が閾値以下で、滞留時間が所定時間以上である場合、撮影者の注視度が高いと判断できるため、この場合に撮影者の注視ありと判断することで、判断の精度を向上させることができる。

また、記憶対象決定部１６は、判別部１４によって撮影者の注視があると判別された場合に、視界画像の中で撮影者によって注視されている被写体が存在する被写体領域を特定して（Ｓ６）、視界画像から被写体領域を抽出し（Ｓ７）、抽出した被写体領域を記憶対象として決定する（Ｓ８）。撮影者が意図する被写体領域のみを抽出して記憶対象として決定することにより、記憶対象の再生時に、必要な領域（被写体領域）の情報のみを視聴者に提示することができる（再生時に不要な情報は視聴者に提示されないようにすることができる）。これにより、視聴者は提示される情報を見て、迷うことなく所定の作業に取り掛かることができる。

また、記憶対象決定部１６は、抽出した被写体領域を拡大し、拡大後の画像を記憶対象として決定する（Ｓ８）。この場合、記憶対象の再生時に、必要な領域（被写体領域）が拡大表示されるため、視聴者は表示される画像から、被写体の細部を確認することが可能かつ容易となる。

また、記憶対象決定部１６は、判別部１４によって撮影者の注視がないと判別された場合に、撮像部２によって取得された視界画像を記憶対象として決定する（Ｓ９）。撮影者の注視がない場合、視界画像全体が記憶対象として決定されるため、記憶対象の再生時に、視聴者は、撮影者の視界全体を俯瞰して（広い視野で把握して）、大まかな情報（例えば作業内容）を把握することができる。

また、音声認識部１５は、マイク４によって入力された撮影者の音声を認識してテキストデータに変換し（Ｓ１０）、記憶対象決定部１６は、上記のテキストデータを、視界画像の少なくとも一部に合成して、記憶対象を決定する（Ｓ１２）。このように、音声認識によるテキストデータを記憶対象に付加するため、記憶対象の再生時には、視聴者は表示される画像を見ながら、撮影者の指示や助言を視覚情報（テキストデータ）として明確に認識することができる。また、音声認識部１５を備えているため、本実施形態のように、視界の撮影と同時に音声入力を行う構成が可能となり、テキストデータを別途手動で入力して画像と合成するような編集の手間を省くことも可能となる。

特に、記憶対象決定部１６は、音声認識によって取得されたテキストデータが、記憶対象において被写体が存在する領域の外側に位置するように、上記テキストデータを視界画像の少なくとも一部に合成する（Ｓ１１、Ｓ１２）。合成後の記憶対象において、被写体が存在する重要な領域にテキストデータが重ならないため、記憶対象の再生時に、視聴者は、重要な被写体およびテキストデータの両方を明確に認識することが可能となる。

〔被写体領域の抽出のバリエーション（１）〕
上述したＳ７の工程では、記憶対象決定部１６が、判別部１４によって取得される情報に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させてもよい。以下、このような抽出のバリエーションについて説明する。

図８は、Ｓ３で取得される視界画像、視線情報および音声情報の他の例を示している。記憶対象決定部１６は、視線解析部１４ａによって取得される視線の滞留時間に応じて、上記抽出範囲を変化させてもよい。例えば、記憶対象決定部１６は、上記滞留時間が長くなると、上記抽出範囲を狭めて、被写体領域の一部を抽出してもよい。また、記憶対象決定部１６は、視界画像から抽出した被写体領域の一部を拡大し、拡大後の画像を記憶対象として決定してもよい。この場合、記憶対象の再生時には、上記拡大後の画像が表示されることになる。

図９は、視線の滞留時間と、記憶対象の再生時における表示の拡大率との関係を模式的に示している。ここでは、視線のブレを示すドリフト量が小さい状態（視線の変化の前後での角度差が例えば０．５°以内の状態）を滞留時間の開始（基準、０秒）としている。図３で示したフローに基づき、まず、ドリフト量小の状態が２秒間続くと、注視と判定されるが（Ｓ４、Ｓ５）、それまでは、注視なしの判定であるため、記憶対象として決定される画像は視界画像であり（Ｓ９）、記憶対象の再生時には、視界画像が表示される。

注視ありの判定後、次に示す抽出範囲の縮小開始までは（ドリフト量小の開始から２秒後〜５秒後の間は）、視界画像の中で被写体領域が特定されて、被写体領域の全体が抽出される（Ｓ６、Ｓ７）。このため、記憶対象の再生時には、上記被写体領域が表示される。図１０の上段は、注視判定から抽出範囲縮小開始までの間で、図８の視界画像から抽出された被写体領域Ｒ１の画像（被写体画像）を示している。

注視ありの判定後、ドリフト量小の状態が３秒間続くと（ドリフト量小の開始から５秒経過後）、記憶対象決定部１６は、抽出範囲の縮小を開始させるととともに、上記抽出範囲内で被写体領域の一部を抽出し（Ｓ７）、抽出した被写体領域の一部を拡大して記憶対象として決定する（Ｓ８）。図１０の下段は、抽出範囲の縮小開始後に、図８の視界画像から、被写体領域Ｒ１の一部の領域Ｒ２を抽出して拡大した画像（被写体画像）を示している。なお、領域Ｒ２は、被写体領域Ｒ１の一部の領域であるため、被写体領域Ｒ１よりも抽出範囲が小さい領域であることは明らかである。

抽出領域の縮小に応じて、抽出された被写体領域は拡大され、拡大開始後３秒で（ドリフト量小の開始から８秒で）、目的の枠サイズまで拡大される。なお、目的の枠サイズとは、視線位置の標準偏差（ばらつき）をσとしたときに、ドリフト量小の状態が開始されてから、拡大開始の間に変動する視線位置の３σが包括される状態である。記憶対象の再生時には、所定の拡大率で被写体領域の一部（拡大画像）が表示される。なお、図９の縦軸の拡大率Ｌは、視線位置の３σが包括される状態に対応している。また、記憶対象の再生時の表示の中心は、同期間（拡大開始から拡大終了までの期間）での視線位置の平均である。

なお、上記の角度差、注視判定のタイミング（ドリフト量小の開始から２秒後）、表示拡大のタイミング（注視判定から３秒後）、拡大の速度、目的の枠サイズ等は一例であり、状況に応じて適宜変更可能である。

例えば、基板のはんだ付けのような細かい作業では、撮影者の視線の滞留時間（注視時間）も自然と長くなり、記憶対象の再生時には、細部まで視聴者に見えたほうがよいことが多い。上記のように、記憶対象決定部１６が、視線解析部１４ａによって取得される滞留時間に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させることにより、上述のように、滞留時間に応じて抽出範囲を狭くするとともに、抽出した被写体領域の一部を拡大させた画像を記憶対象とすることができる。これにより、記憶対象の再生時に、視聴者に被写体の細部を大きく表示して細かい情報を伝えることが可能となる。

また、例えば注視の初期から（視線位置の滞留時間が短いうちから）抽出範囲を大きく狭めて、視界画像の一部の領域を抽出し、抽出した領域を拡大して記憶対象として記憶させると、記憶対象の再生の初期に、視聴者は被写体および作業の全体を把握しにくく、画像を見てどの作業であるか、あるいは被写体のどの部分であるかを把握することが困難になるおそれがある。本実施形態のように抽出範囲の縮小を段階的に行い、抽出された領域の拡大を段階的に行って記憶対象とすることにより、記憶対象の再生時には表示倍率（拡大倍率）が徐々に上がることになり、再生の初期において、視聴者は被写体および作業の全体を把握することが容易となるため、上記の不都合を回避することができる。

〔被写体領域の抽出のバリエーション（２）〕
図１１は、Ｓ３で取得される視界画像、視線情報および音声情報のさらに他の例を示している。上述したＳ７の工程では、記憶対象決定部１６が、判別部１４によって取得される視線の複数位置の重心の変化に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させてもよい。なお、上記重心については、判別部１４の注視判断部１４ｂによって求めることができるが、その求め方は上述した通りである。

図３で示したフローに基づき、撮影者が図１１に示す視界画像の中で、ある被写体を注視していると判断された場合（Ｓ４、Ｓ５）、記憶対象決定部１６は、視界画像の中で上記被写体が存在する被写体領域Ｒ１１を特定し（Ｓ６）、視界画像から被写体領域Ｒ１１を抽出し（Ｓ７）、抽出した被写体領域Ｒ１１を記憶対象として決定する（Ｓ８）。図１２の上段は、このときの記憶対象の画像、つまり、図１１の視界画像から抽出された被写体領域Ｒ１１の画像（被写体画像）を示している。

次に、被写体に対してシールを左側から貼り合わせる作業に伴い、撮影者が被写体の左側を注視すると、視線解析部１４ａで検出される視線の複数位置（例えば直近の１０点の視線位置）の重心が移動する。注視判断部１４ｂにより、視線の複数位置の重心の変化が認識されると、記憶対象決定部１６は、視界画像から、被写体領域Ｒ１１の中で撮影者の視線の重心が位置している領域、つまり、撮影者が注視している左側の領域Ｒ１２を抽出し（Ｓ７）、これを拡大して記憶対象とする（Ｓ８）。図１２の中段は、このときの記憶対象の画像、つまり、図１１の視界画像から抽出された領域Ｒ１２の画像（拡大画像）を示している。

さらに、被写体に対してシールの右側を貼り合わせるべく、被写体の右側を注視すると、視線解析部１４ａで検出される視線の複数位置（例えば直近の１０点の視線位置）の重心も右側に移動する。注視判断部１４ｂにより、視線の複数位置の重心の変化が認識されると、記憶対象決定部１６は、視界画像から、被写体領域Ｒ１１の中で撮影者の視線の重心が位置している領域、つまり、撮影者が注視している右側の領域Ｒ１３を抽出し（Ｓ７）、これを拡大して記憶対象とする（Ｓ８）。図１２の下段は、このときの記憶対象の画像、つまり、図１１の視界画像から抽出された領域Ｒ１３の画像（拡大画像）を示している。

シール貼りの工程で厳密な位置合わせが必要となる場合、同一被写体の中で注視位置が変化することはよくある。上記のように、記憶対象決定部１６が、判別部１４によって取得される視線の複数位置の重心の変化に応じて、抽出範囲を変化させることにより、撮影者の注視位置が同一被写体内で移動する場合でも、それに追随して抽出範囲を変化させて注視位置の画像を抽出し、抽出した画像を拡大して記憶対象を得ることができる。これにより、記憶対象の再生時に、重要な位置を拡大した画像を視聴者に提供（表示）して、重要な情報を確実に視聴者に伝えることができる。また、再生時に、撮影者の視線の重心位置を表示画像の中心に持ってくることができるため、撮影者の意図を的確に反映した画像を表示させて、視聴者に情報を伝えることができる。

以上、記憶対象決定部１６が、判別部１４によって取得される情報（滞留時間、視線の複数位置の重心の変化）に応じて、視界画像から被写体領域を抽出する際の抽出範囲を変化させることにより、視界画像の中から、撮影者の意図を的確に反映した重要な領域だけを抽出して拡大し、再生時に視聴者に提供することができる。これにより、視聴者は、表示画像において、撮影者の意図する重要な領域を直ちに認識し、把握するとともに、表示画像に基づく作業の内容も適切に把握することが可能となる。

なお、本実施形態では、撮像部２および視線検出部３が眼鏡５に搭載される例について説明したが、例えば視線検出部３を撮像部２に組み込んで構成することも可能である。この場合、撮影者が撮像部２を保持しながら視界画像を撮影することになるが、眼鏡５を用いずに動画マニュアル作成システム１を構成でき、部品点数を削減できる点で有効である。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

本発明は、例えば動画マニュアルを自動で作成するシステムに利用可能である。

１動画マニュアル作成システム
２撮像部
３視線検出部
４マイク（音声入力部）
１２記憶部
１４判別部
１４ａ視線解析部
１４ｂ注視判断部
１５音声認識部
１６記憶対象決定部

Claims

撮影者の視界を動画で撮影して視界画像を取得する撮像部と、
前記撮影者の視線情報を検出する視線検出部と、
前記視線情報に基づいて、前記撮影者の注視の有無を判別する判別部と、
前記判別部の判別結果に基づいて、前記視界画像の少なくとも一部を記憶対象として決定する記憶対象決定部と、
前記記憶対象決定部によって決定された前記記憶対象を、動画マニュアルのデータとして記憶する記憶部とを備えていることを特徴とする動画マニュアル作成システム。
前記判別部は、
前記視線情報に基づいて、前記視界画像における前記撮影者の視線の位置と、前記視線の位置の滞留時間とを求める視線解析部と、
前記視線の位置および前記滞留時間に基づいて、前記撮影者の前記注視状態を判断する注視判断部とを含むことを特徴とする請求項１に記載の動画マニュアル作成システム。
前記注視判断部は、前記視線の位置に基づいて、前記視線のブレを示すドリフト量を検出し、前記ドリフト量が閾値以下で、かつ、前記滞留時間が所定時間以上である場合に、前記撮影者の注視ありと判断することを特徴とする請求項２に記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記判別部によって前記撮影者の注視があると判別された場合に、前記視界画像の中で前記撮影者によって注視されている被写体が存在する被写体領域を特定して、前記視界画像から前記被写体領域を抽出し、抽出した前記被写体領域を前記記憶対象として決定することを特徴とする請求項２または３に記載の動画マニュアル作成システム。
前記記憶対象決定部は、抽出した前記被写体領域を拡大し、拡大後の画像を前記記憶対象として決定することを特徴とする請求項４に記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記判別部によって取得される情報に応じて、前記視界画像から前記被写体領域を抽出する際の抽出範囲を変化させることを特徴とする請求項４に記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記判別部によって取得される前記滞留時間に応じて、前記抽出範囲を変化させることを特徴とする請求項６に記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記判別部によって取得される前記視線の複数位置の重心の変化に応じて、前記抽出範囲を変化させることを特徴とする請求項６に記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記判別部によって前記撮影者の注視がないと判別された場合に、前記視界画像を前記記憶対象として決定することを特徴とする請求項４から８のいずれかに記載の動画マニュアル作成システム。
前記撮影者の音声が入力される音声入力部と、
前記音声入力部によって入力された音声を認識してテキストデータに変換する音声認識部とをさらに備え、
前記記憶対象決定部は、前記テキストデータを、前記視界画像の少なくとも一部に合成して、前記記憶対象を決定することを特徴とする請求項１から９のいずれかに記載の動画マニュアル作成システム。
前記記憶対象決定部は、前記記憶対象において被写体が存在する領域の外側に前記テキストデータが位置するように、前記テキストデータを前記視界画像の少なくとも一部に合成することを特徴とする請求項１０に記載の動画マニュアル作成システム。