JP6373446B2 - ビデオフレームを選択するプログラム、システム、装置、及び方法 - Google Patents

ビデオフレームを選択するプログラム、システム、装置、及び方法 Download PDF

Info

Publication number
JP6373446B2
JP6373446B2 JP2017094882A JP2017094882A JP6373446B2 JP 6373446 B2 JP6373446 B2 JP 6373446B2 JP 2017094882 A JP2017094882 A JP 2017094882A JP 2017094882 A JP2017094882 A JP 2017094882A JP 6373446 B2 JP6373446 B2 JP 6373446B2
Authority
JP
Japan
Prior art keywords
face
video
faces
frame
facing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017094882A
Other languages
English (en)
Other versions
JP2017204280A (ja
Inventor
チャン サミー
チャン サミー
ミン レオン カ
ミン レオン カ
ロナルド テインシュ マーク
ロナルド テインシュ マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2017204280A publication Critical patent/JP2017204280A/ja
Application granted granted Critical
Publication of JP6373446B2 publication Critical patent/JP6373446B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)

Description

本開示は、一般的に画像処理に関し、特に、ビデオシーケンスのビデオフレームを選択するプログラム、システム、装置、及び方法に関する
ビデオは、シーンや次々と展開されるイベントをキャプチャするために効果的な方法である。人はしばしば、誕生日パーティ、結婚式、旅行、スポーツなどのイベントについてのビデオをキャプチャする。静止画像と違って、ビデオには、特に、自然な顔の表情や、人間の交流(例えば、話す、互いに微笑む、キスする、ハグする、握手する)のような、発展的で体系化されていないイベントをキャプチャするという利点がある。静止画像が用いられているのと同様な方法により、表示用もしくは印刷書籍におけるコンテンツとしての使用のためにビデオフレームのシーケンスから個別のフレームを選択することがしばしば望まれる。加えて、セグメントとして知られるビデオシーケンスのサブセクションは、ビデオシーケンスの概略説明としての表示のために選択され得る。ビデオセグメントは、ビデオシーケンスの一連のシーケンシャルなビデオフレームを含む。
携帯電話や他のコンシューマ向けのカメラ機器の需要とアクセスのしやすさとの増大に伴って、ますます、ビデオデータはキャプチャされて保存されている。従って、関連するビデオを見つけること、及び/又は、印刷や表示のためにビデオの所望のフレームを抽出することはますます困難になってきている。
ビデオフレームを選択する一つの方法においては、写真の構図、色の配分、にじみ、色のコントラスト、鮮鋭さ、露出を含む画像品質の指標に基づくことのみにより、所望のビデオセグメントやフレームを決定する。携帯機器上で直接、画像解析を実行する代わりに、ビデオフレームやセグメントを選択する代替方法においては、絞りやシャッタースピード、ISO、レンズの種類やカメラの動きといったカメラの特定のパラメータを用いる。ビデオフレームを選択する、より最近の方法においては、顔、オブジェクト、イベントの種類、人間の行動を識別することによりビデオセグメントや画像の選択を容易にするために、ビデオから高レベルの意味を抽出することが試みられている。特に、結婚式やスポーツのイベントについての幾つかの方法においては、ビデオシーケンスにおいて重要なシーン、オブジェクト、イベントを識別するために、カメラのフラッシュや、音声の特徴(例えば、音楽、拍手、歓声)を検出する。
本発明の目的は、既存の構成の少なくとも1つの不利点を十分に解消し、もしくは少なくとも改善することである。
本開示の1つの態様によると、ビデオシーケンスの少なくとも1つのビデオフレームを選択するプログラムが提供される。そのプログラムは、
ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法をコンピュータに実行させるためのプログラムであって、
前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて顔を検出する検出工程と
前記ビデオシーケンスに含まれる一連のビデオフレームにおいて、前記検出工程において検出された顔の向きを追跡する追跡工程と
前記ビデオシーケンスに含まれる、前記検出工程において検出された第1の顔及び第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択する選択工程と、
をコンピュータに実行させ、
前記選択工程では、前記一連のビデオフレームの少なくとも一部において前記追跡工程において追跡された前記第1の顔の向きに基づき、前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームよりも優先して選択することを特徴とする。
他の態様も同様に開示される。
本発明の少なくとも1つの実施形態が以下の図面を参照することで説明される。
図1及び図2は、記載される構成が実行される場合の汎用的なコンピュータのブロック図である。 図3は、ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法を示すフロー図である。 図4は、図3の方法において用いられる候補ビデオセグメントを検出する方法を示すフロー図である。 図5は、図4の方法の出力を示す図である。 図6は、候補ビデオセグメントにおける一連のビデオフレーム上で顔を追跡する方法を示すフロー図である。 図7Aは、候補セグメント内の一フレーム期間上の一対の顔を示す図である。 図7Bは、顔の向きを表すために用いられる角度を示す図である。 図7Cは、顔が異なる深度にあることを判定するために用いられ得る異なるサイズの顔を示す図である。 図7Dは、凝視コンタクトであることを示す位置及び向きを有する顔の配置を示す図である。 図7Eは、上方を見る顔と下方を見る顔を示す図である。 図8は、図3の方法において用いられるような凝視コンタクトを検出する方法を示すフロー図である。
少なくともいずれかの付随する図面がステップ及び/又は特徴について参照される。同一の参照番号は、反対の意思がない限り、記載の目的のための同一の機能や動作を示す。
人間間での対話があるフレームが、印刷、表示等のための一連のビデオフレームから選択されても良い。例えば、多くの人々がいるフレームが選択されても良い。他の例として、人々が互いに活発に関与しているフレームが選択されても良い。そのような人々の活発な関与は、話す、微笑む、を含んで良く、また、互いに見合う少なくとも2人の人々を必要としても良い。しかしながら、従来の方法を用いてそのような関与を検出することは、計算的に高価なものとなり得る。
本開示は、ビデオフレームで示される対象物間の関与の検出に基づいて、一連のビデオフレームから所望のビデオフレームを選択する方法を提供することを対象としている。詳細は後述するが、関連するビデオセグメント及びフレームは、一連のビデオフレームから抽出され得る。各ビデオセグメントは、ビデオシーケンスの一連のシーケンシャルなビデオフレームを含む。ビデオフレームは、ビデオデコード処理においてビデオシーケンスから抽出され得る。抽出されたフレームは、デジタル静止写真撮影を通して得られる画像と同様に扱われ得る。用語「画像」と「フレーム」は、以下の記載においては置き換え可能である。
図1及び図2は、記載される様々な構成が実現され得る、汎用的なコンピュータシステム100を示す。
図1に示すように、コンピュータシステム100は、コンピュータモジュール101、キーボード102、マウスポインタデバイス103、スキャナ126、カメラ127、マイクロホン180のような入力デバイスと、プリンタ115、表示デバイス114、スピーカ117を含む出力デバイスとを含む。外部のモジュレータ/デモジュレータ(MODEM)トランシーバデバイス116は、接続121を介して通信ネットワーク120に対してもしくは通信ネットワーク120から、通信するためのコンピュータモジュール101により用いられても良い。通信ネットワーク120は、インターネットのようなワイドエリアネットワーク(WAN)、携帯電話通信ネットワークや、プライベートWANであっても良い。接続121は電話回線であって、モデム116は、一般的なダイアルアップモデムであっても良い。また、接続121は高容量(ケーブル等)接続であっても良く、モデム116は、ブロードバンドモデムであっても良い。ワイヤレスモデムも同様に、通信ネットワーク120への無線接続に用いられても良い。
コンピュータモジュール101は、一般的には、少なくとも1つのプロセッサユニット105と、メモリユニット106を含む。例えば、メモリユニット106は、半導体ランダムアクセスメモリ(RAM)と半導体リードオンリーメモリ(ROM)を有しても良い。コンピュータモジュール101は、また、多くの入力/出力(I/O)インタフェースを含み、入力/出力(I/O)インタフェースは、ビデオディスプレイ114、スピーカ117、マイクロホン180に結合された音声ビデオインタフェース107、キーボード102、マウス103、スキャナ126、カメラ127、オプションとしてのジョイスティックや他のヒューマンインタフェースデバイス(不図示)と結合されたI/Oインタフェース113、外部モデム116とプリンタ115用のインタフェース108を含む。幾つかの形態として、モデム116は、コンピュータモジュール101内に含まれても良く、例えばインタフェース108内に含まれても良い。コンピュータモジュール101は、また、ローカルネットワークインタフェース111を有し、ローカルネットワークインタフェース111は、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク122への接続123を介したコンピュータシステム100の結合を許可する。図1に示されるように、ローカル通信ネットワーク122は、また、接続124を介してワイドネットワーク120に結合されても良く、一般的には、いわゆるファイヤウォールデバイスもしくは類似の機能のデバイスを含む。ローカルネットワークインタフェース111は、イーサネット(登録商標)回路カード、Bluetooth(登録商標)無線構成や、IEEE802.11無線構成を含んでも良い。しかしながら、多くの他のタイプのインタフェースがインタフェース111として実現されても良い。
I/Oインタフェース108と113は、シリアル接続とパラレル接続の両方、もしくはいずれかを可能である。前者は、一般的には、ユニバーサル・シリアル・バス(USB)規格に準拠して実現され、USBコネクタ(不図示)に対応している。ストレージデバイス109が構成され、一般的には、ハードディスクドライブ(HDD)110を含む。フロッピーディスクドライブや磁気テープドライブ(不図示)等の他のストレージデバイスが用いられても良い。光ディスクドライブ112は、一般的には、データの不揮発性ソースとしてふるまうように構成されている。ポータブルメモリデバイス、例えば、光ディスク(例えば、CD−ROM、DVD、ブルーレイディスク(商標))、USB−RAM、ポータブル、外部ハードドライブ、フロッピーディスクなどがシステム100への適切なデータソースとして用いられても良い。
コンピュータモジュール101のコンポーネント105〜113は、一般的には、相互接続バス104を介し、当業者に知られているコンピュータシステム100の動作の一般的なモードをもたらす方法によって通信される。例えば、プロセッサ105は、接続118を用いて、システムバス104に結合されている。同様に、メモリ106と光ディスクドライブ112は、接続119によりシステムバス104に結合されている。記載された構成が実現され得るコンピュータの例は、IBM−PCおよび互換機、SunSparcstations、Apple Mac(商標)、若しくは同様のコンピュータシステムを含む。
以下に記載する方法は、コンピュータシステム100を用いることで実現されても良い。コンピュータシステム100では、図3〜図8で記載される処理が、コンピュータシステム100内で実行可能な少なくとも1つのソフトウェアアプリケーションプログラム133として実行されても良い。特に、記載される方法のステップは、コンピュータシステム100内で実行されるソフトウェア133におけるインストラクション131(図2参照)により実現される。ソフトウェアのインストラクション131は、それぞれが少なくとも1つの特有のタスクを実行するための、少なくとも1つのコードモジュールとして形成されても良い。ソフトウェアはまた、2つの別個の部分に分割されても良い。その場合、第1の部分及び対応するコードモジュールは、記載される方法を実行し、第2の部分及び対応するコードモジュールは、第1の部分とユーザとの間のユーザインタフェースを管理する。
ソフトウェアは、例えば以下に記載するストレージデバイスを含むコンピュータ読取可能な媒体に記憶されても良い。ソフトウェア133は、一般的には、HDD110若しくはメモリ106に記憶される。ソフトウェアは、コンピュータ読取可能な媒体からコンピュータシステム100にロードされ、そして、コンピュータシステム100により実行される。従って、例えば、ソフトウェア133は、光ディスクドライブ112により読み出される光学的に読取可能なディスクストレージ媒体(例えば、CD−ROM)125上に記憶されても良い。コンピュータ読取可能な媒体上に記録されたそのようなソフトウェアやコンピュータプログラムは、コンピュータプログラムプロダクトである。コンピュータシステム100におけるコンピュータプログラムプロダクトの使用は、好ましくは、記載される方法を実行するための有利な装置をもたらす。
幾つかの例では、アプリケーションプログラム133は、少なくとも1つのCD−ROM125上にコード化され、対応するドライブ112を介して読み出されても良い。若しくは代わりに、ネットワーク120若しくは122からユーザにより読み出されても良い。さらには、ソフトウェアはまた、他のコンピュータ読取可能な媒体からコンピュータシステム100にロードされても良い。コンピュータ読取可能なストレージ媒体は、記録されたインストラクション及び/又はデータを、実行及び/又は処理用のコンピュータシステム100へ提供するようないかなる不揮発性の有形のストレージ媒体にも言及する。そのようなストレージ媒体の例は、フロッピーディスク、磁気テープ、CD−ROM、DVD、ブルーレイ(商標)ディスク、ハードディスクドライブ、ROM若しくは集積回路、USBメモリ、磁気光ディスク、若しくは、PCMCIAカード等のコンピュータ読取可能なカードを、それらのようなデバイスがコンピュータモジュール101の内部であろうと外部であろうと含むものである。ソフトウェア、アプリケーションプログラム、インストラクション及び/又はデータのコンピュータモジュール101への提供に関わり得る一時的若しくは非有形のコンピュータ読取可能な伝送媒体の例は、他のコンピュータ若しくはネットワーク化されたデバイスへのネットワーク接続と同様に、無線若しくは赤外線伝送チャネルを含む。そして、インターネット若しくはイントラネットは、ウェブサイト等で記録された情報や電子メール送信を含む。
アプリケーションプログラム133の第2の部分及び上述の対応するコードモジュールは、レンダリングされ、若しくは、ディスプレイ114上に別の方法で表される少なくとも1つのグラフィカルユーザインタフェース(GUI)を実施するように実行されても良い。一般的に、キーボード102とマウス103の操作を通して、コンピュータシステム100のユーザ及びアプリケーションは、制御コマンド及び/又は入力を、GUIと関連するアプリケーションへ提供するために、機能上適応可能な方法でインタフェースを操作しても良い。また、スピーカ117を介した音声プロンプト出力を利用したオーディオインタフェースや、マイクロホン180を介したユーザボイスコマンド入力のような、機能上適応可能なユーザインタフェースの他の形式が実行されても良い。
図2は、プロセッサ105とメモリ134の詳細なブロックダイアグラムを示す図である。メモリ134は、図1のコンピュータモジュール101によりアクセスされ得る全てのメモリモジュール(HDD109と半導体メモリ106を含む)の論理的な集合体を表す。
コンピュータモジュール101が最初に電源投入されたとき、電源投入セルフテスト(POST)プログラム150が実行される。POSTプログラム150は、一般的には、図1の半導体メモリ106のROM149に記憶されている。ソフトウェアを記憶するROM149のようなハードウェアデバイスは、ファームウェアとして称される場合がある。POSTプログラム150は、適切な機能を確認するためにコンピュータモジュール101内のハードウェアを試験し、一般的には、正しい動作のために、プロセッサ105、メモリ134(109、106)、基本入出力システムソフトウェア(BIOS)モジュール151をチェックし、一般的には、ROM149に記憶される。POSTプログラム150が成功裡に動作すると、BIOS151は、図1のハードディスクドライブ110を作動させる。ハードディスクドライブ110の作動は、ハードディスクドライブ110上で常駐するブートストラップローダープログラム152を、プロセッサ105を介して実行させる。このことにより、オペレーティングシステム153が動作を開始するときに、オペレーティングシステム153がRAMメモリ106にロードされる。オペレーティングシステム153は、プロセッサ管理、メモリ管理、デバイス管理、ストレージ管理、ソフトウェアアプリケーションインタフェース、汎用的なユーザインタフェースを含む様々な高レベルの機能を実現する、プロセッサ105により実行可能なシステムレベルアプリケーションである。
オペレーティングシステム153は、各プロセス若しくはコンピュータモジュール101上で動作するアプリケーションが他のプロセスに割り当てられるメモリと衝突することなく実行するための十分なメモリを有することを確実にするため、メモリ134(109、106)を管理する。さらに、各プロセスが効果的に動作し得るために、図1のシステム100において有効なメモリと異なるタイプが適切に用いられる必要がある。従って、集合化されたメモリ134は、適切なメモリセグメントがどのように割り当てられるかを意図しておらず(さもなければ、述べられなければ)、むしろ、コンピュータシステム100によりアクセス可能なメモリの汎用的な図を提供してどのように用いられるかを示すことを意図している。
図2に示すように、プロセッサ105は、多くの機能モジュールを含み、機能モジュールは、コントロールユニット139、算術論理ユニット(ALU)140、しばしばキャッシュメモリと呼ばれるローカル若しくは内部メモリ148を含む。キャッシュメモリ148は、一般的には、レジスタセクションにおいて多くのストレージレジスタ144〜146を含む。少なくとも1つの内部バス141は、機能的に、これらの機能モジュールを相互接続する。プロセッサ105はまた、一般的には、接続118を用いて、システムバス104を介して外部デバイスと通信する少なくとも1つのインタフェース142を有する。メモリ134は、接続119を用いてバス104に結合されている。
アプリケーションプログラム133は、連続するインストラクションを含み、インストラクションは、一般的な分岐及びループのインストラクションを含んでも良い。プログラム133はまた、プログラム133の実行において用いられるデータ132を含む。インストラクション131及びデータ132は、記憶場所128、129、及び130と、135、136、及び137とのそれぞれに格納されている。インストラクション131の相対的サイズ及び記憶場所128〜130に応じて、特定のインストラクションが記憶場所130で示されるインストラクションで記述される単一の記憶場所に格納されても良い。また、記憶位置128及び129で示されるインストラクションセグメントにより記述されるように、各々が別個の記憶位置に格納される多くの部分にインストラクションがセグメント化されても良い。
一般的には、プロセッサ105により、実行される一連のインストラクションが与えられる。プロセッサ105は、他のインストラクションセットを実行することにより反応する後続の入力を待機する。各入力は、少なくとも1つのソースから提供され、ソースは、図1に示される、入力デバイス102、103の少なくとも1つにより生成されたデータ、ネットワーク120、102の1つを介して外部ソースから受信したデータ、ストレージデバイス106、109の1つから受信したデータ、若しくは、対応するリーダー112に挿入されたストレージ媒体125から受信したデータ、を含む。インストラクションセットの実行は、幾つかのケースにおいては、データの出力をもたらしても良い。実行はまた、データ若しくは変数をメモリ134に格納することを含んでも良い。
開示される構成は、入力変数154を用い、入力変数154は、メモリ134における対応する記憶場所155、156、157に格納される。開示される構成は、出力変数161を生成し、出力変数161は、メモリ134における対応する記憶場所162、163、164に格納される。中間変数158は、記憶場所159、160、166、167に格納されても良い。
図2のプロセッサ105に言及すると、レジスタ144、145、146、算術論理ユニット(ALU)140、コントロールユニット139は、協調して、プログラム133を構成するインストラクションセットにおけるインストラクションごとに「フェッチ、デコード、実行」のサイクルを実行するために必要とされるマイクロオペレーションのシーケンスを実行する。それぞれの、フェッチ、デコード、実行のサイクルは、
記憶位置128、129、130からインストラクション131をフェッチ若しくは読み出すフェッチオペレーションと、
コントロールユニット139がどのインストラクションがフェッチされたかを判定するデコードオペレーションと、
コントロールユニット139及び/又はALU140がインストラクションを実行する実行オペレーションと、を含む。
その後、次のインストラクションについてのさらなるフェッチ、デコード、実行サイクルが実行されても良い。同様に、コントロールユニット139が値を記憶場所132に格納若しくは書き込むことにより、格納サイクルが実行されても良い。
図3から図8の処理における各ステップ若しくはサブステップは、プログラム133の少なくとも1つのセグメントに関連する。そして、図3から図8の処理における各ステップ若しくはサブステップは、フェッチ、デコードを実行し、プログラム133の記載されたセグメントについてのインストラクションセットにおけるインストラクションごとにサイクルを実行するように協調する、プロセッサ105内の、レジスタセクション144、145、147、ALU140、コントロールユニット139により実行される。
記載された方法は、また、記載された方法の機能若しくは副次機能を実行する少なくとも1つの集積回路のような専用ハードウェアにおいて実行されても良い。そのような専用ハードウェアは、グラフィックプロセッサ、デジタル信号処理プロセッサ、若しくは、少なくとも1つのマイクロプロセッサ及び関連するメモリを含んでも良い。
図3は、入力ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法300を示すフローダイアグラムである。方法300は、ビデオシーケンスのビデオフレームで示されるサブジェクト間の関与の検出に基づいて、ビデオシーケンスから所望のフレームを判定する。
ビデオシーケンスとスチール写真技術の両方から魅力的なフレームを判定するために多くの要素が用いられても良い。鮮鋭さ及び許容可能な彩度のような従来の画像品質要素が、画像を選択するために用いられても良い。加えて、行動、微笑、ありきたりなコンテンツ(例えば、誕生日にろうそくを吹き消す子供)を含む、より抽象的な要素が、もし検出されるのであれば、画像を選択するために用いられても良い。
画像において魅力的なコンテンツの1つのクラスは、互いに活発に関与する人々である。活発な関与とは、例えば、画像において、互いに話したり、微笑んだりしているところをキャプチャされた人々を含む。
方法300は、既存の構成と比較すると、計算的に安価な技術を提供する。方法300は、人々がビデオシーケンスにおいてどこで関与を確立しているかを判定し、関与の期間に基づいて、ビデオシーケンスのフレーム若しくはセグメントを選択する。上述のように、各ビデオセグメントは、ビデオシーケンスの一連のシーケンシャルなビデオフレームを含む。
用語「凝視固定」は、以下詳述するように、関与の期間に基づいて、方法300に従って検出された項目に言及する。記載されるように、凝視固定は、所定の凝視固定の閾値期間に依存しても良い。
用語「凝視固定」は、眼の方向の追跡に言及する凝視検出と解釈されるべきではない。しかしながら、深度検出とともに凝視検出は、後述するように、顔の向きを監視する中で代わりのステップとして用いられても良い。方法300は、凝視検出及び深度検出の正確性及び複雑性の欠如の理由から、ビデオシーケンスのフレームを選択するにおいて、凝視検出及び深度検出の単なる使用に対しての有利性を提供する。
方法300は、少なくとも1つの所望の、入力ビデオシーケンスから抽出されたばらばらのビデオセグメントをマージすることにより、図1のコンピュータシステム100を用いてビデオサマリを生成して表示するために用いられても良い。
方法300はまた、印刷用のビデオシーケンス(例えば、フォトブックを生成する目的用)の抽出されたビデオセグメントから、少なくとも1つの所望のフレームを選択するために用いられても良い。少なくとも1つのビデオフレームは、ビデオフレームの入力されたシーケンスから表示され若しくは印刷される。
方法300は、図3を参照し例を通して記載される。方法300は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実現されても良い。
方法300に対する入力は、発展的なイベント若しくはシーンを示す複数のビデオフレームを含むビデオシーケンスである。入力ビデオシーケンスは、ビデオ信号と同期した少なくとも1つの複数音声チャネルを含んでも良い。入力ビデオシーケンスは、単一の「ショット」(例えば、テーク(take))を含み、ショットは、ビデオフレームの連続するシーケンスである(例えば、カメラを変えることなく若しくはビデオシーケンスのフレームのキャプチャをポーズ/停止することなくキャプチャされた)。他のケースにおいて、ビデオシーケンスは、複数のショットを含んでも良い。
幾つかのケースにおいて、入力ビデオシーケンスは、ホームビデオであっても良い。代わりに、ビデオシーケンスは、映画撮影技術のルールに則って専門的に生成されたビデオであっても良い。
方法300は、候補ビデオセグメント検出ステップ310で開始し、複数の(2以上の)顔を含むシーンを示す一連の候補ビデオセグメントが、プロセッサ105の実行の下、検出される。各候補ビデオセグメントは、入力ビデオシーケンスの一部分を表す。入力ビデオシーケンスの各部分は、ビデオシーケンスの一連のシーケンシャルビデオフレームを含む。
1つの構成において、ステップ310で検出された顔は、所定のサイズ閾値より大きいことを要求されても良い。ステップ310で実行される、候補ビデオセグメントの検出方法400は、図4を参照しながら詳細を後述する。
ステップ310の出力は、一連の候補ビデオセグメント、候補ビデオセグメントの各シーケンシャルフレームにおいて検出された顔のサイズ、位置、及び向きである。図5は、そのようなビデオセグメント500の1つの特定のフレーム510の例、及びフレーム510において検出された顔を示す。図5の例では、シーンにおいて3人の人物がいる。人物520と人物530の顔が方法300に従って検出され、それぞれ、破線矩形525及び535により強調されている。フレーム510の左上近傍に現れている人物540の顔は、所定のサイズ閾値より小さく、そのため、方法300によって検出されていない。代わりの構成では、フレームの中央領域範囲内にある顔のみが検出用の候補である。人物540の顔は、フレーム510の中央部分550の外側に位置する。中央部分550は、図5においては、フレーム510の内部の影付き領域により図示されている。1つの構成において、人物540の顔の位置は、人物540を検出しないための付加的な理由を提供するであろう。人物540の顔は、検出用の候補として考慮されずに無視される。
図5の例では、各検出された顔は、フレーム510において検出された顔の位置、サイズ、及び向き(例えば、フレーム510をキャプチャするために用いられるカメラに関連して)を示す一連の値と関連している。顔の向きについての正値は、フレーム510の右手側を向いた検出された顔を表す。顔の向きについての負値は、フレーム510の左手側を向いた検出された顔を表す。検出された顔の位置、サイズ、及び向きの詳細は、図7を参照しながら以下に記載する。
方法300は、顔追跡ステップ320において継続し、検出された顔のそれぞれの相対的な位置及び向きが、候補ビデオシーケンスを表す一連の後続するビデオフレーム上で追跡される。検出された顔の位置及び向きは、候補ビデオセグメント内の全てのフレーム上で追跡される。以下記載するように、検出された顔の向きは、ステップ320で追跡され、検出された顔のうち第1の顔(即ち、第1の検出された顔)が、検出された顔のうち第2の顔(即ち、第2の検出された顔)の方を向いているかが判定される。ステップ320で実行される、顔を追跡する方法600は、図6を参照しながら詳細を後述する。ステップ320の出力は、少なくとも2つの顔を含むシーン及び2つの顔の間での相対的な顔の向きを示す候補ビデオセグメントのサブセットである。
凝視コンタクト検出ステップ330が顔追跡ステップ320に続く。ステップ330において、現在の候補ビデオセグメント内で識別され追跡された全ての顔のうち、2つの検出された顔がビデオセグメントの連続したビデオフレームにおいて互いに向き合っていき、互いに向き合った後、その2つの検出された顔が互いに向き合っている場合(即ち、凝視コンタクト)、方法300は、凝視固定ステップ340への「Yes」の矢印に従う。さもなければ、方法300は、「No」の矢印に従って320へ戻り、顔の位置及び向きの追跡が現在のビデオセグメントで継続される。1つの構成において、検出された顔のうち第1の顔が第2の顔の方に回転し、一方、第2の顔は静止し、第1の顔の回転後、一対の顔が互いに向き合っている場合、方法300は、再び、ステップ340への「Yes」の矢印に従う。ステップ330で実行される、凝視コンタクトを検出する方法800は、図8を参照しながら詳細を後述する。
1つの構成において、凝視コンタクトは、候補ビデオセグメントにおける2つの顔の位置及びそれらの相対的な顔の向きの位置に基づいてステップ330において判定される。図8を参照しながら詳細を後述する。
1つの構成において、フレームごとでのステップ330での凝視コンタクト検出を実行する代わりに、現在のフレームにおいて2つの顔の間で凝視コンタクトがない場合、方法300はまず、第2の顔の円錐状の視野表面からの第1の顔の眼の最小距離を判定しても良い。円錐状の視野は、人間の眼の注目する円錐状に基づきおよそ55度のサイズを有する人間の視覚的注意の範囲の表現である。第1の顔の円錐状の視野表面からの第2の顔の眼の対応する最小距離がその後決定される。最小距離の合計が従前にテストされたフレームの合計よりも大きい場合、方法300は、テストの対象となる次のフレームまで、所定数のフレームをスキップしても良い。さもなければ、方法300は、最小距離の合計に比例して多くのフレームをスキップしても良い。
凝視コンタクト検出ステップ330に続いて、方法300は、凝視固定判定ステップ340に進む。ステップ340では、凝視コンタクトが最初にステップ330で検出されたフレームに続く少なくとも所定数のフレームNgazeについて、2つの顔が互いに向き合っているままである場合、凝視固定が2つの顔の間で確立されていると考えられる。フレームNgazeに等しい期間が、「凝視固定閾値」として称されても良い。ステップ340において少なくとも所定数のフレームNgazeについて2つの顔が互いに向き合っているままである場合、方法300は、選択ステップ350への「Yes」の矢印に従う。さもなければ、方法300は、ステップ320に戻る。
ステップ340は、第1及び第2の検出された顔の凝視固定を特定する所定数のフレームNgazeについて第1及び第2の検出された顔が互いを向いているかを判定するため、ステップ320において判定された検出された顔の追跡された向きを用いる。
ステップ350において、現在の候補ビデオセグメントから凝視固定をキャプチャする少なくとも1つのビデオフレームが、プロセッサ105の実行の下、選択される。1つの構成において、所定の凝視固定閾値は、1と1/2秒として定義される(例えば、30フレーム毎秒のビデオについて45フレームのNgazeに相当する)。代わりの構成において、凝視固定閾値は、現在の候補ビデオセグメントにおける対象物の頭の向きの動きの平均速度に基づいて調整されても良い。他の構成において、凝視固定閾値は、イベントの種類に依存しても良い。例えば、小さい凝視固定閾値が、スポーツ及びアクションシーンについてより適切であっても良い。しかしながら、大きい凝視固定閾値が、結婚式に用いられても良い。
選択ステップ350において、少なくとも1つのビデオフレームは、各候補ビデオセグメントから選択される。選択されたビデオフレームは、以下記載するように、候補ビデオセグメントから関与期間をキャプチャする。選択されたビデオフレームは、その後に、フォトブックに印刷されても良い。他の例として、選択されたビデオフレームは、ステップ310で入力された、候補ビデオセグメント若しくはビデオシーケンスの概略説明を表示するために用いられても良い。
1つの構成において、2つの顔が凝視コンタクトを有していると判定され、そして、ステップ330及び340で判定されたように所定の凝視固定閾値について互いに向き合っているままであると判定され凝視コンタクトであると判定された各候補ビデオセグメントの中央において1つのフレームが選択される。各選択されたビデオフレームは、検出された顔の凝視固定をキャプチャする。
代わりの構成において、にじみ、コントラスト、鮮鋭さ、露光、及び、写真の構図のような審美的な画像品質の指標に基づいて、ステップ350において少なくとも1つのフレームが選択される。他の構成において、現在の候補ビデオセグメント内の2つの顔が著しく異なるサイズを有する場合、方法300は、ビデオ全体から選択されたフレームがほとんどないのであれば、現在の候補ビデオセグメントから1つのフレームを選択しても良い。
次の決定ステップ360において、方法300は、処理を必要とするさらなる候補ビデオセグメントがあるかを判定する。少なくとも1つの候補ビデオセグメントが依然として処理されていない場合、方法300は、「Yes」の矢印に従い、ステップ320に戻り、次の候補ビデオセグメントを処理する。さもなければ、方法300は、終了する。
ステップ340に戻り、凝視コンタクトがステップ330において検出された後、所定数より少ないフレームにおいて2つの顔が互いに向きを変えた場合、方法300は、「No」の矢印に従い、ステップ320に戻る。方法300は、その後、2つの顔が後のフレームにおいて再び互いの方を向いていくかを検出するための顔追跡を再開する。
入力ビデオシーケンスから少なくとも1つのビデオフレーム(例えば、所望のビデオセグメント若しくはフレーム)を選択する方法300を記載したが、ステップ310で実行される、候補ビデオセグメントを検出する方法400は、図4を参照しながら詳細を後述する。方法400は、入力ビデオシーケンスから少なくとも2つの顔を有する候補ビデオセグメントを生成する。方法400は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実現されても良い。
方法400は、読取ステップ410で開始する。一般的には、ビデオやビデオショットの開始において入力ビデオシーケンスから連続したビデオフレームが、プロセッサ105の実行の下、読み取られる。
その後、チェックステップ415において、処理対象のビデオフレームがない場合、方法400は、終了する。さもなければ、処理対象の入力ビデオシーケンスのさらなるフレームがある場合、「Yes」の矢印に従って検出ステップ425に進む。
検出ステップ425において、顔検出処理が、現在のビデオフレーム内のあるサイズより大きい顔を検出するように実行される。ステップ425において実行される顔検出処理は、現在のビデオフレーム内の各検出された顔のサイズ、位置、及び向きを判定する。顔検出処理は、検出された顔に基づいて、ビデオフレームで示された特定の人物が誰であるかを必ずしも識別しなくても良い。現在のフレームにおける顔のサイズ、位置、及び向きと、現在のフレームの詳細(即ち、顔が検出されたフレーム)が、ステップ425で判定される。適切な顔検出アルゴリズムのいかなるものでも、ステップ425で用いられて良い。顔のサイズ及び位置は、そのようなアルゴリズムから取得され得る。1つの構成において、ポーズ検出が、Intel(登録商標)RealSense(商標)SDKを用いて、ステップ425で実行されても良い。
1つの構成において、ステップ425で用いられる最小の顔のサイズは、入力ビデオシーケンスの解像度に基づいている。例えば、最小のサイズは、検出された顔がフレームの重要な部分を占め且つ十分に大きいように、また、顔がビデオディスプレイ114上に表示されたとき若しくは1枚の紙に印刷されたときに人間により顔が容易に認識されるように設定されても良い。1つの構成において、標準のデフィニションビデオ(例えば、640画素×360画素)について、最小の顔のサイズは、80画素幅×80画素高のように設定されても良い。同様に、高デフィニションビデオ(例えば、1280画素×720画素)について、最小の顔のサイズは、160画素×160画素に線形的にスケールされる。1つの構成において、ステップ425で用いられる最小の顔のサイズは、顔検出処理の精度に依存しても良い。他の構成において、ステップ425において実行される顔検出処理は、各検出された個人の顔をさらに認識しても良く、認識された個人の顔のサイズ、位置、向きのみが判定される。
判定ステップ430がステップ425に続き、現在のビデオフレームにおいて検出された顔の数が、プロセッサ105の実行の下、判定される。現在のビデオフレームは、フレームが少なくとも2つの顔を含む場合、マークされる。
決定ステップ435において、現在のビデオフレームにおいて少なくとも2つの顔がある場合、方法400は、決定ステップ445に進む。さもなければ、方法400は、ステップ440に進む。
ステップ445において、新しい現在の候補セグメントが生成された場合(例えば、メモリ106において)、方法400は、ステップ460に進み、現在のビデオフレームが候補セグメントに追加される。さもなければ、方法400は、ステップ455に進み、新しい候補セグメントが生成され、メモリ106内に格納される。ステップ455から、方法400は、その後、ステップ460に進み、現在のビデオフレームを、新しく生成された候補セグメントに追加する。
決定ステップ435において、現在のビデオフレームがビデオフレーム内に少なくとも2つの顔を有していない場合、方法400は、さらなる決定ステップ440に進む。ステップ440においてメモリ106内に構成された現在の候補セグメントがある場合、方法400は、出力ステップ450に進む。さもなければ、方法400は、ステップ410に戻る。
ステップ450において、現在の候補セグメントは、セグメントの存続期間が所定の時間閾値より長い場合、出力される(例えば、メモリ106に)。所定の時間閾値より短い存続であるビデオセグメントは、破棄される。ステップ450の後、方法400は、ステップ410に戻る。
1つの構成において、所定の時間閾値は、5秒に設定される。一般的なビデオについて30フレーム毎秒では、5秒がおよそ150フレームに相当する。代わりの構成において、所定の時間閾値が、入力ビデオシーケンスのイベント区分に適応される。例えば、より小さい閾値がスポーツ及びアクションシーンに用いられても良く、より大きい閾値が結婚式や卒業式に用いられても良い。
方法400の出力は、候補ビデオセグメントの各フレームにおける、少なくとも2つの顔と、各検出された顔のサイズ、位置、及び向きと、を含む候補ビデオセグメントのリストである。
ステップ320(図3)で実行される顔を追跡する方法600は、図6のフローダイアグラムを参照しながら詳細を後述する。方法600は、候補ビデオセグメントにおける一連のビデオフレーム上の2つの検出された顔の向きを追跡する。方法600の出力は、候補セグメントの入力リストの候補ビデオセグメントのサブセットであり、サブセットの候補セグメントのそれぞれは、少なくとも2つの顔と、2つの顔の間の相対的な顔の向きとを含む。方法600は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実行されても良い。
方法600は、追跡ステップ610で開始し、候補ビデオセグメントの入力リストの各候補ビデオセグメント内で複数のビデオフレームに渡って、顔が追跡される。ビデオシーケンス内で複数のフレームに渡って顔を追跡するための様々な方法がある。
1つの構成において、現在のビデオフレームにおける顔が、従前のフレームから検出された顔のサイズ及び位置のみに基づいて追跡される。1つの構成において、従前のフレームから検出された顔のサイズ及び位置に基づいて顔が追跡され、方法300のステップ310の出力は、ステップ610で追跡するために必要とされる全ての情報を提供する。1つの構成において、シーンにおいてより多くの顔がある場合若しくは2つの顔が互いに近い場合、特にマッチングの精度を改善するために顔の向きが用いられる。他の構成において、髪の色、皮膚の色、眼鏡等の高レベルの特徴が顔の追跡を容易にするために用いられても良い。
他の構成において、顔認識が図4のステップ425で用いられた場合、複数のフレームに渡って検出された顔は、検出された顔に対応する人物の同一性を整合させることにより、より効果的に整合させることができる。
ステップ610に続いて、方法600は、選択ステップ620において、顔のペアが、各候補ビデオセグメントにおける顔全体から選択される。例えば、3つの顔A、B、Cがある場合、顔のペアは、AB、AC、及びBCとなる。顔のペアの組み合わせは、顔の数が増えるにつれ、急激に増加する。しかしながら、より小さい顔からサイズをフィルタリングすることにより、ペアの数は、計算上、問題となって現れない。他の代わりの構成において、2つの最大の顔のみが候補ビデオセグメントについて評価される。
ステップ620の出力は、顔のペアのセットである。ステップ620に続いて、判定ステップ630で、顔のペアそれぞれに関連するタイムスパンが、プロセッサ105の実行の下、判定される。タイムスパンは、候補セグメントの1つの中でペアの個々の顔が追跡された期間の共通部分として判定される。また、関連する期間が、ステップ450の最小の所定時間閾値より小さい場合、顔のペアが破棄される。幾つかの顔のペアは、共通部分となるいかなる期間も有さないかもしれない。例えば、1つの顔が視野に入り、ペアのうちの第2の顔が視野に入る前に、去っていく場合、顔は、共通部分となるいかなる期間も有さない場合がある。他の構成において、2つの顔の間に位置する付加的な顔がある期間について、付加的なフィルタリングが顔のペアを除去するために行われても良い。
その後、出力ステップ640において、最小の所定時間閾値より大きいタイムスパンを有する残った顔のペアのみが方法600により出力される。ステップ640の出力はまた、ペアにおける各顔の位置、サイズ、及び向きと、各残った顔のペアの2つの顔の間での相対的な顔の向きとを含む。ステップ640で出力される情報は、図3の方法300により用いられ、2つの顔が互いを向いていくか否か、そして、2つの顔が凝視コンタクトを有するか否かを、ステップ330と340それぞれにおいて判定する。図7Aから図7Eは、向き、位置、及びサイズの点を説明する顔の例を示す。記載の目的として、1つの図における人物の視点は、位置を述べる際に用いられる。例えば、図7Aの人物716は、人物713の左側であると言われる。向きについても同様に、顔の奥行きは、人物の向きを述べる際に用いられる。図7Bにおいて、左側を向く顔は、正の角度を有し、右側を向く顔は、負の角度を有する。
図7Aは、候補セグメント内のフレーム期間(即ち、フレーム1からフレーム20)上の顔のペアを示す。フレーム1からフレーム5まで、人物Bの顔は、人物Aの方を向いていく。フレーム3からフレーム7まで、人物Aは、人物Bの方を向いていく。フレーム7からフレーム20まで、人物Aの顔と人物Bの顔は、凝視コンタクトである。人物Aと人物Bが互いに向き合う14のフレームに相当する期間が所定の凝視固定閾値より大きい場合、人物Aの顔と人物Bの顔は、凝視固定状態であると考えられる。
図7Bは、顔の向きを表すために用いられる角度を示す。前方を向くことは、0度の角度であると考えられる。ゼロより大きい角度(即ち、>0)は、左側を向く顔を示し、ゼロより小さい角度(即ち、<0)は、右側を向く顔を示す。90度の角度及び負の90度(−90)は、横の方を向く顔である。そして、左の716上の負の90度(−90)の角度を有する顔と、左の713上の90度(90)の角度を有する顔は、互いに向き合う候補である。顔が左を向いて後ろ側であれば、角度は、90度より大きく180度より小さい角度まで拡張可能である。また、顔が右を向いて後ろ側であれば、負の90度より小さく負の180度より大きい角度まで拡張可能である。顔の角度間の絶対値が180度に等しい場合、顔は凝視コンタクトであり、その場合、顔の相対的な位置は、それらの向きと一貫する。
図7Cは、顔が異なる深度にあることを判定するために用いられ得る異なるサイズの顔を示す。図7Cにおいて異なる深度にある顔は、たとえ顔751及び752の向き及び位置が顔713及び716と同じであっても、凝視コンタクトとはみなされない。
図7Dは、顔742及び746が位置及び向きを有する構成であり、顔742及び746は、凝視コンタクトである。しかしながら、第3の顔744が顔742及び746に対して、類似の顔サイズを有し、2つの顔を分けている。従って、顔742及び746は、凝視コンタクトとはみなされない。
図7Eは、上方を見る顔と下方を見る顔を示す。図7Eにおける顔の位置は、顔及び頭の追跡ソフトウェアにより判定され得る。1つ若しくは両方の顔が図7Eで示される状態の1つであるとして検出された場合、顔は、凝視コンタクトとはみなされないであろう。
ステップ330(図3)で実行される、凝視コンタクトを検出する方法800は、図8のフローダイアグラムを参照しながら詳細を後述する。方法800は、凝視コンタクトが確立されたかを判定する。方法800は、図7Aから図7Eに例示される向きに従って記載される。
方法800は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実行されても良い。
方法800は、検出ステップ810で開始し、顔のペアが現在の候補セグメントの一連のフレーム上でモニタされる。一連のフレームにおける顔の向き及び位置が、プロセッサ105の実行の下、モニタされ、フレームにおける顔が互いの方を向いているかを検出する。例えば、図7Aに示されるように、人物Bは、フレーム1で人物Aの方を向き始めている。
図7Aの例において、人物A及び人物Bの顔の両方がモニタされ、そして、フレーム1とフレーム2の間の角度の変化に基づいてフレーム1で人物Bの顔が向き始めたことが検出される。人物A及びBの相対位置及び負の方向における角度差は、ステップ810において、人物Bの顔が人物Aの顔に向かって向き始めていることを判定するために用いられる。
その後、決定ステップ820において、ステップ810においてモニタされている顔のペアが互いに向き始めた場合、Yesの矢印に従って、モニタリングステップ850に進む。さもなければ、方法800は、ステップ830に戻る。
ステップ850において、顔のペアの各顔の位置及び向きは、顔が互いに向いていくことを停止するまでモニタされる。図7Aの例において、人物Bの顔の向いていく様子がモニタされ、そして、フレーム6において、人物Bの顔が向いていくことを停止したことが判定される。同時に、フレーム4において、人物Aの顔が人物Bの顔の方を向き始めることが検出される。
図7Aの例において、フレーム4と5の間では、人物Aの顔が一時的に向いていくことを停止している。方法800は、実質的には、人物Aの顔が人物Bの顔の方を向いていく中での一時的な一貫性のなさに対して、向いていくことをスムース化することで対処するように構成される。同様に、人物A及び人物Bの顔が異なった時間に向き始め、異なった時間に向き終わることが記載されるであろう。時間の一貫性のなさについての適切な閾値が、人物A及び人物Bのアクションが同時とみなされ得るかを判定するように設定されても良い。図7Aの例において、フレーム8において、人物A及び人物Bの顔は向くことを停止している。
方法800は、ステップ850に続いて判定ステップ860に進み、顔が凝視コンタクトであるかを判定する。図7Aから図7Eに従って上述したように、顔が凝視コンタクトであるかを判定するために用いられる要素は、例えば、顔の位置、顔の向き、顔の深度を含む。1つの構成において、検出された顔の第1の顔(例えば、人物Aの顔)は、検出された顔の第2の顔(例えば、人物Bの顔)に対してわずかに前方を向いていても良く、及び/又は、第2の顔は、第1の顔に対してわずかに後方を向いていても良い。そして、顔はなお、凝視コンタクトであると判定されても良い。
決定ステップ870において、顔が凝視コンタクトでない場合、方法800は、NOの矢印に従って、決定ステップ830に進む。さもなければ、方法800は、ステップ880に進む。
ステップ830において、処理対象の現在の候補セグメントのフレームがまだある場合には、方法800は、ステップ810に戻る。さもなければ、処理対象の現在の候補セグメントのさらなるフレームがない場合、方法800は、出力ステップ840において、凝視コンタクトが検出されなかったということを出力する。
ステップ860の後、検出された凝視コンタクトがあった場合、決定ステップ870において、方法800は、Yesの矢印に従って、決定ステップ880に進む。1つの構成において、凝視コンタクトがあると確信して確立される前に、固定の最小のターニング(turning)期間が満たされることが要求される。例えば、図7Aは、1/4秒の期間に等しい、向いていく7つのフレームの期間を示す。1つの構成において、最小のターニング期間が、1秒若しくはそれより長い時間に設定される。1つの代わりの構成において、最小の閾値は要求されない。更なる代わりの構成において、最小のターニング時間は可変である。最小の閾値は、凝視固定について上記で述べたことと似た要素により決定されても良い。ターニング期間がステップ880において最小のターニング閾値を越える場合、方法800は、凝視コンタクトが出力ステップ890において検出されたことを出力する。
産業上の利用可能性
述べた構成は、コンピュータ及びデータ処理産業、とりわけ、画像処理について適用される。
前述は、本発明の幾つかの実施形態についてのみ述べた。改良及び/又は変更が、本発明の範囲及び精神から逸脱することなく行われ得る。実施形態は、説明のためであっても限定的ではない。
本明細書の文脈において、用語”含む”は、”主に含み、必ずしももっぱらではない”、若しくは、”有する”若しくは”含む”を意味し、”のみで構成される”を意味していない。”含む”や”含む”のような用語”含む”の変形は、対応する変更した意味を有する。

Claims (20)

  1. ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法をコンピュータに実行させるためのプログラムであって、
    前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて顔を検出する検出工程と
    前記ビデオシーケンスに含まれる一連のビデオフレームにおいて、前記検出工程において検出された顔の向きを追跡する追跡工程と
    前記ビデオシーケンスに含まれる、前記検出工程において検出された第1の顔及び第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択する選択工程と、
    をコンピュータに実行させ、
    前記選択工程では、前記一連のビデオフレームの少なくとも一部において前記追跡工程において追跡された前記第1の顔の向きに基づき、前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームよりも優先して選択することを特徴とするプログラム。
  2. 前記追跡工程では、前記一連のビデオフレームにおいて、前記第1の顔の向きと前記第2の顔の向きを追跡し、
    前記選択工程では、前記第1の顔と前記第2の顔が互いに向き合っていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択することを特徴とする請求項1に記載のプログラム。
  3. 前記選択工程では、前記ビデオシーケンスにおいて、前記第1の顔が前記第2の顔の方を向いていった後の、前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択することを特徴とする請求項1または2に記載のプログラム。
  4. 前記ビデオシーケンスにおいて、前記第1の顔が前記第2の顔の方を向いていった後の、前記第1の顔と前記第2の顔が、少なくとも所定数のフレームにおいて向き合っているかを判定する判定工程をさらにコンピュータに実行させ、
    前記選択工程では、前記第1の顔と前記第2の顔が前記少なくとも所定数のフレームにおいて向き合っていると前記判定工程において判定されたことに基づいて、前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択することを特徴とする請求項1乃至3のいずれか1項に記載のプログラム。
  5. 前記選択工程において選択されたビデオフレームは、前記検出工程において検出された顔の凝視固定をキャプチャするものであることを特徴とする請求項1乃至4のいずれか1項に記載のプログラム。
  6. 前記第1の顔は、前記第2の顔が静止している間に、前記第2の顔の方を向いていく顔であることを特徴とする請求項1乃至5のいずれか1項に記載のプログラム
  7. 前記凝視固定は閾値期間に依存することを特徴とする請求項に記載のプログラム
  8. 前記凝視固定は最小のターニング時間に依存することを特徴とする請求項に記載のプログラム
  9. 前記第1の顔と前記第2の顔は、前記検出工程において検出され且つ所定の条件を満たす顔であることを特徴とする請求項1乃至8のいずれか1項に記載のプログラム。
  10. 前記所定の条件は、フレームにおける所定の中央の領域に含まれる顔であることを含むことを特徴とする請求項に記載のプログラム
  11. 前記所定の条件は、所定のサイズより大きな顔であることを含むことを特徴とする請求項9または10に記載のプログラム。
  12. 前記所定の条件は、前記第1の顔と前記第2の顔の候補である2つの顔の大きさの違いに基づく条件であることを特徴とする請求項9乃至11のいずれか1項に記載のプログラム。
  13. 前記所定の条件は、フレームにおいて、前記第1の顔と前記第2の顔の候補である2つの顔の間に他の顔が存在するか否かに基づく条件であることを特徴とする請求項9乃至12のいずれか1項に記載のプログラム。
  14. フォトブックにおいて前記選択工程において選択されたフレーム印刷されることを特徴とする請求項1乃至13のいずれか1項に記載のプログラム
  15. 前記ビデオシーケンスの概略説明において前記選択工程において選択されたフレーム表示されることを特徴とする請求項1乃至13のいずれか1項に記載のプログラム
  16. 前記選択工程において選択されたフレームにおいて、前記第1の顔は、前記第2の顔と相対的に前方を向いており、前記第2の顔は、前記第1の顔と相対的に後方を向いていることを特徴とする請求項1乃至15のいずれか1項に記載のプログラム
  17. 前記選択工程では、
    前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択し、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームを選択しないことを特徴とする請求項1乃至16のいずれか1項に記載のプログラム。
  18. ビデオシーケンスの少なくとも1つのビデオフレームを選択するシステムであって、
    データ及びコンピュータプログラムを記憶するメモリと、
    前記コンピュータプログラムを実行するためのメモリと結合されたプロセッサと、を有し、前記コンピュータプログラムは、
    前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて顔を検出し、
    前記ビデオシーケンスに含まれる一連のビデオフレームにおいて、前記検出された顔の向きを追跡し、
    前記ビデオシーケンスに含まれる、前記検出された第1の顔及び第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択するインストラクションを有し、
    前記選択においては、前記一連のビデオフレームの少なくとも一部において前記追跡された前記第1の顔の向きに基づき、前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームよりも優先して選択することを特徴とするシステム。
  19. ビデオシーケンスの少なくとも1つのビデオフレームを選択する装置であって、
    前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて顔を検出する手段と、
    前記ビデオシーケンスに含まれる一連のビデオフレームにおいて、前記検出された顔の向きを追跡する手段と、
    前記ビデオシーケンスに含まれる、前記検出された第1の顔及び第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択する手段と、を有し、
    前記選択においては、前記一連のビデオフレームの少なくとも一部において前記追跡された前記第1の顔の向きに基づき、前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームよりも優先して選択することを特徴とする装置。
  20. ビデオシーケンスの少なくとも1つのビデオフレームを選択する装置において実行される方法であって、
    前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて顔を検出する検出工程と、
    前記ビデオシーケンスに含まれる一連のビデオフレームにおいて、前記検出工程において検出された顔の向きを追跡する追跡工程と、
    前記ビデオシーケンスに含まれる、前記検出工程において検出された第1の顔及び第2の顔が互いの方を向いている少なくとも1つのビデオフレームを選択する選択工程と、を有し
    前記選択工程では、前記一連のビデオフレームの少なくとも一部において前記追跡工程において追跡された前記第1の顔の向きに基づき、前記第1の顔が前記第2の顔の方を向いていくことで前記第1の顔及び前記第2の顔が互いの方を向いている少なくとも1つのビデオフレームを、2つの顔の向きが変化せずに当該2つの顔が互いの方を向いているビデオフレームよりも優先して選択することを特徴とする方法。
JP2017094882A 2016-05-13 2017-05-11 ビデオフレームを選択するプログラム、システム、装置、及び方法 Active JP6373446B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2016203135A AU2016203135A1 (en) 2016-05-13 2016-05-13 Method, system and apparatus for selecting a video frame
AU2016203135 2016-05-13

Publications (2)

Publication Number Publication Date
JP2017204280A JP2017204280A (ja) 2017-11-16
JP6373446B2 true JP6373446B2 (ja) 2018-08-15

Family

ID=60294826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017094882A Active JP6373446B2 (ja) 2016-05-13 2017-05-11 ビデオフレームを選択するプログラム、システム、装置、及び方法

Country Status (3)

Country Link
US (1) US10372994B2 (ja)
JP (1) JP6373446B2 (ja)
AU (1) AU2016203135A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460196B2 (en) * 2016-08-09 2019-10-29 Adobe Inc. Salient video frame establishment
AU2017245322A1 (en) * 2017-10-10 2019-05-02 Canon Kabushiki Kaisha Method, system and apparatus for selecting frames of a video sequence
CN112911385B (zh) * 2021-01-12 2021-12-07 平安科技(深圳)有限公司 待识别图片的提取方法、装置、设备以及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393136B1 (en) 1999-01-04 2002-05-21 International Business Machines Corporation Method and apparatus for determining eye contact
SG91841A1 (en) 1999-11-03 2002-10-15 Kent Ridge Digital Labs Face direction estimation using a single gray-level image
JP2005124160A (ja) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 会議支援システム、情報表示装置、プログラム、及び制御方法
US7634108B2 (en) * 2006-02-14 2009-12-15 Microsoft Corp. Automated face enhancement
US8379154B2 (en) 2006-05-12 2013-02-19 Tong Zhang Key-frame extraction from video
US7916894B1 (en) 2007-01-29 2011-03-29 Adobe Systems Incorporated Summary of a video using faces
US20090019472A1 (en) * 2007-07-09 2009-01-15 Cleland Todd A Systems and methods for pricing advertising
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
JP5089641B2 (ja) 2009-04-21 2012-12-05 日本電信電話株式会社 ビデオ画像プリント装置およびビデオ画像プリントプログラム
CN102461152A (zh) 2009-06-24 2012-05-16 惠普开发有限公司 图像的汇编
JP2011082915A (ja) 2009-10-09 2011-04-21 Sony Corp 情報処理装置、画像抽出方法及び画像抽出プログラム
JP2012038106A (ja) 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
US8520052B2 (en) 2011-02-02 2013-08-27 Microsoft Corporation Functionality for indicating direction of attention
JP5794685B2 (ja) 2011-08-09 2015-10-14 キヤノン株式会社 画像処理装置、方法及びプログラム
US8854282B1 (en) 2011-09-06 2014-10-07 Google Inc. Measurement method
US9329682B2 (en) 2013-06-18 2016-05-03 Microsoft Technology Licensing, Llc Multi-step virtual object selection
GB2528330B (en) * 2014-07-18 2021-08-04 Unifai Holdings Ltd A method of video analysis

Also Published As

Publication number Publication date
US10372994B2 (en) 2019-08-06
AU2016203135A1 (en) 2017-11-30
US20170330038A1 (en) 2017-11-16
JP2017204280A (ja) 2017-11-16

Similar Documents

Publication Publication Date Title
US10706892B2 (en) Method and apparatus for finding and using video portions that are relevant to adjacent still images
JP7365445B2 (ja) コンピューティング装置及び方法
JP6790177B2 (ja) ビデオシーケンスのフレームを選択する方法、システム及び装置
CN108197586B (zh) 脸部识别方法和装置
US9323979B2 (en) Face recognition performance using additional image features
WO2017177768A1 (zh) 一种信息处理方法及终端、计算机存储介质
EP2998960B1 (en) Method and device for video browsing
CN111480156A (zh) 利用深度学习选择性存储视听内容的***和方法
US20130021490A1 (en) Facial Image Processing in an Image Capture Device
CN102385703B (zh) 一种基于人脸的身份认证方法及***
US11042725B2 (en) Method for selecting frames used in face processing
WO2012162317A2 (en) Automatically optimizing capture of images of one or more subjects
US9846956B2 (en) Methods, systems and computer-readable mediums for efficient creation of image collages
KR102127351B1 (ko) 사용자 단말 장치 및 그 제어 방법
JP6157165B2 (ja) 視線検出装置及び撮像装置
JP6373446B2 (ja) ビデオフレームを選択するプログラム、システム、装置、及び方法
WO2014074959A1 (en) Real-time face detection using pixel pairs
US8184869B2 (en) Digital image enhancement
US20140285649A1 (en) Image acquisition apparatus that stops acquisition of images
US20240005464A1 (en) Reflection removal from an image
KR101835531B1 (ko) 얼굴 인식 기반의 증강현실 영상을 제공하는 디스플레이 장치 및 이의 제어 방법
Ahlvers et al. Model-free face detection and head tracking with morphological hole mapping
CN104935807B (zh) 摄像装置、摄像方法以及计算机可读取的记录介质
CN116506724A (zh) 拍照辅助方法、装置、介质及终端
JP2017016592A (ja) 主被写体検出装置、主被写体検出方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180717

R151 Written notification of patent or utility model registration

Ref document number: 6373446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151