JP6423872B2 - ビデオ分類方法および装置 - Google Patents

ビデオ分類方法および装置 Download PDF

Info

Publication number
JP6423872B2
JP6423872B2 JP2016523976A JP2016523976A JP6423872B2 JP 6423872 B2 JP6423872 B2 JP 6423872B2 JP 2016523976 A JP2016523976 A JP 2016523976A JP 2016523976 A JP2016523976 A JP 2016523976A JP 6423872 B2 JP6423872 B2 JP 6423872B2
Authority
JP
Japan
Prior art keywords
video
image type
frame
face
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016523976A
Other languages
English (en)
Other versions
JP2018502340A (ja
Inventor
陳志軍
侯文迪
龍飛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018502340A publication Critical patent/JP2018502340A/ja
Application granted granted Critical
Publication of JP6423872B2 publication Critical patent/JP6423872B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Collating Specific Patterns (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Description

本発明は、マルチメディア・クラスタリング技術分野に関し、特にビデオ分類方法および装置に関する。
現在、ユーザーは撮影装置を用いてビデオ、写真などのマルチメディアデータを撮影することができる。写真については、現在すでに顔クラスタリング技術が存在し、同じ人物の撮影に関わる写真を当該人物に対応する写真集に分類することができる。しかし、同一人物の撮影に関わるビデオと写真に対して顔クラスタリングを適用する技術が不足しているため、ユーザーは手動でビデオを分別するしかなく、スマート化が低く、効率も低い。
本発明は、前記技術に存在する不足を解決すべく、ビデオ分類方法および装置を提供する。
本発明の実施例の第1の態様によれば、ビデオ分類方法を提供する。前記分類方法は、
ビデオにおける、顔を含むキーフレームを取得するステップと、
前記キーフレームにおける顔特徴を取得するステップと、
画像タイプに対応する顔特徴を取得するステップと、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップと、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含む。
一実施例では、前記ビデオにおける、顔を含むキーフレームを取得するステップは、
前記ビデオから顔を含む少なくとも1つのビデオフレームを取得するステップと、
前記少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定するステップと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップと、を含む。
一実施例では、前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定するステップと、
少なくとも1つの前記非重複ビデオフレームを前記キーフレームとして特定するステップと、を含む。
一実施例では、前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも1組の重複ビデオフレームを特定するステップと、
各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定するステップと、を含み、
各組の前記重複ビデオフレームが少なくとも2つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じである。
一実施例では、前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップは、前記ビデオの数が少なくとも2つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定するステップと、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得するステップと、前記少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定するステップと、を含み、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップは、前記各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てるステップを含む。
一実施例では、前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定するステップと、
前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定するステップと、を含む。
一実施例では、前記方法は、
前記ビデオの撮影時刻および撮影場所を取得するステップと、
前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定するステップと、
前記ビデオを前記目的画像が属する画像タイプに割り当てるステップと、をさらに含む。
本発明の実施例の第2の態様によれば、ビデオ分類装置を提供する。前記分類装置は、
ビデオにおける、顔を含むキーフレームを取得する、第1取得モジュールと、
前記第1取得モジュールが取得した前記キーフレームにおける顔特徴を取得する、第2取得モジュールと、
画像タイプに対応する顔特徴を取得する、第3取得モジュールと、
前記第2取得モジュールが取得した前記キーフレームにおける顔特徴と前記第3取得モジュールが取得した前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定する、第1特定モジュールと、
前記ビデオを前記第1特定モジュールが特定した前記ビデオが属する画像タイプに割り当てる、第1割当モジュールと、を備える。
一実施例では、前記第1取得モジュールは、
前記ビデオから顔を含む少なくとも1つのビデオフレームを取得する、取得サブモジュールと、
前記取得サブモジュールが取得した前記少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定する、第1特定サブモジュールと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する、第2特定サブモジュールと、を備える。
一実施例では、前記第2特定サブモジュールはさらに、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも1つの前記非重複ビデオフレームを前記キーフレームとして特定する。
一実施例では、前記第2特定サブモジュールはさらに、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータ同じ少なくとも1組の重複ビデオフレームを特定し、各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定し、各組の前記重複ビデオフレームに少なくとも2つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じである。
一実施例では、前記第1特定モジュールは、
前記ビデオの数が少なくとも2つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定し、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得し、前記少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する、第3特定サブモジュールを備え、
前記第1割当モジュールは、
前記第3特定サブモジュールが特定した各ビデオタイプのビデオに同じ顔特徴に対応する画像タイプに割り当てる、第1割当サブモジュールを備える。
一実施例では、前記第1特定モジュールは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定する、第4特定サブモジュールと、
前記第4特定サブモジュールが特定した前記にマッチングする画像タイプは前記ビデオが属する画像タイプであると特定する、第2割当サブモジュールと、を備える。
一実施例では、前記装置は、
前記ビデオの撮影時刻および撮影場所を取得する、第4取得モジュールと、
前記第4取得モジュールが取得した前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定する、第2特定モジュールと、
前記ビデオを前記第2特定モジュールが特定した前記目的画像が属する画像タイプに割り当てる、第2割当モジュールと、をさらに備える。
本発明の実施例の第3の態様によれば、ビデオ分類装置を提供する。前記ビデオ分類装置は、
プロセッサと、
プロセッサの実行可能な指令を記憶するためのメモリと、を備え、
前記プロセッサは、
ビデオにおける、顔を含むキーフレームを取得し、
前記キーフレームにおける顔特徴を取得し、
画像タイプに対応する顔特徴を取得し、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定し、
前記ビデオを前記ビデオが属する画像タイプに割り当てるように構成される。
本発明の実施例に係る技術案は、以下の格別な作用効果を含むことができる。
前記技術案から分かるように、インテリジェント・オートメーション化してビデオを当該ビデオに撮影されている人物に対応する画像タイプに分類することができ、ユーザーが手動で分類する必要がないのみならず、分別精度も高い。
前記のした一般的な記述および後続する詳細な記述は、単に例示的および解釈的なものであり、本発明を制限できるものでないと理解されるべきである。
ここでの図面は、明細書を構成する一部として見なされ、本発明に適した実施例を示し、かつ、明細書の文字記載とともに本発明の仕組みを解釈するために用いられる。
一実施例に係るビデオ分類方法を示すフローチャートである。 一実施例に係る別のビデオ分類方法を示すフローチャートである。 一実施例に係るさらに他のビデオ分類方法を示すフローチャートである。 一実施例に係るビデオ分類装置を示すブロック図である。 一実施例に係る別のビデオ分類装置を示すブロック図である。 一実施例に係るさらに他のビデオ分類装置を示すブロック図である。 一実施例に係るまた他のビデオ分類装置を示すブロック図である。 一実施例に係るまた他のビデオ分類装置を示すブロック図である。 一実施例に係るに適用されるネットワーク接続装置を示すブロック図である。
次に、実施例を詳細に説明し、例示が図に示されている。以下の記述が図に係る場合、別途にて示さない限り、異なる図面における同じ符号は、同じ又は類似する要素を示す。以下の実施例に記述される実施形態は、本発明と一致する全ての実施形態を代表するとは限らない。逆に、それらは、添付する特許請求の範囲に記載されているように、本発明の一部の態様と一致する装置および方法の例に過ぎない。
本発明の実施例は、インテリジェント・オートメーション化してビデオを当該ビデオに撮影されている人物に対応する画像タイプに分類することができ、ユーザーが手動で分類する必要がないのみならず、分別精度も高いビデオ分類技術を提供する。
本発明の実施例が提供する方法を説明する前に、画像タイプおよびこれの生成方法を説明する。1つの画像タイプは1つの顔に対応し、各画像タイプの画像に全て同じ顔がある場合、1つの画像タイプが1人に対応していると言えるため、各画像タイプは同一の顔特徴を有する1組の画像を含む。本発明の実施例は、以下の顔クラスタリング方法を用いて画像タイプを生成することができるが以下の方法に限らない。
顔クラスタリング方法では、通常、最初のクラスタリングにて全量のクラスタリング方法を用いて初期化し、後続のクラスタリングでは一般的にクラスタリングを増量する方法を用いる。顔クラスタリング方法以下のステップをA1−A5を含んでもよい。
ステップA1では、N個の画像それぞれが備える顔特徴を取得し、N個の顔特徴を取得し、Nは2より大きい又は等しい。クラスタリング初期は、各顔を1タイプと見なすため、初期はN個のタイプが存在する。
ステップA2では、N個のタイプから、タイプとタイプとの間の距離を算定する。タイプとタイプとの間の距離は2つのタイプそれぞれが備える顔との距離である。
ステップA3では、距離閾値θを事前に設定する。2つのタイプとの間の距離がθより小さければ、この2つのタイプは対応する同一人物であると見なし、この反復はこの2つのタイプを1つの新しいタイプに合併する。
ステップA4では、ステップA3を繰り返して実行し、反復を繰り返し、反復中に新しいタイプが作成されなくなれば、反復を終了する。
ステップA5では、結果として計M個のタイプを作成する。各タイプとも少なくとも1つの顔を備え、1つのタイプは、1人の人物を示す。
図1に示すように、図1は、本発明の実施例に係るビデオ分類方法を示すフローチャートである。当該方法の実行主体はマルチメディアファイルを管理するアプリケーションでもよい。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、前記アプリケーションがインストールされている機器に記憶したビデオ、画像タイプおよび画像タイプの画像をいう。この他に、当該方法の実行主体はマルチメディアファイルを記憶している電子機器でもよい。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、当該電子機器に記憶しているビデオ、画像タイプおよび画像タイプの画像をいう。前記アプリケーション又は電子機器は周期的に自動的に当該方法を作動させてもよく、ユーザーの指示を受信したときに当該方法を作動させてもよく、少なくとも1つの新しいビデオを作成したことを検知したときに自動的に当該方法を作動させてもよい。当該方法を作動させるタイミングは数種類存在してもよく、前記に例示した数種類に限定しない。これの最終的な目的は当該方法を用いてビデオに対してスマート化された分類を行い、労力を減らすことである。
図1に示すように、当該方法はステップS101と、テップS102と、テップS103と、テップS104と、ステップS105とを含む。
ステップS101では、ビデオにおける、顔を含むキーフレームを取得する。
一実施例では、ビデオから如何なる1つ又は複数の顔を含むビデオフレームを選択してキーフレームとすることができ、図2に示す形態に従い、キーフレームを取得することもでき、図2に示すように、ステップS101は以下のステップS201と、ステップS202と、ステップS203とを実施することができる。
ステップS201では、ビデオから顔を含む少なくとも1つのビデオフレームを取得する。
ステップS202では、少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける顔の数、顔の位置のいずれか一項又は二項を含む顔パラメータを特定する。
ステップS203では、各ビデオフレームにおける顔パラメータに基づいて、ビデオにおけるキーフレームを特定する。
ただし、ステップS203以下の実施形態1、実施形態2におけるいずれかの1つ又は2つを実施することができる。
実施形態1:各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも1つの非重複ビデオフレームはキーフレームであると特定する。
即ち、非重複ビデオフレームとは、顔パラメータが他のいずれのビデオフレームとも異なるビデオフレームをいい、顔画面に他のビデオフレームに重複して出現していない。したがって、1つまたは複数の非重複ビデオフレームをいずれか選択してキーフレームとすることができる。
実施形態2:各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが同じである少なくとも1組の重複ビデオフレームを特定し、各組の重複ビデオフレームに少なくとも2つのビデオフレームを含み、各組の重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであり、各組の重複ビデオフレームにおけるいずれかのビデオフレームは前記キーフレームであると特定する。
ただし、所定の時間は事前に設定できる。通常、ビデオの同じ画面は長く持続できないため、所定の時間を長くすることは適切でない。ビデオは毎秒24フレーム再生することを鑑みると、所定の時間はN/24秒以内に制御でき、Nは1より大きい又は等しい、且つ、24より小さい又は等しい(又は36、又は他の数値,必要に応じて決定できる)。所定の時間が短いほど、最後に選択するキーフレームはより正確になる。即ち、各組の重複ビデオフレームにおける各ビデオフレームの顔画面は同じであり、同じ顔画面が複数のビデオフレームに出現する。したがって、各組の重複ビデオフレームにおいて、如何なるビデオフレームを選択してキーフレームとしてもよく、重複排除効果を実現し、キーフレーム選択における効率を高める。
以上の実施形態1、実施形態2は単独で実施してもよく、組み合わせて実施してもよい。
ステップS102では、キーフレームにおける顔特徴を取得する。
ステップS103では、画像タイプに対応する顔特徴を取得する。
ステップS104では、キーフレームにおける顔特徴と画像タイプに対応する顔特徴に基づいて、ビデオが属する画像タイプを特定する。
ステップS105では、ビデオをビデオが属する画像タイプに割り当てる。
本発明の実施例は、インテリジェント・オートメーション化してビデオをビデオと画像に分類することができ、ユーザーが手動で分類する必要がないのみならず、顔特徴により分別を行い、精度も高い前記方法を提供する。
一実施例では、ステップS104は、以下のステップB1−B2を実施することができる。ステップB1では、画像タイプに対応する顔特徴から、キーフレームにおける顔特徴にマッチングする画像タイプを特定する。例えば、前記ステップA1−A5を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。キーフレームが属する画像タイプはキーフレームにおける顔特徴にマッチングする画像タイプである。ステップB2では、前記のステップB1が特定したマッチングする画像タイプはビデオが属する画像タイプであると特定する。
別の実施例では、ステップS104は以下のステップC1と、ステップC2と、ステップC3とを実施することができる。
ステップC1では、ビデオの数が少なくとも2つであるとき、各ビデオのキーフレームにおける顔特徴を特定する。ステップC2では、各ビデオのキーフレームにおける顔特徴に基づいて、少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得し、1つのビデオタイプに1つの顔が対応する。具体的に、前記ステップA1−A5を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。1タイプは1つのビデオタイプであるため、各ビデオタイプは1つの顔特徴に対応する。ビデオのキーフレームが属するビデオタイプは、当該ビデオが属するビデオタイプである。ステップC3では、少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。即ち、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。これに応じて、前記のステップS105を実施することができ、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。このような形態では、先にビデオに対して顔クラスタリング処理を行い、ビデオタイプを取得する。その後に再度ビデオに対して顔クラスタリング処理を行い、同じ顔に対応するビデオタイプと画像タイプを特定し、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。これにより、ビデオの分類処理を実現する。
一実施例では、前記の方法はさらに以下の形態を用いてビデオ分類を行うことができる。このような形態では顔クラスタリング処理を行う必要がなく、おおまかに撮影時刻および撮影場所と同じであると見なせば、ビデオと画像は同一人物が撮影されていると見なし、これらを1つのタイプに分類する。このような形態は一定の正確性を有し、分類速度も速い。図3に示すように、前記の方法はステップS301と、テップS302と、ステップS303とをさらに含んでもよい。ステップS301では、ビデオの撮影時刻と撮影場所を取得する。ステップS302では、ビデオの撮影時刻および撮影場所と同じである目的画像を特定する。ステップS303では、ビデオを目的画像が属する画像タイプに割り当てる。
本発明の実施例の第2の態様によれば、ビデオ分類装置を提供する。当該装置は、マルチメディアファイルを管理するアプリケーションに用いることができる。このとき、当該装置に係るビデオ、画像タイプおよび画像タイプの画像とは、前記アプリケーションがインストールされている機器に記憶したビデオ、画像タイプおよび画像タイプの画像をいう。この他に、当該装置は、マルチメディアファイルを記憶している電子機器にもちいることもできる。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、当該電子機器に記憶しているビデオ、画像タイプおよび画像タイプの画像をいう。前記アプリケーション又は電子機器周期的に自動的に当該装置実行操作を作動させてもよく、ユーザーの指示を受信したときに当該装置実行操作を作動させてもよく、さらに少なくとも1つの新しいビデオを作成したことを検知したときに自動的に当該装置実行操作を作動させてもよい。作動させるタイミングは数種存在してもよく、前記に例示した数種類に限定しない,これの最終的な目的は当該装置を用いてビデオに対してスマート化された分類を行い、労力を減らすことである。図4に示すように、当該装置は、第1取得モジュール41と、第2取得モジュール42と、第3取得モジュール43と、第1特定モジュール44と、第1割当モジュール45と、を備える。
第1取得モジュール41は、ビデオにおける、顔を含むキーフレームを取得するように構成される。
第2取得モジュール42は、、第1取得モジュール41が取得したキーフレームにおける顔特徴を取得するように構成される。
第3取得モジュール43は、画像タイプに対応する顔特徴を取得するように構成される。
第1特定モジュール44は、第2取得モジュール42が取得したキーフレームにおける顔特徴と第3取得モジュール43が取得した画像タイプに対応する顔特徴に基づいて、ビデオが属する画像タイプを特定するように構成される。
第1割当モジュール45は、ビデオを第1特定モジュール41が特定したビデオが属する画像タイプに割り当てるとように構成される。
本発明の実施例では、インテリジェント・オートメーション化してビデオをビデオと画像に分類することができ、ユーザーが手動で分類する必要がないのみならず、顔特徴により分別を行い、精度も高い前記の装置を提供する。
一実施例では、図5に示すように、第1取得モジュール41は、取得サブモジュール51と、第1特定サブモジュール52と、第2特定サブモジュール53と、を備える。
取得サブモジュール51は、ビデオから顔を含む少なくとも1つのビデオフレームを取得するように構成される。
第1特定サブモジュール52は、取得サブモジュール51が取得し少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける顔の数、顔の位置のいずれか一項又は二項を含む顔パラメータを特定するように構成される。
第2特定サブモジュール53は、各ビデオフレームにおける顔パラメータに基づいて、ビデオにおけるキーフレームを特定するように構成される。
一実施例では、第2特定サブモジュール53はさらに、各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも1つの非重複ビデオフレームはキーフレームであると特定するように構成される。即ち、非重複ビデオフレームとは、顔パラメータが他のいずれのビデオフレームとも異なるビデオフレームをいい、顔画面に他のビデオフレームに重複して出現していない。したがって、1つまたは複数の非重複ビデオフレームをいずれか選択してキーフレームとすることができる。
一実施例では,第2特定サブモジュール53はさらに、各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが同じである少なくとも1組の重複ビデオフレームを特定し、各組の重複ビデオフレームに少なくとも2つのビデオフレームを含み、各組の重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の重複ビデオフレームにおける全てのビデオフレーム的顔パラメータ同じであり、各組の重複ビデオフレームにおけるいずれかのビデオフレームはキーフレームであると特定するように構成される。
ただし、所定の時間は事前に設定できる。通常、ビデオの同じ画面は長く持続できないため、所定の時間を長くすることは適切でない。ビデオは毎秒24フレーム再生することを鑑みると、所定の時間はN/24秒以内に制御でき、Nは1より大きい又は等しい、即ち、各組の重複ビデオフレームにおける各ビデオフレームの顔画面は同じであり、同じ顔画面が複数のビデオフレームに出現する。したがって、各組の重複ビデオフレームにおいて、如何なるビデオフレームを選択してキーフレームとしてもよく、重複排除効果を実現し、キーフレーム選択における効率を高める。
一実施例では,図6に示すように、第1特定モジュール44は、ビデオの数が少なくとも2つであるとき、各ビデオのキーフレームにおける顔特徴を特定し、各ビデオのキーフレームにおける顔特徴に基づいて、少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得し、1つのビデオタイプに1つの顔が対応するように構成される、第3特定サブモジュール61を備える。具体的に、前記ステップA1−A5を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。1タイプは1つのビデオタイプであるため、各ビデオタイプは1つの顔特徴に対応する。ビデオのキーフレームが属するビデオタイプは、当該ビデオが属するビデオタイプである。少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。即ち、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。
第1割当モジュール45は、第3特定サブモジュール61が特定した各ビデオタイプのビデオ同じ顔特徴に対応する画像タイプに割り当てるように構成される、第1割当サブモジュール62を備える。
前記の装置は、先にビデオに対して顔クラスタリング処理を行い、ビデオタイプを取得する。その後に再度ビデオに対して顔クラスタリング処理を行い、同じ顔に対応するビデオタイプと画像タイプを特定し、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。これにより、ビデオの分類処理を実現する。
一実施例では、図7に示すように、第1特定モジュール44は、第4特定サブモジュール71と、第2割当サブモジュール72と、を備える。
第4特定サブモジュール71と、画像タイプに対応する顔特徴から、キーフレームにおける顔特徴にマッチングする画像タイプを特定するように構成される。
第2割当サブモジュール72は、第4特定サブモジュール71が特定したにマッチングする画像タイプはビデオが属する画像タイプであると特定するように構成される。
一実施例では、図8に示すように、前記の装置は、第4取得モジュール81と、第2特定モジュール82と、第2割当モジュール83と、をさらに備える
第4取得モジュール81は、ビデオの撮影時刻と撮影場所を取得するように構成される。
第2特定モジュール82は、第4取得モジュール81が取得したビデオの撮影時刻および撮影場所と同じである目的画像を特定するように構成される。
第2割当モジュール83は、ビデオを第2特定モジュール82が特定した目的画像が属する画像タイプに割り当てるように構成される。
前記の装置では、顔クラスタリング処理を行う必要がなく、おおまかに撮影時刻と撮影場所が同じであると見なせば、ビデオと画像は同一人物が撮影されていると見なし、これらを1つのタイプに分類する。このような形態は一定の正確性を有し、分類速度も速い。
本発明の実施例の第3の態様によれば、ビデオ分別装置を提供する。前記分別装置は、プロセッサと、プロセッサの実行可能な指令を記憶するためのメモリと、を備える。
前記プロセッサは、
ビデオにおける、顔を含むキーフレームを取得し、
キーフレームにおける顔特徴を取得し、
画像タイプに対応する顔特徴を取得し、
キーフレームにおける顔特徴と画像タイプに対応する顔特徴とに基づいて、ビデオが属する画像タイプを特定し、
ビデオをビデオが属する画像タイプに割り当てるように構成される。
図9に示すように、図9は、一実施例に係るビデオ分類ための装置800を示すブロック図である。例えば、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレットデバイス、医療設備、フィットネス機器、PDAなどである。
図9を参照すると、装置800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インターフェース812、センサユニット814、および、通信ユニット816のうちの1つ又は複数を含んでもよい。
処理ユニット802は、通常は、表示、電話発呼、データ通信、カメラ操作および記録操作に関連する操作のような、装置800の全般操作を制御する。処理ユニット802は、前記方法の全部又は一部のステップを実施させるように、指令を実行するための1つ又は複数のプロセッサ1820を含んでもよい。また、処理ユニット802は、処理ユニット802と他のユニットとの間の相互作用を容易にするように、1つ又は複数のモジュールを含んでもよい。例えば、処理ユニット802は、マルチメディアユニット808と処理ユニット802との間の相互作用を容易にするように、マルチメディアモジュールを含んでもよい。
メモリ804は、各タイプのデータを記憶して装置800での操作をサポートするように構成される。これらのデータの例示は、装置800で操作するための如何なるのアプリケーションもしくは方法の指令、連絡人データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ804は、如何なる種別の揮発性もしくは不揮発性記憶装置又はそれらの組合せで実現されてもよい。例えば、静的ランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクであってもよい。
電源ユニット806は、装置800のユニットのそれぞれに電力を供給する。電源ユニット806は、電源管理システム、1つ又は複数の電源、並びに、装置800用の電力を生成、管理および配分するに関する他のユニットを含んでもよい。
マルチメディアユニット808は、前記装置800とユーザーとの間に1つの出力インターフェースを供給するスクリーンを含む。一部の実施例では、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンは、タッチパネルを含む場合、ユーザーからの入力信号を受信するように、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを感知するように、1つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチあるいはスライド動作の境界を感知するだけではなく、前記タッチあるいはスライド操作と関連する持続時間および圧力をさらに検出することができる。一部の実施例では、マルチメディアユニット808は、1つのフロントカメラおよび/又はバックカメラを含む。装置800が操作モード、例えば、撮影モードあるいはビデオモードであるとき、フロントカメラおよび/又はバックカメラは、外部のマルチメディアデータを受信することができる。フロントカメラおよびバックカメラのそれぞれは、1つの固定の光学レンズシステムであってもよいし、焦点距離および光学ズーム能力を有するものであってもよい。
オーディオユニット810は、オーディオ信号を出力および/又は入力するように構成される。例えば、オーディオユニット810は、マイク(MIC)を備え、装置800が操作モード、例えば、発呼モード、記録モードおよび音声識別モードであるとき、マイクは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらに、メモリ804に格納される、又は、通信ユニット816を介して送信されることができる。一部の実施例では、オーディオユニット810は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース812は、処理ユニット802とペリフェラルインターフェースモジュールとの間でインターフェースを供給するものであり、前記ペリフェラルインターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンには、ホームページボタン、ボリュームボタン、起動ボタンおよびロックボタンが含まれてもよいが、それらに限定されない。
センサユニット814は、様々な側面での状態推定を装置800に供給するための1つ又は複数のセンサを含む。例えば、センサユニット814は、装置800のオン/オフ状態、ユニットの相対位置を検出することができ、前記ユニットは、例えば、装置800のディスプレイおよびキーパッドである。センサユニット814は、さらに、装置800もしくは装置800の1つのユニットの位置変更、ユーザーと装置800との接触の存在もしくは非存在、装置800の方位もしくは加速/減速および装置800の温度変化をさらに検出することができる。センサユニット814は、如何なる物理的接触もないとき、近辺にある物体の存在を検出するための近接センサを含んでもよい。センサユニット814は、さらに、イメージングアプリケーションに使用される光センサ、例えばCMOS又はCCD画像センサを含んでもよい。一部の実施例では、当該センサユニット814は、さらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。
通信ユニット816は、装置800と他の機器間の無線又は有線方式の通信ができるように構成される。装置800は、通信規格に基づく無線ネットワーク、例えば、WiFi、2Gもしくは3G、又はそれらの組合せにアクセスすることができる。ある実施例では、通信ユニット816は、外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報をブロードキャストチャネルを介して受信する。ある実施例では、前記通信ユニット816は、さらに、短距離通信を容易にするように、ニアフィールド通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術および他の技術によって実現されてもよい。
実施例では、装置800は、前記方法を実行するための1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品によって実現されてもよい。
実施例では、指令を含む非一時的コンピュータ読み取り可能な記憶媒体、例えば、指令を含むメモリ804をさらに提供し、前記指令が装置800のプロセッサ1820によって実行されることで前記の方法を実施させることができる。例えば、前記非一時的コンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクおよび光データ記憶機器などであってもよい。
非一時的コンピュータ読み取り可能な記憶媒体は、前記読み取り可能な記憶媒体における指令をモバイル端末のプロセッサにより実行するときに、モバイル端末にビデオ分類方法を実行させる。前記方法は、
ビデオにおける、顔を含むキーフレームを取得するステップと、
前記キーフレームにおける顔特徴を取得するステップと、
画像タイプに対応する顔特徴を取得するステップと、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップと、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含む。
当業者は明細書を考慮し、ここに公開された開示を実践した後、本発明の他の実施案を容易に想到する。本願は、本発明の如何なる変形、用途又は適合もカバーすることを意図する。これらの変形、用途又は適合は、本発明の一般的な仕組みに従い、かつ、本発明に公開されていない当分野における公知常識又は慣用技術手段を含む。明細書および実施例は単なる例示と見なされ、本発明の本当の範囲および思想は添付する特許請求の範囲によって与えられる。
本発明が以上で記載され、且つ、図面に示された正確な構造に限定されるものでなく、その要旨を逸脱しない範囲で様々な補正や変更も可能であることは理解されるべきである。本発明の範囲は、添付する特許請求の範囲のみによって限定される。
本発明は、出願番号が2015108674365、出願日が2015年12月01日である中国特許出願を基に提出するものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容は、参照のため本願に援用される。

Claims (11)

  1. ビデオにおける、顔を含むキーフレームを取得するステップと、
    前記キーフレームにおける顔特徴を取得するステップと、
    画像タイプに対応する顔特徴を取得するステップと、
    前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップと、
    前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含み、
    前記ビデオにおける、顔を含むキーフレームを取得するステップは、
    前記ビデオから顔を含む少なくとも1つのビデオフレームを取得するステップと、
    前記少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける、顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定するステップと、
    前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップと、を含み、
    前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
    前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定するステップと、
    少なくとも1つの前記非重複ビデオフレームを前記キーフレームとして特定するステップと、を含む
    とを特徴とするビデオ分類方法。
  2. 前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
    前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも1組の重複ビデオフレームを特定するステップと、
    各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定するステップと、を含み、
    各組の前記重複ビデオフレームが少なくとも2つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであることを特徴とする請求項に記載のビデオ分類方法。
  3. 前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップは、
    前記ビデオの数が少なくとも2つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定するステップと、
    各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得するステップと、
    前記少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定するステップと、を含み、
    前記ビデオを前記ビデオが属する画像タイプに割り当てるステップは、
    前記各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てるステップを含むことを特徴とする請求項1に記載のビデオ分類方法。
  4. 前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップは、
    前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定するステップと、
    前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定するステップと、を含むことを特徴とする請求項1に記載のビデオ分類方法。
  5. 前記ビデオの撮影時刻および撮影場所を取得するステップと、
    前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定するステップと、
    前記ビデオを前記目的画像が属する画像タイプに割り当てるステップと、をさらに含むことを特徴とする請求項1に記載のビデオ分類方法。
  6. ビデオにおける、顔を含むキーフレームを取得する、第1取得モジュールと、
    前記第1取得モジュールが取得した前記キーフレームにおける顔特徴を取得する、第2取得モジュールと、
    画像タイプに対応する顔特徴を取得する、第3取得モジュールと、
    前記第2取得モジュールが取得した前記キーフレームにおける顔特徴と前記第3取得モジュールが取得した前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定する、第1特定モジュールと、
    前記ビデオを前記第1特定モジュールが特定した前記ビデオが属する画像タイプに割り当てる、第1割当モジュールと、を備え
    前記第1取得モジュールは、
    前記ビデオから顔を含む少なくとも1つのビデオフレームを取得する、取得サブモジュールと、
    前記取得サブモジュールが取得した前記少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定する、第1特定サブモジュールと、
    前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する、第2特定サブモジュールと、を備え、
    前記第2特定サブモジュールは、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも1つの前記非重複ビデオフレームを前記キーフレームとして特定する
    とを特徴とするビデオ分類装置。
  7. 前記第2特定サブモジュールは、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも1組の重複ビデオフレームを特定し、各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定し、各組の前記重複ビデオフレームが少なくとも2つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであることを特徴とする請求項に記載のビデオ分類装置。
  8. 前記第1特定モジュールは、
    前記ビデオの数が少なくとも2つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定し、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも2つのビデオに対して顔クラスタリング処理を行い、少なくとも1つのビデオタイプを取得し、前記少なくとも1つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する、第3特定サブモジュールを備え、
    前記第1割当モジュールは、
    前記第3特定サブモジュールが特定した各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる、第1割当サブモジュールを備えることを特徴とする請求項に記載のビデオ分類装置。
  9. 前記第1特定モジュールは、
    前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定する、第4特定サブモジュールと、
    前記第4特定サブモジュールが特定した前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定する、第2割当サブモジュールと、を備えることを特徴とする請求項に記載のビデオ分類装置。
  10. 前記ビデオの撮影時刻および撮影場所を取得する、第4取得モジュールと、
    前記第4取得モジュールが取得した前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定する、第2特定モジュールと、
    前記ビデオを前記第2特定モジュールが特定した前記目的画像が属する画像タイプに割り当てる、第2割当モジュールと、をさらに備えることを特徴とする請求項に記載のビデオ分類装置。
  11. プロセッサと、
    プロセッサの実行可能な指令を記憶するためのメモリと、を備え、
    前記プロセッサは、
    ビデオにおける、顔を含むキーフレームを取得し、
    前記キーフレームにおける顔特徴を取得し、
    画像タイプに対応する顔特徴を取得し、
    前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定し、
    前記ビデオを前記ビデオが属する画像タイプに割り当て
    前記ビデオにおける、顔を含むキーフレームを取得する際には、
    前記ビデオから顔を含む少なくとも1つのビデオフレームを取得し、
    前記少なくとも1つのビデオフレームにおいて、各ビデオフレームにおける、顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定し、
    前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定し、
    前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する際には、
    前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、
    少なくとも1つの前記非重複ビデオフレームを前記キーフレームとして特定する、
    うに構成されることを特徴とするビデオ分類装置。
JP2016523976A 2015-12-01 2015-12-29 ビデオ分類方法および装置 Active JP6423872B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510867436.5A CN105426515B (zh) 2015-12-01 2015-12-01 视频归类方法及装置
CN201510867436.5 2015-12-01
PCT/CN2015/099610 WO2017092127A1 (zh) 2015-12-01 2015-12-29 视频归类方法及装置

Publications (2)

Publication Number Publication Date
JP2018502340A JP2018502340A (ja) 2018-01-25
JP6423872B2 true JP6423872B2 (ja) 2018-11-14

Family

ID=55504727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016523976A Active JP6423872B2 (ja) 2015-12-01 2015-12-29 ビデオ分類方法および装置

Country Status (8)

Country Link
US (1) US10115019B2 (ja)
EP (1) EP3176709A1 (ja)
JP (1) JP6423872B2 (ja)
KR (1) KR101952486B1 (ja)
CN (1) CN105426515B (ja)
MX (1) MX2016005882A (ja)
RU (1) RU2667027C2 (ja)
WO (1) WO2017092127A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227868A (zh) * 2016-07-29 2016-12-14 努比亚技术有限公司 视频文件的归类方法和装置
CN106453916B (zh) * 2016-10-31 2019-05-31 努比亚技术有限公司 对象分类装置及方法
KR20190007816A (ko) 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN108830151A (zh) * 2018-05-07 2018-11-16 国网浙江省电力有限公司 基于高斯混合模型的面具检测方法
CN108986184B (zh) * 2018-07-23 2023-04-18 Oppo广东移动通信有限公司 视频创建方法及相关设备
CN110334753B (zh) * 2019-06-26 2023-04-07 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质
CN110516624A (zh) * 2019-08-29 2019-11-29 北京旷视科技有限公司 图像处理方法、装置、电子设备及存储介质
CN110580508A (zh) * 2019-09-06 2019-12-17 捷开通讯(深圳)有限公司 视频分类方法、装置、存储介质和移动终端
CN111177086A (zh) * 2019-12-27 2020-05-19 Oppo广东移动通信有限公司 文件聚类方法及装置、存储介质和电子设备
CN111553191A (zh) * 2020-03-30 2020-08-18 深圳壹账通智能科技有限公司 基于人脸识别的视频分类方法、装置及存储介质
CN112069875B (zh) * 2020-07-17 2024-05-28 北京百度网讯科技有限公司 人脸图像的分类方法、装置、电子设备和存储介质
CN112035685B (zh) * 2020-08-17 2024-06-18 中移(杭州)信息技术有限公司 相册视频生成方法、电子设备和存储介质
CN112835807B (zh) * 2021-03-02 2022-05-31 网易(杭州)网络有限公司 界面识别方法、装置、电子设备和存储介质
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040228504A1 (en) * 2003-05-13 2004-11-18 Viswis, Inc. Method and apparatus for processing image
JP2005227957A (ja) * 2004-02-12 2005-08-25 Mitsubishi Electric Corp 最適顔画像記録装置及び最適顔画像記録方法
RU2402885C2 (ru) 2005-03-10 2010-10-27 Квэлкомм Инкорпорейтед Классификация контента для обработки мультимедийных данных
JP4616091B2 (ja) * 2005-06-30 2011-01-19 株式会社西部技研 回転式ガス吸着濃縮装置
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
JP4697106B2 (ja) * 2006-09-25 2011-06-08 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP2008117271A (ja) * 2006-11-07 2008-05-22 Olympus Corp デジタル画像の被写体認識装置、プログラム、および記録媒体
US8488901B2 (en) * 2007-09-28 2013-07-16 Sony Corporation Content based adjustment of an image
JP5278425B2 (ja) * 2008-03-14 2013-09-04 日本電気株式会社 映像分割装置、方法及びプログラム
JP5134591B2 (ja) * 2009-06-26 2013-01-30 京セラドキュメントソリューションズ株式会社 ワイヤー係止構造
JP2011100240A (ja) * 2009-11-05 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 代表画像抽出方法,代表画像抽出装置および代表画像抽出プログラム
US8452778B1 (en) * 2009-11-19 2013-05-28 Google Inc. Training of adapted classifiers for video categorization
JP2011234180A (ja) * 2010-04-28 2011-11-17 Panasonic Corp 撮像装置、再生装置、および再生プログラム
CN103827856A (zh) * 2011-09-27 2014-05-28 惠普发展公司,有限责任合伙企业 检索视觉媒体
CN108073948A (zh) * 2012-01-17 2018-05-25 华为技术有限公司 一种照片分类管理方法、服务器、装置及***
US9405771B2 (en) * 2013-03-14 2016-08-02 Microsoft Technology Licensing, Llc Associating metadata with images in a personal image collection
EP3011504A4 (en) * 2013-06-19 2017-02-22 Conversant LLC Automatic face discovery and recognition for video content analysis
CN103530652B (zh) * 2013-10-23 2016-09-14 北京中视广信科技有限公司 一种基于人脸聚类的视频编目方法、检索方法及其***
EP3089101A1 (en) * 2013-12-03 2016-11-02 Dacuda AG User feedback for real-time checking and improving quality of scanned image
CN104133875B (zh) * 2014-07-24 2017-03-22 北京中视广信科技有限公司 一种基于人脸的视频标注方法和视频检索方法
CN104284240B (zh) 2014-09-17 2018-02-02 小米科技有限责任公司 视频浏览方法及装置
CN104317932B (zh) * 2014-10-31 2018-04-27 小米科技有限责任公司 照片分享方法及装置
CN104361128A (zh) * 2014-12-05 2015-02-18 河海大学 一种基于水工巡检业务的pc端与移动端数据同步方法

Also Published As

Publication number Publication date
US10115019B2 (en) 2018-10-30
RU2016136707A3 (ja) 2018-03-16
CN105426515A (zh) 2016-03-23
KR20180081637A (ko) 2018-07-17
RU2016136707A (ru) 2018-03-16
CN105426515B (zh) 2018-12-18
US20170154221A1 (en) 2017-06-01
WO2017092127A1 (zh) 2017-06-08
RU2667027C2 (ru) 2018-09-13
MX2016005882A (es) 2017-08-02
KR101952486B1 (ko) 2019-02-26
EP3176709A1 (en) 2017-06-07
JP2018502340A (ja) 2018-01-25

Similar Documents

Publication Publication Date Title
JP6423872B2 (ja) ビデオ分類方法および装置
RU2637474C2 (ru) Способ и устройство для управления фоновым приложением и терминальным устройством
WO2016090822A1 (zh) 对固件进行升级的方法及装置
US9886264B2 (en) Method and device for upgrading firmware
EP3163884A1 (en) Image acquiring method and apparatus, computer program and recording medium
JP2018500611A (ja) 画像の処理方法及び装置
WO2017084183A1 (zh) 信息显示方法与装置
US11281363B2 (en) Method and device for setting identity image
CN105635254B (zh) 多媒体资源下载方法和装置
CN106919629B (zh) 在群聊中实现信息筛选的方法及装置
EP3133806A1 (en) Method and device for generating panorama
CN104636106A (zh) 图片显示方法和装置、终端设备
CN104065883B (zh) 拍摄方法及装置
WO2016065814A1 (zh) 信息选取方法及装置
KR20150126192A (ko) 전자 장치 및 전자 장치에서 촬영 방법
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN105957011B (zh) 图片处理方法及装置
CN107222576A (zh) 相册同步方法及装置
CN107729439A (zh) 获取多媒体数据的方法、装置和***
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN107967233B (zh) 电子作品显示方法和装置
CN105577917B (zh) 照片显示方法和装置、智能终端
CN104793847B (zh) 图片展示方法及装置
CN104184943B (zh) 图像拍摄方法与装置
CN112825544A (zh) 图片处理方法、装置及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181019

R150 Certificate of patent or registration of utility model

Ref document number: 6423872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250