JP7394809B2 - ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム - Google Patents
ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7394809B2 JP7394809B2 JP2021100506A JP2021100506A JP7394809B2 JP 7394809 B2 JP7394809 B2 JP 7394809B2 JP 2021100506 A JP2021100506 A JP 2021100506A JP 2021100506 A JP2021100506 A JP 2021100506A JP 7394809 B2 JP7394809 B2 JP 7394809B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- target
- model
- determining
- output data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000012545 processing Methods 0.000 title claims description 71
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000009471 action Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims 5
- 230000006399 behavior Effects 0.000 description 24
- 230000001815 facial effect Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000035582 behavioral recognition Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4756—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Collating Specific Patterns (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Supply And Installment Of Electrical Components (AREA)
- Studio Devices (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (33)
- ターゲットビデオを取得するステップと、
予め設定された少なくとも1つのモデルからターゲットモデルを選択するステップと、
前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、
前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するステップと、
前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップと、を含むビデオを処理するための方法。 - 前記ターゲットモデルは、
選択回数を決定するステップと、
前記予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
によって選択される請求項1に記載のビデオを処理するための方法。 - 前記ターゲットモデルは、顔認識モデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を判定するステップを含む請求項1に記載のビデオを処理するための方法。 - 前記ターゲットビデオは、人の名前を含むタイトルを含み、
前記方法は、
前記類似度が予め設定された第1の閾値未満である場合、又は、前記類似度が前記第1の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項3に記載のビデオを処理するための方法。 - 前記ターゲットモデルは、行動認識モデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するステップを含む請求項1に記載のビデオを処理するための方法。 - 前記確率スコアが予め設定された第2の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項5に記載のビデオを処理するための方法。
- 前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップを含む請求項1に記載のビデオを処理するための方法。 - 前記の、前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るステップは、
前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するようにするステップを含む請求項7に記載のビデオを処理するための方法。 - 前記コンテンツスコアが予め設定された第3の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するステップをさらに含む請求項7に記載のビデオを処理するための方法。
- 前記の、前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するステップは、
予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップと、を含む請求項9に記載のビデオを処理するための方法。 - 前記の、前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するステップは、
前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定するステップと、
各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するステップと、を含む請求項10に記載のビデオを処理するための方法。 - 前記の、前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップは、
前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを得るステップと、
前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するステップと、を含む請求項1に記載のビデオを処理するための方法。 - 前記コンテンツスコアリングモデルは、
サンプルビデオを取得するステップと、
前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
によってトレーニングされて得る請求項7に記載のビデオを処理するための方法。 - 前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定するステップと、
前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、
を含む請求項10に記載のビデオを処理するための方法。 - 前記の、予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップは、
前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定するステップと、
前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するステップと、を含む請求項10に記載のビデオを処理するための方法。 - ターゲットビデオを取得するように構成されるビデオ取得ユニットと、
予め設定された少なくとも1つのモデルからターゲットモデルを選択するように構成されるモデル選択ユニットと、
前記ターゲットビデオ及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成されるデータ確定ユニットと、
前記出力データが前記ターゲットモデルに対応する条件を満たさないと判断されたことに応答して、前記出力データが前記ターゲットモデルに対応する条件を満たすまで、前記予め設定された少なくとも1つのモデルから前記ターゲットモデルを再選択するように構成される条件判定ユニットと、
前記出力データに基づいて前記ターゲットビデオからダイナミックポスターを特定するように構成されるポスター特定ユニットと、を備えるビデオを処理するための装置。 - 前記ターゲットモデルは、
選択回数を決定するステップと、
前記予め設定された少なくとも1つのモデルから、予め設定されたモデル選択順番が前記選択回数とマッチするモデルを前記ターゲットモデルとして確定するステップと、
によって選択される請求項16に記載のビデオを処理するための装置。 - 前記ターゲットモデルは、顔認識モデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオ及び前記顔認識モデルに基づいて、前記ターゲットビデオにおける顔オブジェクトと予め設定された少なくとも1つの顔オブジェクトとの類似度を判定するように構成される請求項16に記載のビデオを処理するための装置。 - 前記ターゲットビデオは、人の名前を含むタイトルを含み、
前記条件判定ユニットは、さらに、
前記類似度が予め設定された第1の閾値未満である場合、又は、前記類似度が前記第1の閾値以上であるが、前記ターゲットビデオにおける顔オブジェクトが前記人の名前とマッチしないと判断された場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項18に記載のビデオを処理するための装置。 - 前記ターゲットモデルは、行動認識モデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオ及び前記行動認識モデルに基づいて、前記ターゲットビデオにおける行動情報の、指定動作を含む確率スコアを確定するように構成される請求項16に記載のビデオを処理するための装置。 - 前記条件判定ユニットは、さらに、
前記確率スコアが予め設定された第2の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項20に記載のビデオを処理するための装置。 - 前記ターゲットモデルは、コンテンツスコアリングモデルを含み、
前記データ確定ユニットは、さらに、
前記ターゲットビデオにおける複数のビデオフレームに対して、前記コンテンツスコアリングモデルに基づいて、各ビデオフレームのコンテンツスコアを得るように構成される請求項16に記載のビデオを処理するための装置。 - 前記データ確定ユニットは、さらに、
前記ターゲットビデオにおける複数のビデオフレームを前記コンテンツスコアリングモデルに入力し、前記コンテンツスコアリングモデルが、各ビデオフレームの特徴情報を確定するとともに、各ビデオフレームの特徴情報に基づいて各ビデオフレーム間の差異特徴及び類似特徴を確定し、前記差異特徴及び前記類似特徴に基づいて各ビデオフレームのコンテンツスコアを出力するように構成される請求項22に記載のビデオを処理するための装置。 - 前記条件判定ユニットは、さらに、
前記コンテンツスコアが予め設定された第3の閾値未満である場合、前記出力データが前記ターゲットモデルに対応する条件を満たさないと判定するように構成される請求項22に記載のビデオを処理するための装置。 - 前記ポスター特定ユニットは、さらに、
予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定し、
前記出力データに基づいて、前記候補ビデオセグメントセットからダイナミックポスターを特定するように構成される請求項24に記載のビデオを処理するための装置。 - 前記ポスター特定ユニットは、さらに、
前記出力データに基づいて、前記候補ビデオセグメントセットにおける各候補ビデオセグメントに対応するコンテンツスコアを確定し、
各候補ビデオセグメントに対応するコンテンツスコアに基づいて、前記候補ビデオセグメントセットにおいて前記ダイナミックポスターを特定するように構成される請求項25に記載のビデオを処理するための装置。 - 前記データ確定ユニットは、さらに、
前記ターゲットビデオに対してフレームを均等に抽出して、ビデオフレームセットを取得し、
前記ビデオフレームセット及び前記ターゲットモデルに基づいて、前記ターゲットモデルの出力データを確定するように構成される請求項16に記載のビデオを処理するための装置。 - 前記コンテンツスコアリングモデルは、
サンプルビデオを取得するステップと、
前記サンプルビデオをトレーニング対象のコンテンツスコアリングモデルに入力して、前記トレーニング対象のコンテンツスコアリングモデルが、前記サンプルビデオの各ビデオフレームの特徴情報を抽出し、前記特徴情報に基づいて前記サンプルビデオの各ビデオフレームのコンテンツスコアを確定するとともに、前記サンプルビデオの各ビデオフレームのコンテンツスコアに基づいてサンプルビデオセグメントを確定するようにするステップと、
前記サンプルビデオセグメントに対応するセグメント内部パラメータ及びセグメント外部パラメータを確定するステップと、
前記セグメント内部パラメータ及び前記セグメント外部パラメータに基づいて、前記トレーニング対象のコンテンツスコアリングモデルをトレーニングして、トレーニング済みコンテンツスコアリングモデルを得るステップと、
によってトレーニングされて得る請求項22に記載のビデオを処理するための装置。 - 前記ポスター特定ユニットは、さらに、
前記ターゲットビデオにおいてビデオ黒帯が現れた黒帯付きビデオフレームを確定し、
前記ターゲットビデオにおいて前記黒帯付きビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項25に記載のビデオを処理するための装置。 - 前記ポスター特定ユニットは、さらに、
前記ターゲットビデオにおいて静止画が現れた静止ビデオフレームを確定し、
前記ターゲットビデオにおいて前記静止ビデオフレームを除くその他のビデオフレーム及び前記予め設定されたビデオセグメント長に基づいて、前記ターゲットビデオに対応する候補ビデオセグメントセットを確定するように構成される請求項25に記載のビデオを処理するための装置。 - 1つ又は複数のコンピューティングユニットと、
1つ又は複数のコンピュータプログラムが格納されている記憶ユニットと、を備え、
前記1つ又は複数のコンピュータプログラムが前記1つ又は複数のコンピューティングユニットによって実行されるとき、前記1つ又は複数のコンピューティングユニットに請求項1~15のいずれか1項に記載の方法が実行される、ビデオを処理するための電子機器。 - 請求項1~15のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体。
- コンピューティングユニットにより実行されるとき、請求項1~15のいずれか1項に記載の方法が実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496732.6A CN112559800B (zh) | 2020-12-17 | 2020-12-17 | 用于处理视频的方法、装置、电子设备、介质和产品 |
CN202011496732.6 | 2020-12-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022088304A JP2022088304A (ja) | 2022-06-14 |
JP7394809B2 true JP7394809B2 (ja) | 2023-12-08 |
Family
ID=75064731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021100506A Active JP7394809B2 (ja) | 2020-12-17 | 2021-06-16 | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11856277B2 (ja) |
EP (1) | EP3872652B1 (ja) |
JP (1) | JP7394809B2 (ja) |
KR (1) | KR102576344B1 (ja) |
CN (1) | CN112559800B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627363B (zh) * | 2021-08-13 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 视频文件的处理方法、装置、设备以及存储介质 |
CN114363660B (zh) * | 2021-12-24 | 2023-09-08 | 腾讯科技(武汉)有限公司 | 视频合集确定方法、装置、电子设备及存储介质 |
CN114449362B (zh) * | 2022-03-17 | 2023-08-22 | 腾讯科技(上海)有限公司 | 视频封面的选取方法、装置、设备及存储介质 |
CN114827730B (zh) * | 2022-04-19 | 2024-05-31 | 咪咕文化科技有限公司 | 视频封面选取方法、装置、设备及存储介质 |
CN115065865B (zh) * | 2022-06-23 | 2024-06-14 | 北京奇艺世纪科技有限公司 | 一种视频合成方法、装置、电子设备及存储介质 |
CN115942046B (zh) * | 2022-12-08 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种智能裁剪视频的方法及存储介质 |
CN116777914B (zh) * | 2023-08-22 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
CN117651159B (zh) * | 2024-01-29 | 2024-04-23 | 杭州锐颖科技有限公司 | 一种运动实时视频自动剪辑推送方法与*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311180A (ja) | 1999-03-11 | 2000-11-07 | Fuji Xerox Co Ltd | 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム |
JP2010502085A (ja) | 2006-08-25 | 2010-01-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディアコンテンツアイテムのサマリーを自動生成する方法及び装置 |
JP2013207530A (ja) | 2012-03-28 | 2013-10-07 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
JP2020516107A (ja) | 2017-05-05 | 2020-05-28 | グーグル エルエルシー | ビデオコンテンツの要約処理 |
CN111274444A (zh) | 2020-02-24 | 2020-06-12 | 北京达佳互联信息技术有限公司 | 视频封面确定模型的生成方法及装置、视频封面确定方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7760956B2 (en) * | 2005-05-12 | 2010-07-20 | Hewlett-Packard Development Company, L.P. | System and method for producing a page using frames of a video stream |
US20110047163A1 (en) | 2009-08-24 | 2011-02-24 | Google Inc. | Relevance-Based Image Selection |
US9508390B2 (en) | 2013-07-12 | 2016-11-29 | Apple Inc. | Trick play in digital video streaming |
US9344626B2 (en) | 2013-11-18 | 2016-05-17 | Apple Inc. | Modeless video and still frame capture using interleaved frames of video and still resolutions |
US20160014482A1 (en) * | 2014-07-14 | 2016-01-14 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Generating Video Summary Sequences From One or More Video Segments |
US10380227B2 (en) * | 2015-06-07 | 2019-08-13 | Apple Inc. | Generating layout for content presentation structures |
US9818032B2 (en) | 2015-10-28 | 2017-11-14 | Intel Corporation | Automatic video summarization |
CN109145784B (zh) * | 2018-08-03 | 2022-06-03 | 百度在线网络技术(北京)有限公司 | 用于处理视频的方法和装置 |
CN109977839A (zh) * | 2019-03-20 | 2019-07-05 | 北京字节跳动网络技术有限公司 | 信息处理方法和装置 |
WO2020190112A1 (en) | 2019-03-21 | 2020-09-24 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
CN110399848A (zh) * | 2019-07-30 | 2019-11-01 | 北京字节跳动网络技术有限公司 | 视频封面生成方法、装置及电子设备 |
CN110909205B (zh) * | 2019-11-22 | 2023-04-07 | 北京金山云网络技术有限公司 | 一种视频封面确定方法、装置、电子设备及可读存储介质 |
CN111432282B (zh) | 2020-04-01 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种视频推荐方法及装置 |
CN111491173B (zh) * | 2020-04-15 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种直播封面确定方法、装置、计算机设备及存储介质 |
CN111787356B (zh) | 2020-07-09 | 2022-09-30 | 易视腾科技股份有限公司 | 目标视频片段提取方法和装置 |
CN111918130A (zh) | 2020-08-11 | 2020-11-10 | 北京达佳互联信息技术有限公司 | 视频封面确定方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-17 CN CN202011496732.6A patent/CN112559800B/zh active Active
-
2021
- 2021-06-14 US US17/347,290 patent/US11856277B2/en active Active
- 2021-06-16 EP EP21179672.7A patent/EP3872652B1/en active Active
- 2021-06-16 JP JP2021100506A patent/JP7394809B2/ja active Active
- 2021-07-02 KR KR1020210087453A patent/KR102576344B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311180A (ja) | 1999-03-11 | 2000-11-07 | Fuji Xerox Co Ltd | 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム |
JP2010502085A (ja) | 2006-08-25 | 2010-01-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディアコンテンツアイテムのサマリーを自動生成する方法及び装置 |
JP2013207530A (ja) | 2012-03-28 | 2013-10-07 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
JP2020516107A (ja) | 2017-05-05 | 2020-05-28 | グーグル エルエルシー | ビデオコンテンツの要約処理 |
CN111274444A (zh) | 2020-02-24 | 2020-06-12 | 北京达佳互联信息技术有限公司 | 视频封面确定模型的生成方法及装置、视频封面确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20210091076A (ko) | 2021-07-21 |
JP2022088304A (ja) | 2022-06-14 |
CN112559800A (zh) | 2021-03-26 |
KR102576344B1 (ko) | 2023-09-08 |
EP3872652B1 (en) | 2023-12-20 |
US20210303864A1 (en) | 2021-09-30 |
CN112559800B (zh) | 2023-11-14 |
US11856277B2 (en) | 2023-12-26 |
EP3872652A2 (en) | 2021-09-01 |
EP3872652A3 (en) | 2021-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN113378784B (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
US11436863B2 (en) | Method and apparatus for outputting data | |
CN108989882B (zh) | 用于输出视频中的音乐片段的方法和装置 | |
WO2019242222A1 (zh) | 用于生成信息的方法和装置 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN116166827B (zh) | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 | |
WO2024099171A1 (zh) | 视频生成方法和装置 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN113361462B (zh) | 视频处理和字幕检测模型的方法及装置 | |
CN111292333A (zh) | 用于分割图像的方法和装置 | |
CN114627556B (zh) | 动作检测方法、动作检测装置、电子设备以及存储介质 | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
US10910014B2 (en) | Method and apparatus for generating video | |
CN113688938A (zh) | 确定对象情感的方法、训练情感分类模型的方法及装置 | |
CN113378774A (zh) | 手势识别方法、装置、设备、存储介质以及程序产品 | |
CN113360712B (zh) | 视频表示的生成方法、装置和电子设备 | |
CN114697761B (zh) | 一种处理方法、装置、终端设备及介质 | |
CN112650830B (zh) | 关键词提取方法、装置、电子设备和存储介质 | |
CN114501112B (zh) | 用于生成视频笔记的方法、装置、设备、介质和产品 | |
CN114664307A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN116468001A (zh) | 视频目录生成、视频播放以及深度学习模型的训练方法 | |
CN113934918A (zh) | 用于直播的搜索方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7394809 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |