JP2021519474A - ビデオ処理方法及び装置、電子機器並びに記憶媒体 - Google Patents
ビデオ処理方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2021519474A JP2021519474A JP2020573569A JP2020573569A JP2021519474A JP 2021519474 A JP2021519474 A JP 2021519474A JP 2020573569 A JP2020573569 A JP 2020573569A JP 2020573569 A JP2020573569 A JP 2020573569A JP 2021519474 A JP2021519474 A JP 2021519474A
- Authority
- JP
- Japan
- Prior art keywords
- video
- feature information
- feature
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 76
- 239000013598 vector Substances 0.000 claims description 250
- 238000012545 processing Methods 0.000 claims description 60
- 238000000605 extraction Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 abstract description 13
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 67
- 238000013507 mapping Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/232—Content retrieval operation locally within server, e.g. reading video streams from disk arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/743—Browsing; Visualisation therefor a collection of video files or sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4826—End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/432—Content retrieval operation from a local storage medium, e.g. hard-disk
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本出願は、2018年8月7日に中国特許局に提出された出願番号が201810892997.4であり、発明名称が「ビデオ処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全ての内容を参照として本出願に援用する。
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュール11と、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュール12とを備える。
第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、複数のビデオのうちの、クエリテキスト段落に関連する予備選択ビデオを決定するように構成される。
クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールとを更に備える。
複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールとを更に備える。
第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、クエリテキスト段落と複数のビデオとの第1相関性スコアをそれぞれ決定し、
第1相関性スコアに基づいて、複数のビデオのうちの予備選択ビデオを決定するように構成される。
複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度をクエリテキスト段落と第1ビデオとの第1相関性スコアとして決定するように構成される。
1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。
1つ又は複数のセンテンスの第1特徴情報及び予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、クエリテキスト段落と予備選択ビデオとの第2相関性スコアを決定し、
第1相関性スコア及び第2相関性スコアに基づいて、予備選択ビデオのうちのターゲットビデオを決定するように構成される。
予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、ターゲットセンテンスが、1つ又は複数のセンテンスのうちのいずれか1つであり、
ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、、
ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、クエリテキスト段落とターゲット予備選択ビデオとの第2相関性スコアを決定するように構成される。
第1相関性スコアと第2相関性スコアとの積を第3相関性スコアとして決定し、
第3相関性スコアに基づいて、予備選択ビデオにおいて、ターゲットビデオを決定するように構成される。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
ビデオ処理方法であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。
(項目2)
前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報は、ビデオの第3特徴情報を含み、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することと、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することは、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得ることと、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定することを含むことを特徴とする
項目3に記載の方法。
(項目5)
前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
項目1から4のいずれか一項に記載の方法。
(項目6)
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することと、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
項目5に記載の方法。
(項目7)
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することは、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることと、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであることと、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定することと、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定することとを含むことを特徴とする
項目6に記載の方法。
(項目8)
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定することと、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
項目6に記載の方法。
(項目9)
前記方法は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得ることと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定することと、を更に含むことを特徴とする
項目1−8のいずれか一項に記載の方法。
(項目10)
前記方法は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得ることと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定することと、を更に含むことを特徴とする
項目1−9のいずれか一項に記載の方法。
(項目11)
ビデオ処理装置であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。
(項目12)
前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報はビデオの第3特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
項目11に記載の装置。
(項目13)
前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定し、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記予備選択ビデオ決定モジュールは更に、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定するように構成されることを特徴とする
項目13に記載の装置。
(項目15)
前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目11から14のいずれか一項に記載の装置。
(項目16)
前記ターゲットビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定し、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
項目15に記載の装置。
(項目17)
前記ターゲットビデオ決定モジュールは更に、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであり、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定するように構成されることを特徴とする
項目16に記載の装置。
(項目18)
前記ターゲットビデオ決定モジュールは更に、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定し、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
項目16に記載の装置。
(項目19)
前記装置は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールと、を更に備えることを特徴とする
項目11−18のいずれか一項に記載の装置。
(項目20)
前記装置は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールと、を更に備えることを特徴とする
項目11−19のいずれか一項に記載の装置。
(項目21)
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目1から10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
(項目22)
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目1から10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
Claims (22)
- ビデオ処理方法であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することと、を含む、前記方法。 - 前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報は、ビデオの第3特徴情報を含み、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することを含むことを特徴とする
請求項1に記載の方法。 - 前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定することは、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することと、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定することと、を含むことを特徴とする
請求項2に記載の方法。 - 前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定することは、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得ることと、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定することを含むことを特徴とする
請求項3に記載の方法。 - 前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することを含むことを特徴とする
請求項1から4のいずれか一項に記載の方法。 - 前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することと、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することとを含むことを特徴とする
請求項5に記載の方法。 - 前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定することは、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得ることと、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定することであって、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであることと、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得ることと、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定することと、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定することとを含むことを特徴とする
請求項6に記載の方法。 - 第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定することは、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定することと、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定することとを含むことを特徴とする
請求項6に記載の方法。 - 前記方法は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得ることと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定することと、を更に含むことを特徴とする
請求項1−8のいずれか一項に記載の方法。 - 前記方法は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得ることと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定することと、を更に含むことを特徴とする
請求項1−9のいずれか一項に記載の方法。 - ビデオ処理装置であって、
クエリテキスト段落の段落情報及びビデオライブラリーにおける複数のビデオのビデオ情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成される予備選択ビデオ決定モジュールと、
前記予備選択ビデオのビデオフレーム情報及び前記クエリテキスト段落のセンテンス情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されるターゲットビデオ決定モジュールと、を備える、前記装置。 - 前記段落情報は、クエリテキスト段落の第2特徴情報を含み、前記ビデオ情報はビデオの第3特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記複数のビデオのうちの、前記クエリテキスト段落に関連する予備選択ビデオを決定するように構成されることを特徴とする
請求項11に記載の装置。 - 前記予備選択ビデオ決定モジュールは更に、
前記第2特徴情報及びビデオライブラリーにおける複数のビデオの第3特徴情報に基づいて、前記クエリテキスト段落と前記複数のビデオとの第1相関性スコアをそれぞれ決定し、
前記第1相関性スコアに基づいて、前記複数のビデオのうちの予備選択ビデオを決定するように構成されることを特徴とする
請求項12に記載の装置。 - 前記予備選択ビデオ決定モジュールは更に、
前記複数のビデオのうちのいずれか1つである第1ビデオの第3特徴情報及び前記第2特徴情報を同一次元のベクトル空間にマッピングし、第1ビデオの第3特徴ベクトル及びクエリテキスト段落の第2特徴ベクトルを得て、
前記第2特徴ベクトルと第3特徴ベクトルとのコサイン類似度を前記クエリテキスト段落と前記第1ビデオとの第1相関性スコアとして決定するように構成されることを特徴とする
請求項13に記載の装置。 - 前記センテンス情報は、クエリテキスト段落の1つ又は複数のセンテンスの第1特徴情報を含み、前記ビデオフレーム情報は、前記予備選択ビデオの複数のビデオフレームの第4特徴情報を含み、
前記予備選択ビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
請求項11から14のいずれか一項に記載の装置。 - 前記ターゲットビデオ決定モジュールは更に、
前記1つ又は複数のセンテンスの第1特徴情報及び前記予備選択ビデオにおける複数のビデオフレームの第4特徴情報に基づいて、前記クエリテキスト段落と前記予備選択ビデオとの第2相関性スコアを決定し、
第1相関性スコア及び前記第2相関性スコアに基づいて、前記予備選択ビデオのうちのターゲットビデオを決定するように構成されることを特徴とする
請求項15に記載の装置。 - 前記ターゲットビデオ決定モジュールは更に、
前記予備選択ビデオのうちのいずれか1つであるターゲット予備選択ビデオの複数のビデオフレームの第4特徴情報及び前記1つ又は複数のセンテンスの第1特徴情報を同一次元のベクトル空間にマッピングし、ターゲット予備選択ビデオの複数のビデオフレームの第4特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルをそれぞれ得て、
第4特徴ベクトルのうちの、ターゲットセンテンスの第1特徴ベクトルとのコサイン類似度が類似度閾値以上であるターゲット特徴ベクトルを決定し、前記ターゲットセンテンスが、前記1つ又は複数のセンテンスのうちのいずれか1つであり、
前記ターゲット特徴ベクトルに対応するビデオフレームを合成してターゲットセンテンスに対応するビデオクリップを得、
前記ターゲット特徴ベクトルに基づいて、ターゲットセンテンスに対応するビデオクリップの第5特徴ベクトルを決定し、
1つ又は複数のセンテンスにそれぞれ対応するビデオクリップの第5特徴ベクトル及び1つ又は複数のセンテンスの第1特徴ベクトルに基づいて、前記クエリテキスト段落と前記ターゲット予備選択ビデオとの第2相関性スコアを決定するように構成されることを特徴とする
請求項16に記載の装置。 - 前記ターゲットビデオ決定モジュールは更に、
前記第1相関性スコアと前記第2相関性スコアの積を第3相関性スコアとして決定し、
前記第3相関性スコアに基づいて、予備選択ビデオにおいてターゲットビデオを決定するように構成されることを特徴とする
請求項16に記載の装置。 - 前記装置は、
前記複数のビデオのうちのいずれか1つである第2ビデオの複数のビデオフレームに対してそれぞれ特徴抽出処理を行い、前記第2ビデオの複数のビデオフレームの第4特徴情報を得るように構成されるビデオ特徴抽出モジュールと、
前記第2ビデオの複数のビデオフレームの第4特徴情報に基づいて、前記第2ビデオの第3特徴情報を決定するように構成される第1決定モジュールと、を更に備えることを特徴とする
請求項11−18のいずれか一項に記載の装置。 - 前記装置は、
前記クエリテキスト段落の1つ又は複数のセンテンスに対してそれぞれ特徴抽出処理を行い、前記1つ又は複数のセンテンスの第1特徴情報を得るように構成されるセンテンス特徴抽出モジュールと、
前記クエリテキスト段落における1つ又は複数のセンテンスの第1特徴情報に基づいて、前記クエリテキスト段落の第2特徴情報を決定するように構成される第2決定モジュールと、を更に備えることを特徴とする
請求項11−19のいずれか一項に記載の装置。 - 電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、請求項1から10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。 - コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810892997.4A CN109089133B (zh) | 2018-08-07 | 2018-08-07 | 视频处理方法及装置、电子设备和存储介质 |
CN201810892997.4 | 2018-08-07 | ||
PCT/CN2019/099486 WO2020029966A1 (zh) | 2018-08-07 | 2019-08-06 | 视频处理方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021519474A true JP2021519474A (ja) | 2021-08-10 |
JP6916970B2 JP6916970B2 (ja) | 2021-08-11 |
Family
ID=64834271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020573569A Active JP6916970B2 (ja) | 2018-08-07 | 2019-08-06 | ビデオ処理方法及び装置、電子機器並びに記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11120078B2 (ja) |
JP (1) | JP6916970B2 (ja) |
KR (1) | KR102222300B1 (ja) |
CN (1) | CN109089133B (ja) |
MY (1) | MY187857A (ja) |
SG (1) | SG11202008134YA (ja) |
WO (1) | WO2020029966A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674331A (zh) * | 2018-06-15 | 2020-01-10 | 华为技术有限公司 | 信息处理方法、相关设备及计算机存储介质 |
CN110163050B (zh) * | 2018-07-23 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种视频处理方法及装置、终端设备、服务器及存储介质 |
CN109089133B (zh) * | 2018-08-07 | 2020-08-11 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
US11621081B1 (en) * | 2018-11-13 | 2023-04-04 | Iqvia Inc. | System for predicting patient health conditions |
CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
CN110213668A (zh) * | 2019-04-29 | 2019-09-06 | 北京三快在线科技有限公司 | 视频标题的生成方法、装置、电子设备和存储介质 |
CN110188829B (zh) * | 2019-05-31 | 2022-01-28 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、目标识别的方法及相关产品 |
CN113094550B (zh) * | 2020-01-08 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 视频检索方法、装置、设备和介质 |
CN111209439B (zh) * | 2020-01-10 | 2023-11-21 | 北京百度网讯科技有限公司 | 视频片段检索方法、装置、电子设备及存储介质 |
CN113641782A (zh) * | 2020-04-27 | 2021-11-12 | 北京庖丁科技有限公司 | 基于检索语句的信息检索方法、装置、设备和介质 |
CN111918146B (zh) * | 2020-07-28 | 2021-06-01 | 广州筷子信息科技有限公司 | 一种视频合成方法和*** |
CN112181982B (zh) * | 2020-09-23 | 2021-10-12 | 况客科技(北京)有限公司 | 数据选取方法、电子设备和介质 |
CN112738557A (zh) * | 2020-12-22 | 2021-04-30 | 上海哔哩哔哩科技有限公司 | 视频处理方法及装置 |
CN113032624B (zh) * | 2021-04-21 | 2023-07-25 | 北京奇艺世纪科技有限公司 | 视频观影兴趣度确定方法、装置、电子设备及介质 |
CN113254714B (zh) * | 2021-06-21 | 2021-11-05 | 平安科技(深圳)有限公司 | 基于query分析的视频反馈方法、装置、设备及介质 |
CN113590881B (zh) * | 2021-08-09 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 视频片段检索方法、视频片段检索模型的训练方法及装置 |
CN114329068B (zh) * | 2021-08-11 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置、电子设备、存储介质 |
CN113792183B (zh) * | 2021-09-17 | 2023-09-08 | 咪咕数字传媒有限公司 | 一种文本生成方法、装置及计算设备 |
WO2024015322A1 (en) * | 2022-07-12 | 2024-01-18 | Loop Now Technologies, Inc. | Search using generative model synthesized images |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110047163A1 (en) * | 2009-08-24 | 2011-02-24 | Google Inc. | Relevance-Based Image Selection |
CN101894170B (zh) * | 2010-08-13 | 2011-12-28 | 武汉大学 | 基于语义关联网络的跨模信息检索方法 |
US20120131060A1 (en) * | 2010-11-24 | 2012-05-24 | Robert Heidasch | Systems and methods performing semantic analysis to facilitate audio information searches |
CN102750366B (zh) * | 2012-06-18 | 2015-05-27 | 海信集团有限公司 | 基于自然交互输入的视频搜索***及方法 |
CN103593363B (zh) * | 2012-08-15 | 2016-12-21 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
CN104798068A (zh) * | 2012-11-30 | 2015-07-22 | 汤姆逊许可公司 | 视频检索方法和装置 |
CN104239501B (zh) * | 2014-09-10 | 2017-04-12 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
CN106156204B (zh) * | 2015-04-23 | 2020-05-29 | 深圳市腾讯计算机***有限公司 | 文本标签的提取方法和装置 |
US9807473B2 (en) | 2015-11-20 | 2017-10-31 | Microsoft Technology Licensing, Llc | Jointly modeling embedding and translation to bridge video and language |
US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10346417B2 (en) * | 2016-08-18 | 2019-07-09 | Google Llc | Optimizing digital video distribution |
CN108304506B (zh) * | 2018-01-18 | 2022-08-26 | 腾讯科技(深圳)有限公司 | 检索方法、装置及设备 |
US11295783B2 (en) * | 2018-04-05 | 2022-04-05 | Tvu Networks Corporation | Methods, apparatus, and systems for AI-assisted or automatic video production |
CN109089133B (zh) | 2018-08-07 | 2020-08-11 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
-
2018
- 2018-08-07 CN CN201810892997.4A patent/CN109089133B/zh active Active
-
2019
- 2019-08-06 JP JP2020573569A patent/JP6916970B2/ja active Active
- 2019-08-06 KR KR1020207030575A patent/KR102222300B1/ko active IP Right Grant
- 2019-08-06 MY MYPI2020004347A patent/MY187857A/en unknown
- 2019-08-06 WO PCT/CN2019/099486 patent/WO2020029966A1/zh active Application Filing
- 2019-08-06 SG SG11202008134YA patent/SG11202008134YA/en unknown
- 2019-08-06 US US16/975,347 patent/US11120078B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN109089133A (zh) | 2018-12-25 |
KR102222300B1 (ko) | 2021-03-03 |
WO2020029966A1 (zh) | 2020-02-13 |
JP6916970B2 (ja) | 2021-08-11 |
MY187857A (en) | 2021-10-26 |
US11120078B2 (en) | 2021-09-14 |
CN109089133B (zh) | 2020-08-11 |
KR20200128165A (ko) | 2020-11-11 |
US20200394216A1 (en) | 2020-12-17 |
SG11202008134YA (en) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916970B2 (ja) | ビデオ処理方法及び装置、電子機器並びに記憶媒体 | |
JP7171884B2 (ja) | 歩行者認識方法及び装置 | |
JP6852150B2 (ja) | 生体検知方法および装置、システム、電子機器、記憶媒体 | |
US20210117726A1 (en) | Method for training image classifying model, server and storage medium | |
WO2021051857A1 (zh) | 目标对象匹配方法及装置、电子设备和存储介质 | |
KR20210102180A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
WO2020107813A1 (zh) | 图像的描述语句定位方法及装置、电子设备和存储介质 | |
CN110781957B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2021036382A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
JP2022526381A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
KR102454515B1 (ko) | 네트워크 최적화 방법 및 장치, 이미지 처리 방법 및 장치, 및 기억 매체 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
WO2021208666A1 (zh) | 字符识别方法及装置、电子设备和存储介质 | |
CN111582383B (zh) | 属性识别方法及装置、电子设备和存储介质 | |
CN110781813B (zh) | 图像识别方法及装置、电子设备和存储介质 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
CN113326768B (zh) | 训练方法、图像特征提取方法、图像识别方法及装置 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
CN113486830A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111652107B (zh) | 对象计数方法及装置、电子设备和存储介质 | |
CN110633715B (zh) | 图像处理方法、网络训练方法及装置、和电子设备 | |
CN114332503A (zh) | 对象重识别方法及装置、电子设备和存储介质 | |
CN111178115B (zh) | 对象识别网络的训练方法及*** | |
CN109325141B (zh) | 图像检索方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201125 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210716 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6916970 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |