TW202101371A - 視訊流的處理方法和裝置 - Google Patents

視訊流的處理方法和裝置 Download PDF

Info

Publication number
TW202101371A
TW202101371A TW108129775A TW108129775A TW202101371A TW 202101371 A TW202101371 A TW 202101371A TW 108129775 A TW108129775 A TW 108129775A TW 108129775 A TW108129775 A TW 108129775A TW 202101371 A TW202101371 A TW 202101371A
Authority
TW
Taiwan
Prior art keywords
feature
image frame
video stream
patent application
scope
Prior art date
Application number
TW108129775A
Other languages
English (en)
Other versions
TWI750498B (zh
Inventor
郭昕
程遠
蔣晨
Original Assignee
開曼群島商創新先進技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 開曼群島商創新先進技術有限公司 filed Critical 開曼群島商創新先進技術有限公司
Publication of TW202101371A publication Critical patent/TW202101371A/zh
Application granted granted Critical
Publication of TWI750498B publication Critical patent/TWI750498B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本說明書實施例提供的視訊流的處理方法和裝置。透過部署多個特徵提取模型,將視訊流中的各影像框分別進行特徵抽取獲取它們的特徵向量,然後將這些特徵向量組合在一起,針對視訊流構建出預定大小的特徵矩陣,創造性地利用預先訓練的卷積神經網路模型處理該特徵矩陣,以得到對視訊流的處理結果。該過程中可以減少模型標註的複雜度,對時域視訊資料,透過卷積神經網路的處理,挖掘特徵之間的關聯性,進行更有效的視訊處理。

Description

視訊流的處理方法和裝置
本說明書一個或多個實施例涉及電腦技術領域,尤其涉及透過電腦對視訊流進行處理的方法和裝置。
卷積神經網路(Convolutional Neural Networks,CNN) 是一種前饋神經網路,人工神經元可以響應周圍單元,可以進行大型影像處理。卷積神經網路往往以多影像框影像序列作為輸入,可以同時提取影像序列中的空間維度抽象特徵及時間維度抽象特徵,挖掘影像中的隱含特徵,在視訊分類、動作識別等影像序列分析等領域具有重要應用。常規技術中,透過卷積神經網路對單個圖片的分析方法通常可以挖掘單個圖片在某些方向上的特徵。而在視訊處理領域,也往往是對單個圖片的分析。因此,需要一種改進的方案,能夠利用卷積神經網路,提供更有效的視訊流處理方案。
本說明書一個或多個實施例描述了視訊流的處理方法和裝置,以解決現有技術的部分不足。 根據第一方面,提供了一種視訊流的處理方法,所述方法包括:獲取待處理的視訊流;對所述視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量;將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,所述特徵矩陣具有N行、至少S列;利用預先訓練的卷積神經網路處理所述特徵矩陣,以得到對所述視訊流的處理結果。 在一些實施例中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取包括:基於與所述第一影像框的前一影像框的對比,確定所述第一影像框的變化特徵。 在一些實施例中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括:將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。 在一些實施例中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括: 將透過結構相似性模型確定的所述第一影像框與所述前一影像框的SSIM指數,確定為所述第一影像框的變化特徵。 在一些實施例中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括: 確定所述前一影像框變換到所述第一影像框的投影矩陣; 將所述投影矩陣作為所述變化特徵。 在一些實施例中,在所述第一影像框為所述視訊流的第一個影像框的情況下,確定所述變化特徵包含預定值,或者確定所述前一影像框和所述第一影像框為相同影像框。 在一些實施例中,所述對所述視訊流中的S個影像框分別進行特徵抽取包括: 針對所述S個影像框中的第一影像框,進行目標識別,確定所述第一影像框的目標特徵。 在一些實施例中,所述視訊流為針對損傷車輛拍攝的視訊流,所述目標特徵包括,損傷部件、損傷材質、損傷類別中的一項或多項。 在一些實施例中,所述對所述視訊流中的S個影像框分別進行特徵抽取包括:針對所述S個影像框中的第一影像框,檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項,並將檢測結果作為所述第一影像框的相應特徵。 在一些實施例中,在對所述S個影像框中的第一影像框抽取多個特徵的情況下,所述產生S個N維的特徵向量包括:將所述第一影像框的多個特徵對應的特徵值進行組合,從而產生一個N維的特徵向量。 在一些實施例中,所述將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣包括:利用內插方式在S個N維特徵向量中補充M-S個特徵向量,以產生N行M列的所述特徵矩陣。 在一些實施例中,對於第一內插位置,所述內插方式包括以下之一: 將所述第一內插位置最近鄰的特徵向量作為在所述第一內插位置處***的特徵向量; 將與所述第一內插位置鄰近的r個特徵向量中,各對應元素分別進行二線性內插,根據內插結果確定所述第一內插位置處***的特徵向量。 在一些實施例中,所述卷積神經網路透過至少一個卷積核對所述特徵矩陣進行卷積處理,其中,所述卷積核依次處理所述特徵矩陣中每個時間維度的多個特徵值。 在一些實施例中,所述卷積神經網路用於對所述視訊流進行關鍵影像框抽取,所述卷積神經網路透過以下方式訓練: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及標註出的關鍵框所在時間段標籤,所述時間段標籤包括用於描述所述時間段的起始時刻、結束時刻的二維數組,所述起始時刻、所述結束時刻為透過所述視訊流的首個影像框開始計算的相對時刻; 使用各個樣本特徵矩陣和時間段標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。 在進一步的實施例中,所述二維數組中的各元素為相應的相對時刻與所述視訊流的總時長的比值。 在一些實施例中,所述卷積神經網路用於對所述視訊流進行車輛處理決策,所述卷積神經網路透過以下方式訓練: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及基於實際車輛的處理決策標籤; 使用各個樣本特徵矩陣即對應的處理決策標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。 在一些實施例中,所述處理決策標籤為多維向量,所述處理決策標籤中的多個元素包括:車輛各個部件的換新機率、車輛各個部件的修理機率。 根據第二方面,提供一種視訊流的處理裝置,所述裝置包括: 獲取單元,配置為獲取待處理的視訊流; 特徵抽取單元,配置為對所述視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量; 矩陣產生單元,配置為將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,所述特徵矩陣具有N行、至少S列; 卷積處理單元,配置為利用預先訓練的卷積神經網路處理所述特徵矩陣,以得到對所述視訊流的處理結果。 根據第三方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一方面的方法。 根據第四方面,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現第一方面的方法。 本說明書實施例提供的視訊流的處理方法和裝置,透過部署多個特徵提取模型,將視訊流中的各影像框分別進行特徵抽取獲取它們的特徵向量,然後將這些特徵向量組合在一起,針對視訊流構建出預定大小的特徵矩陣,創造性地利用預先訓練的卷積神經網路模型處理該特徵矩陣,以得到對視訊流的處理結果。該過程中可以減少模型標註的複雜度,對時域視訊資料,透過卷積神經網路的處理,挖掘特徵之間的關聯性,進行更有效的視訊處理。
下面結合圖式,對本說明書提供的方案進行描述。為了便於說明,結合圖1示出的本說明書實施例的一個具體適用場景進行說明。圖1示出的是對車輛損傷進行識別的具體場景。 該實施場景中,假設車輛受損,用戶可以透過可採集現場資訊的終端,例如智慧型手機、照相機、傳感器等,採集受損車輛的現場資訊。該現場資訊可以包括視訊流。該視訊流可以由計算平臺進行處理,以對受損車輛進行損傷識別。如圖1所示,該實施場景中的計算平臺由第一計算平臺和第二計算平臺組成。 請參考圖1所示,第一計算平臺首先可以透過影像框特徵提取模組,對視訊流中的S影像框分別進行特徵抽取,對每個影像框產生一個N維的特徵向量。其中,這裡的S影像框可以包括視訊流中的每一影像框,也可以是按照預定時間間隔(如500ms)抽取的影像框。然後,可以透過特徵矩陣構建模組將這些N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣。其中,特徵矩陣可以的行數可以是N,列數至少為S。接著,第二計算平臺可以利用預先訓練的卷積神經網路,處理該特徵矩陣,以得到對視訊流的處理結果。在圖1示出的場景中,對該視訊流的處理結果可以是對受損車輛的損傷識別結果。在其他應用場景中,對該視訊流的處理結果還可以是關鍵影像框抽取等等結果,在此不做限定。 值得說明的是,卷積神經網路是一種前饋神經網路,神經元可以響應周圍單元,從而可以進行大型影像處理。卷積神經網路可以包括一維卷積神經網路、二維卷積神經網路以及三維卷積神經網路。一維卷積神經網路通常應用於序列類的資料處理;二維卷積神經網路通常應用於影像類文本的識別;三維卷積神經網路通常應用於醫學影像以及視訊類資料識別。對於影像處理而言,透過訓練不同的卷積核,可以發掘影像中的不同特徵。可以看出,上述二維卷積神經網路和三維卷積神經網路在用於影像或視訊資料處理時,面對的都是影像本身。如果將影像看作多個像素點組成的矩陣,則卷積神經網路可以對矩陣進行分析。基於這種思想,在本說明書的技術框架中,創新地利用卷積神經網路處理由多個影像框的特徵向量組成的特徵矩陣,從而可以發掘連續影像中的關聯特徵。 容易理解:在一個實施例中,第一計算平臺和第二計算平臺可以為同一個計算平臺,例如集成在終端或者為終端上運行的車輛定損類應用提供服務的伺服端的一個計算平臺;在另一個實施例中,第一計算平臺和第二計算平臺也可以是分開設置的兩個計算平臺,例如第一計算平臺設於終端,用於對採集到的視訊流進行預處理,得到視訊流的特徵矩陣,第二計算平臺設於伺服端,用於透過卷積神經網路處理特徵矩陣,給出對損傷車輛的損傷識別結果。值得說明的是,圖1的實施場景是示例性的,在其他實施例中,特徵矩陣構建模組還可以設於第二計算平臺中,本說明書中對此不做限定。在可選的實施例中,第二計算平臺還可以將損傷識別結果反饋至終端進行展示。 由上述實施場景可以看出,本說明書提供的技術方案,將通常用於處理影像的卷積神經網路,創造性地用於處理多個影像框的特徵向量組成的特徵矩陣,尤其適用於視訊流的整體決策問題,為視訊流分析提供更有效的解決方案。 下面詳細描述視訊流的處理方法的具體流程。 圖2示出根據一個實施例的視訊流的處理方法流程圖。其中,圖2示出的方法的執行主體可以是具有一定資料處理能力的任何具有計算、處理能力的系統、終端、裝置、平臺或伺服器,例如由圖1所示的第一計算平臺和第二計算平臺組成的總的計算平臺等。 如圖2所示,視訊流的處理方法包括以下步驟:步驟21,獲取待處理的視訊流;步驟22,對視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量;步驟23,將S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,特徵矩陣具有N行、至少S列;步驟24,利用預先訓練的卷積神經網路處理特徵矩陣,以得到對視訊流的處理結果。 首先,在步驟21中,獲取待處理的視訊流。可以理解,視訊流通常是穩定、連續傳輸的視訊資料。一個視訊流可以包括多個影像框。視訊流可以由各種攝影裝置採集,例如相機、智慧型手機的攝影鏡頭裝置等等。 在一個實施例中,視訊流可以是預先儲存在本說明書實施例的執行主體上的,此時,可以從本地獲取視訊流。 在另一個實施例中,視訊流可以是執行主體從遠端設備透過有線或無線網路獲取的,例如執行主體是伺服器,遠端設備是具有視訊錄製和通信功能的相機或智慧型手機等。 在又一個實施例中,視訊流還可以是透過執行主體上集成的採集模組(如攝影鏡頭)現場採集的,此時,視訊流並非完整地直接全部獲取,而是按照影像框的拍攝間隔連續不斷地獲取。 在更多實施例中,視訊流的獲取方式還可以具有更多的形式,在此不做限定。 在獲取上述視訊流之後,還可以對視訊流進行預處理,從而產生可以利用卷積神經網路分析的條件。 由此,透過步驟22,對視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量。 可以理解,不同視訊流中的影像框數可能是不一樣的。在一個實現中,S可以是視訊流中影像框的框數,可以對這S個影像框都進行特徵抽取。在另一個實現中,S是一個預定值,例如30,對獲取的視訊流可以按照預定時間間隔、框間隔等抽取出S個影像框,並進行特徵抽取。以按照預定時間間隔為例,可以每個500毫秒抽取一個影像框。在更多實現中,還可以有更多方法從視訊流中確定出S個影像框進行特徵抽取,在此不再一一列舉。 值得說明的是,本說明書實施例的視訊流的處理方法尤其適用於一定時長(例如30秒)內的視訊流處理,例如,對受損車輛進行損傷識別時,拍攝的現場視訊。 對於影像框而言,所抽取的特徵可以是預先確定的一些特徵。這些特徵通常是與具體場景中對視訊流的分析需求相關的特徵。例如,在車損識別的場景下,所抽取的特徵可以是描述損傷部件、損傷程度等等的特徵。其中,特徵抽取的過程可以透過預先訓練的相應算法、模型來確定,也可以透過預先設定的參數臨限值(例如亮度臨限值等)來檢測,在此不做限定。 為了更清楚地進行描述,假設該S個影像框中的任一影像框為第一影像框,則針對該第一影像框,在一種可能的實施方式中,對該第一影像框進行特徵抽取的過程可以包括:對第一影像框進行目標識別,確定第一影像框的目標特徵。可以理解,對影像的處理可以以目標識別為目的,例如,在受損車輛的損傷識別場景下,這裡的目標例如可以是損傷部件、損傷程度等等。目標特徵可以包括,損傷部件、損傷材質、損傷類別中的一項或多項。 其中,目標識別可以透過預先訓練的識別模型確定。該識別模型的訓練樣本可以包括,預先標註有目標標籤(如保險桿刮擦等)的多張圖片。將訓練樣本中的各個圖片依次輸入選定的神經網路模型,例如決策樹(Decision Tree)、支持向量機(SVM)、CNN之類的模型,並根據預先標註的目標標籤調整模型參數,可以訓練出上述識別模型。 在另一個可能的實施方式中,對該第一影像框進行特徵抽取的過程可以包括:基於第一影像框與前一影像框的對比,確定第一影像框的變化特徵。該變化特徵可以用於描述當前影像框與前一影像框之間的變化情況。可以理解,視訊流採集過程中,可以透過靜止的採集裝置(如固定的監控攝影鏡頭)採集運動物體的影像,也可以透過運動的採集裝置(如智慧型手機)採集靜止物體(如受損車輛)的影像,還可以透過運動的採集裝置(如智慧型手機)採集運動物體的影像等等。因此,在確定影像框的變化特徵時,針對不同的情景,處理方法也可以不同。 可以理解,當物體在運動時,它在影像上對應點的亮度模式也在運動。這種影像亮度模式的表觀運動就是光流。光流可以表達影像的變化,由於它包含了目標運動的資訊,因此可被用來確定目標的運動情況。由光流的定義可以還可以引申出光流場,用於表徵影像中所有像素點構成的一種二維(2D)瞬時速度場。如此,在一個實施例中,可以將前一影像框到第一影像框的光流變化作為第一影像框的變化特徵。該光流變化可以透過諸如光流(Optical Flow)模型之類的方法實現。光流模型具有多種形式,舉例而言,可以把兩幅圖片(如第一影像框和前一影像框)一起輸入到一個“線性”的CNN中,光流輸出的結果是每個像素的偏移量。在可選的實現方式中,也可以選擇一個兩幅影像框中都包含的位置點(例如左前車燈的左上角)作為參考點,該參考點在兩幅影像框中分別對應第一影像框中第一座標和前一影像框中的第二座標,則可以將第一座標和第二座標的偏移座標確定為第一影像框的變化特徵。其中,對於兩個影像框,可以選擇同一二維座標系,例如都是以影像中心點為原點,沿長度方向為橫軸的座標系,第一座標和第二座標對應座標系中的二維座標。 另一方面,在視訊流中,採集設備的移動速度往往滯後於影像框採集速度,因此,相鄰的兩個影像框可以包含相同的特徵點。其中,影像的特徵點是影像中具有鮮明特性並能夠有效反映影像本質特徵、能夠標識影像中目標物體的點。特徵點可以透過諸如SIFT (Scale-invariant feature transform,尺度不變特徵變換)、LBP(Local Binary Pattern,局部二值模式)之類的方式確定,在此不再贅述。如此,在一個實施例中,可以根據特徵點的偏移,來評估相鄰兩幅影像的變化。其中,特徵點的偏移可以透過投影矩陣(projective matrix)來描述。舉例而言,假設第一影像框的特徵點集合為Y,前一影像框的特徵點集合為X,可以求解一個變換矩陣w,使得f(X)=Xw的結果盡可能接近Y,則求解出的變換矩陣w就可以作為前一影像框到第一影像框的投影矩陣。進一步地,可以將該偏移矩陣作為第一影像框的變化特徵。 在另一個實施例中,還可以透過第一影像框和前一影像框的影像相似性(Strcture Similarity)來確定第一影像框的變化特徵。影像相似性可以透過SSIM(structural similarity index measurement)指數來衡量。也就是說,可以將第一影像框和前一影像框的SSIM指數,作為第一影像框的變化特徵。作為示例,用Y表示第一影像框,用X表示前一影像框,X和Y的SSIM指數的一個計算方法為:
Figure 02_image001
其中,UX 為X各像素點的平均灰度值,UY 為Y的平均灰度值,Ux和UY 分別是X和Y的亮度估計;
Figure 02_image003
為X中由各像素點的灰度值確定的方差,
Figure 02_image005
為Y中由各像素點的灰度值確定的方差,
Figure 02_image007
Figure 02_image009
分別作為X和Y的對比度估計;
Figure 02_image011
為X和Y中各像素點灰度值的共變異數(Covariance);C1和C2為用於穩定除法運算的常數。SSIM指數的最大值為1,SSIM指數越大,兩個影像的結構相似度越高,當SSIM指數為1時,兩個影像的結構一致。 在更多實施方式中,針對第一影像框還有更多的確定其變化特徵的方式,在此不再贅述。值得說明的是,以上變化特徵在相關實施例中,可以單獨使用,也可以組合使用,在此不做限定。 其中,在第一影像框是視訊流的第一個影像框的情況下,確定其變化特徵時,可以將該第一影像框本身作為它的前一影像框進行對比,也可以直接將其變化特徵確定為預定值,例如投影矩陣的各個元素都為1,或者光流輸出為0,等等。 在再一個可能的實施方式中,本領域技術人員可以理解,根據應用場景的不同,對第一影像框抽取的特徵還可以包括其他特徵,例如清晰度特徵、光照特徵、目標存在情況特徵(是否包含目標)、拍攝角度特徵(如是否俯拍)等等中的一項或多項。這些特徵都可以按照上述的方式進行拼接,以包含在預定的N維特徵向量中。 在一個可能的設計中,也可以將目標特徵等變化特徵進行融合。此時,對於第一影像框,可以先確定其變化特徵(如投影矩陣),在第一影像框與前一影像框的包含相同目標的情況下,可以將前一影像框的目標特徵映射到該第一影像框,從而不需要透過目標識別而獲取第一影像框的目標特徵,例如在該第一影像框中增加前一影像框的保險桿刮擦特徵,等等。 在對視訊流的S個影像框僅分別抽取一個特徵的情況下,可以將該特徵產生對應影像框的特徵向量。此時,該特徵的維數可以為N維。 另一方面,如果對視訊流的S個影像框分別抽取多個特徵,可以將多個特徵的特徵值進行組合拼接,產生一個N維的特徵向量。 其中,上述的N可以是一個預定的正整數,特徵向量中的每個維度是代表預定特徵的特徵值。 如果各個影像框的某個特徵(例如前述的變化特徵)包括矩陣(如上述的投影矩陣),由於第一影像框的特徵向量是N維的特徵向量,因此,還可以對該矩陣進行鋪展或拼接處理,例如將投影矩陣的各列拼接排列,得到k維一列的向量,以作為N維的特徵向量的一部分,其中N≥k。 如此,針對視訊流中的S個影像框,可以得到S個N維特徵向量。進一步地,在步驟23中,將S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣。其中,特徵矩陣具有N行、至少S列。 可以理解,透過預先訓練的神經網路處理的特徵矩陣,其大小往往是預先確定的。如果視訊流中的S個影像框是按照預定框數S抽取,也就是說,特徵矩陣的預設列數就是S列,則可以直接將S個N維特徵向量組合排列,產生N維S列的矩陣,作為視訊流的特徵矩陣。然而,由於視訊長短可能無法預先知曉,S的值無法預先確定,如果特徵矩陣的預設列數為M列,在S=M的情況下,仍可以直接將S個N維特徵向量組合形成特徵矩陣,在S<M的情況下,簡單的特徵向量組合無法產生預定大小的特徵矩陣。 因此,在一個可能的設計中,可以利用內插方式在S個N維特徵向量中補充M-S個特徵向量,以產生N行M列的特徵矩陣。可以理解,在補充M-S個特徵向量的時候,涉及兩個問題,第一個是補充特徵向量的位置,另一個是補充什麼樣的特徵向量。 對於第一個問題,在可選的實現方式中,補充特徵向量的位置均勻分佈,例如,透過(M-S)/S確定每間隔多少個特徵向量補充一個特徵向量。如圖3所示,假設沒間隔2個特徵向量***一個N維特徵向量,可以將C0 、C1 、C2 、C3 等對應箭頭所指的位置為補充特徵向量的位置。值得說明的是,圖3中補充特徵向量的位置僅為示例,具體實施時,也可以將X11 之後,或者X21 之後的位置作為首個補充特徵向量的位置(對應C0 )。 對於第二個問題,是確定補充的特徵向量各維的具體值。為了描述方便,將任一確定的補充特徵向量的位置稱為第一內插位置,例如C0 、C1 、C2 、C3 等對應箭頭所指的位置。在一個可選的實現方式中,可以將第一內插位置最近鄰的特徵向量作為在第一內插位置處***的特徵向量。例如,在C0 對應箭頭所指的位置***特徵向量[X11 、X12 ……X1N ]。在第一內插位置由兩個最近鄰的特徵向量的情況下,可以隨機選擇其中一個特徵向量***第一內插位置,也可以按照預先確定的選擇規則(例如選擇後一個)選擇相應的特徵向量***第一內插位置,在此不做限定。在另一個可選的實現方式中,還可以將與第一內插位置鄰近的r個特徵向量中,各對應元素分別進行二線性內插,根據內插結果確定第一內插位置處***的特徵向量。其中,r可以是個預定的值,例如4。請參考圖3,以C1 對應箭頭所指的位置為例,將X11 、X21 、X31 、X41 分別看作橫軸為時間、縱軸為特徵值的二維座標系中的點,進行二線性內插運算,得到C1 對應位置(橫軸座標已知)***的N維特徵向量的第一維的值(縱軸座標)。以此類推,可以得到C1 對應位置***的N維特徵向量各維的值。 除了以上內插方式,在其他可能的設計中,還可以在最後一框的後面補充M-S個與最後一框的N維特徵向量相同的特徵向量等方式,形成M個N維的特徵向量,以組合成N行M列的特徵矩陣,在此不再一一列舉。 經過步驟23,可以按照預定大小,針對一個視訊流產生可以透過預先訓練的卷積神經網路進行處理的特徵矩陣。於是,在步驟24中,利用預先訓練的卷積神經網路處理特徵矩陣,以得到對視訊流的處理結果。 可以理解,卷積神經網路在處理影像時,其輸入矩陣的格式往往是“批次處理尺寸(batch_size)*長*寬*通道數”。其中,彩色影像的通道通常為“R”、“G”、“B”3個通道,即通道數為3。顯然,該格式中,長和寬是相互獨立的,通道之間則是相互影響的。同理,在對上述特徵矩陣的二維卷積操作中,影像的不同空間位置的特徵應該是獨立的,二維卷積操作具有空間不變性。由於影像處理過程中一般是在“長*寬”維度上做卷積,而如果將“長*寬”替換為特徵矩陣中的行數和列數,則在特徵維度上,不同位置的特徵之間是會相互影響的,而不是互相獨立,對其進行卷積是不合理的。例如抽取細節損傷圖,需要同時涉及細節圖分類,損傷檢測結果等多個維度的特徵。也就是說,該空間不變性在時間維度成立,在特徵維度上不成立。從而,這裡的特徵維度可以和影像處理中的通道維度的性質相對應。因此,可以對特徵矩陣的輸入格式進行調整,如調整為“批次處理尺寸(batch_size)*1*列數(如S或M)*行數(N)”。這樣,就可以在“1*列數(如M)”的維度做卷積,而每列是一個時刻的特徵集合,透過對時間維度做卷積,可以挖掘出各個特徵之間的關聯。 在一個實施例中,卷積神經網路可以包括一個或多個卷積處理層和輸出層。其中,卷積處理層可以由二維卷積層、啟用層、標準化層組成,例如2D convolutional Filter +ReLU+Batch Normalization。 其中,二維卷積層可以用於透過對應於時間維度的卷積核對特徵矩陣進行卷積處理。如圖4所示,N×M的特徵矩陣透過上述格式轉換得到的M×N矩陣,可以經過諸如(1,-1,-1,1)之類的卷積核對應於時間維度進行卷積操作。在卷積神經網路的訓練過程中,可以針對性地訓練卷積核。例如,可以針對每個特徵訓練一個卷積核。例如圖4示出的卷積核(1,-1,-1,1)是對應於車損檢測場景中的部件損傷特徵的卷積核等等。如此,經過每一個卷積核的卷積操作,可以識別一個特徵(例如車損檢測場景中的部件損傷特徵)。 啟用層可以用於把二維卷積層的輸出結果做非線性映射。啟用層可以透過諸如Sigmoid、Tanh(雙曲正切)、ReLU之類的激勵函數實現。透過啟用層,二維卷積層的輸出結果映射為0-1之間的非線性變化數值。 隨著網路加深,經過啟用層後的輸出結果可能會向梯度飽和區(對應激勵函數梯度變化較小的區域)移動。這樣,會由於梯度減小或消失導致的卷積神經網路收斂較慢或不收斂。因此,還可以進一步透過標準化層(Batch Normalization)將啟用層的輸出結果拉回激勵函數的梯度變化明顯的區域。 輸出層用於輸出對視訊流的處理結果。根據視訊流處理的場景以及目的的不同,輸出層輸出的處理結果也不相同。 例如在關鍵框抽取的應用場景下,所抽取的關鍵框可以是對結果意義較大的影像框,例如,車損識別的視訊流中,包含損傷的影像框。如果車輛損傷是不連續的,關鍵框還可以分段抽取。此時,輸出層輸出的處理結果可以為諸如[t1 ,t2 ]這樣的表示時間範圍的二維數組。其中,t1 表示關鍵框開始時間,t2 表示關鍵框結束時間。在一些可選的實現中,t1 、t2 還可以是歸一化的數值。例如總的影像框框數為30框,第18-25框可以表示為[18/30,25/30]。經過歸一化,可以避免輸出的梯度***,或者輸出結果不收斂。 這種情況下,對卷積神經網路訓練過程中,可以首先獲取作為樣本的多個視訊流。其中,這些視訊流先經過步驟21-23的預處理,可以得到樣本特徵矩陣。各個樣本特徵矩陣分別是N行、至少S列的矩陣。每個視訊流還可以具有預先標註出的關鍵框所在的時間段標籤。然後可以使用各個樣本特徵矩陣和時間段標籤訓練模型。這裡的時間段標籤例如是前述的[t1 ,t2 ]這樣的用於描述時間段的起始時刻、結束時刻的二維數組。其中的起始時刻、結束時刻可以為透過視訊流的首個影像框開始計算的相對時刻,該相對時刻可以是諸如第5秒、第5框這樣的相對描述。可選地,二維數組中的各元素為相應的相對時刻與視訊流的總時長的比值。相應地,視訊總時長也可以透過30秒、60框這樣的描述,在此不做限定。 如本領域技術人員所知,基於各個樣本對應的各個樣本特徵矩陣和時間段標籤,可透過例如梯度下降法調整模型的參數。模型訓練過執行緒中的損失函數例如為上述多個樣本的各自的預測函數與標籤值之差的平方和、或者為多個樣本的各自的預測函數與標籤值之差的絕對值之和,等等。以下以透過MSE(Minimum Squared-Error,最小平方誤差)方式計算損失函數為例進行說明。 將第一樣本(第k個樣本)的樣本特徵矩陣代入模型的輸出值為[yk1 ,yk2 ],樣本特徵矩陣對應的時間段標籤為[yk10 ,yk20 ],代入模型損失函數L1:
Figure 02_image013
可以看出,排在後面樣本的預測函數中還與排在前面的樣本的預測函數結果相關。然後,在損失函數中對模型參數求梯度,並向梯度的反方向調整參數的值,從而使得訓練後的模型的損失函數的值減小。 在一些實施例中,如果最終抽取的關鍵框為1個影像框,對於經過卷積神經網路輸出的關鍵框的時間範圍的視訊流的處理結果,還可以進一步進行後處理。例如,按照預定優先抽取規則,將檢測到的清晰度符合要求的第一個影像框抽取出來。該預定優先抽取規則例如是從最中間一框開始向兩邊同時進行。 再例如,在透過針對受損車輛拍攝的視訊流,確定受損部件及處理策略(如換新、維修)的應用場景下,卷積神經網路輸出的處理結果例如可以是預定的針對各個部件處理決策組成的多維數組。 這種情況下,卷積神經網路的各個卷積處理層的卷積核可以對其中一個特徵進行識別。此時,卷積神經網路的訓練樣本也可以是多個視訊流。這些視訊流先經過步驟21-23的預處理,可以得到樣本特徵矩陣。各個樣本特徵矩陣分別是N行、至少S列的矩陣。每個視訊流還可以具有預先標註出的處理決策標籤。這些處理決策標籤可以基於對實際車輛的處理結果確定,且例如可以包括換新、維修等中的至少一項。可以理解,對於受損車輛而言,損傷部件可以包括多個,處理決策也可以是多種(如換新、維修等),因此,處理決策標籤可以是個多維數組,數組中的各個元素值分別對應相關部件處理決策。然後可以用各個樣本特徵矩陣和處理決策標籤訓練模型。 如本領域技術人員所知,基於各個樣本對應的各個樣本特徵矩陣和處理決策標籤,可透過例如梯度下降法調整模型的參數。模型訓練過執行緒中的損失函數例如sigmiod函數、均方差等。以下以透過sigmiod函數方式計算損失函數為例進行說明。 將第一樣本的樣本特徵矩陣代入模型的輸出為一個r維的向量Y1 ,樣本特徵矩陣對應的損傷識別結果標籤為Y0 ,將Y1 進行一個平滑運算,得到:
Figure 02_image015
代入模型損失函數L2:
Figure 02_image017
其中,I為單位向量。“*”表示對向量求內積。可以看出,排在後面樣本的預測函數中還與排在前面的樣本的預測函數結果相關。然後,在損失函數中對模型參數求梯度,並向梯度的反方向調整參數的值,從而使得訓練後的模型的損失函數的值減小。 在一些實施例中,卷積神經網路的輸出結果可以是相應的機率,例如對前保險桿維修或換新的機率,透過機率與對應臨限值的對比,可以輸出最終的決策結果。其中,相應臨限值可以由區別於訓練集的樣本集透過訓練好的卷積神經網路進行預測,結合預測準確度要求確定。 在更多應用場景下,卷積神經網路還可以有與場景相應的輸出結果,在此不再一一例舉。 回顧以上過程,在對視訊流的處理過程中,透過採集時域信號,透過對視訊流中各影像框進行抽取特徵等預處理,將個影像框的額特徵向量組合產生可透過卷積神經網路處理的特徵矩陣,從而可以利用卷積神經網路對視訊流中的各個影像框進行綜合分析,並且,透過卷積神經網路的輸出層的不同設計可以應用於不同的視訊處理問題,更有效地進行視訊流處理。 根據另一方面的實施例,還提供一種視訊流的處理裝置。圖5示出根據一個實施例的視訊流的處理裝置的示意性方塊圖。如圖5所示,視訊流的處理裝置500包括:獲取單元51,配置為獲取待處理的視訊流;特徵抽取單元52,配置為對視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量;矩陣產生單元53,配置為將所述N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,特徵矩陣具有N行、至少S列;卷積處理單元54,配置為利用預先訓練的卷積神經網路處理特徵矩陣,以得到對視訊流的處理結果。 為了描述方便,假設S個影像框中的任一影像框為第一影像框。 根據一種實施方式,特徵抽取單元52還配置為:基於與所述第一影像框的前一影像框的對比,確定所述第一影像框的變化特徵。 在一個實施例中,特徵抽取單元52可以將前一影像框到第一影像框的光流變化作為變化特徵。 在另一個實施例中,特徵抽取單元52可以將透過結構相似性模型確定的第一影像框與前一影像框的SSIM指數,確定為第一影像框的變化特徵。 在又一個實施例中,特徵抽取單元52可以:基於第一影像框和前一影像框的變換關係,確定前一影像框變換到第一影像框的投影矩陣,並將投影矩陣作為變化特徵。 值得說明的是,在第一影像框為視訊流的第一個影像框的情況下,特徵抽取單元52可以:確定變化特徵包含預定值,或者確定前一影像框和第一影像框為相同影像框。 根據另一個實施方式,特徵抽取單元52還可以配置為: 針對S個影像框中的第一影像框,進行目標識別,確定第一影像框的目標特徵。其中,視訊流為針對損傷車輛拍攝的視訊流的情況下,目標特徵可以包括,損傷部件、損傷材質、損傷類別中的一項或多項。 根據其他實施方式,特徵抽取單元52還可以配置為: 針對S個影像框中的第一影像框,檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項,並將檢測結果作為第一影像框的相應特徵。 進一步地,矩陣產生單元53可以將各個影像框透過特徵抽取單元52抽取的各個特徵對應的特徵值進行組合,從而產生一個N維的特徵向量。 在一個可能的設計中,矩陣產生單元53還可以:利用內插方式在S個N維特徵向量中補充M-S個特徵向量,以產生N行M列的特徵矩陣。 其中,對於第一內插位置,內插方式包括以下之一: 將第一內插位置最近鄰的特徵向量作為在第一內插位置處***的特徵向量; 將與第一內插位置鄰近的r個特徵向量中,各對應元素分別進行二線性內插,根據內插結果確定第一內插位置處***的特徵向量。 在一個實施例中,卷積神經網路透過至少一個卷積核對特徵矩陣進行卷積處理。卷積核依次處理特徵矩陣中每個時間維度的多個特徵值。 在卷積神經網路用於對視訊流進行關鍵影像框抽取的情況下,裝置500還可以包括第一模型訓練單元,配置為透過以下方式訓練卷積神經網路: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及標註出的關鍵框所在時間段標籤; 使用各個樣本特徵矩陣和時間段標籤訓練模型,以使得相比於訓練前,訓練後的模型的與樣本對應的損失函數減小。 在卷積神經網路用於對視訊流進行車輛處理決策的情況下,裝置500還可以包括第二模型訓練單元,配置為透過以下方式訓練卷積神經網路: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及基於實際車輛的處理決策標籤; 使用各個樣本特徵矩陣即對應的處理決策標籤訓練模型,以使得相比於訓練前,訓練後的模型的與樣本對應的損失函數減小。 可選地,上述處理決策標籤為多維向量,處理決策標籤中的多個元素可以包括:車輛各個部件的換新機率、車輛各個部件的修理機率。 值得說明的是,圖5所示的裝置500是與圖2出的方法實施例相對應的裝置實施例,圖2出的方法實施例中的相應描述同樣適用於裝置500,在此不再贅述。 根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2所描述的方法。 根據再一方面的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現結合圖2所述的方法。 本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
21, 22, 23, 24:步驟 500:裝置 51:獲取單元 52:特徵抽取單元 53:矩陣產生單元 54:卷積處理單元
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。 圖1示出本說明書實施例的應用場景示意圖; 圖2示出根據一個實施例的視訊流的處理方法的流程圖; 圖3示出根據一個實施例的視訊流的處理過程中的特徵矩陣產生示意圖; 圖4示出根據一個具體例子的對特徵矩陣做卷積的示意圖; 圖5示出根據一個實施例的視訊流的處理裝置的示意性方塊圖。

Claims (36)

  1. 一種視訊流的處理方法,所述方法包括: 獲取待處理的視訊流; 對所述視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量; 將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,所述特徵矩陣具有N行、至少S列; 利用預先訓練的卷積神經網路處理所述特徵矩陣,以得到對所述視訊流的處理結果。
  2. 根據申請專利範圍第1項所述的方法,其中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取包括: 基於與所述第一影像框的前一影像框的對比,確定所述第一影像框的變化特徵。
  3. 根據申請專利範圍第2項所述的方法,其中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括:將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。
  4. 根據申請專利範圍第2項所述的方法,其中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括: 將透過結構相似性模型確定的所述第一影像框與所述前一影像框的SSIM指數,確定為所述第一影像框的變化特徵。
  5. 根據申請專利範圍第2項所述的方法,其中,所述S個影像框包括第一影像框,所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括: 確定所述前一影像框變換到所述第一影像框的投影矩陣; 將所述投影矩陣作為所述變化特徵。
  6. 根據申請專利範圍第2至5項任一所述的方法,其中,在所述第一影像框為所述視訊流的第一個影像框的情況下,確定所述變化特徵包含預定值,或者確定所述前一影像框和所述第一影像框為相同影像框。
  7. 根據申請專利範圍第1項所述的方法,其中,所述對所述視訊流中的S個影像框分別進行特徵抽取包括: 針對所述S個影像框中的第一影像框,進行目標識別,確定所述第一影像框的目標特徵。
  8. 根據申請專利範圍第7項所述的方法,其中,所述視訊流為針對損傷車輛拍攝的視訊流,所述目標特徵包括,損傷部件、損傷材質、損傷類別中的一項或多項。
  9. 根據申請專利範圍第1項所述的方法,其中,所述對所述視訊流中的S個影像框分別進行特徵抽取包括: 針對所述S個影像框中的第一影像框,檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項,並將檢測結果作為所述第一影像框的相應特徵。
  10. 根據申請專利範圍第1項所述的方法,其中,在對所述S個影像框中的第一影像框抽取多個特徵的情況下,所述產生S個N維的特徵向量包括: 將所述第一影像框的多個特徵對應的特徵值進行組合,從而產生一個N維的特徵向量。
  11. 根據申請專利範圍第1項所述的方法,其中,所述將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣包括: 利用內插方式在S個N維特徵向量中補充M-S個特徵向量,以產生N行M列的所述特徵矩陣。
  12. 根據申請專利範圍第11項所述的方法,其中,對於第一內插位置,所述內插方式包括以下之一: 將所述第一內插位置最近鄰的特徵向量作為在所述第一內插位置處***的特徵向量; 將與所述第一內插位置鄰近的r個特徵向量中,各對應元素分別進行二線性內插,根據內插結果確定所述第一內插位置處***的特徵向量。
  13. 根據申請專利範圍第1項所述的方法,其中,所述卷積神經網路透過至少一個卷積核對所述特徵矩陣進行卷積處理,其中,所述卷積核依次處理所述特徵矩陣中每個時間維度的多個特徵值。
  14. 根據申請專利範圍第13項所述的方法,其中,所述卷積神經網路用於對所述視訊流進行關鍵影像框抽取,所述卷積神經網路透過以下方式訓練: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及標註出的關鍵框所在時間段標籤,所述時間段標籤包括用於描述所述時間段的起始時刻、結束時刻的二維數組,所述起始時刻、所述結束時刻為透過所述視訊流的首個影像框開始計算的相對時刻; 使用各個樣本特徵矩陣和時間段標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述樣本對應的預測損失函數減小。
  15. 根據申請專利範圍第14項所述的方法,其中,所述二維數組中的各元素為相應的相對時刻與所述視訊流的總時長的比值。
  16. 根據申請專利範圍第13項所述的方法,其中,所述卷積神經網路用於對所述視訊流進行車輛處理決策,所述卷積神經網路透過以下方式訓練: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及基於實際車輛的處理決策標籤; 使用各個樣本特徵矩陣及對應的處理決策標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述樣本對應的預測損失函數減小。
  17. 根據申請專利範圍第16項所述的方法,其中,所述處理決策標籤為多維向量,所述處理決策標籤中的多個元素包括:車輛各個部件的換新機率、車輛各個部件的修理機率。
  18. 一種視訊流的處理裝置,所述裝置包括: 獲取單元,配置為獲取待處理的視訊流; 特徵抽取單元,配置為對所述視訊流中的S個影像框分別進行特徵抽取,產生S個N維的特徵向量; 矩陣產生單元,配置為將所述S個N維特徵向量按照對應影像框的時間順序進行排列,產生特徵矩陣,其中,所述特徵矩陣具有N行、至少S列; 卷積處理單元,配置為利用預先訓練的卷積神經網路處理所述特徵矩陣,以得到對所述視訊流的處理結果。
  19. 根據申請專利範圍第18項所述的裝置,其中,所述S個影像框包括第一影像框,所述特徵抽取單元還配置為: 基於與所述第一影像框的前一影像框的對比,確定所述第一影像框的變化特徵。
  20. 根據申請專利範圍第19項所述的裝置,其中,所述特徵抽取單元進一步配置為:將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。
  21. 根據申請專利範圍第19項所述的裝置,其中,所述特徵抽取單元進一步配置為: 將透過結構相似性模型確定的所述第一影像框與所述前一影像框的SSIM指數,確定為所述第一影像框的變化特徵。
  22. 根據申請專利範圍第19項所述的裝置,其中,所述特徵抽取單元進一步配置為: 確定所述前一影像框變換到所述第一影像框的投影矩陣; 將所述投影矩陣作為所述變化特徵。
  23. 根據申請專利範圍第18至22項任一所述的裝置,其中,在所述第一影像框為所述視訊流的第一個影像框的情況下,所述特徵抽取單元進一步配置為:確定所述變化特徵包含預定值,或者確定所述前一影像框和所述第一影像框為相同影像框。
  24. 根據申請專利範圍第18項所述的裝置,其中,所述特徵抽取單元還配置為: 針對所述S個影像框中的第一影像框,進行目標識別,確定所述第一影像框的目標特徵。
  25. 根據申請專利範圍第24項所述的裝置,其中,所述視訊流為針對損傷車輛拍攝的視訊流,所述目標特徵包括,損傷部件、損傷材質、損傷類別中的一項或多項。
  26. 根據申請專利範圍第18項所述的裝置,其中,所述特徵抽取單元還配置為: 針對所述S個影像框中的第一影像框,檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項,並將檢測結果作為所述第一影像框的相應特徵。
  27. 根據申請專利範圍第18項所述的裝置,其中,在對所述S個影像框中的第一影像框抽取多個特徵的情況下,所述產生S個N維的特徵向量包括: 將所述第一影像框的多個特徵對應的特徵值進行組合,從而產生一個N維的特徵向量。
  28. 根據申請專利範圍第18項所述的裝置,其中,所述矩陣產生單元還配置為: 利用內插方式在S個N維特徵向量中補充M-S個特徵向量,以產生N行M列的所述特徵矩陣。
  29. 根據申請專利範圍第28項所述的裝置,其中,對於第一內插位置,所述內插方式包括以下之一: 將所述第一內插位置最近鄰的特徵向量作為在所述第一內插位置處***的特徵向量; 將與所述第一內插位置鄰近的r個特徵向量中,各對應元素分別進行二線性內插,根據內插結果確定所述第一內插位置處***的特徵向量。
  30. 根據申請專利範圍第18項所述的裝置,其中,所述卷積神經網路透過至少一個卷積核對所述特徵矩陣進行卷積處理,其中,所述卷積核依次處理所述特徵矩陣中每個時間維度的多個特徵值。
  31. 根據申請專利範圍第30項所述的裝置,其中,所述卷積神經網路用於對所述視訊流進行關鍵影像框抽取,所述裝置還包括第一模型訓練單元,配置為透過以下方式訓練所述卷積神經網路: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及標註出的關鍵框所在時間段標籤,所述時間段標籤包括用於描述所述時間段的起始時刻、結束時刻的二維數組,所述起始時刻、所述結束時刻為透過所述視訊流的首個影像框開始計算的相對時刻; 使用各個樣本特徵矩陣和時間段標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。
  32. 根據申請專利範圍第29項所述的裝置,其中,所述二維數組中的各元素為相應的相對時刻與所述視訊流的總時長的比值。
  33. 根據申請專利範圍第30項所述的裝置,其中,所述卷積神經網路用於對所述視訊流進行車輛處理決策,所述裝置還包括第二模型訓練單元,配置為透過以下方式訓練所述卷積神經網路: 獲取作為樣本的多個視訊流,各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣,以及基於實際車輛的處理決策標籤; 使用各個樣本特徵矩陣即對應的處理決策標籤訓練所述模型,以使得相比於訓練前,訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。
  34. 根據申請專利範圍第33項所述的裝置,其中,所述處理決策標籤為多維向量,所述處理決策標籤中的多個元素包括:車輛各個部件的換新機率、車輛各個部件的修理機率。
  35. 一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行申請專利範圍第1至17項任一項的所述的方法。
  36. 一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現申請專利範圍第1至17項中任一項所述的方法。
TW108129775A 2019-02-14 2019-08-21 視訊流的處理方法和裝置 TWI750498B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910114910.5A CN110569702B (zh) 2019-02-14 2019-02-14 视频流的处理方法和装置
CN201910114910.5 2019-02-14

Publications (2)

Publication Number Publication Date
TW202101371A true TW202101371A (zh) 2021-01-01
TWI750498B TWI750498B (zh) 2021-12-21

Family

ID=68772822

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108129775A TWI750498B (zh) 2019-02-14 2019-08-21 視訊流的處理方法和裝置

Country Status (6)

Country Link
US (1) US10943126B2 (zh)
EP (1) EP3857440A1 (zh)
CN (1) CN110569702B (zh)
SG (1) SG11202104426WA (zh)
TW (1) TWI750498B (zh)
WO (1) WO2020167581A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120273B2 (en) * 2019-06-21 2021-09-14 Gfycat, Inc. Adaptive content classification of a video content item
US11756301B2 (en) * 2020-04-20 2023-09-12 Prime Focus Technologies Limited System and method for automatically detecting and marking logical scenes in media content
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
US11341682B2 (en) * 2020-08-13 2022-05-24 Argo AI, LLC Testing and validation of a camera under electromagnetic interference
CN111737522B (zh) * 2020-08-14 2021-03-02 支付宝(杭州)信息技术有限公司 视频匹配方法、基于区块链的侵权存证方法和装置
CN112348011B (zh) * 2020-09-10 2022-08-09 小灵狗出行科技有限公司 一种车辆定损方法、装置及存储介质
CN112100075B (zh) * 2020-09-24 2024-03-15 腾讯科技(深圳)有限公司 一种用户界面回放方法、装置、设备及存储介质
US11538247B2 (en) * 2020-09-29 2022-12-27 Wipro Limited Method and system for manufacturing operations workflow monitoring using structural similarity index based activity detection
CN112395971A (zh) * 2020-11-16 2021-02-23 公安部第三研究所 基于StarGAN的不同量化光照及角度条件下人脸测试图像生成方法、应用及存储介质
CN112560751A (zh) * 2020-12-24 2021-03-26 湘潭大学 一种阳台高空坠物风险检测方法及***
CN113076813B (zh) * 2021-03-12 2024-04-12 首都医科大学宣武医院 面具脸特征识别模型训练方法和装置
US12008821B2 (en) * 2021-05-07 2024-06-11 Google Llc Machine-learned models for unsupervised image transformation and retrieval
CN113297949B (zh) * 2021-05-20 2024-02-20 科大讯飞股份有限公司 高空抛物检测方法、装置、计算机设备和存储介质
CN113327628B (zh) * 2021-05-27 2023-12-22 抖音视界有限公司 音频处理方法、装置、可读介质和电子设备
CN113486173B (zh) * 2021-06-11 2023-09-12 南京邮电大学 文本标注神经网络模型及其标注方法
CN113486763A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 车舱内人员冲突行为的识别方法及装置、设备和介质
CN113960152B (zh) * 2021-10-18 2023-06-06 北方工业大学 一种基于离子迁移谱的痕量***物识别方法及***
WO2023116351A1 (zh) * 2021-12-21 2023-06-29 上海微创卜算子医疗科技有限公司 责任帧提取方法、视频分类方法、设备和介质
CN114049771A (zh) * 2022-01-12 2022-02-15 华砺智行(武汉)科技有限公司 基于双模态的交通异常检测方法、***和存储介质
CN114390200B (zh) * 2022-01-12 2023-04-14 平安科技(深圳)有限公司 相机作弊识别方法、装置、设备及存储介质
CN114871486B (zh) * 2022-06-21 2023-05-05 大畏机床(江苏)有限公司 龙门刨床及其加工控制方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004004320A1 (en) * 2002-07-01 2004-01-08 The Regents Of The University Of California Digital processing of video images
CN104036243B (zh) * 2014-06-06 2017-04-05 电子科技大学 一种基于光流信息的行为识别方法
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
US10025988B2 (en) * 2015-05-22 2018-07-17 Tektronix, Inc. Anomalous pixel detection
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
US10510144B2 (en) * 2015-09-10 2019-12-17 Magentiq Eye Ltd. System and method for detection of suspicious tissue regions in an endoscopic procedure
US9805255B2 (en) * 2016-01-29 2017-10-31 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106980823A (zh) * 2017-03-14 2017-07-25 天津大学 一种基于帧间自相似的动作识别方法
CN111914692B (zh) * 2017-04-28 2023-07-14 创新先进技术有限公司 车辆定损图像获取方法及装置
CN107977461A (zh) * 2017-12-21 2018-05-01 厦门美图之家科技有限公司 一种视频特征提取方法及装置
KR20190078292A (ko) * 2017-12-26 2019-07-04 삼성전자주식회사 뉴럴 네트워크 연산을 수행하는 장치 및 이의 동작 방법
CN108960207B (zh) * 2018-08-08 2021-05-11 广东工业大学 一种图像识别的方法、***及相关组件
CN109145903A (zh) * 2018-08-22 2019-01-04 阿里巴巴集团控股有限公司 一种图像处理方法和装置

Also Published As

Publication number Publication date
TWI750498B (zh) 2021-12-21
US10943126B2 (en) 2021-03-09
CN110569702A (zh) 2019-12-13
CN110569702B (zh) 2021-05-14
EP3857440A1 (en) 2021-08-04
US20200265239A1 (en) 2020-08-20
WO2020167581A1 (en) 2020-08-20
SG11202104426WA (en) 2021-05-28

Similar Documents

Publication Publication Date Title
TWI750498B (zh) 視訊流的處理方法和裝置
Zama Ramirez et al. Geometry meets semantics for semi-supervised monocular depth estimation
CN111797653B (zh) 基于高维图像的图像标注方法和装置
Biswas et al. Gesture recognition using microsoft kinect®
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
US9158985B2 (en) Method and apparatus for processing image of scene of interest
US11443454B2 (en) Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor
KR20210139450A (ko) 이미지 디스플레이 방법 및 디바이스
CN105957110B (zh) 用于检测对象的设备和方法
WO2021057069A1 (zh) 计算机执行的车辆定损方法及装置
WO2019204945A1 (en) System and method for scalable cloud-robotics based face recognition and face analysis
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
KR20180054808A (ko) 이미지들 내의 움직임 검출
CN110298281B (zh) 视频结构化方法、装置、电子设备及存储介质
Gwn Lore et al. Generative adversarial networks for depth map estimation from RGB video
Lore et al. Generative adversarial networks for depth map estimation from RGB video
CN111860414A (zh) 一种基于多特征融合检测Deepfake视频方法
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
US20220366570A1 (en) Object tracking device and object tracking method
Chaudhary et al. Robust real-time visual tracking using dual-frame deep comparison network integrated with correlation filters
CN113298707B (zh) 图像帧拼接方法、视频巡检方法、装置、设备及存储介质
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
WO2012153868A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7253967B2 (ja) 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム