TW202101384A - 圖像處理方法、提名評估方法及相關裝置 - Google Patents

圖像處理方法、提名評估方法及相關裝置 Download PDF

Info

Publication number
TW202101384A
TW202101384A TW109103874A TW109103874A TW202101384A TW 202101384 A TW202101384 A TW 202101384A TW 109103874 A TW109103874 A TW 109103874A TW 109103874 A TW109103874 A TW 109103874A TW 202101384 A TW202101384 A TW 202101384A
Authority
TW
Taiwan
Prior art keywords
sequence
feature
nomination
target
probability
Prior art date
Application number
TW109103874A
Other languages
English (en)
Other versions
TWI734375B (zh
Inventor
蘇海昇
王濛濛
甘偉豪
Original Assignee
大陸商上海商湯智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商上海商湯智能科技有限公司 filed Critical 大陸商上海商湯智能科技有限公司
Publication of TW202101384A publication Critical patent/TW202101384A/zh
Application granted granted Critical
Publication of TWI734375B publication Critical patent/TWI734375B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一種時序提名生成方法及裝置,該方法可包括:獲取視頻流的第一特徵序列;基於該第一特徵序列,得到第一物件邊界概率序列,其中,該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率;基於該視頻流的第二特徵序列,得到第二物件邊界概率序列;該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。

Description

圖像處理方法、提名評估方法及相關裝置
本發明涉及圖像處理領域,尤其涉及一種圖像處理方法、提名評估方法及相關裝置。
時序物件檢測技術是視頻行為理解領域一個重要且極具挑戰性的課題。時序物件檢測技術在很多領域都起到重要作用,比如視頻推薦,安防監控以及智慧家居等等。
時序物件檢測任務旨在從未修剪的長視頻中定位到物件出現的具體時間和類別。此類問題的一大難點是如何提高生成的時序物件提名的品質。高品質的時序物件提名應該具備兩個關鍵屬性:(1)生成的提名應該盡可能地覆蓋真實的物件標注;(2)提名的品質應該能夠被全面且準確地評估,為每一個提名生成一個置信度分數用於後續檢索。當前,採用的時序提名生成方法通常存在生成提名的邊界不夠準確的問題。
本發明實施例提供了一種視頻處理方案。
第一方面,本申請實施例提供了一種圖像處理方法,該方法可包括:獲取視頻流的第一特徵序列,其中,該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料;基於該第一特徵序列,得到第一物件邊界概率序列,其中,該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率;基於該視頻流的第二特徵序列,得到第二物件邊界概率序列;該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。
本申請實施例中,基於融合後的物件邊界概率序列生成時序物件提名集,可以得到邊界更精確的概率序列,使得生成的時序物件提名的品質更高。
在一個可選的實現方式中,該基於該視頻流的第二特徵序列,得到第二物件邊界概率序列之前,該方法還包括:將該第一特徵序列進行時序翻轉處理,得到該第二特徵序列。
在該實現方式中,對第一特徵序列進行時序翻轉處理以得到第二特徵序列,操作簡單。
在一個可選的實現方式中,該基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集包括:對該第一物件邊界概率序列以及該第二物件邊界概率序列進行融合處理,得到目標邊界概率序列;基於該目標邊界概率序列,生成該時序物件提名集。
在該實現方式中,透過對兩個物件邊界序列進行融合處理可以得到一個邊界更加準確地物件邊界概率,進而生成品質更高的時序物件提名集。
在一個可選的實現方式中,該對該第一物件邊界概率序列以及該第二物件邊界概率序列進行融合處理,得到目標邊界概率序列包括:將該第二物件邊界概率序列進行時序翻轉處理,得到第三物件邊界概率序列;融合該第一物件邊界概率序列和該第三物件邊界概率序列,得到該目標邊界概率序列。
在該實現方式中,從兩個相反的時序方向來評估視頻中每個片段的邊界概率,並採用一個簡單有效地的融合策略來去除雜訊,使得最終定位到的時序邊界擁有更高的精度。
在一個可選的實現方式中,該第一物件邊界概率序列和該第二物件邊界概率序列中的每個物件邊界概率序列包括起始概率序列和結束概率序列;該對該第一物件邊界概率序列以及該第二物件邊界概率序列進行融合處理,得到目標邊界概率序列包括:將該第一物件邊界概率序列和該第二物件邊界概率序列中的起始概率序列進行融合處理,得到目標起始概率序列;和/或
將該第一物件邊界概率序列和該第二物件邊界概率序列中的結束概率序列進行融合處理,得到目標結束概率序列,其中,該目標邊界概率序列包括該目標初始概率序列和該目標結束概率序列的至少一項。
在該實現方式中,從兩個相反的時序方向來評估視頻中每個片段的邊界概率,並採用一個簡單有效地的融合策略來去除雜訊,使得最終定位到的時序邊界擁有更高的精度。
在一個可選的實現方式中,基於該目標邊界概率序列,生成該時序物件提名集包括:基於該目標邊界概率序列包括的目標起始概率序列和目標結束概率序列,生成該時序物件提名集;
或者,基於該目標邊界概率序列包括的目標起始概率序列和該第一物件邊界概率序列包括的結束概率序列,生成該時序物件提名集;
或者,基於該目標邊界概率序列包括的目標起始概率序列和該第二物件邊界概率序列包括的結束概率序列,生成該時序物件提名集;
或者,基於該第一物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集;
或者,基於該第二物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集。
在該實現方式中,可以快速、準確地生成候選時序物件提名集。
在一個可選的實現方式中,該基於該目標邊界概率序列包括的目標起始概率序列和目標結束概率序列,生成該時序物件提名集包括:基於該目標起始概率序列中包含的該多個片段的目標起始概率,得到第一片段集,以及基於該目標結束概率序列中包括的該多個片段的目標結束概率,得到第二片段集,其中,該第一片段集包括目標起始概率超過第一閾值的片段和/或目標起始概率高於至少兩個相鄰片段的片段,該第二片段集包括目標結束概率超過第二閾值的片段和/或目標結束概率高於至少兩個相鄰片段的片段;基於該第一片段集和該第二片段集,生成該時序物件提名集。
在該實現方式中,可以快速、準確地篩選出第一片段集以及第二片段集,進而根據該第一片段集和該第二片段集生成時序物件提名集。
在一個可選的實現方式中,該圖像處理方法還包括:基於該視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於該時序物件提名集;基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
在該方式中,可以整合長期提名特徵和短期提名特徵之間的交互資訊以及其他多細微性線索來生成豐富的提名特徵,進而提高提名品質評估的準確性。
在一個可選的實現方式中,該基於該視頻流的視頻特徵序列,得到該視頻流的第一時序物件提名的長期提名特徵之前,該方法還包括:基於該第一特徵序列和該第二特徵序列中的至少一項,得到目標動作概率序列;將該第一特徵序列和該目標動作概率序列進行拼接,得到該視頻特徵序列。
在該實現方式中,透過拼接動作概率序列和第一特徵序列,可以快速地得到包括更多特徵資訊的特徵序列,以便於採樣得到的提名特徵包含的資訊更豐富。
在一個可選的實現方式中,該基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,包括:基於該第一時序物件提名對應的時間段,對該視頻特徵序列進行採樣,得到該短期提名特徵。
在該實現方式中,可以快速、準確地提取到長期提名特徵。
在一個可選的實現方式中,該基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果包括:基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵;基於該第一時序物件提名的目標提名特徵,得到該第一時序物件提名的評估結果。
在該實現方式中,透過整合長期提名特徵和短期提名特徵可以得到一個品質更好的提名特徵,以便於更準確地評估時序物件提名的品質。
在一個可選的實現方式中,該基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵包括:對該長期提名特徵和該短期特徵提名執行非局部注意力操作,得到中間提名特徵;將該短期提名特徵和該中間提名特徵進行拼接,得到該目標提名特徵。
在該實現方式中,透過非局部注意力操作以及融合操作,可以得到特徵更加豐富的提名特徵,以便於更準確地評估時序物件提名的品質。
在一個可選的實現方式中,該基於該視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵包括:基於該視頻特徵序列中對應於參考時間區間的特徵資料,得到該長期提名特徵,其中,該參考時間區間從該時序物件提名集中的首個時序物件的開始時間到最後一個時序物件的結束時間。
在該實現方式中,可以快速地得到長期提名特徵。
在一個可選的實現方式中,該圖像處理方法還包括:將該目標提名特徵輸入至提名評估網路進行處理,得到該第一時序物件提名的至少兩項品質指標,其中,該至少兩項品質指標中的第一指標用於表徵該第一時序物件提名與真值的交集占該第一時序物件提名的長度比例,該至少兩項品質指標中的第二指標用於表徵該第一時序物件提名與該真值的交集占該真值的長度比例;根據該至少兩項品質指標,得到該評估結果。
在該實現方式中,根據至少兩項品質指標得到評估結果,可以更準確地評估時序物件提名的品質,評估結果品質更高。
在一個可選的實現方式中,該圖像處理方法應用於時序提名生成網路,該時序提名生成網路包括提名生成網路和提名評估網路;該時序提名生成網路的訓練過程包括:將訓練樣本輸入至該時序提名生成網路進行處理,得到該提名生成網路輸出的樣本時序提名集和該提名評估網路輸出的該樣本時序提名集中包括的樣本時序提名的評估結果;基於該訓練樣本的樣本時序提名集和該樣本時序提名集中包括的樣本時序提名的評估結果分別與該訓練樣本的標注資訊之間的差異,得到網路損失;基於該網路損失,調整該時序提名生成網路的網路參數。
在該實現方式中,將提名生成網路和提名評估網路作為一個整體進行聯合訓練,在有效提升時序提名集的精度的同時穩健提升了提名評估的品質,進而保證了後續提名檢索的可靠性。
在一個可選的實現方式中,該圖像處理方法應用於時序提名生成網路,該時序提名生成網路包括第一提名生成網路、第二提名生成網路和提名評估網路;該時序提名生成網路的訓練過程包括;將第一訓練樣本輸入至該第一提名生成網路做處理得到第一樣本起始概率序列、第一樣本動作概率序列、第一樣本結束概率序列,以及將第二訓練樣本輸入至該第二提名生成網路做處理得到第二樣本起始概率序列、第二樣本動作概率序列、第二樣本結束概率序列;基於該第一樣本起始概率序列、該第一樣本動作概率序列、該第一樣本結束概率序列、該第二樣本起始概率序列、該第二樣本動作概率序列、該第二樣本結束概率序列,得到樣本時序提名集以及樣本提名特徵集;將該樣本提名特徵集輸入至該提名評估網路做處理,得到該樣本提名特徵集中各樣本提名特徵的至少兩項品質指標;根據該各樣本提名特徵的至少兩項品質指標,確定該各樣本提名特徵的置信度分數;根據該第一提名生成網路和該第二提名生成網路對應的第一損失和該提名評估網路對應的第二損失的加權和,更新該第一提名生成網路、該第二提名生成網路以及該提名評估網路。
在該實現方式中,將第一提名生成網路、第二提名生成網路、提名評估網路作為一個整體進行聯合訓練,在有效提升時序提名集的精度的同時穩健提升了提名評估的品質,進而保證了後續提名檢索的可靠性。
在一個可選的實現方式中,該基於該第一樣本起始概率序列、該第一樣本動作概率序列、該第一樣本結束概率序列、該第二樣本起始概率序列、該第二樣本動作概率序列、該第二樣本結束概率序列,得到樣本時序提名集包括:融合該第一樣本起始概率序列和該第二樣本起始概率序列,得到目標樣本起始概率序列;融合該第一樣本結束概率序列和該第二樣本結束概率序列,得到目標樣本結束概率序列;基於該目標樣本起始概率序列和該目標樣本結束概率序列,生成該樣本時序提名集。
在該實現方式中,從兩個相反的時序方向來評估視頻中每個片段的邊界概率,並採用一個簡單有效地的融合策略來去除雜訊,使得最終定位到的時序邊界擁有更高的精度。
在一個可選的實現方式中,該第一損失為以下任一項或以下至少兩項的加權和:該目標樣本起始概率序列相對於真實樣本起始概率序列的損失、該目標樣本結束概率序列相對於真實樣本結束概率序列的損失以及該目標樣本動作概率序列相對於真實樣本動作概率序列的損失;該第二損失為該各樣本提名特徵的至少一項品質指標相對於各樣本提名特徵的真實品質指標的損失。
在該實現方式中,可以快速訓練得到第一提名生成網路、第二提名生成網路以及提名評估網路。
第二方面,本申請實施例提供了一種提名評估方法,該方法可包括:基於視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該視頻特徵序列包含該視頻流包含的多個片段中每個片段的特徵資料和基於該視頻流得到的動作概率序列,或者,該視頻特徵序列為基於該視頻流得到的動作概率序列,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
本申請實施例中,透過整合長期提名特徵和短期提名特徵之間的交互資訊以及其他多細微性線索來生成豐富的提名特徵,進而提高提名品質評估的準確性。
在一個可選的實現方式中,該基於視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵之前,該方法還包括:基於第一特徵序列和第二特徵序列中的至少一項,得到目標動作概率序列;其中,該第一特徵序列和該第二特徵序列均包含該視頻流的多個片段中每個片段的特徵資料,且該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;將該第一特徵序列和該目標動作概率序列進行拼接,得到該視頻特徵序列。
在該實現方式中,透過拼接動作概率序列和第一特徵序列,可以快速地得到包括更多特徵資訊的特徵序列,以便於採樣得到的提名特徵包含的資訊更豐富。
在一個可選的實現方式中,該基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵包括:基於該第一時序物件提名對應的時間段,對該視頻特徵序列進行採樣,得到該短期提名特徵。
在該實現方式中,可以快速地得到短期提名特徵。
在一個可選的實現方式中,該基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果包括:基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵;基於該第一時序物件提名的目標提名特徵,得到該第一時序物件提名的評估結果。
在該實現方式中,透過整合長期提名特徵和短期提名特徵可以得到一個品質更好的提名特徵,以便於更準確地評估時序物件提名的品質。
在一個可選的實現方式中,該基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵包括:對該長期提名特徵和該短期特徵提名執行非局部注意力操作,得到中間提名特徵;將該短期提名特徵和該中間提名特徵進行拼接,得到該目標提名特徵。
在該實現方式中,透過非局部注意力操作以及融合操作,可以得到特徵更加豐富的提名特徵,以便於更準確地評估時序物件提名的品質。
在一個可選的實現方式中,該基於該視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵包括:基於該視頻特徵序列中對應於參考時間區間的特徵資料,得到該長期提名特徵,其中,該參考時間區間從該時序物件提名集中的首個時序物件的開始時間到最後一個時序物件的結束時間。
在該實現方式中,可以快速地得到長期提名特徵。
在一個可選的實現方式中,該基於該第一時序物件提名的目標提名特徵,得到該第一時序物件提名的評估結果包括:將該目標提名特徵輸入至提名評估網路進行處理,得到該第一時序物件提名的至少兩項品質指標,其中,該至少兩項品質指標中的第一指標用於表徵該第一時序物件提名與真值的交集占該第一時序物件提名的長度比例,該至少兩項品質指標中的第二指標用於表徵該第一時序物件提名與該真值的交集占該真值的長度比例;根據該至少兩項品質指標,得到該評估結果。
在該實現方式中,根據至少兩項品質指標得到評估結果,可以更準確地評估時序物件提名的品質,評估結果品質更高。
協力廠商面,本申請實施例提供了另一種提名評估方法,該方法可包括:基於視頻流的第一特徵序列,得到所述視頻流的目標動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;將所述第一特徵序列和所述目標動作概率序列進行拼接,得到視頻特徵序列;基於所述視頻特徵序列,得到所述視頻流的第一時序物件提名的評估結果。
本申請實施例中,將特徵序列和目標動作概率序列在通道維度上進行拼接得到包括更多特徵資訊的視頻特徵序列,以便於採樣得到的提名特徵包含的資訊更豐富。
在一個可選的實現方式中,所述基於視頻流的第一特徵序列,得到所述視頻流的目標動作概率序列包括:基於所述第一特徵序列,得到第一動作概率序列;基於所述視頻流的第二特徵序列,得到第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列。
在該實現方式中,從兩個相反的時序方向來評估視頻中每個時刻(即時間點)的邊界概率,並採用一個簡單有效地的融合策略來去除雜訊,使得最終定位到的時序邊界擁有更高的精度。
在一個可選的實現方式中,所述對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列包括:將所述第二動作概率序列進行時序翻轉處理,得到第三動作概率序列;融合所述第一動作概率序列和所述第三動作概率序列,得到所述目標動作概率序列。
在一個可選的實現方式中,所述基於所述視頻特徵序列,得到所述視頻流的第一時序物件提名的評估結果包括:基於所述第一時序物件提名對應的時間段,對所述視頻特徵序列進行採樣,得到目標提名特徵;基於所述目標提名特徵,得到所述第一時序物件提名的評估結果。
在一個可選的實現方式中,所述基於所述目標提名特徵,得到所述第一時序物件提名的評估結果包括:將所述目標提名特徵輸入至提名評估網路進行處理,得到所述第一時序物件提名的至少兩項品質指標,其中,所述至少兩項品質指標中的第一指標用於表徵所述第一時序物件提名與真值的交集占所述第一時序物件提名的長度比例,所述至少兩項品質指標中的第二指標用於表徵所述第一時序物件提名與所述真值的交集占所述真值的長度比例;根據所述至少兩項品質指標,得到所述評估結果。
在一個可選的實現方式中,所述基於所述視頻特徵序列,得到所述視頻流的第一時序物件提名的評估結果之前,所述方法還包括:基於所述第一特徵序列,得到第一物件邊界概率序列,其中,所述第一物件邊界概率序列包含所述多個片段屬於物件邊界的概率;基於所述視頻流的第二特徵序列,得到第二物件邊界概率序列;基於所述第一物件邊界概率序列和所述第二物件邊界概率序列,生成所述第一時序物件提名。
在一個可選的實現方式中,所述基於所述第一物件邊界概率序列和所述第二物件邊界概率序列,生成所述第一時序物件提名包括:對所述第一物件邊界概率序列以及所述第二物件邊界概率序列進行融合處理,得到目標邊界概率序列;基於所述目標邊界概率序列,生成所述第一時序物件提名。
在一個可選的實現方式中,所述對所述第一物件邊界概率序列以及所述第二物件邊界概率序列進行融合處理,得到目標邊界概率序列包括:將所述第二物件邊界概率序列進行時序翻轉處理,得到第三物件邊界概率序列;融合所述第一物件邊界概率序列和所述第三物件邊界概率序列,得到所述目標邊界概率序列。
第四方面,本申請實施例提供了另一種提名評估方法,該方法可包括:基於視頻流的第一特徵序列,得到第一動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;基於所述視頻流的第二特徵序列,得到第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的目標動作概率序列;基於所述視頻流的目標動作概率序列,得到所述視頻流的第一時序物件提名的評估結果。
本申請實施例中,基於第一動作概率序列和第二動作概率序列可以得到更加準確地的目標動作概率序列,以便於利用該目標動作概率序列更準確地評估時序物件提名的品質。
在一個可選的實現方式中,所述基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的目標動作概率序列包括:對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列。
在一個可選的實現方式中,所述對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列包括:對所述第二動作概率序列進行時序翻轉,得到第三動作概率序列;融合所述第一動作概率序列和所述第三動作概率序列,得到所述目標動作概率序列。
在一個可選的實現方式中,所述基於所述視頻流的目標動作概率序列,得到所述視頻流的第一時序物件提名的評估結果包括:基於所述目標動作概率序列,得到所述第一時序物件提名的長期提名特徵,其中,所述長期提名特徵對應的時間段長於所述第一時序物件提名對應的時間段;基於所述目標動作概率序列,得到所述第一時序物件提名的短期提名特徵,其中,所述短期提名特徵對應的時間段與所述第一時序物件提名對應的時間段相同;基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果。
在一個可選的實現方式中,所述基於所述目標動作概率序列,得到所述第一時序物件提名的長期提名特徵包括:對所述目標動作概率序列進行採樣,得到所述長期提名特徵。
在一個可選的實現方式中,所述基於所述目標動作概率序列,得到所述第一時序物件提名的短期提名特徵包括:基於所述第一時序物件提名對應的時間段,對所述目標動作概率序列進行採樣,得到所述短期提名特徵。
在一個可選的實現方式中,所述基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果包括:基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的目標提名特徵;基於所述第一時序物件提名的目標提名特徵,得到所述第一時序物件提名的評估結果。
在一個可選的實現方式中,所述基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的目標提名特徵包括:對所述長期提名特徵和所述短期特徵提名執行非局部注意力操作,得到中間提名特徵;將所述短期提名特徵和所述中間提名特徵進行拼接,得到所述目標提名特徵。
第五方面,本申請實施例提供了一種圖像處理裝置,該裝置可包括:
獲取單元,用於獲取視頻流的第一特徵序列,其中,該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料;
處理單元,用於基於該第一特徵序列,得到第一物件邊界概率序列,其中,該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率;
該處理單元,還用於基於該視頻流的第二特徵序列,得到第二物件邊界概率序列;該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;
生成單元,還用於基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。
第六方面,本申請實施例提供了一種提名評估裝置,該裝置包括:特徵確定單元,用於基於視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該視頻特徵序列包含該視頻流包含的多個片段中每個片段的特徵資料和基於該視頻流得到的動作概率序列,或者,該視頻特徵序列為基於該視頻流得到的動作概率序列,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;該特徵確定單元,還用於基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;評估單元,用於基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
第七方面,本申請實施例提供了另一種提名評估裝置,該裝置可包括:處理單元,用於基於視頻流的第一特徵序列,得到所述視頻流的目標動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;拼接單元,用於將所述第一特徵序列和所述目標動作概率序列進行拼接,得到視頻特徵序列;評估單元,用於基於所述視頻特徵序列,得到所述視頻流的第一時序物件提名的評估結果。
第八方面,本申請實施例提供了另一種提名評估裝置,該裝置可包括:處理單元,用於基於視頻流的第一特徵序列,得到第一動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;基於所述視頻流的第二特徵序列,得到第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的目標動作概率序列;評估單元,用於基於所述視頻流的目標動作概率序列,得到所述視頻流的第一時序物件提名的評估結果。
第九方面,本申請實施例提供了一種電子設備,該電子設備包括:儲存器,用於儲存程式;處理器,用於執行所述儲存器儲存的所述程式,當所述程式被執行時,所述處理器用於執行如上述第一方面至第四方面以及任一種可選的實現方式的方法。
第十方面,本申請實施例提供了一種晶片,該晶片包括處理器與資料介面,該處理器透過該資料介面讀取儲存器上儲存的指令,執行如上述第一方面至第四方面以及任一種可選的實現方式的方法。
第十一方面,本申請實施例提供了一種電腦可讀儲存媒介,該電腦儲存媒介儲存有電腦程式,該電腦程式包括程式指令,該程式指令當被處理器執行時使該處理器執行上述第一方面至協力廠商面以及任一種可選的實現方式的方法。
第十二方面,本申請實施例提供了一種電腦程式,該電腦程式包括程式指令,所述程式指令當被處理器執行時使所述處理器執行上述第一方面至協力廠商面以及任一種可選的實現方式的方法。
為了使所屬技術領域中具有通常知識者更好地理解本申請實施例方案,下面將結合本申請實施例中的圖式,對本申請實施例中的技術方案進行清楚地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。
本申請的說明書實施例和申請專利範圍書及上述圖式中的術語“第一”、“第二”、和“第三”等是用於區別類似的物件,而不必用於描述特定的順序或先後次序。此外,術語“包括”和“具有”以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元。方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
應理解,本公開實施例可以應用於各種時序物件提名的生成和評估,例如,檢測視頻流中出現特定人物的時間段或者檢測視頻流中出現動作的時間段,等等,為了便於理解,下文的例子中均以動作提名進行描述,但本公開實施例對此不做限定。
時序動作檢測任務旨在從未修剪的長視頻中定位到動作發生的具體時間和類別。此類問題的一大難點是生成的時序動作提名的品質。目前主流的時序動作提名生成方法不能得到高品質的時序動作提名。因此,需要研究新的時序提名生成方法,以得到高品質的時序動作提名。本申請實施例提供的技術方案,可以按照兩種或兩種以上時序評估視頻中任意時刻的動作概率或者邊界概率,並將得到的多種評估結果(動作概率或者邊界概率)進行融合,以得到高品質的概率序列,從而生成高品質的時序物件提名集(也稱為候選提名集)。
本申請實施例提供的時序提名生成方法能夠應用在智慧視頻分析、安防監控等場景。下面分別對本申請實施例提供的時序提名生成方法在智慧視頻分析場景以及安防監控場景中的應用進行簡單的介紹。
智慧視頻分析場景:舉例來說,圖像處理裝置,例如伺服器,對從視頻中提取出的特徵序列進行處理得到候選提名集以及該候選提名集中各提名的置信度分數;根據該候選提名集和該候選提名集中各提名的置信度分數進行時序動作定位,從而提取出該視頻中的精彩片段(例如打鬥片段)。又舉例來說,圖像處理裝置,例如伺服器,對使用者觀看過的視頻進行時序動作檢測,從而預測該使用者喜歡的視頻的類型,並向該使用者推薦類似的視頻。
安防監控場景:圖像處理裝置,對從監控視頻中提取出的特徵序列進行處理得到候選提名集以及該候選提名集中各提名的置信度分數;根據該候選提名集和該候選提名集中各提名的置信度分數進行時序動作定位,從而提取出該監控視頻中包括某些時序動作的片段。例如,從某個路口的監控視頻中提取出車輛進出的片段。又舉例來說,對多個監控視頻進行時序動作檢測,從而從該多個監控視頻中找到包括某些時序動作的視頻,例如車輛撞人的動作。
在上述場景中,採用本申請提供的時序提名生成方法可以得到高品質的時序物件提名集,進而高效的完成時序動作檢測任務。下面對於技術方案的描述以時序動作為例,但本公開實施例也可以應用於其他類型的時序物件檢測,本公開實施例對此不做限定。
請參見圖1,圖1為本申請實施例提供的一種圖像處理方法。
步驟101、獲取視頻流的第一特徵序列。
該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料。本申請實施例的執行主體為圖像處理裝置,例如,伺服器、終端設備或其他電腦設備。獲取視頻流的第一特徵序列可以是圖像處理裝置按照該視頻流的時序對該視頻流包括的多個片段中每個片段進行特徵提取以得到該第一特徵序列。在一些實施例中,該第一特徵序列可以是圖像處理裝置利用雙流網路(two-stream network)對該視頻流進行特徵提取得到的原始雙流特徵序列。或者,第一特徵序列是圖像處理裝置利用其他類型的神經網路對視頻流進行特徵提取得到的,或者,第一特徵序列是圖像處理裝置從其他終端或者網路設備處獲取的,本公開實施例對此不做限定。
步驟102、基於第一特徵序列,得到第一物件邊界概率序列。
該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率,例如,包含多個片段中每個片段屬於物件邊界的概率。在一些實施例中,可以將該第一特徵序列輸入至提名生成網路做處理以得到該第一物件邊界概率序列。第一物件邊界概率序列可以包括第一起始概率序列和第一結束概率序列。該第一起始概率序列中的每個起始概率表示該視頻流包括的多個片段中某個片段對應起始動作的概率,即某個片段為動作起始片段的概率。該第一結束概率序列中的每個結束概率表示該視頻流包括的多個片段中某個片段對應結束動作的概率,即某個片段為動作結束片段的概率。
步驟103、基於視頻流的第二特徵序列,得到第二物件邊界概率序列。
該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反。舉例來說,第一特徵序列依次包括第一特徵至第M特徵,第二特徵序列依次包括該第M特徵至該第一特徵,M為大於1的整數。可選地,在一些實施例中,該第二特徵序列可以為將該第一特徵序列中的特徵資料的時序進行翻轉得到的特徵序列,或者是翻轉後進行其他進一步的處理得到的。可選的,圖像處理裝置在執行步驟103之前,將該第一特徵序列進行時序翻轉處理,得到該第二特徵序列。或者,第二特徵序列是透過其他方式得到的,本公開實施例對此不做限定。
在一些實施例中,可以將該第二特徵序列輸入至提名生成網路做處理以得到該第二物件邊界概率序列。第二物件邊界概率序列可以包括第二起始概率序列和第二結束概率序列。該第二起始概率序列中的每個起始概率表示該視頻流包括的多個片段中某個片段對應起始動作的概率,即某個片段為動作起始片段的概率。該第二結束概率序列中的每個結束概率表示該視頻流包括的多個片段中某個片段對應結束動作的概率,即某個片段為動作結束片段的概率。這樣,該第一起始概率序列和該第二起始概率序列包含多個相同的片段對應的起始概率。舉例來說,第一起始概率序列中依次包括第一片段至第N片段對應的起始概率,第二起始概率序列中依次包括該第N片段至第一片段對應的起始概率。類似地,該第一結束概率序列和該第二結束概率序列包含多個相同的片段對應的結束概率。舉例來說,第一結束概率序列中依次包括第一片段至第N片段對應的結束概率,第二結束概率序列中依次包括該第N片段至第一片段對應的結束概率。
步驟104、基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。
在一些實施例中,可以對該第一物件邊界概率序列以及該第二物件邊界概率序列進行融合處理,得到目標邊界概率序列;基於該目標邊界概率序列,生成該時序物件提名集。例如,將該第二物件邊界概率序列進行時序翻轉處理,得到第三物件邊界概率序列;融合該第一物件邊界概率序列和該第三物件邊界概率序列,得到該目標邊界概率序列。再例如,將該第一物件邊界概率序列進行時序翻轉處理,得到第四物件邊界概率序列;融合該第二物件邊界概率序列和該第四物件邊界概率序列,得到該目標邊界概率序列。
本申請實施例中,基於融合後的概率序列生成時序物件提名集,可以得到邊界更精確的概率序列,使得生成的時序物件提名的邊界更精確。
下面介紹操作步驟101的具體實現方式。
在一些實施例中,圖像處理裝置利用兩個提名生成網路分別處理該第一特徵序列和第二特徵序列,例如,圖像處理裝置將該第一特徵序列輸入至第一提名生成網路進行處理,得到該第一物件邊界概率序列,以及將該第二特徵序列輸入至第二提名生成網路進行處理,得到該第二物件邊界概率序列。該第一提名生成網路和第二提名生成網路可以相同,也可以不同。可選的,該第一提名生成網路和第二提名生成網路的結構和參數配置均相同,圖像處理裝置利用這兩個網路可以並行或以任意先後連續處理該第一特徵序列和該第二特徵序列,或者第一提名生成網路和第二提名生成網路具有相同的超參數,而網路參數是在訓練過程學習到的,其數值可以相同,也可以不同。
在另一些實施例中,圖像處理裝置可以利用同一個提名生成網路連續處理該第一特徵序列和該第二特徵序列。例如,圖像處理裝置先將該第一特徵序列輸入至提名生成網路進行處理,得到該第一物件邊界概率序列,再將該第二特徵序列輸入至提名生成網路進行處理,得到該第二物件邊界概率序列。
在本公開實施例中,可選的,提名生成網路包含三個時序卷積層,或者包含其他數量的卷積層和/或其他類型的處理層。每一個時序卷積層定義為
Figure 02_image003
,其中,
Figure 02_image007
Figure 02_image009
Figure 02_image011
分別代表卷積核個數,卷積核大小以及啟動函數。在一個例子中,對於每個提名生成網路的前兩個時序卷積層,
Figure 02_image012
可以為512,
Figure 02_image009
可以為3,使用線性整流函數(Rectified Linear Unit,ReLU)作為啟動函數,而最後一個時序卷積層的
Figure 02_image012
可以為3,
Figure 02_image009
可以為1,使用Sigmoid啟動函數用作預測輸出,但本公開實施例對提名生成網路的具體實現不作限定。
在該實現方式中,圖像處理裝置分別對第一特徵序列和第二特徵序列進行處理,以便於對處理得到的兩個物件邊界概率序列進行融合以得到更準確的物件邊界概率序列。
下面描述如何對第一物件邊界概率序列和第二物件邊界概率序列進行融合處理,以得到目標邊界概率序列。
在一個可選的實現方式中,該第一物件邊界概率序列和該第二物件邊界概率序列中的每個物件邊界概率序列包括起始概率序列和結束概率序列。相應地,將該第一物件邊界概率序列和該第二物件邊界概率序列中的起始概率序列進行融合處理,得到目標起始概率序列;和/或,將該第一物件邊界概率序列和該第二物件邊界概率序列中的結束概率序列進行融合處理,得到目標結束概率序列,其中,該目標邊界概率序列包括該目標初始概率序列和該目標結束概率序列的至少一項。
在一個可選例子中,將該第二起始概率序列中各概率的順序進行翻轉以得到參考起始概率序列,該第一起始概率序列中的概率和該參考起始概率序列中的概率依次對應;融合該第一起始概率序列和該參考起始概率序列,得到目標起始概率序列。舉例來說,第一起始概率序列中依次為第一片段至第N片段對應的起始概率,第二起始概率序列中依次為該第N片段至第一片段對應的起始概率,將該第二起始概率序列中各概率的順序進行翻轉得到的參考起始概率序列中依次為該第一片段至該第N片段對應的起始概率;將該第一起始概率序列和該參考起始概率序列中第一片段至第N片段對應的起始概率的平均值依次作為該目標起始概率中該第一片段至該第N片段對應的起始概率,以得到該目標起始概率序列,也就是說,將該第一起始概率序列中第i片段對應的起始概率和該參考起始概率序列中第i片段的起始概率的平均值作為該目標起始概率中該第i片段對應的起始概率,其中,i=1,……,N。
類似地,在一個可選實現方式中,將該第二結束概率序列中的各概率的順序進行翻轉以得到參考結束概率序列,該第一結束概率序列中的概率和該參考結束概率序列中的概率依次對應;融合該第一結束概率序列和該參考結束概率序列,得到該目標結束概率序列。舉例來說,第一結束概率序列中依次為第一片段至第N片段對應的結束概率,第二結束概率序列中依次為該第N片段至第一片段對應的結束概率,將該第二結束概率序列中各概率的順序進行翻轉得到的參考結束概率序列中依次為該第一片段至該第N片段對應的結束概率;並將該第一結束概率序列和該參考結束概率序列中第一片段至第N片段對應的結束概率的平均值依次作為該目標結束概率中該第一片段至該第N片段對應的結束概率,以得到目標結束概率序列。
可選地,也可以以其他方式對兩個概率序列中的起始概率或結束概率進行融合,本公開實施例對此不做限定。
本申請實施例,透過對兩個物件邊界序列進行融合處理可以得到一個邊界更加準確地物件邊界概率序列,進而生成品質更高的時序物件提名集。
下面描述基於目標邊界概率序列生成時序物件提名集的具體實現方式。
在一個可選的實現方式中,目標邊界概率序列包括目標起始概率序列和目標結束概率序列,相應地,可以基於該目標邊界概率序列包括的目標起始概率序列和目標結束概率序列,生成該時序物件提名集。
在另一個可選實現方式中,目標邊界概率序列包括目標起始概率序列,相應地,可以基於該目標邊界概率序列包括的目標起始概率序列和該第一物件邊界概率序列包括的結束概率序列,生成該時序物件提名集;或者,基於該目標邊界概率序列包括的目標起始概率序列和該第二物件邊界概率序列包括的結束概率序列,生成該時序物件提名集。
在另一個可選實現方式中,目標邊界概率序列包括目標結束概率序列,相應地,基於該第一物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集;或者,基於該第二物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集。
下面以目標起始概率序列和目標結束概率序列為例,介紹生成時序物件提名集的方法。
可選的,可以基於該目標起始概率序列中包含的該多個片段的目標起始概率,得到第一片段集,其中,該第一片段集包括多個物件起始片段;基於該目標結束概率序列中包括的該多個片段的目標結束概率,得到第二片段集,其中,該第二片段集包括多個物件結束片段;基於該第一片段集和該第二片段集,生成該時序物件提名集。
在一些例子中,可以基於多個片段中每個片段的目標起始概率,從多個片段中選取物件起始片段,例如,將目標起始概率超過第一閾值的片段作為物件起始片段,或者,將在局部區域中具有最高目標起始概率的片段作為物件起始片段,或者將目標起始概率高於其相鄰的至少兩個片段的目標起始概率的片段作為物件起始片段,或者將目標起始概率高於其前一片段和後一片段的目標起始概率的片段作為物件起始片段,等等,本公開實施例對確定物件起始片段的具體實現不做限定。
在一些例子中,可以基於多個片段中每個片段的目標結束概率,從多個片段中選取物件結束片段,例如,將目標結束概率超過第一閾值的片段作為物件結束片段,或者,將在局部區域中具有最高目標結束概率的片段作為物件結束片段,或者將目標結束概率高於其相鄰的至少兩個片段的目標結束概率的片段作為物件結束片段,或者將目標結束概率高於其前一片段和後一片段的目標結束概率的片段作為物件結束片段,等等,本公開實施例對確定物件結束片段的具體實現不做限定。
在一個可選實施方式中,將該第一片段集中的一個片段對應的時間點作為一個時序物件提名的起始時間點以及將該第二片段集中的一個片段對應的時間點作為該時序物件提名的結束時間點。舉例來說,第一片段集中一個片段對應第一時間點,第二片段集中一個片段對應第二時間點,則基於該第一片段集和該第二片段集生成的時序物件提名集包括的一個時序物件提名為[第一時間點 第二時間點]。該第一閾值可以是0.7、0.75、0.8、0.85、0.9等。該第二閾值可以是0.7、0.75、0.8、0.85、0.9等。
可選的,基於該目標起始概率序列得到第一時間點集,以及基於該目標結束概率序列得到第二時間點集;該第一時間點集包括該目標起始概率序列中對應的概率超過第一閾值的時間點和/或至少一個局部時間點,任一局部時間點在該目標起始概率序列中對應的概率比該任一局部時間點相鄰的時間點在該目標起始概率序列中對應的概率高;該第二時間點集包括該目標結束概率序列中對應的概率超過第二閾值的時間點和/或至少一個參考時間點,任一參考時間點在該目標結束概率序列中對應的概率比該任一參考時間點相鄰的時間點在該目標結束概率序列中對應的概率高;基於該第一時間點集和該第二時間點集,生成該時序提名集;該時序提名集中任一提名的起始時間點為該第一時間點集中的一個時間點,該任一提名的結束時間點為該第二時間點集中的一個時間點;該起始時間點在該結束時間點之前。
該第一閾值可以是0.7、0.75、0.8、0.85、0.9等。該第二閾值可以是0.7、0.75、0.8、0.85、0.9等。第一閾值和第二閾值可以相同或不同。任一局部時間點可以是在目標起始概率序列中對應的概率高於其前一時間點對應的概率以及其後一時間點對應的概率的時間點。任一參考時間點可以是在目標結束概率序列中對應的概率高於其前一時間點對應的概率以及其後一時間點對應的概率的時間點。生成時序物件提名集的過程可以理解為:首先選擇目標起始概率序列和目標結束概率序列中滿足以下兩點條件之一的時間點作為候選時序邊界節點(包括候選起始時間點和候選結束時間點):(1)該時間點的概率高於一個閾值,(2)該時間點的概率高於其前面一個或多個時間點以及其後面一個或多個時間點的概率(即一個概率峰值對應的時間點);然後,將候選起始時間點和候選結束時間點兩兩結合,保留時長符合要求的候選起始時間點-候選結束時間點的組合作為時序動作提名。時長符合要求的候選起始時間點-候選結束時間點的組合可以是候選起始時間點在候選結束時間點之前的組合;也可以是候選起始時間點與候選結束時間點之間的間隔小於第三閾值且第三第四閾值的組合,其中,該第三閾值和該第四閾值可根據實際需求進行配置,例如該第三閾值為1ms,該第四閾值為100ms。
其中,候選起始時間點為該第一時間點集包括的時間點,候選結束時間點為該第二時間點集包括的時間點。圖2為本申請實施例提名的一種生成時序提名集的過程示意圖。如圖2所示,對應的概率超過第一閾值的起始時間點以及概率峰值對應的時間點為候選起始時間點;對應的概率超過第二閾值的結束時間點以及概率峰值對應的時間點為候選結束時間點。圖2中每條連線對應一個時序提名(即一個候選起始時間點與候選結束時間點的組合),每個時序提名中候選起始時間點位於候選結束時間點之前,且候選起始時間點和候選結束時間點之間的時間間隔符合時長要求。
在該實現方式中,可以快速、準確地生成時序物件提名集。
前述實施例描述了生成時序物件提名集的方式,在實際應用中在獲得時序物件提名集後通常需要對各時序物件提名做品質評估,並基於品質評估結果對時序物件提名集進行輸出。下面介紹評估時序物件提名的品質的方式。
在一個可選的實現方式中,獲得提名特徵集,其中,該提名特徵集包括時序物件提名集中每個時序物件提名的提名特徵;將該提名特徵集輸入至提名評估網路進行處理,得到該時序物件提名集中各時序物件提名的至少兩項品質指標;根據該各時序物件提名的至少兩項品質指標,得到各時序物件提名的評估結果(例如置信度分數)。
可選地,該提名評估網路可以是一個神經網路,該提名評估網路用於對該提名特徵集中的各提名特徵做處理,得到各時序物件提名的至少兩項品質指標;該提名評估網路也可以包括兩個或兩個以上並行的提名評估子網路,每個提名評估子網路用於確定各時序對應提名的一項品質指標。舉例來說,該提名評估網路包括三個並行的提名評估子網路,即第一提名評估子網路、第二提名評估子網路以及第三提名評估子網路,每個提名評估子網路均包含了三個全連接層,其中前兩個全連接層各自包含1024個單元用來處理輸入的提名特徵,並且使用Relu作為啟動函數,第三個全連接層則包含一個輸出節點,經過Sigmoid啟動函數輸出對應的預測結果;該第一提名評估子網路輸出反映時序提名的整體品質(overall-quality)的第一指標(即時序提名與真值的交集占並集的比例),該第二提名評估子網路輸出反映時序提名的完整度品質(completeness-quality)的第二指標(即時序提名與真值的交集占時序提名長度的比例),該第三提名評估子網路輸出反映時序提名的動作品質(actionness-quality)的第三指標(時序提名與真值的交集占真值長度的比例)。IoU、IoP、IoG可以依次表示該第一指標、該第二指標以及該第三指標。該提名評估網路對應的損失函數可以如下:
Figure 02_image018
(1);
其中,
Figure 02_image022
Figure 02_image024
Figure 02_image026
為權衡因數且可根據實際情況進行配置。
Figure 02_image028
Figure 02_image030
Figure 02_image032
依次表示第一指標(IoU)、第二指標(IoP)以及第三指標(IoG)的損失。
Figure 02_image028
Figure 02_image030
Figure 02_image032
均可採用
Figure 02_image034
損失函數來進行計算,也可以採用其他損失函數。
Figure 02_image037
損失函數的定義如下:
Figure 02_image039
(2);
對於
Figure 02_image028
來說,(2)中x為IoU;對於
Figure 02_image030
來說,(2)中x為IoP;對於
Figure 02_image032
來說,(2)中x為IoG。根據IoU,IoP和IoG的定義,圖像處理裝置可以由IoP和IoG額外計算出
Figure 02_image049
,然後得到定位分數
Figure 02_image053
。其中,
Figure 02_image057
表示時序提名的IoU,
Figure 02_image061
表示時序提名的
Figure 02_image065
。也就是說,
Figure 02_image061
Figure 02_image065
Figure 02_image057
為IoU。
Figure 02_image069
可以設為0.6,也可以設為其他常數。圖像處理裝置,可以採用如下公式計算得到提名的置信度分數:
Figure 02_image073
(3);
其中,
Figure 02_image077
表示該時序提名對應的起始概率,
Figure 02_image081
表示該時序提名對應的結束概率。
下面描述圖像處理裝置如何獲得提名特徵集的方式。
可選的,獲得提名特徵集可以包括:將第一特徵序列和目標動作概率序列在通道維度上進行拼接,得到視頻特徵序列;獲得第一時序物件提名在該視頻特徵序列對應的目標視頻特徵序列,該第一時序物件提名包含於該時序物件提名集,該第一時序物件提名對應的時間段與該目標視頻特徵序列對應的時間段相同;對該目標視頻特徵序列進行採樣,得到目標提名特徵;該目標提名特徵為該第一時序物件提名的提名特徵,且包含於該提名特徵集。
可選地,該目標動作概率序列可以為將該第一特徵序列輸入至該第一提名生成網路做處理得到的第一動作概率序列,或,將該第二特徵序列輸入至該第二提名生成網路做處理得到的第二動作概率序列,或,該第一動作概率序列和該第二動作概率序列融合得到的概率序列。該第一提名生成網路、該第二提名生成網路以及該提名評估網路可以是作為一個網路聯合訓練得到的。該第一特徵序列和該目標動作概率序列可以均對應一個三維矩陣。該第一特徵序列和該目標動作概率序列包含的通道數相同或不同,每個通道上對應的二維矩陣的大小相同。因此,該第一特徵序列和該目標動作概率序列可以在通道維度上進行拼接,得到該視頻特徵序列。舉例來說,第一特徵序列對應一個包括400個通道的三維矩陣,目標動作概率序列對應一個二維矩陣(可以理解為一個包括1個通道的三維矩陣),則該視頻特徵序列對應一個包括401個通道的三維矩陣。
該第一時序物件提名為時序物件提名集中的任一時序物件提名。可以理解,圖像處理裝置可以採用相同的方式確定時序物件提名集中每個時序物件提名的提名特徵。視頻特徵序列包括圖像處理裝置從視頻流包括的多個片段提取出的特徵資料。獲得第一時序物件提名在該視頻特徵序列對應的目標視頻特徵序列可以是獲得該視頻特徵序列中該第一時序物件提名對應的時間段對應的目標視頻特徵序列。舉例來說,第一時序物件提名對應的時間段為第P毫秒至第Q毫秒,則視頻特徵序列中第P毫秒至第Q毫秒對應的子特徵序列為目標視頻特徵序列。P和Q均為大於0的實數。對該目標視頻特徵序列進行採樣,得到目標提名特徵可以是:對該目標視頻特徵序列進行採樣,得到目標長度的目標提名特徵。可以理解,圖像處理裝置對每個時序物件提名對應的視頻特徵序列進行採樣,得到一個目標長度的提名特徵。也就是說,各時序物件提名的提名特徵的長度相同。每個時序物件提名的提名特徵對應一個包括多個通道的矩陣,且每個通道上為一個目標長度的一維矩陣。例如,視頻特徵序列對應一個包括401個通道的三維矩陣,每個時序物件提名的提名特徵對應一個TS 行401列的二維矩陣,可以理解每一行對應一個通道。TS 即為目標長度,TS 可以為16。
在該方式中,圖像處理裝置可以根據時長不同的時序提名,得到固定長度的提名特徵,實現簡單。
可選的,獲得提名特徵集也可以包括:將該第一特徵序列和目標動作概率序列在通道維度上進行拼接,得到視頻特徵序列;基於該視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於該時序物件提名集;基於該視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵。圖像處理裝置可以基於該第一特徵序列和該第二特徵序列中的至少一項,得到目標動作概率序列。該目標動作概率序列可以為將該第一特徵序列輸入至該第一提名生成網路做處理得到的第一動作概率序列,或,將該第二特徵序列輸入至該第二提名生成網路做處理得到的第二動作概率序列,或,該第一動作概率序列和該第二動作概率序列融合得到的概率序列。
基於該視頻特徵序列,得到第一時序物件提名的長期提名特徵可以是:基於該視頻特徵序列中對應於參考時間區間的特徵資料,得到該長期提名特徵,其中,該參考時間區間從該時序物件提名集中的首個時序物件的開始時間到最後一個時序物件的結束時間。該長期提名特徵可以為一個包括多個通道的矩陣,且每個通道上為一個長度為TL 的一維矩陣。例如,長期提名特徵為一個TL 行401列的二維矩陣,可以理解每一行對應一個通道。TL 為大於TS 的整數。例如TS 為16,TL 為100。對該視頻特徵序列進行採樣,得到長期提名特徵可以是對該視頻特徵序列中處於參考時間區間內的特徵進行採樣,得到該長期提名特徵;該參考時間區間對應於基於該時序物件提名集確定的第一個動作的開始時間以及最後一個動作的結束時間。圖3為本申請實施例提供的一種採樣過程示意圖。如圖3所示,參考時間區間包括開始區域301、中心區域302以及結束區域303,中心區域302的起始片段為第一個動作的起始片段,中心區域302的結束片段為最後一個動作的結束片段,開始區域301和結束區域303對應的時長均為中心區域302對應的時長的十分之一;304表示採樣得到的長期提名特徵。
在一些實施例中,基於該視頻特徵序列,得到該第一時序物件提名的短期提名特徵可以是:基於該第一時序物件提名對應的時間段,對該視頻特徵序列進行採樣,得到該短期提名特徵。這裡對該視頻特徵序列進行採樣,得到短期提名特徵的方式與對該視頻特徵序列進行採樣,得到長期提名特徵的方式類似,這裡不再詳述。
在一些實施例中,基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵可以是:對該長期提名特徵和該短期特徵提名執行非局部注意力操作,得到中間提名特徵;將該短期提名特徵和該中間提名特徵進行拼接,得到該目標提名特徵。
圖4為本申請實施例提供的一種非局部注意力操作的計算過程示意圖。如圖4所示,S表示短期提名特徵,L表示長期提名特徵,C(大於0的整數)對應於通道數,步驟401至步驟403以及步驟407均表示線性變換操作,步驟405表示歸一化處理,步驟404和步驟406均表示矩陣乘法操作,步驟408表示過擬合處理,步驟409表示求和操作。步驟401是將短期提名特徵進行線性變換;步驟402是將該長期提名特徵進行線性變換;步驟403是將長期提名特徵進行線性變換;步驟404是計算二維矩陣(TS ×C)和二維矩陣(C×TL )的乘積;步驟405是對在步驟404計算得到的二維矩陣(TS ×TL )進行歸一化處理,使得該二維矩陣(TS ×TL )中每一列的元素之和為1;步驟406是計算步驟405輸出的二維矩陣(TS ×TL )與二維矩陣(TL ×C)的乘積,得到一個新的(TS ×C)的二維矩陣;步驟407是對該新的二維矩陣(TS ×C)進行線性變換以得到參考提名特徵;步驟408是執行過擬合處理,即執行dropout以解決過擬合問題;步驟409是計算該參考提名特徵與該短期提名特徵之和,以得到中間提名特徵S’。該參考提名特徵與該短期提名特徵對應的矩陣的大小相同。與標準的非局部模組Non-local block)執行的非局部注意力操作不同,本申請實施例採用的是S與L之間的相互注意力來替代了自注意力機制。其中,歸一化處理的實現方式可以是先將步驟404計算得到的二維矩陣(TS ×TL )中每個元素乘以
Figure 02_image085
得到新的二維矩陣(TS ×TL ),再執行Softmax操作。步驟401至步驟403以及步驟407執行的線性操作相同或不同。可選的,步驟401至步驟403以及步驟407均對應同一個線性函數。將該短期提名特徵和該中間提名特徵在通道維度上進行拼接,得到該目標提名特徵可以是先將該中間提名特徵的通道數從C個降到D個,再將該短期提名特徵和處理後的中間提名特徵(對應D個通道數)在通道維度上進行拼接。舉例來說,短期提名特徵為一個(TS ×401)的二維矩陣,中間提名特徵為一個(TS ×401)的二維矩陣,利用線性變換將該中間提名特徵轉換為一個(TS ×128)的二維矩陣,將該短期提名特徵和變換後的中間提名特徵在通道維度上進行拼接,得到一個(TS ×529)的二維矩陣;其中,D為小於C且大於0的整數,401對應於C,128對應於D。
在該方式中,可以整合長期提名特徵和短期提名特徵之間的交互資訊以及其他多細微性線索來生成豐富的提名特徵,進而提高提名品質評估的準確性。
為更清楚地描述本申請提供的時序提名的生成方式以及提名品質評估的方式。下面結合圖像處理裝置的結構來進一步進行介紹。
圖5為本申請實施例提供的一種圖像處理裝置的結構示意圖。如圖5所示,該圖像處理裝置可以包括四個部分,第一部分為特徵提取模組501,第二部分為雙向評估模組502,第三部分為長期特徵操作模組503,第四部分為提名打分模組504。特徵提取模組501用於對未修剪的視頻進行特徵提取以得到原始雙流特徵序列(即第一特徵序列)。
特徵提取模組501可以採用雙流網路(two-stream network)對未修剪的視頻進行特徵提取,也可以採用其他網路對該未修剪的視頻進行特徵提取,本申請不作限定。對未修剪的視頻進行特徵提取以得到特徵序列是本領域常用的技術手段,這裡不再詳述。
雙向評估模組502可以包括處理單元以及生成單元。圖5中,5021表示第一提名生成網路,5022表示第二提名生成網路,該第一提名生成網路用於對輸入的第一特徵序列進行處理得到第一起始概率序列、第一結束概率序列以及第一動作概率序列,該第二提名生成網路用於對輸入的第二特徵序列進行處理得到第二起始概率序列、第二結束概率序列以及第二動作概率序列。如圖5所示,第一提名生成網路和第二提名生成網路均包括3個時序卷積層,且配置的參數均相同。處理單元,用於實現第一提名生成網路和第二提名生成網路的功能。圖5中的F表示翻轉操作,一個F表示將該第一特徵序列中各特徵的順序進行時序翻轉以得到第二特徵序列;另一個F表示將第二起始概率序列中各概率的順序進行翻轉以得到參考起始概率序列、將第二結束概率序列中各概率的順序進行翻轉以得到參考結束概率序列以及將第二動作概率序列中各概率的順序進行翻轉以得到參考動作概率序列。處理單元用於實現圖5中的翻轉操作。圖5中的“+”表示融合操作,處理單元,還用於融合第一起始概率序列以及參考起始概率序列以得到目標起始概率序列、融合第一結束概率序列以及參考結束概率序列以得到目標結束概率序列以及融合第一動作概率序列以及參考動作概率序列以得到目標動作概率序列。處理單元,還用於確定上述第一片段集以及上述第二片段集。生成單元,用於根據該第一片段集和該第二片段集,生成時序物件提名集(即圖5中的候選提名集)。在具體實現過程中,生成單元可以實現步驟104中所提到的方法以及可以等同替換的方法;處理單元具體用於執行步驟102和步驟103中所提到的方法以及可以等同替換的方法。
長期特徵操作模組503對應本申請實施例中的特徵確定單元。圖5中的“C”表示拼接操作,一個“C”表示將第一特徵序列和目標動作概率序列在通道維度上進行拼接,得到視頻特徵序列;另一個“C”表示將原始的短期提名特徵和調整後的短期提名特徵(對應中間提名特徵)在通道維度上進行拼接,得到目標提名特徵。長期特徵操作模組503,用於對該視頻特徵序列中的特徵進行採樣,得到長期提名特徵;還用於確定各時序物件提名在該視頻特徵序列對應的子特徵序列,並對各時序物件提名在該視頻特徵序列對應的子特徵序列進行採樣以得到各時序物件提名的短期提名特徵(對應上述原始的短期提名特徵);還用於將該長期提名特徵和各時序物件提名的短期提名特徵作為輸入以執行非局部注意力操作以得到各時序物件提名對應的中間提名特徵;還用於將各時序物件提名的短期提名特徵與各時序物件提名對應的中間提名特徵在通道上進行拼接以得到提名特徵集。
提名打分模組504對應本申請中的評估單元。圖5中的5041為提名評估網路,該提名評估網路可包括3個子網路,即第一提名評估子網路、第二提名評估子網路以及第三提名評估子網路;該第一提名評估子網路用於對輸入的提名特徵集進行處理以輸出時序物件提名集中各時序物件提名的第一指標(即IoU),該第二提名評估子網路用於對輸入的提名特徵集進行處理以輸出時序物件提名集中各時序物件提名的第二指標(即IoP),該第三提名評估子網路用於對輸入的提名特徵集進行處理以輸出時序物件提名集中各時序物件提名的第三指標(即IoG)。這三個提名評估子網路的網路結構可以相同或不同,每個提名評估子網路對應的參數不同。提名打分模組504用於實現提名評估網路的功能;還用於根據各時序物件提名的至少兩項品質指標,確定該各時序物件提名的置信度分數。
需要說明的是,應理解圖5所示圖像處理裝置的各個模組的劃分僅僅是一種邏輯功能的劃分,實際實現時可以全部或部分集成到一個物理實體上,也可以物理上分開。且這些模組可以全部以軟體透過處理元件調用的形式實現;也可以全部以硬體的形式實現;還可以部分模組透過軟體透過處理元件調用的形式實現,部分模組透過硬體的形式實現。
從圖5可以看出,圖像處理裝置主要完成了兩個子任務:時序動作提名生成和提名品質評估。其中,雙向評估模組502用於完成時序動作提名生成,長期特徵操作模組503和提名打分模組504用於完成提名品質評估。在實際應用中,圖像處理裝置在執行這兩個子任務之前,需要獲得或者訓練得到第一提名生成網路5021、第二提名生成網路5022以及提名評估網路5041。在通常採用的自底向上的提名生成方法中,時序提名生成和提名品質評估往往各自獨立訓練,缺乏整體的優化。本申請實施例中,將時序動作提名生成和提名品質評估整合到一個統一的框架進行聯合訓練。下面介紹訓練得到第一提名生成網路、第二提名生成網路以及提名評估網路的方式。
可選的,訓練過程如下:將第一訓練樣本輸入至該第一提名生成網路做處理得到第一樣本起始概率序列、第一樣本動作概率序列、第一樣本結束概率序列,以及將第二訓練樣本輸入至該第二提名生成網路做處理得到第二樣本起始概率序列、第二樣本動作概率序列、第二樣本結束概率序列;融合該第一樣本起始概率序列和該第二樣本起始概率序列,得到目標樣本起始概率序列;融合該第一樣本結束概率序列和該第二樣本結束概率序列,得到目標樣本結束概率序列;融合該第一樣本動作概率序列和該第二樣本動作概率序列,得到目標樣本動作概率序列;基於該目標樣本起始概率序列和該目標樣本結束概率序列,生成該樣本時序物件提名集;基於樣本時序物件提名集、目標樣本動作概率序列以及第一訓練樣本得到樣本提名特徵集;將該樣本提名特徵集輸入至該提名評估網路做處理,得到該樣本提名特徵集中各樣本提名特徵的至少一項品質指標;根據該各樣本提名特徵的至少一項品質指標,確定該各樣本提名特徵的置信度分數;根據該第一提名生成網路和該第二提名生成網路對應的第一損失和該提名評估網路對應的第二損失的加權和,更新該第一提名生成網路、該第二提名生成網路以及該提名評估網路。
基於樣本時序物件提名集、目標樣本動作概率序列以及第一訓練樣本得到樣本提名特徵集的操作與圖5中長期特徵操作模組503得到提名特徵集的操作相似,這裡不再詳述。可以理解,在訓練過程中得到樣本提名特徵集的過程與應用過程中生成時序物件提名集的過程相同;在訓練過程中確定各樣本時序提名的置信度分數的過程與應用過程中確定各時序提名的置信度分數的過程相同。訓練過程與應用過程相比,區別主要在於,根據該第一提名生成網路和該第二提名生成網路對應的第一損失和該提名評估網路對應的第二損失的加權和,更新該第一提名生成網路、該第二提名生成網路以及該提名評估網路。
第一提名生成網路和第二提名生成網路對應的第一損失即為雙向評估模組502對應的損失。計算第一提名生成網路和第二提名生成網路對應的第一損失的損失函數如下:
Figure 02_image089
(4);
其中,
Figure 02_image093
Figure 02_image095
Figure 02_image097
為權衡因數且可根據實際情況進行配置,例如均設為1,
Figure 02_image099
Figure 02_image101
Figure 02_image103
依次表示目標起始概率序列、目標結束概率序列以及目標動作概率序列的損失,
Figure 02_image099
Figure 02_image101
Figure 02_image103
均為交叉熵損失函數,具體形式為:
Figure 02_image105
(5);
其中,
Figure 02_image109
,用於將每一時刻匹配到的對應IoP真值
Figure 02_image113
進行二值化。
Figure 02_image117
Figure 02_image121
用來平衡訓練時正負樣本的比例。且
Figure 02_image123
Figure 02_image127
。其中,
Figure 02_image131
,
Figure 02_image133
Figure 02_image135
Figure 02_image137
Figure 02_image139
對應的函數類似。對於
Figure 02_image099
來說,(5)中
Figure 02_image141
為目標起始概率序列中時刻t的起始概率,
Figure 02_image113
為時刻t匹配到的對應IoP真值;對於
Figure 02_image101
來說,(5)中
Figure 02_image141
為目標結束概率序列中時刻t的結束概率,
Figure 02_image113
為時刻t匹配到的對應IoP真值;對於
Figure 02_image103
來說,(5)中
Figure 02_image141
為目標動作概率序列中時刻t的動作概率,
Figure 02_image113
為時刻t匹配到的對應IoP真值。
提名評估網路對應的第二損失即為提名打分模組504對應的損失。計算提名評估網路對應的第二損失的損失函數如下:
Figure 02_image142
(6);
其中,
Figure 02_image022
Figure 02_image024
Figure 02_image026
為權衡因數且可根據實際情況進行配置。
Figure 02_image028
Figure 02_image030
Figure 02_image032
依次表示第一指標(IoU)、第二指標(IoP)以及第三指標(IoG)的損失。
第一提名生成網路和第二提名生成網路對應的第一損失和提名評估網路對應的第二損失的加權和即為整個網路框架的損失。整個網路框架的損失函數為:
Figure 02_image144
(7);
其中,
Figure 02_image148
為權衡因數且可設為10,
Figure 02_image150
表示第一提名生成網路和第二提名生成網路對應的第一損失,
Figure 02_image152
表示提名評估網路對應的第二損失。圖像處理裝置可以採用反向傳播等演算法根據由(7)計算得到的損失,更新第一提名生成網路、第二提名生成網路以及提名評估網路的參數。停止訓練的條件可以是反覆運算更新的次數達到閾值,例如一萬次;也可以是整個網路框架的損失值收斂,即整個網路框架的損失基本不再減少。
本申請實施例中,將第一提名生成網路、第二提名生成網路、提名評估網路作為一個整體進行聯合訓練,在有效提升時序物件提名集的精度的同時穩健提升了提名評估的品質,進而保證了後續提名檢索的可靠性。
在實際應用中,提名評估裝置至少可採用前述實施例描述的三種不同的方法來評估時序物件提名的品質。下面結合圖式分別介紹這三種提名評估方法的方法流程。
圖6為本申請實施例提供的一種提名評估方法流程圖,該方法可包括:
步驟601、基於視頻流的視頻特徵序列,得到視頻流的第一時序物件提名的長期提名特徵。
該視頻特徵序列包含該視頻流包含的多個片段中每個片段的特徵資料,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段;
步驟602、基於視頻流的視頻特徵序列,得到第一時序物件提名的短期提名特徵。
該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同。
步驟603、基於長期提名特徵和該短期提名特徵,得到第一時序物件提名的評估結果。
本申請實施例中,透過整合長期提名特徵和短期提名特徵之間的交互資訊以及其他多細微性線索來生成豐富的提名特徵,進而提高提名品質評估的準確性。
應理解,本公開實施例提供的提名評估方法的具體實現可以參照上文具體描述,為了簡潔,這裡不再贅述。
圖7為本申請實施例提供的另一種提名評估方法流程圖,該方法可包括:
步驟701、基於視頻流的第一特徵序列,得到該視頻流的目標動作概率序列。
該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料。
步驟702、將第一特徵序列和該目標動作概率序列進行拼接,得到視頻特徵序列。
步驟703、基於視頻特徵序列,得到視頻流的第一時序物件提名的評估結果。
本申請實施例中,將特徵序列和目標動作概率序列在通道維度上進行拼接得到包括更多特徵資訊的視頻特徵序列,以便於採樣得到的提名特徵包含的資訊更豐富。
應理解,本公開實施例提供的提名評估方法的具體實現可以參照上文具體描述,為了簡潔,這裡不再贅述。
圖8為本申請實施例提供的另一種提名評估方法流程圖,該方法可包括:
步驟801、基於視頻流的第一特徵序列,得到第一動作概率序列。
該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料。
步驟802、基於視頻流的第二特徵序列,得到第二動作概率序列。
該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反。
步驟803、基於第一動作概率序列和第二動作概率序列,得到視頻流的目標動作概率序列。
步驟804、基於視頻流的目標動作概率序列,得到視頻流的第一時序物件提名的評估結果。
本申請實施例中,基於第一動作概率序列和第二動作概率序列可以得到更加準確地的目標動作概率序列,以便於利用該目標動作概率序列更準確地評估時序物件提名的品質。
應理解,本公開實施例提供的提名評估方法的具體實現可以參照上文具體描述,為了簡潔,這裡不再贅述。
圖9為本申請實施例提供的一種圖像處理裝置的結構示意圖。如圖9所示,該圖像處理裝置可包括:
獲取單元901,用於獲取視頻流的第一特徵序列,其中,該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料;
處理單元902,用於基於該第一特徵序列,得到第一物件邊界概率序列,其中,該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率;
處理單元902,還用於基於該視頻流的第二特徵序列,得到第二物件邊界概率序列;該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;
生成單元903,用於基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。
本申請實施例中,基於融合後的概率序列生成時序物件提名集,可以更準確地確定概率序列,使得生成的時序提名的邊界更精確。
在一個可選的實現方式中,時序翻轉單元904,用於將將該第一特徵序列進行時序翻轉處理,得到該第二特徵序列。
在一個可選的實現方式中,生成單元903,具體用於對該第一物件邊界概率序列以及該第二物件邊界概率序列進行融合處理,得到目標邊界概率序列;基於該目標邊界概率序列,生成該時序物件提名集。
在該實現方式中,圖像處理裝置對兩個物件邊界概率序列進行融合處理以得到更準確的物件邊界概率序列,進而得到更準確的時序物件提名集。
在一個可選的實現方式中,生成單元903,具體用於將該第二物件邊界概率序列進行時序翻轉處理,得到第三物件邊界概率序列;融合該第一物件邊界概率序列和該第三物件邊界概率序列,得到該目標邊界概率序列。
在一個可選的實現方式中,該第一物件邊界概率序列和該第二物件邊界概率序列中的每個物件邊界概率序列包括起始概率序列和結束概率序列;
生成單元903,具體用於將該第一物件邊界概率序列和該第二物件邊界概率序列中的起始概率序列進行融合處理,得到目標起始概率序列;和/或
生成單元903,具體用於將該第一物件邊界概率序列和該第二物件邊界概率序列中的結束概率序列進行融合處理,得到目標結束概率序列,其中,該目標邊界概率序列包括該目標初始概率序列和該目標結束概率序列的至少一項。
在一個可選的實現方式中,生成單元903,具體用於基於該目標邊界概率序列包括的目標起始概率序列和目標結束概率序列,生成該時序物件提名集;
或者,生成單元903,具體用於基於該目標邊界概率序列包括的目標起始概率序列和該第一物件邊界概率序列包括的結束概率序列,生成該時序物件提名集;
或者,生成單元903,具體用於基於該目標邊界概率序列包括的目標起始概率序列和該第二物件邊界概率序列包括的結束概率序列,生成該時序物件提名集;
或者,生成單元903,具體用於基於該第一物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集;
或者,生成單元903,具體用於基於該第二物件邊界概率序列包括的起始概率序列和該目標邊界概率序列包括的目標結束概率序列,生成該時序物件提名集。
在一個可選的實現方式中,生成單元903,具體用於基於該目標起始概率序列中包含的該多個片段的目標起始概率,得到第一片段集,以及基於該目標結束概率序列中包括的該多個片段的目標結束概率,得到第二片段集,其中,該第一片段集包括目標起始概率超過第一閾值的片段和/或目標起始概率高於至少兩個相鄰片段的片段,該第二片段集包括目標結束概率超過第二閾值的片段和/或目標結束概率高於至少兩個相鄰片段的片段;基於該第一片段集和該第二片段集,生成該時序物件提名集。
在一個可選的實現方式中,該裝置還包括:
特徵確定單元905,用於基於該視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於該時序物件提名集;基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;
評估單元906,用於基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
在一個可選的實現方式中,特徵確定單元905,還用於基於該第一特徵序列和該第二特徵序列中的至少一項,得到目標動作概率序列;將該第一特徵序列和該目標動作概率序列進行拼接,得到該視頻特徵序列。
在一個可選的實現方式中,特徵確定單元905,具體用於基於該第一時序物件提名對應的時間段,對該視頻特徵序列進行採樣,得到該短期提名特徵。
在一個可選的實現方式中,特徵確定單元905,具體用於基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵;
評估單元906,具體用於基於該第一時序物件提名的目標提名特徵,得到該第一時序物件提名的評估結果。
在一個可選的實現方式中,特徵確定單元905,具體用於對該長期提名特徵和該短期特徵提名執行非局部注意力操作,得到中間提名特徵;將該短期提名特徵和該中間提名特徵進行拼接,得到該目標提名特徵。
在一個可選的實現方式中,特徵確定單元905,具體用於基於該視頻特徵序列中對應於參考時間區間的特徵資料,得到該長期提名特徵,其中,該參考時間區間從該時序物件提名集中的首個時序物件的開始時間到最後一個時序物件的結束時間。
在一個可選的實現方式中,評估單元906,具體用於將該目標提名特徵輸入至提名評估網路進行處理,得到該第一時序物件提名的至少兩項品質指標,其中,該至少兩項品質指標中的第一指標用於表徵該第一時序物件提名與真值的交集占該第一時序物件提名的長度比例,該至少兩項品質指標中的第二指標用於表徵該第一時序物件提名與該真值的交集占該真值的長度比例;根據該至少兩項品質指標,得到該評估結果。
在一個可選的實現方式中,裝置執行的圖像處理方法應用於時序提名生成網路,該時序提名生成網路包括提名生成網路和提名評估網路;其中,該處理單元用於實現該提名生成網路的功能,該評估單元用於實現該提名評估網路的功能;
該時序提名生成網路的訓練過程包括:
將訓練樣本輸入至該時序提名生成網路進行處理,得到該提名生成網路輸出的樣本時序提名集和該提名評估網路輸出的該樣本時序提名集中包括的樣本時序提名的評估結果;
基於該訓練樣本的樣本時序提名集和該樣本時序提名集中包括的樣本時序提名的評估結果分別與該訓練樣本的標注資訊之間的差異,得到網路損失;
基於該網路損失,調整該時序提名生成網路的網路參數。
圖10為本申請實施例提供的一種提名評估裝置的結構示意圖。如圖10所示,該提名評估裝置可包括:
特徵確定單元1001,用於基於視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該視頻特徵序列包含該視頻流包含的多個片段中每個片段的特徵資料和基於該視頻流得到的動作概率序列,或者,該視頻特徵序列為基於該視頻流得到的動作概率序列,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;
特徵確定單元1001,還用於基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;
評估單元1002,用於基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
本申請實施例中,透過整合長期提名特徵和短期提名特徵之間的交互資訊以及其他多細微性線索來生成豐富的提名特徵,進而提高提名品質評估的準確性。
在一個可選的實現方式中,該裝置還包括:
處理單元1003,用於基於第一特徵序列和第二特徵序列中的至少一項,得到目標動作概率序列;該第一特徵序列和該第二特徵序列均包含該視頻流的多個片段中每個片段的特徵資料,且該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;
拼接單元1004,用於將該第一特徵序列和該目標動作概率序列進行拼接,得到該視頻特徵序列。
在一個可選的實現方式中,特徵確定單元1001,具體用於基於該第一時序物件提名對應的時間段,對該視頻特徵序列進行採樣,得到該短期提名特徵。
在一個可選的實現方式中,特徵確定單元1001,具體用於基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的目標提名特徵;
評估單元1002,具體用於基於該第一時序物件提名的目標提名特徵,得到該第一時序物件提名的評估結果。
在一個可選的實現方式中,特徵確定單元1001,具體用於對該長期提名特徵和該短期特徵提名執行非局部注意力操作,得到中間提名特徵;將該短期提名特徵和該中間提名特徵進行拼接,得到該目標提名特徵。
在一個可選的實現方式中,特徵確定單元1001,具體用於基於該視頻特徵序列中對應於參考時間區間的特徵資料,得到該長期提名特徵,其中,該參考時間區間從該時序物件提名集中的首個時序物件的開始時間到最後一個時序物件的結束時間。
在一個可選的實現方式中,評估單元1002,具體用於將該目標提名特徵輸入至提名評估網路進行處理,得到該第一時序物件提名的至少兩項品質指標,其中,該至少兩項品質指標中的第一指標用於表徵該第一時序物件提名與真值的交集占該第一時序物件提名的長度比例,該至少兩項品質指標中的第二指標用於表徵該第一時序物件提名與該真值的交集占該真值的長度比例;根據該至少兩項品質指標,得到該評估結果。
圖11為本申請實施例提供的另一種提名評估裝置的結構示意圖。如圖11所示,該提名評估裝置可包括:
處理單元1101,用於基於視頻流的第一特徵序列,得到所述視頻流的目標動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;
拼接單元1102,用於將該第一特徵序列和該目標動作概率序列進行拼接,得到視頻特徵序列;
評估單元1103,用於基於所述視頻特徵序列,得到所述視頻流的第一時序物件提名的評估結果。
可選地,評估單元1103,具體用於基於該視頻特徵序列,得到第一時序物件提名的目標提名特徵,其中,該目標提名特徵對應的時間段與該第一時序物件提名對應的時間段相同,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;基於該目標提名特徵,得到該第一時序物件提名的評估結果。
本申請實施例中,將特徵序列和目標動作概率序列在通道維度上進行拼接得到包括更多特徵資訊的視頻特徵序列,以便於採樣得到的提名特徵包含的資訊更豐富。
在一個可選的實現方式中,處理單元1101,具體用於基於該第一特徵序列,得到第一動作概率序列;基於該第二特徵序列,得到第二動作概率序列;融合該第一動作概率序列和該第二動作概率序列得到該目標動作概率序列。可選的,該目標動作概率序列可以是該第一動作概率序列或該第二動作概率序列。
圖12為本申請實施例提供的又一種提名評估裝置的結構示意圖。如圖12所示,該提名評估裝置可包括:
處理單元1201,用於基於視頻流的第一特徵序列,得到第一動作概率序列,其中,所述第一特徵序列包含所述視頻流的多個片段中每個片段的特徵資料;
基於所述視頻流的第二特徵序列,得到第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;
基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的目標動作概率序列;
評估單元1202,用於基於所述視頻流的目標動作概率序列,得到所述視頻流的第一時序物件提名的評估結果。
可選地,處理單元1201,具體用於對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列。
本申請實施例中,基於第一動作概率序列和第二動作概率序列可以得到更加準確地的目標動作概率序列,以便於利用該目標動作概率序列更準確地評估時序物件提名的品質。
應理解以上圖像處理裝置以及提名評估裝置的各個單元的劃分僅僅是一種邏輯功能的劃分,實際實現時可以全部或部分集成到一個物理實體上,也可以物理上分開。例如,以上各個單元可以為單獨設立的處理元件,也可以集成同一個晶片中實現,此外,也可以以程式代碼的形式儲存於控制器的儲存元件中,由處理器的某一個處理元件調用並執行以上各個單元的功能。此外各個單元可以集成在一起,也可以獨立實現。這裡的處理元件可以是一種積體電路晶片,具有信號的處理能力。在實現過程中,上述方法的各步驟或以上各個單元可以透過處理器元件中的硬體的集成邏輯電路或者軟體形式的指令完成。該處理元件可以是通用處理器,例如中央處理器(central processing unit,CPU),還可以是被配置成實施以上方法的一個或多個積體電路,例如:一個或多個特定積體電路(application-specific integrated circuit,ASIC),或,一個或多個微處理器(digital signal processor,DSP),或,一個或者多個現場可程式設計閘陣列(field-programmable gate array,FPGA)等。
圖13是本發明實施例提供的一種伺服器結構示意圖,該伺服器1300可因配置或性能不同而產生比較大的差異,可以包括一個或一個以***處理器(central processing units,CPU)1322(例如,一個或一個以上處理器)和儲存器1332,一個或一個以上儲存應用程式1342或資料1344的儲存媒介1330(例如一個或一個以上海量儲存設備)。其中,儲存器1332和儲存媒介1330可以是短暫儲存或持久儲存。儲存在儲存媒介1330的程式可以包括一個或一個以上模組(圖示沒標出),每個模組可以包括對伺服器中的一系列指令操作。更進一步地,中央處理器1322可以設置為與儲存媒介1330通訊,在伺服器1300上執行儲存媒介1330中的一系列指令操作。伺服器1300可以為本申請提供的圖像處理裝置。
伺服器1300還可以包括一個或一個以上電源1326,一個或一個以上有線或無線網路介面1350,一個或一個以上輸入輸出介面1358,和/或,一個或一個以上作業系統1341,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述實施例中由伺服器所執行的步驟可以基於該圖13所示的伺服器結構。具體的,中央處理器1322可實現圖9至圖12中各單元的功能。
在本發明的實施例中提供一種電腦可讀儲存媒介,上述電腦可讀儲存媒介儲存有電腦程式,上述電腦程式被處理器執行時實現:獲取視頻流的第一特徵序列,其中,該第一特徵序列包含該視頻流的多個片段中每個片段的特徵資料;基於該第一特徵序列,得到第一物件邊界概率序列,其中,該第一物件邊界概率序列包含該多個片段屬於物件邊界的概率;基於該視頻流的第二特徵序列,得到第二物件邊界概率序列;該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;基於該第一物件邊界概率序列和該第二物件邊界概率序列,生成時序物件提名集。
在本發明的實施例中提供另一種電腦可讀儲存媒介,上述電腦可讀儲存媒介儲存有電腦程式,上述電腦程式被處理器執行時實現:基於視頻流的視頻特徵序列,得到第一時序物件提名的長期提名特徵,其中,該視頻特徵序列包含該視頻流包含的多個片段中每個片段的特徵資料和基於該視頻流得到的動作概率序列,或者,該視頻特徵序列為基於該視頻流得到的動作概率序列,該長期提名特徵對應的時間段長於該第一時序物件提名對應的時間段,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;基於該視頻流的視頻特徵序列,得到該第一時序物件提名的短期提名特徵,其中,該短期提名特徵對應的時間段與該第一時序物件提名對應的時間段相同;基於該長期提名特徵和該短期提名特徵,得到該第一時序物件提名的評估結果。
在本發明的實施例中提供又一種電腦可讀儲存媒介,上述電腦可讀儲存媒介儲存有電腦程式,上述電腦程式被處理器執行時實現:基於第一特徵序列和第二特徵序列中的至少一項,得到目標動作概率序列;其中,該第一特徵序列和該第二特徵序列均包含視頻流的多個片段中每個片段的特徵資料,且該第二特徵序列和該第一特徵序列包括的特徵資料相同且排列順序相反;將該第一特徵序列和該目標動作概率序列進行拼接,得到視頻特徵序列;基於該視頻特徵序列,得到第一時序物件提名的目標提名特徵,其中,該目標提名特徵對應的時間段與該第一時序物件提名對應的時間段相同,該第一時序物件提名包含於基於該視頻流得到的時序物件提名集;基於該目標提名特徵,得到該第一時序物件提名的評估結果。
以上所述,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何所屬技術領域中具有通常知識者在本發明揭露的技術範圍內,可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以申請專利範圍的保護範圍為準。
101、102、103、104、401、402、403、404、405、406、407、408、409、601、602、603、701、702、703、801、802、803、804:步驟 301:開始區域 302:中心區域 303:結束區域 304:採樣得到的長期提名特徵 501:特徵提取模組 502:雙向評估模組 5021:第一提名生成網路 5022:第二提名生成網路 503:長期特徵操作模組 504:提名打分模組 5041:提名評估網路 901:獲取單元 902、1003、1101、1201:處理單元 903:生成單元 904:時序翻轉單元 905、1001:特徵確定單元 906、1002、1103、1202:評估單元 1004、1102:拼接單元 1300:伺服器 1322:中央處理器 1326:電源 1330:儲存媒介 1332:儲存器 1341:作業系統 1342:應用程式 1344:資料 1350:有線或無線網路介面 1358:輸入輸出介面
為了更清楚地說明本發明實施例中的技術方案,下面將對本發明實施例或背景技術中所需要使用的圖式進行說明。
圖1為本申請實施例提供的一種圖像處理方法流程圖;
圖2為本申請實施例提名的一種生成時序物件提名集的過程示意圖;
圖3為本申請實施例提供的一種採樣過程示意圖;
圖4為本申請實施例提供的一種非局部注意力操作的計算過程示意圖;
圖5為本申請實施例提供的一種圖像處理裝置的結構示意圖;
圖6為本申請實施例提供的一種提名評估方法流程圖;
圖7為本申請實施例提供的另一種提名評估方法流程圖;
圖8為本申請實施例提供的又一種提名評估方法流程圖;
圖9為本申請實施例提供的另一種圖像處理裝置的結構示意圖;
圖10為本申請實施例提供的一種提名評估裝置的結構示意圖;
圖11為本申請實施例提供的另一種提名評估裝置的結構示意圖;
圖12為本申請實施例提供的又一種提名評估裝置的結構示意圖;
圖13為本申請實施例提供的一種伺服器的結構示意圖。
101、102、103、104:步驟

Claims (20)

  1. 一種圖像處理方法,其中,包括: 獲取一視頻流的一第一特徵序列,其中,所述第一特徵序列包含所述視頻流的一多個片段中每個片段的特徵資料; 基於所述第一特徵序列,得到一第一物件邊界概率序列,其中,所述第一物件邊界概率序列包含所述多個片段屬於物件邊界的概率; 基於所述視頻流的一第二特徵序列,得到一第二物件邊界概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;以及 基於所述第一物件邊界概率序列和所述第二物件邊界概率序列,生成一時序物件提名集。
  2. 根據申請專利範圍第1項所述之方法,其中,所述基於所述第一物件邊界概率序列和所述第二物件邊界概率序列,生成一時序物件提名集包括: 對所述第一物件邊界概率序列以及所述第二物件邊界概率序列進行融合處理,得到一目標邊界概率序列;以及 基於所述目標邊界概率序列,生成所述時序物件提名集。
  3. 根據申請專利範圍第2項所述之方法,其中,所述基於所述目標邊界概率序列,生成所述時序物件提名集包括: 基於所述目標邊界概率序列包括的目標起始概率序列和目標結束概率序列,生成所述時序物件提名集; 或者,基於所述目標邊界概率序列包括的目標起始概率序列和所述第一物件邊界概率序列包括的結束概率序列,生成所述時序物件提名集; 或者,基於所述目標邊界概率序列包括的目標起始概率序列和所述第二物件邊界概率序列包括的結束概率序列,生成所述時序物件提名集; 或者,基於所述第一物件邊界概率序列包括的起始概率序列和所述目標邊界概率序列包括的目標結束概率序列,生成所述時序物件提名集; 或者,基於所述第二物件邊界概率序列包括的起始概率序列和所述目標邊界概率序列包括的目標結束概率序列,生成所述時序物件提名集。
  4. 根據申請專利範圍第1-3項任一項所述之方法,其中,所述方法還包括: 基於所述視頻流的一視頻特徵序列,得到一第一時序物件提名的一長期提名特徵,其中,所述長期提名特徵對應的時間段長於所述第一時序物件提名對應的時間段,所述第一時序物件提名包含於所述時序物件提名集; 基於所述視頻流的所述視頻特徵序列,得到所述第一時序物件提名的一短期提名特徵,其中,所述短期提名特徵對應的時間段與所述第一時序物件提名對應的時間段相同;以及 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果。
  5. 根據申請專利範圍第4項所述之方法,其中,所述基於所述視頻流的所述視頻特徵序列,得到一第一時序物件提名的一長期提名特徵之前,所述方法還包括: 基於所述第一特徵序列和所述第二特徵序列中的至少一項,得到一目標動作概率序列;以及 將所述第一特徵序列和所述目標動作概率序列進行拼接,得到所述視頻特徵序列。
  6. 根據申請專利範圍第4項所述之方法,其中,所述基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果包括: 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的目標提名特徵;以及 基於所述第一時序物件提名的目標提名特徵,得到所述第一時序物件提名的評估結果。
  7. 一種提名評估方法,其中,包括: 基於一視頻流的一視頻特徵序列,得到所述視頻流的一第一時序物件提名的一長期提名特徵,其中,所述視頻特徵序列包含所述視頻流包含的一多個片段中每個片段的特徵資料,所述長期提名特徵對應的時間段長於所述第一時序物件提名對應的時間段; 基於所述視頻流的所述視頻特徵序列,得到所述第一時序物件提名的一短期提名特徵,其中,所述短期提名特徵對應的時間段與所述第一時序物件提名對應的時間段相同;以及 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果。
  8. 根據申請專利範圍第7項所述之方法,其中,所述基於一視頻流的一視頻特徵序列,得到所述視頻流的一第一時序物件提名的一長期提名特徵之前,所述方法還包括: 基於一第一特徵序列和一第二特徵序列中的至少一項,得到一目標動作概率序列;其中,所述第一特徵序列和所述第二特徵序列均包含所述視頻流的所述多個片段中每個片段的特徵資料,且所述第二特徵序列和所述第一特徵序列中包括的特徵資料的排列順序相反;以及 將所述第一特徵序列和所述目標動作概率序列進行拼接,得到所述視頻特徵序列。
  9. 根據申請專利範圍第7項或第8項所述之方法,其中,所述基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果包括: 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的目標提名特徵;以及 基於所述第一時序物件提名的目標提名特徵,得到所述第一時序物件提名的評估結果。
  10. 一種提名評估方法,其中,包括: 基於一視頻流的一第一特徵序列,得到所述視頻流的一目標動作概率序列,其中,所述第一特徵序列包含所述視頻流的一多個片段中每個片段的特徵資料; 將所述第一特徵序列和所述目標動作概率序列進行拼接,得到一視頻特徵序列;以及 基於所述視頻特徵序列,得到所述視頻流的一第一時序物件提名的評估結果。
  11. 根據申請專利範圍第10項所述之方法,其中,所述基於一視頻流的一第一特徵序列,得到所述視頻流的一目標動作概率序列包括: 基於所述第一特徵序列,得到一第一動作概率序列; 基於所述視頻流的一第二特徵序列,得到一第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;以及 對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列。
  12. 一種提名評估方法,其中,包括: 基於一視頻流的一第一特徵序列,得到一第一動作概率序列,其中,所述第一特徵序列包含所述視頻流的一多個片段中每個片段的特徵資料; 基於所述視頻流的一第二特徵序列,得到一第二動作概率序列,其中,所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反; 基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的一目標動作概率序列;以及 基於所述視頻流的所述目標動作概率序列,得到所述視頻流的一第一時序物件提名的評估結果。
  13. 根據申請專利範圍第12項所述之方法,其中,所述基於所述第一動作概率序列和所述第二動作概率序列,得到所述視頻流的所述目標動作概率序列包括: 對所述第一動作概率序列和所述第二動作概率序列進行融合處理,得到所述目標動作概率序列。
  14. 根據申請專利範圍第12項或第13項所述之方法,其中,所述基於所述視頻流的所述目標動作概率序列,得到所述視頻流的一第一時序物件提名的評估結果包括: 基於所述目標動作概率序列,得到所述第一時序物件提名的一長期提名特徵,其中,所述長期提名特徵對應的時間段長於所述第一時序物件提名對應的時間段; 基於所述目標動作概率序列,得到所述第一時序物件提名的一短期提名特徵,其中,所述短期提名特徵對應的時間段與所述第一時序物件提名對應的時間段相同;以及 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果。
  15. 根據申請專利範圍第14項所述之方法,其中,所述基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的評估結果包括: 基於所述長期提名特徵和所述短期提名特徵,得到所述第一時序物件提名的目標提名特徵;以及 基於所述第一時序物件提名的目標提名特徵,得到所述第一時序物件提名的評估結果。
  16. 一種圖像處理裝置,其中,包括: 一獲取單元,用於獲取一視頻流的一第一特徵序列,其中,所述第一特徵序列包含所述視頻流的一多個片段中每個片段的特徵資料; 一處理單元,用於基於所述第一特徵序列,得到一第一物件邊界概率序列,其中,所述第一物件邊界概率序列包含所述多個片段屬於物件邊界的概率; 所述處理單元,還用於基於所述視頻流的一第二特徵序列,得到一第二物件邊界概率序列;所述第二特徵序列和所述第一特徵序列包括的特徵資料相同且排列順序相反;以及 一生成單元,還用於基於所述第一物件邊界概率序列和所述第二物件邊界概率序列,生成一時序物件提名集。
  17. 一種提名評估裝置,其中,包括用於執行如申請專利範圍第7項至第15項中任一項所述的方法的單元。
  18. 一種晶片,其中,所述晶片包括一處理器與一資料介面,所述處理器透過所述資料介面讀取儲存器上儲存的指令,執行如申請專利範圍第1項至第15項中任一項所述的方法。
  19. 一種電子設備,其中,包括:一儲存器,用於儲存一程式;一處理器,用於執行所述儲存器儲存的所述程式,當所述程式被執行時,所述處理器用於執行如申請專利範圍第1項至第15項中任一項所述之方法。
  20. 一種電腦可讀儲存媒介,其中,所述電腦儲存媒介儲存有電腦程式,所述電腦程式包括一程式指令,所述程式指令當被所述處理器執行時使所述處理器執行如申請專利範圍第1項至第15項任一項所述之方法。
TW109103874A 2019-06-24 2020-02-07 圖像處理方法、提名評估方法及相關裝置 TWI734375B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910552360.5A CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置
CN201910552360.5 2019-06-24

Publications (2)

Publication Number Publication Date
TW202101384A true TW202101384A (zh) 2021-01-01
TWI734375B TWI734375B (zh) 2021-07-21

Family

ID=67921137

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109103874A TWI734375B (zh) 2019-06-24 2020-02-07 圖像處理方法、提名評估方法及相關裝置

Country Status (7)

Country Link
US (1) US20230094192A1 (zh)
JP (1) JP7163397B2 (zh)
KR (1) KR20210002355A (zh)
CN (1) CN110263733B (zh)
SG (1) SG11202009661VA (zh)
TW (1) TWI734375B (zh)
WO (1) WO2020258598A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN111327949B (zh) * 2020-02-28 2021-12-21 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN112200103A (zh) * 2020-04-07 2021-01-08 北京航空航天大学 一种基于图注意力的视频分析***和方法
CN112906586B (zh) * 2021-02-26 2024-05-24 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品
CN114627556B (zh) 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
TWI430664B (zh) * 2011-04-13 2014-03-11 Chunghwa Telecom Co Ltd Intelligent Image Monitoring System Object Track Tracking System
CN103902966B (zh) * 2012-12-28 2018-01-05 北京大学 基于序列时空立方体特征的视频交互事件分析方法及装置
CN104200494B (zh) * 2014-09-10 2017-05-17 北京航空航天大学 一种基于光流的实时视觉目标跟踪方法
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
CN108234821B (zh) * 2017-03-07 2020-11-06 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和***
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
GB2565775A (en) * 2017-08-21 2019-02-27 Nokia Technologies Oy A Method, an apparatus and a computer program product for object detection
CN110472647B (zh) * 2018-05-10 2022-06-24 百度在线网络技术(北京)有限公司 基于人工智能的辅助面试方法、装置及存储介质
CN108898614B (zh) * 2018-06-05 2022-06-21 南京大学 一种基于层次式时空区域合并的物体轨迹提议方法
CN108875610B (zh) * 2018-06-05 2022-04-05 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置

Also Published As

Publication number Publication date
US20230094192A1 (en) 2023-03-30
KR20210002355A (ko) 2021-01-07
CN110263733A (zh) 2019-09-20
JP7163397B2 (ja) 2022-10-31
SG11202009661VA (en) 2021-01-28
WO2020258598A1 (zh) 2020-12-30
CN110263733B (zh) 2021-07-23
JP2021531523A (ja) 2021-11-18
TWI734375B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
TWI734375B (zh) 圖像處理方法、提名評估方法及相關裝置
TWI754855B (zh) 人臉圖像識別方法、裝置、電子設備及儲存介質
US11055516B2 (en) Behavior prediction method, behavior prediction system, and non-transitory recording medium
US11412023B2 (en) Video description generation method and apparatus, video playing method and apparatus, and storage medium
JP7222008B2 (ja) 動画クリップの検索方法及び装置
CN112131943A (zh) 一种基于双重注意力模型的视频行为识别方法及***
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
JP7089045B2 (ja) メディア処理方法、その関連装置及びコンピュータプログラム
CN113743607B (zh) 异常检测模型的训练方法、异常检测方法及装置
CN111738120B (zh) 人物识别方法、装置、电子设备及存储介质
US11270126B2 (en) Person tracking method, device, electronic device, and computer readable medium
CN111666922A (zh) 视频匹配方法、装置、计算机设备和存储介质
CN114282047A (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
Nigade et al. Clownfish: Edge and cloud symbiosis for video stream analytics
CN113052039B (zh) 一种交通路网行人密度检测的方法、***及服务器
CN113688804B (zh) 基于多角度视频的动作识别方法及相关设备
CN112906586B (zh) 时序动作提名生成方法和相关产品
TWI754515B (zh) 圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質
CN111507289A (zh) 视频匹配方法、计算机设备和存储介质
CN114627556B (zh) 动作检测方法、动作检测装置、电子设备以及存储介质
CN110956127A (zh) 用于生成特征向量的方法、装置、电子设备和介质
CN110874553A (zh) 一种识别模型训练方法及装置
CN117197725B (zh) 一种基于多位置协作的时序动作提名生成方法及***
CN112200170B (zh) 图像识别方法、装置、电子设备和计算机可读介质
US20240054757A1 (en) Methods and systems for temporal action localization of video data