TWI750498B

TWI750498B - 視訊流的處理方法和裝置

Info

Publication number: TWI750498B
Application number: TW108129775A
Authority: TW
Inventors: 郭昕; 程遠; 蔣晨
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2019-02-14
Filing date: 2019-08-21
Publication date: 2021-12-21
Also published as: WO2020167581A1; SG11202104426WA; CN110569702A; US10943126B2; US20200265239A1; TW202101371A; EP3857440A1; CN110569702B

Abstract

本說明書實施例提供的視訊流的處理方法和裝置。透過部署多個特徵提取模型，將視訊流中的各影像框分別進行特徵抽取獲取它們的特徵向量，然後將這些特徵向量組合在一起，針對視訊流構建出預定大小的特徵矩陣，創造性地利用預先訓練的卷積神經網路模型處理該特徵矩陣，以得到對視訊流的處理結果。該過程中可以減少模型標註的複雜度，對時域視訊資料，透過卷積神經網路的處理，挖掘特徵之間的關聯性，進行更有效的視訊處理。

Description

視訊流的處理方法和裝置

本說明書一個或多個實施例涉及電腦技術領域，尤其涉及透過電腦對視訊流進行處理的方法和裝置。

卷積神經網路(Convolutional Neural Networks，CNN) 是一種前饋神經網路，人工神經元可以響應周圍單元，可以進行大型影像處理。卷積神經網路往往以多影像框影像序列作為輸入，可以同時提取影像序列中的空間維度抽象特徵及時間維度抽象特徵，挖掘影像中的隱含特徵，在視訊分類、動作識別等影像序列分析等領域具有重要應用。常規技術中，透過卷積神經網路對單個圖片的分析方法通常可以挖掘單個圖片在某些方向上的特徵。而在視訊處理領域，也往往是對單個圖片的分析。因此，需要一種改進的方案，能夠利用卷積神經網路，提供更有效的視訊流處理方案。

本說明書一個或多個實施例描述了視訊流的處理方法和裝置，以解決現有技術的部分不足。根據第一方面，提供了一種視訊流的處理方法，所述方法包括：獲取待處理的視訊流；對所述視訊流中的S個影像框分別進行特徵抽取，產生S個N維的特徵向量；將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中，所述特徵矩陣具有N行、至少S列；利用預先訓練的卷積神經網路處理所述特徵矩陣，以得到對所述視訊流的處理結果。在一些實施例中，所述S個影像框包括第一影像框，所述對所述視訊流中的S個影像框分別進行特徵抽取包括：基於與所述第一影像框的前一影像框的對比，確定所述第一影像框的變化特徵。在一些實施例中，所述S個影像框包括第一影像框，所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。在一些實施例中，所述S個影像框包括第一影像框，所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將透過結構相似性模型確定的所述第一影像框與所述前一影像框的SSIM指數，確定為所述第一影像框的變化特徵。在一些實施例中，所述S個影像框包括第一影像框，所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：確定所述前一影像框變換到所述第一影像框的投影矩陣；將所述投影矩陣作為所述變化特徵。在一些實施例中，在所述第一影像框為所述視訊流的第一個影像框的情況下，確定所述變化特徵包含預定值，或者確定所述前一影像框和所述第一影像框為相同影像框。在一些實施例中，所述對所述視訊流中的S個影像框分別進行特徵抽取包括：針對所述S個影像框中的第一影像框，進行目標識別，確定所述第一影像框的目標特徵。在一些實施例中，所述視訊流為針對損傷車輛拍攝的視訊流，所述目標特徵包括，損傷部件、損傷材質、損傷類別中的一項或多項。在一些實施例中，所述對所述視訊流中的S個影像框分別進行特徵抽取包括：針對所述S個影像框中的第一影像框，檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項，並將檢測結果作為所述第一影像框的相應特徵。在一些實施例中，在對所述S個影像框中的第一影像框抽取多個特徵的情況下，所述產生S個N維的特徵向量包括：將所述第一影像框的多個特徵對應的特徵值進行組合，從而產生一個N維的特徵向量。在一些實施例中，所述將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣包括：利用內插方式在S個N維特徵向量中補充M-S個特徵向量，以產生N行M列的所述特徵矩陣。在一些實施例中，對於第一內插位置，所述內插方式包括以下之一：將所述第一內插位置最近鄰的特徵向量作為在所述第一內插位置處***的特徵向量；將與所述第一內插位置鄰近的r個特徵向量中，各對應元素分別進行二線性內插，根據內插結果確定所述第一內插位置處***的特徵向量。在一些實施例中，所述卷積神經網路透過至少一個卷積核對所述特徵矩陣進行卷積處理，其中，所述卷積核依次處理所述特徵矩陣中每個時間維度的多個特徵值。在一些實施例中，所述卷積神經網路用於對所述視訊流進行關鍵影像框抽取，所述卷積神經網路透過以下方式訓練：獲取作為樣本的多個視訊流，各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣，以及標註出的關鍵框所在時間段標籤，所述時間段標籤包括用於描述所述時間段的起始時刻、結束時刻的二維數組，所述起始時刻、所述結束時刻為透過所述視訊流的首個影像框開始計算的相對時刻；使用各個樣本特徵矩陣和時間段標籤訓練所述模型，以使得相比於訓練前，訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。在進一步的實施例中，所述二維數組中的各元素為相應的相對時刻與所述視訊流的總時長的比值。在一些實施例中，所述卷積神經網路用於對所述視訊流進行車輛處理決策，所述卷積神經網路透過以下方式訓練：獲取作為樣本的多個視訊流，各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣，以及基於實際車輛的處理決策標籤；使用各個樣本特徵矩陣即對應的處理決策標籤訓練所述模型，以使得相比於訓練前，訓練後的所述模型的與所述多個樣本對應的預測損失函數減小。在一些實施例中，所述處理決策標籤為多維向量，所述處理決策標籤中的多個元素包括：車輛各個部件的換新機率、車輛各個部件的修理機率。根據第二方面，提供一種視訊流的處理裝置，所述裝置包括：獲取單元，配置為獲取待處理的視訊流；特徵抽取單元，配置為對所述視訊流中的S個影像框分別進行特徵抽取，產生S個N維的特徵向量；矩陣產生單元，配置為將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中，所述特徵矩陣具有N行、至少S列；卷積處理單元，配置為利用預先訓練的卷積神經網路處理所述特徵矩陣，以得到對所述視訊流的處理結果。根據第三方面，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一方面的方法。根據第四方面，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行碼，所述處理器執行所述可執行碼時，實現第一方面的方法。本說明書實施例提供的視訊流的處理方法和裝置，透過部署多個特徵提取模型，將視訊流中的各影像框分別進行特徵抽取獲取它們的特徵向量，然後將這些特徵向量組合在一起，針對視訊流構建出預定大小的特徵矩陣，創造性地利用預先訓練的卷積神經網路模型處理該特徵矩陣，以得到對視訊流的處理結果。該過程中可以減少模型標註的複雜度，對時域視訊資料，透過卷積神經網路的處理，挖掘特徵之間的關聯性，進行更有效的視訊處理。

下面結合圖式，對本說明書提供的方案進行描述。為了便於說明，結合圖1示出的本說明書實施例的一個具體適用場景進行說明。圖1示出的是對車輛損傷進行識別的具體場景。該實施場景中，假設車輛受損，用戶可以透過可採集現場資訊的終端，例如智慧型手機、照相機、傳感器等，採集受損車輛的現場資訊。該現場資訊可以包括視訊流。該視訊流可以由計算平臺進行處理，以對受損車輛進行損傷識別。如圖1所示，該實施場景中的計算平臺由第一計算平臺和第二計算平臺組成。請參考圖1所示，第一計算平臺首先可以透過影像框特徵提取模組，對視訊流中的S影像框分別進行特徵抽取，對每個影像框產生一個N維的特徵向量。其中，這裡的S影像框可以包括視訊流中的每一影像框，也可以是按照預定時間間隔(如500ms)抽取的影像框。然後，可以透過特徵矩陣構建模組將這些N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣。其中，特徵矩陣可以的行數可以是N，列數至少為S。接著，第二計算平臺可以利用預先訓練的卷積神經網路，處理該特徵矩陣，以得到對視訊流的處理結果。在圖1示出的場景中，對該視訊流的處理結果可以是對受損車輛的損傷識別結果。在其他應用場景中，對該視訊流的處理結果還可以是關鍵影像框抽取等等結果，在此不做限定。值得說明的是，卷積神經網路是一種前饋神經網路，神經元可以響應周圍單元，從而可以進行大型影像處理。卷積神經網路可以包括一維卷積神經網路、二維卷積神經網路以及三維卷積神經網路。一維卷積神經網路通常應用於序列類的資料處理；二維卷積神經網路通常應用於影像類文本的識別；三維卷積神經網路通常應用於醫學影像以及視訊類資料識別。對於影像處理而言，透過訓練不同的卷積核，可以發掘影像中的不同特徵。可以看出，上述二維卷積神經網路和三維卷積神經網路在用於影像或視訊資料處理時，面對的都是影像本身。如果將影像看作多個像素點組成的矩陣，則卷積神經網路可以對矩陣進行分析。基於這種思想，在本說明書的技術框架中，創新地利用卷積神經網路處理由多個影像框的特徵向量組成的特徵矩陣，從而可以發掘連續影像中的關聯特徵。容易理解：在一個實施例中，第一計算平臺和第二計算平臺可以為同一個計算平臺，例如集成在終端或者為終端上運行的車輛定損類應用提供服務的伺服端的一個計算平臺；在另一個實施例中，第一計算平臺和第二計算平臺也可以是分開設置的兩個計算平臺，例如第一計算平臺設於終端，用於對採集到的視訊流進行預處理，得到視訊流的特徵矩陣，第二計算平臺設於伺服端，用於透過卷積神經網路處理特徵矩陣，給出對損傷車輛的損傷識別結果。值得說明的是，圖1的實施場景是示例性的，在其他實施例中，特徵矩陣構建模組還可以設於第二計算平臺中，本說明書中對此不做限定。在可選的實施例中，第二計算平臺還可以將損傷識別結果反饋至終端進行展示。由上述實施場景可以看出，本說明書提供的技術方案，將通常用於處理影像的卷積神經網路，創造性地用於處理多個影像框的特徵向量組成的特徵矩陣，尤其適用於視訊流的整體決策問題，為視訊流分析提供更有效的解決方案。下面詳細描述視訊流的處理方法的具體流程。圖2示出根據一個實施例的視訊流的處理方法流程圖。其中，圖2示出的方法的執行主體可以是具有一定資料處理能力的任何具有計算、處理能力的系統、終端、裝置、平臺或伺服器，例如由圖1所示的第一計算平臺和第二計算平臺組成的總的計算平臺等。如圖2所示，視訊流的處理方法包括以下步驟：步驟21，獲取待處理的視訊流；步驟22，對視訊流中的S個影像框分別進行特徵抽取，產生S個N維的特徵向量；步驟23，將S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中，特徵矩陣具有N行、至少S列；步驟24，利用預先訓練的卷積神經網路處理特徵矩陣，以得到對視訊流的處理結果。首先，在步驟21中，獲取待處理的視訊流。可以理解，視訊流通常是穩定、連續傳輸的視訊資料。一個視訊流可以包括多個影像框。視訊流可以由各種攝影裝置採集，例如相機、智慧型手機的攝影鏡頭裝置等等。在一個實施例中，視訊流可以是預先儲存在本說明書實施例的執行主體上的，此時，可以從本地獲取視訊流。在另一個實施例中，視訊流可以是執行主體從遠端設備透過有線或無線網路獲取的，例如執行主體是伺服器，遠端設備是具有視訊錄製和通信功能的相機或智慧型手機等。在又一個實施例中，視訊流還可以是透過執行主體上集成的採集模組(如攝影鏡頭)現場採集的，此時，視訊流並非完整地直接全部獲取，而是按照影像框的拍攝間隔連續不斷地獲取。在更多實施例中，視訊流的獲取方式還可以具有更多的形式，在此不做限定。在獲取上述視訊流之後，還可以對視訊流進行預處理，從而產生可以利用卷積神經網路分析的條件。由此，透過步驟22，對視訊流中的S個影像框分別進行特徵抽取，產生S個N維的特徵向量。可以理解，不同視訊流中的影像框數可能是不一樣的。在一個實現中，S可以是視訊流中影像框的框數，可以對這S個影像框都進行特徵抽取。在另一個實現中，S是一個預定值，例如30，對獲取的視訊流可以按照預定時間間隔、框間隔等抽取出S個影像框，並進行特徵抽取。以按照預定時間間隔為例，可以每個500毫秒抽取一個影像框。在更多實現中，還可以有更多方法從視訊流中確定出S個影像框進行特徵抽取，在此不再一一列舉。值得說明的是，本說明書實施例的視訊流的處理方法尤其適用於一定時長(例如30秒)內的視訊流處理，例如，對受損車輛進行損傷識別時，拍攝的現場視訊。對於影像框而言，所抽取的特徵可以是預先確定的一些特徵。這些特徵通常是與具體場景中對視訊流的分析需求相關的特徵。例如，在車損識別的場景下，所抽取的特徵可以是描述損傷部件、損傷程度等等的特徵。其中，特徵抽取的過程可以透過預先訓練的相應算法、模型來確定，也可以透過預先設定的參數臨限值(例如亮度臨限值等)來檢測，在此不做限定。為了更清楚地進行描述，假設該S個影像框中的任一影像框為第一影像框，則針對該第一影像框，在一種可能的實施方式中，對該第一影像框進行特徵抽取的過程可以包括：對第一影像框進行目標識別，確定第一影像框的目標特徵。可以理解，對影像的處理可以以目標識別為目的，例如，在受損車輛的損傷識別場景下，這裡的目標例如可以是損傷部件、損傷程度等等。目標特徵可以包括，損傷部件、損傷材質、損傷類別中的一項或多項。其中，目標識別可以透過預先訓練的識別模型確定。該識別模型的訓練樣本可以包括，預先標註有目標標籤(如保險桿刮擦等)的多張圖片。將訓練樣本中的各個圖片依次輸入選定的神經網路模型，例如決策樹(Decision Tree)、支持向量機(SVM)、CNN之類的模型，並根據預先標註的目標標籤調整模型參數，可以訓練出上述識別模型。在另一個可能的實施方式中，對該第一影像框進行特徵抽取的過程可以包括：基於第一影像框與前一影像框的對比，確定第一影像框的變化特徵。該變化特徵可以用於描述當前影像框與前一影像框之間的變化情況。可以理解，視訊流採集過程中，可以透過靜止的採集裝置(如固定的監控攝影鏡頭)採集運動物體的影像，也可以透過運動的採集裝置(如智慧型手機)採集靜止物體(如受損車輛)的影像，還可以透過運動的採集裝置(如智慧型手機)採集運動物體的影像等等。因此，在確定影像框的變化特徵時，針對不同的情景，處理方法也可以不同。可以理解，當物體在運動時，它在影像上對應點的亮度模式也在運動。這種影像亮度模式的表觀運動就是光流。光流可以表達影像的變化，由於它包含了目標運動的資訊，因此可被用來確定目標的運動情況。由光流的定義可以還可以引申出光流場，用於表徵影像中所有像素點構成的一種二維(2D)瞬時速度場。如此，在一個實施例中，可以將前一影像框到第一影像框的光流變化作為第一影像框的變化特徵。該光流變化可以透過諸如光流(Optical Flow)模型之類的方法實現。光流模型具有多種形式，舉例而言，可以把兩幅圖片(如第一影像框和前一影像框)一起輸入到一個“線性”的CNN中，光流輸出的結果是每個像素的偏移量。在可選的實現方式中，也可以選擇一個兩幅影像框中都包含的位置點(例如左前車燈的左上角)作為參考點，該參考點在兩幅影像框中分別對應第一影像框中第一座標和前一影像框中的第二座標，則可以將第一座標和第二座標的偏移座標確定為第一影像框的變化特徵。其中，對於兩個影像框，可以選擇同一二維座標系，例如都是以影像中心點為原點，沿長度方向為橫軸的座標系，第一座標和第二座標對應座標系中的二維座標。另一方面，在視訊流中，採集設備的移動速度往往滯後於影像框採集速度，因此，相鄰的兩個影像框可以包含相同的特徵點。其中，影像的特徵點是影像中具有鮮明特性並能夠有效反映影像本質特徵、能夠標識影像中目標物體的點。特徵點可以透過諸如SIFT (Scale-invariant feature transform，尺度不變特徵變換)、LBP(Local Binary Pattern，局部二值模式)之類的方式確定，在此不再贅述。如此，在一個實施例中，可以根據特徵點的偏移，來評估相鄰兩幅影像的變化。其中，特徵點的偏移可以透過投影矩陣(projective matrix)來描述。舉例而言，假設第一影像框的特徵點集合為Y，前一影像框的特徵點集合為X，可以求解一個變換矩陣w，使得f(X)=Xw的結果盡可能接近Y，則求解出的變換矩陣w就可以作為前一影像框到第一影像框的投影矩陣。進一步地，可以將該偏移矩陣作為第一影像框的變化特徵。在另一個實施例中，還可以透過第一影像框和前一影像框的影像相似性(Strcture Similarity)來確定第一影像框的變化特徵。影像相似性可以透過SSIM(structural similarity index measurement)指數來衡量。也就是說，可以將第一影像框和前一影像框的SSIM指數，作為第一影像框的變化特徵。作為示例，用Y表示第一影像框，用X表示前一影像框，X和Y的SSIM指數的一個計算方法為：

其中，U_X 為X各像素點的平均灰度值，U_Y 為Y的平均灰度值，Ux和U_Y 分別是X和Y的亮度估計；

為X中由各像素點的灰度值確定的方差，

為Y中由各像素點的灰度值確定的方差，

和

分別作為X和Y的對比度估計；

為X和Y中各像素點灰度值的共變異數(Covariance)；C1和C2為用於穩定除法運算的常數。SSIM指數的最大值為1，SSIM指數越大，兩個影像的結構相似度越高，當SSIM指數為1時，兩個影像的結構一致。在更多實施方式中，針對第一影像框還有更多的確定其變化特徵的方式，在此不再贅述。值得說明的是，以上變化特徵在相關實施例中，可以單獨使用，也可以組合使用，在此不做限定。其中，在第一影像框是視訊流的第一個影像框的情況下，確定其變化特徵時，可以將該第一影像框本身作為它的前一影像框進行對比，也可以直接將其變化特徵確定為預定值，例如投影矩陣的各個元素都為1，或者光流輸出為0，等等。在再一個可能的實施方式中，本領域技術人員可以理解，根據應用場景的不同，對第一影像框抽取的特徵還可以包括其他特徵，例如清晰度特徵、光照特徵、目標存在情況特徵(是否包含目標)、拍攝角度特徵(如是否俯拍)等等中的一項或多項。這些特徵都可以按照上述的方式進行拼接，以包含在預定的N維特徵向量中。在一個可能的設計中，也可以將目標特徵等變化特徵進行融合。此時，對於第一影像框，可以先確定其變化特徵(如投影矩陣)，在第一影像框與前一影像框的包含相同目標的情況下，可以將前一影像框的目標特徵映射到該第一影像框，從而不需要透過目標識別而獲取第一影像框的目標特徵，例如在該第一影像框中增加前一影像框的保險桿刮擦特徵，等等。在對視訊流的S個影像框僅分別抽取一個特徵的情況下，可以將該特徵產生對應影像框的特徵向量。此時，該特徵的維數可以為N維。另一方面，如果對視訊流的S個影像框分別抽取多個特徵，可以將多個特徵的特徵值進行組合拼接，產生一個N維的特徵向量。其中，上述的N可以是一個預定的正整數，特徵向量中的每個維度是代表預定特徵的特徵值。如果各個影像框的某個特徵(例如前述的變化特徵)包括矩陣(如上述的投影矩陣)，由於第一影像框的特徵向量是N維的特徵向量，因此，還可以對該矩陣進行鋪展或拼接處理，例如將投影矩陣的各列拼接排列，得到k維一列的向量，以作為N維的特徵向量的一部分，其中N≥k。如此，針對視訊流中的S個影像框，可以得到S個N維特徵向量。進一步地，在步驟23中，將S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣。其中，特徵矩陣具有N行、至少S列。可以理解，透過預先訓練的神經網路處理的特徵矩陣，其大小往往是預先確定的。如果視訊流中的S個影像框是按照預定框數S抽取，也就是說，特徵矩陣的預設列數就是S列，則可以直接將S個N維特徵向量組合排列，產生N維S列的矩陣，作為視訊流的特徵矩陣。然而，由於視訊長短可能無法預先知曉，S的值無法預先確定，如果特徵矩陣的預設列數為M列，在S=M的情況下，仍可以直接將S個N維特徵向量組合形成特徵矩陣，在S＜M的情況下，簡單的特徵向量組合無法產生預定大小的特徵矩陣。因此，在一個可能的設計中，可以利用內插方式在S個N維特徵向量中補充M-S個特徵向量，以產生N行M列的特徵矩陣。可以理解，在補充M-S個特徵向量的時候，涉及兩個問題，第一個是補充特徵向量的位置，另一個是補充什麼樣的特徵向量。對於第一個問題，在可選的實現方式中，補充特徵向量的位置均勻分佈，例如，透過(M-S)/S確定每間隔多少個特徵向量補充一個特徵向量。如圖3所示，假設沒間隔2個特徵向量***一個N維特徵向量，可以將C₀ 、C₁ 、C₂ 、C₃ 等對應箭頭所指的位置為補充特徵向量的位置。值得說明的是，圖3中補充特徵向量的位置僅為示例，具體實施時，也可以將X₁₁ 之後，或者X₂₁ 之後的位置作為首個補充特徵向量的位置(對應C₀ )。對於第二個問題，是確定補充的特徵向量各維的具體值。為了描述方便，將任一確定的補充特徵向量的位置稱為第一內插位置，例如C₀ 、C₁ 、C₂ 、C₃ 等對應箭頭所指的位置。在一個可選的實現方式中，可以將第一內插位置最近鄰的特徵向量作為在第一內插位置處***的特徵向量。例如，在C₀ 對應箭頭所指的位置***特徵向量[X₁₁ 、X₁₂ ……X_1N ]。在第一內插位置由兩個最近鄰的特徵向量的情況下，可以隨機選擇其中一個特徵向量***第一內插位置，也可以按照預先確定的選擇規則(例如選擇後一個)選擇相應的特徵向量***第一內插位置，在此不做限定。在另一個可選的實現方式中，還可以將與第一內插位置鄰近的r個特徵向量中，各對應元素分別進行二線性內插，根據內插結果確定第一內插位置處***的特徵向量。其中，r可以是個預定的值，例如4。請參考圖3，以C₁ 對應箭頭所指的位置為例，將X₁₁ 、X₂₁ 、X₃₁ 、X₄₁ 分別看作橫軸為時間、縱軸為特徵值的二維座標系中的點，進行二線性內插運算，得到C₁ 對應位置(橫軸座標已知)***的N維特徵向量的第一維的值(縱軸座標)。以此類推，可以得到C₁ 對應位置***的N維特徵向量各維的值。除了以上內插方式，在其他可能的設計中，還可以在最後一框的後面補充M-S個與最後一框的N維特徵向量相同的特徵向量等方式，形成M個N維的特徵向量，以組合成N行M列的特徵矩陣，在此不再一一列舉。經過步驟23，可以按照預定大小，針對一個視訊流產生可以透過預先訓練的卷積神經網路進行處理的特徵矩陣。於是，在步驟24中，利用預先訓練的卷積神經網路處理特徵矩陣，以得到對視訊流的處理結果。可以理解，卷積神經網路在處理影像時，其輸入矩陣的格式往往是“批次處理尺寸(batch_size)*長*寬*通道數”。其中，彩色影像的通道通常為“R”、“G”、“B”3個通道，即通道數為3。顯然，該格式中，長和寬是相互獨立的，通道之間則是相互影響的。同理，在對上述特徵矩陣的二維卷積操作中，影像的不同空間位置的特徵應該是獨立的，二維卷積操作具有空間不變性。由於影像處理過程中一般是在“長*寬”維度上做卷積，而如果將“長*寬”替換為特徵矩陣中的行數和列數，則在特徵維度上，不同位置的特徵之間是會相互影響的，而不是互相獨立，對其進行卷積是不合理的。例如抽取細節損傷圖，需要同時涉及細節圖分類，損傷檢測結果等多個維度的特徵。也就是說，該空間不變性在時間維度成立，在特徵維度上不成立。從而，這裡的特徵維度可以和影像處理中的通道維度的性質相對應。因此，可以對特徵矩陣的輸入格式進行調整，如調整為“批次處理尺寸(batch_size)*1*列數(如S或M)*行數(N)”。這樣，就可以在“1*列數(如M)”的維度做卷積，而每列是一個時刻的特徵集合，透過對時間維度做卷積，可以挖掘出各個特徵之間的關聯。在一個實施例中，卷積神經網路可以包括一個或多個卷積處理層和輸出層。其中，卷積處理層可以由二維卷積層、啟用層、標準化層組成，例如2D convolutional Filter +ReLU+Batch Normalization。其中，二維卷積層可以用於透過對應於時間維度的卷積核對特徵矩陣進行卷積處理。如圖4所示，N×M的特徵矩陣透過上述格式轉換得到的M×N矩陣，可以經過諸如(1，-1，-1,1)之類的卷積核對應於時間維度進行卷積操作。在卷積神經網路的訓練過程中，可以針對性地訓練卷積核。例如，可以針對每個特徵訓練一個卷積核。例如圖4示出的卷積核(1，-1，-1,1)是對應於車損檢測場景中的部件損傷特徵的卷積核等等。如此，經過每一個卷積核的卷積操作，可以識別一個特徵(例如車損檢測場景中的部件損傷特徵)。啟用層可以用於把二維卷積層的輸出結果做非線性映射。啟用層可以透過諸如Sigmoid、Tanh(雙曲正切)、ReLU之類的激勵函數實現。透過啟用層，二維卷積層的輸出結果映射為0-1之間的非線性變化數值。隨著網路加深，經過啟用層後的輸出結果可能會向梯度飽和區(對應激勵函數梯度變化較小的區域)移動。這樣，會由於梯度減小或消失導致的卷積神經網路收斂較慢或不收斂。因此，還可以進一步透過標準化層(Batch Normalization)將啟用層的輸出結果拉回激勵函數的梯度變化明顯的區域。輸出層用於輸出對視訊流的處理結果。根據視訊流處理的場景以及目的的不同，輸出層輸出的處理結果也不相同。例如在關鍵框抽取的應用場景下，所抽取的關鍵框可以是對結果意義較大的影像框，例如，車損識別的視訊流中，包含損傷的影像框。如果車輛損傷是不連續的，關鍵框還可以分段抽取。此時，輸出層輸出的處理結果可以為諸如[t₁ ，t₂ ]這樣的表示時間範圍的二維數組。其中，t₁ 表示關鍵框開始時間，t₂ 表示關鍵框結束時間。在一些可選的實現中，t₁ 、t₂ 還可以是歸一化的數值。例如總的影像框框數為30框，第18-25框可以表示為[18/30，25/30]。經過歸一化，可以避免輸出的梯度***，或者輸出結果不收斂。這種情況下，對卷積神經網路訓練過程中，可以首先獲取作為樣本的多個視訊流。其中，這些視訊流先經過步驟21-23的預處理，可以得到樣本特徵矩陣。各個樣本特徵矩陣分別是N行、至少S列的矩陣。每個視訊流還可以具有預先標註出的關鍵框所在的時間段標籤。然後可以使用各個樣本特徵矩陣和時間段標籤訓練模型。這裡的時間段標籤例如是前述的[t₁ ，t₂ ]這樣的用於描述時間段的起始時刻、結束時刻的二維數組。其中的起始時刻、結束時刻可以為透過視訊流的首個影像框開始計算的相對時刻，該相對時刻可以是諸如第5秒、第5框這樣的相對描述。可選地，二維數組中的各元素為相應的相對時刻與視訊流的總時長的比值。相應地，視訊總時長也可以透過30秒、60框這樣的描述，在此不做限定。如本領域技術人員所知，基於各個樣本對應的各個樣本特徵矩陣和時間段標籤，可透過例如梯度下降法調整模型的參數。模型訓練過執行緒中的損失函數例如為上述多個樣本的各自的預測函數與標籤值之差的平方和、或者為多個樣本的各自的預測函數與標籤值之差的絕對值之和，等等。以下以透過MSE(Minimum Squared-Error，最小平方誤差)方式計算損失函數為例進行說明。將第一樣本(第k個樣本)的樣本特徵矩陣代入模型的輸出值為[y_k1 ，y_k2 ]，樣本特徵矩陣對應的時間段標籤為[y_k10 ，y_k20 ]，代入模型損失函數L1：

可以看出，排在後面樣本的預測函數中還與排在前面的樣本的預測函數結果相關。然後，在損失函數中對模型參數求梯度，並向梯度的反方向調整參數的值，從而使得訓練後的模型的損失函數的值減小。在一些實施例中，如果最終抽取的關鍵框為1個影像框，對於經過卷積神經網路輸出的關鍵框的時間範圍的視訊流的處理結果，還可以進一步進行後處理。例如，按照預定優先抽取規則，將檢測到的清晰度符合要求的第一個影像框抽取出來。該預定優先抽取規則例如是從最中間一框開始向兩邊同時進行。再例如，在透過針對受損車輛拍攝的視訊流，確定受損部件及處理策略(如換新、維修)的應用場景下，卷積神經網路輸出的處理結果例如可以是預定的針對各個部件處理決策組成的多維數組。這種情況下，卷積神經網路的各個卷積處理層的卷積核可以對其中一個特徵進行識別。此時，卷積神經網路的訓練樣本也可以是多個視訊流。這些視訊流先經過步驟21-23的預處理，可以得到樣本特徵矩陣。各個樣本特徵矩陣分別是N行、至少S列的矩陣。每個視訊流還可以具有預先標註出的處理決策標籤。這些處理決策標籤可以基於對實際車輛的處理結果確定，且例如可以包括換新、維修等中的至少一項。可以理解，對於受損車輛而言，損傷部件可以包括多個，處理決策也可以是多種(如換新、維修等)，因此，處理決策標籤可以是個多維數組，數組中的各個元素值分別對應相關部件處理決策。然後可以用各個樣本特徵矩陣和處理決策標籤訓練模型。如本領域技術人員所知，基於各個樣本對應的各個樣本特徵矩陣和處理決策標籤，可透過例如梯度下降法調整模型的參數。模型訓練過執行緒中的損失函數例如sigmiod函數、均方差等。以下以透過sigmiod函數方式計算損失函數為例進行說明。將第一樣本的樣本特徵矩陣代入模型的輸出為一個r維的向量Y₁ ，樣本特徵矩陣對應的損傷識別結果標籤為Y₀ ，將Y₁ 進行一個平滑運算，得到：

代入模型損失函數L2：

其中，I為單位向量。“*”表示對向量求內積。可以看出，排在後面樣本的預測函數中還與排在前面的樣本的預測函數結果相關。然後，在損失函數中對模型參數求梯度，並向梯度的反方向調整參數的值，從而使得訓練後的模型的損失函數的值減小。在一些實施例中，卷積神經網路的輸出結果可以是相應的機率，例如對前保險桿維修或換新的機率，透過機率與對應臨限值的對比，可以輸出最終的決策結果。其中，相應臨限值可以由區別於訓練集的樣本集透過訓練好的卷積神經網路進行預測，結合預測準確度要求確定。在更多應用場景下，卷積神經網路還可以有與場景相應的輸出結果，在此不再一一例舉。回顧以上過程，在對視訊流的處理過程中，透過採集時域信號，透過對視訊流中各影像框進行抽取特徵等預處理，將個影像框的額特徵向量組合產生可透過卷積神經網路處理的特徵矩陣，從而可以利用卷積神經網路對視訊流中的各個影像框進行綜合分析，並且，透過卷積神經網路的輸出層的不同設計可以應用於不同的視訊處理問題，更有效地進行視訊流處理。根據另一方面的實施例，還提供一種視訊流的處理裝置。圖5示出根據一個實施例的視訊流的處理裝置的示意性方塊圖。如圖5所示，視訊流的處理裝置500包括：獲取單元51，配置為獲取待處理的視訊流；特徵抽取單元52，配置為對視訊流中的S個影像框分別進行特徵抽取，產生S個N維的特徵向量；矩陣產生單元53，配置為將所述N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中，特徵矩陣具有N行、至少S列；卷積處理單元54，配置為利用預先訓練的卷積神經網路處理特徵矩陣，以得到對視訊流的處理結果。為了描述方便，假設S個影像框中的任一影像框為第一影像框。根據一種實施方式，特徵抽取單元52還配置為：基於與所述第一影像框的前一影像框的對比，確定所述第一影像框的變化特徵。在一個實施例中，特徵抽取單元52可以將前一影像框到第一影像框的光流變化作為變化特徵。在另一個實施例中，特徵抽取單元52可以將透過結構相似性模型確定的第一影像框與前一影像框的SSIM指數，確定為第一影像框的變化特徵。在又一個實施例中，特徵抽取單元52可以：基於第一影像框和前一影像框的變換關係，確定前一影像框變換到第一影像框的投影矩陣，並將投影矩陣作為變化特徵。值得說明的是，在第一影像框為視訊流的第一個影像框的情況下，特徵抽取單元52可以：確定變化特徵包含預定值，或者確定前一影像框和第一影像框為相同影像框。根據另一個實施方式，特徵抽取單元52還可以配置為：針對S個影像框中的第一影像框，進行目標識別，確定第一影像框的目標特徵。其中，視訊流為針對損傷車輛拍攝的視訊流的情況下，目標特徵可以包括，損傷部件、損傷材質、損傷類別中的一項或多項。根據其他實施方式，特徵抽取單元52還可以配置為：針對S個影像框中的第一影像框，檢測是否模糊、是否包含目標、光照是否充足、拍攝角度是否預定角度中的一項或多項，並將檢測結果作為第一影像框的相應特徵。進一步地，矩陣產生單元53可以將各個影像框透過特徵抽取單元52抽取的各個特徵對應的特徵值進行組合，從而產生一個N維的特徵向量。在一個可能的設計中，矩陣產生單元53還可以：利用內插方式在S個N維特徵向量中補充M-S個特徵向量，以產生N行M列的特徵矩陣。其中，對於第一內插位置，內插方式包括以下之一：將第一內插位置最近鄰的特徵向量作為在第一內插位置處***的特徵向量；將與第一內插位置鄰近的r個特徵向量中，各對應元素分別進行二線性內插，根據內插結果確定第一內插位置處***的特徵向量。在一個實施例中，卷積神經網路透過至少一個卷積核對特徵矩陣進行卷積處理。卷積核依次處理特徵矩陣中每個時間維度的多個特徵值。在卷積神經網路用於對視訊流進行關鍵影像框抽取的情況下，裝置500還可以包括第一模型訓練單元，配置為透過以下方式訓練卷積神經網路：獲取作為樣本的多個視訊流，各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣，以及標註出的關鍵框所在時間段標籤；使用各個樣本特徵矩陣和時間段標籤訓練模型，以使得相比於訓練前，訓練後的模型的與樣本對應的損失函數減小。在卷積神經網路用於對視訊流進行車輛處理決策的情況下，裝置500還可以包括第二模型訓練單元，配置為透過以下方式訓練卷積神經網路：獲取作為樣本的多個視訊流，各個作為樣本的視訊流分別對應透過對其中的S個影像框進行特徵抽取所產生的各個N行、至少S列的樣本特徵矩陣，以及基於實際車輛的處理決策標籤；使用各個樣本特徵矩陣即對應的處理決策標籤訓練模型，以使得相比於訓練前，訓練後的模型的與樣本對應的損失函數減小。可選地，上述處理決策標籤為多維向量，處理決策標籤中的多個元素可以包括：車輛各個部件的換新機率、車輛各個部件的修理機率。值得說明的是，圖5所示的裝置500是與圖2出的方法實施例相對應的裝置實施例，圖2出的方法實施例中的相應描述同樣適用於裝置500，在此不再贅述。根據另一方面的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2所描述的方法。根據再一方面的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行碼，所述處理器執行所述可執行碼時，實現結合圖2所述的方法。本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

21, 22, 23, 24:步驟 500:裝置 51:獲取單元 52:特徵抽取單元 53:矩陣產生單元 54:卷積處理單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。圖1示出本說明書實施例的應用場景示意圖；圖2示出根據一個實施例的視訊流的處理方法的流程圖；圖3示出根據一個實施例的視訊流的處理過程中的特徵矩陣產生示意圖；圖4示出根據一個具體例子的對特徵矩陣做卷積的示意圖；圖5示出根據一個實施例的視訊流的處理裝置的示意性方塊圖。

Claims

一種處理視訊流的電腦實現方法，包括：從用戶獲取針對物體而採集的視訊流；對所述視訊流中的S個影像框分別進行特徵抽取；透過為所述S個影像框中的每個影像框產生相應的N維特徵向量，產生S個N維特徵向量；將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中所述特徵矩陣具有N行M列，其中S小於M，其中所述排列包括將所述S個N維特徵向量中的每個N維特徵向量***所述特徵矩陣的相應列中；基於內插方法和所述S個N維特徵向量的至少一部分，產生M-S個N維特徵向量；將所述M-S個N維特徵向量的每個N維特徵向量***所述特徵矩陣的相應列；利用預先訓練的卷積神經網路處理所述特徵矩陣，以得到對所述視訊流的處理結果。
根據申請專利範圍第1項所述的電腦實現方法，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取包括：基於與所述第一影像框的前一影像框的對比，確定所述第一影像框的變化特徵。
根據申請專利範圍第2項所述的電腦實現方法，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。
根據申請專利範圍第2項所述的電腦實現方法，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將透過結構相似性模型確定的所述第一影像框與所述前一影像框的結構相似性指數量度(SSIM)指數，確定為所述第一影像框的變化特徵。
根據申請專利範圍第2項所述的電腦實現方法，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：確定所述前一影像框變換到所述第一影像框的投影矩陣；和將所述投影矩陣作為所述變化特徵。
根據申請專利範圍第2項所述的電腦實現方法，其中所述第一影像框是與所述視訊流中的時間順序對應的的第一個影像框，且其中所述電腦實現方法還包括：確定所述變化特徵包含預定值，或者確定所述前一影像框和所述第一影像框為相同影像框。
一種非暫時性電腦可讀儲存媒體，其上儲存有一或多個指令，該等指令可由電腦系統執行以執行操作，該等操作包括：從用戶獲取針對物體而採集的視訊流；對所述視訊流中的S個影像框分別進行特徵抽取；透過為所述S個影像框中的每個影像框產生相應的N維特徵向量，產生S個N維特徵向量；將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中所述特徵矩陣具有N行M列，其中S小於M，其中所述排列包括將所述S個N維特徵向量中的每個N維特徵向量***所述特徵矩陣的相應列中；基於內插方法和所述S個N維特徵向量的至少一部分，產生M-S個N維特徵向量；將所述M-S個N維特徵向量的每個N維特徵向量***所述特徵矩陣的相應列；利用預先訓練的卷積神經網路處理所述特徵矩陣，以得到對所述視訊流的處理結果。
根據申請專利範圍第7項所述的非暫時性電腦可讀儲存媒體，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取包括：基於與所述第一影像框的前一影像框的對比，確定所述第一影像框的變化特徵。
根據申請專利範圍第8項所述的非暫時性電腦可讀儲存媒體，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。
根據申請專利範圍第8項所述的非暫時性電腦可讀儲存媒體，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將透過結構相似性模型確定的所述第一影像框與所述前一影像框的結構相似性指數量度(SSIM)指數，確定為所述第一影像框的變化特徵。
根據申請專利範圍第8項所述的非暫時性電腦可讀儲存媒體，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：確定所述前一影像框變換到所述第一影像框的投影矩陣；和將所述投影矩陣作為所述變化特徵。
根據申請專利範圍第8項所述的非暫時性電腦可讀儲存媒體，其中所述第一影像框是與所述視訊流中的時間順序對應的的第一個影像框，且其中所述電腦實現方法還包括：確定所述變化特徵包含預定值，或者確定所述前一影像框和所述第一影像框為相同影像框。
一種電腦實現系統，包括：一或多個電腦；和一或多個電腦記憶體裝置，與該一或多個電腦可互操作地耦接，並且具有儲存一或多個指令的有形的且非暫時性的機器可讀媒體，該等指令在由該一或多個電腦執行時執行一或多個操作，該等操作包括：從用戶獲取針對物體而採集的視訊流；對所述視訊流中的S個影像框分別進行特徵抽取；透過為所述S個影像框中的每個影像框產生相應的N維特徵向量，產生S個N維特徵向量；將所述S個N維特徵向量按照對應影像框的時間順序進行排列，產生特徵矩陣，其中所述特徵矩陣具有N行 M列，其中S小於M，其中所述排列包括將所述S個N維特徵向量中的每個N維特徵向量***所述特徵矩陣的相應列中；基於內插方法和所述S個N維特徵向量的至少一部分，產生M-S個N維特徵向量；將所述M-S個N維特徵向量的每個N維特徵向量***所述特徵矩陣的相應列；利用預先訓練的卷積神經網路處理所述特徵矩陣，以得到對所述視訊流的處理結果。
根據申請專利範圍第13項所述的電腦實現系統，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取包括：基於與所述第一影像框的前一影像框的對比，確定所述第一影像框的變化特徵。
根據申請專利範圍第14項所述的電腦實現系統，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將所述前一影像框到所述第一影像框的光流變化作為所述變化特徵。
根據申請專利範圍第14項所述的電腦實現系統，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：將透過結構相似性模型確定的所述第一影像框與所述前一影像框的結構相似性指數量度(SSIM)指數，確定為所述第一影像框的變化特徵。
根據申請專利範圍第14項所述的電腦實現系統，其中所述S個影像框包括第一影像框，且其中所述對所述視訊流中的S個影像框分別進行特徵抽取進一步包括：確定所述前一影像框變換到所述第一影像框的投影矩陣；和將所述投影矩陣作為所述變化特徵。
根據申請專利範圍第14項所述的電腦實現系統，其中所述第一影像框是與所述視訊流中的時間順序對應的的第一個影像框，且其中所述電腦實現方法還包括：確定所述變化特徵包含預定值，或者確定所述前一影像框和所述第一影像框為相同影像框。