TW202223834A

TW202223834A - 神經嵌入之攝影機影像視訊處理管道及神經網路訓練系統

Info

Publication number: TW202223834A
Application number: TW110131623A
Authority: TW
Inventors: 凱文戈登; 馬丁漢弗萊斯; 科林達莫瑞
Original assignee: 加拿大商光譜優化股份有限公司
Priority date: 2020-08-28
Filing date: 2021-08-26
Publication date: 2022-06-16
Also published as: CA3193037A1; KR20230058417A; US20220070369A1; JP2023540930A; WO2022043942A1; EP4205069A1; CN116157805A

Abstract

一種包括靜態影像或視訊相機的影像處理管道，包括影像處理系統的第一部分，被配置為至少部分使用源自於神經嵌入的資訊。影像處理系統的第二部分可以用於基於神經嵌入資訊來修改至少部分地影像擷取設定、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

Description

神經嵌入之攝影機影像視訊處理管道及神經網路訓練系統

本發明涉及用於使用神經嵌入技術改進影像以降低處理複雜性並改進影像或視訊的系統。特別地，描述了一種使用神經嵌入技術來提供可用於配置影像處理參數或相機設置的分類器的方法和系統。

數位相機通常需要將從影像感測器接收到的訊號轉換成可用影像的數位影像處理管道。處理可以包括訊號放大、拜耳遮罩(Bayer masks)或其他濾波器的校正、去馬賽克、色彩空間轉換和黑白位準(black and white level)調整。更高級的處理步驟可以包括 HDR 填充、超解析度、飽和度、鮮豔度或其他色彩調整、色調或 IR 去除以及對物件或場景的分類。使用各種專門的演算法，可以在相機上進行校正，也可以在後期對 RAW 影像進行後期處理。然而，這些演算法中有許多是專屬專有的，難以修改，或者需要大量熟練的用戶工作才能獲得最佳結果。在許多情況下，由於可用的處理能力有限且問題的維度很高，因此使用傳統的神經網路方法是不切實際的。影像系統還可以使用多個影像感測器來實現其預期的用例(use-case)。這樣的系統可以完全獨立地、聯合地或以其某種組合來處理每個感測器。在許多情況下，由於每個感測器專用硬體成本的緣故，獨立處理每個感測器是不切實際的，而系統通訊匯流排由於頻寬有限和神經網路輸入的複雜性高，因此聯合處理所有的感測器是不切實際的。所以，需要有能夠改進影像處理、減少用戶工作並允許更新和改進的方法和系統。

本發明揭露一種影像處理管道，包括靜態或視訊攝影機，包括：影像處理系統的第一部分，被安排為使用至少部分從神經嵌入資訊中導出的資訊；以及影像處理系統的第二部分，用於至少部分地基於所述神經嵌入資訊修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

本發明揭露另一種影像處理管道，包括靜態或視訊攝影機，包括：影像處理系統的第一部分，被安排為使用神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以建立一神經嵌入資訊；以及影像處理系統的第二部分，被安排為至少部分地基於所述神經嵌入資訊修改影像擷取設置、傳感器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

本發明揭露再一種影像處理管道，包括靜態或視訊攝影機，包括：影像處理系統的第一部分，用於使用源自於神經處理系統的神經嵌入資訊進行分類、追蹤和匹配中的至少一個；以及影像處理系統的第二部分，被配置為至少部分地基於所述神經嵌入資訊修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

本發明進一步揭露另一種影像處理管道，包括靜態或視訊攝影機，包括：影像處理系統的第一部分，被配置為使用神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供一神經嵌入資訊；以及影像處理系統的第二部分，被配置為將所述神經嵌入資訊保存在影像或視訊詮釋資料中。

本發明更揭露一種影像處理管道，包括靜態或視訊攝影機，包括：影像處理系統的第一部分，被配置為使用神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供神經嵌入資訊；以及影像處理系統的第二部分，被安排用於使用從所述神經處理系統導出的所述神經嵌入資訊進行分類、追蹤和匹配中的至少一項。

本發明所揭露的不同影像處理管道實施例，其中所述神經嵌入資訊包括一個潛在向量；所述神經嵌入資訊，包括在該影像處理系統中的模組之間發送的至少一個潛在向量；所述神經嵌入資訊，包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。

本發明更揭露一種神經網路訓練系統，包括：具有神經網路演算法的第一部分，其被配置為使用神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供神經嵌入資訊；具有神經網路演算法的第二部分，用於使用源自神經處理系統的神經嵌入資訊進行分類、追蹤和匹配中的至少一項；以及訓練過程，用以最佳化第一部分和第二部分之所述神經網路演算法的操作。

本發明揭露了使用神經嵌入資訊或技術來改進影像以降低處理複雜性並改進影像或視訊的系統。特別地，是一種使用神經嵌入來提供可用於配置影像處理參數或相機設置之分類器的方法和系統。

本發明主張2020年8月28日申請，專利名稱為「帶有神經嵌入的相機影像或視訊處理管道」，的美國臨時申請案63/071,966的優先權，基於所有目的將其所有內容引用併入本文中。

在以下描述的一些實施例中，描述了使用神經嵌入資訊或技術來改進影像以降低處理複雜性並改進影像或視訊的系統。特別地，是一種使用神經嵌入來提供可用於配置影像處理參數或相機設置之分類器的方法和系統。在一些實施例中，用於生成神經嵌入並將這些神經嵌入用於各種應用的方法和系統，包括：分類和其他機器學習任務、減少成像系統中的頻寬、減少神經推論系統中的運算需求(以及作為結果功率)、識別和關聯系統，例如：資料庫查詢和物件追蹤，結合來自多個感測器和感測器類型的資訊，生成用於訓練或創意目的之新資料，以及重建系統輸入。

在一些實施例中，包括靜態或視訊相機的影像處理管道還包括影像處理系統的第一部分，影像處理系統的第二部分可以用於基於神經嵌入資訊來修改至少部分地影像擷取設定、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

在一些實施例中，影像處理管道可以包括靜態或視訊相機，其包括影像處理系統的第一部分，該影像處理系統被配置成降低資料維度並且使用神經處理系統對單一影像、多影像或其他資料有效地進行降低取樣頻率(downsample)以提供神經嵌入資訊。影像處理系統的第二部分可以被配置為至少部分地基於神經嵌入資訊來修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

在一些實施例中，影像處理管道可以包括影像處理系統的第一部分，該影像處理系統被配置用於使用源自神經處理系統的神經嵌入資訊來進行分類、追蹤和匹配中的至少一個。影像處理系統的第二部分可以被配置為至少部分地基於神經嵌入資訊來修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。

在一些實施例中，影像處理管道可以包括影像處理系統的第一部分，該影像處理系統被配置成使用神經處理系統來降低資料維度並且單一影像、多個影像或其他資料有效地降低取樣頻率以提供神經嵌入資訊。影像處理系統的第二部分可以被配置為將神經嵌入資訊保存在影像或視訊的詮釋資料(metadata)內。

在一些實施例中，影像擷取設備包括控制影像擷取設備操作的處理器。影像擷取設備支持神經處理器，可與處理器連接以接收神經網路資料，神經處理器使用神經網路資料以提供選自感測器處理、全局後處理、和局部後期處理中的至少兩個處理程序。

「第1A圖」說明了神經網路支持的影像或視訊處理管道100A系統和方法的一個實施例。管道100A可以在影像處理管道中的多個點使用神經網路。例如，在影像擷取(步驟110A)之前發生的基於神經網路的影像預處理可以包括使用神經網路來選擇ISO、焦點、曝光、解析度、影像擷取時刻(例如，當眼睛睜開時)或其他影像或影像設置。除了使用神經網路來簡單地選擇合理的影像或影像設置外，還可以自動調整類比和預影像擷取的因素或調整有利於提高後期神經網路處理效率的因素。例如，可以增加閃光燈或其他場景照明的強度、持續時間或重定向。可以從光路中移除濾光片、擴大光圈或降低快門速度。影像感測器的效率或放大率(amplification)可以通過 ISO的選擇進行調整，所有這些都是為了(例如)改進神經網路的色彩調整或 HDR 處理。

在影像擷取之後，可以使用基於神經網路的感測器處理(步驟 112A)來提供自定義的去馬賽克、色調映射、去霧、像素失效補償或除塵。其他基於神經網路的處理可以包括拜耳濾色器陣列校正、色彩空間轉換、黑白位準調整或其他感測器相關處理。

基於神經網路的全局後處理(步驟114A)可以包括解析度或色彩調整，以及堆疊焦點或HDR處理。其他全局後處理功能可以包括 HDR 填充、散景(bokeh)調整、超解析度、鮮豔度、飽和度或色彩增強，以及色調或紅外線去除。

基於神經網路的局部後處理(步驟116A)可以包括紅眼去除、瑕疵去除、黑眼圈去除、藍天增強、綠葉增強，或影像的局部、部分、物件或區域的其他處理。特定局部區域的識別可包含使用其他神經網路輔助功能，包括例如面部或眼睛偵測器。

基於神經網路的檔案組合後處理(步驟118A)可以包括與識別、分類或發布有相關的影像或視訊處理步驟。例如，神經網路可用於識別一個人並為詮釋資料標記提供該資訊。其他例子可以包括使用神經網路進行分類，例如寵物圖片、風景或肖像。

「第1B圖」說明了神經網路支持的影像或視訊處理系統120B。在一個實施例中，硬體等級神經控制模組122B(包括設置和感測器)可用於支持處理、記憶體存取、資料傳輸和其他低等級的運算活動。系統等級神經控制模組124B與硬體等級神經控制模組122B交互並提供初步或所需的低等級自動圖片呈現工具，包括確定有用或需要的解析度、照明或色彩調整。影像或視訊可以使用系統等級神經控制模組126B進行處理，該模組可以包括用戶偏好設置、歷史用戶設置或基於第三方資訊或偏好的其他神經網路處理設置。系統等級神經控制模組128B還可包括第三方資訊和偏好，以及確定是否需要本地、遠端或分散式神經網路處理的設置。在一些實施例中，分散式神經控制模組130B可用於協作資料(cooperative data)交換。例如，隨著社交網路社群改變偏好肖像影像的風格(例如，從硬調焦點風格到軟調焦點)，肖像模式神經網路處理也可以被進行調整。相關資訊可以被傳輸到那些使用網路潛在向量、提供的訓練集或與模式相關設置推薦的各種不同被揭露的模組中的任何一個。

「第1C圖」說明了神經網路支持的軟體系統120C的另一個實施例。如圖所示，環境的資訊，包括光、場景和擷取媒體，例如通過控制外部照明系統或相機閃光燈系統來偵測和潛在地改變。包括光學和電子子系統的成像系統可以與神經處理系統和軟體應用層交互。在一些實施例中，遠端、本地或協作神經處理系統可用於提供與設置和神經網路處理條件相關的資訊。

更詳細地，成像系統可以包括被控制並與電子系統交互的光學系統。光學系統包含透鏡和照明發射器等光學硬體，以及快門、對焦、過濾和光圈的電子、軟體或硬體控制器。電子系統包括感測器和其他電子、軟體或硬體控制器，它們提供過濾、設置曝光時間、提供類比數位轉換 (ADC)、提供類比增益，並充當照明控制器。來自成像系統的資料可以發送到應用層進行進一步處理和分配，控制反饋可以提供給神經處理系統 (NPS)。

神經處理系統可以包括前端模組、後端模組、用戶偏好設置、檔案組合模組和資料分配模組。模組的運算可以是遠端的、本地的，也可以是通過本地或遠端的多個協作神經處理系統進行的。神經處理系統可以向應用層和成像系統發送和接收資料。

在圖式中所示的實施例中，前端包括用於成像系統、環境補償、環境合成、嵌入和過濾的設置和控制。後端提供線性化、濾鏡校正、黑位準設置、白平衡和去馬賽克。用戶偏好可以包括曝光設置、色調和色彩設置、環境合成、過濾和創意轉換。檔案組合模組可以接收該資料並提供分類、人員識別或地理標記。資料分配模組可以協調從多個神經處理系統發送一個接收資料，並將嵌入(embeddings)發送和接收到應用層。應用層提供自定義設置的用戶界面，以及影像或設置結果預覽。影像或其他資料可以被儲存和傳輸，並且可以整合與神經處理系統相關的資訊以備將來使用或簡化分類、活動或物件偵測或決策任務。

「第1D圖」說明了神經網路支持的影像處理 140D 的一個例子。神經網路可用於在一個或多個處理步驟中修改或控制影像擷取設置，包括曝光設置確定 142D、RGB 或拜耳濾波器處理 144D、色彩飽和度調整 146D、紅眼去除 148D 或識別圖片類別，例如擁有者自拍照，或提供詮釋資料標記和網際網路中介分配協助 150D。

「第1E圖」說明了神經網路支持的影像處理140E的另一實施例。神經網路可用於在一個或多個處理步驟中修改或控制影像擷取設置，包括去雜訊142E、色彩飽和度調整144E、眩光去除146E、紅眼去除148E和眼睛濾色器150E。

「第1F圖」說明了神經網路支持的影像處理140F的另一個實施例。神經網路可用於在一個或多個處理步驟中修改或控制影像擷取設置，這些處理步驟可包括但不限於擷取多個影像 142F、從多個影像中選擇影像 144F、高動態範圍 (HDR) 處理 146F、亮點去除148F，自動分類和詮釋資料標記 150F。

「第1G圖」說明了神經網路支持的影像處理140G的另一個實施例。神經網路可用於在一個或多個處理步驟中修改或控制影像擷取設置，包括視訊和音訊設置選擇142G、電子影格(electronic frame)穩定144G、物件置中146G、運動補償148G和視訊壓縮150G。

大範圍的靜態或視訊相機可以受益於使用神經網路所支持的影像或視訊處理管道系統和方法。相機類型可以包括但不限於具有靜態或視訊功能的傳統數位單眼相機(DSLRs)、智慧手機、平板電腦相機或筆記型電腦相機、專用攝影機、網路攝影機或安全攝影機。在一些實施例中，可以使用專用相機，例如紅外線相機、熱成像儀、毫米波成像系統、x光或其他放射學成像儀。實施例還可以包括具有感測器能夠感測紅外線、紫外線或其他波長以允許高光譜影像處理的相機。

相機可以是獨立的、可攜式的或固定式的系統。通常，相機包括處理器、記憶體、影像感測器、通訊介面、相機光學和致動器系統以及記憶體儲存。處理器控制相機的整體操作，例如操作相機光學和感測器系統，以及可用的通訊介面。相機光學和感測器系統控制相機的操作，例如對影像感測器擷取之影像的曝光控制。相機光學和感測器系統可能包括固定鏡頭系統或可調鏡頭系統(例如，變焦和自動對焦功能)。相機可以支持記憶體儲存系統，例如可移除記憶卡、有線 USB 或無線資料傳輸系統。

在一些實施例中，神經網路處理可以在將影像資料傳輸到遠端運算資源之後發生，遠端運算資源包括專用神經網路處理系統、筆記型電腦、PC、伺服器或雲端。在其他實施例中，使用最佳化的軟體、神經處理晶片、專用 ASIC、客製積體電路或可程式化的現場可程式化邏輯閘陣列(Field Programmable Gate Array, FPGA)系統，可以在相機內進行神經網路處理。

在一些實施例中，神經網路處理的結果可用作其他機器學習或神經網路系統的輸入，包括為物件識別、模式(pattern)識別、臉部識別、影像穩定、機器人或車輛里程計(vehicle odometry)和定位而開發的那些系統，或追蹤或定位應用程式。有利的是，這種神經網路處理的影像正規化可以例如是：減少高雜訊環境中的電腦視覺演算法故障，使這些演算法能夠在它們通常會因為特徵信賴度(feature confidence)之雜訊相關降低而失敗的環境中工作。通常，這可以包括但不限於低光環境、有霧、多塵或朦朧的環境，或易受閃光或眩光影響的環境。實際上，通過神經網路處理去除了影像感測器雜訊，以便以後的學習演算法減少了性能的下降。

在某些實施例中，多個影像感測器可以與所描述的神經網路處理一起共同工作以實現更廣泛的操作和包跡偵測(detection envelopes)，例如，具有不同光靈敏度的感測器一起工作以提供高動態範圍影像。在其他實施例中，具有單獨神經網路處理節點的光學或演算法成像系統鏈可以耦合在一起。在其他實施例中，神經網路系統的訓練可以從整體上與成像系統分離，作為與特定成像器相關聯的嵌入式元件進行操作。

「第2圖」整體上描述了對神經網路和影像處理演算法之使用和訓練的硬體支持。在一些實施例中，神經網路可以適用於一般的類比和數位影像處理。提供了能夠向成像系統204和顯示系統206發送對應控制訊號的控制和儲存模組202。成像系統204可以將處理後的影像資料提供給控制和儲存模組202，同時還從顯示系統206接收效能分析(profiling)資料。以監督或半監督的方式訓練神經網路需要高質量的訓練資料。為了獲得這樣的訓練資料，系統200提供自動成像系統效能分析。控制和儲存模組202包含要傳輸到顯示系統206的校準和原始效能分析資料。校準資料可能包含但不限於用於評估解析度、焦點或動態範圍的目標。原始效能分析資料可能包含但不限於從高質量成像系統(參考系統)擷取的自然和人造場景，以及程序產生的場景(數學推導)。

顯示系統206的範例是高質量電子顯示器。顯示器可以調整其亮度，也可以使用物理過濾元件(例如中性密度濾鏡)進行增強。另一種顯示系統可能包括高質量的參考列印品或過濾元件，可與前照燈或後照燈一起使用。在任何情況下，顯示系統的目的是產生各種影像或影像序列，以傳輸到成像系統。

被效能分析的成像系統被整合到效能分析系統中，使得它可以由控制和儲存電腦以程式化方式控制，並且可以對顯示系統的輸出進行成像。相機參數(例如光圈、曝光時間和類比增益)會發生變化，並且會對單個顯示影像進行多次曝光。產生的曝光結果被傳輸到控制和儲存電腦並保留用於訓練目的。

整個系統被放置在受控照明環境中，使得在效能分析期間光子“雜訊底值”(noise floor)是已知的。

整個系統被設置，使得限制解析度因子是成像系統。這是透過考慮參數的數學模型實現的，這些參數包括但不限於：成像系統感測器像素間距、顯示系統像素尺寸、成像系統焦距、成像系統工作 f 數、感測器像素數(水平和垂直)、顯示系統像素數(垂直和水平)。實際上，對特定感測器、感測器品牌或類型或感測器類別可以被進行描繪(profiled)，以生成針對單個感測器或感測器模型精確量身訂做(tailored)的高質量訓練資料。

各種類型的神經網路可以與「第1B圖」至「第2圖」中所揭露的系統一起使用，包括全卷積、循環、生成對抗或深度卷積網路。卷積神經網路對於本文中所述的影像處理應用特別有用。如「第3圖」所示，卷積神經網路300進行基於神經的感測器處理，如「第1A圖」中所討論的可以接收單個曝光不足的RGB影像310作為輸入。 RAW 格式為首選，但可以使用壓縮的 JPG 影像，但質量會有所損失。影像可以用傳統的像素操作進行預處理，或者可以偏好地以最少的修改饋入訓練的卷積神經網路 300。處理過程可以透過一個或多個卷積層312、池化層314、全連接層316進行，並以改進影像的RGB輸出318作為結束。在操作時，應用一個或多個卷積層312對 RGB 輸入進行卷積操作，將結果傳遞給下一層。卷積操作之後，局部或全局池化層314可以將輸出合併到下一層的單個或少量節點中。重複卷積或卷積/池化配對組合是可能的。神經基礎感測器處理完成後，RGB 輸出318可以傳遞給這個 RGB 影像進而可以傳遞給基於神經網路的全局後處理，以進行額外基於神經網路的修改。

特別實用的一個神經網路實施例是全卷積神經網路。全卷積神經網路由卷積層組成，沒有任何通常出現於網路末端的全連接層。有利的是，全卷積神經網路與影像大小無關，任何大小的影像都可以被輸入作為訓練或亮點影像修改。「第4圖」中描述了全卷積網路400的範例。資料可以在收縮路徑(contracting path)上處理，該路徑包括重複應用兩個 3x3 卷積(未填充卷積)，每個卷積後跟一個整流線性單元 (ReLU) 和一個 2x2 最大池化操作，以步伐為 2 進行下採樣。在每個下採樣步驟中，特徵通道的數量倍增。擴展路徑(expansive path)中的每一步都包含對特徵圖的上採樣，然後是 2x2 卷積(向上卷積)，該卷積將特徵通道的數量減半，提供與來自收縮路徑對應的裁剪特徵圖(cropped feature map)連接，並包括兩個 3x3 卷積，每個卷積後跟一個 ReLU。特徵圖裁剪，補償了每個卷積中邊界像素的損失。在最後一層，使用 1x1 卷積將每個 64 分量特徵向量(64-component feature vector)映射到所需數量的類別。雖然所描述的網路具有 23 個卷積層，但在其他實施例中可以使用更多或更少的卷積層。訓練可以包括，使用隨機梯度下降技術處理具有相應分割圖的輸入影像。

「第5圖」說明了神經網路訓練系統500的一個實施例，其參數可以***控，使得它們可以針對一組輸入產生出期望的輸出。一種操控網路參數的方法是“監督訓練”。在監督訓練中，操作者向網路提供來源輸入資料/目標輸入資料配對 510 和 502，並且當與目標函數結合時，可以根據某種方案(例如反向傳播)修改神經網路訓練系統500 中的一些或全部參數。

在「第5圖」描述的實施例中，準備來自各種來源(例如效能分析系統、數學模型和公開可用的資料集)的高質量訓練資料(來源輸入資料510和目標輸入資料502配對)以輸入到神經網路訓練系統500。該方法包括目標資料封包504 和來源資料封包512，以及目標資料λ演算(lambda)預處理 506 和來源資料λ演算預處理 514。

資料封包採用一個或多個訓練資料樣本，根據確定的方案對其進行正規畫，並在張量(tensor)中排列輸入到網路的資料。訓練資料樣本可以包括序列或時間(temporal)資料。

λ演算預處理，允許操作者在輸入到神經網路或目標函數之前修改來源輸入或目標資料。這可能是為了增加資料，根據某種方案拒絕張量，向張量添加合成雜訊，對資料執行扭曲和變形以進行對齊或從影像資料轉換為資料標籤。

被訓練網路516具有至少一個輸入和來源輸出資料518，儘管在實務中發現有多個輸出，每個輸出具有其自己的目標函數，可以具有協同效應(synergetic effects)。例如，可以通過“分類器頭”(classifier head)輸出來提高性能，其目標是對張量中的物件進行分類。目標輸出資料 508、來源輸出資料 518 和目標函數 520 一起定義了網路損失的最小化，其值可以透過額外的訓練或資料集處理來改善。

「第6圖」說明神經網路處理的選擇、補強或補充方法的一個實施例流程圖。所稱的神經嵌入，可以減少處理問題的維度並大大提高影像處理速度。神經嵌入提供高維度影像到由向量(“潛在向量”)表示之低維度流形(manifold)上的位置的映射。潛在向量的元件是學習到的連續表示，可能被限制為表示特定的離散變量。在一些實施例中，神經嵌入是離散變量到連續數向量的映射，提供低維度的離散變量之學習連續向量表示。有利地，例如，這允許將它們輸入到機器學習模型以用於監督任務或在嵌入空間中尋找最近的鄰居。

在一些實施例中，神經網路嵌入是有用的，因為它們可以減少分類變量的維度並表示變換空間中的類別。神經嵌入對於分類、追踪和匹配特別有用，並且允許將特定領域的知識簡化的轉移到新的相關領域，而無需對神經網路進行完整的重新訓練。在一些實施例中，神經嵌入可以被提供以供後續使用，例如透過在影像或視訊詮釋資料中保留潛在向量以允許可以選擇的後處理或改進對影像相關查詢的回應。例如，影像處理系統的第一部分可以被安排為使用神經處理系統來降低資料維度並有效地對單一影像、多個影像或其他資料進行下採樣以提供神經嵌入資訊。影像處理系統的第二部分也可以被安排用於使用從神經處理系統導出的神經嵌入資訊進行分類、追踪和匹配中的至少一個。類似地，神經網路訓練系統可以包括神經網路演算法的第一部分，其被安排成為使用神經處理系統來降低資料維度並且有效地對影像或其他資料進行下採樣以提供神經嵌入資訊。神經網路演算法的第二部分被安排用於使用源自神經處理系統的神經嵌入資訊進行分類、追踪和匹配中的至少一個，並且使用訓練過程來最佳化神經網路演算法的第一部分和第二部分。

在一些實施例中，訓練和推理系統可以包括分類器或其他深度學習演算法，其可以與神經嵌入演算法組合以創建新的深度學習演算法。神經嵌入演算法可以配置為使其權重可訓練或不可訓練，但在任何一種情況下都是完全可區分(differentiable)的，這樣新演算法是端到端可訓練的，允許新的深度學習演算法直接從目標函數到原始資料輸入被最佳化。

在推理期間，上述演算法可以被劃分，使得嵌入演算法在邊緣或端點設備上執行，而演算法可以在中央運算資源(雲端、伺服器、閘道設備)。

更具體地，如「第6圖」所示，神經嵌入過程600的一個實施例，是以供應商A提供的視訊開始(步驟610)。透過嵌入對視訊進行下採樣(步驟 612)以為供應商 B 的分類器提供低維度輸入(步驟 614)。供應商 B 的分類器受益於降低的運算成本，得以提供改進的影像處理(步驟 616)，同時輸出(步驟618)減少準確度的損失。在一些實施例中，來自改進的影像處理(步驟616)的輸出(步驟618)的影像、參數或其他資料可以由供應商B提供給供應商A以改進步驟612中透過嵌入進行下採樣的步驟。

「第7圖」說明了對分類、比較或匹配有用的另一個神經嵌入過程700。如「第7圖」所示，神經嵌入過程700的一個實施例以視訊開始(步驟710)。透過嵌入對視訊進行下採樣(步驟712)，以提供可用於加法分類、比較或匹配(步驟714)的低維度輸入。在一些實施例中，可以直接使用輸出716，而在其他實施例中，可以使用來自步驟716的參數或其他資料輸出來改進步驟712的嵌入步驟。

「第8圖」說明了在詮釋資料中保留神經嵌入資訊的過程。如「第8圖」所示，適用於詮釋資料創建的神經嵌入過程800的一個實施例是以視訊開始(步驟810)。於元數據創建的神經嵌入過程800的一個實施例以視訊開始(步驟810)。透過嵌入對視訊進行下採樣(步驟812)以提供可用於***到與視訊相關聯且可搜尋詮釋資料中的低維度輸入(步驟814)。在一些實施例中，可以直接使用輸出816，而在其他實施例中，可以使用來自步驟816的參數或其他資料輸出用以改進步驟812的嵌入步驟。

「第9圖」說明了用於定義和利用從神經網路系統中的靜態或視訊影像導出之潛在向量的過程900。如「第9圖」所示，處理通常可以首先在訓練階段模式 902 中發生，然後接著在推理階段模式 904 中進行訓練處理。輸入影像910沿著收縮路徑(收縮神經處理路徑)912傳遞以進行編碼。在收縮路徑 912(即編碼器)中，學習神經網路權重以提供從高維度輸入影像到具有較小維度之潛在向量 914 的映射。可以聯合學習擴展路徑 916(解碼器)以從潛在向量中恢復原始輸入影像。實際上，該架構可以創建一個“資訊瓶頸”(information bottleneck)，它只能對視訊或影像處理任務最有用的資訊進行編碼。經過訓練，許多線上目的只需要網路的編碼器部分。

「第10圖」說明了使用潛在向量在神經網路系統中模組之間傳遞資訊的過程1000。在一些實施例中，模組可以由不同的供應商(例如，供應商A(1002)和供應商B(1004))提供，而在其他實施例中，處理可以由單個處理服務供應商完成。「第10圖」說明了用於編碼的收縮路徑(神經處理路徑)1012。在收縮路徑 1012(即編碼器)中，學習神經網路權重以提供從高維度輸入影像到具有較小維度之潛在向量 1014 的映射。該潛在向量 1014 可用於對分類器 1020 的後續輸入。在一些實施例中，與{影像，標籤}配對相反，可以用{潛在，標籤}配對來訓練分類器1020。分類器1020受益於降低的輸入複雜性，以及從神經嵌入“骨幹”網路提供的高質量特徵。

「第11圖」說明了匯流排介導的神經網路衍生資訊的通訊，包括潛在向量。例如，多感測器處理系統1100可以操作用以傳送源自一個或多個影像1110並使用神經處理路徑1112處理以進行編碼的資訊。該潛在向量以及可選的其他影像資料或詮釋資料可以透過通訊匯流排 1114 或其他合適的互連方式發送到中央處理模組 1120。實際上，這允許單獨的成像系統利用神經嵌入來降低通訊匯流排的頻寬需求，以及中央處理模組 1120 中的後續處理需求。

諸如「第11圖」所討論的神經網路的匯流排介導通訊(Bus mediation communication)，可以大大降低資料傳輸要求和成本。例如，可以配置城市、場地或體育場的 IP 攝影機系統，以便每個攝影機輸出視訊源(video feed)的潛在向量。這些潛在向量可以補充或完全替代發送到中央處理單元(例如：閘道、本地伺服器、VMS 等)的影像。接收到的潛在向量可被用於執行視訊分析或與原始視訊資料結合以呈現給操作者。這允許對成百上千個攝影機進行即時分析，而無需訪問大型資料管道和大型且昂貴的伺服器。

「第12圖」說明了使用神經嵌入和潛在向量資訊於識別和相關目的之影像資料庫搜尋的過程1200。在一些實施例中，可以沿著收縮神經處理路徑1212處理影像1210以編碼成包括潛在向量的資料。由神經嵌入網路產生的潛在向量可以儲存在資料庫 1220 中。可以進行包括潛在向量資訊1214的資料庫查詢，其中資料庫操作以根據某種方案(scheme)識別在外觀上最接近給定之潛在向量X的潛在向量。例如，在一個實施例中，潛在向量之間的歐幾里得距離(例如 1222)可用於找到匹配，但其他方案也是可能的。匹配結果可能與其他資訊相關聯，包括原始來源影像或詮釋資料。在一些實施例中，進一步編碼是可能的，提供可以被儲存、傳輸或添加到影像詮釋資料的另一個潛在向量資訊Y1224。

作為另一個範例，城市、場地或體育場館IP攝影機系統可以被配置為使得每個攝影機輸出潛在向量，這些潛在向量被儲存或以其他方式可用於視訊分析。可以搜尋這些潛在向量以識別物件、人物、場景或其他影像資訊，而無需提供對大量影像資料的即時搜尋。這允許對成百上千個攝影機進行即時視訊或影像分析，以查找例如與特定人物或場景相關的紅色汽車，而無需存取大型資料管道和大型且昂貴的伺服器。

「第13圖」說明了用於潛在向量的用戶操控的過程1300。例如，影像可以沿著收縮神經處理路徑進行處理，以編碼成包括潛在向量的資料。用戶可以通過直接改變向量元素或透過組合幾個潛在向量(潛在空間算術，1304)來操控(1302)輸入的潛在向量以獲得新影像。可以使用擴展路徑處理(1320)擴展潛在向量以提供生成的影像(1322)。在一些實施例中，可以重複或反覆該過程以提供期望的影像。

如所理解的，本文描述的相機系統和方法可在本地或經由連接到有線或無線連接子系統的連接中操作，以用於與諸如伺服器、桌上型電腦、筆記型電腦、平板電腦或智慧手機之類的設備交互。可以在各種外部資料來源之間接收、生成或傳輸資料和控制訊號，這些外部資料來源包括無線網路、個人區域網路、蜂巢式網路、網際網路或雲端介導資料來源(cloud mediated data sources)。此外，可以允許本地資料儲存用戶指定的偏好或協議的本地資料來源(例如硬碟驅動器、固態驅動器、快閃記憶體或任何其他合適的記憶體，包括動態記憶體，例如 SRAM 或 DRAM)。在一個特定實施例中，可以提供多個通訊系統。例如，可以使用直接 Wi-Fi 連接 (802.11b/g/n) 以及單獨的 4G 蜂窩式連接。

還可以在雲端運算環境中實現到遠端伺服器實施例的連接。雲端運算可以定義為一種模型，用於實現對可配置運算資源(例如，網路、伺服器、儲存、應用程式和服務)之共享池(shared pool)的無處不在、方便、依照需求的網路存取，這些資源可以用最少的管理工作或服務提供商交互以虛擬化方式快速提供和發布，然後對應地擴展。雲端模型可以由各種特性(例如，依照需求自助服務、廣泛的網路存取、資源池、快速彈性、可測量的服務等)、服務模型(例如，軟體即服務(“SaaS”) 、平台即服務(“PaaS”)、基礎設施即服務(“IaaS”)和部署模型(例如，私有雲、社區雲、公共雲、混合雲等)。

在整個說明書中對“一個實施例”、“一個實施例”、“一個範例”或“一個範例”的引用參考，意味著結合在實施例或範例中描述的特定特徵、結構或特性被包括在本揭露的至少一個實施例。因此，在本說明書的各個地方出現的用語“在一個實施例中”、“在一個實施例中”、“一個範例”或“一個範例”不一定都指稱相同的實施例或範例。此外，在一個或多個實施例或範例中，特定特徵、結構、資料庫或特性可以用任何合適的組合和/或子組合進行組合。此外，應當理解，這裡提供的圖式是為了向本領域熟悉技藝者解釋的目的，圖式不一定按比例繪製。

所描述的圖中的流程圖和方塊圖旨在說明根據本公開的各種實施例的系統、方法和電腦程式產品的可能實現的架構、功能和操作。就這一點而言，流程圖或方塊圖中的每一方塊可表示模組、區段或程式碼部分，其包括用於實現指定邏輯功能的一個或多個可執行指令。並且還將注意到，方塊圖和/或流程圖的每個方塊，以及方塊圖和/或流程圖中的方塊的組合，可以由執行指定功能或動作之基於專用目的的硬體系統來實現，或專用目的之硬體和電腦指令的組合。這些電腦程式指令也可以儲存在電腦可讀取媒體中，該媒體可以指導電腦或其他可程式化資料處理裝置以特定方式運行，從而儲存在電腦可讀取媒體中的指令產生包括指令手段(instruction means)的製品表示實現流程圖和/或方塊圖中指定的功能/動作。

根據本揭露的實施例可以體現為裝置、方法或電腦程式產品。因此，本公開可以採取完全由硬體構成的實施例、完全由軟體構成的實施例(包括韌體、常駐軟體、微程式碼等)或結合軟體和硬體方面的實施例的形式，這些方面通常可以全部在本文中被稱為“電路”、“模組”或“系統”。此外，本文公開的實施例可以採用包含在任何有形表達媒體中的電腦程式產品的形式，在該媒體中包含電腦可用程式碼。

可以利用一種或多種電腦可用或電腦可讀取媒體的任何組合。例如，電腦可讀取媒體可以包括可攜式電腦磁碟、硬碟、隨機存取記憶體(RAM)設備、唯讀記憶體(ROM)設備、可抹除可程式化唯讀記憶體( EPROM 或快閃記憶體)設備、可攜式唯讀光碟 (CDROM)、光儲存設備和磁儲存設備。可以用一種或多種程式語言的任意組合來編寫用於執行本公開之操作的電腦程式碼。這種程式碼可以從原始碼編譯成電腦可讀取的組合語言或機器程式碼，適用於將在其上執行程式碼的設備或電腦。

受益於前述描述和相關圖式中呈現的教導，本領域熟悉技藝者將可想到本發明的許多修改和其他實施例。因此，應當理解，本發明不限於所公開的具體實施例，並且所修改和實施例應隱含被包括在所附之權利要求的範圍內。還應理解，本發明的其他實施例可在沒有本文未具體公開的元件/步驟的情況下實施。

100A:管道 120B:影像或視訊處理系統 120C:軟體系統 122B:硬體等級神經控制模組(設置及感測器) 124B:系統等級神經控制模組(低等級自動圖片呈現，包括解析度、照明或顏色調整) 126B:系統等級神經控制模組(基於用戶偏好) 128B:系統等級神經控制模組(基於分散式資訊) 130B:分散式神經控制模組(協作資料交換) 132B:神經處理器及記憶體 140D、140E、140F、140G:影像處理 142D:曝光設置確定 142E:去雜訊 142F:擷取多個影像 142G:視訊和音訊設置選擇 144D:RGB 144E:色彩飽和度調整 144F:選擇影像 144G:電子影格穩定 146D:色彩飽和度調整 146E:眩光去除 146F:高動態範圍 (HDR) 處理 146G:物件置中 148D:紅眼去除 148E:紅眼去除 148F:亮點去除 148G:運動補償 150D:識別包括擁有者自拍照、提供詮釋資料標記及分配給朋友 150E:眼睛濾色器 150F:自動分類和詮釋資料標記 150G:視訊壓縮 200:系統 202:控制和儲存模組 204:成像系統 206:顯示系統 300:卷積神經網路 310:RGB影像 312:卷積層 314:池化層 316:全連接層 318:RGB輸出 400:全卷積網路 500:神經網路訓練系統 502:目標輸入資料 504:目標資料封包 506:目標資料λ演算預處理 508:目標輸出資料 510:來源輸入資料 512:來源資料封包 514:來源資料λ演算預處理 516:被訓練網路 518:來源輸出資料 520:目標函數 600、700、800:神經嵌入過程 900、1000:過程 902:訓練階段 904:推理階段 910:輸入影像 912:收縮路徑 914:潛在向量 916:擴展路徑 918:重建輸出 1002:供應商A 1004:供應商B 1010:輸入影像 1012:收縮路徑 1014:潛在向量 1020:分類器 1100:多感測器處理系統 1110:影像 1112:神經處理路徑 1114:通訊匯流排 1120:中央處理模組 1200、1300:過程 1210:影像 1212:收縮神經處理路徑 1214:潛在向量資訊X 1220:資料庫 1222:歐幾里得距離 1224:潛在向量資訊Y 1302:用戶操控 1304:潛在空間算術 1320:擴展路徑處理 1322:產生的影像步驟110A:基於神經網路的影像預處理(影像擷取設置) 步驟112A:基於神經網路的感測器處理(去馬賽克或色調映射) 步驟114A:基於神經網路的全局後處理(解析度及顏色調整、堆疊焦點或HDR) 步驟116A:基於神經網路的局部後處理(瑕疵去除及眼睛加強) 步驟118A:基於神經網路的檔案組合後處理(識別、分類及發布) 步驟610:視訊(供應商A) 步驟612:透過嵌入進行下採樣步驟614:為分類器提供低維度輸入(供應商 B) 步驟616:改進的影像處理步驟618:輸出步驟710:視訊步驟712:透過嵌入進行下採樣步驟714:加法分類、比較或匹配步驟716:輸出步驟810:視訊步驟812:透過嵌入進行下採樣步驟814:保存資訊於詮釋資料步驟816:輸出(具有嵌入資訊可用於進一步處理)

參考以下的圖式，描述了本發明非限制性和非窮盡性的實施例，其中除非另有說明，否則在各個圖式中相同的圖式編號所指的是相同的部分。第1A圖說明神經網路支持的影像或視訊處理管道。第1B圖說明神經網路支持的影像或視訊處理系統。第1C圖說明神經網路支持的軟體系統的另一個實施例。第1D-1G圖說明神經網路支持的影像處理的範例。第2圖說明具有控制、成像和顯示子系統的系統。第3圖說明一個RGB影像的神經網路處理範例。第4圖說明一個全卷積神經網路的實施例。第5圖說明一個神經網路訓練程序的實施例。第6圖說明使用神經嵌入降低維度和處理的過程。第7圖說明使用神經嵌入進行分類、比較或匹配的過程。第8圖說明在詮釋資料中保留神經嵌入資訊的過程。第9圖說明在神經網路系統中定義和利用潛在向量(latent vector)的通用程序。第10圖說明在神經網路系統中使用潛在向量在不同供應商的模組間傳遞資訊的通用程序。第11圖說明匯流排介導(mediated)的神經網路源自資訊的通訊，包括潛在向量。第12圖說明使用潛在向量資訊搜尋影像資料庫。第13圖說明用戶對潛在向量參數的操作。

100A:管道

步驟110A:基於神經網路的影像預處理(影像擷取設置)

步驟112A:基於神經網路的感測器處理(去馬賽克或色調映射)

步驟114A:基於神經網路的全局後處理(解析度及顏色調整、堆疊焦點或HDR)

步驟116A:基於神經網路的局部後處理(瑕疵去除及眼睛加強)

步驟118A:基於神經網路的檔案組合後處理(識別、分類及發布)

Claims

一種影像處理管道，包括靜態或視訊攝影機，包括：一影像處理系統的一第一部分，被安排為使用至少部分從一神經嵌入資訊中導出的資訊；以及該影像處理系統的一第二部分，用於至少部分地基於所述神經嵌入資訊修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。
如請求項1所述之影像處理管道，其中所述神經嵌入資訊包括一個潛在向量。
如請求項1所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的模組之間發送的至少一個潛在向量。
如請求項1所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。
一種影像處理管道，包括靜態或視訊攝影機，包括：一影像處理系統的一第一部分，被安排為使用一神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以建立一神經嵌入資訊；以及該影像處理系統的一第二部分，被安排為至少部分地基於所述神經嵌入資訊修改影像擷取設置、傳感器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。
如請求項5所述之影像處理管道，其中所述神經嵌入資訊包括一個潛在向量。
如請求項5所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的模組之間發送的至少一個潛在向量。
如請求項5所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。
一種影像處理管道，包括靜態或視訊攝影機，包括：一影像處理系統的一第一部分，用於使用源自於一神經處理系統的一神經嵌入資訊進行分類、追蹤和匹配中的至少一個；以及該影像處理系統的一第二部分，被配置為至少部分地基於所述神經嵌入資訊修改影像擷取設置、感測器處理、全局後處理、局部後處理和檔案組合後處理中的至少一個。
如請求項9所述之影像處理管道，其中所述神經嵌入資訊包括一個潛在向量。
如請求項10所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的模組之間發送的至少一個潛在向量。
如請求項11所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。
一種影像處理管道，包括靜態或視訊攝影機，包括：一影像處理系統的一第一部分，被配置為使用一神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供一神經嵌入資訊；以及該影像處理系統的一第二部分，被配置為將所述神經嵌入資訊保存在影像或視訊詮釋資料中。
如請求項13所述之影像處理管道，其中所述神經嵌入資訊包括一個潛在向量。
如請求項13所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的模組之間發送的至少一個潛在向量。
如請求項13所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。
一種影像處理管道，包括靜態或視訊攝影機，包括：一影像處理系統的一第一部分，被配置為使用一神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供一神經嵌入資訊；以及該影像處理系統的一第二部分，被安排用於使用從所述神經處理系統導出的所述神經嵌入資訊進行分類、追蹤和匹配中的至少一項。
如請求項17所述之影像處理管道，其中所述神經嵌入資訊包括一個潛在向量。
如請求項17所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的模組之間發送的至少一個潛在向量。
如請求項17所述之影像處理管道，其中所述神經嵌入資訊包括在該影像處理系統中的一個或多個神經網路之間發送的至少一個潛在向量。
一種神經網路訓練系統，包括：具有一神經網路演算法的一第一部分，其被配置為使用一神經處理系統來降低資料維度並有效地對一單一影像、複數個影像或其他資料進行下採樣以提供一神經嵌入資訊；具有一神經網路演算法的一第二部分，用於使用源自一神經處理系統的一神經嵌入資訊進行分類、追蹤和匹配中的至少一項；以及一訓練過程，用以最佳化該第一部分和該第二部分之所述神經網路演算法的操作。