TWI791578B

TWI791578B - 視訊編碼裝置

Info

Publication number: TWI791578B
Application number: TW107126732A
Authority: TW
Inventors: 全聖浩; 鄭憿援
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2017-08-29
Filing date: 2018-08-01
Publication date: 2023-02-11
Also published as: US10841659B2; CN109429066A; KR20190023546A; TW201914303A; US20190069033A1; KR102343648B1; CN109429066B

Abstract

本發明提供一種視訊編碼裝置，所述視訊編碼裝置可包含：記憶體，儲存用於多個情境中之每一者的關注區域資訊；以及神經處理單元（NPU），自記憶體提取對應於輸入視訊之情境的關注區域資訊或基於使用者輸入更新儲存於記憶體中的關注區域資訊。

Description

視訊編碼裝置

實例實施例涉及視訊編碼裝置及/或視訊編碼系統。本申請案主張2017年8月29日在韓國智慧財產局申請的韓國專利申請案第10-2017-0109458號之優先權，所述韓國專利申請案之揭露內容以全文引用的方式併入本文中。

對諸如高清晰度（high definition；HD）影像及超高清晰度（ultra-high definition；UHD）影像的高解析度及高品質影像存在日益增長的需求，且高效能影像壓縮技術現用於處理高解析度及高品質影像。

近年來，已經廣泛使用諸如行動電話及智慧型電話的行動設備，且已對用於有效壓縮具有諸如小尺寸及電池使用的有限環境的行動設備中的高解析度及高品質影像的各種方法進行了研究。

具體而言，近年來，為了編碼輸入影像，在視訊編碼系統中，已廣泛使用將影像中的圖框（frame）劃分成關注區域及非關注區域以及以不同方式將位元數指派至關注區域及非關注區域的多種技術。

然而，儘管關注區域可針對每一使用者而改變之事實，但根據最近的技術趨勢，可能使用相同的準則在影像中定義關注區域及非關注區域。

因此，至少一些實例實施例是關於一種根據視訊的情境以不同方式設定關注區域的方法。

至少一些其他實例實施例是關於一種藉由允許使用者識別關注區域來設定關注區域的方法。

另外，至少一些其他實例實施例是關於一種基於使用者的輸入更新關注區域的方法。

然而，實例實施例不受本文中所闡述之態樣限制。實例實施例之以上態樣及其他態樣將藉由參考下文所給出的詳細描述而對所屬領域中具通常知識者變得更顯而易見。

根據實例實施例，視訊編碼裝置可包含：記憶體，經組態以儲存用於多個情境中之每一者的關注區域資訊；以及處理器，經組態以執行以下操作中之一或多者：提取對應於多個情境中之一情境的關注區域資訊，所述情境與自記憶體接收之輸入視訊相關聯；以及基於使用者輸入更新儲存於記憶體中之關注區域資訊。

根據實例實施例，視訊編碼裝置可包含：記憶體，經組態以儲存用於多個情境中之每一者的關注區域資訊；以及處理器，經組態以進行以下操作：藉由分析情境自記憶體提取對應於與輸入視訊相關聯之情境的關注區域資訊；將輸入視訊中所包含之當前圖框劃分成多個區塊；基於關注區域資訊將多個區塊劃分成對應於關注區域的第一區塊及對應於非關注區域的第二區塊；確定第一區塊的第一量化參數值及第二區塊的第二量化參數值；以及基於第一量化參數值及第二量化參數值編碼當前圖框以生成壓縮資料。

根據實例實施例，視訊編碼系統可包含：視訊源；視訊編碼裝置，包含第一記憶體及處理器；以及第二記憶體。視訊源可經組態以傳輸輸入視訊。視訊編碼裝置之第一記憶體可經組態以儲存多個情境中之每一者的關注區域資訊，且視訊編碼裝置之處理器可經組態以進行以下操作：自第一記憶體提取對應於與輸入視訊相關聯之情境的關注區域資訊；將輸入視訊中所包含之當前圖框劃分成多個區塊；基於關注區域資訊將多個區塊劃分成對應於關注區域的第一區塊及對應於非關注區域的第二區塊；確定第一區塊的第一量化參數值及第二區塊的第二量化參數值；以及基於第一量化參數值及第二量化參數值編碼當前圖框以生成壓縮資料。第二記憶體可經組態以儲存位元串流，所述位元串流基於壓縮資料而經熵編碼。

然而，實例實施例不受本文中所闡述之態樣限制。實例實施例之以上態樣及其他態樣將藉由參考下文所給出之本發明概念之詳細描述而對所屬領域中具通常知識者變得更顯而易見。

在根據一些實例實施例之視訊編碼系統中，可針對每一輸入視訊情境經由預測試識別使用者之關注區域以在視訊編碼時反映此經識別之關注區域，且可藉由在顯示影像時基於使用者輸入分析及學習使用者之行為模式來更新用於每一情境的關注區域。在下文中，一些實例實施例將參考隨附圖式予以描述。

圖1為說明根據實例實施例的視訊編碼系統的方塊圖。

參考圖1，視訊編碼系統10可為能夠處理2D圖形資料或3D圖形資料且顯示經處理資料的各種系統。

舉例而言，視訊編碼系統10可實現為以下中之一者：TV、數位TV（digital TV；DTV）、內部協定TV（internal protocol TV；IPTV）、個人電腦（personal computer；PC）、桌上型電腦、膝上型電腦、電腦工作站、平板PC、視訊遊戲平台（或視訊遊戲控制台）、伺服器以及行動計算裝置。此處，行動計算裝置可實現為以下：行動電話、智慧型電話、企業數位助理（enterprise digital assistant；EDA）、數位靜態攝影機、數位視訊攝影機、攜帶型多媒體播放器（portable multimedia player；PMP）、個人導航裝置或攜帶型導航裝置（portable navigation device；PND）、行動網際網路裝置（mobile internet device；MID）、可穿戴電腦、物聯網（Internet of Things；IOT）裝置、萬聯網（Internet of Everything；IOE）裝置或電子書。

視訊編碼系統10可包含視訊源50、視訊編碼裝置100、顯示器200、輸入元件210以及第二記憶體220。然而，實例實施例不限於此，且因此視訊編碼系統10可具有比上文所列舉之組件更多或更少的組件。此處，視訊編碼裝置100可經組態為系統單晶片（system on chip；SoC）。

視訊源50可實施（例如）為裝配有CCD影像感測器或CMOS影像感測器之攝影機。視訊源50可拍攝對象、生成關於對象的第一資料IM以及向視訊編碼裝置100提供所生成的第一資料IM。第一資料IM可為靜態影像資料或移動影像資料。在一些其他實例實施例中，視訊源50可包含於主機中。在此情況下，第一資料IM可為由主機提供之影像資料。

視訊編碼裝置100可控制視訊編碼系統10作為整體之操作。舉例而言，視訊編碼裝置可包含可執行根據一些實施例之操作的積體電路（integrated circuit；IC）、主機板以及應用程式處理器（application processor；AP）或行動AP。視訊編碼裝置100可處理自視訊源50輸出之第一資料IM且經由顯示器200顯示經處理資料，將經處理資料儲存於第二記憶體220中及/或將經處理資料傳輸至另一資料處理系統。

視訊編碼裝置100可包含預處理電路110、編碼器120、處理器130、第一記憶體140、顯示控制器150、記憶體控制器160、匯流排170、數據機180、使用者介面190以及神經處理單元（neural processing unit；NPU）300。然而，實例實施例不限於此，且因此視訊編碼系統10可具有比上文所列舉之組件更多或更少的組件。

編碼器120、處理器130、第一記憶體140、顯示控制器150、記憶體控制器160、數據機180、使用者介面190以及NPU 300可經由匯流排170接收來自彼此的資料且將資料傳輸至彼此。說明性地，匯流排170可實現為選自以下中之至少一者：周邊組件互連（peripheral component interconnect；PCI）匯流排、高速PCI匯流排（PCI express；PCIe）、進階微控制器匯流排架構（advanced microcontroller bus architecture；AMBA）、進階高效能匯流排（advanced high performance bus；AHB）、進階周邊匯流排（advanced peripheral bus；APB）、進階可擴展介面（advanced extensible interface；AXI）匯流排以及其組合。

預處理電路110可接收自視訊源50輸出之第一資料IM。預處理電路110可處理所接收的第一資料IM，且可向編碼器120提供根據處理結果所生成的第二資料FI。在驅動視訊編碼裝置100的環境下，第一資料IM及第二資料FI可提供於圖框（或圖像）之單元中。

舉例而言，第二資料FI可為包含基於特定時間點之過去圖框（past frame；PF）資料、當前圖框（current frame；CF）資料以及未來圖框（future frame；FF）資料的資料集。在下文中，出於解釋之便利性，描述將限於編碼包含於第二資料FI中之當前圖框（CF）資料的情況。

預處理電路110可包含影像訊號處理器（image signal processor；ISP）。舉例而言，ISP可將具有第一資料格式之第一資料IM轉換成第二資料FI。

舉例而言，第一資料IM可為具有拜耳（Bayer）模式的資料，且第二資料FI可為YUV資料，但實例實施例不限於此。

儘管圖1中展示預處理電路110提供於視訊編碼裝置100中，但實例實施例不限於此，且預處理電路110可提供於視訊編碼裝置100外部。

編碼器120可將第二資料FI中所包含之當前圖框CF劃分成多個區塊，且可針對多個區塊中之每一者執行編碼操作。

編碼操作可使用諸如聯合圖像專家群（Joint Picture Expert Group；JPEG）、動畫專家群（Motion Picture Expert Groups；MPEG）、MPEG-2、MPEG-4、VC-1、H.264、H.265或高效視訊編碼（High Efficiency Video Coding；HEVC）的影像資料編碼技術，但實例實施例不限於此。

編碼器120可實施為硬體編解碼器或軟體編解碼器。軟體編解碼器可由處理器130執行。

處理器130可控制視訊編碼裝置100的操作。

儘管如下文所論述，但在一些實例實施例中，SoC 100之元件中之每一者可為離散型硬體電路，在其他實例實施例中，經由佈局設計或執行儲存於記憶體中之電腦可讀指令，處理器130可經組態為特殊用途電腦以執行預處理電路110、編碼器120、顯示控制器150、記憶體控制器160以及神經處理單元（NPU）300中之一或多者的功能。舉例而言，處理器130可經組態以提取對應於多個情境中之一情境的關注區域資訊，使得所述情境與自記憶體140接收之輸入視訊相關聯，且/或可經組態以基於自使用者I/F（使用者介面） 190接收之使用者輸入更新儲存於記憶體140中之關注區域資訊。

鑒於上文，特殊用途處理器130可藉由將人類眼睛所感知的影像儲存為多個情境中之每一者的最佳品質影像來改進視訊編碼系統10自身的功能。

處理器130可包含任何處理電路。處理電路可為（但不限於）：處理器、中央處理單元（Central Processing Unit；CPU）、控制器、算術邏輯單元（arithmetic logic unit；ALU）、數位訊號處理器、微電腦、場可程式化閘陣列（field programmable gate array；FPGA）、特殊應用積體電路（Application Specific Integrated Circuit；ASIC）、系統單晶片（SoC）、可程式化邏輯單元、微處理器或能夠以所定義方式執行操作的任何其他元件。

處理器130可接收使用者輸入以便應用於一或多個應用程式（例如，軟體應用程式）中。

由處理器130執行的應用程式中之一些可為視訊呼叫應用程式（video call application）。由處理器130執行的應用程式可包含（但不限於）：操作系統（operating system；OS）、文書處理器應用程式、媒體播放器應用程式、視訊遊戲應用程式及/或圖形使用者介面（graphic user interface；GUI）應用程式。

第一記憶體140可儲存對應於用於影像編碼中的多個情境中之每一者的關注區域資訊。

多個情境可為例如指示影像中所包含之對象的類型、拍攝影像的日期、拍攝影像的時間以及類似者的資訊。關注區域資訊可為將當前圖框CF中所包含之多個區塊劃分成對應於關注區域之區塊及對應於非關注區域之區塊的資訊。

在記憶體控制器160的控制下，第一記憶體140可將對應於輸入影像之情境的關注區域資訊傳輸至編碼器120。

在編碼器120或處理器130的控制下，記憶體控制器160可將編碼器120中所編碼的資料或自處理器130輸出的資料寫入至第二記憶體220。

第一記憶體140可實施為揮發性記憶體，諸如靜態隨機存取記憶體（Static Random Access Memory；SRAM）。揮發性記憶體可實施為隨機存取記憶體（random access memory；RAM）、靜態隨機存取記憶體（static RAM；SRAM）、動態隨機存取記憶體（dynamic RAM；DRAM）、同步動態隨機存取記憶體（synchronous DRAM；SDRAM）、閘流體隨機存取記憶體（thyristor RAM；T-RAM）、零電容隨機存取記憶體（zero capacitor RAM；Z-RAM）或雙電晶體隨機存取記憶體（Twin Transistor RAM；TTRAM）。然而，實例實施例不限於此，且第一記憶體140亦可實施為非揮發性記憶體。

第二記憶體220可實施為非揮發性記憶體。非揮發性記憶體可實施為電可抹除可程式化唯讀記憶體（electrically erasable programmable read-only memory；EEPROM）、快閃記憶體、磁性隨機存取記憶體（magnetic RAM；MRAM）、自旋轉移力矩磁性隨機存取記憶體（spin-transfer torque MRAM）、鐵電隨機存取記憶體（ferroelectric RAM；FeRAM）、相變隨機存取記憶體（phase change RAM；PRAM）或電阻式隨機存取記憶體（resistive RAM；RRAM）。另外，非揮發性記憶體可實施為多媒體卡（multimedia card；MMC）、嵌入式多媒體卡（embedded MMC；eMMC）、通用快閃儲存裝置（universal flash storage；UFS）、固態驅動機（solid state drive；SSD）、USB快閃驅動機或硬碟驅動機（hard disk drive；HDD）。然而，實例實施例不限於此，且第二記憶體220亦可實施為揮發性記憶體。

儘管圖1中展示第二記憶體220提供於視訊編碼裝置100外部，但實例實施例不限於此，且第二記憶體220可提供於視訊編碼裝置100中。

顯示控制器150可將自編碼器120及/或處理器130輸出的資料傳輸至顯示器200。顯示器200可實施為監視器、TV監視器、投影裝置、薄膜電晶體液晶顯示器（thin film transistor liquid crystal display；TFT-LCD）、發光二極體（light emitting diode；LED）顯示器、有機LED（organic LED；OLED）顯示器、主動矩陣OLED（active-matrix OLED；AMOLED）顯示器或可撓性顯示器。

舉例而言，顯示控制器150可經由行動產業處理器介面（Mobile Industry Processor Interface；MIPI）顯示器串列介面（display serial interface；DSI）將資料傳輸至顯示器200。

輸入元件210可接收使用者輸入，且可將由使用者操作所生成的輸入訊號傳輸至使用者介面190。

輸入元件210可實施為觸控面板、觸控螢幕、語音辨識器、攝影機、觸控筆、鍵盤、滑鼠或指點桿（track point），但實例實施例不限於此。舉例而言，當輸入元件210為觸控螢幕時，輸入元件210可包含觸控面板及觸控面板控制器。另外，當輸入元件210為攝影機時，輸入元件210可包含人眼辨識感測器。輸入元件210可經組態以與顯示器200連接或與顯示器200分離。

輸入元件210可將輸入訊號傳輸至使用者介面190。

使用者介面190可接收來自輸入元件的輸入訊號，且可將由輸入訊號所生成的資料傳輸至處理器130。

另外，使用者介面190可接收來自輸入元件的輸入訊號，且可將輸入訊號中所包含之資訊傳輸至NPU 300。

數據機180可使用無線通訊技術將編碼器120及/或處理器130所編碼的資料輸出至視訊編碼裝置100外部。數據機180可採用WI-FI方法、WIBRO、3G無線通訊方法、長期演進（long term evolution；LTETM）方法、長期演進進階（long term evolution-advanced；LTE-A）方法、寬頻帶LTE-A方法或類似者。

神經處理單元（NPU）300可辨識經由視訊源50所提供的輸入視訊之情境。舉例而言，NPU 300可藉由分析輸入視訊來辨識輸入視訊之情境。

NPU 300可自第一記憶體140提取對應於經辨識情境的關注區域資訊。另外，NPU 300可基於使用者輸入更新儲存於第一記憶體140中之關注區域資訊。

在圖1中，將NPU 300說明為單獨的組件，但實例實施例不限於此。舉例而言，編碼器120及/或處理器130可執行NPU 300之功能。另外，NPU 300可作為組件包含於視訊編碼裝置100中，或可存在於視訊編碼裝置100外部。

圖2為圖1中所展示之視訊編碼系統中所包含的編碼器之實例的方塊圖。

參考圖2，編碼器120可包含：分割單元121、預測模組122、壓縮模組123、編碼率控制模組124、解碼圖像緩衝器（decoding picture buffer；DPB）126、加法器125及加法器127以及熵編碼單元128。然而，實例實施例不限於此，且因此編碼器120可比上文所列舉之組件具有更多或更少的組件。

分割單元121可將輸入第二資料FI中所包含之當前圖框（圖1中的CF）劃分成多個區塊。在此情況下，多個區塊可包含對應於關注區域的至少一個區塊，且可包含對應於非關注區域的至少一個區塊。

分割單元121可基於儲存於第一記憶體（圖1中的140）中之關注區域資訊確定多個區塊中之每一者是否為對應於關注區域的區塊或多個區塊中之每一者是否為對應於非關注區域的區塊。

預測模組122可執行對輸入影像之當前圖框的框內預測（intra prediction）及框間預測（inter prediction）中之至少一者。可在不參考除當前圖框以外的圖框之情況下執行框內預測，且可藉由參考除當前圖框以外的圖框來執行框間預測。

預測模組122可藉由向加法器125提供經由框內預測編碼之區塊及/或經由框間預測編碼之區塊來生成殘餘區塊（residual block）資料。

編碼率控制模組124可基於儲存於第一記憶體140（參見圖1）中之關注區域資訊來調整待量化對象（例如，區塊）之量化參數（quantization parameter；QP）值。

舉例而言，編碼率控制模組124可確定對應於關注區域的由分割單元121所劃分之區塊的量化參數值及對應於非關注區域的由分割單元121所劃分之區塊的量化參數值，使得量化參數值彼此不同。此處，對應於非關注區域之區塊的量化參數值可大於對應於關注區域之區塊的量化參數值。

壓縮模組123可包含：變換模組123a、量化單元123b、逆量化單元123c以及逆變換模組123d。

壓縮模組123可藉由基於對應於非關注區域之區塊的量化參數值及對應於關注區域之區塊的量化參數值對當前圖框執行編碼操作來形成壓縮資料。

變換模組123a可形成由殘餘區塊資料所變換之區塊資料。變換模組123a可使用離散餘弦變換（discrete cosine transform；DCT）或小波變換（wavelet transform）。可將變換模組123a中所生成之變換係數傳輸至量化單元123b。

量化單元123b可藉由量化變換係數減少位元數。在此步驟中，上述編碼率控制模組124可藉由調整對應於關注區域之區塊的量化參數值及對應於非關注區域之區塊的量化參數值來修改量化程度。

逆量化單元123c、逆變換單元158以及加法器127可用於解碼經有損編碼的資料以恢復經重建之影像。經重建之影像可儲存於DPB 126中且用作參考影像。

熵編碼單元128可熵編碼（entropy-code）壓縮資料。舉例而言，熵編碼單元128可使用上下文自適應可變長度編碼（context-adaptive variable-length coding；CAVLC）、上下文自適應二進位算術編碼（context-adaptive binary arithmetic coding；CABAC）、機率區間分割熵（probability interval partitioning entropy；PIPE）以及其他熵編碼技術。由熵編碼單元128熵編碼之後，可形成經編碼之位元串流（EN OUT），且可將其傳輸至解碼器或將其儲存於第二記憶體（圖1中之220）中。

舉例而言，圖2之編碼器的編碼方法可為HEVC、VP8、VP9、MPEG-2、MPEG-4、H.263以及H.264中之任一者。然而，實例實施例不限於此。

圖3為說明根據實例實施例的將用於多個情境中之每一者的關注區域資訊儲存於視訊編碼系統中之記憶體中的方法的流程圖。圖4為解釋根據實例實施例的將用於多個情境中之每一者的關注區域資訊儲存於視訊編碼系統中之記憶體中的方法之實例的視圖。

結合圖3及圖4，與已參考圖1及圖2所描述之內容重疊之內容將不會重複，且將主要描述差異。

參考圖3及圖4，用於多個情境中之每一者的多個影像可預先儲存於第二記憶體220中。多個影像可為將關注區域資訊之不同片段應用於同一影像的影像。

作為實例，當情境為拍攝人的情境時，第二記憶體220可將在包含人之區域中具有經改善之影像品質的第一視訊儲存，在不包含人之區域中具有經改善之影像品質的第二視訊儲存，以及將在所有區域中具有相同影像品質的第三視訊儲存。此處，第一視訊可具有關於其中包含人之關注區域的關注區域資訊，第二視訊可具有關於其中不包含人之關注區域的關注區域資訊，且第三視訊可具有關於未經設定之關注區域的關注區域資訊。

作為另一實例，當情境為拍攝建築物之情境時，第二記憶體220可將在包含建築物之區域中具有經改善之影像品質的第一視訊儲存，將在不包含建築物之區域中具有經改善之影像品質的第二視訊儲存，且將在所有區域中具有相同影像品質的第三視訊儲存。此處，第一視訊可具有關於其中包含建築物之關注區域的關注區域資訊，第二視訊可具有關於其中不包含建築物之關注區域的關注區域資訊，且第三視訊可具有關於未經設定之關注區域的關注區域資訊。

參考圖3，在操作S310中，顯示器200可根據預測試命令顯示第二記憶體220中所儲存之多個影像中的用於第一情境之多個影像。預測試命令可為藉由允許使用者選擇特定選單來執行的命令，或可為經由初始設定選單中之使用者之輸入所執行的命令。

舉例而言，參考圖4，顯示器200可根據預測試命令一起顯示用於第二記憶體220中所儲存之第一情境的多個影像。此處，當第一情境為拍攝建築物及人之情境時，顯示器200可一起顯示具有第二記憶體220中所儲存之包含建築物之區域的經改善之影像品質的第一視訊410、具有包含人之區域的經改善之影像品質的第二視訊420、具有不包含人及建築物之區域的經改善之影像品質的第三視訊430以及將相同影像品質應用於所有區域的第四視訊。

第一視訊410可為具有第一關注區域資訊的視訊。舉例而言，第一關注區域資訊可為將包含建築物之區域設定為關注區域的資訊。

第二視訊420可為具有第二關注區域資訊的視訊。舉例而言，第二關注區域資訊可為將包含人之區域設定為關注區域的資訊。

第三視訊430可為具有第三關注區域資訊的視訊。舉例而言，第三關注區域資訊可為將不包含人及建築物之區域設定為關注區域的資訊。

第四視訊440可為具有第四關注區域資訊的視訊。舉例而言，第四關注區域資訊可為未設定關注區域的資訊。

再次參考圖3，在操作S320中，輸入元件210可經由顯示器200接收用於自多個經顯示視訊中選擇任一個視訊的使用者輸入。舉例而言，輸入元件210可接收用於選擇具有圖4中所展示之第一關注區域資訊之第一視訊的使用者輸入。

在操作S330中，處理器130可基於用於選擇圖4中所展示之第一視訊410的使用者輸入來映射第一情境（例如，拍攝建築物及人之情境）的第一關注區域資訊（例如，將包含建築物之區域設定為關注區域的資訊），且可儲存經映射的第一關注區域資訊。

若使用者選擇除圖4中所展示之第一視訊410以外的視訊（例如，第二視訊420），則處理器130可映射所選擇之視訊中所包含的用於第一情境之關注區域資訊（例如，第二關注區域資訊），且可儲存經映射的關注區域資訊。

在將第一情境之關注區域資訊儲存於第一記憶體140中之後，顯示對應於與第一情境不同之第二情境之多個視訊的步驟經重複，以便將第二情境之關注區域資訊儲存於第一記憶體中140。

因此，影像編碼系統10顯示用於多個情境中之每一者的多個視訊，且選擇並接收由使用者辨識為最佳影像品質的影像，藉此將用於多個情境中之每一者的關注區域資訊儲存於第一記憶體140中。

圖5為說明根據實例實施例的編碼視訊編碼系統中之影像的處理程序之流程圖。圖6及圖7為解釋根據一些實例實施例的劃分編碼器中之關注區域及非關注區域的方法之實例的視圖。結合圖5至圖7，與已參考圖1至圖4所描述之內容重疊之內容將不會重複，且將主要描述差異。

出於解釋之便利性，在下文中，結合圖5至圖7，將描述實例實施例，所述實例實施例假定，將包含建築物之區域設定為第一情境（例如，拍攝建築物及人之情境）之關注區域的第一關注區域資訊經映射並儲存於第一記憶體140中，且將包含花朵之區域設定為第二情境（例如，拍攝建築物及花朵之情境）之關注區域的第二關注區域資訊經映射並儲存於第一記憶體140中。另外，將描述實例實施例，所述實例實施例假定，僅將第一情境之第一關注區域資訊及第二情境之第二關注區域資訊儲存於第一記憶體140中。

參考圖5，在操作S410中，視訊編碼系統10中所包含之視訊源50可接收輸入視訊。

在操作S420中，視訊編碼裝置100中所包含之NPU 300可辨識輸入視訊之情境，且可自第一記憶體140提取對應於輸入視訊之情境的關注區域資訊。

在操作S430中，分割單元121可將輸入視訊中所包含之當前圖框劃分成多個圖框。舉例而言，分割單元121可將當前圖框中所包含之多個區塊劃分成對應於關注區域（ROI）之第一區塊及對應於非關注區域（非ROI）之第二區塊。

作為實例，參考圖6，當當前圖框610之第一區域611包含建築物，其第二區域612包含人，且其第三區域613不包含建築物及人時，NPU 300可將當前圖框610辨識為對應於第一情境之圖框。NPU 300可自第一記憶體140提取對應於第一情境之第一關注區域資訊。另外，基於第一關注區域資訊，分割單元121可將第一區域611中所包含之至少一個第一區塊設定為關注區域（ROI），且可將當前圖框610中之第二區域612及第三區域613中所包含之至少一個第二區塊設定為非關注區域（非ROI）。

作為另一實例，參考圖7，當當前圖框620之第一區域621包含建築物，其第二區域622包含花朵，且其第三區域623不包含建築物及花朵時，NPU 300可將當前圖框620辨識為對應於第二情境之圖框。NPU 300可自第一記憶體140提取對應於第二情境之第二關注區域資訊。另外，基於對應於第二情境之第二關注區域資訊，分割單元121可將第二區域622中所包含之至少一個第一區塊設定為關注區域（ROI），且可將當前圖框620中之第一區域621及第三區域623中所包含之至少一個第二區塊設定為非關注區域（非ROI）。

根據一些實例實施例，在用於多個情境中之每一者的關注區域資訊（例如，第一關注區域資訊及第二關注區域資訊）儲存於第一記憶體140中之情況下，可經由視訊源50接收不包含於儲存於第一記憶體140中之多個情境中的情境之輸入視訊。在此情況下，當輸入視訊之情境不包含於多個經儲存之情境中時，輸入視訊可不劃分成關注區域及非關注區域。亦即，分割單元121可將當前圖框劃分成多個區塊，但可不將多個區塊劃分成對應於關注區域之區塊及對應於非關注區域之區塊。

根據一些實例實施例，在用於多個情境中之每一者的關注區域資訊（例如，第一關注區域資訊及第二關注區域資訊）儲存於第一記憶體140中之情況下，當經由視訊源50接收不包含於多個情境中的情境之輸入視訊時，分割單元121可將對應於包含特定對象（例如，面部）之區域的區塊設定為對應於關注區域之區塊，且亦可將對應於不包含特定對象之區域的區塊設定為對應於非關注區域之區塊。

根據一些實例實施例，在用於多個情境中之每一者的關注區域資訊（例如，第一關注區域資訊及第二關注區域資訊）儲存於第一記憶體140中之情況下，當經由視訊源50接收不包含於多個情境中的情境之輸入視訊時，分割單元121可將紋理值（texture value）小於所要（或替代地，預設）紋理值的區塊設定為對應於關注區域之區塊，且亦可在多個區塊中設定除對應於關注區域之區塊以外的區塊。

再次參考圖5，在操作S440中，編碼率控制模組124可確定對應於關注區域的第一區塊之第一量化參數值及對應於非關注區域的第二區塊之第二量化參數值。此處，第一量化參數值可小於第二量化參數值。

在操作S450中，壓縮模組123可藉由使用第一量化參數值及第二量化參數值對當前圖框執行編碼操作來形成壓縮資料。

根據一些實例實施例，在形成經壓縮資料之後，熵編碼單元128可熵編碼壓縮資料以形成位元串流。由熵編碼單元128形成之位元串流可儲存於第二記憶體220中。

根據一些實例實施例，NPU 300可基於使用者輸入來更新儲存於第一記憶體140中之關注區域資訊。將參考圖8至圖10描述其細節。

圖8為說明根據實例實施例的在視訊編碼系統中基於使用者輸入來更新儲存於第一記憶體中之關注區域資訊的方法的流程圖。圖9為解釋根據實例實施例的在視訊編碼系統中基於使用者輸入來更新儲存於第一記憶體中之關注區域資訊的方法之實例的視圖。結合圖8及圖9，與已參考圖1至圖8所描述之內容重疊之內容將不會重複，且將主要描述差異。

參考圖8，在操作S510中，顯示器200可顯示對應於第一情境之視訊。此處，顯示器200上所顯示之視訊可為解碼圖5中所描繪的儲存於第二記憶體220中之位元串流的視訊。出於解釋之便利性，將描述實例實施例，所述實例實施例假定在第一情境中映射第一關注區域資訊。

在操作S520中，輸入元件210可在顯示對應於第一情境之視訊的情況下接收使用者輸入。

作為實例，使用者輸入可為使用者注視當顯示對應於第一情境之視訊時所顯示之視訊內之區域的輸入。

作為另一實例，使用者輸入可為使用者選擇當顯示對應於第一情境之視訊時所顯示之視訊內之區域的觸控輸入。

作為另一實例，使用者輸入可為使用者放大或減小當顯示對應於第一情境之視訊時所顯示之視訊內之區域的輸入。

在操作S530中，NPU 300可基於使用者輸入來更新對應於第一情境之第一關注區域資訊。

作為實例，參考圖9，輸入元件210可接收用於當顯示對應於第一情境之視訊時所顯示之視訊內之區域的使用者輸入（例如，用於觸控、放大或減小所顯示之視訊內之區域的輸入）。在此情況下，輸入元件210可將關於使用者輸入的資訊傳輸至NPU 300。NPU 300可基於關於使用者輸入的資訊來辨識關於感測使用者輸入之區域的資訊。另外，NPU 300可基於經辨識資訊來更新映射於第一情境中之第一關注區域資訊。舉例而言，當感測使用者輸入之區域為包含人的區域時，NPU 300可更新（修改）第一關注區域資訊使得包含人的區域為關注區域。

作為另一實例，儘管圖式中未展示，但輸入元件210可將關於使用者的眼睛注視當顯示對應於第一情境之視訊時所顯示之視訊內之區域的資訊傳輸至NPU 300。NPU 300可基於所接收資訊來辨識關於使用者的眼睛停留在視訊中之區域的資訊。另外，NPU 300可基於經辨識資訊來更新映射於第一情境中之第一關注區域資訊。舉例而言，當使用者的眼睛停留在視訊中的區域為包含人的區域時，NPU 300可更新（修改）第一關注區域資訊使得包含人的區域為關注區域。

亦即，NPU 300可藉由分析及學習使用者之行為模式來更新關注區域資訊。

圖10為解釋根據實例實施例的NPU之組態的示意圖。

根據一些實例實施例，NPU 300可包含輸入層310、隱藏層320以及輸出層330。然而，實例實施例不限於此，且NPU 300可具有另一組態。

輸入層310可為接收資料的層，且經轉換為資料之輸入視訊可為輸入層310之輸入。

隱藏層320可為根據輸入層310與輸出層330之間的相關性適當地調整之層。隱藏層320可為用於使用關注區域資訊來分配且儲存乘以輸入資料之加權值的層。儲存於第一記憶體140中之關注區域資訊可為關於乘以輸入資料之加權值的資訊。

輸出層可包含關於經訓練結果的資訊。

NPU 300可將輸入資料乘以隱藏層320中所包含之加權值以輸出所得值。此時，輸出資料可與給定的目標輸出值不同。在此情況下，NPU 300可使用目標輸出值與當前輸出值之間的誤差來更新隱藏層320中之加權值。

因此，NPU 300可藉由連續更新隱藏層320中之加權值來發現及學習設定關注區域的使用者之模式及特性。經由NPU 300學習之資訊可作為關注區域資訊儲存於第一記憶體140中。

儘管出於說明性目的已揭露一些實例實施例，但所屬領域中具通常知識者將瞭解在不背離所附申請專利範圍之範疇及精神之情況下，各種修改、添加以及取代是可能的。

已參考隨附圖式描述了實例實施例，但所屬領域中具通常知識者可瞭解，所屬領域中具通常知識者在不改變本揭露內容之技術概念或基本特徵之情況下，可以其他特定形式執行本揭露內容。另外，上文所描述之實例實施例僅為實例，且並不限制本揭露內容之權利的範疇。

如上文所論述，上文所描述的方法之各種操作可藉由能夠執行操作之任何合適之構件來執行，諸如各種硬體及/或軟體組件、電路及/或模組。

軟體可包含用於實施邏輯功能的可執行指令之有序清單，且其可實施於供指令執行系統、裝置或元件（諸如單核處理器或多核處理器或含有處理器之系統）使用或與之結合使用的任何「處理器可讀媒體」中。

結合本文中所揭露之實例實施例描述的方法或演算法以及功能之操作可直接實施於硬體中、由處理器執行之軟體模組中或兩者之組合中。若以軟體實施，則所述功能可作為一或多個指令或程式碼儲存於有形、非暫時性電腦可讀媒體上或經由有形、非暫時性電腦可讀媒體傳輸。軟體模組可駐存於隨機存取記憶體（RAM）、快閃記憶體、唯讀記憶體（ROM）、電可程式化ROM（Electrically Programmable ROM；EPROM）、電可抹除可程式化ROM（EEPROM）、暫存器、硬碟、可移除式磁碟、CD ROM或本領域中已知的任何其他形式之儲存媒體。

10‧‧‧視訊編碼系統50‧‧‧視訊源100‧‧‧視訊編碼裝置110‧‧‧預處理電路120‧‧‧編碼器121‧‧‧分割單元122‧‧‧預測模組123‧‧‧壓縮模組123a‧‧‧變換模組123b‧‧‧量化單元123c‧‧‧逆量化單元123d‧‧‧逆變換模組124‧‧‧編碼率控制模組125、127‧‧‧加法器126‧‧‧解碼圖像緩衝器128‧‧‧熵編碼單元130‧‧‧處理器140‧‧‧第一記憶體150‧‧‧顯示控制器158‧‧‧逆變換單元160‧‧‧記憶體控制器170‧‧‧匯流排180‧‧‧數據機190‧‧‧使用者介面200‧‧‧顯示器210‧‧‧輸入元件220‧‧‧第二記憶體300‧‧‧神經處理單元310‧‧‧輸入層320‧‧‧隱藏層330‧‧‧輸出層410‧‧‧第一視訊411、413、421、422、432、433‧‧‧非關注區域412、423、431、ROI‧‧‧關注區域420‧‧‧第二視訊430‧‧‧第三視訊440‧‧‧第四視訊610、620、CF‧‧‧當前圖框611、621‧‧‧第一區域612、622‧‧‧第二區域613、623‧‧‧第三區域ENOUT‧‧‧經編碼之位元串流FF‧‧‧未來圖框FI‧‧‧第二資料IM‧‧‧第一資料PF‧‧‧過去圖框QP‧‧‧量化參數S310、S320、S330、S410、S420、S430、S440、S450、S510、S520、S530‧‧‧操作

實例實施例之以上態樣及其他態樣以及特徵將藉由參考隨附圖式詳細地描述本發明之一些實例實施例而變得更顯而易見，其中：圖1為說明根據實例實施例的視訊編碼系統的方塊圖。圖2為圖1中所展示之視訊編碼系統中所包含之編碼器之實例的方塊圖。圖3為說明根據實例實施例的將用於多個情境中之每一者的關注區域資訊儲存於視訊編碼系統中之記憶體中的方法的流程圖。圖4為解釋根據實例實施例的將用於多個情境中之每一者的關注區域資訊儲存於視訊編碼系統中之記憶體中的方法之實例的視圖。圖5為說明根據實例實施例的編碼視訊編碼系統中之影像的處理程序之流程圖。圖6為解釋根據實例實施例的劃分編碼器中之關注區域及非關注區域的方法之實例的視圖。圖7為解釋根據另一實例實施例的劃分編碼器中之關注區域及非關注區域的方法之實例的視圖。圖8為說明根據實例實施例的在視訊編碼系統中基於使用者輸入來更新儲存於第一記憶體中之關注區域資訊的方法的流程圖。圖9為解釋根據實例實施例的在視訊編碼系統中基於使用者輸入來更新儲存於第一記憶體中之關注區域資訊的方法之實例的視圖。圖10為解釋根據實例實施例的NPU之組態的示意圖。

S410、S420、S430、S440、S450‧‧‧操作

Claims

一種視訊編碼裝置，包括：記憶體，經組態以儲存用於多個情境中之每一者的關注區域資訊；以及處理器，經組態以執行以下操作中之一或多者：提取對應於所述多個情境中之一情境的所述關注區域資訊，所述情境與自所述記憶體接收之輸入視訊相關聯，以及基於使用者輸入更新儲存於所述記憶體中的所述關注區域資訊，其中所述處理器經組態以進行以下操作：基於所述使用者輸入在第一情境中映射第一關注區域資訊，所述使用者輸入在顯示具有關於所述第一情境的關注區域資訊之不同片段的多個視訊的情況下選擇具有所述第一關注區域資訊的第一視訊，以及將經映射的所述第一關注區域資訊儲存於所述記憶體中。
如申請專利範圍第1項所述的視訊編碼裝置，其中所述處理器進一步經組態以進行以下操作：將所述輸入視訊中所包含之當前圖框劃分成多個區塊，基於所述關注區域資訊將所述多個區塊劃分成對應於關注區域的第一區塊及對應於非關注區域的第二區塊，確定所述第一區塊的第一量化參數值及所述第二區塊的第二量化參數值；以及基於所述第一量化參數值及所述第二量化參數值編碼所述當前圖框以生成壓縮資料。
如申請專利範圍第2項所述的視訊編碼裝置，其中所述處理器經組態以在與所述輸入視訊相關聯的所述情境未儲存於記憶體中之情況下，不將所述多個區塊劃分成所述第一區塊及所述第二區塊。
如申請專利範圍第2項所述的視訊編碼裝置，其中，當與所述輸入視訊相關聯的所述情境不包含於所述多個情境時，所述處理器經組態以進行以下操作：將對應於包含特定對象的所述輸入視訊之所述當前圖框之區域的區塊設定為所述第一區塊，以及將對應於不包含所述特定對象的所述輸入視訊之所述當前圖框之區域的區塊設定為所述第二區塊。
如申請專利範圍第2項所述的視訊編碼裝置，其中，當與所述輸入視訊相關聯的所述情境不包含於所述多個情境時，所述處理器經組態以進行以下操作：將所述多個區塊中具有小於設定值之紋理值的區塊設定為所述第一區塊，以及將所述多個區塊中除所述第一區塊之外的區塊設定為所述第二區塊。
一種視訊編碼裝置，包括：記憶體，經組態以儲存用於多個情境中之每一者的關注區域資訊；以及處理器，經組態以進行以下操作：藉由分析情境自所述記憶體提取對應於與輸入視訊相關聯之所述情境的所述關注區域資訊，將所述輸入視訊中所包含之當前圖框劃分成多個區塊，基於所述關注區域資訊將所述多個區塊劃分成對應於關注區域的第一區塊及對應於非關注區域的第二區塊，確定所述第一區塊之第一量化參數值及所述第二區塊之第二量化參數值，以及基於所述第一量化參數值及所述第二量化參數值編碼所述當前圖框以生成壓縮資料，其中所述處理器經組態以進行以下操作：基於使用者輸入在第一情境中映射第一關注區域資訊，所述使用者輸入在具有關於所述第一情境的關注區域資訊之不同片段的多個視訊中選擇具有所述第一關注區域資訊的第一視訊，以及將經映射的所述第一關注區域資訊儲存於所述記憶體中。
如申請專利範圍第6項所述的視訊編碼裝置，其中所述處理器經組態以進行以下操作：在與所述輸入視訊相關聯的所述情境對應於所述第一情境之情況下，提取所述第一情境中所映射的所述第一關注區域資訊，以及基於所述第一關注區域資訊確定所述第一區塊及所述第二區塊。
如申請專利範圍第6項所述的視訊編碼裝置，其中，所述處理器經組態以在與所述輸入視訊相關聯的所述情境未儲存於所述記憶體中之情況下，不將所述多個區塊劃分成所述第一區塊及所述第二區塊。