CN109429066B

CN109429066B - 视频编码装置和视频编码***

Info

Publication number: CN109429066B
Application number: CN201810825410.8A
Authority: CN
Inventors: 全圣浩; 郑憿援
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-29
Filing date: 2018-07-25
Publication date: 2022-07-26
Anticipated expiration: 2038-07-25
Also published as: TW201914303A; KR102343648B1; KR20190023546A; TWI791578B; US10841659B2; US20190069033A1; CN109429066A

Abstract

视频编码装置可以包括：存储器，存储针对多个场景中的每个场景的兴趣区域信息；以及神经处理单元(NPU)，从所述存储器中提取与输入视频的场景相对应的兴趣区域信息，或基于用户输入来更新存储在所述存储器中的兴趣区域信息。

Description

视频编码装置和视频编码***

相关申请的交叉引用

本申请要求于2017年8月29日在韩国知识产权局递交的韩国专利申请No.10-2017-0109458的优先权，其全部公开通过引用合并于此。

技术领域

示例实施例涉及视频编码装置和/或视频编码***。

背景技术

对于诸如高清晰度(HD)图像和超高清晰度(UHD)图像之类的高分辨率和高质量图像的需求日益增加，高性能的图像压缩技术正被用于处理高分辨率和高质量图像。

近来，诸如移动电话和智能电话之类的移动装置已经被广泛使用，并且已经对用于在具有诸如较小尺寸和电池使用的有限环境的移动装置中高效地压缩高分辨率和高质量图像的各种方法进行了研究。

具体地，近来，为了对输入图像进行编码，在视频编码***中，已经广泛使用了多种将图像中的帧划分为兴趣区域和非兴趣区域，并且不同地向兴趣区域和非兴趣区域分配比特数的技术。

然而，尽管兴趣区域可能因每个用户而改变，但根据最近的技术趋势，可以使用相同的标准在图像中定义兴趣区域和非兴趣区域。

发明内容

因此，至少一些示例实施例针对根据视频的场景来不同地设置兴趣区域的方法。

至少一些其他示例实施例针对通过允许用户识别兴趣区域来设置兴趣区域的方法。

还有至少一些其他示例实施例针对基于用户的输入来更新兴趣区域的方法。

然而，示例实施例不限于本文中所阐述的实施例。通过参考以下给出的详细描述，示例实施例的以上和其他方面对本领域普通技术人员将变得更加清楚。

根据示例实施例，视频编码装置可以包括：存储器，被配置为存储针对多个场景中的每个场景的兴趣区域信息；以及处理器，被配置为执行以下操作中的一个或多个，从所述存储器中提取所述多个场景中的与接收的输入视频相关联的场景所对应的兴趣区域信息，以及基于用户输入更新存储在存储器中的兴趣区域信息。

根据示例实施例，视频编码装置可以包括：存储器，被配置为存储针对多个场景中的每个场景的兴趣区域信息；以及处理器，被配置为：通过对与输入视频相关联的场景进行分析来从所述存储器中提取与所述场景相对应的兴趣区域信息，将包括在输入视频中的当前帧划分为多个块，基于所述兴趣区域信息，将所述多个块划分为与兴趣区域相对应的第一块和与非兴趣区域相对应的第二块，确定所述第一块的第一量化参数值和所述第二块的第二量化参数值，以及基于所述第一量化参数值和所述第二量化参数值对所述当前帧进行编码以生成压缩数据。

根据示例实施例，视频编码***可以包括视频源、视频编码装置以及第二存储器，视频编码装置包括第一存储器和处理器。视频源可以被配置为传送输入视频。视频编码装置的第一存储器可以被配置为存储针对多个场景中的每个场景的兴趣区域信息，视频编码装置的处理器可以被配置为：从所述第一存储器提取与所述输入视频相关联的场景所对应的兴趣区域信息，将包括在所述输入视频中的当前帧划分为多个块，基于所述兴趣区域信息，将所述多个块划分为与兴趣区域相对应的第一块和与非兴趣区域相对应的第二块，确定所述第一块的第一量化参数值和所述第二块的第二量化参数值，以及基于所述第一量化参数值和所述第二量化参数值对所述当前帧进行编码以生成压缩数据。第二存储器可以被配置为存储比特流，该比特流基于所述压缩数据被熵编码。

然而，示例实施例不限于本文中所阐述的实施例。通过参考以下给出的本发明构思的详细描述，示例实施例的以上和其他方面对本领域普通技术人员将变得更加清楚。

附图说明

通过参考附图详细描述其中的一些示例实施例，示例实施例的以上和其他方面以及特征将变得更加清楚，在附图中：

图1是示出根据示例实施例的视频编码***的框图；

图2是包括在图1中示出的视频编码***中的编码器的示例的框图；

图3是示出根据示例实施例的在视频编码***的存储器中存储多个场景中的每个场景的兴趣区域信息的方法的流程图；

图4是用于解释根据示例实施例的在视频编码***的存储器中存储多个场景中的每个场景的兴趣区域信息的方法的示例的视图；

图5是示出根据示例实施例的在视频编码***中对图像进行编码的过程的流程图；

图6是用于解释根据示例实施例的在编码器中划分兴趣区域和非兴趣区域的方法的示例的视图；

图7是用于解释根据另一示例实施例的在编码器中划分兴趣区域和非兴趣区域的方法的示例的视图；

图8是示出根据示例实施例的在视频编码***中基于用户输入来更新存储在第一存储器中的兴趣区域信息的方法的流程图；

图9是用于解释根据示例实施例的在视频编码***中基于用户输入来更新存储在第一存储器中的兴趣区域信息的方法的示例的视图；以及

图10是用于解释根据示例实施例的NPU的配置的示意性视图。

具体实施方式

在根据一些示例实施例的视频编码***中，可以通过预测试来识别针对每个输入视频场景的用户的兴趣区域，以在视频编码时反映该识别的兴趣区域，并且可以基于在显示图像时的用户输入，通过分析和学习用户的行为模式来更新针对每个场景的兴趣区域。在下文中，将参考附图来描述一些示例实施例。

图1是示出根据示例实施例的视频编码***的框图。

参考图1，视频编码***10可以是能够处理2D或3D图形数据并显示处理的数据的各种***。

例如，视频编码***10可以被实现为以下中的一项：TV、数字TV(DTV)、内部协议TV(IPTV)、个人计算机(PC)、台式计算机、膝上型计算机、计算机工作站、平板PC、视频游戏平台(或视频游戏机)、服务器和移动计算装置。这里，移动计算设备可以被实现为移动电话、智能电话、企业数字助理(EDA)、数字静止照相机、数字摄像机、便携式多媒体播放器(PMP)、个人导航设备或便携式导航设备(PND)、移动互联网设备(MID)、可穿戴计算机、物联网(IOT)设备、万物互联网(IOE)设备或电子书。

视频编码***10可以包括视频源50、视频编码装置100、显示器200、输入设备210和第二存储器220。然而，示例实施例不限于此，因此，视频编码***10可以具有比以上列出的组件更多或更少的组件。这里，视频编码装置100可以被配置为片上***(SoC)。

视频源50可以被实现为例如装备有CCD或CMOS图像传感器的照相机。视频源50可以拍摄主体，生成主体的第一数据IM，并将生成的第一数据IM提供给视频编码装置100。第一数据IM可以是静止图像数据或移动图像数据。在一些其他的示例实施例中，视频源50可以被包括在主机中。在这种情况下，第一数据IM可以是从主机提供的图像数据。

视频编码装置100可以整体上控制视频编码***10的操作。例如，视频编码装置可以包括可以执行根据一些实施例的操作的集成电路(IC)、母板和应用处理器(AP)或移动AP。视频编码装置100可以处理从视频源50输出的第一数据IM，并且通过显示器200显示所处理的数据、在第二存储器220中存储所处理的数据和/或将所处理的数据传送到另一数据处理***。

视频编码装置100可以包括预处理电路110、编码器120、处理器130、第一存储器140、显示器控制器150、存储器控制器160、总线170、调制解调器180、用户接口190和神经处理单元(NPU)300。然而，示例实施例不限于此，因此，视频编码***10可以具有比以上列出的组件更多或更少的组件。

编码器120、处理器130、第一存储器140、显示器控制器150、存储器控制器160、调制解调器180、用户接口190和NPU300可以通过总线170彼此接收数据以及彼此传送数据。用作说明地，总线170可以被实现为选自以下各项中的至少一项：***组件互连(PCI)总线、高速PCI(PCIe)、高级微控制器总线架构(AMBA)、高级高性能总线(AHB)、高级外设总线(APB)、高级可扩展接口(AXI)总线及其组合。

预处理电路110可以接收从视频源50输出的第一数据IM。预处理电路110可以处理接收的第一数据IM，并且可以将根据处理结果生成的第二数据FI提供给编码器120。在视频编码装置100被驱动的环境中，第一数据IM和第二数据FI可以以帧(或图片)为单位提供。

例如，第二数据FI可以是包括基于特定时间点的过去帧(PF)数据、当前帧(CF)数据和未来帧(FF)数据的数据集合。在下文中，为便于解释，描述将限于对包括在第二数据FI中的当前帧(CF)数据进行编码的情况。

预处理电路110可以包括图像信号处理器(ISP)。例如，ISP可以将具有第一数据格式的第一数据IM转换为第二数据FI。

例如，第一数据IM可以是具有拜耳模式的数据，第二数据FI可以是YUV数据，但示例实施例不限于此。

尽管图1中示出了预处理电路110设置在视频编码装置100内，但示例实施例不限于此，预处理电路110可以设置在视频编码装置100的外部。

编码器120可以将包括在第二数据FI中的当前帧CF划分为多个块，并且可以针对多个块中的每个块执行编码操作。

编码操作可以使用图像数据编码技术，诸如JPEG(联合图像专家组)、MPEG(运动图像专家组)、MPEG-2、MPEG-4、VC-1、H.264、H.265、或HEVC(高效视频编码)，但示例实施例不限于此。

编码器120可以被实现为硬件编解码器或软件编解码器。软件编解码器可以由处理器130执行。

处理器130可以控制视频编码装置100的操作。

虽然如以下所讨论的，在一些示例实施例中，SoC100的每个元件可以是分立硬件电路，但在其他示例实施例中，通过布局设计或执行存储在存储器中的计算机可读指令，处理器130可以被配置为专用计算机以执行预处理电路110、编码器120、显示器控制器150、存储器控制器160和神经处理单元(NPU)300中的一个或多个的功能。例如，处理器130可以被配置为从存储器140提取与多个场景中的一个场景相对应的兴趣区域信息，使得该场景与接收的输入视频相关联，和/或可以被配置为基于从用户I/F190接收的用户输入来更新存储在存储器140中的兴趣区域信息。

鉴于以上情况，专用处理器130可以通过将由人眼感知的图像存储为针对多个场景中的每个场景的最佳质量图像来改进视频编码***10自身的功能。

处理器130可以包括任何处理电路。处理电路可以是但不限于处理器、中央处理单元(CPU)、控制器、算术逻辑单元(ALU)、数字信号处理器、微型计算机、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、片上***(SoC)、可编程逻辑单元、微处理器或能够以定义的方式执行操作的任何其他设备。

处理器130可以接收用户输入以便应用于一个或多个应用(例如，软件应用)。

一些由处理器130执行的应用可以是视频通话应用。由处理器130执行的应用可以包括但不限于操作***(OS)、字处理器应用、媒体播放器应用、视频游戏应用和/或图形用户接口(GUI)应用。

第一存储器140可以存储与在图像编码中使用的多个场景中的每个场景相对应的兴趣区域信息。

多个场景可以是例如用于指示包括在图像中的对象的类型、拍摄图像的日期、拍摄图像的时间等的信息。兴趣区域信息可以是用于将包括在当前帧CF中的多个块划分为与兴趣区域相对应的块和与非兴趣区域相对应的块的信息。

在存储器控制器160的控制下，第一存储器140可以将与输入图像的场景相对应的兴趣区域信息传送到编码器120。

在编码器120或处理器130的控制下，存储器控制器160可以将在编码器120中编码的数据或从处理器130输出的数据写入到第二存储器220。

第一存储器140可以被实现为诸如SRAM(静态随机存取存储器)之类的易失性存储器。易失性存储器可以被实现为RAM(随机存取存储器)、SRAM(静态RAM)、DRAM(动态RAM)、SDRAM(同步DRAM)、T-RAM(晶闸管RAM)、Z-RAM(零电容器RAM)或TTRAM(双晶体管RAM)。然而，示例实施例不限于此，并且第一存储器140也可以被实现为非易失性存储器。

第二存储器220可以被实现为非易失性存储器。非易失性存储器可以被实现为电可擦除可编程只读存储器(EEPROM)、闪存、磁性RAM(MRAM)、自旋转移力矩MRAM、铁电RAM(FeRAM)、相变RAM(PRAM)或RRAM(电阻性RAM)。此外，非易失性存储器可以被实现为多媒体卡(MMC)、嵌入式MMC(eMMC)、通用闪速存储(UFS)、固态驱动器(SSD)、USB闪速驱动器或硬盘驱动器(HDD)。然而，示例实施例不限于此，并且第二存储器220也可以被实现为易失性存储器。

尽管图1中示出了第二存储器220设置在视频编码装置100的外部，但示例实施例不限于此，并且第二存储器220可以设置在视频编码装置100中。

显示器控制器150可以将从编码器120和/或处理器130输出的数据传送到显示器200。显示器200可以被实现为监视器、TV监视器、投影设备、薄膜晶体管液晶显示器(TFT-LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、有源-矩阵OLED(AMOLED)显示器或柔性显示器。

例如，显示器控制器150可以将数据通过移动产业处理器接口(MIPI)、显示器串行接口(DSI)传送到显示器200。

输入设备210可以接收用户输入，并且可以将由用户操作生成的输入信号传送到用户接口190。

输入设备210可以被实现为触摸板、触摸屏、语音识别器、照相机、触摸笔、键盘、鼠标或跟踪点，但示例实施例不限于此。例如，当输入设备210是触摸屏时，输入设备210可以包括触摸板和触摸板控制器。此外，当输入设备210是照相机时，输入设备210可以包括眼睛识别传感器。输入设备210可以被配置为与显示器200连接或与显示器200分离。

输入设备210可以将输入信号传送到用户接口190。

用户接口190可以从输入设备接收输入信号，并且可以将由输入信号生成的数据传送到处理器130。

此外，用户接口190可以从输入设备接收输入信号，并且可以将包括在输入信号中的信息传送到NPU300。

调制解调器180可以使用无线通信技术将由编码器120和/或处理器130编码的数据输出到视频编码装置100的外部。调制解调器180可以采用WI-FI方法、WIBRO、3G无线通信方法、长期演进(LTETM)方法、高级长期演进(LTE-A)方法、宽带LTE-A方法等。

神经处理单元(NPU)300可以识别通过视频源50提供的输入视频的场景。例如，NPU300可以通过对输入视频进行分析来识别输入视频的场景。

NPU300可以从第一存储器140提取与识别的场景相对应的兴趣区域信息。此外，NPU300可以基于用户输入来更新存储在第一存储器140中的兴趣区域信息。

在图1中，NPU300被示出为分离的组件，但示例实施例不限于此。例如，编码器120和/或处理器130可以执行NPU300的功能。此外，NPU300可以作为组件被包括在视频编码装置100中，或者可以存在于视频编码装置100的外部。

图2是包括在图1中示出的视频编码***中的编码器的示例的框图。

参考图2，编码器120可以包括分割单元121、预测模块122、压缩模块123、速率控制模块124、解码图片缓冲器(DPB)126、加法器125和127以及熵编码单元128。然而，示例实施例不限于此，因此编码器120可以具有比以上列出的组件更多或更少的组件。

分割单元121可以将包括在输入的第二数据FI中的当前帧(图1中的CF)划分为多个块。在这种情况下，多个块可以包括与兴趣区域相对应的至少一个块，并且可以包括与非兴趣区域相对应的至少一个块。

分割单元121可以基于存储在第一存储器(图1中的140)中的兴趣区域信息，确定多个块中的每个块是否是与兴趣区域相对应的块或者多个块中的每个块是否是与非兴趣区域相对应的块。

预测模块122可以针对输入图像的当前帧执行帧内预测和帧间预测中的至少一个。帧内预测可以在不参考除当前帧以外的帧的情况下执行，帧间预测可以通过参考除当前帧以外的帧来执行。

预测模块122可以通过将通过帧内预测编码的块和/或通过帧间预测编码的块提供给加法器125来生成残余块数据。

速率控制模块124可以基于存储在第一存储器140(见图1)中的兴趣区域信息，来调整要被量化的主体(例如，块)的量化参数(QP)值。

例如，速率控制模块124可以确定与由分割单元121划分的兴趣区域相对应的块以及与由分割单元121划分的非兴趣区域相对应的块的量化参数值，使得量化参数值彼此不同。这里，与非兴趣区域相对应的块的量化参数值可以大于与兴趣区域相对应的块的量化参数值。

压缩模块123可以包括变换模块123a、量化单元123b、逆量化单元123c和逆变换模块123d。

压缩模块123可以基于与非兴趣区域相对应的块的量化参数值和与兴趣区域相对应的块的量化参数值，通过对当前帧执行编码操作来形成压缩数据。

变换模块123a可以形成从残余块数据变换的块数据。变换模块123a可以使用离散余弦变换(DCT)或小波变换。在变换模块123a中生成的变换系数可以被传送到量化单元123b。

量化单元123b可以通过量化变换系数来减少比特数。在该过程中，前述的速率控制模块124可以通过调整与兴趣区域相对应的块和与非兴趣区域相对应的块的量化参数值来修改量化程度。

逆量化单元123c、逆变换模块123d和加法器127可以用于对经过损失编码的数据进行解码以恢复重构图像。重构图像可以存储在DPB126中并被用作参考图像。

熵编码单元128可以对压缩数据进行熵编码。例如，熵编码单元128可以使用上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间分割熵(PIPE)和其他熵编码技术。在由熵编码单元128进行熵编码之后，可以形成编码的比特流(EN OUT)，并且该比特流可以被传送到解码器或被存储在第二存储器(图1中的220)中。

例如，图2的编码器的编码方法可以是HEVC、VP8、VP9、MPEG-2、MPEG-4、H.263和H.264中的任何一种。然而，示例实施例不限于此。

图3是示出根据示例实施例的在视频编码***的存储器中存储多个场景中的每个场景的兴趣区域信息的方法的流程图。图4是用于解释根据示例实施例的在视频编码***的存储器中存储多个场景中的每个场景的兴趣区域信息的方法的示例的视图。

关于图3和图4，将不重复那些与已参考图1和图2描述的内容相重叠的内容，而将主要描述差别。

参考图3和图4，可以将用于多个场景中的每个场景的多个图像预先存储在第二存储器220中。多个图像可以是将不同的兴趣区域信息应用于相同的图像的图像。

作为示例，当场景是拍摄人的场景时，第二存储器220可以存储在包括人的区域中具有改进的图像质量的第一视频、在不包括人的区域中具有改进的图像质量的第二视频和在所有区域中具有相同的图像质量的第三视频。这里，第一视频可以具有关于其中包括人的兴趣区域的兴趣区域信息，第二视频可以具有关于其中不包括人的兴趣区域的兴趣区域信息，第三视频可以具有关于未设置兴趣区域的兴趣区域信息。

作为另一示例，当场景是拍摄建筑物的场景时，第二存储器220可以存储在包括建筑物的区域中具有改进的图像质量的第一视频、在不包括建筑物的区域中具有改进的图像质量的第二视频和在所有区域中具有相同的图像质量的第三视频。这里，第一视频可以具有关于其中包括建筑物的兴趣区域的兴趣区域信息，第二视频可以具有关于其中不包括建筑物的兴趣区域的兴趣区域信息，第三视频可以具有关于未设置兴趣区域的兴趣区域信息。

参考图3，在操作S310中，显示器200可以根据预测试命令，显示存储在第二存储器220中的多个图像中的用于第一场景的多个图像。预测试命令可以是通过允许用户选择特定菜单来执行的命令，或者可以是通过在初始设置菜单中的用户输入来执行的命令。

例如，参考图4，显示器200可以根据预测试命令将存储在第二存储器220中的用于第一场景的多个图像一起显示。这里，当第一场景是拍摄建筑物和人的场景时，显示器200可以将存储在第二存储器220中的在包括建筑物的区域中具有改进图像质量的第一视频410、在包括人的区域中具有改进图像质量的第二视频420、在不包括人和建筑物的区域中具有改进图像质量的第三视频430以及所有区域都应用了相同的图像质量的第四视频一起显示。

第一视频410可以是具有第一兴趣区域信息的视频。例如，第一兴趣区域信息可以是将包括建筑物的区域设置为兴趣区域的信息。

第二视频420可以是具有第二兴趣区域信息的视频。例如，第二兴趣区域信息可以是将包括人的区域设置为兴趣区域的信息。

第三视频430可以是具有第三兴趣区域信息的视频。例如，第三兴趣区域信息可以是将不包括人和建筑物的区域设置为兴趣区域的信息。

第四视频440可以是具有第四兴趣区域信息的视频。例如，第四兴趣区域信息可以是未设置兴趣区域的信息。

再次参考图3，在操作S320中，输入设备210可以接收用户输入，该用户输入用于从通过显示器200显示的多个视频中选择任何一个视频。例如，输入设备210可以接收用于选择图4中示出的具有第一兴趣区域信息的第一视频的用户输入。

在操作S330中，处理器130可以基于用于选择图4中所示出的第一视频410的用户输入来将第一兴趣区域信息(例如，将包括建筑物的区域设置为兴趣区域的信息)映射到第一场景(例如，拍摄建筑物和人的场景)，并且可以存储所映射的第一兴趣区域信息。

如果用户选择了图4中所示出的除第一视频410以外的视频(例如，第二视频420)，则处理器130可以将包括在所选择的视频中的兴趣区域信息(例如，第二兴趣区域信息)映射到第一场景，并且可以存储所映射的兴趣区域信息。

在将第一场景的兴趣区域信息存储在第一存储器140中之后，重复执行显示与不同于第一场景的第二场景相对应的多个视频的过程，以便将第二场景的兴趣区域信息存储在第一存储器140中。

结果是，图像编码***10针对多个场景中的每个场景显示多个视频，并选择和接收被用户识别为最佳图像质量的图像，进而在第一存储器140中存储多个场景中的每个场景的兴趣区域信息。

图5是示出根据示例实施例的在视频编码***中对图像进行编码的过程的流程图。图6和图7是用于解释根据一些示例实施例的在编码器中划分兴趣区域和非兴趣区域的方法的示例的视图。关于图5至图7，将不重复那些与已参考图1至图4描述的内容相重叠的内容，而将主要描述差别。

为便于解释，在下文中，关于图5至图7，将做出以下假设来描述示例实施例，假设将包括建筑物的区域设置为第一场景(例如，拍摄建筑物和人的场景)的兴趣区域的第一兴趣区域信息被映射并存储在第一存储器140中，以及将包括花的区域设置为第二场景(例如，拍摄建筑物和花的场景)的兴趣区域的第二兴趣区域信息被映射并存储在第一存储器140中。此外，将做出以下假设来描述示例实施例，假设在第一存储器140中仅存储了第一场景的第一兴趣区域信息和第二场景的第二兴趣区域信息。

参考图5，在操作S410中，包括在视频编码***10中的视频源50可以接收输入视频。

在操作S420中，包括在视频编码装置100中的NPU300可以识别输入视频的场景，并且可以从第一存储器140中提取与输入视频的场景相对应的兴趣区域信息。

在操作S430中，分割单元121可以将包括在输入视频中的当前帧划分为多个帧。例如，分割单元121可以将包括在当前帧中的多个块划分为与兴趣区域(ROI)相对应的第一块和与非兴趣区域(非ROI)相对应的第二块。

作为示例，参考图6，当当前帧610的第一区域611包括建筑物，其第二区域612包括人，并且其第三区域613不包括建筑物和人时，NPU300可以将当前帧610识别为与第一场景相对应的帧。NPU300可以从第一存储器140中提取与第一场景相对应的第一兴趣区域信息。此外，分割单元121可以基于第一兴趣区域信息，将包括在第一区域611中的至少一个第一块设置为兴趣区域(ROI)，并且可以将包括在当前帧610的第二区域612和第三区域613中的至少一个第二块设置为非兴趣区域(非ROI)。

作为另一示例，参考图7，当当前帧620的第一区域621包括建筑物，其第二区域622包括花，并且其第三区域623不包括建筑物和花时，NPU300可以将当前帧620识别为与第二场景相对应的帧。NPU300可以从第一存储器140中提取与第二场景相对应的第二兴趣区域信息。此外，分割单元121可以基于与第二场景相对应的第二兴趣区域信息，将包括在第二区域622中的至少一个第一块设置为兴趣区域(ROI)，并且可以将包括在当前帧620的第一区域621和第三区域623中的至少一个第二块设置为非兴趣区域(非ROI)。

根据一些示例实施例，在多个场景中的每个场景的兴趣区域信息(例如，第一兴趣区域信息和第二兴趣区域信息)被存储在第一存储器140中的状态下，可以通过视频源50接收存储在第一存储器140中的多个场景中未包括的场景的输入视频。在这种情况下，当输入视频的场景未包括在多个存储的场景中时，可以不将输入视频划分为兴趣区域和非兴趣区域。即，分割单元121将当前帧划分为多个块，但可以不将多个块划分为与兴趣区域相对应的块和与非兴趣区域相对应的块。

根据一些示例实施例，在多个场景中的每个场景的兴趣区域信息(例如，第一兴趣区域信息和第二兴趣区域信息)被存储在第一存储器140中的状态下，当通过视频源50接收了未包括在该多个场景中的场景的输入视频时，分割单元121可以将与包括特定对象(例如，脸)的区域相对应的块设置为与兴趣区域相对应的块，并且还可以将与不包括特定对象的区域相对应的块设置为与非兴趣区域相对应的块。

根据一些示例实施例，在多个场景中的每个场景的兴趣区域信息(例如，第一兴趣区域信息和第二兴趣区域信息)被存储在第一存储器140中的状态下，当通过视频源50接收了未包括在该多个场景中的场景的输入视频时，分割单元121可以将具有比期望的(或作为备选，预设的)纹理值小的纹理值的块设置为与兴趣区域相对应的块，并且还可以对多个块中的排除了与兴趣区域相对应的块之外的块进行设置。

再次参考图5，在操作S440中，速率控制模块124可以确定与兴趣区域相对应的第一块的第一量化参数值和与非兴趣区域相对应的第二块的第二量化参数值。这里，第一量化参数值可以大于第二量化参数值。

在操作S450中，压缩模块123可以通过使用第一量化参数值和第二量化参数值对当前帧执行编码操作来形成压缩数据。

根据一些示例实施例，在形成压缩数据之后，熵编码单元128可以对压缩数据进行熵编码以形成比特流。由熵编码单元128形成的比特流可以被存储在第二存储器220中。

根据一些示例实施例，NPU300可以基于用户输入更新存储在第一存储器140中的兴趣区域信息。将参考图8至图10描述其细节。

图8是示出根据示例实施例的在视频编码***中基于用户输入来更新存储在第一存储器中的兴趣区域信息的方法的流程图。图9是用于解释根据示例实施例的在视频编码***中基于用户输入来更新存储在第一存储器中的兴趣区域信息的方法的示例的视图。关于图8和图9，将不重复那些与已参考图1至图8描述的内容相重叠的内容，而将主要描述差别。

参考图8，在操作S510中，显示器200可以显示与第一场景相对应的视频。这里，在显示器200上显示的视频可以是存储在第二存储器220中的比特流(如图5中所描述)被解码的视频。为便于解释，将做出以下假设来描述示例实施例，假设第一兴趣区域信息被映射在第一场景中。

在操作S520中，输入设备210可以在显示与第一场景相对应的视频的状态下接收用户输入。

作为示例，用户输入可以是当显示与第一场景相对应的视频时，通过用户凝视所显示的视频中的区域而进行的输入。

作为另一示例，用户输入可以是当显示与第一场景相对应的视频时，用户选择所显示的视频中的区域的触摸输入。

作为另一示例，用户输入可以是当显示与第一场景相对应的视频时，用户放大或缩小所显示的视频中的区域的输入。

在操作S530中，NPU300可以基于用户输入来更新与第一场景相对应的第一兴趣区域信息。

作为示例，参考图9，当显示与第一场景相对应的视频时，输入设备210可以接收针对所显示的视频中的区域的用户输入(例如，用于触摸、放大或缩小所显示的视频中的区域的输入)。在这种情况下，输入设备210可以将关于用户输入的信息传送到NPU300。NPU300可以基于关于用户输入的信息来识别关于感测到用户输入的区域的信息。此外，NPU300可以基于识别的信息来更新映射到第一场景的第一兴趣区域信息。例如，当感测到用户输入的区域是包括人的区域时，NPU300可以更新(修改)第一兴趣区域信息，使得包括人的区域为兴趣区域。

作为另一示例，尽管在附图中未示出，但是当显示与第一场景相对应的视频时，输入设备210可以将关于凝视所显示的视频中的区域的用户的眼睛的信息传送到NPU300。NPU300可以基于接收的信息来识别关于用户的眼睛停留在视频中的区域的信息。此外，NPU300可以基于识别的信息来更新映射到第一场景的第一兴趣区域信息。例如，当用户的眼睛停留在视频中的区域是包括人的区域时，NPU300可以更新(修改)第一兴趣区域信息，使得包括人的区域为兴趣区域。

即，NPU300可以通过分析和学习用户的行为模式来更新兴趣区域信息。

图10是用于解释根据示例实施例的NPU的配置的示意性视图。

根据一些示例实施例，NPU300可以包括输入层310、隐藏层320和输出层330。然而，示例实施例不限于此，NPU300可以具有另一配置。

输入层310可以是用于接收数据的层，可以将转换成数据的输入视频输入到输入层310。

隐藏层320可以是根据输入层310和输出层330之间的相关性适当调整的层。隐藏层320可以是用于使用兴趣区域信息分配并存储乘以输入数据的权重值的层。存储在第一存储器140中的兴趣区域信息可以是关于与输入数据相乘的权重值的信息。

输出层可以包括关于训练结果的信息。

NPU300可以将输入数据乘以包括在隐藏层320中的权重值以输出结果值。此时，输出数据可以与给定的目标输出值不同。在这种情况下，NPU300可以使用目标输出值与当前输出值之间的误差来更新隐藏层320中的权重值。

因此，NPU320可以通过连续地更新隐藏层320中的权重值来发现并学习用户设置兴趣区域的模式和特性。通过NPU300学习的信息可以作为兴趣区域信息存储在第一存储器140中。

尽管已经为了说明的目的公开了一些示例实施例，然而本领域技术人员应认识到，在不脱离所附权利要求的范围和精神的情况下，各种修改、添加和替代是有可能的。

虽然已经参考附图描述了示例实施例，但是本领域的普通技术人员可以理解的是，在不改变本公开的技术构思或本质特征的情况下，本领域普通技术人员可以以其它特定形式来执行本公开。此外，上述示例实施例仅为示例且不限制本公开的权利的范围。

如上所述，上述方法的各种操作可以通过能够执行操作的任何合适的装置来执行，诸如各种硬件和/或软件组件、电路和/或模块。

软件可以包括用于实现逻辑功能的可执行指令的有序列表，并且可以体现为由指令执行***、装置或设备(诸如单核或多核处理器或包含处理器的***)使用或与其结合使用的任何“处理器可读介质”。

结合本文中所公开的示例实施例描述的方法或算法和功能的操作可以直接体现为硬件、由处理器执行的软件模块或其二者的组合。如果以软件实现，则功能可以作为一个或多个指令或代码存储在有形的、非暂时性计算机可读介质上或通过其传输。软件模块可以存在于随机存取存储器(RAM)、闪存、只读存储器(ROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘、CD ROM或现有技术中已知的任何其他形式的存储介质中。

Claims

1.一种视频编码装置，包括：

存储器，被配置为存储针对多个场景中的每个场景的兴趣区域信息；以及

处理器，被配置为：

通过以下操作来对从所述存储器接收的输入视频的当前帧进行编码以生成压缩数据：

尝试从多个场景中识别所述输入视频中的场景，所述场景包括基于所述兴趣区域信息设置的兴趣区域和非兴趣区域，

响应于识别出所述输入视频中的场景，提取与从所述多个场景中识别出的所述输入视频中的场景相对应的兴趣区域信息，

响应于未识别出所述输入视频中的场景，将所述当前帧所包括的多个块中具有小于设定值的纹理值的块设置为与所述兴趣区域相对应的第一块，并将所述多个块中排除了所述第一块之外的块设置为与所述非兴趣区域相对应的第二块，以及

基于为所述场景设置的所述兴趣区域和所述非兴趣区域对所述当前帧进行编码，以生成压缩数据；以及

通过以下操作来基于用户输入更新存储在所述存储器中的所述兴趣区域信息：

基于针对所述场景的兴趣区域信息中的第一兴趣区域信息来显示所述输入视频，

接收用于选择针对所述场景的兴趣区域信息中的第二兴趣区域信息的用户输入，

基于所述用户输入，将针对所述场景的兴趣区域信息中的所述第二兴趣区域信息映射到所述输入视频，以及

将兴趣区域信息中的所述第二兴趣区域信息存储在所述存储器中。

2.根据权利要求1所述的视频编码装置，其中，所述处理器还被配置为：

将包括在所述输入视频中的当前帧划分为多个块，

基于所述兴趣区域信息，将所述多个块划分为与兴趣区域相对应的第一块和与非兴趣区域相对应的第二块，

确定所述第一块的第一量化参数值和所述第二块的第二量化参数值；以及

基于所述第一量化参数值和所述第二量化参数值对所述当前帧进行编码以生成压缩数据。

3.根据权利要求1所述的视频编码装置，其中，所述处理器被配置为通过以下操作来提取所述兴趣区域信息：

如果所述输入视频对应于场景，则提取针对所述场景映射的兴趣区域信息中的所述第二兴趣区域信息。

4.根据权利要求1所述的视频编码装置，其中，所述处理器被配置为：

基于用户凝视信息和用户输入信息中的至少一个来接收用于选择针对所述场景的兴趣区域信息中的第二兴趣区域信息的用户输入。

5.一种视频编码装置，包括：

处理器，被配置为：

尝试从多个场景中识别输入视频中的场景，所述场景包括基于所述兴趣区域信息设置的兴趣区域和非兴趣区域，响应于识别出所述输入视频中的场景，从所述存储器中提取与从所述多个场景中识别出的所述输入视频中的场景相对应的兴趣区域信息，将包括在所述输入视频中的当前帧划分为多个块，基于所述兴趣区域信息，将所述多个块划分为与兴趣区域相对应的第一块和与非兴趣区域相对应的第二块，

响应于未识别出所述输入视频中的场景，将所述当前帧所包括的多个块中具有小于设定值的纹理值的块设置为与所述兴趣区域相对应的第一块，并将所述多个块中排除了所述第一块之外的块设置为与所述非兴趣区域相对应的第二块，

确定所述第一块的第一量化参数值和所述第二块的第二量化参数值，

基于所述第一量化参数值和所述第二量化参数值对所述当前帧进行编码以生成压缩数据，以及

6.根据权利要求5所述的视频编码装置，其中，所述处理器被配置为：

如果所述输入视频对应于所述场景，则提取映射在所述场景中的兴趣区域信息中的所述第二兴趣区域信息，以及

基于兴趣区域信息中的所述第二兴趣区域信息确定所述第一块和所述第二块。

7.一种视频编码***，包括：

视频源，被配置为传送输入视频；

视频编码装置，包括：

第一存储器，被配置为存储针对多个场景中的每个场景的兴趣区域信息，以及

处理器，被配置为：

响应于识别出所述输入视频中的场景，从所述第一存储器提取与从所述多个场景中识别出的所述输入视频中的场景相对应的兴趣区域信息，将包括在所述输入视频中的当前帧划分为多个块，基于所述兴趣区域信息，将所述多个块划分为与兴趣区域相对应的第一块和与非兴趣区域相对应的第二块，

将兴趣区域信息中的所述第二兴趣区域信息存储在所述存储器中；以及

第二存储器，被配置为存储比特流，所述比特流基于所述压缩数据被熵编码。

8.根据权利要求7所述的视频编码***，其中，所述第二存储器被配置为：

存储与所述场景相关联的具有兴趣区域信息中的所述第一兴趣区域信息的第一视频，以及

存储与所述场景相关联的具有兴趣区域信息中的所述第二兴趣区域信息的第二视频。

9.根据权利要求8所述的视频编码***，还包括：

显示设备，被配置为根据预测试命令，显示存储在所述第二存储器中的所述第一视频和所述第二视频。

10.根据权利要求9所述的视频编码***，其中，所述处理器被配置为：

11.根据权利要求7所述的视频编码***，其中，

所述第一存储器被配置为存储兴趣区域信息中的所述第一兴趣区域信息和兴趣区域信息中的所述第二兴趣区域信息，

所述第二存储器被配置为存储与所述场景相关联的具有兴趣区域信息中的所述第一兴趣区域信息的第一视频、以及与所述场景相关联的具有兴趣区域信息中的所述第二兴趣区域信息的第二视频，以及

所述处理器被配置为基于显示所述第二视频时针对所述第二视频的用户凝视信息和针对所述第二视频的用户输入信息中的至少一个来选择所述第二兴趣区域信息。