CN116760988A

CN116760988A - 基于人类视觉***的视频编码方法和装置

Info

Publication number: CN116760988A
Application number: CN202311040723.XA
Authority: CN
Inventors: 邵明凯; 舒晓; 李想; 殷婷
Original assignee: Hanbo Semiconductor Shanghai Co ltd
Current assignee: Hanbo Semiconductor Shanghai Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-09-15
Anticipated expiration: 2043-08-18
Also published as: CN116760988B

Abstract

本发明提供了一种基于人类视觉***的视频编码方法和装置。其中，该方法包括根据编码器的码控算法获得目标视频帧的帧级量化参数值，以及根据感兴趣区域识别与帧级量化参数值获得内块级量化参数值；根据目标视频帧的原始数据以及编码器的类型，获得与目标视频帧对应的块级主观质量饱和最小量化参数值；然后将感兴趣区域识别模块给出的编码方案与饱和质量模块给出的编码方案进行比较以获得目标编码量化参数值，采用目标编码量化参数值对目标视频帧进行视频编码并输出码流。本发明所提供的技术方案能够判断视频主观质量达到饱和时的最低量化参数值，从而对量化参数值的调整进行限制，从而避免码率浪费并提升整体的视频质量。

Description

基于人类视觉***的视频编码方法和装置

技术领域

本发明涉及视频编码技术领域，尤其涉及一种基于人类视觉***的视频编码方法和装置。

背景技术

基于主观感兴趣区域（Region of interest，ROI）编码是一种被广泛使用的提升视频主观质量的编码方案。这种编码方案能够利用人眼主观存在感兴趣区域和非感兴趣区域的特点，对两类区域的码率分配做一定的修正。具体而言，对图像中人眼感兴趣的区域减少量化参数值（Quantization Parameter，QP），分配更多码率以提升画面质量；对人眼不感兴趣的区域增加量化参数值，分配更少码率。基于ROI的视频编码能够在不增加带宽和存储空间的前提下，整体上提升视频的主观质量。

在实现上，基于感兴趣区域的视频编码通常分为感兴趣区域识别提取主观感兴趣区域与基于主观感兴趣区域进行视频编码两个步骤。

提取主观感兴趣区域可以通过眼动仪收集实际用户的眼动数据，或者使用基于人工智能的网络模型来判断图像各个区域的重要程度。基于主观感兴趣区域进行视频编码则是通过编码器的自适应量化（Adaptive Quantization，AQ）功能调整各个区域的量化参数值来实现。即，对不同的主观感兴趣区域和非感兴趣区域做不同的量化参数值调整，量化参数值越小，则质量越好，码率也会越高；而量化参数值越大，则宏块得到的码率越小，画质也越差。通过上述调整，能够实现感兴趣区域的权重调整。

然而，现有技术基于感兴趣区域的视频编码方案中，感兴趣区域识别与视频编码是相互独立的两个过程。感兴趣区域识别仅能够对原始图像进行分析，无法考虑后续编码过程对最终主观质量的影响；而视频编码也仅是简单依据感兴趣区域识别的结果，简单地来提升感兴趣区域质量并降低非感兴趣区域的质量。这就导致，当量化参数值足够低（即视频质量足够高）时，继续降低量化参数值（即提升编码质量）虽然会提升码率但对主观质量的改善十分有限，从而在感兴趣区域浪费了过多码率。

发明内容

鉴于此，本发明提供了一种基于人类视觉***的视频编码方法和装置，以用于解决现有技术中的上述技术问题。

根据本发明的一个方面，提供了一种基于人类视觉***的视频编码方法，该方法包括将输入视频中的每一帧作为目标视频帧，目标视频帧包括多个预设编码块，依次执行以下步骤：

S1：根据编码器的码控算法获得目标视频帧的帧级量化参数值；

S2: 根据感兴趣区域识别以及帧级量化参数值获得目标视频帧的内块级量化参数值；

S3：根据目标视频帧的原始数据以及编码器类型，获得与目标视频帧对应的块级主观质量饱和最小量化参数值；

S4：采用目标编码量化参数值对目标视频帧进行视频编码并输出码流，其中目标视频帧中每一预设编码块的目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。

根据本发明的另一个方面，提供了一种基于人类视觉***的视频编码装置，该装置包括将输入视频中的每一帧作为目标视频帧，目标视频帧包括多个预设编码块，依次执行以下模块：

编码器码率控制模块，被配置为根据编码器的码控算法获得目标视频帧的帧级量化参数值；

感兴趣区域识别模块，被配置为根据感兴趣区域识别以及帧级量化参数值获得目标视频帧的内块级量化参数值；

饱和质量模块，被配置为根据目标视频帧的原始数据以及编码器类型，获得与目标视频帧对应的块级主观质量饱和最小量化参数值；

视频编码模块，被配置为采用目标编码量化参数值对目标视频帧进行视频编码并输出码流，其中目标视频帧中每一编码块的目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。

根据本发明的再另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，使处理器执行上述的方法。

从以上技术方案可以看出，本发明所提供的技术方案至少存在以下优点：

本发明所提供的技术方案能够根据给定的输入视频帧和编码器类型（例如H264/H265/AV1等），判断视频主观质量达到饱和时的最低量化参数值，从而对感兴趣区域量化参数值的调整进行限制，避免了因分配额外码率到主观质量已经接近饱和的区域而导致的码率浪费，也提升了整体的视频质量。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，但并不构成对本发明技术方案的限制。

图1示出了本发明示例性实施例所提供的方法的流程图；

图2示出了本发明示例性实施例所提供的装置的结构框图；

图3示出了本发明示例性实施例所提供的方法中采用的基于人工智能网络的人类视觉***模型；

图4示出了本发明示例性实施例所提供的另一装置的结构框图；

图5示出了本发明示例性实施例所提供的的电子设备的结构框图。

具体实施方式

下面将参照附图来详细描述本发明的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，并不作为对本发明及其应用或使用的任何限制。本发明可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本发明透彻且完整，并且向本领域技术人员充分表达本发明的范围。

除非上下文明确表明，如果未特意限定要素的数量，则该要素可以是一个或多个。如本说明书使用的，术语“多个/若干/这些”意指两个或更多，术语“基于/根据”应解释为“至少部分地基于/根据”。此外，术语“和/或”以及“…中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。

请参考图1，其示出了本发明示例性实施例所提供的方法的流程图。

本发明的一个方面提供了一种基于人类视觉***的视频编码方法，其中，该方法包括将输入视频中的每一帧作为目标视频帧，其中目标视频帧包括多个预设编码块，依次执行以下步骤：

S3：根据目标视频帧的原始数据以及编码器的类型，获得与目标视频帧对应的块级主观质量饱和最小量化参数值；

由于人眼对具有不同复杂度、亮度、对比度的区域的敏感程度不同，所以在观看视频时，对其中每一目标视频帧中的不同区域的主观质量饱和阈值也不同。本发明所提供的技术方案在传统感兴趣区域编码方案的基础上引入了块级主观质量饱和最小量化参数值，从而能够调整感兴趣区域量化参数权重，在整体上优化主观视频质量并避免了过多浪费码率的问题。

块级主观质量饱和最小量化参数值（HVS_min_QP）是指，在这个最小量化参数值以上的量化参数值改变会导致人眼主观上感知到明显的视频质量变化，而在这个最小量化参数值以下的量化参数值改变化并不会、或者很难使得人眼主观上感知到视频质量的提升。块级主观质量饱和最小量化参数值通过预先训练好的以包括目标视频帧的视频帧原始数据（即视频帧raw数据，视频帧未经处理的原始的图像数据）、编码器类型（包括但不限于H.264视频编码器、H.265视频编码器、AV1视频编码器）作为输入参数的基于人工智能网络的人类视觉***模型的训练数据集生成。

量化参数值可以在各种级别（例如帧级别、片级别或块级别）上变化。帧级量化参数值（frame_QP）是每一目标视频帧的量化参数值，目标视频帧的帧级量化参数值可以基于目标码率以及目标视频帧的复杂程度获得。

在正常的视频编码流程中，主要是码率控制算法根据目标视频帧中内容的易压缩程度来自适应地选择量化参数值以达到目标码率。当量化参数值在块级别上变化时，对于每个预设编码块，其内块级量化参数值（ROI_delta_QP）为基于感兴趣区域算法结果推算出来的内块级量化参数的调整幅度。

基于感兴趣区域算法基于人类视觉***的特性，通过在人眼敏感区域采用较高的量化精度，而在人眼不敏感区域采用较低的量化精度的方式，能够达到在相同目标码率的情况下提升主观视觉质量的目的。即，当感兴趣区域算法识别为重要的区域时，其内块级量化参数值为负值，以提升质量，当感兴趣区域算法识别为不重要的区域时，其内块级量化参数值为正值，以降低质量。内块级量化参数值是一个相对调整量，最终编码时采用的量化值为帧级量化参数值与内块级量化参数值之和。

用于获得块级主观质量饱和最小量化参数值的训练数据集通过以下方式获得：

S30：获得视频帧原始数据以及编码器类型；

S31：将目标视频帧划分为多个预设编码块，分别获得多个预设编码块中的每一个所对应的预设编码块原始数据，并针对多个预设编码块中的每一个分别执行以下步骤：

S310：在编码器类型下，使用不同的固定量化参数值进行编码，以获得与不同的固定量化参数值相对应的多个固定编码结果；

S320：对多个固定编码结果进行画质比较，找出其中画质不低于人眼主观质量饱和程度时所对应的最小固定量化参数值，并将最小固定量化参数值作为块级主观质量饱和最小量化参数值；

S330：获得多组包括视频帧原始数据、预设编码块原始数据、编码器类型和块级主观质量饱和最小量化参数值的数据集，作为训练数据集。

本发明S320中画质比较的方式包括人眼主观对比方式和/或客观指标对比方式。即，通过人工对比评估或借助例如、但不限于最小可觉差（Just Noticeable Distortion，JND）等客观计算指标，能够判断并确定人眼主观质量饱和程度。其中，人眼主观对比方式即测试人员依次观看采用不同量化参数值编码后的结果，并找出当人眼无法分辨相邻量化参数值编码质量区别时的量化参数值。客观计算指标对比即比较相量化参数值编码后的结果并找到满足客观计算指标所定义的主观饱和质量的量化参数值。

举例而言，客观计算指标对比可使用常用的ITU PEVQ（Perceptual Evaluationof Video Quality）标准。PEVQ对视频画质的打分分数范围为1至5，其中1表示画质最差，5表示画质无损或人眼无法识别损坏的区别。在本发明中，可以从高到低计算相邻量化参数值对（QP_n, QP_n-1）的输出结果之间的PEVQ分数。如果PEVQ分数小于5，则继续计算相邻更小量化参数值对(QP_n-1, QP_n-2)结果的PEVQ分数。如果PEVQ的分数为5，那么QP_n-1就是我们需要找的最小量化参数值。

以下部分将以基于H.265视频编码器的感兴趣区域视频编码对本发明所提供的技术方案进行说明。然而以下说明仅是示例性的，本发明并不限于此。H.265编码标准下进行量化参数值调整的编码块尺寸包括8×8、16×16、32×32、64×64等，其中8×8为进行量化参数值调整的最小编码块。并且本领域技术人员知晓，编码块尺寸越小，则画质调整越精细。以下部分将采用8×8的编码块划分为例进行说明。

首先，根据编码器的码控算法计算出目标视频帧的帧级量化参数值frame_QP。

然后，使用感兴趣区域检测算法（包括但不限于借助基于布尔图的显著性检测模型、基于四元傅里叶图像变化检测视觉显著性等）计算出目标视频帧中各个8×8区域的重要性权重，并将权重值转换为各个8×8编码块的内块级量化参数值（量化参数值偏移值）。重要性越高的编码块其量化参数值偏移值越小，重要性越低的编码块其量化参数值偏移值越大。

接着，将目标视频帧输入本发明所提供的基于人工智能网络的人类视觉***模型，根据目标视频帧的原始数据以及编码器类型，则能够获得目标视频帧中每个8×8编码块的块级主观质量饱和最小量化参数值HVS_min_QP。

然后，在对目标视频帧进行实际编码的过程中，针对目标视频帧中每个8×8编码块分别通过block_QP = max(frame_QP+ROI_delta_QP, HVS_min_QP)获得目标编码量化参数值并对每个8×8编码块进行编码，即目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。然后，输出编码后的视频码流。

上述步骤S3中所用到的基于人工智能网络的人类视觉***模型可以通过下列步骤来训练生成：

针对某一目标视频帧，使用不同的固定量化参数值进行H.265编码，优选地可以使用所有可能的量化参数值；

针对目标视频帧中的每一个编码块，对比使用不同量化参数值编码获得的结果，找出主观质量达到饱和时的最小量化参数值；

在足够多的视频源收集包括[视频帧原始数据、预设编码块原始数据、编码器类型和块级主观质量饱和最小量化参数值]的组合的数据集，即可利用该数据集来训练针对H.265编码标准的基于人工智能网络的人类视觉***模型。

其中，“足够多的视频源”是指利用多种不同类型的视频编码器，对于每一种编码器类型分别用不同量化参数值依次训练多个不同视频源中的一个，然后获得多种编码器类型针对多个不同视频源各自的结果。

请参考图2至图3，其分别示出了本发明示例性实施例所提供的装置的结构框图以及所采用的基于人工智能网络的人类视觉***模型。

本发明的另一个方面提供了一种基于人类视觉***的视频编码装置，该装置包括将输入视频中的每一帧作为目标视频帧，目标视频帧包括多个预设编码块，依次执行以下模块：

视频编码模块，被配置为采用目标编码量化参数值对目标视频帧进行视频编码并输出码流，其中目标视频帧中每一预设编码块的目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。

如图3所示，本发明所提供的基于人工智能网络的人类视觉***模型左侧输入端的输入参数包括目标视频帧的视频帧原始数据以及编码器类型，右侧输出端的输出参数即为块级主观质量饱和最小量化参数值。当装置运行时，饱和质量模块将从人类视觉***模型左侧收到的有关目标视频帧的参数输入这个预先训练好的模型，则能够从右侧得出相对应的最小量化参数值并进行传递给视频编码模块以进行后续视频编码。

应当理解，图2中所示的装置可以与本说明书前文描述图1中的方法相对应。由此，上面针对方法描述的操作、特征和优点同样适用于该装置及其包括的模块；上面针对装置及其包括的模块描述的操作、特征和优点同样适用于该方法。为简洁起见，实质相同/相似的操作、特征和优点在此不再赘述。

此外如图4所示的本发明另一优选实施例中采用装置的结构框图，由于视频内容的运动大小也对人眼主观质量感受存在较大影响，所以本发明所提供的技术方案还可以将时域帧间变化信息加入到基于人工智能网络的人类视觉***模型中，即，在模型中不仅考虑目标帧的特性，也考虑到目标帧与其前一帧之间的变化，从而可以进一步提升模型预测的准确度以及提升视频主观质量。

帧间变化信息主要是用到当前的目标编码帧和前一帧之间的运动信息，所以不会引入额外的编码延迟。由于在对当前的目标编码帧进行编码时已经执行过运动估计，因此考虑帧间变化信息时可以直接复用已有的运动向量信息（motion vectors）。此时，最小量化参数值HVS_min_QP的计算过程与前述实施例中类似，仍然基于人工智能网络的人类视觉***模型进行预测，区别仅是在前述人工智能网络的人类视觉***模型的输入端增加了运动向量信息的输入，其他实质相同的步骤在此不再赘述。

具体而言，如图4所示，在该优选实施例中，视频编码装置包括感兴趣区域识别模块、饱和质量模块以及运动估计模块。其中，运动估计模块可以根据运动向量信息进行目标视频帧与其前一帧之间的帧间运动估计，从而获得前一帧上与目标视频帧之间的相对位移，即运动矢量。运动估计模块得出的运动矢量数据集将输出给视频编码模块，以用于确定块级主观质量饱和最小量化参数值。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本发明技术方案中各个模块的功能也可以分为多个模块进行实现，和/或多个模块的至少一些功能可以组合成单个模块进行实现。本发明技术方案中特定模块执行动作的方式包括，该特定模块本身执行动作，或者由该特定模块调用或以其他方式访问执行动作（或结合该特定模块一起执行动作）。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。

除上述技术方案外，本发明还提供了一种电子设备，该电子设备包括一个或多个处理器以及用于存储可执行指令存储器。其中，该一个或多个处理器被配置为经由可执行指令来实现上述方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，使得处理器执行上述方法。在本说明书的以下部分，将结合图5来描述前述电子设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。

图5示出了本发明示例性实施例所提供的的电子设备的结构框图。本发明技术方案所提供的装置也可以全部或至少部分地由电子设备300或类似设备或装置实现。

电子设备300可以是各种不同类型的设备。电子设备300的示例包括但不限于：台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备、可穿戴设备、娱乐设备、电视或其他显示设备、汽车计算机等。电子设备300可以包括能够诸如通过***总线311或其他适当的连接彼此通信的至少一个处理器302、存储器304、（多个）通信接口309、显示设备301、其他输入/输出（I/O）设备310以及一个或更多大容量存储设备303。

处理器302可以是单个或多个处理单元，所有处理单元可以包括单个或多个计算单元或多个核心。处理器302可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外，处理器302可以被配置成获取并且执行存储在存储器304、大容量存储设备303或其他计算机可读介质中的计算机可读指令，如操作***305、应用程序306、其他程序307的程序代码等。

存储器304和大容量存储设备303是用于存储指令的计算机可读存储介质的示例，指令由处理器302执行来实施前面所描述的各种功能。举例来说，存储器304一般可以包括易失性存储器和非易失性存储器。此外，大容量存储设备303一般可以包括硬盘驱动器、固态驱动器、可移除介质等。存储器304和大容量存储设备303在本发明中都可被统称为存储器或计算机可读存储介质，并且可以是能将计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可由处理器302作为被配置成实施本发明示例中所描述的操作和功能的特定机器来执行。

多个程序可以存储在大容量存储设备303上。这些程序包括操作***305、一个或多个应用程序306、其他程序307和程序数据308，并且它们可以被加载至存储器304以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑（例如，计算机程序代码或指令）：本申请所提供的方法（包括该方法的任何合适的步骤）和/或本申请描述的另外的实施例。

虽然在图5中被图示成存储在电子设备300的存储器304中，但是操作***305、一个或多个应用程序306、其他程序307和程序数据308或其部分可以使用可由电子设备300访问的任何形式的计算机可读介质来实施。计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个***传送到另一***的介质。通信介质可包括有导的传输介质，以及能传播能量波的无线介质。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质中的已调制数据信号。调制可以是模拟的、数字的或混合调制技术。

计算机可读存储介质可包括以用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括但不限于，易失性存储器、非易失性存储器；、磁性和光学存储设备；或其它已知的介质或今后开发的能够存储供计算机***使用的计算机可读信息/数据。

一个或更多个通信接口309用于通过网络、直接连接等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个：任何类型的网络接口、有线或无线接口、Wi-MAX接口、以太网接口、通用串行总线接口、蜂窝网络接口、Bluetooth接口、NFC接口等。通信接口309可以促进在多种网络和协议类型内的通信，其中包括有线网络和无线网络、因特网等。通信接口309还可提供与存储阵列、网络附属存储、存储区域网等中的外部存储设备（图中未示出）的通信。

在一些示例中，可以包括如监视器之类的显示设备301，以用于向用户显示信息和图像。其他I/O设备310可以是接收来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等。本发明描述的技术方案可以由电子设备300的这些各种配置来支持，并且不限于本发明所描述的技术方案的具体示例。

虽然在附图和前面的描述中已经详细地说明和描述了本发明，但这样的说明和描述应当被认为是说明性的和示意性的，而非限制性的；对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，本发明所要求保护的范围由权利要求而非上述说明限定，落在权利要求的等同要件的含义和范围内的所有变化均涵盖在本发明的保护范围内。

Claims

1.一种基于人类视觉***的视频编码方法，其特征在于，所述方法包括将输入视频中的每一帧作为目标视频帧，所述目标视频帧包括多个预设编码块，依次执行以下步骤：

S1：根据编码器的码控算法获得所述目标视频帧的帧级量化参数值；

S2: 根据感兴趣区域识别以及所述帧级量化参数值获得所述目标视频帧的内块级量化参数值；

S3：根据所述目标视频帧的原始数据以及所述编码器的类型，获得与所述目标视频帧对应的块级主观质量饱和最小量化参数值；

S4：采用目标编码量化参数值对所述目标视频帧进行视频编码并输出码流，其中所述目标视频帧中每一预设编码块的目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。

2.根据权利要求1所述的基于人类视觉***的视频编码方法，其特征在于，所述块级主观质量饱和最小量化参数值通过预先训练好的以包括所述目标视频帧的视频帧原始数据、编码器的类型作为输入参数的基于人工智能网络的人类视觉***模型的训练数据集生成。

3.根据权利要求2所述的基于人类视觉***的视频编码方法，其特征在于，所述训练数据集通过以下方式获得：

S30：获得视频帧原始数据以及编码器类型；

S31：分别获得所述多个预设编码块中的每一个所对应的预设编码块原始数据，并针对所述多个预设编码块中的每一个分别执行以下步骤：

S310：在所述编码器类型下，使用不同的固定量化参数值进行编码，以获得与所述不同的固定量化参数值相对应的多个固定编码结果；

S320：对所述多个固定编码结果进行画质比较，找出其中画质不低于人眼主观质量饱和程度时所对应的最小固定量化参数值，并将所述最小固定量化参数值作为块级主观质量饱和最小量化参数值；

S330：获得多组包括视频帧原始数据、预设编码块原始数据、编码器类型和块级主观质量饱和最小量化参数值的数据集，作为所述训练数据集。

4.根据权利要求3所述的基于人类视觉***的视频编码方法，其特征在于，S320中所述画质比较的方式包括人眼主观对比方式和/或客观指标对比方式。

5.根据权利要求4所述的基于人类视觉***的视频编码方法，其特征在于，所述内块级量化参数值为根据感兴趣区域识别获得的调整值。

6.根据权利要求5所述的基于人类视觉***的视频编码方法，其特征在于，所述训练数据集的输入参数还包括帧间变化信息，所述帧间变化信息包括所述目标视频帧与其前一帧之间的相对位移。

7.一种基于人类视觉***的视频编码装置，其特征在于，所述装置包括将输入视频中的每一帧作为目标视频帧，所述目标视频帧包括多个预设编码块，依次执行以下模块：

编码器码率控制模块，被配置为根据编码器的码控算法获得所述目标视频帧的帧级量化参数值；

感兴趣区域识别模块，被配置为根据感兴趣区域识别以及所述帧级量化参数值获得所述目标视频帧的内块级量化参数值；

饱和质量模块，被配置为根据所述目标视频帧的原始数据以及所述编码器的类型，获得与所述目标视频帧对应的块级主观质量饱和最小量化参数值；

视频编码模块，被配置为采用目标编码量化参数值对所述目标视频帧进行视频编码并输出码流，其中所述目标视频帧中每一预设编码块的目标编码量化参数值为以下两个数值中的最大值：帧级量化参数值与内块级量化参数值之和、块级主观质量饱和最小量化参数值。

8.根据权利要求7所述的基于人类视觉***的视频编码装置，其特征在于，所述块级主观质量饱和最小量化参数值通过预先训练好的以包括所述目标视频帧的视频帧原始数据、编码器的类型作为输入参数的基于人工智能网络的人类视觉***模型的训练数据集生成。

9.根据权利要求8所述的基于人类视觉***的视频编码装置，其特征在于，所述装置还包括运动估计模块，所述运动估计模块被配置为获得所述目标视频帧与其前一帧之间的帧间变化信息，所述帧间变化信息包括所述目标视频帧与其前一帧之间的相对位移。

10.根据权利要求9所述的基于人类视觉***的视频编码装置，其特征在于，所述相对位移被输入所述视频编码模块。

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，其用于存储可执行指令；

所述一个或多个处理器被配置为经由所述可执行指令来实现权利要求1至6中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使所述处理器执行权利要求1至6中任一项所述的方法。