CN110087071B

CN110087071B - 基于感知的图像处理装置及相关方法

Info

Publication number: CN110087071B
Application number: CN201910069557.3A
Authority: CN
Inventors: 刘子明; 蔡长宏; 吴东兴; 林嘉莹; 陈立恒; 周汉良; 朱启诚
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2018-01-26
Filing date: 2019-01-24
Publication date: 2021-07-06
Anticipated expiration: 2039-01-24
Also published as: TW201933277A; CN110087071A; TWI729350B

Abstract

本发明公开一种基于感知的图像处理装置包括图像分析电路和应用电路。图像分析电路获得训练数据，根据训练数据设置感知模型，执行至少一帧的对象检测，并至少部分地基于该至少一个帧的对象检测的结果生成对象检测信息信号。应用电路响应于对象检测信息信号而操作。

Description

基于感知的图像处理装置及相关方法

技术领域

本发明有关于一种图像处理，特别是有关于基于感知的图像处理装置和相关方法。

背景技术

智能手机近来越来越受欢迎，同时每天生成大量视频并通过网络传送。当前的语音/视频应用程序将能够保持可接受的体验质量(quality of experience，QoE)，但功耗是影响智能手机的整体感知质量(overall perceived quality)的最重要的关键影响因素之一。视频帧可以在智能手机上编码以进行传送或存储。因此，需要优化视频编码器(例如，视频编码器的功耗)，同时保持视频帧的感知视觉质量(perceived visual quality)。

一个智能手机可配备有一个或多个相机。当相机在操作中时，可以启用自动聚焦(auto-focus，AF)功能以聚焦在用户手动选择的图像区域上，并且可以启用自动曝光(auto-exposure，AE)功能以根据用户手动选择的图像区域的照明条件来设置孔径尺寸和/或快门速度。因此，有需要在没有或较少用户介入(intervention)的情况下执行AF功能和/或AE功能。

发明内容

有鉴于此，本发明提供一种基于感知的图像处理装置和相关方法。

依据本发明一实施方式，提供一种示例性的基于感知的图像处理装置。示例性基于感知的图像处理装置包括图像分析电路和应用电路。图像分析电路用于获取训练数据，根据训练数据设置感知模型，执行至少一帧的对象检测，并至少部分地基于至少一个帧的对象检测的结果生成对象检测信息信号。应用电路用于响应于对象检测信息信号而操作。

依据本发明另一实施方式，提供一种示例性的基于感知的图像处理方法。示例性的基于感知的图像处理方法包括：获得训练数据；根据训练数据设置感知模型；执行至少一个帧的对象检测，并至少部分地基于该至少一个帧的对象检测的结果生成对象检测信息信号；根据对象检测信息信号控制应用电路。

对于已经阅读后续由各附图及内容所显示的较佳实施方式的本领域的技术人员来说，本发明的各目的是明显的。

附图说明

图1是根据本发明的实施例的基于感知的图像处理装置的示意图。

图2是根据本发明的实施例的第一种图像分析电路的示意图。

图3是根据本发明的实施例的一个视觉感知图(visual perception map)的生成的示意图。

图4是根据本发明的实施例的具有不同分辨率设置的多个视觉感知图的示意图。

图5是根据本发明的实施例的具有不同级别设置的多个视觉感知图的示意图。

图6是根据本发明的实施例的第一种主观感知处理场景的示意图。

图7是根据本发明的实施例的第二种主观感知处理场景的示意图。

图8是根据本发明的实施例的第三种主观感知处理场景的示意图。

图9是根据本发明的实施例的第二种图像分析电路的示意图。

图10是根据本发明的实施例的第三种图像分析电路的示意图。

图11是根据本发明的实施例的日常使用模式的操作的示意图。

图12是根据本发明的实施例的个人人工智能(artificial intelligence，AI)模式的操作的示意图。

图13是根据本发明的实施例的关注意识(attention aware)视频编码器的示意图。

图14是根据本发明的实施例的强度图(strength map)的示意图。

图15是根据本发明的实施例的具有自动聚焦功能的图像信号处理器的示意图。

图16是根据本发明的实施例的具有自动曝光功能的图像信号处理器的示意图。

具体实施方式

在权利要求书及说明书中使用了某些词汇来指称特定的组件。所属领域中的技术人员应可理解，硬件制造商可能会用不同的名词来称呼同样的组件。本权利要求书及说明书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。在权利要求书及说明书中所提及的「包括」为开放式的用语，故应解释成「包括但不限定于」。另外，「耦接」一词在此包括任何直接及间接的电气连接手段。因此，若文中描述第一装置耦接于第二装置，则代表所述第一装置可直接电连接于所述第二装置，或通过其他装置或连接手段间接地电连接至所述第二装置。

图1是根据本发明的实施例的基于感知的图像处理装置的示意图。例如，基于感知的图像处理装置100可以是诸如智能手机的移动设备的一部分。然而，使用所提出的基于感知的图像处理装置100的任何电子设备都落入本发明的范围内。如图1所示，基于感知的图像处理装置100包括图像分析电路102和应用电路104。图像分析电路102被配置为：获得训练数据D_TR，根据该训练数据D_TR设置感知模型(由“M_P”表示)103，执行帧D_IN的对象检测(例如，人类视觉关注(human visual attention)分析)，以及至少部分地基于帧D_IN的对象检测结果生成对象检测信息信号(例如，人类视觉关注信息信号)S_OUT。例如，感知模型103可以是深度学习模型，其中深度学习模型可以根据训练数据D_TR来构建，并且可以在建立深度学习模型后根据更新后的训练数据D_TR来重新校准(即，重新训练)。在本发明的一些实施例中，训练数据D_TR可以从外部传感设备和/或用户数据库获得。对象检测可以指人类视觉关注以从输入帧(例如，图像)F识别一个或多个对象。然而，人类视觉关注分析仅仅是根据感知模型103执行的对象检测的一个示例。在实践中，对象检测取决于由训练数据D_TR训练/重新训练的感知模型103的设计。例如，对象检测可以指人类听觉关注(humanauditory attention)以从输入帧(例如，图像)F中识别一个或多个对象。对于另一个示例，对象检测可以指人类运动/动作以识别一个或多个来自输入帧(例如，图像)F的对象。这些替代设计都落入本发明的范围内。

应用电路104被布置为响应于对象检测信息信号S_OUT而操作。考虑由图像分析电路102执行的对象检测包括人类视觉关注分析的情况。可以执行人类视觉关注分析以预测输入帧(例如，图像)F中的视觉关注区域(例如，视觉接触区域)。因此，对象检测信息信号S_OUT包括输入帧F中的预测的视觉关注区域的信息。当用户实际观看输入帧F时，输入帧F中的视觉关注区域(例如，视觉接触区域)将吸引用户的注意力，使得用户的眼睛被吸引到视觉关注区域(例如，视觉接触区域)。对象检测信息信号S_OUT可以用于指示输入帧F中的视觉关注区域(例如，视觉接触区域)的位置。因此，应用电路104参考由对象检测信息信号S_OUT提供的信息，以对输入帧F中的视觉关注区域采取适当的动作。应当注意的是，术语“视觉关注区域”可以表示视觉关注/视觉接触的单个区域或视觉关注/视觉接触的区域的集合，并且术语“非视觉关注区域”可以表示非视觉关注/非视觉接触的单个区域或非视觉关注/非视觉接触的区域的集合。此外，取决于实际设计考虑，输入帧F可以是或可以不是由图像分析电路102分析的帧D_IN之一。

图2是根据本发明的实施例的第一种图像分析电路的示意图。可以使用图2所示的图像分析电路200来实现图1中所示的图像分析电路102。在该实施例中，图像分析电路200包括视觉感知处理电路202和主观(subjective)感知处理电路204。视觉感知处理电路202被布置为通过执行帧D_IN的人类视觉关注分析来生成视觉感知图M_VP。例如，视觉感知处理电路202通过使用深度学习模型(由“M_DL”表示)203来执行人类视觉关注分析。图1中所示的感知模型103可包括图2中所示的深度学习模型203。

在该实施例中，视觉感知处理电路202从一个或多个外部传感设备206获得训练数据D_TR，并根据训练数据D_TR设置深度学习模型203。训练数据D_TR包括与人类视觉关注有关的信息。例如，外部传感设备206可以包括相机，麦克风，触摸传感器，运动传感器(例如，陀螺仪传感器)，和/或生物传感器(例如，脑电图(electroencephalography，EEG)传感器)；并且训练数据D_TR可以包括从相机的输出导出的眼睛跟踪数据(eye tracking data)，从麦克风的输出导出的定向音频数据(directional audio data)，从触摸传感器的输出导出的用户接口(user interface，UI)数据，和/或从生物传感器的输出导出的生理数据(physiological data)。在根据训练数据D_TR构建深度学习模型203之后，可以根据从外部传感设备206提供的更新的训练数据D_TR重新校准/重新训练深度学习模型203。在本发明的一些实施例中，深度学习模型203可以是由具有2个基本特征层，5个VCF特征区块(VFB)和2个VCF检测层的完全卷积神经网络(fully convolutional neural network)实现的视觉-接触-场网络(visual-contact-field network，VCFNet)深度学习模型。然而，这仅用于说明目的，并不意味着是对本发明的限制。深度学习模型203可用于检测用户观看的图像中的人的对焦区域(即，视觉接触区域)和离焦区域(即，非视觉接触区域)。

图3是根据本发明的实施例的一个视觉感知图M_VP的生成的示意图。序列类型可以包括单个帧302和多个帧304。在帧D_IN是单个帧302的情况下，由深度学习模型203处理的单个帧302可以是将被应用电路104处理的输入帧(例如，图像)F。在帧D_IN是多个帧304的另一种情况下，由深度学习模型203处理的多个帧304中的一个可以是将被应用电路104处理的输入帧(例如，图像)F。此外，序列格式可以包括图像数据，对象运动数据，统计数据等。在序列格式是图像数据的情况下，每个帧D_IN可以是图像306。在序列格式是对象运动数据的另一种情况下，每个帧D_IN可以是运动向量图308。

参照图3，通过使用深度学习模型203来处理帧D_IN，以为输入帧F生成视觉感知图M_VP。视觉感知图M_VP的尺寸可以与输入帧F的尺寸相同。即，视觉感知图M_VP和输入帧F具有相同的宽度和相同的高度。在该示例中，视觉感知图M_VP包括第一区域312和第二区域314，其中第一区域312指示输入帧F中的预测的视觉关注区域，并且第二区域314指示输入帧F中的预测的非视觉关注区域。深度学习模型203可以将第一值分配给第一区域312中的每个像素，并且可以将第二值分配给第二区域314中的每个像素，其中第一值不同于第二值。换句话说，视觉感知图M_VP中的第一值的分布意味着在输入帧F中的预测的视觉关注区域的分布，并且视觉感知图M_VP中的第二值的分布意味着输入帧架F中的预测的非视觉关注区域的分布。

图3中所示的视觉感知图M_VP仅用于说明目的，并不意味着是对本发明的限制。实际上，视觉感知图M_VP可以是分辨率可缩放的(resolution scalable)和/或级别可缩放的(level scalable)，这取决于实际的设计考虑因素。图4是根据本发明的实施例的具有不同分辨率设置的多个视觉感知图的示意图。图4的子图(A)示出了具有逐像素分辨率(pixel-wise resolution)的视觉感知图M_VP。区域402指示视觉关注区域，并且由于逐像素分辨率而根据像素403来定义。图4的子图(B)示出了具有逐区块分辨率(block-wise resolution)的视觉感知图M_VP。区域404指示视觉关注区域，并且由于逐区块分辨率而根据区块405来定义。每个区块由MxN像素组成，其中M和N是正整数。图5是根据本发明的实施例的具有不同级别设置的多个视觉感知图的示意图。图5的子图(A)示出了视觉感知图M_VP，其中每个像素由二进制值(即，单个比特值)来设置。因此，属于指示视觉关注区域的区域502的每个像素被分配有一个二进制值(例如，“1”)，并且属于指示非视觉关注区域的区域504的每个像素被分配有另一个二进制值(例如，“0”)。图5的子图(B)示出了视觉感知图M_VP，其中每个像素由多级值(即，多比特值)来设置。因此，属于指示具有最高视觉关注概率的区域的区域512的每个像素被分配有第一级值(例如，两个比特值“11”)，属于指示具有中等视觉关注概率的区域的区域514的每个像素被分配有第二级值(例如，两个比特值“10”)，属于指示最低视觉关注概率区域的区域516的每个像素被分配有第三级值(例如，两个比特值“01”)，并且属于指示非视觉关注区域的区域518的每个像素被分配有第四级值(例如，两个比特值“00”)。

在从图2所示的视觉感知处理电路202生成视觉感知图M_VP之后，随后的主观感知处理电路204被布置为将主观感知分析至少应用于视觉感知图M_VP，并根据主观感知分析的结果确定辅助质量图(auxiliary quality map)M_AQ。辅助质量图M_AQ包含人类视觉关注的信息，并且由对象检测信息信号S_OUT传送。在该实施例中，主观感知处理电路204通过使用主观感知模型(由“M_SP”表示)205来执行主观感知分析。主观感知处理电路204采用的主观感知模型205可以设置一个或多个主观感知指数(subjective perception index)，以控制辅助质量图M_AQ的生成。例如，主观感知处理电路204可以采用第一策略来设置或分配第一主观感知指数，以用于保持编码视频的主观视觉质量，和/或主观感知处理电路204可以采用第二策略来设置或分配第二主观感知指数，以用于节省复杂度，带宽，功率等。主观感知处理电路204的进一步细节描述如下。

根据第一策略，主观感知处理电路204通过检查视觉感知图M_VP中的区域的尺寸来将主观感知分析至少应用于视觉感知图M_VP，其中视觉感知图M_VP中的区域指示相关输入帧F中的预测的视觉关注区域。当视觉感知图M_VP中的区域的尺寸满足预定标准CR1时，辅助质量图M_AQ中的同位区域(co-located region)中的每个像素是根据第一值来设置的。当视觉感知图M_VP中的区域的尺寸不满足预定标准CR1时，辅助质量图M_AQ中的同位区域中的每个像素是根据与第一值不同的第二值来设置的。例如，第一值的分布用于指示预测的视觉关注区域的分布，第二值的分布用于指示预测的非视觉关注区域的分布。

在视觉感知图M_VP中的区域太小的情况下，这意味着相关的输入帧F中的预测的视觉关注区域太小。因此，用户意外地观看相关输入帧F中的预测的非视觉关注区域的概率非常高。换句话说，通过使用深度学习方法预测的小尺寸视觉关注区域(small-sizedvisual attention region)可能与实际吸引用户注意力的视觉关注区域不同。基于以上观察，主观感知处理电路204被设计为去除(remove)视觉感知图M_VP中的小尺寸区域(其指示预测的视觉关注区域)以生成辅助质量图M_AQ。以这种方式，应用电路104的操作不受使用深度学习方法预测的小尺寸视觉关注区域的影响。

在视觉感知图M_VP中的区域太大的另一种情况下，这意味着相关的输入帧F中的预测的视觉关注区域太大。因此，用户意外地观看相关输入帧F中的预测的非视觉关注区域的概率非常低。不需要在输入帧F中区分视觉关注区域和非视觉关注区域。基于上述观察，主观感知处理电路204被设计为去除视觉感知图M_VP中的大尺寸区域(其表示视觉关注区域)以生成辅助质量图M_AQ。以这种方式，应用电路104的操作不受使用深度学习方法预测的大尺寸视觉关注区域的影响。

图6是根据本发明的实施例的第一种主观感知处理场景的示意图。假设视觉感知图M_VP由第一区域602和第二区域604组成，其中第一区域602指示预测的视觉关注区域，并且第一区域602中的每个像素由第一值设置，以及第二区域604表示预测的非视觉关注区域，并且第二区域604中的每个像素由第二值设置。包括在第一区域602中的像素的数量(即，第一区域602的尺寸)等于A。包括在第二区域604中的像素的数量(即，第二区域604的尺寸)等于B。当不等式

为真时，满足预定标准CR1，其中TH_L和TH_H是阈值。如图6所示，第一区域602的尺寸太小，导致

辅助质量图M_AQ的尺寸可以与视觉感知图M_VP的尺寸相同，并且辅助质量图M_AQ可以被视为视觉感知图M_VP的微调版本(fine-tuned version)。由于不满足预定标准CR1，因此主观感知处理电路204设置或分配第一主观感知指数，并融合(fuse)第一主观感知指数和视觉感知图M_VP中的第一区域602，以从辅助质量图M_AQ中移除第一区域602。参照图6，根据第二值设置辅助质量图M_AQ中的同位区域606中的每个像素。

图7是根据本发明的实施例的第二种主观感知处理场景的示意图。假设视觉感知图M_VP由第一区域702和第二区域704组成，其中第一区域702指示预测的视觉关注区域，并且第一区域702中的每个像素由第一值设置，以及第二区域704指示预测的非视觉关注区域，并且第二区域704中的每个像素由第二值设置。包括在第一区域702中的像素的数量(即，第一区域702的尺寸)等于A。包括在第二区域704中的像素的数量(即，第二区域704的尺寸)等于B。当不等式

为真时，满足预定标准CR1，其中TH_L和TH_H是阈值。如图7所示，第一区域702的尺寸既不太小也不太大，结果是

辅助质量图M_AQ的尺寸可以与视觉感知图M_VP的尺寸相同，并且辅助质量图M_AQ可以被视为视觉感知图M_VP的微调版本。由于满足预定标准CR1，因此主观感知处理电路204不设置或分配第一主观感知指数，使得不对第一区域702进行调整。在辅助质量图M_AQ中保留视觉感知图M_VP中的第一区域702。参照图7，根据第一值设置辅助质量图M_AQ中的同位区域706中的每个像素。

图8是根据本发明的实施例的第三种主观感知处理场景的示意图。假设视觉感知图M_VP由第一区域802和第二区域804组成，其中第一区域802指示预测的视觉关注区域，并且第一区域802中的每个像素由第一值设置，第二区域804指示预测的非视觉关注区域，并且第二区域804中的每个像素由第二值设置。包括在第一区域802中的像素的数量(即，第一区域802的尺寸)等于A。包括在第二区域804中的像素的数量(即，第二区域804的尺寸)等于B。当不等式

为真时，满足预定标准CR1，其中TH_L和TH_H是阈值。如图8所示，第一区域802的尺寸太大，导致

辅助质量图M_AQ的尺寸可以与视觉感知图M_VP的尺寸相同，并且辅助质量图M_AQ可以被视为视觉感知图M_VP的微调版本。由于不满足预定标准CR1，因此主观感知处理电路204设置或分配第一主观感知指数，并且融合第一主观感知指数和在视觉感知图M_VP中第一区域802以从辅助质量图M_AQ中移除第一区域802。参照图8，根据第二值设置辅助质量图M_AQ中的同位区域806中的每个像素。

根据第二策略，主观感知处理电路204通过检查视觉感知图(其是当前视觉感知图)M_VP与由视觉感知处理电路202生成的先前视觉感知图之间的差异，将主观感知分析至少应用于视觉感知图M_VP。当视觉感知图(即，当前视觉感知图)M_VP与先前视觉感知图之间的差异满足预定标准CR2时，辅助质量图(即，当前辅助质量图)M_AQ由主观感知处理电路204生成的先前辅助质量图来设置。当视觉感知图(即，当前视觉感知图)M_VP与先前视觉感知图之间的差异不满足预定标准CR2时，辅助质量图(即，当前辅助质量图)M_AQ是从视觉感知图(即当前视觉感知图)M_VP来导出的。

视觉感知图M_VP与先前视觉感知图之间的差异可以是绝对差之和(sum ofabsolute difference，SAD)值SAD_VP。例如，可以通过计算视觉感知图M_VP中的每个像素与先前视觉感知图中的同位像素之间的基于像素的绝对差值来获得增量图(delta map)，并且计算增量图的绝对差值之和以生成SAD值SAD_VP。当不等式SAD_VP<TH为真时，满足预定标准CR2，其中TH是阈值。具体地，检查预定标准CR2以检测用户的视觉关注/视觉接触的稳定性。当满足预定标准CR2时，意味着由于没有移动或较小的移动，用户的视觉关注/视觉接触是稳定的。先前的辅助质量图可以直接用作当前辅助质量图(例如，辅助质量图M_AQ)，而不需要对当前视觉感知图(例如，视觉感知图M_VP)应用进一步的主观感知处理。当不满足预定标准CR2时，意味着由于较大的移动，用户的视觉关注/视觉接触不稳定。当前辅助质量图(例如，辅助质量图M_AQ)是从处理当前视觉感知图(例如，视觉感知图M_VP)获得的。

此外，当当前视觉感知图(例如，视觉感知图M_VP)与先前视觉感知图之间的差异满足预定标准CR2时，主观感知处理电路204可使用第二主观感知指数来指示视觉感知处理电路202，每M个帧生成一个视觉感知图；当当前视觉感知图(例如，视觉感知图M_VP)与先前视觉感知图之间的差异不满足预定标准CR2时，主观感知处理电路204可以使用第二主观感知指数来指示视觉感知处理电路202，每N个帧生成一个视觉感知图，其中M和N是正整数，M>N。换句话说，当用户的视觉关注/视觉接触稳定时，计算一个视觉感知图的频率可以减少，从而减少功耗和视觉感知处理的复杂性。然而，当用户的视觉关注/视觉接触不稳定时，可以增加计算一个视觉感知图的频率。简而言之，可以根据用户视觉关注/视觉接触的稳定性自适应地调整功耗和视觉感知处理的复杂性。

如图2所示，视觉感知处理电路202和主观感知处理电路204均用于生成对象检测信息信号S_OUT。然而，这仅用于说明目的，并不意味着是对本发明的限制。或者，可以省略主观感知处理电路204。

图9是根据本发明的实施例的第二种图像分析电路的示意图。图1所示的图像分析电路102可以使用图9中所示的图像分析电路900来实现。图像分析电路900包括上述视觉感知处理电路202。在该实施例中，视觉感知图M_VP直接用作辅助质量图，并且由对象检测信息信号S_OUT传送。

图10是根据本发明的实施例的第三种图像分析电路的示意图。图1所示的图像分析电路102可以使用图10中所示的图像分析电路910来实现。图像分析电路910获得训练数据D_TR，然后根据训练数据D_TR设置或生成感知模型(由“M_P”表示)960。在该实施例中，感知模型(由“M_P”表示)960可以是具有用户偏好的深度学习模型。如图10所示，感知模型960可以包括偏好模型(由“M_UP”表示)970。可以根据训练数据D_TR中包括的用户偏好数据来构建(训练)感知模型960，然后根据更新的训练数据D_TR中包括的更新的用户偏好数据重新校准(重新训练)。在该实施例中，用户偏好数据可包括从用户接口(例如，触摸传感器)920获得的用户输入信息INF_UI，由照相机930响应于用户输入User_IN生成的最近捕获图像IMG_C，和/或从存储在存储设备(例如，非易失性存储器)940中的用户图库950中获得的图像数据集DS。例如，图像分析电路910，用户接口920，相机930和存储设备940可以组装在相同的移动设备(例如，相同的智能手机)中。

当在移动设备的触摸屏上显示从相机930生成的预览图像时，用户输入User_IN可以在显示预览图像的对象的部分显示区域上进行接触。从触摸屏的触摸传感器提供与预览图像的对象相关的触摸信息，以充当短期用户偏好数据，其可由图像分析电路910用于设置(例如，训练或重新校准)偏好模型970。在一些其他实施例中，可以提供与由用户使用的设备(例如，移动设备)显示或生成的图像的对象的至少一个用户操作有关的其他信息，以充当短期用户偏好数据，其可以由图像分析电路910使用以设置(例如，训练或重新校准)偏好模型970。

由相机930生成的最近捕获的图像IMG_C可以包括一个或多个共同对象(commonobject)。因此，由相机930生成的最近捕获的图像IMG_C可以暗示用户可能对共同对象感兴趣，并且该共同对象可以充当短期用户偏好数据，其可以由图像分析电路910使用以设置(例如，训练或重新校准)偏好模型970。

存储在存储设备940中的用户图库950可以暗示用户的喜爱图像的集合。例如，用户图库950的至少一部分(即，部分或全部)可以是从相机930生成并存储到存储设备940中的捕获图像。因此，用户图库950可以具有在很长一段时间内从相机930生成的用户捕获图像(user-captured image)。从存储在存储设备940中的用户图库950获得的图像数据集(dataset)DS可以充当长期用户偏好数据，其可以由图像分析电路910用于设置(例如，训练或重新校准)偏好模型970。

图11是根据本发明的实施例的日常使用模式的操作的示意图。在日常使用模式下，图像分析电路910分析用户捕获图像以构建偏好模型970。例如，感知模型960是视觉-接触-场网络(visual-contact-field network，VCFNet)深度学习模型，并且能够对用户偏好进行深度学习。因此，VCFNet 912分析响应于用户输入而从相机930(例如，智能手机的相机)生成的多个用户捕获图像IMG_1，以识别用户捕获图像IMG_1中的潜在VCF对象913，914和915。在偏好模型970中记录和更新潜在VCF对象913，914和915的对象属性(objectattribute)和频率。如图11所示，潜在VCF对象913的对象属性由“#1-1，Face”来设置，并且潜在VCF对象913的出现频率由“300”来设置；潜在VCF对象914的对象属性由“#1-2，Face”来设置，并且潜在VCF对象914的出现频率由“1000”来设置；以及潜在VCF对象915的对象属性由“#2，Dog”来设置，并且潜在VCF对象915的出现频率由“200”来设置。因此，记录在偏好模型970中的用户偏好信息指示用户可能对潜在VCF对象913比对潜在VCF对象915更感兴趣，并且可能对潜在VCF对象914比对潜在VCF对象913更感兴趣。

图12是根据本发明的实施例的个人(personal)人工智能(AI)模式的操作的示意图。在构建用户的偏好模型970之后，可以启用个人AI模式以根据从偏好模型970提供的用户偏好信息从候选VCF对像中选择偏好VCF对象。例如，VCFNet 912通过分析预览图像IMG_2而不考虑记录在偏好模型970中的用户偏好信息，首先识别从相机930(例如，智能手机的相机)生成的一个预览图像IMG_2中的潜在VCF对象。如图12所示，在预览图像IMG_2中找到潜在的VCF对象913，914和915。

潜在的VCF对象913，914和915是图12中的偏好VCF对象的候选对象。因此，在预览图像IMG_2中找到潜在VCF对象913，914和915之后，VCFNet912参考偏好模型970以从潜在VCF对象913，914和915中选择偏好VCF对象。潜在VCF对象913具有记录在偏好模型970中的对象属性“#1-1，Face”。潜在VCF对象914具有记录在偏好模型970中的对象属性“#1-2，Face”。潜在VCF对象915具有记录在偏好模型970中的对象属性“#2，Dog”。偏好模型970还记录潜在VCF对象913的出现频率是“300”，潜在VCF对象914的出现频率是“1000”，并且潜在VCF对象915的出现频率是“200”。出现频率值指示用户可能对潜在VCF对象914比对潜在VCF对象913和915更感兴趣。因此，VCFNet 912在预览图像IMG_2中选择潜在VCF对象914作为偏好VCF对象。简而言之，VCFNet 912通过根据偏好模型970对潜在VCF对象913，914和915应用过滤来确定过滤结果。在本发明的一些实施例中，通过深度学习自动识别的在预览图像IMG_2中的偏好VCF对象(例如，VCF对象)，可以用作自动对焦(AF)候选或自动曝光(AE)候选。

在一个替代设计中，修改图2中所示的视觉感知处理电路202，使用图10中的感知模型960来替换深度学习模型203，使得修改后的视觉感知处理电路202具有以用户偏好进行深度学习的能力。以这种方式，可以通过将具有用户偏好的深度学习应用于帧D_IN来生成视觉感知图M_VP。由于辅助质量图M_AQ是从视觉感知图M_VP导出的，因此辅助质量图M_AQ是使用偏好模型970来生成的。

在另一替代设计中，修改图9中所示的视觉感知处理电路202，使用图10中所示的感知模型960来替换深度学习模型2033，使得修改后的视觉感知处理电路202具有以用户偏好进行深度学习的能力。以这种方式，可以通过将具有用户偏好的深度学习应用于帧D_IN来生成视觉感知图M_VP。也就是说，视觉感知图M_VP是使用偏好模型970来生成的。

对象检测信息信号S_OUT包括输入帧F中的对象(例如，视觉关注区域)的信息。例如，对象检测信息信号S_OUT指示输入帧F中预测的视觉接触区域的位置。因此，图1中所示的应用电路104可以参考对象检测信息信号S_OUT，以对输入帧F中的视觉关注区域采取适当的动作。

在第一示例性设计中，应用电路104是编码电路。图13是根据本发明的实施例的关注意识视频编码器1000的示意图。图1中所示的应用电路104可以使用图13中所示的关注意识视频编码器1000来实现。关注意识视频编码器1000被布置为参考对象检测信息信号S_OUT以将输入帧(例如，用户捕获图像)F编码到比特流BS中。例如，对象检测信息信号S_OUT可以传送视觉感知图M_VP(其是使用/不使用偏好模型970来生成的)或者辅助质量图M_AQ(其实使用/不使用偏好模型970来生成的)。因此，对象检测信息信号S_OUT可以指示与输入帧F的第一图像区域1016相关的第一值和与输入帧F的第二图像区域1018相关的第二值。如图13所示，视觉感知图M_VP(或辅助质量图M_AQ)包括第一区域1012和第二区域1014，其中第一区域1012中的每个像素由第一值来设置，第二区域1014中的每个像素由第二值来设置，第一值与第二值不同。

关注意识视频编码器1000参考第一值以采用第一编码配置来编码第一图像区域1016，并且参考第二值以采用第二编码配置来编码第二图像区域1018。传统视频编码标准通常采用基于区块的编码技术来利用空间和时间冗余。例如，基本方法是将源帧划分为多个区块(例如，编码区块)，对每个区块执行帧内预测/帧间预测，变换每个区块的残差，以及执行量化和熵编码。此外，生成重构帧以提供用于编码后续区块的参考像素数据。对于某些视频编码标准，可以使用环路滤波器来增强重建帧的图像质量。关于关注意识视频编码器1000，可以适当地设置属于视觉关注区域(视觉接触区域)的区块的编码配置和属于非视觉关注区域(非视觉接触区域)的区块的编码配置，以改善编码帧的视觉质量和/或降低编码输入帧的复杂性。例如，一个区块可以是H.264/VP8编码标准中的宏区块，HEVC编码标准中的编码单元，或VP9编码标准中的超级区块。

参照图13，关注意识视频编码器1000包括比特率控制器(rate controller)1002和预测引擎1004。比特率控制器1002用于控制编码器输出的比特率。预测引擎1004用于在帧间预测模式下执行运动估计和运动补偿，并且用于在帧内预测模式下执行帧内预测。

在本发明的一些实施例中，比特率控制器1002由对象检测信息信号S_OUT控制。因此，比特率控制器1002采用第一编码配置来编码包括在第一图像区域1016中的区块，第一图像区域1016是由对象检测信息信号S_OUT指示的视觉关注区域；并且采用第二编码配置来编码包括在第二图像区域1018中的区块，第二图像区域1018是由对象检测信息信号S_OUT指示的非视觉关注区域。

可以基于不同的视觉质量来设置第一编码配置和第二编码配置。例如，比特率控制器1002确定每个区块的量化参数(QP)。量化参数控制帧中每个区块的压缩量。较大的量化参数值意味着将存在较高的量化，较多的压缩和较低的质量。较低的量化参数值则相反。编码区块的视觉质量受量化过程使用的量化参数的影响。在一个示例性实现中，比特率控制器1002可以被布置为支持区块级量化参数调整，其中用于编码/解码一个区块的量化参数可以与用于编码/解码相邻区块的量化参数不同。由于第一编码配置用于编码包括在被预测为视觉关注区域的第一图像区域1016中的区块，因此比特率控制器1002可以在第一编码配置中设置第一量化参数，其中可以分配较小的值给第一量化参数，用于改善相应编码区块的视觉质量。由于第二编码配置用于编码包括在被预测为非视觉关注区域的第二图像区域1018中的区块，因此比特率控制器1002可以在第二编码配置中设置第二量化参数，其中可以分配较大的值给第二量化参数。

对于另一示例，比特率控制器1002控制每个区块的比特分配(bit allocation，BA)。比特分配设置定义用于编码一个区块的目标比特。也就是说，一个区块的比特分配设置意味着一个区块的目标压缩尺寸。由比特分配设置分配的较少数量的目标比特意味着将存在较高的量化，较多的压缩和较低的质量。由比特分配设置分配的较大数量的目标比特则相反。编码区块的视觉质量受比特分配结果的影响。在一个示例性实现中，比特率控制器1002可以被布置为支持区块级比特分配调整，其中分配用于编码一个区块的目标比特可以与分配用于编码相邻区块的目标比特不同。由于第一编码配置用于编码包括在被预测为视觉关注区域的第一图像区域1016中的区块，因此比特率控制器1002可以具有第一编码配置中的第一比特分配设置，其中较大数量的目标比特可以包括在第一比特分配设置中，用于改善相应编码区块的视觉质量。由于第二编码配置用于编码包括在被预测为非视觉关注区域的第二图像区域1018中的区块，因此比特率控制器1002可以具有第二编码配置中的第二比特分配设置，其中较小数量的目标比特可以包括在第二比特分配设置中。

在本发明的一些实施例中，可以基于不同的复杂度来设置第一编码配置和第二编码配置。例如，预测引擎1004采用区块尺寸进行预测。用于预测的区块尺寸与编码复杂度负相关(negatively correlated)。第一编码配置包括用于预测的第一区块尺寸，第二编码配置包括用于预测的第二区块尺寸。由于第二编码配置用于编码包括在被预测为非视觉关注区域的第二图像区域1018中的区块，因此多工器(MUX)1008可以选择较大的尺寸作为用于预测的第二区块尺寸，从而降低复杂度和编码器的功耗。由于第一编码配置用于编码包括在被预测为视觉关注区域的第一图像区域1016中的区块，因此多工器1008可以选择较小的尺寸作为用于预测的第一区块尺寸。

对于另一示例，预测引擎1004采用用于预测的搜索范围。用于预测的搜索范围与编码复杂度正相关(positively correlated)。第一编码配置包括用于预测的第一搜索范围，第二编码配置包括用于预测的第二搜索范围。由于第二编码配置用于编码包括在被预测为非视觉关注区域的第二图像区域1018中的区块，因此多工器1006可以选择较小的范围作为用于预测的第二搜索范围，从而降低复杂度和编码器的功耗。由于第一编码配置用于编码包括在被预测为视觉关注区域的第一图像区域1016中的区块，因此多工器1006可以选择较大的范围作为用于预测的第一搜索范围。

关注意识视频编码器1000从图像分析电路102接收对象检测信息信号S_OUT，并根据由对象检测信息信号S_OUT传送的信息调整量化参数设置和/或比特分配设置。例如，由对象检测信息信号S_OUT传送的信息可以是由图9所示的视觉感知处理电路202生成的视觉感知图M_VP。另一个例子，由对象检测信息信号S_OUT传送的信息可以是由图2所示的主观感知处理电路204生成的辅助质量图M_AQ。根据实际设计考虑，可以在使用/不使用偏好模型970的情况下生成辅助质量图M_AQ(或视觉感知图M_VP)。在本发明的一些实施例中，辅助质量图M_AQ(或视觉感知图M_VP)可以是强度图。图14是根据本发明的实施例的强度图的示意图。强度图(例如，辅助质量图M_AQ或视觉感知图M_VP)记录多个强度值。在强度图是逐像素强度图的情况下，为一个帧内的每个像素确定一个强度值。在强度图是逐区块强度图的另一种情况下，为一个帧内的每个区块确定一个强度值。输入帧F中与强度图中的较大强度值相关的图像区域可能需要较高的质量。因此，可以选择较小的量化参数和/或较大的比特分配来对图像区域进行编码。输入帧F中与强度图中的较小强度值相关的图像区域可允许较低质量。因此，可以选择较大的量化参数和/或较小的比特分配来编码图像区域。简而言之，不同的强度值意味着不同的量化参数设置和/或不同的比特分配设置。

在第二示例性设计中，应用电路104是具有由对象检测信息信号S_OUT控制的自动聚焦功能的图像信号处理器。图15是根据本发明的实施例的具有自动聚焦(AF)功能的图像信号处理器(ISP)的示意图。图1中所示的应用电路104可以使用图15中所示的ISP 1200来实现。ISP 1200被配置为参考对象检测信息信号S_OUT以对由对象检测信息信号S_OUT指示的视觉关注区域执行自动聚焦功能。例如，对象检测信息信号S_OUT可以传送视觉感知图M_VP或辅助质量图M_AQ。参照图15，视觉感知图M_VP(或辅助质量图M_AQ)包括第一区域1212和第二区域1214，其中第一区域1212中的每个像素由第一值来设置，第二区域1214中的每个像素由第二值来设置，第一值与第二值不同。第一值用于视觉关注区域指示，第二值用于非视觉关注区域指示。因此，对象检测信息信号S_OUT可以指示与输入帧(例如，预览图像)F的图像区域1216相关的第一值。换句话说，图像区域1216是由对象检测信息信号S_OUT指示的视觉关注区域。例如，图像区域1216可以是具有用户偏好的深度学习选择的偏好VCF对象。

ISP 1200通过AF候选检测引擎1202和AF机械控制引擎1204来执行AF功能。AF候选检测引擎1202被布置为自动检测输入帧(例如，预览图像)F中的AF候选而无需用户干预。在该实施例中，AF候选检测引擎1202参考对象检测信息信号S_OUT以识别输入帧F中的AF候选。例如，辅助质量图M_AQ(或视觉感知图M_VP)中的第一区域1212指示输入帧F中的同位图像区域1216是视觉关注区域。AF候选检测引擎1202根据由对象检测信息信号S_OUT提供的信息选择图像区域1216作为一个AF候选，并且将AF候选信号S_AF输出到AF机械控制引擎1204。AF机械控制引擎1204根据AF候选信号S_AF生成AF控制码CTRL_AF到镜头模组，使得镜头模组被控制以聚焦在自动选择的AF候选(例如，图像区域1216)上。

在第三示例性设计中，应用电路104是具有由对象检测信息信号S_OUT控制的自动曝光功能的图像信号处理器。图16是根据本发明的实施例的具有自动曝光(AE)功能的图像信号处理器(ISP)的示意图。图1中所示的应用电路104可以使用图16中所示的ISP 1300来实现。ISP 1300被布置为参考对象检测信息信号S_OUT以对由对象检测信息信号S_OUT指示的视觉关注区域执行AE功能。例如，对象检测信息信号S_OUT可以传送视觉感知图M_VP或辅助质量图M_AQ。参照图16，视觉感知图M_VP(或辅助质量图M_AQ)包括第一区域1312和第二区域1314，其中第一区域1312中的每个像素由第一值来设置，第二区域1314中的每个像素由第二值来设置，第一值与第二值不同。第一值用于视觉关注区域指示，第二值用于非视觉关注区域指示。因此，对象检测信息信号S_OUT可以指示与输入帧(例如，预览图像)F的图像区域1316相关的第一值。换句话说，图像区域1316是由对象检测信息信号S_OUT指示的视觉关注区域。例如，图像区域1316可以是通过具有用户偏好的深度学习选择的偏好VCF对象。

ISP 1300通过AE候选检测引擎1302和AE机械控制引擎1304执行AE功能。AE候选检测引擎1302被布置为自动检测输入帧(例如，预览图像)F中的AE候选而无需用户干预。在该实施例中，AE候选检测引擎1302参考对象检测信息信号S_OUT以识别输入帧F中的AE候选。例如，辅助质量图M_AQ(或视觉感知图M_VP)中的第一区域1312表示输入帧F中的同位图像区域1316是视觉关注区域。AE候选检测引擎1302根据由对象检测信息信号S_OUT提供的信息选择图像区域1316作为一个AE候选，并且将AE候选信号S_AE输出到AE机械控制引擎1304。AE机械控制引擎1304根据AE候选信号S_AE生成AE控制码CTRL_AE到光圈和/或快门，使得调整光圈尺寸和/或快门速度以确保自动选择的AE候选(例如，图像区域1316)的适当曝光。

本领域的技术人员将容易地观察到，在不脱离本发明的精神和范围内，可以对装置和方法进行多种修改和变动。因此，本发明的范围应以权利要求的范围为准。

Claims

1.一种基于感知的图像处理装置，其特征在于，包括：

图像分析电路，用于获取训练数据，根据该训练数据设置感知模型，使用该感知模型执行至少一个帧的对象检测，以及至少部分地基于该至少一个帧的对象检测的结果生成对象检测信息信号；以及

应用电路，用于响应于该对象检测信息信号而操作，

其中该应用电路是编码电路，该编码电路用于参考该对象检测信息信号以将输入帧编码为比特流；该对象检测信息信号指示与该输入帧的第一图像区域相关的至少一个第一值和与该输入帧的第二图像区域相关的至少一个第二值，其中该至少一个第一值与该至少一个第二值不同；以及该编码电路参考该至少一个第一值采用第一编码配置对该第一图像区域进行编码，并参考该至少一个第二值采用第二编码配置对该第二图像区域进行编码。

2.如权利要求1所述的基于感知的图像处理装置，其特征在于，该感知模型包括深度学习模型。

3.如权利要求1所述的基于感知的图像处理装置，其特征在于，该图像分析电路用于从至少一个外部传感设备接收该训练数据。

4.如权利要求1所述的基于感知的图像处理装置，其特征在于，该训练数据包括用户偏好数据。

5.如权利要求4所述的基于感知的图像处理装置，其特征在于，该用户偏好数据包括从用户接口获得的用户输入信息或响应于用户输入而生成的最近捕获的图像。

6.如权利要求4所述的基于感知的图像处理装置，其特征在于，该用户偏好数据包括从用户图库获得的图像数据集。

7.如权利要求1所述的基于感知的图像处理装置，其特征在于，基于不同的视觉质量来设置该第一编码配置和该第二编码配置。

8.如权利要求7所述的基于感知的图像处理装置，其特征在于，

该第一编码配置包括第一量化参数设置，以及该第二编码配置包括第二量化参数设置；或者

该第一编码配置包括第一比特分配设置，以及该第二编码配置包括第二比特分配设置。

9.如权利要求1所述的基于感知的图像处理装置，其特征在于，基于不同的复杂度来设置该第一编码配置和该第二编码配置。

10.如权利要求9所述的基于感知的图像处理装置，其特征在于，

该第一编码配置包括用于预测的第一区块尺寸，以及该第二编码配置包括用于预测的第二区块尺寸；或者

该第一编码配置包括用于预测的第一搜索范围，以及该第二编码配置包括用于预测的第二搜索范围。

11.如权利要求1所述的基于感知的图像处理装置，其特征在于，该对象检测包括人类视觉关注分析，该对象检测信息信号传送辅助质量图，该图像分析电路包括：

视觉感知处理电路，用于通过对该至少一个帧执行该人类视觉关注分析，来生成视觉感知图；以及

主观感知处理电路，用于将主观感知分析至少应用于该视觉感知图，并根据该主观感知分析的结果确定该辅助质量图。

12.如权利要求11所述的基于感知的图像处理装置，其特征在于，该主观感知处理电路通过检查该视觉感知图中的区域的尺寸来将该主观感知分析至少应用于该视觉感知图，以及该视觉感知图中的区域表示视觉关注区域。

13.如权利要求12所述的基于感知的图像处理装置，其特征在于，当该视觉感知图中的区域的尺寸满足预定标准时，根据第一值来设置该辅助质量图中的同位区域中的每个像素；当该视觉感知图中的区域的尺寸不满足该预定标准时，根据不同于该第一值的第二值来设置该辅助质量图中的该同位区域中的每个像素。

14.如权利要求11所述的基于感知的图像处理装置，其特征在于，该主观感知处理电路通过检查该视觉感知图和由该视觉感知处理电路生成的先前视觉感知图之间的差异，来将该主观感知分析至少应用于该视觉感知图。

15.如权利要求14所述的基于感知的图像处理装置，其特征在于，

当该视觉感知图和该先前视觉感知图之间的差异满足预定标准时，通过由该主观感知处理电路生成的先前辅助质量图来设置该辅助质量图；当该视觉感知图与该先前视觉感知图之间的差异不满足该预定标准时，从该视觉感知图中导出该辅助质量图；或者

当该视觉感知图与该先前视觉感知图之间的差异满足该预定标准时，该主观感知处理电路还用于指示该视觉感知处理电路每M个帧生成一个视觉感知图；当该视觉感知图与该先前视觉感知图之间的差异不符合该预定标准时，该主观感知处理电路还用于指示该视觉感知处理电路每N个帧生成一个视觉感知图，其中M和N是正整数，M>N。

16.如权利要求1所述的基于感知的图像处理装置，其特征在于，该对象检测包括人类视觉关注分析，该对象检测信息信号传送视觉感知图，以及该图像分析电路包括：

视觉感知处理电路，用于通过对该至少一个帧进行该人类视觉关注分析来生成该视觉感知图，并输出该视觉感知图。

17.一种基于感知的图像处理方法，包括：

获得训练数据；

根据该训练数据设置感知模型；

通过使用该感知模型执行至少一个帧的对象检测，并且至少部分地基于该至少一个帧的对象检测的结果生成对象检测信息信号；以及

根据该对象检测信息信号控制应用电路，