CN116091792A

CN116091792A - 视觉注意力预测模型的构建方法、***、终端及介质

Info

Publication number: CN116091792A
Application number: CN202310007698.9A
Authority: CN
Inventors: 段会展; 刘志
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-09

Abstract

本发明提供了一种视觉注意力预测模型的构建方法，面向自闭症人群，包括：构建基于非典型显著区域增强的视觉注意力预测模型；采用已知的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用自闭症群体的眼动数据集对该模型进行修正，完成对基于非典型显著区域增强的视觉注意力预测模型的端到端训练；采用已知的眼动数据集中的测试图像对训练后的基于非典型显著区域增强的视觉注意力预测模型进行测试，构建得到最终的视觉注意力预测模型。同时提供了相应的构建***、应用方法、终端及介质。本发明从自闭症患者的特殊视觉偏好出发，具有预测效率高，成本低，易于实现，并且部署十分灵活等特点。

Description

视觉注意力预测模型的构建方法、***、终端及介质

技术领域

本发明涉及视觉注意力预测技术领域，具体地，涉及一种面向孤独症群体的视觉注意力预测模型的构建方法、***、终端及介质。

背景技术

人类视觉***能够快速选择并集中于视觉刺激中的重要区域，这种能力使得人类能够有选择性地处理进入视野的大量信息，从而高效地接收和处理主要信息而忽视无关的信息，这种选择性机制叫做视觉注意机制。视觉注意力预测(又叫视觉显著性预测、注视点预测)即为模拟人眼的视觉注意机制的技术，而最终计算得到的显著性图可以量化表示注意力分布，其中区域的亮度越高表示该区域吸引人眼注意的概率越大。其在对象分割、目标追踪、图像压缩和视频压缩等诸多视觉相关的任务中有着十分重要的应用。

孤独症谱系障碍是一种具备遗传性的神经发育障碍，目前已经有计算模型和神经影像证据证明孤独症患者面对视觉刺激会表现出与正常对照组不同的非典型视觉注意行为。简而言之，当观察一幅场景时，正常对照组倾向于关注具有高阶语义属性的对象，比如人脸、文本等等；而孤独症患者却往往被背景区域和一些具有低阶属性的区域所吸引，这些区域被称为非典型显著区域。目前已有的孤独症专用的视觉注意力预测方法多是受到面向常规群体的通用视觉注意力预测方法的启发，忽略了孤独症患者明显区别于正常对照组的非典型注视行为和特殊的视觉偏好，只是在孤独症患者的眼动数据集上进行简单地迁移，缺少针对性，对注视点的预测性能不佳。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种面向孤独症群体的视觉注意力预测模型的构建方法、***、终端及介质。

根据本发明的一个方面，提供了一种视觉注意力预测模型的构建方法，包括：

构建基于非典型显著区域增强的视觉注意力预测模型；

采用已知的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对所述基于非典型显著区域增强的视觉注意力预测模型的端到端训练；

采用已知的眼动数据集中的测试图像对训练后的所述基于非典型显著区域增强的视觉注意力预测模型进行测试，构建得到最终的视觉注意力预测模型。

可选地，所述构建基于非典型显著区域增强的视觉注意力预测模型，包括：

构建特征提取网络层，用于提取输入图像的特征，并输出多阶特征图；

构建多尺度增强网络层，用于对所述多阶特征图中的最高阶特征图进行多尺度增强，以提升对不同尺度的显著性区域的检测能力；

构建非典型显著区域增强网络层，用于以所述最高阶特征图作为初始预测结果，从上至下地对所述的多阶特征图进行残差融合，得到强化的非典型显著区域特征图；

构建全局语义流网络层，用于分别从空间和通道角度提取所述最高阶特征图的上下文语义信息，得到全局语义流，并将所述全局语义流引入所述非典型显著区域增强网络层，用于引导残差融合，同时自适应的补充被稀释的语义信息；

构建显著图读出网络层，用于对所述强化的非典型显著区域特征图沿通道维度进行压缩并进行归一化，得到视觉注意力预测结果。

可选地，所述特征提取网络层，采用预训练的基于深度学习的对象识别网络的全卷积形式构建特征提取网络层的主干网，用于提取所述输入图像的特征，并输出多阶特征图；其中，所述特征提取网络层包括：卷积层、池化层和ReLu激活层。

可选地，所述多尺度增强网络层，采用多个并行的具有不同大小的卷积核的卷积层来显式地引入多尺度信息，对所述最高阶特征图进行多尺度增强，所述增强结果作用于所述残差融合过程中，用于提升对不同尺度显著区域的特征提取能力。

可选地，所述非典型显著区域增强网络层，包括：背景增强网络层、前景增强网络层和残差融合网络层；所述以所述最高阶特征图作为初始预测结果，从上至下地对所述多阶特征图中的特征进行残差融合，得到强化的非典型显著区域特征图，包括：

利用所述背景增强网络层，对所述多阶特征图中的高阶特征进行取反，得到背景特征，然后对所述背景特征进行归一化，得到背景权重图；

利用所述前景增强网络层，对与所述高阶特征相邻的低阶特征进行前景加权，得到增强后的低阶特征；

通过所述残差融合网络层，利用所述背景权重图对所述增强后的低阶特征进行加权融合，得到残差特征；对所述高阶特征与所述残差特征进行自适应融合，得到新的预测结果；

将所述新的预测结果作为新的高阶特征，继续与相邻的低阶特征进行残差融合，直至得到最终的强化的非典型显著区域特征图。

可选地，所述全局语义流网络层，包括通道增强网络层和空间位置增强网络层；所述分别从空间和通道角度提取所述特征图的上下文语义信息，得到全局语义流，包括：

将所述特征图中的最高阶特征经过卷积层变换压缩通道数，得到网络层输入特征；

所述通道增强网络层采用全局平均池化获得全局先验，并经过1*1卷积层变换和归一化，得到所述网络层输入特征的通道加权图，并利用所述通道加权图对所述网络层输入特征进行通道增强，得到通道增强特征；

所述空间位置增强网络层采用自注意力机制，充分捕捉所述网络层输入特征各像素之间的相关性，得到空间位置加权图，并利用空间位置加权图所述对所述网络层输入特征进行位置增强，得到位置增强特征；

将所述通道增强特征和所述位置增强特征进行融合，得到全局语义流；

所述全局语义流被引入所述非典型显著区域增强网络层，通过自适应的调整全局语义流的权重，用于在残差融合过程中自适应的补充全局信息。

可选地，所述显著图读出网络层，包括3*3卷积层和sigmoid激活函数。

可选地，所述采用已知的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对所述基于非典型显著区域增强的视觉注意力预测模型的端到端训练，包括：

采用公开的眼动数据集SALICON和MIT1003对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集Saliency4ASD对所述基于非典型显著区域增强的视觉注意力预测模型进行修正；

设置所述基于非典型显著区域增强的视觉注意力预测模型的初始化参数；

确定所述基于非典型显著区域增强的视觉注意力预测模型的损失函数；

确定所述基于非典型显著区域增强的视觉注意力预测模型中相关的超参数；

通过上述步骤完成对所述基于非典型显著区域增强的视觉注意力预测模型的端到端训练。

可选地，所述采用公开的眼动数据集SALICON和MIT1003对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集Saliency4ASD对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，包括：

获取公开的眼动数据集SALICON和MIT1003以及孤独症群体的眼动数据集Saliency4ASD，对所述眼动数据集中图像数据的眼动位置采样点聚类生成包含注视点的mat文件；对所述mat文件进行归一化处理，转化生成注视点密度图作为真值图；

将所述眼动数据集SALICON和MIT1003的图像作为模型输入，将所述眼动数据集SALICON和MIT1003的图像对应的真值图作为标签，以端到端的方式训练所述基于非典型显著区域增强的视觉注意力预测模型，使所述模型自动学习原始图像与真值图之间的映射关系，获得人眼相关的特征分布；

将所述孤独症群体的眼动数据集Saliency4ASD的图像作为模型输入，将所述孤独症群体的眼动数据集Saliency4ASD的图像对应的真值图作为标签，以端到端的方式微调所述基于非典型显著区域增强的视觉注意力预测模型，使所述模型自动学习原始图像与真值图之间的映射关系，获得孤独症群体的眼动特征，对模型进行修正。

可选地，所述设置所述基于非典型显著区域增强的视觉注意力预测模型的初始化参数，包括：

所述基于非典型显著区域增强的视觉注意力预测模型，包括：特征提取网络层、多尺度增强网络层、非典型显著区域增强网络层、全局语义流网络层和显著图读出网络层；其中：

所述特征提取网络层采用其在ImageNet数据集上预训练得到的参数作为初始化参数；其他网络层的初始参数为随机初始化参数。

可选地，所述确定所述基于非典型显著区域增强的视觉注意力预测模型的损失函数，包括：

所述损失函数采用三个显著性性能评价指标KL、CC、NSS的加权线性组合。

可选地，所述确定所述基于非典型显著区域增强的视觉注意力预测模型中相关的超参数，包括：

预训练过程中采用随机梯度下降算法，初始学习率为10^-4，并且每迭代3个epoch下降10倍，Batchsize大小为10，预训练过程需要迭代20个epoch直至模型收敛。

可选地，所述采用已知的眼动数据集中的测试图像对训练后的所述基于非典型显著区域增强的视觉注意力预测模型进行测试，包括：

采用公开数据集SALICON、MIT1003和Saliency4ASD中提供的benchmark对训练后的所述基于非典型显著区域增强的视觉注意力预测模型进行测试，从而评估模型的性能。

根据本发明的另一个方面，提供了一种视觉注意力预测模型的构建***，包括：

预测模型构建模块，该模块用于构建基于非典型显著区域增强的视觉注意力预测模型；

模型训练模块，该模块用于采用已知的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对所述基于非典型显著区域增强的视觉注意力预测模型的端到端训练；

模型测试模块，该模块用于采用已知的测试图像对训练后的所述基于非典型显著区域增强的视觉注意力预测模型进行测试，评估所构建模型的性能。

根据本发明的第三个方面，提供了一种视觉注意力预测方法，采用上述中任一项所述的视觉注意力预测模型的构建方法或构建***构建得到的视觉注意力预测模型，对任一图像作为所述模型的输入，输出得到视觉注意力预测结果。

根据本发明的第四个方面，提供了一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述中任一项所述的方法。

根据本发明的第五个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述中任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的视觉注意力预测模型的构建方法、***、终端及介质，采用基于非典型显著区域增强的视觉注意力预测模型，充分考虑了孤独症患者特有的非典型视觉注意模型和独特的视觉偏好，在孤独症眼动数据集上Saliency4ASD benchmark获得了极佳的性能。该性能的实现主要依赖于非典型显著区域增强技术的实施，其采用的跨阶背景增强操作有效地利用了特征提取网络的性质，从而在真值图的监督下能够更充分地学习到孤独症患者的特定视觉特点，并取得优异的性能。

本发明提供的视觉注意力预测模型的构建方法、***、终端及介质，利用全局语义流技术来引导各阶的残差融合，降低了低阶特征中所包含噪声对模型性能的不利影响，提高了视觉注意力预测模型的准确性及鲁棒性。

本发明提供的视觉注意力预测模型的构建方法、***、终端及介质，效率高，成本低，易于实现，并且十分灵活，可以根据实际需要部署在参数量更少的主干网(考虑效率)或者性能更好的主干网(考虑性能)上。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中视觉注意力预测方法的工作流程图。

图2为本发明一优选实施例中视觉注意力预测***的组成模块示意图。

图3为本发明一优选实施例中提供的视觉注意力预测方法及***在孤独症专用的视觉注意力预测领域的公开数据集上取得的部分主观实验结果。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种视觉注意力预测模型的构建方法，该构建方法面向孤独症群体，从孤独症患者的特殊视觉偏好出发，实现了一种基于非典型显著区域增强的视觉注意力预测模型的构建。

如图1所示，该实施例提供的视觉注意力预测模型的构建方法，可以包括：

S1，构建基于非典型显著区域增强的视觉注意力预测模型；

S2，采用已知的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对基于非典型显著区域增强的视觉注意力预测模型的端到端训练；

S3，采用已知的眼动数据集中的测试图像对训练后的基于非典型显著区域增强的视觉注意力预测模型进行测试，构建得到最终的视觉注意力预测模型。

在S1的一优选实施例中，构建基于非典型显著区域增强的视觉注意力预测模型，可以包括：

构建基于非典型显著区域增强的视觉注意力预测模型，该模型主要包括特征提取网络层、多尺度增强网络层、非典型显著区域增强网络层、全局语义流网络层和显著图读出网络层，进行端到端的视觉注意力预测；其中：

S101，构建特征提取网络层，用于提取输入图像的特征，并输出多阶特征图。该网络层使用已预训练好的基于深度学习的对象识别网络(去除后面的全连接层，只保留前面的全卷积部分)作为主干网来提取特征，主要由卷积层、池化层和ReLu激活层组成，输入为图像，输出为特征图。为了便于说明，主干网五个卷积块的输出分别表示为：Fⁱ(i∈{1,2,3,4,5})。此外，由于本发明实施例提出的非典型显著区域增强网络层和全局语义流网络层可以灵活地部署到不同的主干网上，因此该视觉注意力预测模型可以根据实际需要选择参数量更少的VGG或者性能更好的DenseNet作为主干网；

S102，构建多尺度增强网络层，用于对多阶特征图中的最高阶特征图进行多尺度增强，以提升对不同尺度的显著性区域的检测能力。在该网络层中显式地引入多尺度增强模块可以提升模型对不同尺度显著区域的检测能力。在一具体应用实例中，采用类Inception结构，即，采用多个并行的具有不同大小的卷积核的卷积层来引入多尺度信息。为了控制参数量，该网络层使用具有不同空洞率的空洞卷积实现。将最高阶特征F⁵作为多尺度增强网络层输入，输出多尺度增强特征F⁵'；

S103，构建非典型显著区域增强网络层，用于以最高阶特征图作为初始预测结果，从上至下地对的多阶特征图进行残差融合，得到强化的非典型显著区域特征图。该网络层主要由低阶特征的前景增强网络层、跨阶的背景增强网络层以及残差融合网络层组成。具体地，由于作为主干网的特征提取网络层是由预训练过的对象识别网络改造而来，因此主干网从浅层到深层的输出越来越集中在具有高阶语义属性的对象上。对于常规群体而言，在多数情况下，具有高阶语义属性的对象(例如人脸、文本等)就是视觉显著区域，因此主干网所输出特征的语义偏置性质促进了面向常规群体的通用视觉注意力预测模型性能的提升。然而，孤独症患者的视觉注意力是由非典型显著性主导的，该群体对背景区域等不具有社交属性的区域的关注度要明显高于常规群体，因此主干网所输出特征的语义偏置性质与孤独症患者的非典型视觉注意力之间存在较大的鸿沟，常用的直接融合方法在面向孤独症群体的视觉注意力预测任务上表现不佳。该步骤中将主干网的最高阶输出作为初始预测结果，并从上至下地进行残差融合以强化非典型显著区域。背景增强网络层作用于相邻的两阶特征之间。在一具体应用实例中，以F⁵'和F⁴为例：

首先，将F⁵'上采样至与相邻的低阶特征F⁴相同的尺寸，得到然后，背景增强网络层对进行取反得到背景特征Bf⁵，进而归一化得到背景权重图BAM⁵：

BAM⁵＝σ(Bf⁵)

其中σ表示sigmoid激活函数。

然后，残差融合网络层使用背景权重图对相邻的低阶特征进行加权融合，得到的残差特征则包含初始预测中未检测出但被相邻的低阶特征成功检测出的非典型显著区域。

值得注意的是，考虑到低阶特征中含有较多噪声，而且在这种残差融合的方式下，噪声带来的不利影响会更明显。因此，在背景加权之前，先通过前景增强网络层对低阶特征进行了前景加权，增强前景显著区域并减弱低阶特征中包含的噪声的影响，得到增强后的低阶特征：

FAM⁴＝σ(Conv(F⁴))

其中，FAM⁴为得到的增强后的低阶特征，Conv(.)表示卷积运算。

最后，残差融合网络层对原高阶特征(即原预测结果)与残差特征进行自适应融合，得到新的预测结果F⁴'：

其中，为将F⁵经过S202描述的多尺度增强网络层处理并上采样得到，⊙,和分别表示逐像素点乘、逐像素加和沿通道维度拼接操作，T代表3个连续的卷积-批归一化-ReLu激活操作。

之后，F⁴'作为新的预测结果，继续与相邻的低阶特征F³重复上述操作直至得到最终的预测结果。

因此，与面向常规群体的通用视觉注意力预测模型中常用的直接融合方式相比，本发明实施例所提出的非典型显著区域增强模块会使得模型更加关注原本未被检测到的显著性区域，进而在自上而下的残差融合过程中，非典型显著区域被逐渐检测出来，得到的预测结果更加完整；

S104，构建全局语义流网络层，用于分别从空间和通道角度提取最高阶特征图的上下文语义信息，得到全局语义流，并将全局语义流引入非典型显著区域增强网络层，用于引导残差融合，同时自适应的补充被稀释的语义信息。考虑到在自上而下的特征融合过程中，来自深层的语义信息被不断稀释，而浅层的噪声的不利影响越来越大，因此，该步骤构建全局语义流网络层，分别从空间和通道角度提取上下文语义信息，进而用来引导特征融合阶段中的残差融合，同时自适应的补充被稀释的语义信息。该网络层主要由通道增强网络层和空间位置增强网络层组成。首先，将最高阶特征F⁵经过卷积层变换压缩通道数得到作为该网络层的输入。对于通道增强网络层，先使用全局平均池化获得全局先验，并经过1*1卷积层变换和归一化得到通道加权图CAM⁵，并基于通道加权图CAM⁵对原特征进行通道增强得到输出通道增强特征

其中，GAP代表全局平均池化操作，代表按通道相乘操作。

对于空间位置增强网络层，使用自注意力(self attention)机制充分捕捉各像素之间的相关性得到空间位置加权图SM⁵，并基于空间位置加权图SM⁵得到增强后的位置增强特征

其中Q、K、V均为原特征经过卷积变换得到。

最后将分别经过通道和空间位置加权后的两部分特征融合得到全局语义流

该全局语义流被用于指引各阶的残差融合操作，对应的，S203中的融合操作修正为：

其中，为将上采样得到，b为可学习参数，用于自适应的调整全局语义流的权重，从而自适应的补充全局信息；

S105，构建显著图读出网络层，用于对强化的非典型显著区域特征图沿通道维度进行压缩并进行归一化，得到视觉注意力预测结果。该网络层由一个3*3卷积层和sigmoid激活函数组成。作用是对上述模块的输出沿通道维度进行压缩并进行归一化得到最终的预测结果。

在S2的一优选实施例中，采用已知的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对基于非典型显著区域增强的视觉注意力预测模型的端到端训练，可以包括：

S201，采用公开数据集SALICON和MIT1003对构建的基于非典型显著区域增强的视觉注意力预测模型进行预训练，然后在孤独症专用的眼动数据集Saliency4ASD数据集上进行微调(修正)。其中：

获取公开的眼动数据集SALICON和MIT1003以及孤独症群体的眼动数据集Saliency4ASD，对上述眼动数据集中图像数据的眼动位置采样点聚类生成包含注视点的mat文件，为了方便处理，对mat文件进行归一化处理，转化生成注视点密度图，作为真值图并在后续步骤中对所构建的模型进行训练；

将眼动数据集SALICON和MIT1003的图像作为输入，图像对应的真值图作为标签，以端到端的方式训练所提出的基于非典型显著区域增强的视觉注意力预测模型，使其自动学习原始图像与真值图之间的映射关系，获得人眼相关的特征分布；将孤独症群体的眼动数据集Saliency4ASD的图像作为模型输入，将孤独症群体的眼动数据集Saliency4ASD的图像对应的真值图作为标签，以端到端的方式微调基于非典型显著区域增强的视觉注意力预测模型，使模型自动学习原始图像与真值图之间的映射关系，获得孤独症群体的眼动特征，对模型进行修正；具体地：

SALICON为使用鼠标点击模拟人眼注视点的通用眼动数据集，其也是视觉注意力预测领域内最大的公开数据集，因此先将所提出的非典型视觉注意力预测模型在该数据集上进行预训练，以为后续的训练提供良好的初始化参数。MIT1003数据集为使用眼动仪采集并构建而成的数据集，将在SALICON上预训练过的模型继续在该数据集上训练，以使得模型能学习人眼相关的特征分布。最后，因为Saliency4ASD数据集规模较小，为了防止过拟合，先使用眼动数据集SALICON和MIT1003对模型进行初步的训练，再使用Saliency4ASD数据集微调模型，以使得模型充分学习孤独症群体的眼动特征；

S202，为模型设置初始化参数。主干网使用其在ImageNet数据集上预训练得到的参数作为初始化参数，其他网络层的初始参数被随机初始化；

S203，确定损失函数。模型训练采用的损失函数为其中三个显著性性能评价指标KL、CC、NSS的加权线性组合。其中，各指标的权重根据实验结果确定，用以更好地平衡各个指标对模型性能造成的影响；对于KL指标，模型的性能越好，KL指标的值越小，因此损失函数中KL指标的系数为负数，其余指标的系数为正数；

S204，确定模型中相关的超参数。训练过程中使用的梯度下降算法为随机梯度下降，初始学习率为10^-4，并且每迭代3个epoch下降10倍，Batchsize大小为10，训练一般需要迭代20个epoch至模型收敛。

在S3的一优选实施例中，采用已知的眼动数据集中的测试图像对训练后的基于非典型显著区域增强的视觉注意力预测模型进行测试，构建得到最终的视觉注意力预测模型，可以包括：

S301，使用视觉注意力预测领域3个常用的公开数据集对本发明所提出的模型的性能进行测试，分别为SALICON、MIT1003和Saliency4ASD。这3个公开数据集均提供benchmark以便于研究者们进行公平的性能比较。测试时，将测试图像输入S2中训练好的基于非典型显著区域增强的视觉注意力预测模型得到预测结果，并与对应的真值图对比并计算性能，构建得到最终的视觉注意力预测模型。

本发明一实施例提供了一种视觉注意力预测模型的构建***。

如图2所示，该实施例提供的视觉注意力预测模型的构建***，可以包括：

模型训练模块，该模块用于采用已知的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对基于非典型显著区域增强的视觉注意力预测模型的端到端训练；

模型测试模块，该模块用于采用已知的测试图像对训练后的基于非典型显著区域增强的视觉注意力预测模型进行测试，评估所构建模型的性能。

在一优选实施例中，基于非典型显著区域增强的视觉注意力预测模型，可以包括：

特征提取模块，用于提取输入图像的特征图，并输出多阶特征图；

多尺度增强模块，用于对多阶特征图中的最高阶特征图进行多尺度增强，以提升对不同尺度的显著性区域的检测能力；

非典型显著区域增强模块，用于以最高阶特征图作为初始预测结果，从上至下地对特征图中的特征进行残差融合，得到强化的非典型显著区域特征图；进一步地，该模块可以包括：前景增强子模块、背景增强子模块和残差融合子模块；

全局语义流模块，用于分别从空间和通道角度提取最高阶特征图的上下文语义信息，得到全局语义流，并将全局语义流引入非典型显著区域增强网络层，用于引导残差融合，同时自适应的补充被稀释的语义信息；进一步地，该模块可以包括：通道增强子模块和空间位置增强子模块；

显著图读出模块，用于对强化的非典型显著区域特征图沿通道维度进行压缩并进行归一化，得到视觉注意力预测结果。

需要说明的是，本发明提供的方法中的步骤，可以利用***中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现***的组成，即，方法中的实施例可理解为构建***的优选例，在此不予赘述。

本发明一实施例提供了一种视觉注意力预测方法，采用上述实施例中任一项的视觉注意力预测模型的构建方法或构建***构建得到的视觉注意力预测模型，对任一图像作为模型的输入，输出得到视觉注意力预测结果。

本发明一实施例提供了一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项的方法或***。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤或***各种的各个模块。具体可以参见前面方法和***实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的的方法或***。

本发明上述实施例提供的视觉注意力预测模型的构建方法、***、终端及介质，构建一个基于非典型显著区域增强的视觉注意力预测模型，多尺度增强部分用以提升模型对不同尺度显著区域的检测能力；非典型显著区域增强部分，利用主干网络的语义对象偏置特性，在主干网络输出的多阶特征之间执行跨阶的残差融合以增强非典型显著区域，进而更好地模拟孤独症患者特有的非典型视觉注意力；全局语义流部分，用以引导特征融合阶段中的残差融合，同时自适应地补充被稀释的语义信息；显著图读出部分，对上述模块的输出沿通道维度进行压缩并进行归一化得到最终的预测结果。

本发明上述实施例提供的视觉注意力预测模型的构建方法、***、终端及介质，与通用视觉注意力预测方法中常用的特征直接融合方式不同，根据特征提取网络层的特性和孤独症患者特有的视觉注意模式，提出了非典型显著区域增强技术，对跨阶特征进行有效的残差融合，使得模型更加关注初始未被检测出的非典型显著性区域。此外，本发明上述实施例中还提出了全局语义流技术，同时从空间和通道维度提取上下文语义信息并引导特征融合，进而在自上而下的残差融合过程中，非典型显著区域被逐渐检测出来，得到的预测结果越发完整。

本发明上述实施例提供的视觉注意力预测模型的构建方法、***、终端及介质，能够面向孤独症群体，通过构建的基于非典型显著区域增强的视觉注意力预测模型，视觉注意力预测效率高，成本低，易于实现，并且十分灵活，可以根据实际需要部署在参数量更少的主干网(考虑效率)或者性能更好的主干网(考虑性能)上。

附图中的流程图显示了根据本发明的较优实施例的方法功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，流程图中的每个方框、以及方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明上述实施例中未尽事宜均为本领域公知技术。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种视觉注意力预测模型的构建方法，其特征在于，包括：

构建基于非典型显著区域增强的视觉注意力预测模型；

2.根据权利要求1所述的视觉注意力预测模型的构建方法，其特征在于，所述构建基于非典型显著区域增强的视觉注意力预测模型，包括：

3.根据权利要求2所述的视觉注意力预测网络层的构建方法，其特征在于，还包括如下任意一项或任意多项：

-所述特征提取网络层，采用预训练的基于深度学习的对象识别网络的全卷积形式构建特征提取网络层的主干网，用于提取所述输入图像的特征，并输出多阶特征图；其中，所述特征提取网络层包括：卷积层、池化层和ReLu激活层；

-所述多尺度增强网络层，采用多个并行的具有不同大小的卷积核的卷积层来显式地引入多尺度信息，对所述最高阶特征图进行多尺度增强，所述增强结果作用于所述残差融合过程中，用于提升对不同尺度显著区域的特征提取能力；

-所述非典型显著区域增强网络层，包括：背景增强网络层、前景增强网络层和残差融合网络层；所述以所述最高阶特征图作为初始预测结果，从上至下地对所述多阶特征图中的特征进行残差融合，得到强化的非典型显著区域特征图，包括：

将所述新的预测结果作为新的高阶特征，继续与相邻的低阶特征进行残差融合，直至得到最终的强化的非典型显著区域特征图；

-所述全局语义流网络层，包括通道增强网络层和空间位置增强网络层；所述分别从空间和通道角度提取所述特征图的上下文语义信息，得到全局语义流，包括：

所述全局语义流被引入所述非典型显著区域增强网络层，通过自适应的调整全局语义流的权重，用于在残差融合过程中自适应的补充全局信息；

-所述显著图读出网络层，包括3*3卷积层和sigmoid激活函数。

4.根据权利要求1所述的视觉注意力预测模型的构建方法，其特征在于，所述采用已知的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，完成对所述基于非典型显著区域增强的视觉注意力预测模型的端到端训练，包括：

5.根据权利要求4所述的视觉注意力预测模型的构建方法，其特征在于，还包括如下任意一项或任意多项：

-所述采用公开的眼动数据集SALICON和MIT1003对所述基于非典型显著区域增强的视觉注意力预测模型进行预训练，并采用孤独症群体的眼动数据集Saliency4ASD对所述基于非典型显著区域增强的视觉注意力预测模型进行修正，包括：

将所述孤独症群体的眼动数据集Saliency4ASD的图像作为模型输入，将所述孤独症群体的眼动数据集Saliency4ASD的图像对应的真值图作为标签，以端到端的方式微调所述基于非典型显著区域增强的视觉注意力预测模型，使所述模型自动学习原始图像与真值图之间的映射关系，获得孤独症群体的眼动特征，对模型进行修正；

-所述设置所述基于非典型显著区域增强的视觉注意力预测模型的初始化参数，包括：

所述特征提取网络层采用其在ImageNet数据集上预训练得到的参数作为初始化参数；其他网络层的初始参数为随机初始化参数；

-所述确定所述基于非典型显著区域增强的视觉注意力预测模型的损失函数，包括：

所述损失函数采用三个显著性性能评价指标KL、CC、NSS的加权线性组合；

-所述确定所述基于非典型显著区域增强的视觉注意力预测模型中相关的超参数，包括：

6.根据权利要求1所述的视觉注意力预测模型的构建方法，其特征在于，所述采用已知的眼动数据集中的测试图像对训练后的所述基于非典型显著区域增强的视觉注意力预测模型进行测试，包括：

7.一种视觉注意力预测模型的构建***，其特征在于，包括：

8.一种视觉注意力预测方法，其特征在于，采用权利要求1-6中任一项所述的视觉注意力预测模型的构建方法或权利要求7中所述的视觉注意力预测模型的构建***构建得到的视觉注意力预测模型，对任一图像作为所述模型的输入，输出得到视觉注意力预测结果。

9.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-6或8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-6或8中任一项所述的方法。