CN112487225A - 显著性图像生成方法、装置及服务器 - Google Patents
显著性图像生成方法、装置及服务器 Download PDFInfo
- Publication number
- CN112487225A CN112487225A CN202011453179.8A CN202011453179A CN112487225A CN 112487225 A CN112487225 A CN 112487225A CN 202011453179 A CN202011453179 A CN 202011453179A CN 112487225 A CN112487225 A CN 112487225A
- Authority
- CN
- China
- Prior art keywords
- group
- sample image
- forgetting
- prediction model
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 110
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 206010027175 memory impairment Diseases 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 32
- 238000010586 diagram Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004424 eye movement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种显著性图像生成方法、装置及服务器,所述方法包括:获得所有测试用户的遗忘度特征,并根据测试用户的遗忘度特征将测试用户分为多个群体,其中每个群体的遗忘度特征相同;获取清晰样本图像集以及每个群体的标注样本图像集,其中标注样本图像集与清晰样本图像集对应;采用神经网络模型分别每个群体的标注样本图像集以及清晰样本图像进行训练,构建每个群体的预测模型;获得目标用户的遗忘度特征,根据目标用户的遗忘度特征以及预测模型确定目标预测模型,并将目标图像输入目标预测模型中,以生成显著性图像,提高了生成的显著性图像与用户实际的视觉***的显著性的匹配度。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种显著性图像生成方法、装置及服务器。
背景技术
人类视觉***的显著性具有快速搜索和定位感兴趣目标的能力,人在面对自然场景时,可根据视觉***的显著性快速地过滤掉不重要的信息,让我们的注意力更加集中在感兴趣的区域。因此,在图像推送的应用场景中,通过预测不同用户的视觉***的显著性,并根据预测的图像显著性预测结果生成待推送的图像,提高了用户对于待推送的图像的感兴趣程度。
现有技术中,显著性检测方法大多采用深度学习的方法,根据用户提交的显著性图像样本进行训练,即将卷积操作与池化操作相结合,利用深度卷积神经网络提取图像特征,获得显著性预测模型,并根据显著性预测模型获得待推送的显著性图像。
然而,现有技术中,用户对于图像的遗忘性会导致用户提交的显著性图像样本中丢失一些图像的特征信息,使得获得显著性预测模型的准确度较低,导致根据生成的显著性图像与用户实际的视觉***的显著性不匹配。
发明内容
本发明的目的在于提供一种显著性图像生成方法、装置及服务器,以提高生成的显著性图像与用户实际的视觉***的显著性的匹配度。
第一方面,本发明提供一种显著性图像生成方法,包括:
获得所有测试用户的遗忘度特征,并根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,其中每个群体的遗忘度特征相同;
获取清晰样本图像集以及每个群体的标注样本图像集,其中所述标注样本图像集与所述清晰样本图像集对应;
采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型;
获得目标用户的遗忘度特征,根据所述目标用户的遗忘度特征以及所述预测模型确定目标预测模型,并将目标图像输入所述目标预测模型中,以生成显著性图像。
在一种可能的设计中,所述根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,包括:
根据所述测试用户的遗忘度特征将所述测试用户分为第一群体、第二群体以及第三群体,其中所述第一群体中的测试用户的遗忘度较高、所述第二群体中的测试用户的遗忘度正常以及所述第三群体中的测试用户的遗忘度较低。
在一种可能的设计中,所述采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型,包括:
分别根据所述第一群体、所述第二群体以及所述第三群体的标注样本图像集以及清晰样本图像集获得第一训练集、第二训练集以及第三训练集,并采用神经网络模型分别对所述第一训练集、所述第二训练集以及所述第三训练集进行卷积神经网络训练,构建第一预测模型、第二预测模型以及第三预测模型;
其中所述卷积神经网络训练的步骤为:
构建卷积神经网络模型,并将所述清晰样本图像集输入所述卷积神经网络模型中进行迭代训练,获得显著性预测图集;
根据所述标注样本图像集与所述显著性预测图集确定损失函数集,并根据损失函数集中的最小损失函数确定预测模型。
在一种可能的设计中,所述分别根据所述第一群体、所述第二群体以及所述第三群体的标注样本图像集以及清晰样本图像集获得第一训练集、第二训练集以及第三训练集,并分别根据所述第一训练集、所述第二训练集以及所述第三训练集构建第一预测模型、第二预测模型以及第三预测模型,包括;
分别根据所述第一训练集、所述第二训练集以及所述第三训练集进行卷积神经网络模型训练,以构建第一预测模型、第二预测模型以及第三预测模型,其中所述卷积神经网络模型训练的步骤为:
构建卷积神经网络模型,并将所述清晰样本图像集输入所述卷积神经网络模型中进行迭代训练,获得视觉预测图集;
根据所述标注样本图像集与所述视觉预测图集确定损失函数集,并根据损失函数集中的最小损失函数确定预测模型。
在一种可能的设计中,所述获取清晰样本图像集以及每个群体的标注样本图像集,包括:
获取清晰样本图像集,并将清晰样本图像集进行高斯模糊处理获得测试图像集;
根据不同群体的用户对所述测试图像集的标注数据获得不同群体的用户的标注样本图像集,其中所述标注数据为坐标数据。
在一种可能的设计中,所述获得所有测试用户的遗忘度特征,包括:
获取所有测试用户的遗忘度测评数据;
根据所述遗忘度测评数据获得测试用户遗忘度特征,其中所述遗忘度测评数据包括:心理学量表测评数据、快速测试问卷测评数据以及自我测评数据中的至少一种。
第二方面,本发明实施例提供一种显著性图像生成装置,基于第一方面任一项所述的显著性图像生成方法,包括:
获得模块,用于获得所有测试用户的遗忘度特征,并根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,其中每个群体的遗忘度特征相同;
获取模块,用于获取清晰样本图像集以及每个群体的标注样本图像集,其中所述标注样本图像集与所述清晰样本图像集对应;
构建模块,用于采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型;
生成模块,用于获得目标用户的遗忘度特征,根据所述目标用户的遗忘度特征以及所述预测模型确定目标预测模型,并将目标图像输入所述目标预测模型中,以生成显著性图像。
在一种可能的设计中,所述获得模块具体用于:
根据所述测试用户的遗忘度特征将所述测试用户分为第一群体、第二群体以及第三群体,其中所述第一群体中的测试用户的遗忘度较高、所述第二群体中的测试用户的遗忘度正常以及所述第三群体中的测试用户的遗忘度较低。
第三方面,本发明实施例提供一种服务器,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的显著性图像生成方法;
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的显著性图像生成方法。
第五方面,本发明实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的显著性图像生成方法。
本发明实施例提供的一种显著性图像生成方法、装置及服务器,通过根据测试用户的遗忘度特征将测试用户分为多个群体,并分别根据每个群体的标注样本图像集以及清晰样本图像集获得每个群体的训练集,并分别根据每个群体的训练集构建多个预测模型,根据目标用户的遗忘度特征以及多个预测模型确定目标预测模型,并通过将目标图像输入目标预测模型中,以生成显著性图像,提高了生成的显著性图像与用户实际的视觉***的显著性的匹配度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的显著性图像生成方法的应用场景示意图;
图2为本发明实施例提供的显著性图像生成方法流程图一;
图3为本发明实施例提供的清晰样本图像的示意图;
图4为本发明实施例提供的模糊测试图片的示意图;
图5为本发明实施例提供的显著性图像生成方法流程图二;
图6为本发明实施例采用的神经网络结构示意图;
图7为本发明实施例提供的上采样过程示意图;
图8为本发明实施例提供的FCN跳跃结构的示意图;
图9为本发明实施例提供的显著性图像生成装置的结构示意图;
图10为本发明实施例提供的服务器结构示意图。
具体实施方式
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
随着互联网的海量图像的广泛传播,应用人类视觉***的显著性分析结果,合理布局和设计图像特征以提高图像信息转达的有效性,已经成为计算机视觉领域的发展方向。人类视觉***的显著性具有快速搜索和定位感兴趣目标的能力,人在面对自然场景时,可根据视觉***的显著性快速地过滤掉不重要的信息,让我们的注意力更加集中在感兴趣的区域。因此,在图像推送的应用场景中,通过预测不同用户的视觉***的显著性,并根据预测的图像显著性预测结果生成待推送的图像,提高了用户对于待推送的图像的感兴趣程度。
现有技术中,显著性检测方法大多采用深度学习的方法,根据用户提交的显著性图像样本进行训练,即将卷积操作与池化操作相结合,利用深度卷积神经网络提取图像特征,获得显著性预测模型,并根据显著性预测模型获得待推送的显著性图像。然而,现有技术中,用户对于图像的遗忘性会导致用户提交的显著性图像样本中丢失一些图像的特征信息,使得获得显著性预测模型的准确度较低,导致根据生成的显著性图像与用户实际的视觉***的显著性不匹配。
为了解决上述技术问题,本发明实施例提出了一种显著性图像生成方法,通过根据测试用户的遗忘度特征将测试用户分为多个群体,并分别根据每个群体的标注样本图像集以及清晰样本图像集获得每个群体的训练集,并分别根据每个群体的训练集构建多个预测模型,根据目标用户的遗忘度特征以及多个预测模型确定目标预测模型,并通过将目标图像输入目标预测模型中,以生成显著性图像,提高了生成的显著性图像与用户实际的视觉***的显著性的匹配度。
图1为本发明实施例提供的显著性图像生成方法的应用场景示意图,如图1所示:本发明实施例中用户调度应用场景包括用于采集测试用户遗忘度特征的终端10以及生成显著性图像的服务器20。其中,遗忘度特征采集终端10中终端10包括但不限于:台式电脑、笔记本电脑、平板电脑以及手机等。终端10可以安装有进行遗忘度特征采集的应用程序客户端,测试用户通过在应用程序客户端进行测试,获得该测试用户的遗忘度测评数据。并且,终端10还采集测试用户的标注样本图像,根据采集的所有测试用户的标注样本图像获得标注样本图像集。每个终端10将采集的遗忘度测评数据以及标注样本图像发送至服务器。服务器20可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务平台。服务器20根据遗忘度测评数据分析测试用户的遗忘度,并根据标注样本图像集获得显著性图像特测模型。下面采用详细的实施例进行详细说明。
图2为本发明实施例提供的显著性图像生成方法流程图一。本发明实施例的执行主体可以为图1所示的服务器20。如图2所示,本发明实施例提供的显著性图像生成方法如下步骤:
S201:获得所有测试用户的遗忘度特征,并根据测试用户的遗忘度特征将测试用户分为多个群体,其中每个群体的遗忘度特征相同。
在本发明实施例中,示例性的,获取所有测试用户的遗忘度测评数据;根据遗忘度测评数据获得测试用户遗忘度特征,其中遗忘度测评数据包括:心理学量表测评数据、快速测试问卷测评数据以及自我测评数据中的至少一种。
在本发明实施例中,具体的,测试用户通过在终端上进行遗忘度测试的程序获得所有测试用户的遗忘度测评数据,其中,遗忘度测评数据可以为心理学量表测评数据、快速测试问卷测评数据以及自我测评数据中的至少一种。终端在获得测试用户的遗忘度测评数据之后,通过对遗忘度测评数据进行分析判定该测试用户的遗忘程度。
在本发明实施例中,示例性的,在获得所有测试用户的遗忘度测评数据之后,可根据测试用户的遗忘度特征将测试用户分为第一群体、第二群体以及第三群体,其中第一群体中的测试用户的遗忘度较高、第二群体中的测试用户的遗忘度正常以及第三群体中的测试用户的遗忘度较低。通过将具备相同遗忘度的测试用户分为同一个群体,对每个群体的显著性图像进行分析,提高了预测的显著性图像与每个测试用户的遗忘度的匹配性。
S202:获取清晰样本图像集以及每个群体的标注样本图像集,其中标注样本图像集与清晰样本图像集对应。
在本发明实施例中,示例性的,获取清晰样本图像集,并将清晰样本图像集进行高斯模糊处理获得测试图像集;根据不同群体的用户对测试图像集的标注数据获得不同群体的用户的标注样本图像集,其中标注数据为坐标数据。
随着眼动跟踪技术的发展,用户注视点数据可以被用于行为分析、心理分析等领域。鼠标数据在一些研究中被证明和眼动数据具有很强的相关性,可以替代眼动数据进行视觉注意力相关研究。在本发明实施例中,使用鼠标点击数据替代眼动跟踪数据。具体的,如图3所示,图3为本发明实施例提供的清晰样本图像的示意图。先让测试用户观看清晰样本图像集中的一张清晰样本图像一段时间之后,然后对该清晰样本图像进行模糊处理,获得模糊测试图片,如图4所示,图4为本发明实施例提供的模糊测试图片的示意图。要求测试用户回忆之前看过的所有区域,并要求测试用户鼠标点击模糊测试图片中存在记忆的区域,当测试用户点击时,点击的区域一定半径区域范围清晰显示。记录测试用户点击的所有坐标,并将坐标数据高斯模糊后生成该测试用户的标注样本图像,每张标注样本图像为标注热区图。
在本发明实施例中,示例性的,清晰样本图像集的数量为200张,根据上述获得标注样本图像的方法,将每个群体的测试用户对同一张清晰样本图像的所有标注的坐标数据总在一起,获得标注坐标数据集。把鼠标坐标高斯模糊32度来匹配人眼的视角,通过对标注坐标数据集利用高斯函数进行高斯模糊后生成该群体的测试用户对应的标注样本图像集,图像以雾状阴影的形式呈现,有些区域透明度较高,表示该区域越受测试用户关注。标注样本图像的生成采用高斯模糊的算法,为了使标注样本图像过渡更自然,采用每个点可以影响图上所有像素的高斯模糊算法。
在本发明实施例中,具体的,高斯函数的计算方法如公式(1)所示:
其中,x是遵从正态分布的随机变量的均值,μ是x的均值,σ2是x的方差,同时也为高斯模糊的半径)。设注视点回忆鼠标标注数据生成热区图的分布为I。其中,第i个点的像素值的计算过程如公式(2)所述。
其中,I为一张图片的用户标注坐标生成热区图的分布矩阵,I的初始值为与图片大小相同的皆置为0的矩阵。i为计算n个数据点时,矩阵中的某个像素点。S取值为等于σ2,σ为高斯函数中的影响因子,本发明实施例中取值为32,d表示该像素点与标注点的欧式距离。
S203:采用神经网络模型分别每个群体的标注样本图像集以及清晰样本图像进行训练,构建每个群体的预测模型。
在本发明实施例中,示例性的,分别根据第一群体、第二群体以及第三群体的标注样本图像集以及清晰样本图像集获得第一训练集、第二训练集以及第三训练集,并采用神经网络模型分别对第一训练集、第二训练集以及第三训练集进行卷积神经网络训练,构建第一预测模型、第二预测模型以及第三预测模型。
在本发明实施例中,不同遗忘程度的测试用户在观看图片会产生不同的视觉注意力分布,将具备相同遗忘程度的测试用户分为一个群体,建立不同遗忘程度的用户标注数据集,分别每个群体的标注样本图像集以及清晰样本图像进行训练,构建每个群体的预测模型。
在本发明实施例中,神经网络模型采用的是全卷积神经网络,其中全卷积神经网络实现了输出端到端、像素到像素的图像预测结果。在对每个群体训练的过程中,基于用户注视点回忆数据的用户遗忘检测模型,将每个群体对应的每个群体的标注样本图像集以及清晰样本图像集作为训练模型的训练样本,按照60%、20%、以及20%将分为训练样本训练集、验证集和测试集,通过利用训练集训练图片,在测试集上进行模型评估,对清晰样本图像进行训练获得预测模型。
S204:获得目标用户的遗忘度特征,根据目标用户的遗忘度特征以及预测模型确定目标预测模型,并将目标图像输入目标预测模型中,以生成显著性图像。
在本发明实施例中,为了预测目标用户的显著性图像,首先获得目标用户的遗忘度特征。示例性的,通过终端获得目标用户的遗忘度测评数据,并对遗忘度测评数据进行分析获得目标用户的遗忘度特征。并根据目标用户的遗忘度特征判定目标用户对应的目标预测模型。示例性的,若目标用户的遗忘度特征为遗忘程度较高,则将第一预测模型作为目标预测模型。将目标图像作为目标预测模型的输入,输出的内容为预测的该目标图像对应的目标用户的显著性图像。其中,生成的显著性图像与目标用户的视觉显著性匹配,还与该目标用户的遗忘度匹配。
从上述实施例可知,通过根据测试用户的遗忘度特征将测试用户分为多个群体,并分别根据每个群体的标注样本图像集以及清晰样本图像集获得每个群体的训练集,并分别根据每个群体的训练集构建多个预测模型,根据目标用户的遗忘度特征以及多个预测模型确定目标预测模型,并通过将目标图像输入目标预测模型中,以生成显著性图像,提高了生成的显著性图像与用户实际的视觉***的显著性的匹配度。
图5为本发明实施例提供的显著性图像生成方法流程图二,在图2实施例的基础上,如图5所示,本发明实施例提供的卷积神经网络训练的步骤如下所示:
S501:构建卷积神经网络模型,并将清晰样本图像集输入卷积神经网络模型中进行迭代训练,获得显著性预测图集。
在本发明实施例中,神经网络中的卷积层替代VGG网络的全连接层,使用全卷积形式的VGG网络作为训练的深度神经网络。卷积神经网络中,经过池化层的图像尺寸会变小,池化层相当于下采样的作用。因为视觉显著性预测任务需要输出和输入图片同等尺寸的分割图,通常采用了上采样的方式还原图像尺寸相同的预测输出。上采样是指可以将图像上采样到更高分辨率的技术,反卷积的上采样方式是可以学习的,具体的,图6为本发明实施例采用的神经网络结构示意图。如图6所示,FCN32s网络经过多个池化层的尺寸减小至原图像尺寸的1/32,通过上采样的方式还原网络输出到和原图像尺寸相同的预测。
示例性的,图7为本发明实施例提供的上采样过程示意图,如图7所示,本发明实施例提供的全卷积神经网络模型采用反卷积进行上采样。具体的,以输入尺寸为3*3的为例,采用3*3的卷积核进行反卷积操作,步长为2,填充为1,经过反卷积后的输出为上方的方块,尺寸增加为5*5。本发明实施例提供的全卷积神经网络中通过将第经过七个卷积层的输出进行32倍的上采样之后输出的结果被称为FCN32s。示例性的,图8为本发明实施例提供的FCN跳跃结构的示意图。如图8所示,通过跳跃结构,改善输出图像的细节内容,将通过conv7的预测进行两倍的上采样和pool4进行融合再进行16倍的上采样可以生成FCN16s。同样的原理,将通过conv7的输出进行4倍上采样再融合经过两倍上采样的第四池化层的预测,以及第三个池化层的预测,再进行8倍的上采样生成FCN8s。这种跳跃结构可以填补缺失的一些数据,提高FCN预测的精细度,使预测更加准确。示例性的,采用FCN-8S作为本发明实施例提供的全卷积神经网络模型,提高了预测的模型的准确性。
S302:根据标注样本图像集与显著性预测图集确定损失函数集,并根据损失函数集中的最小损失函数确定预测模型。
在本发明实施例中,通过将清晰样本图像集和对应标注样本图像集输入视觉显著性模型进行训练。其中,标注样本图像集作为预测对应的真值,在模型的训练中,通过最小化真值图和预测结果之间的损失值,模型可以自动从图片和对应的众包式眼动数据中学习人眼视觉感知特征。示例性的不同遗忘度的用户群体标注的显著性图像为灰度图,将灰度图[0,255]映射[0,1]范围内,显著图的每个像素的[0,1]范围的值可以作为那个像素的最小化真值图,越接近1代表越显著。
在本发明实施例中,视觉显著性预测模型的损失函数为:以将FCN用于图像的语义分割为例,在分割类别为2类的情况下,对不同类别的预测为{0,1}。而对于视觉显著性预测任务,图像中每个像素的预测结果是一个Qi∈[0,1]的范围值,在这个范围内1代表视觉显著程度最高,0代表最不显著。为此,本发明实施例中的视觉显著性预测模型的损失函数计算如公式(3)所示。
其中,Pi=σ(fi(Θ))是FCN网络的预测输出fi(Θ)和Sigmoid函数的联合,Sigmoid函数为σ(x)=(1+exp(-x))-1。公式(3)中损失计算方法常常被用于二分类问题,预测二分类的时候Qi∈{0,1},Qi为0或1。在预测视觉显著性任务的时候,采用类似的损失计算方式,变化的部分为把Qi定义成0到1区间的范围值,即Qi∈[0,1]。所述损失函数能较好地与[0,1]之前的预测值匹配,并且最小化改损失的同时也可以优化视觉显著性模型的评估指标即相对熵(Kullback-Leibler divergence,简称KL)损失。
示例性的,当模型训练的动量参数为0.9时,根据数据集图片的数量设置初始学习率。例如图片数量为1000张时,可以将训练的初始学习设置为10-5,学习率每经过2个迭代过程下降10倍。将所有图片输入大小控制在最长边固定像素。具体的,评估的指标分别为线性相关系数(Pearson's Correlation Coefficient,简称CC)和KL两个指标。CC和KL是多个视觉显著性研究相关指标中取的两个指标,其中,最小化模型损失的时候等同于优化的评估指标之一的KL损失值。将视觉显著性模型对测试集图片的预测输出和收集的用户标注图真值进行比较,可以用CC和KL两个指标对模型进行评估。其中,CC可以衡量预测输出与用户标注的灰度图之间的相关性。对错误的正样本和错误的负样本采取同等的处理。CC越大说明两个分布越接近。CC的计算如公式(4)所示。
在本发明实施例中,KL用于衡量的分布为真值。示例性的,本发明实施例中真值为标注样本图像。标注样本图像集中的每个像素的值都可以作为该像素重要程度的度量,KL作为高度惩罚错误的预测,当KL越高时,说明显著性图像预测模型的预测能力越弱。如果预测结果与真值的差异很大,KL值就会变大。设真值的图为Q,预测的显著性的图为P,KL的计算如公式(5)所示。
从上述实施例可知,通过采用卷积神经网络构建预测模型,并将清晰样本图像集输入卷积神经网络模型中进行迭代训练,获得显著性预测图集,并根据标注样本图像集与显著性预测图集确定预测模型,提高了生成的显著性图像与用户实际的视觉***的显著性的匹配度。
图9为本发明实施例提供的显著性图像生成装置的结构示意图。如图9所示,该显著性图像生成装置包括:获得模块901,获取模块902,构建模块903以及生成模块904。
获得模块901,用于获得所有测试用户的遗忘度特征,并根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,其中每个群体的遗忘度特征相同;
获取模块902,用于获取清晰样本图像集以及每个群体的标注样本图像集,其中所述标注样本图像集与所述清晰样本图像集对应;
构建模块903,用于采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型;
生成模块904,用于获得目标用户的遗忘度特征,根据所述目标用户的遗忘度特征以及所述预测模型确定目标预测模型,并将目标图像输入所述目标预测模型中,以生成显著性图像。
在一种可能的实现方式中,所述获得模块具体用于:
根据所述测试用户的遗忘度特征将所述测试用户分为第一群体、第二群体以及第三群体,其中所述第一群体中的测试用户的遗忘度较高、所述第二群体中的测试用户的遗忘度正常以及所述第三群体中的测试用户的遗忘度较低。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图10为本发明实施例提供的服务器结构示意图。如图10所示,本实施例的服务器100包括:处理器1001和存储器1002;其中:
存储器1002,用于存储计算机执行指令;
处理器1001,用于执行存储器存储的计算机执行指令,以实现上述实施例中服务器所执行的各个步骤。
具体可以参见前述方法实施例中的相关描述。
在一种可能的设计中,存储器1002既可以是独立的,也可以跟处理器1001集成在一起。
当存储器1002独立设置时,该服务器还包括总线1003,用于连接所述存储器1002和处理器1001。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的显著性图像生成方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上所述的显著性图像生成方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种显著性图像生成方法,其特征在于,包括:
获得所有测试用户的遗忘度特征,并根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,其中每个群体的遗忘度特征相同;
获取清晰样本图像集以及每个群体的标注样本图像集,其中所述标注样本图像集与所述清晰样本图像集对应;
采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型;
获得目标用户的遗忘度特征,根据所述目标用户的遗忘度特征以及所述预测模型确定目标预测模型,并将目标图像输入所述目标预测模型中,以生成显著性图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,包括:
根据所述测试用户的遗忘度特征将所述测试用户分为第一群体、第二群体以及第三群体,其中所述第一群体中的测试用户的遗忘度较高、所述第二群体中的测试用户的遗忘度正常以及所述第三群体中的测试用户的遗忘度较低。
3.根据权利要求2所述的方法,其特征在于,所述采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型,包括:
分别根据所述第一群体、所述第二群体以及所述第三群体的标注样本图像集以及清晰样本图像集获得第一训练集、第二训练集以及第三训练集,并采用神经网络模型分别对所述第一训练集、所述第二训练集以及所述第三训练集进行卷积神经网络训练,构建第一预测模型、第二预测模型以及第三预测模型;
其中所述卷积神经网络训练的步骤为:
构建卷积神经网络模型,并将所述清晰样本图像集输入所述卷积神经网络模型中进行迭代训练,获得显著性预测图集;
根据所述标注样本图像集与所述显著性预测图集确定损失函数集,并根据损失函数集中的最小损失函数确定预测模型。
4.根据权利要求1所述的方法,其特征在于,所述获取清晰样本图像集以及每个群体的标注样本图像集,包括:
获取清晰样本图像集,并将清晰样本图像集进行高斯模糊处理获得测试图像集;
根据不同群体的用户对所述测试图像集的标注数据获得不同群体的用户的标注样本图像集,其中所述标注数据为坐标数据。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获得所有测试用户的遗忘度特征,包括:
获取所有测试用户的遗忘度测评数据;
根据所述遗忘度测评数据获得测试用户遗忘度特征,其中所述遗忘度测评数据包括:心理学量表测评数据、快速测试问卷测评数据以及自我测评数据中的至少一种。
6.一种显著性图像生成装置,其特征在于,包括:
获得模块,用于获得所有测试用户的遗忘度特征,并根据所述测试用户的遗忘度特征将所述测试用户分为多个群体,其中每个群体的遗忘度特征相同;
获取模块,用于获取清晰样本图像集以及每个群体的标注样本图像集,其中所述标注样本图像集与所述清晰样本图像集对应;
构建模块,用于采用神经网络模型分别所述每个群体的标注样本图像集以及所述清晰样本图像进行训练,构建每个群体的预测模型;
生成模块,用于获得目标用户的遗忘度特征,根据所述目标用户的遗忘度特征以及所述预测模型确定目标预测模型,并将目标图像输入所述目标预测模型中,以生成显著性图像。
7.根据权利要求6所述的装置,其特征在于,所述获得模块具体用于:
根据所述测试用户的遗忘度特征将所述测试用户分为第一群体、第二群体以及第三群体,其中所述第一群体中的测试用户的遗忘度较高、所述第二群体中的测试用户的遗忘度正常以及所述第三群体中的测试用户的遗忘度较低。
8.一种服务器,其特征在于,包括存储器和至少一个处理器;
所述存储器用于存储计算机执行指令;
至少一个处理器,用于执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至5任一项所述的显著性图像生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的显著性图像生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的显著性图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453179.8A CN112487225B (zh) | 2020-12-11 | 2020-12-11 | 显著性图像生成方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453179.8A CN112487225B (zh) | 2020-12-11 | 2020-12-11 | 显著性图像生成方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487225A true CN112487225A (zh) | 2021-03-12 |
CN112487225B CN112487225B (zh) | 2022-07-08 |
Family
ID=74916674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453179.8A Active CN112487225B (zh) | 2020-12-11 | 2020-12-11 | 显著性图像生成方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487225B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549863A (zh) * | 2022-04-27 | 2022-05-27 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
CN114648672A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 构建样本图像集的方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012268887A1 (en) * | 2012-12-24 | 2014-07-10 | Canon Kabushiki Kaisha | Saliency prediction method |
US20150117783A1 (en) * | 2013-10-24 | 2015-04-30 | Adobe Systems Incorporated | Iterative saliency map estimation |
CN105913064A (zh) * | 2016-04-12 | 2016-08-31 | 福州大学 | 一种图像视觉显著性检测拟合优化方法 |
US20180181593A1 (en) * | 2016-12-28 | 2018-06-28 | Shutterstock, Inc. | Identification of a salient portion of an image |
CN108492322A (zh) * | 2018-04-04 | 2018-09-04 | 南京大学 | 一种基于深度学习预测用户视场的方法 |
CN110570490A (zh) * | 2019-09-06 | 2019-12-13 | 北京航空航天大学 | 显著性图像生成方法及设备 |
-
2020
- 2020-12-11 CN CN202011453179.8A patent/CN112487225B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012268887A1 (en) * | 2012-12-24 | 2014-07-10 | Canon Kabushiki Kaisha | Saliency prediction method |
US20150117783A1 (en) * | 2013-10-24 | 2015-04-30 | Adobe Systems Incorporated | Iterative saliency map estimation |
CN105913064A (zh) * | 2016-04-12 | 2016-08-31 | 福州大学 | 一种图像视觉显著性检测拟合优化方法 |
US20180181593A1 (en) * | 2016-12-28 | 2018-06-28 | Shutterstock, Inc. | Identification of a salient portion of an image |
CN108492322A (zh) * | 2018-04-04 | 2018-09-04 | 南京大学 | 一种基于深度学习预测用户视场的方法 |
CN110570490A (zh) * | 2019-09-06 | 2019-12-13 | 北京航空航天大学 | 显著性图像生成方法及设备 |
Non-Patent Citations (2)
Title |
---|
JE-JIN RYU等: "Saliency Map Generation Based on the Meanshift Clustering and the Pseudo Background", 《THE JOURNAL OF KOREAN INSTITUTE OF INFORMATION TECHNOLOGY》 * |
李德仁等: "基于视觉反差的显著图生成与目标检测", 《武汉大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648672A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 构建样本图像集的方法、装置、电子设备及可读存储介质 |
CN114549863A (zh) * | 2022-04-27 | 2022-05-27 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
CN114549863B (zh) * | 2022-04-27 | 2022-07-22 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112487225B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hénaff et al. | Perceptual straightening of natural videos | |
CN110598845B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN110383299B (zh) | 记忆增强的生成时间模型 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
Shen et al. | Transform-invariant convolutional neural networks for image classification and search | |
CN112487225B (zh) | 显著性图像生成方法、装置及服务器 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN113722474A (zh) | 文本分类方法、装置、设备及存储介质 | |
WO2021169642A1 (zh) | 基于视频的眼球转向确定方法与*** | |
CN112990318A (zh) | 持续学习方法、装置、终端及存储介质 | |
CN115345905A (zh) | 目标对象跟踪方法、装置、终端及存储介质 | |
CN112486338A (zh) | 医疗信息处理方法、装置及电子设备 | |
CN113918738B (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN116258937A (zh) | 基于注意力机制的小样本分割方法、装置、终端及介质 | |
CN111462184A (zh) | 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法 | |
CN113780365B (zh) | 样本生成方法和装置 | |
CN108875901B (zh) | 神经网络训练方法以及通用物体检测方法、装置和*** | |
Oga et al. | River state classification combining patch-based processing and CNN | |
CN114332457A (zh) | 图像实例分割模型训练、图像实例分割方法和装置 | |
CN110598028B (zh) | 图像分类方法、装置及存储介质、电子设备 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN115345917A (zh) | 低显存占用的多阶段稠密重建方法及装置 | |
Feng-Hui et al. | Road traffic accident scene detection and mapping system based on aerial photography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |