CN112598662A - 一种基于隐藏信息学习的图像美学描述生成方法 - Google Patents
一种基于隐藏信息学习的图像美学描述生成方法 Download PDFInfo
- Publication number
- CN112598662A CN112598662A CN202011609603.3A CN202011609603A CN112598662A CN 112598662 A CN112598662 A CN 112598662A CN 202011609603 A CN202011609603 A CN 202011609603A CN 112598662 A CN112598662 A CN 112598662A
- Authority
- CN
- China
- Prior art keywords
- text
- aesthetic
- features
- scale
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 12
- 238000001303 quality assessment method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims 1
- 238000012552 review Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于隐藏信息学习的图像美学描述生成的方法。本发明步骤如下:(1)模型预处理。采用目标检测网络Encv和Transformer网络Enct分别从图像和文本评论中提取多尺度特征表达;(2)基于对抗学习的跨模态一致性特征提取。利用对抗学习思想,构建特征模态判别器;(3)多因素控制的美学评论生成。以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;(4)基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;(5)基于隐藏信息学习的对抗损失。本发明生成文本与输入图像的美学质量相匹配,从而提升模型的鲁棒性和精确性。
Description
技术领域
本发明提出了一种基于隐藏信息学习的图像美学描述生成的方法,主要涉及一种生成对抗学习框架,针对标记数据规模小、噪声大的问题,利用隐藏信息学习(LearningUsing Privilidged Information,LUPI)的思想,对噪声数据进行可信度估计,作为对抗损失函数的松弛项,提升模型训练效率和性能。
背景技术
图像美学质量评价(Photo QualityAssessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。相关研究任务大致可以分为五类,即质量二分类(专业/业余,美/丑,好/坏)、质量分数预测(如利用0-10分的分数描述美观程度)、质量分数分布预测(同一幅图像,不同观测者主观标记分数的概率分布)、美学因素预测(构图、光影、配色等各个因素的优劣等级)和美学描述(对图像美学进行文字评论,论述图像为什么好/坏)。当前关于图像美学质量的研究主要集中在前三类任务,对应的美学数据库标记数据质量高、规模大。相比之下,美学因素预测和美学描述对于图像美学的理解意义重大,但相关研究还处于起步阶段,而且标记数据质量低、规模少,难以满足大规模深度网络对训练样本的需求。
现有的绝大部分方法只基于图像提取特征,且集中在美学质量的分类或分数预测任务。近年来,出现了少量工作研究图像美学因素分析及文本评论/描述生成问题。例如,Chang等人利用卷积神经网络与长短时记忆网络,并构建美学因素引导及混合机制,进行图像美学描述,不过对于生成文本缺少可靠的指导。文本评论信息对于理解图像美学机理意义重大。然而,现有图像美学评论数据噪声大、数据量小,难以满足深度网络的训练需求。因此,如何利用有限、有噪声数据学习文本与图像之间的关联关系,探索图像美学质量评价的因果推理机制,是目前的研究热点及难点。
在图像美学描述方法中,存在两方面技术难点。其一为小样本下的模型学习问题,考虑到现有的图像描述模型对于大规模标准样本的需求,如何设计有效的学习策略,基于小样本进行训练;同时,标记样本中存在大量噪声,现有对抗学习中的判别机制对真实样本与生成样本进行硬性划分,必然会引入错误信息,如何设计一种非对称联合学习方法,获取有效信息并避免引入噪声信息。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于隐藏信息学习的图像美学描述生成的方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)模型预处理
模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征。
步骤(2)基于对抗学习的跨模态一致性特征提取
利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似。
步骤(3)生成多因素控制的美学文本评论
以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论。
步骤(4)基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性。
该多任务约束判别网络采用文本质量预测损失和美学因素预测损失。基于文本质量预测和美学因素预测以多任务学习形式,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性。对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。
步骤(5)基于隐藏信息学习的对抗损失
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。
进一步的,所述的步骤(1)所述的模型预处理:
1-1对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练。
1-2将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取较好的特征提取能力。在微调阶段采用半监督学习的形式。在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习。在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束。
1-3将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。
进一步的,所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取:
2-1利用对抗学习思想,构建特征模态判别器Dm。Dm需要判断输入特征的模态。将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似,从而欺骗Dm。
2-2所提取的多尺度图像特征和多尺度文本特征需要精确表征美学质量。因此采用模态判别损失Lm:
其中,Dm(·)为表示特征的概率函数,fv表示多尺度图像特征,ft表示多尺度文本特征。
进一步的,步骤(3)所述的生成多因素控制的美学评论:
3-1以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器Dect中,生成文本评论。
3-2在评论解码器Dect中利用协同注意力模块挖掘多尺度图像特征和多尺度文本特征的关联关系,并利用协同注意力模块输出文本聚合特征,用于文本评论的生成。
进一步的,所步骤(4)所述的基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性,具体是如下:
4-1质量预测损失La:质量预测损失包含多尺度图像特征和多尺度文本特征,采用L2损失,用于多尺度图像特征和多尺度文本特征的有效性。
4-2美学因素预测损失Lfact:美学因素预测损失包含真实文本评论和生成文本评论,采用交叉熵损失,用于约束生成文本评论的合理性。
4-3.对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。
进一步的,步骤(5)所述的基于隐藏信息学习的对抗损失:
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子指导模型的训练。具体而言,在判别网络中引入两组参数w和w*,对抗损失拟采用HingeLoss形式,需要求解以下问题:
s.t.
其中,w和w*为网络权重参数,b和b*为网络偏置量,γ和C为权重系数,yi为xi样本所对应的标签,xi∈Rd为Transformer判别网络提取的特征,为预训练好的美学质量评价模型提取的特征,为两层全连接层,输出为文本特征引入的松弛因子。当文本噪声比较大时,基于文本预测质量误差较大,对应的松弛因子也需要较大,即生成的文本评论不需要与真实文本评论过于相近;当文本噪声较小时,松弛因子也较小,生成文本评论也应逼近真实文本评论。这里,w和w*为网络权重参数,可以利用改进的SMO算法进行求解,与整个网络一起进行迭代优化。
在测试阶段,只需要将测试图像及拟生成的美学因素标记(可以是多个)向量输入到训练好的模型中,就能得到对应的美学描述。
本发明有益效果如下:
针对标记信息规模小、噪声大的学习问题,基于生成对抗学习思想研究图像美学描述生成任务,拟将真实文本标记数据作为隐藏信息,根据真实文本标记数据对图像美学质量表达能力,自动学习描述生成判别损失函数中的松弛项。即真实文本标记数据与图像美学质量高度相关时,松弛量小,从而生成描述需要与其接近;反之,松弛量大,生成描述可以与真实标记差异较大。此外,为了约束生成文本的合理性,引入基于文本的质量预测损失和因素分类损失,使得生成文本与输入图像的美学质量相匹配,从而提升模型的鲁棒性和精确性。
附图说明
图1是基于隐藏信息学习的图像美学描述生成基本框架图;
具体实施方式
下面结合附图对本发明做进一步说明。
如图1,本发明基于对抗学习思想,包含三个编码器、一个解码器,以及多个判别网络。其中,编码器有美学因素编码器Encf,视觉编码器Encv和文本编码器Enct,分别从美学因素标记控制向量、输入图像和真实文本评论中提取高层语义特征。之后,美学因素特征和视觉特征一起输入到解码器Dect中,用于生成文本评论。
例如图1所示,一张输入图像包含夕阳西下人飞扬着丝巾,船只在湖面上划行,将该图像输入到目标检测网络Encv可以提取多尺度图像特征,同时我们将对应该图像的“excellent composition,five factors happening all at once.”真实文本评论输入到Transformer网络Enct提取多尺度文本特征,将美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征以及多尺度图像特征输入到评论解码器中,生成该图像的文本评论“excellent composition,five factorshappening ll at once.”其中利用模态判别损失使得多尺度图像特征和多尺度文本特征尽可能相似,利用文本质量预测损失和美学因素预测损失使得多尺度图像特征和多尺度文本特征更加准确,生成的文本评论更加合理。依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子,使得生成文本评论与输入图像的美学因素或质量相匹配,从而提升样本生成的鲁棒性。
具体包括如下步骤:
步骤(1)模型预处理
模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征。
步骤(2)基于对抗学习的跨模态一致性特征提取
利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似。
步骤(3)生成多因素控制的美学文本评论
以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论。
步骤(4)基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性。
该多任务约束判别网络采用文本质量预测损失和美学因素预测损失。基于文本质量预测和美学因素预测以多任务学习形式,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性。对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。
步骤(5)基于隐藏信息学习的对抗损失
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。
进一步的,所述的步骤(1)所述的模型预处理:
1-4对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练。
1-5将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取较好的特征提取能力。在微调阶段采用半监督学习的形式。在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习。在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束。
1-6将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。
进一步的,所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取:
2-1利用对抗学习思想,构建特征模态判别器Dm。Dm需要判断输入特征的模态。将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似,从而欺骗Dm。
2-2所提取的多尺度图像特征和多尺度文本特征需要精确表征美学质量。因此采用模态判别损失Lm:
其中,Dm(·)为表示特征的概率函数,fv表示多尺度图像特征,ft表示多尺度文本特征。
进一步的,步骤(3)所述的生成多因素控制的美学评论:
3-1以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器Dect中,生成文本评论。
3-2在评论解码器Dect中利用协同注意力模块挖掘多尺度图像特征和多尺度文本特征的关联关系,并利用协同注意力模块输出文本聚合特征,用于文本评论的生成。
进一步的,所步骤(4)所述的基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性,具体是如下:
4-1质量预测损失La:质量预测损失包含多尺度图像特征和多尺度文本特征,采用L2损失,用于多尺度图像特征和多尺度文本特征的有效性。
4-2美学因素预测损失Lfact:美学因素预测损失包含真实文本评论和生成文本评论,采用交叉熵损失,用于约束生成文本评论的合理性。
4-3.对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。
进一步的,步骤(5)所述的基于隐藏信息学习的对抗损失:
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子指导模型的训练。具体而言,在判别网络中引入两组参数w和w*,对抗损失拟采用HingeLoss形式,需要求解以下问题:
s.t.
其中,w和w*为网络权重参数,b和b*为网络偏置量,γ和C为权重系数,yi为xi样本所对应的标签,xi∈Rd为Transformer判别网络提取的特征,为预训练好的美学质量评价模型提取的特征,为两层全连接层,输出为文本特征引入的松弛因子。当文本噪声比较大时,基于文本预测质量误差较大,对应的松弛因子也需要较大,即生成的文本评论不需要与真实文本评论过于相近;当文本噪声较小时,松弛因子也较小,生成文本评论也应逼近真实文本评论。这里,w和w*为网络权重参数,可以利用改进的SMO算法进行求解,与整个网络一起进行迭代优化。
在测试阶段,只需要将测试图像及拟生成的美学因素标记(可以是多个)向量输入到训练好的模型中,就能得到对应的美学描述。
Claims (6)
1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:
步骤(1)模型预处理
模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征;
步骤(2)基于对抗学习的跨模态一致性特征提取
利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器;使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似;
步骤(3)生成多因素控制的美学文本评论
以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;
步骤(4)基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;
该多任务约束判别网络采用文本质量预测损失和美学因素预测损失;基于文本质量预测和美学因素预测以多任务学习形式,对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练;
步骤(5)基于隐藏信息学习的对抗损失
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。
2.根据权利要求1所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(1)所述的模型预处理,具体实现如下:
1-1对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练;
1-2将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取更好的特征提取能力;在微调阶段采用半监督学习的形式;在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习;在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束;
1-3将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。
4.根据权利要求3所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于步骤(3)所述的生成多因素控制的美学评论,具体实现如下:
3-1以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器Dect中,生成文本评论;
3-2在评论解码器Dect中利用协同注意力模块挖掘多尺度图像特征和多尺度文本特征的关联关系,并利用协同注意力模块输出文本聚合特征,用于文本评论的生成。
5.根据权利要求4所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(4)具体实现如下:
4-1质量预测损失La:质量预测损失包含多尺度图像特征和多尺度文本特征,采用L2损失实现多尺度图像特征和多尺度文本特征的有效性;
4-2美学因素预测损失Lfact:美学因素预测损失包含真实文本评论和生成文本评论,采用交叉熵损失约束生成文本评论的合理性;
4-3.对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。
6.根据权利要求5所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于步骤(5)所述的基于隐藏信息学习的对抗损失,具体实现如下:
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子指导模型的训练;具体而言,在判别网络中引入两组参数w和w*,对抗损失拟采用Hinge Loss形式,需要求解以下问题:
s.t.
其中,w和w*为网络权重参数,b和b*为网络偏置量,γ和C为权重系数,yi为xi样本所对应的标签,xi∈Rd为Transformer判别网络提取的特征,为预训练好的美学质量评价模型提取的特征,为两层全连接层,输出为文本特征引入的松弛因子;当文本噪声比较大时,基于文本预测质量误差较大,对应的松弛因子也需要较大,即生成的文本评论不需要与真实文本评论过于相近;当文本噪声较小时,松弛因子也较小,生成文本评论也应逼近真实文本评论;其中w和w*为网络权重参数,能够利用改进的SMO算法进行求解,与整个网络一起进行迭代优化;
在测试阶段,只需要将测试图像及拟生成的美学因素标记输入到训练好的模型中,就能得到对应的美学描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609603.3A CN112598662B (zh) | 2020-12-30 | 2020-12-30 | 一种基于隐藏信息学习的图像美学描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609603.3A CN112598662B (zh) | 2020-12-30 | 2020-12-30 | 一种基于隐藏信息学习的图像美学描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598662A true CN112598662A (zh) | 2021-04-02 |
CN112598662B CN112598662B (zh) | 2024-02-13 |
Family
ID=75206485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609603.3A Active CN112598662B (zh) | 2020-12-30 | 2020-12-30 | 一种基于隐藏信息学习的图像美学描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598662B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026884A1 (en) * | 2016-03-30 | 2019-01-24 | Institute Of Automation, Chinese Academy Of Sciences | Method for assessing aesthetic quality of natural image based on multi-task deep learning |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价*** |
-
2020
- 2020-12-30 CN CN202011609603.3A patent/CN112598662B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026884A1 (en) * | 2016-03-30 | 2019-01-24 | Institute Of Automation, Chinese Academy Of Sciences | Method for assessing aesthetic quality of natural image based on multi-task deep learning |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112598662B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875818B (zh) | 基于变分自编码机与对抗网络结合的零样本图像分类方法 | |
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及*** | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
US20230119593A1 (en) | Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN111126386A (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
JP5924713B2 (ja) | テキストを分類する方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及*** | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
Dering et al. | Generative adversarial networks for increasing the veracity of big data | |
CN109685104B (zh) | 一种识别模型的确定方法和装置 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及*** | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN113505855A (zh) | 一种对抗攻击模型的训练方法 | |
CN112598662A (zh) | 一种基于隐藏信息学习的图像美学描述生成方法 | |
CN114329025A (zh) | 基于对抗生成网络的跨模态文本到图像生成方法 | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及*** | |
Yuan et al. | Semantic distance adversarial learning for text-to-image synthesis | |
Zhu et al. | How to evaluate semantic communications for images with vitscore metric? | |
CN113222002A (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |