CN116433800A - 基于社交场景用户偏好与文本联合指导的图像生成方法 - Google Patents

基于社交场景用户偏好与文本联合指导的图像生成方法 Download PDF

Info

Publication number
CN116433800A
CN116433800A CN202310701147.2A CN202310701147A CN116433800A CN 116433800 A CN116433800 A CN 116433800A CN 202310701147 A CN202310701147 A CN 202310701147A CN 116433800 A CN116433800 A CN 116433800A
Authority
CN
China
Prior art keywords
image
user
individual
user preference
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310701147.2A
Other languages
English (en)
Other versions
CN116433800B (zh
Inventor
张勇东
胡博
毛震东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310701147.2A priority Critical patent/CN116433800B/zh
Publication of CN116433800A publication Critical patent/CN116433800A/zh
Application granted granted Critical
Publication of CN116433800B publication Critical patent/CN116433800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像生成技术领域,公开了一种基于社交场景用户偏好与文本联合指导的图像生成方法,包括:社交场景下用户偏好建模;面向图像视觉特征到用户偏好特征的迁移学习;多条件联合指导的图像生成;本发明能够高效准确地针对社交网络中指定的用户,包括个体用户和群体用户,精确提取其用户偏好,并联合此用户偏好与文本指导,共同生成图像。本发明可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。

Description

基于社交场景用户偏好与文本联合指导的图像生成方法
技术领域
本发明涉及图像生成技术领域,具体涉及一种基于社交场景用户偏好与文本联合指导的图像生成方法。
背景技术
基于社交场景用户偏好与文本联合指导的图像生成,具有重要的科研与应用价值,它旨在生成符合社交媒体平台中不同类型用户偏好的图像的同时,保持与文本指导的语义一致性。其中用户既可以是单一个体,也可以是具有某一类共性的个体组合。该项技术可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。
目前图像生成的研究工作普遍集中于基于文本的单一指导,如何联合社交场景用户偏好进行图像生成的联合指导的相关研究还比较缺乏,主要亟待解决的困难点在于:缺乏对社交场景下用户偏好的有效建模、缺乏生成图像与用户偏好程度之间一致性的精确度量以及多指导条件的联合图像生成中不同条件之间的成功解耦。
发明内容
为解决上述技术问题,本发明提供一种基于社交场景用户偏好与文本联合指导的图像生成方法。本发明首先构建了基于图卷积网络的偏好扩散模型以实现用户偏好的精确表达。其次,本发明针对生成图像缺少与用户的交互数据所带来的“冷启动问题”,利用弱监督关系构建生成对抗网络,学习任意生成图像到用户偏好空间的映射方法,并以此为基础构建生成图像符合用户偏好程度的度量方法。最后,本发明提出了一种多条件联合指导的图像生成方法,研究多条件特征的耦合机理,构造条件特征解耦的联合指导图像生成方法。
为解决上述技术问题,本发明采用如下技术方案:
一种基于社交场景用户偏好与文本联合指导的图像生成方法,通过图像生成模型提取社交网络中特定用户的用户偏好,并联合用户偏好的指导和文本的指导,共同生成图像;图像生成模型的构建过程,包括以下步骤:
步骤一,社交场景下用户偏好建模:
针对用户
Figure SMS_1
中的个体与图像交互数据,利用图卷积网络学习个体u的个体特征表示
Figure SMS_2
和图像i的图像特征表示/>
Figure SMS_3
针对表示用户与个体隶属交互关系的用户个体数据,利用图卷积网络学习用户特征表示
Figure SMS_4
通过用户中每个个体之间的社交关系以及个体在社交网络中的活动,评估个体在社交网络中的各类中心性,通过个体在社交网络中各类的中心性特征表示
Figure SMS_5
,建模个体对用户偏好的影响力特征表示/>
Figure SMS_6
则用户偏好特征表示
Figure SMS_7
表示为:/>
Figure SMS_8
;其中/>
Figure SMS_9
为特征拼接操作;
步骤二,面向图像视觉特征到用户偏好特征的迁移学习任务:
利用图像i的图像特征表示
Figure SMS_10
,用户偏好特征表示/>
Figure SMS_11
,并通过预训练模型,从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>
Figure SMS_12
;然后将图像i的图像特征表示
Figure SMS_13
与图像i的图像视觉特征嵌入/>
Figure SMS_14
组成的输入对,构成图像视觉特征嵌入/>
Figure SMS_15
到用户偏好特征表示/>
Figure SMS_16
之间的弱监督关系;
利用弱监督关系生成对抗网络:基于用户对不同图像的偏好程度,使用多层神经网络构建判别器D;基于图像视觉特征嵌入
Figure SMS_17
,使用多层神经网络构建生成器G,将任意图像的图像视觉特征转换为图像的用户偏好特征,得到图像的用户偏好特征嵌入/>
Figure SMS_18
步骤三,多条件联合指导的图像生成:
基于矢量量化的自编码器学习构建图像离散潜空间,所述自编码器的学习在ImageNet图像数据集中进行;所述自编码器的学习过程为:将ImageNet图像数据集中的图像x表征为低维离散特征
Figure SMS_19
,通过量化操作/>
Figure SMS_20
将每个低维离散特征/>
Figure SMS_21
替换为矢量量化码本中与/>
Figure SMS_22
具有最小欧氏距离的条目/>
Figure SMS_23
,通过解码器/>
Figure SMS_24
重构成原图像x;
将个体与图像交互数据中的图像i通过步骤二得到的生成器G生成用户偏好特征嵌入
Figure SMS_25
,通过跨模态预训练模型CLIP或者预训练分类模型提取文本指导的语义特征/>
Figure SMS_26
,得到特征对(/>
Figure SMS_27
,/>
Figure SMS_28
);
构建跨模态特征映射关系网络W,以得到用户偏好特征嵌入
Figure SMS_29
在语义特征空间的投影/>
Figure SMS_30
:/>
Figure SMS_31
;则优化目标函数/>
Figure SMS_32
为:
Figure SMS_33
其中,
Figure SMS_34
为联合指导扩散模型,z为真实的图像i通过所述自编码器编码得到的离散低维离散特征,/>
Figure SMS_35
为t时间步添加的噪声,/>
Figure SMS_36
表示/>
Figure SMS_37
噪声符合/>
Figure SMS_38
的正态分布,/>
Figure SMS_39
为t时间步的带噪的离散低维离散特征,/>
Figure SMS_40
为数学期望。
进一步地,步骤一中,针对用户中的个体与图像交互数据,利用图卷积网络学习个体特征表示
Figure SMS_41
和图像特征表示/>
Figure SMS_42
时:
Figure SMS_43
Figure SMS_44
其中,
Figure SMS_45
、/>
Figure SMS_46
分别为个体与图像交互数据第k次迭代中的图像特征表示和个体特征表示;/>
Figure SMS_47
表示与个体u直接交互的图像,/>
Figure SMS_48
表示与图像i直接交互的个体,
Figure SMS_49
表示图卷积网络进行图卷积操作时的衰减因子,k次迭代后个体特征表示/>
Figure SMS_50
和图像特征表示/>
Figure SMS_51
为:
Figure SMS_52
,/>
Figure SMS_53
进一步地,步骤一中,针对表示用户与个体隶属交互关系的用户个体数据,利用图卷积网络学习用户特征表示
Figure SMS_54
时:
Figure SMS_55
Figure SMS_56
其中,
Figure SMS_57
表示单个个体u隶属的用户数量,/>
Figure SMS_58
表示用户g中的个体数量,
Figure SMS_59
、/>
Figure SMS_60
表示用户个体数据第k次迭代中个体特征表示和用户特征表示;k次迭代后的用户特征表示/>
Figure SMS_61
为:/>
Figure SMS_62
进一步地,步骤一中通过个体在社交网络中各类的中心性特征表示
Figure SMS_63
,建模个体对用户偏好的影响力/>
Figure SMS_64
时:
Figure SMS_65
其中,
Figure SMS_66
为用户,/>
Figure SMS_67
表示第i个个体/>
Figure SMS_68
对用户/>
Figure SMS_69
的中心性特征表示。
进一步地,步骤二的迁移学习任务中,生成器损失
Figure SMS_70
与判别器的损失/>
Figure SMS_71
如下:
Figure SMS_72
Figure SMS_73
其中
Figure SMS_74
表示的是L2正则化范式,α为生成器中控制对抗生成器损失与相似性损失比例的超参数,/>
Figure SMS_75
为判别器中控制对抗判别器损失与用户个性化损失比例的超参数,
Figure SMS_76
表示用户/>
Figure SMS_77
对图像i的偏好程度;
使用与用户
Figure SMS_78
有交互的图像作为用户/>
Figure SMS_79
相关用户偏好特征嵌入的正例,与用户/>
Figure SMS_80
没有交互的图像作为用户/>
Figure SMS_81
相关用户偏好特征嵌入的负例,来优化判别器的推荐性能,推荐损失/>
Figure SMS_82
如下:
Figure SMS_83
式中,图像i为与用户
Figure SMS_84
有交互的图像,作为正例,图像j为用户/>
Figure SMS_85
未曾交互过的图像,作为负例。
进一步地,步骤三中,基于矢量量化的自编码器构建图像离散潜空间,所述自编码器在ImageNet数据集上预训练,将ImageNet数据集中图像x表征为低维离散特征
Figure SMS_86
,通过量化操作/>
Figure SMS_87
将每个低维离散特征/>
Figure SMS_88
替换为矢量量化码本中与/>
Figure SMS_89
具有最小欧氏距离的条目/>
Figure SMS_90
,通过解码器/>
Figure SMS_91
重构成原图像,具体包括:
所述自编码器包括卷积编码器和解码器;通过卷积编码器E将图像编码至低维离散潜空间,得到低维离散特征
Figure SMS_92
Figure SMS_93
图像
Figure SMS_94
,其中H、W分别为图像/>
Figure SMS_95
的高和宽,h、w为潜空间的高和宽,/>
Figure SMS_96
为低维离散特征/>
Figure SMS_97
的维度,R表示维度空间,/>
Figure SMS_98
表示/>
Figure SMS_99
的维度空间;
给定一个离散的码本
Figure SMS_100
,K是码本长度,/>
Figure SMS_101
为码本C中的第k个条目,则量化操作Q(⋅)将每个低维离散特征/>
Figure SMS_102
替换为码本中与/>
Figure SMS_103
具有最小欧氏距离的条目/>
Figure SMS_104
Figure SMS_105
Figure SMS_106
表示取最小值,/>
Figure SMS_107
表示z中第i行第j列的低维离散特征,z的维度为/>
Figure SMS_108
;/>
Figure SMS_109
表示欧几里得距离;
最后,再通过解码器
Figure SMS_110
重构成原图像,重构的图像记为/>
Figure SMS_111
Figure SMS_112
进一步地,图像生成模型进行图像生成时,从一个完全的高斯噪声开始,逐渐降低噪声程度,得到不同程度的带噪图像,最后得到一张完全不带噪的图像,即带噪图像是图像生成过程中的中间产物;
图像生成模型使用多梯度融合策略,并利用每一步采样过程中的用户偏好和文本分别对于当前带噪图像的梯度矢量指导,优化图像生成的方向;具体包括:
通过生成过程中的图像和用户偏好相对于图像的点积的梯度扰动采样过程:
Figure SMS_113
其中,
Figure SMS_115
代表扰动后采样得到的联合指导扩散模型的输出结果,/>
Figure SMS_117
代表扰动前采样得到的联合指导扩散模型的输出结果,/>
Figure SMS_120
是联合指导扩散模型前向扩散过程中设置的超参数,/>
Figure SMS_116
表示求取梯度的操作,/>
Figure SMS_119
为用户偏好指导中的图像编码器,/>
Figure SMS_121
为文本指导中的图像编码器;/>
Figure SMS_122
为t时间步的带噪图像,为t时间步的带噪的低维离散表征/>
Figure SMS_114
通过自编码器解码得到的,即实际图像生成时,是逐渐生成噪声程度降低的低维离散表征,再通过自编码器解码得到重构的图像/>
Figure SMS_118
与现有技术相比,本发明的有益技术效果是:
本发明提出了一种全新的基于社交场景用户偏好与文本联合指导的图像生成方法,包括社交场景下用户偏好建模框架、面向图像视觉特征到用户偏好特征的迁移学习框架以及多条件联合指导的扩散模型图像生成框架三个部分。该方法能够高效准确地针对社交网络中指定的用户,包括个体用户和群体用户,精确提取其用户偏好,并联合此用户偏好与文本指导,共同生成图像。该项技术可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。本发明提出的三个框架相对于目前图像生成和社交网络领域的其他方法都有着独到的设计,具有良好的应用前景。
附图说明
图1为本发明社交场景下用户偏好建模框架的示意图;
图2为本发明面向图像视觉特征到用户偏好特征的迁移学习框架的示意图;
图3为本发明多条件联合指导的扩散模型图像生成框架的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明中,用户为单个个体或者具有共性的多个个体组合。
本发明中的技术方案主要包括以下三个部分:(1)社交场景下用户偏好建模框架;(2)面向图像视觉特征到用户偏好特征的迁移学习框架;(3)多条件联合指导的扩散模型图像生成框架。
(1)社交场景下用户偏好建模框架
该框架的结构如图1所示,该框架针对社交场景下的用户偏好建模,若用户为具有某一类共性的个体组合,则首先利用其中的个体与图像交互数据,建模个体偏好;其次,利用用户、个体和图像之间的多跳关系作为协同信号,构建基于图卷积网络的偏好扩散模型,从而缓解个体交互行为样本稀疏的问题;最后构建基于用户个体决策机制的用户偏好模型,最终实现用户偏好的精确表达。若用户为单一个体,则可以视为上述框架的一个特例。
具体来说,该框架首先基于个体与图像交互数据建模用户中个体的偏好。具体来说,个体与图像交互数据中包含个体和图像之间的交互信息,每个个体与至少一个图像相交互,每个图像与至少一个个体相交互,这里交互指的是个体点击图像的社交行为。个体u表示个体与图像交互数据中的第u个个体,图像i表示个体与图像交互数据中的第i个图像。本框架首先利用图卷积网络学习个体u的个体特征表示
Figure SMS_123
和图像i的图像特征表示/>
Figure SMS_124
Figure SMS_125
Figure SMS_126
其中,
Figure SMS_127
表示与个体u直接交互的图像,/>
Figure SMS_128
表示与图像直接交互的个体,
Figure SMS_129
表示图卷积操作中的衰减因子。当k=1时,最初的个体特征表示通过随机正态初始化得到,而最初的图像特征表示通过在ImageNet预训练的ResNet网络提取得到。k次迭代后个体特征表示/>
Figure SMS_130
和图像特征表示/>
Figure SMS_131
为:
Figure SMS_132
,/>
Figure SMS_133
进一步地,为了缓解不同用户之间缺少交互数据、难以建模的问题,本发明根据用户中个体交互行为,以及用户与个体的隶属关系,进一步构建拥有异构节点的图结构,如图1所示。观察图1中用户个体隶属关系图,可以看到路径:
Figure SMS_134
,用户/>
Figure SMS_135
和/>
Figure SMS_136
包含了共同的个体/>
Figure SMS_137
,可以利用该路径上共同个体/>
Figure SMS_138
的信息去挖掘协同信号。针对用户与个体的隶属关系,本发明利用图卷积网络进一步学习用户特征表示/>
Figure SMS_139
Figure SMS_140
Figure SMS_141
其中,
Figure SMS_142
表示单个个体u隶属的用户数量,/>
Figure SMS_143
表示用户g中的个体数量,
Figure SMS_144
、/>
Figure SMS_145
表示用户个体数据第k次迭代中个体特征表示和用户特征表示。当k=1时,个体和用户的初始特征均由随机正态初始化得到。k次迭代后用户特征表示/>
Figure SMS_146
为:
Figure SMS_147
最后,针对用户中不同个体对用户偏好和决策有不同的影响的问题,本发明进一步深入挖掘用户中每个个体之间的社交关系,以及个体在社交场景中的活动,如转发、评论、收藏等,评估个体的中心性,建模个体对用户偏好的影响力特征表示
Figure SMS_148
Figure SMS_149
其中,
Figure SMS_150
表示个体在社交网络中各类中心性的特征表示,g为用户。最终,用户偏好特征表示/>
Figure SMS_151
为:
Figure SMS_152
其中,
Figure SMS_153
为特征拼接操作。
(2)面向图像视觉特征到用户偏好特征的迁移学习框架
本框架针对生成图像缺少与用户的交互数据所带来的“冷启动问题”,利用弱监督关系构建生成对抗网络,学习任意生成图像到用户偏好空间的映射方法,并以此为基础构建生成图像符合用户偏好程度的度量方法。该框架如图2所示。
具体来说,本框架首先研究图像视觉特征表示与用户偏好特征表示
Figure SMS_154
之间的弱监督关系,从个体与图像交互数据中提取得到用户图像的交互图,利用从个体与图像交互数据中提取到的图像i的图像特征表示/>
Figure SMS_155
,用户偏好特征表示/>
Figure SMS_156
,以及通过预训练模型从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>
Figure SMS_157
;图像i的图像特征表示/>
Figure SMS_158
与图像i的图像视觉特征嵌入/>
Figure SMS_159
组成的输入对,构成图像视觉特征到用户偏好特征表示/>
Figure SMS_160
之间的弱监督关系。
其次,本框架提供一种将任意生成图像映射到用户偏好空间的映射方法,通过从用户g历史的交互图像可以得到用户g对不同图像的偏好程度,构建判别器D,来判别图像的内容特征是否与用户偏好特征具有类似的分布,例如D
Figure SMS_161
表示用户g对图像i的偏好程度。利用图像视觉特征嵌入/>
Figure SMS_162
构建生成器G,其作用为将任意图像的图像视觉特征转换为图像的用户偏好特征,例如生成器G可基于输入图像的图像视觉特征嵌入/>
Figure SMS_163
得到生成图像的用户偏好特征嵌入/>
Figure SMS_164
。使用多层神经网络构建生成器G与判别器D,生成器G与判别器D在整个生成对抗网络中起到对抗的作用,通过设计两者之间的对抗关系,可使得生成器G与判别器D在交替训练中互相促进,目的是使训练出的生成器G生成的图像的用户偏好特征嵌入
Figure SMS_165
与已交互图像训练出的图像特征表示/>
Figure SMS_166
在判别器D上获得相似的结果。
本框架基于生成器与判别器之间的对抗关系来设计对抗损失,生成器G设法欺骗判别器D,以使得判别器D对生成器G生成的图像的用户偏好特征嵌入
Figure SMS_167
给出更高的相关性分数,同时,判别器D要正确的识别出生成的图像的用户偏好特征嵌入/>
Figure SMS_168
,使得训练出的图像视觉特征嵌入/>
Figure SMS_169
得到更高的相关性分数。另外设计推荐损失,使用与用户g有交互的图像作为用户g相关用户偏好特征嵌入的正例,与用户g没有交互的图像作为用户g相关用户偏好特征嵌入的负例,来优化判别器的推荐性能,推荐损失/>
Figure SMS_170
如下:
Figure SMS_171
上式中,图像i为与用户g有交互的图像,作为推荐损失中的正例,图像j为用户u历史未曾交互过的图像,作为推荐损失中的负例。
对抗网络中生成器的损失
Figure SMS_172
与判别器的损失/>
Figure SMS_173
如下:
Figure SMS_174
Figure SMS_175
上式中,本发明额外引入相似性损失来辅助生成器G的训练,其中
Figure SMS_176
表示的是L2正则化范式,α为生成器中控制对抗生成器损失与相似性损失比例的超参数,/>
Figure SMS_177
为判别器中控制对抗判别器损失与用户个性化损失比例的超参数。通过成对的训练数据对生成器与判别器进行交替训练,不断对函数进行优化,使迁移学习框架达到均衡,最终使迁移学习框架的生成器实现图像视觉特征到用户偏好特征的转换,基于此可以度量生成图像符合用户偏好的程度。
(3)多条件联合指导的扩散模型图像生成框架
最后,本发明通过多条件特征的耦合机理,构造条件特征解耦的多条件联合指导下的图像生成框架,如图3所示。
A.基于矢量量化自编码器构建图像离散潜空间
图像中同时包含了高层语义信息和人类难以察觉的高频底层细节信息,直接建模这两者难以同时很好的兼顾。本节首先基于矢量量化自编码器构建图像离散潜空间,将图像表征为低维离散特征,这些低维离散特征一方面降低了图像的维度,优化了训练成本,提高了生成速度,另一方面,在一定程度上解耦了图像的高层语义信息和底层细节信息,即,通过自编码器的重构保留底层细节信息生成能力,而下一阶段可以更好地专注于社交网络用户偏好和文本主题与图像高层语义信息之间的映射。具体来说,给定图像
Figure SMS_178
,其中H、W分别为图像/>
Figure SMS_179
的高和宽,拟首先通过卷积编码器E将图像/>
Figure SMS_180
编码至低维离散潜空间,得到低维离散特征/>
Figure SMS_181
Figure SMS_182
其中h、w为低维离散潜空间的高和宽,
Figure SMS_183
为低维离散特征的维度。给定一个离散码本/>
Figure SMS_184
,K是码本长度,则量化操作Q(⋅)被定义为将每个低维离散特征/>
Figure SMS_185
替换为码本中与低维离散特征/>
Figure SMS_186
具有最小欧氏距离的条目/>
Figure SMS_187
Figure SMS_188
最后,再通过解码器Dz重构成原图像,重构的图像记为
Figure SMS_189
Figure SMS_190
B.多条件特征解耦的联合指导图像生成训练
本节研究基于用户偏好指导和文本指导的多条件联合指导的图像生成,在训练过程中需要引入多条件联合指导,然而由于不同条件之间在特征上存在不同程度的耦合性,容易导致联合指导扩散模型在训练收敛困难。因此,本节首先研究不同指导条件之间的耦合机制,并据此构造指导条件之间的解耦方法。具体来说,对于用户偏好指导,本节通过图像i在用户偏好域的生成器G构造图像在用户偏好域的特征
Figure SMS_192
:/>
Figure SMS_195
;对于文本指导或分类指导,通过跨模态预训练模型CLIP或者预训练分类模型,提取文本指导或分类指导的语义特征/>
Figure SMS_198
。基于此,可以得到特征对(/>
Figure SMS_194
,/>
Figure SMS_197
)。由于/>
Figure SMS_200
中包含了用户对特定文本或主题的偏好,因此/>
Figure SMS_202
与/>
Figure SMS_191
之间存在耦合关系,训练中/>
Figure SMS_196
的加入会对/>
Figure SMS_199
在图像生成过程中作为语义的表达产生干扰。为了实现条件特征解耦,本节进一步构建跨模态的特征映射关系网络W,以得到用户偏好/>
Figure SMS_201
在语义特征空间的投影/>
Figure SMS_193
Figure SMS_203
该特征映关系网络W基于得到的投影
Figure SMS_204
与语义特征/>
Figure SMS_205
之间相似度构建目标函数。基于此,构造基于条件特征解耦的联合指导图像生成方法,具体来说,设联合指导扩散模型为/>
Figure SMS_206
,则优化目标/>
Figure SMS_207
为:
Figure SMS_208
其中,x为真实图像,
Figure SMS_209
为t时间步添加的噪声,/>
Figure SMS_210
是指噪声/>
Figure SMS_211
符合/>
Figure SMS_212
的正态分布,/>
Figure SMS_213
为t时间步的带噪图像,/>
Figure SMS_214
为数学期望。
C.多指导梯度的融合采样策略
基于以上训练得到的联合指导扩散模型基础上,本节首先计算每一步生成过程中,条件目标(用户偏好和文本)分别对于当前带噪图像的梯度矢量指导,然后针对性设计多梯度融合策略,利用梯度矢量指导优化图像生成方向。具体来说,通过计算图像和用户偏好、文本或分类等条件相对于图像的点积的梯度,可以扰动采样过程,偏好指导中的图像编码器为
Figure SMS_215
,文本或分类指导中图像编码器为/>
Figure SMS_216
,则扰动采样过程为:
Figure SMS_217
上式中,
Figure SMS_218
代表扰动后采样得到的联合指导扩散模型的输出结果,/>
Figure SMS_219
代表扰动前采样得到的联合指导扩散模型的输出结果,/>
Figure SMS_220
是联合指导扩散模型前向扩散过程中设置的超参数,/>
Figure SMS_221
表示求取梯度的操作。
本发明可以应用于社交媒体平台上,对任意给定的用户和指定的文本内容,生成符合该用户偏好的图像的同时,保持与文本指导的语义一致性。在实施上,可以以软件的方式嵌入于智能***;也可以嵌入于后台服务器上,满足大批量的图像生成需求。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于社交场景用户偏好与文本联合指导的图像生成方法,通过图像生成模型提取社交网络中特定用户的用户偏好,并联合用户偏好的指导和文本的指导,共同生成图像;图像生成模型的构建过程,包括以下步骤:
步骤一,社交场景下用户偏好建模:
针对用户
Figure QLYQS_1
中的个体与图像交互数据,利用图卷积网络学习个体u的个体特征表示/>
Figure QLYQS_2
和图像i的图像特征表示/>
Figure QLYQS_3
针对表示用户与个体隶属交互关系的用户个体数据,利用图卷积网络学习用户特征表示
Figure QLYQS_4
通过用户中每个个体之间的社交关系以及个体在社交网络中的活动,评估个体在社交网络中的各类中心性,通过个体在社交网络中各类的中心性特征表示
Figure QLYQS_5
,建模个体对用户偏好的影响力特征表示/>
Figure QLYQS_6
则用户偏好特征表示
Figure QLYQS_7
表示为:/>
Figure QLYQS_8
;其中/>为特征拼接操作;
步骤二,面向图像视觉特征到用户偏好特征的迁移学习任务:
利用图像i的图像特征表示
Figure QLYQS_10
,用户偏好特征表示/>
Figure QLYQS_11
,并通过预训练模型,从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>
Figure QLYQS_12
;然后将图像i的图像特征表示/>
Figure QLYQS_13
与图像i的图像视觉特征嵌入/>
Figure QLYQS_14
组成的输入对,构成图像视觉特征嵌入/>
Figure QLYQS_15
到用户偏好特征表示
Figure QLYQS_16
之间的弱监督关系;
利用弱监督关系生成对抗网络:基于用户对不同图像的偏好程度,使用多层神经网络构建判别器D;基于图像视觉特征嵌入
Figure QLYQS_17
,使用多层神经网络构建生成器G,将任意图像的图像视觉特征转换为图像的用户偏好特征,得到图像的用户偏好特征嵌入/>
Figure QLYQS_18
步骤三,多条件联合指导的图像生成:
基于矢量量化的自编码器学习构建图像离散潜空间,所述自编码器的学习在ImageNet图像数据集中进行;所述自编码器的学习过程为:将ImageNet图像数据集中的图像x表征为低维离散特征
Figure QLYQS_19
,通过量化操作/>
Figure QLYQS_20
将每个低维离散特征/>
Figure QLYQS_21
替换为矢量量化码本中与/>
Figure QLYQS_22
具有最小欧氏距离的条目/>
Figure QLYQS_23
,通过解码器/>
Figure QLYQS_24
重构成原图像x;
将个体与图像交互数据中的图像i通过步骤二得到的生成器G生成用户偏好特征嵌入
Figure QLYQS_25
,通过跨模态预训练模型CLIP或者预训练分类模型提取文本指导的语义特征/>
Figure QLYQS_26
,得到特征对(/>
Figure QLYQS_27
,/>
Figure QLYQS_28
);
构建跨模态特征映射关系网络W,以得到用户偏好特征嵌入
Figure QLYQS_29
在语义特征空间的投影
Figure QLYQS_30
:/>
Figure QLYQS_31
;则优化目标函数/>
Figure QLYQS_32
为:
Figure QLYQS_33
其中,
Figure QLYQS_34
为联合指导扩散模型,z为真实的图像i通过所述自编码器编码得到的离散低维离散特征,/>
Figure QLYQS_35
为t时间步添加的噪声,/>
Figure QLYQS_36
表示/>
Figure QLYQS_37
噪声符合/>
Figure QLYQS_38
的正态分布,/>
Figure QLYQS_39
为t时间步的带噪的离散低维离散特征,/>
Figure QLYQS_40
为数学期望。
2.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于,步骤一中,针对用户中的个体与图像交互数据,利用图卷积网络学习个体特征表示
Figure QLYQS_41
和图像特征表示/>
Figure QLYQS_42
时:
Figure QLYQS_43
Figure QLYQS_44
其中,
Figure QLYQS_45
、/>
Figure QLYQS_46
分别为个体与图像交互数据第k次迭代中的图像特征表示和个体特征表示;/>
Figure QLYQS_47
表示与个体u直接交互的图像,/>
Figure QLYQS_48
表示与图像i直接交互的个体,
Figure QLYQS_49
表示图卷积网络进行图卷积操作时的衰减因子,k次迭代后个体特征表示/>
Figure QLYQS_50
和图像特征表示/>
Figure QLYQS_51
为:
Figure QLYQS_52
,/>
Figure QLYQS_53
3.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于:步骤一中,针对表示用户与个体隶属交互关系的用户个体数据,利用图卷积网络学习用户特征表示
Figure QLYQS_54
时:
Figure QLYQS_55
Figure QLYQS_56
其中,
Figure QLYQS_57
表示单个个体u隶属的用户数量,/>
Figure QLYQS_58
表示用户g中的个体数量,/>
Figure QLYQS_59
Figure QLYQS_60
表示用户个体数据第k次迭代中个体特征表示和用户特征表示;k次迭代后的用户特征表示/>
Figure QLYQS_61
为:/>
Figure QLYQS_62
4.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于:步骤一中通过个体在社交网络中各类的中心性特征表示
Figure QLYQS_63
,建模个体对用户偏好的影响力/>
Figure QLYQS_64
时:
Figure QLYQS_65
其中,
Figure QLYQS_66
为用户,/>
Figure QLYQS_67
表示第i个个体/>
Figure QLYQS_68
对用户/>
Figure QLYQS_69
的中心性特征表示。
5.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于,步骤二的迁移学习任务中,生成器损失
Figure QLYQS_70
与判别器的损失/>
Figure QLYQS_71
如下:
Figure QLYQS_72
Figure QLYQS_73
其中
Figure QLYQS_74
表示的是L2正则化范式,/>
Figure QLYQS_75
为生成器中控制对抗生成器损失与相似性损失比例的超参数,/>
Figure QLYQS_76
为判别器中控制对抗判别器损失与用户个性化损失比例的超参数,
Figure QLYQS_77
表示用户/>
Figure QLYQS_78
对图像i的偏好程度;
使用与用户
Figure QLYQS_79
有交互的图像作为用户/>
Figure QLYQS_80
相关用户偏好特征嵌入的正例,与用户/>
Figure QLYQS_81
没有交互的图像作为用户/>
Figure QLYQS_82
相关用户偏好特征嵌入的负例,来优化判别器的推荐性能,推荐损失
Figure QLYQS_83
如下:
Figure QLYQS_84
式中,图像i为与用户
Figure QLYQS_85
有交互的图像,作为正例,图像j为用户/>
Figure QLYQS_86
未曾交互过的图像,作为负例。
6.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于,步骤三中,基于矢量量化的自编码器构建图像离散潜空间,所述自编码器在ImageNet数据集上预训练,将ImageNet数据集中图像x表征为低维离散特征
Figure QLYQS_87
,通过量化操作/>
Figure QLYQS_88
将每个低维离散特征/>
Figure QLYQS_89
替换为矢量量化码本中与/>
Figure QLYQS_90
具有最小欧氏距离的条目/>
Figure QLYQS_91
,通过解码器/>
Figure QLYQS_92
重构成原图像,具体包括:
所述自编码器包括卷积编码器和解码器;通过卷积编码器E将图像编码至低维离散潜空间,得到低维离散特征
Figure QLYQS_93
Figure QLYQS_94
图像
Figure QLYQS_95
,其中H、W分别为图像/>
Figure QLYQS_96
的高和宽,h、w为潜空间的高和宽,/>
Figure QLYQS_97
为低维离散特征/>
Figure QLYQS_98
的维度,R表示维度空间,/>
Figure QLYQS_99
表示/>
Figure QLYQS_100
的维度空间;
给定一个离散的码本
Figure QLYQS_101
,K是码本长度,/>
Figure QLYQS_102
为码本C中的第k个条目,则量化操作Q(⋅)将每个低维离散特征/>
Figure QLYQS_103
替换为码本中与/>
Figure QLYQS_104
具有最小欧氏距离的条目/>
Figure QLYQS_105
Figure QLYQS_106
Figure QLYQS_107
表示取最小值,/>
Figure QLYQS_108
表示z中第i行第j列的低维离散特征,z的维度为/>
Figure QLYQS_109
Figure QLYQS_110
表示欧几里得距离;
最后,再通过解码器
Figure QLYQS_111
重构成原图像,重构的图像记为/>
Figure QLYQS_112
Figure QLYQS_113
7.根据权利要求6所述的基于社交场景用户偏好与文本联合指导的图像生成方法,其特征在于,图像生成模型进行图像生成时,从一个完全的高斯噪声开始,逐渐降低噪声程度,得到不同程度的带噪图像,最后得到一张完全不带噪的图像,即带噪图像是图像生成过程中的中间产物;
图像生成模型使用多梯度融合策略,并利用每一步采样过程中的用户偏好和文本分别对于当前带噪图像的梯度矢量指导,优化图像生成的方向;具体包括:
通过生成过程中的图像和用户偏好相对于图像的点积的梯度扰动采样过程:
Figure QLYQS_114
其中,
Figure QLYQS_115
代表扰动后采样得到的联合指导扩散模型的输出结果,/>
Figure QLYQS_118
代表扰动前采样得到的联合指导扩散模型的输出结果,/>
Figure QLYQS_120
是联合指导扩散模型前向扩散过程中设置的超参数,/>
Figure QLYQS_116
表示求取梯度的操作,/>
Figure QLYQS_119
为用户偏好指导中的图像编码器,/>
Figure QLYQS_122
为文本指导中的图像编码器;/>
Figure QLYQS_123
为t时间步的带噪图像,为t时间步的带噪的低维离散表征/>
Figure QLYQS_117
通过自编码器解码得到的,即实际图像生成时,是逐渐生成噪声程度降低的低维离散表征,再通过自编码器解码得到重构的图像/>
Figure QLYQS_121
CN202310701147.2A 2023-06-14 2023-06-14 基于社交场景用户偏好与文本联合指导的图像生成方法 Active CN116433800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310701147.2A CN116433800B (zh) 2023-06-14 2023-06-14 基于社交场景用户偏好与文本联合指导的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310701147.2A CN116433800B (zh) 2023-06-14 2023-06-14 基于社交场景用户偏好与文本联合指导的图像生成方法

Publications (2)

Publication Number Publication Date
CN116433800A true CN116433800A (zh) 2023-07-14
CN116433800B CN116433800B (zh) 2023-10-20

Family

ID=87091179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310701147.2A Active CN116433800B (zh) 2023-06-14 2023-06-14 基于社交场景用户偏好与文本联合指导的图像生成方法

Country Status (1)

Country Link
CN (1) CN116433800B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095083A (zh) * 2023-10-17 2023-11-21 华南理工大学 一种文本-图像生成方法、***、装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3343491A1 (en) * 2016-12-30 2018-07-04 Facebook, Inc. Systems and methods for providing augmented reality personalized content
CN109416685A (zh) * 2016-06-02 2019-03-01 柯达阿拉里斯股份有限公司 用于与用户主动交互的方法
CN110136216A (zh) * 2018-02-09 2019-08-16 北京三星通信技术研究有限公司 图像生成的方法及终端设备
CN110489582A (zh) * 2019-08-19 2019-11-22 腾讯科技(深圳)有限公司 个性化展示图像的生成方法及装置、电子设备
US20210056571A1 (en) * 2018-05-11 2021-02-25 Beijing Sankuai Online Technology Co., Ltd. Determining of summary of user-generated content and recommendation of user-generated content
CN112581379A (zh) * 2019-09-30 2021-03-30 华为技术有限公司 图像增强方法以及装置
CN114936901A (zh) * 2022-05-21 2022-08-23 山东大学 基于跨模态语义推理与融合的视觉感知推荐方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416685A (zh) * 2016-06-02 2019-03-01 柯达阿拉里斯股份有限公司 用于与用户主动交互的方法
EP3343491A1 (en) * 2016-12-30 2018-07-04 Facebook, Inc. Systems and methods for providing augmented reality personalized content
CN110136216A (zh) * 2018-02-09 2019-08-16 北京三星通信技术研究有限公司 图像生成的方法及终端设备
US20210056571A1 (en) * 2018-05-11 2021-02-25 Beijing Sankuai Online Technology Co., Ltd. Determining of summary of user-generated content and recommendation of user-generated content
CN110489582A (zh) * 2019-08-19 2019-11-22 腾讯科技(深圳)有限公司 个性化展示图像的生成方法及装置、电子设备
CN112581379A (zh) * 2019-09-30 2021-03-30 华为技术有限公司 图像增强方法以及装置
CN114936901A (zh) * 2022-05-21 2022-08-23 山东大学 基于跨模态语义推理与融合的视觉感知推荐方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聂为之,等: "基于循环生成对抗网络的跨媒体信息检索算法", 《计算机学报》, pages 1529 - 1538 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095083A (zh) * 2023-10-17 2023-11-21 华南理工大学 一种文本-图像生成方法、***、装置和存储介质
CN117095083B (zh) * 2023-10-17 2024-03-15 华南理工大学 一种文本-图像生成方法、***、装置和存储介质

Also Published As

Publication number Publication date
CN116433800B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Chen et al. Motion guided spatial attention for video captioning
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
Yang et al. Personalized response generation by dual-learning based domain adaptation
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及***
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN116433800B (zh) 基于社交场景用户偏好与文本联合指导的图像生成方法
Sarkar et al. Zero-shot multilingual sentiment analysis using hierarchical attentive network and BERT
CN114880479B (zh) 基于多级交互和图重构的异构图卷积谣言检测方法
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
Xie et al. Attentive user-engaged adversarial neural network for community question answering
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Yin et al. GS-InGAT: An interaction graph attention network with global semantic for knowledge graph completion
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
Sun et al. HVLM: Exploring human-like visual cognition and language-memory network for visual dialog
Wei et al. MoCo4SRec: A momentum contrastive learning framework for sequential recommendation
Devi et al. Image captioning using reinforcement learning with BLUDEr optimization
Lin et al. Incremental event detection via an improved knowledge distillation based model
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN114936723B (zh) 一种基于数据增强的社交网络用户属性预测方法及***
CN117171447A (zh) 一种基于自注意力和对比学习的在线兴趣组推荐方法
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
Bi et al. Fair Attention Network for Robust Visual Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant