CN115659852A - 一种基于离散潜在表示的布局生成方法及装置 - Google Patents

一种基于离散潜在表示的布局生成方法及装置 Download PDF

Info

Publication number
CN115659852A
CN115659852A CN202211671875.5A CN202211671875A CN115659852A CN 115659852 A CN115659852 A CN 115659852A CN 202211671875 A CN202211671875 A CN 202211671875A CN 115659852 A CN115659852 A CN 115659852A
Authority
CN
China
Prior art keywords
layout
representation
model
discrete
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211671875.5A
Other languages
English (en)
Other versions
CN115659852B (zh
Inventor
陈柳青
景千芝
孙凌云
甄焱鲲
周婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211671875.5A priority Critical patent/CN115659852B/zh
Publication of CN115659852A publication Critical patent/CN115659852A/zh
Application granted granted Critical
Publication of CN115659852B publication Critical patent/CN115659852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于离散潜在表示的布局生成方法,包括:步骤1、构建训练集,包括用于生成布局的元素边框序列和约束条件;步骤2、构建基于元素约束的布局生成网络,包括特征提取模块,离散潜在变量生成模块以及重构模块;步骤3、采用训练集,对布局生成网络进行训练,获得布局生成模型;步骤4、以约束条件作为输入约束,以对应的布局离散潜在表示作为输出构建单向Transformer模型;步骤5、将获得的单向Transformer模型作为约束条件的输入端,将单向Transformer模型输出结果作为布局生成模型的输入,获得满足输入约束条件的元素边框序列。本发明还提供的一种布局生成装置。本发明的方法可以根据平面设计要求,输出符合要求且高质量的设计图布局。

Description

一种基于离散潜在表示的布局生成方法及装置
技术领域
本发明涉及图像生成领域,尤其涉及一种基于离散潜在表示的布局生成方法及装置。
背景技术
平面设计是一个非常重要的视觉交流工具,它将丰富多彩的图像与简洁可读的文字结合在一起,形成特定的、具有美学倾向的视觉表达来吸引人们的注意力并传递信息。布局设计是平面设计的基础,其核心内容是在给定的画布范围内对若干需要在其中展示的设计元素进行合理地排布,通常设计师会通过调整设计元素的大小尺寸(宽度、高度)以及其位置(横坐标、纵坐标)来实现。此外,为了使平面设计能够快速、准确地传达信息,吸引用户注意力,设计师在对设计元素进行排布时通常会考虑布局的应用场景以及设计元素的类型。例如,时尚杂志的布局追求灵活多变,图像信息占据大幅的面积,科技杂志的布局更加整齐严谨,主要以文字信息为主。
学术文献Layout Generation and Completion with Self-attention[J].2020. 首先对布局中设计元素的类型信息和几何参数都进行离散化处理,随后将所有的元素信息拼接为一个序列,利用Transformer模型的自注意力机制来学习元素信息之间的关系,并根据上述关系来逐步预测剩余的元素信息,最终预测出整个元素信息序列,得到一个全新的布局。该方案能够从一个空序列或一个包含部分元素信息的序列生成一个新的布局,并且可以扩展到UI布局、文档布局、空间布局等多种布局生成任务中。但该方案在实施过程缺少指定约束,且十分依赖训练集质量和体量。因此最终生成的模型非常依赖启发式规则,无法保证输出结果的多样性。
专利文献CN110706315A公开了一种平面设计的布局生成方法、装置、电子设备及存储介质,该方法包括:获取平面设计中的元素种类,以及每类元素对应的元素个数,根据所述元素种类和元素个数随机生成多个初始平面布局;利用预设评分规则对每一所述初始平面布局进行评分,根据评分结果将每一初始平面布局归类为优质平面布局或劣质平面布局;利用多个初始平面布局中的优质平面布局对预设的生成式对抗网络GAN进行训练,获得训练后GAN,通过训练后GAN获得新的优质平面布局。该方法无法根据给定场景进行生成缺乏实际应用能力,同时存在“后验坍塌”现象,无法完成模型的训练收敛工作。
专利文献CN1584930A公开了图像要素的布局装置、布局程序以及布局方法,该方法包括根据图像要素之间获取的时间差,计算布局图像要素之间的配置间隔,沿所选择路径信息的路径来配置所选择的布局图像要素的图像要素配配置。该方法基于图像要素与时间之间的关系,对布局图像要素之间的配置间隔进行分析,但仅根据时间先后顺序会存在图层堆叠或则重复配置的问题。
发明内容
为了解决上述问题,本发明提供了一种基于离散潜在表示的布局生成方法,该方法可以根据平面设计要求,输出符合要求且高质量的高质量设计图布局。
一种基于离散潜在表示的布局生成方法,包括:
步骤1、构建训练集,包括用于生成布局的元素边框序列和对应的约束条件,所述约束条件包括元素类别序列和应用场景;
步骤2、构建基于元素约束的布局生成网络,所述布局生成网络包括特征提取模块,离散潜在变量生成模块以及重构模块,所述特征提取模块包括自注意力编码器,用于将输入的元素类别序列,元素边框序列和应用场景隐射到d维空间中生成对应的布局潜在表示,所述离散潜在变量生成模块,用于对生成的布局潜在表示进行离散化处理,获得对应的布局离散潜在表示,所述重构模块用于根据输入的元素类别序列,应用场景和布局离散潜在表示,输出真实布局对应的元素边框序列;
步骤3、采用训练集,对步骤2构建的布局生成网络进行训练,获得布局生成模型;
步骤4、以元素类别序列和应用场景作为输入约束构建单向Transformer模型,利用训练集和步骤2中的布局离散潜在表示对单向Transformer模型进行训练,获得满足输入约束条件的布局离散潜在表示;
步骤5、将步骤4训练获得的单向Transformer模型作为约束条件的输入端,将单向Transformer模型的输出结果布局离散潜在表示作为布局生成模型中重构模块的输入,通过对布局离散潜在表示解码获得满足输入约束条件的元素边框序列。
本发明提出一种全新的LayoutVQ-VAE模型,通过学习布局的离散潜在表示来生成布局,同时采用非自然回归解码器对元素的边框序列进行重构,从而获得满足输入约束对应的元素边框序列,利用获得的元素边框序列生成高质量设计图布局。
具体的,在步骤2中,所述自注意力编码器的表达公式如下:
Figure DEST_PATH_IMAGE002
式中,与表示多层感知器,
Figure DEST_PATH_IMAGE003
表示第
Figure DEST_PATH_IMAGE004
个元素边框参数,
Figure DEST_PATH_IMAGE005
表示第
Figure 805844DEST_PATH_IMAGE004
个元素类别,表示布局的第应用场景,
Figure DEST_PATH_IMAGE006
表示每个输入项的隐藏表示,
Figure DEST_PATH_IMAGE007
表示位置嵌入,
Figure DEST_PATH_IMAGE008
表示第
Figure DEST_PATH_IMAGE009
个可学习嵌入,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
表示对应
Figure 644355DEST_PATH_IMAGE008
的隐藏输出,表示布局头的数量,
Figure DEST_PATH_IMAGE012
表示自注意力编码器的参数,表示Transformer模型中的多头自注意力机制。
具体的,在步骤2中,所述布局潜在表示的表达式如下:
Figure DEST_PATH_IMAGE014
式中,
Figure DEST_PATH_IMAGE015
,,
Figure DEST_PATH_IMAGE016
表示布局头的数量,
Figure DEST_PATH_IMAGE018
表示元素边框序列,
Figure DEST_PATH_IMAGE019
表示元素类别序列,
Figure DEST_PATH_IMAGE020
表示应用场景。
具体的,在步骤2中,所述离散潜在变量生成模块依据VQ-VAE理论,采用映射函数将布局潜在表示转换为空间中最接近的元素,所述映射函数的表达式如下:
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
式中,表示布局离散潜在表示,表示离散化,,。
优选的,在步骤2中,所述重构模块采用非自然回归解码器对元素的边框序列进行重构,可以让模型更好了解前后元素之间的关系,使得最终重构获得的布局更加接近真实布局。
具体的,所述非自然回归解码器的表达式如下:
Figure DEST_PATH_IMAGE023
式中,表示一个被重构的元素边框参数,表示非自然回归解码器的参数,表示每个输入项的隐藏表示,表示对应的隐藏输出,表示第个元素类别,表示布局的第应用场景。
具体的,在步骤3中,训练过程中采用交叉熵函数与承诺损失对布局生成网络进行参数调整,其具体表达式如下:
Figure DEST_PATH_IMAGE024
式中,表示使用交叉熵方法计算模型的重构损失,表示承诺损失的权重系数,表示停止梯度运算符,表示重构元素的边框序列。
具体的,所述停止梯度运算符的具体表示如下:
Figure DEST_PATH_IMAGE025
本发明还提供了一种布局生成装置,包括计算机存储器、计算机处理器以及在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器采用上述的布局生成模型和单向Transformer模型;
所述计算机处理器执行所述计算机程序时实现以下步骤:将平面设计图的元素类别序列和应用场景要求输入单向Transformer模型中,并将单向Transformer模型输出的布局离散潜在表示作为布局生成模型中重构模块的输入,获得满足元素类别和场景约束的高质量设计图布局。
与现有技术相比,本发明的有益效果:
(1)提出一种全新的生成模型,该模型能够生成满足用户约束条件的布局,该约束条件包括布局内部的设计元素标签(元素类型和数量)和布局外部的应用场景。
(2)通过预构建的单向Transformer模型为生成部分提供准确且全面的数据分布,从而在一方面可以保证生成布局的多样性,另一方面可以保证模型直接生成的布局的质量,避免复杂的后处理优化操作,降低算法的时间和空间复杂度。
附图说明
图1为本发明提出的布局生成模型的整体架构;
图2为在元素类别序列约束下,布局生成模型与现有模型的布局生成结果对比图;
图3为在元素类别序列的约束下,布局生成模型与现有模型的布局重构结果图对比图;
图4为在不同应用场景的约束下,布局生成模型的布局重构结果图对比图;
图5为元素类别序列和应用场景约束下,布局生成模型的布局重构结果图示意图。
具体实施方式
平面设计布局由一系列设计元素组成。为了生成一个全新的布局,我们需要根据给定的约束条件(布局应用场景和元素标签)来预测这些元素的几何参数,包括元素的位置坐标、宽度和高度。因此,一个布局可以被定义为 ,其中表示布局的应用场景,
Figure DEST_PATH_IMAGE026
表示布局的第
Figure 662908DEST_PATH_IMAGE004
个元素,
Figure DEST_PATH_IMAGE027
表示布局中元素的个数。对于每一个元素,我们使用
Figure DEST_PATH_IMAGE028
表示,其中
Figure DEST_PATH_IMAGE029
表示元素的类别(例如,图像或标题),表示元素边框的中心坐标、宽度和高度。在实际训练中,我们将所有元素边框的几何参数拼接成一个序列 , 并使用7位均匀量化方法对参数值进行了离散化处理。布局的约束条件由两个被重复值填充为和
Figure DEST_PATH_IMAGE030
长度相同的序列
Figure 215374DEST_PATH_IMAGE019
和表示。
为了简洁起见,我们使用来表示序列中的每个项。
为了解决现有技术面对平面设计图生成问题,本实施例提出了一种基于离散潜在表示的布局生成方法。
如图1所示,步骤1、构建训练集,包括用于生成布局的元素边框序列和对应的约束条件,其中约束条件包括元素类别序列和应用场景;
步骤2、构建基于元素约束的布局生成网络,该布局生成网络包括特征提取模块,离散潜在变量生成模块以及重构模块,该特征提取模块包括自注意力编码器,用于将输入的元素类别序列,元素边框序列和应用场景隐射到d维空间中生成对应的布局潜在表示,而离散潜在变量生成模块,用于对生成的布局潜在表示进行离散化处理,获得对应的布局离散潜在表示,最后的重构模块用于根据输入的元素类别序列,应用场景和布局离散潜在表示,输出真实布局中对应的元素边框序列;
其中,自注意力编码器首先使用一个多层多层感知器将每一个输入项隐射到d维空间中并与位置嵌入相加,得到对应的隐藏输入序列,该编码器的最终输出被限制为与可学习嵌入相对应的输出向量,这些向量为布局的多头潜在表示,包含了整个布局的特征信息,其表达式如下:
Figure DEST_PATH_IMAGE002A
式中,与表示多层感知器,表示第
Figure 357643DEST_PATH_IMAGE004
个元素边框参数,表示第
Figure 711264DEST_PATH_IMAGE004
个元素类别,表示布局的第应用场景,表示每个输入项的隐藏表示,表示位置嵌入,表示第个可学习嵌入,,表示对应的隐藏输出,表示布局头的数量,
Figure 509455DEST_PATH_IMAGE012
表示自注意力编码器的参数,表示Transformer模型中的多头自注意力机制。
通过编码器输出的布局潜在表示的表达式如下:
Figure 3628DEST_PATH_IMAGE014
式中,
Figure 203665DEST_PATH_IMAGE015
,,
Figure 728188DEST_PATH_IMAGE016
表示布局头的数量,
Figure 216938DEST_PATH_IMAGE030
表示元素边框序列,表示元素类别序列,表示应用场景。
离散潜在变量生成模块依据VQ-VAE理论,采用映射函数将布局潜在表示转换为空间中最接近的元素,该映射函数的表达式如下:
Figure 485108DEST_PATH_IMAGE021
Figure 805231DEST_PATH_IMAGE022
式中,表示布局离散潜在表示,表示离散化,,;
而重构模型选用了非自然回归解码器对元素的边框序列进行重构,其重构获得的结果可以更加接近与真实序列,根据如输入的布局离散潜在表示和响应的约束条件,输出重构后的元素边框序列,其具体表达式如下:
Figure 766234DEST_PATH_IMAGE023
式中,
Figure DEST_PATH_IMAGE032
表示一个被重构的元素边框参数,表示非自然回归解码器的参数,表示每个输入项的隐藏表示,表示对应的隐藏输出,
Figure 70176DEST_PATH_IMAGE005
表示第
Figure 377923DEST_PATH_IMAGE004
个元素类别,
Figure DEST_PATH_IMAGE033
表示布局的第
Figure 286973DEST_PATH_IMAGE004
应用场景。
步骤3、采用训练集,对步骤2构建的布局生成网络进行训练,获得布局生成模型,训练过程中采用交叉熵函数与承诺损失对布局生成网络进行参数调整,其具体表达式如下:
Figure 950036DEST_PATH_IMAGE024
式中,
Figure DEST_PATH_IMAGE034
表示使用交叉熵方法计算模型的重构损失,
Figure DEST_PATH_IMAGE035
表示承诺损失的权重系数,
Figure DEST_PATH_IMAGE036
表示停止梯度运算符,
Figure DEST_PATH_IMAGE037
表示重构元素的边框序列,其中的表达式如下:
Figure DEST_PATH_IMAGE039
因此,解码器仅通过重构损失进行优化,编码器通过重构损失和承诺损失进行优化,映射空间通过指数移动平均算法(Exponentially Moving Averages,EMA)进行优化。
步骤4、以元素类别序列和应用场景作为输入约束构建单向Transformer模型,利用训练集和步骤2中的布局离散潜在表示对单向Transformer模型进行训练,获得满足输入约束条件的布局离散潜在表示;
离散潜在表示的先验分布被定义为一个均匀的多类分布,因此在完成步骤4的训练后,接入一个单向Transformer模型来自回归预测布局的离散潜在表示,在训练单向Transformer模型时仅需优化模型对于离散潜在标记的预测,忽略条件约束表示对应的输出即可,对于符合输入约束条件的布局离散潜在表示进行自回归采样,然后将该表示和条件约束一起输入至重构模块中,生成满足约束条件的元素边框序列,从而获得高质量的设计图布局。
步骤5、将步骤4训练获得的单向Transformer模型作为约束条件的输入端,将单向Transformer模型输出的布局离散潜在表示作为布局生成模型中重构模块的输入,通过对布局离散潜在表示解码获得满足输入约束条件的元素边框序列。
基于指定的元素边框序列生成设计图布局的过程为现有公知技术,因此不再赘述。
本实施例还提供了一种布局生成装置,包括计算机存储器、计算机处理器以及在计算机存储器中并可在计算机处理器上执行的计算机程序,该计算机存储器采用上述实施例所提出的布局生成模型和单向Transformer模型,当计算机处理器执行计算机程序时实现以下步骤:
将平面设计图的元素类别序列和应用场景要求输入单向Transformer模型中,并将单向Transformer模型输出的布局离散潜在表示作为布局生成模型中重构模块的输入,获得满足元素类别和场景约束的高质量设计图布局。
为了说明本模型与现有模型的区别,本实施例还提出实际应用过程中效果对比评估。
第一种情况,我们采用LayoutTransformer模型和LayoutGAN++模型作为基准,评估了本实施例提出的布局生成模型在元素类别序列约束下的布局生成任务中的性能,具体结果如表1所示。
Figure DEST_PATH_IMAGE041
由表1可知,本实施例提出的布局生成模型在FID和MaxIoU指标中均取得最好的结果,从而证明了离散布局表示方法在概括布局特征的能力强于传统的连续布局表示;而在美学质量方面,基于元素几何参数的离散化处理,使得最终模型能实现更好的对齐效果,从而获得最佳的对齐评分。
如图2所示,分别展示了布局生成模型和两种对比模型的布局生成结果,从图中可以了解到,由于缺少后处理优化导致LayoutGAN++模型生成的布局存在元素不对齐、重叠的问题;而LayoutTransformer模型由于使用了单向Transformer, 模型仅能学习已经预测出的元素之间的关系,无法预知还未出现的元素类型和数量,因此在它生成的布局中元素分布不均匀,会出现元素重叠以及大面积留白的现象。
因此本实施例提供的布局生成模型输出的结果更加贴近实际布局,能够合理地排布各种类型的元素并实现良好的对齐效果;此外,相较于LayoutTransformer模型,本实施例提供的布局生成模型选用的单向Transformer模型仅用于生成布局的离散潜在表示,在对布局的离散潜在表示进行解码时采用的是双向Transformer,能够建模所有元素之间的关系并同时预测所有元素边框的几何参数,这有效地解决LayoutTransformer模型存在的问题。
由于LayoutTransformer模型无法实现布局重构功能,因此在实施例1中仅以布局生成模型与LayoutGAN++模型进行比较,具体比较结果如表2所示。
Figure DEST_PATH_IMAGE042
由表2可知,布局生成模型生成的布局在特征分布(采用FID评估)和元素边框距离(采用MaxIoU和𝑊𝑏𝑏𝑜𝑥评估)上都更接近真实布局。
如图3所示,可以看出我们的模型不仅可以重建真实布局的结构,还可以精确地还原元素的详细位置和大小,LayoutGAN++模型虽然可以大致捕捉布局结构,但在预测边界框时不够精确,并且存在严重的不对齐和重叠问题。
第二种情况,由于现有技术中均未考虑应用场景约束下的布局生成,且应用场景对于布局的影响难以进行量化评估,因此本实施例中通过对比布局生成模型在相同元素类别序列但不同场景的约束下生成布局来定性评估模型的性能(基于PDCard和Magazine数据集)。
如图4所示,展示了基于PDCard数据集生成的布局重构结果图,其中场景一为商品推荐场景,场景二为商品分类展示场景,场景三维商品搜索场景,通过比较同一行的布局可以清楚发现即使使用相同的元素类别序列,也可以生成相应场景对应的布局:
在应用于商品推荐场景的布局中,图像元素占据较大的区域,这是因为图片表现形式能够更快地传递商品信息和吸引消费者;
在应用于商品分类展示场景的布局中,图像元素对应的描述元素占比增大,从而在看到图像元素时也能看到对应的描述元素;
而在应用于商品搜索场景的布局中,图像元素通常占据较小的区域,信息主要以文本形式进行呈现,这能够帮助消费者进一步考察商品细节。
如图5所示,展示了基于Magazine数据集生成的布局重构结果图,对于科学杂志和新闻杂志的版面更加注重文本的结构化和整齐性,需要体现出严肃且严谨的布局,而时尚杂志和美食杂志偏向于娱乐休闲,需要更多图像创意和非常规的布局,从而可以抓住读者的眼球。

Claims (8)

1.一种基于离散潜在表示的布局生成方法,其特征在于,包括:
步骤1、构建训练集,包括用于生成布局的元素边框序列和对应的约束条件,所述约束条件包括元素类别序列和应用场景;
步骤2、构建基于元素约束的布局生成网络,所述布局生成网络包括特征提取模块,离散潜在变量生成模块以及重构模块,所述特征提取模块包括自注意力编码器,用于将输入的元素类别序列,元素边框序列和应用场景隐射到d维空间中生成对应的布局潜在表示,所述离散潜在变量生成模块,用于对生成的布局潜在表示进行离散化处理,获得对应的布局离散潜在表示,所述重构模块用于根据输入的元素类别序列,应用场景和布局离散潜在表示,输出真实布局中对应的元素边框序列;
步骤3、采用训练集,对步骤2构建的布局生成网络进行训练,获得布局生成模型;
步骤4、以元素类别序列和应用场景作为输入约束构建单向Transformer模型,利用训练集和步骤2中的布局离散潜在表示对单向Transformer模型进行训练,获得满足输入约束条件的布局离散潜在表示;
步骤5、将步骤4训练获得的单向Transformer模型作为约束条件的输入端,将单向Transformer模型输出的布局离散潜在表示作为布局生成模型中重构模块的输入,通过对布局离散潜在表示解码获得满足输入约束条件的元素边框序列。
2.根据权利要求1所述的基于离散潜在表示的布局生成方法,其特征在于,在步骤2中,所述自注意力编码器的表达公式如下:
Figure 547015DEST_PATH_IMAGE001
式中,
Figure 688146DEST_PATH_IMAGE002
Figure 779599DEST_PATH_IMAGE003
表示多层感知器,
Figure 115027DEST_PATH_IMAGE004
表示第
Figure 331245DEST_PATH_IMAGE005
个元素边框参数,
Figure 682592DEST_PATH_IMAGE006
表示第
Figure 628551DEST_PATH_IMAGE007
个元素类别,
Figure 39941DEST_PATH_IMAGE008
表示布局的第
Figure 805772DEST_PATH_IMAGE009
应用场景,
Figure 695230DEST_PATH_IMAGE010
表示每个输入项的隐藏表示,
Figure 433379DEST_PATH_IMAGE011
表示位置嵌入,
Figure 343566DEST_PATH_IMAGE012
表示第
Figure 360807DEST_PATH_IMAGE013
个可学习嵌入,
Figure 53957DEST_PATH_IMAGE014
Figure 708929DEST_PATH_IMAGE015
表示对应
Figure 258859DEST_PATH_IMAGE016
的隐藏输出,
Figure 468124DEST_PATH_IMAGE017
表示布局头的数量,
Figure 761702DEST_PATH_IMAGE018
表示自注意力编码器的参数,
Figure 740022DEST_PATH_IMAGE019
表示Transformer模型中的多头自注意力机制。
3.根据权利要求1所述的基于离散潜在表示的布局生成方法,其特征在于,在步骤2中,所述布局潜在表示的表达式如下:
Figure 398537DEST_PATH_IMAGE020
式中,
Figure 393300DEST_PATH_IMAGE021
Figure 428252DEST_PATH_IMAGE022
Figure 588975DEST_PATH_IMAGE023
表示布局头的数量,
Figure 418390DEST_PATH_IMAGE024
表示元素边框序列,
Figure 398985DEST_PATH_IMAGE025
表示元素类别序列,
Figure 565524DEST_PATH_IMAGE026
表示应用场景。
4.根据权利要求1所述的基于离散潜在表示的布局生成方法,其特征在于,在步骤2中,所述离散潜在变量生成模块依据VQ-VAE理论,采用映射函数将布局潜在表示转换为空间
Figure 924961DEST_PATH_IMAGE027
中最接近的元素,所述映射函数的表达式如下:
Figure 73746DEST_PATH_IMAGE028
Figure 479320DEST_PATH_IMAGE029
式中,
Figure 121654DEST_PATH_IMAGE030
表示布局离散潜在表示,
Figure 991389DEST_PATH_IMAGE031
表示离散化,
Figure 756083DEST_PATH_IMAGE032
Figure 117794DEST_PATH_IMAGE033
5.根据权利要求1所述的基于离散潜在表示的布局生成方法,其特征在于,在步骤2中,所述重构模块采用非自然回归解码器对元素的边框序列进行重构。
6.根据权利要求5所述的基于离散潜在表示的布局生成方法,其特征在于,所述非自然回归解码器的表达式如下:
Figure 127601DEST_PATH_IMAGE034
式中,
Figure 727210DEST_PATH_IMAGE035
表示一个被重构的元素边框参数,
Figure 459542DEST_PATH_IMAGE036
表示非自然回归解码器的参数,
Figure 511812DEST_PATH_IMAGE037
表示每个输入项的隐藏表示,
Figure 355003DEST_PATH_IMAGE038
表示对应的
Figure 809118DEST_PATH_IMAGE037
隐藏输出,
Figure 712352DEST_PATH_IMAGE039
表示第
Figure 986338DEST_PATH_IMAGE040
个元素类别,
Figure 397335DEST_PATH_IMAGE041
表示布局的第
Figure 440377DEST_PATH_IMAGE040
应用场景。
7.根据权利要求1所述的基于离散潜在表示的布局生成方法,其特征在于,在步骤3中,训练过程中采用交叉熵函数与承诺损失对布局生成网络进行参数调整,其具体表达式如下:
Figure 514512DEST_PATH_IMAGE042
式中,
Figure 72533DEST_PATH_IMAGE043
表示使用交叉熵方法计算模型的重构损失,
Figure 398472DEST_PATH_IMAGE044
表示承诺损失的权重系数,
Figure 686234DEST_PATH_IMAGE045
表示停止梯度运算符,
Figure 134533DEST_PATH_IMAGE046
表示重构元素的边框序列。
8.一种布局生成装置,包括计算机存储器、计算机处理器以及在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器采用如权利要求1所述的布局生成模型和单向Transformer模型;所述计算机处理器执行所述计算机程序时实现以下步骤:
将平面设计图的元素类别序列和应用场景要求输入单向Transformer模型中,并将单向Transformer模型输出的布局离散潜在表示作为布局生成模型中重构模块的输入,获得满足元素类别和场景约束的高质量设计图布局。
CN202211671875.5A 2022-12-26 2022-12-26 一种基于离散潜在表示的布局生成方法及装置 Active CN115659852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211671875.5A CN115659852B (zh) 2022-12-26 2022-12-26 一种基于离散潜在表示的布局生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211671875.5A CN115659852B (zh) 2022-12-26 2022-12-26 一种基于离散潜在表示的布局生成方法及装置

Publications (2)

Publication Number Publication Date
CN115659852A true CN115659852A (zh) 2023-01-31
CN115659852B CN115659852B (zh) 2023-03-21

Family

ID=85023162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211671875.5A Active CN115659852B (zh) 2022-12-26 2022-12-26 一种基于离散潜在表示的布局生成方法及装置

Country Status (1)

Country Link
CN (1) CN115659852B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018224690A1 (en) * 2017-06-09 2018-12-13 Deepmind Technologies Limited Generating discrete latent representations of input data items
CN109360232A (zh) * 2018-09-10 2019-02-19 南京邮电大学 基于条件生成对抗网络的室内场景布局估计方法和装置
CN112734873A (zh) * 2020-12-31 2021-04-30 北京深尚科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN113177633A (zh) * 2021-04-20 2021-07-27 浙江大学 一种深度解耦时间序列预测方法
CN113393550A (zh) * 2021-06-15 2021-09-14 杭州电子科技大学 一种姿态和纹理引导的时尚服装设计合成方法
CN115169227A (zh) * 2022-07-04 2022-10-11 四川大学 设计概念生成网络构建方法及概念方案自动生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018224690A1 (en) * 2017-06-09 2018-12-13 Deepmind Technologies Limited Generating discrete latent representations of input data items
CN109360232A (zh) * 2018-09-10 2019-02-19 南京邮电大学 基于条件生成对抗网络的室内场景布局估计方法和装置
CN112734873A (zh) * 2020-12-31 2021-04-30 北京深尚科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN113177633A (zh) * 2021-04-20 2021-07-27 浙江大学 一种深度解耦时间序列预测方法
CN113393550A (zh) * 2021-06-15 2021-09-14 杭州电子科技大学 一种姿态和纹理引导的时尚服装设计合成方法
CN115169227A (zh) * 2022-07-04 2022-10-11 四川大学 设计概念生成网络构建方法及概念方案自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰红;刘秦邑;: "图注意力网络的场景图到图像生成模型" *

Also Published As

Publication number Publication date
CN115659852B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
Frolov et al. Adversarial text-to-image synthesis: A review
He et al. InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations
WO2021223567A1 (zh) 内容处理方法、装置、计算机设备和存储介质
Hou et al. Guidedstyle: Attribute knowledge guided style manipulation for semantic face editing
Bucak et al. Incremental subspace learning via non-negative matrix factorization
Zhao et al. Modeling fonts in context: Font prediction on web designs
WO2015062209A1 (zh) 随机森林分类模型的可视化优化处理方法及装置
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN107545301B (zh) 页面展示方法及装置
Zhang et al. Stylistic scene enhancement GAN: mixed stylistic enhancement generation for 3D indoor scenes
CN114283351A (zh) 视频场景分割方法、装置、设备及计算机可读存储介质
CN115424096B (zh) 一种多视角零样本图像识别方法
CN115599984B (zh) 一种检索方法
CN115994990A (zh) 基于文本信息引导的三维模型自动建模方法
Ahamed et al. A recommender system based on deep neural network and matrix factorization for collaborative filtering
CN113868466B (zh) 视频推荐的方法、装置、设备和存储介质
Li et al. Instant3d: Instant text-to-3d generation
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及***
CN117809218A (zh) 电商店铺描述视频处理***及方法
CN115659852B (zh) 一种基于离散潜在表示的布局生成方法及装置
CN117271818A (zh) 视觉问答方法、***、电子设备及存储介质
US8868478B2 (en) Tensor trace norm and inference systems and recommender systems using same
CN116703523A (zh) 基于大数据的电子商务***及其方法
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN116204628A (zh) 一种知识图谱增强的物流知识神经协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant