CN117372570A

CN117372570A - 广告图像生成方法、装置

Info

Publication number: CN117372570A
Application number: CN202310679986.9A
Authority: CN
Inventors: 冯博豪; 王文强; 翟一帆
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2024-01-09

Abstract

本申请涉及一种广告图像生成方法、装置，该方法包括：根据目标对象的图像和特征信息，确定目标对象所属的类别，其中，类别为多个，多个不同的类别分别对应不同的图像模板；将图像与类别对应的多个图像模板进行融合，得到多个基本图像；通过文本‑图像布局模型在基本图像中预测候选区域，其中，候选区域用于展示特征信息；将特征信息设置在对应的候选区域，得到基本图像对应的广告图像。以解决相关技术中广告图像由设计人员人工设计，成本高，效率低，时效性差的问题。

Description

广告图像生成方法、装置

技术领域

本申请涉及图像生成技术领域，特别是涉及一种广告图像生成方法、装置。

背景技术

设计产品广告图像往往需要设计师花费大量的时间和劳动力。往往苦思冥想，却依然没有灵感。此外，产品广告非常强调的是“因人而异”，不同人群，可能关注点不一样，但是设计师缺乏大量的行业数据，而且每次设计都需要花费大量的时间。因此，设计师无法真正做到“因人而异”。另外，对于对时效性有要求的广告需求，通过人工制作往往无法满足时效性。

因此，相关技术中，广告图像由设计人员人工设计的方式，存在成本高，效率低，时效性差的问题。

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。不应以此处的描述包括在本部分中就承认是现有技术。

发明内容

本发明实施例提供的一种广告图像生成方法、装置，至少解决相关技术中广告图像由设计人员人工设计的方式，存在成本高，效率低，时效性差的问题。

本发明实施例提供了一种广告图像生成方法，包括：根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

本发明实施例的有益效果：根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后将目标对象的图像与图像模板融合，得到基本图像，在基本图像中预测显示特征信息的候选区域，将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

作为一种可选的实施例，根据目标对象的图像和特征信息，确定所述目标对象所属的类别包括：通过多模态文本分类模型的文本部分提取所述特征信息的文本特征；通过所述多模态文本分类模型的图像部分提取所述图像的图像特征；将所述文本特征与所述图像特征进行融合，得到所述目标对象的融合特征；根据所述融合特征确定所述目标对象的所属类别，其中，所述类别对应多个图像模板。

利用多模态文本分类模型提取文本特征和图像特征，融合后基于融合特征进行分类，确定目标对象的所属类别。利用多模态文本分类模型的融合特征，实现快速准确的对目标对象进行分类。

作为一种可选的实施例，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像之前，所述方法还包括：调用所述目标对象的用户信息；利用机器学习分类算法，对多个图像模板按照匹配度进行分类，确定用户信息匹配度较高的多个图像模板；从匹配度较高的多个图像模板中选择目标数量的图像模板，作为生成基本图像的图像模板。

根据用户信息利用机器学习分类算法，对目标对象所属类别的多个图像模板进行分类，并选取匹配度较高的图像模板，从而使得选取的图像模板都是匹配用户信息的兴趣爱好，提高了最终生成广告图像的广告效果。

作为一种可选的实施例，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像包括：通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像；将所述前景图像融合到所述图像模板中的图像背景中，得到所述基本图像，其中，所述图像模板包括用于显示的所述前景图像的背景区域，在所述背景区域中设置有所述图像背景。

目标对象的图像中通常是存在前景图像和背景图像的，背景图像对图像模板而言，没有用处，因此，通过图像语义分割模型将图像中的背景剥离，保留前景图像，融合到图像模板中的图像背景中，得到基本图像，使得目标对象的图像与图像模板的融合效果更好，进而提高了广告图像的质量。

作为一种可选的实施例，通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像包括：将所述图像输入编码-解码框架的所述图像语义分割模型，所述图像语义分割模型的第一编码器将所述图像处理得到浅层特征和深层特征；将浅层特征直接进入第一解码器的卷积层进行通道压缩，将深层特征通过所述第一编码器和空洞空间卷积池化金字塔进行处理，再传输给所述图像语义分割模型的第一解码器；通过第一解码器分别对压缩后的浅层特征和处理后的深层特征进行上采样处理，使得深层特征和浅层特征的分辨率一致；将上采样后的深层特征和浅层特征进行特征层连接，然后进行卷积以及上采样，得到所述前景图像。

基于编码-解码框架的图像语义分割模型，利用第一编码器处理得到深层特征和浅层特征，利用不同的编解码方式将前景图像和背景图像分离，最终得到前景图像。上述编码-解码框架的图像语义分割模型，可以准确的将前景图像和背景图像分离，得到轮廓清晰且准确的前景图像，保证了前景图像的准确性，进而保证广告图像的协调性和准确性。

在所述基本图像中预测候选区域之前，所述方法还包括：生成所述目标对象的广告标题；所述候选区域还用于展示所述广告标题，在所述基本图像中预测候选区域之后，所述方法还包括：将所述广告标题，设置在对应的候选区域。

生成广告标题并在候选区域中进行展示，可以丰富广告图像的内容，提高广告图像的广告效果。

作为一种可选的实施例，生成所述目标对象的广告标题包括：将标题生成指令输入自回归式语言模型的第二编码器；将第二编码器的输出输入至具有掩码多头注意力机制的多个第二解码器，其中，具有掩码多头注意力机制的多个第二解码器在解码时，上一个第二解码器会将已经输出的部分，重新作为所述上一个第二解码器输入的一部分，经过上一个第二解码器解码之后，再与上一个第二解码器的输入部分一同作为下一个第二解码器的输入；将所述多个第二解码器的输出传输给所述自回归式语言模型的柔性最大传递模块，由所述柔性最大传递模块输出预设数量的广告标题。

利用自回归式语言模型，通过提问的方式，得到自回归式语言模型输出的至少一个广告标题。可以快速的根据标题生成指令，归纳和总结出目标对象所需的广告标题，相比于人工设计的方式，具有更高的效率，也可以得到更多结果，以供选择。

作为一种可选的实施例，在所述基本图像中预测候选区域包括：通过文本-图像布局模型的所述第一卷积网络对所述基本图像进行处理，生成所述基本图像中不同大小的文本框，其中，所述文本-图像布局模型包括文本框预测模块，所述文本框预测模块包括第一卷积网络和第二卷积网络，；通过所述文本-图像布局模型的所述第二卷积网络获取所述基本图像的显著性热力图，确定所述文本框的热力值，其中，所述热力值用于表征所述文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多；将热力值小于设定阈值的文本框作为所述候选区域。

通过显著性热力图，来选择显著性程度较低，包含内容较少的文本框，作为候选区域，从而尽量避免特征信息对基本图像中的图像内容造成遮挡，导致最终的广告图像效果较差的问题。

作为一种可选的实施例，所述文本框预测模块还包括非极大值抑制模块，所述文本-图像布局模型还包括布局分析模块，将热力值小于设定阈值的文本框作为所述候选区域包括：将热力值小于所述设定阈值的文本框，通过所述非极大值抑制模块进行过滤，将发生重合的文本框进行删除，保留不重合的文本框作为候选文本框；通过所述文本-图像布局模型的布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域，其中，所述所需数量为所述特征信息中需要显示的内容数量，每个候选区域对应一个文本内容。

通过非极大值抑制模块，将发生重合的文本框进行删除，通过布局分布模块对不重合的候选文本框进行聚类合并，得到所需数量的候选区域，将特征信息的文本内容对应设置在候选区域中，从而将特征信息的文本内容尽量大的进行显示，保证特征信息的显示效果。

作为一种可选的实施例，所述文本-图像布局模型还包括迭代修正模块，通过所述布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域之后，所述方法还包括：通过所述文本-图像布局模型的迭代修正模块，重复迭代所述布局分布模块的数据处理操作，调整所述候选区域对应的文本内容，以及候选区域的位置，直至接收到停止迭代指令，或者迭代次数达到预设次数。

通过迭代修正模块，修正候选区域对应的文本内容以及候选区域的位置，直到用户认为文本内容的显示效果合适，通过停止迭代指令停止迭代，或者迭代次数达到预设次数。保证了特征信息的显示效果。

作为一种可选的实施例，将所述特征信息，设置在对应的候选区域，得到基本图像对应的广告图像包括：在所述特征信息展示的目标字体不是字体库的字体的情况下，通过字体风格迁移模型的第三编码器，对所述特征信息的文本内容和目标字体的文本参考图像，进行编码，其中，所述第三编码器包括下采样模块，卷积层和残差块，其中，所述字体风格迁移模型为编码-解码框架为基础架构的全卷积网络模型，所述字体风格迁移模型包括第三编码器和第三解码器；通过所述第三解码器对所述第三编码器的输出进行解码处理，得到多个输出数据，其中，所述第三解码器包括上采样模块，转置卷积层和卷积归一模块；从所述多个输出数据中选取文本图像，将所述文本图像以合适的尺寸显示在所述候选区域中，得到所述广告图像。

通过第三编码器和第三解码器对文本参考图像和特征信息的文本进行编码和解码，实现将文本参考图像中的文字风格，迁移至特征信息的文本，生成文本图像。在目标字体不是字体库中的字体的情况下，根据提供的文本参考图像，进行字体风格迁移，生成对应的文本图像。以保证特征信息的显示效果可以满足用户需求。

作为一种可选的实施例，从所述多个输出数据中选取所述文本图像包括：通过所述第三编码器的上采样模块和卷积层，对所述文本参考图像进行处理，获取骨架图，其中，所述第三编码器还包括上采样模块；基于所述骨架图和所述文本内容，预测所述文本内容的目标骨架图；将所述多个输出数据的骨架与所述目标骨架图进行比对，选取偏移量最小的输出数据，作为所述文本图像。

通过上采样模块和卷积层，提取文本参考图像的骨架图，通过与输出的多个文本的比较，选取偏移量最小的输出数据作为文本图像。

作为一种可选的实施例，将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像之后，所述方法还包括：通过无参考图像指令评估算法对生成的广告图像进行评分；对生成的广告图像按照评分进行排序。

通过无参考图像指令评估算法评估生成的广告图像，并进行排序，以供用户选择。

本发明实施例还提供了一种广告图像生成装置，包括：多模态文本分类模型，图像融合模块，文本-图像布局模型，文本融合模块；多模态文本分类模型用于根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；图像融合模块，用于将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；文本-图像布局模型，用于在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；文本融合模块，用于将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

多模态文本分类模型根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后通过图像融合模块将目标对象的图像与图像模板融合，得到基本图像，通过文本-图像布局模型在基本图像中预测显示特征信息的候选区域，通过文本融合模块将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

本发明实施例还提供了一种电子设备，包括：处理器，以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述中任一项所述的方法。

本发明实施例还提供了一种存储有计算机指令的非瞬时机器可读介质，其中，所述计算机指令用于使所述计算机执行根据上述中任一项所述的方法。

本发明的一个或多个实施例的细节在以下附图和描述中提出，以使本发明的其他特征、目的和优点更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1是本发明实施例的一种广告图像生成方法的流程图。

图2是本发明实施例的一种图像生成***架构的示意图。

图3是本发明实施例的图像生成流程的示意图。

图4是本发明实施例的另一种广告图像生成方法的流程图。

图5是本发明实施例示例的目标对象的图像和特征信息的示意图。

图6-1是本发明实施例示例的目标对象所属类别的一个图像模板的示意图。

图6-2是本发明实施例示例的目标对象所属类别的另一个图像模板的示意图。

图7是本发明实施例的另一种广告图像生成方法的流程图。

图8是本发明实施例的目标对象的图像与图像模板融合流程的示意图。

图9是本发明实施例的另一种广告图像生成方法的流程图。

图10是本发明实施例的生成的广告图像的示意图。

图11是本发明实施例的根据目标字体的文本参考图像生成文本图像流程的示意图。

图12是本发明实施例的另一种广告图像生成方法的流程图。

图13是本发明实施例的一种广告图像生成装置的示意图。

图14是本发明实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本实施例的实施例。虽然附图中显示了本实施例的某些实施例，然而应当理解的是，本实施例可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本实施例。应当理解的是，本实施例的附图及实施例仅用于示例性作用，并非用于限制本实施例的保护范围。

相关技术中，广告图像的设计一般都是由设计人员根据客户需求进行设计，为了设计一个广告图，设计师可能需要花费大量的时间去思考。有些时候，广告图像需要结合当前热门事件实时产出。而且广告图像设计成本高昂。广告图像有时无法根据用户数据进行调整，千篇一律，这样的广告图像点击率低，转化率低。

为此，本实施例提出了一种广告图像生成方法，根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后将目标对象的图像与图像模板融合，得到基本图像，在基本图像中预测显示特征信息的候选区域，将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

本实施例可以快速、大量的自动化生成广告图像，这些都能够降低设计师的工作量，提高整个广告创作的效率。对于广告设计结合当前热门进行实施产出的时效性需求，则利用人工智能技术进行解决，以避免人工创造无法保证时效性的问题。本实施例还可以降低广告图像设计的成本。

利用本实施例的广告图像生成方法，可以实现自动化生成广告图像的素材，包括文案、图像和布局。这种自动生成的内容不仅可以大幅降低广告图像生成的成本，还可以提高创作效率和创作品质。可以在广告图像制作过程中节省时间和成本，尤其是在需要大量制作相似广告图像的情况下。可以提高广告图像的个性化和定制化程度。通过分析消费者的数据，本***可以生成与消费者兴趣相关的广告内容，从而提高广告图像的精准性。

除了提高广告效果外，本实施例还可以在特殊事件时帮助企业快速推出广告图像，例如年度促销活动。这种实时高效性，能够使企业更快地推出广告内容并抢占市场。本实施例能够辅助设计师完成产品广告图像的制作，提高设计师广告图像制作的效率，启发设计师的创意。

而且本实施例可以自动生成文案。利用自回归式语言模型生成相应的文案，自动化生成，能够节约文案思考的时间。还可以进行文字风格迁移。根据用户提供的少量文字样本，能够生成同风格文字，并集成到广告图像上，这样能够创造出个性化广告图像。还可以将产品图像与图像模版进行融合，使得产品图像与图像模板融为一体。利用语义分割模型完成产品图像的分割，让后将分割图与背景图进行融合。还可以实现图文布局自动生成，能够节省设计师排版的时间。并提供多个图文布局样式，提供更多的参考选项。还可以实现图像模版自动匹配。自动化按照用户的文字输入和图像输入，匹配所需的模版，用于制作广告图像。推荐模版过程中，还可以结合用户数据进行推荐，准确性更高。

需要说明的是，本说明书提供的广告图像生成方法，可以应用于具有运算能力的电子设备中。该电子设备可以包括笔记本、台式电脑、智能手机、智能可穿戴设备(虚拟现实眼镜、智能手表等)、平板电脑等。当然，本说明书提供的广告图像生成方法，也可以应用于运行在上述的电子设备中的应用程序内。例如，该广告图像生成方法可以应用于具备即时通信功能的浏览器中，也可以应用于即时通信软件内。

为了解决上述技术问题，本发明实施例提供了一种广告图像生成方法，图1是本发明实施例的一种广告图像生成方法的流程图，如图1所示，该方法包括以下步骤：

步骤S101，根据目标对象的图像和特征信息，确定目标对象所属的类别，其中，类别为多个，多个不同的类别分别对应不同的图像模板；

步骤S102，将图像与类别对应的多个图像模板进行融合，得到多个基本图像；

步骤S103，通过文本-图像布局模型在基本图像中预测候选区域，其中，候选区域用于展示特征信息；

步骤S104，将特征信息，设置在对应的候选区域，得到基本图像对应的广告图像。

本发明实施例所提供的上述广告图像生成方法，根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后将目标对象的图像与图像模板融合，得到基本图像，在基本图像中预测显示特征信息的候选区域，将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

上述目标对象也即是广告针对的对象，可以为各类产品，上述目标对像的图像可以为包含有广告所需的目标对象的照片的图像。上述特征信息可以包括目标对象的名称，品牌，款型，价格等信息，可以直接用来描述该产品。在名称，品牌，款型等信息不明确的时候，还可以是功能特征，外观特性，使用方式等产品特征信息，可以用来联系以及间接描述该产品。可以通过特征信息为类型识别提供更多的特征，以便后续准确快速的进行分类。具体的，特征信息为可以用来展现在广告图像上的文本信息。

上述根据目标对象的图像和特征信息，确定目标对象所属的类别可以通过特征信息匹配，图像匹配等方式，识别目标对象，进而获取目标对象的分类，还可以通过人工智能的方式，识别目标对象的分类。

本实施例中采用人工智能的方式，对目标对象的所属类别进行识别。具体的，可以利用多模态文本分类模型识别目标对象的所属类别。多模态文本分类模型DMMPC(DeepMulti-Modal Fusion Architecture for Product Classification)是基于多模态文本分类技术实现的。

多模态文本分类模型可以同时处理多种不同类型(也即模态)的数据，例如文本、图像、声音或者视频。这种模型能够更好地捕捉多种数据之间的关系，并且有助于提高分类的准确性和效率。

通过多模态文本分类模型可以结合目标对象的图像和特征信息，准确快速的识别目标对象的所属类别，进而根据其类别获取对应的多个用于生成广告图像的图像模板。通常一个类别对应的图像模板很多，考虑到用户需求数量一般较低，以及数据处理能力有限，可以选择一定数量的图像模板来生成广告图像。

将目标对象的图像与多个图像模板进行融合，得到基本图像。考虑到目标对象的图像通常都包含与目标对象无关的背景，因此，可以通过图像语义分割模型将图像中的前景图像分离出来，将前景图像融合到图像模板中生成基本图像。

图像语义分割是指对于图像将每个像素都标注上对应的类别，不区分个体，将视觉输入的图像数据分割为不同的语义可解释性类别，例如，前景和背景。图像语义分割可以为U-Net模型、FCN模型、SegNet模型、PSPNet模型、DeepLab模型等。

需要说明的是，若目标对象的图像是背景单纯的图像，也可以直接将目标对象的图像与图像模板融合。上述目标对象的图像与图像模板融合，通常都是将图像直接让放置在图像模板中实现融合。

不同的图像模板显示目标对象的位置区域可以不同，有的图像模板会指定目标对象的图像的显示区域和显示大小，有的图像模板则不会指定，此时就可以人为干预，调整目标对象的图像的位置和大小。

在目标对象的图像和图像模板融合的过程中也可以通过图像编辑的方式，对目标对象的图像进行图像编辑，包括但不限于，抠图，剪裁，调整像素，更改颜色等。使目标对象的图像与图像模板融合的效果更好。

上述文本-图像布局模型包括文本框预测模块和布局分析模块，文本框预测模块主要包括第一卷积网络和第二卷积网络，通过文本-图像布局模型的第一卷积网络对基本图像进行处理，可以生成基本图像中不同大小的文本框。

通过文本-图像布局模型的第二卷积网络获取基本图像的显著性热力图，确定文本框的热力值，来表征文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多。布局分析模块主要通过layout分布算法将能够聚类合并的文本框进行合并，类似一个聚类的过程。

通过文本-图像布局模型的处理可以在基本图像中预测出所需数量候选区域，来作为特征信息的文本框。

上述将特征信息设置在对应的候选区域，得到基本图像对应的广告图像。可以将特征信息的文本内容设置在上述候选区域。候选区域通常为多个，由于特征信息的文本内容是可以进行分割的，其文本内容也可以为多个，文本内容与放置的候选区域的对应关系可以人为指定，也可以通过迭代不断修正，最终得到所需的文本内容与候选区域的匹配效果。

需要说明的是，文本内容放置在候选区域时，可以以设定的目标字体的样式进行展示。若目标字体为非字体库字体，则可以根据目标字体的文本参考图像，利用文字风格迁移模型，将文本内容以目标字体进行展示。

上述文字风格迁移模型整体采用的是encoder-decoder编码-解码架构的FCN网络(Fully Convolutional Networks，全卷积网络)。主要包括第三编码器和第三解码器。第三编码器包括下采样模块，卷积层和残差块，用于对文本参考图像和文本内容，进行编码。第三解码器包括上采样模块，转置卷积层和卷积归一模块，用于对第三编码器的输出进行解码处理，得到多个输出数据，输出数据也即是目标字体的文本内容。

图2是本发明实施例的一种图像生成***架构的示意图，如图2所示，本实施例可以基于自回归式语言模型、文字风格迁移模型、多模态文本分类模型、图像语义分割模型、文本-图像布局模型等模型，完成广告图的自动化生成。功能包含有文案生成、文字生成、图像配置、布局生成等功能模块。各模块相互独立，但是又相互作用，共同完成广告图像生成的任务。

图3是本发明实施例的图像生成流程的示意图，如图3所示，主要步骤有，文案生成，文字生成，大类模板匹配，用户图像，布局生成等步骤。文案生成由自回归式语言模型来完成，例如，GPT3模型。根据输入的问题关键字，得到广告的标题。

文字生成由文字风格迁移模型完成，利用目标字体的文本参考图像，生成目标字体的文本。

大类模板匹配，是利用目标对象的图像和特征信息，确定目标对象的所属类别，来选取所属类别的图像模板，生成目标对象的广告图像。

用户图像也即是用户提供的目标对象的图像，用于进行大类模板匹配和布局合成。

布局生成，是基于目标对象的图像与图像模板融合得到的基本图像，将目标字体的特征信息的文本显示在基本图像上的候选区域内，并通过迭代，得到最终的广告图像。

图4是本发明实施例的另一种广告图像生成方法的流程图，如图4所示，本发明实施例还提供另一种广告图像生成方法。可选的，本发明实施例提供的广告图像生成方法可以用于上述实施例所提供的步骤S101中。上述步骤S101中，根据目标对象的图像和特征信息，确定目标对象所属的类别包括：

步骤S401，通过多模态文本分类模型的文本部分提取特征信息的文本特征；

步骤S402，通过多模态文本分类模型的图像部分提取图像的图像特征；

步骤S403，将文本特征与图像特征进行融合，得到目标对象的融合特征；

步骤S404，根据融合特征确定目标对象的所属类别，其中，类别对应多个图像模板。

本发明实施例所提供的上述广告图像生成方法，利用多模态文本分类模型提取文本特征和图像特征，融合后基于融合特征进行分类，确定目标对象的所属类别。利用多模态文本分类模型的融合特征，实现快速准确的对目标对象进行分类。

上述多模态文本分类模型DMMPC(Deep Multi-Modal Fusion Architecture forProduct Classification)的文本部分的应用的是Text CNN(CNN，卷积神经网络)，用于进行文本特征提取，图像部分应用VGG network，用于进行图像特征提取，然后将文本特征和图像特征进行特征融合，最后利用融合的特征进行类别的输出。通过DMMPC模型，能够获取到目标对象的图像和特征信息的所属类别。然后从所属类别中选择相应的图像模板。

Text CNN主要是将不同长度的短文作为矩阵输入，使用多个不同的尺寸的特征去提取关键信息，也即是上述文本特征。VGG network擅长从图像中提取卷积神经网络CNN特征，也即是上述图像特征。

对于目标对象的图像，可以为包含背景的图像，上述特征信息可以包括目标对象的名称，品牌，款型，价格等信息，可以用来展现在广告图像上的特征信息。图5是本发明实施例示例的目标对象的图像和特征信息的示意图，如图5所示，输入的目标对象的图像为包含有目标对象和背景图像的图片，输入的特征信息包括目标对象的名称：耳坠，以及价格：1998元。

上述图像模板也即是生成广告图像的基本模板，例如，图6-1是本发明实施例示例的目标对象所属类别的一个图像模板的示意图，图6-2是本发明实施例示例的目标对象所属类别的另一个图像模板的示意图，如图6-1和图6-2所示，耳坠属于珠宝类别，对应的图像模板可以包括图6-1和图6-2所示的两个图像模板。本实施例中以图6-2的图像模板为例，进行说明。

作为一种可选的实施例，将图像与类别对应的多个图像模板进行融合，得到多个基本图像之前，方法还包括：调用目标对象的用户信息；利用机器学习分类算法，对多个图像模板按照匹配度进行分类，确定用户信息匹配度较高的多个图像模板；从匹配度较高的多个图像模板中选择目标数量的图像模板，作为生成基本图像的图像模板。

根据用户信息利用机器学习分类算法，对目标对象所属类别的多个图像模板进行分类，并选取匹配度较高的图像模板，从而使得选取的图像模板都是匹配用户信息的兴趣爱好的模板，提高了最终生成广告图像的广告效果。

上述机器学习分类算法可以为朴素贝叶斯分类算法，逻辑回归分类算法，决策树分类算，支持向量机分类算法，K最邻近分类算法，K-means聚类算法等。上述机器学习分类算法的原理不同，但是其目的都是为了从所属类别的多个图像模板中，选取匹配目标用户信息的目标数量的图像模板作为生成广告图像的模板。

上述用户信息包括年龄、性别、历史记录等。可以存储在数据库中的固定位置，在需要时直接进行调用。

本实施例选择基于light GBM的机器学习分类算法对多个图像模板进行聚类，实际上也属于聚类树分类算法。最后选出用户最有可能选择的匹配度前N的模版类型，以此进行推荐，N为目标数量。

由于图像模板的推荐结合了用户信息，因此能够更加准确地获取到用户喜好的图像模版，进而生成用户喜好的广告图像。

图7是本发明实施例的另一种广告图像生成方法的流程图，如图7所示，本发明实施例还提供另一种广告图像生成方法。可选的，本发明实施例提供的广告图像生成方法可以用于上述实施例所提供的步骤S102中。上述步骤S102中，将图像与类别对应的多个图像模板进行融合，得到多个基本图像包括：

步骤S701，通过图像语义分割模型，将图像进行背景剥离，得到目标对象的前景图像；

步骤S702，将前景图像融合到图像模板中的图像背景中，得到基本图像，其中，图像模板包括用于显示的前景图像的背景区域，在背景区域中设置有图像背景。

本发明实施例所提供的上述广告图像生成方法，目标对象的图像中通常是存在前景图像和背景图像的，背景图像对图像模板而言，没有用处，因此，通过图像语义分割模型将图像中的背景剥离，保留前景图像，融合到图像模板中的图像背景中，得到基本图像，使得目标对象的图像与图像模板的融合效果更好，进而提高了广告图像的质量。

上述图像语义分割模型本实施例采用Deeplab v3，主要结构为encoder-decoder编码-解码架构。包括第一编码器和第一解码器。

上述前景图像也即是目标对象在上述图像中的轮廓内图像，该图像中通常都会包含了背景图像，背景图像与图像模板的风格往往不一致，而且会破坏图像模板的完整性，因此，通过上述Deeplab v3模型将背景图像与前景图像分割。

图8是本发明实施例的目标对象的图像与图像模板融合流程的示意图，如图8所示，从目标对象的图像中，先将前景图像扣出，然后将前景图像融合到图像模板中的图像背景中，得到基本图像。

作为一种可选的实施例，通过图像语义分割模型，将图像进行背景剥离，得到目标对象的前景图像包括：将图像输入编码-解码框架的图像语义分割模型，图像语义分割模型的第一编码器将图像处理得到浅层特征和深层特征；将浅层特征直接进入第一解码器的卷积层进行通道压缩，将深层特征通过第一编码器和空洞空间卷积池化金字塔进行处理，再传输给图像语义分割模型的第一解码器；通过第一解码器分别对压缩后的浅层特征和处理后的深层特征进行上采样处理，使得深层特征和浅层特征的分辨率一致；将上采样后的深层特征和浅层特征进行特征层连接，然后进行卷积以及上采样，得到前景图像。

上述Deeplab v3模型，对于第一编码器，图像进入主干网络后，获得两个特征层，浅层特征和深层特征。

浅层特征直接进入第一解码器中进行1*1卷积进行通道压缩，减少低层级的比重。深层特征则在第一编码器中进入ASPP模块(Atrous Spatial Pyramid Polling，空洞空间卷积池化金字塔)。在ASPP模块中，包括了1个1*1卷积、3个3*3的空洞卷积Atrousconvolution以及一个图像全局的池化Pooling操作，这些操作过后是1个1*1卷积。

对于第一解码器，直接将第一编码器的输出上采样4倍，使其分辨率和低层级的特征一致。将两个特征层连接后，再进行一次3×3的卷积(细化作用)，然后再次上采样就得到了像素级的预测，得到目标对象的前景图像。

作为一种可选的实施例，在基本图像中预测候选区域之前，方法还包括：生成目标对象的广告标题；候选区域还用于展示广告标题，在基本图像中预测候选区域之后，方法还包括：将广告标题，设置在对应的候选区域。

上述生成目标对象的广告标题，可以通过自回归式语言模型，例如，GPT模型，ELMO模型等。在目标对象为产品的情况下，上述广告标题可以为产品的宣传语。通常为字数固定的短语，例如，四字词语，二字词语等。

通过自回归式语言模型可以根据给定的特征信息来生成具有一定语义相关度的特征信息。因此，可以将上述特征信息输入自回归式语言模型，由自回归式语言模型生成多个广告标题，用户可以在生成的多个标题中选择一个或多个，作为生成广告图像的广告标题。

生成的广告标题可以与上述特征信息一起进行候选区域预测，字体转换，以及设置在对应的候选区域等操作。由于广告标题和特征信息均为文本形式，因此其处理的方式可以是相同的。

作为一种可选的实施例，生成目标对象的广告标题包括：将标题生成指令输入自回归式语言模型的第二编码器；将第二编码器的输出输入至具有掩码多头注意力机制的多个第二解码器，其中，具有掩码多头注意力机制的多个第二解码器在解码时，上一个第二解码器会将已经输出的部分，重新作为上一个第二解码器输入的一部分，经过上一个第二解码器解码之后，再与上一个第二解码器的输入部分一同作为下一个第二解码器的输入；将多个第二解码器的输出传输给自回归式语言模型的柔性最大传递模块，由柔性最大传递模块输出预设数量的广告标题。

上述第二编码器也可以为多个，多个第二编码器先后串联，上一个第一二编码器的输出作为下一个第二编码器的输入，以将第二文本特征输入自回归式语言模型的变换器结构的第二编码器进行编码。

本实施例中，上述自回归式语言模型可以采用GPT3模型，GPT3模型的基础结构为encoder-decoder编码-解码架构组合的变形transformers结构。它的基础结构仍然是掩码多头Masked Multihead注意力模块，但第二解码器会将已经输出的部分重新作为输入的一部分，经过第一个第二解码器之后，再和输入部分一同作为下一个第二解码器的输入，以此类推，最终输入到一个Softmax(柔性最大传递函数)模块中来获得最后的结果。

GPT3模型中的注意力机制可将近义词关联性增大，同时可以捕捉到绝大多数人类文本中的注意力权重，学习顺序生成文本时损失函数是如何梯度下降的，使得自身的参数向着生成类人文本的方向更新迭代。

例如，GPT3输入的标题生成指令为：生成耳坠广告标题，10字以内。

GPT3模型的输出的广告标题为：

文案一：端庄典雅，魅力无限。

文案二：时尚奢华，彰显个性。

文案三：璀璨夺目，闪耀人生。

图9是本发明实施例的另一种广告图像生成方法的流程图，如图9所示，本发明实施例还提供另一种广告图像生成方法。可选的，本发明实施例提供的广告图像生成方法可以用于上述实施例所提供的步骤S104中。文本-图像布局模型包括文本框预测模块，文本框预测模块包括第一卷积网络和第二卷积网络，上述步骤S104，在基本图像中预测候选区域包括：

步骤S901，通过文本-图像布局模型的第一卷积网络对基本图像进行处理，生成基本图像中不同大小的文本框；

步骤S902，通过文本-图像布局模型的第二卷积网络获取基本图像的显著性热力图，确定文本框的热力值，其中，热力值用于表征文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多；

步骤S903，将热力值小于设定阈值的文本框作为候选区域。

本发明实施例所提供的上述广告图像生成方法，通过显著性热力图，来选择显著性程度较低，包含内容较少的文本框，作为候选区域，从而尽量避免特征信息对基本图像中的图像内容造成遮挡，导致最终的广告图像效果较差的问题。

文本-图像布局模型(Text-image Layout Model)。该模型的目的，就是在图像上，合理放置文字。为了实现这个目的，文本-图像布局模型可以包括文本框预测模块。

文本框预测模块，通过第一卷积网络生成不同大小的文本框，然后再通过第二卷积网络，获取到图像的显著性热力图。通过显著性热力图的热力值，设定阈值，可以对检测框进行筛选，尽量选择热力值比较低的区域，这些区域往往不包含内容的背景区域，适合放置文本内容。

通过文本-图像布局模型就能够确定好文字在图像上面的位置了，然后将生成的文字填入即可，形成最后的广告图像。

作为一种可选的实施例，文本框预测模块还包括非极大值抑制模块，文本-图像布局模型还包括布局分析模块，将热力值小于设定阈值的文本框作为候选区域包括：将热力值小于设定阈值的文本框，通过非极大值抑制模块进行过滤，将发生重合的文本框进行删除，保留不重合的文本框作为候选文本框；通过文本-图像布局模型的布局分布模块，将候选文本框进行聚类合并，得到所需数量的候选区域，其中，所需数量为特征信息中需要显示的内容数量，每个候选区域对应一个文本内容。

上述文本框预测模块通过第一卷积网络生成不同大小的文本框，这些文本框可能有重合，从而可能会导致文本框中的文字重合。最后为了避免文字重合，利用NMS(非极大值抑制Non-Maximum Suppression)模块进行过滤，留下不重合的候选文本框。

布局分布模块的目的是将能够合并的候选文本框进行合并，类似一个聚类的过程，可以通过layout布局算法实现，类别的数量也即是最终合并的候选文本框的数量，为特征信息中文本内容的数量，以保证每个文本内容都能够有效展示在广告图像中。通过此布局分布模块，能够进一步减少候选文本框的数量。

作为一种可选的实施例，文本-图像布局模型还包括迭代修正模块，通过布局分布模块，将候选文本框进行聚类合并，得到所需数量的候选区域之后，方法还包括：通过文本-图像布局模型的迭代修正模块，重复迭代布局分布模块的数据处理操作，调整候选区域对应的文本内容，以及候选区域的位置，直至接收到停止迭代指令，或者迭代次数达到预设次数。

迭代修正模块的作用是重复迭代布局分布模块的处理操作，调整候选区域的文本内容，以及候选区域的位置。此迭代修正模块的处理为修正步骤，只能对最后的候选区域的位置进行微调。

需要说明的是，用户可以根据需求，对候选区域的文本内容和位置进行调整。另外，对于图像模板中的其他元素也可以设置为可编辑，用户可以根据需求进行部分可编辑元素的调整，包括放大缩小，剪裁，移动，替换等。

作为一种可选的实施例，将特征信息设置在对应的候选区域，得到基本图像对应的广告图像包括：将特征信息的文本内容，转化为目标字体的文本图像；将文本图像以合适的尺寸显示在候选区域中，得到广告图像。

将特征信息的文本转化为目标字体后进行显示，以保证广告图像的文本风格和图像的匹配，进而保证广告图像的生成效果。

获取广告标题的文本内容，以及基本图像的候选区域之后，就可以进行相应的图片生成。内容排布生成的图片数量可以自定义，比如生成5张，10张或者更多，然后人工进行选择。比如图5中的这种耳坠的图，就可以形成图10的产品广告图像。

图10是本发明实施例的生成的广告图像的示意图，如图10所示，为本实施例的示例最终生成的广告图片，包含了目标对象的前景图像，特征信息和广告标题的文本内容。特征信息和广告标题的文本内容以微软雅黑的目标字体进行展示。

可选的，将特征信息的文本内容，转化为目标字体的文本图像包括：在目标字体为字体库中的字体的情况下，调用目标字体，根据文本内容生成对应的文本图像；在目标字体不是字体库中的字体的情况下，根据目标字体的文本参考图像，对文本内容进行字体风格迁移，生成对应的文本图像。

在目标字体为字体库中的字体的情况下，可以直接进行转换，在目标字体不是字体库中的字体的情况下，根据提供的文本参考图像，进行字体风格迁移，生成对应的文本图像。以保证特征信息的显示效果可以满足用户需求。

上述字体库中包括了很多字体的配置文件和数据包，字体库中的目标字体可以依赖字体库中的配置文件，自动生成目标字体的文本内容。在目标字体为字体库中的字体的情况下，则可以直接调用目标字体，根据文本内容生成对应的文本图像。

上述文本图像可以理解为文本内容的目标字体的样式图像。文本图像可以直接应用图像模板，以目标字体展示文本内容。

需要说明的是，字体库所能容纳的字体也是有限的，一些情况下，目标字体并不属于字体库，此时，就需要参考目标字体的文本参考图像，也即是目标字体的文本的图像。通过字体风格迁移，生成文本内容对应的文本图像，也即是目标字体的文本内容。

图11是本发明实施例的根据目标字体的文本参考图像生成文本图像流程的示意图，如图11所示，根据文本参考图像和文本，生成目标字体的文本图像。

该文本参考图像中文本的语言类型尽量与文本内容的语言类型一致，当然也可以不一致。但是语言类型一致，文字内容相同的文本参考图像，可以更方便字体风格迁移，进而生成更准确的目标字体的文本内容。

图12是本发明实施例的另一种广告图像生成方法的流程图，如图12所示，本发明实施例还提供另一种广告图像生成方法。可选的，本发明实施例提供的广告图像生成方法可以用于上述实施例所提供的广告图像生成方法中。作为一种可选的实施例，将特征信息的文本内容，转化为目标字体的文本图像包括：

步骤S1201，在特征信息展示的目标字体不是字体库的字体的情况下，通过字体风格迁移模型的第三编码器，对特征信息的文本内容和目标字体的文本参考图像，进行编码，其中，第三编码器包括下采样模块，卷积层和残差块，其中，字体风格迁移模型为编码-解码框架为基础架构的全卷积网络模型，字体风格迁移模型包括第三编码器和第三解码器；

步骤S1202，通过第三解码器对第三编码器的输出进行解码处理，得到多个输出数据，其中，第三解码器包括上采样模块，转置卷积层和卷积归一模块；

步骤S1203，从多个输出数据中选取文本图像，将文本图像以合适的尺寸显示在候选区域中，得到广告图像。

本发明实施例所提供的上述广告图像生成方法，通过第三编码器和第三解码器对文本参考图像和特征信息与广告标题的文本进行编码和解码，实现将文本参考图像中的文字风格，迁移至特征信息与广告标题的文本，生成文本图像。

上述文字风格迁移模型可以采用Text GAN(GAN，生成式对抗网络)，整体采用的是encoder-decoder编码-解码架构的全卷积FCN网络。文本参考图像采用第三编码器的3个下采样卷积层和6个残差块进行编码，输入的文本内容也采用相同的结构进行编码。解码时，使用第三解码器的3个上采样转置卷积层和1个卷积归一模块来生成最后的输出。

作为一种可选的实施例，从多个输出数据中选取文本图像包括：通过第三编码器的上采样模块和卷积层，对文本参考图像进行处理，获取骨架图，其中，第三编码器还包括上采样模块；基于骨架图和文本内容，预测文本内容的目标骨架图；将多个输出数据的骨架与目标骨架图进行比对，选取偏移量最小的输出数据，作为文本图像。

为了增强文本生成的效果，将文本参考图像的文本样式转换为文本内容的目标字体，包括字体、颜色、位置和比例，可以在第三编码器的编码中增加上采样和卷积层用于获取文本参考图像的骨架图，并以此预测最后文本内容的目标骨架图，骨架图的预测准确性和复杂度要低于预测最后的文本图像。

预测最后的文本图像时，会结合目标骨架图，计算最后图像文字与骨架图的偏移量，取偏移量最小的输出，确保输出的文本图像不会过于偏离文本参考图像的样式。

作为一种可选的实施例，将特征信息设置在对应的候选区域，得到基本图像对应的广告图像之后，方法还包括：通过无参考图像指令评估算法对生成的广告图像进行评分；对生成的广告图像按照评分进行排序。

为了更好地评估生成广告图像的效果，会对广告图像进行评分，利用的是无参考图像质量评估，对广告图像的质量进行打分，设计人员可以根据评分进行广告图像的选择。

图13是本发明实施例的一种广告图像生成装置的示意图，如图13所示，本发明实施例还提供了一种广告图像生成装置，包括：多模态文本分类模型131，图像融合模块132，文本-图像布局模型133，文本融合模块134；下面对该装置进行详细说明。

多模态文本分类模型131用于根据目标对象的图像和特征信息，确定目标对象所属的类别，其中，类别为多个，多个不同的类别分别对应不同的图像模板；图像融合模块132，用于将图像与类别对应的多个图像模板进行融合，得到多个基本图像；文本-图像布局模型133，用于在基本图像中预测候选区域，其中，候选区域用于展示特征信息；文本融合模块134，用于将特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

本发明实施例所提供的上述广告图像生成装置，多模态文本分类模型根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后通过图像融合模块将目标对象的图像与图像模板融合，得到基本图像，通过文本-图像布局模型在基本图像中预测显示特征信息的候选区域，通过文本融合模块将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

作为一种可选的实施例，图像融合模块132还包括：机器学习分类算法。用于对多个图像模板按照匹配度进行分类，确定用户信息匹配度较高的多个图像模板。

作为一种可选的实施例，图像融合模块132还包括：图像语义分割模型，用于将图像进行背景剥离，得到目标对象的前景图像。

作为一种可选的实施例，上述装置还可以包括自回归式语言模型，上述自回归式语言模型用于生成目标对象的广告标题。自回归式语言模型包括第二编码器，第二解码器以及柔性最大传递模块。第二编码器用于接收输入的标题生成指令并进行编码处理。第二编码器的输出输入至具有掩码多头注意力机制的多个第二解码器。具有掩码多头注意力机制的多个第二解码器在解码时，上一个第二解码器会将已经输出的部分，重新作为上一个第二解码器输入的一部分，经过上一个第二解码器解码之后，再与上一个第二解码器的输入部分一同作为下一个第二解码器的输入；将多个第二解码器的输出传输给自回归式语言模型的柔性最大传递模块，由柔性最大传递模块输出预设数量的广告标题。

作为一种可选的实施例，文本-图像布局模型133包括文本框预测模块，文本框预测模块包括第一卷积网络和第二卷积网络，通过文本-图像布局模型在基本图像中预测候选区域包括：通过文本-图像布局模型的第一卷积网络对基本图像进行处理，生成基本图像中不同大小的文本框；通过文本-图像布局模型的第二卷积网络获取基本图像的显著性热力图，确定文本框的热力值，其中，热力值用于表征文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多；将热力值小于设定阈值的文本框作为候选区域。

作为一种可选的实施例，文本融合模块134还包括：字体风格迁移模型，用于根据目标字体的文本参考图像，对文本进行字体风格迁移，生成对应的文本图像。具体通过字体风格迁移模型的第三编码器，对文本参考图像和文本，进行编码，其中，第三编码器包括下采样模块，卷积层和残差块，其中，字体风格迁移模型为编码-解码框架为基础架构的全卷积网络模型，字体风格迁移模型包括第三编码器和第三解码器；通过第三解码器对第三编码器的输出进行解码处理，得到多个输出数据，其中，上采样模块，转置卷积层和卷积归一模块；从多个输出数据中选取文本图像。

通过第三编码器和第三解码器对文本参考图像和特征信息的文本进行编码和解码，实现将文本参考图像中的文字风格，迁移至特征信息的文本，生成文本图像。

作为一种可选的实施例，该装置还包括：无参考图像指令评估算法，用于对生成的广告图像进行评分；对生成的广告图像按照评分进行排序。

本发明实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。上述存储器存储有能够被上述至少一个处理器执行的计算机程序，上述计算机程序在被上述至少一个处理器执行时用于使电子设备执行本发明实施例的方法。

本发明实施例还提供一种存储有计算机程序的非瞬时机器可读介质，其中，上述计算机程序在被计算机的处理器执行时用于使上述计算机执行本发明实施例的方法。

本发明实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行本发明实施例的方法。

参考图14，现将描述可以作为本发明实施例的服务器或客户端的电子设备的结构框图，其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图14所示，电子设备包括计算单元1401，其可以根据存储在只读存储器(ROM)

1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序，来执行各种适当的动作和处理。在RAM 1403中，还可存储电子设备操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

电子设备中的多个部件连接至I/O接口1405，包括：输入单元1406、输出单元1407、存储单元1408以及通信单元1409。输入单元1406可以是能向电子设备输入信息的任何类型的设备，输入单元1406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1408可以包括但不限于磁盘、光盘。通信单元1409允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于CPU、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理。例如，在一些实施例中，本发明的方法实施例可被实现为计算机程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到电子设备上。在一些实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述的方法。

用于实施本发明实施例的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得计算机程序当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明实施例的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读信号介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，本发明实施例使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。本发明实施例中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本发明实施例所提供的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的保护范围在此方面不受限制。

“实施例”一词在本说明书中指的是结合实施例描述的具体特征、结构或特性可以包括在本发明的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见。尤其，对于装置、设备、***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种广告图像生成方法，包括：

根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；

将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；

在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；

将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

2.根据权利要求1所述的方法，其中，根据目标对象的图像和特征信息，确定所述目标对象所属的类别包括：

通过多模态文本分类模型的文本部分提取所述特征信息的文本特征；

通过所述多模态文本分类模型的图像部分提取所述图像的图像特征；

将所述文本特征与所述图像特征进行融合，得到所述目标对象的融合特征；

根据所述融合特征确定所述目标对象的所属类别，其中，所述类别对应多个图像模板。

3.根据权利要求2所述的方法，其中，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像之前，所述方法还包括：

调用所述目标对象的用户信息；

利用机器学习分类算法，对多个图像模板按照匹配度进行分类，确定用户信息匹配度较高的多个图像模板；

从匹配度较高的多个图像模板中选择目标数量的图像模板，作为生成基本图像的图像模板。

4.根据权利要求1所述的方法，其中，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像包括：

通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像；

将所述前景图像融合到所述图像模板中的图像背景中，得到所述基本图像，其中，所述图像模板包括用于显示的所述前景图像的背景区域，在所述背景区域中设置有所述图像背景。

5.根据权利要求4所述的方法，其中，通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像包括：

将所述图像输入编码-解码框架的所述图像语义分割模型，所述图像语义分割模型的第一编码器将所述图像处理得到浅层特征和深层特征；

将浅层特征直接进入第一解码器的卷积层进行通道压缩，将深层特征通过所述第一编码器和空洞空间卷积池化金字塔进行处理，再传输给所述图像语义分割模型的第一解码器；

通过第一解码器分别对压缩后的浅层特征和处理后的深层特征进行上采样处理，使得深层特征和浅层特征的分辨率一致；

将上采样后的深层特征和浅层特征进行特征层连接，然后进行卷积以及上采样，得到所述前景图像。

6.根据权利要求1所述的方法，其中，在所述基本图像中预测候选区域之前，所述方法还包括：

生成所述目标对象的广告标题；

所述候选区域还用于展示所述广告标题，在所述基本图像中预测候选区域之后，所述方法还包括：

将所述广告标题，设置在对应的候选区域。

7.根据权利要求6所述的方法，其中，生成所述目标对象的广告标题包括：

将标题生成指令输入自回归式语言模型的第二编码器；

将第二编码器的输出输入至具有掩码多头注意力机制的多个第二解码器，其中，具有掩码多头注意力机制的多个第二解码器在解码时，上一个第二解码器会将已经输出的部分，重新作为所述上一个第二解码器输入的一部分，经过上一个第二解码器解码之后，再与上一个第二解码器的输入部分一同作为下一个第二解码器的输入；

将所述多个第二解码器的输出传输给所述自回归式语言模型的柔性最大传递模块，由所述柔性最大传递模块输出预设数量的广告标题。

8.根据权利要求1所述的方法，其中，在所述基本图像中预测候选区域包括：

通过文本-图像布局模型的第一卷积网络对所述基本图像进行处理，生成所述基本图像中不同大小的文本框，其中，所述文本-图像布局模型包括文本框预测模块，所述文本框预测模块包括第一卷积网络和第二卷积网络；

通过所述文本-图像布局模型的所述第二卷积网络获取所述基本图像的显著性热力图，确定所述文本框的热力值，其中，所述热力值用于表征所述文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多；

将热力值小于设定阈值的文本框作为所述候选区域。

9.根据权利要求8所述的方法，其中，所述文本框预测模块还包括非极大值抑制模块，所述文本-图像布局模型还包括布局分析模块，将热力值小于设定阈值的文本框作为所述候选区域包括：

将热力值小于所述设定阈值的文本框，通过所述非极大值抑制模块进行过滤，将发生重合的文本框进行删除，保留不重合的文本框作为候选文本框；

通过所述文本-图像布局模型的布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域，其中，所述所需数量为所述特征信息中需要显示的内容数量，每个候选区域对应一个文本内容。

10.根据权利要求9所述的方法，其中，所述文本-图像布局模型还包括迭代修正模块，通过所述布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域之后，所述方法还包括：

通过所述文本-图像布局模型的迭代修正模块，重复迭代所述布局分布模块的数据处理操作，调整所述候选区域对应的文本内容，以及候选区域的位置，直至接收到停止迭代指令，或者迭代次数达到预设次数。

11.根据权利要求1所述的方法，其中，将所述特征信息，设置在对应的候选区域，得到基本图像对应的广告图像包括：

在所述特征信息展示的目标字体不是字体库的字体的情况下，通过字体风格迁移模型的第三编码器，对所述特征信息的文本内容和目标字体的文本参考图像，进行编码，其中，所述第三编码器包括下采样模块，卷积层和残差块，其中，所述字体风格迁移模型为编码-解码框架为基础架构的全卷积网络模型，所述字体风格迁移模型包括第三编码器和第三解码器；

通过所述第三解码器对所述第三编码器的输出进行解码处理，得到多个输出数据，其中，所述第三解码器包括上采样模块，转置卷积层和卷积归一模块；

从所述多个输出数据中选取文本图像，将所述文本图像以合适的尺寸显示在所述候选区域中，得到所述广告图像。

12.根据权利要求11所述的方法，其中，从所述多个输出数据中选取所述文本图像包括：

通过所述第三编码器的上采样模块和卷积层，对所述文本参考图像进行处理，获取骨架图，其中，所述第三编码器还包括上采样模块；

基于所述骨架图和所述文本内容，预测所述文本内容的目标骨架图；

将所述多个输出数据的骨架与所述目标骨架图进行比对，选取偏移量最小的输出数据，作为所述文本图像。

13.根据权利要求1至12中任一项所述的方法，其中，将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像之后，所述方法还包括：

通过无参考图像指令评估算法对生成的广告图像进行评分；

对生成的广告图像按照评分进行排序。

14.一种广告图像生成装置，包括：多模态文本分类模型，图像融合模块，文本-图像布局模型，文本融合模块；

多模态文本分类模型用于根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；

图像融合模块，用于将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；

文本-图像布局模型，用于在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；

文本融合模块，用于将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。