CN115330898B

CN115330898B - 一种基于改进Swin Transformer的杂志广告嵌入方法

Info

Publication number: CN115330898B
Application number: CN202211017879.1A
Authority: CN
Inventors: 李宁; 李佳钥; 李风山
Original assignee: Jincheng Darui Jinma Engineering Design Consulting Co ltd
Current assignee: Forest Fantasy (Taiyuan) Digital Technology Co.,Ltd.
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-06-06
Anticipated expiration: 2042-08-24
Also published as: CN115330898A

Abstract

本发明公开了一种基于改进SwinTransformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层；所述图像数据编码层包括多头自注意力层和前馈网络层；本发明属于图像处理技术领域，具体是指一种基于改进SwinTransformer的文本广告嵌入方法；可以有效解决将杂志广告与杂志文本进行融合，有效提升纸张的利用率；本发明提供一种自动化的杂志广告嵌入处理方式，节省了人工劳动力；本发明使用改进的SwinTransformer，可方便实现并行计算和分布式计算，加快了数据处理速度；本发明可方便的使用Pytorch或Tensorflow进行搭建；不存在训练阶段，可直接进行迭代更新的有点。

Description

一种基于改进Swin Transformer的杂志广告嵌入方法

技术领域

本发明属于图像处理技术领域，具体是指一种基于改进Swin Transformer的文本广告嵌入方法。

背景技术

杂志广告是指刊登在杂志上的广告。杂志广告具有针对性强，保留时间长，传阅者众多，画面印刷效果好等优点；专业性杂志针对不同的读者对象，安排相应的阅读内容，因而就能受到不同的读者对象的欢迎；杂志的专业化倾向也发展得很快，如医学杂志、科普杂志、各种技术杂志等，其发行对象是特定的社会阶层或群体，专业性杂志由于具有固定的读者层面，可以使广告宣传深入某一专业行业。

杂志的封页、内页及插页都可做广告之用，对广告的位置可机动安排，可以突出广告内容，激发读者的阅读兴趣；同时对于广告内容的安排，可做多种技巧性变化，如折页、插页、连页、变形等，吸引读者的注意；目前，杂志广告往往单独成页，且杂志广告所占篇幅较大，据统计，平均一本专业杂志上的广告占总页数的百分之十五之多，若将杂志广告与杂志内的文章加以融合，可以大幅提高纸张的利用率，这对减少能源消耗、改善生态环境有着举足轻重的作用。

将杂志广告与杂志文本的融合涉及图像处理领域，传统的方法需要专业制图人员使用专业绘图工具，才能将杂志广告融合到杂志文本中。

发明内容

(一)要解决的技术问题

为解决现有技术的上述问题，本发明提供一种基于改进Swin Transformer的文本广告嵌入方法，可以有效解决：

(1)将杂志广告与杂志文本进行融合，有效提升纸张的利用率；

(2)传统的图像融合需要专业人员进行人工处理，且存在效果的不一致性问题；

(3)技术领域设计图像处理领域，而传统的图像融合方式采用卷积神经网络，当处理的图像尺寸较大时，计算复杂度指数级增大。

(二)技术方案

为了解决上述问题，本发明采用的一种技术方案为：一种基于改进SwinTransformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层：所述图像数据编码层包括多头自注意力层和前馈网络层：

进一步地，所述待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页，在初始排版时文件格式为doc文件，进行后续的处理需将其格式转换为JPG格式或PNG格式，对待融合杂志文本页的尺寸reshape操作，得到尺寸为H×W×C，记为Text_Page。

作为优选地，所述待融合杂志广告页为杂志内的广告页面，在进行后续的处理时需将其转换为JPG格式或PNG格式，所述待融合杂志广告页的尺寸reshape操作，得到尺寸为H×W×C，记为Ad_Page。

进一步地，在数据预处理层对Text_Page和Ad_Page数据预处理操作，包括分块操作、展平操作与合并操作：

(1)分块操作，Text_Page和Ad_Page的尺寸均为H×W×C，分块后均得到个数为N的小正方形区域，其中，小正方形区域的尺寸为：

P×P×C

小正方形区域的个数N为：

(2)展平操作，对每个小正方形区域进行展平，得到1×(P×P×C)维的向量x；

(3)合并操作，将N个小正方形展平后的向量进行合并得到矩阵X，其维度为N×(P×P×C)，形式为：

X＝[x₁,x₂,…,x_N]^T

将Text_Page经过数据预处理层得到的结果记为X^Text，将Ad_Page经过数据预处理层得到的结果记为X^Ad。

作为优选地，所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征，可解决信息量过大带来的算力不足的问题，具体计算步骤如下：

S1、生成每个分量的取值范围在-1到1之间的特征矩阵L、M和N，将特征矩阵L、M和N设置为不可修改，其中特征矩阵L、M和N的形式均为：

L＝[l₁,l₂,…,l_N]^T

M＝[m₁,m₂,…,m_N]^T

N＝[n₁,n₂,…,n_N]^T

其中，特征矩阵L、M和N的每个分量的维度均为(P×P×C)×1；

S2、通过特征矩阵L、M和N生成查寻矩阵IN、键矩阵K和值矩阵V，具体计算方式为：

IN＝X×L^T

K＝X×M^T

V＝X×N^T

其中，

IN＝[in₁,in₂,…,in_N]^T

K＝[k₁,k₂,…,k_N]^T

V＝[v₁,v₂,…,v_N]^T

S3、计算注意力分布，具体计算公式为：

根据注意力分布对输入信息进行加权平均：

/>

上式中，Att_i为的维度为N×1。

进一步地，所述前馈网络层，包括BP神经网络，所述BP神经网络的个数为N个，所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成，其中前馈输入层含有N个神经元，中间隐层均含有P×C个神经元，前馈输出层含有P个神经元；前馈输入层的输入分别为Att₁、Att₂、...、Att_N-1和Att_N，分别将Att₁、Att₂、...、Att_N-1和Att_N输入到各自的BP神经网络中计算得到的前馈输出记为F₁、F₂、...、F_N-1和F_N，具体计算步骤为：

F_i＝softmax(W₁RC_i+b₁)W₂+b₂ i∈{1,2,…,N}

上式中，b₁表示中间隐层的偏置，b₂表示前馈输出层的偏置，W₁为中间隐层的内星权向量，W₂为前馈输出层的内星权向量，其中的b₁、b₂、W₁和W₂设为不可训练，F_i为每个BP神经网络的输出，具体为F₁、F₂、...、F_N-1和F_N，其维度均为P×1。

作为优选地，所述注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异，具体计算公式如下：

上式中，F^Text表示Text_Page的前馈输出，F^Ad表示Ad_Page的前馈输出。

进一步地，所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic，由于图像数据编码层中的参数L、M、N、b₁、b₂、W₁和W₂均为固定值，只需对Text_Page进行更新即可，具体计算公式为：

上式中，X^Text表示Text_Page经过数据预处理层处理后得到的结果，λ为学习率，最后更新结果即为图像Pic，其形式为：

作为优选地，所述融合输出层的数据由两部分构成，包括图像Pic和将Text_Page经过数据预处理层得到的X^Text，所述融合输出层的计算步骤如下：

C＝μ*Pic+ξ*X^Text

展开为：

上式中，μ和ξ为加权系数，C表示最终嵌入了广告的杂志文本所对应的矩阵形式，将其转录为图像即为最终结果。

(三)有益效果

本发明提供一种基于改进Swin Transformer的文本广告嵌入方法，可有效解决：

(2)本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法是一种自动化的杂志广告嵌入处理方式，节省了人工劳动力。

(3)本发明使用改进Swin Transformer取代了传统的基于卷积神经网络的图像处理方式，可方便实现并行计算和分布式计算，加快了数据处理速度；

(4)本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法可方便的使用Pytorch或Tensorflow进行搭建；

(5)由于在图像数据编码层中的参数L、M、N、b₁、b₂、W₁和W₂均为固定值，因此有别与传统Swin Transformer，不存在训练阶段，直接进行迭代更新即可。

附图说明

图1为本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法的计算流程图；

图2为本发明提出的数据预处理层的计算流程图；

图3为图像数据编码层的计算流程图；

图4为注意力损失计算层计算方法的示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本方案实施例中的附图，对本方案实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本方案一部分实施例，而不是全部的实施例；基于本方案中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本方案保护的范围。

一种基于改进Swin Transformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层：所述图像数据编码层包括多头自注意力层和前馈网络层。

待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页，在初始排版时文件格式为doc文件，进行后续的处理需将其格式转换为JPG格式或PNG格式，对待融合杂志文本页的尺寸reshape操作，得到尺寸为208×288×3，记为Text_Page。

待融合杂志广告页为杂志内的广告页面，在进行后续的处理时需将其转换为JPG格式或PNG格式，所述待融合杂志广告页的尺寸reshape操作，得到尺寸为208×288×3，记为Ad_Page。

数据预处理层对Text_Page和Ad_Page数据预处理操作，包括分块操作、展平操作与合并操作：

(1)分块操作，Text_Page和Ad_Page的尺寸均为208×288×3，分块后均得到个数为234的小正方形区域，其中，小正方形区域的尺寸为：

16×16×3

小正方形区域的个数N为：

(2)展平操作，对每个小正方形区域进行展平，得到1×768维的向量x；

(3)合并操作，将234个小正方形展平后的向量进行合并得到矩阵X，其维度为234×768，形式为：

X＝[x₁,x₂,…,x_N]^T

自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征，可解决信息量过大带来的算力不足的问题，具体计算步骤如下：

L＝[l₁,l₂,…,l_N]^T

M＝[m₁,m₂,…,m_N]^T

N＝[n₁,n₂,…,n_N]^T

其中，特征矩阵L、M和N的每个分量的维度均为768×1；

IN＝X×L^T

K＝X×M^T

V＝X×N^T

其中，

IN＝[in₁,in₂,…,in_N]^T

K＝[k₁,k₂,…,k_N]^T

V＝[v₁,v₂,…,v_N]^T

S3、计算注意力分布，具体计算公式为：

根据注意力分布对输入信息进行加权平均：

上式中，Att_i为的维度为234×1。

前馈网络层包括BP神经网络，所述BP神经网络的个数为234个，所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成，其中前馈输入层含有234个神经元，中间隐层均含有48个神经元，前馈输出层含有16个神经元；前馈输入层的输入分别为Att₁、Att₂、...、Att_N-1和Att_N，分别将Att₁、Att₂、...、Att_N-1和Att_N输入到各自的BP神经网络中计算得到的前馈输出记为F₁、F₂、...、F_N-1和F_N，具体计算步骤为：

F_i＝softmax(W₁Att_i+b₁)W₂+b₂ i∈{1,2,…,234}

上式中，b₁表示中间隐层的偏置，b₂表示前馈输出层的偏置，W₁为中间隐层的内星权向量，W₂为前馈输出层的内星权向量，其中的b₁、b₂、W₁和W₂设为不可训练，F_i为每个BP神经网络的输出，具体为F₁、F₂、...、F_N-1和F_N，其维度均为16×1。

注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异，具体计算公式如下：

迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic，由于图像数据编码层中的参数L、M、N、b₁、b₂、W₁和W₂均为固定值，只需对Text_Page进行更新即可，具体计算公式为：

融合输出层的数据由两部分构成，包括图像Pic和将Text_Page经过数据预处理层得到的X^Text，所述融合输出层的计算步骤如下：

C＝μ*Pic+ξ*X^Text

展开为：

上式中，μ和ξ为加权系数，C表示最终嵌入了广告的杂志文本所对应的矩阵形式，按照数据预处理层的规则将其转录为图像即为最终结果。

实施例一：

S1、将杂志的文本页和杂志的广告页都转化为JPG格式或PNG格式，并将其全部压缩到同样的尺寸208×288×3，分别记为Text_Page和Ad_Page。

S2、在数据预处理层对Text_Page和Ad_Page进行数据预处理操作：

其中Text_Page经过数据预处理层得到的结果为X^Text，Ad_Page经过数据预处理层得到的结果为X^Ad。

S4、将X^Text和X^Ad输入到自注意力层得到各自的抽象语义特征，即为：

和/>

上式子中，各个分量的维度均为16×1。

S5、使用注意力损失计算层计算X^Text的前馈输出与X^Ad的前馈输出之间的差异，具体计算公式如下：

S6、使用迭代更新层对X^Text进行迭代更新得到图像Pic，具体更新计算公式为：

上式中，λ为学习率，最后更新结果即为图像Pic，其形式为：

S7、融合输出层的数据由两部分构成，包括图像Pic和X^Text，所述融合输出层的计算步骤如下：

C＝μ*Pic+ξ*X^Text

以上便是本发明具体的工作流程，下次使用时重复此步骤即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于改进Swin Transformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层：所述图像数据编码层包括多头自注意力层和前馈网络层：待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页，在初始排版时文件格式为doc文件，进行后续的处理需将其格式转换为JPG格式或PNG格式，对待融合杂志文本页的尺寸reshape操作，得到尺寸为H×W×C，记为Text_Page；待融合杂志广告页为杂志内的广告页面，在进行后续的处理时需将其转换为JPG格式或PNG格式，所述待融合杂志广告页的尺寸reshape操作，得到尺寸为H×W×C，记为Ad_Page；所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征，可解决信息量过大带来的算力不足的问题，具体计算步骤如下：

L＝[l₁，l₂，…，l_N]^T

M＝[m₁，m₂，…，m_N]^T

N＝[n₁，n₂，…，n_N]^T

其中，特征矩阵L、M和N的每个分量的维度均为(P×P×C)×1；

IN＝X×L^T

K＝X×M^T

V＝X×N^T

其中：

IN＝[in₁,in₂，…，in_N]^T

K＝[k₁，k₂，…，k_N]^T

V＝[v₁，v₂，…，v_N]^T

S3、计算注意力分布，具体计算公式为：

根据注意力分布对输入信息进行加权平均：

上式中，Att_i为的维度为N×1；

所述前馈网络层，包括BP神经网络，所述BP神经网络的个数为N个，所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成，其中前馈输入层含有N个神经元，中间隐层均含有P×C个神经元，前馈输出层含有P个神经元；前馈输入层的输入分别为Att₁、Att₂、...、Att_N-1和Att_N，分别将Att₁、Att₂、...、Att_N-1和Att_N输入到各自的BP神经网络中计算得到的前馈输出记为F₁、F₂、...、F_N-1和F_N，具体计算步骤为：

F_i＝softmax(W₁Att_i+b₁)W₂+b₂i∈{1,2,…,N}

上式中，b₁表示中间隐层的偏置，b₂表示前馈输出层的偏置，W₁为中间隐层的内星权向量，W₂为前馈输出层的内星权向量，其中的b₁、b₂、W₁和W₂设为不可训练，F_i为每个BP神经网络的输出，其维度均为P×1。

2.根据权利要求1所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述数据预处理层对Text_Page和Ad_Page数据预处理操作，包括分块操作、展平操作与合并操作：

P×P×C

小正方形区域的个数N为：

X＝[x₁,x₂,…,x_N]^T

3.根据权利要求2所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异，具体计算公式如下：

4.根据权利要求3所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic，由于图像数据编码层中的参数L、M、N、b₁、b₂、W₁和W₂均为固定值，只需对Text_Page进行更新即可，具体计算公式为：

上式中，Pic的维度与X^Text的维度相同。

5.根据权利要求4所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述融合输出层的数据由两部分构成，包括图像Pic和将Text_Page经过数据预处理层得到的X^Text，所述融合输出层的计算步骤如下：

C＝μ*Pic+ξ*X^Text