CN115330898B - 一种基于改进Swin Transformer的杂志广告嵌入方法 - Google Patents

一种基于改进Swin Transformer的杂志广告嵌入方法 Download PDF

Info

Publication number
CN115330898B
CN115330898B CN202211017879.1A CN202211017879A CN115330898B CN 115330898 B CN115330898 B CN 115330898B CN 202211017879 A CN202211017879 A CN 202211017879A CN 115330898 B CN115330898 B CN 115330898B
Authority
CN
China
Prior art keywords
layer
text
page
advertisement
att
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211017879.1A
Other languages
English (en)
Other versions
CN115330898A (zh
Inventor
李宁
李佳钥
李风山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Forest Fantasy (Taiyuan) Digital Technology Co.,Ltd.
Original Assignee
Jincheng Darui Jinma Engineering Design Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jincheng Darui Jinma Engineering Design Consulting Co ltd filed Critical Jincheng Darui Jinma Engineering Design Consulting Co ltd
Priority to CN202211017879.1A priority Critical patent/CN115330898B/zh
Publication of CN115330898A publication Critical patent/CN115330898A/zh
Application granted granted Critical
Publication of CN115330898B publication Critical patent/CN115330898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进SwinTransformer的文本广告嵌入方法,包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层;所述图像数据编码层包括多头自注意力层和前馈网络层;本发明属于图像处理技术领域,具体是指一种基于改进SwinTransformer的文本广告嵌入方法;可以有效解决将杂志广告与杂志文本进行融合,有效提升纸张的利用率;本发明提供一种自动化的杂志广告嵌入处理方式,节省了人工劳动力;本发明使用改进的SwinTransformer,可方便实现并行计算和分布式计算,加快了数据处理速度;本发明可方便的使用Pytorch或Tensorflow进行搭建;不存在训练阶段,可直接进行迭代更新的有点。

Description

一种基于改进Swin Transformer的杂志广告嵌入方法
技术领域
本发明属于图像处理技术领域,具体是指一种基于改进Swin Transformer的文本广告嵌入方法。
背景技术
杂志广告是指刊登在杂志上的广告。杂志广告具有针对性强,保留时间长,传阅者众多,画面印刷效果好等优点;专业性杂志针对不同的读者对象,安排相应的阅读内容,因而就能受到不同的读者对象的欢迎;杂志的专业化倾向也发展得很快,如医学杂志、科普杂志、各种技术杂志等,其发行对象是特定的社会阶层或群体,专业性杂志由于具有固定的读者层面,可以使广告宣传深入某一专业行业。
杂志的封页、内页及插页都可做广告之用,对广告的位置可机动安排,可以突出广告内容,激发读者的阅读兴趣;同时对于广告内容的安排,可做多种技巧性变化,如折页、插页、连页、变形等,吸引读者的注意;目前,杂志广告往往单独成页,且杂志广告所占篇幅较大,据统计,平均一本专业杂志上的广告占总页数的百分之十五之多,若将杂志广告与杂志内的文章加以融合,可以大幅提高纸张的利用率,这对减少能源消耗、改善生态环境有着举足轻重的作用。
将杂志广告与杂志文本的融合涉及图像处理领域,传统的方法需要专业制图人员使用专业绘图工具,才能将杂志广告融合到杂志文本中。
发明内容
(一)要解决的技术问题
为解决现有技术的上述问题,本发明提供一种基于改进Swin Transformer的文本广告嵌入方法,可以有效解决:
(1)将杂志广告与杂志文本进行融合,有效提升纸张的利用率;
(2)传统的图像融合需要专业人员进行人工处理,且存在效果的不一致性问题;
(3)技术领域设计图像处理领域,而传统的图像融合方式采用卷积神经网络,当处理的图像尺寸较大时,计算复杂度指数级增大。
(二)技术方案
为了解决上述问题,本发明采用的一种技术方案为:一种基于改进SwinTransformer的文本广告嵌入方法,包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层:所述图像数据编码层包括多头自注意力层和前馈网络层:
进一步地,所述待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页,在初始排版时文件格式为doc文件,进行后续的处理需将其格式转换为JPG格式或PNG格式,对待融合杂志文本页的尺寸reshape操作,得到尺寸为H×W×C,记为Text_Page。
作为优选地,所述待融合杂志广告页为杂志内的广告页面,在进行后续的处理时需将其转换为JPG格式或PNG格式,所述待融合杂志广告页的尺寸reshape操作,得到尺寸为H×W×C,记为Ad_Page。
进一步地,在数据预处理层对Text_Page和Ad_Page数据预处理操作,包括分块操作、展平操作与合并操作:
(1)分块操作,Text_Page和Ad_Page的尺寸均为H×W×C,分块后均得到个数为N的小正方形区域,其中,小正方形区域的尺寸为:
P×P×C
小正方形区域的个数N为:
Figure GDA0004192982690000021
(2)展平操作,对每个小正方形区域进行展平,得到1×(P×P×C)维的向量x;
(3)合并操作,将N个小正方形展平后的向量进行合并得到矩阵X,其维度为N×(P×P×C),形式为:
X=[x1,x2,…,xN]T
将Text_Page经过数据预处理层得到的结果记为XText,将Ad_Page经过数据预处理层得到的结果记为XAd
作为优选地,所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征,可解决信息量过大带来的算力不足的问题,具体计算步骤如下:
S1、生成每个分量的取值范围在-1到1之间的特征矩阵L、M和N,将特征矩阵L、M和N设置为不可修改,其中特征矩阵L、M和N的形式均为:
L=[l1,l2,…,lN]T
M=[m1,m2,…,mN]T
N=[n1,n2,…,nN]T
其中,特征矩阵L、M和N的每个分量的维度均为(P×P×C)×1;
S2、通过特征矩阵L、M和N生成查寻矩阵IN、键矩阵K和值矩阵V,具体计算方式为:
IN=X×LT
K=X×MT
V=X×NT
其中,
IN=[in1,in2,…,inN]T
K=[k1,k2,…,kN]T
V=[v1,v2,…,vN]T
S3、计算注意力分布,具体计算公式为:
Figure GDA0004192982690000031
根据注意力分布对输入信息进行加权平均:
Figure GDA0004192982690000032
/>
上式中,Atti为的维度为N×1。
进一步地,所述前馈网络层,包括BP神经网络,所述BP神经网络的个数为N个,所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成,其中前馈输入层含有N个神经元,中间隐层均含有P×C个神经元,前馈输出层含有P个神经元;前馈输入层的输入分别为Att1、Att2、...、AttN-1和AttN,分别将Att1、Att2、...、AttN-1和AttN输入到各自的BP神经网络中计算得到的前馈输出记为F1、F2、...、FN-1和FN,具体计算步骤为:
Fi=softmax(W1RCi+b1)W2+b2 i∈{1,2,…,N}
上式中,b1表示中间隐层的偏置,b2表示前馈输出层的偏置,W1为中间隐层的内星权向量,W2为前馈输出层的内星权向量,其中的b1、b2、W1和W2设为不可训练,Fi为每个BP神经网络的输出,具体为F1、F2、...、FN-1和FN,其维度均为P×1。
作为优选地,所述注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异,具体计算公式如下:
Figure GDA0004192982690000033
上式中,FText表示Text_Page的前馈输出,FAd表示Ad_Page的前馈输出。
进一步地,所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic,由于图像数据编码层中的参数L、M、N、b1、b2、W1和W2均为固定值,只需对Text_Page进行更新即可,具体计算公式为:
Figure GDA0004192982690000041
上式中,XText表示Text_Page经过数据预处理层处理后得到的结果,λ为学习率,最后更新结果即为图像Pic,其形式为:
Figure GDA0004192982690000042
作为优选地,所述融合输出层的数据由两部分构成,包括图像Pic和将Text_Page经过数据预处理层得到的XText,所述融合输出层的计算步骤如下:
C=μ*Pic+ξ*XText
展开为:
Figure GDA0004192982690000043
上式中,μ和ξ为加权系数,C表示最终嵌入了广告的杂志文本所对应的矩阵形式,将其转录为图像即为最终结果。
(三)有益效果
本发明提供一种基于改进Swin Transformer的文本广告嵌入方法,可有效解决:
(1)将杂志广告与杂志文本进行融合,有效提升纸张的利用率;
(2)本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法是一种自动化的杂志广告嵌入处理方式,节省了人工劳动力。
(3)本发明使用改进Swin Transformer取代了传统的基于卷积神经网络的图像处理方式,可方便实现并行计算和分布式计算,加快了数据处理速度;
(4)本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法可方便的使用Pytorch或Tensorflow进行搭建;
(5)由于在图像数据编码层中的参数L、M、N、b1、b2、W1和W2均为固定值,因此有别与传统Swin Transformer,不存在训练阶段,直接进行迭代更新即可。
附图说明
图1为本发明提出的一种基于改进Swin Transformer的文本广告嵌入方法的计算流程图;
图2为本发明提出的数据预处理层的计算流程图;
图3为图像数据编码层的计算流程图;
图4为注意力损失计算层计算方法的示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本方案实施例中的附图,对本方案实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本方案一部分实施例,而不是全部的实施例;基于本方案中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本方案保护的范围。
一种基于改进Swin Transformer的文本广告嵌入方法,包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层:所述图像数据编码层包括多头自注意力层和前馈网络层。
待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页,在初始排版时文件格式为doc文件,进行后续的处理需将其格式转换为JPG格式或PNG格式,对待融合杂志文本页的尺寸reshape操作,得到尺寸为208×288×3,记为Text_Page。
待融合杂志广告页为杂志内的广告页面,在进行后续的处理时需将其转换为JPG格式或PNG格式,所述待融合杂志广告页的尺寸reshape操作,得到尺寸为208×288×3,记为Ad_Page。
数据预处理层对Text_Page和Ad_Page数据预处理操作,包括分块操作、展平操作与合并操作:
(1)分块操作,Text_Page和Ad_Page的尺寸均为208×288×3,分块后均得到个数为234的小正方形区域,其中,小正方形区域的尺寸为:
16×16×3
小正方形区域的个数N为:
Figure GDA0004192982690000051
(2)展平操作,对每个小正方形区域进行展平,得到1×768维的向量x;
(3)合并操作,将234个小正方形展平后的向量进行合并得到矩阵X,其维度为234×768,形式为:
X=[x1,x2,…,xN]T
将Text_Page经过数据预处理层得到的结果记为XText,将Ad_Page经过数据预处理层得到的结果记为XAd
自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征,可解决信息量过大带来的算力不足的问题,具体计算步骤如下:
S1、生成每个分量的取值范围在-1到1之间的特征矩阵L、M和N,将特征矩阵L、M和N设置为不可修改,其中特征矩阵L、M和N的形式均为:
L=[l1,l2,…,lN]T
M=[m1,m2,…,mN]T
N=[n1,n2,…,nN]T
其中,特征矩阵L、M和N的每个分量的维度均为768×1;
S2、通过特征矩阵L、M和N生成查寻矩阵IN、键矩阵K和值矩阵V,具体计算方式为:
IN=X×LT
K=X×MT
V=X×NT
其中,
IN=[in1,in2,…,inN]T
K=[k1,k2,…,kN]T
V=[v1,v2,…,vN]T
S3、计算注意力分布,具体计算公式为:
Figure GDA0004192982690000061
根据注意力分布对输入信息进行加权平均:
Figure GDA0004192982690000062
上式中,Atti为的维度为234×1。
前馈网络层包括BP神经网络,所述BP神经网络的个数为234个,所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成,其中前馈输入层含有234个神经元,中间隐层均含有48个神经元,前馈输出层含有16个神经元;前馈输入层的输入分别为Att1、Att2、...、AttN-1和AttN,分别将Att1、Att2、...、AttN-1和AttN输入到各自的BP神经网络中计算得到的前馈输出记为F1、F2、...、FN-1和FN,具体计算步骤为:
Fi=softmax(W1Atti+b1)W2+b2 i∈{1,2,…,234}
上式中,b1表示中间隐层的偏置,b2表示前馈输出层的偏置,W1为中间隐层的内星权向量,W2为前馈输出层的内星权向量,其中的b1、b2、W1和W2设为不可训练,Fi为每个BP神经网络的输出,具体为F1、F2、...、FN-1和FN,其维度均为16×1。
注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异,具体计算公式如下:
Figure GDA0004192982690000071
上式中,FText表示Text_Page的前馈输出,FAd表示Ad_Page的前馈输出。
迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic,由于图像数据编码层中的参数L、M、N、b1、b2、W1和W2均为固定值,只需对Text_Page进行更新即可,具体计算公式为:
Figure GDA0004192982690000072
上式中,XText表示Text_Page经过数据预处理层处理后得到的结果,λ为学习率,最后更新结果即为图像Pic,其形式为:
Figure GDA0004192982690000073
融合输出层的数据由两部分构成,包括图像Pic和将Text_Page经过数据预处理层得到的XText,所述融合输出层的计算步骤如下:
C=μ*Pic+ξ*XText
展开为:
Figure GDA0004192982690000074
上式中,μ和ξ为加权系数,C表示最终嵌入了广告的杂志文本所对应的矩阵形式,按照数据预处理层的规则将其转录为图像即为最终结果。
实施例一:
S1、将杂志的文本页和杂志的广告页都转化为JPG格式或PNG格式,并将其全部压缩到同样的尺寸208×288×3,分别记为Text_Page和Ad_Page。
S2、在数据预处理层对Text_Page和Ad_Page进行数据预处理操作:
Figure GDA0004192982690000081
Figure GDA0004192982690000082
其中Text_Page经过数据预处理层得到的结果为XText,Ad_Page经过数据预处理层得到的结果为XAd
S4、将XText和XAd输入到自注意力层得到各自的抽象语义特征,即为:
Figure GDA0004192982690000083
和/>
Figure GDA0004192982690000084
上式子中,各个分量的维度均为16×1。
S5、使用注意力损失计算层计算XText的前馈输出与XAd的前馈输出之间的差异,具体计算公式如下:
Figure GDA0004192982690000085
S6、使用迭代更新层对XText进行迭代更新得到图像Pic,具体更新计算公式为:
Figure GDA0004192982690000086
上式中,λ为学习率,最后更新结果即为图像Pic,其形式为:
Figure GDA0004192982690000087
S7、融合输出层的数据由两部分构成,包括图像Pic和XText,所述融合输出层的计算步骤如下:
C=μ*Pic+ξ*XText
上式中,μ和ξ为加权系数,C表示最终嵌入了广告的杂志文本所对应的矩阵形式,按照数据预处理层的规则将其转录为图像即为最终结果。
以上便是本发明具体的工作流程,下次使用时重复此步骤即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (5)

1.一种基于改进Swin Transformer的文本广告嵌入方法,包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层:所述图像数据编码层包括多头自注意力层和前馈网络层:待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页,在初始排版时文件格式为doc文件,进行后续的处理需将其格式转换为JPG格式或PNG格式,对待融合杂志文本页的尺寸reshape操作,得到尺寸为H×W×C,记为Text_Page;待融合杂志广告页为杂志内的广告页面,在进行后续的处理时需将其转换为JPG格式或PNG格式,所述待融合杂志广告页的尺寸reshape操作,得到尺寸为H×W×C,记为Ad_Page;所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征,可解决信息量过大带来的算力不足的问题,具体计算步骤如下:
S1、生成每个分量的取值范围在-1到1之间的特征矩阵L、M和N,将特征矩阵L、M和N设置为不可修改,其中特征矩阵L、M和N的形式均为:
L=[l1,l2,…,lN]T
M=[m1,m2,…,mN]T
N=[n1,n2,…,nN]T
其中,特征矩阵L、M和N的每个分量的维度均为(P×P×C)×1;
S2、通过特征矩阵L、M和N生成查寻矩阵IN、键矩阵K和值矩阵V,具体计算方式为:
IN=X×LT
K=X×MT
V=X×NT
其中:
IN=[in1,in2,…,inN]T
K=[k1,k2,…,kN]T
V=[v1,v2,…,vN]T
S3、计算注意力分布,具体计算公式为:
Figure FDA0004192982680000011
根据注意力分布对输入信息进行加权平均:
Figure FDA0004192982680000021
上式中,Atti为的维度为N×1;
所述前馈网络层,包括BP神经网络,所述BP神经网络的个数为N个,所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成,其中前馈输入层含有N个神经元,中间隐层均含有P×C个神经元,前馈输出层含有P个神经元;前馈输入层的输入分别为Att1、Att2、...、AttN-1和AttN,分别将Att1、Att2、...、AttN-1和AttN输入到各自的BP神经网络中计算得到的前馈输出记为F1、F2、...、FN-1和FN,具体计算步骤为:
Fi=softmax(W1Atti+b1)W2+b2i∈{1,2,…,N}
上式中,b1表示中间隐层的偏置,b2表示前馈输出层的偏置,W1为中间隐层的内星权向量,W2为前馈输出层的内星权向量,其中的b1、b2、W1和W2设为不可训练,Fi为每个BP神经网络的输出,其维度均为P×1。
2.根据权利要求1所述的一种基于改进Swin Transformer的文本广告嵌入方法,其特征在于:所述数据预处理层对Text_Page和Ad_Page数据预处理操作,包括分块操作、展平操作与合并操作:
(1)分块操作,Text_Page和Ad_Page的尺寸均为H×W×C,分块后均得到个数为N的小正方形区域,其中,小正方形区域的尺寸为:
P×P×C
小正方形区域的个数N为:
Figure FDA0004192982680000022
(2)展平操作,对每个小正方形区域进行展平,得到1×(P×P×C)维的向量x;
(3)合并操作,将N个小正方形展平后的向量进行合并得到矩阵X,其维度为N×(P×P×C),形式为:
X=[x1,x2,…,xN]T
将Text_Page经过数据预处理层得到的结果记为XText,将Ad_Page经过数据预处理层得到的结果记为XAd
3.根据权利要求2所述的一种基于改进Swin Transformer的文本广告嵌入方法,其特征在于:所述注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异,具体计算公式如下:
Figure FDA0004192982680000031
上式中,FText表示Text_Page的前馈输出,FAd表示Ad_Page的前馈输出。
4.根据权利要求3所述的一种基于改进Swin Transformer的文本广告嵌入方法,其特征在于:所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic,由于图像数据编码层中的参数L、M、N、b1、b2、W1和W2均为固定值,只需对Text_Page进行更新即可,具体计算公式为:
Figure FDA0004192982680000032
上式中,XText表示Text_Page经过数据预处理层处理后得到的结果,λ为学习率,最后更新结果即为图像Pic,其形式为:
Figure FDA0004192982680000033
上式中,Pic的维度与XText的维度相同。
5.根据权利要求4所述的一种基于改进Swin Transformer的文本广告嵌入方法,其特征在于:所述融合输出层的数据由两部分构成,包括图像Pic和将Text_Page经过数据预处理层得到的XText,所述融合输出层的计算步骤如下:
C=μ*Pic+ξ*XText
上式中,μ和ξ为加权系数,C表示最终嵌入了广告的杂志文本所对应的矩阵形式,将其转录为图像即为最终结果。
CN202211017879.1A 2022-08-24 2022-08-24 一种基于改进Swin Transformer的杂志广告嵌入方法 Active CN115330898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211017879.1A CN115330898B (zh) 2022-08-24 2022-08-24 一种基于改进Swin Transformer的杂志广告嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211017879.1A CN115330898B (zh) 2022-08-24 2022-08-24 一种基于改进Swin Transformer的杂志广告嵌入方法

Publications (2)

Publication Number Publication Date
CN115330898A CN115330898A (zh) 2022-11-11
CN115330898B true CN115330898B (zh) 2023-06-06

Family

ID=83926419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211017879.1A Active CN115330898B (zh) 2022-08-24 2022-08-24 一种基于改进Swin Transformer的杂志广告嵌入方法

Country Status (1)

Country Link
CN (1) CN115330898B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550158A (zh) * 2022-02-23 2022-05-27 厦门大学 一种场景文字识别方法及***
CN114743020A (zh) * 2022-04-02 2022-07-12 华南理工大学 一种结合标签语义嵌入和注意力融合的食物识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785409B (zh) * 2018-12-29 2020-09-08 武汉大学 一种基于注意力机制的图像-文本数据融合方法和***
CN113313201A (zh) * 2021-06-21 2021-08-27 南京挥戈智能科技有限公司 基于Swin Transformer和ZED摄像头的多目标检测和测距方法
CN113658057B (zh) * 2021-07-16 2024-07-16 中科南京人工智能创新研究院 一种Swin Transformer微光图像增强方法
CN113609965B (zh) * 2021-08-03 2024-02-13 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113709455B (zh) * 2021-09-27 2023-10-24 北京交通大学 一种使用Transformer的多层次图像压缩方法
CN114528912A (zh) * 2022-01-10 2022-05-24 山东师范大学 基于渐进式多模态融合网络的虚假新闻检测方法及***
CN114283347B (zh) * 2022-03-03 2022-07-15 粤港澳大湾区数字经济研究院(福田) 目标检测方法、***、智能终端及计算机可读存储介质
CN114912575B (zh) * 2022-04-06 2024-04-09 西安交通大学 基于连接Swin Transformer通路的医学图像分割模型及方法
CN114821239B (zh) * 2022-05-10 2024-07-02 安徽农业大学 一种有雾环境下的病虫害检测方法
CN114841977B (zh) * 2022-05-17 2023-04-25 南京信息工程大学 一种基于Swin Transformer结构结合SSIM和GMSD的疵点检测方法
CN114912461A (zh) * 2022-05-31 2022-08-16 浙江工业大学 一种基于深度学习的中文文本分类方法
CN114898219B (zh) * 2022-07-13 2022-11-08 中国标准化研究院 一种基于svm的机械手触觉数据表示识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550158A (zh) * 2022-02-23 2022-05-27 厦门大学 一种场景文字识别方法及***
CN114743020A (zh) * 2022-04-02 2022-07-12 华南理工大学 一种结合标签语义嵌入和注意力融合的食物识别方法

Also Published As

Publication number Publication date
CN115330898A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN107341687B (zh) 一种基于多维标签与分类排序的推荐算法
CN106980641A (zh) 基于卷积神经网络的无监督哈希快速图片检索***及方法
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
CN112395466B (zh) 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法
CN106897254A (zh) 一种网络表示学习方法
CN112884045B (zh) 基于多视角的随机删边嵌入模型的分类方法
CN111104975B (zh) 一种基于广度学习的信用评估方法
CN106326843A (zh) 一种人脸识别方法
WO2022062164A1 (zh) 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及***
CN106203628A (zh) 一种增强深度学习算法鲁棒性的优化方法和***
CN112861976A (zh) 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN117196763A (zh) 基于时序感知自注意力和对比学习的商品序列推荐方法
CN112836007B (zh) 一种基于语境化注意力网络的关系元学习方法
Bai et al. Parameter-efficient masking networks
CN115330898B (zh) 一种基于改进Swin Transformer的杂志广告嵌入方法
CN114443909A (zh) 基于社区结构的动态图异常检测方法
CN110222222B (zh) 基于深层主题自编码模型的多模态检索方法
CN115952360B (zh) 基于用户和物品共性建模的域自适应跨域推荐方法及***
Li A discriminative learning convolutional neural network for facial expression recognition
CN107085700A (zh) 一种基于稀疏表示与单隐层神经网络技术相结合的人脸识别方法
CN106960225A (zh) 一种基于低秩监督的稀疏图像分类方法
CN113204641B (zh) 一种基于用户特征的退火注意力谣言鉴别方法及装置
CN113205175A (zh) 一种基于互信息最大化的多层属性网络表征学习方法
CN110210988B (zh) 一种基于深度哈希的符号社交网络嵌入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: Room 0606, 6th Floor, Building A, Berlin International Business Center, No. 85 Binhe West Road, Wanbailin District, Taiyuan City, Shanxi Province, 030024

Patentee after: Forest Fantasy (Taiyuan) Digital Technology Co.,Ltd.

Address before: 048000 Room 302, unit 2, building 5, Agricultural Bank of China residential area, Nancheng District, Xinshi East Street, Jincheng Development Zone, Shanxi Province

Patentee before: Jincheng Darui Jinma Engineering Design Consulting Co.,Ltd.

TR01 Transfer of patent right