CN115880567B - 一种自注意力的计算方法、装置、电子设备和存储介质 - Google Patents

一种自注意力的计算方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115880567B
CN115880567B CN202310196058.7A CN202310196058A CN115880567B CN 115880567 B CN115880567 B CN 115880567B CN 202310196058 A CN202310196058 A CN 202310196058A CN 115880567 B CN115880567 B CN 115880567B
Authority
CN
China
Prior art keywords
block
attention
image
self
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310196058.7A
Other languages
English (en)
Other versions
CN115880567A (zh
Inventor
乐康
张耀
张滨
徐大鹏
曹保桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Seichitech Technology Co ltd
Original Assignee
Shenzhen Seichitech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Seichitech Technology Co ltd filed Critical Shenzhen Seichitech Technology Co ltd
Priority to CN202310196058.7A priority Critical patent/CN115880567B/zh
Publication of CN115880567A publication Critical patent/CN115880567A/zh
Application granted granted Critical
Publication of CN115880567B publication Critical patent/CN115880567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)

Abstract

本申请公开了一种自注意力的计算方法、装置、电子设备和存储介质,用于降低自注意力计算量。本申请计算方法包括:将输入特征图像进行区块划分,生成区块特征图像;为区块特征图像进行自注意力计算,生成区块注意力特征图像;对输入特征图像进行深度可分离卷积,生成N张金字塔分层图像;对N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像;将第N层金字塔区块注意力图像、第N‑1层金字塔区块注意力图像、第N‑2至1层金字塔区块注意力图像和区块注意力特征图像依次进行双线性插值操作,生成第一自注意力图像。

Description

一种自注意力的计算方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及图像处理领域,尤其涉及一种自注意力的计算方法、装置、电子设备和存储介质。
背景技术
Transformer的自注意力机制Self-Attention作为一种新型的深度学习模型,它在处理序列问题上取得了引人注目的成绩,自注意力模块也逐渐成为了深度学习中不可或缺的一个底层模块拼图,且是目前发展最强势的一个模块,它在CNN、RNN擅长的领域攻城掠地,甚至实现了超越。
自注意力机制最初应用于语音文本领域,对输入字符编码向量进行处理。计算self-attention的第一步是从每个输入向量上创建3个向量。对于每个单词,会创建一个Query向量,一个Key向量和一个Value向量。这些向量是通过词嵌入乘以我们训练过程中创建的3个训练矩阵而产生的。计算self attention的第二步是计算得分。假设在计算一个单词“thinking”的selfattention,首先需要根据这个单词对输入句子的每个单词进行评分。当我们在某个位置编码单词时,分数决定了对输入句子的其他单词的关照程度。通过将query向量和key向量点击来对相应的单词打分。所以,如果我们处理开始位置的selfattention,则第一个分数为和的点积,第二个分数为和的点积。第三步和第四步的计算,是将第二部的得分除以8。然后再将得到的输出通过softmax函数标准化,使得最后的列表和为1。这个softmax的分数决定了当前单词在每个句子中每个单词位置的表示程度。很明显,当前单词对应句子中此单词所在位置的softmax的分数最高,但是,有时候attention机制也能关注到此单词外的其他单词。第五步是将每个Value向量乘以softmax后的得分。这里实际上的意义在于保存对当前词的关注度不变的情况下,降低对不相关词的关注。第六步是累加加权值的向量。这会在此位置产生self-attention层的输出(对于第一个单词)。
在图像领域中,一张图像中,某个像素和它附近区域内的其他像素有较紧密的关系,而和离它较远区域的像素之间的关系并不大。因此,对整张图像所有像素进行自注意力计算是低效的,且极大浪费时间以及计算资源,限制了自注意力技术在图像领域的广泛使用。Swim-Transform:采用两种分块方式,每种分块方式像素不重叠,两种分块方式之间像素有重叠,通过分块的方式减小计算量,使用两种重叠的分块方式弥补分块处的像素信息。这种单一的分块方式固定了每个区域的像素内容,对于图像全局信息无法较好的提取,计算量也过大,对于像素重叠部分的特征也不能很好的保留。
更重要的是,自注意力机制在图像领域发展的最大制约因素是计算量太大,不同于语音数据,图像数据以像素为单位,需要计算每个像素和其他所有像素的自注意力,这样计算量太大,资源消耗无法接受。
发明内容
本申请公开了一种自注意力的计算方法、装置、电子设备和存储介质,用于降低自注意力计算量。
本申请第一方面提供了一种自注意力的计算方法,包括:
获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像;
对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
可选的,所述区块特征图像包括第一区块特征图像和第二区块特征图像;
所述使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像,包括:
将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
可选的,在所述对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理之后,所述计算方法还包括:
当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。
可选的,所述为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像,包括:
对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像;
对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像;
将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像。
可选的,在所述将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像,所述计算方法还包括:
使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像;
对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像;
将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
可选的,所述使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像,包括:
为所述输入特征图像进行注意力计算,生成初始注意力特征图像;
根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
本申请第二方面提供了一种自注意力的计算装置,包括:
获取单元,用于获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
第一生成单元,用于使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
第二生成单元,用于为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像;
第三生成单元,用于对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
第四生成单元,用于对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
第五生成单元,用于将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
第六生成单元,用于将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
第七生成单元,用于将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
可选的,所述区块特征图像包括第一区块特征图像和第二区块特征图像;
所述第一生成单元,包括:
第一生成模块,用于将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
第二生成模块,用于将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
补齐模块,用于对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
可选的,所述第一生成单元还包括:
填充模块,用于当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。
可选的,所述第二生成单元,包括:
对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像;
对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像;
将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像。
可选的,所述计算装置还包括:
第八生成单元,用于使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像;
第九生成单元,用于对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像;
第十生成单元,用于将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
可选的,所述第八生成单元,包括:
为所述输入特征图像进行注意力计算,生成初始注意力特征图像;
根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
本申请第三方面提供了一种电子设备,包括:
处理器、存储器、输入输出单元以及总线;
处理器与存储器、输入输出单元以及总线相连;
存储器保存有程序,处理器调用程序以执行如第一方面以及第一方面的任意可选的计算方法。
本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如第一方面以及第一方面的任意可选的计算方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
首先获取输入特征图像,这里的输入特征图像为输入卷积神经网络模型中进行训练中的图像。使用第一分块方式将输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像。为区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像。对输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,N张金字塔分层图像从第一层到第N层的尺寸依次减半,N张金字塔分层图像的通道数与输入特征图像相同。对N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,N张金字塔区块注意力图像依次对应N张金字塔分层图像。将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像。将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像。将N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
本发明方法中,每一层金字塔分层图像只在各个区块中进行自注意力计算,只关注关系紧密的像素之间的自注意力,不去计算关系不大的像素之间的自注意力,使得像素自注意力的结果更加精准,计算量大大降低。通过金字塔结构,提取图像像素之间的特征,使得图像尺寸减小,像素特征更加紧密,然后在相同尺寸的区块内再次进行自注意力计算,相当于扩大了自注意力的感受野,在不增加计算量的同时,变相地计算了更大范围内的像素自注意力,增加了较远处像素的全局信息,通过层级结构,最终得到的自注意力结果等同于对整张图像进行了自注意力计算,而计算量大大减小。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请自注意力的计算方法的一个实施例流程图;
图2为本申请自注意力的计算方法的自注意力计算流程图;
图3-a为本申请自注意力的计算方法的另一个实施例第一阶段流程图;
图3-b为本申请自注意力的计算方法的另一个实施例第二阶段流程图;
图3-c为本申请自注意力的计算方法的另一个实施例第三阶段流程图;
图4为本申请自注意力的计算装置的一个实施例示意图;
图5为本申请自注意力的计算装置的另一个实施例示意图;
图6为本申请电子设备的一个实施例示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在现有技术中,一张图像中,某个像素和它附近区域内的其他像素有较紧密的关系,而和离它较远区域的像素之间的关系并不大。因此,对整张图像所有像素进行自注意力计算是低效的,且极大浪费时间以及计算资源,限制了自注意力技术在图像领域的广泛使用。Swim-Transform:采用两种分块方式,每种分块方式像素不重叠,两种分块方式之间像素有重叠,通过分块的方式减小计算量,使用两种重叠的分块方式弥补分块处的像素信息。这种单一的分块方式固定了每个区域的像素内容,对于图像全局信息无法较好的提取,计算量也过大,对于像素重叠部分的特征也不能很好的保留。更重要的是,自注意力机制在图像领域发展的最大制约因素是计算量太大,不同于语音数据,图像数据以像素为单位,需要计算每个像素和其他所有像素的自注意力,这样计算量太大,资源消耗无法接受。
基于此,本申请公开了一种自注意力的计算方法、装置、电子设备和存储介质,用于降低自注意力计算量。
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备,对此,本申请不作限定。为方便描述,下面以执行主体为终端为例进行描述。
请参阅图1,本申请提供了一种自注意力的计算方法的一个实施例,包括:
101、获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
终端获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像。需要说明的是,输入特征图像可以是一张完整的图像,也可以只是卷积神经网络模型中某一层对图像进行处理后生成的特征数据,本实施例中统一将其称为输入特征图像。
102、使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
终端使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像,其中分块方式可以是多种,目的是将输入特征图像上的像素点进行分隔,使得每一个像素点都能处于一个区块窗口中。
103、为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像;
终端为所述区块特征图像的区块窗口进行自注意力计算,即为每一个区块窗口的每一个像素点进行注意力值的计算,每一个像素点的注意力值计算只针对其所在的区块窗口,而不会收到其他区块窗口的像素点影响。
104、对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
终端对所述输入特征图像进行N层的深度可分离卷积,用于提取输入特征图像的同时,减小生成图像的尺寸,即减少金字塔分层图像的尺寸,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同。
105、对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
终端对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像,其区块划分的方式与输入特征图像相似,此处不做赘述。需要说明的是,本步骤的区块划分的方法可以与输入特征图像的划分方法相同,也可以不同。
106、将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
107、将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
终端将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像,再将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,以此类推,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像。
108、将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
最后,终端将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
请参考图2,图2中从下至上展示了本实施例的过程,首先是左下角的输入特征图进行区块划分和可分离卷积DSConv的金字塔操作,生成第一层金字塔分层图像,第一层金字塔分层图像进行区块划分和可分离卷积DSConv的金字塔操作,生成第二层金字塔分层图像,第二层金字塔分层图像进行区块划分和可分离卷积DSConv的金字塔操作,生成第三层金字塔分层图像,第三层金字塔分层图像再进行区块划分。这时,第一、第二和第三层金字塔分层图像进行分块自注意力的计算,计算完成生成第一金字塔区块注意力图像、第二金字塔区块注意力图像和第三金字塔区块注意力图像,第三金字塔区块注意力图像的尺寸最小,先由第三金字塔区块注意力图像与第二金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像,再由第一注意力融合图像与第一金字塔区块注意力图像进行双线性插值操作,生成第二注意力融合图像,最后第二注意力融合图像与区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
本实施例中,首先获取输入特征图像,这里的输入特征图像为输入卷积神经网络模型中进行训练中的图像。使用第一分块方式将输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像。为区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像。对输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,N张金字塔分层图像从第一层到第N层的尺寸依次减半,N张金字塔分层图像的通道数与输入特征图像相同。对N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,N张金字塔区块注意力图像依次对应N张金字塔分层图像。将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像。将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像。将N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
本发明方法中,每一层金字塔分层图像只在各个区块中进行自注意力计算,只关注关系紧密的像素之间的自注意力,不去计算关系不大的像素之间的自注意力,使得像素自注意力的结果更加精准,计算量大大降低。通过金字塔结构,提取图像像素之间的特征,使得图像尺寸减小,像素特征更加紧密,然后在相同尺寸的区块内再次进行自注意力计算,相当于扩大了自注意力的感受野,在不增加计算量的同时,变相地计算了更大范围内的像素自注意力,增加了较远处像素的全局信息,通过层级结构,最终得到的自注意力结果等同于对整张图像进行了自注意力计算,而计算量大大减小。
请参阅图图3-a、图3-b和图3-c,本申请提供了一种自注意力的计算方法的一个实施例,包括:
301、获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
本实施例中的步骤301与前述实施例中步骤101类似,此处不再赘述。
302、将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
303、将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
304、对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理;
305、当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理;
本实施例中,可以通过输入特征图像的图像大小进行第一次区块窗口的划分,终端将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d。并且终端将第一区块特征图像进行复制,生成新的图像,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像。这样子的两个区块特征图像的区块窗口均不处于重合的状态,且区块窗口的边界也不会重合,使得每一个像素点在至少其中一个区块特征图像中不会处于边界上。
终端对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理,主要用于将位移后左边的空缺补充上,并且终端会进行判断,当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。这是因为,给输入特征图像构造区块窗口时,为了将输入特征图像全部囊括,部分区块窗口可能有一部分超过了输入特征图像原有的部分,该部分的像素点需要进行补齐,通过像素点0值填充处理,可以不影响注意力值的计算和卷积操作。
306、对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像;
307、对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像;
308、将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像;
本实施例中,第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像,以及第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像的生成方法和前述步骤自注意力计算步骤类似,此处不做赘述。
在拼接过程中,需要选择一张作为主要注意力提取,另一张主要提取其边界的像素点,两张的注意力融合,即可得到完整的区块注意力特征图像。
309、对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
310、对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
311、将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
312、将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
313、将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像;
本实施例中的步骤309至步骤313与前述实施例中步骤104至步骤108类似,此处不再赘述。
314、为所述输入特征图像进行注意力计算,生成初始注意力特征图像;
315、根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
316、对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
317、将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
318、对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理;
终端生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值。即先针对整张输入特征图像进行初步的注意力计算,寻找注意力更大去像素区域,并根据这个区域进行划分区块窗口,划分一个正方形窗口。本实施例中,终端将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值,这里的初始注意力特征图像和区块划分后的第一区块注意力特征图像不同,初始注意力特征图像是针对一个像素点与整张图像的像素点进行对比,比较该像素点对于其他所有像素点的重要性,当这个像素点相对于所有像素点都显得重要时,可以确定该像素点在区块划分后也是重要的。而第一区块注意力特征图像和第二区块注意力特征图像的像素点是按照区块划分后,仅对比像素点和区块窗口内像素点的重要性,其余像素点不考虑。
终端通过一个BatchNorm-Conv-ReLU层将输入特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合,并且通过一个BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合,最后终端通过一个SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成初始注意力特征图像。
具体的,在本实施例中,终端首先需要通过BatchNorm-3*3Conv-ReLU层将输入特征图像进行特征通道压缩,生成压缩特征集合,并且通过BatchNorm-3*3Conv层将压缩特征集合还原成与输入特征图像大小相同的特征矩阵集合,最后终端通过SigMoid函数为特征矩阵中每一个像素点计算注意力值,生成初始注意力特征图像。BatchNorm-3*3Conv-ReLU层是一个最合适的大小,由于输入特征图像中的像素点之间存在差异,所以不能仅仅使用大小为BatchNorm-1*1Conv-ReLU层,否则会使得卷积工作增加。
终端获取到初始注意力特征图像之后,对所有的像素点进行分层,即根据每一个像素点对应的注意力值进行分级。具体的,目标像素点结合其相邻的4个像素点和对角的4个像素点的注意力值和像素值,计算该像素点相对注意力值。再将相对注意力值达到第一预设阈值的像素点进行归类,归类为为前景区域,相对注意力值未达到第一预设阈值但达到第二预设阈值的像素点归类为中景区域,其余的像素点均为低于第二预设阈值的,归类为后景区域。接下来就是对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d,即对于重点的像素点需要用进行详细的卷积,因此进行区块窗口的划分时,需要使用较小的区块窗口。中景区域使用相对大一些的区块窗口,后景区域则使用更大的区块窗口进行划分。其中,前景区域和中景区域相邻的部分,使用边长为b的正方形区块划分,将所有的前景区域的像素点进行细致的区块窗口划分和卷积操作。
并且,终端将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像,最后对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
319、对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像;
320、将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
终端对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像,将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。通过不同的分块方式,各自进行金字塔分块自注意力计算,得到多个结果按通道维度各自拼接,然后对各个通道的特征使用一个1*1卷积进行将维,最后将各个通道的结果拼接起来。
本实施例中,首先获取输入特征图像,这里的输入特征图像为输入卷积神经网络模型中进行训练中的图像。将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d。将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像。对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像。对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像。将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像。对输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,N张金字塔分层图像从第一层到第N层的尺寸依次减半,N张金字塔分层图像的通道数与输入特征图像相同。对N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,N张金字塔区块注意力图像依次对应N张金字塔分层图像。将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像。将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像。将N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
为所述输入特征图像进行自注意力计算,生成初始注意力特征图像。根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值。对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d。将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像。对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像。将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
本发明方法中,每一层金字塔分层图像只在各个区块中进行自注意力计算,只关注关系紧密的像素之间的自注意力,不去计算关系不大的像素之间的自注意力,使得像素自注意力的结果更加精准,计算量大大降低。通过金字塔结构,提取图像像素之间的特征,使得图像尺寸减小,像素特征更加紧密,然后在相同尺寸的区块内再次进行自注意力计算,相当于扩大了自注意力的感受野,在不增加计算量的同时,变相地计算了更大范围内的像素自注意力,增加了较远处像素的全局信息,通过层级结构,最终得到的自注意力结果等同于对整张图像进行了自注意力计算,而计算量大大减小。
其次,通过不同的分块方式,各自进行金字塔分块自注意力计算,得到多个结果按通道维度各自拼接,然后对各个通道的特征使用一个1*1卷积进行将维,最后将各个通道的结果拼接起来。使用多头机制,使用不同位置的分块方式,能够更全面的包含图像中的特征,得到多角度的像素自注意力信息,提高像素自注意力的准确性和全面性,提升模型性能。
请参阅图4,本申请提供了一种自注意力的计算装置的一个实施例,包括:
获取单元401,用于获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
第一生成单元402,用于使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
第二生成单元403,用于为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像,所述区块注意力特征图像上有所述输入特征图像上像素点对应的注意力值;
第三生成单元404,用于对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
第四生成单元405,用于对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
第五生成单元406,用于将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
第六生成单元407,用于将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
第七生成单元408,用于将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
请参阅图5,本申请提供了一种自注意力的计算装置的一个实施例,包括:
获取单元501,用于获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
第一生成单元502,用于使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
可选的,所述区块特征图像包括第一区块特征图像和第二区块特征图像;
所述第一生成单元502,包括:
第一生成模块,用于将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
第二生成模块,用于将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
补齐模块,用于对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理;
填充模块,用于当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。
第二生成单元503,用于为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像,所述区块注意力特征图像上有所述输入特征图像上像素点对应的注意力值;
可选的,所述第二生成单元503,包括:
对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像;
对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像;
将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像。
第三生成单元504,用于对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
第四生成单元505,用于对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
第五生成单元506,用于将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
第六生成单元507,用于将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
第七生成单元508,用于将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像;
第八生成单元509,用于使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像;
可选的,所述第八生成单元509,包括:
为所述输入特征图像进行自注意力计算,生成初始注意力特征图像;
根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
第九生成单元510,用于对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像;
第十生成单元511,用于将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
请参阅图6,本申请提供了一种电子设备,包括:
处理器601、存储器603、输入输出单元602以及总线604。
处理器601与存储器603、输入输出单元602以及总线604相连。
存储器603保存有程序,处理器601调用程序以执行如图1、图3-a、图3-b和图3-c中的计算方法。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如图1、图3-a、图3-b和图3-c中的计算方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,randomaccess memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (8)

1.一种自注意力的计算方法,其特征在于,包括:
获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理;
为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像;
对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
2.根据权利要求1所述的计算方法,其特征在于,在所述对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理之后,所述计算方法还包括:
当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。
3.根据权利要求1所述的计算方法,其特征在于,所述为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像,包括:
对所述第一区块特征图像的区块窗口进行自注意力计算,生成区块内部注意力图像;
对所述第二区块特征图像的区块窗口进行自注意力计算,生成区块边界注意力图像;
将所述区块内部注意力图像和区块边界注意力图像进行拼接生成区块注意力特征图像。
4.根据权利要求1至3中任一项所述的计算方法,其特征在于,在所述将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像,所述计算方法还包括:
使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像;
对新的区块特征图像同样进行自注意力计算、深度可分离卷积和双线性插值操作,生成第二自注意力图像;
将所述第一自注意力图像和所述第二自注意力图像通过一个1*1卷积进行通道降维,生成目标自注意力图像。
5.根据权利要求4所述的计算方法,其特征在于,所述使用第二分块方式将所述输入特征图像进行区块划分,生成新的区块特征图像,包括:
为所述输入特征图像进行注意力计算,生成初始注意力特征图像;
根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
6.一种自注意力的计算装置,其特征在于,包括:
获取单元,用于获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
第一生成单元,用于使用第一分块方式将所述输入特征图像进行区块划分,生成具有多个区块窗口的区块特征图像;
所述第一生成单元,包括:
第一生成模块,用于将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
第二生成模块,用于将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
补齐模块,用于对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理;
第二生成单元,用于为所述区块特征图像的区块窗口进行自注意力计算,生成区块注意力特征图像;
第三生成单元,用于对所述输入特征图像进行N层的深度可分离卷积,生成N张金字塔分层图像,所述N张金字塔分层图像从第一层到第N层的尺寸依次减半,所述N张金字塔分层图像的通道数与所述输入特征图像相同;
第四生成单元,用于对所述N张金字塔分层图像进行区块划分和自注意力计算,生成N张金字塔区块注意力图像,所述N张金字塔区块注意力图像依次对应所述N张金字塔分层图像;
第五生成单元,用于将第N层金字塔区块注意力图像与第N-1层金字塔区块注意力图像进行双线性插值操作,生成第一注意力融合图像;
第六生成单元,用于将第一注意力融合图像与第N-2层金字塔区块注意力图像进行双线性插值操作,直到所述N张金字塔区块注意力图像完成双线性插值操作,生成第N-1注意力融合图像;
第七生成单元,用于将所述N-1注意力融合图像和区块注意力特征图像进行双线性插值操作,生成第一自注意力图像。
7.一种电子设备,其特征在于,包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至5任意一项所述的计算方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至5中任一项所述的计算方法。
CN202310196058.7A 2023-03-03 2023-03-03 一种自注意力的计算方法、装置、电子设备和存储介质 Active CN115880567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310196058.7A CN115880567B (zh) 2023-03-03 2023-03-03 一种自注意力的计算方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310196058.7A CN115880567B (zh) 2023-03-03 2023-03-03 一种自注意力的计算方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115880567A CN115880567A (zh) 2023-03-31
CN115880567B true CN115880567B (zh) 2023-07-25

Family

ID=85761882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310196058.7A Active CN115880567B (zh) 2023-03-03 2023-03-03 一种自注意力的计算方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115880567B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN115082675A (zh) * 2022-06-07 2022-09-20 中南大学 一种透明物体图像分割方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN113963009B (zh) * 2021-12-22 2022-03-18 中科视语(北京)科技有限公司 基于可形变划块的局部自注意力的图像处理方法和***
CN115526935A (zh) * 2022-09-28 2022-12-27 山东大学 基于全局和局部信息的像素级抓取位姿检测方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN115082675A (zh) * 2022-06-07 2022-09-20 中南大学 一种透明物体图像分割方法及***

Also Published As

Publication number Publication date
CN115880567A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及***
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及***
CN111127346A (zh) 基于部分到整体注意力机制的多层次图像修复方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN111325664A (zh) 风格迁移方法、装置、存储介质及电子设备
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN111382759A (zh) 一种像素级分类方法、装置、设备及存储介质
CN114283080A (zh) 一种多模态特征融合的文本指导图像压缩噪声去除方法
CN112927209A (zh) 一种基于cnn的显著性检测***和方法
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN113554084A (zh) 基于剪枝和轻量卷积的车辆再辨识模型压缩方法及***
CN114780768A (zh) 一种视觉问答任务处理方法、***、电子设备及存储介质
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复***及方法
CN113313162A (zh) 一种多尺度特征融合目标检测的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant