CN118262360A - 基于sam的文本分割方法、装置、设备及存储介质 - Google Patents

基于sam的文本分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN118262360A
CN118262360A CN202410321703.8A CN202410321703A CN118262360A CN 118262360 A CN118262360 A CN 118262360A CN 202410321703 A CN202410321703 A CN 202410321703A CN 118262360 A CN118262360 A CN 118262360A
Authority
CN
China
Prior art keywords
mask
image
sam
token
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410321703.8A
Other languages
English (en)
Inventor
刘菊华
叶茂源
李海韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202410321703.8A priority Critical patent/CN118262360A/zh
Publication of CN118262360A publication Critical patent/CN118262360A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Editing Of Facsimile Originals (AREA)

Abstract

一种基于SAM的文本分割方法、装置、设备及存储介质。该方法包括:输入图像至图像编码器后,得到图像特征;自提示模块利用图像特征自动生成提示令牌,输入到掩膜解码器中用于分割全图中的文本前景;掩膜解码器以图像特征、提示令牌以及自身带有的输出令牌为输入,提供掩膜特征,基于掩膜特征与多层感知机处理后的输出令牌得到高分辨率文本分割掩膜。通过本申请,利用SAM中强大的预训练分割知识来赋能数据受限的文本分割任务,并针对分割精细文本的任务要求设计了简单有效的新方法提供高分辨率的分割掩膜,实现了对精细文本的高质量分割。

Description

基于SAM的文本分割方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种基于SAM的文本分割方法、装置、设备及计算机可读存储介质。
背景技术
在计算机视觉领域中,文本分割(text segmentation)是众多与文本相关任务的基础,文本分割任务旨在分割任意图像中的文本字符笔画前景。在诸如字体风格转换、场景文本移除和图像文本编辑等智能任务中,需要有效的文本分割方法来准确分割复杂场景中细粒度的文本前景。文本分割对于工业应用也至关重要,它可以极大地减轻手动指定文本区域的繁琐工作。
随着深度学习的提出和快速发展,其在文本分割中被广泛运用。然而,训练文本分割深度学习模型所需的数据需要人工标注像素级别掩膜,成本高昂,导致目前能获取的公开数据集规模受限,难以提升现有文本分割模型的性能。并且,现有的文本分割模型受限于特征图尺寸,仅对图像中尺寸大、笔画粗的文本具有较好分割效果,难以精细地分割文档、海报等材料中的印刷及手写文本。
发明内容
本申请提供一种基于SAM的文本分割方法、装置、设备及计算机可读存储介质,可以解决现有技术中存在的难以精细地分割文档、海报等材料中的印刷及手写文本的技术问题。
第一方面,本申请实施例一种基于SAM的文本分割方法,所述基于SAM的文本分割方法包括:
通过图像编码器对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
通过自提示模块对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
通过多层感知机处理新的输出令牌,得到向量;
对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
将所述分割掩膜插值至所述图像的大小。
第二方面,本申请实施例提供了一种基于SAM的文本分割装置,所述基于SAM的文本分割装置包括:
图像编码器,用于对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
自提示模块,用于对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
掩膜解码器,用于以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
通过多层感知机处理新的输出令牌,得到向量;
对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
插值模块,用于将所述分割掩膜插值至所述图像的大小。
第三方面,本申请实施例提供了一种基于SAM的文本分割设备,所述基于SAM的文本分割设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于SAM的文本分割程序,其中所述基于SAM的文本分割程序被所述处理器执行时,实现如第一方面所述的基于SAM的文本分割方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于SAM的文本分割程序,其中所述基于SAM的文本分割程序被处理器执行时,实现如第一方面所述的基于SAM的文本分割方法的步骤。
本申请实施例提供的技术方案带来的有益效果包括:
本申请实施例利用SAM中强大的预训练分割知识来赋能数据受限的文本分割任务,并针对分割精细文本的任务要求设计了简单有效的新方法提供高分辨率的分割掩膜,实现了对精细文本的高质量分割。
附图说明
图1为本申请基于SAM的文本分割方法一实施例的流程示意图;
图2为本申请基于SAM的文本分割方法一实施例中通过自提示模块对图像特征进行处理得到提示令牌的示意图;
图3为本申请基于SAM的文本分割方法一实施例中掩膜解码器的作用示意图;
图4为本申请基于SAM的文本分割方法一实施例的场景示意图;
图5为本申请基于SAM的文本分割方法一实施例的实施效果示意图;
图6为本申请基于SAM的文本分割装置一实施例的功能模块示意图;
图7为本申请实施例方案中涉及的基于SAM的文本分割设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请中的部分技术术语进行解释说明,以便于本领域技术人员理解本申请。
SAM:Segment Anything Model,分割一切模型;
ViT:VisionTransformer。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
第一方面,本申请实施例提供一种基于SAM的文本分割方法。
一实施例中,参照图1,图1为本申请基于SAM的文本分割方法一实施例的流程示意图。如图1所示,基于SAM的文本分割方法包括:
步骤S10,通过图像编码器对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
本实施例中,输入图像至图像编码器后,图像编码器对图像进行编码,得到图像特征。
进一步地,一实施例中,图像编码器由一个ViT编码器中标准的patch embedding模块和多个标准Transformer block堆叠组成,在每个Transformer block中有两个adapter模块被***,其中一个adapter模块***在多头注意力之后、第一个残差连接之前,另一个adapter模块***在多头注意力之后,位于多层感知机的残差连接路径中。
本实施例中,图像编码器由两部分组成,一部分为SAM图像编码器的预训练参数,该部分在训练过程中被全部冻结,另一部分为***的adapter模块,这部分参数在训练过程中可被更新,使得图像编码器更适用于文本相关的特征提取。
在每个adapter模块中,对于输入的特征,一个线性层首先将特征通道数降为原来的1/4得到新的特征,该特征经过ReLU激活函数后由另一个线性层恢复原通道数,最终得到输出的特征。
图像编码器由一个ViT编码器中标准的patch embedding模块和多个标准Transformer block堆叠组成,标准patch embedding模块和Transformer block结构不做过多赘述。在每一Transformer block中有两个adapter模块被***。第一个adapter***在多头注意力之后、第一个残差连接之前,第二个adapter***在多头注意力之后,位于多层感知机的残差连接路径中,该adapter的输出特征将被乘上一个缩放因子,该因子被设置为0.5。ViT编码器对输入图像处理流程如下:输入图像首先被标准的patch embedding模块进行嵌入得到中间特征,中间特征输入后续串行堆叠的Transformer block得到最终的图像特征。
需要说明的是,每一模块需要有合适的参数权重才能使整个模型(由图像编码器、自提示模块以及掩膜解码器构成)预测正确结果,在结构上,图像编码器包括patchembedding和Transformer block,前面已介绍adapter在block中的位置,除了adapter的参数权重是自己训练得到,其他结构的参数权重都来自SAM的预训练参数权重。从参数来源上看,图像编码器包括预训练的和***的adapter参数;从结构上看包括patch embedding和blocks,adapter位于block之中,每一模块结构都有对应的权重参数,只有adapter的参数是重新训练的。
步骤S20,通过自提示模块对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
本实施例中,自提示模块首先对图像特征实施空间注意力操作,提取出若干个具有代表性的令牌特征,其次对这些令牌进行自注意力操作进行增强,将增强后的令牌特征作为查询(Query)与图像特征(作为Key和Value)进行交叉注意力得到更新的令牌特征,以更新的令牌特征作为最终的提示令牌。
进一步地,一实施例中,自提示模块包括令牌特征抽取模块以及标准Transformer解码器层,步骤S20包括:
通过令牌特征抽取模块对图像特征进行空间注意力操作,得到12个256维的令牌特征;通过标准Transformer解码器层对令牌特征进行特征优化,得到提示令牌,所述标准Transformer解码器层包含自注意力、交叉注意力与多层感知机三个部分。
本实施例中,自提示模块由两个部分组成,分别为令牌特征抽取部分与一个标准Transformer解码器层部分;输入的图像特征首先被令牌特征抽取模块使用空间注意力处理为12个256维的令牌特征,这些令牌特征被送入标准Transformer解码器层进行特征优化;标准Transformer解码器层包含自注意力、交叉注意力与多层感知机三个部分,令牌特征依次经过这些部分后得到最终的提示令牌作为掩膜解码器的一部分输入。
参照图2,图2为本申请基于SAM的文本分割方法一实施例中通过自提示模块对图像特征进行处理得到提示令牌的示意图。如图2所示,自提示模块分为两个部分,第一部分利用图像特征得到形状为12×256的令牌特征,第二部分为标准Transformer解码器层,包括自注意、交叉注意力与多层感知机。在第一部分中,将12个64×64×1的空间注意力图与图像特征相乘得到12个形状为64×64×256特征图,这些特征图经过空间池化后得到形状为12×256的令牌特征。形状为12×256的令牌特征输入至标准Transformer解码器层中,首先由自注意操作对令牌特征进行优化,再进行交叉注意力操作得到更新的令牌特征,最后通过多层感知机得到形状为12×256的提示令牌。
步骤S30,以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
步骤S40,对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
步骤S50,通过多层感知机处理新的输出令牌,得到向量;
步骤S60,对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
本实施例中,参照图3,图3为本申请基于SAM的文本分割方法一实施例中掩膜解码器的作用示意图。如图3所示,掩膜解码器以图像特征、提示令牌以及自身带有的输出令牌(即预置输出令牌)为输入,经过双向注意力得到新的图像特征及输出令牌,在分割一切模型原始实现中,形状为256×256×32的掩膜特征与多层感知机更新的输出令牌相乘得到形状为256×256×1的分割掩膜;形状为256×256×32的掩膜特征将被上采样模块以及四层卷积处理得到形状为1024×1024×16的高分辨率掩膜特征,输出令牌被一个新的多层感知机处理后,与高分辨率掩膜特征相乘得到高分辨率分割掩膜。其中,在训练过程中,两种分辨率的掩膜均与标签计算损失函数,在推理过程中使用高分辨分割掩膜获取最终文本分割结果。
步骤S70,将所述分割掩膜插值至所述图像的大小。
本实施例中,图像(指步骤S10中输入图像编码器的图像)是任意尺寸的,分割掩膜的尺寸是1024×1024,不一定与图像的大小一致,因此需要对分割掩膜进行插值,使其尺寸与图像的大小一致。
参照图4,图4为本申请基于SAM的文本分割方法一实施例的场景示意图。如图4所示:
输入图像至图像编码器后,得到形状为64×64×256的图像特征,其中64×64为分辨率大小,256为特征通道数;自提示模块利用图像特征自动生成形状为12×256的提示令牌,输入到掩膜解码器中用于分割全图中的文本前景;掩膜解码器以图像特征、提示令牌以及自身带有的输出令牌为输入,提供形状为1024×1024×16的掩膜特征,基于掩膜特征与多层感知机处理后的输出令牌得到高分辨率文本分割掩膜。
参照图5,图5为本申请基于SAM的文本分割方法一实施例的实施效果示意图。如图5所示,本申请提出的基于SAM的文本分割方法相比于经典文本分割算法有效提升了精细文本的分割质量,适用于各种文档印刷文本、手写文本以及自然场景文本。
本实施例中,将分割一切模型转化为文本分割模型,并能提供高分辨率的掩码特征,对自然场景、文档等各种材料中不同尺度的文本均能提供高质量分割结果。该方法得到的文本分割模型由三个部件组成,分别为图像编码器、自提示模块、掩膜解码器。首先,在该方法中,图像编码器继承了分割一切模型的预训练权重,在训练过程中,该方法采用“adapter tuning”的方式使图像编码器提供更好的文本相关特征;其次,为了解决原始分割一切模型无法针对某一类物体进行全局分割的问题,该方法提出了一个自提示模块,该模块利用图像编码器得到的图像特征自动生成提示令牌提供给掩膜解码器;最后,掩膜解码器以图像特征、输出令牌、提示令牌为输入,预测文本分割掩膜。利用分割一切模型中掩膜解码器的低分辨率掩膜特征进一步生成高分辨率掩膜特征,以提供高质量的文本分割掩膜结果。本实施例将SAM转化为一种文本分割模型,有效地利用了SAM中储存的预训练知识来赋能文本分割,并通过提供高分辨率掩膜特征,很好地解决了经典模型无法精细分割文档等材料中的印刷手写文本的问题。
进一步地,一实施例中,在步骤S10之前,还包括:
步骤S01,获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果;
步骤S02,基于第一分辨率分割掩膜预测结果与标签计算第一损失,基于第二分辨率分割掩膜预测结果与标签计算第二损失,其中,标签为样本图像中的文本字符笔画前景;
步骤S03,综合第一损失和第二损失得到第三损失;
步骤S04,检测是否满足停止条件;
步骤S05,若满足停止条件,则以待训练图像编码器、待训练自提示模块以及待训练掩膜解码器作为图像编码器、自提示模块以及掩膜解码器;
步骤S06,若不满足停止条件,则基于第三损失调整可训练参数,得到新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器,并以新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器作为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器,返回获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果的步骤,其中,可训练参数为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器中除继承自SAM的预训练参数以外的参数。
本实施例中,图像编码器、自提示模块以及掩膜解码器共同构成了基于SAM的文本分割模型,为了使该模型能有效用于文本分割任务,需要按照上述步骤S01~步骤S06对其可训练参数进行训练。
上述训练过程中,关于停止条件,可以是在迭代次数达到预设次数时确定满足停止条件,或是损失收敛时确定满足停止条件。
关于第一损失、第二损失的计算,损失函数为标准的Focal loss和Dice Loss。其中,计算第一损失对应的损失函数为:Llr=20×Focal losslr+Dice losslr;计算第二损失对应的损失函数为:Lhr=20×Focal losshr+Dice losshr;计算第三损失对应的损失函数为:L=Llr+Lhr
第二方面,本申请实施例还提供一种基于SAM的文本分割装置。
一实施例中,参照图6,图6为本申请基于SAM的文本分割装置一实施例的功能模块示意图。如图6所示,基于SAM的文本分割装置包括:
图像编码器10,用于对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
自提示模块20,用于对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
掩膜解码器30,用于以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
通过多层感知机处理新的输出令牌,得到向量;
对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
插值模块40,用于将所述分割掩膜插值至所述图像的大小。
进一步地,一实施例中,图像编码器10由一个ViT编码器中标准的patchembedding模块和多个标准Transformer block堆叠组成,在每个Transformer block中有两个adapter模块被***,其中一个adapter模块***在多头注意力之后、第一个残差连接之前,另一个adapter模块***在多头注意力之后,位于多层感知机的残差连接路径中。
进一步地,一实施例中,自提示模块20包括令牌特征抽取模块以及标准Transformer解码器层,所述自提示模块20用于:
通过令牌特征抽取模块对图像特征进行空间注意力操作,得到12个256维的令牌特征;
通过标准Transformer解码器层对令牌特征进行特征优化,得到提示令牌,所述标准Transformer解码器层包含自注意力、交叉注意力与多层感知机三个部分。
进一步地,一实施例中,所述第一分辨率大小为256×256,第二分辨率大小为1024×1024。
进一步地,一实施例中,基于SAM的文本分割装置还包括训练模块,用于:
获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果;
基于第一分辨率分割掩膜预测结果与标签计算第一损失,基于第二分辨率分割掩膜预测结果与标签计算第二损失,其中,标签为样本图像中的文本字符笔画前景;
综合第一损失和第二损失得到第三损失;
检测是否满足停止条件;
若满足停止条件,则以待训练图像编码器、待训练自提示模块以及待训练掩膜解码器作为图像编码器、自提示模块以及掩膜解码器;
若不满足停止条件,则基于第三损失调整可训练参数,得到新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器,并以新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器作为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器,返回获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果的步骤,其中,可训练参数为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器中除继承自SAM的预训练参数以外的参数。
其中,上述基于SAM的文本分割装置中各个模块的功能实现与上述基于SAM的文本分割方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
第三方面,本申请实施例提供一种基于SAM的文本分割设备,基于SAM的文本分割设备可以是个人计算机(personal computer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
参照图7,图7为本申请实施例方案中涉及的基于SAM的文本分割设备的硬件结构示意图。本申请实施例中,基于SAM的文本分割设备可以包括处理器、存储器、通信接口以及通信总线。
其中,通信总线可以是任何类型的,用于实现处理器、存储器以及通信接口互连。
通信接口包括输入/输出(input/output,I/O)接口、物理接口和逻辑接口等用于实现基于SAM的文本分割设备内部的器件互连的接口,以及用于实现基于SAM的文本分割设备与其他设备(例如其他计算设备或用户设备)互连的接口。物理接口可以是以太网接口、光纤接口、ATM接口等;用户设备可以是显示屏(Display)、键盘(Keyboard)等。
存储器可以是各种类型的存储介质,例如随机存取存储器(randomaccessmemory,RAM)、只读存储器(read-only memory,ROM)、非易失性RAM(non-volatileRAM,NVRAM)、闪存、光存储器、硬盘、可编程ROM(programmable ROM,PROM)、可擦除PROM(erasable PROM,EPROM)、电可擦除PROM(electrically erasable PROM,EEPROM)等。
处理器可以是通用处理器,通用处理器可以调用存储器中存储的基于SAM的文本分割程序,并执行本申请实施例提供的基于SAM的文本分割方法。例如,通用处理器可以是中央处理器(central processing unit,CPU)。其中,基于SAM的文本分割程序被调用时所执行的方法可参照本申请基于SAM的文本分割方法的各个实施例,此处不再赘述。
本领域技术人员可以理解,图7中示出的硬件结构并不构成对本申请的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
第四方面,本申请实施例还提供一种计算机可读存储介质。
本申请计算机可读存储介质上存储有基于SAM的文本分割程序,其中所述基于SAM的文本分割程序被处理器执行时,实现如上述的基于SAM的文本分割方法的步骤。
其中,基于SAM的文本分割程序被执行时所实现的方法可参照本申请基于SAM的文本分割方法的各个实施例,此处不再赘述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。术语“第一”、“第二”和“第三”等描述,是用于区分不同的对象等,其不代表先后顺序,也不限定“第一”、“第二”和“第三”是不同的类型。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
在本申请实施例描述的一些流程中,包含了按照特定顺序出现的多个操作或步骤,但是应该理解,这些操作或步骤可以不按照其在本申请实施例中出现的顺序来执行或并行执行,操作的序号仅用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作或步骤可以按顺序执行或并行执行,并且这些操作或步骤可以进行组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于SAM的文本分割方法,其特征在于,所述基于SAM的文本分割方法包括:
通过图像编码器对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
通过自提示模块对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
通过多层感知机处理新的输出令牌,得到向量;
对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
将所述分割掩膜插值至所述图像的大小。
2.如权利要求1所述的基于SAM的文本分割方法,其特征在于,图像编码器由一个ViT编码器中标准的patch embedding模块和多个标准Transformer block堆叠组成,在每个Transformer block中有两个adapter模块被***,其中一个adapter模块***在多头注意力之后、第一个残差连接之前,另一个adapter模块***在多头注意力之后,位于多层感知机的残差连接路径中。
3.如权利要求1所述的基于SAM的文本分割方法,其特征在于,自提示模块包括令牌特征抽取模块以及标准Transformer解码器层,所述通过自提示模块对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌的步骤包括:
通过令牌特征抽取模块对图像特征进行空间注意力操作,得到12个256维的令牌特征;
通过标准Transformer解码器层对令牌特征进行特征优化,得到提示令牌,所述标准Transformer解码器层包含自注意力、交叉注意力与多层感知机三个部分。
4.如权利要求1所述的基于SAM的文本分割方法,其特征在于,所述第一分辨率大小为256×256,第二分辨率大小为1024×1024。
5.如权利要求1所述的基于SAM的文本分割方法,其特征在于,在所述通过图像编码器对图像进行编码,得到图像特征的步骤之前,还包括:
获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果;
基于第一分辨率分割掩膜预测结果与标签计算第一损失,基于第二分辨率分割掩膜预测结果与标签计算第二损失,其中,标签为样本图像中的文本字符笔画前景;
综合第一损失和第二损失得到第三损失;
检测是否满足停止条件;
若满足停止条件,则以待训练图像编码器、待训练自提示模块以及待训练掩膜解码器作为图像编码器、自提示模块以及掩膜解码器;
若不满足停止条件,则基于第三损失调整可训练参数,得到新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器,并以新的待训练图像编码器、新的待训练自提示模块以及新的待训练掩膜解码器作为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器,返回获取样本图像经过待训练图像编码器、待训练自提示模块以及待训练掩膜解码器处理后得到的第一分辨率分割掩膜预测结果以及第二分辨率分割掩膜预测结果的步骤,其中,可训练参数为待训练图像编码器、待训练自提示模块以及待训练掩膜解码器中除继承自SAM的预训练参数以外的参数。
6.一种基于SAM的文本分割装置,其特征在于,所述基于SAM的文本分割装置包括:
图像编码器,用于对图像进行编码,得到图像特征,其中,图像编码器为在ViT编码器的基础上***adapter模块得到;
自提示模块,用于对图像特征进行空间注意力操作,得到令牌特征,并对令牌特征进行特征优化,得到提示令牌;
掩膜解码器,用于以图像特征、提示令牌以及预置输出令牌作为输入,掩膜解码器中继承自SAM掩膜解码器预训练参数的部分基于所述输入输出第一分辨率大小的第一掩膜特征以及新的输出令牌;
对第一掩膜特征进行上采样处理,得到第二分辨率大小的第二掩膜特征;
通过多层感知机处理新的输出令牌,得到向量;
对第二掩膜特征以及向量进行point-wise product操作,得到分割掩膜;
插值模块,用于将所述分割掩膜插值至所述图像的大小。
7.如权利要求6所述的基于SAM的文本分割装置,其特征在于,图像编码器由一个ViT编码器中标准的patch embedding模块和多个标准Transformer block堆叠组成,在每个Transformer block中有两个adapter模块被***,其中一个adapter模块***在多头注意力之后、第一个残差连接之前,另一个adapter模块***在多头注意力之后,位于多层感知机的残差连接路径中。
8.如权利要求6所述的基于SAM的文本分割装置,其特征在于,自提示模块包括令牌特征抽取模块以及标准Transformer解码器层,所述自提示模块用于:
通过令牌特征抽取模块对图像特征进行空间注意力操作,得到12个256维的令牌特征;
通过标准Transformer解码器层对令牌特征进行特征优化,得到提示令牌,所述标准Transformer解码器层包含自注意力、交叉注意力与多层感知机三个部分。
9.一种基于SAM的文本分割设备,其特征在于,所述基于SAM的文本分割设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于SAM的文本分割程序,其中所述基于SAM的文本分割程序被所述处理器执行时,实现如权利要求1至5中任一项所述的基于SAM的文本分割方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于SAM的文本分割程序,其中所述基于SAM的文本分割程序被处理器执行时,实现如权利要求1至5中任一项所述的基于SAM的文本分割方法的步骤。
CN202410321703.8A 2024-03-20 2024-03-20 基于sam的文本分割方法、装置、设备及存储介质 Pending CN118262360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410321703.8A CN118262360A (zh) 2024-03-20 2024-03-20 基于sam的文本分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410321703.8A CN118262360A (zh) 2024-03-20 2024-03-20 基于sam的文本分割方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN118262360A true CN118262360A (zh) 2024-06-28

Family

ID=91612314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410321703.8A Pending CN118262360A (zh) 2024-03-20 2024-03-20 基于sam的文本分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN118262360A (zh)

Similar Documents

Publication Publication Date Title
KR20220050758A (ko) 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템
US20190180154A1 (en) Text recognition using artificial intelligence
CN110738203B (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN112232149A (zh) 一种文档多模信息和关系提取方法及***
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN113065550B (zh) 基于自注意力机制的文本识别方法
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
US20230162477A1 (en) Method for training model based on knowledge distillation, and electronic device
CN111932458B (zh) 一种基于区域间注意力机制的图像信息提取与生成方法
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN117474796B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN111901594A (zh) 面向视觉分析任务的图像编码方法、电子设备及介质
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN113837965A (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN112966676A (zh) 一种基于零样本学习的文档关键信息抽取方法
CN115170807B (zh) 一种图像分割、模型训练方法、装置、设备及介质
CN116796287A (zh) 图文理解模型的预训练方法、装置、设备及存储介质
CN115019316B (zh) 一种文本识别模型的训练方法、文本识别方法
CN115810215A (zh) 面部图像生成方法、装置、设备及存储介质
CN114239760B (zh) 多模态模型训练以及图像识别方法、装置、电子设备
CN116168394A (zh) 图像文本识别方法和装置
CN116363429A (zh) 图像识别模型的训练方法、图像识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination