CN117253233B

CN117253233B - 一种字符擦除方法、装置和设备

Info

Publication number: CN117253233B
Application number: CN202311142364.9A
Authority: CN
Inventors: 高红超
Original assignee: Guangdong OPT Machine Vision Co Ltd
Current assignee: Guangdong OPT Machine Vision Co Ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2024-05-17
Anticipated expiration: 2043-09-05
Also published as: CN117253233A

Abstract

本申请实施例提供一种字符擦除方法、装置和设备。在本申请实施例中，能够获取待擦除字符的目标工件图像；将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像的字符掩码区域；通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

Description

一种字符擦除方法、装置和设备

技术领域

本申请涉及深度学习技术领域，尤其涉及一种字符擦除方法、装置和设备。

背景技术

在工业字符识别模型训练中时常会出现数据不足的情况，针对此，为训练一个能够使用的字符识别模型，则需要对训练样本数据进行数据扩增。而数据扩增的一个步骤则需要将训练样本中包含有文字的图像进行字符去除操作，从而在去除字符后的图像上合成更多同风格的字符，以此产生更多的数据集对字符识别模型进行训练。而且，在字符识别模型训练过程中，工件表面中涉及的公司隐私信息，比如编号、材质、日期等信息也会通过视频或图像的形式泄露。为避免这一问题，对这些工件的视频或图像进行字符擦除也是必要的操作。

然而，现有的基于深度学习生成的GAN网络的文字抹除算法的字符抹除效果差且通用性低，无法满足字符抹除的工业需求。

发明内容

本申请的多个方面提供一种字符定位模型的训练及字符擦除方法、装置和设备，用于解决现有的基于深度生成GAN网络的文字抹除算法的字符抹除效果差且通用性低的问题。

本申请实施例提供一种字符擦除方法，包括：获取待擦除字符的目标工件图像；将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像的字符掩码区域；通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

本申请实施例还提供一种字符擦除装置，包括：图像获取模块，用于获取待擦除字符的目标工件图像；字符定位模块，用于将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；区域确定模块，用于基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像的字符掩码区域；字符擦除模块，用于通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于实现如字符擦除方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，致使所述处理器实现如字符擦除方法中的步骤。

本申请实施例提供的字符擦除方法，能够获取待擦除字符的目标工件图像，并利用基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的字符定位模型，对目标工件图像中的字符区域进行定位，以确定目标工件图像中的字符区域的描述信息，该字符区域的描述信息包括目标工件图像中字符的中心点坐标、宽、高和角度，再基于目标工件图像的字符区域的描述信息，确定目标工件图像的字符掩码区域，最后再通过用于擦除字符的扩散模型，对目标工件图像的字符掩码区域进行字符擦除操作，便可准确实现对目标工件图像中的字符的擦除操作。由于字符定位模型只需要检测到字符区域的位置，不需要进行字符类别的识别，再配合用于擦除字符的扩散模型具备的通用性，可以准确实现各种类别的工件图像的字符擦除。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种字符擦除方法的流程示意图；

图2为本申请示例性实施例提供的一种字符定位模型的训练方法的流程示意图；

图3为本申请示例性实施例提供的包含字符的图像中的字符标注信息的示意图；

图4为本申请示例性实施例提供的字符擦除方法应用于实际场景中的示意图；

图5为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像示意图；

图6为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像对应的字符掩码区域的示意图；

图7为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像进行字符擦除后的图像示意图；

图8为本申请示例性实施例提供的一种字符擦除装置的结构示意图；

图9为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为解决现有的基于深度生成GAN网络的文字抹除算法的字符抹除效果差、通用性低的问题，在本申请一些实施例中提供一种字符擦除方法。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种字符擦除方法的流程示意图。如图1所示，该方法包括：

步骤110，获取待擦除字符的目标工件图像。

其中，目标工件图像的数量可以有多个，目标工件图像上可能涉及到一些公司和相关技术的隐私信息，或者，目标工件图像还可用于扩充样本数据，以去除目标工件图像中的字符为基础图像，对该图像添加多种不同组合的字符，新生成一个或多个包含字符的图像，作为目标工件图像所处的工业场景下的深度学习模型的训练样本数据。目标工件图像的数量可以有多个。

步骤120，将目标工件图像输入至字符定位模型中，以输出得到目标工件图像的字符区域的描述信息，字符区域的描述信息包括目标工件图像中字符的中心点坐标、宽、高和角度。

其中，字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的。

图2为本申请示例性实施例提供的一种字符定位模型的训练方法的流程示意图。如图2所示，该字符定位模型的训练流程包括：

步骤210，获取字符定位模型训练数据集，字符定位模型训练数据集由包含字符的图像和不包含字符的图像组成，包含字符的图像中还携带有字符标注信息，字符标注信息包括字符的中心点坐标、宽、高和旋转角度。

图3为本申请示例性实施例提供的包含字符的图像中的字符标注信息的示意图。图3所示的字符标注信息为针对字符“L”的标注信息，包括字符“L”的矩形框的中心点坐标(x，y)，宽w，高h和旋转角度θ，该旋转角度θ为字符“L”的矩形框相对于水平轴的偏移角度。字符“L”的矩形框为能够覆盖字符“L”的最小外接矩形框。

其中，包含字符的图像可从公开的数据集和工业场景下的带字符的数据集中获取。其中，公开的数据集可包括SysthText，针对该数据集，可提取数据集中的各图像中字符的矩阵框，以及确定各矩阵框相对于水平轴的偏移角度，即下文所述的旋转角度。具体地，获取字符定位模型训练数据集，包括：

获取公开字符数据集，该公开字符数据集中包含有多个包含有字符的图像；

对公开字符数据集进行数据预处理，数据预处理包括：分别从多个图像中提取包含有字符的矩形框，以及将多个图像的类别标记为指定类别；

基于工业场景下的多个包含字符的图像以及多个不包含字符的图像，生成工业字符数据集；

基于公开字符数据集和工业字符数据集，生成字符定位模型训练数据集。

其中，将公开数据集中的多个图像的类别标记为指定类别，即将公开数据集中的多个图像的类别标记为同一类别，使得基于该样本数据训练得到的字符定位模型不需要关注字符的类别。

应理解，工业场景下的包含字符的图像数量通常较少，通常无法满足深度学习模型训练的样本数量级的要求，本申请实施例基于此，可从SysthText等公开的数据集中获取包含字符的图像，作为训练字符定位模型的部分样本数据。而本申请实施例中的字符定位模型又应用于工业场景下的字符检测和定位，为了使得训练得到的字符定位模型能够准确检测工业场景下的字符，用于训练字符定位模型的样本数据中还需要包括工业场景下包含字符的工件图像。

在一些示例性的实施例中，由于工业场景下的包含字符的图像数量通常较少，为扩充这部分的样本数据，本申请实施例可基于工业场景下包含字符的图像和不包含字符的图像，重新生成一部分包含字符的图像，以丰富工业字符数据集。具体地，基于工业场景下的多个包含字符的图像以及多个不包含字符的图像，生成工业字符数据集，包括：

获取多个包含字符的图像的字符标注信息，并基于字符标注信息对多个包含字符的图像进行裁剪，得到多个字符图像；

通过风格转化网络生成与多个字符图像的字符风格相似的多个字符图像，以扩充多个字符图像的数量；

从多个不包含字符的图像中随机选择一个目标图像，以及从扩充后的多个字符图像中随机确定指定数量的字符图像，该指定数量为从1到扩充后的多个字符图像的字符图像的数量的范围内随机确定的；

对指定数量的字符图像进行几何图像变换操作，该几何图像变换操作包括缩放、模糊、加噪、彩色转换中的至少一种操作；

将几何图像变换操作后的指定数量的字符图像粘贴到目标图像中，生成工业字符数据集，其中，目标图像中的字符图像之间不重叠。

其中，多个含字符的图像的字符标注信息，用于标注多个包含字符的图像中各图像中包含字符的最小矩形框的中心点坐标、宽、高以及矩形框相对于水平轴的旋转角度。

作为一种示例，基于工业场景下的多个包含字符的图像以及多个不包含字符的图像，生成工业字符数据集可包括下述步骤：

S1，获取工业场景下多个包含字符的图像的字符标注信息，并基于字符标注信息对多个包含字符的图像进行裁剪，得到多个字符图像，该多个字符图像的数量可以标记为N0。

S2，通过风格转化网络分别生成与N0个字符图像的字符风格相似的多个字符图像，以扩充多个字符图像的数量，最终得到N个字符图像，其中N＞N0。其中，风格转化网络用于生成与输入的字符图像的字符风格相似的字符图像。可以理解，由风格转化网络生成的字符图像与输入的字符图像在整体风格上相似，但并不完全相同，比如可在字符大小、字符旋转角度、以及字体样式等方面存在一些差别。

S3，从多个不包含字符的图像中随机选择一个目标图像作为背景图像，以及从1到扩充后的多个字符图像的字符图像的数量的范围内随机确定一个指定数量x，从扩充后的多个字符图像中随机选择x个字符图像。

S4，分别对x个字符图像进行几何图像变换操作，该几何图像变换操作包括缩放、模糊、加噪、彩色转换中的至少一种操作。

S5，将几何图像变换操作后的x个字符图像粘贴到目标图像中，得到新生成的包含字符的图像，其中，目标图像中的字符图像之间不重叠。

具体地，对于x个字符图像中的第i个字符图像，其中i∈[1,x]，执行如下操作：

S51，确定第i个字符图像在目标图像中的预粘贴区域。

S52，计算第i个字符图像在目标图像中的预粘贴区域与已粘贴到目标图像中的字符图像的重叠面积，若该重叠面积的值＜0.1，则表明第i个字符图像在目标图像中的预粘贴区域与已粘贴到目标图像中的字符图像的重叠面积较小或基本不重叠，此时可将i个字符图像粘贴到目标图像中的预粘贴位置。

而若该重叠面积的值大于0.1，则重新返回S51，应理解，上述0.1是一个设定阈值的示例，不应构成对重叠面积的设定阈值的限定。

S6，重复步骤S3～S5，得到多个新生成的包含字符的图像，并基于这多个新生成的包含字符的图像生成工业字符数据集。

步骤220，基于字符定位模型训练数据集和字符定位模型的损失函数，训练得到字符定位模型；其中，字符定位模型为基于目标检测网络YOLOV5S构建得到。

该字符定位模型包括特征提取模块、特征融合模块和目标定位模块，字符定位模型的特征提取模块中每一层卷积核的个数小于目标检测网络YOLOV5S中特征提取模块的卷积核的个数，且字符定位模型的特征提取模块中每一层卷积层数小于目标检测网络YOLOV5S中特征提取模块的卷积层数，字符定位模型的目标定位模块中关于预测的目标框的描述包括目标框的中心点坐标、高、深和旋转角度。

其中，字符定位模型的特征提取模块中每一层卷积核的个数小于目标检测网络YOLOV5S中特征提取模块的卷积核的个数，具体可按照一定的比例，减少字符定位模型的特征提取模块中每一层卷积核的个数，比如可将字符定位模型的特征提取模块中每一层卷积核的个数减少为目标检测网络YOLOV5S的特征提取模块的二分之一，以此减少模型的参数，减少模型训练过程中的计算量，从而简化模型的训练。字符定位模型的特征提取模块中每一层卷积层数小于目标检测网络YOLOV5S中特征提取模块的卷积层数，具体可将字符定位模型的特征提取模块中每一层卷积层数根据特征的属性进行合并。

在一些示例性的实施例中，基于字符定位模型训练数据集和字符定位模型的损失函数，训练字符定位模型，包括：

将字符定位模型训练数据集中的多个图像输入至字符定位模型中，以确定字符定位模型预测的各图像中字符的中心点损失、字符的宽和高损失、字符的置信度损失以及字符的角度的损失；

基于字符定位模型预测的各图像中字符的中心点损失、字符的宽和高损失、字符的置信度损失以及字符的角度的损失，确定字符定位模型的损失函数的值；

基于字符定位模型的损失函数的值，优化字符定位模型的模型参数，训练得到字符定位模型。

其中，字符定位模型有三个检测头，字符定位模型的字符定位模块的每个检测头可包含3～4种不同规模的锚框字符定位模型的字符定位模块的输出维度为4*(x,y,w,h,θ,conf)＝24。x,y,w,h,θ分别代表锚框的中心点坐标(x，y)，宽w，高h和角度θ，conf为有无字符的置信度，也就是锚框内有无字符的概率。该字符定位模型的损失函数的计算公式为Loss＝λ_coor∑loss(xy)+λ_coor∑loss(wh)+λ_conf∑loss(conf)+λ_angle∑loss(θ)。其中，loss(xy)表示字符定位模型预测的字符的中心点损失，loss(wh)表示字符定位模型预测字符的宽、高的损失，oss(conf)表示字符定位模型预测的是否是字符的置信度损失，loss(θ)表示字符定位模型预测字符的旋转角度的损失。其中，字符定位模型的优化器可选用Adam优化算法，momentum：0.937，初始化学习率0.01，训练数据规模50万张图片，训练90轮后停止。

本申请实施例中提供的字符定位模型的训练方法，能够获取字符定位模型训练数据集，该字符定位模型训练数据集由包含字符的图像和不包含字符的图像组成，其中包含字符的图像中还携带有字符标注信息，该字符标注信息包括字符的中心点坐标、宽、高和旋转角度，再基于字符定位模型训练数据集和字符定位模型的损失函数，训练得到字符定位模型。其中，字符定位模型为基于目标检测网络YOLOV5S构建得到，包括特征提取模块、特征融合模块和目标定位模块，由于字符定位模型的特征提取模块中每一层卷积核的个数小于目标检测网络YOLOV5S中特征提取模块的卷积核的个数，且字符定位模型的特征提取模块中每一层卷积层数小于目标检测网络YOLOV5S中特征提取模块的卷积层数，因此训练得到的字符定位模型的参数量相较于目标检测网络YOLOV5S将会减少，其模型计算量也会相应减少，使得训练得到的字符定位模型的复杂度降低。而且，字符定位模型的目标定位模块中关于预测的目标框的描述在包括目标框的中心点坐标、高、深的基础上还增加了字符的旋转角度，还能实现对带有旋转角度的字符的检测能力。

应理解，在将目标工件图像输入至字符定位模型之后，字符定位模型可检测到目标工件图像中包含的所有字符，即字符定位模型输出的目标工件图像的字符区域的描述信息包括至少一个字符的字符区域的描述信息，该至少一个字符即为目标工件图像中的所有字符。各字符的字符区域为包含各字符的外接矩形框。

步骤130，基于目标工件图像的字符区域的描述信息，确定目标工件图像的字符掩码区域。

其中，基于目标工件图像的字符区域的描述信息，确定目标工件图像的字符掩码区域，具体可基于目标工件图像的字符区域的描述信息，确定目标工件图像中的待掩码区域，再通过掩码网络对该待掩码区域进行掩码操作，以确定目标工件图像的字符掩码区域。

在一些示例性的实施例中，在目标工件图像中的字符数量较少时，由于字符在目标工件图像中的占比较小，直接对包含字符的矩形框区域进行抹除对字符背景的影响较少。本申请实施例基于此，同时为提高对字符区域进行掩码操作的效率，可直接将目标工件图像中的字符的字符框进行掩码操作，以作为目标工件图像的字符掩码区域。具体地，基于目标工件图像的字符区域的描述信息，确定目标工件图像的字符掩码区域，包括：

基于目标工件图像的字符区域的描述信息，确定目标工件图像中的字符数量；

若目标工件图像中的字符数量小于预设数量，则将目标工件图像中的字符的字符框作为目标工件图像的字符掩码区域。

在一些示例性的实施例中，在目标工件图像中的字符数量较多时，为保留目标工件图像中更多的背景信息，可只对字符部分进行掩码操作，以确定目标工件图像的字符掩码区域。具体地，若目标工件图像中的字符数量大于或等于预设数量，则从字符的指定维度对目标工件图像中的字符进行聚类，得到多个类簇，指定维度包括字符的中心点坐标、宽、高和角度；

确定多个类簇中各类簇中包含的目标字符的连通域，目标字符为目标工件图像中的任意一个字符；

将目标字符的连通域进行合并，得到目标字符的掩码区域；

基于目标字符的掩码区域，确定目标工件图像的字符掩码区域。

作为一种示例，在目标工件图像中的字符数量大于或等于预设数量的情况下，可对目标工件图像中各个字符执行如下操作：

1)利用密度峰值聚类算法对字符进行聚类，特征包括x,y,w,h,θ五个，得到M个类簇Cluster，其中x,y为字符的中心点坐标，w和h分别为字符的宽和高，θ为字符的旋转角度。

2)求每个类簇包含字符的连通域。

3)所有连通域合并得到目标工件图像对应的字符掩码区域。

步骤140，通过扩散模型，对目标工件图像的字符掩码区域进行字符擦除操作。

在一些示例性的实施例中，通过扩散模型，对目标工件图像的字符掩码区域进行字符擦除操作，包括：

通过扩散模型，对目标工件图像的字符框进行字符擦除操作。

本方案采用的扩散模型(Stablediffusion)是一种在潜在表示空间(latentspace)上进行扩散编码过程的方法，这不仅能够大大减少计算复杂度，同时相比于对抗生成网络，能取得更高质量的图像生成效果。选用的扩散模型已经通过大量数据训练完成，无需重新训练。扩散模型的网络包括预训练的自编码模型用于提取待擦除文字的潜在特征空间表示，然后在潜在特征空间中通过交叉注意力机制加入待擦除文字区域信息，基于该条件，利用扩散模型的网络中的解码器进行解码恢复原始像素空间，实现对文字区域的擦除，并保留与字符无关的其他区域信息。

其中，扩散模型的输入是目标工件图像及其对应的字符掩码区域，扩散模型的输出是抹除掉字符的目标工件图像。图4为本申请示例性实施例提供的字符擦除方法应用于实际场景中的示意图。如图4所示，该字符擦除方法的流程可包括：s11，目标工件图像Image输入至字符定位模型Char_Det，以确定目标工件图像Image中的字符区域；s12，通过掩码网络Mask_Gen对目标工件图像Image中的字符区域进行掩码操作，以确定目标工件图像Image中的字符掩码区域；s13，通过扩散模型对目标工件图像Image中的字符掩码区域进行字符抹除操作。

图5为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像示意图。图6为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像对应的字符掩码区域的示意图。图6所示的字符掩码区域为图5所示的待擦除字符的图像分别经过字符定位模型确定字符区域，以及由掩码网络进行掩码操作获得的。图7为本申请示例性实施例提供的字符擦除方法中待擦除字符的图像进行字符擦除后的图像示意图。图7所示的待擦除字符的图像进行字符擦除后的图像，为将图5所示的擦除字符的图像和图6所示的字符掩码区域的图像输入至扩散模型中，由扩散模型基于图6所示的字符掩码区域的图像对图5所示的擦除字符的图像中的字符区域进行字符抹除操作得到的。

本申请实施例提供的字符擦除方法，能够获取待擦除字符的目标工件图像，并利用基于字符定位模型的训练方法训练得到的字符定位模型对目标工件图像中的字符区域进行定位，以确定目标工件图像中的字符区域的描述信息，该字符区域的描述信息包括目标工件图像中字符的中心点坐标、宽、高和角度，再基于目标工件图像的字符区域的描述信息，确定目标工件图像的字符掩码区域，最后再通过用于擦除字符的扩散模型，对目标工件图像的字符掩码区域进行字符擦除操作，便可准确实现对目标工件图像中的字符的擦除操作。由于字符定位模型只需要检测到字符区域的位置，不需要进行字符类别的识别，再配合用于擦除字符的扩散模型具备通用性，可以准确实现各种类别的工件图像的字符擦除。

另外，本实施例提供的方法可应用于任何存在字符擦除的应用场景中，仅需要对用于进行字符区域定位的字符定位模型进行训练，而且该模型一旦训练完成，在后续进行字符抹除操作时，只需结合掩码网络对字符定位模型定位的字符区域进行掩码操作，以确定待擦除字符的图像的字符掩码区域，最后将待擦除字符的图像以及对应的字符掩码区域输入至扩散模型中进行字符抹除操作即可。一方面，字符定位模型的训练只需要关注字符区域，并在训练过程中添加了字符区域的旋转角度的描述，能够有效提高字符区域定位的准确性，而且，字符定位模型的特征提取模块的卷积层和卷积核数都进行了缩减，使得训练得到的字符定位模型更加轻量化。另一方面，用于进行字符抹除的扩散模型不需要依据不同的工业场景进行重新训练，具备较强的通用性，可以应用于各类需要擦除工件表面文字的场景中。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤110至步骤130的执行主体可以为设备A；又比如，步骤110至步骤120的执行主体可以为设备A，步骤130的执行主体可以为设备B；等等。

还需要说明的是，本申请实施例提供的字符擦除方法的思路，不仅局限于字符擦除的场景，将字符检测替换为其他目标检测，比如更加通用普适的物体(车辆、人、猫等物体)检测场景中，上述发明构思中的模型训练、字符擦除方法也同样适用于这类场景中。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如110、120、210、220等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类别。

图8为本申请示例性实施例提供的一种字符擦除装置800的结构示意图。如图8所示，该装置800包括：图像获取模块810、字符定位模块820、区域确定模块830和字符擦除模块840，其中：

图像获取模块810，用于获取待擦除字符的目标工件图像；

字符定位模块820，用于将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；

区域确定模块830，用于基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像的字符掩码区域；

字符擦除模块840，用于通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

可选地，所述区域确定模块830，具体用于：

基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像中的字符数量；

若所述目标工件图像中的字符数量小于预设数量，则将所述目标工件图像中的字符的字符框，作为所述目标工件图像的字符掩码区域。

可选地，所述字符擦除模块840，具体用于：

通过所述扩散模型，对所述目标工件图像的字符的字符框进行字符擦除操作。

可选地，所述区域确定模块830，具体用于：

若所述目标工件图像中的字符数量大于或等于所述预设数量，则从字符的指定维度对所述目标工件图像中的字符进行聚类，得到多个类簇，所述指定维度包括字符的中心点坐标、宽、高和角度；

确定所述多个类簇中各类簇中包含的目标字符的连通域，所述目标字符为所述目标工件图像中的任意一个字符；

将所述目标字符的连通域进行合并，得到所述目标字符的掩码区域；

基于所述目标字符的掩码区域，确定所述目标工件图像的字符掩码区域。

可选地，所述装置还包括：

数据获取模块，用于获取字符定位模型训练数据集，所述字符定位模型训练数据集由包含字符的图像和不包含字符的图像组成，所述包含字符的图像中还携带有字符标注信息，所述字符标注信息包括字符的中心点坐标、宽、高和旋转角度；

模型训练模块，用于基于所述字符定位模型训练数据集和字符定位模型的损失函数，训练得到字符定位模型；其中，所述字符定位模型为基于目标检测网络YOLOV5S构建得到，包括特征提取模块、特征融合模块和目标定位模块，所述字符定位模型的特征提取模块中每一层卷积核的个数小于所述目标检测网络YOLOV5S中特征提取模块的卷积核的个数，且所述字符定位模型的特征提取模块中每一层卷积层数小于所述目标检测网络YOLOV5S中特征提取模块的卷积层数，所述字符定位模型的目标定位模块中关于预测的目标框的描述包括所述目标框的中心点坐标、高、深和旋转角度。

可选地，所述数据获取模块，具体用于：

获取公开字符数据集，所述公开字符数据集中包含有多个包含有字符的图像；

对所述公开字符数据集进行数据预处理，所述数据预处理包括：分别从多个所述图像中提取包含有字符的矩形框，以及将多个所述图像的类别标记为指定类别；

基于所述公开字符数据集和所述工业字符数据集，生成所述字符定位模型训练数据集。

可选地，所述数据获取模块，具体用于：

获取所述多个包含字符的图像的字符标注信息，并基于所述字符标注信息对所述多个包含字符的图像进行裁剪，得到多个字符图像；

通过风格转化网络生成与所述多个字符图像的字符风格相似的多个字符图像，以扩充所述多个字符图像的数量；

从所述多个不包含字符的图像中随机选择一个目标图像，以及从所述扩充后的多个字符图像中随机确定指定数量的字符图像，所述指定数量为从1到所述扩充后的多个字符图像的字符图像的数量的范围内随机确定的；

对所述指定数量的字符图像进行几何图像变换操作，所述几何图像变换操作包括缩放、模糊、加噪、彩色转换中的至少一种操作；

将所述几何图像变换操作后的指定数量的字符图像粘贴到所述目标图像中，生成工业字符数据集，其中，所述目标图像中的字符图像之间不重叠。

可选地，所述模型训练模块，具体用于：

将所述字符定位模型训练数据集中的多个图像输入至所述字符定位模型中，以确定字符定位模型预测的各图像中字符的中心点损失、字符的宽和高损失、字符的置信度损失以及字符的角度的损失；

基于字符定位模型预测的各图像中字符的中心点损失、字符的宽和高损失、字符的置信度损失以及字符的角度的损失，确定所述字符定位模型的损失函数的值；

基于所述字符定位模型的损失函数的值，优化所述字符定位模型的模型参数，训练得到所述字符定位模型。

字符擦除装置能够实现图1～图7的方法实施例的方法，具体可参考图1～图7所示实施例的字符擦除方法，不再赘述。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的字符定位方法。具体地，图9为本申请示例性实施例提供的一种电子设备的结构示意图。如图9所示，该设备包括：存储器91和处理器92。

存储器91，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图像，视频等。

处理器92，与存储器91耦合，用于执行存储器91中的计算机程序，以用于：获取待擦除字符的目标工件图像；将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像的字符掩码区域；通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

进一步，如图9所示，该电子设备还包括：通信组件93、显示器94、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。另外，根据流量回放设备的实现形态的不同，图9中虚线框内的组件为可选组件，而非必选组件。例如，当电子设备实现为智能手机、平板电脑或台式电脑等终端设备时，可以包括图9中虚线框内的组件；当电子设备实现为常规服务器、云服务器、数据中心或服务器阵列等服务端设备时，可以不包括图9中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现上述字符擦除方法实施例中的步骤。

上述图9中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可以包括近场通信(NFC)模块，射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术等。

上述图9中的存储器可以由任何类别的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图9中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图9中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图9中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类别的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种字符擦除方法，其特征在于，包括：

获取待擦除字符的目标工件图像；

将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；

若所述目标工件图像中的字符数量小于预设数量，则将所述目标工件图像中的字符框，作为所述目标工件图像的字符掩码区域；

基于所述目标字符的掩码区域，确定所述目标工件图像的字符掩码区域；

通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

2.如权利要求1所述的方法，其特征在于，所述字符定位模型的训练过程，包括：

获取字符定位模型训练数据集，所述字符定位模型训练数据集由包含字符的图像和不包含字符的图像组成，所述包含字符的图像中还携带有字符标注信息，所述字符标注信息包括字符的中心点坐标、宽、高和旋转角度；

基于所述字符定位模型训练数据集和字符定位模型的损失函数，训练得到字符定位模型；其中，所述字符定位模型为基于目标检测网络YOLOV5S构建得到，包括特征提取模块、特征融合模块和目标定位模块，所述字符定位模型的特征提取模块中每一层卷积核的个数小于所述目标检测网络YOLOV5S中特征提取模块的卷积核的个数，且所述字符定位模型的特征提取模块中每一层卷积层数小于所述目标检测网络YOLOV5S中特征提取模块的卷积层数，所述字符定位模型的目标定位模块中关于预测的目标框的描述包括所述目标框的中心点坐标、高、深和旋转角度。

3.如权利要求2所述的方法，其特征在于，所述获取字符定位模型训练数据集，包括：

4.如权利要求3所述的方法，其特征在于，所述基于工业场景下的多个包含字符的图像以及多个不包含字符的图像，生成工业字符数据集，包括：

获取所述多个包含字符的图像的字符标注信息，并基于所述标注信息对所述多个包含字符的图像进行裁剪，得到多个字符图像；

5.如权利要求2所述的方法，其特征在于，所述基于所述字符定位模型训练数据集和字符定位模型的损失函数，训练字符定位模型，包括：

6.一种字符擦除装置，其特征在于，包括：

图像获取模块，用于获取待擦除字符的目标工件图像；

字符定位模块，用于将所述目标工件图像输入至字符定位模型中，以输出得到所述目标工件图像的字符区域的描述信息，其中，所述字符定位模型为基于多个包含字符的图像以及对应的字符区域的描述信息为标注训练得到的，所述字符区域的描述信息包括所述目标工件图像中字符的中心点坐标、宽、高和角度；

区域确定模块，用于基于所述目标工件图像的字符区域的描述信息，确定所述目标工件图像中的字符数量；若所述目标工件图像中的字符数量小于预设数量，则将所述目标工件图像中的字符框，作为所述目标工件图像的字符掩码区域；若所述目标工件图像中的字符数量大于或等于所述预设数量，则从字符的指定维度对所述目标工件图像中的字符进行聚类，得到多个类簇，所述指定维度包括字符的中心点坐标、宽、高和角度；确定所述多个类簇中各类簇中包含的目标字符的连通域，所述目标字符为所述目标工件图像中的任意一个字符；将所述目标字符的连通域进行合并，得到所述目标字符的掩码区域；基于所述目标字符的掩码区域，确定所述目标工件图像的字符掩码区域；

字符擦除模块，用于通过扩散模型，对所述目标工件图像的字符掩码区域进行字符擦除操作。

7.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于实现如权利要求1至5中任一所述的字符擦除方法中的步骤。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现如权利要求1至5中任一所述的字符擦除方法中的步骤。