CN113887394A

CN113887394A - 一种图像处理方法、装置、设备及存储介质

Info

Publication number: CN113887394A
Application number: CN202111152043.8A
Authority: CN
Inventors: 马小明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本公开提供了一种图像处理方法、装置、设备及存储介质，涉及人工智能领域，尤其涉及计算机视觉、深度学习和地图数据生产技术领域，具体可用于智能防控场景下。具体实现方案为：对目标文本图像进行文本检测，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别；对所述目标文本区域中的文本内容进行分类，得到所述目标文本区域的第二文本类别；对所述目标文本区域的第一文本类别和第二文本类别进行融合处理，得到所述目标文本区域的目标类别。通过上述技术方案，将视觉角度的文本类别和语义角度的文本类别进行融合以确定目标文本类别，使得最终所得到的目标文本类别具有较高的准确度。

Description

一种图像处理方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、深度学习和地图数据生产技术领域，具体涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术的广泛普及，神经网络模型被应用到各个领域，比如，物体检测模型被用来检测图像中的物体。目前，对于包括文本的图像，现有的物体检测模型无法精准确定图像中文本的类别，亟需改进。

发明内容

本公开提供了一种图像处理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音处理方法，该方法包括：

对目标文本图像进行文本检测，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别；

对所述目标文本区域中的文本内容进行分类，得到所述目标文本区域的第二文本类别；

对所述目标文本区域的第一文本类别和第二文本类别进行融合处理，得到所述目标文本区域的目标类别。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的图像处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任一实施例所述的图像处理方法。

根据本公开的技术，提高了文本图像中文本类别的识别准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是根据本公开实施例提供的一种图像处理方法的流程图；

图1B是根据本公开实施例提供的一种三个模型同步训练过程示意图；

图2是根据本公开实施例提供的另一种图像处理方法的流程图；

图3是根据本公开实施例提供的又一种图像处理方法的流程图；

图4是根据本公开实施例提供的再一种图像处理方法的流程图；

图5是根据本公开实施例提供的一种图像处理装置的结构示意图；

图6是用来实现本公开实施例的图像处理方法的电子设备的框图；

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1A是根据本公开实施例提供的一种图像处理方法的流程图。本公开实施例适用于如何对图像进行处理的情况，尤其适用于如何对包括文本的图像进行处理的情况。该方法可以由图像处理装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于承载图像处理功能的电子设备中，比如服务端中。如图1A所示，本实施例提供的图像处理方法可以包括：

S101，对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

其中，所谓目标文本图像即为需要进行处理的包括文本的图像，可以是目标邮票图像，还可以是目标招牌图像。目标文本可以是目标文本图像中所有的文本，或者还可以是目标文本图像中与指定文本类别相关的文本，其中指定文本类别是预先设定的，对于数据生产等具有重要意义的文本类别，例如在目标图像为目标招牌图像的情况下，指定文本类别包括但不限于名称、电话、地址、经营范围、广告以及其他等类别。

所谓目标文本区域是指目标文本图像中的目标文本所在的区域，目标文本图像中可以包含一个或多个目标文本区域，每个目标文本区域对应于一个第一文本类别。所谓第一文本类别是指从视觉角度所确定的目标文本区域中文本内容的类别，例如可以是名称、电话、地址、经营范围、以及广告等类别。

一种可实施方式，可以基于机器学习模型，对目标文本图像进行检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。其中，机器学习模型可以是光学字符识别(Optical Character Recognition，OCR)模型。

进一步的，为了从目标文本图像中提取更有效的文本区域，作为本公开的一可实施方式，机器学习模型为视觉分割模型，进而可基于视觉分割模型对目标文本图像进行检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。进一步的，还可以得到目标文本区域的位置，其中位置可以是目标文本区域对应的文本框的四个角的位置坐标。

可选的，本实施例的视觉分割模型可以包括特征提取网络和候选区域生成网络，特征提取网络用于对目标文本图像进行特征提取以得到图像特征；候选区域生成网络用于对图像特征进行处理，得到文本区域。

S102，对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别。

其中，第二文本类别是指从语义角度所确定的目标文本区域中文本内容的类别，例如在目标图像为目标招牌图像的情况下，第二目标招牌图像中的文本类别包括但不限于名称、电话、地址、经营范围、广告以及其他等类别。

一种可实施方式，可以基于机器学习模型，识别出目标文本区域中的文本内容，进而对文本内容进行分类，得到目标文本区域的第二文本类别。

进一步的，为了更准确的确定目标文本区域的第二文本类别，作为本公开的一可实施方式，机器学习模型为文本解析模型，进而可以基于文本解析模型，对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别。

可选的，本实施例的文本解析模型可以是递归卷积神经网络(CRNN)。进一步的，文本解析模型还可以由文本识别模型和文本分类模型构成，其中，文本识别模型用于对目标文本区域的文本内容进行识别；文本分类模型用于对文本识别模型得到的文本内容进行分类。

S103，对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。

本实施例中，可以基于统计分析，对目标文本区域的第一文本类别和第二文本类别进行分析，得到目标文本区域的目标类别。

例如，可以将目标文本区域的第一文本类别和第二文本类别输入至统计分析模型中，由统计分析模型进行处理，得到目标文本区域的目标类别。

在确定目标文本区域、以及目标文本区域的目标类别后，作为本公开的一种可实施方式，还可以将目标文本图像，与目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储。具体的，可以按照设定关联关系，将目标文本图像，与目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储。

可以理解的是，通过将目标文本图像，与目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储，可以便于后续数据生产使用，比如生产地图兴趣点(Points of Interest，POI)数据。

本公开实施例提供的技术方案，通过对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别，之后对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别，进而对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。上述技术方案，将视觉角度的文本类别和语义角度的文本类别进行融合以确定目标文本类别，使得最终所得到的目标文本类别具有较高的准确度。

在上述实施例的基础上，可选的，作为本公开实施例的一种优选实施方式，可以是基于视觉分割模型对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别，并基于文本识别模型和文本分类模型对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别，进而对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。

示例性的，本实施例中视觉分割模型、文本识别模型和文本分类模型可以分别基于样本图像对卷积神经网络进行一一训练得到。

示例性的，本实施例中视觉分割模型、文本识别模型和文本分类模型还可以采用级联的方式基于样本图像对卷积神经网络一起训练得到。

其中，本实施例中的样本图像通过对原始图像进行数据增强得到；数据增强方式可以包括但不限于数据混合算法、随机遮挡算法、随机裁剪和/或扩展、以及亮度调整等；原始图像包括不同分辨率的图像，可以理解的是，通过对原始图像进行数据增强得到样本图像，弥补了数据不足的缺陷，保证了样本的充足性。进一步的，对样本图像进行标注，具体的，对于每一样本图像，进行文本区域(如招牌文字)框选，并对文本区域内的文本类别和文本内容进行标注。

具体的，本实施例中的视觉分割模型、文本识别模型和文本分类模型的具体实现可以通过如图1B所示的方式实现，可以是：将样本文本图像输入至视觉分割模型的特征提取网络中得到样本图像特征；将样本图像特征输入至候选区域生成网络，得到候选文本区域；采用多类别的非极大值算法对候选文本区域进行筛选，得到筛选后的文本区域；将筛选后的文本区域输入至视觉分割模型的结果输出网络(包括三个分支，分别为位置分支、区域分支和类别分支)，得到样本文本图像的文本框位置(即样本文本区域位置)、分割结果(即分割的文本框，也即样本文本区域)、以及样本文本区域的第一文本类别；进而将样本文本区域输入至文本识别模型，得到样本文本区域的文本内容；将文本内容输入至文本分类模型中，得到样本文本区域的第二文本类别；根据视觉分割模型预测的第一文本类别、文本分类模型预测的第二文本类别、以及标注的类别数据，确定类别损失，即将视觉分割模型和文本分类模型的类别损失进行融合，同时根据标注的文本框数据，以及视觉分割模型的分割结果(即分割的文本框)，确定分割损失；以及根据标注的文本框位置、视觉分割模型预测的文本框位置(即样本文本区域位置)，确定位置损失；进而根据分类损失、分割损失和位置损失，一并对视觉分割模型、文本识别模型和文本分类模型进行训练。

可以理解的是，通过级联的方式进行模型训练，不断修正文本区域的位置，以及优化文本区域的文本类别，可以达到精准确定文本类别的目的，同时相比于逐一对每一个模型训练而言，降低了模型训练的复杂度。

图2是根据本公开实施例提供的另一种图像处理方法的流程图，本实施例在上述实施例的基础上，进一步对如何“对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别”进行详细解释说明。如图2所示，本实施例提供的图像处理方法可以包括：

S201，基于视觉分割模型中的特征提取网络，提取目标文本图像的图像特征。

可选的，本实施例中特征提取网络可以包括卷积神经网络，例如残差网络(ResNet50/100)等。

进一步的，特征提取网络还可以包括多组特征提取层，每一组特征提取层包括一个可变形卷积层和分组归一化层。

具体的，将目标文本图像输入至视觉分割模型中的特征提取网络，通过特征提取网络中的多组特征提取层，得到目标文本图像的图像特征。

可以理解的是，通过采用可变形卷积和组归一化来构建特征提取网络，来提取目标图像的图像特征，可以提升模型的特征提取能力，为后续精准检测文字所在区域奠定了基础。

S202，基于视觉分割模型中的候选区域生成网络，根据图像特征，确定目标文本图像中的候选文本区域。

本实施例中，候选区域生成网络可以包括区域提取网络(Region ProposalNetwork，RPN)和RoI Align层。

示例性的，将图像特征输入至候选区域生成网络中的RPN，得到至少一个待检测区域，将至少一个待检测区域输入至RoI Align层进行处理，得到候选文本区域。

具体的，对于目标文本图像中的每一类别目标，均会得到该类别目标对应的至少一个候选文本区域，也就是说，对每一类别目标对应的图像特征，通过RPN处理即进行二分类处理，将目标文本图像中除该类别的部分即背景去除，得到该类别目标对应的至少一个待检测区域，进而将至少一个待检测区域输入至RoI Align层进行处理，得到该类别目标对应的候选文本区域。例如，招牌图像中共确定有5个类别的文本内容，若目标文本图像中包含3个类别的文本内容，对于每一类别，均会得到该类别对应的至少一个候选文本区域。

S203，采用多类别的非极大值抑制算法，对候选文本区域进行筛选。

对于目标文本图像中的每一类别对应的至少一个候选文本区域，可能会存在一些无效的候选文本区域，因此，作为本实施例的一种可选方式，可以采用多类别的非极大值抑制算法，对候选文本区域进行筛选，过滤掉无效的候选文本区域，得到筛选后的文本区域。

S204，对筛选后的文本区域进行处理，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

本实施例中，将筛选后的文本区域输入至视觉分割模型的结果输出网络，其中，结果输出网络包括三个分支，分别为位置分支、区域分支和类别分支，位置分支包括一个head层和多个全卷积层；区域分支包括多个全连接层和边界框回归操作；类别分支包括多个全连接层和Softmax分类操作；具体的，将筛选后的文本区域输入至结果输出网络的位置分支，得到目标文本图像中的目标文本区域位置，将筛选后的文本区域输入至结果输出网络的区域分支，得到目标文本图像中的目标文本区域，将筛选后的文本区域输入至结果输出网络的区域分支，得到目标文本区域的第一文本类别。

S205，对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别。

S206，对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。

本公开实施例提供的技术方案，通过基于视觉分割模型中的特征提取网络，提取目标文本图像的图像特征，基于视觉分割模型中的候选区域生成网络，根据图像特征，确定目标文本图像中的候选文本区域，之后采用多类别的非极大值抑制算法，对候选文本区域进行筛选，对筛选后的文本区域进行处理，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别，进而对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别，最后对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。上述技术方案，通过视觉分割模型可以准确的分辨出有效文本区域，为后续精准确定文本图像中文本的类别奠定了基础。

图3是根据本公开实施例提供的又一种图像处理方法的流程图，本实施例在上述实施例的基础上，进一步对如何“对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别”进行详细解释说明。如图3所示，本实施例提供的图像处理方法可以包括：

S301，对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

S302，基于文本识别模型，对目标文本区域进行识别，得到目标文本区域的文本内容。

其中，文本识别模型可以是CRNN模型，CTC(Connectionist TemporalClassification)，以及语义推理网络(Semantic Reasoning Network，SRN)，本实施例中优选为SRN。

具体的，将目标文本区域输入至文本识别模型，进行识别处理，得到目标文本区域的文本内容。例如，目标文本图像中有3个目标文本区域，则得到3个目标文本区域的文本内容。

S303，基于文本分类模型，对文本内容进行分类，得到目标文本区域的第二文本类别。

其中，文本分类模型可以是支持向量机(SVM)，多项式模型，多重伯努利模型，以及双向变换偏码表示(Bidirectional Encoder Representation from Transformers，BERT)模型等，本实施例中优选为BERT模型。

具体的，将文本内容输入至文本分类模型中，进行分类处理，得到目标文本区域的第二文本类型。例如，目标文本图像中有3个目标文本区域，则得到3个目标文本区域的第二文本类别。

S304，对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。

本公开实施例提供的技术方案，通过对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别，之后基于文本识别模型，对目标文本区域进行识别，得到目标文本区域的文本内容，进而基于文本分类模型，对文本内容进行分类，得到目标文本区域的第二文本类别，最后对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。上述技术方案，通过文本识别模型和文本分类模型来识别文本内容，采用两种功能的模型配合，对文本区域中的文本内容进行识别，使得最终得到的文本类别的具有较高的精度。

图4是根据本公开实施例提供的再一种图像处理方法的流程图，本实施例在上述实施例的基础上，进一步对如何“对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别”进行详细解释说明。如图4所示，本实施例提供的图像处理方法可以包括：

S401，对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

可选的，可以基于视觉分割模型，对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

S402，对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别。

S403，识别目标文本区域的第一文本类别是否与第二文本类别相同。

本实施例中，可以基于统计分析的算法，识别目标文本区域的第一文本类别与第二文本类型别是否相同。

S404，根据识别结果，从第一文本类别和第二文本类别中选择目标文本区域的目标类别。

可选的，若识别结果为第一本文类别和第二文本类别相同，则将第一文本类别和第二文本类别中的任一个作为目标文本区域的目标类别。

可选的，若识别结果为第一文本类别与第二文本类别不同，则根据第一文本类别的概率值和第二文本类别的概率值，从第一文本类别和第二文本类别中选择目标文本区域的目标类别。其中，视觉分割模型会输出第一文本类别和第一文本类别的概率值；文本分类模型会输出第二文本类别和第二文本类别的概率值。

具体的，若识别结果为第一文本类别与第二文本类别不同，则比较第一文本类别的概率值和第二文本类别的概率值，将二者中概率值大的一个作为目标文本区域的目标类别。

需要说明的是，若第二文本类别的概率值大于第一文本类别的概率值，还可以采用第二文本类别，对第一文本类别进行修正，再通过修正后的第一文本类别进行视觉分割模型的训练，从而提高模型的文本类别的识别准确率。

本公开实施例提供的技术方案，通过对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别，之后对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别，进而识别目标文本区域的第一文本类别是否与第二文本类别相同，最后根据识别结果，从第一文本类别和第二文本类别中选择目标文本区域的目标类别。上述技术方案，通过两个文本类别来确定文本区域的类别，提高了文本区域类别确定准确性。

图5是根据本公开实施例提供的一种图像处理装置的结构示意图。本公开实施例适用于如何对图像进行处理的情况，该方法可以由图像处理装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于承载图像处理功能的电子设备中，比如服务端中。如图5所示，该图像处理装置500包括：

第一类别确定模块501，用于对目标文本图像进行文本检测，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别；

第二类别确定模块502，用于对目标文本区域中的文本内容进行分类，得到目标文本区域的第二文本类别；

目标类别确定模块503，用于对目标文本区域的第一文本类别和第二文本类别进行融合处理，得到目标文本区域的目标类别。

进一步地，第一类别确定模块501包括：

图像特征提取单元，用于基于视觉分割模型中的特征提取网络，提取目标文本图像的图像特征；

候选区域确定单元，用于基于视觉分割模型中的候选区域生成网络，根据图像特征，确定目标文本图像中的候选文本区域；

筛选单元，用于采用多类别的非极大值抑制算法，对候选文本区域进行筛选；

第一类别确定单元，用于对筛选后的文本区域进行处理，得到目标文本图像中的目标文本区域，以及目标文本区域的第一文本类别。

进一步地，第二类别确定模块502包括：

文本内容得到单元，用于基于文本识别模型，对目标文本区域进行识别，得到目标文本区域的文本内容；

第二类别确定单元，用于基于文本分类模型，对文本内容进行分类，得到目标文本区域的第二文本类别。

进一步地，目标类别确定模块503包括：

识别单元，用于识别目标文本区域的第一文本类别是否与第二文本类别相同；

目标类别选择单元，用于根据识别结果，从第一文本类别和第二文本类别中选择目标文本区域的目标类别。

进一步地，目标类别选择单元具体用于：

若识别结果为第一文本类别与第二文本类别不同，则根据第一文本类别的概率值和第二文本类别的概率值，从第一文本类别和第二文本类别中选择目标文本区域的目标类别。

进一步地，该装置还包括：

存储模块，用于将目标文本图像，与目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储。

进一步地，目标文本图像为目标招牌图像。

本公开的技术方案中，所涉及的文本图像数据等的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如路口绘制方法。例如，在一些实施例中，路口绘制方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的路口绘制方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行路口绘制方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与发送方的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向发送方显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，发送方可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与发送方的交互；例如，提供给发送方的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自发送方的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形发送方界面或者网络浏览器的发送方计算机，发送方可以通过该图形发送方界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对目标文本图像进行文本检测，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别，包括：

基于视觉分割模型中的特征提取网络，提取所述目标文本图像的图像特征；

基于所述视觉分割模型中的候选区域生成网络，根据所述图像特征，确定所述目标文本图像中的候选文本区域；

采用多类别的非极大值抑制算法，对所述候选文本区域进行筛选；

对筛选后的文本区域进行处理，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别。

3.根据权利要求1所述的方法，其中，所述对所述目标文本区域中的文本内容进行分类，得到所述目标文本区域的第二文本类别，包括：

基于文本识别模型，对所述目标文本区域进行识别，得到所述目标文本区域的文本内容；

基于文本分类模型，对所述文本内容进行分类，得到所述目标文本区域的第二文本类别。

4.根据权利要求1所述的方法，其中，所述对所述目标文本区域的第一文本类别和第二文本类别进行融合处理，得到所述目标文本区域的目标类别，包括：

识别所述目标文本区域的第一文本类别是否与所述第二文本类别相同；

根据识别结果，从所述第一文本类别和所述第二文本类别中选择所述目标文本区域的目标类别。

5.根据权利要求4所述的方法，其中，所述根据识别结果，从所述第一文本类别和所述第二文本类别中选择所述目标文本区域的目标类别，包括：

若所述识别结果为所述第一文本类别与所述第二文本类别不同，则根据所述第一文本类别的概率值和所述第二文本类别的概率值，从所述第一文本类别和所述第二文本类别中选择所述目标文本区域的目标类别。

6.根据权利要求1所述的方法，所述对所述目标文本区域的第一文本类别和第二文本类别进行融合处理，得到所述目标文本区域的目标类别之后，还包括：

将所述目标文本图像，与所述目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储。

7.根据权利要求1-6任一所述的方法，其中，所述目标文本图像为目标招牌图像。

8.一种图像处理装置，包括：

第一类别确定模块，用于对目标文本图像进行文本检测，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别；

第二类别确定模块，用于对所述目标文本区域中的文本内容进行分类，得到所述目标文本区域的第二文本类别；

目标类别确定模块，用于对所述目标文本区域的第一文本类别和第二文本类别进行融合处理，得到所述目标文本区域的目标类别。

9.根据权利要求8所述的装置，其中，所述第一类别确定模块包括：

图像特征提取单元，用于基于视觉分割模型中的特征提取网络，提取所述目标文本图像的图像特征；

候选区域确定单元，用于基于所述视觉分割模型中的候选区域生成网络，根据所述图像特征，确定所述目标文本图像中的候选文本区域；

筛选单元，用于采用多类别的非极大值抑制算法，对所述候选文本区域进行筛选；

第一类别确定单元，用于对筛选后的文本区域进行处理，得到所述目标文本图像中的目标文本区域，以及所述目标文本区域的第一文本类别。

10.根据权利要求8所述的装置，其中，所述第二类别确定模块包括：

文本内容确定单元，用于基于文本识别模型，对所述目标文本区域进行识别，得到所述目标文本区域的文本内容；

第二类别确定单元，用于基于文本分类模型，对所述文本内容进行分类，得到所述目标文本区域的第二文本类别。

11.根据权利要求8所述的装置，其中，所述对目标类别确定模块包括：

识别单元，用于识别所述目标文本区域的第一文本类别是否与所述第二文本类别相同；

目标类别选择单元，用于根据识别结果，从所述第一文本类别和所述第二文本类别中选择所述目标文本区域的目标类别。

12.根据权利要求11所述的装置，其中，所述目标类别选择单元具体用于：

13.根据权利要求8所述的装置，还包括：

存储模块，用于将所述目标文本图像，与所述目标文本图像中目标文本区域的位置信息、文本内容和目标类别进行关联存储。

14.根据权利要求8-13任一所述的装置，其中，所述目标文本图像为目标招牌图像。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的图像处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的图像处理方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的图像处理方法。