CN116363656A

CN116363656A - 包含多行文本的图像识别方法、装置及计算机设备

Info

Publication number: CN116363656A
Application number: CN202111616930.6A
Authority: CN
Inventors: 喻雨峰
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2023-06-30

Abstract

本申请提供一种包含多行文本的图像识别方法、装置及计算机设备，方法包括：获取待识别图像；响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；根据字符匹配概率，确定待识别图像所含多行文本的文本字符。采用本方法，能够提高图像所含多行文本的字符识别准确率。

Description

包含多行文本的图像识别方法、装置及计算机设备

技术领域

本申请实施例涉及图像处理技术领域，特别是涉及一种包含多行文本的图像识别方法、装置及计算机设备。

背景技术

随着图像处理技术的不断发展，利用计算机实现对图片中文字的自动识别已逐渐成熟。日常生活中，常需要对包含有多行文本的图片进行识别，从而得到图片中的多行文本内容，例如，在物流码识别场景下，需要对物流码图片进行识别，以获取其中包含的物流码信息，便于物流管控。

然而，现有的文本识别方法仅限于对单行文本的精准识别，面对多行文本识别任务时，由于文本呈现出双行结构，且上下多行定长的数字文本紧密排列、行间较小，不可避免存在字迹模糊，极易导致各个文本行的检测精准度不高，因此总是容易出现检偏、漏检等异常情况，影响到识别性能。

因此，现有的多行文本识别方法存在着识别准确率不高的技术问题。

发明内容

本申请的目的在于提供一种包含多行文本的图像识别方法、装置及计算机设备，用以提升图像所含多行文本的字符识别准确率。

第一方面，本申请提供一种包含多行文本的图像识别方法，包括：

获取待识别图像；

响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；

将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；

根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

在本申请一些实施例中，已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；其中，将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，包括：将归一化后的目标图像输入至已训练的文本识别模型，通过特征提取层对归一化后的目标图像进行特征提取，得到图像特征图；通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵；通过分类层对图像矩阵进行字符分类，得到字符分类向量；通过连接主义时间分类层对字符分类向量进行损失分析，得到字符匹配概率。

在本申请一些实施例中，已训练的文本识别模型还包括循环网络层；其中，在通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵之后，还包括：通过循环网络层对图像矩阵进行序列分析，得到目标矩阵向量；其中，目标矩阵向量用于通过分类层进行字符分类。

在本申请一些实施例中，数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；其中，通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵，包括：通过维度拆分网络对图像特征图进行维度拆分，得到拆分后的图像特征图；通过维度交换网络对拆分后的图像特征图进行维度交换，得到交换后的图像特征图；通过维度合并网络对交换后的图像特征图进行维度合并，得到图像矩阵。

在本申请一些实施例中，在将归一化后的目标图像输入至已训练的文本识别模型之前，还包括：构建初始的文本识别模型；文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层构成；获取多行文本图像集，并将多行文本图像集划分为训练集和测试集；多行文本图像集包括多个已标注文本字符的图像；文本字符是根据预设的字符序号映射表查询确定的；使用训练集对初始的文本识别模型进行训练，得到初步训练后的文本识别模型；使用测试集对初步训练后的文本识别模型进行测试调整，得到已训练的文本识别模型。

在本申请一些实施例中，获取多行文本图像集，包括：获取多行文本图像，并对多行文本图像进行文本字符标注，得到已标注文本字符的多行文本图像，作为候选文本图像；分析候选文本图像的图像格式、图像尺寸和/或图像特征；根据图像格式、图像尺寸以及图像特征中的至少一个，筛选出满足于预设模型训练条件的候选文本图像，作为目标文本图像；对目标文本图像进行数据扩增，统计得到多行文本图像集。

在本申请一些实施例中，响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像，包括：调用已训练的文本检测模型，已训练的文本检测模型包括EAST模型；将待识别图像输入至已训练的文本检测模型，得到模型输出结果；响应于模型输出结果为多行文本矩形框，确定待识别图像为包含多行文本的目标图像；基于预设的插值方法，对目标图像进行归一化处理，得到归一化后的目标图像。

第二方面，本申请提供一种包含多行文本的图像识别装置，包括：

图像获取模块，用于获取待识别图像；

图像处理模块，用于响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；

文本识别模块，用于将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层；

字符确定模块，用于根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

第三方面，本申请还提供一种计算机设备，包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现上述包含多行文本的图像识别方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行包含多行文本的图像识别方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

上述包含多行文本的图像识别方法、装置及计算机设备，服务器通过获取待识别图像，可响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像，进而将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，即可根据字符匹配概率，确定待识别图像所含多行文本的文本字符；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层。如此，将多行文本作为整体一起检测识别，即可避免图像中的文本行硬检测，进而提高图像所含多行文本的字符识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中提供的包含多行文本的图像识别方法的场景示意图；

图2为本申请实施例中提供的包含多行文本的图像识别方法的流程示意图；

图3为本申请实施例中提供的多行文本图像的识别结果示意图一；

图4为本申请实施例中提供的文本检测模型的结构示意图；

图5为本申请实施例中提供的多行文本图像的识别结果示意图二；

图6是本申请实施例中提供的包含多行文本的图像识别装置的结构示意图；

图7是本申请实施例中提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在本申请实施例中，本申请实施例提供的包含多行文本的图像识别方法主要涉及人工智能(Artificial Intelligence，AI)中的计算机视觉技术(Computer Vision，CV)。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请中，针对待识别图像，CV主要实现图像语义理解(Image Semantic Understanding，ISU)中图像检测和图像识别，对图像中的目标对象进行检测和识别并输出结果。可以理解的是，该目标对象可以是多行文本。

在本申请实施例中，本申请实施例提供的包含多行文本的图像识别方法，可以应用于如图1所示的包含多行文本的图像识别***中。其中，该包含多行文本的图像识别***包括终端102和服务器104。终端102可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端102具体可以是台式终端或移动终端，终端102具体还可以是手机、平板电脑、笔记本电脑中的一种。服务器104可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。此外，终端102与服务器104之间通过网络建立通信连接，网络具体可以是广域网、局域网、城域网中的任意一种。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是适用于本申请方案的一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的设备。例如，图1中仅示出1个服务器。可以理解的是，该包含多行文本的图像识别***还可以包括一个或多个其他设备，具体此处不作限定。另外，如图1所示，该包含多行文本的图像识别***还可以包括存储器，用于存储数据，如存储待识别的图像。

需要说明的是，图1所示的包含多行文本的图像识别***的场景示意图仅仅是一个示例，本发明实施例描述的包含多行文本的图像识别***以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着包含多行文本的图像识别***的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种包含多行文本的图像识别方法，本实施例主要以该方法应用于上述图1中的服务器104来举例说明，该方法包括步骤S201至S204，具体如下：

S201，获取待识别图像。

其中，待识别图像可以是指定物品的外包装图像，也可以是在指定业务场地采集的物体图像，且包括但不局限于图片、视频内的视频帧等；视频包括但不局限于短视频、长视频等格式，短视频可以是长度小于10分钟的视频，长视频可以是长度大于10分钟的视频；业务场地包括但不局限于包裹分拣场地、物品打包场地等物流场地。

具体实现中，服务器104可按业务需求从指定业务场地所装摄像头处获取待识别图像，该摄像头可以是单目相机也可以多目相机，服务器104也可按业务需求针对指定物品进行图像采集，以获取后续分析所需的待识别图像。当然，服务器104也可按业务需求，通过其他设备获取待识别图像。例如，通过终端102获取指定业务场地所装摄像头拍摄的图像作为待识别图像。又例如，通过终端102获取指定物品的外包装图像作为待识别图像。如此，待识别图像的获取方式本申请不做具体限定。

此外，服务器104当前所获可作用后续处理依据的待识别图像，还可以是经过预处理后的图像，预处理包括但不局限于清洗、调整等预处理方式。例如，服务器104通过上述所列待识别图像的获取方式之一，获取到初始的待识别图像之后，可对初始的待识别图像进行清洗处理，和/或调整处理，包括但不局限于清洗掉重复或无法正确读取的图像，调整图像尺寸、颜色等，即可得到待识别图像。由此，待识别图像可以是单指一帧图像，也可以是多帧图像。

S202，响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像。

其中，多行文本可以为至少两行的文本，也即是说，文本排列方式存在并列分布在不同行位的情况，例如，可参阅图3，为一个指定物品的外包装图像，且该外包装图像中包含着不止一处的双行文本。

具体实现中，服务器104获取到待识别图像之后，可采取预置算法对待识别图像进行多行文本检测，以从中筛选出包含多行文本的目标图像作为后续分析依据，然后对目标图像进行归一化处理，以将目标图像的图片尺寸调整至指定大小，得到满足于后续特定图片尺寸分析步骤的图像。

需要说明的是，本实施例中涉及的分析步骤为文本检测步骤，目的在于对待识别图像进行多行文本检测，判断待识别图像是否为包含多行文本的目标图像，最终对目标图像进行文本识别，以期识别出待识别图像中所含多行文本的文本字符。然而，传统的文本识别技术在针对多行文本，如图3所示的双行文本进行字符识别时，由于上下两行定长的数字文本紧密排列，行间距小且字迹模糊，因此总是出现检偏、漏检等异常问题，导致多个文本行很难实现精准检测。例如，图3中的多行文本字符在经过传统文本识别技术分析之后，得到一串字符串是双行文本对应的文本字符，但是，存在检偏的问题，即应检字符串“503981171122077659310081”检偏为字符串“503981171122077658310081”。

所以，本申请实施例提出在进行文本识别之前，首先将多行文本作为整体，并使用旋转矩形框进行文本检测，并将多行文本作为整体进行无切割双行识别，所用到的模型包括文本检测模型和文本识别模型，而文本检测模型和文本识别模型各自的应用步骤，将在下文详细说明。

在一个实施例中，本步骤包括：调用已训练的文本检测模型，已训练的文本检测模型包括EAST模型；将待识别图像输入至已训练的文本检测模型，得到模型输出结果；响应于模型输出结果为多行文本矩形框，确定待识别图像为包含多行文本的目标图像；基于预设的插值方法，对目标图像进行归一化处理，得到归一化后的目标图像。

其中，EAST(Efficient and Accuracy Scene Text detection pipeline)模型是一个全卷积网络，主要有三部分：特征提取层、特征融合层、输出层。由于在一张图片中，各个文字大小不一，所以需要融合不同层次的特征图，小文字的预测需要用到底层的语义信息，大文字的预测要用到高层的语义信息。

具体实现中，已训练的文本检测模型可装设于其他设备中，如装设于终端102中，则服务器104在获取到待识别图像之后，可向终端102申请调用已训练的文本检测模型进行文本检测。当然，已训练的文本检测模型还可装设于服务器104中，则服务器104使用时无需向其他设备发出请求。

具体而言，当文本检测模型采用EAST模型时，EAST模型可将归一化后的待识别图像作为输入，继而输出三个特征图“Fe、Fa和Fs”，它们的长宽尺寸是输入图的1/4。其中，Fs通道为“1”，使用sigmoid函数激活，用于预测每个像素位置在前景目标(即图3所示的双行文本)外接旋转矩形框范围内的概率；Fe通道为“4”，不使用激活函数，用于预测每个像素位置距离所在前景目标外接旋转矩形框上下左右的距离(不在前景目标内的值为零)；Fa通道为“1”，使用tanh函数激活，预测每个像素位置所在前景目标外接旋转矩形框的角度(不在前景目标内的值为零)。具体可参阅图4，为实施例中所涉及EAST模型的结构图。

进一步地，本实施例中提出可采用已训练的文本检测模型，分析获取目标图像，但在调用已训练的文本检测模型之前，需将文本检测模型训练至一定程度，而文本检测模型的训练需要使用数据扩增后的样本图像。例如，在模型训练之前的数据准备阶段中，可针对初始的样本图像进行标注及数据扩增，得到一组处理后的扩增图像，以及一组对应转换后的标注数据。其中，标注时，可将双行文本作为一个文本行整体，使用旋转的矩形框框住。而数据扩增可以提高模型的泛化能力，从一定程度上提高模型预测的准确度。

由此，本申请实施例提出使用一些预设的数据扩增策略，再通过随机选取和/或组合，获得初始数据量十倍的图片和对应的标注数据，进而采用随机剪切、等比例放缩和填充“0”的方式，将图片变换为512*512的尺寸，标注数据进行对应变换，目的是将旋转的矩形框标注形式转换为可以与模型的预测输出层计算损失(loss)的形式，也就是转换为三个三维的数值矩阵。这里使用EAST模型自身的数据转换方法得到“Fe、Fa和Fs”对应的标注“Me、Ma、Ms”。

模型的损失函数为：L＝L_e+L_s+L_a，而“Le，Ls，La”分别表示“Fe、Fa和Fs”的loss，按照下面公式(1)-(3)计算。

L_a＝1-cos(F_a*π/2-M_a) (3)

其中，公式(1)中得

和“R^*”分别表示根据“Fe”和“Me”计算的矩形框的面积，采用初始值为“1e-4”，指数衰减值“0.997”，衰减步长为“4000”的学习率，batch大小为“12”训练一万次。使用EAST模型自身的后处理方法。即可得到预测的双行文本整体的外接旋转矩形框。

进一步地，文本检测模型训练完成之后，服务器104可将待识别图像输入至已训练的文本检测模型中，即可得到模型输出结果，若该模型输出结果为待识别图像中的多行文本矩形框，即该多行文本矩形框是模型分析标注出的，则可确定该待识别图像是包含多行文本的目标图像。可以理解的是，若模型输出结果为单行文本矩形框，或者其他非文本矩形框，或者无多行文本矩形框，则可丢弃该待识别图像，重新获取新的待识别图像进行文本检测，直至得到包含多行文本的目标图像。

S203，将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层。

其中，已训练的文本识别模型包括数据变换层，数据变换层用于对归一化后的目标图像进行特征维度分析，本申请实施例提出采用数据变换层进行特征维度分析，目的在于解决传统基于图片维度分析的缺陷。

其中，字符匹配概率可以为字符序号映射表中各个序号的匹配概率，而各个序号对应映射有预设字符，例如，某个字符在字符序号映射表中的字符匹配概率为“0.2、0.35、0.57、0.22……0.9”，这些概率值分别对应字符序号映射表中的每一个字符，“0.9”经过比较后确定为概率最大值。

具体实现中，本申请实施例提出从特征维度进行分析，而非传统技术采用的图片维度，原因在于传统技术实现对图片的识别存在一些缺陷，例如找不到各行文本边界导致文本拆分有误，进而引发多行文本识别精度下降，所以从特征维度进行分析，可以改善上述问题，进而提升精度。

具体而言，服务器104获取到归一化后的目标图像之后，可将归一化后的目标图像输入至已训练的文本识别模型，得到字符匹配概率之后，即可根据字符匹配概率确定待识别图像所含多行文本的文本字符。而在此之前，文本识别模型需要进行适当训练，针对文本识别模型的模型训练步骤将在下文详细说明。

在一个实施例中，在本步骤之前，还包括：构建初始的文本识别模型；文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层构成；获取多行文本图像集，并将多行文本图像集划分为训练集和测试集；多行文本图像集包括多个已标注文本字符的图像；文本字符是根据预设的字符序号映射表查询确定的；使用训练集对初始的文本识别模型进行训练，得到初步训练后的文本识别模型；使用测试集对初步训练后的文本识别模型进行测试调整，得到已训练的文本识别模型。

其中，字符序号映射表可以为字符与数字序号之间的映射关系表，例如，字符“a、b、c”映射的数字序号为“0、1、2”。需要说明的是，字符序号映射表可以为长度为T的字表Vob，用于在数据准备阶段和模型应用阶段，将标记字符串中的每个字符映射为字表Vob中的序号，其取值范围为[0，T-1]，不在字表中的字符，称为表外字符或未知字符，统一映射为T。

具体实现中，文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层CTC(Connectionist Temporal Classification)构成。服务器104可以在执行文本识别任务之前执行模型训练操作，也可在获取待识别图像之前执行模型训练操作，具体何时执行模型训练操作本申请实施例不做具体限定，但可以确定的是需要在调用已训练模型之前执行完模型训练任务。此外，模型训练任务的执行可以是由服务器104执行，也可以是由与服务器104建立有通信连接的其他设备，如终端102执行。

进一步地，要获取已训练的文本识别模型以供后续步骤使用，首先需构建初始的文本识别模型。然后，负责执行模型训练任务的服务器104或其他设备，还可获取用于训练模型的图像数据，构成多行文本图像集。此时，服务器104或其他设备可获取少量已标注多行文本字符的图像。然后对图像进行数据扩增，获取大量图像，作为后续模型训练所需的多行文本图像集。其中，本实施例中涉及的多行文本图像集获取步骤将在下文详细说明。

更进一步地，多行文本图像集可用于训练模型，包括但不局限于预训练和初步训练，多行文本图像集还可用于调试模型，包括但不局限于测试调整。其中，若有初步训练和测试调整的需求，则可在得到多行文本图像集之后，将多行文本图像集划分为训练集和测试集，以便使用训练集对初始的文本识别模型进行初步训练，进而使用测试集对初步训练后的文本识别模型进行测试调整，得到已训练的文本识别模型。

需要说明的是，本领域技术人员可选择的模型训练停止条件包括以下至少一项：(1)误差小于某个预先设定的较小的值；(2)两次迭代之间的权值变化已经很小，可设定一个阈值，当小于这个阈值后，就停止训练；(3)设定最大迭代次数，当迭代超过最大次数就停止训练，例如“200个周期”；(4)识别准确率达到某个预先设定的较大的值。本实施例中涉及的数据扩增步骤将下文详细说明。

在一个实施例中，获取多行文本图像集，包括：获取多行文本图像，并对多行文本图像进行文本字符标注，得到已标注文本字符的多行文本图像，作为候选文本图像；分析候选文本图像的图像格式、图像尺寸和/或图像特征；根据图像格式、图像尺寸以及图像特征中的至少一个，筛选出满足于预设模型训练条件的候选文本图像，作为目标文本图像；对目标文本图像进行数据扩增，统计得到多行文本图像集。

其中，数据扩增可视为将某一类型图片向另一种类型图片的平滑转换过程，本申请实施例中的数据扩增可以包括：透视变换、高斯模糊、加噪和HSV(hsvimage)通道颜色变换中的至少一种。除此之外，数据扩增还可包括：亮度调整、对比度调整、像素调整、角度调整、噪声调整、Mosaic增强、Mixup增强等。

具体实现中，用于标注文本字符的标注工具可以是基于Python语言编写的labellmg，其支持在Windows、Linux等跨平台运行，且对于指定的目标对象，如多行文本，可通过可视化的操作界面进行画框标出。

进一步地，服务器104获取多行文本图像集之前，可先获取多行文本图像，该多行文本图像可以是来源于终端102或其他设备的图像，也可以是服务器104预存于数据库中的图像。服务器104获取到多行文本图像之后，可利用上文所述的标注工具或其他对多行文本图像进行文本字符标注，以获取候选文本图像。

然而，此时得到的候选文本图像不能直接被用于构成多行文本图像集，因为其中极有可能包含不能被训练使用的图像，所以为了避免对训练效果产生影响，服务器104需要在获取到候选文本图像之后，需过滤掉无法正常读取，尺寸过小，重复等情况的异常图像，即分别获取候选文本图像的图像格式、图像尺寸、图像特征三种数据中的至少一种，以此筛选得到满足于预设模型训练条件的候选文本图像，作为目标文本图像。

更进一步地，由于不同品牌相机的成像模式、质量往往差别很大，使用特定类型图像训练的模型通常无法兼容其他类型的图像，进而导致模型识别精度不够。因此，本申请实施例提出可采用如上数据扩增策略之一或更多，对目标文本图像进行数据扩增，以使不同类型的图像分布更连续，从而提升模型的泛化能力，最终提高多行文本字符的识别准确率。

例如，随机给图片增加某一方向的运动模糊：如从“0-359”度中选一个方向，把图片X添加该方向的运动模糊，将添加运动模糊后的图片X分别输入进三个模型进行训练；随机增加高斯噪声：如使用python的imgaug库，将高斯噪声添加到图片X中，每个像素从正态分布N(0，0.05*255)采样一次，把添加高斯噪声后的图片X分别输入进三个模型进行训练。如此，使用上述数据扩增方式，能够使图片在不同相机的成像模式之间相互拟合，从而使模型熟悉各种成像模式，进而提升双行文本的识别准确率。

在一个实施例中，已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；其中，将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，包括：将归一化后的目标图像输入至已训练的文本识别模型，通过特征提取层对归一化后的目标图像进行特征提取，得到图像特征图；通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵；通过分类层对图像矩阵进行字符分类，得到字符分类向量；通过连接主义时间分类层对字符分类向量进行损失分析，得到字符匹配概率。

具体实现中，服务器104获取到归一化后的目标图像之后，可将其输入至已训练的文本识别模型，便于特征提取层、数据变换层、分类层以及CTC层顺序进行图像分析处理。其中，归一化后的目标图像尺寸是“H*W*C”，而“H、W”分别为高度、宽度和图片通道数，灰度图通常为“1”，彩色图通常为“3”。除此之外，归一化后的目标图像还含有图片标注“Label”，即标记字符串中字符在预设的字符序号映射表中序号组成的序列。

具体而言，特征提取层是指由通常意义上的卷积层、池化层、归一化层等通过邻层连接或跳跃连接组成的卷积网络，它在高度和宽度方向对输入图像均进行了预设倍数(如32倍)的下采样。它的输入为图片I，输出是一个三个维度的特征图F，其形状为[H_f,W_f,C_f](H_f＝H/32，W_f＝W/32，C_f为特征通道数)。由前述，此时的H_f是2的倍数。

进一步地，数据变换层的输入是特征提取层输出的特征图F，输出为一个二维的矩阵M，数据变换不改变总的数值个数(总数值个数为“H_f*W_f*C_f”)，只会改变矩阵的形状和内部数值排列顺序。分类层是一个全连接层(FC层)，输入维度为C_r(若使用循环网络层，循环网络层将在下文解释)或C_f(若不使用循环网络层)，输出维度为“T+2”，分别对应分类为字表中字符(数量为T，对应类别序号范围为[0，T-1])、未知字符(对应类别序号T)以及空白或非字符(记为CTC_Blank，对应类别序号T+1)的情况。将R(若不使用RNN层，就令矩阵M按它的第一维展开得到的一列向量为R)中的每个向量经过分类层，得到一列维度为T+2的分类向量P。CTC层是专门计算CTC损失的，它的输入是分类层得到的一列分类向量P和图片标注Label，输出是一个数值ctc_loss，表示CTC损失。通过ctc_loss对模型各变量求导即可优化模型参数。

更进一步地，上文已详细说明各层作用，实际应用中，将目标图像按照前文的方法归一化后，输入已训练的文本识别模型，从分类层得到一列分类向量P，每个向量表示T+2个类别的概率，即字符匹配概率，取最大概率位置对应的字符，得到一列字符。如此，再去除上文所述的“CTC_Blank”并合并相邻的相同字符就得到了最终结果，即为待识别图像所含多行文本的文本字符。

在一个实施例中，已训练的文本识别模型还包括循环网络层；其中，在通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵之后，还包括：通过循环网络层对图像矩阵进行序列分析，得到目标矩阵向量；其中，目标矩阵向量用于通过分类层进行字符分类。

具体实现中，已训练的文本识别模型还可设置循环网络层(Recurrent NeuralNetwork，RNN)，RNN层的输入为M按其第一维展开成的维度为C_f的向量序列，将这个序列视作RNN层中输入的时序序列，每一时刻网络输出一个维度为C_r的向量，最终得到新的一列向量R，列长为2*W_f。

在一个实施例中，数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；其中，通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵，包括：通过维度拆分网络对图像特征图进行维度拆分，得到拆分后的图像特征图；通过维度交换网络对拆分后的图像特征图进行维度交换，得到交换后的图像特征图；通过维度合并网络对交换后的图像特征图进行维度合并，得到图像矩阵。

具体实现中，维度交换改变排列顺序，不改变总的维度数，例如将一个2*3的矩阵[[1,2,3],[4,5,6]]的两个维度进行交换就变成了3*2的矩阵[[1,4],[2,5],[3,6]]。维度拆分合并不改变排列顺序，而增加或者减少总的维度数，以维度合并为例，维度合并是指合并相邻维度为一个维度，例如将矩阵3*2的矩阵[[1,4],[2,5],[3,6]]的两个维度合并，就变为了[1,4,2,5,3,6]；维度拆分是相反变化。从形状角度来看其变换规则如下：

具体而言，变换规则的左侧表示的是特征图F的三个维度，右侧表示的是矩阵M的两个维度[2*W_f,C_w](令H_f/2*C_f＝C_w)。

S204，根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

具体实现中，可参阅图5，分析字符匹配概率，如“0.2、0.35、0.57、0.22……0.9”，进而筛选出其中的概率最大值，选取概率最大值对应的序号锁定映射字符，即可确定待识别图像中所含多行文本的文本字符。

上述实施例中包含多行文本的图像识别方法，服务器通过获取待识别图像，可响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像，进而将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，即可根据字符匹配概率，确定待识别图像所含多行文本的文本字符；其中，已训练的文本识别模型包括用于对归一化后的目标图像进行特征维度分析的数据变换层。如此，将多行文本作为整体一起检测识别，即可避免图像中的文本行硬检测，进而提高图像所含多行文本的字符识别准确率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了更好实施本申请实施例提供的包含多行文本的图像识别方法，在本申请实施例所提出的包含多行文本的图像识别方法的基础之上，本申请实施例中还提供了一种包含多行文本的图像识别装置，如图6所示，该包含多行文本的图像识别装置600包括：

图像获取模块610，用于获取待识别图像；

图像处理模块620，用于响应于待识别图像为包含多行文本的目标图像，对目标图像进行归一化处理，得到归一化后的目标图像；

文本识别模块630，用于将归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，已训练的文本识别模型包括数据变换层，数据变换层用于对归一化后的目标图像进行特征维度分析；

字符确定模块640，用于根据字符匹配概率，确定待识别图像所含多行文本的文本字符。

在一个实施例中，已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；文本识别模块630还用于将归一化后的目标图像输入至已训练的文本识别模型，通过特征提取层对归一化后的目标图像进行特征提取，得到图像特征图；通过数据变换层对图像特征图进行特征维度分析，得到图像矩阵；通过分类层对图像矩阵进行字符分类，得到字符分类向量；通过连接主义时间分类层对字符分类向量进行损失分析，得到字符匹配概率。

在一个实施例中，已训练的文本识别模型还包括循环网络层；文本识别模块630还用于通过循环网络层对图像矩阵进行序列分析，得到目标矩阵向量；其中，目标矩阵向量用于通过分类层进行字符分类。

在一个实施例中，数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；文本识别模块630还用于通过维度拆分网络对图像特征图进行维度拆分，得到拆分后的图像特征图；通过维度交换网络对拆分后的图像特征图进行维度交换，得到交换后的图像特征图；通过维度合并网络对交换后的图像特征图进行维度合并，得到图像矩阵。

在一个实施例中，包含多行文本的图像识别装置600还包括模型训练模块，用于构建初始的文本识别模型；文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层构成；获取多行文本图像集，并将多行文本图像集划分为训练集和测试集；多行文本图像集包括多个已标注文本字符的图像；文本字符是根据预设的字符序号映射表查询确定的；使用训练集对初始的文本识别模型进行训练，得到初步训练后的文本识别模型；使用测试集对初步训练后的文本识别模型进行测试调整，得到已训练的文本识别模型。

在一个实施例中，模型训练模块还用于获取多行文本图像，并对多行文本图像进行文本字符标注，得到已标注文本字符的多行文本图像，作为候选文本图像；分析候选文本图像的图像格式、图像尺寸和/或图像特征；根据图像格式、图像尺寸以及图像特征中的至少一个，筛选出满足于预设模型训练条件的候选文本图像，作为目标文本图像；对目标文本图像进行数据扩增，统计得到多行文本图像集。

在一个实施例中，图像处理模块620还用于调用已训练的文本检测模型，已训练的文本检测模型包括EAST模型；将待识别图像输入至已训练的文本检测模型，得到模型输出结果；响应于模型输出结果为多行文本矩形框，确定待识别图像为包含多行文本的目标图像；基于预设的插值方法，对目标图像进行归一化处理，得到归一化后的目标图像。

上述实施例中，提出将多行文本作为整体一起检测识别，即可避免图像中的文本行硬检测，进而提高图像所含多行文本的字符识别准确率。

需要说明的是，关于包含多行文本的图像识别装置的具体限定可以参见上文中对于包含多行文本的图像识别方法的限定，在此不再赘述。上述包含多行文本的图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，包含多行文本的图像识别装置600可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该包含多行文本的图像识别装置600的各个程序模块，比如，图6所示的图像获取模块610、图像处理模块620、文本识别模块630以及字符确定模块640；各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的包含多行文本的图像识别方法中的步骤。例如，图7所示的计算机设备可以通过如图6所示的包含多行文本的图像识别装置600中的图像获取模块610执行步骤S201。计算机设备可通过图像处理模块620执行步骤S202。计算机设备可通过文本识别模块630执行步骤S203。计算机设备可通过字符确定模块640执行步骤S204。其中，该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种包含多行文本的图像识别方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括一个或多个处理器；存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行上述包含多行文本的图像识别方法的步骤。此处包含多行文本的图像识别方法的步骤可以是上述各实施例的包含多行文本的图像识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器进行加载，使得处理器执行上述包含多行文本的图像识别方法的步骤。此处包含多行文本的图像识别方法的步骤可以是上述各个实施例的包含多行文本的图像识别方法中的步骤。

本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例提供的一种包含多行文本的图像识别方法、装置及计算机设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种包含多行文本的图像识别方法，其特征在于，包括：

获取待识别图像；

响应于所述待识别图像为包含多行文本的目标图像，对所述目标图像进行归一化处理，得到归一化后的目标图像；

将所述归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，所述已训练的文本识别模型包括用于对所述归一化后的目标图像进行特征维度分析的数据变换层；

根据所述字符匹配概率，确定所述待识别图像所含多行文本的文本字符。

2.如权利要求1所述的方法，其特征在于，所述已训练的文本识别模型包括特征提取层、数据变换层、分类层以及连接主义时间分类层；其中，

所述将所述归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率，包括：

将所述归一化后的目标图像输入至所述已训练的文本识别模型，通过所述特征提取层对所述归一化后的目标图像进行特征提取，得到图像特征图；

通过所述数据变换层对所述图像特征图进行特征维度分析，得到图像矩阵；

通过所述分类层对所述图像矩阵进行字符分类，得到字符分类向量；

通过所述连接主义时间分类层对所述字符分类向量进行损失分析，得到所述字符匹配概率。

3.如权利要求2所述的方法，其特征在于，所述已训练的文本识别模型还包括循环网络层；其中，

在所述通过所述数据变换层对所述图像特征图进行特征维度分析，得到图像矩阵之后，还包括：

通过所述循环网络层对所述图像矩阵进行序列分析，得到目标矩阵向量；其中，所述目标矩阵向量用于通过所述分类层进行字符分类。

4.如权利要求3所述的方法，其特征在于，所述数据变换层包括维度拆分网络、维度交换网络以及维度合并网络；其中，

所述通过所述数据变换层对所述图像特征图进行特征维度分析，得到图像矩阵，包括：

通过所述维度拆分网络对所述图像特征图进行维度拆分，得到拆分后的图像特征图；

通过所述维度交换网络对所述拆分后的图像特征图进行维度交换，得到交换后的图像特征图；

通过所述维度合并网络对所述交换后的图像特征图进行维度合并，得到所述图像矩阵。

5.如权利要求1所述的方法，其特征在于，在所述将所述归一化后的目标图像输入至已训练的文本识别模型之前，还包括：

构建初始的文本识别模型；所述文本识别模型由特征提取层、数据变换层、分类层以及连接主义时间分类层构成；

获取多行文本图像集，并将所述多行文本图像集划分为训练集和测试集；所述多行文本图像集包括多个已标注文本字符的图像；所述文本字符是根据预设的字符序号映射表查询确定的；

使用所述训练集对所述初始的文本识别模型进行训练，得到初步训练后的文本识别模型；

使用所述测试集对所述初步训练后的文本识别模型进行测试调整，得到所述已训练的文本识别模型。

6.如权利要求5所述的方法，其特征在于，所述获取多行文本图像集，包括：

获取多行文本图像，并对所述多行文本图像进行文本字符标注，得到已标注文本字符的多行文本图像，作为候选文本图像；

分析所述候选文本图像的图像格式、图像尺寸和/或图像特征；

根据所述图像格式、所述图像尺寸以及所述图像特征中的至少一个，筛选出满足于预设模型训练条件的候选文本图像，作为目标文本图像；

对所述目标文本图像进行数据扩增，统计得到所述多行文本图像集。

7.如权利要求1所述的方法，其特征在于，所述响应于所述待识别图像为包含多行文本的目标图像，对所述目标图像进行归一化处理，得到归一化后的目标图像，包括：

调用已训练的文本检测模型，所述已训练的文本检测模型包括EAST模型；

将所述待识别图像输入至所述已训练的文本检测模型，得到模型输出结果；

响应于所述模型输出结果为多行文本矩形框，确定所述待识别图像为包含多行文本的目标图像；

基于预设的插值方法，对所述目标图像进行归一化处理，得到所述归一化后的目标图像。

8.一种包含多行文本的图像识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

图像处理模块，用于响应于所述待识别图像为包含多行文本的目标图像，对所述目标图像进行归一化处理，得到归一化后的目标图像；

文本识别模块，用于将所述归一化后的目标图像输入至已训练的文本识别模型，输出字符匹配概率；其中，所述已训练的文本识别模型包括用于对所述归一化后的目标图像进行特征维度分析的数据变换层；

字符确定模块，用于根据所述字符匹配概率，确定所述待识别图像所含多行文本的文本字符。

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7中任一项所述的包含多行文本的图像识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的包含多行文本的图像识别方法中的步骤。