WO2019192397A1

WO2019192397A1 - 一种任意形状的场景文本端到端识别方法

Info

Publication number: WO2019192397A1
Application number: PCT/CN2019/080354
Authority: WO
Inventors: 白翔; 吕鹏原; 廖明辉; 姚聪; 储佳佳
Original assignee: 华中科技大学
Priority date: 2018-04-04
Filing date: 2019-03-29
Publication date: 2019-10-10
Also published as: CN108549893B; CN108549893A

Abstract

一种任意形状的场景文本端到端识别方法，通过特征金字塔网络提取文本特征，用于区域提取网络生成候选文本框；然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息；其次将包围盒位置信息输入分割分支，通过像素投票算法得到预测字符序列；最后通过加权编辑距离算法对预测的字符序列进行处理，找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本，包括水平文本、多方向文本和曲形文本，并且可以完全地进行端到端训练。该检测识别方法有很强的实际应用价值。

Description

一种任意形状的场景文本端到端识别方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种任意形状的场景文本端到端识别方法。

背景技术

在计算机视觉领域中，场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向，很多现实生活中的应用都和它息息相关，例如基于图片的地理定位、实时翻译和盲人帮助等。

场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本，即分为检测和识别两个任务。在过去的大多数研究中，文本检测和识别都是分开处理的，即第一步使用训练好的检测器检测自然场景图片中的文字区域，第二步则将第一步检测出的文字区域输入识别模块进行识别，获取文字内容。但由于这两个任务是高度相关和互补的，一方面，检测步骤的质量决定了识别的准确性；另一方面，识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。

最近，有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性，这些统一模型显著优于以前的方法。但是，这两种方法有两个主要缺点，首先，它们都不能完全以端对端的方式进行训练。其次，这些方法只能识别水平文本或定向文本，但实际场景图片中的文本的形状可能会存在显著变化，从水平或定向变为弯曲形式。因此需要设计一种可以处理任意形状的场景文本的端到端识别方法。

发明内容

本发明的目的在于提供一种任意形状的场景文本端到端识别方法，该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本；通过二维空间中的语义分割来识别文本，实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。

为实现上述目的，本发明从一个全新的视角来解决场景文字检测识别问题，提供了一种任意形状的场景文本的端到端识别方法，包括下述步骤：

(1)训练任意形状的场景文本端到端识别网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注，标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列，得到带标注的标准训练数据集；

(1.2)定义任意形状的场景文本端到端识别网络模型，所述检测识别网络模型由特征金字塔结构网络，区域提取网络、快速区域分类回归分支网络，分割分支网络组成。根据(1.1)带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传导方法训练该任意形状的场景文本端到端识别网络，得到任意形状的场景文本端到端识别网络模型；具体包括如下子步骤：

(1.2.1)构建任意形状的场景文本端到端识别网络模型，所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成；其中，所述特征金字塔结构网络如图3所示，以 ResNet-50深度卷积神经网络为基础网络，通过增加一个自底向上的连接，一个自顶向下的连接和一个横向连接组成，用于从输入标准数据集图片中提取融合不同分辨率的特征；将提取的不同尺度的特征输入到区域提取网络得到候选文本区域，经过感兴趣区域对齐操作后，得到固定尺度的候选文本区域，分别输入到快速区域分类回归分支和分割分支网络；将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络，通过分类分支预测输入的候选文本区域为正样本的概率，提供更准确的候选文本区域，通过回归分支计算候选文本区域相对于真实文本区域的偏移量，调整候选文本区域位置；分割分支网络如图4所示，由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成，将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支，通过卷积与反卷积操作，最终生成38个分辨率为32×128的目标分割图层；其中包括1个全局文本实例分割图层用于预测文本区域的具***置，36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。

(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒，为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签：对于带标注的标准训练数据集Itr，输入图片真实标签包含表示文本区域的多边形P＝{p ₁，p ₂…p _m}和表示字符的类别和位置的字符标签C＝{c ₁＝(cc ₁，cl ₁)，c ₂＝(cc ₂，cl ₂)，…，c _n＝(cc _n，cl _n)}，对于输入图片Itr _i，其中，P _i是图片Itr _i中文本区域的多边形包围盒，p _ij＝(x _ij，y _ij)是多边形P _i第j个顶点的坐标，m表示多边形文本标注框的数目，cc _k和cl _k分别是文本中第k个字符的类别和位置，在本发明中，C不是对于所有训练样本都是必需的。

对于所给的标准数据集Itr，首先将数据集标签中的多边形P＝{p ₁，p ₂…p _m}转换为多边形文本标注框的最小水平矩形包围盒，以矩形的中心点(x，y)以及高度h和宽度w来表示该矩形包围盒G _d(x，y，h，w)；对于区域提取网络，根据标注数据集的标注包围盒G _d(x，y，h，w)，以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图，根据区域提取网络预测的候选文本区域产生许多初始包围盒，计算初始包围盒Q ₀相对于标注数据集的标注包围盒G _d的位置偏移量和类别，当所有的标注包围盒G _d与初始包围盒Q ₀的Jaccard系数均小于0.5，那么，初始包围盒Q ₀被标记为负类非文本，类别标签P _rpn取值为0；否则，即至少存在一个标注包围盒G _d与Q ₀的Jaccard系数不小于0.5，Q ₀被标记为正类文本，类别标签P _rpn取值为1，并相对于Jaccard系数最大的标注盒来计算位置偏移量，公式如下：

x＝x ₀+w ₀Δx

y＝y ₀+h ₀Δy

w＝w ₀exp(Δw)

h＝h ₀exp(Δh)

其中，x ₀、y ₀分别为初始包围盒Q ₀的中心点的横坐标、纵坐标，w ₀、h ₀分别为初始包围盒Q ₀的宽度和高度，Δx、Δy分别为Q ₀的中心点相对于G _d的中心点的横、纵坐标位置偏移量，exp为指数运算，即可得区域提取网络的训练标签为：

gt _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn)

对于快速区域分类回归分支网络，同理，可计算得训练标签为：gt _rcnn＝(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn，P _rcnn)

对于分割分支网络，需生成两种类型的目标标签：用于文本实例分割的全局标签和用于字符语义分割的字符标签；对于给定的一个正候选文本框r，首先最佳匹配的水平矩形，进一步获得匹配的多边形以及字符框，接下来，将匹配的多边形和字符框进行移位和调整大小，以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐：

其中，(r _x,r _y)为候选文本框r的顶点，(B _x,B _y)和

是多边形和所有字符框的更新顶点和原始顶点，具体地，r _x分别为候选文本框r的所有顶点的横坐标的集合，r _y为候选文本框r的所有顶点的纵坐标的集合，B _x,

B _y,

同理，随后，通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签X _g，对于字符标签，通过以中心为原点，缩小标准化字符框至原点框尺寸的八分之一，避免字符掩膜相互重叠，再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签X _c，如果C不存在，则字符图层中的所有像素均设置为-1，并且在优化时将被忽略，最终得到分割分支整体标签gt _mask＝X，综合上述标签gt _rpn，gt _rcnn，gt _mask，生成最终的训练标签为：

gt＝{Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn，Δx _rcnn，Δy _rcnn， Δh _rcnn，Δw _rcnn，P _rcnn，X}；

(1.2.3)以标准训练数据集I _tr作为识别网络模型的输入，利用特征金字塔网络模块提取特征:将标准训练数据集I _tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中，以网络中不改变特征图大小的卷积层单元定义为一个层级，即层级{P2，P3，P4，P5，P6}，提取出每个层级的最后输出的卷积特征F；特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征，特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2，F3，F4，F5，F6}，过程如图3所示。

(1.2.4)将特征金字塔网络提取的特征输入区域提取网络，经过锚点分配，利用感兴趣区域对齐方法调整特征图，生成候选文本框：

对于输入图片Itr _k，经过特征金字塔网络提取出5个阶段特征{F2，F3，F4，F5，F6}，根据阶段{P2，P3，P4，P5，P6}定义锚在不同阶段特征尺度为{32 ²，64 ²，128 ²，256 ²，512 ²}，而每个尺度层都有3个长宽比{1:2，1:1，2:1}；即可提取出不同尺度和比例的15个特征图{Ftr ₁，Ftr ₂，…，Ftr ₁₅}，记为Ftr _p，下标p＝1，…，15；

通过感兴趣区域对齐操作，对特征Ftr _p生成固定尺度的候选文本区域，其中，为区域提取网络生成分辨率为7×7候选文本区域R _rcnn，为分割分支生成分辨率为16×64的候选文本区域R _mask；并通过分类预测每个候选文本框为正确文本区域包围盒的概率P _rpn，通过回归预测候选文本框偏移量：

Y _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn)。

(1.2.5)将区域提取网络生成的尺寸为(7*7)的候选文本区域R _rcnn输入快速区域分类回归分支网络模块，经过分类和回归两个分支，计算损失函数，并反向传导，最终生成预测文本包围盒：区域提取网络分为分类和回归两个网络分支，将大小为7×7的候选文本区域R _rcnn输入分类分支，通过卷积操作输出预测包围盒的分类得分P _rcnn，即预测包围盒为正类文本框的概率，取值为[0，1]之间的小数；将R _rcnn输入回归分支，输出4个[0，1]之间的小数组成的预测回归偏移量Y _rcnn＝(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn)，作为预测包围盒G _q被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒G _d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。

(1.2.6)将区域提取网络生成的尺寸为(16*64)的候选文本区域R _mask输入分割分支网络模块，基于实例分割和语义分割操作生成38张目标分割图层：分割分支网络模块包括4个卷积层Conv1，Conv2，Conv3，Conv4，一个反卷积层DeConv，和一个最终卷积层Conv5；区域提取网络生成的尺寸为16×64的候选文本框R _mask输入分割分支模块，经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{M _global，M ₁，M ₂，…，M ₃₆，M _background}，输出图层中每个像素的像素值X，取值在[0，1]之间。输出图层中全局分割图层M _global可直接预测出文本区域多边形Pm＝{pm ₁，pm ₂…pm _n}，字符分割图层{M ₁，M ₂，…，M ₃₆}和字符背景分割图层M _background可根据像素投票算法来预测字符序列S _q。

(1.2.7)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数：以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出，以步骤(1.2.4)(1.2.5)和(1.2.6)中的预测标签

为网络预测输出，针对(1.2.1)构建的网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成，整体目标损失函数表达式如下：

L(P _rpn，Y _rpn，P _rcnn，Y _rcnn，X)＝L _rpn(P _rpn，Y _rpn)+α ₁L _rcnn(P _rcnn，Y _rcnn)+α ₂L _mask(X)

其中，L _rpn(P _rpn，Y _rpn)为区域提取网络的损失函数，L _rcnn(P _rcnn，Y _rcnn)为快速区域分类回归分支网络的损失函数，L _mask(X)为分割分支网络的损失函数。α ₁，α ₂分别为损失函数L _rcnn和L _mask的权重系数，简单设置为1；

根据设计的整体目标损失函数，利用反向传播算法对模型进行迭代训练，最小化整体目标损失函数，实现最优网络模型，针对场景文字检测识别任务，在训练过程中首先使用合成文本数据集(SynthText)上迭代训练，得到初始的网络参数；然后在真实数据集上进行训练微调网络参数。

利用上述训练好的模型对待识别文本图片进行文字识别，包括如下子步骤：

(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域，并对其进行非最大值抑制操作进行过滤，得到更准确的候选文本区域：对于待检测数据集I _tst里的第k张图片Itst _k，将其输入到步骤(1.2)训练好的模型中，经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络，对每个初始包围盒G _q，分类分支会输出由分类得分预测值P _rcnn，作为初始包围盒G _q被预测为正类样本的得分；回归分支会输出由4个小数组成的预测回归偏移量Y _rcnn(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn)，作为G _q被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒G _d中心点横坐标、纵坐标和高度和宽度的位置偏移量，根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Q _z；

对预测的文本包围盒Q _z进行非最大值抑制操作进行过滤，得到输出结果：网络模型对特征图Ftst _p上每个预测为正类文本的初始包围盒Q ₀都会回归出水平四边形位置，同一张测试图片Itst _k上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况，这时就要对所有正类文本四边形位置做非最大值抑制操作，具体步骤是：1)对预测到的的文本包围盒，当且仅当文本分类得分P _rcnn≥0.5时，该检测文本框才被保留；2)对上一步保留的文本框，按照Jaccard系数0.2进行非最大值抑制操作(NMS)，得到最后保留的正类文本四边形包围盒。

(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割，分别生成全局文本实例分割掩膜和字符分割掩膜，通过计算全局文本实例分割掩膜上文本区域的轮廓，获得多边形单词文本区域，通过在字符分割掩膜利用像素投票算法预测得到字符序列：将预测的四边形文本包围盒位置Q _z输入分割分支生成38个目标分割图层，首先通过全局文本实例分割掩膜，直接计算文本区域的轮廓，获得文本区域的多边形。其次，利用像素投票算法生成字符序列S _q。

对于36个字符分割图层{M ₁，M ₂，…，M ₃₆}，第i个分割图层上一个像素的值p _ci(x，y)代表着全局文本分割图层对应位置像素p _g(x，y)是字符z _i的概率，z _i为36个字符{0，1，...，9，a，b，...，z}中的第i个，且36个字符分割图层对应像素位置的概率和为1，即

对于字符背景分割图层M _background，首先对其进行二值化处理，然后在二值化的背景图上定义背景图层上的字符区域集合为R＝{r ₁，r ₂，，…，r _n}其中，r _i为字符背景分割图层上第i个字符区域，n为背景分割图层上所有的字符数目；

像素投票算法过程如下：首先，将36张字符分割图层中与字符背景分割图层中的字符区域r _i应连通区域集合定义为C _i＝{c _i1，c _i2，…，c _i36}其中，c _ij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块，则对于区域r _i以及对应连通区域C _i，利用像素投票算法求其预测字符步骤为：首先，计算对连接区域C _i内c _ij所有像素的值求平均值，其次，求出具有最大平均值的那个c _{ij_max}所在的字符图层M _{j_max}对应的字符类别z _{j_max}则为这个字符区域的预测字符，最后，对字符背景分割图层中每个的字符区域r _i进行如上操作，得到最终的预测字符序列S _q。

(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理，找到给定词典中预测序列的最匹配单词，得到最终识别结果：在像素投票阶段，可以获得预测序列中每个字符区域的所有字符类别的概率，根据概率为删除、***、替换操作定义不同的权重。对于删除操作，成本是字符被预测为当前被删除字符的概率；对于***操作，成本是与字符***位置相邻的两个字符的平均概率；对于替换操作，计算成本为：max(1-s1/s2，0)，其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归，对删除、***、替换定义不同的权重，对预测的单词进行调整，提高准确率，得到最终的识别结果。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)准确度高：该发明针对场景文本中任意形状的文本识别问题，创新性地利用实例分割来检测文本，语义分割识别文本，更精确地检测文本位置和识别文本。

(2)速度快：该发明提出的检测识别模型在保证检测和识别精度的同时，训练速度较快。

(3)通用性强：该发明一个端到端的可训练文本检测识别模型，不仅可以同时检测和识别文本，实现完全端到端训练，还能处理各种形状的文本，包括水平，定向和曲线文本；

(4)鲁棒性强：本发明可以克服文本尺度和形状的变化，能同时检测识别水平，定向和曲线文本。

附图说明

图1是本发明一种任意形状的场景文本端到端识别方法的流程图，其中，实线箭头表示训练，虚线箭头表示测试；

图2是本发明任意形状的场景文本端到端识别网络模型图；

图3是本发明任意形状的场景文本端到端识别模型中特征金字塔结构模块的网络结构示意图；

图4是本发明任意形状的场景文本端到端识别模型中分割分支网络结构图；

图5是本发明测试部分像素投票算法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

ResNet-50：一种可用于分类的神经网络，该网络主要由50层卷积层、池化层、shortcut连接层组成。卷积层用于提取图片特征；池化层的作用是降低卷积层输出的特征向量的维度，减少过拟合；shortcut连接层用于传递梯度解决消失和***梯度问题。网络参数可以通过反向传导算法，进行更新；

区域提取网络：一种用于生成候选文本区域的网络，通过使用一个滑动窗口在提取特征图上生成高度为特定维度的全连接特征，并据此生成两个全连接分支分类和回归候选文本区域，最终根据不同的锚点和比例为后续网络生成不同尺度比例的候选文本区域。

Jaccard系数：Jaccard系数用于比较有限样本集之间的相似性与差异性，在文本检测领域，Jaccard系数被默认为等同于IOU，即两个框的相交面积 /合并面积，描述模型产生的预测文本框和原来标注文本框的交叠率，IOU越大，重叠度越高，检测越准确。

非最大值抑制(NMS)：非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

如图1所示，本发明任意形状的场景文本端到端识别方法包括以下步骤：

(1.2.1)构建任意形状的场景文本端到端识别网络模型，所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成；其中，所述特征金字塔结构网络如图3所示，以ResNet-50深度卷积神经网络为基础网络，通过增加一个自底向上的连接，一个自顶向下的连接和一个横向连接组成，用于从输入标准数据集图片中提取融合不同分辨率的特征；将提取的不同尺度的特征输入到区域提取网络得到候选文本区域，经过感兴趣区域对齐操作后，得到固定尺度的候选文本区域，分别输入到快速区域分类回归分支和分割分支网络；将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络，通过分类分支预测输入的候选文本区域为正样本的概率，提供更准确的候选文本区域，通过回归分支计算候选文本区域相对于真实文本区域的偏移量，调整候选文本区域位置；分割分支网络如图4所示，由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成，将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支，通过卷积与反卷积操作，最终生成38个分辨率为32×128的目标分割图层；其中包括1个全局文本实例分割图层用于预测文本区域的具***置，36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。

x＝x ₀+w ₀Δx

y＝y ₀+h ₀Δy

w＝w ₀exp(Δw)

h＝h ₀exp(Δh)

gt _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn)

对于快速区域分类回归分支网络，同理，可计算得训练标签为：

gt _rcnn＝(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn，P _rcnn)

其中，(r _x,r _y)为候选文本框r的顶点，(B _x,B _y)和

B _y,

gt＝{Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn，Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn，P _rcnn，X}；

Y _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn)。

(1.2.7)以训练标签gt为网络期望输出，以预测标签

(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理，找到给定词典中预测序列的最匹配单词，得到最终识别结果：在像素投票阶段，可以获得预测序列中每个字符区域的所有字符类别的概率，根据概率为删除、***、替换操作定义不同的权重。对于删除操作，成本是字符被预测为当前被删除字符的概率；对于***操作，成本是与字符***位置相邻的两个字符的平均概率；对于替换操作，计算成本为：max(1-s1/s2， 0)，其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归，对删除、***、替换定义不同的权重，对预测的单词进行调整，提高准确率，得到最终的识别结果。

Claims

一种任意形状的场景文本端到端识别方法，其特征在于，所述方法包括下述步骤：

(1)训练任意形状的场景文本端到端识别网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注，标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列，得到带标注的标准训练数据集；

(1.2)定义任意形状的场景文本端到端识别网络模型，根据(1.1)带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传导方法训练该场景文本端到端识别网络，得到场景文本端到端识别网络模型；包括：

(1.2.1)构建任意形状的场景文本端到端识别网络模型，所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成；

(1.2.2)根据特征图在原图上产生水平初始包围盒，为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签；

(1.2.3)以标准训练数据集I _tr作为识别网络模型的输入，利用特征金字塔网络模块提取特征；

(1.2.4)将特征金字塔网络提取的特征输入区域提取网络，经过锚点分配，利用感兴趣区域对齐方法调整特征图，生成候选文本框；

(1.2.5)将候选文本框输入快速区域分类回归网络模块，经过分类和回归两个分支，计算损失函数并反向传导，最终生成预测文本包围盒；

(1.2.6)将候选文本框输入分割分支网络模块，基于实例分割和语义分割，生成目标分割图层；

(1.2.7)以训练标签gt为网络期望输出，以预测标签
为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数；

(2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别，包括如下子步骤：

(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域，并对其进行非最大值抑制操作进行过滤，得到更准确的候选文本区域；

(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割，分别生成全局文本实例分割掩膜和字符分割掩膜，通过计算全局文本实例分割掩膜上文本区域的轮廓，获得多边形单词文本区域，通过在字符分割掩膜利用像素投票算法预测得到字符序列；

(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理，找到给定词典中预测序列的最匹配单词，得到最终识别结果。
根据权利要求1所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.1)中的检测识别网络模型具体为：

所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成；其中，所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络，通过增加一个自底向上的连接，一个自顶向下的连接和一个横向连接组成，用于从输入标准数据集图片中提取融合不同分辨率的特征；将提取的不同尺度的特征输入到区域提取网络得到候选文本区域，经过感兴趣区域对齐操作后，得到固定尺度的候选文本区域，分别输入到快速区域分类回归分支和分割分支网络；将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络，通过分类分支预测输入的候选文本区域为正样本的概率，提供更准确的候选文本区域，通过回归分支计算候选文本区域相对于真实文本区域的偏移量，调整候选文本区域位置；分割分支网络由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成，将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支，通过卷积与反卷积操作，最终生成38个分辨率为32×128的目标分割图层；其中包括1个全局文本实例分割图层用于预测文本区域的具***置，36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.2)具体为：

对于带标注的标准训练数据集Itr，输入图片真实标签包含表示文本区域的多边形P＝{p ₁，p ₂…p _m}和表示字符的类别和位置的字符标签C＝{c ₁＝(cc ₁，cl ₁)，c ₂＝(cc ₂，cl ₂)，…，c _n＝(cc _n，cl _n)}，对于输入图片Itr _i，其中，P _i是图片Itr _i中文本区域的多边形包围盒，p _ij＝(x _ij，y _ij)是多边形P _i第j个顶点的坐标，m表示多边形文本标注框的数目，cc _k和cl _k分别是文本中第k个字符的类别和位置；

对于所给的标准数据集Itr，首先将数据集标签中的多边形P＝{p ₁，p ₂…p _m}转换为多边形文本标注框的最小水平矩形包围盒，以矩形的中心点(x，y)以及高度h和宽度w来表示该矩形包围盒G _d(x，y，h，w)；对于区域提取网络，根据标注数据集的标注包围盒G _d(x，y，h，w)，以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图，根据区域提取网络预测的候选文本区域产生许多初始包围盒，计算初始包围盒Q ₀相对于标注数据集的标注包围盒G _d的位置偏移量和类别，当所有的标注包围盒G _d与初始包围盒Q ₀的Jaccard系数均小于0.5，那么初始包围盒Q ₀被标记为负类非文本，类别标签P _rpn取值为0；否则，即至少存在一个标注包围盒G _d与Q ₀的Jaccard系数不小于0.5，Q ₀被标记为正类文本，类别标签P _rpn取值为1，并相对于Jaccard系数最大的标注盒来计算位置偏移量，公式如下：

x＝x ₀+w ₀Δx

y＝y ₀+h ₀Δy

w＝w ₀exp(Δw)

h＝h ₀exp(Δh)

其中，x ₀、y ₀分别为初始包围盒Q ₀的中心点的横坐标、纵坐标，w ₀、h ₀分别为初始包围盒Q ₀的宽度和高度，Δx、Δy分别为Q ₀的中心点相对于G _d的中心点的横、纵坐标位置偏移量，exp为指数运算，即可得区域提取网络的训练标签为：

gt _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn)

对于快速区域分类回归分支网络，同理，可计算得训练标签为：

gt _rcnn＝(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn，P _rcnn)；

对于分割分支网络，需生成两种类型的目标标签：用于文本实例分割的全局标签和用于字符语义分割的字符标签；对于给定的一个正候选文本框r，首先最佳匹配的水平矩形，进一步获得匹配的多边形以及字符框，接下来，将匹配的多边形和字符框进行移位和调整大小，以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐：

其中，(r _x,r _y)为候选文本框r的顶点，(B _x,B _y)和
是多边形和所有字符框的更新顶点和原始顶点，具体地，r _x分别为候选文本框r的所有顶点的横坐标的集合，r _y为候选文本框r的所有顶点的纵坐标的集合，B _x,
B _y,
同理，随后，通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签X _g，对于字符标签，通过以中心为原点，缩小标准化字符框至原点框尺寸的八分之一，避免字符掩膜相互重叠，再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签X _c，如果C不存在，则字符图层中的所有像素均设置为-1，并且在优化时将被忽略，最终得到分割分支整体标签gt _mask＝X，综合上述标签gt _rpn，gt _rcnn，gt _mask，生成最终的训练标签为：

gt＝{Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn，P _rpn，Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn，P _rcnn，X}；
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.3)具体为：

将标准训练数据集I _tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中，以网络中不改变特征图大小的卷积层单元定义为一个层级，即层级{P2，P3，P4，P5，P6}，提取出每个层级的最后输出的卷积特征F；特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征，特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2，F3，F4，F5，F6}。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.4)具体为：

对于输入图片Itr _k，经过特征金字塔网络提取出5个阶段特征{F2，F3，F4，F5，F6}，根据阶段{P2，P3，P4，P5，P6}定义锚在不同阶段特征尺度为{32 ²，64 ²，128 ²，256 ²，512 ²}，而每个尺度层都有3个长宽比{1:2，1:1，2:1}；即可提取出不同尺度和比例的15个特征图{Ftr ₁，Ftr ₂，…，Ftr ₁₅}，记为Ftr _p，下标p＝1，…，15；

通过感兴趣区域对齐操作，对特征Ftr _p生成固定尺度的候选文本区域，其中为区域提取网络生成分辨率为7×7候选文本区域R _rcnn，为分割分支生成分辨率为16×64的候选文本区域R _mask；并通过分类预测每个候选文本框为正确文本区域包围盒的概率P _rpn，通过回归预测候选文本框偏移量Y _rpn＝(Δx _rpn，Δy _rpn，Δh _rpn，Δw _rpn)。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.5)具体为：

区域提取网络分为分类和回归两个网络分支，将大小为7×7的候选文本区域R _rcnn输入分类分支，通过卷积操作输出预测包围盒的分类得分P _rcnn，即预测包围盒为正类文本框的概率，取值为[0，1]之间的小数；将R _rcnn输入回归分支，输出4个[0，1]之间的小数组成的预测回归偏移量Y _rcnn＝(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn)，作为预测包围盒G _q被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒G _d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.6)具体为：

分割分支网络模块包括4个卷积层Conv1，Conv2，Conv3，Conv4，一个反卷积层DeConv，和一个最终卷积层Conv5；区域提取网络生成的尺寸为16×64的候选文本框R _mask输入分割分支模块，经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{M _global，M ₁，M ₂，…，M ₃₆，M _background}，输出图层中每个像素的像素值X，取值在[0，1]之间。输出图层中全局分割图层M _global可直接预测出文本区域多边形Pm＝{pm ₁，pm ₂…pm _n}，字符分割图层{M ₁，M ₂，…，M ₃₆}和字符背景分割图层M _background可根据像素投票算法来预测字符序列Sq。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(1.2.7)具体为：

以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出，以步骤(1.2.4)、(1.2.5)和(1.2.6)中的预测标签

为网络预测输出，针对(1.2.1)构建的网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成，整体目标损失函数表达式如下：

L(P _rpn，Y _rpn，P _rcnn，Y _rcnn，X)＝L _rpn(P _rpn，Y _rpn)

+α ₁L _rcnn(P _rcnn，Y _rcnn)+α ₂L _mask(X)

其中，L _rpn(P _rpn，Y _rpn)为区域提取网络的损失函数，L _rcnn(P _rcnn，Y _rcnn)为快速区域分类回归分支网络的损失函数，L _mask(X)为分割分支网络的损失函数，α ₁，α ₂分别为损失函数L _rcnn和L _mask的权重系数，简单设置为1；

根据设计的整体目标损失函数，利用反向传播算法对模型进行迭代训练，最小化整体目标损失函数，实现最优网络模型，针对场景文字检测识别任务，在训练过程中首先使用合成文本数据集(SynthText)上迭代训练，得到初始的网络参数；然后在真实数据集上进行训练微调网络参数。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(2.1)具体为：

对于待检测数据集I _tst里的第k张图片Itst _k，将其输入到步骤(1.2)训练好的模型中，经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络，对每个初始包围盒G _q，分类分支会输出由分类得分预测值P _rcnn，作为初始包围盒G _q被预测为正类样本的得分；回归分支会输出由4个小数组成的预测回归偏移量Y _rcnn(Δx _rcnn，Δy _rcnn，Δh _rcnn，Δw _rcnn)，作为G _q被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒G _d中心点横坐标、纵坐标和高度和宽度的位置偏移量，根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Q _z，

对预测的文本包围盒Q _z进行非最大值抑制操作进行过滤，得到输出结果：网络模型对特征图Ftst _p上每个预测为正类文本的初始包围盒Q ₀都会回归出水平四边形位置，同一张测试图片Itst _k上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况，这时就要对所有正类文本四边形位置做非最大值抑制操作，具体步骤是：1)对预测到的的文本包围盒，当且仅当文本分类得分P _rcnn≥0.5时，该检测文本框才被保留；2)对上一步保留的文本框，按照Jaccard系数0.2进行非最大值抑制操作(NMS)，得到最后保留的正类文本四边形包围盒。
根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法，其特征在于，所述步骤(2.2)具体为：

将预测的四边形文本包围盒位置Q _z输入分割分支生成38个目标分割图层，首先通过全局文本实例分割掩膜，直接计算文本区域的轮廓，获得文本区域的多边形，其次，利用像素投票算法生成字符序列S _q，

对于36个字符分割图层{M ₁，M ₂，…，M ₃₆}，第i个分割图层上一个像素的值p _ci(x，y)代表着全局文本分割图层对应位置像素p _g(x，y)是字符z _i的概率，z _i为36个字符{0，1，...，9，a，b，...，z}中的第i个，且36个字符分割图层对应像素位置的概率和为1，即

对于字符背景分割图层M _background，首先对其进行二值化处理，然后在二值化的背景图上定义背景图层上的字符区域集合为R＝{r ₁，r ₂，，…，r _n}其中，r _i为字符背景分割图层上第i个字符区域，n为背景分割图层上所有的字符数目；

像素投票算法过程如下：首先，将36张字符分割图层中与字符背景分割图层中的字符区域r _i应连通区域集合定义为C _i＝{c _i1，c _i2，…，c _i36}其中，c _ij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块，则对于区域r _i以及对应连通区域C _i，利用像素投票算法求其预测字符步骤为：首先，计算对连接区域C _i内c _ij所有像素的值求平均值，其次，求出具有最大平均值的那个c _{ij_max}所在的字符图层M _{j_max}对应的字符类别z _{j_max}则为这个字符区域的预测字符，最后，对字符背景分割图层中每个的字符区域r _i进行如上操作，得到最终的预测字符序列S _q。