CN112861739A

CN112861739A - 端到端文本识别方法、模型训练方法及装置

Info

Publication number: CN112861739A
Application number: CN202110186700.4A
Authority: CN
Inventors: 张勇东; 周宇; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-05-28
Anticipated expiration: 2041-02-10
Also published as: CN112861739B

Abstract

一种端到端文本识别方法、模型训练方法及装置，模型训练方法包括：构建初始端到端文本识别模型，其中，初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；获取训练样本数据集；利用样本生成算法处理训练样本数据集中的训练样本，生成扩增训练样本数据集，以便增加用于训练初始文本识别模块的训练样本数量；以及利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型。通过上述技术方案本发明利用样本生成算法生成大量用于训练文本识别模块的训练样本，从而有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题，提升端到端文本识别模型的识别精度。

Description

端到端文本识别方法、模型训练方法及装置

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种端到端文本识别方法、端到端文本识别模型的训练方法及装置。

背景技术

端到端文本识别方法一般集成了文本检测模块和文本识别模块到一个网络模型中，其中文本检测模块用于检测文本的位置，文本识别模块用于识别文本的内容。端到端文本识别在自动驾驶、机器翻译、商品检索等领域有广泛的应用。但是针对不同的应用领域，模型中的文本识别模块和文本检测模块需要训练，以达到更好的识别精度。训练文本识别模块所需的样本数和训练文本检测模块需要的样本数的比例通常大于100。然而，目前的端到端文本识别模型的训练方法的这个所需样本数的比例小于10，不满足训练样本的要求量。因此，这些方法中，训练文本识别模块的样本数的不足导致了文本检测模块的过拟合以及文本识别模块的欠拟合，极大地限制了端到端文本识别的精度。

发明内容

有鉴于此，本发明的主要目的是提供一种端到端文本识别方法、端到端文本识别模型的训练方法及装置，以期至少部分地解决上述提及的技术问题中的至少之一。

为实现上述目的，本发明的技术方案包括：

作为本发明的一个方面，提供一种端到端文本识别方法，包括：

构建初始端到端文本识别模型，其中，初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

获取训练样本数据集；

利用样本生成算法处理训练样本数据集中的训练样本，生成扩增训练样本数据集，以便增加用于训练初始文本识别模块的训练样本数量；以及

利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型。

作为本发明的另一个方面，还提供一种端到端文本识别方法，识别方法方法基于训练方法训练得到的端到端文本识别模型来实现，端到端文本识别模型包括文本检测模块和文本识别模块，方法包括：

将待测文本图像输入端到端文本识别模型的文本检测模块中，得到字级特征；

将字级特征输入端到端文本识别模型的文本识别模块中，得到序列信息，序列信息用于表征文本图像中文本的内容。

作为本发明的一个方面，还提供一种端到端文本识别模型的训练装置，包括：

构建模块，用于构建初始端到端文本识别模型，其中，初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

获取模块，获取训练样本数据集；

样本生成模块，用于利用样本生成算法处理训练样本数据集，生成扩增训练样本数据集，以便增加用于训练初始文本识别模块的训练样本数量；以及

训练模块，用于利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型，其中，端到端文本识别模型包括文本检测模块和文本识别模块。

基于上述技术方案，本发明的端到端文本识别方法具有以下积极效果：

利用样本生成算法生成大量用于训练文本识别模块的训练样本，从而有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题，提升端到端文本识别模型的识别精度；

利用弱监督学习算法从字级标注中生成字符级标注并使用这些生成的标注来训练文本识别模块；

利用多级特征增强模块融合多级特征，并增强这些特征以使文本检测模块具有更强的特征表示能力，从而能更准确地检测文本。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了本发明实施例的端到端文本识别模型训练方法流程图；

图2示意性示出了本发明实施例的端到端文本识别方法流程图；

图3示意性示出了本发明实施例的端到端文本识别模型的模型框架图；

图4示意性示出了本发明实施例的多级特征增强模块的网络结构图；

图5示意性示出了本发明实施例的端到端文本识别方法在数据集 ICDAR2013上的识别效果示意图；

图6示意性示出了本发明实施例的端到端文本识别方法在数据集 ICDAR2015上的识别效果示意图；

图7示意性示出了本发明实施例的端到端文本识别方法在数据集 Total-Text上的识别效果示意图；

图8示意性示出了本发明实施例的端到端文本识别模型的训练装置的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B 和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的*** 等)。

本发明提出了一个样本生成算法来根据字符位置和标签信息在线生成用于训练文本识别模块的样本。然而，现有的很多数据集都没有提供字符级标注，因此，本发明提出了一种弱监督的学习策略用于从字级的标注中生成字符级标注，然后样本生成算法利用弱监督学习策略生成的字符级标注生成扩增的字级特征数据集，并利用扩增的字级特征数据集来训练文本识别模块。

作为本发明的一个方面，提供一种端到端文本识别模型的训练方法，参照图1，包括操作S101～操作S104。

在操作S101、构建初始端到端文本识别模型，其中，初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

根据本发明的实施例，初始文本检测模块可以包括特征提取分支、全局文本分割分支、检测分支和字/字符分割分支。

根据本发明的实施例，特征提取分支可以包括ResNet50网络和 FPN网络。

在操作S102、获取训练样本数据集；

在操作S103、利用样本生成算法处理训练样本数据集中的训练样本，生成扩增训练样本数据集，以便增加用于训练初始文本识别模块的训练样本数量；以及

在操作S104、利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型。

根据本发明的实施，利用样本生成算法生成大量用于训练文本识别模块的训练样本，从而有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题，提升端到端文本识别模型的识别精度。

根据本发明的实施例，训练样本数据集包括预训练样本数据集，其中，预训练样本数据集中的预训练样本包括字符级标注信息，其中，字符级标注信息包括字符级位置信息和字符级标签信息；

利用样本生成算法处理训练样本数据集中的训练样本，生成扩增训练样本数据集包括：

利用样本生成算法处理预训练样本中的字符级标注信息，生成扩增预训练样本数据集，其中扩增预训练样本数据集包括多个扩增预训练样本。

根据本发明的实施例，利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型包括：

利用预训练样本数据集训练初始文本检测模块，得到预训练文本检测模块；

利用扩增预训练样本数据集训练初始文本识别模块，得到预训练文本识别模块。

根据本发明的实施例，由于训练样本数据集中的训练样本，即文本图像中只有几个字级特征(word)，不能够使得文本识别模块收敛，因此本发明利用样本生成算法来生成更多用于训练文本识别模块的字级特征。

根据本发明的实施例，文本识别模块的输入是字级特征，用于输入文本识别模块的字级特征可以是训练样本数据集中提供了字级标注，直接使用训练样本数据集提供的字级标注(这些标注包括字级标签信息，即字级特征的内容和字级位置信息)，即可根据训练样本数据集提供的字级标注剪裁下来与字级标注对应的特征。但是并不局限于此，利用样本数据集提供的字级标注剪裁的特征数量还不够，还可以利用样本生成算法SGA来将预训练样本生成更多的字级特征，进而得到扩增预训练样本数据集。

根据本发明的可选实施例，利用样本生成算法SGA生成字级特征的方法可以为根据字符的标签信息和对应的字符位置信息剪裁出各个字符对应的字符级特征，然后将这些字符级特征随机组合，得到字级特征。例如单词world，将w，o，r，l，d对应的字符级特征剪裁下来，然后随机组合，可能组合成world，wldor，oldwr等字级特征。然后把这些生成的字级特征输入到初始文本识别模块，用于训练初始文本识别模块。

根据本发明的实施例，扩增预训练样本数据集中可以包括100个扩增训练样本，从而显著地增加了用于训练初始文本识别模块的训练样本数，有效地解决了文本检测模块过拟合和文本识别模块欠拟合的问题。

根据本发明的实施例，训练样本数据集还包括弱监督训练样本数据集，其中，弱监督训练样本数据集中的训练样本包括字级标注信息，其中，字级标注信息包括字级位置信息和字级标签信息；

利用样本生成算法处理训练样本数据集中的训练样本，生成扩增训练样本数据集还包括：

利用预训练文本检测模块处理弱监督训练样本数据集中的训练样本，生成预测字符级标注信息；其中，预测字符级标注信息包括预测字符级位置信息和预测字符级标签信息；

利用样本生成算法处理预测字符级标注信息，生成扩增弱监督训练样本数据集，其中扩增弱监督训练样本数据集包括多个扩增弱监督训练样本，以便利用扩增弱监督训练样本数据集训练预训练文本识别模块。

本发明提供的实施例，创新性使用弱监督方法用于端到端文本识别模型的训练任务中，也创新的结合样本生成算法在线生成样本用于训练初始文本识别模块。

本发明通过弱监督的方式从字级标注中生成字符级标注用于端到端文本识别模型的训练，并利用样本生成算法SGA基于字符级标注在线生成样本用于训练文本识别模块，从而有效地解决文本检测模块过拟合和文本识别模块欠拟合的问题，提升端到端文本识别的精度。

根据本发明的实施例，对于没有提供字符级标注的弱监督训练样本数据集中的字级标注信息，可以利用预训练后的文本检测模块从字级标注中生成预测的字符级标注。样本生成算法SGA将该预测的字符级标注在线生成样本所需的字符级标注(字符的类别和字符的类别位置信息)可以包括两种来源，一种是训练样本数据集本来就提供了，可以直接使用。

以下用具体示例加以解释样本生成算法SGA生成样本的过程，需要说明的是，以下示例仅用于示例性说明样本生成算法SGA生成样本的过程，而不对本发明做任何限制。

根据本发明的实施例，假设利用弱监督学习从字级标注中生成M 个字符级标注，利用样本生成算法SGA从M个字符级标注中随机选择N个字符级标注，其中N＜＝M。然后，对于样本生成算法SGA随机选择的N个字符级标注，根据N个字符级标注确定N个字符对应的N个字符级特征，然后，将N个字符级特征拼接成为一个新的字级特征 X，从而在线生成了一个新的样本用于文本识别模块的训练。

假设一幅文本图像中包含两个文本，cat和zoo。利用弱监督算法处理文本图像后，得到字符级标注集合{z，o，o，c，a，t}，利用样本生成算法SGA从字符级标注集合中随机选取N个字符级标注，根据N个字符级标注剪裁N个字符级标注对应的N个字符级特征，组成单词。例如，N为3时，首先，从字符级标注集合{z，o，o，c，a， t}中随机选取一个字符级标注，例如o；然后再从字符级标注集合{z， o，o，c，a，t}中随机选取一个字符级标注，例如t；最后再从字符级标注集合{z，o，o，c，a，t}中随机选取一个字符级标注，例如t；通过上述操作，获取了三个字符级标注o、t、t，根据三个字符级标注o、 t、t剪裁下来三个字符级标注o、t、t对应的字符级特征o、t、t，组成一个单词ott。需要说明的是，利用样本生成算法SGA生成样本时，无需考虑生成的样本是否为正确的单词，由于非正确的单词具有无序性反而可以增加样本的多样性，进而更有利于增强文本识别模块的鲁棒性。至此，样本生成算法SGA根据字符级标注集合{z，o，o，c，a， t}生成了一个单词，也即一个样本。通过检测分支得到的字符级标注集合可以包括M个字符，由于N取的过小不利于文本识别模块的训练，所以N的取值可以为：3＜＝N＜＝M。

在上述示例中，字符级标注集合{z，o，o，c，a，t}中虽然有两个字符级标注o，但是每个字符级标注o在文本图像中的坐标不同，所以可以将两个字符级标注o作为两个不同的个体，选了第一个字符级标注o之后还可以选第一个字符级标注o或者另一个字符级标注o。假设集合中包括6个字符级标注，利用样本生成算法SGA进行选择时，每次都是从字符级标注集合中的6个字符级标注中选一个，所以生成的样本可以为ooooo，所有字符均相同。具体过程可以为：每次都生成一个随机数N，例如第一次生成了一个随机数3，所以随机选择3 个字符组成一个新的单词，这三个字符，每次都是从所有的字符中选，所以可能刚好3个都是同一个字符。第二次又生成随机数，可能是3， 4，5，6。然后又剪裁对应的特征组成一个新的单词。以此类推，在本发明的实施例中，利用样本生成算法SGA为每幅文本图像生成100个新的样本。利用样本生成算法SGA为每幅文本图像生成的100个新的样本中，可能存在若干相同的样本，例如生成的两个样本均为world，此时将每个样本作为单独的样本输入到文本识别模块中，而不进行舍弃，以保证样本生成算法SGA生成的样本数量足够多。

根据本发明的实施例，利用样本生成算法SGA生成样本后，根据训练样本数据集提供的K个字级标注得到与K个字级标注对应的K个特征。可以将根据样本数据集提供的K个字级标注得到的K个特征和由样本生产算法SGA生成的100个样本均输入文本识别模块，用于训练文本识别模块。

根据本发明的实施例，文本识别模块可以是基于2维空间注意力机制的文本识别模块。为了防止注意力漂移，使得注意力在每个解码阶段更好地对齐，本发明使用了位置嵌入机制，使得可以明确文本识别模块在每个处理步骤中处理的是第几个字符。文本识别模块的输出层可以包括63个神经元，其中，可以包括10个用于输出***数字的神经元，可以包括26个用于输出英文字符的衬经元，可以包括26 个用于输出标点符号的神经元，还可以包括一个用于输出序列截止符的神经元，其中，序列截止符用于表示每个单词识别过程的结束。

由于现有技术中的CTC(Connectionist Temporal Classification，连接主义时间分类器)和基于一维空间注意力机制的文本识别模型不能有效地识别不规则文本，例如曲形文本，因此本发明的实施例使用基于2-D注意力的文本识别模块来识别文本，基于2-D注意力的文本识别模块使用卷积神经网络作为编码器进行特征提取操作，并使用基于 2-D注意力机制的解码器来解码字符序列。

位置嵌入机制的原理是通过正弦函数和余弦函数来计算出一个单词中的每个字符在单词中的位置，从而使得2维空间注意力机制关注到当前正在处理的字符而不是未在进行处理字符，进而提升了文本识别的精度。

根据本发明的可选实施例，用于训练初始端到端文本识别模型中参数的损失函数可以如下：

L＝L_rpn+L_gseg+L_rcnn+L_mask+L_recog；

其中L_rpn和L_rcnn分别是RPN和检测分支的损失函数，L_gseg是全局文本分割分支的损失函数，使用的是dice loss。L_mask是字/字符分割分割的损失函数，使用的是二值交叉熵损失函数，L_recog是文本识别模块的损失函数。

其中，L_recog是文本识别模块的损失函数，具体如下：

P(y_t)＝softmax(W_o×x_t+b_o)；

(x_t，s_t)＝RNN(s_t-1，r_t)；

其中p(y_t)是每个时间步t预测的结果的条件概率、t表示每个时间步、T表示每个字符串处理的所有时间、W_o表示权重、x_t表示RNN 在t时刻的输出、b_o表示偏置、S_t表示RNN在t时刻的隐藏状态、r_t表示当前的输入以及上一个时间步的输出。

作为本发明的另一个方面，参照图2，还提供一种端到端文本识别方法，文本识别方法基于训练方法训练得到的端到端文本识别模型来实现，端到端文本识别模型包括文本检测模块和文本识别模块，方法包括操作S201和操作S202。

在操作S201，将待测文本图像输入端到端文本识别模型的文本检测模块中，得到字级特征；

在操作S202，将字级特征输入端到端文本识别模型的文本识别模块中，得到序列信息，序列信息用于表征文本图像中文本的内容。

根据本发明的实施例，文本检测模块包括检测分支、字/字符分割分支和全局文本分割分支；其中，字/字符分割分支包括卷积单元和多级特征增强单元；

将待测文本图像输入端到端文本识别模型的文本检测模块，得到字级特征包括：

利用检测分支处理待测文本图像，得到分类和回归特征图；

利用全局文本分割分支处理待测文本图像，得到全局信息特征图；

利用字/字符分割分支中的卷积单元处理待测文本图像，得到字级信息特征图；

利用多级特征增强单元处理全局信息特征图和字级特征图，得到字/字符分割图；

将分类和回归特征图与字/字符分割图进行融合，得到字级特征。

根据本发明的其他实施例，可以仅利用检测分支处理待测文本图像，得到字级标注信息，即得到字级标签信息和字级位置信息。

但是需要说明的是，利用检测分支得到的字级标签信息和字级位置信息不够精确，包含有噪声。

根据本公开的实施例，还可以利用将检测分支、全局文本分割分支与字/字符分割分支相结合，实现精确的字级特征输出。

根据本发明的实施例，如图3所示，通过利用字/字符分割分支中的多级特征增强单元MFE处理全局信息特征图F4以及字级信息特征图F3，得到字/字符分割图，该字/字符分割图可以确定出待测文本图像中文本的轮廓。可以预定义轮廓内取值为1，轮廓外取值为0。

根据本发明的实施例，将字/字符分割分支处理得到的字/字符分割图及检测分支处理得到的分类和回归特征图进行元素级相乘融合，得到字级特征。字/字符分割图包含有待测文本图像中的文本的精确的轮廓，字/字符分割图与包含噪声的分类和回归特征图进行元素级相乘后，分类和回归特征图中与字/字符分割图轮廓内对应的区域得以保留，而与轮廓外对应的区域均被过滤掉，从而可以过滤掉分类和回归特征图中的噪声，进而可以得到较为精确的字级特征。

根据本发明的实施例，文本检测模块还包括特征提取分支、区域建议网络和候选框特征提取网络；

在分别利用检测分支、字/字符分割分支和全局文本分割分支处理待测文本图像之前，将待测文本图像输入端到端文本识别模型的文本检测模块，得到字级特征还包括：

利用特征提取分支处理待测文本图像，得到多尺度特征图；

利用全局文本分割分支处理多尺度特征图，得到全局信息特征图；

利用区域建议网络处理多尺度特征图，生成至少一个候选框；

利用候选框特征提取网络提取多尺度特征图中对应至少一个候选框的特征，得到第二特征图；

基于第二特征图，利用字/字符分割分支中的卷积单元得到字级信息特征图。

根据本发明的实施例，如图3所示，特征提取分支可以包括 ResNet50网络和FPN网络，利用特征提取分支中的ResNet50网络和 FPN网络处理待测文本图像后，得到多尺度特征图F。

根据本发明的实施例，利用区域建议网络RPN处理多尺度特征图 F，生成的候选框R可以如图3中的区域建议网络RPN中的黑色矩形框所示。

根据本发明的实施例，利用区域建议网络RPN处理多尺度特征图 F后可以生成一个、两个或多个候选框，图3中候选框数量仅为示例。

根据本发明的实施例，假设文本图像中有一个文本，可以根据标注信息确定把文本图像中的文本框住的最小的水平矩形是A，假设利用区域建议网络RPN处理多尺度特征图F后生成一个候选框B，若候选框B满足如下条件：最小的水平矩形A和候选框B相交的面积除以 (最小的水平矩形A的面积+候选框B的面积-最小的水平矩形A与候选框B相交的面积)大于预设阈值，例如0.7，则证明这个候选框B 初步框住了这个文本，因此能保留下来，用于后续的进一步调整候选框B的位置，使得它刚好能将这个文本框住。需要说明的是，上述预设阈值为0.7仅作为示例，而不对本发明做任何限制。

这些矩形框经过处理之后，置信度高的被保留了下来。根据本发明的实施例，置信度可以为上述预设阈值。根据本发明的实施例，可以将置信度大于0.6确定为置信度高。

根据本发明的实施例，对于每个被保留下来的候选框，利用候选框特征提取网络RoIAlign从多尺度特征图F中提取与该候选框对应的特征从而得到第二特征图F2。

根据本发明的实施例，还可以利用检测分支处理第二特征图F2 进行字/字符的分类和边框回归。

根据本发明的实施例，检测分支可以包括依次堆叠的3×3卷积核和1×1卷积核。

根据本发明的实施例，第二特征图F2经过3×3卷积和1×1卷积处理之后，再经过并行分支进行字/字符的分类和字/字符边框的回归处理，得到分类和回归特征图。

根据本发明的实施例，分类可以用于分出候选框框住的字符内容，即字符级标签信息，若候选框框住的是一整个文本(word-level)，则就粗略地将候选框框住的内容判断为text，然后将候选框框住的内容输入到文本识别模块进行识别。边框回归可以用于预测出候选框左上角的坐标以及候选框的宽和高，从而确定候选框框住的文本的位置。

根据本发明的实施例，基于第二特征图F2，利用字/字符分割分支中的卷积单元得到字级信息特征图可以包括如下操作。

第二特征图F2经过一个字/字符分割分支中的卷积单元的3×3卷积核处理之后得到字级信息特征图F3。

根据本发明的实施例，得到字级信息特征图F3后，可以将字级信息特征图F3和全局信息特征图F4输入到多级特征增强单元MFE中，字级信息特征图F3和全局信息特征图F4经过多级特征增强单元MFE 的处理后得到字/字符分割图。

如图4所示，多级特征增强单元可以包括第一融合层1、第一卷积层2、第二卷积层3、第三卷积层4、第四卷积层5、第五卷积层6、第六卷积层7及第二融合层8。

利用多级特征增强单元处理字级信息特征图F3和全局信息特征图F4，得到字/字符分割图包括如下操作。

利用第一融合层1处理字级信息特征图F3及全局信息特征图F4，得到初始融合特征图；利用第一卷积层2处理初始融合特征图，得到第一融合特征图；利用第二卷积层3处理第一融合特征图，输出第二融合特征图；利用第三卷积层4处理第一融合特征图，得到第三融合特征图；利用第四卷积层5处理第三融合特征图，得到第四融合特征图；利用第五卷积层6处理第三融合特征图，得到第五融合特征图；利用第六卷积层7处理第五融合特征图，得到第六融合特征图；以及利用第二融合层8处理第二融合图、第四融合图及第六融合特征图，得到字/字符分割图。

根据本发明的实施例，第一卷积层2包括1x1卷积核；第二卷积层3包括3x3卷积核，其中，3x3卷积核的空洞率为1；第三卷积层4 包括1x1卷积核；第四卷积层5包括3x3卷积核，其中，3x3卷积核的空洞率为2；第五卷积层6包括1x1卷积核；第六卷积层7包括3x3 卷积核，其中，3x3卷积核的空洞率为3。

根据本发明的实施例，空洞率为1、2和3的卷积核分别表示隔1、 2和3个像素采样一次。

根据本发明的实施例，第一融合层1可以包括第一元素级相加模块。

根据本发明的实施例，第二融合层8可以包括第二元素级相加模块。

根据本发明的实施例，多级特征增强单元MFE用于融合多级特征，并增强这些特征从而使文本检测模块具有更强的特征表示能力，从而使文本检测模块能更准确地检测文本。

根据本发明的实施例，利用全局文本分割分支处理多尺度特征图 F，得到全局信息特征图F4可以包括如下操作。

将多尺度特征图F依次经过上采样、元素集相加处理得到包括多尺度特征和全局信息的特征图F1；以及

利用候选框特征提取网络RolAlign根据候选框来提取特征图F1 的特征，得到全局信息特征图F4。

根据本发明可选实施例，利用全局文本分割分支的1x1卷积核和 sigmoid函数处理特征图F1，得到文本分割图。

根据本发明的实施例，利用多级特征增强单元MFE处理全局信息特征图F4和字级信息特征图F3，得到字/字符分割图还可以包括如下操作。

利用多级特征增强单元MFE处理全局信息特征图和字级信息特征图F3，得到中间特征图F5；

利用字/字符分割分支的第二卷积单元和第三卷积单元处理中间特征图F5，得到字/字符分割图。

根据本发明的实施例，第二卷积单元可以包括3x3卷积核；第三卷积单元可以包括一个63通道的1x1卷积核。根据本发明的实施例， 63个通道中，可以包括10个用于分割数字的通道、包括52个用于分割英文字符的通道、包括1个用于完整的字分割的通道。

根据本发明的实施例，可以首先利用合成数据集SynthText和 ICDAR2013两个数据集对端到端初始文本识别模型进行两轮预训练，然后将预训练好的端到端文本识别模型在只有字级标注的数据集 ICDAR2015和Total-Text数据集上进行预测，从而得到字符级标注。最后，使用得到的字符级标注和提供的字级标注在10000幅SynthText， ICDAR2013，ICDAR2015，Total-Text和SCUT组成的联合数据集上进行微调300k次迭代，从而得到训练好的端到端文本识别模型

与现有方法相比，例如Jaderberg等使用的识别方法，本发明的端到端文本识别方法在多个数据集上达到了最好的效果，本发明在数据集ICDAR2013上的识别效果具体可参见表1。

表1

其中，Detection是文本检测模块输出的结果，R、P及F分别是 recall、precision及F-measure。End-to-end是端到端识别的结果，是端到端文本识别模型输出的结果。S，W，G是一些参考词典，分别表示词典strong，weak，generic，强的字典表示识别出来的单词肯定在这 100多个单词中。假设一个单词是world，识别出的是worldd，strong 词典可能有world，wrold，wolrd，等等，可以用代码而不是人为从里面找出一个最匹配的作为最终结果。FPS是速度，表示每秒能处理几幅图像。

检测结果用F作为综合指标，从表1可以看出，本发明的F是最高的，即表明检测效果比别的方法都好。对于端到端识别结果，本发明的文本识别方法在使用G字典的时候效果是最好的，表示它没有那么依赖于使用字典来矫正识别的结果。本发明在数据集ICDAR2013 上的识别效果如图5所示。

对于倾斜文本ICDAR2015，本发明的F只比最好的结果差0.7％，但是端到端识别结果在使用S，W，G三种字典的时候效果都是最好的，表示它在倾斜文本上具有很好的端到端文本识别能力。本发明在数据集ICDAR2015上的识别效果如图6所示。识别效果的具体参数信息说明如表2所示。

表2

对于曲形文本Total-Text，本发明的F只比最好的结果差0.3％，但是端到端识别结果在不使用字典的时候(None)，和使用测试图像中的所有文本作为字典的时候，效果都是最好的，表明它在曲形文本上具有很好的端到端文本识别能力。本发明在数据集Total-Text上的识别效果如图7所示。识别效果具体参数信息说明如表3：

表3

参照图8，作为本发明的另一个方面，还提供一种端到端文本识别模型的训练装置800，包括构建模块810、获取模块820、样本生成模块830及训练模块840。

构建模块810，用于构建初始端到端文本识别模型，其中，初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

获取模块820，获取训练样本数据集；

样本生成模块830，用于利用样本生成算法处理训练样本数据集，生成扩增训练样本数据集，以便增加用于训练初始文本识别模块的训练样本数量；以及

训练模块840，用于利用训练样本数据集和扩增训练样本数据集训练初始端到端文本识别模型，得到端到端文本识别模型，其中，端到端文本识别模型包括文本检测模块和文本识别模块。

作为本发明的再一个方面，还提供一种端到端文本识别装置，端到端文本识别装置包括检测模块和识别模块。

检测模块，用于将待测文本图像输入端到端文本识别模型的文本检测模块中，得到字级特征；以及

识别模块，用于将字级特征输入端到端文本识别模型的文本识别模块中，得到序列信息，序列信息用于表征文本图像中文本的内容。

需要说明的是，本发明的实施例中端到端文本识别模型的训练装置部分与本发明的实施例中端到端文本识别模型训练方法部分是相对应的，端到端文本识别模型的训练装置部分的描述具体参考端到端文本识别模型训练方法部分，在此不再赘述。

需要说明的是，本发明的实施例中端到端文本识别装置部分与本发明的实施例中端到端文本识别方法部分是相对应的，端到端文本识别装置部分的描述具体参考端到端文本识别方法部分，在此不再赘述。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种端到端文本识别模型的训练方法，包括：

构建初始端到端文本识别模型，其中，所述初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

获取训练样本数据集；

利用样本生成算法处理所述训练样本数据集中的训练样本，生成扩增训练样本数据集，以便增加用于训练所述初始文本识别模块的训练样本数量；以及

利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型，得到所述端到端文本识别模型。

2.根据权利要求1所述的方法，其中，

所述训练样本数据集包括预训练样本数据集，其中，所述预训练样本数据集中的预训练样本包括字符级标注信息，其中，所述字符级标注信息包括字符级位置信息和字符级标签信息；

所述利用样本生成算法处理所述训练样本数据集中的训练样本，生成扩增训练样本数据集包括：

利用所述样本生成算法处理所述预训练样本中的字符级标注信息，生成扩增预训练样本数据集，其中所述扩增预训练样本数据集包括多个扩增预训练样本。

3.根据权利要求2所述的方法，

所述利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型，得到所述端到端文本识别模型包括：

利用所述预训练样本数据集训练所述初始文本检测模块，得到预训练文本检测模块；

利用所述扩增预训练样本数据集训练所述初始文本识别模块，得到预训练文本识别模块。

4.根据权利要求3所述的方法，

其中，所述训练样本数据集还包括弱监督训练样本数据集，其中，所述弱监督训练样本数据集中的训练样本包括字级标注信息，其中，所述字级标注信息包括字级位置信息和字级标签信息；

所述利用样本生成算法处理所述训练样本数据集中的训练样本，生成扩增训练样本数据集还包括：

利用所述预训练文本检测模块处理所述弱监督训练样本数据集中的训练样本，生成预测字符级标注信息；其中，所述预测字符级标注信息包括预测字符级位置信息和预测字符级标签信息；

利用所述样本生成算法处理所述预测字符级标注信息，生成扩增弱监督训练样本数据集，其中所述扩增弱监督训练样本数据集包括多个扩增弱监督训练样本，以便利用所述扩增弱监督训练样本数据集训练所述预训练文本识别模块。

5.一种端到端文本识别方法，其中，所述方法基于如权利要求1至4任一项所述训练方法训练得到的端到端文本识别模型来实现，所述端到端文本识别模型包括文本检测模块和文本识别模块，所述方法包括：

将待测文本图像输入所述端到端文本识别模型的文本检测模块中，得到字级特征；

将所述字级特征输入所述端到端文本识别模型的文本识别模块中，得到序列信息，所述序列信息用于表征所述文本图像中文本的内容。

6.根据权利要求5所述的方法，所述文本检测模块包括检测分支、字/字符分割分支和全局文本分割分支；其中，所述字/字符分割分支包括卷积单元和多级特征增强单元；

所述将待测文本图像输入所述端到端文本识别模型的文本检测模块，得到字级特征包括：

利用所述检测分支处理所述待测文本图像，得到分类和回归特征图；

利用所述全局文本分割分支处理所述待测文本图像，得到全局信息特征图；

利用所述字/字符分割分支中的卷积单元处理所述待测文本图像，得到字级信息特征图；

利用所述多级特征增强单元处理所述全局信息特征图和所述字级特征图，得到字/字符分割图；

将所述分类和回归特征图与所述字/字符分割图进行融合，得到字级特征。

7.根据权利要求6所述的方法，其中，所述文本检测模块还包括特征提取分支、区域建议网络和候选框特征提取网络；

在分别利用所述检测分支、字/字符分割分支和全局文本分割分支处理所述待测文本图像之前，所述将待测文本图像输入所述端到端文本识别模型的文本检测模块，得到字级特征还包括：

利用所述特征提取分支处理所述待测文本图像，得到多尺度特征图；

利用所述全局文本分割分支处理所述多尺度特征图，得到全局信息特征图；

利用所述区域建议网络处理所述多尺度特征图，生成至少一个候选框；

利用所述候选框特征提取网络提取所述多尺度特征图中对应所述至少一个候选框的特征，得到第二特征图；

基于所述第二特征图，利用所述字/字符分割分支中的卷积单元得到字级信息特征图。

8.根据权利要求6所述的方法，其中，所述多级特征增强单元包括第一融合层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层及第二融合层；

所述利用多级特征增强单元处理所述字级信息特征图和所述全局信息特征图，得到字/字符分割图包括：

利用所述第一融合层处理所述字级信息特征图及所述全局信息特征图，得到初始融合特征图；

利用所述第一卷积层处理所述初始融合特征图，得到第一融合特征图；

利用所述第二卷积层处理所述第一融合特征图，输出第二融合特征图；

利用所述第三卷积层处理所述第一融合特征图，得到第三融合特征图；

利用所述第四卷积层处理所述第三融合特征图，得到第四融合特征图；

利用所述第五卷积层处理所述第三融合特征图，得到第五融合特征图；

利用所述第六卷积层处理所述第五融合特征图，得到第六融合特征图；以及

利用所述第二融合层处理所述第二融合图、所述第四融合图及所述第六融合特征图，得到字/字符分割图。

9.根据权利要求8所述的方法，其中：

所述第一卷积层包括1x1卷积核；

所述第二卷积层包括3x3卷积核，其中，所述3x3卷积核的空洞率为1；

所述第三卷积层包括1x1卷积核；

所述第四卷积层包括3x3卷积核，其中，所述3x3卷积核的空洞率为2；

所述第五卷积层包括1x1卷积核；

所述第六卷积层包括3x3卷积核，其中，所述3x3卷积核的空洞率为3。

10.一种端到端文本识别模型的训练装置，包括：

构建模块，用于构建初始端到端文本识别模型，其中，所述初始端到端文本识别模型包括初始文本检测模块和初始文本识别模块；

获取模块，获取训练样本数据集；

样本生成模块，用于利用样本生成算法处理所述训练样本数据集，生成扩增训练样本数据集，以便增加用于训练所述初始文本识别模块的训练样本数量；以及

训练模块，用于利用所述训练样本数据集和所述扩增训练样本数据集训练所述初始端到端文本识别模型，得到所述端到端文本识别模型，其中，所述端到端文本识别模型包括文本检测模块和文本识别模块。