CN110084240A

CN110084240A - 一种文字提取***、方法、介质和计算设备

Info

Publication number: CN110084240A
Application number: CN201910335878.3A
Authority: CN
Inventors: 徐彬彬; 林丽; 王嘉磊
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02

Abstract

本发明的实施方式提供了一种文字提取***、方法、介质和计算设备。该文字提取***包括：共享特征提取层被配置为基于待识别图像提取得到共享特征图；检测模块被配置为对共享特征图进行检测得到文字提取区域；文字行特征提取层被配置为将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图；识别模块被配置为从文字行特征图中识别出目标文字。通过设置共享特征提取层和文字行特征提取层，将检测模块和识别模块合并至端到端的文字提取***中，既有助于避免因多次数据转换或运行环境变化而造成的***运行效率降低，提高***运行效率，又有助于降低目标文字与真值之间的偏差，优化***识别效果，提升用户体验。

Description

一种文字提取***、方法、介质和计算设备

技术领域

本发明的实施方式涉及软件领域，更具体地，本发明的实施方式涉及一种文字提取***、方法、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

光学字符识别(Optical Character Recognition，OCR)技术，是通过扫描、拍摄等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品中的文字转化为图像信息，或者直接获取图片、视频帧等图像信息，再采用文字识别技术将上述图像信息转化为文本的技术。也就是说，利用这一技术可以直接从图像中提取金额、帐号、文字资料等数据以生成文本，从而替代人工录入，提高输入效率。

目前，OCR文字检测识别***中，通过检测模型进行文字行检测以得到文字行在原图中的位置，根据文字行在原图中的位置对原图进行区域裁剪得到文字行图像，采用识别模型将逐一识别文字行图像所包含的文字，从而基于识别出的文字生成文本。但现有技术中上述区域裁剪的步骤由CPU执行，而其余步骤则由搭载有检测模型和识别模型的GPU(例如显卡上的GPU)执行，因此目前OCR文字检测识别***的整体处理流程需要经历多次数据转换、以及运行环境变化所带来的调整，从而导致***运行效率降低，甚至于造成最终的检测识别结果偏差大，影响用户体验。

综上，目前OCR文字检测识别***中存在***运行效率降低，检测识别结果偏差大，影响用户体验的问题。

发明内容

目前OCR文字检测识别***中存在***运行效率降低，最终的检测识别结果偏差大，影响用户体验的问题。

因此非常需要一种改进的用于文字提取的技术方案，以解决上述技术问题。

在本上下文中，本发明的实施方式期望提供一种文字提取***、方法、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种文字提取***，该文字提取***用于从待识别图像中提取目标文字，该文字提取***包括：

共享特征提取层，被配置为基于待识别图像提取得到共享特征图；

检测模块，被配置为对共享特征图进行检测得到文字提取区域；

文字行特征提取层，被配置为将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图；

识别模块，被配置为从文字行特征图中识别出目标文字。

在本发明的一个实施例中，检测模块具体用于：从共享特征图中检测得到文字提取区域以及文字提取区域的属性。其中，文字提取区域的属性包括置信度、尺寸、顶点坐标、该文字提取区域与设定方向之间的夹角中的一个或多个，置信度用于指示文字提取区域中包含文字行的概率。

在本发明的一个实施例中，文字行特征提取层具体用于：将文字提取区域映射回共享特征图上得到映射区域；从映射区域中提取对应文字行的图像特征；基于对应文字行的图像特征生成文字行特征图。

在本发明的一个实施例中，文字提取区域的数量设置为多个，则文字行特征提取层还用于：在将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图之前，从多个文字提取区域中选取置信度满足预设条件的文字提取区域。

在本发明的一个实施例中，文字提取区域为文字框，对应文字行的图像特征为对应文字行的特征点矩阵，文字框为从共享特征图中检测并切割得到的图像区域。文字行特征提取层在将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图时，具体用于：将文字框映射回共享特征图上得到映射区域；从映射区域中提取对应文字行的特征点组成对应文字行的特征点矩阵；将对应文字行的特征点矩阵中每一特征点对应的特征值进行计算得到文字行特征图。

在本发明的一个实施例中，识别模块具体用于：采用卷积神经网络和/或递归神经网络对文字行特征图进行处理得到文字行特征图的序列特征；基于预设的识别字典库对文字行特征图的序列特征进行识别得到目标文字。

在本发明的一个实施例中，还包括***参数更新模块，被配置为***参数评估单元和参数更新单元。其中，***参数评估单元，用于确定预测的文字提取区域与真实样本的差异情况作为检测模块的评估结果；和/或，确定识别的目标文字与真实样本的差异情况作为识别模块的评估结果；并，基于预设权重对确定的检测模块的评估结果和/或识别模块的评估结果进行评估得到***参数评估结果。参数更新单元，用于根据***参数评估结果对文字提取***进行反向传播，以更新检测模块的模型参数和/或识别模块的模型参数。

在本发明的一个实施例中，***参数评估单元还配置有第一误差估计模型和第二误差估计模型。第一误差估计模型，用于确定预测的文字提取区域的概率分布与文字提取区域样本的分布概率的差异情况以得到检测模型的第一子评估结果。第二误差估计模型，用于确定预测的文字提取区域的位置属性与文字提取区域样本的位置属性的差异情况以得到检测模型的第二子评估结果。

在本发明的一个实施例中，***参数评估单元还配置有第三误差估计模型，用于确定识别的目标文字对应的序列特征的概率分布与文字样本的序列特征的分布概率的差异情况以得到识别模块的评估结果。

在本发明的一个实施例中，第一误差估计模型为框分类函数模型，第二误差估计模型为框回归损失函数模型，和/或第三误差评估模型为时序分类损失函数模型。

在本发明实施方式的第二方面中，提供了一种文字提取方法，该文字提取方法应用于第一方面中任一项所述的文字提取***中，该文字提取方法包括：基于待识别图像提取共享特征图，对共享特征图进行检测得到文字提取区域，将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图，从文字行特征图中识别出目标文字。

在本发明的一个实施例中，对共享特征图进行检测得到文字提取区域，包括：从共享特征图中检测得到文字提取区域以及文字提取区域的属性。其中，文字提取区域的属性包括置信度、尺寸、顶点坐标、该文字提取区域与设定方向之间的夹角中的一个或多个，置信度用于指示文字提取区域中包含文字行的概率。

在本发明的一个实施例中，将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图，包括：将文字提取区域映射回共享特征图上得到映射区域；从映射区域中提取对应文字行的图像特征；基于对应文字行的图像特征生成文字行特征图。

在本发明的一个实施例中，文字提取区域的数量设置为多个，则在将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图之前，还包括：从多个文字提取区域中选取置信度满足预设条件的文字提取区域。

在本发明的一个实施例中，文字提取区域为文字框，对应文字行的图像特征为对应文字行的特征点矩阵，文字框为从共享特征图中经检测并切割得到的图像区域。将文字提取区域映射到共享特征图中进行特征抽取得到文字行特征图的步骤，具体包括：将文字框映射回共享特征图上得到映射区域；从映射区域中提取对应文字行的多个特征点组成对应文字行的特征点矩阵；将对应文字行的特征点矩阵中每一特征点对应的特征值进行计算得到文字行特征图。

在本发明的一个实施例中，从文字行特征图中识别出目标文字，包括：采用卷积神经网络和/或递归神经网络对文字行特征图进行处理得到文字行特征图的序列特征；基于预设的识别字典库对文字行特征图的序列特征进行识别得到目标文字。

在本发明实施方式的第三方面中，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第二方面中任一实施例的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理单元、存储器以及输入/输出(In/Out，I/O)接口；存储器，用于存储处理单元执行的程序或指令；处理单元，用于根据存储器存储的程序或指令，执行第二方面中任一实施例的方法；I/O接口，用于在处理单元的控制下接收或发送数据。

本发明的实施方式提供的技术方案，通过设置共享特征提取层和文字行特征提取层，将检测模块和识别模块合并至端到端的文字提取***中，从而既有助于避免因多次数据转换或运行环境变化而造成的***运行效率降低，提高***运行效率和流畅度，又有助于降低通过文字提取***提取到的目标文字与真值之间的偏差，优化***识别效果，提升用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的一种文字提取***的结构示意图；

图2a示意性地示出了根据本发明实施方式的一种待识别图像的示意图；

图2b示意性地示出了根据本发明实施方式的一种文字提取区域的示意图；

图2c示意性地示出了根据本发明实施方式的另一种文字提取区域的示意图；

图3示意性地示出了根据本发明实施方式的一种文字行特征图提取方法的流程示意图；

图4示意性地示出了根据本发明实施例的一种文字提取方法的流程示意图；

图5示意性地示出了根据本发明实施例的一种介质的结构示意图；

图6示意性地示出了根据本发明实施例的一种计算设备的结构示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种文字提取***、方法、介质和计算设备。

在本文中，需要理解的是，所涉及的几个概念的含义如下：

深度学习(Deep Learning)：通过深度神经网络来发掘数据的高层特征表示，从而更准确地表征数据分布的特性。

端到端(End-to-end)：***中不再有独立的模块，输入数据，输出需要的结果。比如语音识别***中不再有独立的声学模型、发音词典、语言模型等模块，而是从输入端(语音波形或特征序列)到输出端(单词或字符序列)直接用一个神经网络相连，让这个神经网络来承担原先所有模块的功能。

全卷积网络(Fully Convolutional Network，FCN)：是以卷积(无全连接层)作为线性映射层的一种深度神经网络。

双线性差值：又称为双线性内插。在数学上，双线性插值是对线性插值在二维直角网格上的扩展，用于对双变量函数(例如x和y)进行插值。其核心思想是在两个方向分别进行一次线性插值。

循环神经网络(Recurrent Neural Network，RNN)：RNN可以利用它内部的记忆来处理任意时序的输入序列，这让RNN可以更容易处理如不分段的手写识别、语音识别等。RNN的结构一般是LSTM、GRU等各种变种。

基于神经网络连接的时序分类(Connectionist Temporal Classification，CTC)损失函数：在传统的语音识别的模型中，对语音模型进行训练之前，往往都要将文本与语音进行严格的对齐操作，或者文字识别的时候需要先进行文字切割，然后进行单字识别。但是文字切割或者语音识别等应用场景下数据序列难以事先进行对齐处理，因而这些场景下可以利用CTC损失函数对整个特征序列自动对齐进行识别。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，目前OCR文字检测识别***中存在***运行效率降低，最终的检测识别结果偏差大，影响用户体验的问题。

为了克服技术存在的问题，本发明中提出了一种文字提取***、方法、介质和计算设备。该文字提取***用于从待识别图像中提取目标文字，该文字识别***至少包括：共享特征提取层被配置为基于待识别图像提取得到共享特征图，检测模块被配置为对共享特征图进行检测得到文字提取区域，文字行特征提取层被配置为将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图，识别模块被配置为从文字行特征图中识别出目标文字。

本发明的实施方式提供的文字提取***，通过设置共享特征提取层和文字行特征提取层，使得检测模块可以基于共享特征图得到文字提取区域，并且使得识别模块可以基于共享特征图和文字提取区域识别出目标文字，实现了端到端的文字提取网络，使文字提取过程无需经历运行环境变化以及随之产生的多次数据转换，从而既有助于避免因多次数据转换或运行环境变化而造成的***运行效率降低，提高***运行效率和流畅度，又有助于降低文字提取***提取到的目标文字与真值之间的偏差，优化***识别效果，改善用户体验。此外，端到端的文字提取***设计有助于实现对文字提取***的整体训练，避免由于检测模型和识别模型需要经过单独训练而导致的训练过程复杂，简化文字提取***的调试过程，加快文字提取***的训练速度。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施例可以应用于文字获取场景，尤其是从图像信息中获取文字的场景。本发明实施例涉及的图像信息包括但不限于直接从图片或视频帧中获取的图像信息，或者通过扫描、拍摄等输入方式由各种票据、报刊、书籍、广告牌、传单、文稿及其它印刷品转化而成的图像信息，以及其他形式的图像信息。

本发明实施例涉及的文字获取场景例如可以是从广告图片中获取文字广告的场景，也可以是从视频帧中提取文字信息的场景，还可以是在如银行、保险、金融、税务、海关、公安、边检、物流、电信工商管理、图书馆、户籍管理、审计等多领域中的文字录入场景，本发明实施例并不限定。

示例性***

下面结合应用场景，描述根据本发明示例性实施方式的用于文字提取***。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施例提供了一种文字提取***，如图1所示，该文字提取***用于从待识别图像中提取目标文字，该文字提取***至少包括：

共享特征提取层101，被配置为基于待识别图像提取得到共享特征图；

检测模块102，被配置为对共享特征图进行检测得到文字提取区域；

文字行特征提取层103，被配置为将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图；

识别模块104，被配置为从文字行特征图中识别出目标文字。

图1示出的文字提取***，通过设置共享特征提取层101和文字行特征提取层103，使得检测模块102可以基于共享特征图得到文字提取区域，并且使得识别模块104可以基于共享特征图和文字提取区域识别出目标文字，实现了端到端的文字提取网络，使文字提取过程无需经历运行环境变化以及随之产生的多次数据转换，从而既有助于避免因多次数据转换或运行环境变化而造成的***运行效率降低，提高***运行效率和流畅度，又有助于降低文字提取***提取到的目标文字与真值之间的偏差，优化***识别效果，改善用户体验。

本发明实施例涉及的待识别图像有多种，例如待识别图像可以是如图片、视频帧等形式的图像信息，也可以是通过各种光学输入方式由印刷品转化成的图像信息，还可以是其他形式的图像信息，本发明实施例并不限定。比如，待识别图像可以是图2a示出的包含有字母和数字等文字信息的广告图片。当待识别图像为视频时，一种可能的实现方式中，在基于该视频提取得到共享特征图之前，从该视频中提取得到图像帧。

本发明实施例也不限定获取待识别图像的方法，比如获取待识别图像的方法包括但不限于拍摄、扫描、通过网络搜索并下载图像资源或其他现有技术中的图像获取方式。

下面针对图1示出的文字提取***中的各模块及功能层进行说明。

共享特征提取层101被配置为基于待识别图像提取得到共享特征图。

其中，共享特征图，也即高维特征图，可被文字提取***内多个模块或功能层直接识别。尤其是，共享特征图可被检测模块102和识别模块104直接识别，这使得检测模块102和识别模块104之间的数据传输不再需要经过复杂的数据格式转换，有助于提高***运行效率。

共享特征提取层101的一种实现方式为全卷积网络，即以卷积(无全连接层)作为线性映射层的深度神经网络。本发明实施例涉及的全卷积网络可以是基础网络，包括但不限于残差神经网络(Residual Neural Network，ResNet)、视觉几何组(Visual GeometryGroup，VGG)卷积神经网络；本发明实施例涉及的全卷积网络也可以是多个神经网络层的组合，包括但不限于卷积层(Convolution)、归一化层(Batch Normalization)、激活函数(ReLU)、池化层(Pooling)、空洞卷积层(Dilated Convolution)、上采样层(Up Sampling)以及反卷积层(Deconvolution)中的一种或组合。可以理解的是，除了上文描述的神经网络之外，本发明实施例并不限定共享特征提取层101采用其他模型或网络实现。

具体而言，共享特征提取层101从待识别图像中提取得到包含有文字行图像信息的高维特征作为共享特征图。以共享特征提取层101是全卷积网络为例，待识别图像的高度为H，待识别图像的宽度为W，则将待识别图像输入该全卷积网络，通过该全卷积网络中的卷积、池化等操作获取共享特征图，该共享特征图的高度为H’，共享特征图的宽度为W’。共享特征图和待识别图像的尺寸可以相同；共享特征图和待识别图像的尺寸也可以不同，例如共享特征图的尺寸可以为待识别图像的尺寸的二分之一或四分之一。

考虑到，待识别图像的类型可以分为彩色图像或灰度图像。为了提升共享特征图的准确度，一种可能的实施例中，为了分别设置共享特征提取层101的相应参数，或更改共享特征提取层101的相应结构，以使共享特征提取层101通过不同数量的通道从相应类型的待识别图像中提取得到共享特征图。

检测模块102被配置为对共享特征图进行检测得到文字提取区域。以待识别图像为图2a示出的图片为例，检测模块102对共享特征图进行检测得到如图2b示出的两处空白区域即为两个文字提取区域。

本发明实施例中检测模块102的实现方式有多种，其中一种实现方式为由多个卷积层、ReLU激活函数以及全连接层组合成的模型。可选的，通过设置检测模块102来控制检测得到的文字提取区域的数量，和/或检测得到的该文字提取区域的属性。比如，将通过检测模块102检测得到的文字提取区域的数量设置为n，该文字提取区域的属性设置为置信度、高度、宽度、顶点坐标以及该文字提取区域与设定方向之间的夹角等6个参数，其中n为正整数。

本发明实施例涉及的文字提取区域的数量可以为一个或多个，本发明实施例涉及的文字提取区域的形状可以有多种，本发明实施例并不限定。例如，文字提取区域的形状可以为矩形、圆形、三角形、或适应于文字行的其他图形。

文字提取区域的属性包括但不限于置信度、尺寸、顶点坐标、该文字提取区域与设定方向之间的夹角中的一个或多个。置信度用于指示文字提取区域中包含文字行的概率，例如置信度为设定范围(比如设定范围是0到1)内的数值，该置信度的数值越大，文字提取区域中包含文字行的概率越高。

具体而言，检测模块102从共享特征图中检测得到文字提取区域以及文字提取区域的属性。以文字提取区域为文字框为例，一种可能的实施例中，检测模块102对共享特征图进行检测得到设定数量的文字框，该设定数量的文字框表示为n*6的矩阵并采用合集Box＝{score,x₀,y₀,h,w,theta}来表示文字框的属性参数，如图3所示。其中，n为设定数量，score用于表示对应文字框的置信度，x₀用于表示对应文字框的左上角顶点的横坐标，y₀用于表示对应文字框的左上角顶点的纵坐标，h用于表示对应文字框的高，w用于表示对应文字框的宽，theta用于表示对应文字框与水平方向的夹角。需要注意的是，除了上述表示方式之外，文字提取区域属性的表示方式还有多种，以文字提取区域为四边形的文字框为例，该文字框的属性还可以表示为，置信度与该文字框的四个顶点坐标的集合，即集合Box’＝{score，(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃)}，其中score用于表示该文字框的置信度，(x₀,y₀)、(x₁,y₁)、(x₂,y₂)以及(x₃,y₃)分别用于表示四个顶点坐标。

文字行特征提取层103被配置为将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图。本发明实施例中文字行特征提取层103获取文字行特征图的实现方法有多种，其中一种实现方法为：文字行特征提取层103将文字提取区域映射回共享特征图上得到映射区域，从该映射区域中提取对应文字行的图像特征，基于对应文字行的图像特征生成文字行特征图。进一步的，若文字行与预设方向存在夹角，则根据夹角对文字行的图像特征进行调整，以使文字行特征图所包含的文字行均与预设方向平行，降低后续目标文字识别的计算复杂度。

上述实现方法的一种可能方式为，文字提取区域为文字框，对应文字行的图像特征为对应文字行的特征点矩阵，其中文字框可理解为从共享特征图中检测并切割得到的图像区域，则文字行特征提取层103将文字框映射回共享特征图上得到映射区域，从映射区域中提取对应文字行的特征点组成对应文字行的特征点矩阵，将对应文字行的特征点矩阵中每一特征点对应的特征值进行计算得到文字行特征图。

可选的，若文字提取区域为四边形的文字框，则将文字行特征图的长宽比设置为与映射区域相同的长宽比，并依据于该长宽比生成特征点矩阵，以便提升目标文字的识别效果。需要注意的是，如果文字提取区域为其他形状，则通过设置文字行特征图的其他参数使文字行特征图与映射区域的形状比例一致。

可选的，设置检测模块102输出固定数量的文字提取区域。在文字提取区域的数量为多个的情况下，文字行特征提取层103在将文字提取区域映射回所述共享特征图上并进行文字行特征提取得到文字行特征图之前，还被配置为从多个文字提取区域中选取置信度满足预设条件的文字提取区域，从而减少文字行特征提取层103提取文字行特征图所消耗的计算资源，提高文字行特征提取层103的计算效率。举例来说，文字行特征提取层103从多个文字提取区域中选取置信度不低于阈值的文字提取区域。

以图3示出的文字行特征图提取流程为例，假设共性特征图中的特征数据为三维特征数据，并且检测模块102对共享特征图进行检测得到文字框，其中该文字框记为Box＝{score,x₀,y₀,h,w,theta}，则针对文字框Box，文字行特征提取层103将该文字框Box映射回共享特征图上得到一个映射区域，该映射区域的高度和宽度与文字框相同，该映射区域的高度为h，宽度为w。文字行特征提取层103从该映射区域获取对应文字行的特征点，并根据该映射区域的比例生成特征点矩阵，其中该特征点矩阵的高度为h₁，宽度为w₁，并且h₁为固定值，w₁为按照h₁与h之比对w进行变化得到的值，从而通过保持文字框原比例进行缩放变换和旋转变换得到的特征点矩阵，有助于降低获取文字行特征图的计算复杂度，提升目标文字的识别效果。生成特征点矩阵后，对特征点矩阵中每一特征点对应的特征值进行计算得到文字行特征图。比如，对于文字行特征图中第i行、第j列的特征值，该特征值为对共享特征图中映射区域内的特征点P(x_i,y_i)的特征值，因此该特征值计算过程如下：

步骤一、通过如下公式(1)至(5)获取P(x_i,y_i)的具***置，即x_i和y_j对应的数值。

Δx＝i*g，Δy＝j*g (3)

x_i＝x₀+Δx*cos(theta)-Δy*sin(theta) (4)

y_j＝x₀+Δx*sin(theta)+Δy*cos(theta) (5)

步骤二、由于x_i和y_j对应的数值可能不是整数，而共享特征图中的特征点坐标均为整数值，则采用双线性差值法计算特征点P(x_i,y_i)的特征值。

即采用公式(6)对x_i进行向下取值和向上取整，采用公式(7)对y_j进行向下取值和向上取整，得到与P(x_i,y_i)相邻的4个整数点P_ll(x_l,y_l)、P_ul(x_u,y_l)、P_lu(x_l,y_u)以及P_uu(x_u,y_u)各自的坐标。

x_l＝[x_i]，x_u＝[x_i] (6)

根据P_ll(x_l,y_l)、P_ul(x_u,y_l)、P_lu(x_l,y_u)以及P_uu(x_u,y_u)的坐标以及公式(8)得到P(x_i，y_j)的特征值。

通过上述步骤一和步骤二所描述的计算方法对特征点矩阵中每一特征点对应的特征值进行计算，从而得到每一特征点对应的特征值以组成文字行特征图。

文字行特征提取层103通过将检测模块102得到的文字提取区域映射回共享特征图，从共享特征图中选取出的对应于文字行的特征点，并将这些特征点的高维特征数据转换为文字行特征图中的二维特征值，以便识别模块104基于文字行特征图中的二维特征值实现后续的目标文字识别，这样有助于实现检测模块102与识别模块104之间的特征数据共享，提升***运行效率，降低检测识别结果的偏差。

识别模块104被配置为从文字行特征图中识别出目标文字，从而实现了对待识别图像的文字提取。可选的，识别模块104还被配置为输出识别出的目标文字。以待识别图像为图2a示出的图片为例，识别模块104在从文字行特征图中识别出目标文字“WEI信”和“fb802323”后，输出这些目标文字“WEI信”和“fb802323”。

识别模块104的实现方式有多种，本发明并不限定。如一种可能的实现方式为，识别模块104由卷积神经网络和/或递归神经网络组成，其中卷积神经网络至少包括多个卷积层、归一化层、激活函数、池化层，递归神经网络与全连接层(Full Connection)串联。

识别模块104采用卷积神经网络和递归神经网络对文字行特征图进行处理得到该文字行特征图的序列特征，基于预设的识别字典库对该文字行特征图的序列特征进行识别得到目标文字。结合上文描述中识别模块104的一种可能实现方式，上述识别过程可以理解为，采用卷积神经网络将文字行特征图进行多次卷积操作并输入至递归神经网络，通过该递归神经网络优化处理得到该文字行特征图的序列特征，进而通过全连接层获取该文字行特征图的序列特征中每一特征序列在预设的识别字典库中的概率分布，以便基于每一特征序列对应的概率分布得到目标文字。

可选的，文字提取***还输出目标文字对应的文字提取区域，用以为后续流程提供文字行在待识别图像中的位置，提高识别准确度。例如，通过检测模块102输出目标文字对应的标注于待识别图像上的文字提取区域，其中该标注于待识别图像上的文字提取区域如图2c所示。

图1示出的上述文字提取***中，通过设置共享特征提取层101和文字行特征提取层103，使得检测模块102可以基于共享特征图得到文字提取区域，并且使得识别模块104可以基于共享特征图和文字提取区域识别出目标文字，实现了端到端的文字提取网络，使文字提取过程无需经历运行环境变化以及随之产生的多次数据转换，从而既有助于避免因多次数据转换或运行环境变化而造成的***运行效率降低，提高***运行效率和流畅度，又有助于降低文字提取***提取到的目标文字与真值之间的偏差，优化***识别效果，改善用户体验。

为了提高文字提取***的文字提取准确度和训练效率，本发明实施例提供的文字提取***还包括***参数更新模块，该***参数更新模块用于更新检测模块102和识别模块104的模型参数。

本发明实施例并不限定***参数更新模块的实现方式，比如***参数更新模块的一种可能的实现方式为：***参数评估单元被配置为***参数评估单元和参数更新单元。

具体而言，***参数评估单元被配置为确定检测模块102的评估结果和识别模块104的评估结果，并基于预设权重对确定的检测模块102的评估结果和识别模块104的评估结果进行评估得到***参数评估结果。另一种可能的实现方式中，***参数评估单元被配置为确定检测模块102的评估结果，并基于预设权重对确定的检测模块102的评估结果进行评估得到***参数评估结果。另一种可能的实现方式中，***参数评估单元被配置为确定识别模块104的评估结果，并基于预设权重对确定的识别模块104的评估结果进行评估得到***参数评估结果。

为了便于确定待更新的模型参数，***参数更新模块还包括获取单元，该获取单元被配置为获取训练图像以及该训练图像对应的文字行特征样本。文字行特征样本包括但不限于文字提取区域样本、该文字提取区域样本对应的属性参数。

举例来说，文字提取区域样本表示为训练图像中文字提取区域对应的属性参数真实值(Ground Truth)，则这些属性参数真实值存储于集合Boxes＝{Box₁,Box₂,...,Box_m}，其中m为该训练图像中文字行的数量，Box₁,Box₂,...,Box_m为m个文字行属性参数的标注数据。进一步的，标注数据可以记为box＝{x₀,y₀,h,w,theta,text}，x₀用于表示训练图像中文字提取区域的设定顶点的横坐标，y₀用于表示该文字提取区域的设定顶点的纵坐标，h用于表示该文字提取区域的高度，w用于表示该文字提取区域的宽度，theta用于表示该文字提取区域与设定方向的夹角，text用于表示该文字提取区域内的文字行对应的文字内容。可以理解的是，标注数据的形式并不限定于上文列举的形式，标注数据还记为以下形式：Box＝{(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃),text}，其中(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃)用于表示训练图像中文字提取区域的顶点坐标，text用于表示该文字提取区域内的文字行对应的文字内容。

针对于检测模块102，***参数评估单元确定预测的文字提取区域与真实样本的差异情况作为检测模块102的评估结果。为了提升文字提取区域的检测准确度，一种可能设计中，***参数评估单元还配置有第一误差估计模型和第二误差估计模型。

其中，第一误差估计模型用于确定预测的文字提取区域的概率分布与文字提取区域样本的分布概率的差异情况以得到检测模块102的第一子评估结果。本发明涉及的第一误差估计模型包括但不限于框分类函数模型。例如框分类函数模型可设置为二分类交叉熵损失函数Loss_cls，其中交叉熵用于衡量文字提取区域的概率分布与文字提取区域样本的分布概率之间的差异情况，交叉熵越低则表示文字提取区域的概率分布越接近于文字提取区域样本的分布概率。

第二误差估计模型用于确定预测的文字提取区域的位置属性与文字提取区域样本的位置属性的差异情况以得到检测模块102的第二子评估结果。本发明涉及的第二误差估计模型包括但不限于框回归损失函数模型，其中框回归损失函数用于计算预测的文字提取区域的位置参数与文字提取区域样本的位置参数之间的差异情况。例如框回归损失函数Loss_los为：

Loss_loc＝SmoothL1Loss(x₀,y₀,w,h,x₀',y₀',w',h')+c*L_theta (9)

其中，x₀用于表示文字框的左上角顶点的横坐标，y₀用于表示文字框的左上角顶点的纵坐标，h用于表示文字框的高度，w用于表示文字框的宽度，theta用于表示文字框与水平方向的夹角，L_theta＝{1-cos(theta-theta')}表示夹角的训练误差，c为角度误差在训练过程中的权重。x₀、y₀、h、w、theta为文字提取区域样本的位置参数，x₀'、y₀'、h'、w'、theta'为预测的文字提取区域的位置参数。

针对于识别模块104，***参数评估单元在确定识别模块104的评估结果时具体用于：确定识别的目标文字与真实样本的差异情况作为识别模块104的评估结果。

为了提升目标文字的识别效果，一种可能设计中，***参数评估单元还配置有第三误差估计模型，该第三误差估计模型用于确定识别的目标文字对应的序列特征的概率分布与文字样本的序列特征的分布概率的差异情况以得到识别模块的评估结果。本发明涉及的第三误差估计模型包括但不限于CTC损失函数模型，例如通过CTC损失函数模型Loss_ctc能够直接使用未切分的序列特征进行训练，对整个图像序列特征自动对齐并进行识别，计算出识别出的目标文字对应的序列特征的概率分布与文字样本的序列特征的分布概率的差异情况。

可以理解的是，第一、第二及第三误差估计模型可设置为上述组合，也可设置为其他组合，本发明实施例并不限定。

在确定检测模块102和识别模块104的评估结果之后，***参数评估单元基于预设权重对确定的检测模块102和识别模块104的评估结果进行评估得到***参数评估结果。可选的，根据应用场景和具体的样本识别效果为检测模块102和识别模块104设置权重。一种可能的实现方式为，***参数评估单元通过以下公式(10)对文字提取***进行整体评估得到***参数评估结果：

Loss＝Loss_loc+a*Loss_cls+b*Loss_ctc (10)

参数更新单元用于根据***参数评估结果对文字提取***进行反向传播，以实现对检测模块102的模型参数和/或识别模块104的模型参数的更新。

其中，反向传播(Backpropagation Algorithm，BP)算法是一种适用于多层神经元网络的学***方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，从而作为修改权值的依据，使得多层神经元网络的学习在权值修改过程中完成。当误差达到期望值时，多层神经元网络训练完成。

图1示出的文字提取***中，端到端的***结构设计使文字提取***能够实现对文字提取***的整体训练，有效避免了由于检测模型和识别模型需要经过单独训练而导致的训练过程复杂，简化了文字提取***的调试过程，缩短了训练文字提取***所消耗的时间。

示例性方法

在介绍了本发明示例性实施方式的***之后，接下来，介绍本发明提供了示例性实施的方法。本发明提供的文字提取方法可以应用于图1对应的实施例提供的文字提取***中。参见图4，该文字提取方法至少包括：

S401、基于待识别图像提取共享特征图；

S402、对共享特征图进行检测得到文字提取区域；

S403、将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图；

S404、从文字行特征图中识别出目标文字。

可选的，在S404之后还输出目标文字。或者在S404之后，还输出目标文字以及该目标文字对应的文字提取区域，用以为后续流程提供文字行在待识别图像中的位置，提高识别准确度。

可选的，对共享特征图进行检测得到文字提取区域，包括：从共享特征图中检测得到文字提取区域以及文字提取区域的属性。其中文字提取区域的属性包括置信度、尺寸、顶点坐标、该文字提取区域与设定方向之间的夹角中的一个或多个。置信度用于指示文字提取区域中包含文字行的概率。

可选的，将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图，包括：将文字提取区域映射回共享特征图上得到映射区域，从映射区域中提取对应文字行的图像特征，基于对应文字行的图像特征生成文字行特征图。

可选的，文字提取区域的数量设置为多个，则在将文字提取区域映射回共享特征图上并进行文字行特征提取得到文字行特征图之前，还包括：从多个文字提取区域中选取置信度满足预设条件的文字提取区域。

可选的，文字提取区域为文字框，对应文字行的图像特征为对应文字行的特征点矩阵，文字框为从共享特征图中经检测并切割得到的图像区域。将文字提取区域映射到共享特征图中进行特征抽取得到文字行特征图的步骤，具体包括：将文字框映射回共享特征图上得到映射区域；从映射区域中提取对应文字行的多个特征点组成对应文字行的特征点矩阵；将对应文字行的特征点矩阵中每一特征点对应的特征值进行计算得到文字行特征图。

可选的，从文字行特征图中识别出目标文字，包括：采用卷积神经网络和/或递归神经网络对文字行特征图进行处理得到文字行特征图的序列特征；基于预设的识别字典库对文字行特征图的序列特征进行识别得到目标文字。

可以理解的是，本发明提供的文字提取方法中各步骤的实现原理类似于图1示出的文字提取***的实现原理，相似之处相互参见，此处不再赘述。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图5，本发明提供了一种示例性介质，该介质存储有计算机可执行指令，该计算机可执行指令可用于使所述计算机执行图4对应的本发明示例性实施方式中任一项所述的方法。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图6，介绍本发明提供的一种示例性计算设备60，该计算设备60包括处理单元601、存储器602、总线603、外部设备604、I/O接口605以及网络适配器606，该存储器602包括随机存取存储器(random access memory，RAM)6021、高速缓存存储器6022、只读存储器(Read-OnlyMemory，ROM)6023以及至少一片存储单元6024构成的存储单元阵列6025。其中该存储器602，用于存储处理单元601执行的程序或指令；该处理单元601，用于根据该存储器602存储的程序或指令，执行图4对应的本发明示例性实施方式中任一项所述的方法；该I/O接口605，用于在该处理单元601的控制下接收或发送数据。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文字提取***，其特征在于，所述文字提取***用于从待识别图像中提取目标文字，所述文字提取***包括：

共享特征提取层，被配置为基于所述待识别图像提取得到共享特征图；

检测模块，被配置为对所述共享特征图进行检测得到文字提取区域；

文字行特征提取层，被配置为将所述文字提取区域映射回所述共享特征图上并进行文字行特征提取得到文字行特征图；

识别模块，被配置为从所述文字行特征图中识别出目标文字。

2.如权利要求1所述的文字提取***，其特征在于，所述检测模块具体用于：

从所述共享特征图中检测得到所述文字提取区域以及所述文字提取区域的属性；

其中所述文字提取区域的属性包括置信度、尺寸、顶点坐标、该文字提取区域与设定方向之间的夹角中的一个或多个，所述置信度用于指示所述文字提取区域中包含文字行的概率。

3.如权利要求1所述的文字提取***，其特征在于，所述文字行特征提取层具体用于：

将所述文字提取区域映射回所述共享特征图上得到映射区域；

从所述映射区域中提取对应文字行的图像特征；

基于所述对应文字行的图像特征生成所述文字行特征图。

4.如权利要求3所述的文字提取***，其特征在于，所述文字提取区域的数量设置为多个，则所述文字行特征提取层还用于：

在将所述文字提取区域映射回所述共享特征图上并进行文字行特征提取得到文字行特征图之前，从多个文字提取区域中选取置信度满足预设条件的文字提取区域。

5.如权利要求3或4所述的文字提取***，其特征在于，所述文字提取区域为文字框，所述对应文字行的图像特征为对应文字行的特征点矩阵，所述文字框为从所述共享特征图中检测并切割得到的图像区域；

所述文字行特征提取层在将所述文字提取区域映射回所述共享特征图上并进行文字行特征提取得到文字行特征图时，具体用于：

将所述文字框映射回所述共享特征图上得到映射区域；

从所述映射区域中提取对应文字行的特征点组成所述对应文字行的特征点矩阵；

对所述对应文字行的特征点矩阵中每一特征点对应的特征值进行计算得到所述文字行特征图。

6.如权利要求1所述的文字提取***，其特征在于，所述识别模块具体用于：

采用卷积神经网络和/或递归神经网络对所述文字行特征图进行处理得到所述文字行特征图的序列特征；

基于预设的识别字典库对所述文字行特征图的序列特征进行识别得到所述目标文字。

7.如权利要求1所述的文字提取***，其特征在于，还包括***参数更新模块，被配置为***参数评估单元和参数更新单元，其中

所述***参数评估单元，用于确定预测的所述文字提取区域与真实样本的差异情况作为所述检测模块的评估结果；和/或，确定识别的所述目标文字与真实样本的差异情况作为所述识别模块的评估结果；并

基于预设权重对确定的所述检测模块的评估结果和/或所述识别模块的评估结果进行评估得到***参数评估结果；

所述参数更新单元，用于根据所述***参数评估结果对所述文字提取***进行反向传播，以更新所述检测模块的模型参数和/或所述识别模块的模型参数。

8.一种文字提取方法，其特征在于，应用于如权利要求1至7任一所述的文字提取***，所述方法包括：

基于待识别图像提取共享特征图；

对所述共享特征图进行检测得到文字提取区域；

将所述文字提取区域映射回所述共享特征图上并进行文字行特征提取得到文字行特征图；

从所述文字行特征图中识别出目标文字。

9.一种介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求8所述的方法。

10.一种计算设备，其特征在于，包括处理单元、存储器以及I/O接口；

所述存储器，用于存储所述处理单元执行的程序或指令；

所述处理单元，用于根据所述存储器存储的程序或指令，执行权利要求8所述的方法；

所述I/O接口，用于在所述处理单元的控制下接收或发送数据。