CN115909336A

CN115909336A - 文本识别方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN115909336A
Application number: CN202110942358.6A
Authority: CN
Inventors: 王斌; 薛莫白; 曹浩宇; 包志敏; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-04-04

Abstract

本申请实施例公开了一种文本识别方法、装置、计算机设备和计算机可读存储介质，通过获取文本图像样本；根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定参考样本指标；通过特征提取模型针对文本图像样本进行图像特征提取处理，得到图像特征信息；通过特征提取模型基于图像特征信息，进行注意力特征提取，得到关注上下文信息的注意力特征信息；基于注意力特征信息，预测预测样本指标；根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

Description

文本识别方法、装置、计算机设备和计算机可读存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种文本识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指计算机设备检测字符的形状，例如纸上打印的字符或者图片中包含的字符，然后用字符识别方法将检测到的形状翻译成计算机文字的过程。在一些应用场景中，例如，广告场景、宣传海报等场景，通常会对字体进行变形，且字体的变形多种多样，为了提高识别的效果，需要获取大量对应场景下的训练样本，并对训练样本进行标注，通过标注的训练数据对模型进行训练，以提高模型识别字符的能力。

但训练好的模型应用于其他场景时，由于字体的变形方式不同，模型的识别效果差，且获取不同场景下的训练样本，并对大量的训练样本进行标注需要耗费大量的人力，导致训练样本获取难度高，模型训练难度高。

发明内容

本申请实施例提供一种文本识别方法、装置、计算机设备和计算机可读存储介质，可以利用无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

本申请实施例提供的一种文本识别方法，包括：

获取文本图像样本；

根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；

通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图像样本的图像特征信息；

通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息；

基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标；

根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。

相应的，本申请实施例还提供的一种文本识别装置，包括：

获取单元，用于获取文本图像样本；

计算单元，用于根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；

第一特征提取单元，用于通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图像样本的图像特征信息；

第二特征提取单元，用于通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息；

预测单元，用于基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标；

训练单元，用于根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种文本识别方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种文本识别方法。

本申请实施例通过获取文本图像样本；根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图像样本的图像特征信息；通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息；基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标；根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练，可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本识别方法的场景图；

图2是本申请实施例提供的文本识别方法的流程图；

图3是本申请实施例提供的图像还原处理的流程图；

图4是本申请实施例提供的文本识别方法的另一流程图；

图5是本申请实施例提供的特征提取网络结构示意图；

图6是本申请实施例提供的模型结构示意图；

图7是本申请实施例提供的文本识别装置示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种文本识别方法、装置、计算机设备和计算机可读存储介质。该文本识别装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、以及车载计算机等。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，如图1所示，文本识别方法可以包括上游任务、下游任务以及特征提取任务，特征提取任务中计算机设备可以获取文本图像样本，通过特征提取模型的DenseNet神经网络对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息，特征提取模型对图像特征信息进行随机掩码处理后，基于多头注意力特征机制对掩码后图像特征信息进行注意力特征提取，得到文本图像样本的初始注意力特征信息，初始注意力特征信息依次通过第一BN(Batch Normalization，BN)层进行归一化处理后，前向反馈网络(feedforward)以及第二BN层再次进行归一化处理，得到注意力特征信息。BN层用于将注意力特征信息中的数据规整至一数据区间中，减少数据的发散程度，降低对特征提取模型的训练难度。

上游任务用于对特征提取模型进行训练，提高特征提取模型的特征提取能力，计算机设备可以根据文本图像样本的图像属性信息对文本图像样本进行图像指标计算得到图像指标信息，例如，根据文本图像样本的颜色特征、轮廓特征、形状特征、纹理特征等计算得到文本图像样本的颜色直方图、边界特征、同质度、对比度以及熵等图像指标信息，将图像指标的指标值表达类型相匹配的图像指标信息进行指标合并处理，得到文本图像样本对的参考样本指标。以及通过不同的全连接层基于注意力特征信息预测文本图像样本的预测样本指标，例如，进行图像还原处理以及维度转换等特征处理方式得到预测样本指标；基于参考样本指标和预测样本指标之间的误差对特征提取模型进行训练，得到预训练特征提取模型。

下游任务用于通过预训练特征提取模型提取少量有样本标签的目标图像样本的注意力特征信息，并通过文本识别模型基于注意力特征信息预测目标图像样本的预测结果，根据预测结果和样本标签对预训练特征提取模型和文本识别模型进行参数调整，得到训练后特征提取模型和训练后文本识别模型，通过训练后特征提取模型和训练后文本识别模型对待识别文本图像进行图像文本识别。该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练，可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从文本识别装置的角度进行描述，该文本识别装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备，如图2所示，文本识别方法的具体流程如下：

101、获取文本图像样本。

其中，文本图像样本可以是用于对特征提取模型进行训练的训练样本，文本图像样本中可以包含文字以及字符等，文字可以是不同语言的文字，以及各种变形的艺术字等，文本图像样本可以是没有被标注标签的文本图像样本。

比如，具体可以是从数据库或者区块链中获取文本图像样本，或者是将用户在终端上传的待识别文本图像作为文本图像样本。

102、根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定文本图像样本的参考样本指标。

其中，图像属性信息可以是表征文本图像样本性质的信息，例如，文本图像样本中每个像素的在不同颜色通道下的色值以及亮度等图像属性信息。

其中，图像指标计算可以是在至少一个特征下，基于图像属性信息对文本图像样本进行的计算，例如，针对颜色特征、轮廓特征、形状特征、或者是纹理特征对文本图像样本进行计算。

其中，参考样本指标可以是根据图像指标计算得到的计算结果确定的参考样本指标，参考样本指标的作用可以相当于文本图形样本的标签，用于与基于特征提取模型提取的注意力特征信息进行预测得到的预测样本指标进行比较。

比如，具体可以是针对至少一个特征，获取文本图像样本的图像属性信息进行计算，得到图像指标信息(图像指标信息为通过对图像属性信息进行图像指标计算得到的计算结果)。例如，针对颜色特征，可以通过文本图像样本中每个像素的不同通道的颜色值计算文本图像样本的颜色直方图(例如RGB颜色直方图、HSV颜色直方图、灰度直方图)、或者/以及颜色集以及颜色矩等；针对轮廓特征，可以通过霍夫(Hough)变换得到文本图像样本的边界特征、计算文本图像样本的边缘方向直方图、或者/以及对文本图像样本进行傅里叶形状描述，得到文本图像样本的傅里叶描述子等；针对形状特征，可以计算文本图像样本的边缘、角点、区域、或者/以及脊在文本图像样本中的分布情况，针对纹理特征，可以根据文本图像样本的每个像素的亮度以及色值计算同质度、对比度、非相似性、熵、角二阶矩、或者/以及相关性等，以及针对文本图像样本的整体特征，计算文本图像样本的每个像素在不同通道下的色值等属性信息得到关于文本图像样本的图像指标信息(图像指标信息可以是大小为Chanels*H*W的三维张量，其中H*W为文本图像样本的大小，长为H个像素，宽为W个像素，Chanels为通道数，通道数可以根据不同的图像属性信息进行灵活设置)。

将根据文本图像样本的图像属性信息计算得到的图像指标信息作为该文本图像样本的参考样本指标，比如，可以是针对颜色特征计算得到的关于RGB颜色直方图对应的一维张量作为文本图像样本的参考样本特征。

其中，颜色直方图可以是将颜色空间(例如，RGB颜色空间、HSV颜色空间以及灰度空间等)划分成若干个小的颜色区间，通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图，根据每个颜色的像素数量可以得到关于颜色直方图的一个图像指标信息，该图像指标信息的表示形式可以是一维张量；同理，边缘方向直方图通过计算文本图像中边缘方向落在每个小区间内的像素数量可以得到边缘方向直方图。

颜色集可以通过将RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间)，并将颜色空间量化成若干个颜色区间。通过色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达为一个二进制的颜色索引集，颜色索引集可以表示为一个一维张量，该一维张量即为根据文本图像样本的图像属性信息计算得到的一个图像指标信息。

颜色矩可以是对文本图像样本进行颜色矩提取，例如，进行一阶矩、二阶矩和三阶矩等颜色矩提取，根据提取得到的颜色矩可以得到一个一维张量，该一维张量可以为一个图像指标信息。

霍夫变换可以识别文本图像样本中的几何形状，基于霍夫变化可以得到计算结果，根据计算结果可以得到一张图片，该图片是提取文本图像样本中的几何形状得到的图片，即对文本图像样本进行霍夫变换可以得到一个H*W的二维张量，其中H*W为文本图像样本的大小(长为H个像素，宽为W个像素)。该二维张量可以为一个图像指标信息。同理，通过对文本图像样本进行傅里叶形状描述，以及检测边缘、角点、区域、以及脊在文本图像样本中的分布情况等均可以得到对应的一个二维张量，每个二维张量均为基于文本图像样本的图像属性信息计算得到的一个图像指标信息。

同质度、对比度、非相似性、熵、角二阶矩、以及相关性等可以是衡量文本图像样本纹理特征的度量，具体可以根据文本图像样本中的灰度和亮度进行计算得到对应的数值，得到的每个数值为一个图像指标信息。

若针对多个特征进行图像指标计算，会得到大量的参考样本指标，则对应的需要预测同样数量的预测样本指标，数据处理量大，且部分参考样本指标为数值形式(例如，计算得到的文本图像样本的对比度和熵)，且取值范围大，不利于对模型进行训练，在一实施例中，可以是将计算得到的图像指标信息进行合并处理，得到参考样本指标，将多个计算结果进行合并，可以减少参考样本指标的数量，降低模型的训练难度，即步骤“根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定文本图像样本的参考样本指标”，具体可以包括：

根据文本图像样本的图像属性信息进行图像指标计算，得到至少一个图像指标信息；

将至少一个图像指标信息进行指标合并处理，得到文本图像样本的参考样本指标。

比如，具体可以是根据文本图像样本的属性信息进行图像指标计算，得到至少一个图像指标信息，将得到的所有图像指标信息拼接成一个多维数组或者张量，将该多维数组或者是张量作为参考样本指标。

可选的，将图像指标信息中为数值形式的图像指标信息进行合并，例如，拼接成数组的形式，将得到的数组，以及其他非数值形式，例如一维张量以及多维张量形式的图像指标信息作为参考指标信息。

可选的，还可以根据图像指标的指标值表达类型，对图像指标信息进行合并处理，得到参考样本指标，即步骤“将至少一个图像指标信息进行指标合并处理，得到文本图像样本的参考样本指标”，具体可以是：

获取至少一个图像指标的指标值表达类型；

根据指标值表达类型对至少一个图像指标信息进行指标合并处理，得到文本图像样本的参考样本指标。

其中，指标值表达类型可以表示图像指标信息的表达类型，例如，可以是数值或者张量(一维或者多维)等形式。

比如，具体可以是每个图像指标对应有指标值表达类型，根据图像指标获取对应的指标值表达类型，将指标值表达类型为数值以及一维张量的图像指标信息进行拼接处理，得到一个关于该文本图像样本的包含更多图像指标信息的一维张量；将指标值表达类型为二维张量的图像指标信息进行拼接处理，得到关于该文本图像样本的三维张量；将得到的一维张量、三维张量以及其他指标值表达类型(例如，三维张量等)的图像指标信息作为参考样本指标。

103、通过特征提取模型针对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息。

其中，特征提取模型可以是用于对文本图像样本进行图像特征提取的神经模型。

其中，图像特征提取可以是对文本图像样本进行图像分析和变换，以提取文本图像样本特征性信息的过程，图像特征信息可以是通过图像特征提取得到的信息。

比如，具体可以是特征提取模型可以包含卷积循环神经网络(ConvolutionalRecurrent Neural Network，CRNN)，CRNN网络包含卷积神经网络(Convolutional neuralnetwork，CNN)和循环神经网络(Recurrent Neural Network,RNN)，通过CNN网络对文本图像样本对文本图像样本进行卷积处理，得到文本图像样本的特征图，通过RNN网络对特征图进行特征提取，得到文本图像样本的图像特征信息。

可选的，特征提取模型还可以通过其他的神经网络进行图像特征提取，例如，通过DenseNet网络对文本图像样本进行编码，将文本图像样本映射为能够表示文本图像样本的图像特征信息。

104、通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

其中，文本图像样本可以包括多个图像区域，每个图像区域可以对应有区域特征信息，文本图像样本的图像特征信息中可以包括每个图像区域的区域特征信息，注意力特征信息可以是针对每个图像区域，将图像区域的区域特征信息和关联图像区域的区域特征信息进行融合处理得到的具有上下文信息的信息。

比如，具体可以是针对每个图像区域，将根据图像区域的区域特征信息和关联图像区域的区域特征信息之间的相似度，作为关联图像区域对应的权重，基于权重，对图像区域和关联图像区域的区域特征信息进行加权求和，得到每个图像区域对应的关注上下文信息的注意力特征信息。

根据每个图像区域对应的关注上下文信息的注意力特征信息可以得到待识别文本图像的关注上下文信息的注意力特征信息。

其中，关联图像区域可以是与图像区域相关联的图像区域，例如可以是图像区域的相邻图像区域，关联图像区域还可以是文本图像样本的所有图像区域，或者文本图像样本中的其他图像区域。

在一实施例中，图像特征信息可以包括图像特征向量，图像特征向量可以包含每个图像区域的区域特征向量，可以根据图像区域的区域特征向量与关联图像区域的区域特征向量之间的距离得到二者之间的相似度，还可以将图像特征向量进行注意力空间映射，根据注意力空间中向量之间的距离确定每个图像区域和关联图像区域的相似度，并根据相似度得到具有上下文信息的注意力特征信息，即步骤“通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息”，具体可以包括：

对图像特征信息进行注意力空间映射处理，得到文本图像样本中每个图像区域在注意力空间中对应的空间向量，空间向量包括查询向量、内容向量以及关键向量；

针对每个图像区域，根据图像区域的查询向量与关联图像区域的关键向量之间的距离，计算图像区域与关联图像区域之间的相似度；

针对每个图像区域，根据图像区域的关键向量与关联图像区域之间的相似度，对图像区域和关联图像区域的内容向量进行融合处理，得到关注上下文信息的注意力特征信息。

其中，查询向量、关键向量和内容向量可以是图像特征向量分别根据不同的注意力网络参数进行线性变换得到的空间向量。注意力网络参数可以特征提取模型中的网络参数。

比如，具体可以是注意力网络参数可以包括第一注意力网络参数W_Q、第二注意力网络参数W_K和第三注意力网络参数W_V，基于第一注意力网络参数对图像特征向量进行映射，得到文本图像样本的查询向量，记为Query，简称Q，Q＝Γ·W_Q，文本图像样本中第i个图像区域的查询向量记为Q_i；基于第二注意力网络参数对图像特征向量进行映射，得到文本图像样本的关键向量，记为Key，简称K，K＝Γ·W_K，文本图像样本中第i个图像区域的查询向量记为K_i；基于第三注意力网络参数对图像特征向量进行映射，得到文本图像样本的内容向量，记为Value，简称V，V＝Γ·W_V，文本图像样本中第i个图像区域的查询向量记为Vi，文本图像样本在注意力空间的空间向量为：

计算第i个图像区域对应的查询向量和关联图像区域j对应的关键向量之间的距离，例如，可以将查询向量和关键向量进行点乘，例如Q_i·K_j，得到图像区域i联图像区域j间的相似度。

针对文本图像样本中每个图像区域进行相同的处理，得到每个图像区域与对应的关联区域之间的相似度。

根据图像区域与每个关联图像区域之间的相似度对图像区域以及关联图像区域的内容向量加权求和处理，得到图像区域的关注上下文信息的区域注意力特征信息，基于每个图像区域的区域注意力特征信息得到文本图像样本的注意力特征信息。

在一实施例中，根据每个图像区域与关联图像区域之间的初始相似度可以得到文本图像样本的初始相似度矩阵，可以记为SCORE₀，初始相似度矩阵中位于第i行第i列的元素score_ij可以表示图像区域i对图像区域j(图像区域j为图像区域i的关联图像区域)的初始相似度，位于第j行第i列的元素score_ji可以表示图像区域j对图像区域i的初始相似度。

通常情况下，针对每个图像区域，距离较远的图像区域与图像区域之间的文本内容几乎没有联系，对预测图像区域的文本内容不产生影响，因此，可以针对每个图像区域，对得到的初始相似度矩阵设置相应的窗口矩阵，以保留图像区域在窗口矩阵指示的区域范围内的相似度，屏蔽其他位置的相似度。窗口矩阵可以设置为窗口位置对应的数值为0，其他位置设置为-∞，或者是其他很大的负数，例如10^-16的矩阵。将初始相似度矩阵加上窗口矩阵，可以使得初始相似度矩阵中，非窗口位置的相似度由于加上很大的负数，而被设置为一个很大的负数，通过归一化处理将非窗口位置的相似度映射为0，归一化处理可以概括为公式：

通过针对每一个图像区域进行归一化处理得到第一相似度矩阵，根据第一相似度矩阵可以确定图像区域与关联图像区域之间的相似度，可以理解的是，加上窗口矩阵后，由于非窗口位置的图像区域的相似度为0，因此，每个图像区域对应的关联图像区域实际上为窗口矩阵的窗口位置的图像区域。

其中，窗口矩阵可以是与初始相似度矩阵的同型矩阵，可以用于保留窗口矩阵指示的区域范围内(可以称为窗口位置)的相似度，以及屏蔽其他位置的相似度，如将其他位置的相似度置为-∞，窗口位置可以根据每个图像区域进行设置，例如，针对图像区域i，窗口位置可以是score_ii、score_ii+1、和score_ii+1，即保留相邻3个图像区域的相似度，屏蔽与其他图像区域的相似度。

理想情况下，图像区域i对于图像区域j的相似度高，则对应有图像区域j对图像区域i的相似度高，即理想情况下，相似度矩阵为对称矩阵，可以将第一相似度矩阵的行列互换得到转置矩阵SCORE^T，将转置矩阵和第一相似度矩阵相加，得到相似度矩阵SCORE＝SCORE₁+SCORE^T，相似度矩阵为对称矩阵，相似度矩阵的元素score_ij＝score_ji。

根据相似度矩阵可以确定每个图像区域的特征向量与关联区域的特征向量之间的相似度，例如，图像区域i对图像区域j的相似度为相似度矩阵SCORE的元素score_ij。

将文本图像样本的内容向量V与相似度矩阵相乘，得到文本图像样本的具有上下文信息的注意力特征信息C，C＝V·SCORE，其中，V为文本图像样本的内容向量，SCORE为相似度矩阵。

在一实施例中可以增加文本图像样本的干扰信息，提供特征提取模型的训练效果，即步骤“通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息”，具体可以包括：

通过特征提取模型对图像特征信息进行掩码处理，得到文本图像样本的掩码后图像特征信息；

对掩码后图像特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

其中，掩码处理可以是屏蔽或选择文本图像样本的图像特征信息中的一些特征信息的处理方式，以增加特征提取模型的训练样本的噪声，使得经过训练的特征提取模型具有更加泛化的特征提取能力。

比如，具体可以是通过对文本图像样本的图像特征信息中的某些特征信息进行屏蔽，增加样本的干扰信息，得到掩码后图像特征信息，对掩码后图像特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

可选的，步骤103可以是通过特征提取模型包含的注意力机制进行图像特征提取，注意力机制可以是(Attention Mechanism)是机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小的机制，为了提高特征提取的准确性，注意力机制可以是多层注意力机制，即步骤“通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息”，具体可以包括：

将图像特征信息作为多层特征提取机制的输入特征信息；

通过多层特征提取机制依次对输入特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

比如，具体可以是多层注意力机制存在一定的排序，将图像特征信息作为多层注意力机制的第一层注意力机制的输入特征信息，通过第一层注意力机制对文本图像样本进行注意力特征提取，得到第一注意力特征信息，将第一注意力特征信息作为第二层注意力机制的输入特征信息，通过第二层注意力机制对输入特征信息进行注意力特征提取，得到第二注意力特征信息，依次类推，将最后一层注意力机制输出的特征信息作为注意力特征信息。

可选的，每层注意力机制可以包含多头注意力机制，根据多头注意力机制得到的子注意力特征信息得到该层注意力机制的注意力特征信息，即步骤“通过多层特征提取机制依次对输入特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息”，具体可以包括：

通过多层特征提取机制基于多头注意力机制依次对输入特征信息进行注意力特征提取，得到每头注意力机制下的子注意力特征信息；

通过多层特征提取机制将每头注意力机制下的子注意力特征信息进行融合处理，得到文本图像样本的关注上下文信息的注意力特征信息。

比如，具体可以是通过每层特征的多头注意力机制分别对图像特征信息进行注意力特征提取，得到每头注意力特征机制下的子注意力特征信息，将每个子注意力特征信息进行拼接，得到拼接后注意力特征信息，并对拼接后注意力特征信息进行维度转化，使得维度与输入的图像特征信息维度相同，输出该层注意力机制得到的注意力特征信息，将注意力特征信息作为下一层注意力特征机制的输入特征信息。

105、基于文本图像样本的注意力特征信息，预测文本图像样本的预测样本指标。

其中，预测样本指标可以是根据注意力特征信息进行预测的指标。

比如，具体可以是根据注意力特征信息预测与参考样本指标匹配的预测样本指标。

在一实施例中，可以根据参考样本指标的指标类型，对注意力特征信息采用不同的处理方式，以得到与参考样本指标匹配的预测样本指标，即步骤“基于文本图像样本的注意力特征信息，预测文本图像样本的预测样本指标”，具体可以是：

确定每个指标类型对应的特征处理方式；

针对每个指标类型的，采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样。

其中，指标类型可以是参考样本指标的指标类型，例如，一维指标、二维指标或者是还原指标等。一维指标表示根据包含的图像指标信息均为一维张量(数值为特殊的一维张量)，一维指标表示根据包含的图像指标信息均为二维张量，还原指标表示包含的图像指标信息为图像张量。

比如，具体可以是确定每个指标类型对应的特征处理方式，例如，维度转化、或者图像还原等处理方式，根据每个指标类型，采用对应的特征处理方式对注意力特征进行处理，得到参考样本指标匹配的预测样本指标。

若指标类型为一维指标或者是二维指标，则对注意力特征机制进行维度转换处理，得到与参考样本指标大小相同的张量，将得到的张量作为参考样本指标。

特征提取模型在提取文本图像样本的注意力特征信息的过程中存在下采样操作，在特征提取模型学习的过程中，会舍弃掉认为无用的信息，即使增加通道数也无法解决这一问题，特征提取模型无法有效地将二维图像信息存储在通道中，这是由于网络优化目标导致的，受任务和训练数据分布影响，部分有效信息被网络认为是冗余信息，图像还原任务可以最大限度地保留图像信息，迫使网络保留更多的有效信息。

若指标类型为文本图像样本对应的三维张量，则对应的处理方式为图像还原处理，则步骤“采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样”，具体可以包括：

基于注意力特征信息进行转置卷积处理，得到处理后注意力特征信息；

对注意力特征信息进行归一化处理，得到预测样本指标。

其中，转置卷积处理可以是对注意力特征信息进行反卷积处理，以基于注意力特征信息进行图像还原处理，得到与文本图像样本大小相同的张量。

比如，具体可以是对注意力特征信息进行转置卷积处理，得到处理后注意力特征信息，并对注意力特征信息进行归一化处理，得到预测样本指标。

可选的，可以对注意力特征信息进行多次转置卷积处理，以及对转置卷积处理得到的处理后注意力特征信息进行批标准化处理以及通过激活函数进行处理，对注意力特征信息进行图像还原处理的具体网络结构如图3所示，注意力特征信息交替通过转置卷积层和激活层进行处理，最后输出处理后注意力特征信息，并将注意力特征信息进行归一化处理，得到预测样本标签。

106、根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。

比如，具体可以是通过预测样本指标和对应的参考样本指标之间的误差对特征提取模型进行训练，调节特征提取模型的网络参数，以得到训练后特征提取模型。

得到训练后特征提取模型之后可以通过训练后特征提取模型对待识别文本样本进行图像特征提取，得到图像特征信息，对图像特征信息进行注意力特征提取，得到待识别文本图像的注意力特征信息。基于注意力特征信息预测待识别文本图像中的文本内容。

可选的，通过预测样本指标和参考样本指标对特征提取模型进行训练，得到预训练特征提取模型后，可以再通过携带标签的目标文本图像样本对预训练特征提取模型进行微调，得到训练后的特征提取模型，以提高训练后特征提取模型的提取特征的能力，即步骤“根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练”，之后，还可以包括：

获取目标文本图像样本，文本图像样本携带样本标签；

通过预训练特征提取模型对目标文本图像样本进行图像特征提取处理，得到目标文本图像样本的图像特征信息；

通过预训练特征提取模型基于目标文本图像样本的图像特征信息，对目标文本图像样本进行注意力特征提取，得到目标文本图像样本的关注上下文信息的注意力特征信息；

通过文本识别模型基于目标文本图像样本的注意力特征信息进行预测，得到目标文本图像样本的预测结果；

基于样本标签和预测结果对文本识别模型以及预训练特征提取模型进行训练，得到训练后文本识别模型和训练后特征提取模型，以通过文本识别模型识别待识别文本图像的文本内容。

比如，具体可以是通过预训练特征提取模型提取目标文本图像样本的注意力特征信息，通过文本识别模型基于注意力特征信息对目标文本图像样本进行预测，得到预测结果，根据预测结果与样本标签对预训练特征提取模型和文本识别模型进行训练，得到训练后特征提取模型和训练后文本识别模型，通过训练后特征提取模型对待识别文本图像进行特征提取，得到注意力特征信息，通过训练后文本识别模型基于注意力特征信息得到预测结果。

由上可知，本申请实施例通过获取文本图像样本；根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定文本图像样本的参考样本指标；通过特征提取模型针对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息；通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息；基于文本图像样本的注意力特征信息，预测文本图像样本的预测样本指标；根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练，可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

在上述实施例的基础上，下面将举例做进一步详细说明。

本实施例将从文本识别装置的角度进行描述，该文本识别装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备；

本申请实施例提供的一种文本识别方法，如图4所示，该文本识别方法的流程可以分为特征提取任务、上游任务和下游任务，具体流程可以如下：

一、特征提取任务：通过特征提取模型对输入的图像进行特征提取，得到注意力特征信息，将注意力特征信息用于上游任务以及下游任务。

201、服务器获取文本图像样本，通过特征提取模型对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息。

比如，具体可以是服务器获取数据库中的文本图像样本，通过特征提取模型的DenseNet网络对文本图像样本进行编码，将文本图像样本映射为能够表示文本图像样本的图像特征信息Γ，图像特征信息可以是特征嵌入序列。

202、服务器通过特征提取模型对图像特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

比如，具体可以是服务器通过特征提取模型，基于注意力机制的第一注意力网络参数对图像特征向量进行映射，得到文本图像样本的查询向量，记为Query，简称Q，Q＝Γ·W_Q，文本图像样本中第i个图像区域的查询向量记为Q_i；基于第二注意力网络参数对图像特征向量进行映射，得到文本图像样本的关键向量，记为Key，简称K，K＝Γ·W_K，文本图像样本中第i个图像区域的查询向量记为K_i；基于第三注意力网络参数对图像特征向量进行映射，得到文本图像样本的内容向量，记为Value，简称V，V＝Γ·W_V，文本图像样本中第i个图像区域的查询向量记为V_i。

计算第i个图像区域对应的查询向量和关联图像区域j对应的关键向量之间的距离，例如，可以将查询向量和关键向量进行点乘，例如Q_i·K_j，得到图像区域i和关联图像区域j间的相似度。

根据图像区域与每个关联图像区域之间的相似度对图像区域以及关联图像区域的内容向量进行加权求和处理，得到该图像区域的关注上下文信息的区域注意力特征信息，基于每个图像区域的区域注意力特征信息得到文本图像样本的注意力特征信息。

可选的，为了提升特征提取能力，特征提取模型可以包括特征提取网络，特征提取网络的网络结构可以如图1所示，通过注意力机制得到的注意力特征信息之后，可以通过第一BN层将数据进行规整处理之后，得到C^*＝BN(v·SCORE)后，输入前向反馈网络(feedforward)，通过前向反馈网络对注意力特征信息进行特征提取，减少特征冗余，前向反馈网络可以包括2个全连接层和1个激活层，C^*通过前向反馈网络后，再通过第二BN层对数据进行规整主力后，输出该特征提取网络得到的注意力特征信息，得到C＝BN(W₁(max(0，W₀·C^*+b₀))+b₁)，其中W₀、W₁、b₀、和b₁为前向反馈网络全连接层的网络参数，其中，BN层包含的BN算法如下：

对于任意输入序列X，计算均值与方差。

将输入X归一化，其中∈是一个很小的常数，防止方差为0产生无效计算。

通过可学习的权重γ与偏置β得到最终输出Y。

其中，输入序列X可以是包含一组文本图像样本的图像特征信息，特征提取模型一次训练所抓取的文本图像样本为一组文本图像样本，x_i为一组文本图像样本中的其中一个文本图像样本的相关信息，例如，文本图像样本的注意力特征信息经过注意力特征机制得到的信息。

可以理解的是，当特征提取模型训练好之后，则均值和方差可以是根据训练时得到的均值和方差计算得到，例如，平均或者是滑动平均等方式。

可选的，为了提高特征提取模型提取注意力特征的能力，特征提取模型可以包含多层注意力机制，多层注意力机制可以分别分布于不同的特征提取网络中，例如，如图5所示的结构，将前一层特征提取网络的输出，作为下一层特征提取网络的输入特征信息，将最后一层特征提取网络的输出作为注意力特征信息。

二、上游任务：通过文本图像样本的图像属性信息计算文本图像样本的参考样本指标，以及基于注意力特征信息预测得到预测样本指标，根据参考样本指标和预测样本指标对特征提取模型进行训练。

203、服务器根据文本图像样本的图像属性信息进行图像指标计算，至少一个图像指标信息。

比如，具体可以是服务器针对至少一个特征，获取文本图像样本的图像属性信息进行计算，得到图像指标信息(图像指标信息为通过对图像属性信息进行图像指标计算得到的计算结果)。例如，针对颜色特征，可以通过文本图像样本中每个像素的不同通道的颜色值计算文本图像样本的颜色直方图(例如RGB颜色直方图、HSV颜色直方图、灰度直方图)、或者/以及颜色集以及颜色矩等；以及针对文本图像样本的整体特征，计算文本图像样本的每个像素在不同通道下的色值等属性信息得到关于文本图像样本的图像指标信息。

204、服务器根据图像指标的指标值表达类型，对图像指标信息进行合并处理得到文本图像样本的参考样本指标，参考样本指标包括一维指标、二维指标和还原指标。

比如，具体可以是每个图像指标对应有指标值表达类型，服务器根据图像指标获取对应的指标值表达类型，将指标值表达类型为数值以及一维张量的图像指标信息进行拼接处理，得到一个关于该文本图像样本的包含更多图像指标信息的一维张量，将该一维张量作为一维指标。将指标值表达类型为二维张量的图像指标信息进行拼接处理，得到关于该文本图像样本的三维张量，将该三维张量作为二维指标。

以及将针对文本图像样本在不同通道下的色值计算得到的图像指标信息，进行合并得到的三维张量作为还原指标。

将一维指标、二维指标以及还原指标等作为文本图像样本参考样本指标。

205、服务器针对参考样本指标的指标类型对应的处理方式，对注意力特征信息进行处理，得到预测指标信息，预测指标信息包括一维预测指标、二维预测指标和预测还原指标。

若指标类型为一维指标或者是二维指标，则可以通过不同的网络结构对注意力特征信息进行维度转换处理，得到与参考样本指标大小相同的张量，将得到的张量作为参考样本指标，例如，针对一维指标，通过两个全连接层对注意力特征进行维度转化：pred₁＝W_a1·(W_a0·C+b_a0)+b_a1，得到预测样本指标pred₁，针对一维指标，通过三个全连接层对注意力特征进行维度转化：pred₂＝W_b2·(W_b1·(W_b0·C+b_b0)+b_b1)+b_b2，其中，W_a0、W_a1、W_b0、W_b1、W_b2b_a0、b_a1、b_b0、b_b1、和b_b2为网络参数。

若指标类型为还原指标，则对应的处理方式为图像还原处理，对注意力特征信息进行图像还原处理的具体网络结构如图3所示，注意力特征信息交替通过转置卷积层和激活层进行处理，最后输出处理后注意力特征信息，并将处理后注意力特征信息进行归一化处理，得到预测样本标签。

经过第一层转置卷积层，可以得到：f⁰＝ConvTranspose(C)，其中，C为注意力特征信息，将最后输出的处理后注意力特征信息f^*，对处理后注意力特征信息进行归一化处理：fake_img＝(f^*-min(f^*))/(max(f^*)-min(f^*))，其中，fake_img为预测样本指标。

可选的，最后一层激活层中包含的激活函数可以是Tanh函数，BN&激活层中包含的激活函数可以是ReLU函数。

可选的，图像还原处理的网络结构包含的转置卷积层的层数以及BN&激活层的层数可以根据需要进行灵活设置，在此不做限定。

206、服务器通过参考样本指标和预测样本指标对特征提取模型进行训练，得到预训练特征提取模型。

比如，具体可以是利用MSE损失函数计算预测样本指标和对应的参考样本指标之间的误差对特征提取模型进行训练，调节特征提取模型的网络参数，以得到预训练特征提取模型。

三、下游任务：加载预训练特征提取模型，接入文本识别模型，文本识别模型根据预训练特征对目标文本图像样本提取得到的注意力特征信息进行预测，得到预测结果，并根据预测结果和样本标签对初始特征提取模型进行训练，得到训练后特征提取模型。

207、服务器通过预训练特征提取模型对目标文本图像样本进行图像特征提取以及注意力特征提取处理，得到目标文本图像样本的关注上下文信息的注意力特征信息。

比如，具体可以是通过预训练特征提取机制对目标文本图像样本进行图像特征提取，得到目标文本图像样本的图像特征信息，再对图像特征信息进行注意力特征提取，得到目标文本图像样本的关注上下文信息的注意力特征信息。

208、服务器通过文本识别模型基于目标文本图像样本的注意力特征信息进行预测，得到预测结果，并根据预测结果和样本标签对预训练特征提取模型和文本识别模型进行训练，得到训练后特征提取模型和训练后文本识别模型。

比如，具体可以是通过文本识别模型基于注意力特征信息对目标文本图像样本进行预测，得到预测结果，根据预测结果与样本标签对预训练特征提取模型和文本识别模型进行训练，得到训练后特征提取模型和训练后文本识别模型，通过训练后特征提取模型对待识别文本图像进行特征提取，得到注意力特征信息，通过训练后文本识别模型基于注意力特征信息得到预测结果。

其中，文本识别模型可以是分类器模型等，例如，如图6所示，基于CRNN结构的文本识别模型，将注意力特征信息输入文本识别模型的全连接分类器，预测目标文本图像中每个图像区域为字典中每个字符的概率，得到预测结果，根据预测结果和样本标签基于CTCLoss计算损失，对预训练特征提取模型和文本识别模型进行训练。

或者是如图6所示，基于Attention机制的文本识别模型，将注意特征信息输入包含有Attention机制的LSTM解码器，预测目标文本图像中每个图像区域为字典中每个字符的概率，得到预测结果，根据预测结果和样本标签基于交叉熵(CE Loss)计算损失，对预训练特征提取模型和文本识别模型进行训练。

由上可知，本申请实施例服务器通过获取文本图像样本，通过特征提取模型对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息；通过特征提取模型对图像特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息；根据文本图像样本的图像属性信息进行图像指标计算，至少一个图像指标信息；服务器根据图像指标的指标值表达类型，对图像指标信息进行合并处理得到文本图像样本的参考样本指标，参考样本指标包括一维指标、二维指标和还原指标；针对参考样本指标的指标类型对应的处理方式，对注意力特征信息进行处理，得到预测指标信息，预测指标信息包括一维预测指标、二维预测指标和预测还原指标；通过参考样本指标和预测样本指标对特征提取模型进行训练，得到预训练特征提取模型；通过预训练特征提取模型对目标文本图像样本进行图像特征提取以及注意力特征提取处理，得到目标文本图像样本的关注上下文信息的注意力特征信息通过文本识别模型基于目标文本图像样本的注意力特征信息进行预测，得到预测结果，并根据预测结果和样本标签对预训练特征提取模型和文本识别模型进行训练，得到训练后特征提取模型和训练后文本识别模型，该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练，可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

为了便于更好地实施本申请实施例提供的文本识别方法，在一实施例中还提供了一种文本识别装置。其中名词的含义与上述文本识别方法中相同，具体实现细节可以参考方法实施例中的说明。

该文本识别装置具体可以集成在计算机设备中，如图7所示，该文本识别装置可以包括：获取单元301、计算单元302、第一特征提取单元303、第二特征提取单元304、预测单元305和训练单元306，具体如下：

(1)获取单元301

获取单元301：用于获取文本图像样本。

(2)计算单元302

计算单元302：用于根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定文本图像样本的参考样本指标。

可选的，计算单元302可以包括计算子单元和合并子单元，具体地：

计算子单元：用于根据文本图像样本的图像属性信息进行图像指标计算，得到至少一个图像指标信息；

合并子单元：用于将至少一个图像指标信息进行指标合并处理，得到文本图像样本的参考样本指标。

可选的，合并子单元可以包括获取模块和合并模块，具体地：

获取模块：用于获取至少一个图像指标的指标值表达类型；

合并模块：用于根据指标值表达类型对至少一个图像指标信息进行指标合并处理，得到文本图像样本的参考样本指标。

(3)第一特征提取单元303

第一特征提取单元303：用于通过特征提取模型针对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息。

(4)第二特征提取单元304

第二特征提取单元304：用于通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

可选的，第二特征提取单元304可以包括映射子单元、相似度计算子单元和第一融合子单元，具体地：

映射子单元：用于对图像特征信息进行注意力空间映射处理，得到文本图像样本中每个图像区域在注意力空间中对应的空间向量，空间向量包括查询向量、内容向量以及关键向量；

相似度计算子单元：用于针对每个图像区域，根据图像区域的查询向量与关联图像区域的关键向量之间的距离，计算图像区域与关联图像区域之间的相似度；

第一融合子单元：用于针对每个图像区域，根据图像区域的关键向量与关联图像区域之间的相似度，对图像区域和关联图像区域的图像特征信息进行融合处理，得到关注上下文信息的注意力特征信息。

可选的，第二特征提取单元304可以包括掩码子单元和提取子单元，具体地：

掩码子单元：用于通过特征提取模型对图像特征信息进行掩码处理，得到文本图像样本的掩码后图像特征信息；

提取子单元：用于对掩码后图像特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

可选的，第二特征提取单元304可以包括作为子单元和第一特征提取子单元，具体地：

作为子单元：用于将图像特征信息作为多层特征提取机制的输入特征信息；

第一特征提取子单元：用于通过多层特征提取机制依次对输入特征信息进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息。

可选的，第二特征提取单元304可以包括第二特征提取子单元和第二融合子单元，具体地：

第二特征提取子单元：用于通过多层特征提取机制基于多头注意力机制依次对输入特征信息进行注意力特征提取，得到每头注意力机制下的子注意力特征信息；

第二融合子单元：用于通过多层特征提取机制将每头注意力机制下的子注意力特征信息进行融合处理，得到文本图像样本的关注上下文信息的注意力特征信息。

(5)预测单元305：

预测单元305：用于基于文本图像样本的注意力特征信息，预测文本图像样本的预测样本指标。

可选的，预测单元305可以包括确定子单元和处理子单元，具体地：

确定子单元：用于确定每个指标类型对应的特征处理方式；

处理子单元：用于针对每个指标类型的，采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样本指标。

可选的，处理子单元可以包括转置卷积模块和归一化模块，具体地：

转置卷积模块：用于基于注意力特征信息进行转置卷积处理，得到处理后注意力特征信息；

归一化模块：用于对注意力特征信息进行归一化处理，得到预测样本指标。

(6)训练单元306：

训练单元306：用于根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。

可选的，文本识别装置可以包括样本获取单元、第三特征提取单元、第四特征提取单元、结果预测单元和监督训练单元，具体地：

样本获取单元：用于获取目标文本图像样本，文本图像样本携带样本标签；

第三特征提取单元：用于通过预训练特征提取模型对目标文本图像样本进行图像特征提取处理，得到目标文本图像样本的图像特征信息；

第四特征提取单元：用于通过预训练特征提取模型基于目标文本图像样本的图像特征信息，对目标文本图像样本进行注意力特征提取，得到目标文本图像样本的关注上下文信息的注意力特征信息；

结果预测单元：用于通过文本识别模型基于目标文本图像样本的注意力特征信息进行预测，得到目标文本图像样本的预测结果；

监督训练单元：用于基于样本标签和预测结果对文本识别模型以及预训练特征提取模型进行训练，得到训练后文本识别模型和训练后特征提取模型，以通过文本识别模型识别待识别文本图像的文本内容。

本申请实施例还提供一种计算机设备，该计算机设备可以是终端，也可以是服务器，如图8所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和计算机程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

计算机设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理***与处理器1001逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1001会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的计算机程序，从而实现各种功能，如下：

获取文本图像样本；

根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定文本图像样本的参考样本指标；

通过特征提取模型针对文本图像样本进行图像特征提取处理，得到文本图像样本的图像特征信息；

通过特征提取模型基于图像特征信息，对文本图像样本进行注意力特征提取，得到文本图像样本的关注上下文信息的注意力特征信息；

基于文本图像样本的注意力特征信息，预测文本图像样本的预测样本指标；

根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由上可知，本申请实施例的计算机设备可以获取文本图像样本；根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图像样本的图像特征信息；通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息；基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标；根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练，可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序，能够被处理器进行加载，以执行本申请实施例所提供的任一种文本识别方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种文本识别方法，因此，可以实现本申请实施例所提供的任一种文本识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本识别方法、装置、计算机设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本识别方法，其特征在于，包括：

获取文本图像样本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标，包括：

根据所述文本图像样本的图像属性信息进行图像指标计算，得到至少一个图像指标信息；

将所述至少一个指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标。

3.根据权利要求2所述的方法，其特征在于，所述将所述至少一个指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标，包括：

获取至少一个图像指标的指标值表达类型；

根据所述指标值表达类型对所述至少一个图像指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标。

4.根据权利要求1所述的方法，其特征在于，所述参考样本指标包括至少两个类型的参考样本指标，所述基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标，包括：

确定每个指标类型对应的特征处理方式；

针对每个指标类型的，采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样本指标。

5.根据权利要求4所述的方法，其特征在于，所述特征处理方式包括图像还原处理，所述采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样本指标，包括：

基于所述注意力特征信息进行转置卷积处理，得到处理后注意力特征信息；

对所述处理后注意力特征信息进行归一化处理，得到所述预测样本指标。

6.根据权利要求1所述的方法，其特征在于，所述图像特征信息包括图像特征向量，所述通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：

对所述图像特征向量进行注意力空间映射处理，得到所述文本图像样本中每个图像区域在所述注意力空间中对应空间向量，所述空间向量可以包括查询向量、内容向量以及关键向量；

针对每个图像区域，根据所述图像区域的查询向量与关联图像区域的关键向量之间的距离，计算所述图像区域与所述关联图像区域之间的相似度；

针对每个图像区域，根据所述图像区域的关键向量与所述关联图像区域之间的相似度，对所述图像区域和所述关联图像区域的内容向量进行融合处理，得到所述关注上下文信息的注意力特征信息。

7.根据权利要求1所述的方法，其特征在于，所述特征提取模型包括多层特征提取机制，所述通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：

将所述图像特征信息作为所述多层特征提取机制的输入特征信息；

通过所述多层特征提取机制依次对所述输入特征信息进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息。

8.根据权利要求7所述的方法，其特征在于，每层特征提取机制包含多头特征提取机制，所述通过所述多层特征提取机制依次对所述输入特征信息进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：

通过所述多层特征提取机制基于多头注意力机制对依次所述输入特征信息进行注意力特征提取，得到每头注意力机制下的子注意力特征信息；

通过所述多层特征提取机制将每头注意力机制下的子注意力特征信息进行融合处理，得到所述文本图像样本的关注上下文信息的注意力特征信息。

9.根据权利要求1所述的方法，其特征在于，所述通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：

通过所述特征提取模型对所述图像特征信息进行掩码处理，得到所述文本图像样本的掩码后图像特征信息；

对所述掩码后图像特征信息进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息。

10.根据权利要求1所述的方法，其特征在于，所述根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练之后，所述方法还包括：

获取目标文本图像样本，所述文本图像样本携带样本标签；

通过预训练特征提取模型对所述目标文本图像样本进行图像特征提取处理，得到所述目标文本图像样本的图像特征信息，所述预训练特征提取模型通过所述预测样本指标和对应的参考样本指标训练得到；

通过所述预训练特征提取模型基于所述目标文本图像样本的图像特征信息，对所述目标文本图像样本进行注意力特征提取，得到所述目标文本图像样本的关注上下文信息的注意力特征信息；

通过文本识别模型基于所述目标文本图像样本的注意力特征信息进行预测，得到所述目标文本图像样本的预测结果；

基于所述样本标签和所述预测结果对所述文本识别模型以及所述预训练特征提取模型进行训练，得到训练后文本识别模型和训练后特征提取模型，以对待识别文本图像进行图像文本识别。

11.一种文本识别装置，其特征在于，包括：

获取单元，用于获取文本图像样本；

12.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至10任一项所述的文本识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行权利要求1至10任一项所述的文本识别方法。