CN115909381A

CN115909381A - 一种文本图像识别方法、***及相关装置

Info

Publication number: CN115909381A
Application number: CN202211567149.9A
Authority: CN
Inventors: 刘宇; 何春江; 张毅; 朱日伟
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-04-04

Abstract

本申请公开了一种文本图像识别方法、***及相关装置，该方法包括：获取包括待识别文字的文本图像，基于所述文本图像获得所述待识别文本对应的初始文字、以及所述初始文字对应的识别置信度得分；基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分；基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字；对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本。通过上述方式，本申请能够提高对文本图像进行识别的准确性。

Description

一种文本图像识别方法、***及相关装置

技术领域

本申请涉及图像识别技术领域，特别是涉及一种文本图像识别方法、***及相关装置。

背景技术

随着自动化办公场景的广泛普及，业界对电子文档的准确性要求越来越高，特别在金融、医疗等领域。现有电子文档以文本和图片格式存储为主，并且不同场景下会经常对这两种文档格式进行相互转换。其中，图片格式转换为文本格式通常采用光学字符识别技术(OCR，Optical Character Recognition)技术实现。

然而，由于拍摄环境等因素的干扰，容易导致OCR识别的效果较差。传统解决文本误识别的方法多为人工纠错，该方式需要耗费大量人力物力。因此，如何提高图片文本的识别准确性，并对识别出的文本进行检错纠错成为图像文本识别技术的关键。

发明内容

本申请主要解决的技术问题是提供一种文本图像识别方法、***及相关装置，能够提高对文本图像进行识别的准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种文本图像识别方法，包括：获取包括待识别文字的文本图像，基于所述文本图像获得所述待识别文本对应的初始文字、以及所述初始文字对应的识别置信度得分；基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分；基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字；对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种文本图像识别***，包括：识别模块，用于获取包括待识别文字的文本图像，基于所述文本图像获得所述待识别文字对应的初始文字、以及所述初始文字对应的识别置信度得分；语义分析模块，用于基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分；处理模块，用于基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字；纠错模块，用于对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本。

为解决上述技术问题，本申请提出的又一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述技术方案中所述的文本图像识别方法。

为解决上述技术问题，本申请提出的又一个技术方案是：提供一种计算机可读存储介质，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述技术方案中所述的文本图像识别方法。

本申请的有益效果是：区别于现有技术的情况，本申请提出的文本图像识别方法通过利用注意力机制结合待识别文字在待识别文本中的语义信息进行识别，以获得待识别文字对应的初始文字和对应的识别置信度得分。在获得初始文字后，基于各个初始文字组成的文本的语义信息，获得每个初始文字的语义置信度得分。通过结合识别置信度得分和语义置信度得分，以准确判断各个初始文字是否需要进行纠正。通过对待纠正文字进行纠正，以提高文本图像识别的准确性和稳定性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请文本图像识别方法一实施方式的流程示意图；

图2是步骤S101中步骤B对应一实施方式的流程示意图；

图3是步骤S202对应一实施方式的示意图；

图4是步骤S103对应一实施方式的示意图；

图5是步骤S104对应另一实施方式的流程示意图；

图6是步骤S302对应一实施方式的示意图；

图7是是本申请文本图像识别***一实施方式的结构示意图；

图8是本申请电子设备一实施方式的结构示意图；

图9是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请文本图像识别方法一实施方式的流程示意图，该方法包括：

S101：获取包括待识别文字的文本图像，基于文本图像获得待识别文字对应的初始文字、以及初始文字对应的识别置信度得分。

在本实施方式中，步骤S101具体包括以下步骤：

A：响应于需要对纸质文件或者物体表面的待识别文字进行识别和提取，通过相应的识别设备进行扫描，以得到包括待识别文字的文本图像。其中，识别设备可以为照相机、扫描仪或其他具备拍摄功能的设备等。或者，响应于需要对图片格式的文件进行识别，直接将图片格式的文件作为文本图像。

在一实施方式中，当获得文本图像后，对文本图像进行预处理，以去除文本图像中的噪声，并对文本图像中的待识别文字部分的信息进行增强。从而有助于将文本图像中的待识别文字和背景进行分离，提高文本识别的准确性。

具体地，响应于文本图像中包含手写的待识别文字，对文本图像先进行腐蚀处理再进行膨胀处理，以去除因连写产生的笔画连接以及去除文本图像中的小颗粒噪声，并且填充文本图像中的小空洞。响应于文本图像中不同区域的亮度存在差异，通过局部自适应阈值法对文本图像进行调节，以使得文本图像更为平滑。另外，最终对文本图像进行边缘增强处理，可以有效提高待识别文本边界饱满度，并降低提取待识别文字的难度。

需要说明的是，在其他实施方式中，在对文本图像进行预处理的过程中也可以根据不同的文本图像先进行膨胀处理再进行腐蚀处理。

B：对获得的文本图像进行特征提取，以获得文本图像中每个待识别文字对应的特征向量，利用注意力机制对特征向量进行处理以获得待识别文字对应的初始文字、以及初始文字对应的识别置信度得分。

在一实施方式中，请参阅图2，图2为步骤S101中步骤B对应一实施方式的流程示意图。具体地，该步骤包括：

S201：对文本图像进行特征提取以获得文本图像中所有待识别文字对应的特征序列。

在本实施方式中，步骤S201包括：将预处理后的文本图像输入特征提取模型中，以得到文本图像中所有待识别文字对应的特征序列。其中，上述特征提取模型可以为ConvNet网络。

需要说明的是，特征提取模型在得到所有待识别文字对应的特征序列后，利用1*1的卷积层对所有待识别文字对应的特征序列进行卷积处理，以将各个待识别文字对应的特征序列变换至目标维度。其中，通过将特征序列变换至目标维度，以助于后续对各个待识别文字对应的特征序列进行编码。

S202：对特征序列进行编码，以获得各个待识别文字对应的第一特征向量。

在本实施方式中，步骤S202包括：根据各个待识别文字在文本图像中的位置信息，将各个待识别文字进行排列以作为待识别文本，并按照待识别文本中的顺序依次将各个待识别文字对应的特征序列输入至编码模型中。其中，上述编码模型为BiLSTM网络，其包括正向编码子网络和反向编码子网络。

需要说明的是，响应于BiLSTM网络输入的向量的维度为(Batchsize，Hide Layer，Max Length)，步骤S201中特征提取网络对文本图像进行特征提取并将得到的各个待识别文字对应的特征序列转换成与BiLSTM网络的输入向量相同的维度。其中，Hide Layer表示BiLSTM网络中的隐藏层数量，Max Length表示BiLSTM网络可处理的最长文本长度。

进一步地，利用BiLSTM网络对特征序列进行编码的过程包括：首先利用正向编码子网络对各个待识别文字的特征序列进行处理以得到各个待识别文字对应的第一编码向量，然后利用反向编码子网络对各个待识别文字的第一编码向量进行处理以得到各个待识别文字对应的第二编码向量。其中，第一编码向量包含对应的待识别文字以及该待识别文字之前的所有待识别文字的语义信息；第二编码向量包含对应的待识别文字在整个待识别文本中的语义信息。

具体地，BiLSTM网络中的正向编码子网络和反向编码子网络分别具有与待识别文字数量一致的节点。首先，按照所有待识别文字在文本图像中的位置信息，依次将待识别文字对应的特征序列输入对应的正向编码子网络的节点。其中，当前节点对输入的特征序列进行编码，得到待识别文字对应的第一编码向量，并提取对应待识别文字的文字语义信息，以作为下个节点的输入；下一个节点对输入的特征序列以及上一节点输出的文字语义信息进行处理，以得到对应的待识别文字的第一编码向量。通过结合前一节点输出的文字语义信息以及输入的待识别文字的特征序列得到当前节点输出的第一编码向量，使得当前节点输出的第一编码向量包含之前所有节点对应的待识别文字的文字语义信息。

进一步地，按照与待识别文字排列顺序相反的顺序，将获得各个待识别文字对应的第一编码向量依次输入反向编码子网络中对应的节点。即先将最后一个待识别文字对应的第一编码向量输入反向编码子网络中，最后将待识别文本中首个待识别文字对应的第一编码向量输入反向编码子网络中。其中，反向编码子网络中的当前节点对输入的第一编码向量进行编码，得到待识别文字对应的第二编码向量，并提取对应的待识别文字的文字语义信息，以作为下个节点的输入；下一节点对输入的第二编码向量以及上一节点输出的文字语义信息进行处理，以得到对应的待识别文字的第二编码向量。通过结合前一节点输出的文字语义信息以及输入的第一编码向量得到待识别文字对应的第二编码向量，使得当前节点输出的第二编码向量不仅包含对应的待识别文字在待识别文本中的正向语义信息，也包括其在待识别文本中的反向语义信息，从而提高对待识别文字进行识别的准确性。

进一步地，将反向编码子网络输出的各个第二编码向量作为各个待识别文字对应的第一特征向量，该第一特征向量包含对应待识别文字在待识别文本中的语音信息。

在一具体实施方式中。请参阅图3，图3为步骤S202对应一实施方式的示意图。具体地，响应于文本图像中包含4个待识别文字，获得各个待识别文字对应的特征序列，即“X1、X2、X3、X4”。将各个特征序列依次输入BiLSTM网络中的正向编码子网络20中，即将首个待识别文字对应的特征序列X1输入正向编码子网络20中的首个节点A1中，以获得首个待识别文字对应的第一编码向量以及特征序列X1的文字语义信息；将该文字语义信息输入至正向编码子网络20中的节点A2，节点A2根据节点A1输出的文字语义信息以及对应的特征序列X2，获得第二个待识别文字对应的第一编码向量，且节点A2输出的第一编码向量包含特征序列X1和特征序列X2对应的待识别文字的文字语义信息。同样地，根据上述方法分别获得特征序列X3和特征序列X4对应的第一编码向量，具体过程不详细阐述。

进一步地，将正向编码子网络20中的各个节点输出的第一编码向量按照与待识别文字排列顺序相反的顺序依次输入反向编码子网络30中，即先将节点A4输出的第一编码向量输入反向编码子网络30中的节点B4，以获得第一编码向量对应的第二编码向量，并提取第一编码向量中的文字语义信息以输入节点B3。节点B3根据输入的文字语义信息以及对应的第一编码向量，输出第二编码向量。其中，节点B3输出的第二编码向量包含对应的待识别文字在整个待识别文本中的语义信息。同样的，根据上述方法利用反向编码子网络30中的节点B2和节点B3分别获得特征序列X2和X1对应的第二编码向量。

进一步地，将反向编码子网络30中各个节点输出的第二编码向量作为对应待识别文字的第一特征向量。

S203：对第一特征向量进行特征映射，得到第一特征向量的对应的第二特征向量。

在本实施方式中，步骤S203的实施过程包括：对步骤S202中获得的各个待识别文字对应的第一特征向量进行特征映射，以得到第一特征向量对应的第二特征向量。其中，第二特征向量用于表示第一特征向量所包含的语义信息在待识别文本中的权重。

S204：基于第一特征向量和第二特征向量，获得初始文字、以及初始文字对应的识别置信度得分。

在一实施方式中，步骤S204的实施过程包括：响应于基于上述步骤S201至步骤S203获得各个待识别文字对应的第一特征向量和第二特征向量，对各个待识别文字对应的第一特征向量进行解码，以获得各个第一特征向量对应的解码向量。

具体地，将各个第一特征向量依次输入解码模型中的各个节点，以获得各个待识别文字对应的解码向量。其中，在本实施方式中所述解码模型为门控循环单元(GateRecurrent Unit，GRU)结构。

进一步地，将第一特征向量与其对应的第二特征向量的乘积进行归一化，得到权重矩阵。其中，权重矩阵用于表示第一特征向量所包含的语义信息在待识别文本中的权重，以助于增强对应待识别文字与上下文之间的联系。另外，本实施方式中可以通过SoftMax算法对第一特征向量和对应的第二特征向量的乘积进行归一化。

进一步地，基于权重矩阵和对应的解码向量，获得待识别文字对应的初始文字、以及初始文字对应的识别置信度得分。其中，识别置信度得分是基于对注意力机制的处理结果进行归一化获得的。

具体地，基于注意力机制，将权重矩阵与对应的解码向量相乘并进行归一化，以获得解码向量对应的待识别文字与文字库中各个比对文字之间的比对得分。将数值最高的比对得分对应的比对文字作为待识别文字对应的初始文字，并将对应的比对得分作为该初始文字的识别置信度得分。

本实施方式，通过利用注意力机制获得待识别文字对应的权重矩阵，并基于权重矩阵和对应的解码向量，以根据待识别文字在待识别文本中的语义信息识别获得对应的初始文字，从而提高对待识别文字进行识别的准确性。

可选地，在其他实施方式中，步骤S204也可以先对所有待识别文字对应的第一特征向量进行特征拼接以获得包含整个待识别文本的语义信息的文本语义向量，将各个待识别文字对应的第二特征向量与该文本语义向量相乘以获得各个待识别文字对应的权重矩阵。将待识别文字对应的编码向量与对应的权重矩阵相乘并进行归一化，以获得对应的待识别文字与文字库中各个比对文字的比对得分，并基于该比对得分获得待识别文字对应的初始文字、以及初始文字对应的识别置信度得分。

S102：基于各个初始文字的语义信息，获得初始文字的语义置信度得分。

在一实施方式中，步骤S102的实施过程包括：基于各个待识别文字在文本图像中的位置信息，对所有初始文字进行排列，以获得文本图像对应的识别文本。

具体地，将识别获得的各个初始文字按照正确的语义顺序进行排列，以获得文本图像对应的识别文本。其中，上述正确的语义顺序与文本图像中待识别文字的排列顺序一致。

进一步地，基于识别文本的文本语义信息，获得识别文本中各个初始文字的语义置信度得分。

具体地，构建语义分析模型，并以句号为单位，依次将识别文本中每个语句输入至构建的语义分析模型中，该语义分析模型对输入的每个语句进行处理，以根据各个初始文字以及初始文字所在语句的语义信息获得各个初始文字对应的语义置信度得分。其中，在本实施方式中，语义分析模型为BERT模型。通过获得语义置信度得分有助于根据对应的语义信息判断识别获得的初始文字是否准确，从而根据对识别不准确的初始文字进行纠错，以提高识别准确性。

可选地，在其他实施方式中，步骤S102也可以是直接将完整的识别文本输入至构建的语义分析模型中，以根据各个初始文字以及识别文本的语义信息获得各个初始文字对应的语义置信度得分。通过基于完整的识别文本得到各个初始文字对应的语义置信度得分，以提高对应初始文字的语义置信度得分的准确性。

S103：基于各个初始文字对应的识别置信度得分以及语义置信度得分，从所有初始文字中确定至少部分待纠正文字。

在一实施方式中，步骤S103的实施过程包括：针对每个初始文字，获取该初始文字对应的识别置信度得分和语义置信度得分的均值，并将该均值作为对应初始文字的综合置信度得分。将该综合置信度得分与第二阈值进行对比，若综合置信度得分小于第二阈值，则将该综合置信度得分对应的初始文字作为待纠正文字。其中，第二阈值可以是预估获得的，也可以是相关技术人员经过试验反推获得的。

在另一实施方式中，请参阅图4，图4为步骤S103对应一实施方式的示意图。具体地，步骤S103包括：基于各个初始文字对应的识别置信度得分获得第一高斯分布模型，以及基于各个初始文字对应的语义置信度得分获得第二高斯分布模型。其中，第一高斯分布模型以及第二高斯分布模型的计算公式如下：

其中，

表示第一高斯分布模型，μ₁表示第一高斯分布模型的均值，

表示第一高斯分布模型的方差；

表示第二高斯分布模型，μ₂表示第一高斯分布模型的均值，

表示第一高斯分布模型的方差。

进一步地，请继续参阅图4，结合第一高斯分布模型和第二高斯分布模型获得混合高斯分布模型。

具体地，在本实施方式中，分别对第一高斯分布模型和第二高斯分布模型设置相应的权重，并基于第一高斯分布模型及其对应的权重和第二高斯分布模型及其对应的权重，获得混合高斯分布模型。即将第一高斯分布模型与其对应的第一权重相乘获得第一乘积，将第二高斯分布模型与其对应的第二权重相乘获得第二乘积，将第一乘积与第二乘积的和作为混合高斯分布模型。其中，上述第一权重与第二权重之和为1。混合高斯分布模型的具体计算公式如下：

其中，C表示第一高斯分布模型，H为2；当h为1时，α_h表示第一权重，当h为2是，α_h表示第二权重。

进一步地，针对混合高斯分布模型，将小于门限值的数值对应的初始文字作为待纠正文字。其中，门限值为混合高斯分布模型中均值与标准差的差值。

具体地，获得混合高斯分布模型中均值与标准差的差值，并将该差值作为门限值；获取混合高斯分布模型中数值小于门限值的区域，并将该区域对应的初始文字作为待纠正文字。在本实施方式中，通过构建混合高斯分布模型以结合语义置信度得分和识别置信度得分判断初始文字是否准确，避免了单独对第一高斯分布模型和/或第二高斯分布模型进行处理，提高了对初始文字进行检错的效率，并节省了计算成本。

S104：对待纠正文字进行纠正，得到文本图像对应的目标文本。

在一实施方式中，步骤S104的具体实施过程包括：获取待纠正文字所在的待纠正语句，即将待纠正文字所在的语句作为待纠正语句。对待纠正语句中待纠正文字的位置进行标记。

进一步地，将标记后的待纠正语句输入语义分析模型，获得待纠正语句的语句语义信息，并基于语句语义信息获得标记位置处的至少部分候选文字、以及每个候选文字对应的候选得分。将数值最高的候选得分对应的候选文字作为待纠正语句中标记位置处的目标文字，利用目标文字替换对应的待纠正文字，以获得文本图像对应的目标文本。其中，上述语义分析模型包括BERT模型。

具体地，上述过程包括：将标记位置处的待纠正文字删除，将删除待纠正文字后的待纠正语句输入语义分析模型中，语义分析模型根据待纠正语句的语句语义信息，从语料库中获取至少部分符合标记位置处语义信息的候选文字，并根据每个候选文字在待纠正语句中的语义信息获得对应的候选得分。其中，候选得分越高，则对应的候选文字与对应待纠正语句的匹配度越高。因此，将数值最高的候选得分对应的候选文字作为目标文字，并利用目标文字替换待纠正文字，可以提高对识别文本纠错的准确性。

另外，本实施方式中，在利用语义分析模型获得标记位置处的至少部分候选文字之前，包括：构建语义分析模型，并利用训练数据库对构建的语义分析模型进行训练，以得到训练后的语义分析模型。

具体地，训练数据库中包含多个语料数据，将经过掩词处理后的语料数据输入语义分析模型中，即随机删除语料数据中的部分词语，并将删除部分词语后的语料数据输入语义分析模型。语义分析模型基于语义信息预测语料数据中空白位置处的词语，并将预测的词语与被删除的词语进行比对，以调整语义分析模型中的参数，从而获得训练后的语义分析模型。

另外，需要说明的是，在其他实施方式中，步骤S104中可以将待纠正文字所在的语句、以及待纠正文字所在语句的前后语句，都作为待纠正语句，并将所有待纠正语句输入语义分析模型。通过结合待纠正文字所在语句以及该语句的前后句，有助于使得语义分析模型根据更加丰富的语义信息来预测获得至少部分候选文字，从而提高候选文字的准确性。

本申请提出的文本图像识别方法通过利用注意力机制结合待识别文字在待识别文本中的语义信息进行识别，以获得待识别文字对应的初始文字和对应的识别置信度得分。在获得初始文字后，基于各个初始文字组成的文本的语义信息，获得每个初始文字的语义置信度得分。通过结合识别置信度得分和语义置信度得分，以准确判断各个初始文字是否需要进行纠正。通过对待纠正文字进行纠正，以提高文本图像识别的准确性和稳定性。

在另一实施方式中，请参阅图5，图5为步骤S104对应另一实施方式的流程示意图。在本实施方式中，步骤S104具体包括：

S301：基于待纠正文字所在语句的语义信息，获得待纠正文字对应的至少部分候选文字。

在本实施方式中，步骤S301包括：获取待纠正文字所在的待纠正语句，并在待纠正语句中对待纠正文字的位置进行标记。

进一步地，将标记后的待纠正语句输入语义分析模型，获得待纠正语句的语句语义信息，并基于语句语义信息获得标记位置处的至少部分候选文字。其中，上述语义分析模型的具体结构以及构建方法可参照上述步骤S104，在此不进行详细阐述。

S302：基于待纠正文字与各个候选文字之间的相似度，确定用于替换待纠正文字的目标文字，得到文本图像对应的目标文本。

在本实施方式中，步骤S302的实施过程包括：响应于获得待纠正文字对应的至少部分候选文字，对待纠正文字与各个候选文字进行拆分，以分别获得待纠正文字和候选文字的笔画序列。

具体地，可以根据待纠正文字以及候选文字的结构，将其拆分为树状结构。例如，响应于待纠正文字或候选文字为左右结构，首先将其拆分为左半部分和右半部分，然后再分别对其左半部分和右半部分进行拆分；响应于待纠正文字为上中下结构，首先将其拆分为上部分、中间部分和下部分，然后再分别对其上部分、中间部分和下部分单独进行拆分。最终将待纠正文字和各个候选文字拆分成对应的笔画序列。

在一具体实施方式中，请参阅图6，图6为步骤S302对应一实施方式的示意图。如图6所示，对于文字“贫”，先按照上下结构将其拆分为“分”和“贝”；然后再将“分”拆分为“八”和“刀”，以及将“贝”拆分为“冂”和“人”；最终，将“八”、“刀”、冂”以及“人”分别拆分为对应的组成笔画，从而得到“贫”对应的笔画序列。

进一步地，基于笔画序列，获得待纠正文字与各个候选文字之间的编辑距离。

具体地，将待纠正文字对应的笔画序列，与各个候选文字对应的笔画序列进行对比，以计算待纠正文字通过改变笔画转换成对应候选文字所需要的最少编辑操作次数。例如，对于汉字“方”和“万”，“方”的笔画序列为“丶一丿”，而“万”的笔画序列为“一丿”，因此将“方”转换成“万”只需要将特征序列中的“丶”删除，即认为“方”和“万”之间的编辑距离为1。

进一步地，基于编辑距离获得待纠正文字与各个候选文字之间的相似度，将数值最大的相似度对应的候选文字作为目标文字，并利用目标文字替换待纠正文字。

在一实施方式中，基于待纠正文字与各个候选文字之间的编辑距离，将数值最小的编辑距离对应的候选文字作为目标文字，并利用目标文字替换识别文本中的待纠正文字，从而获得纠错后的目标文本。

或者，在另一实施方式中，基于待纠正文字与各个候选文字之间的编辑距离计算待纠正文字与各个候选文字之间的相似度。并将数值最大的相似度对应的候选文字作为目标文字。其中，编辑距离越大，对应的相似度越小。

本实施方式根据候选文字与待纠正文字之间的相似度确定待纠正文字对应的目标文字，并利用目标文字替换待纠正文字以进一步提高识别获得的目标文本的准确性。

在又一实施方式中，本申请提出的文本图像识别方法还可以包括：预先设置参考词库，该参考词库中包括若干数量的参考词语。其中，参考词库中的各个参考词语可以根据所属领域进行分类。例如，在参考词库中，金融领域包括：“资本结构、追踪走势、主权基金、私募集金”等等参考词语。

进一步地，在通过上述实施方式中的步骤S101至步骤S103得到文本图像对应的识别文本和待纠正文字后，判断识别文本所述的领域，并对识别文本进行分词处理。若待纠正文字所属的词语与参考词库中对应领域的参考词语相似度较高，则直接利用参考词库中的词语替换待纠正文字所属的词语。或者，则将参考词语中对应待纠正文字的文字作为候选文字，以基于待纠正文字与各个候选文字之间的相似度，确定用于替换待纠正文字的目标文字，具体过程可参照上述实施方式中的步骤S302。

请参阅图7，图7是本申请文本图像识别***一实施方式的结构示意图。该文本图像识别***包括相互耦接的识别模块40、语义分析模块50、处理模块60以及纠错模块70。

具体而言，识别模块40用于获取包括待识别文字的文本图像，基于文本图像获得待识别文字对应的初始文字、以及初始文字对应的识别置信度得分。

在一实施场景中，识别模块40对文本图像进行特征提取以获得文本图像中所有待识别文字对应的特征序列；对特征序列进行编码，以获得各个待识别文字对应的第一特征向量；对第一特征向量进行特征映射，得到第一特征向量对应的第二特征向量；基于第一特征向量和第二特征向量，获得初始文字、以及初始文字对应的识别置信度得分。

其中，识别模块40基于第一特征向量和第二特征向量，获得初始文字、以及初始文字对应的识别置信度得分，包括：对第一特征向量进行解码，以获得解码向量；将第一特征向量与其对应的第二特征向量的乘积进行归一化，得到权重矩阵；基于注意力机制，将权重矩阵与对应所述解码向量相乘并进行归一化，得到待识别文字对应的初始文字、以及初始文字的识别置信度得分。

语义分析模块50用于基于各个初始文字的语义信息，获得各个初始文字的语义置信度得分。

在一实施场景中，语义分析模块50基于各个待识别文字在文本图像中的位置信息，对所有初始文字进行排列，以获得文本图像对应的识别文本；基于识别文本的文本语义信息，获得识别文本中各个初始文字的语义置信度得分。

处理模块60用于基于各个初始文字对应的识别置信度得分和语义置信度得分，从所有初始文字中确定至少部分待纠正文字。

在一实施场景中，处理模块60用于基于各个初始文字对应的识别置信度得分获得第一高斯分布模型；以及基于各个初始文字对应的语义置信度得分获得第二高斯分布模型；分别对第一高斯分布模型和第二高斯分布模型设置相应的权重，并基于第一高斯分布模型及其对应的权重和第二高斯分布模型及其对应的权重，获得混合高斯分布模型；针对混合高斯分布模型，将小于门限值的数值对应的初始文字作为待纠正文字；其中，门限值为混合高斯分布模型中均值与标准差的差值。

纠错模块70用于对待纠正文字进行纠正，得到文本图像对应的目标文本。

在一实施场景中，纠错模块70基于待纠正文字所在语句的语义信息，获得待纠正文字对应的至少部分候选文字；基于待纠正文字与各个候选文字之间的相似度，确定用于替换待纠正文字的目标文字，得到所述文本图像对应的目标文本。

在一实施场景中，纠错模块70获取待纠正文字所在的待纠正语句，并对待纠正语句中待纠正文字的位置进行标记；将标记后的待纠正语句输入语义分析模型中，获得待纠正语句的语句语义信息，并基于语句语义信息获得标记位置处的至少部分候选文字；其中，所述语义分析模型包括BERT网络。

在一实施场景中，纠错模块70还用于对待纠正文字与各个候选文字进行拆分，以分别获得待纠正文字和候选文字对应的笔画序列；基于笔画序列，获得待纠正文字与各个候选文字之间的编辑距离；基于编辑距离获得待纠正文字与各个候选文字之间的相似度，将数值最大的相似度对应的候选文字作为目标文字，并利用目标文字替换待纠正文字。

请参阅图8，图8为本申请电子设备一实施方式的结构示意图，该电子设备包括相互耦接的存储器80和处理器90，存储器80中存储有程序指令，处理器90用于执行程序指令以实现上述实施方式中的文本图像识别方法的步骤。具体地，电子设备包括但不限于：台式电脑、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器90还可以称为CPU(Center Processing Unit，中央处理单元)。处理器90可能是一种集成电路芯片，具有信号处理能力。处理器90还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)，或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器90可以由集成电路芯片共同实现。

请参阅图9，图9为本申请提出的计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质100存储有能够被处理器运行的程序指令110，程序指令110用于实现上述任一实施方式中的文本图像识别方法。

需要说明的是，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本图像识别方法，其特征在于，包括：

获取包括待识别文字的文本图像，基于所述文本图像获得所述待识别文字对应的初始文字、以及所述初始文字对应的识别置信度得分；

基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分；

基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字；

对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述文本图像获得所述待识别文字对应的初始文字、以及所述初始文字对应的识别置信度得分，包括：

对所述文本图像进行特征提取以获得所述文本图像中所有所述待识别文字对应的特征序列；

对所述特征序列进行编码，以获得各个所述待识别文字对应的第一特征向量；

对所述第一特征向量进行特征映射，得到所述第一特征向量对应的第二特征向量；

基于所述第一特征向量和所述第二特征向量，获得所述初始文字、以及所述初始文字对应的识别置信度得分。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一特征向量和所述第二特征向量，获得所述初始文字、以及所述初始文字对应的识别置信度得分，包括：

对所述第一特征向量进行解码，以获得解码向量；

将所述第一特征向量与其对应的所述第二特征向量的乘积进行归一化，得到权重矩阵；

基于注意力机制，将所述权重矩阵与对应所述解码向量相乘并进行归一化，得到所述待识别文字对应的所述初始文字、以及所述初始文字的识别置信度得分。

4.根据权利要求1所述的方法，其特征在于，所述基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分，包括：

基于各个所述待识别文字在所述文本图像中的位置信息，对所有所述初始文字进行排列，以获得所述文本图像对应的识别文本；

基于所述识别文本的文本语义信息，获得所述识别文本中各个所述初始文字的语义置信度得分。

5.根据权利要求1所述的方法，其特征在于，所述基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字，包括：

基于各个所述初始文字对应的识别置信度得分获得第一高斯分布模型；以及基于各个所述初始文字对应的语义置信度得分获得第二高斯分布模型；

分别对所述第一高斯分布模型和所述第二高斯分布模型分布设置相应的权重，并基于所述第一高斯分布模型及其对应的权重和所述第二高斯分布模型及其对应的权重，获得混合高斯分布模型；

针对所述混合高斯分布模型，将小于门限值的数值对应的所述初始文字作为所述待纠正文字；其中，所述门限值为所述混合高斯分布模型中均值与标准差的差值。

6.根据权利要求1所述的方法，其特征在于，所述对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本，包括：

基于所述待纠正文字所在语句的语义信息，获得所述待纠正文字对应的至少部分候选文字；

基于所述待纠正文字与各个所述候选文字之间的相似度，确定用于替换所述待纠正文字的目标文字，得到所述文本图像对应的目标文本。

7.根据权利要求6所述的方法，其特征在于，所述基于所述待纠正文字所在语句的语义信息，获得所述待纠正文字对应的至少部分候选文字，包括：

获取所述待纠正文字所在的待纠正语句，并对所述待纠正语句中所述待纠正文字的位置进行标记；

将标记后的所述待纠正语句输入语义分析模型中，获得所述待纠正语句的语句语义信息，并基于所述语句语义信息获得标记位置处的至少部分所述候选文字；其中，所述语义分析模型包括BERT网络。

8.根据权利要求6所述的方法，其特征在于，所述基于所述待纠正文字与各个所述候选文字之间的相似度，确定用于替换所述待纠正文字的目标文字，得到所述文本图像对应的目标文本，包括：

对所述待纠正文字与各个所述候选文字进行拆分，以分别获得所述待纠正文字和所述候选文字对应的笔画序列；

基于所述笔画序列，获得所述待纠正文字与各个所述候选文字之间的编辑距离；

基于所述编辑距离获得所述待纠正文字与各个所述候选文字之间的所述相似度，将数值最大的所述相似度对应的所述候选文字作为所述目标文字，并利用所述目标文字替换所述待纠正文字。

9.一种文本图像识别***，其特征在于，包括：

识别模块，用于获取包括待识别文字的文本图像，基于所述文本图像获得所述待识别文字对应的初始文字、以及所述初始文字对应的识别置信度得分；

语义分析模块，用于基于各个所述初始文字的语义信息，获得各个所述初始文字的语义置信度得分；

处理模块，用于基于各个所述初始文字对应的所述识别置信度得分和所述语义置信度得分，从所有所述初始文字中确定至少部分待纠正文字；

纠错模块，用于对所述待纠正文字进行纠正，得到所述文本图像对应的目标文本。

10.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1-8任一项所述的文本图像识别方法。

11.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1-8任一项所述的文本图像识别方法。