CN110866529A

CN110866529A - 字符识别方法、装置、电子设备及存储介质

Info

Publication number: CN110866529A
Application number: CN201911036151.1A
Authority: CN
Inventors: 郑岩; 胡益清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-03-06

Abstract

本申请实施例公开了一种字符识别方法、装置、电子设备及存储介质，本申请实施例首先获取待检测的字符图像，并从字符图像中提取特征信息，然后根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符，其次基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块，再对结构字符图像块进行字符识别，得到目标单字符，对非结构图像块进行字符识别，得到目标字符，最后对目标单字符和目标字符进行合并，得到目标数据。该方案对字符图像进行修正，以及对字符图像分割，并对分割得到的结构字符图像块和非结构图像块分别识别，提高了对字符识别的准确率。

Description

字符识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种字符识别方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，字符识别作为该领域的重要应用，愈发受到重视。字符识别可以将存在于图像等介质上的字符转化为可通过电子设备编辑的字符形式。以公式识别为例，现有的公式识别方法，通常对公式图像中的字符进行简单分割得到若干单字符，并直接对该单字符进行识别，进而得到识别结果。由于公式内存在的字符粘连、及噪声等因素的影响，导致通过现有技术进行公式识别的识别效果难以保证，识别准确率不高。

发明内容

本申请实施例提供一种字符识别方法、装置、电子设备及存储介质，旨在提高字符识别准确率。

本申请实施例提供的一种字符识别方法，包括：

获取待检测的字符图像；

从所述字符图像中提取特征信息；

根据所述特征信息对字符图像修正处理，得到修正字符图像，所述修正字符图像内包含字符；

基于所述字符的位置对所述字符图像进行分割，得到结构字符图像块和非结构字符图像块；

对所述结构字符图像块进行字符识别，得到目标单字符，以及对所述非结构图像块进行字符识别，得到目标字符；

对所述目标单字符和所述目标字符进行合并，得到目标数据。

在本申请的一些实施例中，所述字符图像内包含特征，根据所述特征信息对字符图像修正处理，得到修正字符图像包括：

根据所述特征信息确定每个字符的候选外接矩形；

从所述候选外接矩形筛选出面积大于第一预设阈值的外接矩形，得到字符外接矩形；

获取存在交集区域的字符外接矩形对，以及获取交集区域与字符外接矩形对中的笔迹外接矩形之间的比值；

将所述比值大于第二预设阈值的字符外接矩形对进行合并，得到修正字符图像。

在本申请的一些实施例中，所述字符包括结构字符和非结构字符，基于所述字符的位置对所述字符图像进行分割，得到结构字符图像和非结构字符图像包括：

基于所述字符的位置检测所述字符图像中是否存在结构字符；

当所述字符图像中存在结构字符时，根据所述结构字符的位置从所述字符图像中提取结构字符区域，得到结构字符图像；

根据所述结构字符的位置，将所述字符图像中的结构字符区域替换为占位字符区域，得到非结构字符图像。

在本申请的一些实施例中，基于所述字符的位置检测所述字符图像中是否存在结构字符之后，所述方法还包括：

当所述字符图像中不存在结构字符时，通过预设识别模型对所述字符图像进行字符识别。

在本申请的一些实施例中，所述占位字符区域内包含占位字符，所述对所述目标单字符和所述目标字符进行合并，得到目标数据包括：

获取所述结构字符图像块内结构字符的第一位置，以及获取所述非结构图像块内占位字符的第二位置；

根据所述第一位置组合所述目标单字符，得到目标结构字符；

根据所述第二位置，将所述占位字符替换为目标结构字符，得到目标数据。

在本申请的一些实施例中，对所述结构字符图像块进行字符识别，得到目标单字符，以及对所述非结构图像块进行字符识别，得到目标字符包括：

通过预设识别模型对所述结构字符图像进行字符识别，得到目标单字符，以及通过预设识别模型对所述非结构图像块进行字符识别得到目标字符。

在本申请的一些实施例中，所述通过预设识别模型对所述结构字符图像块进行字符识别之前，所述方法还包括：

获取训练样本图像，以及所述训练样本图像对应的目标样本字符；

对所述训练样本图像进行预处理，得到预处理后的训练样本图像；

通过识别模型对训练样本图像和预处理后的训练样本图像进行识别，得到样本字符；

对所述目标样本字符与样本字符进行收敛，以调整所述识别模型的参数，得到预设识别模型。

在本申请的一些实施例中，所述从所述字符图像中提取特征信息包括：

将所述字符图像转换为灰度图像；

获取所述灰度图像对应的二值化图像；

从所述二值化图像中提取特征信息。

在本申请的一些实施例中，所述获取所述灰度图像对应的二值化图像包括：

获取所述灰度图像中每个像素点的预设邻域内的像素均值；

根据所述像素均值为所述灰度图像中的每个像素点设置二值化阈值；

根据所述二值化阈值确定所述灰度图像对应的二值化图像。

相应的，本申请实施例还提供的一种字符识别装置，包括：

获取模块，用于获取待检测的字符图像；

提取模块，用于从所述字符图像中提取特征信息；

修正模块，用于根据所述特征信息对字符图像修正处理，得到修正字符图像，所述修正字符图像内包含字符；

分割模块，用于基于所述字符的位置对所述字符图像进行分割，得到结构字符图像块和非结构字符图像块；

第一识别模块，用于对所述结构字符图像块进行字符识别，得到目标单字符，以及对所述非结构图像块进行字符识别，得到目标字符；

合并模块，用于对所述目标单字符和所述目标字符进行合并，得到目标数据。

在本申请的一些实施例中，所述修正模块具体用于：

根据所述特征信息确定每个字符的候选外接矩形；从所述候选外接矩形筛选出面积大于第一预设阈值的外接矩形，得到字符外接矩形；获取存在交集区域的字符外接矩形对，以及获取交集区域与字符外接矩形对中的笔迹外接矩形之间的比值；将所述比值大于第二预设阈值的字符外接矩形对进行合并，得到修正字符图像。

在本申请的一些实施例中，所述字符包括结构字符和非结构字符，所述分割模块包括检测子模块、提取子模块和替换子模块，其中：

所述检测子模块，用于基于所述字符的位置检测所述字符图像中是否存在结构字符；

所述提取子模块，用于当所述字符图像中存在结构字符时，根据所述结构字符的位置从所述字符图像中提取结构字符区域，得到结构字符图像；

所述替换子模块，用于根据所述结构字符的位置，将所述字符图像中的结构字符区域替换为占位字符区域，得到非结构字符图像。

在本申请的一些实施例中，所述字符识别装置还可以包括：

第二识别模块，用于当所述字符图像中不存在结构字符时，通过预设识别模型对所述字符图像进行字符识别。

在本申请的一些实施例中，所述占位字符区域内包含占位字符，所述合并模块包括获取子模块、组合子模块、和替换子模块，其中：

所述获取子模块，用于获取所述结构字符图像块内结构字符的第一位置，以及获取所述非结构图像块内占位字符的第二位置；

所述组合子模块，用于根据所述第一位置组合所述目标单字符，得到目标结构字符；

所述替换子模块，用于根据所述第二位置，将所述占位字符替换为目标结构字符，得到目标数据。

在本申请的一些实施例中，所述第一识别模块具体用于：

在本申请的一些实施例中，所述字符识别装置还包括：

样本获取模块，用于获取训练样本图像，以及所述训练样本图像对应的目标样本字符；

预处理模块，用于对所述训练样本图像进行预处理，得到预处理后的训练样本图像；

第三识别模块，用于通过识别模型对训练样本图像和预处理后的训练样本图像进行识别，得到样本字符；

收敛模块，用于对所述目标样本字符与样本字符进行收敛，以调整所述识别模型的参数，得到预设识别模型。

在本申请的一些实施例中，所述提取模块具体用于：

将所述字符图像转换为灰度图像；获取所述灰度图像中每个像素点的预设邻域内的像素均值；根据所述像素均值为所述灰度图像中的每个像素点设置二值化阈值；根据所述二值化阈值确定所述灰度图像对应的二值化图像；从所述二值化图像中提取特征信息。

相应的，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序执行本申请实施例提供的字符识别方法。

相应的，本申请实施例还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种字符识别方法。

本申请实施例首先获取待检测的字符图像，以及从字符图像中提取特征信息，然后根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符，其次基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块，再对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符，最后对目标单字符和目标字符进行合并，得到目标数据。该方案通过对字符图像进行修正的操作，可以有效降低噪声、字符等对字符识别准确率的影响，以及对字符图像进行分割，并对分割得到的结构字符图像块和非结构图像块分别识别，相对于现有的单字符分割和单字符识别，提高了对字符识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的字符识别方法的场景示意图；

图2是本申请实施例提供的字符识别方法的流程图；

图3是本申请实施例提供的手写数学公式图像及其LaTex结果示意图；

图4是本申请实施例提供的印刷体数学公式图像及其LaTex结果示意图；

图5是本申请实施例提供的字符识别方法的另一流程图；

图6是本申请实施例提供的二值化图像示例图；

图7是本申请实施例提供的公式中字符位置信息图像示例图；

图8是本申请实施例提供的修正公式图像示例图；

图9是本申请实施例提供的非结构图像块示例图；

图10是本申请实施例提供的识别模型示例图；

图11是本申请实施例提供的字符识别装置的示意图；

图12是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种字符识别方法、装置、电子设备及存储介质。如图1所示，图1为本申请实施例所提供的字符识别方法的场景示意图，其中字符识别装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

如图1所示，电子设备接收字符图像后，可以提取该字符图像的特征信息，并通过该特征信息对字符图像进行修正，以便减小噪声、或字符等情况给后续操作带来的影响，以及对修正后得到的修正字符图像进行分类，得到结构字符图像和非结构字符图像，然后电子设备可以对结构字符图像进行识别得到目标单字符，对非结构字符图像进行识别得到目标字符，最后合并目标单字符和目标字符，得到目标数据(即识别结果)。

以下分别进行详细说明。

在本实施例中，将从字符识别装置的角度进行描述，该字符识别装置具体可以集成在平板电脑、手机、笔记本电脑、服务器以及穿戴式智能设备等具备储存单元并安装有微处理器而具有运算能力的电子设备中。

一种字符识别方法，包括：获取待检测的字符图像；从字符图像中提取特征信息；根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符；基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块；对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符；对目标单字符和目标字符进行合并，得到目标数据。

请参阅图2，图2是本申请一实施例提供的字符识别方法的流程示意图。该字符识别方法可以包括：

101、获取待检测的字符图像。

其中，字符图像可以是包含字符的图像，该字符可以是字母、数字、运算符号、或标点符号等，字符图像内的字符可以是若干字符的组合，也可以是单个字符。比如，单个字符可以为a或+等，若干字符的组合可以为y＝2m+3n或y＝a*x等公式。字符图像内可以仅包含字符，或者除了包含字符之外，还可以包含杯子或人像等其他元素，如果字符图像内包含字符以及其他元素，则可以通过图像裁剪，得到仅保留字符的字符图像。比如，图像M内包含一个杯子和两个数学公式，可以对M进行裁剪，得到仅包含数学公式的字符图像N。

具体的，获取待检测的字符图像，可以是接收其他电子设备发送的字符图像，或者是从电子设备本地数据库内获取预先存储的字符图像，或者是根据实际需求通过电子设备的摄像头对字符进行拍摄得到，等等。

102、从字符图像中提取特征信息。

其中，特征信息可以是该字符图像内字符的位置信息或轮廓信息等。提取特征信息可以使用不同的方法，比如，为了提高检测的精准性，可以使用目标检测网络(SSD，Single Shot MultiBox Detector)从字符图像中提取字符的特征信息，也可以对字符图像进行处理并提取特征信息，等等。

可选的，步骤“从字符图像中提取特征信息”可以包括：将字符图像转换为灰度图像；获取灰度图像中每个像素点的预设邻域内的像素均值；根据像素均值为灰度图像中的每个像素点设置二值化阈值；根据二值化阈值确定灰度图像对应的二值化图像；从二值化图像中提取特征信息。

为了提高特征信息提取的准确性和可靠性，可以获取字符图像对应的二值化图像，然后从从二值化图像中提取特征信息，比如，首先把字符图像转为灰度图，然后为灰度图中每一个像素点计算二值化阈值，二值化阈值的计算方法可以是：一像素点的邻域N*N(N取15)个像素点的均值减去一个常数C(例如C可以取10)值。然后将像素点灰度值与其对应的二值化阈值对比，若该像素点灰度值小于该阈值，则该像素点赋值为1，若该像素点灰度值大于该阈值，则该像素点赋值为0，对灰度图内的每一像素点执行上述操作，得到该灰度图像对应的二值化图像，即该字符图像的二值化图像。

103、根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符。

其中，修正处理可以包括对噪声、或笔迹等情况的处理，对字符图像进行修正得到修正字符图像，相比字符图像，修正字符图像是被处理过得到的图像，更利于下一步操作，可以从整体上优化字符识别的效果。

可选的，步骤“根据特征信息对字符图像修正处理，得到修正字符图像”可以包括：根据特征信息确定每个字符的候选外接矩形；从候选外接矩形筛选出面积大于第一预设阈值的外接矩形，得到字符外接矩形；获取存在交集区域的字符外接矩形对，以及获取交集区域与字符外接矩形对中的笔迹外接矩形之间的比值；将比值大于第二预设阈值的字符外接矩形对进行合并，得到修正字符图像。

其中，根据特征信息确定每个字符的候选外接矩形，从候选外接矩形筛选出面积大于第一预设阈值的外接矩形，得到字符外接矩形，该第一预设阈值可以根据实际需要进行灵活设置。此面积可以通过不同的形式衡量，比如，计算实际面积、或者计算候选外接矩形的像素点个数，等等。比如，从候选外接矩形内筛选并保留所有面积大于A(A取30个像素点个数)的候选外接矩形。然后获取存在交集区域的字符外接矩形对，可以将该字符外接矩形对内面积更大的字符外接矩形设置为笔迹外接矩形，以及获取交集区域与字符外接矩形对中的笔迹外接矩形之间的比值，将比值大于第二预设阈值的字符外接矩形对进行合并，得到修正字符图像，该第二预设阈值可以根据实际需要进行灵活设置。比如，存在交集的字符外接矩形对的两个外接矩形分别为P1与P2，P1的面积大于P2，P1与P2的交集为O，则计算O与P2的比值，并将该比值与预设阈值B(B取0.5)对比，若该比值大于B，则合并P1与P2。这样，通过每个字符的候选外接矩形，并将满足条件的存在交集区域的字符外接矩形对进行合并，从而可以得到修正字符图像，提高了修正字符图像获取的准确性，以及后续基于修正字符图像对字符进行识别，提高字符识别的准确性和效率。

需要说明的是，上述关于合并外接矩和得到字符外接矩的具体实施顺序并不受行文顺序限制，实施步骤可以根据实际情况灵活选择。

104、基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块。

可选的，字符可以包括结构字符和非结构字符，步骤“基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块”可以包括：基于字符的位置检测字符图像中是否存在结构字符；当字符图像中存在结构字符时，根据结构字符的位置从字符图像中提取结构字符区域，得到结构字符图像块；根据结构字符的位置，将字符图像中的结构字符区域替换为占位字符区域，得到非结构字符图像。

为了提高字符识别的准确性，可以对对字符图像进行分割，以便后续可以对分割后的图像块进行字符识别。其中，根据字符的位置对字符图像分割，可以是根据字符的外接矩阵的位置对图像进行分割，比如，根据字符的外接矩阵对字符图像的字符的结构进行分析，得到横向结构字符或非横向结构字符，选定非横向结构字符为结构字符，基于结构字符，在字符图像内裁剪得到若干结构图像块，每一结构字符图像块内含单字符，并在字符图像内替换结构图像块区域为占位字符区域，得到非结构图像块。可选的，步骤“基于字符的位置检测字符图像中是否存在结构字符”之后，还可以包括：当字符图像中不存在结构字符时，通过预设识别模型对字符图像进行字符识别。比如，根据字符的外接矩阵对字符图像的字符的结构进行分析，只得到非横向结构字符，那么可以直接对该字符图像进行识别。

105、对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符。

可选的，步骤“对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符”，可以包括：通过预设识别模型对所述结构字符图像进行字符识别，得到目标单字符，以及通过预设识别模型对所述非结构图像块进行字符识别得到目标字符。其中，为了提高识别模型对字符识别的精准性和可靠性，可以通过训练样本图像预先对识别模型进行训练，可选的，步骤“通过预设识别模型对结构字符图像进行字符识别”之前，还可以包括：获取训练样本图像，以及训练样本图像对应的目标样本字符；对训练样本图像进行预处理，得到预处理后的训练样本图像；通过识别模型对训练样本图像和预处理后的训练样本图像进行识别，得到样本字符；对目标样本字符与样本字符进行收敛，以调整识别模型的参数，得到预设识别模型。

其中，训练样本图像可以包括手写字符图像、印刷体样本图像、及根据预设字体库随机渲染生成的字符图像，手写字符图像、印刷体样本图像、及根据预设字体库随机渲染生成的字符图像均设置与其对应的目标样本字符。对训练样本图像进行预处理可以包括对训练样本图像执行旋转、加噪声、加亮度对比、改变背景、仿射(二维坐标变换)、或透视(三维坐标变换)等操作。比如，将手写字符图像的亮度调整至原亮度的两倍、或三倍等。又比如，将印刷体字符图像的背景调整为绿色背景、或预设图案背景等。通过识别模型对训练样本图像进行识别，得到样本字符，以及对预处理后的训练样本图像进行识别，得到样本字符；然后构建损失函数，通过该损失函数对目标样本字符与样本字符进行收敛，以调整识别模型的参数至适当值，以使得损失达到较低并且梯度不再下降，降低目标样本字符与识别模型输出识别结果(即样本字符)之间的误差，即可得到训练后的识别模型，该训练后的识别模型即为预设识别模型。

106、对目标单字符和目标字符进行合并，得到目标数据。

可选的，占位字符区域内可以包含占位字符，步骤“对目标单字符和目标字符进行合并，得到目标数据”，可以包括：获取结构字符图像块内结构字符的第一位置，以及获取非结构图像块内占位字符的第二位置；根据第一位置组合目标单字符，得到目标结构字符；根据第二位置，将占位字符替换为目标结构字符，得到目标数据。

其中，在结构字符图像块内，获取每一单字符的相对位置，在得到目标单字符后，根据相对位置，将单字符放到对应的位置上，得到目标结构字符。占位字符是占位图像内的字符，占位字符通常是单个字符，该占位字符的作用在于替代结构字符，在识别阶段，占位字符可以使非结构字符整体更有逻辑，有助于对非结构字符的识别。在合并阶段，占位字符是目标结构字符在目标数据内的标记，有助于准确合并目标结果字符和目标字符，进而快速获得目标数据，具体地，将占位字符替换为目标结构字符，即可得到目标数据。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中将以该字符识别装置具体集成在电子设备中为例进行说明。

本实施例以字符为数学公式，目标数据为拉泰赫结果(下称LaTex结果)为例，对字符识别方法进行详细描述。

如图3所示，展示了手写数学公式图像及其识别得到的LaTex结果，其中A为手写数学公式图像，B为手写数学公式LaTex结果，例如，对于手写数学公式：

其中，该手写数学公式识别得到对应的LaTex结果可以为：

8\times(26+2\frac{5}{3})<100

如图4所示，展示了印刷体数学公式图像及其识别得到的LaTex结果，其中C为印刷体数学公式图像，D为印刷体数学公式LaTex结果，例如，对于印刷体数学公式：

其中，该印刷体数学公式识别得到对应的LaTex结果可以为：

\frac{982}{312}\lambda^4+823-425\geq16

请参阅图5，图5为本申请实施例提供的字符识别方法的流程示意图。该方法流程可以包括：

201、获取待检测的公式图像。

其中，待检测的公式图像可以是包含手写公式的图像，也可以是包含印刷公式的图像。公式图像内可以包含公式，如果图像内包含公式以及其他元素，可以通过图像裁剪，得到仅保留公式的公式图像。比如，图像M内包含一个杯子和两个数学公式，对M裁剪，得到仅包含公式的公式图像N。

202、从公式图像中提取位置信息。

其中，位置信息是指公式图像内每一字符的相对位置。

从公式图像中提取字符的位置信息，比如，首先通过自适应二值化法获取公式图像的二值化图像，具体地，可以将公式图像转化为灰度图，再为灰度图中的每一像素点计算相对应的二值化阈值(比如，以像素点f(2,3)为例，计算f(2,3)的10*10邻域内100个像素点的均值，得到的均值再减去常数5)，然后将每一像素点与其对应的二值化阈值对比，若该像素点大于其二值化阈值，为该像素点赋值0；若该像素点小于其二值化阈值，为该像素点赋值1。如图6所示，其中，图像内黑色部分的像素值为1，白色部分的像素值为0。其次，从二值化图像内提取字位置信息，具体地，按行扫描该二值化图像内的每一像素点，然后标记满足条件的像素点，条件可以是“一像素点满足该点像素值为1，该左相邻像素点值为0”，或，“一像素点满足该点像素值等于1，该右相邻像素点值为0”，等等。此时可以对标记得到的结果进行优化处理，最终得到位置信息，如图7。

203、根据位置信息对公式图像修正处理，得到修正公式图像，修正公式图像内包含字符。

其中，修正处理可以包括对噪声、笔迹等情况的处理，对公式图像进行修正得到修正公式图像，相比公式图像，修正公式图像是被处理过得到的图像，更利于下一步操作，可以从整体上优化公式识别的效果。

比如，首先获取修正公式图像内字符的的候选外接矩，接着，可以通过对候选外接矩的操作达到去噪声的目的。比如，从候选外接矩形内筛选并保留所有面积大于A(A取30个像素点个数)的候选外接矩形。通过对候选外接矩的操作达到合并断连笔迹的目的。比如，存在交集的字符外接矩形对的两个外接矩形分别为P1与P2，P1的面积大于P2，P1与P2的交集为O，则计算O与P2的比值，并将该比值与预设阈值B(B取0.5)对比，若该比值大于B，则合并P1与P2。此外，为了提高字符合并的准确性和可靠性，在完成对所有合并后，还可以存在一个校验过程，具体操作可以是：如果P2面积大于所有候选外接矩阵面积均值的s％(比如10％)，则撤销该合并，如果P2面积小于或等于所有候选外接矩阵面积均值的s％(比如10％)，则不撤销该合并。最后可得到修正公式图像，如图8。

204、基于字符的位置检测公式图像中是否存在结构字符。

具体的，可以根据字符外接矩形的相对位置，分析公式图像内是否存在结构字符，比如，分析公式图像内外接矩形是否为横向结构，非横向结构即结构字符。比如，图7内的“5”、“-”、“3”即非横向结构，其他部分即横向结构。

205、当公式图像中不存在结构字符时，通过识别模型对所述公式图像进行字符识别，得到公式LaTex结果。

206、当公式图像中存在结构字符时，基于字符的位置对公式图像进行分割，得到结构公式图像块和非结构公式图像块。

比如，选定非横向结构为结构字符，基于结构字符，在公式图像内裁剪得到若干结构图像块，每一结构字符图像块内含单字符，并在公式图像内替换结构图像块区域为占位字符区域，得到非结构图像块，如图9所示，其中占位字符为x。

207、通过识别模型对结构公式图像块进行字符识别，得到单字符LaTex结果，以及通过识别模型对非结构公式图像块进行字符识别，得到非结构LaTex结果。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

比如，识别模型可以属于深度神经网络识别模型，该识别模型可以是基于端到端不定长文本识别(Convolutional Recurrent Neural Network,CRNN)识别模型改进得到，将原CRNN模型内的替换VGG为RESNET，目的是提高特征提取能力。根据数学公式字符间距比英文字符间距大的特点，在该预设模型内使用N*N(N取16)倍下采样。该识别模型将LSTM替换为GRU，替换的操作可以减少计算量，以及提高在数据量较大(比如，2000万)的情况下的收敛速度。该识别模型可以如图10所示，例如，可以将图像输入识别模型，依次通过识别模型的预设层(例如4层)卷积层进行卷积操作、通过全局池化层进行池化操作、以及通过双向门控循环单元Bi-GRU进行语义分析，最终可以得到LaTex结果。

可以对该识别模型进行训练，对于输入识别模型的训练数据，可以包括：真实数据图像：比如，印刷体公式图像及其LaTex结果，手写数学作业本及试卷中的公式图像及其LaTex结果；构造数据图像：根据规则随机生成公式或占位字符，并借助字体库(比如包含宋体、楷体、和微软雅黑等多种字体的字体库)进行渲染得到构造数据图像，以及构造数据对应的LaTex结果；增强数据图像，对真实数据图像和构造数据图像执行一定操作得到增强数据图像，比如，旋转、加噪声、加亮度对比、改变背景、仿射(二维坐标变换)、或透视(三维坐标变换)等。该真实数据图像、构造数据图像和增强数据图像可以组成训练样本图像，此时可以通过得到的训练样本图像对识别模型进行训练，得到训练后的识别模型，通过训练后的识别模型可以对结构公式图像块或非结构公式图像块进行字符识别。

208、对单字符LaTex结果和非结构LaTex结果进行合并，得到公式LaTex结果。

其中，将单字符LaTex结果重构为结构LaTex结果，具体地，结合单字符LaTex结果和字符外接矩形对单字符LaTex结果进行重构，得到结构LaTex结果，替换非结构LaTex结果中的占位字符为结构LaTex结果，即得到公式LaTex结果。比如，图3中，对单字符LaTex结果“5”、“-”和“3”进行分析，结合得到的单字符LaTex结果和结果字符图像块内三个单字符的外矩形，得到结构LaTex结果“\frac{5}{3}”，将非结构LaTex结果中的占位字符“x”替换为结构LaTex结果“\frac{5}{3}”，即得到公式LaTex结果“8\times(26+2\frac{5}{3})<100”。

本申请实施例首先获取待检测的公式图像，以及从公式图像中提取位置信息，然后根据位置信息对公式图像修正处理，得到修正公式图像，修正公图像内包含字符，基于字符的位置检测公式图像中是否存在结构字符，当公式图像中不存在结构字符时，通过识别模型对所述公式图像进行字符识别，得到公式LaTex结果，当公式图像中存在结构字符时，基于字符的位置对公式图像进行分割，得到结构公式图像块和非结构公式图像块，通过识别模型对结构公式图像块进行字符识别，得到单字符LaTex结果，以及通过识别模型对非结构公式图像块进行字符识别，得到非结构LaTex结果，对单字符LaTex结果和非结构LaTex结果进行合并，得到公式LaTex结果。该方案通过对字符图像进行修正的操作，可以有效降低噪声、字符等对字符识别准确率的影响，以及对字符图像进行分割，并对分割得到的结构字符图像块和非结构图像块分别识别，相对于现有的单字符分割和单字符识别，提高了对字符识别的准确率。

为便于更好的实施本申请实施例提供的字符识别方法，本申请实施例还提供一种基于上述字符识别方法的装置。其中名词的含义与上述字符识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图11，图11为本申请实施例提供的字符识别装置的结构示意图，其中该字符识别装置可以包括请求获取模块301、提取模块302、修正模块303、分割模块304、第一识别模块305及合并模块306等。其中，

获取模块301，用于获取待检测的字符图像。

提取模块302，用于从字符图像中提取特征信息。

修正模块303，用于根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符。

分割模块304，用于基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块。

第一识别模块305，用于对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符。

合并模块306，用于对目标单字符和目标字符进行合并，得到目标数据。

在本申请的一些实施例中，字符包括结构字符和非结构字符，分割模块304包括检测子模块、提取子模块和替换子模块，其中：

检测子模块，用于基于字符的位置检测字符图像中是否存在结构字符；

提取子模块，用于当字符图像中存在结构字符时，根据结构字符的位置从字符图像中提取结构字符区域，得到结构字符图像；

替换子模块，用于根据结构字符的位置，将字符图像中的结构字符区域替换为占位字符区域，得到非结构字符图像。

在本申请的一些实施例中，字符图像内包含特征，修正模块303具体用于：

根据特征信息确定每个字符的候选外接矩形；从候选外接矩形筛选出面积大于第一预设阈值的外接矩形，得到字符外接矩形；获取存在交集区域的字符外接矩形对，以及获取交集区域与字符外接矩形对中的笔迹外接矩形之间的比值；将比值大于第二预设阈值的字符外接矩形对进行合并，得到修正字符图像。

在本申请的一些实施例中，提取模块302具体用于：

将字符图像转换为灰度图像；获取灰度图像中每个像素点的预设邻域内的像素均值；根据像素均值为灰度图像中的每个像素点设置二值化阈值；根据二值化阈值确定灰度图像对应的二值化图像；从二值化图像中提取特征信息。

在本申请的一些实施例中，第一识别模块305具体用于：

通过预设识别模型对结构字符图像进行字符识别，得到目标单字符，以及通过预设识别模型对非结构图像块进行字符识别得到目标字符。

在本申请的一些实施例中，占位字符区域内包含占位字符，合并模块306包括获取子模块、组合子模块、和替换子模块，其中：

获取子模块，用于获取结构字符图像块内结构字符的第一位置，以及获取非结构图像块内占位字符的第二位置；

组合子模块，用于根据第一位置组合目标单字符，得到目标结构字符；

替换子模块，用于根据第二位置，将占位字符替换为目标结构字符，得到目标数据。

在本申请的一些实施例中，字符识别装置还可以包括：

第二识别装置，用于当字符图像中不存在结构字符时，通过预设识别模型对字符图像进行字符识别。

在本申请的一些实施例中，所述字符识别装置还包括：

本申请实施例首先通过获取模块301获取待检测的字符图像，以及通过提取模块302从字符图像中提取特征信息，然后修正模块303根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符，其次分割模块304基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块，再由第一识别模块305对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符，最后合并模块306对目标单字符和目标字符进行合并，得到目标数据。该方案通过对字符图像进行修正的操作，可以有效降低噪声、字符等对字符识别准确率的影响，以及对字符图像进行分割，并对分割得到的结构字符图像块和非结构图像块分别识别，相对于现有的单字符分割和单字符识别，提高了对字符识别的准确率。

本申请实施例还提供一种电子设备，如图12所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待检测的字符图像，从字符图像中提取特征信息，根据特征信息对字符图像修正处理，得到修正字符图像，修正字符图像内包含字符，基于字符的位置对字符图像进行分割，得到结构字符图像块和非结构字符图像块，对结构字符图像块进行字符识别，得到目标单字符，以及对非结构图像块进行字符识别，得到目标字符，对目标单字符和目标字符进行合并，得到目标数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对媒体文件获取方法的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种字符识别处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种字符识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种字符识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种字符识别方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种字符识别方法，其特征在于，包括：

获取待检测的字符图像；

从所述字符图像中提取特征信息；

2.根据权利要求1所述的字符识别方法，其特征在于，根据所述特征信息对字符图像修正处理，得到修正字符图像包括：

根据所述特征信息确定每个字符的候选外接矩形；

3.根据权利要求1所述的字符识别方法，其特征在于，所述字符包括结构字符和非结构字符，基于所述字符的位置对所述字符图像进行分割，得到结构字符图像和非结构字符图像包括：

4.根据权利要求3所述的字符识别方法，其特征在于，基于所述字符的位置检测所述字符图像中是否存在结构字符之后，所述方法还包括：

5.根据权利要求3所述的字符识别方法，其特征在于，所述占位字符区域内包含占位字符，所述对所述目标单字符和所述目标字符进行合并，得到目标数据包括：

6.根据权利要求1所述的字符识别方法，其特征在于，对所述结构字符图像块进行字符识别，得到目标单字符，以及对所述非结构图像块进行字符识别，得到目标字符包括：

通过预设识别模型对所述结构字符图像进行字符识别，得到目标单字符，以及通过预设识别模型对所述非结构图像块进行字符识别得到目标字符；

所述通过预设识别模型对所述结构字符图像块进行字符识别之前，所述方法还包括：

7.根据权利要求1至6任一项所述的字符识别方法，其特征在于，所述从所述字符图像中提取特征信息包括：

将所述字符图像转换为灰度图像；

获取所述灰度图像中每个像素点的预设邻域内的像素均值；

根据所述二值化阈值确定所述灰度图像对应的二值化图像；

从所述二值化图像中提取特征信息。

8.一种字符识别装置，其特征在于，包括：

获取模块，用于获取待检测的字符图像；

提取模块，用于从所述字符图像中提取特征信息；

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的字符识别方法中的操作。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1至7任一项所述的字符识别方法。