WO2021212652A1

WO2021212652A1 - 英文手写文本识别方法、装置、电子设备及存储介质

Info

Publication number: WO2021212652A1
Application number: PCT/CN2020/098237
Authority: WO
Inventors: 赵振兴
Original assignee: 平安国际智慧城市科技股份有限公司
Priority date: 2020-04-23
Filing date: 2020-06-24
Publication date: 2021-10-28
Also published as: CN111639527A

Abstract

一种英文手写文本识别方法、装置、电子设备以及存储介质，涉及人工智能技术领域，方法包括：电子设备获取英文手写文本行图片集（S11）；电子设备根据预设宽度阈值，对英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片（S12）；电子设备从多张缩放图片中，确定第一标准图片以及待补长度图片（S13）；电子设备根据预设长度阈值，对待补长度图片添加空白区域，获得第二标准图片（S14）；电子设备对第一标准图片以及第二标准图片进行随机调整，获得训练图片（S15）；电子设备根据反向传播算法以及训练图片，对初始识别模型进行训练，获得训练好的识别模型（S16）；电子设备获取待识别图片（S17）；电子设备将待识别图片输入至训练好的识别模型中，获得识别结果（S18）。通过该方法能识别整行英文文本。

Description

英文手写文本识别方法、装置、电子设备及存储介质

本申请要求于2020年04月23日提交中国专利局，申请号为202010329360.1发明名称为“英文手写文本识别方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种英文手写文本识别方法、装置、电子设备及存储介质。

背景技术

目前，可以通过人工智能识别出文字图像中的文字，比如文字图像中的英文字母以及单个单词，但发明人意识到，有些文字图像中的文字是用户手写的，由于个人书写习惯不同，写出来的文字在形态上不一样，而且对于整行文本，单词之间有空格，带有标点符号，文本长度不固定，导致整行英文文本不能被识别出来。

因此，如何识别整行英文文本是一个亟需解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种英文手写文本识别方法、装置、电子设备及存储介质，能够识别整行英文文本。

本申请的第一方面提供一种英文手写文本识别方法，所述方法包括：

获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

获取待识别图片；

将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文、空格以及标点符号。

本申请的第二方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机可读指令以实现以下步骤：

获取待识别图片；

将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。

本申请的第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有至少一个计算机可读指令，所述至少一个计算机可读指令被处理器执行以实现以下步骤：

获取待识别图片；

本申请的第四方面提供一种英文手写文本识别装置，所述装置包括：

获取模块，用于获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

缩放模块，用于根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

确定模块，用于从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

添加模块，用于根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

调整模块，用于对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

训练模块，用于根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

所述获取模块，还用于获取待识别图片；

输入模块，用于将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文、空格以及标点符号。

由以上技术方案，本申请中，可以通过使用大量的英文手写文本行图片集训练出识别模型来识别整行英文文本，其中，将训练用的图片进行等比例缩放，保证了图片中的文字没有发生形变，并对图片的亮度、对比度、饱和度、噪声进行随机的调整，模拟不同场景下产生的图片类型，可以提高识别模型的精度，可以识别各种图片中的英文文本行。同时，在对训练用的图片进行等比例缩放后，对长度不足的图片进行补长度，保证所有图片的长度一致以及宽度一致，从而可以同时使用大量图片进行训练，提高了识别模型训练的速度。

附图说明

图1是本申请公开的一种英文手写文本识别方法的较佳实施例的流程图。

图2是本申请公开的一种英文手写文本识别装置的较佳实施例的功能模块图。

图3是本申请实现英文手写文本识别方法的较佳实施例的电子设备的结构示意图。

具体实施方式

本申请实施例的英文手写文本识别方法应用在电子设备中，也可以应用在电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中，由服务器和电子设备共同执行。网络包括但不限于：广域网、城域网或局域网。

请参见图1，图1是本申请公开的一种英文手写文本识别方法的较佳实施例的流程图。其中，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S11、电子设备获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号。

其中，所述英文手写文本行图片集可以从公开的IAM手写数据库(IAM Handwriting Database)中获取，IAM手写数据库包含无限制的英文手写文本，这些英文手写文本被以300dpi的分辨率进行扫描，并保存为256灰度的PNG图像。

S12、电子设备根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片。

其中，所述缩放图片的宽度为预设宽度，所述缩放图片的长度可能各不相同。

本申请实施例中，等比例缩放可以防止图片中的英文字母发生形变。可以将图片进行等比例缩放宽度至与预设宽度一致的图片，因为图片的长宽比例固定，如果各张图片原来的长宽比例不一致，那么缩放后的图片的宽度一致，但长度不一致。

S13、电子设备从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值。

本申请实施例中，可以删除长度大于预设长度的图片。

S14、电子设备根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值。

本申请实施例中，在所述待补长度图片左端或者右端添加空白区域，获得第二标准图片，使图片的尺寸保持一致。因为在训练使用的神经网络对输入的图片(长度以及宽度)是有一定的要求的，而且，符合要求、图片长度一致且图片宽度一致的图片可以同时输入至神经网络中一起训练，节约了训练时间。

S15、电子设备对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小。

本申请实施例中，可以对图片的亮度、对比度、饱和度、噪声以及图片的字体大小进行调整，模拟在不同环境下拍摄的英文文本图片，可以增加训练样本的多样性，从而提高训练效果。

具体的，所述对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片包括：

获取预设缩放倍数区间；

根据所述预设缩放倍数区间，对所述第一标准图像和所述第二标准图像进行等比例的随机缩放，获得随机缩放图片；

将所述随机缩放图片映射在预设尺寸的画布上，获得尺寸一致的目标图片；

对所述目标图片的亮度、对比度以及饱和度分别进行随机调整，获得随机亮度、随机对比度以及随机饱和度的图片；

对所述随机亮度、随机对比度以及随机饱和度的图片添加随机的噪声，获得训练图片。

其中，所述预设缩放倍数区间可以为[0.6，1.0]，确保经过缩放后的图片的长度不会超过原来的长度以及宽度不会超过原来的宽度(即缩放后的图片不会)，可以映射在预设尺寸的画布上。

在该可选的实施方式中，可以从所述预设缩放倍数区间中随机获取缩放倍数来对图片进行缩放，模拟不同人写字存在字体大小差异的情况。对图片的亮度、对比度以及饱和度进行随机调整，是为了模拟真实场景中由于图片背景不同、拍摄光线不同导致不同效果的图片。随机添加噪声是为了模拟不同质量的图片。通过随机调整的训练图片，可以训练出准确度更高以及适用性更广的识别模型。

S16、电子设备根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型。

其中，初始识别模型中的神经网络都可以有一个损失函数，损失函数是用来计算当前神经网络建模输出的数据和理想数据之间的距离，反向传播算法可以更新神经网络中的各个参数，使损失函数计算出的损失值不断减少，即使神经网络建模输出的数据不断接近理想数据。

其中，所述初始识别模型包括卷积层、循环层以及转录层。

其中，卷积层可以是CNN(Convolutional Neural Networks，卷积神经网络)，循环层可以是RNN(Recurrent Neural Network，循环神经网络)，转录层可以是CTC(Connectionist Temporal Classification，连接时序分类)。

具体的，所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型包括：

将所述训练图片输入至所述初始识别模型的卷积层中，获得图像像素特征；

将所述图像像素特征输入至所述初始识别模型的循环层中，获得图像时序特征；

将所述图像时序特征输入至所述初始识别模型的转录层中，获得标签序列；

使用损失函数，计算出所述标签序列对应的损失值；

根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型。

其中，所述标签序列为识别出来的英文文本，包括英文字母、标点符号以及空格。

在该可选的实施方式中，可以通过卷积层提取图片的像素特征；然后将像素特征输入至循环层中，获得图像时序特征，最后转录层可以将图像时序特征映射为标签序列，比如：输入的图片中存在英文字母“ab”，获得的图像时序特征可以为一组向量(t1,t2,t3,t4,t5)，最后转录层输出的标签序列可以为“ab”。

作为一种可选的实施方式，所述根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型包括：

根据反向传播算法以及所述损失值，调整所述初始识别模型的网络参数以最小化所述损失值，获得待测试模型；

获取预设的测试集；

使用所述测试集对所述待测试模型进行测试，并确定所述待测试模型被测试通过的准确率；

若所述准确率大于预设准确率阈值，确定所述待测试模型为训练好的识别模型。

其中，所述测试集可以是一些用来测试的英文文本图片。

在该可选的实施方式中，在使用反向传播算法不断更新模型的参数的时候，可以使用测试集对模型进行测试，获得模型的识别准确率，若模型的识别准确率满足预设要求(即识别准确率大于预设准确率阈值)，可以认为该模型以及训练完成。

作为一种可选的实施方式，所述方法还包括：

若所述准确率小于或等于预设准确率阈值，确定所述待测试模型为未训练好的识别模型；

对所述未训练好的识别模型重新进行训练。

在该可选的实施方式中，若模型的识别准确率小于或等于预设准确率阈值，说明该模型的识别效果还未达到预期的识别效果，可以继续训练，也可以重新训练。

S17、电子设备获取待识别图片。

其中，所述待识别图片，可以是携带有英文字母的图片。

S18、电子设备将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。

本申请实施例中，所述训练好的识别模型可以将图片中的整行英文文本识别出来。

作为一种可选的实施方式，所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型之后，所述方法还包括：

根据霍夫变换算法，对所述待识别图片进行倾斜校正，获得校正图片；

所述将所述待识别图片输入至所述训练好的识别模型中，获得识别结果包括：

将所述校正图片输入至所述训练好的识别模型中，获得识别结果。

在该可选的实施方式中，所述霍夫变换(Hough)可以将字母图像映射至参数空间中，计算出字母图像倾斜的角度，然后根据字母图像倾斜的角度，将字母图像进行旋转，获得水平的字母图像。可以防止由于个人书写或者拍摄导致的字母图像倾斜导致识别效果不佳的问题。

在图1所描述的方法流程中，可以通过使用大量的英文手写文本行图片集训练出识别模型来识别整行英文文本，其中，将训练用的图片进行等比例缩放，保证了图片中的文字没有发生形变，并对图片的亮度、对比度、饱和度、噪声进行随机的调整，模拟不同场景下产生的图片类型，可以提高识别模型的精度，可以识别各种图片中的英文文本行。同时，在对训练用的图片进行等比例缩放后，对长度不足的图片进行补长度，保证所有图片的长度一致以及宽度一致，从而可以同时使用大量图片进行训练，提高了识别模型训练的速度。

以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本申请创造构思的前提下，还可以做出改进，但这些均属于本申请的保护范围。

请参见图2，图2是本申请公开的一种英文手写文本识别装置的较佳实施例的功能模块图。

在一些实施例中，所述英文手写文本识别装置运行于电子设备中。所述英文手写文本识别装置可以包括多个由程序代码段所组成的功能模块，所述程序是一系列的计算机可读指令代码。所述英文手写文本识别装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图1所描述的英文手写文本识别方法中的部分或全部步骤，具体可以参照图1所述方法中的相关描述，在此不再赘述。

本实施例中，所述英文手写文本识别装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、缩放模块202、确定模块203、添加模块204、调整模块205、训练模块206及输入模块207。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。

获取模块201，用于获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号。

缩放模块202，用于根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片。

确定模块203，用于从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值。

本申请实施例中，可以删除长度大于预设长度的图片。

添加模块204，用于根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值。

调整模块205，用于对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小。

训练模块206，用于根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型。

其中，所述初始识别模型包括卷积层、循环层以及转录层。

所述获取模块201，还用于获取待识别图片；

其中，所述待识别图片，可以是携带有英文字母的图片。

输入模块207，用于将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。

作为一种可选的实施方式，所述调整模块205对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片的方式具体为：

获取预设缩放倍数区间；

作为一种可选的实施方式，所述训练模块206根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型的方式具体为：

使用损失函数，计算出所述标签序列对应的损失值；

作为一种可选的实施方式，所述训练模块206根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型的方式具体为：

获取预设的测试集；

其中，所述测试集可以是一些用来测试的英文文本图片。

作为一种可选的实施方式，所述确定模块203还用于若所述准确率小于或等于预设准确率阈值，确定所述待测试模型为未训练好的识别模型；

所述训练模块206，还用于对所述未训练好的识别模型重新进行训练。

作为一种可选的实施方式，所述英文手写文本识别装置还可以包括：

校正模块，用于所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型之后，根据霍夫变换算法，对所述待识别图片进行倾斜校正，获得校正图片。

所述输入模块207所述将所述待识别图片输入至所述训练好的识别模型中，获得识别结果的方式具体为：

在图2所描述的英文手写文本识别装置中，可以通过使用大量的英文手写文本行图片集训练出识别模型来识别整行英文文本，其中，将训练用的图片进行等比例缩放，保证了图片中的文字没有发生形变，并对图片的亮度、对比度、饱和度、噪声进行随机的调整，模拟不同场景下产生的图片类型，可以提高识别模型的精度，可以识别各种图片中的英文文本行。同时，在对训练用的图片进行等比例缩放后，对长度不足的图片进行补长度，保证所有图片的长度一致以及宽度一致，从而可以同时使用大量图片进行训练，提高了识别模型训练的速度。

如图3所示，图3是本申请实现英文手写文本识别方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机可读指令33及至少一条通讯总线34。

本领域技术人员可以理解，图3所示的示意图仅仅是所述电子设备3的示例，并不构成对所述电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备3还可以包括输入输出设备、网络接入设备等。

所述电子设备3还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述至少一个处理器32可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述电子设备3的控制中心，利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机可读指令33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机可读指令和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备3的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器等易失性存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

结合图1，所述电子设备3中的所述存储器31存储多个指令以实现一种英文手写文本识别方法，所述处理器32可执行所述多个指令从而实现：

获取待识别图片；

具体地，所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在图3所描述的电子设备3中，可以通过使用大量的英文手写文本行图片集训练出识别模型来识别整行英文文本，其中，将训练用的图片进行等比例缩放，保证了图片中的文字没有发生形变，并对图片的亮度、对比度、饱和度、噪声进行随机的调整，模拟不同场景下产生的图片类型，可以提高识别模型的精度，可以识别各种图片中的英文文本行。同时，在对训练用的图片进行等比例缩放后，对长度不足的图片进行补长度，保证所有图片的长度一致以及宽度一致，从而可以同时使用大量图片进行训练，提高了识别模型训练的速度。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中，所述计算机可读存储介质可以是非易失性的存储介质，也可以是易失性的存储介质。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存储器(RAM，Random Access Memory)。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种英文手写文本识别方法，其中，所述英文手写文本识别方法包括：

获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

获取待识别图片；

将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。
根据权利要求1所述的英文手写文本识别方法，其中，所述对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片包括：

获取预设缩放倍数区间；

根据所述预设缩放倍数区间，对所述第一标准图像和所述第二标准图像进行等比例的随机缩放，获得随机缩放图片；

将所述随机缩放图片映射在预设尺寸的画布上，获得尺寸一致的目标图片；

对所述目标图片的亮度、对比度以及饱和度分别进行随机调整，获得随机亮度、随机对比度以及随机饱和度的图片；

对所述随机亮度、随机对比度以及随机饱和度的图片添加随机的噪声，获得训练图片。
根据权利要求1所述的英文手写文本识别方法，其中，所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型包括：

将所述训练图片输入至所述初始识别模型的卷积层中，获得图像像素特征；

将所述图像像素特征输入至所述初始识别模型的循环层中，获得图像时序特征；

将所述图像时序特征输入至所述初始识别模型的转录层中，获得标签序列；

使用损失函数，计算出所述标签序列对应的损失值；

根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型。
根据权利要求3所述的英文手写文本识别方法，其中，所述根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型包括：

根据反向传播算法以及所述损失值，调整所述初始识别模型的网络参数以最小化所述损失值，获得待测试模型；

获取预设的测试集；

使用所述测试集对所述待测试模型进行测试，并确定所述待测试模型被测试通过的准确率；

若所述准确率大于预设准确率阈值，确定所述待测试模型为训练好的识别模型。
根据权利要求4所述的英文手写文本识别方法，其中，所述英文手写文本识别方法还包括：

若所述准确率小于或等于预设准确率阈值，确定所述待测试模型为未训练好的识别模型；

对所述未训练好的识别模型重新进行训练。
根据权利要求1所述的英文手写文本识别方法，其中，所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型之后，所述英文手写文本识别方法还包括：

根据霍夫变换算法，对所述待识别图片进行倾斜校正，获得校正图片；

所述将所述待识别图片输入至所述训练好的识别模型中，获得识别结果包括：

将所述校正图片输入至所述训练好的识别模型中，获得识别结果。
根据权利要求1至6中任一项所述的英文手写文本识别方法，其中，所述初始识别模型包括卷积层、循环层以及转录层。
一种电子设备，其中，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的至少一个计算机可读指令以实现以下步骤：

获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

获取待识别图片；

将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。
根据权利要求8所述的电子设备，其中，在所述对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片时，所述处理器执行所述至少一个计算机可读指令以实现以下步骤：

获取预设缩放倍数区间；

根据所述预设缩放倍数区间，对所述第一标准图像和所述第二标准图像进行等比例的随机缩放，获得随机缩放图片；

将所述随机缩放图片映射在预设尺寸的画布上，获得尺寸一致的目标图片；

对所述目标图片的亮度、对比度以及饱和度分别进行随机调整，获得随机亮度、随机对比度以及随机饱和度的图片；

对所述随机亮度、随机对比度以及随机饱和度的图片添加随机的噪声，获得训练图片。
根据权利要求8所述的电子设备，其中，在所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型时，所述处理器执行所述至少一个计算机可读指令以实现以下步骤：

将所述训练图片输入至所述初始识别模型的卷积层中，获得图像像素特征；

将所述图像像素特征输入至所述初始识别模型的循环层中，获得图像时序特征；

将所述图像时序特征输入至所述初始识别模型的转录层中，获得标签序列；

使用损失函数，计算出所述标签序列对应的损失值；

根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型。
根据权利要求10所述的电子设备，其中，在所述根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型时，所述处理器执行所述至少一个计算机可读指令以实现以下步骤：

根据反向传播算法以及所述损失值，调整所述初始识别模型的网络参数以最小化所述损失值，获得待测试模型；

获取预设的测试集；

使用所述测试集对所述待测试模型进行测试，并确定所述待测试模型被测试通过的准确率；

若所述准确率大于预设准确率阈值，确定所述待测试模型为训练好的识别模型。
根据权利要求11所述的电子设备，其中，所述处理器执行所述至少一个计算机可读指令以实现以下步骤：

若所述准确率小于或等于预设准确率阈值，确定所述待测试模型为未训练好的识别模型；

对所述未训练好的识别模型重新进行训练。
根据权利要求8所述的电子设备，其中，在所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型之后，所述处理器执行所述至少一个计算机可读指令以实现以下步骤：

根据霍夫变换算法，对所述待识别图片进行倾斜校正，获得校正图片；

所述将所述待识别图片输入至所述训练好的识别模型中，获得识别结果包括：

将所述校正图片输入至所述训练好的识别模型中，获得识别结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有至少一个计算机可读指令，所述至少一个计算机可读指令被处理器执行时实现以下步骤：

获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

获取待识别图片；

将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。
根据权利要求14所述的存储介质，其中，在所述对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片时，所述至少一个计算机可读指令被处理器执行以实现以下步骤：

获取预设缩放倍数区间；

根据所述预设缩放倍数区间，对所述第一标准图像和所述第二标准图像进行等比例的随机缩放，获得随机缩放图片；

将所述随机缩放图片映射在预设尺寸的画布上，获得尺寸一致的目标图片；

对所述目标图片的亮度、对比度以及饱和度分别进行随机调整，获得随机亮度、随机对比度以及随机饱和度的图片；

对所述随机亮度、随机对比度以及随机饱和度的图片添加随机的噪声，获得训练图片。
根据权利要求14所述的存储介质，其中，在所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型时，所述至少一个计算机可读指令被处理器执行以实现以下步骤：

将所述训练图片输入至所述初始识别模型的卷积层中，获得图像像素特征；

将所述图像像素特征输入至所述初始识别模型的循环层中，获得图像时序特征；

将所述图像时序特征输入至所述初始识别模型的转录层中，获得标签序列；

使用损失函数，计算出所述标签序列对应的损失值；

根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型。
根据权利要求16所述的存储介质，其中，在所述根据反向传播算法以及所述损失值，更新所述初始识别模型的网络参数，获得训练好的识别模型时，所述至少一个计算机可读指令被处理器执行以实现以下步骤：

根据反向传播算法以及所述损失值，调整所述初始识别模型的网络参数以最小化所述损失值，获得待测试模型；

获取预设的测试集；

使用所述测试集对所述待测试模型进行测试，并确定所述待测试模型被测试通过的准确率；

若所述准确率大于预设准确率阈值，确定所述待测试模型为训练好的识别模型。
根据权利要求17所述的存储介质，其中，所述至少一个计算机可读指令被处理器执行时还用以实现以下步骤：

若所述准确率小于或等于预设准确率阈值，确定所述待测试模型为未训练好的识别模型；

对所述未训练好的识别模型重新进行训练。
根据权利要求14所述的存储介质，其中，在所述根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型之后，所述至少一个计算机可读指令被处理器执行还用以实现以下步骤：

根据霍夫变换算法，对所述待识别图片进行倾斜校正，获得校正图片；

所述将所述待识别图片输入至所述训练好的识别模型中，获得识别结果包括：

将所述校正图片输入至所述训练好的识别模型中，获得识别结果。
一种英文手写文本识别装置，其中，所述英文手写文本识别装置包括：

获取模块，用于获取英文手写文本行图片集，其中，所述英文手写文本行图片集的图片中包括英文字母、空格以及标点符号；

缩放模块，用于根据预设宽度阈值，对所述英文手写文本行图片集中的所有图片进行等比例缩放，获得多张缩放图片；

确定模块，用于从所述多张缩放图片中，确定第一标准图片以及待补长度图片，其中，所述第一标准图片的长度等于预设长度阈值，所述待补长度图片的长度小于所述预设长度阈值；

添加模块，用于根据所述预设长度阈值，对所述待补长度图片添加空白区域，获得第二标准图片，其中，所述第二标准图片的长度等于所述预设长度阈值；

调整模块，用于对所述第一标准图片以及所述第二标准图片进行随机调整，获得训练图片，其中，所述随机调整的对象包括图片亮度、图片对比度、图片饱和度、噪声以及图片字体大小；

训练模块，用于根据反向传播算法以及所述训练图片，对初始识别模型进行训练，获得训练好的识别模型；

所述获取模块，还用于获取待识别图片；

输入模块，用于将所述待识别图片输入至所述训练好的识别模型中，获得识别结果，其中，所述识别结果包括所述待识别图片中的英文字母、空格以及标点符号。