CN109241974B

CN109241974B - 一种文本图像的识别方法及***

Info

Publication number: CN109241974B
Application number: CN201810965342.5A
Authority: CN
Inventors: 康立; 齐伟; 刘燕清
Original assignee: Suzhou Yantu Education Technology Co ltd
Current assignee: Suzhou Yantu Education Technology Co ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2020-12-01
Anticipated expiration: 2038-08-23
Also published as: CN109241974A

Abstract

本发明涉及一种文本图像的识别方法，包括：将待识别图像输入图像压缩正位网络进行旋转，以使待识别图像中的文本处于水平的位置，图像压缩正位网络是通过机器学习的方法训练得到的，具有图像旋转功能；从图像压缩正位网络输出的图像识别文本。本发明的有益效果为：通过运用卷积自编码器对待识别图像自动进行压缩和正位，并利用文本识别神经网络进行识别，保证了文字识别的准确性，省去了人工预处理的过程，节省了人工劳动，为用户提供了便利。

Description

一种文本图像的识别方法及***

技术领域

本发明属于文字识别技术领域，具体涉及一种文本图像的识别方法及***。

背景技术

OCR文字识别软件，指利用OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件。

现有文字识别过程包括：通过电子设备将纸件文档转换成电子文档，例如通过扫描仪或数码相机获取纸件文档的图像文件；OCR文字识别软件对图像文件进行分析处理，获取文字及版面信息。

上述方法在实际操作过程中，由于电子设备获取的图像文件难以保证水平排列，因此需要操作人员手动对图像文本进行旋转，调整文字排列方向至水平，当待识别纸质文档数量较多时，操作人员工作量较大，导致识别效率低下，且人工操作容易出错，也难以保证识别准确率。

因此能否提供一种更加便利的文本图像识别方法是本领域技术人员亟需解决的问题。

发明内容

为了解决现有技术存在的文本识别效率低、准确率低的问题，本发明提供了一种文本图像的识别方法及***，其具有识别效率高、准确率高等特点。

本发明的目的是提供一种方便人们使用节约体力劳动且识别效率更高的文本图像识别方法及识别***。

根据本发明的具体实施方式的文本图像的识别方法，其包括：将待识别图像输入图像压缩正位网络进行旋转，以使所述待识别图像中的文本处于水平的位置，所述图像压缩正位网络是通过机器学习的方法训练得到的，具有图像旋转功能；

对所述图像压缩正位网络输出的图像识别文本。

优选地，所述图像压缩正位网络对所述待识别图像进行旋转的同时，还在文本图像边缘加入标记位点，所述标记位点用于区分文本图像中的文字和空白区域；

对所述图像压缩正位网络输出的图像识别文本的过程为：从所述图像压缩正位网络根据所述标记位点输出的图像识别文本。

优选地，所述图像压缩正位网络对所述待识别图像进行旋转的同时，还对所述待识别图像进行压缩。

优选地，根据所述标记点对所述经压缩和旋转后的待识别图像进行逐行、逐字切割；

将切割后的待识别图像输入文本识别神经网络进行文本识别，所述文本识别神经网络是通过机器学习的方法训练得到的，具有文本识别功能。

优选地，所述文本识别神经网络的获取过程包括：

建立字库；

搭建多分类卷积神经网络；

选取字库中的文字拼接为完整图像，输入所述图像压缩正位网络进行压缩

利用所述图像压缩正位网络压缩后的字库训练卷积神经网络；

获得所述文本识别神经网络。

优选地，所述文本识别神经网络由所述卷积神经网络的卷积层、池化层、全连接层和相应的网络权值构成。

优选地，所述图像压缩正位网络由所述卷积神经网络的卷积层和池化层组成。

优选地，所述图像压缩正位网络的获取方法包括：

获取训练图像文本；

对训练图像进行旋转正位，作为训练靶标，并标记原始图像作为训练集；

根据训练靶标的样本，对文本逐行逐字切割，在文字间隔处加入切割位点；

将训练样本和训练靶标输入卷积自编码器进行训练，将训练完成后的卷积自编码删除解码器中的全连接层，获得具有自动校正和压缩能力的所述图像压缩正位网络。

优选地，对文本识别的过程采用分布式处理方式，多组文本识别神经网络同时进行工作；并对分布式文本识别的结果按顺序进行整合，获得最终的文本识别结果。

根据本发明的具体实施方式的文本图像的识别***，包括：

文本图像获取模块，所述文本图像获取模块用于获取用户待识别图像；

图像压缩正位网络，所述图像压缩正位网络用于对所述获取的用户待识别图像进行旋转和压缩；

文本切割模块，所述文本切割模块将经旋转压缩后的图像进行逐行逐字切割；以及

文本识别模块，所述文本识别模块对经切割后的图像进行识别输出相应的文字。

本发明实施例提供的一种文本图像的识别方法及***，有益效果包括：通过自编码器和卷积神经网络相结合的方式，使用户无需再对原始图像进行预处理，为用户提供了便利，同时维持了较高的文字识别精度；简化了现有文字识别的繁琐的步骤，使文字识别在同一网络***中即可完成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提供的一种文本图像的识别方法的流程框图一；

图2是根据一示例性实施例提供的一种文本图像的识别方法的流程框图二；

图3是根据一示例性实施例提供的文本识别神经网络组成的流程框图；

图4是根据一示例性实施例提供的图像压缩正位网络的构成的流程框图一；

图5是根据一示例性实施例提供的图像压缩正位网络的构成的流程框图二；

图6是根据一示例性实施例提供的整体识别网络的结构示意图；

图7是根据一示例性实施例提供的文字识别***的结构示意图；

图8是根据一示例性实施例提供的经旋转和压缩处理后的文本图像的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参照图1所示，本发明的实施例提供了一种文本图像的识别方法，包括：

101、获取待识别图像。

102、将待识别图像输入图像压缩正位网络进行旋转，以使待识别图像中的文本处于水平的位置；其中图像压缩正位网络是通过机器学习的方法训练得到的，具有图像旋转功能；

103、从图像压缩正位网络器输出的图像识别文本。

本实施例提供的一种文本图像的识别方法，通过自编码器和卷积神经网络相结合的方式，使用户无需再对原始图像进行预处理，为用户提供了便利，同时维持了较高的文字识别精度；简化了现有文字识别的繁琐的步骤，使文字识别在同一网络***中即可完成。

作为上述实施例的一种可行的实现方式，卷积自编码器包括由多个卷积层、池化层构成的编码器和由反池化层和反卷积层构成的解码器。卷积层包括多个卷积核，对输入图像进行特征提取获得特征图；卷积层的激活函数可以为：h^k＝σ(x*W^k+β^k)。池化层对特征图进行降噪采样操作，以降低卷积操作的计算量。反卷积操作对每张特征图与其相应的卷积核的转置进行卷积操作并求和，激活函数可以为：y＝σ(∑h^k*(W^T)^k+c)。

进行旋转正位操作是因为拍摄的图像大多文字的排列方向与页面上边缘未处于水平位置，导致文字的分割和识别难度加大，精确度降低，使用卷积自编码器对输入的文本图像进行旋转变换，使输出的图像文本排列方向水平。

参照图2所示，在本发明的一具体实施例中，图像压缩正位网络对待识别图像进行旋转的同时，还在文本图像边缘加入标记位点，标记位点用于区分文本图像中的文字和空白区域；从图像压缩正位网络输出的图像识别文本为：根据标记位点从图像压缩正位网络输出的图像识别文本；

图像压缩正位网络对待识别图像进行旋转的同时，还对待识别图像进行压缩；

根据标记点对经压缩和旋转后的待识别图像进行逐行、逐字切割；

将切割后的待识别图像输入文本识别神经网络进行文本识别，文本识别神经网络是通过机器学习的方法训练得到的，具有文本识别功能。

在使用图像压缩正位网络的同时对图像进行压缩是因为，自编码本身具有良好的图像压缩能力，如果仅用于图像旋转过于浪费资源。因此在对图像进行旋转之后对图像进行压缩将避免资源浪费。自动编码器是一种有三层的神经网络：输入层、隐藏层(编码层)和解码层。该网络的目的是重构其输入，使其隐藏层学习到该输入的良好表征。自动编码器神经网络是一种无监督机器学习算法，其应用了反向传播，可将目标值设置成与输入值相等。自动编码器的训练目标是将输入复制到输出。在内部它有一个描述用于表征其输入的代码的隐藏层。本发明使用的卷积自编码兼容了去噪自动编码器，随机地部分采用受损的输入来解决恒等函数风险，使得自动编码器必须进行恢复或去噪。这项技术可用于得到输入的良好表征。良好的表征是指可以从受损的输入稳健地获得的表征，该表征可被用于恢复其对应的无噪声输入。

对图像进行旋转压缩后，因为处理后的图像包含切割位点，因此可以轻易将图像进行逐行逐字切割。参照图8所示，作为本发明的一具体实施例，对文本图像经旋转压缩后的切割位点信息包括三种数据，其中从左向右第一个数据表示行号，第二个数据表示x轴坐标，第三个数据表示y轴坐标，这样对文本的每行都进行了标号和位置的标记，就可轻易实现对文字的切割。

参照图3所示，作为上述实施例的一种可行的实现方式，可以通过以下过程获取文本识别神经网络：

301、建立字库；

302、搭建多分类卷积神经网络；

303、选取字库中的文字拼接为完整图像，输入图像压缩正位网络进行压缩，利用图像压缩正位网络压缩后的字库训练卷积神经网络；

304、截取训练后的卷积神经网络，获得文本识别神经网络。

在本发明的一具体实施例中，一个卷积文字识别网络的训练过程包括：

先收集不同文字的扫描图片，建立一个完整的字库，使用图像压缩正位网络进行压缩处理，作为样本集；

初始化卷积神经网络，使用随机参数赋值网络权值，使网络处于待训

练状态，网络卷积层使用Relu激活函数，即f(x)＝max(0,x)；

将收集到的字库打乱排序并分组，然后逐批输入经初始化的卷积神经网络，对网络进行训练；

观察训练进度，对训练结果进行交叉验证，直至网络性能趋于收敛，完成训练。

经图像压缩网络处理后的文本图像包含原始图像的高层次信息，过滤和裁剪了非必要信息。

参照图4所示，作为上述实施例的一种可行的实现方式，图像压缩正位网络的获取过程可以包括：

401、获取训练图像文本；

402、对训练图像进行旋转正位，作为训练靶标，并标记原始图像作为训练集；

403、根据训练靶标的样本，对文本逐行逐字切割，在文字间隔处加入切割位点；

404、将训练样本和训练靶标输入卷积自编码器进行训练，将训练完成后的卷积自编码删除解码器中的全连接层，获得具有自动校正和压缩能力的图像压缩正位网络。

参照图5所示，在本发明的一具体实施例中，训练一个卷积自编码器包括以下过程：

501、收集训练样本；

502、对训练样本进行小幅旋转，加入训练集，并标记原始图片；

503、对训练样本中旋转正位后的图片进行逐字切割；

504、在切割处加上切割位点，拼接为完整图片作为训练标靶；

505、初始化卷积自编码器，使用随机值赋值网络；

506、将训练样本乱序排列，分批输入卷积自编码器进行训练直至收敛。

训练方式为最小化卷积自编码器的重构图像与训练靶标间的重构误差。训练损失函数使用最小均方差函数，即

其中y_i为训练靶标的值，

为重构图像的值。卷积网络参数的更新公式为：

参照图6所示，在本发明的一具体实施例中，整体识别网络包括：图像压缩正位网络的、对经旋转压缩后的待识别图像进行逐字切割的程序以及文本识别神经网络。由于图像压缩正位网络的输出结果带有明显的切割位点，因此文字切割不必按照传统文字切割方式。可动态扫描输入图像，以切割位点为界，切割位点间的图像连接一个文字识别神经网络。如果服务器端处理能力足够，则整体识别网络不必拆分为两个子***，文字识别神经网络可以直接连接到卷积自编码器末端，形成一个完整的神经网络。该设计避免了因文字逐字分割所产生GPU与CPU间的大量通讯拥堵，极大提升了GPU的利用效率与计算速度。

在本发明的一些具体实施例中，文字识别的过程可采用分布式处理方式，多个整体识别网络同时工作，可大幅提升识别速度。

本发明的实施例还提供了一种文本图像识别的***，包括：

文本图像获取模块，用于获取用户待识别图像；

图像压缩正位网络，用于对获取的用户待识别图像进行旋转和压缩；

文本切割模块，用于将经旋转压缩后的图像进行逐行逐字切割；以及

文本识别模块，用于对经切割后的图像进行识别输出相应的文字。

在本发明的一些具体实施例中，文本图像整体识别的使用环境包含多个终端和一个服务器端，服务器端设有上述文本图像识别的***。终端可以是但不限于各种能运行图像中数学公式检测方法的个人计算机、笔记本电脑、个人数字助理、智能手机、平板电脑和便携式可穿戴设备等。服务器可以是实现单一功能的服务器，也可以是实现多种功能的服务器，具体可以是独立的物理服务器，也可以是物理服务器集群。客户终端拍摄所需识别的文本，例如一份考卷，通过网络发送到服务器端；服务器端将待测图片使用卷积自编码机进行自动化预处理，再使用文字识别网络进行识别，获得最终结果。识别文本内容通过网络再向客户端进行通信返回，用户获得识别结果。

在本发明的一具体实施例中，服务器端的计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该处理器用于提供计算和控制能力，支撑整个终端的运行。计算机设备的存储器包括非易失性存储介质和内存储器，非易失性存储介质存储有操作***以及计算机程序，该计算机程序被处理器执行时，使得处理器实现一种图像中数学公式检测方法。计算机设备中的内存储器也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种整体文本图像的识别方法。计算机设备的网络接口用于与终端通信。计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是外接的键盘、触控板或鼠标等，输入装置可获取用户使用手指对显示屏显示的操作界面产生的指令，例如获取用户通过点击终端上的特定选项输入待检测图像等。显示屏可用于显示输入界面或输出的文本区域。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本图像的识别方法，其特征在于，包括：

将待识别图像输入图像压缩正位网络进行旋转，以使所述待识别图像中的文本处于水平的位置，所述图像压缩正位网络是通过机器学习的方法训练得到的，具有图像旋转功能；

对所述图像压缩正位网络输出的图像识别文本；

所述图像压缩正位网络对所述待识别图像进行旋转的同时，还在文本图像边缘加入标记位点，所述标记位点用于区分文本图像中的文字和空白区域；

对所述图像压缩正位网络输出的图像识别文本的过程为：从所述图像压缩正位网络根据所述标记位点输出的图像识别文本；

所述图像压缩正位网络由卷积神经网络的卷积层和池化层组成；

所述图像压缩正位网络的获取方法包括：

获取训练图像文本；

2.根据权利要求1所述的方法，其特征在于，所述图像压缩正位网络对所述待识别图像进行旋转的同时，还对所述待识别图像进行压缩。

3.根据权利要求2所述的方法，其特征在于，

根据所述标记点对所述经压缩和旋转后的待识别图像进行逐行、逐字切割；

4.根据权利要求3所述的方法，其特征在于，所述文本识别神经网络的获取过程包括：

建立字库；

搭建多分类卷积神经网络；

选取字库中的文字拼接为完整图像，输入所述图像压缩正位网络进行压缩；

获得所述文本识别神经网络。

5.根据权利要求4所述的方法，其特征在于，所述文本识别神经网络由所述卷积神经网络的卷积层、池化层、全连接层和相应的网络权值构成。

6.根据权利要求1至5任一项所述的方法，其特征在于，对文本识别的过程采用分布式处理方式，多组所述文本识别神经网络同时进行工作；并对分布式文本识别的结果按顺序进行整合，获得最终的文本识别结果。

7.一种文本图像的识别***，其特征在于，包括：

文本切割模块，所述文本切割模块将经旋转压缩后的图像进行逐行逐字切割；以及文本识别模块，所述文本识别模块对经切割后的图像进行识别输出相应的文字。