CN112418204A

CN112418204A - 基于纸质文档的文本识别方法、***及计算机介质

Info

Publication number: CN112418204A
Application number: CN202011296862.5A
Authority: CN
Inventors: 王飞; 沈华; 李青; 李鹏飞
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-26

Abstract

本申请实施例中提供了一种基于纸质文档的文本识别方法及***，获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；根据所述多条直线的位置，进行图像位置纠正，得到修正图像；根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；根据所述多条直线的位置，进行直线处理，得到图像中的主线；通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据。

Description

基于纸质文档的文本识别方法、***及计算机介质

技术领域

本申请属于文字识别技术领域，具体地，涉及一种基于纸质文档的文本识别方法、***及计算机介质。

背景技术

目前，医学检验报告是辅助临床诊疗的重要工具之一。2018年，我国医疗机构总诊疗人次数超过83亿人次，每位患者每次就诊都可能产生多张医学检验报告单，而在我国，如此庞大的检验报告数据仍然依赖纸质化形式保存。纸质化的医学检验报告不仅不易保存、检索，容易丢失，而且不利于对患者医学检验结果信息的提取，无法基于检验报告内容进行进一步智能化分析，从而不能为患者提供详细的诊疗建议。

目前，医学检验报告的电子化主要依赖于人工录入，人工录入方法易受主观因素影响，准确率较差，且无法实现实时转换。

光学字符识别(Optical Character Recognition，OCR)是一种常用的实现纸质文档到电子化文档智能转化过程的高效技术，一般包括文本检测、文本识别等步骤。其主要原理是利用大量的文档样本，经过深度学习模型进行自动化学习，生成相应的识别模型文件，从而得到文档图片所包含的具体文本内容。但OCR技术识别得到的是非结构化的一系列带有位置信息的文本字符串，而非卫生机构所需的是结构化数据信息，如医学检验报告单上的患者姓名、性别、检查项目及每个检查项目相应的检查结果等。将这些非结构化的文本字符串转化为所需的便于利用的结构化的数据格式的过程即为信息提取过程。现有的基于OCR识别得到的文本进行信息提取的方法包括人工录入或基于模版匹配。人工录入方法效率与准确率都有限；而模版匹配方法则存在通用性受限的问题，同时由于同样依赖人工选择模版参数而准确率也较为有限。目前尚缺乏一种面向医学检验报告等纸质文档的基于OCR识别得到文本，进行高效信息提取的方法。

发明内容

本发明提出了一种基于纸质文档的文本识别方法、***及计算机介质，旨在解决目前没有面向医学检验报告等纸质文档进行带位置关系的文本信息识别提取的问题。

根据本申请实施例的第一个方面，提供了一种基于纸质文档的文本识别方法，具体包括以下步骤：

获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线；

根据多条直线的位置，进行图像位置纠正，得到修正图像；

根据修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；

根据多条直线的位置，进行直线处理，得到图像中的主线；

通过图像中的主线，将修正图像的文本区域进行划分，并根据文本信息位置，将文本信息进行位置排序，得到文本识别结果。

在本申请一些实施方式中，获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线，具体包括：

将图像转换为灰度图像；

根据灰度图像，通过边缘检测算法以及概率Hough线变换，得到图像中的多条直线。

在本申请一些实施方式中，根据修正图像的文本区域，进行文本检测和文本识别之前，还包括：

根据修正图像进行文本区域提取和拼接，得到连续的文本区域。

在本申请一些实施方式中，直线处理包括直线过滤和合并，直线过滤和合并具体包括：

设定直线之间的角度差阈值，以及直线之间的距离阈值；

当两条直线之间的角度小于角度差阈值，且距离阈值小于距离差阈值时，将两条直线合并为一条直线。

在本申请一些实施方式中，直线处理包括直线筛选，直线筛选具体包括：

根据文本信息位置，将文本区域划分为多个主体区域的直线，确定为主线。

在本申请一些实施方式中，通过图像中的主线，将修正图像的文本区域进行划分，并根据文本信息位置，将文本信息进行位置排序，得到文本识别结果，具体包括：

通过图像中的主线，将修正图像的文本区域进行划分，得到多个主体区域；

依次获得每一个主体区域对应的文本信息，按照文本信息的文本信息位置确定文本信息的位置对应关系；

根据文本信息的位置对应关系，将每一个主体区域对应的文本信息进行提取，分别得到每一个主体区域的文本识别结果。

在本申请一些实施方式中，基于纸质文档的文本识别方法还包括：

根据文本识别结果，进行正则表达式过滤以及文本纠错。

根据本申请实施例的第二个方面，提供了一种基于纸质文档的文本识别***，其特征在于，具体包括：

图像识别模块：用于获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线；

图像修正模块：用于根据多条直线的位置，进行图像位置纠正，得到修正图像；

文字检测识别模块：用于根据修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；

图像主线模块：用于根据多条直线的位置，进行直线处理，得到图像中的主线；

结构化文本识别模块：用于通过图像中的主线，将修正图像的文本区域进行划分，并根据文本信息位置，将文本信息进行位置排序，得到文本识别结果。

根据本申请实施例的第三个方面，提供了一种基于纸质文档的文本识别设备，包括：

存储器：用于存储可执行指令；以及

处理器:用于与存储器连接以执行可执行指令从而完成基于纸质文档的文本识别方法。

根据本申请实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现基于纸质文档的文本识别方法。

采用本申请实施例中的基于纸质文档的文本识别方法及***，获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；根据所述多条直线的位置，进行图像位置纠正，得到修正图像；根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；根据所述多条直线的位置，进行直线处理，得到图像中的主线；通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，结合纸质版文档，例如医学检验报告的特有排版进行智能化信息提取，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据，以改善现有的依赖人工进行纸质版文档进行电子化转换的不足。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1中示出了根据本申请实施例的基于纸质文档的文本识别方法的步骤示意图；

图2中示出了根据本申请实施例的基于纸质文档的文本识别方法的流程示意图；

图3中示出了根据本申请实施例的基于纸质文档的文本识别方法的图像旋转纠正流程图；

图4中示出了根据本申请实施例的基于纸质文档的文本识别方法的确定主线的流程图；

图5中示出了根据本申请实施例的基于纸质文档的文本识别方法对医学检验报告文本识别的示意图。

图6中示出了根据本申请实施例的基于纸质文档的文本识别***的结构示意图；

图7中示出了根据本申请实施例的基于纸质文档的文本识别设备的结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现常用的实现纸质文档到电子化文档智能转化过程的高效技术，一般包括文本检测、文本识别等步骤。但OCR技术识别得到的是非结构化的一系列的文本字符串，而非卫生机构所需的是带有位置关系的结构化数据信息，如医学检验报告单上的患者姓名、性别、检查项目及每个检查项目相应的检查结果等。但目前没有面向医学检验报告等纸质文档进行带位置关系的文本信息识别提取方法。

基于此，本发明的基于纸质文档的文本识别方法及***，通过获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；根据所述多条直线的位置，进行图像位置纠正，得到修正图像；根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；根据所述多条直线的位置，进行直线处理，得到图像中的主线；通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，结合纸质版文档，例如医学检验报告的特有排版进行智能化信息提取，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据，以改善现有的依赖人工进行纸质版文档进行电子化转换的不足。

进而，基于提取的电子化检验报告内容可以方便政府或卫生机构为患者建立医疗档案，进一步辅助临床诊疗与优化医疗资源分配。

通过本申请对纸质版文档，例如医学检验报告的自动化信息提取过程可以节约大量的人力劳动，同时获得更高的准确率，电子化、结构化数据获取的实时性也可以得到大幅度的提升，从而可以及时辅助临床诊疗与医学决策。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

图1中示出了根据本申请实施例的基于纸质文档的文本识别方法的步骤示意图。图2中示出了根据本申请实施例的基于纸质文档的文本识别方法的流程示意图。

如图1所示，本申请实施例的基于纸质文档的文本识别方法，具体包括以下步骤：

S101：获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线。

具体的，通过Canny算子以及Hough线变换找到图像中的直线，具体步骤包括：

首先，将图像转换为灰度图像；

然后，根据灰度图像，通过边缘检测算法，例如进行Canny算子检测边缘，并使用概率Hough线变换，得到图像中的多条直线。

S102：根据多条直线的位置，进行图像位置纠正，得到修正图像。

图3中示出了根据本申请实施例的基于纸质文档的文本识别方法的图像旋转纠正流程图。

如图3所示，对步骤S101得到的直线进行统计，统计出水平的直线和对应的旋转角度，竖直的直线和对应的旋转角度，最后，综合角度信息计算出平均图像旋转的方向和角度，进而对图像进行旋转修正。

S103：根据修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息。

如图2所示，在本申请一些实施方式中，根据修正图像的文本区域，进行文本检测和文本识别之前，还包括：

图像文档区域提取的目的是找到连续的文本区域，然后进行拼接，其具体实现步骤是：根据图像的平均灰度值，和每一行的平均灰度值，通过设置恰当的阈值，进行文本区域的提取和拼接。

纸质文档，例如医学检验报告中间可能存在很大的空白区域，通过寻找连续的文本区域并进行拼接，可以减少后续步骤中模型进行文本检测所需的时间。

在得到连续的文本区域后，进行文本检测和文本识别，得到文本信息位置以及文本信息。

文本检测通过深度学习的方法，如CTPN等检测网络，在得到文本所在的文本位置框(Bounding Box，BBox)后；通过CRNN等文本识别网络，对检测的文本位置框BBox进行文本识别。文本检测以及文本识别为现有公知技术，本申请此处不再赘述。

S104：根据多条直线的位置，进行直线处理，得到图像中的主线。

根据多条直线的位置，进行直线处理，直线处理包括直线过滤和合并步骤，以及主线筛选步骤。

其中，直线过滤和合并具体包括：

首先，设定直线之间的角度差阈值，以及直线之间的距离阈值；

然后，当两条直线之间的角度小于角度差阈值，且距离阈值小于距离差阈值时，将两条直线合并为一条直线。

直线筛选具体包括：

图4中示出了根据本申请实施例的基于纸质文档的文本识别方法的确定主线的流程图。为进一步说明确定主线的过程，如图4所示，确定主线主要包含检测主线、筛选主线以及校准主线的过程。

具体的，关于检测主线位置，将纸质文档，如医学检验报告的图像进行预处理，得到经过旋转纠正后的灰度图，对灰度图使用Canny算子进行边缘检测，然后使用概率Hough线变换得到一系列的直线。

然后筛选主线位置，首先，设定两条直线的角度阈值和距离，然后对检测到的直线进行合并，得到一系列的待选主线，根据主线可能出现的位置信息进行主线的初步筛选过滤；

最后，通过校准主线位置得到最终的主线，根据S103步骤文本识别的结果得到的文本信息，结合文本内容，判断出文本信息、主体区域的范围区间，根据范围区间进行主线位置的进一步校准，最后确定主线。

S105：通过图像中的主线，将修正图像的文本区域进行划分，并根据文本信息位置，将文本信息进行位置排序，得到文本识别结果。

具体的，包括以下步骤：

首先，通过图像中的主线，将修正图像的文本区域进行划分，得到多个主体区域；

其次，依次获得每一个主体区域对应的文本信息，按照文本信息的文本信息位置确定文本信息的位置对应关系；

最后，根据文本信息的位置对应关系，将每一个主体区域对应的文本信息进行提取，分别得到每一个主体区域的文本识别结果。

如图5所示，以医学检验报告为例，具体进行说明：

1)识别文档抬头元信息。具体的，根据第一条主线A的位置，识别纵坐标小于第一条主线A纵坐标的文本位置框BBox，并根据抬头信息包含的关键字识别相对应值的文本位置框BBox。一般的，医学检验报告的抬头元信息包括姓名、性别以及时间等元信息，元信息可根据不同类型的纸质文档内容进行预先设定。

2)找到主体区域对应的横坐标数值。具体的，根据第一主线A和第二主线B的位置，筛选出中间主体区域的文本信息，并得到主体区域每一行每一列文本所对应的横坐标数值。

以一般的医学检验报告为例，其主体区域可分为N行三列，每一行文本包含一个医学检验项目对应的项目名、检验结果和对应的结果参考区间；根据主线位置可以得到每一个医学检验项目的项目名、检验结果和参考区间文本信息的位置框BBox的横坐标信息。

3)提取主体区域。根据上一步骤得出的文本信息位置框的横坐标信息，通过使用笛卡尔坐标中的y分量值进行排序，得到每列文本内容的行对应关系。

以一般的医学检验报告为例，根据得到的每一行每一列文本对应的横坐标信息与y分量值的排序结果，可以得到项目名列每一个医学检验项目与检验结果列每一个检验结果的对应关系。

根据主线位置，如果存在竖直的第三主线C，则继续进行步骤2)和步骤3的类似过程进行第二主体区域的结构化信息提取。

以一般的医学检验报告为例，检验项目较多时，会存在并行排列的两个主体区域，需要进行第二主体区域的结构化信息提取。

根据文本识别结果，进行正则表达式过滤以及文本纠错。

后处理过程主要分为正则化过滤和文本纠错。

具体的，文本识别的结果可能有误，需要进行正则化过滤过程，针对不同的字段设定不同的正则表达式，根据正则表达式进行关键信息的过滤。

接着，进行文本纠错。具体的，设定关键信息的待选字段库，计算对应字段的识别值和待选字段的文本编辑距离，设定编辑距离阈值，选择具有最小编辑距离的待选字段，将编辑距离小于给定编辑距离阈值的文本进行文本的替换纠错。

以一般的医学检验报告为例，可以设定姓名字段库、医学检验项目字段库等作为待选字段库。

采用本申请实施例中的基于纸质文档的文本识别方法，获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；根据所述多条直线的位置，进行图像位置纠正，得到修正图像；根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；根据所述多条直线的位置，进行直线处理，得到图像中的主线；通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，结合纸质版文档，例如医学检验报告的特有排版进行智能化信息提取，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据，以改善现有的依赖人工进行纸质版文档进行电子化转换的不足。

实施例2

本实施例提供了一种基于纸质文档的文本识别***，对于本实施例的基于纸质文档的文本识别***中未披露的细节，请参照其它实施例中的基于纸质文档的文本识别方法的具体实施内容。

图6中示出了根据本申请实施例的基于纸质文档的文本识别***的结构示意图。

如图6所示，本申请实施例的基于纸质文档的文本识别***，具体包括图像识别模块10、图像修正模块20、文字检测识别模块30、图像主线模块40以及结构化文本识别模块50。

图像识别模块10：用于获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线。

首先，将图像转换为灰度图像；

图像修正模块20：用于根据多条直线的位置，进行图像位置纠正，得到修正图像。

对得到的直线进行统计，统计出水平的直线和对应的旋转角度，竖直的直线和对应的旋转角度，最后，综合角度信息计算出平均图像旋转的方向和角度，进而对图像进行旋转修正。

文字检测识别模块30：用于根据修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息。

图像主线模块40：用于根据多条直线的位置，进行直线处理，得到图像中的主线。

其中，直线过滤和合并具体包括：

直线筛选具体包括：

结构化文本识别模块50：用于通过图像中的主线，将修正图像的文本区域进行划分，并根据文本信息位置，将文本信息进行位置排序，得到文本识别结果。

具体的，包括以下步骤：

采用本申请实施例中的基于纸质文档的文本识别***，图像识别模块10获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；图像修正模块20根据所述多条直线的位置，进行图像位置纠正，得到修正图像；文字检测识别模块30根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；图像主线模块40根据所述多条直线的位置，进行直线处理，得到图像中的主线；结构化文本识别模块50通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。

本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，结合纸质版文档，例如医学检验报告的特有排版进行智能化信息提取，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据，以改善现有的依赖人工进行纸质版文档进行电子化转换的不足。

实施例3

本实施例提供了一种基于纸质文档的文本识别设备，对于本实施例的基于纸质文档的文本识别设备中未披露的细节，请参照其它实施例中的基于纸质文档的文本识别方法或***具体的实施内容。

图7中示出了根据本申请实施例的基于纸质文档的文本识别设备400的结构示意图。

如图7所示，文本识别设备400，包括：

存储器402：用于存储可执行指令；以及

处理器401:用于与存储器402连接以执行可执行指令从而完成运动矢量预测方法。

本领域技术人员可以理解，示意图7仅仅是文本识别设备400的示例，并不构成对文本识别设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如文本识别设备400还可以包括输入输出设备、网络接入设备、总线等。

所称处理器401(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等，处理器401是文本识别设备400的控制中心，利用各种接口和线路连接整个文本识别设备400的各个部分。

存储器402可用于存储计算机可读指令，处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块，以及调用存储在存储器402内的数据，实现文本识别设备400的各种功能。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据文本识别设备400计算机设备30的使用所创建的数据等。此外，存储器402可以包括硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)或其他非易失性/易失性存储器件。

文本识别设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现其他实施例中的基于纸质文档的文本识别方法。

本申请实施例中的基于纸质文档的文本识别设备及计算机介质，获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；根据所述多条直线的位置，进行图像位置纠正，得到修正图像；根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；根据所述多条直线的位置，进行直线处理，得到图像中的主线；通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。本申请通过OCR技术的文本检测、文本识别得到一系列带有位置信息的文本信息，结合纸质版文档，例如医学检验报告的特有排版进行智能化信息提取，最终实现将纸质版文档医学检验报告转化成电子化、结构化检验报告数据，以改善现有的依赖人工进行纸质版文档进行电子化转换的不足。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于纸质文档的文本识别方法，具体包括以下步骤：

获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；

根据所述多条直线的位置，进行图像位置纠正，得到修正图像；

根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；

根据所述多条直线的位置，进行直线处理，得到图像中的主线；

通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。

2.根据权利要求1所述的文本识别方法，其特征在于，所述获取纸质文档的图像，识别图像中的直线，得到图像中的多条直线，具体包括：

将所述图像转换为灰度图像；

根据所述灰度图像，通过边缘检测算法以及概率Hough线变换，得到所述图像中的多条直线。

3.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述修正图像的文本区域，进行文本检测和文本识别之前，还包括：

根据所述修正图像进行文本区域提取和拼接，得到连续的文本区域。

4.根据权利要求1所述的文本识别方法，其特征在于，所述直线处理包括直线过滤和合并，所述直线过滤和合并具体包括：

设定直线之间的角度差阈值，以及直线之间的距离阈值；

当两条直线之间的角度小于角度差阈值，且距离阈值小于距离差阈值时，将所述两条直线合并为一条直线。

5.根据权利要求1所述的文本识别方法，其特征在于，所述直线处理包括直线筛选，所述直线筛选具体包括：

根据所述文本信息位置，将所述文本区域划分为多个主体区域的直线，确定为主线。

6.根据权利要求1所述的文本识别方法，其特征在于，所述通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果，具体包括：

通过所述图像中的主线，将所述修正图像的文本区域进行划分，得到多个主体区域；

依次获得每一个主体区域对应的文本信息，按照所述文本信息的文本信息位置确定所述文本信息的位置对应关系；

根据所述文本信息的位置对应关系，将每一个主体区域对应的文本信息进行提取，分别得到每一个主体区域的文本识别结果。

7.根据权利要求1所述的文本识别方法，其特征在于，还包括：

根据所述文本识别结果，进行正则表达式过滤以及文本纠错。

8.一种基于纸质文档的文本识别***，其特征在于，具体包括：

图像识别模块：用于获取纸质文档的图像，识别图像中的直线，得到所述图像中的多条直线；

图像修正模块：用于根据所述多条直线的位置，进行图像位置纠正，得到修正图像；

文字检测识别模块：用于根据所述修正图像的文本区域，进行文本检测和文本识别，得到文本信息位置以及文本信息；

图像主线模块：用于根据所述多条直线的位置，进行直线处理，得到图像中的主线；

结构化文本识别模块：用于通过所述图像中的主线，将所述修正图像的文本区域进行划分，并根据所述文本信息位置，将所述文本信息进行位置排序，得到文本识别结果。

9.一种基于纸质文档的文本识别设备，其特征在于，包括：

存储器：用于存储可执行指令；以及

处理器:用于与所述存储器连接以执行所述可执行指令从而完成权利要求1-7任一项所述的基于纸质文档的文本识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；计算机程序被处理器执行以实现如权利要求1-7任一项所述的基于纸质文档的文本识别方法。