CN107622233A

CN107622233A - 一种表格识别方法、识别***及计算机装置

Info

Publication number: CN107622233A
Application number: CN201710813108.6A
Authority: CN
Inventors: 马柏樟
Original assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2018-01-23

Abstract

本发明提出了一种表格识别方法、识别***、计算机装置及计算机可读存储介质，表格识别方法包括：建立深度学习模型；获取表格图片，将表格图片横向切割为多个横向图片；通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；纵向切割包含直线的横向图片，得到多个区块；根据多个区块组成表格，定位表格内文字并识别文字内容。通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。

Description

一种表格识别方法、识别***及计算机装置

技术领域

本发明涉及图片识别技术领域，具体而言，涉及一种表格识别方法、识别***、计算机装置及计算机可读存储介质。

背景技术

目前，深度学习在图片识别领域发展迅速，它已完全超越传统方法的准确率和效率，深受图片识别领域的关注。物体检测和识别是图片识别领域的一个专业分支。相较于物体识别，物体检测具有更大的难度和挑战。表格的扫描识别是帮助用户直接将照片中的表格转换成可编辑的表格文本，属于物体检测识别的实际应用之一。已有的做法分为以下几步：(1)识别表格的区块分割块；(2)根据分割块组成表格；(3)定位文字；(4)识别文字内容。但是(1)、(2)步识别的表格往往噪音较大，准确率还有待于进一步的提高。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个方面在于提出了一种表格识别方法。

本发明的另一个方面在于提出了一种表格识别***。

本发明的再一个方面在于提出了一种计算机装置。

本发明的又一个方面在于提出了一种计算机可读存储介质。

有鉴于此，根据本发明的一个方面，提出了一种表格识别方法，包括：建立深度学习模型；获取表格图片，将表格图片横向切割为多个横向图片；通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；纵向切割包含直线的横向图片，得到多个区块；根据多个区块组成表格，定位表格内文字并识别文字内容。

本发明提供的表格识别方法，将获取的表格图片按照设定步长横向切割为多个横向图片，将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

根据本发明的上述表格识别方法，还可以具有以下技术特征：

在上述技术方案中，优选地，在纵向切割包含直线的横向图片，得到多个区块之前，还包括：对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片。在该技术方案中，重复包含直线的横向图片是指同一条直线被两次识别的情况。包括两种情况：(1)虽然用户会尽量对准拍摄，但是还是存在切割后，一条直线分布在两个横条中的情况；(2)按一定步长进行切割时，切割线刚好在表格直线上导致一条表格线被分割在两条横条中，通过去除重复的包含直线的横向图片较少了不必要的识别操作，缩短了表格识别时间，提高了效率。

在上述任一技术方案中，优选地，建立深度学习模型的步骤，具体包括：通过网络爬虫采集表格类图片；通过表格类图片对模型参数进行预训练，获取预训练模型；获取手工拍照图片，对手工拍照图片进行标注；通过手工拍照图片对预训练模型进行调整，得到深度学习模型。

在该技术方案中，通过爬虫自动采集网络图片的方式收集大量的网络图片，网络图片可能存在非表格和非单据的图片，因此对于收集的数据还需要进行人工的筛选和整理获得表格类图片。采用无监督学习对模型参数进行预训练，获取预训练模型。获取然后通过少量的手工拍照图片对模型进行微调以适应实际拍照的图片，对于少量的手工拍照图片普遍通过使用智能手机进行拍照进行收集，这些图片要求尽量对准对正，进一步地通过手工拍照图片对预训练模型进行微调调整，得到更加适合拍照图片精准的深度学习模型。通过采用大量的网络照片作为预训练的方式，引入了足够的噪音因素，因此模型整体对照片横线识别的泛化性能更好。

在上述任一技术方案中，优选地，在通过表格类图片对模型参数进行预训练，获取预训练模型之前，还包括：将表格类图片横向切割为多个横向表格类图片；对多个横向表格类图片进行白化操作；将多个横向表格类图片的格式调整为固定大小。

在该技术方案中，对于所有图片数据的分割采用固定像素横向无重叠切割，在进行此操作之后，原有的大量图片被变换成许多横条小图片。然后将所有横条小图片进行白化操作，由于图片中相邻像素之间具有很强相关性，所以用于训练时输入是冗余的，白化操作的目的是降低输入的冗余性。由于CNN模型(卷积神经网络模型)要求输入大小一致，因此最后将所有图片统一规整为固定大小格式，使得训练过程中的图片大小相同。

在上述任一技术方案中，优选地，获取手工拍照图片，对手工拍照图片进行标注的步骤，具体包括：获取手工拍照图片，判断手工拍照图片是否包含有直线；当手工拍照图片包含有直线时，将手工拍照图片标记为1；当手工拍照图片不包含有直线时，将手工拍照图片标记为0。

在该技术方案中，由于获取的手工拍照图片主要作为迁移学习的训练数据，因此需要进行分割和人工标注标签。标注的方式为含有直线的图片标注为1，不含有直线的标准为0。然后将数据整理后以pickle包的形式存储起来，用于对表格图片是否包含直线进行识别，并给出相应的识别结果。

在上述任一技术方案中，优选地，预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；深度学习模型为依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、softmax层；其中，第一四层卷积层各层的大小为64、32、16、16，所述四层全连接层各层的大小为256、128、64、32，三层全连接层各层的大小为64、128、256，第二四层卷积层各层的大小为16、16、32、64，三层全连接层各层的大小为64，128，256。

在该技术方案中，整体模型结构为四层卷基层，四层全连接层。其中，卷积层各个层的大小依次为64、32、16、16，全连接层的各个层大小为256、128、64、32。模型构建分为两个阶段：第一个阶段是无监督学习阶段，该阶段采用原模型(深度学习模型)按最后一层进行对称映射而成，即以全连接层最后一层(隐节点数为32为起点反向组织模型)，因此在预训练阶段，模型的结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32]->三层全连接层[64，128，256]->四层卷基层[16，16，32，64]->output然后计算input与output之间的差异作为损失，采用随即梯度下降法来更新参数。当模型的损失降低到一定阈值或者连续10次没有低于目前最低阈值，那么就终止训练。第二个阶段为有监督学习，采用无监督学习的各个层参数初始化模型，模型结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32，2]->softmax层，其中四层卷积层及四层全连接层为无监督模型中已经进行完预训练的部分，其中softmax层表示softmax函数，用于进行分类，这是机器学习中的一种函数，一般用于将模型输出结果变换成概率形式，->表示模型各个层次之间的衔接。

根据本发明的另一个方面，提出了一种表格识别***，包括：模型建立单元，用于建立深度学习模型；第一切割单元，用于获取表格图片，将表格图片横向切割为多个横向图片；第一识别单元，用于通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；第一切割单元，还用于纵向切割包含直线的横向图片，得到多个区块；第二识别单元，用于根据多个区块组成表格，定位表格内文字并识别文字内容。

本发明提供的表格识别***，第一切割单元将获取的表格图片按照设定步长横向切割为多个横向图片，第一识别单元将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，通过第一切割单元将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后通过第二识别单元根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

根据本发明的上述表格识别***，还可以具有以下技术特征：

在上述技术方案中，优选地，筛选单元，用于在纵向切割包含直线的横向图片，得到多个区块之前，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片。

在该技术方案中，重复包含直线的横向图片是指同一条直线被两次识别的情况。包括两种情况：(1)虽然用户会尽量对准拍摄，但是还是存在切割后，一条直线分布在两个横条中的情况；(2)按一定步长进行切割时，切割线刚好在表格直线上导致一条表格线被分割在两条横条中，通过去除重复的包含直线的横向图片较少了不必要的识别操作，缩短了表格识别时间，提高了效率。

在上述任一技术方案中，优选地，模型建立单元，包括：采集单元，用于通过网络爬虫采集表格类图片；模型建立单元，用于通过表格类图片对模型参数进行预训练，获取预训练模型；标注单元，用于获取手工拍照图片，对手工拍照图片进行标注；模型建立单元，还用于通过手工拍照图片对预训练模型进行调整，得到深度学习模型。

在该技术方案中，采集单元通过爬虫自动采集网络图片的方式收集大量的网络图片，网络图片可能存在非表格和非单据的图片，因此对于收集的数据还需要进行人工的筛选和整理获得表格类图片。模型建立单元采用无监督学习对模型参数进行预训练，获取预训练模型。标注单元获取少量的手工拍照图片，对于少量的手工拍照图片普遍通过使用智能手机进行拍照进行收集，这些图片要求尽量对准对正，进一步地模型建立单元通过手工拍照图片对预训练模型进行微调调整以适应实际拍照的图片，得到更加适合拍照图片精准的深度学习模型。通过采用大量的网络照片作为预训练的方式，引入了足够的噪音因素，因此模型整体对照片横线识别的泛化性能更好。

在上述任一技术方案中，优选地，模型建立单元，还包括：第二切割单元，用于在通过表格类图片对模型参数进行预训练，获取预训练模型之前，将表格类图片横向切割为多个横向表格类图片；对多个横向表格类图片进行白化操作；调整单元，用于将多个横向表格类图片的格式调整为固定大小。

在该技术方案中，第二切割单元对于所有图片数据的分割采用固定像素横向无重叠切割，在进行此操作之后，原有的大量图片被变换成许多横条小图片。然后将所有横条小图片进行白化操作，由于图片中相邻像素之间具有很强相关性，所以用于训练时输入是冗余的，白化操作的目的是降低输入的冗余性。由于CNN模型要求输入大小一致，因此最后通过调整单元将所有图片统一规整为固定大小格式，使得训练过程中的图片大小相同。

在上述任一技术方案中，优选地，标注单元，具体用于：获取手工拍照图片，判断手工拍照图片是否包含有直线；以及当手工拍照图片包含有直线时，将手工拍照图片标记为1；以及当手工拍照图片不包含有直线时，将手工拍照图片标记为0。

在上述任一技术方案中，优选地，预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；深度学习模型为依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、softmax层；其中，第一四层卷积层各层的大小为64、32、16、16，四层全连接层各层的大小为256、128、64、32，三层全连接层各层的大小为64、128、256，第二四层卷积层各层的大小为16、16、32、64，三层全连接层各层的大小为64，128，256。

根据本发明的再一个方面，提出了一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一项的表格识别方法的步骤。

本发明提供的计算机装置，处理器执行计算机程序时实现将获取的表格图片按照设定步长横向切割为多个横向图片，将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

根据本发明的又一个方面，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项的表格识别方法的步骤。

本发明提供的计算机可读存储介质，计算机程序被处理器执行时实现将获取的表格图片按照设定步长横向切割为多个横向图片，将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的表格识别方法的流程示意图；

图2示出了本发明的另一个实施例的表格识别方法的流程示意图；

图3示出了本发明的再一个实施例的表格识别方法的流程示意图；

图4示出了本发明的又一个实施例的表格识别方法的流程示意图；

图5a示出了本发明的一个实施例的表格识别***的示意框图；

图5b示出了本发明的另一个实施例的表格识别***的示意框图；

图5c示出了本发明的再一个实施例的表格识别***的示意框图；

图5d示出了本发明的又一个实施例的表格识别***的示意框图；

图6示出了本发明的一个实施例的计算机装置的示意框图；

图7示出了本发明的一个具体实施例的有监督模型各层参数详情的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例，提出一种表格识别方法，图1示出了本发明的一个实施例的表格识别方法的流程示意图。其中，该方法包括：

步骤102，建立深度学习模型；

步骤104，获取表格图片，将表格图片横向切割为多个横向图片；

步骤106，通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；

步骤108，纵向切割包含直线的横向图片，得到多个区块；

步骤110，根据多个区块组成表格，定位表格内文字并识别文字内容。

图2示出了本发明的另一个实施例的表格识别方法的流程示意图。其中，该方法包括：

步骤202，建立深度学习模型；

步骤204，获取表格图片，将表格图片横向切割为多个横向图片；

步骤206，通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；

步骤208，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片；

步骤210，纵向切割包含直线的横向图片，得到多个区块；

步骤212，根据多个区块组成表格，定位表格内文字并识别文字内容。

在该实施例中，重复包含直线的横向图片是指同一条直线被两次识别的情况。包括两种情况：(1)虽然用户会尽量对准拍摄，但是还是存在切割后，一条直线分布在两个横条中的情况；(2)按一定步长进行切割时，切割线刚好在表格直线上导致一条表格线被分割在两条横条中，通过去除重复的包含直线的横向图片较少了不必要的识别操作，缩短了表格识别时间，提高了效率。

图3示出了本发明的再一个实施例的表格识别方法的流程示意图。其中，该方法包括：

步骤302，通过网络爬虫采集表格类图片；将表格类图片横向切割为多个横向表格类图片；对多个横向表格类图片进行白化操作；将多个横向表格类图片的格式调整为固定大小；

步骤304，通过表格类图片对模型参数进行预训练，获取预训练模型；获取手工拍照图片，对手工拍照图片进行标注；通过手工拍照图片对预训练模型进行调整，得到深度学习模型；

步骤306，获取表格图片，将表格图片横向切割为多个横向图片；

步骤308，通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；

步骤310，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片；

步骤312，纵向切割包含直线的横向图片，得到多个区块；

步骤314，根据多个区块组成表格，定位表格内文字并识别文字内容。

在该实施例中，通过爬虫自动采集网络图片的方式收集大量的网络图片，网络图片可能存在非表格和非单据的图片，因此对于收集的数据还需要进行人工的筛选和整理获得表格类图片。采用无监督学习对模型参数进行预训练，获取预训练模型。获取然后通过少量的手工拍照图片对模型进行微调以适应实际拍照的图片，对于少量的手工拍照图片普遍通过使用智能手机进行拍照进行收集，这些图片要求尽量对准对正，进一步地通过手工拍照图片对预训练模型进行微调调整，得到更加适合拍照图片精准的深度学习模型。通过采用大量的网络照片作为预训练的方式，引入了足够的噪音因素，因此模型整体对照片横线识别的泛化性能更好。对于所有图片数据的分割采用固定像素横向无重叠切割，在进行此操作之后，原有的大量图片被变换成许多横条小图片。然后将所有横条小图片进行白化操作，由于图片中相邻像素之间具有很强相关性，所以用于训练时输入是冗余的，白化操作的目的是降低输入的冗余性。由于CNN模型要求输入大小一致，因此最后将所有图片统一规整为固定大小格式，使得训练过程中的图片大小相同。

图4示出了本发明的又一个实施例的表格识别方法的流程示意图。其中，该方法包括：

步骤402，通过网络爬虫采集表格类图片；将表格类图片横向切割为多个横向表格类图片；对多个横向表格类图片进行白化操作；将多个横向表格类图片的格式调整为固定大小；

步骤404，通过表格类图片对模型参数进行预训练，获取预训练模型；

步骤406，获取手工拍照图片，判断手工拍照图片是否包含有直线；

步骤408，当手工拍照图片包含有直线时，将手工拍照图片标记为1；

步骤410，当手工拍照图片不包含有直线时，将手工拍照图片标记为0；

步骤412，通过手工拍照图片对预训练模型进行调整，得到深度学习模型；

步骤414，获取表格图片，将表格图片横向切割为多个横向图片；

步骤416，通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；

步骤418，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片；

步骤420，纵向切割包含直线的横向图片，得到多个区块；

步骤422，根据多个区块组成表格，定位表格内文字并识别文字内容。

在该实施例中，由于获取的手工拍照图片主要作为迁移学习的训练数据，因此需要进行分割和人工标注标签。标注的方式为含有直线的图片标注为1，不含有直线的标准为0。然后将数据整理后以pickle包的形式存储起来，用于对表格图片是否包含直线进行识别，并给出相应的识别结果。

在本发明的一个实施例中，优选地，预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；深度学习模型为依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、softmax层；其中，第一四层卷积层各层的大小为64、32、16、16，所述四层全连接层各层的大小为256、128、64、32，三层全连接层各层的大小为64、128、256，第二四层卷积层各层的大小为16、16、32、64，三层全连接层各层的大小为64，128，256。

在该实施例中，整体模型结构为四层卷基层，四层全连接层。其中，卷积层各个层的大小依次为64、32、16、16，全连接层的各个层大小为256、128、64、32。模型构建分为两个阶段：第一个阶段是无监督学习阶段，该阶段采用原模型(深度学习模型)按最后一层进行对称映射而成，即以全连接层最后一层(隐节点数为32为起点反向组织模型)，因此在预训练阶段，模型的结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32]->三层全连接层[64，128，256]->四层卷基层[16，16，32，64]->output然后计算input与output之间的差异作为损失，采用随即梯度下降法来更新参数。当模型的损失降低到一定阈值或者连续10次没有低于目前最低阈值，那么就终止训练。第二个阶段为有监督学习，采用无监督学习的各个层参数初始化模型，模型结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32，2]->softmax层，其中四层卷积层及四层全连接层为无监督模型中已经进行完预训练的部分，其中softmax层表示softmax函数，用于进行分类，这是机器学习中的一种函数，一般用于将模型输出结果变换成概率形式，->表示模型各个层次之间的衔接。

本发明第二方面的实施例，提出一种表格识别方法，图5a示出了本发明的一个实施例的表格识别***500的示意框图。其中，该***包括：

模型建立单元502，用于建立深度学习模型；

第一切割单元504，用于获取表格图片，将表格图片横向切割为多个横向图片；

第一识别单元506，用于通过深度学习模型，识别每个横向图片是否包含直线，获取包含直线的横向图片；

第一切割单元504，还用于纵向切割包含直线的横向图片，得到多个区块；

第二识别单元508，用于根据多个区块组成表格，定位表格内文字并识别文字内容。

本发明提供的表格识别***500，第一切割单元504将获取的表格图片按照设定步长横向切割为多个横向图片，第一识别单元506将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，通过第一切割单元504将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后通过第二识别单元508根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

图5b示出了本发明的另一个实施例的表格识别***500的示意框图。其中，该***包括：

模型建立单元502，用于建立深度学习模型；

第二识别单元508，用于根据多个区块组成表格，定位表格内文字并识别文字内容；

还包括：筛选单元510，用于在纵向切割包含直线的横向图片，得到多个区块之前，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片。

图5c示出了本发明的再一个实施例的表格识别***500的示意框图。其中，该***包括：

模型建立单元502，用于建立深度学习模型；

还包括：筛选单元510，用于在纵向切割包含直线的横向图片，得到多个区块之前，对包含直线的横向图片进行筛选，去除重复的包含直线的横向图片；

模型建立单元502，包括：采集单元5022，用于通过网络爬虫采集表格类图片；模型建立单元502，用于通过表格类图片对模型参数进行预训练，获取预训练模型；

标注单元5024，用于获取手工拍照图片，对手工拍照图片进行标注；模型建立单元502，还用于通过手工拍照图片对预训练模型进行调整，得到深度学习模型。

在该实施例中，采集单元5022通过爬虫自动采集网络图片的方式收集大量的网络图片，网络图片可能存在非表格和非单据的图片，因此对于收集的数据还需要进行人工的筛选和整理获得表格类图片。模型建立单元502采用无监督学习对模型参数进行预训练，获取预训练模型。标注单元5024获取少量的手工拍照图片，对于少量的手工拍照图片普遍通过使用智能手机进行拍照进行收集，这些图片要求尽量对准对正，进一步地模型建立单元502通过手工拍照图片对预训练模型进行微调调整以适应实际拍照的图片，得到更加适合拍照图片精准的深度学习模型。通过采用大量的网络照片作为预训练的方式，引入了足够的噪音因素，因此模型整体对照片横线识别的泛化性能更好。

图5d示出了本发明的又一个实施例的表格识别***500的示意框图。其中，该***包括：

模型建立单元502，用于建立深度学习模型；

标注单元5024，用于获取手工拍照图片，对手工拍照图片进行标注；模型建立单元502，还用于通过手工拍照图片对预训练模型进行调整，得到深度学习模型；

模型建立单元502，还包括：第二切割单元5026，用于在通过表格类图片对模型参数进行预训练，获取预训练模型之前，将表格类图片横向切割为多个横向表格类图片；对多个横向表格类图片进行白化操作；

调整单元5028，用于将多个横向表格类图片的格式调整为固定大小。

在该实施例中，第二切割单元对于所有图片数据的分割采用固定像素横向无重叠切割，在进行此操作之后，原有的大量图片被变换成许多横条小图片。然后将所有横条小图片进行白化操作，由于图片中相邻像素之间具有很强相关性，所以用于训练时输入是冗余的，白化操作的目的是降低输入的冗余性。由于CNN模型要求输入大小一致，因此最后通过调整单元将所有图片统一规整为固定大小格式，使得训练过程中的图片大小相同。

在本发明的一个实施例中，优选地，标注单元5024，具体用于：获取手工拍照图片，判断手工拍照图片是否包含有直线；以及当手工拍照图片包含有直线时，将手工拍照图片标记为1；以及当手工拍照图片不包含有直线时，将手工拍照图片标记为0。

在本发明的一个实施例中，优选地，预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；深度学习模型为依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、softmax层；其中，第一四层卷积层各层的大小为64、32、16、16，四层全连接层各层的大小为256、128、64、32，三层全连接层各层的大小为64、128、256，第二四层卷积层各层的大小为16、16、32、64，三层全连接层各层的大小为64，128，256。

本发明第三方面的实施例，提出一种计算机装置，图6示出了本发明的一个实施例的计算机装置600的示意框图。其中，该计算机装置600包括：

存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序，处理器604执行计算机程序时实现如上述任一项的表格识别方法的步骤。

本发明提供的计算机装置600，处理器604执行计算机程序时实现将获取的表格图片按照设定步长横向切割为多个横向图片，将多个横向图片输入建立好的深度学习模型中进行识别，输出横向图片是否包含直线的识别结果，将包含直线的横向图片再按照设定步长纵向切割得到多个区块，最后根据多个区块组成表格，定位表格内文字并识别文字内容，其中设定步长可以根据情况进行设定，例如设定为像素28的间隔。由于表格的绘制是找出表格的拐角处，而这些拐角处均在横线上，因此本发明的思路是先找出表格中的横线，然后在区块中找出拐角，最后还原表格，通过利用建立好的深度学习模型进行表格的识别，提高了表格识别的效率以及准确率。对于不包含横线的横向图片，则不用再进行纵向切割，从而减少识别的数量，提高识别的速度。

本发明第四方面的实施例，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项的表格识别方法的步骤。

在本申请的一个具体实施例中，采用基于深度学习的图片直线识别方法。整体方案包含以下步骤：(1)设计并训练深度学习模型；(2)将任意大小的图片按设定步长进行横向切割并输入模型进行识别是否包含直线；(3)识别后处理，去除重复识别的情况；(4)按横线识别结果纵向切割图片，再采用已有的区块识别表格方法识别各个区块。

其中，深度学习模型的训练准备包含：1)数据准备；2)数据预处理；3)模型构建；4)模型训练和微调；5)模型的部署。

1)数据准备

表格图片数据比较稀少。如果采用人工拍照收集的方式，往往比较耗费人力成本而且时间周期也比较长。如果只采用截屏方式，往往由于截屏图片没有实际照片的噪音因素多而造成最后模型的泛化性能差等问题。在以上两个难题下，采用爬虫自动采集网络图片的方式收集大量的网络图片，然后采用无监督学习来预训练模型参数，并采用少量的手工拍照图片进行微调模型的思路。

对于爬虫抓取网络图片，在网站内指定爬取表格类和单据类图片。对于爬取的图片，可能存在非表格和非单据的图片，因此对于收集的数据还需要进行人工的帅选和整理。对于少量的手工拍照图片，工作人员采用普遍使用的智能手机进行拍照收集表格图片，这些图片要求尽量对准对正。由于该类图片主要作为迁移学习的训练数据，因此需要进行分割和人工标注标签。

2)数据预处理

数据预处理包含对于所有图片数据的分割和标准化以及对于手工图片数据集的标注两方面。

对于所有图片数据的分割采用固定像素横向无重叠切割，在进行此操作之后，原有的大量图片被变换成许多横条小图片。然后，将所有数据进行白化操作，该操作是本专利的唯一图片增强操作。再后，将所有图片统一规整为固定大小格式。

对于手工标注数据集，除了需要进行上步的分割和标准化操作，还需要进行数据标注用于有监督学习。标注的方式为含有直线的图片标注为1，不含有直线的标准为0。然后将数据整理后以pickle包的形式存储起来。

3)模型构建

基于深度学习，整体模型结构为四层卷基层，四层全连接层。其中，卷积层各个层的大小依次为64、32、16、16，全连接层的各个层大小为256、128、64、32。所有层在激活函数之前，均采用了Batch normalization。模型构建分为两个阶段：

第一个阶段是无监督学习阶段，该阶段采用原模型按最后一层进行对称映射而成，即以全连接层最后一层(隐节点数为32为起点反向组织模型)，因此在预训练阶段，模型的结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32]->三层全连接层[64，128，256]->四层卷基层[16，16，32，64]->output，然后计算input与output之间的差异作为损失，采用随即梯度下降法来更新参数。当模型的损失降低到一定阈值或者连续10次没有低于目前最低阈值，那么就终止训练。

第二个阶段为有监督学习，采用无监督学习的各个层参数初始化模型，模型结构如下：input->四层卷积层[64，32，16，16]->四层全连接层[256，128，64，32，2]->softmax层。

图7示出了本发明的一个具体实施例的有监督模型各层参数详情的示意图，其中，conv为卷积层，s为步长，conv1层的大小为5、5、3、64，该层步长为1，conv2层的大小为5、5、64、32，该层步长为1，conv3层的大小为5、5、32、16，该层步长为1，conv4层的大小为1、1、16、16，该层步长为1；mp为池化层，mp层大小为1、2、2、1，该层步长为2；dropout为遗忘层，其大小为0.5，hidden为神经网络层，hidden1大小为256，hidden2大小为128，hidden3大小为64，hidden4大小为32，激活函数为relu；affine为线性变换层，即不含激活函数的hidden层，其大小为2；softmax为softmax层，表示softmax函数，用于进行分类。

4)模型训练和微调

模型无监督训练和有监督训练过程的输入数据大小一致，均采用28×300。对于指定步长的切割后，大小不是28×300的统一调整为该大小。无监督训练和有监督训练的批(batch size)大小均为128。在有监督训练过程中，各个卷积层权重初始化为xavier的初始化方法，xavier是一种很有效的神经网络初始化方法，偏差初始值为0。各个全连接层初始化为truncated normal(截尾正态分布)，方差为0.01，全连接层的偏差初始化为0。由于各个层加入了batch normalization(批规范化)，batch normalization为一种算法，因此该模型没有引入dropout机制，dropout是在训练神经网络模型时样本数据过少防止拟合而采用的机制。模型初始的学习率为0.01，每当连续十次内，损失没有低于10次内的最小值，那么学习率指数衰减一次，衰减因子为0.9。当损失差距低于指定阈值时，停止训练。

在有监督学习阶段，各个层的参数采用无监督学习的参数进行初始化。batchsize大小为64，初始学习率为0.1，学习率采用线性衰减的方式，当损失连续5次没有低于最低损失值时，那么就对学习率进行衰减。其中，线性衰减因子为0.99。有监督训练总共迭代10万次，其中最后的模型参数为使得验证集误差最小的模型参数。

5)模型的部署实施

模型采用TensorFlow serving和Flask来部署服务，TensorFlow serving为一个用于机器学习模型serving的高性能开源库，可以将训练好的机器学习模型部署到线上，Flask是一个轻量级Web应用框架。

采用基于横线的表格识别优化方法，利用深度学习来构建算法，主要有以下优点：

(1)数据收集简单，采用爬虫抓取大量图片用于无监督训练，然后少量的手工数据集标准就能较好的训练一个深度学习模型；

(2)模型采用了大量的网络照片作为预训练的方式，引入了足够的噪音因素，因此模型整体对照片横线识别的泛化性能更好；

(3)端对端的模型极大的减少了人工特征的成本。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种表格识别方法，其特征在于，包括：

建立深度学习模型；

获取表格图片，将所述表格图片横向切割为多个横向图片；

通过所述深度学习模型，识别每个所述横向图片是否包含直线，获取包含直线的横向图片；

纵向切割所述包含直线的横向图片，得到多个区块；

根据所述多个区块组成表格，定位所述表格内文字并识别所述文字内容。

2.根据权利要求1所述的表格识别方法，其特征在于，在所述纵向切割所述包含直线的横向图片，得到所述多个区块之前，还包括：

对所述包含直线的横向图片进行筛选，去除重复的所述包含直线的横向图片。

3.根据权利要求1所述的表格识别方法，其特征在于，所述建立深度学习模型的步骤，具体包括：

通过网络爬虫采集表格类图片；

通过所述表格类图片对模型参数进行预训练，获取预训练模型；

获取手工拍照图片，对所述手工拍照图片进行标注；

通过所述手工拍照图片对所述预训练模型进行调整，得到所述深度学习模型。

4.根据权利要求3所述的表格识别方法，其特征在于，在所述通过所述表格类图片对模型参数进行预训练，获取所述预训练模型之前，还包括：

将所述表格类图片横向切割为多个横向表格类图片；

对所述多个横向表格类图片进行白化操作；

将所述多个横向表格类图片的格式调整为固定大小。

5.根据权利要求3所述的表格识别方法，其特征在于，所述获取所述手工拍照图片，对所述手工拍照图片进行标注的步骤，具体包括：

获取所述手工拍照图片，判断所述手工拍照图片是否包含有直线；

当所述手工拍照图片包含有直线时，将所述手工拍照图片标记为1；

当所述手工拍照图片不包含有直线时，将所述手工拍照图片标记为0。

6.根据权利要求3至5中任一项所述的表格识别方法，其特征在于，

所述预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；

所述深度学习模型为依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、softmax层；

其中，所述第一四层卷积层各层的大小为64、32、16、16，所述四层全连接层各层的大小为256、128、64、32，所述三层全连接层各层的大小为64、128、256，所述第二四层卷积层各层的大小为16、16、32、64，所述三层全连接层各层的大小为64，128，256。

7.一种表格识别***，其特征在于，包括：

模型建立单元，用于建立深度学习模型；

第一切割单元，用于获取表格图片，将所述表格图片横向切割为多个横向图片；

第一识别单元，用于通过所述深度学习模型，识别每个所述横向图片是否包含直线，获取包含直线的横向图片；

所述第一切割单元，还用于纵向切割所述包含直线的横向图片，得到多个区块；

第二识别单元，用于根据所述多个区块组成表格，定位所述表格内文字并识别所述文字内容。

8.根据权利要求7所述的表格识别***，其特征在于，还包括：

筛选单元，用于在纵向切割所述包含直线的横向图片，得到所述多个区块之前，对所述包含直线的横向图片进行筛选，去除重复的所述包含直线的横向图片。

9.根据权利要求7所述的表格识别***，其特征在于，所述模型建立单元，包括：

采集单元，用于通过网络爬虫采集表格类图片；

所述模型建立单元，用于通过所述表格类图片对模型参数进行预训练，获取预训练模型；

标注单元，用于获取手工拍照图片，对所述手工拍照图片进行标注；

所述模型建立单元，还用于通过所述手工拍照图片对所述预训练模型进行调整，得到所述深度学习模型。

10.根据权利要求9所述的表格识别***，其特征在于，所述模型建立单元，还包括：

第二切割单元，用于在所述通过所述表格类图片对模型参数进行预训练，获取所述预训练模型之前，将所述表格类图片横向切割为多个横向表格类图片；对所述多个横向表格类图片进行白化操作；

调整单元，用于将所述多个横向表格类图片的格式调整为固定大小。

11.根据权利要求9所述的表格识别***，其特征在于，所述标注单元，具体用于：

获取所述手工拍照图片，判断所述手工拍照图片是否包含有直线；以及当所述手工拍照图片包含有直线时，将所述手工拍照图片标记为1；以及当所述手工拍照图片不包含有直线时，将所述手工拍照图片标记为0。

12.根据权利要求9至11中任一项所述的表格识别***，其特征在于，所述预训练模型依次包括：第一四层卷积层[64，32，16，16]、四层全连接层[256，128，64，32]、三层全连接层[64，128，256]、第二四层卷积层[16，16，32，64]；

13.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的表格识别方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的表格识别方法的步骤。