CN109635627A

CN109635627A - 图片信息提取方法、装置、计算机设备及存储介质

Info

Publication number: CN109635627A
Application number: CN201811236301.9A
Authority: CN
Inventors: 邢欣来
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-04-16

Abstract

本发明公开了图片信息提取方法、装置、计算机设备及存储介质。该方法包括：获取待识别的票据图片并进行偏斜和光照的调整，得到预处理后票据图片；识别获取预处理后票据图片中所包括的多个文本区域；获取多个文本区域中每一文本区域的空间坐标，将其对应的向量按拼接顺序进行串接得到文本框序列；将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列；将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。该方法无需对复杂票据的所有文本信息框进行文字抽取和识别，也无需依次计算文字间的关联，减少了计算量，而且采用图像识别技术能对各种角度、扭曲的票据图片标注数据训练，具有良好的鲁棒性。

Description

图片信息提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图片信息提取方法、装置、计算机设备及存储介质。

背景技术

目前，因复杂票据其页面文本排布关系复杂多样，常采用以下抽取过程：

1)文本区域标注：标注票据图片中的所有文本区域；

2)文本内容抽取与识别：对所有的文本区域进行文字识别，提取文本；

3)文本内容关联：结合文本信息与文字在图片中的位置，对文本信息进行内容关联。

上述过程存在以下缺陷：需要对票据中所有文本信息区域逐个提取文本信息，并进行逐个关联，导致计算量大、执行效率低。而且在实际情况中，票据中的大量文本信息对于任务是无关的。

发明内容

本发明实施例提供了一种图片信息提取方法、装置、计算机设备及存储介质，旨在解决现有技术中对票据中所有文本信息区域逐个提取文本信息，并进行逐个关联，导致处理大量无关文本内容，使得整个处理过程计算量大、执行效率低的问题。

第一方面，本发明实施例提供了一种图片信息提取方法，其包括：

获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片；

识别获取预处理后票据图片中所包括的多个文本区域；

获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列；

获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列；

将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

第二方面，本发明实施例提供了一种图片信息提取装置，其包括：

图片预处理单元，用于获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片；

文本区域识别单元，用于识别获取预处理后票据图片中所包括的多个文本区域；

文本框序列获取单元，用于获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列；

目标子序列获取单元，用于获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列；

文本信息提取单元，用于将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的图片信息提取方法。

第四方面，本发明实施例还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的图片信息提取方法。

本发明实施例提供了一种图片信息提取方法、装置、计算机设备及存储介质。该方法通过对待识别的票据图片进行偏斜和光照的预处理，再识别其中的多个文本区域，将多个文本区域转化为文本框序列后，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列，最后只需对子序列对应的文本区域进行文本识别即可获取用户所关注的文本信息。该方法中无需对复杂票据的所有文本信息框进行文字抽取和识别，也无需依次计算文字间的关联，减少了计算量，而且能对各种角度、扭曲的票据图片标注数据训练，具有良好的鲁棒性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图片信息提取方法的流程示意图；

图2为本发明实施例提供的图片信息提取方法的子流程示意图；

图3为本发明实施例提供的图片信息提取方法的另一子流程示意图；

图4为本发明实施例提供的图片信息提取方法的另一子流程示意图；

图5为本发明实施例提供的图片信息提取方法的另一子流程示意图；

图6为本发明实施例提供的图片信息提取装置的示意性框图；

图7为本发明实施例提供的图片信息提取装置的子单元示意性框图；

图8为本发明实施例提供的图片信息提取装置的另一子单元示意性框图；

图9为本发明实施例提供的图片信息提取装置的另一子单元示意性框图；

图10为本发明实施例提供的图片信息提取装置的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的图片信息提取方法的流程示意图，该图片信息提取方法应用于管理服务器中，该方法通过安装于管理服务器中的应用软件进行执行，管理服务器即是用于进行图片信息提取的企业终端。

如图1所示，该方法包括步骤S101～S105。

S101、获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片。

在本实施例中，待识别的票据图片为业务端所提供，并上传至管理服务器由管理服务器所接收进行识别处理。即业务端通过拍照或扫描等方式获取待识别的票据图片然后上传至管理服务器，如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据，这些复杂票据与简单票据(例如身份证图片即可视为一种简单票据，其在被识别分过程中也只需提取姓名、身份证号、身份证有效期等有限的信息)的区别在于文本信息更多，所需识别的信息也更多。

由于业务端通过拍照或扫描等方式获取待识别的票据图片，可能因拍摄角度或是光线等问题，导致图片的识别程度不高，此时需对待识别的图片进行预处理。

在一实施例中，如图2所示，步骤S101包括：

S1011、通过霍夫直线检测对待识别的票据图片进行偏斜调整，得到偏斜调整后图片；

S1012、通过直方图均衡化对偏斜调整后图片进行光照调整，得到预处理后票据图片。

在本实施例中，霍夫直线检测采用霍夫变换来实现。霍夫变换是图像变换中的经典手段之一，主要用来从图像中分离出具有某种相同特征的几何形状(如，直线，圆等)。霍夫变换寻找直线与圆的方法相比于其它方法，可以更好的减少噪声干扰。经典的霍夫变换常用来检测直线，圆，椭圆等。

然而在图像处理领域，图像的像素坐标P(x,y)是已知的，而图像的所对应的极坐标中r,theta则是需寻找的变量。如果可能绘制每个(r,theta)值，根据像素点坐标P(x,y)值的话，那么就从图像笛卡尔坐标***转换到极坐标霍夫空间***，这种从点到曲线的变换称为直线的霍夫变换。变换通过量化霍夫参数空间为有限个值间隔等分或者累加格子。当霍夫变换算法开始，每个像素坐标点P(x,y)被转换到(r,theta)的曲线点上面，累加到对应的格子数据点，当一个波峰出现时候，说明有直线存在。通过霍夫直线检测对票据图片进行偏斜的调整，对其进行矫正以便于后续的文字识别。

直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸，重新分配图像像素值，使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。

直方图均衡化的基本思想是把原始图的直方图变换为均匀分布的形式，这样就增加了象素灰度值的动态范围从而可达到增强图像整体对比度的效果。设原始图像在(x，y)处的灰度为f，而改变后的图像为g，则对图像增强的方法可表述为将在(x，y)处的灰度f映射为g。在灰度直方图均衡化处理中对图像的映射函数可定义为:g＝EQ(f)，这个映射函数EQ(f)必须满足两个条件(其中L为图像的灰度级数):

a)EQ(f)在0≤f≤L-1范围内是一个单值单增函数。这是为了保证增强处理没有打乱原始图像的灰度排列次序，原图各灰度级在变换后仍保持从黑到白(或从白到黑)的排列。

b)对于0≤f≤L-1有0≤g≤L-1，这个条件保证了变换前后灰度值动态范围的一致性。

通过对待识别的票据图片进行偏斜和光照的调整，能有效的提高图片的识别成功率，而且具有良好的鲁棒性。

S102、识别获取预处理后票据图片中所包括的多个文本区域。

在本实施例中，当完成了待识别的票据图片的预处理后，对预处理后票据图片中所包括的文本区域一一进行识别，此时进行文本区域的识别只是判断哪些区域是包括文字的，无需对识别的文本区域中具体包括哪些文字进行识别，也即只对包括文字的区域进行定位，而且针对每一文本区域画出矩形框。由于只是定位文字的区域，而未对所有文字进行识别，降低了计算量，提高了数据处理效率。

在一实施例中，识别获取预处理后票据图片中所包括的多个文本区域，包括：

通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测，得到预处理后票据图片中所包括的多个文本区域。

在本实施例中，通过连接文本提议网络算法(CTPN算法，全称是ConnectionistText Proposal Network)对预处理后票据图片进行文本区域定位，CTPN算法的处理过程如下：

A1)首先，使用VGG16(VGG16是牛津大学在2014年提出来的VGG卷积神经网络模型的一个变种，其为一个拥有16层的模型)作为基网(即base net)提取特征，得到conv5_3(conv5_3是指第五个卷积块里面的第三个卷积层)的特征作为图像特征(即feature map)，图像特征的大小为W×H×C；

A2)然后在这个feature map上做滑窗，窗口大小是3×3。也就是每个窗口都能得到一个长度为3×3×C的特征向量，这些特征向量将用于预测该位置k个anchor(anchor的定义和Faster RCNN类似)对应的类别信息，位置信息；

A3)将上一步得到的特征，即3*3*C的特征(W*3*3*C)输入到一个双向的LSTM中，得到长度为W×256的输出，然后接一个512的全连接层(fc层)，准备输出。

A4)输出层部分主要有三个输出。2k个vertical coordinate(直角坐标系)，因为一个anchor用的是中心位置的高(y坐标)和矩形框的高度两个值表示的，所以一个用2k个输出(注意这里输出的是相对anchor的偏移)。

A5)fc层特征输入到三个分类或者回归层中。第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个kside-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标(可以决定上下边界)，k个side-refinement表示的bounding box的水平平移量。

A6)把分类得到的textproposal(文本线的一部分，可以理解为一个细长的矩形)合并成文本线。

S103、获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列。

在本实施例中，获取多个文本区域中每一文本区域的空间坐标时，由于每一文本区域均为矩形的区域，故只需获取每一矩形的文本区域的四个顶点的坐标并串接，即可得到与该文本区域对应的向量。通过对每一矩形的文本区域的四个顶点的坐标进行识别即可实现对所有文本区域的定位。

在一实施例中，如图3所示，步骤S103包括：

S1031、获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；

S1032、将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；

S1033、根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

在本实施例中，获取多个文本区域中每一文本区域所对应矩形区域，可分别记为第一文本区域-第N文本区域，第一文本区域的左上角顶点的坐标为(x11，y11)，第一文本区域的右上角顶点的坐标为(x12，y12)，第一文本区域的左下角顶点的坐标为(x13，y13)，第一文本区域的右下角顶点的坐标为(x14，y14)，将(x11，y11)、(x12，y12)、(x13，y13)及(x14，y14)依序串接得到第一向量box1＝[x11y11x12y12x13y13x14y14]。

以此类推第N文本区域所对应第N向量boxN＝[xN1yN1xN2yN2xN3yN3xN4yN4]。将第一向量box1、第二向量box2、……、第N向量boxN进行串接，得到文本框序列box1box2box3……boxN。通过上述处理，将待处理的票据图片转化为了简单的文本框序列，通过文本框序列来表示预处理后票据图片中所包括的多个文本区域。

S104、获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列。

在本实施例中，预先训练的序列标注模型用于对文本框序列中用户感兴趣的区域进行抽取。由于每一类型待识别的票据图片(如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据)其采用的文本模板均相同，只是有些用户填写的区域才是需要重点关注的区域。

在一实施例中，如图4所示，步骤S104包括：

S1041、获取多个种类的历史票据图片，根据历史票据图片的种类对应分类，得到分类后票据图片；

S1042、将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整，得到训练数据预处理后票据图片；

S1043、识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域；

S1044、获取多个训练数据文本区域中每一训练数据文本区域的空间坐标，将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到训练数据文本框序列；

S1045、将训练数据文本框序列中所选定的向量进行标注，得到与训练数据文本框序列对应的待提取子序列；

S1046、将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入，将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出，对初始序列标注模型进行训练，得到序列标注模型。

其中，序列标注模型可以采用RNN、LSTM、bi-LSTM+crf模型中的任意一种；其中，RNN模型为循环神经网络模型，LSTM模型为长短期记忆模型，bi-LSTM+crf模型是条件随机场和双向循环神经网络的复合模型。

在训练该序列标注模型时，可以先收集大量的历史票据图片，按照票据类型先进行分类，例如分为保险合同类、车辆新车合格证类，之后：

B1)先执行如S101-S103中的步骤，得到与历史票据图片相对应的文本框序列；

B2)对每一文本框序列中用户感兴趣需提取的向量进行标注，得到与该文本框序列对应的由需提取的向量所组成的子序列；

例如，文本框序列用box1box2box3……boxN表示，与该文本框序列对应的由需提取的向量所组成的子序列可以用box6box7……boxN-1表示，也即子序列为文本框序列的子集。

B3)将与历史票据图片相对应的文本框序列作为初始序列标注模型的输入，将与文本框序列对应的子序列作为初始序列标注模型的输出，对初始序列标注模型进行训练，得到序列标注模型。

通过上述过程，能得到与类型待识别的票据图片分别对应的序列标注模型。之后训练得到的序列标注模型就可以用于对待识别的票据图片进行感兴趣区域的提取，无需全文本进行文本识别，降低了计算量，提高了文本识别的效率。

S105、将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

在本实施例中，当获取了待提取区域对应的子序列，需对应查找将该子序列中的每一向量对应的文本区域，将上述文本区域采用文字识别模型进行文字抽取，即可得到待提取区域对应的文本信息。

例如，可以采用CRNN模型(即卷积循环神经网络模型)对文本区域(该文本区域可以视为待识别的票据图片中的局部的图片)进行识别，得到需提取区域对应的文本信息。

在一实施例中，如图5所示，步骤S105包括：

S1051、获取待提取区域对应的子序列中所包括的向量；

S1052、获取每一向量在票据图片中对应的矩形区域；

S1053、通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别，得到待提取区域对应的文本信息。

在本实施例中，当获取待提取区域对应的子序列后，即可获知待识别的票据图片中哪些区域对应的文本区域中的文本内容需被抽取，此时仅需针对这些指定的文本区域进行文本识别以提取文本信息即可，避免了对所有的文本区域进行文字识别以提取文本，降低了计算量，提高了处理效率。

该方法中无需对复杂票据的所有文本信息框进行文字抽取和识别，也无需依次计算文字间的关联，减少了计算量，而且能对各种角度、扭曲的票据图片标注数据训练，具有良好的鲁棒性。

本发明实施例还提供一种图片信息提取装置，该图片信息提取装置用于执行前述图片信息提取方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的图片信息提取装置的示意性框图。该图片信息提取装置100可以配置于管理服务器或终端中。

如图6所示，图片信息提取装置100包括图片预处理单元101、文本区域识别单元102、文本框序列获取单元103、目标子序列获取单元104、和文本信息提取单元105。

图片预处理单元101，用于获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片。

在一实施例中，如图7所示，图片预处理单元101包括：

图片偏斜调整单元1011，用于通过霍夫直线检测对待识别的票据图片进行偏斜调整，得到偏斜调整后图片；

图片光照调整1012，用于通过直方图均衡化对偏斜调整后图片进行光照调整，得到预处理后票据图片。

文本区域识别单元102，用于识别获取预处理后票据图片中所包括的多个文本区域。

在本实施例中，通过连接文本提议网络算法(CTPN算法，全称是ConnectionistTextProposal Network)对预处理后票据图片进行文本区域定位。

文本框序列获取单元103，用于获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列。

在一实施例中，如图8所示，文本框序列获取单元103包括：

矩形区域顶点获取单元1031，用于获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；

区域向量获取单元1032，用于将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；

向量串接单元1033，用于根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

目标子序列获取单元104，用于获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列。

在一实施例中，如图9所示，目标子序列获取单元104包括：

历史图片分类单元1041，用于获取多个种类的历史票据图片，根据历史票据图片的种类对应分类，得到分类后票据图片；

历史图片预处理单元1042，用于将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整，得到训练数据预处理后票据图片；

历史文本区域获取单元1043，用于识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域；

历史文本框序列获取单元1044，用于获取多个训练数据文本区域中每一训练数据文本区域的空间坐标，将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到训练数据文本框序列；

历史标注单元1045，用于将训练数据文本框序列中所选定的向量进行标注，得到与训练数据文本框序列对应的待提取子序列；

序列标注模型训练单元1046，用于将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入，将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出，对初始序列标注模型进行训练，得到序列标注模型。

文本信息提取单元105，用于将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

在一实施例中，如图10所示，文本信息提取单元105包括：

子序列向量提取单元1051，用于获取待提取区域对应的子序列中所包括的向量；

矩形区域提取单元1052，用于获取每一向量在票据图片中对应的矩形区域；

矩形区域文本提取单元1053，用于通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别，得到待提取区域对应的文本信息。

该装置中无需对复杂票据的所有文本信息框进行文字抽取和识别，也无需依次计算文字间的关联，减少了计算量，而且能对各种角度、扭曲的票据图片标注数据训练，具有良好的鲁棒性。

上述图片信息提取装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行图片信息提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行图片信息提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片；识别获取预处理后票据图片中所包括的多个文本区域；获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列；获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列；将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

在一实施例中，处理器502在执行对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片的步骤时，执行如下操作：通过霍夫直线检测对待识别的票据图片进行偏斜调整，得到偏斜调整后图片；通过直方图均衡化对偏斜调整后图片进行光照调整，得到预处理后票据图片。

在一实施例中，处理器502在执行识别获取预处理后票据图片中所包括的多个文本区域的步骤时，执行如下操作：通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测，得到预处理后票据图片中所包括的多个文本区域。

在一实施例中，处理器502在执行获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列的步骤时，执行如下操作：获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

在一实施例中，处理器502在执行获取预先训练的序列标注模型的步骤之前，还执行如下操作：获取多个种类的历史票据图片，根据历史票据图片的种类对应分类，得到分类后票据图片；将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整，得到训练数据预处理后票据图片；识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域；获取多个训练数据文本区域中每一训练数据文本区域的空间坐标，将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到训练数据文本框序列；将训练数据文本框序列中所选定的向量进行标注，得到与训练数据文本框序列对应的待提取子序列；将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入，将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出，对初始序列标注模型进行训练，得到序列标注模型；其中所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型。

在一实施例中，处理器502在执行将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息的步骤时，执行如下操作：获取待提取区域对应的子序列中所包括的向量；获取每一向量在票据图片中对应的矩形区域；通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别，得到待提取区域对应的文本信息。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：获取待识别的票据图片，对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片；识别获取预处理后票据图片中所包括的多个文本区域；获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列；获取预先训练的序列标注模型，将文本框序列作序列标注模型的输入，获取待提取区域对应的子序列；将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息。

在一实施例中，所述对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片，包括：通过霍夫直线检测对待识别的票据图片进行偏斜调整，得到偏斜调整后图片；通过直方图均衡化对偏斜调整后图片进行光照调整，得到预处理后票据图片。

在一实施例中，所述识别获取预处理后票据图片中所包括的多个文本区域，包括：通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测，得到预处理后票据图片中所包括的多个文本区域。

在一实施例中，所述获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列，包括：获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

在一实施例中，所述获取预先训练的序列标注模型之前，还包括：获取多个种类的历史票据图片，根据历史票据图片的种类对应分类，得到分类后票据图片；将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整，得到训练数据预处理后票据图片；识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域；获取多个训练数据文本区域中每一训练数据文本区域的空间坐标，将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到训练数据文本框序列；将训练数据文本框序列中所选定的向量进行标注，得到与训练数据文本框序列对应的待提取子序列；将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入，将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出，对初始序列标注模型进行训练，得到序列标注模型；其中所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型。

在一实施例中，所述将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息，包括：获取待提取区域对应的子序列中所包括的向量；获取每一向量在票据图片中对应的矩形区域；通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别，得到待提取区域对应的文本信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图片信息提取方法，其特征在于，包括：

识别获取预处理后票据图片中所包括的多个文本区域；

2.根据权利要求1所述的图片信息提取方法，其特征在于，所述对待识别的票据图片进行偏斜和光照的调整，得到预处理后票据图片，包括：

通过霍夫直线检测对待识别的票据图片进行偏斜调整，得到偏斜调整后图片；

通过直方图均衡化对偏斜调整后图片进行光照调整，得到预处理后票据图片。

3.根据权利要求1所述的图片信息提取方法，其特征在于，所述识别获取预处理后票据图片中所包括的多个文本区域，包括：

4.根据权利要求1所述的图片信息提取方法，其特征在于，所述获取多个文本区域中每一文本区域的空间坐标，将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到文本框序列，包括：

获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；

将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；

根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

5.根据权利要求1所述的图片信息提取方法，其特征在于，所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型；

所述获取预先训练的序列标注模型之前，还包括：

获取多个种类的历史票据图片，根据历史票据图片的种类对应分类，得到分类后票据图片；

将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整，得到训练数据预处理后票据图片；

识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域；

获取多个训练数据文本区域中每一训练数据文本区域的空间坐标，将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接，得到训练数据文本框序列；

将训练数据文本框序列中所选定的向量进行标注，得到与训练数据文本框序列对应的待提取子序列；

将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入，将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出，对初始序列标注模型进行训练，得到序列标注模型。

6.根据权利要求4所述的图片信息提取方法，其特征在于，所述将待提取区域对应的子序列所对应的文本区域进行文本识别，得到待提取区域对应的文本信息，包括：

获取待提取区域对应的子序列中所包括的向量；

获取每一向量在票据图片中对应的矩形区域；

通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别，得到待提取区域对应的文本信息。

7.一种图片信息提取装置，其特征在于，包括：

8.根据权利要求7所述的图片信息提取装置，其特征在于，所述文本框序列获取单元，包括：

矩形区域定位单元，用于获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标；

区域向量获取单元，用于将每一矩形区域的四个顶点坐标按预设的顺序串接，得到与每一矩形区域对应的向量；

向量串接单元，用于根据每一矩形区域在待识别的票据图片中的先后顺序，将每一矩形区域对应的向量依序进行串接，得到文本框序列。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的图片信息提取方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的图片信息提取方法。