CN110807454A

CN110807454A - 基于图像分割的文字定位方法、装置、设备及存储介质

Info

Publication number: CN110807454A
Application number: CN201910884634.0A
Authority: CN
Inventors: 孙强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: CN110807454B; WO2021051527A1

Abstract

本发明涉及人工智能领域，公开了一种基于图像分割的文字定位方法、装置、设备及存储介质。基于图像分割的文字定位方法包括：获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像；通过预设图像分割网络模型对原始图像进行图像分割，得到畸变图像，畸变图像为票据图像或者证件图像；对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字；对畸变校正后的图像进行文字定位，得到定位结果。本发明通过对复杂文字背景下的图像进行图像分割网络处理，得到准确的图像前景图，并对图像前景图进行文字定位处理，得到定位结果，提高图像文字定位的精准度，增强复杂背景的鲁棒性。

Description

基于图像分割的文字定位方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及基于图像分割的文字定位方法、装置、设备及存储介质。

背景技术

光学字符识别(optical character recognition，OCR)是指电子设备检查纸上打印的字符，例如扫描仪或数码相机，然后用字符识别方法将形状翻译成计算机文字的过程，也就是对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。OCR包括文字定位和文字识别，其中文字定位是对图像中文本位置的精确定位，主要是根据提取相关的文字特征。

在现有技术中，通常是采用专用的扫描仪对票据和证件进行扫描，将票据和证件上的文字转化为图像信息，得到图像质量较高的票据图像和证件图像，再通过OCR技术将票据图像和证件图像中的信息转化为计算机文字，采用此种方式，对复杂背景下采集的票据图像和证件图像进行文字定位准确率低。

发明内容

本发明的主要目的在于解决了从复杂文字背景的图像中进行文字定位准确率低的技术问题。

为实现上述目的，本发明第一方面提供了一种基于图像分割的文字定位方法，包括：获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像；通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像；对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字；对所述畸变校正后的图像进行文字定位，得到定位结果。

可选的，在本发明第一方面的第一种实现方式中，所述通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像包括：将所述原始图像输入到预设图像分割网络模型中；通过所述预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型；根据所述分割标签图像对所述原始图像进行分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述分割标签图像对所述原始图像进行分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像包括：根据所述分割标签图像确定待分割区域，并将所述待分割区域内的像素值设置为1，将所述待分割区域外的像素值设置为0，得到掩膜图像；将所述原始图像和所述掩膜图像进行乘法操作，得到畸变图像，所述畸变图像用于指示从所述原始图像中与所述文字背景分离的所述票据图像或者所述证件图像。

可选的，在本发明第一方面的第三种实现方式中，所述对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字包括：根据所述图像类型确定与所述畸变图像对应的标准图像，并从所述标准图像中确定三个像素参考点坐标；根据所述三个像素参考点坐标从所述畸变图像中确定对应的像素坐标；根据所述三个像素参考点坐标和所述对应的像素坐标计算得到仿射变换矩阵；根据所述仿射变换矩阵对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字。

可选的，在本发明第一方面的第四种实现方式中，所述对所述畸变校正后的图像进行文字定位，得到定位结果包括：根据所述图像类型确定与所述畸变校正后的图像对应的模板，所述模板包括至少一个矩形框，所述矩形框用于指示根据预置坐标值标识所述正向文字所在的位置区域；根据预置算法和所述模板对所述畸变校正后的图像进行文字定位，得到定位结果；将所述定位结果存储到预置文件中。

可选的，在本发明第一方面的第五种实现方式中，所述获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像包括：接收在文字背景下采集的票据图像或者证件图像，并将所述票据图像或者所述证件图像设置为原始图像；根据预置格式设置所述原始图像的名称，并将所述原始图像存储到预置路径中，得到所述原始图像的存储路径；将所述原始图像的存储路径和所述原始图像的名称写入到目标数据表中。

可选的，在本发明第一方面的第六种实现方式中，所述对所述畸变校正后的图像进行文字定位，得到定位结果之后，所述基于图像分割的文字定位方法包括：确定新增类型的票据图像或者证件图像；将所述新增类型的票据图像或者证件图像设置为待训练的样本图像；根据所述待训练的样本图像对所述预设图像分割网络模型进行迭代优化。

本发明第二方面提供了一种基于图像分割的文字定位装置，包括：获取单元，用于获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像；分割单元，用于通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像；变换单元，用于对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字；定位单元，用于对所述畸变校正后的图像进行文字定位，得到定位结果。

可选的，在本发明第二方面的第一种实现方式中，所述分割单元还包括：输入子单元，用于将所述原始图像输入到预设图像分割网络模型中；第一分割子单元，用于通过所述预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型；第二分割子单元，用于根据所述分割标签图像对所述原始图像进行分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像。

可选的，在本发明第二方面的第二种实现方式中，所述第二分割子单元具体用于：根据所述分割标签图像确定待分割区域，并将所述待分割区域内的像素值设置为1，将所述待分割区域外的像素值设置为0，得到掩膜图像；将所述原始图像和所述掩膜图像进行乘法操作，得到畸变图像，所述畸变图像用于指示从所述原始图像中与所述文字背景分离的所述票据图像或者所述证件图像。

可选的，在本发明第二方面的第三种实现方式中，所述变换单元具体用于：根据所述图像类型确定与所述畸变图像对应的标准图像，并从所述标准图像中确定三个像素参考点坐标；根据所述三个像素参考点坐标从所述畸变图像中确定对应的像素坐标；根据所述三个像素参考点坐标和所述对应的像素坐标计算得到仿射变换矩阵；根据所述仿射变换矩阵对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字。

可选的，在本发明第二方面的第四种实现方式中，所述定位单元具体用于：根据所述图像类型确定与所述畸变校正后的图像对应的模板，所述模板包括至少一个矩形框，所述矩形框用于指示根据预置坐标值标识所述正向文字所在的位置区域；根据预置算法和所述模板对所述畸变校正后的图像进行文字定位，得到定位结果；将所述定位结果存储到预置文件中。

可选的，在本发明第二方面的第五种实现方式中，所述获取单元具体用于：接收在文字背景下采集的票据图像或者证件图像，并将所述票据图像或者所述证件图像设置为原始图像；根据预置格式设置所述原始图像的名称，并将所述原始图像存储到预置路径中，得到所述原始图像的存储路径；将所述原始图像的存储路径和所述原始图像的名称写入到目标数据表中。

可选的，在本发明第二方面的第六种实现方式中，所述基于图像分割的文字定位装置还包括：确定单元，用于确定新增类型的票据图像或者证件图像；设置单元，用于将所述新增类型的票据图像或者证件图像设置为待训练的样本图像；迭代单元，用于根据所述待训练的样本图像对所述预设图像分割网络模型进行迭代优化。

本发明第三方面提供了一种基于图像分割的文字定位设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像分割的文字定位设备执行上述第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明提供的技术方案中，获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像；通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像；对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字；对所述畸变校正后的图像进行文字定位，得到定位结果。本发明实施例中，通过对复杂背景下的图像进行图像分割网络处理，得到准确的图像前景图，并根据预置模板对图像前景图进行文字定位处理，得到定位结果，提高图像文字定位的精准度，增强复杂背景的鲁棒性。

附图说明

图1为本发明实施例中基于图像分割的文字定位方法的一个实施例示意图；

图2为本发明实施例中基于图像分割的文字定位方法的另一个实施例示意图；

图3为本发明实施例中基于图像分割的文字定位装置的一个实施例示意图；

图4为本发明实施例中基于图像分割的文字定位装置的另一个实施例示意图；

图5为本发明实施例中基于图像分割的文字定位设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于图像分割的文字定位方法、装置、设备及存储介质，用于通过对复杂背景下的图像进行图像分割网络处理，得到准确的图像前景图，并根据预置模板对图像前景图进行文字定位处理，得到定位结果，提高图像文字定位的精准度，增强复杂背景的鲁棒性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于图像分割的文字定位方法的一个实施例包括：

101、获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像；

服务器获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像。其中，在原始图像中存在干扰性较强的文字背景，干扰性较强的文字背景是指原始图像的背景中存在文字目标，尤其是手写数字和打印文字，增加对原始图像内的文字直接定位的难度。具体的，服务器接收在文字背景下采集的票据图像或者证件图像，并将票据图像或者证件图像设置为原始图像；服务器根据预置格式将原始图像存储到预置路径中，并将原始图像的存储路径记录在数据表中。

可以理解的是，服务器根据预置格式将原始图像存储到预置路径中，得到原始图像的存储路径和原始图像的名称。其中，预置格式包括预设命名规则和图片格式，该图片格式为jpg、png或者其他类型的图片格式，具体此处不做限定。服务器根据预置格式对原始图像命名后，服务器将原始图像放置在预置路径中，该预置路径为预先指定的文件目录。例如，服务器接收原始图像，原始图像为身份证图像，服务器将身份证图像命名为card1.jpg，并将card1.jpg存储在目录/var/www/html/ID下。

102、通过预设图像分割网络模型对原始图像进行图像分割，得到畸变图像，畸变图像为票据图像或者证件图像；

服务器通过预设图像分割网络模型对原始图像进行图像分割，得到畸变图像，畸变图像为票据图像或者证件图像。具体的，服务器根据预设图像分割网络模型对原始图像进行图像分割，得到分割标签图像；服务器根据分割标签图像确定掩膜图像，并根据掩膜图像对原始图像进行处理，得到畸变图像，其中，畸变图像为服务器将原始图像中的复杂背景进行分离以后得到的局部图像，该局部图像的形状为不规则四边形，局部图像包括票据图像或者证件图像。

可以理解的是，服务器根据预置样本对图像分割网络模型进行训练，确定图像分割网络模型中的参数，得到预设图像分割网络模型，该预设图像分割网络模型用于对原始图像进行图像分割。

103、对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字；

服务器对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字。其中，正向文字是指为以水平基准为正向，并且上下不颠倒的文字，也就是将偏离水平基准的90度、180度和270度的畸变图像校正为偏离水平基准0度，使得畸变校正后的图像中的文字为正向文字。具体的，服务器确定畸变图像对应的仿射变换规则；服务器根据映射规则和预置尺寸对畸变图像进行仿射变换，得到畸变校正后的图像。可以理解的是，畸变图像是一个不规则四边形的图像，服务器根据仿射变换对畸变图像进行畸变校正，得到畸变校正后的图像，畸变校正后的图像中的文字为正向的，畸变校正后的图像的尺寸是一个预先设置的固定值，与畸变图像相对应的模板尺寸一致。

需要说明的是，仿射变换是一种二维坐标(x,y)到二维坐标(u,v)的线性变换，也就是把原图上的一个点映射到目标图上的对应点，包括对原图的旋转、平移、缩放和切变。

104、对畸变校正后的图像进行文字定位，得到定位结果。

服务器对畸变校正后的图像进行文字定位，得到定位结果。具体的，服务器根据预置算法和模板对畸变校正后的图像进行文字定位处理，得到定位结果。其中，模板包括至少一个矩形框，矩形框用于指示根据预置坐标值标识正向文字所在的位置区域，定位结果为从畸变校正后的图像中框选的文字定位坐标信息，该文字定位坐标信息的数量与矩形框的数量相等。例如：针对畸变校正后的票据图像中的某农村商业银行和转账支票，服务器匹配得到对应的模板，模板中存在两个矩形框，用于指示某农村商业银行和转账支票，进一步地，服务器根据这两个矩形框的预置坐标值确定定位结果，定位结果包括某农村商业银行和转账支票以及两个矩形框的预置坐标值。

可以理解的是，若直接对原始图像进行标注，则要标注原始图像区域内的每个文字，同时为避免文字背景干扰，则要采集大量的包含不同文字背景的原始图像，当新增票据种类时，继续标注。例如，一张银行票据有n个文字，有m种背景，以往要进行n*m次标注，现在标注工作量为n+m。m大，定位图像对于复杂背景的适应性越强，鲁棒性也就越强，其中，m与图像分割处理相关，对大量样本图像进行增强训练即可。

本发明实施例中，通过对复杂背景下的图像进行图像分割网络处理，得到准确的图像前景图，并根据预置模板对图像前景图进行文字定位处理，得到定位结果，提高图像文字定位的精准度，增强复杂背景的鲁棒性。

请参阅图2，本发明实施例中基于图像分割的文字定位方法的另一个实施例包括：

201、获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像；

服务器获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像。具体的，服务器接收在文字背景下采集的票据图像或者证件图像，并将票据图像或者证件图像设置为原始图像；服务器根据预置格式设置原始图像的名称，并将原始图像存储到预置路径中，得到原始图像的存储路径，预置路径为预先设置的文件目录，预置格式包括预设命名规则和图片格式，该图片格式为jpg、png或者其他类型的图片格式，具体此处不做限定；服务器将原始图像的存储路径和原始图像的名称写入到目标数据表中。

举例说明，服务器接收银行票据图像，并将银行票据图像设置为原始图像，同时将该原始图像命名为bank1.jpg，然后服务器将bank1.jpg存储在目录/var/www/html/bankimage下；服务器将原始图像存储路径和原始图像的名称写入目标数据表中，例如，原始图像的名称为bank1.jpg，原始图像的存储路径为/var/www/html/bankimage/bank1.jpg，服务器根据原始图像的存储路径和原始图像的名称生成结构化数据查询语言SQL***语句，并根据SQL***语句写入目标数据表中。

需要说明的是，原始图像中存在干扰性较强的文字背景，其中，干扰性较强的文字背景是指原始图像背景中存在文字目标，尤其是手写数字和打印文字，若直接定位原始图像内的文字，则定位难度大。

202、将原始图像输入到预设图像分割网络模型中，并通过预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型；

服务器将原始图像输入到预设图像分割网络模型中，并通过预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型。进一步地，服务器采用预置的deeplabv3+模型对原始图像进行图像语义分割，可以理解的是，预置的deeplabv3+模型为预设图像分割网络模型。服务器通过预置的deeplabv3+模型对原始图像进行语义图像分割的主要目的是为原始图像的每个像素指定语义标签，也就是分割标签图像中每个像素点的数值代表了其像素点所属的类型。

需要说明的是，deeplabv3+是一种用于图像语义分割的顶尖深度学习模型，其目标是将语义标签分配给输入图像的每个像素，deeplabv3+包括一个简单而高效的改善分割结果的解码器模块。

203、根据分割标签图像对原始图像进行分割，得到畸变图像，畸变图像为票据图像或者证件图像；

服务器根据分割标签图像对原始图像进行分割，得到畸变图像，畸变图像为票据图像或者证件图像。具体的，服务器根据分割标签图像确定待分割区域，并待分割区域内的像素值设置为1，将待分割区域外的像素值设置为0，得到掩膜图像；服务器将原始图像和掩膜图像进行乘法操作，得到畸变图像，畸变图像用于指示从原始图像中与文字背景分离的票据图像或者证件图像。

可选的，服务器根将原始图像与分割标签图像进行比较，得到比较结果，并根据比较结果确定为待分割区域；服务器对待分割区域进行分割，得到畸变图像，畸变图像为票据图像或者证件图像；服务器将畸变图像进行存储。

需要说明的是，由于原始图像中可以存在多个证件，最终保存文件为与原始图像名称相同的前景四点坐标图像，例如，服务器对名称为image1.png的证件图像进行图像分割处理，得到两个证件前景图像的八个坐标点，服务器将两个证件前景图像进行数字化保存，文件内容如下所示：

1|坐标1，坐标2，坐标3，坐标4

2|坐标1，坐标2，坐标3，坐标4

204、对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字；

服务器对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字。其中，正向文字是指为以水平基准为正向，并且上下不颠倒的文字，也就是将偏离水平基准的90度、180度和270度的畸变图像校正为偏离水平基准0度，使得畸变校正后的图像中的文字为正向文字。具体的，服务器根据图像类型确定与畸变图像对应的标准图像，并从标准图像中确定三个像素参考点坐标；服务器根据三个像素参考点坐标从畸变图像中确定对应的像素坐标；服务器根据三个像素参考点坐标和对应的像素坐标计算得到仿射变换矩阵；服务器根据仿射变换矩阵对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字。例如，服务器从身份证的标准图像中确定三个像素参考点坐标为D(x₁,y₁)、E(x₂,y₂)和F(x₃,y₃)，服务器根据三个像素参考点坐标D、E和F从畸变图像中确定对应的像素坐标D'(x'₁,y'₁)、E'(x'₂,y'₂)和F'(x'₃,y'₃)，服务器根据齐次坐标公式进行计算，该齐次坐标公式如下所示：

其中，(x,y)对应于畸变图像的像素坐标，(u,v)对应于身份证的标准图像的三个像素参考点坐标，服务器将D'(x₁',y₁')、E'(x'₂,y'₂)、F'(x'₃,y'₃)和D(x₁,y₁)、E(x₂,y₂)、F(x₃,y₃)依次代入齐次坐标公式中进行计算，得到仿射变换矩阵，也就是服务器确定仿射变换矩阵变量a、b、c、d、e和f的值，服务器根据仿射变换矩阵对畸变图像进行仿射变换，得到畸变校正后的身份证图像，畸变校正后的身份证图像对应的尺寸为85.6毫米乘以54毫米。可以理解的是，当对畸变图像进行仿射变换时，服务器还确定了旋转方向和旋转角度，使得畸变校正后的图像中的文字是正向的。

需要说明的是，仿射变换是一种二维坐标(x,y)到二维坐标(u,v)的线性变换，畸变图像是一个不规则四边形的图像，仿射变换就是把原图上的一个点映射到目标图上的对应点，包括对原图的旋转、平移、缩放和切变，最后将畸变图像从不规则四边形变换为矩形。

205、根据图像类型确定畸变校正后的图像对应的模板，模板包括至少一个矩形框，矩形框用于指示根据预置坐标值标识正向文字所在的位置区域；

服务器根据图像类型确定畸变校正后的图像对应的模板，模板包括至少一个矩形框，矩形框用于指示根据预置坐标值标识正向文字所在的位置区域。其中，矩形框为4个点坐标构成的矩形区域，例如，身份证正面水平正向图像对应的模板包括姓名、性别、民族、出生年月日、地址以及公民身份证号码6个矩形框；银行卡正面水平正向图像对应模板包括银行***码的1个矩形框。

需要说明的是，畸变校正后的图像对应的模板与畸变校正后的图像的尺寸一致，模板中包括指示根据预置坐标值标识正向文字所在的位置区域的矩形框，服务器根据图像类型匹配畸变校正后的图像得到模板后，进一步地，服务器根据模板中矩形框确定畸变校正后的图像的文字。

206、根据预置算法和模板对畸变校正后的图像进行文字定位，得到定位结果；

服务器根据预置算法和模板对畸变校正后的图像进行文字定位，得到定位结果。具体的，服务器根据预置算法和模板确定畸变校正后的图像的待分割的长条状对象的位置信息，长条状对象的位置信息包括相应区域的左上点坐标和右下点坐标以及相对应的文字，其中，文字定位规则遵循从左上坐标定位到右下坐标的顺序，对畸变校正后的图像进行逐行顺序扫描，同一行同一类别信息同时定位；服务器将左上点坐标和右下点坐标以及相对应的文字设置为定位结果。例如，服务器对身份证的姓名区域进行文字定位，得到的文字定位结果包括左上点坐标(13，14)、右下点的坐标(744，49)和姓名。

可选的，服务器采用PixelLink算法将畸变校正后的图像的文字区域框选出来。PixelLink提出实例分割来实现文本检测，基于深度神经网络算法DNN进行两种像素预测，也就是文本/非文本预测和link预测。具体的，服务器根据PixelLink算法将畸变校正后的图像中的文本像素标记为正，并将畸变校正后的图像的非文本标记为负；服务器判断给定的像素和该像素的一个相邻像素是否位于同一实例中；若给定的像素和该像素的一个相邻像素位于同一实例中，则服务器将它们之间的链接标记为正；若给定的像素和该像素的一个相邻像素不位于同一实例中，则服务器将它们之间的链接标记为负，每个像素有8个近邻。预测的正像素通过预测的正向链路连接在连通分量CC中，每个CC表示一个检测到的文本，服务器最终将得到各个连通分量的边界框作为最终检测结果，服务器将最终检测结果的坐标信息设置为定位结果。

207、将定位结果存储到预置文件中。

服务器将定位结果到预置文件中。具体的，服务器对畸变校正后的图像进行定位，得到的多个定位矩形区域，服务器记录各个定位矩形区域的左上点和右下点的坐标，并将多个定位结果保存为txt格式。例如，服务对某农村商业银行进行文字定位，得到定位结果包括6个矩形框和矩形框定位得到的文字信息，服务器将其保存到sds_0.txt文件中，文件内容如下所示：

standard_build/sds_0.png|13 14 744 49|

standard_build/sds_0.png|22 52 645 88|

standard_build/sds_0.png|12 94 446 130|

standard_build/sds_0.png|28 135 775 170|

standard_build/sds_0.png|13 177 544 212|

standard_build/sds_0.png|22 217 348 252|；

需要说明的是，sds_0.txt文件中的定位结果可进一步用于文字识别，同时定位结果中包括预置标识，用于提示文字识别丢弃该行，例如，对于定位结果standard_build/sds_0.png|13 14 744 49|XXXX，其中，XXXX为预置标识，用于指示服务器不进行文字识别，定位结果也可以采用其他类型的预置标识进行标记，具体此处不做限定。

可选的，服务器确定新增类型的票据图像或者证件图像；服务器将新增类型的票据图像或者证件图像设置为待训练的样本图像；服务器根据待训练的样本图像对预设图像分割网络进行迭代优化。例如，当前的票据类型包括1至10类，当检测到增加到11类时，将新增类型的票据图像设置为待训练的样本图像，并根据第11类票据图像对图像分割网络进行迭代优化。可以理解的是，在对预设图像分割网络进行迭代优化前，冻结预设图像分割网络中的参数，再进行迭代优化。

上面对本发明实施例中基于图像分割的文字定位方法进行了描述，下面对本发明实施例中基于图像分割的文字定位装置进行描述，请参阅图3，本发明实施例中基于图像分割的文字定位装置的一个实施例包括：

获取单元301，用于获取原始图像，原始图像为在文字背景下采集的票据图像或者证件图像；

分割单元302，用于通过预设图像分割网络模型对原始图像进行图像分割，得到畸变图像，畸变图像为票据图像或者证件图像；

变换单元303，用于对畸变图像进行仿射变换，得到畸变校正后的图像，畸变校正后的图像中的文字为正向文字；

定位单元304，用于对畸变校正后的图像进行文字定位，得到定位结果。

请参阅图4，本发明实施例中基于图像分割的文字定位装置的另一个实施例包括：

可选的，分割单元302还可以进一步包括：

输入子单元3021，用于将原始图像输入到预设图像分割网络模型中；

第一分割子单元3022，用于通过预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型；

第二分割子单元3023，用于根据分割标签图像对原始图像进行分割，得到畸变图像，畸变图像为票据图像或者证件图像。

可选的，第二分割子单元3023还可以具体用于：

根据分割标签图像确定待分割区域，并将待分割区域内的像素值设置为1，将待分割区域外的像素值设置为0，得到掩膜图像；

将原始图像和掩膜图像进行乘法操作，得到畸变图像，畸变图像用于指示从原始图像中与文字背景分离的票据图像或者证件图像。

可选的，变换单元303还可以具体用于：

根据图像类型确定与畸变图像对应的标准图像，并从标准图像中确定三个像素参考点坐标；

根据三个像素参考点坐标从畸变图像中确定对应的像素坐标；

根据三个像素参考点坐标和对应的像素坐标计算得到仿射变换矩阵；

根据仿射变换矩阵对畸变图像进行仿射变换，得到畸变校正后的图像。

可选的，定位单元304还可以具体用于：

根据图像类型确定畸变校正后的图像对应的模板，模板包括至少一个矩形框，矩形框用于指示根据预置坐标值标识正向文字所在的位置区域；

根据预置算法和模板对畸变校正后的图像进行文字定位，得到定位结果；

将定位结果存储到预置文件中。

可选的，获取单元301还可以具体用于：

接收在文字背景下采集的票据图像或者证件图像，并将票据图像或者证件图像设置为原始图像；

根据预置格式设置原始图像的名称，并将原始图像存储到预置路径中，得到原始图像的存储路径；

将原始图像的存储路径和原始图像的名称写入到目标数据表中。

可选的，基于图像分割的文字定位装置还可以进一步包括：

确定单元305，用于确定新增类型的票据图像或者证件图像；

设置单元306，用于将新增类型的票据图像或者证件图像设置为待训练的样本图像；

迭代单元307，用于根据待训练的样本图像对预设图像分割网络模型进行迭代优化。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于图像分割的文字定位装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于图像分割的文字定位设备进行详细描述。

图5是本发明实施例提供的一种基于图像分割的文字定位设备的结构示意图，该基于图像分割的文字定位设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序509或数据509的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于图像分割的文字定位中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于图像分割的文字定位设备500上执行存储介质508中的一系列指令操作。

基于图像分割的文字定位设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作***505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于图像分割的文字定位设备结构并不构成对基于图像分割的文字定位设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图像分割的文字定位方法，其特征在于，包括：

获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像；

通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像；

对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字；

对所述畸变校正后的图像进行文字定位，得到定位结果。

2.根据权利要求1所述的基于图像分割的文字定位方法，其特征在于，所述通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像包括：

将所述原始图像输入到预设图像分割网络模型中；

通过所述预设图像分割网络模型对原始图像进行图像语义分割，得到分割标签图像和图像类型；

根据所述分割标签图像对所述原始图像进行分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像。

3.根据权利要求2所述的基于图像分割的文字定位方法，其特征在于，所述根据所述分割标签图像对所述原始图像进行分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像包括：

根据所述分割标签图像确定待分割区域，并将所述待分割区域内的像素值设置为1，将所述待分割区域外的像素值设置为0，得到掩膜图像；

将所述原始图像和所述掩膜图像进行乘法操作，得到畸变图像，所述畸变图像用于指示从所述原始图像中与所述文字背景分离的所述票据图像或者所述证件图像。

4.根据权利要求2所述的基于图像分割的文字定位方法，其特征在于，所述对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字包括：

根据所述图像类型确定与所述畸变图像对应的标准图像，并从所述标准图像中确定三个像素参考点坐标；

根据所述三个像素参考点坐标从所述畸变图像中确定对应的像素坐标；

根据所述三个像素参考点坐标和所述对应的像素坐标计算得到仿射变换矩阵；

根据所述仿射变换矩阵对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字。

5.根据权利要求4所述的基于图像分割的文字定位方法，其特征在于，所述对所述畸变校正后的图像进行文字定位，得到定位结果包括：

根据所述图像类型确定所述畸变校正后的图像对应的模板，所述模板包括至少一个矩形框，所述矩形框用于指示根据预置坐标值标识所述正向文字所在的位置区域；

根据预置算法和所述模板对所述畸变校正后的图像进行文字定位，得到定位结果；

将所述定位结果存储到预置文件中。

6.根据权利要求1所述的基于图像分割的文字定位方法，其特征在于，所述获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像包括：

接收在文字背景下采集的票据图像或者证件图像，并将所述票据图像或者所述证件图像设置为原始图像；

根据预置格式设置所述原始图像的名称，并将所述原始图像存储到预置路径中，得到所述原始图像的存储路径；

将所述原始图像的存储路径和所述原始图像的名称写入到目标数据表中。

7.根据权利要求1至6中任一项所述的基于图像分割的文字定位方法，其特征在于，所述对所述畸变校正后的图像进行文字定位，得到定位结果之后，所述基于图像分割的文字定位方法包括：

确定新增类型的票据图像或者证件图像；

将所述新增类型的票据图像或者证件图像设置为待训练的样本图像；

根据所述待训练的样本图像对所述预设图像分割网络模型进行迭代优化。

8.一种基于图像分割的文字定位装置，其特征在于，所述基于图像分割的文字定位装置包括：

获取单元，用于获取原始图像，所述原始图像为在文字背景下采集的票据图像或者证件图像；

分割单元，用于通过预设图像分割网络模型对所述原始图像进行图像分割，得到畸变图像，所述畸变图像为所述票据图像或者所述证件图像；

变换单元，用于对所述畸变图像进行仿射变换，得到畸变校正后的图像，所述畸变校正后的图像中的文字为正向文字；

定位单元，用于对所述畸变校正后的图像进行文字定位，得到定位结果。

9.一种基于图像分割的文字定位设备，其特征在于，所述基于图像分割的文字定位设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像分割的文字定位设备执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。