CN109635627A - 图片信息提取方法、装置、计算机设备及存储介质 - Google Patents
图片信息提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109635627A CN109635627A CN201811236301.9A CN201811236301A CN109635627A CN 109635627 A CN109635627 A CN 109635627A CN 201811236301 A CN201811236301 A CN 201811236301A CN 109635627 A CN109635627 A CN 109635627A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- bill picture
- picture
- text filed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了图片信息提取方法、装置、计算机设备及存储介质。该方法包括:获取待识别的票据图片并进行偏斜和光照的调整,得到预处理后票据图片;识别获取预处理后票据图片中所包括的多个文本区域;获取多个文本区域中每一文本区域的空间坐标,将其对应的向量按拼接顺序进行串接得到文本框序列;将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。该方法无需对复杂票据的所有文本信息框进行文字抽取和识别,也无需依次计算文字间的关联,减少了计算量,而且采用图像识别技术能对各种角度、扭曲的票据图片标注数据训练,具有良好的鲁棒性。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图片信息提取方法、装置、计算机设备及存储介质。
背景技术
目前,因复杂票据其页面文本排布关系复杂多样,常采用以下抽取过程:
1)文本区域标注:标注票据图片中的所有文本区域;
2)文本内容抽取与识别:对所有的文本区域进行文字识别,提取文本;
3)文本内容关联:结合文本信息与文字在图片中的位置,对文本信息进行内容关联。
上述过程存在以下缺陷:需要对票据中所有文本信息区域逐个提取文本信息,并进行逐个关联,导致计算量大、执行效率低。而且在实际情况中,票据中的大量文本信息对于任务是无关的。
发明内容
本发明实施例提供了一种图片信息提取方法、装置、计算机设备及存储介质,旨在解决现有技术中对票据中所有文本信息区域逐个提取文本信息,并进行逐个关联,导致处理大量无关文本内容,使得整个处理过程计算量大、执行效率低的问题。
第一方面,本发明实施例提供了一种图片信息提取方法,其包括:
获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;
识别获取预处理后票据图片中所包括的多个文本区域;
获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;
获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;
将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
第二方面,本发明实施例提供了一种图片信息提取装置,其包括:
图片预处理单元,用于获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;
文本区域识别单元,用于识别获取预处理后票据图片中所包括的多个文本区域;
文本框序列获取单元,用于获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;
目标子序列获取单元,用于获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;
文本信息提取单元,用于将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的图片信息提取方法。
第四方面,本发明实施例还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的图片信息提取方法。
本发明实施例提供了一种图片信息提取方法、装置、计算机设备及存储介质。该方法通过对待识别的票据图片进行偏斜和光照的预处理,再识别其中的多个文本区域,将多个文本区域转化为文本框序列后,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列,最后只需对子序列对应的文本区域进行文本识别即可获取用户所关注的文本信息。该方法中无需对复杂票据的所有文本信息框进行文字抽取和识别,也无需依次计算文字间的关联,减少了计算量,而且能对各种角度、扭曲的票据图片标注数据训练,具有良好的鲁棒性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图片信息提取方法的流程示意图;
图2为本发明实施例提供的图片信息提取方法的子流程示意图;
图3为本发明实施例提供的图片信息提取方法的另一子流程示意图;
图4为本发明实施例提供的图片信息提取方法的另一子流程示意图;
图5为本发明实施例提供的图片信息提取方法的另一子流程示意图;
图6为本发明实施例提供的图片信息提取装置的示意性框图;
图7为本发明实施例提供的图片信息提取装置的子单元示意性框图;
图8为本发明实施例提供的图片信息提取装置的另一子单元示意性框图;
图9为本发明实施例提供的图片信息提取装置的另一子单元示意性框图;
图10为本发明实施例提供的图片信息提取装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的图片信息提取方法的流程示意图,该图片信息提取方法应用于管理服务器中,该方法通过安装于管理服务器中的应用软件进行执行,管理服务器即是用于进行图片信息提取的企业终端。
如图1所示,该方法包括步骤S101~S105。
S101、获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片。
在本实施例中,待识别的票据图片为业务端所提供,并上传至管理服务器由管理服务器所接收进行识别处理。即业务端通过拍照或扫描等方式获取待识别的票据图片然后上传至管理服务器,如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据,这些复杂票据与简单票据(例如身份证图片即可视为一种简单票据,其在被识别分过程中也只需提取姓名、身份证号、身份证有效期等有限的信息)的区别在于文本信息更多,所需识别的信息也更多。
由于业务端通过拍照或扫描等方式获取待识别的票据图片,可能因拍摄角度或是光线等问题,导致图片的识别程度不高,此时需对待识别的图片进行预处理。
在一实施例中,如图2所示,步骤S101包括:
S1011、通过霍夫直线检测对待识别的票据图片进行偏斜调整,得到偏斜调整后图片;
S1012、通过直方图均衡化对偏斜调整后图片进行光照调整,得到预处理后票据图片。
在本实施例中,霍夫直线检测采用霍夫变换来实现。霍夫变换是图像变换中的经典手段之一,主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。霍夫变换寻找直线与圆的方法相比于其它方法,可以更好的减少噪声干扰。经典的霍夫变换常用来检测直线,圆,椭圆等。
然而在图像处理领域,图像的像素坐标P(x,y)是已知的,而图像的所对应的极坐标中r,theta则是需寻找的变量。如果可能绘制每个(r,theta)值,根据像素点坐标P(x,y)值的话,那么就从图像笛卡尔坐标***转换到极坐标霍夫空间***,这种从点到曲线的变换称为直线的霍夫变换。变换通过量化霍夫参数空间为有限个值间隔等分或者累加格子。当霍夫变换算法开始,每个像素坐标点P(x,y)被转换到(r,theta)的曲线点上面,累加到对应的格子数据点,当一个波峰出现时候,说明有直线存在。通过霍夫直线检测对票据图片进行偏斜的调整,对其进行矫正以便于后续的文字识别。
直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。
直方图均衡化的基本思想是把原始图的直方图变换为均匀分布的形式,这样就增加了象素灰度值的动态范围从而可达到增强图像整体对比度的效果。设原始图像在(x,y)处的灰度为f,而改变后的图像为g,则对图像增强的方法可表述为将在(x,y)处的灰度f映射为g。在灰度直方图均衡化处理中对图像的映射函数可定义为:g=EQ(f),这个映射函数EQ(f)必须满足两个条件(其中L为图像的灰度级数):
a)EQ(f)在0≤f≤L-1范围内是一个单值单增函数。这是为了保证增强处理没有打乱原始图像的灰度排列次序,原图各灰度级在变换后仍保持从黑到白(或从白到黑)的排列。
b)对于0≤f≤L-1有0≤g≤L-1,这个条件保证了变换前后灰度值动态范围的一致性。
通过对待识别的票据图片进行偏斜和光照的调整,能有效的提高图片的识别成功率,而且具有良好的鲁棒性。
S102、识别获取预处理后票据图片中所包括的多个文本区域。
在本实施例中,当完成了待识别的票据图片的预处理后,对预处理后票据图片中所包括的文本区域一一进行识别,此时进行文本区域的识别只是判断哪些区域是包括文字的,无需对识别的文本区域中具体包括哪些文字进行识别,也即只对包括文字的区域进行定位,而且针对每一文本区域画出矩形框。由于只是定位文字的区域,而未对所有文字进行识别,降低了计算量,提高了数据处理效率。
在一实施例中,识别获取预处理后票据图片中所包括的多个文本区域,包括:
通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测,得到预处理后票据图片中所包括的多个文本区域。
在本实施例中,通过连接文本提议网络算法(CTPN算法,全称是ConnectionistText Proposal Network)对预处理后票据图片进行文本区域定位,CTPN算法的处理过程如下:
A1)首先,使用VGG16(VGG16是牛津大学在2014年提出来的VGG卷积神经网络模型的一个变种,其为一个拥有16层的模型)作为基网(即base net)提取特征,得到conv5_3(conv5_3是指第五个卷积块里面的第三个卷积层)的特征作为图像特征(即feature map),图像特征的大小为W×H×C;
A2)然后在这个feature map上做滑窗,窗口大小是3×3。也就是每个窗口都能得到一个长度为3×3×C的特征向量,这些特征向量将用于预测该位置k个anchor(anchor的定义和Faster RCNN类似)对应的类别信息,位置信息;
A3)将上一步得到的特征,即3*3*C的特征(W*3*3*C)输入到一个双向的LSTM中,得到长度为W×256的输出,然后接一个512的全连接层(fc层),准备输出。
A4)输出层部分主要有三个输出。2k个vertical coordinate(直角坐标系),因为一个anchor用的是中心位置的高(y坐标)和矩形框的高度两个值表示的,所以一个用2k个输出(注意这里输出的是相对anchor的偏移)。
A5)fc层特征输入到三个分类或者回归层中。第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个kside-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标(可以决定上下边界),k个side-refinement表示的bounding box的水平平移量。
A6)把分类得到的textproposal(文本线的一部分,可以理解为一个细长的矩形)合并成文本线。
S103、获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列。
在本实施例中,获取多个文本区域中每一文本区域的空间坐标时,由于每一文本区域均为矩形的区域,故只需获取每一矩形的文本区域的四个顶点的坐标并串接,即可得到与该文本区域对应的向量。通过对每一矩形的文本区域的四个顶点的坐标进行识别即可实现对所有文本区域的定位。
在一实施例中,如图3所示,步骤S103包括:
S1031、获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;
S1032、将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;
S1033、根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
在本实施例中,获取多个文本区域中每一文本区域所对应矩形区域,可分别记为第一文本区域-第N文本区域,第一文本区域的左上角顶点的坐标为(x11,y11),第一文本区域的右上角顶点的坐标为(x12,y12),第一文本区域的左下角顶点的坐标为(x13,y13),第一文本区域的右下角顶点的坐标为(x14,y14),将(x11,y11)、(x12,y12)、(x13,y13)及(x14,y14)依序串接得到第一向量box1=[x11y11x12y12x13y13x14y14]。
以此类推第N文本区域所对应第N向量boxN=[xN1yN1xN2yN2xN3yN3xN4yN4]。将第一向量box1、第二向量box2、……、第N向量boxN进行串接,得到文本框序列box1box2box3……boxN。通过上述处理,将待处理的票据图片转化为了简单的文本框序列,通过文本框序列来表示预处理后票据图片中所包括的多个文本区域。
S104、获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列。
在本实施例中,预先训练的序列标注模型用于对文本框序列中用户感兴趣的区域进行抽取。由于每一类型待识别的票据图片(如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据)其采用的文本模板均相同,只是有些用户填写的区域才是需要重点关注的区域。
在一实施例中,如图4所示,步骤S104包括:
S1041、获取多个种类的历史票据图片,根据历史票据图片的种类对应分类,得到分类后票据图片;
S1042、将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整,得到训练数据预处理后票据图片;
S1043、识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域;
S1044、获取多个训练数据文本区域中每一训练数据文本区域的空间坐标,将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到训练数据文本框序列;
S1045、将训练数据文本框序列中所选定的向量进行标注,得到与训练数据文本框序列对应的待提取子序列;
S1046、将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入,将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出,对初始序列标注模型进行训练,得到序列标注模型。
其中,序列标注模型可以采用RNN、LSTM、bi-LSTM+crf模型中的任意一种;其中,RNN模型为循环神经网络模型,LSTM模型为长短期记忆模型,bi-LSTM+crf模型是条件随机场和双向循环神经网络的复合模型。
在训练该序列标注模型时,可以先收集大量的历史票据图片,按照票据类型先进行分类,例如分为保险合同类、车辆新车合格证类,之后:
B1)先执行如S101-S103中的步骤,得到与历史票据图片相对应的文本框序列;
B2)对每一文本框序列中用户感兴趣需提取的向量进行标注,得到与该文本框序列对应的由需提取的向量所组成的子序列;
例如,文本框序列用box1box2box3……boxN表示,与该文本框序列对应的由需提取的向量所组成的子序列可以用box6box7……boxN-1表示,也即子序列为文本框序列的子集。
B3)将与历史票据图片相对应的文本框序列作为初始序列标注模型的输入,将与文本框序列对应的子序列作为初始序列标注模型的输出,对初始序列标注模型进行训练,得到序列标注模型。
通过上述过程,能得到与类型待识别的票据图片分别对应的序列标注模型。之后训练得到的序列标注模型就可以用于对待识别的票据图片进行感兴趣区域的提取,无需全文本进行文本识别,降低了计算量,提高了文本识别的效率。
S105、将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
在本实施例中,当获取了待提取区域对应的子序列,需对应查找将该子序列中的每一向量对应的文本区域,将上述文本区域采用文字识别模型进行文字抽取,即可得到待提取区域对应的文本信息。
例如,可以采用CRNN模型(即卷积循环神经网络模型)对文本区域(该文本区域可以视为待识别的票据图片中的局部的图片)进行识别,得到需提取区域对应的文本信息。
在一实施例中,如图5所示,步骤S105包括:
S1051、获取待提取区域对应的子序列中所包括的向量;
S1052、获取每一向量在票据图片中对应的矩形区域;
S1053、通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别,得到待提取区域对应的文本信息。
在本实施例中,当获取待提取区域对应的子序列后,即可获知待识别的票据图片中哪些区域对应的文本区域中的文本内容需被抽取,此时仅需针对这些指定的文本区域进行文本识别以提取文本信息即可,避免了对所有的文本区域进行文字识别以提取文本,降低了计算量,提高了处理效率。
该方法中无需对复杂票据的所有文本信息框进行文字抽取和识别,也无需依次计算文字间的关联,减少了计算量,而且能对各种角度、扭曲的票据图片标注数据训练,具有良好的鲁棒性。
本发明实施例还提供一种图片信息提取装置,该图片信息提取装置用于执行前述图片信息提取方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的图片信息提取装置的示意性框图。该图片信息提取装置100可以配置于管理服务器或终端中。
如图6所示,图片信息提取装置100包括图片预处理单元101、文本区域识别单元102、文本框序列获取单元103、目标子序列获取单元104、和文本信息提取单元105。
图片预处理单元101,用于获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片。
在本实施例中,待识别的票据图片为业务端所提供,并上传至管理服务器由管理服务器所接收进行识别处理。即业务端通过拍照或扫描等方式获取待识别的票据图片然后上传至管理服务器,如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据,这些复杂票据与简单票据(例如身份证图片即可视为一种简单票据,其在被识别分过程中也只需提取姓名、身份证号、身份证有效期等有限的信息)的区别在于文本信息更多,所需识别的信息也更多。
由于业务端通过拍照或扫描等方式获取待识别的票据图片,可能因拍摄角度或是光线等问题,导致图片的识别程度不高,此时需对待识别的图片进行预处理。
在一实施例中,如图7所示,图片预处理单元101包括:
图片偏斜调整单元1011,用于通过霍夫直线检测对待识别的票据图片进行偏斜调整,得到偏斜调整后图片;
图片光照调整1012,用于通过直方图均衡化对偏斜调整后图片进行光照调整,得到预处理后票据图片。
在本实施例中,霍夫直线检测采用霍夫变换来实现。霍夫变换是图像变换中的经典手段之一,主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。霍夫变换寻找直线与圆的方法相比于其它方法,可以更好的减少噪声干扰。经典的霍夫变换常用来检测直线,圆,椭圆等。
然而在图像处理领域,图像的像素坐标P(x,y)是已知的,而图像的所对应的极坐标中r,theta则是需寻找的变量。如果可能绘制每个(r,theta)值,根据像素点坐标P(x,y)值的话,那么就从图像笛卡尔坐标***转换到极坐标霍夫空间***,这种从点到曲线的变换称为直线的霍夫变换。变换通过量化霍夫参数空间为有限个值间隔等分或者累加格子。当霍夫变换算法开始,每个像素坐标点P(x,y)被转换到(r,theta)的曲线点上面,累加到对应的格子数据点,当一个波峰出现时候,说明有直线存在。通过霍夫直线检测对票据图片进行偏斜的调整,对其进行矫正以便于后续的文字识别。
直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。
直方图均衡化的基本思想是把原始图的直方图变换为均匀分布的形式,这样就增加了象素灰度值的动态范围从而可达到增强图像整体对比度的效果。设原始图像在(x,y)处的灰度为f,而改变后的图像为g,则对图像增强的方法可表述为将在(x,y)处的灰度f映射为g。在灰度直方图均衡化处理中对图像的映射函数可定义为:g=EQ(f),这个映射函数EQ(f)必须满足两个条件(其中L为图像的灰度级数):
a)EQ(f)在0≤f≤L-1范围内是一个单值单增函数。这是为了保证增强处理没有打乱原始图像的灰度排列次序,原图各灰度级在变换后仍保持从黑到白(或从白到黑)的排列。
b)对于0≤f≤L-1有0≤g≤L-1,这个条件保证了变换前后灰度值动态范围的一致性。
通过对待识别的票据图片进行偏斜和光照的调整,能有效的提高图片的识别成功率,而且具有良好的鲁棒性。
文本区域识别单元102,用于识别获取预处理后票据图片中所包括的多个文本区域。
在本实施例中,当完成了待识别的票据图片的预处理后,对预处理后票据图片中所包括的文本区域一一进行识别,此时进行文本区域的识别只是判断哪些区域是包括文字的,无需对识别的文本区域中具体包括哪些文字进行识别,也即只对包括文字的区域进行定位,而且针对每一文本区域画出矩形框。由于只是定位文字的区域,而未对所有文字进行识别,降低了计算量,提高了数据处理效率。
在一实施例中,识别获取预处理后票据图片中所包括的多个文本区域,包括:
通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测,得到预处理后票据图片中所包括的多个文本区域。
在本实施例中,通过连接文本提议网络算法(CTPN算法,全称是ConnectionistTextProposal Network)对预处理后票据图片进行文本区域定位。
文本框序列获取单元103,用于获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列。
在本实施例中,获取多个文本区域中每一文本区域的空间坐标时,由于每一文本区域均为矩形的区域,故只需获取每一矩形的文本区域的四个顶点的坐标并串接,即可得到与该文本区域对应的向量。通过对每一矩形的文本区域的四个顶点的坐标进行识别即可实现对所有文本区域的定位。
在一实施例中,如图8所示,文本框序列获取单元103包括:
矩形区域顶点获取单元1031,用于获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;
区域向量获取单元1032,用于将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;
向量串接单元1033,用于根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
在本实施例中,获取多个文本区域中每一文本区域所对应矩形区域,可分别记为第一文本区域-第N文本区域,第一文本区域的左上角顶点的坐标为(x11,y11),第一文本区域的右上角顶点的坐标为(x12,y12),第一文本区域的左下角顶点的坐标为(x13,y13),第一文本区域的右下角顶点的坐标为(x14,y14),将(x11,y11)、(x12,y12)、(x13,y13)及(x14,y14)依序串接得到第一向量box1=[x11y11x12y12x13y13x14y14]。
以此类推第N文本区域所对应第N向量boxN=[xN1yN1xN2yN2xN3yN3xN4yN4]。将第一向量box1、第二向量box2、……、第N向量boxN进行串接,得到文本框序列box1box2box3……boxN。通过上述处理,将待处理的票据图片转化为了简单的文本框序列,通过文本框序列来表示预处理后票据图片中所包括的多个文本区域。
目标子序列获取单元104,用于获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列。
在本实施例中,预先训练的序列标注模型用于对文本框序列中用户感兴趣的区域进行抽取。由于每一类型待识别的票据图片(如公司的业务员与客户签署的保险合同、车辆新车合格证等复杂票据)其采用的文本模板均相同,只是有些用户填写的区域才是需要重点关注的区域。
在一实施例中,如图9所示,目标子序列获取单元104包括:
历史图片分类单元1041,用于获取多个种类的历史票据图片,根据历史票据图片的种类对应分类,得到分类后票据图片;
历史图片预处理单元1042,用于将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整,得到训练数据预处理后票据图片;
历史文本区域获取单元1043,用于识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域;
历史文本框序列获取单元1044,用于获取多个训练数据文本区域中每一训练数据文本区域的空间坐标,将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到训练数据文本框序列;
历史标注单元1045,用于将训练数据文本框序列中所选定的向量进行标注,得到与训练数据文本框序列对应的待提取子序列;
序列标注模型训练单元1046,用于将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入,将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出,对初始序列标注模型进行训练,得到序列标注模型。
其中,序列标注模型可以采用RNN、LSTM、bi-LSTM+crf模型中的任意一种;其中,RNN模型为循环神经网络模型,LSTM模型为长短期记忆模型,bi-LSTM+crf模型是条件随机场和双向循环神经网络的复合模型。
通过上述过程,能得到与类型待识别的票据图片分别对应的序列标注模型。之后训练得到的序列标注模型就可以用于对待识别的票据图片进行感兴趣区域的提取,无需全文本进行文本识别,降低了计算量,提高了文本识别的效率。
文本信息提取单元105,用于将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
在本实施例中,当获取了待提取区域对应的子序列,需对应查找将该子序列中的每一向量对应的文本区域,将上述文本区域采用文字识别模型进行文字抽取,即可得到待提取区域对应的文本信息。
例如,可以采用CRNN模型(即卷积循环神经网络模型)对文本区域(该文本区域可以视为待识别的票据图片中的局部的图片)进行识别,得到需提取区域对应的文本信息。
在一实施例中,如图10所示,文本信息提取单元105包括:
子序列向量提取单元1051,用于获取待提取区域对应的子序列中所包括的向量;
矩形区域提取单元1052,用于获取每一向量在票据图片中对应的矩形区域;
矩形区域文本提取单元1053,用于通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别,得到待提取区域对应的文本信息。
在本实施例中,当获取待提取区域对应的子序列后,即可获知待识别的票据图片中哪些区域对应的文本区域中的文本内容需被抽取,此时仅需针对这些指定的文本区域进行文本识别以提取文本信息即可,避免了对所有的文本区域进行文字识别以提取文本,降低了计算量,提高了处理效率。
该装置中无需对复杂票据的所有文本信息框进行文字抽取和识别,也无需依次计算文字间的关联,减少了计算量,而且能对各种角度、扭曲的票据图片标注数据训练,具有良好的鲁棒性。
上述图片信息提取装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。
参阅图11,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行图片信息提取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行图片信息提取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;识别获取预处理后票据图片中所包括的多个文本区域;获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
在一实施例中,处理器502在执行对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片的步骤时,执行如下操作:通过霍夫直线检测对待识别的票据图片进行偏斜调整,得到偏斜调整后图片;通过直方图均衡化对偏斜调整后图片进行光照调整,得到预处理后票据图片。
在一实施例中,处理器502在执行识别获取预处理后票据图片中所包括的多个文本区域的步骤时,执行如下操作:通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测,得到预处理后票据图片中所包括的多个文本区域。
在一实施例中,处理器502在执行获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列的步骤时,执行如下操作:获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
在一实施例中,处理器502在执行获取预先训练的序列标注模型的步骤之前,还执行如下操作:获取多个种类的历史票据图片,根据历史票据图片的种类对应分类,得到分类后票据图片;将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整,得到训练数据预处理后票据图片;识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域;获取多个训练数据文本区域中每一训练数据文本区域的空间坐标,将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到训练数据文本框序列;将训练数据文本框序列中所选定的向量进行标注,得到与训练数据文本框序列对应的待提取子序列;将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入,将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出,对初始序列标注模型进行训练,得到序列标注模型;其中所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型。
在一实施例中,处理器502在执行将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息的步骤时,执行如下操作:获取待提取区域对应的子序列中所包括的向量;获取每一向量在票据图片中对应的矩形区域;通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别,得到待提取区域对应的文本信息。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;识别获取预处理后票据图片中所包括的多个文本区域;获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
在一实施例中,所述对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片,包括:通过霍夫直线检测对待识别的票据图片进行偏斜调整,得到偏斜调整后图片;通过直方图均衡化对偏斜调整后图片进行光照调整,得到预处理后票据图片。
在一实施例中,所述识别获取预处理后票据图片中所包括的多个文本区域,包括:通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测,得到预处理后票据图片中所包括的多个文本区域。
在一实施例中,所述获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列,包括:获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
在一实施例中,所述获取预先训练的序列标注模型之前,还包括:获取多个种类的历史票据图片,根据历史票据图片的种类对应分类,得到分类后票据图片;将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整,得到训练数据预处理后票据图片;识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域;获取多个训练数据文本区域中每一训练数据文本区域的空间坐标,将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到训练数据文本框序列;将训练数据文本框序列中所选定的向量进行标注,得到与训练数据文本框序列对应的待提取子序列;将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入,将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出,对初始序列标注模型进行训练,得到序列标注模型;其中所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型。
在一实施例中,所述将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息,包括:获取待提取区域对应的子序列中所包括的向量;获取每一向量在票据图片中对应的矩形区域;通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别,得到待提取区域对应的文本信息。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图片信息提取方法,其特征在于,包括:
获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;
识别获取预处理后票据图片中所包括的多个文本区域;
获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;
获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;
将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
2.根据权利要求1所述的图片信息提取方法,其特征在于,所述对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片,包括:
通过霍夫直线检测对待识别的票据图片进行偏斜调整,得到偏斜调整后图片;
通过直方图均衡化对偏斜调整后图片进行光照调整,得到预处理后票据图片。
3.根据权利要求1所述的图片信息提取方法,其特征在于,所述识别获取预处理后票据图片中所包括的多个文本区域,包括:
通过连接文本提议网络算法对预处理后票据图片按预设尺寸的空间窗口进行检测,得到预处理后票据图片中所包括的多个文本区域。
4.根据权利要求1所述的图片信息提取方法,其特征在于,所述获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列,包括:
获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;
将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;
根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
5.根据权利要求1所述的图片信息提取方法,其特征在于,所述序列标注模型为循环神经网络模型、或长短期记忆模型、或条件随机场和双向循环神经网络的复合模型;
所述获取预先训练的序列标注模型之前,还包括:
获取多个种类的历史票据图片,根据历史票据图片的种类对应分类,得到分类后票据图片;
将分类后票据图片中每一类别的票据图片均进行偏斜和光照的调整,得到训练数据预处理后票据图片;
识别获取训练数据预处理后票据图片中所包括的多个训练数据文本区域;
获取多个训练数据文本区域中每一训练数据文本区域的空间坐标,将由每一训练数据文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到训练数据文本框序列;
将训练数据文本框序列中所选定的向量进行标注,得到与训练数据文本框序列对应的待提取子序列;
将与多个训练数据预处理后票据图片一一对应的训练数据文本框序列作为初始序列标注模型的输入,将与多个训练数据预处理后票据图片一一对应的待提取子序列作为输出,对初始序列标注模型进行训练,得到序列标注模型。
6.根据权利要求4所述的图片信息提取方法,其特征在于,所述将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息,包括:
获取待提取区域对应的子序列中所包括的向量;
获取每一向量在票据图片中对应的矩形区域;
通过用于文本识别的卷积循环神经网络模型对矩形区域中文本进行识别,得到待提取区域对应的文本信息。
7.一种图片信息提取装置,其特征在于,包括:
图片预处理单元,用于获取待识别的票据图片,对待识别的票据图片进行偏斜和光照的调整,得到预处理后票据图片;
文本区域识别单元,用于识别获取预处理后票据图片中所包括的多个文本区域;
文本框序列获取单元,用于获取多个文本区域中每一文本区域的空间坐标,将由每一文本区域的空间坐标对应的向量按预设的拼接顺序进行串接,得到文本框序列;
目标子序列获取单元,用于获取预先训练的序列标注模型,将文本框序列作序列标注模型的输入,获取待提取区域对应的子序列;
文本信息提取单元,用于将待提取区域对应的子序列所对应的文本区域进行文本识别,得到待提取区域对应的文本信息。
8.根据权利要求7所述的图片信息提取装置,其特征在于,所述文本框序列获取单元,包括:
矩形区域定位单元,用于获取多个文本区域中每一文本区域所对应矩形区域的四个顶点坐标;
区域向量获取单元,用于将每一矩形区域的四个顶点坐标按预设的顺序串接,得到与每一矩形区域对应的向量;
向量串接单元,用于根据每一矩形区域在待识别的票据图片中的先后顺序,将每一矩形区域对应的向量依序进行串接,得到文本框序列。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的图片信息提取方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的图片信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811236301.9A CN109635627A (zh) | 2018-10-23 | 2018-10-23 | 图片信息提取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811236301.9A CN109635627A (zh) | 2018-10-23 | 2018-10-23 | 图片信息提取方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635627A true CN109635627A (zh) | 2019-04-16 |
Family
ID=66066531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811236301.9A Pending CN109635627A (zh) | 2018-10-23 | 2018-10-23 | 图片信息提取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635627A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162757A (zh) * | 2019-04-29 | 2019-08-23 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及*** |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110263790A (zh) * | 2019-04-18 | 2019-09-20 | 汕头大学 | 一种基于卷积神经网络的电厂电表字符定位和识别方法 |
CN110751143A (zh) * | 2019-09-26 | 2020-02-04 | 中电万维信息技术有限责任公司 | 一种电子***信息的提取方法及电子设备 |
CN110866457A (zh) * | 2019-10-28 | 2020-03-06 | 世纪保众(北京)网络科技有限公司 | 一种电子保单的获得方法、装置、计算机设备和存储介质 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN110909733A (zh) * | 2019-10-28 | 2020-03-24 | 世纪保众(北京)网络科技有限公司 | 基于ocr图片识别的模版定位方法、装置和计算机设备 |
CN111209865A (zh) * | 2020-01-06 | 2020-05-29 | 中科鼎富(北京)科技发展有限公司 | 文件内容提取方法、装置、电子设备及存储介质 |
CN111241974A (zh) * | 2020-01-07 | 2020-06-05 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
CN111291742A (zh) * | 2020-02-10 | 2020-06-16 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
CN111353458A (zh) * | 2020-03-10 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 文本框标注方法、装置和存储介质 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN111652232A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 票据识别方法及装置、电子设备和计算机可读存储介质 |
CN111666937A (zh) * | 2020-04-17 | 2020-09-15 | 广州多益网络股份有限公司 | 一种图像中的文本识别方法及*** |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及*** |
CN111858994A (zh) * | 2019-04-26 | 2020-10-30 | 深圳市蓝灯鱼智能科技有限公司 | 文字检索方法和装置 |
CN111950353A (zh) * | 2020-06-30 | 2020-11-17 | 深圳市雄帝科技股份有限公司 | ***文本识别方法、装置及电子设备 |
CN112036406A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种图像文档的文本抽取方法、装置及电子设备 |
CN112101356A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种图片中特定文本的定位方法、装置及存储介质 |
CN112257712A (zh) * | 2020-10-29 | 2021-01-22 | 湖南星汉数智科技有限公司 | 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质 |
CN112541443A (zh) * | 2020-12-16 | 2021-03-23 | 平安科技(深圳)有限公司 | ***信息抽取方法、装置、计算机设备及存储介质 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113112567A (zh) * | 2021-04-16 | 2021-07-13 | 中国工商银行股份有限公司 | 生成可编辑流程图的方法、装置、电子设备和存储介质 |
CN113657279A (zh) * | 2021-08-18 | 2021-11-16 | 北京玖安天下科技有限公司 | 一种票据类图像版面解析方法及装置 |
CN113688268A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 图片信息抽取方法、装置、计算机设备及存储介质 |
CN113850268A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
WO2022142627A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 地址信息的提取方法、装置、设备及介质 |
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
-
2018
- 2018-10-23 CN CN201811236301.9A patent/CN109635627A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
ZHI TIAN ET.AL: "Detecting Text in Natural Image with Connectionist Text Proposal Network", ARXIV, pages 1 - 16 * |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263790A (zh) * | 2019-04-18 | 2019-09-20 | 汕头大学 | 一种基于卷积神经网络的电厂电表字符定位和识别方法 |
CN111858994A (zh) * | 2019-04-26 | 2020-10-30 | 深圳市蓝灯鱼智能科技有限公司 | 文字检索方法和装置 |
CN110162757A (zh) * | 2019-04-29 | 2019-08-23 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及*** |
CN110162757B (zh) * | 2019-04-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及*** |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110751143A (zh) * | 2019-09-26 | 2020-02-04 | 中电万维信息技术有限责任公司 | 一种电子***信息的提取方法及电子设备 |
CN110866457A (zh) * | 2019-10-28 | 2020-03-06 | 世纪保众(北京)网络科技有限公司 | 一种电子保单的获得方法、装置、计算机设备和存储介质 |
CN110909733A (zh) * | 2019-10-28 | 2020-03-24 | 世纪保众(北京)网络科技有限公司 | 基于ocr图片识别的模版定位方法、装置和计算机设备 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN110866495B (zh) * | 2019-11-14 | 2022-06-28 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN111209865A (zh) * | 2020-01-06 | 2020-05-29 | 中科鼎富(北京)科技发展有限公司 | 文件内容提取方法、装置、电子设备及存储介质 |
CN111241974B (zh) * | 2020-01-07 | 2023-10-27 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
CN111241974A (zh) * | 2020-01-07 | 2020-06-05 | 深圳追一科技有限公司 | 票据信息获取方法、装置、计算机设备和存储介质 |
US11995905B2 (en) * | 2020-02-10 | 2024-05-28 | Beijing Baidu Netcom Science Technology Co., Ltd. | Object recognition method and apparatus, and electronic device and storage medium |
EP3979129A4 (en) * | 2020-02-10 | 2023-07-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | OBJECT RECOGNITION METHOD AND DEVICE, AND ELECTRONIC DEVICE AND STORAGE MEDIA |
KR20210113620A (ko) * | 2020-02-10 | 2021-09-16 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 객체 인식 방법과 장치, 전자기기, 저장매체 |
CN111291742A (zh) * | 2020-02-10 | 2020-06-16 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
KR102610456B1 (ko) * | 2020-02-10 | 2023-12-06 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 객체 인식 방법과 장치, 전자기기, 저장매체 |
JP7389824B2 (ja) | 2020-02-10 | 2023-11-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | オブジェクト識別方法と装置、電子機器及び記憶媒体 |
WO2021159843A1 (zh) * | 2020-02-10 | 2021-08-19 | 北京百度网讯科技有限公司 | 对象识别方法和装置、电子设备、存储介质 |
JP2022536320A (ja) * | 2020-02-10 | 2022-08-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | オブジェクト識別方法と装置、電子機器及び記憶媒体 |
CN111353458B (zh) * | 2020-03-10 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 文本框标注方法、装置和存储介质 |
CN111353458A (zh) * | 2020-03-10 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 文本框标注方法、装置和存储介质 |
CN111666937A (zh) * | 2020-04-17 | 2020-09-15 | 广州多益网络股份有限公司 | 一种图像中的文本识别方法及*** |
CN111582085B (zh) * | 2020-04-26 | 2023-10-10 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
CN111652232A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 票据识别方法及装置、电子设备和计算机可读存储介质 |
CN111652232B (zh) * | 2020-05-29 | 2023-08-22 | 泰康保险集团股份有限公司 | 票据识别方法及装置、电子设备和计算机可读存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
EP3836016A1 (en) * | 2020-06-09 | 2021-06-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Recognizing invoice images |
KR20210152931A (ko) * | 2020-06-09 | 2021-12-16 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 어음 이미지 인식 방법, 장치, 기기 및 저장 매체 |
US11854246B2 (en) | 2020-06-09 | 2023-12-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and storage medium for recognizing bill image |
KR102612295B1 (ko) * | 2020-06-09 | 2023-12-12 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 어음 이미지 인식 방법, 장치, 기기 및 저장 매체 |
CN111709339B (zh) * | 2020-06-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及*** |
CN111950353B (zh) * | 2020-06-30 | 2024-04-19 | 深圳市雄帝科技股份有限公司 | ***文本识别方法、装置及电子设备 |
CN111950353A (zh) * | 2020-06-30 | 2020-11-17 | 深圳市雄帝科技股份有限公司 | ***文本识别方法、装置及电子设备 |
CN112101356A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种图片中特定文本的定位方法、装置及存储介质 |
CN112257712B (zh) * | 2020-10-29 | 2024-02-27 | 湖南星汉数智科技有限公司 | 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质 |
CN112257712A (zh) * | 2020-10-29 | 2021-01-22 | 湖南星汉数智科技有限公司 | 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质 |
CN112036406A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种图像文档的文本抽取方法、装置及电子设备 |
CN112541443A (zh) * | 2020-12-16 | 2021-03-23 | 平安科技(深圳)有限公司 | ***信息抽取方法、装置、计算机设备及存储介质 |
CN112541443B (zh) * | 2020-12-16 | 2024-05-10 | 平安科技(深圳)有限公司 | ***信息抽取方法、装置、计算机设备及存储介质 |
WO2022142627A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 地址信息的提取方法、装置、设备及介质 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN112818823B (zh) * | 2021-01-28 | 2024-04-12 | 金科览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113112567A (zh) * | 2021-04-16 | 2021-07-13 | 中国工商银行股份有限公司 | 生成可编辑流程图的方法、装置、电子设备和存储介质 |
CN113657279B (zh) * | 2021-08-18 | 2023-05-05 | 北京玖安天下科技有限公司 | 一种票据类图像版面解析方法及装置 |
CN113657279A (zh) * | 2021-08-18 | 2021-11-16 | 北京玖安天下科技有限公司 | 一种票据类图像版面解析方法及装置 |
CN113688268A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 图片信息抽取方法、装置、计算机设备及存储介质 |
CN113688268B (zh) * | 2021-08-31 | 2024-04-02 | 中国平安人寿保险股份有限公司 | 图片信息抽取方法、装置、计算机设备及存储介质 |
CN113850268A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
CN113850268B (zh) * | 2021-09-29 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN114821568B (zh) * | 2022-06-27 | 2022-09-16 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635627A (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
CN109508681B (zh) | 生成人体关键点检测模型的方法和装置 | |
US20220092882A1 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
KR102629380B1 (ko) | 실제 3차원 객체를 실제 객체의 2-차원 스푸프로부터 구별하기 위한 방법 | |
Fang et al. | Bottom-up saliency detection model based on human visual sensitivity and amplitude spectrum | |
CN105917353B (zh) | 用于生物认证的特征提取及匹配以及模板更新 | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
CN111860398B (zh) | 遥感图像目标检测方法、***及终端设备 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN108846385B (zh) | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN117597703A (zh) | 用于图像分析的多尺度变换器 | |
CN112651333B (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN108288064B (zh) | 用于生成图片的方法和装置 | |
CN110599455A (zh) | 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质 | |
CN109816694A (zh) | 目标跟踪方法、装置及电子设备 | |
CN109285181A (zh) | 用于识别图像的方法和装置 | |
CN109492601A (zh) | 人脸比对方法及装置、计算机可读介质和电子设备 | |
CN112085094A (zh) | 单证图像翻拍检测方法、装置、计算机设备和存储介质 | |
CN116311214A (zh) | 车牌识别方法和装置 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN117037244A (zh) | 人脸安全检测方法、装置、计算机设备和存储介质 | |
CN111274447A (zh) | 基于视频的目标表情生成方法、装置、介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |