CN112101356A - 一种图片中特定文本的定位方法、装置及存储介质 - Google Patents
一种图片中特定文本的定位方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112101356A CN112101356A CN202011035795.1A CN202011035795A CN112101356A CN 112101356 A CN112101356 A CN 112101356A CN 202011035795 A CN202011035795 A CN 202011035795A CN 112101356 A CN112101356 A CN 112101356A
- Authority
- CN
- China
- Prior art keywords
- picture
- specific text
- training sample
- text
- value vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 125
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000013135 deep learning Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000013145 classification model Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 238000007639 printing Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本说明书实施例提供一种图片中特定文本的定位方法、装置及存储介质,所述方法包括:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域和非特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位,从而提高对特定文本定位的准确性。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图片中特定文本的定位方法、装置及存储介质。
背景技术
在银行日常业务中,存在大量的手写或者机打凭证单据,例如***申请书、外汇交易申请书等。这些纸质单据在业务处理过程中,会被扫描影像化并传输至后台集中作业中心进行录入。由于业务量较大,录入要素数量多,在流程中会加入OCR识别替代部分人工录入工作。
目前主流的OCR识别技术一般分为两个步骤,第一步定位出需要识别的文本区域,即找到识别的文本行;第二步截取区域内的文本行图片,使用识别模型识别出文本内容,即OCR识别的最小单元为一个文本行。
对于定位出需要识别的文本区域,目前主要通过模板定义的方式。模板定义的方式是针对每种不同类型的单据凭证定义一套模板参数,参数中包含每个识别要素的名称、坐标值,在识别过程中通过参数直接按坐标从图片中截取要素切片。
由于不同银行单据凭证的版面设计不一样,而且存在书写、打印偏移等因素,会导致基于模板定义的方式切出来的要素位置不准确,例如切片中只包含部分内容,或者切片中包含其他无关信息,这样会大大降低识别准确率。
发明内容
本说明书实施例的目的是提供一种图片中特定文本的定位方法、装置及存储介质,以提高对特定文本定位的准确性。
为解决上述问题,本说明书实施例提供一种图片中特定文本的定位方法,所述方法包括:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
为解决上述问题,本说明书实施例还提供一种图片中特定文本的定位装置,所述装置包括:获取模块,用于获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取模块,用于提取所述训练样本中图片的特征值向量;计算模块,用于基于提取的所述训练样本中每个图片的特征值向量所述训练样本中特定文本区域的归类条件;定位模块,用于基于所述归类条件对待定位图片中的特定文本进行定位。
为解决上述问题,本说明书实施例还提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
为解决上述问题,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,可以获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。本说明书实施例提供的方法,通过一次文本检测即可以直接定位到需要识别的特定文本位置坐标,运行速度快,效率高,且无需通过识别印刷模板固定标志来推导对应的特定文本位置,特定文本定位更准确。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例票据的示意图;
图2为本说明书实施例一种图片中特定文本的定位方法的流程图;
图3为本说明书实施例图片中特定区域的示意图;
图4为本说明书实施例一种电子设备的功能结构示意图;
图5为本说明书实施例一种图片中特定文本的定位装置的功能结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
大型企业、机构、银行、医院、保险等行业都有海量的票据需要进行信息采集、录入以及电子化存档。采用OCR技术对这些票据进行识别,完成信息的采集可以极大提高票据信息的采集效率。然而票据中并不是所有信息都是需要采集的。例如票据通常可以包括固定印刷内容,以及手写或打印内容,其中,固定印刷内容为票据固定包括的内容,手写或打印的部分为用户填写或者根据用户提供的信息生成。票据中手写或打印的部分即为通常需要采集的信息。如图1所示,中国建设银行储蓄存单票据中通常包括固定印刷的内容,如“账号”、“户名”、“币种”等,以及包括手写或打印内容,例如在“账号”、“户名”、“币种”等后面的空白部分由用户手写或根据用户提供的信息生成的打印内容。因此,在使用OCR技术对这些票据进行识别过程中,首先需要定位出需要识别的文本区域,即找到识别的文本行;第二步截取区域内的文本行图片,使用识别模型识别出文本内容,即OCR识别的最小单元为一个文本行。
对于定位出需要识别的文本区域,目前主要通过模板定义的方式。模板定义的方式是针对每种不同类型的单据凭证定义一套模板参数,参数中包含每个识别要素的名称、坐标值,在识别过程中通过参数直接按坐标从图片中截取要素切片。然而由于不同银行单据凭证的版面设计不一样,而且存在书写、打印偏移等因素,会导致基于模板定义的方式切出来的要素位置不准确,例如切片中只包含部分内容,或者切片中包含其他无关信息,这样会大大降低识别准确率。
随着机器学***移不变分类。
虽然基于深度学习的主流文本检测模型能够检测出图片中所有的文本,但无法区分哪些是单据凭证固定印刷的内容,哪些是手写或打印上去的要素信息,需要通过通用识别将所有定位出来的文本识别出来,然后根据单据上的固定内容、位置关系等信息推导出哪些是需要识别提取的要素,因此可能会出现由于识别错误而导致推导错误,而且图片上的所有文本识别也会影响整体效率。
考虑到如果对大量图片中特定文本进行坐标标注,将标注后的图片作为训练样本,根据图片中已标注的文本的特征信息和未标注的文本的特征信息得出特定文本区域和非特定文本区域的归类条件,进而可以根据该归类条件对待识别的图片中的特定文本进行识别,则有望避免现有技术中,切片中包含其他无关信息,以及避免无法区分哪些是单据凭证固定印刷的内容,哪些是手写或打印上去的特定文本的问题,提高对特定文本定位的准确性。为此,本说明书实施例提供了一种图片中特定文本的定位方法。
请参阅图2。本说明书实施例提供一种图片中特定文本的定位方法。在本说明书实施例中,执行所述图片中特定文本的定位方法的主体可以是具有逻辑运算功能的电子设备,所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然,所述服务器并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的***。或者,服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。
S210:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片。
在一些实施例中,所述图片可以为电子文件,如格式为pdf、jpg、png等的图片文件。所述图片也可以是通过扫描仪、数码相机等设备对所述纸质文件进行扫描,得到对应的电子文件。其中,所述纸质文件可以是各种票据、报刊、书籍、文稿及其他印刷品等文件。
在一些实施例中,所述特定文本可以是图片中的全部文本或部分文本。若所述图片为票据类的文件,然而票据中并不是所有信息都是需要采集的。例如票据通常可以包括固定印刷内容,以及手写或打印内容,其中,固定印刷内容为票据固定包括的内容,手写或打印的部分为用户填写或者根据用户提供的信息生成。对于票据中的固定印刷内容,并不需要进行专门的采集,而对于手写或打印的部分的内容进行信息采集、录入以及电子化存档。因此,对于票据类的图片,所述特定文本可以为手写或打印的部分对应的文本。如图1所示,中国建设银行储蓄存单票据中通常包括固定印刷的内容,如“账号”、“户名”、“币种”等,以及包括手写或打印内容,例如在“账号”、“户名”、“币种”等后面的空白部分由用户手写或根据用户提供的信息生成的打印内容,所述特定文本可以为“账号”、“户名”、“币种”等后面的空白部分的内容。
例如对于报刊、书籍等类型的图片,特定文本可以是标题内容。当然,根据图片的类型不同,或者根据用户不同的需要,可以选择图片中任意部分的文本作为特定文本。本说明书实施例对此不作限定。
在一些实施例中,可以预先获取预设数量的图片,并对图片中特定文本区域进行坐标标注,即标注特定文本区域在所述图片中的坐标。具体的,如图3所示,图片中每个特定文本区域可以用矩形框模拟表示,因此,矩形框的四个顶点坐标可以表示特定文本区域的坐标。当然,每个特定文本区域也不限于采用矩形框的顶点坐标表示,也可以采用便于标记的其他多边形顶点坐标表示。本说明书实施例对如何对图片中特定文本区域进行坐标标注不作限定。
在一些实施例中,获取的预设数量的图片为同一类型的图片,例如都为票据类图片、都为报刊或者都为书籍等类型的图片。
在一些实施例中,可以将预设数量进行了特定文本区域坐标标注的图片作为训练样本。服务器可以通过以下方式获取预设数量的训练样本:用户可以在所述服务器中导入预设数量的训练样本。所述服务器可以接受导入的预设数量的训练样本。例如,所述服务器可以向用户提供交互界面,用户可以在所述交互界面中导入预设数量的训练样本。所述服务器可以获取预设数量的训练样本。或者,用户还可以在客户端中导入预设数量的训练样本。所述客户端可以接收用户导入的预设数量的训练样本。客户端可以向所述服务器发送预设数量的训练样本。所述服务器可以获取预设数量的训练样本。例如,所述客户端可以向用户提供交互界面,用户可以在所述交互界面中导入预设数量的训练样本,从而使得所述客户端可以接收用户导入的预设数量的训练样本,并向所述服务器发送预设数量的训练样本。所述客户端例如可以为智能手机、平板电脑、笔记本电脑、台式电脑等等。所述客户端能够与所述服务器进行通信,例如可以通过有线网络和/或无线网络与所述服务器进行通信。当然,所述服务器还可以通过其他方式获取预设数量的训练样本,在本说明书实施例中,对服务器采用何种方式获取预设数量的训练样本不作限定。
S220:提取所述训练样本中图片的特征值向量。
在一些实施例中,所述特征值向量包括像素值向量。具体的,一幅图片一般可以由多个像素组成后体现。例如,显示器上显示的图片,是通过显示器屏幕上每个能够显示不同色彩的发光元件通电后的显示功能,最终使得屏幕上众多这样的发光元件组合起来还原显示出图片。当显示器屏幕显示的图片是原始分辨率时,显示器屏幕上用于显示的图片的每一元件对应图片上的每一像素。
若图片为彩色的图片,则每个发光元件通电后显示的色彩,取决于图片中对应像素的RGB值。RGB色彩模式是工业界的一种颜色标准,是通过对红(Red,R)、绿(Green,G)、蓝(Blue,B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,也成为三原色。这个色彩模式几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色***之一。常用的一种RGB标准中,R、G、B每个颜色的量用0-255之间的1个十进制数表示(对应二进制数00000000~11111111)。另外一种网页中常用的RGB标准中,将一个像素的RGB值用一个6位的十六进制数标识,如#000000的形式。本领域技术人员容易知道,一个像素的RGB色彩每个颜色的量用0-255之间的1个十进制数标识,可以转换为用一个6位的十六进制数表示,即存在不同表示方式中存在一一对应关系。总体来说,这些标准中的对应份数的红色(R)、绿色(G)和蓝色(B)混合后得到该像素的最终显示颜色。
在一些实施例中,可以提取所述图片中每个像素的RGB值,并将提取的RGB值按照一定顺序排序,例如按照像素编号排序,从而可以构成该图片的特征值向量。
若图片为灰度的图片,则显示器上每个发光元件通电后显示的灰度色彩,取决于图片中对应像素的RGB值。这时,这类灰度像素的RGB值具有一定规律。常用的一种标准中,灰度值的R、G、B取值相等。这样,利用这个标准,通常可以将灰度分为256级,表示黑白图像中点的颜色深度。也可以用其它方式来表示灰度值,例如通过1byte的数据来表示。这时,这个1byte的数据每一位上的取值与RGB值具有一定的对应关系。这样,提取所述图片中每个像素的灰度值,并将提取的灰度值按照像素编号顺序排序,也可以得到图片的特征值向量。
在一些实施例中,可以对于训练样本中每个图片均做上述处理,即提取每个图片的特征值向量。
在一些实施例中,由于不同图片可能具有不同的分辨率。例如,一些图片的分辨率可能为300*160,一些图片的分辨率可能是320*150。因此,为提高图片的特征向量提取的准确性,可以将训练样本中的图片设置为相同的分辨率。具体的,可以以训练样本中的第一个图片的像素为基准,将后续图片的像素均设置为与第一个图片相同的像素。例如第一个图片的像素为300*160,则可以将训练样本中的其他图片均的像素均设置为300*160。或者还可以预先设定一个像素,将训练样本中的图片均设置为预设的像素。例如,预先设置的像素为320*150,则可以将训练样本中图片的像素均设置为320*150。
在一些实施例中,在将训练样本中的图片设置为同一像素后,提取所述训练样本中图片的特征值向量。
S230:基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件。
对于图片中特定文本区域的位置,可以基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件。例如,不同图片或者相同图片中特定文本区域的特征向量是具有相似性的,不同图片或者相同图片中特定文本区域和非特定文本区域的特征向量是不同或者是不相似的。因此,可以基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件。
在一些实施例中,可以采用深度学习算法计算所述训练样本中特定文本区域的归类条件。具体的,可以采用深度学习算法构建一个分类模型。例如,可以采用线性回归算法、逻辑回归算法、决策树算法或支持向量机算法算法构建分类模型。当然,还可以采用其他任意深度学习算法来构建分类模型,本说明书实施例对此不作限定。
在一些实施例中,可以将所述训练样本中图片的特征值向量作为输入,对所述分类模型进行训练,所述分类模型可以基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件。
S240:基于所述归类条件对待定位图片中的特定文本进行定位。
在一些实施例中,可以根据所述归类条件确定出图片中的哪些区域为特征文本区域,并确定所述特征文本区域在图片中的位置坐标。具体的,所述基于所述归类条件对待定位图片中的特定文本进行定位可以包括以下步骤。
S241:提取所述待定位图片的特征值向量。
具体的,对所述待定位图片的特征值向量进行提取的步骤可以参照S120.
S241:基于所述归类条件计算所述待定位图片的特征值向量的归类值。
在一些实施例中,可以根据所述归类条件计算所述待定位图片的特征值向量的归类值。具体的,待定位图片不同区域的特征值向量是不同的,例如特定文本区域和图片中的其他区域,根据所述归类条件可以计算得到述待定位图片的特征值向量的归类值。所述归类值指向特定文本所在的区域。所述归类值可以为待识别图片中特定文本区域的坐标,例如归类值的形式可以为(a,b),其中,a表示特定文本区域的横坐标,b表示特定文本区域的纵坐标。当然,由于待识别图片中特定文本区域可能为一个,也可能为多个,因此所述归类值可以为一个坐标也可以为多个坐标。所述归类值也可以为能够表征待识别图片中特定文本区域坐标的值,例如,所述归类值可以用数字或者字母表示。具体的,可以将待识别图片划分为多个区域,每个区域有对应的数字或者字母表示,例如可以将待识别图片划为3个区域,数字1、2、3可以根本代表每个区域,所述归类值可以为数字1、2、3中的一个或多个。
S241:根据所述归类值确定所述待定位图片中特定文本区域的坐标。
在一些实施例中,不论所述归类值为上述哪种表现形式,均可以根据所述归类值确定所述待定位图片中特定文本区域的坐标。
在一些实施例中,所述方法还可以包括根据所述待定位图片中特定文本区域的坐标对所述特定文本区域进行OCR识别,将所述特定文本区域中的特定文本转换为预设文本格式输出。
在一些实施例中,图片中可能包括多个不同的特定文本区域,每个特定文本的内容不同。例如,中国建设银行储蓄存单票据中通常包括固定印刷的内容,如“账号”、“户名”、“币种”等,以及包括手写或打印内容,例如在“账号”、“户名”、“币种”等后面的空白部分由用户手写或根据用户提供的信息生成的打印内容。其中,手写或打印内容为特定文本,账号信息、户名信息、币种信息等类型的特定文本在不同的区域。但是,在一些场景中,并不是所有的特定文本都是需要采集的信息,可能只需要针对某一个或者多个特定文本进行信息采集。因此,为提高信息采集的效率,所述训练样本中的图片还标注有特定文本的类别信息;相应的,所述方法还包括:基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本的类别划分条件;基于所述归类条件和所述类别划分条件对待定位图片中的特定文本进行定位,并确定所述特定文本的类别。
在一些实施例中,所述类别信息可以表征特定文本的内容信息类型。所述类别信息包括姓名、账号、金额。当然,所述类型信息还可以包括其他信息,如币种、日期等信息。本说明书实施例对类型信息不作限定。
在一些实施例中,同一类别特征文本的特定文本区域的特征向量是具有相似性的,因此,可以基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本的类别划分条件。
在一些实施例中,可以采用深度学习算法计算所述训练样本中特定文本的类别划分条件。具体的,可以采用深度学习算法构建一个分类模型。例如,可以采用线性回归算法、逻辑回归算法、决策树算法或支持向量机算法算法构建分类模型。当然,还可以采用其他任意深度学习算法来构建分类模型,本说明书实施例对此不作限定。
在一些实施例中,可以将所述训练样本中图片的特征值向量作为输入,对所述分类模型进行训练,所述分类模型可以基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本的类别划分条件。
在一些实施例中,可以根据所述类别划分条件待识别图片中特定文本区域的特征向量的类别划分值,再根据所述类别划分值确定特定文本的类别。其中,所述类别划分值可以表征特征文本的类别。例如所述类别划分值可以通过数字表示,1表示姓名类别的特征文本,2表示账号类别的特征文本等。当然,所述类别划分值还可以通过字母、字母与数字的组合,或者其他任意方式表示,本说明书实施例对此不作限定。
在一些实施例中,所述方法还可以包括:获取所述待定位图片中预设类别的特定文本区域的坐标;根据所述坐标对所述预设类别的特定文本区域进行OCR识别,将所述特定文本区域中的特定文本转换为预设文本格式输出。
本说明书实施例提供的方法,可以获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。本说明书实施例提供的方法,通过一次文本检测即可以直接定位到需要识别的特定文本位置坐标,运行速度快,效率高,且无需通过识别印刷模板固定标志来推导对应的特定文本位置,特定文本定位更准确。
图4为本说明书实施例一种电子设备的功能结构示意图,所述电子设备可以包括存储器和处理器。
在一些实施例中,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现图片中特定文本的定位方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据用户终端的使用所创建的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
在本说明书实施例中,该电子设备具体实现的功能和效果,可以与其它实施例对照解释,在此不再赘述。
图5为本说明书实施例一种图片中特定文本的定位装置的功能结构示意图,该装置具体可以包括以下的结构模块。
获取模块510,用于获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;
提取模块520,用于提取所述训练样本中图片的特征值向量;
计算模块530,用于基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;
定位模块540,用于基于所述归类条件对待定位图片中的特定文本进行定位。
本说明书实施例还提供了一种图片中特定文本的定位方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
在本说明书实施例中,上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块,所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据用户终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。在本说明书实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (15)
1.一种图片中特定文本的定位方法,其特征在于,所述方法包括:
获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;
提取所述训练样本中图片的特征值向量;
基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;
基于所述归类条件对待定位图片中的特定文本进行定位。
2.根据权利要求1所述的方法,其特征在于,所述特定文本包括用户填写的手写文本、根据用户提供的信息生成的打印文本中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述特征值向量包括像素值向量。
4.根据权利要求1所述的方法,其特征在于,在提取所述训练样本中图片的特征值向量之前,将获取的训练样本中图片的像素设置为预设的像素。
5.根据权利要求1所述的方法,其特征在于,所述基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域和非特定文本区域的归类条件包括:
基于提取的所述训练样本中每个图片的特征值向量,通过深度学习算法计算所述训练样本中特定文本区域的归类条件。
6.根据权利要求5所述的方法,其特征在于,所述深度学习算法包括线性回归算法、逻辑回归算法、决策树算法、支持向量机算法中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述基于所述归类条件对待定位图片中的特定文本进行定位包括:
提取所述待定位图片的特征值向量;
基于所述归类条件计算所述待定位图片的特征值向量的归类值;
根据所述归类值确定所述待定位图片中特定文本区域的坐标。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待定位图片中特定文本区域的坐标对所述特定文本区域进行OCR识别,将所述特定文本区域中的特定文本转换为预设文本格式输出。
9.根据权利要求1所述的方法,其特征在于,所述训练样本中的图片还标注有特定文本的类别信息;
相应的,所述方法还包括:
基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本的类别划分条件;
基于所述归类条件和所述类别划分条件对待定位图片中的特定文本进行定位,并确定所述特定文本的类别。
10.根据权利要求9所述的方法,其特征在于,所述类别信息表征特定文本的内容信息类型。
11.根据权利要求10所述的方法,其特征在于,所述类别信息包括姓名、账号、金额中的至少一种。
12.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取所述待定位图片中预设类别的特定文本区域的坐标;
根据所述坐标对所述预设类别的特定文本区域进行OCR识别,将所述特定文本区域中的特定文本转换为预设文本格式输出。
13.一种图片中特定文本的定位装置,其特征在于,所述装置包括:
获取模块,用于获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;
提取模块,用于提取所述训练样本中图片的特征值向量;
计算模块,用于基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;
定位模块,用于基于所述归类条件对待定位图片中的特定文本进行定位。
14.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现:获取预设数量的训练样本;所述训练样本为对图片中特定文本区域进行了坐标标注的图片;提取所述训练样本中图片的特征值向量;基于提取的所述训练样本中每个图片的特征值向量计算所述训练样本中特定文本区域的归类条件;基于所述归类条件对待定位图片中的特定文本进行定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035795.1A CN112101356A (zh) | 2020-09-27 | 2020-09-27 | 一种图片中特定文本的定位方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035795.1A CN112101356A (zh) | 2020-09-27 | 2020-09-27 | 一种图片中特定文本的定位方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101356A true CN112101356A (zh) | 2020-12-18 |
Family
ID=73782711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035795.1A Pending CN112101356A (zh) | 2020-09-27 | 2020-09-27 | 一种图片中特定文本的定位方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569834A (zh) * | 2021-08-05 | 2021-10-29 | 五八同城信息技术有限公司 | 营业执照识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868768A (zh) * | 2015-01-20 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 一种识别图片是否带有特定标记的方法及*** |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、***及计算机可读存储介质 |
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
KR20190095651A (ko) * | 2018-02-07 | 2019-08-16 | 삼성에스디에스 주식회사 | 문자 학습 트레이닝 데이터 생성 장치 및 그 방법 |
CN110443270A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 图表定位方法、装置、计算机设备及计算机可读存储介质 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-27 CN CN202011035795.1A patent/CN112101356A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868768A (zh) * | 2015-01-20 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 一种识别图片是否带有特定标记的方法及*** |
KR20190095651A (ko) * | 2018-02-07 | 2019-08-16 | 삼성에스디에스 주식회사 | 문자 학습 트레이닝 데이터 생성 장치 및 그 방법 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、***及计算机可读存储介质 |
CN110766014A (zh) * | 2018-09-06 | 2020-02-07 | 邬国锐 | 票据信息定位方法、***及计算机可读存储介质 |
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
CN110443270A (zh) * | 2019-06-18 | 2019-11-12 | 平安科技(深圳)有限公司 | 图表定位方法、装置、计算机设备及计算机可读存储介质 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569834A (zh) * | 2021-08-05 | 2021-10-29 | 五八同城信息技术有限公司 | 营业执照识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
US10572725B1 (en) | Form image field extraction | |
US8732570B2 (en) | Non-symbolic data system for the automated completion of forms | |
US9552516B2 (en) | Document information extraction using geometric models | |
US8958644B2 (en) | Creating tables with handwriting images, symbolic representations and media images from forms | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
CN110866495A (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
TW565803B (en) | System and method for accurately recognizing text font in a document processing system | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US20210064859A1 (en) | Image processing system, image processing method, and storage medium | |
US11379690B2 (en) | System to extract information from documents | |
US8792730B2 (en) | Classification and standardization of field images associated with a field in a form | |
US20220222284A1 (en) | System and method for automated information extraction from scanned documents | |
CN111797886A (zh) | 通过解析pdl文件为神经网络生成ocr用训练数据 | |
US10169650B1 (en) | Identification of emphasized text in electronic documents | |
Nagy | Disruptive developments in document recognition | |
CN112241727A (zh) | 一种多票识别方法、***及可读存储介质 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
US10095677B1 (en) | Detection of layouts in electronic documents | |
US10586133B2 (en) | System and method for processing character images and transforming font within a document | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
CN114386413A (zh) | 处理数字化的手写 | |
US20220067361A1 (en) | Form processing and analysis system | |
CN112101356A (zh) | 一种图片中特定文本的定位方法、装置及存储介质 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |