CN108304814A - 一种文字类型检测模型的构建方法和计算设备 - Google Patents
一种文字类型检测模型的构建方法和计算设备 Download PDFInfo
- Publication number
- CN108304814A CN108304814A CN201810128155.1A CN201810128155A CN108304814A CN 108304814 A CN108304814 A CN 108304814A CN 201810128155 A CN201810128155 A CN 201810128155A CN 108304814 A CN108304814 A CN 108304814A
- Authority
- CN
- China
- Prior art keywords
- picture
- region
- character area
- original image
- literal type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000005520 cutting process Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000003860 storage Methods 0.000 claims description 8
- 210000000746 body region Anatomy 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种文字类型检测模型的构建方法及文字类型检测方法,适于在计算设备中执行,模型构建方法包括:采集训练图片;将各训练图片扩充为一张方形图片;获取对各方形图片的印刷体文字区域和手写体文字区域进行标注后的结果;根据各训练图片及其标注结果对卷积神经网络进行训练,得到文字类型检测模型。检测方法包括:获取待识别的原始图片,将该原始图片切分为多个子图;采用文字类型检测模型分别检测各子图中的印刷体文字区域和手写体文字区域,得到各文字区域的坐标信息及其文字类型;将分属于不同子图的相临切的同一类型的文字区域进行合并,得到原始图片中的印刷体文字区域和手写体文字区域。本发明还公开了对应的计算设备。
Description
技术领域
本发明涉及图像数据处理领域,尤其涉及一种文字类型检测模型的构建方法、文字类型检测方法和计算设备。
背景技术
随着计算机和互联网技术的发展,人们越来越多的使用自动化设备对学生考试试卷进行阅卷。在试卷分析时中,经常需要识别每个识别区域的文字是手写字体还是印刷字体。目前的文字识别方法通常基于字符颜色或简答的文字特征进行识别。这种方法对图像的质量要求非常高,如果图像有阴影或出现手写浸入和模糊等情况,则会造成检测精度过低的问题。而且,这种方法通常只能基于水平行文字进行分割检测,其对旋转图像的无法进行很好的检测。另外,文字本身具有多种特征,仅基于颜色特征对手写文字的检测区分未能充分挖掘手写文字的特征,进而在一定程度上限制了其检测效果。
因此,需要提供一种更有效的手写体文字和印刷体文字的检测方法。
发明内容
鉴于上述问题,本发明提出了一种文字类型检测模型的构建方法、文字类型检测方法和计算设备,以力图解决或者至少解决上面存在的问题。
根据本发明的一个方面,提供一种文字类型检测模型的构建方法,适于在计算设备中执行,该方法包括:采集训练图片,其中每张训练图片包含有印刷体文字和手写体文字中的至少一种;根据各训练图片的长宽值将各训练图片扩充为一张方形图片;获取对各方形图片的印刷体文字区域和手写体文字区域进行标注后的结果;以及根据各训练图片及其标注结果对卷积神经网络进行训练,得到文字类型检测模型。
可选地,在根据本发明的文字类型检测模型的构建方法中,卷积神经网络包括6层卷积层和2层全连接层。
可选地,在根据本发明的文字类型检测模型的构建方法中,卷积神经网络中中间卷积层的卷积核包括3*3卷积核、5*5卷积核和7*7卷积核,最后的输出层包括印刷体文字区域、手写体文字区域和背景区域3种类别。
可选地,在根据本发明的文字类型检测模型的构建方法中,对方形图片的印刷体文字区域和手写体文字区域进行标注的操作包括:确定该方形图片中的各文本行以及各文本行中的文字区域;逐行对各文本行的文字区域类型进行标注,文字区域类型包括印刷体文字区域和手写体文字区域;以及将各文本行中的各文字区域的坐标信息及其所属的文字类别进行保存。
可选地,在根据本发明的文字类型检测模型的构建方法中,根据图片的长宽值将训练图片扩充为一张方形图片的步骤包括:选取长和宽中的较大值构架一个为白色背景图像,并将该训练图片放在白色背景图像的中心。
根据本发明的又一个方面,提供一种文字类型检测方法,适于在计算设备中执行,计算设备中存储有文字类型检测模型,文字类型检测模型适于采用如上所述的文字类型检测模型的构建方法构建,文字类型检测方法包括:获取待识别文字类型的原始图片,并将该原始图片切分为多个子图,其中各子图不重叠且连接;采用文字类型检测模型分别对每个子图中的印刷体文字区域和手写体文字区域进行检测,得到其中各文字区域的坐标信息及其所属的文字类型;以及分别将分属于不同子图且相临切的同一类型的文字区域进行合并,并将所有子图中的印刷体文字区域集合和手写体文字区域集合作为该原始图片中的印刷体文字区域和手写体文字区域
可选地,在根据本发明的文字类型检测方法中,分别将分属于不同子图且相临切的同一类型的文字区域进行合并的步骤包括:分别获取各子图中的印刷体文字区域和手写体文字区域在对应子图中的第一坐标信息,并将该第一坐标信息转换为基于原始图片的第二坐标信息;根据各文字区域的第二坐标信息检测是否有两个或多个属于同一类型的文字区域相临切,如果有,则合并这些相临切区域,以得到原始图片中的所有印刷体文字区域和手写体文字区域。
可选地,在根据本发明的文字类型检测方法中,将原始图片切分为多个子图的步骤包括:根据原始图片的长宽值将该原始图片扩充为一张方形图片,并将该方形图片切分为多个子图。
可选地,在根据本发明的文字类型检测方法中,文字区域的坐标信息包括该文字区域的左上角顶点坐标和右下角顶点坐标。
可选地,在根据本发明的文字类型检测方法中,若原始图片的左上角顶点在其所在的方形图片中的坐标值为(x,y),该方形图片中某个子图的左上角顶点在该方形图片中的坐标值为(x1,y1),该子图中某文字区域的左上角顶点在该子图中的坐标值为(x2,y2),则该文字区域在该原始图片中的坐标值为(x1+x2-x,y1+y2-y)。
根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,该程序指令被配置为适于由所述至少一个处理器执行,程序指令包括用于执行如上所述的文字类型检测模型的构建方法和/或文字类型检测方法的指令。
根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的文字类型检测模型的构建方法和/或文字类型检测方法。
根据本发明的技术方案,在模型训练过程中,通过采集大量带有印刷体和手写体文字的文本图片,对其进行方形扩充处理,并对其中的印刷体文字区域和手写体文字区域进行人工标注后输入到卷积神经网络中进行学***方向的逐行标注,这样可使后续模型训练能够识别单个行的文字区域,避免了模型整体检测的结果粗糙度,并提高检测的细粒度和精度。
在模型使用过程中,对于待识别的原始图像,可按其实际大小切分为多个子图,并分别检测每个子图中的印刷体文字区域和手写体文字区域。最后,将各子图的印刷体文字区域和手写体文字区域进行合并,即可得到该原始图像的印刷体文字区域和手写体文字区域。这里,将原始图像切分成子图后更加适合区域检测模型的检测,相比于直接在原图上进行识别,能提高识别的细粒度及精度。而对所有子图结果进行合并后,能够更加实际的得到印刷体和手写体文字区域,减少因子图检测中形成的区域碎片,从而得到更加符合原图中文字分布的区域。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的文字类型检测模型的构建方法200的流程图;
图3示出了根据本发明一个实施例的文字类型检测方法300的流程图;
图4A和图4B分别示出了符合模型训练要求的示例图片;
图4C和4D分别示出了不符合模型训练要求的示例图片;
图5A和图5B分别示出了将图片进行方形扩充处理的示意图;
图6示出了根据本发明一个实施例的逐行对各问本行的文字区域进行标注的示意图;
图7示出了根据本发明一个实施例的卷积神经网络的结构示意图;
图8示出了根据本发明一个实施例的将原始图片自适应切分为多个子图的示意图;以及
图9示出了根据本发明一个实施例的基底坐标系变换的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作***上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行文字类型检测模型的构建方法200和/或文字类型检测方法300的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行根据本发明的文字类型检测模型的构建方法200和/或文字类型检测方法300。
图2示出了根据本发明一个实施例的文字类型检测模型的构建方法200,可以在计算设备中执行,如在计算设备100中执行。如图2所示,该方法始于步骤S220。
在步骤S220,采集训练图片,其中每张训练图片包含有印刷体文字和手写体文字中的至少一种。
针对具体的应用场景,可以收集符合该场景下的包含印刷体和/或手写体的文字图片,应当注意图片中的文字行数不宜过多过密,以便于减少后续人工标注的人工成本。图4A和图4B分别示出了符合模型训练要求的示例图片,文本行数及间距比较适当;图4C和4D分别示出了不符合模型训练要求的示例图片;其文本行数过多也过密。
随后,在步骤S240中,根据各训练图片的长宽值将各训练图片扩充为一张方形图片。
通常所采集的训练图片不一定满足后续检测模型的训练要求,因此需要对每一个图片进行方形扩充处理,这样可以减少后续模型训练过程中由于标注区域太小,尺寸不规则的问题使得模型训练效果变差。方形扩充可以根据图片的原始尺寸大小(如长为w宽为h),选取w和h中较大的值构架一个背景为白色的图像,并将图片放在白色图像的中心,这样就将原始图片扩充为一张w*w或h*h的方形图片。图5A和图5B分别示出了两种方形处理示例,其中图5A中的图片宽度w大于高度h,因此将图片按照宽度值w扩充为方形;而图5B中的图片宽度w小于高度h,因此将图片按照高度值h扩充为方形。当然,如果图片本身恰好为方形图片,则不用再进行方形扩充。
随后,在步骤S260中,获取对各方形图片的印刷体文字区域和手写体文字区域进行标注后的结果。
其中,对方形图片的印刷体文字区域和手写体文字区域进行标注的操作包括:确定该方形图片中的各文本行以及各文本行中的文字区域;逐行对各文本行的文字区域类型进行标注,文字区域类型包括印刷体文字区域和手写体文字区域;将各文本行中的各文字区域的坐标信息及其所属的文字类别进行保存。文字区域的坐标信息通常包括文字区域的左上角顶点坐标和右下角顶点坐标,当然也可以选取其他坐标表示方法,如左下角顶点坐标和右上角顶点坐标,或者左上角顶点坐标和区域长宽值,只要能准确表示出一个文字区域的区域位置即可,本发明对此不作限定。另外,应当理解,对文字区域的识别可以采用现有的任意区域识别方法,如采用OCR识别方法,本发明对此不作限制。
图6示出了根据本发明一个实施例的逐行对各问本行的文字区域进行标注的示意图,其4个文本行均为印刷体文字,前3个文本行各有一个文字区域,第4文本行中有四个文字区域。这种逐行标注方法使得后续模型训练能够识别单个行的文字区域,避免了模型整体检测的结果粗糙,能提高检测的细粒度和精度。
随后,在步骤S280中,根据各训练图片及其标注结果对卷积神经网络进行训练,得到文字类型检测模型。
本发明根据一定规模的已有标注的图片集合进行模型训练,具体地,采用方形处理后的图片集合及每张图的标注信息,利用改进的快速区域卷积神经网络的检测模型进行训练。训练模型基于快速区域卷积神经网络(ZF网络)的检测模型进行改造。对于该卷积神经网络的结构和各层内容,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
根据本发明一个实施例,该卷积神经网络包含6层卷积层和2层全连接层,图7示出了该卷积神经网络的结构示意图。考虑到深度神经网络输入的图片尺寸需要固定(不同的图片都要剪裁到指定大小),本发明将输入的w*w或h*h原始图片经过多尺度处理裁剪成统一大小,如均剪裁成224*224大小,这样保证模型能够支持多尺度的图像输入。另外,中间卷积层可增加多种尺寸的卷积核,如3x3卷积核、5x5卷积核和7x7卷积核,卷积层后适当的采用参数丢弃策略,最后输出层的类别数目设定为3,包含印刷体、手写体及背景三个类别。其中,背景处是指的纯白色背景,其像素值为RGB(255,255,255),在神经网络计算中不对原始图片区域产生干扰或影响。当然,关于该卷积神经网络中的各层结构,也可以根据需要设置为其他数值,本发明对此做限制。
如图7所示,该卷积神经网络包含了12层网络结构,其中每一层的代号为Inputlayer(输入数据层)、conv(卷积层)、pool(池化层)、全连接层(fc),输出层(output)。图7中有的全连接层和池化层是一起的,如conv2+pool2、conv3+pool3、conv5+pool5,有的是单独的卷积层没有池化层,如conv1、conv4,conv6。也就是,该卷积神经网络的完整结构为:输入层→第一卷积层→第二卷积层+第二池化层→第三卷积层+第三池化层→第四卷积层→第五卷积层+第五池化层→第六卷积层→第一全连接层→第二全连接层→输出层,每一层的参数如下表所示:
此外,在训练过程中可以采用交叉验证的方式进行模型选择:将整个图片集合分为训练集合、验证集合和测试集合三个部分,在训练集图片上进行训练,根据迭代周期中损失函数的减小来选择适当周期下的训练模型在验证集合上测试检测的性能,并选取在验证集合上表现最好的训练模型作为候选的最佳训练模型。
图3示出了根据本发明一个实施例的文字类型检测方法300,可以在计算设备中执行,如在计算设备100中执行。该计算设备中存储有如上所述的文字类型检测模型,该文字类型检测模型适于采用如上所述的文字类型检测模型方法构建。如图3所示,该方法始于步骤S320。
在步骤S320,获取待识别文字类型的原始图片,并将该原始图片切分为多个子图,其中各子图不重叠且连接。
如前文所述,现有技术中的印刷体手写体文字检测方法对图像要求较高,通常要求是扫描仪扫描得到的高清图像。而本发明提供了一种文字类型检测模型,其可有效降低对图像清晰度的要求。因此,待识别的原始图片可以通过扫描仪获取高清的文字图像,也可以通过手机或照相机获取拍照获取图像。而且,图片获取没有严格的环境要求(如光照、角度和纸张纹理等),只需自然光照下正常拍摄普通无色纸张即可,从而有效提高了文本图像识别的普适性,也降低了图像识别工作量和成本。
原始图片的切分可以采取自适应切分方法,即根据原始图片的长和宽大小对原始图片进行区域划分,各区域不重叠且连接,每个区域当作一个子图(如图8中的图片切分所示)。一般地,可以限定一个子图大小不超过480*320大小,这样一个1920*1280大小的原始图片可以切分为16-20个子图。切分成子图后更加适合区域检测模型的检测,相比于直接在原图上进行识别,能提高识别的细粒度及精度。进一步地,还可以先根据原始图片的长宽值将该原始图片扩充为一张方形图片,再将该方形图片切分为多个子图。其图片方形扩充方法参见前文描述,这里不再赘述。
随后,在步骤S340中,采用文字类型检测模型分别对每个子图中的印刷体文字区域和手写体文字区域进行检测,得到其中各文字区域的坐标信息及其所属的文字类型。也就是对步骤S320切分得到的每个子图逐个进行印刷体及手写体文字区域检测,得到每个子图中的多个印刷体及手写体文字区域的坐标信息,以及每个检测区域的类型(属于印刷体或者手写体区域)。同样地,文字区域的坐标信息包括该文字区域的左上角顶点坐标和右下角顶点坐标,但不限于此,只要能准确表示该文字区域的区域位置即可。
随后,在步骤S360中,分别将分属于不同子图且相临切的同一类型的文字区域进行合并,并将所有子图中的印刷体文字区域集合和手写体文字区域集合作为该原始图片中的印刷体文字区域和手写体文字区域。
对所有子图中的印刷体区域及手写体区域分别进行合并,能够更加实际的得到印刷体和手写体文字区域,减少因为子图检测中形成的区域碎片,从而得到更加符合原图中文字分布的区域。对子图进行合并的规则包括:1)把不同子图中的属于同类型的区域集合在一起,作为原始图片的对应类型的区域;2)由于每个子图中的检测的(印刷体或者手写体)区域信息为基于子图的第一坐标信息,需要将该第一坐标信息映射成基于原始图片的第二坐标信息(涉及了基底坐标系的变换);3)转换成基于原始图片的第二坐标信息后,检测是否有两个或多个区域相临切,如果有重叠,则合并这些区域;4)最后整理得到原始图片的所有的非重叠的印刷体和手写体区域。
根据本发明的一个实施例,若原始图片的左上角顶点在其所在的方形图片中的坐标值为(x,y),该方形图片中某个子图的左上角顶点在该方形图片中的坐标值为(x1,y1),该子图中某文字区域的左上角顶点在该子图中的坐标值为(x2,y2),则该文字区域在该原始图片中的坐标值为(x1+x2-x,y1+y2-y)。
图9示出了根据本发明一个实施例的基底坐标系转换原理示意图,其主要是如何将子图中检测到文字区域的坐标转换成基于方形扩充后的原始w*w或h*h图片中的坐标。如图9所示,对于经过方形扩充(包含白色背景)的图片,文字图片区域只占其中央的部分,该区域的左上角顶点(即左边框五角星位置)坐标为(x,y)。由于本发明进行印刷体/手写体的文字检测是对子图1-4进行的(示例图中将方形扩充的图片切分了4块,当然可以切分成其他数目的子图,比如8个12个或16个等),因此检测到的印刷体或手写体行文字的坐标也是基于子图的,即第一坐标信息。比如,子图2中矩形框的手写文字区域,其左上角顶点坐标为(x2,y2),这个坐标值是相对于子图2的顶点(即图中上边框五角星位置)的,而本发明的目标是将坐标(x2,y2)转换为相对于方形图片中的原始图片顶点(x,y)的坐标值(x2',y2'),即相对于原始图片顶点的第二坐标信息。经过计算可知,x2'=x1+x2-x,y2'=y1+y2-y。
根据本发明的另一个实施例,根据各文字区域的相对于原始图片的第二坐标信息后,即可检测是否有两个或多个区域相临切。这里,相临切通常是指不同的子图边缘有印刷体或者手写体区域相邻,其主要是针对同一文字区域被不同子图所割裂的情况。对于这种被割裂的文字,需要对其进行合并以得到完整的一行文字。一般可以根据两个文字区域的左上角顶点坐标和右下角顶点坐标值来判断是否相邻切,相邻切时通常会有一个横坐标值或纵坐标值相同。如图9中的子图1和子图3的矩形框是相临切的,它们在原始图片中是一个整体的区域,因此需要将其合并。
具体地,可以根据如下方法将相临切的同类型的文字区域进行合并:分别获取各子图中的印刷体文字区域和手写体文字区域在对应子图中的第一坐标信息,并将该第一坐标信息转换为基于原始图片的第二坐标信息;根据各文字区域的第二坐标信息检测是否有两个或多个属于同一类型的文字区域相临切,如果有,则合并这些相临切区域,以得到原始图片中的所有印刷体文字区域和手写体文字区域。这里的合并可以是指取两个或多个文字区域的最大并集区域。
根据本发明的技术方案,对每一个图片进行方形扩充处理后,可以减少后续模型训练过程中由于标注区域太小,尺寸不规则的问题使得模型训练效果变差。对训练图片进行水平方向的逐行标注,使得后续模型训练能够识别单个行的文字区域,避免了模型整体检测的结果粗糙,能提高检测的细粒度和精度。针对本发明中的图片数据集特点,修改网络结果,使用基于改进的快速区域卷积神经网络进行模型训练,使得模型性能更高。切分成子图后更加适合区域检测模型的检测,相比于直接在原图上进行识别,能提高识别的细粒度及精度。对子图中进行合并后能够更加实际的得到印刷体和手写体文字区域,减少因为子图检测中形成的区域碎片,从而得到更加符合原图中文字分布的区域。
B9、如B6-B8中任一项所述的方法,其中,文字区域的坐标信息包括该文字区域的左上角顶点坐标和右下角顶点坐标。
B10、如B7所述的方法,其中,若原始图片的左上角顶点在其所在的方形图片中的坐标值为(x,y),该方形图片中某个子图的左上角顶点在该方形图片中的坐标值为(x1,y1),该子图中某文字区域的左上角顶点在该子图中的坐标值为(x2,y2),则该文字区域在该原始图片中的坐标值为(x1+x2-x,y1+y2-y)。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的文字类型检测模型的构建方法和/或文字类型检测方法。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种文字类型检测模型的构建方法,适于在计算设备中执行,该方法包括:
采集训练图片,其中每张训练图片包含有印刷体文字和手写体文字中的至少一种;
根据各训练图片的长宽值将各训练图片扩充为一张方形图片;
获取对各方形图片的印刷体文字区域和手写体文字区域进行标注后的结果;以及
根据各训练图片及其标注结果对卷积神经网络进行训练,得到所述文字类型检测模型。
2.如权利要求1所述的方法,其中,所述卷积神经网络包括6层卷积层和2层全连接层。
3.如权利要求2所述的方法,其中,所述卷积神经网络中中间卷积层的卷积核包括3*3卷积核、5*5卷积核和7*7卷积核,最后的输出层包括印刷体文字区域、手写体区域和背景区域3种类别。
4.如权利要求1所述的方法,其中,对方形图片的印刷体文字区域和手写体文字区域进行标注的操作包括:
确定该方形图片中的各文本行以及各文本行中的文字区域;
逐行对各文本行的文字区域类型进行标注,所述文字区域类型包括印刷体文字区域和手写体文字区域;以及
将各文本行中的各文字区域的坐标信息及其所属的文字类别进行保存。
5.如权利要求1所述的方法,其中,根据图片的长宽值将训练图片扩充为一张方形图片的步骤包括:
选取长和宽中的较大值构架一个为白色背景图像,并将该训练图片放在白色背景图像的中心。
6.一种文字类型检测方法,适于在计算设备中执行,所述计算设备中存储有文字类型检测模型,所述文字类型检测模型适于采用如权利要求1-5中任一项所述的方法构建,所述文字类型检测方法包括:
获取待识别文字类型的原始图片,并将该原始图片切分为多个子图,其中各子图不重叠且连接;
采用所述文字类型检测模型分别对每个子图中的印刷体文字区域和手写体文字区域进行检测,得到其中各文字区域的坐标信息及其所属的文字类型;以及
分别将分属于不同子图且相临切的同一类型的文字区域进行合并,并将所有子图中的印刷体文字区域集合和手写体文字区域集合作为该原始图片中的印刷体文字区域和手写体文字区域。
7.如权利要求6所述的方法,其中,所述分别将分属于不同子图且相临切的同一类型的文字区域进行合并的步骤包括:
分别获取各子图中的印刷体文字区域和手写体文字区域在对应子图中的第一坐标信息,并将该第一坐标信息转换为基于原始图片的第二坐标信息;
根据各文字区域的第二坐标信息检测是否有两个或多个属于同一类型的文字区域相临切,如果有,则合并这些相临切区域,以得到原始图片中的所有印刷体文字区域和手写体文字区域。
8.如权利要求6所述的方法,其中,将原始图片切分为多个子图的步骤包括:
根据原始图片的长宽值将该原始图片扩充为一张方形图片,并将该方形图片切分为多个子图。
9.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-8中所述的方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-8中所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810128155.1A CN108304814B (zh) | 2018-02-08 | 2018-02-08 | 一种文字类型检测模型的构建方法和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810128155.1A CN108304814B (zh) | 2018-02-08 | 2018-02-08 | 一种文字类型检测模型的构建方法和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304814A true CN108304814A (zh) | 2018-07-20 |
CN108304814B CN108304814B (zh) | 2020-07-14 |
Family
ID=62864779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810128155.1A Active CN108304814B (zh) | 2018-02-08 | 2018-02-08 | 一种文字类型检测模型的构建方法和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304814B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109263271A (zh) * | 2018-08-15 | 2019-01-25 | 同济大学 | 一种基于大数据的印刷设备检测分析方法 |
CN109685055A (zh) * | 2018-12-26 | 2019-04-26 | 北京金山数字娱乐科技有限公司 | 一种图像中文本区域的检测方法及装置 |
CN109740473A (zh) * | 2018-12-25 | 2019-05-10 | 东莞市七宝树教育科技有限公司 | 一种基于阅卷***的图片内容自动标记方法及*** |
CN109766879A (zh) * | 2019-01-11 | 2019-05-17 | 北京字节跳动网络技术有限公司 | 字符检测模型的生成、字符检测方法、装置、设备及介质 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN109977762A (zh) * | 2019-02-01 | 2019-07-05 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN110059559A (zh) * | 2019-03-15 | 2019-07-26 | 深圳壹账通智能科技有限公司 | Ocr识别文件的处理方法及其电子设备 |
CN110321788A (zh) * | 2019-05-17 | 2019-10-11 | 平安科技(深圳)有限公司 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111144191A (zh) * | 2019-08-14 | 2020-05-12 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
CN111191668A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(北京)有限公司 | 一种在病历文本中识别出疾病内容的方法 |
CN111275139A (zh) * | 2020-01-21 | 2020-06-12 | 杭州大拿科技股份有限公司 | 手写内容去除方法、手写内容去除装置、存储介质 |
CN111582267A (zh) * | 2020-04-08 | 2020-08-25 | 北京皮尔布莱尼软件有限公司 | 一种文本检测方法、计算设备及可读存储介质 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102135A1 (en) * | 2003-11-12 | 2005-05-12 | Silke Goronzy | Apparatus and method for automatic extraction of important events in audio signals |
CN104966097A (zh) * | 2015-06-12 | 2015-10-07 | 成都数联铭品科技有限公司 | 一种基于深度学习的复杂文字识别方法 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105809164A (zh) * | 2016-03-11 | 2016-07-27 | 北京旷视科技有限公司 | 文字识别方法和装置 |
CN105956626A (zh) * | 2016-05-12 | 2016-09-21 | 成都新舟锐视科技有限公司 | 基于深度学习的对车牌位置不敏感的车牌识别方法 |
CN106874902A (zh) * | 2017-01-19 | 2017-06-20 | 博康智能信息技术有限公司北京海淀分公司 | 一种车牌信息识别方法及装置 |
CN107346629A (zh) * | 2017-08-22 | 2017-11-14 | 贵州大学 | 一种智能盲人阅读方法及智能盲人阅读器*** |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
-
2018
- 2018-02-08 CN CN201810128155.1A patent/CN108304814B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102135A1 (en) * | 2003-11-12 | 2005-05-12 | Silke Goronzy | Apparatus and method for automatic extraction of important events in audio signals |
CN104966097A (zh) * | 2015-06-12 | 2015-10-07 | 成都数联铭品科技有限公司 | 一种基于深度学习的复杂文字识别方法 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105809164A (zh) * | 2016-03-11 | 2016-07-27 | 北京旷视科技有限公司 | 文字识别方法和装置 |
CN105956626A (zh) * | 2016-05-12 | 2016-09-21 | 成都新舟锐视科技有限公司 | 基于深度学习的对车牌位置不敏感的车牌识别方法 |
CN106874902A (zh) * | 2017-01-19 | 2017-06-20 | 博康智能信息技术有限公司北京海淀分公司 | 一种车牌信息识别方法及装置 |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN107346629A (zh) * | 2017-08-22 | 2017-11-14 | 贵州大学 | 一种智能盲人阅读方法及智能盲人阅读器*** |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109263271A (zh) * | 2018-08-15 | 2019-01-25 | 同济大学 | 一种基于大数据的印刷设备检测分析方法 |
CN109263271B (zh) * | 2018-08-15 | 2020-06-12 | 同济大学 | 一种基于大数据的印刷设备检测分析方法 |
CN111191668A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(北京)有限公司 | 一种在病历文本中识别出疾病内容的方法 |
CN111191668B (zh) * | 2018-11-15 | 2023-04-28 | 零氪科技(北京)有限公司 | 一种在病历文本中识别出疾病内容的方法 |
CN109740473A (zh) * | 2018-12-25 | 2019-05-10 | 东莞市七宝树教育科技有限公司 | 一种基于阅卷***的图片内容自动标记方法及*** |
CN109740473B (zh) * | 2018-12-25 | 2020-10-16 | 东莞市七宝树教育科技有限公司 | 一种基于阅卷***的图片内容自动标记方法及*** |
CN109685055A (zh) * | 2018-12-26 | 2019-04-26 | 北京金山数字娱乐科技有限公司 | 一种图像中文本区域的检测方法及装置 |
CN109685055B (zh) * | 2018-12-26 | 2021-11-12 | 北京金山数字娱乐科技有限公司 | 一种图像中文本区域的检测方法及装置 |
CN109766879A (zh) * | 2019-01-11 | 2019-05-17 | 北京字节跳动网络技术有限公司 | 字符检测模型的生成、字符检测方法、装置、设备及介质 |
CN109977762A (zh) * | 2019-02-01 | 2019-07-05 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN109919037B (zh) * | 2019-02-01 | 2021-09-07 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN110059559A (zh) * | 2019-03-15 | 2019-07-26 | 深圳壹账通智能科技有限公司 | Ocr识别文件的处理方法及其电子设备 |
CN110321788A (zh) * | 2019-05-17 | 2019-10-11 | 平安科技(深圳)有限公司 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
CN110490232B (zh) * | 2019-07-18 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111144191A (zh) * | 2019-08-14 | 2020-05-12 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
CN111144191B (zh) * | 2019-08-14 | 2024-03-22 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
CN111275139A (zh) * | 2020-01-21 | 2020-06-12 | 杭州大拿科技股份有限公司 | 手写内容去除方法、手写内容去除装置、存储介质 |
CN111275139B (zh) * | 2020-01-21 | 2024-02-23 | 杭州大拿科技股份有限公司 | 手写内容去除方法、手写内容去除装置、存储介质 |
CN111582267A (zh) * | 2020-04-08 | 2020-08-25 | 北京皮尔布莱尼软件有限公司 | 一种文本检测方法、计算设备及可读存储介质 |
CN111582267B (zh) * | 2020-04-08 | 2023-06-02 | 北京皮尔布莱尼软件有限公司 | 一种文本检测方法、计算设备及可读存储介质 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108304814B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304814A (zh) | 一种文字类型检测模型的构建方法和计算设备 | |
CN110443250B (zh) | 一种合同***的类别识别方法、装置和计算设备 | |
CN106780512B (zh) | 分割图像的方法、应用及计算设备 | |
CN106447721B (zh) | 图像阴影检测方法和装置 | |
Fang et al. | Bottom-up saliency detection model based on human visual sensitivity and amplitude spectrum | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN110674804A (zh) | 文本图像的检测方法、装置、计算机设备和存储介质 | |
Bovik | The essential guide to image processing | |
US9349076B1 (en) | Template-based target object detection in an image | |
CN107977665A (zh) | 一种***中关键信息的识别方法及计算设备 | |
CN108416345A (zh) | 一种答题卡区域识别方法和计算设备 | |
CN108898142B (zh) | 一种手写公式的识别方法及计算设备 | |
CN109978063B (zh) | 一种生成目标对象的对齐模型的方法 | |
CN111626295B (zh) | 车牌检测模型的训练方法和装置 | |
US8042039B2 (en) | Populating a dynamic page template with digital content objects according to constraints specified in the dynamic page template | |
CN110427946B (zh) | 一种文档图像二值化方法、装置和计算设备 | |
CN108762740B (zh) | 页面数据的生成方法、装置及电子设备 | |
CN103914802A (zh) | 用于使用导入的深度信息的图像选择和掩蔽的***与方法 | |
CN109684980A (zh) | 自动阅卷方法及装置 | |
CN104657709B (zh) | 人脸图像识别方法、装置及服务器 | |
CN108537208A (zh) | 一种多尺度的人脸检测方法及计算设备 | |
US20150301711A1 (en) | Computerized processing of pictorial responses in evaluations | |
CN106650743B (zh) | 图像强反光检测方法和装置 | |
CN104881843A (zh) | 图像插值方法和图像插值装置 | |
Joshi | OpenCV with Python by example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 571924 Hainan Ecological Software Park, Laocheng High tech Industrial Demonstration Zone, Haikou City, Hainan Province Patentee after: Hainan Avanti Technology Co.,Ltd. Address before: 571924 Hainan old city high tech industrial demonstration area Hainan eco Software Park Patentee before: HAINAN YUNJIANG TECHNOLOGY CO.,LTD. |
|
CP03 | Change of name, title or address |