CN110321788A - 训练数据处理方法、装置、设备及计算机可读存储介质 - Google Patents
训练数据处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110321788A CN110321788A CN201910415398.8A CN201910415398A CN110321788A CN 110321788 A CN110321788 A CN 110321788A CN 201910415398 A CN201910415398 A CN 201910415398A CN 110321788 A CN110321788 A CN 110321788A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- handwritten
- training
- image sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 133
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000010276 construction Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 24
- 241001269238 Data Species 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于图像处理技术领域,提供一种训练数据处理方法、装置、设备及计算机可读存储介质,该方法包括:获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。本发明能够提升手写文本行图像的准确性,适合用于训练手写字识别模型。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种训练数据处理方法、装置、设备及计算机可读存储介质。
背景技术
目前,用于训练手写字识别模型的训练样本是由手写文本行图像组成的,手写文本行图像需通过裁切手写文本页图像得到,然而人为写字难免出现倾斜的情况,手写文本页图像中的每一文本行并不会处于水平线上,直接裁切时易受与其相邻的上下行的影响,直接裁切得到的单一文本行可能夹杂有与其相邻的上下行的字符,或存在字符缺失的现象,无法用于训练手写字识别模型。
发明内容
本发明的主要目的在于提供一种训练数据处理方法、装置、设备及计算机可读存储介质,旨在解决从手写文本页图像中直接裁切得到的文本行无法用于训练手写字识别模型的技术问题。
为实现上述目的,本发明提供一种训练数据处理方法,所述训练数据处理方法包括以下步骤:
获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
可选地,每一字符的所述标注信息包括每一字符的左上点坐标、宽度值和高度值,
所述根据每一字符的所述标注信息从所述手写文本页图像样例中,界定出每一字符所属的矩形框区域的步骤包括:
根据每一字符的所述左上点坐标、所述宽度值和所述高度值,计算得到每一字符的右下点坐标;
根据每一字符的所述左上点坐标和所述右下点坐标,界定出每一字符所属的矩形框区域。
可选地,所述根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域的步骤包括:
将每一字符的所述左上点坐标进行比较,以从每一字符的所述左上点坐标中确定出最小横坐标值和最大纵坐标值;
将每一字符的所述右下点坐标进行比较,以从每一字符的所述右下点坐标值中确定出最大横坐标值和最小纵坐标值;
根据所述最小横坐标值、所述最大纵坐标值、所述最大横坐标值和所述最小纵坐标值确定所述待提取文本行所属的区域,并从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域。
可选地,所述对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理的步骤包括:
在所述手写文本页图像样例中,将除界定出的矩形框区域之外的区域,填充为所述手写文本页图像样例的背景色。
此外,为实现上述目的,本发明还提供一种手写字识别模型的构建方法,所述写字识别模型的构建方法包括以下步骤:
从预设手写文本行图像中选取一份手写文本行图像作为基线数据进行存储,所述预设手写文本行图像由如上所述的训练数据处理方法得到;
在检测到训练手写字识别模型的指令时,根据所述指令携带的场景对存储的基线数据分别进行不同方式的变换处理,得到若干训练数据;
根据得到的若干训练数据,构建用于训练手写字识别模型的训练集;
采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型。
可选地,所述变换处理的方式包括亮度调节、旋转、平移、缩放、背景色变换、反色处理和增加背景中的一种或多种。
可选地,所述采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型的步骤包括:
初始化循环神经网络模型的参数;
将构建的训练集加载至卷积循环神经网络模型中,根据公式获取卷积循环神经网络模型的前向输出,其中,a(t,u)表示第t时刻第u个手写字的前向输出,表示t时刻输出为空格的概率,l'u表示手写字和空格的总长度,a(t-1,i)表示t-1时刻第i个手写字的前向输出;以及,
根据公式获取卷积循环神经网络模型的后向输出,其中,b(t,u)表示第t时刻第u个手写字的后向输出,表示t+1时刻输出为空格的概率,b(t+1,i)表示t+1时刻第i个手写字的后向输出;
根据所述前向输出和后向输出更新卷积循环神经网络模型的参数,得到训练好的手写字识别模型。
此外,为实现上述目的,本发明还提供训练数据处理装置,所述训练数据处理装置包括:
单字标注模块,用于获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
界定模块,用于根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
覆盖模块,用于对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
划分模块,用于根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
此外,为实现上述目的,本发明还提供一种训练数据处理设备,所述训练数据处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的训练数据处理程序,其中所述训练数据处理程序被所述处理器执行时,实现如上述的训练数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有训练数据处理程序,其中所述训练数据处理程序被处理器执行时,实现如上述的训练数据处理方法的步骤。
本发明提供一种训练数据处理方法,获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。本发明通过对手写文本行图像样例进行区域分割和覆盖处理,从而划分出待提取文本行所属的区域,再进行裁切,相比于直接裁切的方式,本发明所得到的手写文本行图像,没有受与其相邻的上下行的影响,不会夹杂与其相邻的上下行的字符,也不存在字符缺失的现象,有效提高了手写文本行图像的准确性,适合用于训练手写字识别模型。
附图说明
图1为本发明实施例方案中涉及的训练数据处理设备的硬件结构示意图;
图2为本发明训练数据处理方法第一实施例的流程示意图;
图3为本发明训练数据处理方法第一实施例涉及的示例手写文本页图像样例;
图4为本发明训练数据处理方法第一实施例涉及的覆盖处理效果示意图;
图5为本发明训练数据处理方法第一实施例裁切得到的示例手写文本行图像;
图6为本发明训练数据处理装置第一实施例的功能模块示意图;
图7为本发明手写字识别模型的构建方法第一实施例的流程示意图;
图8为本发明手写字识别模型的构建方法第一实施例涉及的示例基线数据;
图9为本发明手写字识别模型的构建方法第一实施例涉及的反色处理效果示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的训练数据处理方法主要应用于训练数据处理设备,该训练数据处理设备可以是个人计算机(personal computer,PC)、服务器等具有数据处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的训练数据处理设备的硬件结构示意图。本发明实施例中,训练数据处理设备可以包括处理器1001(例如中央处理器CentralProcessing Unit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器1005可以是高速随机存取存储器(random access memory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机存储介质的存储器1005可以包括操作***、网络通信模块以及训练数据处理程序。在图1中,处理器1001可以调用存储器1005中存储的训练数据处理程序,并执行本发明各实施例提供的训练数据处理方法。
本发明实施例提供了一种训练数据处理方法。
参照图2,图2为本发明训练数据处理方法第一实施例的流程示意图。
本实施例中,所述训练数据处理方法包括以下步骤:
步骤S10,获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
本实施例中的训练数据处理方法可以由PC或服务器等具有数据处理功能的设备实现,本实施例以服务器为例进行说明。在本实施例中,需在服务器中预先配置文本行提取工具,文本行提取工具主要用于处理手写文本页图像样例,从手写文本页图像样例中提取出用于训练手写字识别模型的手写文本行图像。
首先,服务器获取手写文本页图像样例,然后通过文本行提取工具对手写文本页图像样例中的待提取文本行进行单字标注,单字标注包括分类标注和位置标注。其中,分类标注是标注待提取文本行中每一字符为哪个字,通过分类标注可以得到待提取文本行中每一字符的标签字;位置标注是标注待提取文本行中每一字符的左上点坐标及其宽度值和高度值,通过位置标注可以得到待提取文本行中每一字符的左上点坐标(xi,yi)、宽度值wi和高度值hi(i表示待提取文本行中的第i个字符),将左上点坐标、宽度值和高度值定义为位置信息。那么,通过对手写文本页图像样例中的待提取文本行进行单字标注,便可以得到待提取文本行中每一字符的标注信息(包括标签字和位置信息)。
步骤S20,根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
之后,根据待提取文本行中每一字符的标注信息,从手写文本页样例中界定出待提取文本行中每一字符所属的矩形框区域。即,根据待提取文本行中每一字符的左上点坐标(xi,yi)、宽度值wi和高度值hi,分别计算得到待提取文本行中每一字符的右下点坐标(Xi,Yi),其中,Xi=xi+wi,Yi=yi+hi。如此,便可以根据待提取文本行中每一字符的左上点坐标(xi,yi)和右下点坐标(Xi,Yi),界定出每一字符所属的矩形框区域,其效果可以参照图3的示例。
步骤S30,对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
在界定出每一字符所属的矩形框区域之后,在手写文本页图像样例中,对除界定出的矩形框区域之外的区域进行覆盖处理。具体地,可以在手写文本页图像样例中,将除界定出的矩形框区域之外的区域填充为手写文本页图像样例的背景色(除界定出的矩形框区域之外的区域中的文字也被覆盖),比如图3的示例中,手写文本页图像样例的背景色为白色,那么就可以将除界定出的矩形框区域之外的区域填充为白色,如图4所示。
步骤S40,根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
之后,根据待提取文本行中每一字符的标注信息,从覆盖处理后的手写文本页图像样例中划分出待提取文本行所属的区域。具体地,将待提取文本行中每一字符的左上点坐标(xi,yi)进行比较,确定出xi中的最小值xmin、yi中的最大值ymax,将每一字符的右下点坐标(Xi,Yi)进行比较,确定出Xi中的最大值Xmax、Yi中的最小值Ymin,然后根据xmin、ymax、Xmax和Ymin四个值确定待提取文本行的分割线,依据该分割线即可确定出待提取文本行所属的矩形框区域,对待提取文本行所属的矩形框区域进行裁切,即可得到用于训练手写字识别模型的手写文本行图像,其效果可参照图5的示例,从图5中可以看出,通过上述方式得到的手写文本行图像,没有受与其相邻的上下行的影响,也没有夹杂与其相邻的上下行的字符,也不存在字符缺失的现象,有效提高了手写文本行图像的准确性。
本实施例提供一种训练数据处理方法,获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。本实施例通过对手写文本行图像样例进行区域分割和覆盖处理,从而划分出待提取文本行所属的区域,再进行裁切,相比于直接裁切的方式,本实施例所得到的手写文本行图像,没有受与其相邻的上下行的影响,不会夹杂与其相邻的上下行的字符,也不存在字符缺失的现象,有效提高了手写文本行图像的准确性,适合用于训练手写字识别模型。
此外,本发明实施例还提供一种训练数据处理装置。
参照图,图6为本发明训练数据处理装置第一实施例的功能模块示意图。
本实施例中,所述训练数据处理装置包括:
单字标注模块10,用于获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
界定模块20,用于根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
覆盖模块30,用于对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
划分模块40,用于根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
其中,上述训练数据处理装置的各虚拟功能模块存储于图1所示训练数据处理设备的存储器1005中,用于实现训练数据处理程序的所有功能;各模块被处理器1001执行时,相比于直接裁切的方式,本实施例所得到的手写文本行图像,没有受与其相邻的上下行的影响,不会夹杂与其相邻的上下行的字符,也不存在字符缺失的现象,有效提高了手写文本行图像的准确性,适合用于训练手写字识别模型。
进一步的,所述界定模块20包括:
计算单元,用于根据每一字符的所述左上点坐标、所述宽度值和所述高度值,计算得到每一字符的右下点坐标;
界定单元,用于根据一字符的所述左上点坐标和所述右下点坐标,界定出每一字符所属的矩形框区域。
进一步的,所述划分模块40包括:
第一确定单元,用于将每一字符的所述左上点坐标进行比较,以从每一字符的所述左上点坐标中确定出最小横坐标值和最大纵坐标值;
第二确定单元,用于将每一字符的所述右下点坐标进行比较,以从每一字符的所述右下点坐标值中确定出最大横坐标值和最小纵坐标值;
划分单元,用于根据所述最小横坐标值、所述最大纵坐标值、所述最大横坐标值和所述最小纵坐标值确定所述待提取文本行所属的区域,并从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域。
进一步的,所述覆盖模块30还包括:
填充单元,用于在所述手写文本页图像样例中,将除界定出的矩形框区域之外的区域,填充为所述手写文本页图像样例的背景色。
其中,上述训练数据处理装置中各个模块的功能实现与上述训练数据处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有训练数据处理程序,其中所述训练数据处理程序被处理器执行时,实现如上述的训练数据处理方法的步骤。
其中,训练数据处理程序被执行时所实现的方法可参照本发明训练数据处理方法的各个实施例,此处不再赘述。
本发明实施例涉及的手写字识别模型的构建方法主要应用于手写字识别模型的构建设备,该手写字识别模型的构建设备可以是个人计算机(personal computer,PC)、服务器等具有数据处理功能的设备。
本发明实施例方案中涉及的手写字识别模型的构建设备的硬件结构可以包括处理器(例如中央处理器Central Processing Unit,CPU),通信总线,用户接口,网络接口,存储器。其中,通信总线用于实现这些组件之间的连接通信;用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器可以是高速随机存取存储器(random access memory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器可选的还可以是独立于前述处理器的存储装置。本领域技术人员可以理解,上述硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
作为一种计算机存储介质的存储器可以包括操作***、网络通信模块以及手写字识别模型的构建程序。处理器可以调用存储器中存储的手写字识别模型的构建程序,并执行本发明各实施例提供的手写字识别模型的构建方法。
进一步地,基于第一实施例提出本发明手写字识别模型的构建方法的第一实施例。
参照图7,图7为本发明手写字识别模型的构建方法第一实施例的流程示意图。
在本实施例中,所述手写字识别模型的构建方法包括以下步骤:
步骤S50,从预设手写文本行图像中选取一份手写文本行图像作为基线数据进行存储;
通过第一实施例得到若干手写文本行图像后,在本实施例中,为了不占用服务器的存储空间,只从得到的手写文本行图像中任意选取一份手写文本行图像作为基线数据存储于服务器的存储***中。
步骤S60,在检测到训练手写字识别模型的指令时,根据所述指令携带的场景对存储的基线数据分别进行不同方式的变换处理,得到若干训练数据;
由于实际中,训练好的手写字识别模型需要识别不同场景下的手写字文本行图像,那么用于训练手写字识别模型的训练样本就需包含不同场景下的手写字文本行图像。在本实施例中,当服务器检测到训练手写字识别模型的指令时,则根据该指令中携带的场景对基线数据分别进行不同方式的变换处理,从而在基线数据的基础上构建训练集,满足训练手写字识别模型的需求。具体地,当服务器检测到训练手写字识别模型的指令时,则根据该指令中携带的场景,相应地,在存储***中对基线数据分别进行亮度调节、旋转、平移、缩放、背景色变换、反色处理和增加背景等方式中的一种或多种处理,比如图8的基线数据示例,可以对其进行亮度调暗加缩放的处理,得到第一份训练数据,也可以对其进行亮度调暗加字符向下平移的处理,得到第二份训练数据,还可以将其背景色进行变换比如将白色分别变换为绿色和蓝色,得到第三份训练数据和第四份训练数据,也可已对其进行反色处理,比如将字符的颜色调整为白色、背景色调为黑色(效果可参照图9),得到第五份训练数据,等等,如此,得到若干训练数据。
步骤S70,根据得到的若干训练数据,构建用于训练手写字识别模型的训练集。
之后,即可根据得到的若干训练数据组成训练集。
步骤S80,采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型。
进一步地,采用构建的训练集训练手写字识别模型,具体地,手写字识别模型为卷积循环神经网络模型-CRNN(Convolutional-Recurrent Neural Networks)模型,首先初始化卷积循环神经网络模型的参数,其中,该参数包括权重值和偏重值,然后将构建的训练集加载至卷积循环神经网络模型中进行训练,获取卷积循环神经网络模型的前向输出和后向输出(前向输出指按照时间顺序输出的第u个手写字的概率,后向输出是按照时间逆顺序输出的第u个手写字的概率),可以根据公式获取卷积循环神经网络模型的前向输出,其中,a(t,u)表示第t时刻第u个手写字的前向输出,表示t时刻输出为空格的概率,l'u表示手写字和空格的总长度,a(t-1,i)表示t-1时刻第i个手写字的前向输出;以及,根据公式获取卷积循环神经网络模型的后向输出,其中,b(t,u)表示第t时刻第u个手写字的后向输出,表示t+1时刻输出为空格的概率,b(t+1,i)表示t+1时刻第i个手写字的后向输出,之后,基于前向输出和后向输出计算目标输出,基于该目标输出构建损失函数,再根据该损失函数,采用基于连续时间分类算法的反向传播算法对参数更新,从而得到训练好的手写字识别模型。
本实施例通过从若干手写文本行图像中选取一份手写文本行图像作为基线数据存储于服务器的存储***中,然后根据训练手写字识别模型的实际场景对基线数据进行各种不同方式的变换处理,即可满足训练手写字识别模型的需求,如此,便不需要在服务器的存储***中预先存储大量的训练数据,大大节约了存储空间,同时节省了维护大量训练数据所需的成本。
此外,本发明实施例还提供一种手写字识别模型的构建装置。
本实施例中,所述手写字识别模型的构建装置装置包括:
存储模块,用于从预设手写文本行图像中选取一份手写文本行图像作为基线数据进行存储,所述预设手写文本行图像由如上所述的训练数据处理方法得到;
变换处理模块,用于在检测到训练手写字识别模型的指令时,根据所述指令携带的场景对存储的基线数据分别进行不同方式的变换处理,得到若干训练数据;
构建模块,用于根据得到的若干训练数据,构建用于训练手写字识别模型的训练集;
训练模块,用于采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型。
其中,上述手写字识别模型的构建装置的各虚拟功能模块存储于图1所示手写字识别模型的构建设备的存储器1005中,用于实现手写字识别模型的构建程序的所有功能;各模块被处理器1001执行时,可满足训练手写字识别模型的需求。
进一步的,所述训练模块包括:
初始化单元,用于初始化卷积循环神经网络模型的参数;
前向输出获取单元,用于将构建的训练集加载至卷积循环神经网络模型中,根据公式获取卷积循环神经网络模型的前向输出,其中,a(t,u)表示第t时刻第u个手写字的前向输出,表示t时刻输出为空格的概率,l'u表示手写字和空格的总长度,a(t-1,i)表示t-1时刻第i个手写字的前向输出;以及,
后向输出获取单元,用于根据公式获取卷积循环神经网络模型的后向输出,其中,b(t,u)表示第t时刻第u个手写字的后向输出,表示t+1时刻输出为空格的概率,b(t+1,i)表示t+1时刻第i个手写字的后向输出;
更新单元,用于根据所述前向输出和后向输出更新卷积循环神经网络模型的参数,得到训练好的手写字识别模型。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有手写字识别模型的构建程序,其中所述手写字识别模型的构建程序被处理器执行时,实现如上述的手写字识别模型的构建方法的步骤。
其中,手写字识别模型的构建程序被执行时所实现的方法可参照本发明手写字识别模型的构建方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种训练数据处理方法,其特征在于,所述训练数据处理方法包括以下步骤:
获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
2.如权利要求1所述的训练数据处理方法,其特征在于,每一字符的所述标注信息包括每一字符的左上点坐标、宽度值和高度值,
所述根据每一字符的所述标注信息从所述手写文本页图像样例中,界定出每一字符所属的矩形框区域的步骤包括:
根据每一字符的所述左上点坐标、所述宽度值和所述高度值,计算得到每一字符的右下点坐标;
根据每一字符的所述左上点坐标和所述右下点坐标,界定出每一字符所属的矩形框区域。
3.如权利要求2所述的训练数据处理方法,其特征在于,所述根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域的步骤包括:
将每一字符的所述左上点坐标进行比较,以从每一字符的所述左上点坐标中确定出最小横坐标值和最大纵坐标值;
将每一字符的所述右下点坐标进行比较,以从每一字符的所述右下点坐标值中确定出最大横坐标值和最小纵坐标值;
根据所述最小横坐标值、所述最大纵坐标值、所述最大横坐标值和所述最小纵坐标值确定所述待提取文本行所属的区域,并从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域。
4.如权利要求1所述的训练数据处理方法,其特征在于,所述对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理的步骤包括:
在所述手写文本页图像样例中,将除界定出的矩形框区域之外的区域,填充为所述手写文本页图像样例的背景色。
5.一种手写字识别模型的构建方法,其特征在于,所述写字识别模型的构建方法包括以下步骤:
从预设手写文本行图像中选取一份手写文本行图像作为基线数据进行存储,所述预设手写文本行图像由权利要求1所述的训练数据处理方法得到;
在检测到训练手写字识别模型的指令时,根据所述指令携带的场景对存储的基线数据分别进行不同方式的变换处理,得到若干训练数据;
根据得到的若干训练数据,构建用于训练手写字识别模型的训练集;
采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型。
6.如权利要求5所述的手写字识别模型的构建方法,其特征在于,所述变换处理的方式包括亮度调节、旋转、平移、缩放、背景色变换、反色处理和增加背景中的一种或多种。
7.如权利要求5所述的手写字识别模型的构建方法,其特征在于,所述采用构建的训练集训练卷积循环神经网络模型得到训练好的手写字识别模型的步骤包括:
初始化卷积循环神经网络模型的参数;
将构建的训练集加载至卷积循环神经网络模型中,根据公式获取卷积循环神经网络模型的前向输出,其中,a(t,u)表示第t时刻第u个手写字的前向输出,表示t时刻输出为空格的概率,l'u表示手写字和空格的总长度,a(t-1,i)表示t-1时刻第i个手写字的前向输出;以及,
根据公式获取卷积循环神经网络模型的后向输出,其中,b(t,u)表示第t时刻第u个手写字的后向输出,表示t+1时刻输出为空格的概率,b(t+1,i)表示t+1时刻第i个手写字的后向输出;
根据所述前向输出和后向输出更新卷积循环神经网络模型的参数,得到训练好的手写字识别模型。
8.一种训练数据处理装置,其特征在于,所述训练数据处理装置包括:
单字标注模块,用于获取手写文本页图像样例,并对所述手写文本页图像样例中的待提取文本行进行单字标注,得到待提取文本行中每一字符的标注信息;
界定模块,用于根据每一字符的所述标注信息,从所述手写文本页图像样例中界定出每一字符所属的矩形框区域;
覆盖模块,用于对所述手写文本页图像样例中,除界定出的矩形框区域之外的区域进行覆盖处理;
划分模块,用于根据每一字符的所述标注信息,从覆盖处理后的手写文本页图像样例中划分出所述待提取文本行所属的区域,并进行裁切,得到用于训练手写字识别模型的手写文本行图像。
9.一种训练数据处理设备,其特征在于,所述训练数据处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的训练数据处理程序,其中所述训练数据处理程序被所述处理器执行时,实现如权利要求1至4中任一项所述的训练数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有训练数据处理程序,其中所述训练数据处理程序被处理器执行时,实现如权利要求1至4中任一项所述的训练数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415398.8A CN110321788A (zh) | 2019-05-17 | 2019-05-17 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415398.8A CN110321788A (zh) | 2019-05-17 | 2019-05-17 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321788A true CN110321788A (zh) | 2019-10-11 |
Family
ID=68113215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910415398.8A Pending CN110321788A (zh) | 2019-05-17 | 2019-05-17 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321788A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866501A (zh) * | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
CN111144270A (zh) * | 2019-12-23 | 2020-05-12 | 智慧神州(北京)科技有限公司 | 基于神经网络的手写文本工整度的评测方法与评测装置 |
CN111476324A (zh) * | 2020-06-28 | 2020-07-31 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的交通数据标注方法、装置、设备及介质 |
CN112052852A (zh) * | 2020-09-09 | 2020-12-08 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
CN112784845A (zh) * | 2021-01-12 | 2021-05-11 | 安徽淘云科技有限公司 | 手写文字检测方法以及电子设备、存储装置 |
CN113537222A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、设备及存储介质 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
WO2023001112A1 (zh) * | 2021-07-19 | 2023-01-26 | 维沃移动通信有限公司 | 文字美化方法、装置、可读存储介质和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016154466A1 (en) * | 2015-03-25 | 2016-09-29 | Alibaba Group Holding Limited | Method and apparatus for generating text line classifier |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108345833A (zh) * | 2018-01-11 | 2018-07-31 | 深圳中兴网信科技有限公司 | 数学公式的识别方法及***和计算机设备 |
CN108710866A (zh) * | 2018-06-04 | 2018-10-26 | 平安科技(深圳)有限公司 | 汉字模型训练方法、汉字识别方法、装置、设备及介质 |
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN109598272A (zh) * | 2019-01-11 | 2019-04-09 | 北京字节跳动网络技术有限公司 | 字符行图像的识别方法、装置、设备及介质 |
-
2019
- 2019-05-17 CN CN201910415398.8A patent/CN110321788A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016154466A1 (en) * | 2015-03-25 | 2016-09-29 | Alibaba Group Holding Limited | Method and apparatus for generating text line classifier |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN108345833A (zh) * | 2018-01-11 | 2018-07-31 | 深圳中兴网信科技有限公司 | 数学公式的识别方法及***和计算机设备 |
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108710866A (zh) * | 2018-06-04 | 2018-10-26 | 平安科技(深圳)有限公司 | 汉字模型训练方法、汉字识别方法、装置、设备及介质 |
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN109598272A (zh) * | 2019-01-11 | 2019-04-09 | 北京字节跳动网络技术有限公司 | 字符行图像的识别方法、装置、设备及介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866501A (zh) * | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
CN110866501B (zh) * | 2019-11-19 | 2022-04-29 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
CN111144270A (zh) * | 2019-12-23 | 2020-05-12 | 智慧神州(北京)科技有限公司 | 基于神经网络的手写文本工整度的评测方法与评测装置 |
CN111144270B (zh) * | 2019-12-23 | 2023-05-05 | 智慧神州(北京)科技有限公司 | 基于神经网络的手写文本工整度的评测方法与评测装置 |
CN113537222A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、设备及存储介质 |
CN111476324A (zh) * | 2020-06-28 | 2020-07-31 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的交通数据标注方法、装置、设备及介质 |
CN112052852A (zh) * | 2020-09-09 | 2020-12-08 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
CN112052852B (zh) * | 2020-09-09 | 2023-12-29 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
CN112784845A (zh) * | 2021-01-12 | 2021-05-11 | 安徽淘云科技有限公司 | 手写文字检测方法以及电子设备、存储装置 |
WO2023001112A1 (zh) * | 2021-07-19 | 2023-01-26 | 维沃移动通信有限公司 | 文字美化方法、装置、可读存储介质和电子设备 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321788A (zh) | 训练数据处理方法、装置、设备及计算机可读存储介质 | |
CN107403130A (zh) | 一种字符识别方法及字符识别装置 | |
CN104463101B (zh) | 用于文字性试题的答案识别方法及*** | |
CN110414519A (zh) | 一种图片文字的识别方法及其识别装置 | |
CN107808132A (zh) | 一种融合主题模型的场景图像分类方法 | |
CN109448001B (zh) | 一种图片自动裁剪方法 | |
CN107993238A (zh) | 一种基于注意力模型的头肩部分图像分割方法及装置 | |
CN108229519A (zh) | 图像分类的方法、装置及*** | |
CN109214327A (zh) | 一种基于pso的反人脸识别方法 | |
CN110969129A (zh) | 一种端到端税务票据文本检测与识别方法 | |
US20110050723A1 (en) | Image processing apparatus and method, and program | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN113223025B (zh) | 图像处理方法及装置、神经网络的训练方法及装置 | |
JP2005151282A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
CN109829071A (zh) | 人脸图像搜索方法、服务器、计算机设备及存储介质 | |
CN109064525A (zh) | 一种图片格式转换方法、装置、设备和存储介质 | |
CN107689070A (zh) | 图表数据结构化提取方法、电子设备及计算机可读存储介质 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN109920018A (zh) | 基于神经网络的黑白照片色彩恢复方法、装置及存储介质 | |
CN113838158B (zh) | 一种图像和视频的重构方法、装置、终端设备及存储介质 | |
CN112949649B (zh) | 一种文本图像的识别方法、装置及计算设备 | |
US20210264191A1 (en) | Method and device for picture generation, electronic device, and storage medium | |
CN106682670A (zh) | 一种台标识别方法及*** | |
CN107122785A (zh) | 文本识别模型建立方法和装置 | |
CN115797939A (zh) | 一种基于深度学习的两阶段斜体字符识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |