CN110874618B - 基于小样本的ocr模板学习方法、装置、电子设备及介质 - Google Patents
基于小样本的ocr模板学习方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN110874618B CN110874618B CN202010057171.3A CN202010057171A CN110874618B CN 110874618 B CN110874618 B CN 110874618B CN 202010057171 A CN202010057171 A CN 202010057171A CN 110874618 B CN110874618 B CN 110874618B
- Authority
- CN
- China
- Prior art keywords
- text
- template
- text box
- loss
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于小样本的OCR模板学习方法,涉及图像模板处理技术领域,该方法包括以下步骤:根据获取的图像数据集训练神经网络得到通用文本检测模型;其中,神经网络包括特征提取层、像素分类网络和文本框位置网络;获取待学习的新模板训练集,基于新模板训练集调整通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。该方法无需从头训练新的OCR模型,也无需大量的新模板训练数据,基于通用文本检测模型自动迁移学习新模板,提高数据处理效率,减少模型学习时间,提升开发效率,节约开发成本,提高信息管理效率,适用多种新图像模板的定制开发。本发明还公开基于小样本的OCR模板学习装置、电子设备和计算机存储介质。
Description
技术领域
本发明涉及图像模板处理技术领域,尤其涉及一种基于小样本的OCR模板学习方法、装置、电子设备及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术是指对输入图像进行分析识别处理,获取图像中文本信息的过程,是当前应用最为广泛的人工智能技术之一。自动化提取固定版式的票据、卡证、文件等图片OCR模板,可应用于纸质文件分类归档、信息统计分析、关键内容提取等众多场景,能够有效地降低人工录入成本,提升信息管理效率。
然而随着OCR应用场景的日益增多,通用的OCR模板已经无法满足各种不同的应用场景对特定版式的OCR结构化需求。在对不同版式的证件、金融票据、医疗单据进行OCR处理时,由于这些不同类型图片中所包含的内容、排版、样式等信息差异较大,采用通用的OCR模板进行文本检测,获取到的检测结果往往不够理想。因此需要使用不同的OCR模板,用来检测对应的图片版式,但是由于个人信息隐私保护、数据传输安全等原因,实际能够获取的版式图像数据量通常是很有限的,而少量的图像数据无法支撑OCR深度模型从头开始训练,也就无法通过模型获得OCR目标模板。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于小样本的OCR模板学习方法,其基于待学习的新模板,调整通用文本检测模型中的像素分类网络参数和文本框位置网络参数,从而获得目标模板。
本发明的目的之一采用以下技术方案实现:
获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。
进一步地,所述图像数据集包括文本图像数据和文本模板数据,根据所述图像数据集训练神经网络,得到通用文本检测模型,包括:
通过所述特征提取层对所述文本图像数据计算,得到图像特征;
通过所述像素分类网络和所述文本框位置网络对所述图像特征计算,分别得到第一置信度预测值和第一位置预测值;
根据所述第一置信度预测值、所述第一位置预测值和所述文本模板数据训练所述神经网络,得到所述通用文本检测模型。
进一步地,获取待学习的新模板训练集,包括:
获取待学习的新模板图像与所述新模板图像待提取的文本区域;
根据预设的标注规则,计算所述文本区域的位置坐标,根据所述位置坐标,得到像素分类标签值和文本框位置标签值,所述新模板训练集包括所述新模板图像、所述像素分类标签值和所述文本框位置标签值。
进一步地,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,包括:
所述新模板图像通过所述通用文本检测模型中的特征提取层计算,得到新模板特征;
所述新模板特征通过所述通用文本检测模型中的像素分类网络和文本框位置网络计算,分别得到第二置信度预测值和第二位置预测值;
根据所述第二置信度预测值、所述第二位置预测值、所述像素分类标签值和所述文本框位置标签值,调整所述像素分类网络参数和所述文本框位置网络参数。
进一步地,调整所述像素分类网络参数和所述文本框位置网络参数,包括:
根据像素分类损失函数,对所述第二置信度预测值和所述像素分类标签值进行计算,得到分类损失,根据所述分类损失和误差反传算法,调整所述像素分类网络参数;
根据文本框位置损失函数,对所述第二位置预测值和所述文本框位置标签值进行计算,得到位置损失,根据所述位置损失和误差反传算法,调整所述文本框位置网络参数。
进一步地,所述文本框位置损失函数包括文本框位置边框损失函数和中心点距离损失函数,对所述第二位置预测值和所述文本框位置标签值进行计算,得到位置损失,包括:
根据所述第二位置预测值和所述文本框位置标签值,得到区域交集和区域并集,根据所述文本框位置边框损失函数,对所述区域交集和所述区域并集进行除法计算,得到边框损失;
根据所述第二位置预测值和所述文本框位置标签值,得到两个中心坐标,根据所述中心点距离损失函数,对所述两个中心坐标进行计算,得到中心坐标损失;
将所述边框损失和所述中心坐标损失相加,得到所述位置损失。
进一步地,获得目标模板,包括:
当参数调整达到预设的调整目标时,得到完成调整的文本检测模型,根据调整后的所述文本检测模型,得到目标置信度和目标位置,根据所述目标置信度和所述目标位置,生成所述目标模板。
本发明的目的之二在于提供一种基于小样本的OCR模板学习装置,其基于待学习的新模板,调整通用文本检测模型中的像素分类网络参数和文本框位置网络参数,从而获得目标模板。
本发明的目的之二采用以下技术方案实现:
一种基于小样本的OCR模板学习装置,其包括:
通用文本模型建立模块,用于获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
目标模板学习模块,用于获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时本发明目的之一的基于小样本的OCR模板学习方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明目的之一的基于小样本的OCR模板学习方法。
相比现有技术,本发明的有益效果在于:
本发明将通用文本检测模型作为基础模型,模型结构和特征提取层参数固定不变,根据待学习的新模板训练集数据,自动调整像素分类网络参数和文本框位置网络参数,无需从头训练新的OCR模型,也无需大量的新模板训练集数据,即可获得定制的目标模板,用以检测新的图片版式;该方法基于用户需要的新模板数据,通用文本检测模型自动迁移学习新模板,有效提高处理分析新模板数据的效率,减少模型学习时间,提升开发效率,节约开发成本,提高信息管理效率,适用于多种新图像模板的定制开发。
附图说明
图1为本发明实施例一的基于小样本的OCR模板学习方法流程图;
图2为本发明实施例二的新模板训练集的获取流程图;
图3为本发明实施例三的目标模板的学习流程图;
图4为本发明实施例四的票据图像的示意图;
图5为本发明实施例四的票据模板学习流程图;
图6为本发明实施例五的订单图像的示意图;
图7为本发明实施例五的订单模板学习流程图;
图8为本发明实施例六的基于小样本的OCR模板学习装置的结构框图;
图9为本发明实施例七的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
实施例一提供了一种基于小样本的OCR模板学习方法,旨在将通用文本检测模型作为基础模型,根据待学习的新模板训练集数据,自动调整像素分类网络参数和文本框位置网络参数,从而获得目标模板。该模板学习方法将通用文本检测模型作为基础模型,模型结构和特征提取层参数固定不变,无需从头训练新的OCR模型,也无需大量的新模板训练集数据,基于通用文本检测模型自动迁移学习新模板数据,即可获得定制的目标模板,用以检测新的图片版式。这种方法能够减少模型学习新模板数据的时间,有效提高处理分析新模板数据的效率,节约开发成本,提升开发效率,能够为各种图片版式提供定制模板。
请参照图1所示,一种基于小样本的OCR模板学习方法,包括以下步骤:
S110、获取图像数据集,根据图像数据集训练神经网络,得到通用文本检测模型;其中,神经网络包括特征提取层、像素分类网络和文本框位置网络。
图像数据集包括文本图像数据和文本模板数据。文本图像数据可以是从已有的图像数据库中获取的文本图像数据,也可以是即时采集的文本图像数据,在此不做限定。即时采集的文本图像可以通过拍照、扫描等方式获取,比如通过具有自动调整拍摄角度功能的高清拍摄电子设备采集图像。将图像数据作为神经网络的输入,以训练神经网络模型。
文本模板数据是对图像数据标注得到的标签数据。标注每个图像数据的文本模板数据,包括图像中文本框的位置坐标和根据标注的文本框得到相应的像素标签值,将该位置坐标和该像素标签值作为神经网络输入的标签值,用以训练神经网络模型。
本实施例中,将全卷积神经网络作为训练对象。将图像数据输入全卷积神经网络中的特征提取层进行计算,得到图像特征。特征提取层采用具有特征提取功能的网络结构,在本实施例中,采用基础卷积神经网络VGG16中的前五层卷积结构,作为特征提取层。VGG16卷积神经网络是牛津大学VGG组提出的,VGG16卷积神经网络分为16层,由13个卷积层加上3个全连接层叠加而成,采用连续的几个3x3的卷积核代替较大卷积核,在保证具有相同感知野的条件下,提升网络的深度,在一定程度上提升了神经网络的效果。
全卷积神经网络包括两个分支网络,两个分支网络共享特征提取层输出的图像特征。通过像素分类网络和文本框位置网络,分别对图像特征进行像素点的分类和文本框的位置回归。由像素分类网络对所有像素点的图像特征进行逐个分类,判断每个像素点是否为文本,输出每个像素点属于文本的置信度值,由所有像素点的置信度值构成第一置信度预测值。由文本框位置网络对文本框位置进行回归计算,输出文本框的四个顶点坐标,将顶点坐标作为第一位置预测值。
图像数据经过全卷积神经网络计算,得到第一置信度预测值和第一位置预测值。根据第一置信度预测值、第一位置预测值和图像数据对应标注的文本模板数据,得到损失误差,将损失误差反向传播到全卷积神经网络的特征提取层,基于梯度下降法训练全卷积神经网络,得到通用文本检测模型。基于该通用文本检测模型能够迁移学习新模板,无需大量的新模板训练数据,即可获得定制的目标模板。该通用文本检测模型可用于学习各种不同类型的OCR新模板。
S120、获取待学习的新模板训练集,固定通用文本检测模型中的特征提取层参数,基于新模板训练集调整通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。
根据实际场景中用户对OCR模板的需求,获取需要检测的新模板图像。新模板图像可以是从用户的图像数据库中获取的,也可以是按照用户需求采集的图像,在此不做限定。通过OCR检测方法获取新模板图像中的文本区域。
为了从新模板图像中获得用户需要的结构化信息,根据预设的标注规则,比如标注字段、字段标注格式、标注文件输出类型等规则对新模板图像进行标注,只提取用户所需的关键模板信息,提高了数据处理效率。
根据标注规则,计算文本区域中的待检测文本框的坐标位置,将待检测文本框的最小外接矩形的四个顶点坐标,作为新模板图像的文本框位置标签值。根据文本框的最小外接矩形,计算图像中所有像素点的分类标签值,作为像素分类标签值。优选地,对图像中的像素点进行二分类,像素点的像素值分为非零值和零值,由所有像素点的像素值构成像素分类标签值。
新模板训练集包括但不限于新模板图像、像素分类标签值和文本框位置标签值等新模板信息,并将新模板信息按照预设的标注规则输出。新模板训练集包括了用户需要的OCR新模板的结构化信息,只需获取数量大于或等于一张的新模板图像,就可以实现基于通用文本检测模型的迁移学习,不受新模板数量的限制,并且减少了学习时间,提升OCR新模板的开发效率。
基于通用文本检测模型迁移学习新模板训练集,将通用文本检测模型作为基础模型,通用文本检测模型的模型结构不变,同时固定通用文本检测模型中的特征提取层参数,仅仅调整通用文本检测模型中的像素分类网络和文本框位置网络的网络参数。当像素分类网络参数和文本框位置网络参数达到预设的调整目标时,两个网络参数的调整完成,获得调整后的文本检测模型。新模板数据的学习无需从头训练新的OCR模型,减少了模型训练时间,提高新模板的开发效率。
调整目标可以是预设的调整次数阈值,当参数的调整次数达到调整次数阈值时,就得到完成调整的文本检测模型;调整目标也可以是预设的变化范围阈值,当参数的变化趋于稳定,在最近的N次变化中参数的最大值与最小值之差小于或等于变化范围阈值时,完成模型参数的调整,最近的变化次数N根据用户需求决定。调整目标根据用户实际需要预设,在此不做限定。
通过调整后的文本检测模型中的像素分类网络和文本框位置网络,分别得到目标置信度和目标位置。由目标置信度和目标位置构成目标模板,就可以确定根据该目标位置定位的文本框,并根据目标置信度判断该文本框是否属于待检测文本。使得调整后的文本检测模型,能够准确地检测到新模板图像中的待检测文本,不检测用户不关注的文本内容,从而提高数据管理效率。
当需要学习多类OCR新模板时,可以共享通用文本检测模型的模型结构和特征提取层参数,通过对像素分类网络参数和文本框位置网络参数的自动调整,完成迁移学习,获得定制的目标模板。无需对每类新模板从头训练新的OCR模型,缩短模板的开发周期,节约开发成本。
实施例二
实施例二是在实施例一基础上进行的改进,对获取的新模板图像,根据预设的标注规则,计算图像对应的标签值,获得新模板训练集。只要提取用户需要的关键模板数据,就能得到学习目标模板所需的结构化信息,进行通用文本检测模型的迁移学习,提高了数据处理效率。
标注规则包括但不限于标注字段、字段标注格式、标注文件输出类型等信息。本实施例中,标注规则为标注字段、字段标注格式、输出类型。新模板训练集的获取,请参照图2所示,包括以下步骤:
S210、获取图像中文本区域的标注字段。标注字段用户关注的图像信息,是在相同模板的不同图像中,位置固定不变的字段,比如常用***模板中的“货物或应税劳务、服务名称”、“金额”、“税额”等字段。
S220、计算文本框位置标签值。分别将图像的下边沿、左边沿作为X轴、Y轴,建立平面坐标图。根据文本区域在图像中所在的位置,计算文本区域最小外接矩形的四个顶点坐标,将该顶点坐标作为图像对应的文本框位置标签值。
S230、计算像素分类标签值。本实施例中,对所有像素点进行二分类,文本图像中有标注字段的区域对应像素值非零,非标注区域对应像素值为零。计算文本区域中的所有像素点的标签值,将所有像素点对应的标签值作为像素分类标签值。
S240、按照字段标注格式和输出类型,输出标注文件。字段标注格式为“标注字段:文本框位置标签值;像素分类标签值”,其中文本框位置标签值对应标注字段所在文本区域的位置坐标,像素分类标签值对应文本区域中所有像素点的分类标签值。
由单张或多张同类模板图像获得的新模板训练集,新模板训练集包括图像数据和标注文件。标注文件的输出类型包括但不限于txt、json、csv等计算机程序可读文件,便于通用文本检测模型读取新模板训练集,进而进行迁移学习。
实施例三
实施例三是在实施例一或/和实施例二的基础上进行的改进,根据新模板图像,调整通用文本检测模型中的像素分类网络和文本框位置网络的网络参数,进而获得调整后的文本检测模型。使得对目标模板的学习,无需从模型结构构造或特征提取开始,缩短了新模板的开发周期,提高开发效率,降低开发成本。
请参照图3所示,目标模板的学习包括以下步骤:
S310、计算新模板图像对应的第二预测值。
固定通用文本检测模型的模型结构和特征提取层的参数,新模板图像通过通用文本检测模型中的特征提取层计算,得到新模板特征。新模板特征通过通用文本检测模型中的像素分类网络和文本框位置网络计算,分别得到第二置信度预测值和第二位置预测值。两个预测值分别用于调整像素分类网络和文本框位置网络的网络参数。
S320、根据像素分类损失函数,计算分类损失。
对第二置信度预测值和像素分类标签值进行正则化计算,将正则化计算后的第二置信度预测值和像素分类标签值,输入像素分类损失函数,得到分类损失。分类损失统计的是像素分类网络输出的第二置信度预测值与对应图像的分类标签之间的误差,用以调整像素分类网络参数。像素分类损失函数不限于L1损失函数、L2损失函数、Huber损失函数中的一种。本实施例中,像素分类损失函数为L1损失函数。
S330、根据文本框位置损失函数,计算位置损失。
根据文本框位置损失函数,对第二位置预测值和文本框位置标签值进行计算,得到位置损失。根据第二位置预测值,获得相应的预测文本区域S1,根据文本框位置标签值,获得相应的图像中的真实文本区域S0。优选地,文本框位置损失函数包括文本框位置边框损失函数和中心点距离损失函数。
计算预测文本区域S1和真实文本区域S0的区域交集和区域并集,将区域交集和区域并集输入文本框位置边框损失函数,进行除法计算,得到边框损失。文本框位置边框损失函数不限于IoU损失函数、GIoU损失函数中的一种。本实施例中,采用IoU损失函数计算边框损失:
分别计算预测文本区域S1的中心坐标M1和真实文本区域S0的中心坐标M0,将中心坐标M1(xpred,ypred)和中心坐标M0(xgt,ygt)输入中心点距离损失函数进行计算,得到中心坐标损失,其中,xpred、ypred为预测文本区域S1的中心坐标M1的预测值,xgt、ygt为真实文本区域S0的中心坐标M0的标签值。中心坐标损失函数不限于L1损失函数、L2损失函数、Huber损失函数中的一种。本实施例中,采用L2损失函数计算中心坐标损失:L(M1,M0)=(xpred-xgt)2+(ypred-ygt)2。
将边框损失和中心坐标损失相加,得到位置损失。位置损失度量的是预测文本区域与真实文本区域之间的几何误差,用以调整文本框位置网络参数。
S340、根据分类损失误差和位置损失误差,调整两个网络的参数,根据调整后的文本检测模型,得到目标模板。
分别将分类损失和位置损失反向传播到像素分类网络和文本框位置网络中,进行多次迭代,每次迭代更新两个分支网络的网络参数,使得两个分支网络不断降低这两部分损失误差,使得位置损失度量的几何误差越来越小,进而确保文本框位置网络能够准确地检测到待检测文本的所在位置,使得分类损失统计的误差越来越小,确保像素分类网络能够回归出待检测文本。
当分类损失和位置损失同时达到预设的调整目标时,参数调整完成,获得调整后的文本检测模型。调整目标可以是两个损失的值均达到损失误差阈值,也可以是两个损失的迭代次数均达到迭代次数阈值,还可以是两个损失的值的变化范围小于变化范围阈值,但不限于上述三种调整目标。
根据调整后的文本检测模型,获得用户需要的对应目标模板。根据目标模板能够准确地检测到用户关注的文本内容,不对不关注的无用文本内容进行检测,提高了信息管理效率。
当需要多类OCR新模板时,同样可以使用通用文本检测模型的模型结构和特征提取层参数,只要调整像素分类网络和文本框位置网络的网络参数,就可以获得相应的目标模板。通用文本检测模型自动学习新模板,不需要从头训练新的OCR模型,节约了模板开发成本。
实施例四
实施例四是对实施例二的应用说明,现有用户需要新增一个OCR票据模板,提供如图4所示的票据图像,用户关注票据中对应“货物或应税劳务、服务名称”、“金额”、“税额”的各项字段内容。当前没有通用文本检测模型,请参照图5所示,该票据模板学习包括以下步骤:
S410、利用图像数据集训练全卷积神经网络,得到通用文本检测模型。
图像数据集包括文本图像数据和文本模板数据,文本图像数据是从已有的图像数据库中获取的,文本模板数据由该文本图像数据标注得到。将文本图像数据输入全卷积神经网络中的特征提取层进行计算,得到图像特征。图像特征经过两个分支网络计算,得到第一置信度预测值和第一位置预测值。
根据第一置信度预测值、第一位置预测值和文本模板数据,训练全卷积神经网络,得到通用文本检测模型detect.model。该通用文本检测模型可用于学习多种新的OCR模板。
S420、根据预设的标注规则,获取票据图像的标注文件。
标注规则为标注字段、字段标注格式,其中,标注字段为用户关注的“货物或应税劳务、服务名称”、“金额”、“税额”,字段标注格式为“字段名称:文本框位置标签值”,文本框位置标签值为字段所在的文本区域最小外接矩形的四个顶点坐标。图4所示的单张图像对应的标注文件为:
货物或应税劳务、服务名称:391,893,842,893,391,983,842,983;
金额:2705,903,2816,903,2705,995,2816,995;
税额:3001,901,3187,901,3001,990,3187,990;
其中,第一行表示”货物或应税劳务、服务名称”对应文本所在图像中的所外最小外接矩形的四个顶点在图像中的像素点坐标为[(391,893),(842,893),(391,983),(842,983)]。第二、三行和第一行的表示含义相同。
S430、迁移学习得到票据图像的OCR模板。
固定步骤S410中的通用文本检测模型detect.model的模型结构和特征提取层参数,根据如图4所示的图像数据和步骤S420中的标注数据,调整通用文本检测模型detect.model中的像素分类网络参数和文本框位置网络参数。当参数调整的次数达到调整次数阈值时,通过调整后的文本检测模型,获得如图4所示的此类票据图像的OCR模板。
实施例五
实施例五是在实施例三的应用说明,现有用户需要新增一个OCR订单模板,该订单模板包括但不限于网约车订单、餐饮订单、酒店订单的模板,获取用户提供的如图6所示的订单图像,用户关注订单图像中对应“订单编号”、“支付时间”的各项字段内容。如果当前已有通用文本检测模型,如实施例四中的通用文本检测模型detect.model,请参照图7所示,该订单模板学习包括以下步骤:
S510、根据预设的标注规则,获取订单图像的标注文件。
标注规则为标注字段、字段标注格式,其中,标注字段为用户关注的“订单编号”、“支付时间”,字段标注格式为“字段名称:文本框位置标签值;像素分类标签值”,文本框位置标签值为字段所在的文本区域最小外接矩形的四个顶点坐标。图6所示的单张图像对应的标注文件为:
订单编号:100,802,436,802,100,983,842,983;像素分类标签值X1;
支付时间:100,913,436,913,100,1015,913,1015;像素分类标签值X2;
其中,第一行表示“订单编号”对应文本所在图像中的所外最小外接矩形的四个顶点在图像中的像素点坐标为[(391,893),(842,893),(391,983),(842,983)],根据四个顶点坐标获得订单真实区域。第二行和第一行的表示含义相同,通用获得支付真实区域。像素分类标签值X1、像素分类标签值X2分别对“订单编号”、“支付时间”对应的最小外接矩形中所有像素点的标签值,在此不一一写出。
S520、计算订单图像的分类损失和位置损失。
将如图6所示的的订单图像输入detect.model,经过特征提取层计算,得到订单特征。订单特征通过像素分类网络和文本框位置网络计算,得到第二置信度预测值和第二位置预测值。根据第二位置预测值,获得相应的订单预测区域和支付预测区域。
对第二置信度预测值和步骤S510中获得像素分类标签值X1、像素分类标签值X2正则化后,输入L1损失函数,得到分类损失。
计算订单预测区域和订单真实区域的区域交集和区域并集,计算支付预测区域和支付真实区域的区域交集和区域并集,将两组区域交集和区域并集输入IoU损失函数计算,得到相应的订单边框损失和支付边框损失,将两个边框损失相加,得到该订单图像的边框损失。
计算订单预测区域的中心坐标M11和支付预测区域的中心坐标M12,采用L2损失函数,计算中心坐标M11与订单真实区域的中心坐标M01的订单中心损失,以及中心坐标M12与订单真实区域的中心坐标M02的支付中心损失。将订单中心损失和支付中心损失相加,得到该订单图像的中心坐标损失。将中心坐标损失与该订单图像的边框损失相加,得到位置损失。
S530、迁移学习得到订单图像的OCR模板。
分别将分类损失和位置损失反向传播到detect.model的像素分类网络和文本框位置网络中,进行多次迭代,每次迭代更新两个分支网络的网络参数。当两部分损失的值均达到预设的误差阈值时,获得调整后的文本检测模型,同时得到如图6所示的此类订单图像的OCR模板。
订单图像的OCR模板无需从头训练新的OCR模型,只要将通用文本检测模型detect.model作为基础模型,调整detect.model中的两个网络的参数,就能学习该订单图像,得到相应的OCR模板。
实施例六
实施例六公开了一种对应上述实施例的一种基于小样本的OCR模板学习装置,为上述实施例的虚拟装置结构,请参照图8所示,包括:
通用文本模型建立模块610,用于获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
目标模板学习模块620,用于获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。
实施例七
图9为本发明实施例七提供的一种电子设备的结构示意图,如图9所示,该电子设备包括处理器710、存储器720、输入装置730和输出装置740;计算机设备中处理器710的数量可以是一个或多个,图9中以一个处理器710为例;电子设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于小样本的OCR模板学习方法对应的程序指令/模块(例如,基于小样本的OCR模板学习装置中的通用文本模型建立模块610和目标模板学习模块620)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例一至实施例五的基于小样本的OCR模板学习方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收图像数据集、新模板训练集等。输出装置740可包括显示屏等显示设备。
实施例八
本发明实施例八还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行基于小样本的OCR模板学习方法,该方法包括:
获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于小样本的OCR模板学习装置实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (7)
1.一种基于小样本的OCR模板学习方法,其特征在于:包括以下步骤:
获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型,所述通用文本检测模型用于学习各种不同类型的OCR新模板;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板,其中,所述新模板训练集包括新模板图像、像素分类标签值和文本框位置标签值;
其中,获取待学习的新模板训练集,包括:获取待学习的新模板图像;所述新模板图像的数量大于或等于一张;
基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,包括:所述新模板图像通过所述通用文本检测模型中的特征提取层计算得到新模板特征;所述新模板特征通过所述通用文本检测模型中的像素分类网络和文本框位置网络计算,分别得到第二置信度预测值和第二位置预测值;根据像素分类损失函数对所述第二置信度预测值和所述像素分类标签值进行计算得到分类损失,根据所述分类损失和误差反传算法调整所述像素分类网络参数;根据文本框位置损失函数对所述第二位置预测值和所述文本框位置标签值进行计算得到位置损失,根据所述位置损失和误差反传算法调整所述文本框位置网络参数,其中,所述文本框位置损失函数包括文本框位置边框损失函数和中心点距离损失函数;
根据文本框位置损失函数对所述第二位置预测值和所述文本框位置标签值进行计算得到位置损失,包括:根据所述第二位置预测值和所述文本框位置标签值得到区域交集和区域并集,根据所述文本框位置边框损失函数对所述区域交集和所述区域并集进行除法计算得到边框损失;根据所述第二位置预测值和所述文本框位置标签值得到两个中心坐标,根据所述中心点距离损失函数对所述两个中心坐标进行计算得到中心坐标损失;将所述边框损失和所述中心坐标损失相加得到所述位置损失。
2.如权利要求1所述的一种基于小样本的OCR模板学习方法,其特征在于:所述图像数据集包括文本图像数据和文本模板数据,根据所述图像数据集训练神经网络,得到通用文本检测模型,包括:
通过所述特征提取层对所述文本图像数据计算,得到图像特征;
通过所述像素分类网络和所述文本框位置网络对所述图像特征计算,分别得到第一置信度预测值和第一位置预测值;
根据所述第一置信度预测值、所述第一位置预测值和所述文本模板数据训练所述神经网络,得到所述通用文本检测模型。
3.如权利要求1所述的一种基于小样本的OCR模板学习方法,其特征在于:获取待学习的新模板训练集,还包括:
获取所述新模板图像待提取的文本区域;
根据预设的标注规则,计算所述文本区域的位置坐标,根据所述位置坐标,得到像素分类标签值和文本框位置标签值。
4.如权利要求1-3任一项所述的一种基于小样本的OCR模板学习方法,其特征在于:获得目标模板,包括:
当参数调整达到预设的调整目标时,得到完成调整的文本检测模型,根据调整后的所述文本检测模型,得到目标置信度和目标位置,根据所述目标置信度和所述目标位置,生成所述目标模板。
5.一种基于小样本的OCR模板学习装置,其特征在于,其包括:
通用文本模型建立模块,用于获取图像数据集,根据所述图像数据集训练神经网络,得到通用文本检测模型,所述通用文本检测模型用于学习各种不同类型的OCR新模板;其中,所述神经网络包括特征提取层、像素分类网络和文本框位置网络;
目标模板学习模块,用于获取待学习的新模板训练集,固定所述通用文本检测模型中的特征提取层参数,基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,获得目标模板,其中,所述新模板训练集包括新模板图像、像素分类标签值和文本框位置标签值;其中,获取待学习的新模板训练集,包括:获取待学习的新模板图像;所述新模板图像的数量大于或等于一张;基于所述新模板训练集调整所述通用文本检测模型中的像素分类网络参数和文本框位置网络参数,包括:所述新模板图像通过所述通用文本检测模型中的特征提取层计算得到新模板特征;所述新模板特征通过所述通用文本检测模型中的像素分类网络和文本框位置网络计算,分别得到第二置信度预测值和第二位置预测值;根据像素分类损失函数对所述第二置信度预测值和所述像素分类标签值进行计算得到分类损失,根据所述分类损失和误差反传算法调整所述像素分类网络参数;根据文本框位置损失函数对所述第二位置预测值和所述文本框位置标签值进行计算得到位置损失,根据所述位置损失和误差反传算法调整所述文本框位置网络参数,其中,所述文本框位置损失函数包括文本框位置边框损失函数和中心点距离损失函数;根据文本框位置损失函数对所述第二位置预测值和所述文本框位置标签值进行计算得到位置损失,包括:根据所述第二位置预测值和所述文本框位置标签值得到区域交集和区域并集,根据所述文本框位置边框损失函数对所述区域交集和所述区域并集进行除法计算得到边框损失;根据所述第二位置预测值和所述文本框位置标签值得到两个中心坐标,根据所述中心点距离损失函数对所述两个中心坐标进行计算得到中心坐标损失;将所述边框损失和所述中心坐标损失相加得到所述位置损失。
6.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时执行权利要求1至4任一项所述的基于小样本的OCR模板学习方法。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的基于小样本的OCR模板学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010057171.3A CN110874618B (zh) | 2020-01-19 | 2020-01-19 | 基于小样本的ocr模板学习方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010057171.3A CN110874618B (zh) | 2020-01-19 | 2020-01-19 | 基于小样本的ocr模板学习方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874618A CN110874618A (zh) | 2020-03-10 |
CN110874618B true CN110874618B (zh) | 2020-11-27 |
Family
ID=69717668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010057171.3A Active CN110874618B (zh) | 2020-01-19 | 2020-01-19 | 基于小样本的ocr模板学习方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874618B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496223A (zh) * | 2020-03-19 | 2021-10-12 | 顺丰科技有限公司 | 文本区域检测模型的建立方法以及装置 |
CN111582021B (zh) * | 2020-03-26 | 2024-07-05 | 平安科技(深圳)有限公司 | 场景图像中的文本检测方法、装置及计算机设备 |
CN111539412B (zh) * | 2020-04-21 | 2021-02-26 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、***、设备及介质 |
CN112613402A (zh) * | 2020-12-22 | 2021-04-06 | 金蝶软件(中国)有限公司 | 文本区域检测方法、装置、计算机设备和存储介质 |
CN113780260B (zh) * | 2021-07-27 | 2023-09-19 | 浙江大学 | 基于计算机视觉的无障碍文字智能检测方法 |
US20230119516A1 (en) * | 2021-10-20 | 2023-04-20 | International Business Machines Corporation | Providing text information without reading a file |
CN114550177B (zh) * | 2022-02-25 | 2023-06-20 | 北京百度网讯科技有限公司 | 图像处理的方法、文本识别方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN107239802A (zh) * | 2017-06-28 | 2017-10-10 | 广东工业大学 | 一种图像分类方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9530068B2 (en) * | 2014-11-10 | 2016-12-27 | International Business Machines Corporation | Template matching with data correction |
CN107977620B (zh) * | 2017-11-29 | 2020-05-19 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN109308476B (zh) * | 2018-09-06 | 2019-08-27 | 邬国锐 | 票据信息处理方法、***及计算机可读存储介质 |
CN109919014B (zh) * | 2019-01-28 | 2023-11-03 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
-
2020
- 2020-01-19 CN CN202010057171.3A patent/CN110874618B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN107239802A (zh) * | 2017-06-28 | 2017-10-10 | 广东工业大学 | 一种图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110874618A (zh) | 2020-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN108304835B (zh) | 文字检测方法和装置 | |
US11816710B2 (en) | Identifying key-value pairs in documents | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及*** | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN111243061B (zh) | 一种商品图片的生成方法、装置、*** | |
CN113255501B (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN112883926A (zh) | 表格类医疗影像的识别方法及装置 | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
CN111898544B (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN113762109A (zh) | 一种文字定位模型的训练方法及文字定位方法 | |
CN113592807A (zh) | 一种训练方法、图像质量确定方法及装置、电子设备 | |
CN112396060A (zh) | 基于身份证分割模型的身份证识别方法及其相关设备 | |
CN111881900A (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210926 Address after: 311121 room 210, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Bodun Xiyan Technology Co.,Ltd. Address before: Room 704, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Patentee before: TONGDUN HOLDINGS Co.,Ltd. |
|
TR01 | Transfer of patent right |