CN115620315A - 手写文本检测方法、装置、服务器和存储介质 - Google Patents
手写文本检测方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN115620315A CN115620315A CN202211378841.7A CN202211378841A CN115620315A CN 115620315 A CN115620315 A CN 115620315A CN 202211378841 A CN202211378841 A CN 202211378841A CN 115620315 A CN115620315 A CN 115620315A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- handwritten
- detected
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种手写文本检测方法、装置、服务器和存储介质,该方法通过对待检测图像进行文本检测,确定待检测图像中的文本区域,对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型,若各文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像;对目标文本区域中的手写体文本进行文字识别,得到目标文本区域的文字识别结果;输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果;本发明通过文本检测,可以确定待检测图像中的文本区域,并通过文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度。
Description
技术领域
本发明涉及文本检测识别领域,具体涉及一种手写文本检测方法、装置、服务器和存储介质。
背景技术
常用的基于深度学习的文本检测技术针对规则的印刷体,比如身份证,银行卡识别,车牌识别,PDF转word等可以获得较好的检测结果,而对于包含的多种专用印刷文字字体、手写字体以及文字倾斜等复杂情况的多样的数字文档类型时,现有技术的文本检测的准确度低。
发明内容
本发明实施例提供一种手写文本检测方法、装置、服务器和存储介质,以提高文本检测的准确度。
一方面,本发明实施例提供一种手写文本检测方法,所述方法包括:
获取待检测图像;
对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域;
对所述文本区域进行文本类型检测,得到所述文本区域中文本的文本类型;
若所述文本区域中存在文本类型为手写体文本的目标文本区域,则对所述目标文本区域进行标记,得到标记后的待检测图像;
对所述目标文本区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果;
输出所述标记后的待检测图像以及所述标记后的待检测图像中目标文本区域的文字识别结果。
另一方面,本发明实施例提供一种手写文本检测装置,所述装置包括:
获取模块,用于获取待检测图像;
文本区域检测模块,用于对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域;
文本类型检测模块,用于对各所述文本区域进行文本类型检测,确定各所述文本区域中文本的文本类型;
标记模块,用于若各所述文本区域中存在文本类型为手写体文本的目标文本区域,则对所述目标文本区域进行标记,得到标记后的待检测图像;
文字检测模块,用于对所述目标文本区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果;
输出模块,用于输出所述标记后的待检测图像以及所述标记后的待检测图像中目标文本区域的文字识别结果。
另一方面,本发明实施例提供一种服务器,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行上述手写文本检测方法中的操作。
另一方面,本发明实施例提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述手写文本检测方法中的步骤。
本发明实施例通过获取待检测图像;对待检测图像进行文本检测,确定待检测图像中的文本区域;对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型;若各文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像;对目标文本区域中的手写体文本进行文字识别,得到目标文本区域的文字识别结果;输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果;本发明通过文本检测,可以确定待检测图像中的文本区域,并通过文本区域的文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度,并为文本识别提供基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的手写文本检测方法的应用场景示意图;
图2是本发明实施例提供的手写文本检测方法的流程示意图;
图3是本发明实施例提供的文本检测模型的结构示意图;
图4是本发明实施例提供的手写文本检测装置的结构示意图;
图5是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术,金融业务和银行业务中常需要对扫描的数字文档图像进行文字识别,由于扫描的数字文档图像中常包含手写字体和印刷字体,在对数字文档图像进行文字识别时,由于缺少文本类型识别,不能有效区分出数字文档图像中的手写字体区域和印刷字体区域,降低了提取的目标区域的文字信息,进而降低了文本识别结果的可靠度。
基于此,为了提高文本检测准确性,保障文本识别结果的可靠度,本发明实施例提供一种可应用与金融技术领域或其他领域的手写文本检测方法,该方法通过文本检测,可以确定待检测图像中的文本区域,并通过文本区域的文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度,并为文本识别提供基础。
如图1所示,图1是本发明实施例提供的手写文本检测方法的应用场景示意图,所示的应用场景包括客户端103、服务端101和网络102。
其中,客户端103通过网络与服务端101仅***,服务端101接收客户端103通过网络102发送的待检测图像,并对待检测图像进行手写文本检测,确定待检测图像中的文本区域,对各文本区域进行文本类型检测,得到各文本区域中文本的文本类型,若各文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像,对目标文本区域中的手写体文本进行文字识别,得到目标文本区域的文字识别结果,输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果,并将标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果通过网络102返回至客户端103。
在本发明一些实施例中,客户端103包括但不限于各种个人计算机、笔记本电脑、智能收集、平板电脑和便捷式可穿戴设备。服务端101可以是独立服务器,也可以是服务器组成的服务器网络或服务器集群,例如计算机、网络主机、单个网络服务器、多个网络服务器或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
在本发明一些实施例中,该网络102可以是有线网络或无线网络。在本发明一些实施例中,上述有线网络或无线网络使用标准通信技术和/或协议。网络可以是因特网,也可以是任何网络,包括但不限于广域网、城域网、区域网、第三代合作伙伴计划(3rdGeneration Partnership Project,3GPP)、长期演进(Long Term Evolution LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IPProtocol Suite TCP/IP)、用户数据报协议(User DatagramProtocol UDP的计算机网络通信等。
如图2所示,图2是本发明实施例提供的手写文本检测方法的流程示意图,所示的手写文本检测方法应用于图1所示的服务端101,具体地,手写文本检测方法包括步骤201~206:
201,获取待检测图像。
在本发明一些实施例中,可以在接收到客户端103发送的文本检测指令时,获取客户端103发送的待检测图像。
在本发明一些实施例中,可以响应客户端103发送的文本检测请求,发送文本图像获取指令至客户端103,以使客户端103返回待检测图像至服务端101,服务端101获取客户端103基于文本图像获取指令返回的待检测图像。其中,客户端103可以将存储的待检测图像返回至服务端101,客户端103也可以调用客户端103中的图像采集设备采集待检测文本,得到待检测图像,将采集的待检测图像返回至服务端101。其中,图像采集设备可以是摄像头或图像传感器。
202,对待检测图像进行文本检测,确定待检测图像中的文本区域。
文本区域指的是待检测图像中包含文本的图像区域。在一些实施例中,文本包括但不限于手写体文本、印刷体文本等。
在本发明一些实施例中,可以通过基于回归的文本检测方法对待检测图像进行文本检测。其中,基于回归的文本检测方法包括但不限于CTPN、Texbox、EAST、SedLink、MDST、CTD、LDMO、PCR等。
在本发明一些实施例中,也可以通过基于分割的文本检测方法对待检测图像进行文本检测。具体地,可以通过检测待检测图像中的像素点是否属于文本目标,得到文本区域概率图,根据文本区域概率图和预设阈值,得到待检测图像的二值化图,根据二值化图确定文本区域。其中二值化是基于文本区域概率图和预设阈值将概率值大于或等于预设阈值的像素点的像素值设置为第一预设值,将概率值小于预设阈值的像素点的像素值设置为第二预设值得到的。其中,基于分割的文本检测方法包括但不限于Pixelink、MSR、PSENet、PAN、DBNet、FCENet等。
在本发明一些实施例中,还可以通过目标检测方法对待检测图像进行文本检测,确定待检测图像中的文本区域。例如通过YOLOV、CNN、R-CNN、FastR-CNN、FasterR-CNN或VGG目标检测方法对待检测图像进行文本检测,确定待检测图像中的文本区域。
203,对文本区域进行文本类型检测,得到文本区域中文本的文本类型。
在本发明一些实施例中,文本类型包括手写体文本和印刷体文本。
在本发明一些实施例中,可以通过预设的分类模型对各文本区域进行文本类型检测,得到各文本区域中文本的文本类型。
在一些实施例中,分类模型可以是基于机器学习的分类模型,例如基于逻辑回归的分类模型、基于随机森林的分类模型、基于字典学习的分类模型、基于聚类的分类模型等。
在另一些实施例中,分类模型也可以是基于神经网络的分类模型,例如基于长短期记忆(LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)、基于反卷积神经网络(De-Convolutional Networks,DN)、深度神经网络(Deep Neural Networks,DNN)、基于深度卷积逆向图网络(Deep Convolutional Inverse Graphics Networks,DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks,RCNN)、基于区域的快速卷积网络(Faster Region-based Convolutional Networks,Faster RCNN)和基于双向编解码(Bidirectional Encoder Representations from Transformers,BERT)模型。
在本发明一些实施例中,可以通模板匹配对文本区域进行文本类型检测,得到各文本区域中文本的文本类型。具体地,根据文本区域的像素点的灰度值或像素值,得到文本区域的像素分布数据,将文本区域的像素分布数据与预设的像素分布模板数据进行比对,确定文本区域的像素分布数据与多个像素分布模板数据之间的相似度,将最大相似度的像素分布模板数据设置为目标像素分布模板数据,将该目标像素分布模板数据对应的文本类型设置为文本区域中文本的文本类型。其中,像素分布模板数据可以是预先存储的不同文本类型的文本的像素分布数据,也可以是基于预先存储的模板生成模型生成的不同文本类型的文本的像素分布数据,模板生成模型可以是基于生成网络的生成模型,也可以是基于对抗生成网络的生成模型,本发明实施例对模板生成模型不进行具体限定;像素分布数据可以是灰度直方图。
在本发明一些实施例中,还可以根据文本区域的纹理信息进行文本类型检测,得到各文本区域中文本的文本类型;具体地,截取文本区域的图像区域,通过纹理检测方法对截图的包含文本区域的图像区域进行纹理检测,得到文本区域的纹理特征,将纹理特征与预存的基准纹理特征数据中的多个基准纹理特征进行比对,确定与该纹理特征相似度最大的目标基准纹理特征,将该目标基准纹理特征的文本类型设置为文本区域中文本的文本类型。其中,基准纹理特征数据包括多种文本类型的文本图像以及每种文本图像的纹理特征。
204,若各文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像。
在本发明一些实施例中,在文本区域中存在文本类型为手写体文本的目标文本区域时,根据目标文本区域的边缘信息确定目标文本区域的轮廓,基于目标文本区域的轮廓对目标文本区域进行标记,得到标记后的待检测图像。
在一些实施例中,可以通过边缘检测算子对目标文本区域进行边缘检测得到目标文本区域的边缘信息,其中,边缘检测算子可以是Sobel算子、Isotropic Sobel算子、Roberts算子、Prewitt算子、Laplacian算子、Canny算子中的任意一种。
在另一些实施例中,为了提高后续文本识别的准确度,在文本区域中存在文本类型为手写体文本的目标文本区域时,可以对待检测图像进行锐化处理,通过上述的边缘检测算子对锐化处理后的待检测图像中的目标文本区域进行边缘检测得到目标文本区域的边缘信息。
205,对目标文本区域中的手写体文本进行文字识别,得到目标文本区域的文字识别结果。
在本发明一些实施例中,可以截取目标文本区域中的图像,得到目标文本区域中的手写体文本图像,对目标文本区域中的手写体文本图像进行文字识别,得到目标文本区域的文字识别结果。
在一些实施例中,可以通过基于CTC(Conectionist Temporal Classification)的算法对目标文本区域中的手写体文本图像进行特征提取,得到目标文本区域中的手写体文本图像中的文本特征,对文本特征进行编码和解码,得到目标文本区域中的手写体文本图像的文字识别结果。其中,基于CTC(Conectionist Temporal Classification)的算法可以是基于CRNN、ResNet、MobileNet或基于VGG的文本识别算法。
在另一些实施例中,可以通过基于Sequence2Sequence将目标文本区域中的手写体文本图像输入到编码器得到手写文本图像的语义向量,然后再由解码器对语义向量进行解码得到文字识别结果。
在另一些实施例中,基于校正的文本识别方法对目标文本区域中的手写体文本图像进行规则变换,得到变换后的手写体文本图像,对变换后的手写体文本图像进行文字识别,得到文字识别结果。
在另一些实施例中,可以通过基于Transformer的方法对目标文本区域中的手写体文本进行文字识别,得到目标文本区域的文字识别结果。其中,基于Transformer的方法包括但不限于基于SRN的识别方法、基于NRTR的识别方法和基于SRACN的识别方法等。
206,输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果。
在本发明一些实施例中,在得到文字识别结果后输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果,并返回文字识别结果至客户端103。
本发明实施例提供的手写文本检测方法通过文本检测,可以确定待检测图像中的文本区域,并通过文本区域的文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度,并为文本识别提供基础。
在本发明一些实施例中,考虑到基于分割的文本检测算法在文本检测方法中的性能较好,但是基于分割的文本检测算法仅能识别到待检测图像中的文本区域,对于文本区域的文本类型不能有效识别,如果在得到文本区域后再使用另一个模型或另一个算法对文本区域的文本类型进行识别,可能会造成手写文本检测方法的检测时长增加,并且需要适配不同模型之间的数据规范,将增加工作量,因此为了提高文本检测的效率和准确度,本发明实施例在基于分割的文本检测算法中添加文本类型检测,得到新的基于分割的文本检测算法,实现待检测图像中的文本区域检测和文本区域中文本类型的识别。
示例性的,以基于DBNet网络的基于分割的文本检测算法为例进行说明,本发明实施例在DBNet网络的区域分割支路基础上增加一个分类支路得到文本检测模型,根据预设的文本检测模型对待检测图像进行文本检测,确定待检测图像中的文本区域,对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型。
具体地,如图3所示,图3是本发明实施例提供的文本检测模型的结构示意图,所示的文本检测模型包括输入层、特征提取层、二值化层、分割层、分类层和输出层。
其中,特征提取层包括MobileNetV3和FPN金字塔特征网络,用于对输入的待检测图像进行特征检测,得到待检测图像的特征图;二值化层用于根据待检测图像的特征图,得到概率特征图和概率特征图,根据概率特征图和概率特征图进行可微分二值化,得到待检测图像的近似二值化特征图,分割层根据近似二值化特征图确定待检测图像中的文本区域,分类层用于根据待检测图像的特征图进行类别预测,得到文本区域中文本属于每种文本类型的概率,并根据文本区域中文本属于每种文本类型的概率,确定文本区域中文本的文本类型;输出层用于输出待检测图像中的文本区域的位置信息以及若文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像,输出标记后的待检测图像。
在本发明一些实施例中,可以通过收集的包括手写体文本的样本数据对初始的文本检测模型进行训练,得到文本检测模型。
在本发明一些实施例中,为提高文本检测模型的模型泛化能力和处理能力,可以通过收集的同时包括手写体文本和印刷体文本的样本数据对初始的文本检测模型进行训练,得到文本检测模型。
在本发明一些实施例中,考虑到不同的场景中待检测图像的是不同的,例如金融业务、银行业务和教育场景中待检测图像是不同的,而使用统一的文本检测模型进行文本检测时,为了使文本检测可以适用不同场景的文本检测,需要采用可以涵盖所有金融业务或银行业务的样本数据对初始的文本检测模型进行训练,样本数据量大并且训练时间长,而且当出现的新的场景时,又需要重新设置样本数据再次进行训练,不利于手写文本检测方法的推广应用,基于此,本发明实施例基于初始模型进行预先训练,得到预训练模型,将预训练模型部署到目标场景中,通过采集目标场景的样本数据对预训练模型的模型参数进行调整,得到样本检测模型。其中,初始模型、预训练模型和样本检测模型的模型结构相同,初始模型、预训练模型和样本检测模型各自对应的模型参数不同,其中模型参数包括但不限于网络权重。
在本发明一些实施例中,预训练模型的获得方法包括步骤a1~a6:
步骤a1,获取手写单字符数据集,随机将手写单字符数据集中的手写单字符图像进行字符组合得到多个单行手写文本图像。
在本发明一些实施例中,手写单字符数据集中包括多种汉字以及每种汉字的手写体单字符图像。
在本发明一些实施例中,可以基于手写单字符数据集中每种汉字的手写体单字符图像,每次选取第一预设数量的手写体单字符图像进行拼接,得到包含一组手写体字符的图像,将拼接得到的包含一组手写体字符的图像设置为一个单行手写文本图像,重复上述单行手写文本图像的生成步骤,得到预设样本数据的单行手写文本图像。
在本发明一些实施例中,为了提高生成的单行手写文本图像中字符的可读性,可以根据新闻报道的语义信息、基于手写单字符数据集中每种汉字的手写体单字符图像,每次选取第一预设数量的手写体单字符图像进行拼接,得到包含一组手写体字符的图像,将拼接得到的包含一组手写体字符的图像设置为一个单行手写文本图像,重复上述单行手写文本图像的生成步骤,得到预设样本数据的单行手写文本图像。
步骤a2,从多个单行手写文本图像中选取预设数量的目标单行手写文本图像,将选取的目标单行手写文本图像放置在预设的画布中,并确定目标单行手写文本图像在所述画布中的手写体文本区域。
步骤a3,将确定手写体文本区域后的画布设置为原样本图像。
步骤a4,将预设的印刷体文本放置在原样本图像中除手写体文本区域外的其余图像区域中,得到第二样本图像;第二样本图像中包括印刷体文本区域和手写文本区域。
在本发明一些实施例中,考虑到同时包含印刷体文本和手写体文本的数字文档图像中,有一个不容忽视的特征,即手写体内容下方往往伴随一定长度的线条,上方区域留白供使用者自行填写信息。不同的用户在书写时,书写内容与线条的相对位置并不固定,有时会与线条重合,有时会悬浮于线条之上。基于此,为了提高样本数据的真实性,本发明实施例生成预设样本数量的初始样本图像,每个初始样本图像为像素值为255的空白图像,将每张初始样本图像设置为一个空白画布,对于每张空白画布,从多个单行手写文本图像中选取预设的数量的目标单行手写文本图像,将选取的目标单行手写文本图像放置到该空白画图中,得到原样本图像,并在该原样本图像中目标单行手写文本图像所在的图像区域生成文本线,得到初始第二样本图像。本发明实施例对添加的文本线的长度、颜色、尺寸信息以及相对于原样本图像中目标单行手写文本图像所在的图像区域的位置信息不进行限定。
在本发明一些实施例中,考虑到在金融业务或银行业务中,同时包含印刷体文本和手写体文本的数字文档图像中,手写文本内容的占比元小于印刷文本内容的占比,为了增加第二样本数据的数据真实性,进而提高预训练模型的准确度,本发明实施例对于每张初始第二样本图像,对该初始第二样本图像中除目标单行手写文本图像所在的图像区域外的其余图像区域生成字体随机、长度随机的印刷体文字内容,得到同时包含印刷体文本区域和手写文本区域的第二样本图像。
在本发明一些实施例中,为了增加样本复杂度及检测任务难度,可以对第二样本图像中印刷体区域所在图像区域中添加文本线。
步骤a5,对各第二样本图像中手写体文本区域进行标注,得到第二样本数据。
在本发明一些实施例中,对于每张第二样本图像,根据该张第二样本图像的尺寸信息、该第二样本图像中手写文本区域的真实位置信息、以及每个手写文本区域中的文字得到标注信息,根据每张第二样本图像的标注信息对该张第二样本图像进行标注,得到第二样本数据。
示例性,对于任意一张第二样本图像,以该张第二样本图像的左上角为原点,x为横坐标,y为纵坐标,w为手写文本区域的长度,h为手写文本区域的高度,points为手写文本区域的四个点坐标(x,y),从手写文本区域的左上角的点开始顺时针排列;transcription为手写文本区域中的文字为例,得到该第二样本图像的标注信息为:train/0001.jpg\t[{“transcription”:“xxxxxxx”,“points”:[[x1,y1],[x1+w1,y2],[x1+w1,y1+h1],[x1,y1+h1]]}、{“transcription”:“XXXXXX”,“points”:[[x2,y2],[x2+w2,y2],[x2+w2,y2+h2],[x2,y2+h2]]}]。其中,0001.jpg该张第二样本图像的图像标识。
步骤a6,将第二样本数据输入初始模型,对初始模型进行训练,得到预训练模型。
在本发明一些实施例中,将第二样本数据输入初始模型进行文本区域预测,得到第二样本数据中第二样本图像中文本区域的预测位置信息,根据第二样本图像的标注信息中的手写文本区域的真实位置信息与第二样本图像中文本区域的预测位置信息之间位置差得到位置训练损失,根据第二样本图像中文本区域的预测位置和第二样本图像的标注信息中手写文本区域的真实位置信息之间的交叉熵得到分类训练损失,根据分类训练损失和位置训练损失,得到总训练损失,根据总训练损失对初始模型进行迭代训练,当初始模型满足预设的模型收敛条件时,停止迭代训练,得到预训练模型。其中,预设的模型收敛条件可以是总训练损失小于或等于预设损失阈值,也可以是迭代次数大于或等于预设次数阈值。
在本发明一些实施例中,以图3所示的模型结构为例,为提高模型预测的文本区域的精确度,本发明实施例基于第二样本图像的近似二值化特征图,得到各第二样本图像中的手写文本区域的训练位置信息,基于训练位置信息确定初始模型的目标训练损失,根据初始模型的目标训练损失对初始模型进行迭代训练,当初始模型满足预设的模型收敛条件时,停止迭代训练,得到预训练模型,具体地,初始模型的训练方法包括步骤b1~b5:
步骤b1,将第二样本数据中的第二样本图像输入到初始模型进行特征提取,得到各第二样本图像的近似二值化特征图。
在本发明一些实施例中,在步骤b1中,可以通过初始模型对第二样本图像进行特征提取,得到概率特征图和阈值特征图,对概率特征图和阈值特征图进行可微分二值化处理,得到第二样本图像的近似二值化特征图,具体地近似二值化特征图的确定方法包括:
(1)将第二样本数据中的第二样本图像输入到初始模型进行不同尺度的特征提取,得到各第二样本图像的不同尺度的特征图。
(2)对各第二样本图像的不同尺度的特征图进行组合,得到各第二样本图像的组合后的特征图。
(3)对各第二样本图像的组合后的特征图进行图像卷积,得到各第二样本图像的概率特征图,对各第二样本图像的组合后的特征图进行上采样操作得到各第二样本图像的阈值特征图。
(4)根据各第二样本图像的概率特征图和阈值特征图之间的差值进行可微分二值化,得到各第二样本图像的近似二值化特征图。
在一些实施例中,可以根据初始模型中的MobileNetV3对各第二样本图像进行不同尺度的特征提取,得到各第二样本图像的不同尺度的特征图。
在另一些实施例中,可以根据初始模型中的ResNet50网络对各第二样本图像进行不同尺度的特征提取,得到各第二样本图像的不同尺度的特征图。
在本发明一些是实施例中,可以通过初始模型中FPN金字塔特征网络对各第二样本图像的不同尺度的特征图进行组合,得到各第二样本图像的组合后的特征图。
在本发明一些实施例中,可以根据各第二样本图像的概率特征图和阈值特征图之间的差值Pi,j-Ti,j,通过进行可微分二值化,得到近似二值化特征图。其中,K是膨胀因子,Pi,j为第二样本图像的概率特征图上的像素点,Ti,j是第二样本图像的阈值特征图上的像素点。
在本发明一些实施例中,图像卷积包括卷积操作核反卷积操作。
步骤b2,对各第二样本图像的近似二值化特征图进行轮廓识别,得到各第二样本图像中的手写文本区域的训练位置信息。
在本发明一些实施例中,可以通过边缘检测算子对各第二样本图像的近似二值化特征图进行轮廓识别,得到各第二样本图像中手写文本区域的边缘信息,根据各第二样本图像中手写文本区域的边缘信息,得到各第二样本图像中手写文本区域的各顶点的位置坐标,根据各第二样本图像中手写文本区域的各顶点的位置坐标,确定得到各第二样本图像中的手写文本区域的训练位置信息。
步骤b3,根据各第二样本图像的真实二值化图和各第二样本图像的近似二值化特征图,得到初始模型的第一训练损失。其中,第二样本图像的真实二值化图是根据第二样本图像中的手写文本区域进行二值化处理得到的。
在本发明一些实施例中,可以根据概率特征图、阈值特征图以及近似二值化特征图各自对应的损失得到初始模型的第一训练损失。具体地,第一训练损失的确定方法包括:
(1)根据各第二样本图像中真实二值化图和各第二样本图像的近似二值化特征图之间的交叉熵,得到二值化损失。
(2)根据各第二样本图像的阈值特征图,确定各第二样本图像的预测手写文本区域,根据各第二样本图像的预测手写文本区域和各第二样本图像的手写体文本区域之间的距离,得到阈值损失。
(3)根据二值化损失和阈值损失,确定得到初始模型的第一训练损失。
在本发明一些实施例中,可以在得到二值化损失La和阈值损失Lb之后,通过Lb+α*La+βLb得到初始模型的第一训练损失。
在本发明一些实施例中,可以根据各第二样本图像的阈值特征图进行后处理,得到各第二样本图像的预测手写文本区域。
步骤b4,根据各第二样本图像中的手写文本区域的训练位置信息、各第二样本图像中的手写文本区域的真实位置信息之间的交叉熵,得到初始模型的第二训练损失。其中,真实位置信息为第二样本图像中目标单行手写文本图像所在的图像区域的位置信息。
步骤b5,根据第一训练损失和第二训练损失得到初始模型的目标训练损失,根据初始模型的目标训练损失对初始模型进行迭代训练,当初始模型满足预设的模型收敛条件时,停止迭代训练,得到预训练模型。
在一些实施例中,可以在得到第一训练损失和第二训练损失之后,将第一训练损失和第二训练损失之和设置为初始模型的目标训练损失。
在另一些实施例中,可以在得到第一训练损失和第二训练损失之后,将第一训练损失和第二训练损失的均值设置为初始模型的目标训练损失。其中,均值可以是算术平方值,也可以是加权平均值。
在另一些实施例中,可以获取第一训练损失和第二训练损失各自对应的权重,根据第一训练损失和第二训练损失、以及第一训练损失和第二训练损失各自对应的权重,得到第一训练损失和第二训练损失的权重之和,将第一训练损失和第二训练损失的权重之和设置为初始模型的目标训练损失。
在本发明一些实施例中,在得到预训练模型之后,将预训练模型部署到目标场景中,采集目标场景中同时包含印刷体文本和手写体文本的数字文档图像,得到第一样本数据,根据第一样本数据等于预训练模型的模型参数进行调整得到文本检测模型。具体地,文本检测模型的确定方法包括步骤c1~c3:
步骤c1,获取第一样本数据。其中,第一样本数据包括多个第一样本图像,每个第一样本图像中的手写文本以及手写文本所在的手写文本区域的位置信息。
在本发明一些实施例中,可以根据手写文本所在的手写文本区域的位置信息按照上述步骤a5对各第一样本图像进行标注。
步骤c2,将第一样本数据输入至预训练模型进行文本检测,得到各第一样本图像中的手写文本区域的预测位置信息。
步骤c3,根据各第一样本图像中的手写文本区域的预测位置信息以及各第一样本图像中的手写文本区域的位置信息,对预训练模型的模型参数进行调整,得到文本检测模型。
在本发明一些实施例中,可以将第一样本图像中的手写文本区域的预测位置信息以及各第一样本图像中的手写文本区域的位置信息之间的位置差值与预设位置差值阈值进行比较,若每个位置差都小于或等于预设位置差阈值,说明预训练模型的预测精度符合要求,则将预训练模型设置为文本检测模型;若存在大于预设位置差阈值的位置差,说明预训练模型的预测精度需要进一步优化,则根据各第一样本图像中的手写文本区域的预测位置信息以及各第一样本图像中的手写文本区域的位置信息之间的位置差,迭代调整预训练模型的模型参数,当调整次数大于或等于预设次数阈值时,或者位置差小于或等于预设位置差阈值时,停止模型参数调整,将当前的预训练模型设置为文本检测模型。
在本发明一些实施例中,在得到文本检测模型之后,将待检测图像输入到文本检测模型,通过文本检测模型对输入的待检测图像进行文本检测,确定待检测图像中的文本区域,对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型,若文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像。
在本发明一些实施例中,文本检测模型对输入的待检测图像进行特征提取,得到待检测图像的特征图,对特征图进行特征计算得到待检测图像的概率矩阵,根据概率矩阵进行二值化处理,得到待检测图像的二值化矩阵,根据二值化矩阵,选取出待检测图像的二值化矩阵中数值为预设值的目标像素点,根据目标像素点确定待检测图像中的文本区域,以及提取各文本区域的位置信息。
在一些实施例中,概率矩阵包括待检测图像中的所有像素点以及每个像素点在文本区域中的概率。
在一些实施例中,根据概率矩阵进行二值化处理,得到待检测图像的二值化矩阵包括:根据概率矩阵和预设的概率阈值,将待检测图像中像素点的概率值大于或等于预设的概率阈值的像素点的像素值设置为第一预设值,将待检测图像中像素点的概率值小于预设的概率阈值的像素点的像素值设置为第二预设值,得到待检测图像的二值化矩阵。其中,第一预设值和第二预设值的数值不同,第一预设值可以为1,也可以为0,还可以是255,第二预设值可以为0,也可以为1。例如,当第一预设值为255,第二预设值可以为0。
在本发明一些实施例中,若文本区域中不存在文本类型为手写体文本的目标文本区域,则输出待检测图像,并输出提示信息,并返回提示信息至客户端103。例如可以输出“未检测手写文本”的提示信息。
在本发明一些实施例中,在标记后的待检测图像后,根据标记后的待检测图像中已标记的目标文本区域进行裁剪,得到包含目标文本区域中的手写体文本的图像区域,对包含目标文本区域中的手写体文本的图像区域进行文字识别,获取目标文本区域的文字识别结果。
在一些实施例中,可以根据上述步骤205中的文字识别方法对目标文本区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果。
在另一些实施例中,可以根据待检测图像中的目标文本区域进行图像分割,得到待检测图像中目标文本区域所在的目标图像区域;将目标图像区域输入至预设的文字识别模型对目标图像区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果。
其中,文字识别模型可以是基于神经网络的文字识别模型,例如YOLOV、基于长短期记忆(LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)、基于反卷积神经网络(De-Convolutional Networks,DN)、深度神经网络(Deep Neural Networks,DNN)、基于深度卷积逆向图网络(Deep Convolutional Inverse Graphics Networks,DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks,RCNN)、基于区域的快速卷积网络(Faster Region-based Convolutional Networks,Faster RCNN)和基于双向编解码(Bidirectional Encoder Representations from Transformers,BERT)模型。
在本发明一些实施例中,为保证数据安全,在获得文字识别结果时,确定文字识别结果中是否存在预存的风险字符,若存在风险字符,则对存在风险字符的文字识别结果相应的手写体文本进行脱敏处理,得到脱敏处理后的文字识别结果,输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的脱敏后的文字识别结果。
在本发明一些实施例中,若存在风险字符,则对存在风险字符的文字识别结果相应的手写体文本进行脱敏处理,得到脱敏处理后的文字识别结果,并根据进行脱敏处理的手写体文本所在的目标文本区域的位置信息对标记后的待检测图像中同一位置信息的目标文本区域进行脱敏处理,得到脱敏的待检测图像,输出脱敏的待检测图像以及标记后的待检测图像中目标文本区域的脱敏后的文字识别结果。
在一些实施例中,可以通过预设字符替换、掩膜遮盖等方式进行脱敏处理。
本发明实施例提供的手写文本检测方法通过文本检测,可以确定待检测图像中的文本区域,并通过文本区域的文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度,并为文本识别提供基础。
为了更好实施本发明实施例提供的手写字体检测方法,在手写字体检测方法基础上,本发明实施例提供一种手写文本检测装置,如图4所示,图4是本发明实施例提供的手写文本检测装置的结构示意图,所示的手写文本检测装置包括:
获取模块,用于获取待检测图像;
文本区域检测模块,用于对待检测图像进行文本检测,确定待检测图像中的文本区域;
文本类型检测模块,用于对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型;
标记模块,用于若各文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像;
文字检测模块,用于对目标文本区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果;
输出模块,用于输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果。
在本发明一些实施例中,手写文本检测装置,包括:
模型检测模块,用于:根据预设的文本检测模型对待检测图像进行文本检测,确定待检测图像中的文本区域,对各文本区域进行文本类型检测,确定各文本区域中文本的文本类型;文本检测模型是根据包含手写体文本区域的第一样本数据,对预训练模型的模型参数进行调整得到的。
在本发明一些实施例中,手写文本检测装置,还包括:
训练模块,用于获取第一样本数据;第一样本数据包括多个第一样本图像,每个第一样本图像包括手写文本以及手写文本所在的手写文本区域的位置信息;将第一样本数据输入至预训练模型进行文本检测,得到各第一样本图像中的手写文本区域的预测位置信息;根据各第一样本图像中的手写文本区域的预测位置信息以及各第一样本图像中的手写文本区域的位置信息,对预训练模型的模型参数进行调整,得到文本检测模型。
在本发明一些实施例中,手写文本检测装置,还包括:
预训练模块,用于获取手写单字符数据集,随机将手写单字符数据集中的手写单字符图像进行字符组合得到多个单行手写文本图像;从多个单行手写文本图像中选取预设数量的目标单行手写文本图像,将选取的目标单行手写文本图像放置在预设的画布中,并确定目标单行手写文本图像在画布中的手写体文本区域;将确定手写体文本区域后的画布设置为得到原样本图像;将预设的印刷体文本放置在原样本图像中除手写体文本区域后外的其余图像区域中,得到第二样本图像;第二样本图像中包括印刷体文本区域和手写文本区域;对各第二样本图像中手写体文本区域进行标注,得到第二样本数据;将第二样本数据输入初始模型,对初始模型进行训练,得到预训练模型。
在本发明一些实施例中,预训练模块,用于:
将第二样本数据中的第二样本图像输入到初始模型进行特征提取,得到各第二样本图像的近似二值化特征图;
对各第二样本图像的近似二值化特征图进行轮廓识别,得到各第二样本图像中的手写文本区域的训练位置信息;
根据各第二样本图像的真实二值化图和各第二样本图像的近似二值化特征图,得到初始模型的第一训练损失;第二样本图像的真实二值化图是根据第二样本图像中的手写文本区域进行二值化处理得到的;
根据各第二样本图像中的手写文本区域的训练位置信息、各第二样本图像中的手写文本区域的真实位置信息之间的交叉熵,得到初始模型的第二训练损失;真实位置信息为第二样本图像中目标单行手写文本图像所在的图像区域的位置信息;
根据第一训练损失和第二训练损失得到初始模型的目标训练损失,根据初始模型的目标训练损失对初始模型进行迭代训练,当初始模型满足预设的模型收敛条件时,停止迭代训练,得到预训练模型。
在本发明一些实施例中,预训练模块,用于:
将第二样本数据中的第二样本图像输入到初始模型进行不同尺度的特征提取,得到各第二样本图像的不同尺度的特征图;
对各第二样本图像的不同尺度的特征图进行组合,得到各第二样本图像的组合后的特征图;
对各第二样本图像的组合后的特征图进行图像卷积,得到各第二样本图像的概率特征图,对各第二样本图像的组合后的特征图进行上采样操作得到各第二样本图像的阈值特征图;
根据各第二样本图像的概率特征图和阈值特征图之间的差值图像进行可微分二值化,得到各第二样本图像的近似二值化特征图。
在本发明一些实施例中,预训练模块,用于:
根据各第二样本图像中真实二值化图和各第二样本图像的近似二值化特征图之间的交叉熵,得到二值化损失;
根据各第二样本图像的阈值特征图,确定各第二样本图像的预测手写文本区域,根据各第二样本图像的预测手写文本区域和各第二样本图像的手写体文本区域之间的距离,得到阈值损失;
根据二值化损失和阈值损失,确定得到初始模型的第一训练损失。
在本发明一些实施例中,模型检测模块,用于:
将待检测图像输入到预设的文本检测模型,得到待检测图像的概率矩阵;
根据待检测图像的概率矩阵进行二值化,得到待检测图像的二值化矩阵;
选取出待检测图像的二值化矩阵中数值为预设值的目标像素点,根据选取出的目标像素点确定待检测图像中的文本区域。
在本发明一些实施例中,输出模块,用于:
根据待检测图像中的目标文本区域进行图像分割,得到待检测图像中目标文本区域所在的目标图像区域;
将目标图像区域输入至预设的文字识别模型对目标图像区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果。
本发明实施例提供的手写文本检测装置通过文本检测,可以确定待检测图像中的文本区域,并通过文本区域的文本类型检测,可以有效判别出文本区域中的文本是否为手写文本行,提高了文本检测的准确度,并为文本识别提供基础。
本发明实施例还提供一种服务器,如图5所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图5中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待检测图像;
对待检测图像进行文本检测,确定待检测图像中的文本区域;
对文本区域进行文本类型检测,得到文本区域中文本的文本类型;
若文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像;
对目标文本区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果;
输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种手写文本检测方法中的步骤。例如,该指令可以执行如下步骤:
获取待检测图像;
对待检测图像进行文本检测,确定待检测图像中的文本区域;
对文本区域进行文本类型检测,得到文本区域中文本的文本类型;
若文本区域中存在文本类型为手写体文本的目标文本区域,则对目标文本区域进行标记,得到标记后的待检测图像;
对目标文本区域中的手写体文本进行文字识别,获取目标文本区域的文字识别结果;
输出标记后的待检测图像以及标记后的待检测图像中目标文本区域的文字识别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种手写文本检测方法中的步骤,因此,可以实现本发明实施例所提供的任一种手写文本检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种手写文本检测方法、装置、服务器和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种手写文本检测方法,其特征在于,所述方法包括:
获取待检测图像;
对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域;
对所述文本区域进行文本类型检测,得到所述文本区域中文本的文本类型;
若所述文本区域中存在文本类型为手写体文本的目标文本区域,则对所述目标文本区域进行标记,得到标记后的待检测图像;
对所述目标文本区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果;
输出所述标记后的待检测图像以及所述标记后的待检测图像中目标文本区域的文字识别结果。
2.如权利要求1所述的手写文本检测方法,其特征在于,所述对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域,对所述文本区域进行文本类型检测,得到所述文本区域中文本的文本类型,包括:
根据预设的文本检测模型对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域,对所述文本区域进行文本类型检测,确定所述文本区域中文本的文本类型;所述文本检测模型是根据包含手写体文本区域的第一样本数据,对预训练模型的模型参数进行调整得到的。
3.如权利要求2所述的手写文本检测方法,其特征在于,所述根据预设的文本检测模型对所述待检测图像进行文本检测之前,所述方法包括:
获取第一样本数据;所述第一样本数据包括多个第一样本图像,每个所述第一样本图像包括手写文本以及所述手写文本所在的手写文本区域的位置信息;
将所述第一样本数据输入至预训练模型进行文本检测,得到各所述第一样本图像中的手写文本区域的预测位置信息;
根据各所述第一样本图像中的手写文本区域的预测位置信息以及各所述第一样本图像中的手写文本区域的位置信息,对所述预训练模型的模型参数进行调整,得到文本检测模型。
4.如权利要求3所述的手写文本检测方法,其特征在于,所述将所述第一样本数据输入至预训练模型进行文本检测之前,所述方法包括:
获取手写单字符数据集,随机将所述手写单字符数据集中的手写单字符图像进行字符组合得到多个单行手写文本图像;
从多个所述单行手写文本图像中选取预设数量的目标单行手写文本图像,将选取的所述目标单行手写文本图像放置在预设的画布中,并确定所述目标单行手写文本图像在所述画布中的手写体文本区域;
将确定手写体文本区域后的画布设置为原样本图像;
将预设的印刷体文本放置在所述原样本图像中除所述手写体文本区域外的其余图像区域中,得到第二样本图像;
对各所述第二样本图像中手写体文本区域进行标注,得到第二样本数据;
将所述第二样本数据输入初始模型,对所述初始模型进行训练,得到预训练模型。
5.如权利要求4所述的手写文本检测方法,其特征在于,所述将所述第二样本数据输入初始模型,对所述初始模型进行训练,得到预训练模型包括:
将所述第二样本数据中的第二样本图像输入到初始模型进行特征提取,得到各所述第二样本图像的近似二值化特征图;
对各所述第二样本图像的近似二值化特征图进行轮廓识别,得到各所述第二样本图像中的手写文本区域的训练位置信息;
根据各所述第二样本图像的真实二值化图和各所述第二样本图像的近似二值化特征图,得到所述初始模型的第一训练损失;所述第二样本图像的真实二值化图是根据所述第二样本图像中的手写文本区域进行二值化处理得到的;
根据各所述第二样本图像中的手写文本区域的训练位置信息、各所述第二样本图像中的手写文本区域的真实位置信息之间的交叉熵,得到所述初始模型的第二训练损失;所述真实位置信息为所述第二样本图像中目标单行手写文本图像所在的图像区域的位置信息;
根据所述第一训练损失和所述第二训练损失得到所述初始模型的目标训练损失,根据所述初始模型的目标训练损失对所述初始模型进行迭代训练,当所述初始模型满足预设的模型收敛条件时,停止迭代训练,得到预训练模型。
6.如权利要求5所述的手写文本检测方法,其特征在于,所述将所述第二样本数据中的第二样本图像输入到初始模型进行特征提取,得到各所述第二样本图像的近似二值化特征图包括:
将所述第二样本数据中的第二样本图像输入到初始模型进行不同尺度的特征提取,得到各所述第二样本图像的不同尺度的特征图;
对各所述第二样本图像的不同尺度的特征图进行组合,得到各所述第二样本图像的组合后的特征图;
对各所述第二样本图像的组合后的特征图进行图像卷积,得到各所述第二样本图像的概率特征图,对各所述第二样本图像的组合后的特征图进行上采样操作得到各所述第二样本图像的阈值特征图;
根据各所述第二样本图像的概率特征图和阈值特征图之间的差值图像进行可微分二值化,得到各所述第二样本图像的近似二值化特征图。
7.如权利要求6所述的手写文本检测方法,其特征在于,所述根据各所述第二样本图像的真实二值化图和各所述第二样本图像的近似二值化特征图,得到所述初始模型的第一训练损失,包括:
根据各所述第二样本图像的真实二值化图和各所述第二样本图像的近似二值化特征图之间的交叉熵,得到二值化损失;
根据各所述第二样本图像的阈值特征图,确定各所述第二样本图像的预测手写文本区域,根据各所述第二样本图像的预测手写文本区域和各所述第二样本图像的手写体文本区域之间的距离,得到阈值损失;
根据所述二值化损失和所述阈值损失,确定得到所述初始模型的第一训练损失。
8.如权利要求2所述的手写文本检测方法,其特征在于,所述根据预设的文本检测模型对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域包括:
将所述待检测图像输入到预设的文本检测模型,得到所述待检测图像的概率矩阵;
根据所述待检测图像的概率矩阵进行二值化,得到所述待检测图像的二值化矩阵;
选取出所述待检测图像的二值化矩阵中数值为预设值的目标像素点,根据目标像素点的位置,确定所述待检测图像中的文本区域。
9.如权利要求1至8任一项所述的手写文本检测方法,其特征在于,所述对所述目标文本区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果包括:
根据所述待检测图像中的目标文本区域进行图像分割,得到所述待检测图像中所述目标文本区域所在的目标图像区域;
将所述目标图像区域输入至预设的文字识别模型对目标图像区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果。
10.一种手写文本检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像;
文本区域检测模块,用于对所述待检测图像进行文本检测,确定所述待检测图像中的文本区域;
文本类型检测模块,用于对各所述文本区域进行文本类型检测,确定各所述文本区域中文本的文本类型;
标记模块,用于若各所述文本区域中存在文本类型为手写体文本的目标文本区域,则对所述目标文本区域进行标记,得到标记后的待检测图像;
文字检测模块,用于对所述目标文本区域中的手写体文本进行文字识别,得到所述目标文本区域的文字识别结果;
输出模块,用于输出所述标记后的待检测图像以及所述标记后的待检测图像中目标文本区域的文字识别结果。
11.一种服务器,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至9任一项所述的手写文本检测方法中的操作。
12.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的手写文本检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211378841.7A CN115620315A (zh) | 2022-11-04 | 2022-11-04 | 手写文本检测方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211378841.7A CN115620315A (zh) | 2022-11-04 | 2022-11-04 | 手写文本检测方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620315A true CN115620315A (zh) | 2023-01-17 |
Family
ID=84876323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211378841.7A Pending CN115620315A (zh) | 2022-11-04 | 2022-11-04 | 手写文本检测方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620315A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630991A (zh) * | 2023-07-24 | 2023-08-22 | 广东电网有限责任公司佛山供电局 | 一种输电线路状态评价方法和*** |
-
2022
- 2022-11-04 CN CN202211378841.7A patent/CN115620315A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630991A (zh) * | 2023-07-24 | 2023-08-22 | 广东电网有限责任公司佛山供电局 | 一种输电线路状态评价方法和*** |
CN116630991B (zh) * | 2023-07-24 | 2024-01-09 | 广东电网有限责任公司佛山供电局 | 一种输电线路状态评价方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11138423B2 (en) | Region proposal networks for automated bounding box detection and text segmentation | |
WO2018010657A1 (zh) | 结构化文本检测方法和***、计算设备 | |
WO2019119966A1 (zh) | 文字图像处理方法、装置、设备及存储介质 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US11816883B2 (en) | Region proposal networks for automated bounding box detection and text segmentation | |
CN110866529A (zh) | 字符识别方法、装置、电子设备及存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112949455B (zh) | 一种增值税***识别***及方法 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN115620315A (zh) | 手写文本检测方法、装置、服务器和存储介质 | |
Meena et al. | Image splicing forgery detection using noise level estimation | |
CN113780116A (zh) | ***分类方法、装置、计算机设备和存储介质 | |
CN114581928A (zh) | 一种表格识别方法及*** | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
Yao et al. | Invoice detection and recognition system based on deep learning | |
CN115601586A (zh) | 标签信息获取方法、装置、电子设备及计算机存储介质 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
Singh et al. | Efficient binarization technique for severely degraded document images | |
CN113610090A (zh) | ***图像识别分类方法、装置、计算机设备和存储介质 | |
RU2764705C1 (ru) | Извлечение нескольких документов из единого изображения | |
CN116030474A (zh) | 手写文本识别方法及装置 | |
CN115565174A (zh) | 合同差异自动标注方法、装置、电子设备和存储介质 | |
CN118115509A (zh) | 一种标签生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |