CN112365451B - 图像质量等级的确定方法、装置、设备及计算机可读介质 - Google Patents
图像质量等级的确定方法、装置、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN112365451B CN112365451B CN202011147351.7A CN202011147351A CN112365451B CN 112365451 B CN112365451 B CN 112365451B CN 202011147351 A CN202011147351 A CN 202011147351A CN 112365451 B CN112365451 B CN 112365451B
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- text
- feature
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013145 classification model Methods 0.000 claims description 79
- 238000001514 detection method Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 238000013441 quality evaluation Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 2
- 238000011156 evaluation Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 210000002569 neuron Anatomy 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000001537 neural effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000001303 quality assessment method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像质量等级的确定方法、装置、设备及计算机可读介质。该方法包括:获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。本申请解决了票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像质量等级的确定方法、装置、设备及计算机可读介质。
背景技术
票据质量的审核最重要的在于票据文字的大小是否合适、局部关键字是否清晰,字迹打印是否连续等。票据人工审核不仅耗费人力,而且审核周期长,用户体验差。
目前,相关技术中,通常采用票据图像识别模型(如CV算子、机器学习模型以及票据分类深度模型)来对票据图像进行自动质量识别,一般是基于图像整体而产生的人工构造或自动构造的特征,所采用的方法也都是基于自然图像质量识别的通用方法,对于文字区域质量识别为重点的票据图像场景,票据图像质量评估时针对票据文本质量的评估结果不准确。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种图像质量等级的确定方法、装置、设备及计算机可读介质,以解决票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。
根据本申请实施例的一个方面,本申请提供了一种图像质量等级的确定方法,包括:获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。
根据本申请实施例的另一方面,本申请提供了一种图像质量等级的确定装置,包括:图像获取模块,用于获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;文本特征提取模块,用于提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;图像分类模块,用于在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。
根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法。
根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
本申请技术方案为获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。本申请解决了票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例提供的一种可选的图像质量等级的确定方法硬件环境示意图;
图2为根据本申请实施例提供的一种可选的图像质量等级的确定方法流程图;
图3为根据本申请实施例提供的一种可选的文本区域特征提取流程图;
图4为根据本申请实施例提供的一种可选的从输入端融合文本检测模型的示意图;
图5为根据本申请实施例提供的一种可选的从特征层融合文本检测模型的示意图;
图6为根据本申请实施例提供的一种可选的采用多任务学习融合文本检测模型的示意图;
图7为根据本申请实施例提供的一种可选的采用预训练模型融合文本检测模型的示意图;
图8为根据本申请实施例提供的一种可选的图像质量等级的确定装置框图;
图9为本申请实施例提供的一种可选的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
神经网络:神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距b为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
深度神经网络:深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。例如,全连接神经网络中层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:,其中,/>是输入向量,/>是输出向量,/>是偏移向量,/>是权重矩阵(也称系数),/>是激活函数。每一层仅仅是对输入向量/>经过如此简单的操作得到输出向量/>。由于DNN层数多,则系数/>和偏移向量/>的数量也就很多了。这些参数在DNN中的定义如下所述:以系数/>为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>。上标3代表系数/>所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L−1 层的第k个神经元到第L层的第j个神经元的系数定义为/>。需要注意的是,输入层是没有/>参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
卷积神经网络:卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
CRAFT:残差网络,深度神经网络中的一种,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
多任务学习:是一种归纳迁移机制,主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力,多任务学习通过使用共享表示并行训练多个任务来完成这一目标。
像素值:图像的像素值可以是一个红绿蓝(RGB)颜色值,像素值可以是表示颜色的长整数。例如,像素值为256*Red+100*Green+76Blue,其中,Blue代表蓝色分量,Green代表绿色分量,Red代表红色分量。各个颜色分量中,数值越小,亮度越低,数值越大,亮度越高。对于灰度图像来说,像素值可以是灰度值。
相关技术中,通常采用票据图像识别模型(如CV算子、机器学习模型以及票据分类深度模型)来对票据图像进行自动质量识别,一般是基于图像整体而产生的人工构造或自动构造的特征,所采用的方法也都是基于自然图像质量识别的通用方法,对于文字区域质量识别为重点的票据图像场景,票据图像质量评估时针对票据文本质量的评估结果不准确。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种图像质量等级的确定方法的实施例。
可选地,在本申请实施例中,上述图像质量等级的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种图像质量等级的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
步骤S202,待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域。
本申请实施例中的基于文本检测模型的票据图像处理方法可以应用于申请人申请办理一些对上传的票据图像的清晰度有一定要求的业务场景中,比如申请人办理理赔业务,需要上传票据图像至理赔业务***,理赔业务***对当前获取的票据图像的清晰度进行判别,以确定下一步是进入受理阶段还是通知申请人根据***提示要求重新回传。其中,业务场景也可以是申请人到银行办理个人信息相关的金融业务等,本申请实施例中对此不作限定。
可选地,本申请实施例以理赔业务场景为例对上述基于文本检测模型的票据图像处理方法进行解释说明。申请人可以将待处理图像上传到理赔业务***内,其中,待处理图像为申请受理目标业务的票据图像,比如,该票据图像是用户的保险账单图像信息。
理赔业务***的后台服务器可以接收申请人的客户端(即,申请受理目标业务的客户端)上传的待处理图像,从而获取到该待处理图像。
步骤S204,利提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系。
本申请实施例中,对票据图像进行质量自动识别时,为了贴合票据图像中的文字区域作为关键识别区域的特殊性,可以采用深度文本检测模型对票据图像进行文本区域检测,以在图像中找出文字所在的位置。常用的深度文本检测模型有CTPN、segLink、EAST、PSENet、LSAE、ATRR、CRAFT等模型。
步骤S206,在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。
本申请实施例中,可以将文本检测模型对待处理图像提取的文本区域特征结合到目标分类模型,以将文本检测模型融入目标分类模型,来提高对票据图像质量的评估准确率。目标分类模型可以采用卷积神经网络模型作为初始训练模型利用具有标记信息的训练数据进行训练得到的。标记信息至少标记出训练数据的图像质量等级。
采用本申请技术方案,通过将文本检测模型融合到通用质量评估模型中,能够解决票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。
可选地,如图3所示,步骤S204可以包括以下步骤:
步骤S2041,通过对待处理图像进行缩放处理,得到符合目标尺寸要求的中间图像;
步骤S2042,利用文本检测模型对中间图像进行上采样,以提取单字符特征;
步骤S2043,将提取到的多个单字符特征进行合并,得到多字符特征;
步骤S2044,确定中间图像的各个像素点属于多字符特征中每个字符中心的概率,得到文本特征图。
本申请实施例中,可以对待处理图像进行下采样,即缩放处理,使得到的中间图像与待处理图像的长度和宽度一致。待处理图像的尺寸即为上述目标尺寸。利用上采样从中间图像中裁剪出单个字符的图像,还可以使用分水岭算法分割字符区域,得到单个字符,此时每个字符都被包围于多边形框中,多边形框的中心位置即为每个字符的字符中心。将分割的多个单个字符的多边形框的坐标转换回待处理图像上的坐标,即将多个单字符进行合并,按照坐标顺序可以得到连续的多字符。最后逐像素计算该像素属于字符中心的概率,得到文本特征图。
本申请实施例中可以采用CRAFT模型作为文本检测模型。CRAFT模型的主干网络采用VGG-16的backbone,VGG-16为一种深度卷积神经网络,backbone是网络结构中的主干部分,在CV领域一般指对图像进行特征提取的网络部分。CRAFT提取待处理图像的文本区域特征时,类似于u-net结构先下采样再上采样的方法,可以进行多次下采样。下采样会将输入图片的长和宽padding到距离长和宽的值最近的32的倍数,比如输入图片为500*400,则会将图片padding到512*416,可以有效的避免分割中的像素漂移现象。像素漂移,即数字图像的位相漂移,是指在对一幅静止的光学影像进行重复采集的一系列数字图像发生抖动的现象。下采样之后将要进行上采样和特征合并操作的图像为中间图像,CRAFT模型对中间图像进行上采样和特征合并后,模型输出两个通道特征图:region score map和affinityscore map,分别为单字符中心区域的概率和相邻字符区域中心的概率。
由于票据图像的质量识别场景需要关注的时文字区域的特征而弱化非文字区域的特征,因此可以通过region score map,也即文本区域特征区分出文字区域与非文字区域。通常情况下文字区域的模糊程度不同时,区域概率值也不同,也可以使用文字区域概率值区分图像的模糊程度。
本申请提供了4种将文本检测模型融合至通用质量评估模型中的方法,下面结合图4至图7,详细说明本申请各个方案。
可选地,步骤S206可以包括以下步骤:
步骤S2061,将文本特征图进行缩放处理,以将文本特征图调整至与待处理图像的长度和宽度一致。
本申请实施例中,上采样和下采样可以对图像进行缩放,从而可以将目标特征图调整至与待处理图像的长度和宽度一致。对于一幅图像I尺寸为M*N,对其进行s倍采样,即得到(M/s)*(N/s)尺寸的分辨率图像,s为M和N的公约数,此即为下采样。上采样可以采用内插值的方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法***新的元素。
步骤S2062,将待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与待处理图像长度和宽度一致的文本特征图作为附加图像信息输入目标分类模型,以供目标分类模型利用文本特征图对待处理图像进行识别。
在计算机视觉领域,一般图像输入信息的尺寸为高度*宽度*通道数,彩色图像的通道输入一般为颜色三通道数据,如RGB三通道、HSV三通道、YUV三通道等。
本申请实施例中,如图4所示,可以将文本检测模型对待处理图像提取的文本区域特征(即与待处理图像长度和宽度一致的文本特征图)作为图像输入信息的一个维度从第四个通道输入,从而可以增强目标分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。
步骤S2063,根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级。
可选地,步骤S2063根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级包括以下步骤:
步骤S20631,将文本特征图和待处理图像输入目标分类模型的第一卷积层,得到第一图像特征;
步骤S20632,将第一图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;
步骤S20633,在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
本申请实施例中,上述第一卷积层为目标分类模型的隐含层中的多层卷积层,用于提取图像特征,上述第二卷积层为1*1卷积层,用于计算概率。
本申请实施例中,卷积层可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或取决于步长stride的取值,多个像素接着多个像素)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小与待处理图像的大小相关。
需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像(待处理图像和目标特征图)的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。
不同的权重矩阵可以用来提取图像中不同的特征,例如,一个权重矩阵可以用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪声进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得神经网络进行正确的预测。本申请实施例中,经过卷积层可以得到第一图像特征,该第一图像特征为结合待处理图像和文本区域特征识别得到的。
本申请实施例中,第一图像特征进入1*1卷积层进行概率预测,由输出层输出预测结果(即上述待处理图像属于各个分类的类别概率)。最后根据预设的类别概率阈值范围确定待处理图像的目标质量等级,质量等级高,表示该待处理图像文字区域清晰,票据图像质量较高,质量等级低,表示该待处理图像文字区域模糊,票据图像质量较低。
采用本申请技术方案,能够从输入端将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。
可选地,步骤S206在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级,还可以包括以下步骤:
步骤S2061,将待处理图像输入目标分类模型,得到目标分类模型的第一卷积层输出的待处理图像的第二图像特征,第二图像特征为对待处理图像进行特征预提取的结果。
本申请实施例中,上述第二图像特征为目标分类模型仅对待处理图像进行特征识别得到的,即该待处理图像的整体图像特征。上述第一卷积层为目标分类模型的隐含层中的多层卷积层,用于提取图像特征。
步骤S2062,将第二图像特征和文本区域特征输入目标分类模型的特征层,以将第二图像特征和文本区域特征进行特征融合,得到第三图像特征。
本申请实施例中,上述第三图像特征为将待处理图像的整体图像特征(即第二图像特征)和文本区域特征融合后得到的。
步骤S2063,将第三图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级。
本申请实施例中,上述第二卷积层为1*1卷积层,用于进行概率预测。
步骤S2064,在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
本申请实施例中,如图5所示,还可以在目标分类模型的特征层融合文本检测模型,即可以将文本检测模型对待处理图像提取的文本区域特征和目标分类模型的卷积层对待处理图像初步提取的图像整体特征进行特征融合,在融合后的特征上进行分类任务的识别。
可选地,将第二图像特征和文本区域特征进行特征融合可以包括以下方式中的至少一种:
将第二图像特征和文本区域特征进行缩放处理,以将第二图像特征和文本区域特征调整至大小一致;将大小一致的第二图像特征和文本区域特征相加,以进行特征拼接,得到第三图像特征;
将第二图像特征和文本区域特征相乘,得到特征矩阵;对特征矩阵进行池化运算,得到特征向量;对特征向量进行归一化,以进行双线性池化,得到第三图像特征。
本申请实施例中,上述第二图像特征和文本区域特征均是由矩阵表示,矩阵拼接需要相同的维度,因此在矩阵拼接之前需要对第二图像特征和文本区域特征进行缩放处理,以使两个矩阵维度相同。
本申请实施例中,在进行双线性池化融合特征时,将第二图像特征和文本区域特征相乘,即将表示第二图像特征的矩阵和表示文本特征的矩阵相乘,若第二图像特征为M行,文本区域特征为N列,则得到的融合特征为M*N维德矩阵。上述池化运算可以是最大池化运算,还可以时平均池化运算。
采用本申请技术方案,能够从通用质量评估模型的特征层将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。
可选地,步骤S204利用文本检测模型提取待处理图像的文本区域特征,还可以包括以下步骤:采用目标分类模型中的目标中间层对待处理图像进行特征提取,得到中间层特征图,文本区域特征包括中间层特征图,目标中间层为使用文本检测模型对训练数据提取文本区域特征作为监督标签进行监督训练得到的。
步骤S206在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级,还可以包括以下步骤:
步骤S2061,确定中间层特征图与文本检测模型提取到的文本特征图的均方误差损失;
步骤S2062,确定目标分类模型对待处理图像进行识别得到的第一质量等级;
步骤S2063,将均方误差损失与第一质量等级的加权和作为待处理图像所属的目标质量等级。
本申请实施例中,如图6所示,可以参照多任务学习模型在通用质量评估模型(分类模型)任务的基础上增加文本检测模型任务,即可以在当前分类任务之外增加文字区域检测的任务监督,可以是在原分类模型的主干网络中选取一个中间层用于预测字符区域概率,监督标签可以使用CRAFT在同一张图像上(待处理图像)输出的region score map进行监督,例如将中间层对待处理图像预测输出的概率图(文本区域特征)作为中间层特征图,将文本检测模型对待处理图像预测输出得到的region score map(文本区域特征)作为监督标签,再将中间层特征图和监督标签做均方误差,以进行文本区域特征的任务监督。需要说明的是,中间层特征图与监督标签尺寸不一致时,需要进行上采样、下采样中的至少一种,以进行归一化。
本申请实施例中,将中间层特征图和监督标签做均方误差可以是将中间层特征图作为估计量,监督标签作为被估计量,通过计算二者的均方误差来反映二者的差异程度,具体可以是计算由中间层预测的概率(中间层特征图)与由文本检测模型预测的概率(监督标签)之间差值平方的期望。
本申请实施例中,目标分类模型还可以根据待处理图像的整体图像特征先预测出待处理图像的第一质量等级,该第一质量等级为未结合文本区域特征进行评估得到的,因此可以对第一质量等级和上述均方误差损失赋予权重,将二者的加权和作为最终的该待处理图像的目标质量等级,从而将文本区域特征结合到图像质量等级的分类任务中。
采用本申请技术方案,能够从多任务监督的角度将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。
可选地,在步骤S204利用文本检测模型提取待处理图像的文本区域特征之前,该方法还包括:
将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型来使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。
本申请实施例中,文本检测模型本身是用来进行识别文本区域的任务,模型中以输出层输出识别结果。目标分类模型是用来进行分类任务的,模型中通常以全连接层输出预测的概率。因此为了将文本检测模型作为目标分类模型的预训练模型,可以将文本检测模型的最后一层(即输出层)替换成全连接层来做分类任务。
本申请实施例中,如图7所示,还可以将文本检测模型作为分类模型的预训练模型,具体可以是将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型,并使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。
全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。
步骤S204提取文本区域的文本区域特征,还可以包括以下步骤:将待处理图像输入目标分类模型,以利用目标分类模型的主干网络提取待处理图像的文本区域特征和整体图像特征。
步骤S206在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级,还可以包括以下步骤:
步骤S2061,将文本区域特征和整体图像特征输入全连接层,得到全连接层输出的类别概率,类别概率用于评估待处理图像的质量等级;
步骤S2062,在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
本申请实施例中,利用文本检测模型作为预训练模型得到的目标分类模型可以从待处理图像中提取出该图像的整体图像特征和文本区域特征,再将该图像的整体图像特征和文本区域特征输入全连接层,以进行概率预测,得到该待处理图像所属的目标质量等级。
采用本申请技术方案,能够从预训练模型的角度将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。
根据本申请实施例的又一方面,如图8所示,提供了一种基于文本检测模型的票据图像处理装置,包括:图像获取模块801,用于获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;文本特征提取模块803,用于提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;图像分类模块805,用于在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。
需要说明的是,该实施例中的图像获取模块801可以用于执行本申请实施例中的步骤S202,该实施例中的文本特征提取模块803可以用于执行本申请实施例中的步骤S204,该实施例中的图像分类模块805可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,该文本特征提取模块,具体用于:通过对所述待处理图像进行缩放处理,得到符合目标尺寸要求的中间图像;利用文本检测模型对所述中间图像进行上采样,以提取单字符特征;将提取到的多个单字符特征进行合并,得到多字符特征;确定中间图像的各个像素点属于多字符特征中每个字符中心的概率,得到文本特征图。
可选地,该图像分类模块,具体用于:将文本特征图进行缩放处理,以将文本特征图调整至与待处理图像的长度和宽度一致;将待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与待处理图像长度和宽度一致的文本特征图作为附加图像信息输入目标分类模型,以供目标分类模型利用文本特征图对待处理图像进行识别;根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级。
可选地,该图像分类模块,还用于:将文本特征图和待处理图像输入目标分类模型的第一卷积层,得到第一图像特征;将第一图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
可选地,该图像分类模块,还用于:将待处理图像输入目标分类模型,得到目标分类模型的第一卷积层输出的待处理图像的第二图像特征,第二图像特征为对待处理图像进行特征预提取的结果;将第二图像特征和文本区域特征输入目标分类模型的特征层,以将第二图像特征和文本区域特征进行特征融合,得到第三图像特征;将第三图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
可选地,该图像分类模块,还包括特征融合单元,用于:将第二图像特征和文本区域特征进行缩放处理,以将第二图像特征和文本区域特征调整至大小一致;将大小一致的第二图像特征和文本区域特征相加,以进行特征拼接,得到第三图像特征;将第二图像特征和文本区域特征相乘,得到特征矩阵;对特征矩阵进行池化运算,得到特征向量;对特征向量进行归一化,以进行双线性池化,得到第三图像特征。
可选地,该文本特征提取模块,还用于:采用目标分类模型中的目标中间层对待处理图像进行特征提取,得到中间层特征图,文本区域特征包括中间层特征图,目标中间层为使用文本检测模型对训练数据提取文本区域特征作为监督标签进行监督训练得到的。
可选地,该图像分类模块,还用于:确定中间层特征图与文本检测模型提取到的文本特征图的均方误差损失;确定目标分类模型对待处理图像进行识别得到的第一质量等级;将均方误差损失与第一质量等级的加权和作为待处理图像所属的目标质量等级。
可选地,基于文本检测模型的票据图像处理装置,还包括预训练模型模块,用于:将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型来使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。
可选地,该文本特征提取模块,还用于:将待处理图像输入目标分类模型,以利用目标分类模型的主干网络提取待处理图像的文本区域特征和整体图像特征。
可选地,该图像分类模块,还用于:将文本区域特征和整体图像特征输入全连接层,得到全连接层输出的类别概率,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图9所示,包括存储器901、处理器903、通信接口905及通信总线907,存储器901中存储有可在处理器903上运行的计算机程序,存储器901、处理器903通过通信接口905和通信总线907进行通信,处理器903执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的步骤。
可选地,在本申请实施例中,计算机程序产品或计算机程序用于处理器执行以下步骤的程序代码:
获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;
提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;
在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种图像质量等级的确定方法,其特征在于,包括:
步骤S1,获取待处理图像,其中,所述待处理图像包括记录有目标业务的受理记录的文本区域;
步骤S2,提取所述文本区域的文本区域特征,其中,所述文本区域特征用于描述所述文本区域内的像素点与字符之间的关系;
步骤S3,在对所述待处理图像的质量等级进行评估时,基于所述待处理图像的整体图像特征和所述文本区域特征确定所述待处理图像所属的目标质量等级;
所述步骤S3包括:将文本特征图进行缩放处理,以将所述文本特征图调整至与所述待处理图像的长度和宽度一致,所述文本区域特征包括所述文本特征图;将所述待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与所述待处理图像长度和宽度一致的所述文本特征图作为附加图像信息输入所述目标分类模型,以供所述目标分类模型利用所述文本特征图对所述待处理图像进行识别;根据所述目标分类模型利用所述文本特征图对所述待处理图像进行识别的识别结果,确定所述待处理图像所属的所述目标质量等级;
所述根据所述目标分类模型利用所述文本特征图对所述待处理图像进行识别的识别结果确定所述待处理图像所属的所述目标质量等级的步骤,包括:将所述文本特征图和所述待处理图像输入所述目标分类模型的第一卷积层,得到第一图像特征;将所述第一图像特征输入所述目标分类模型的第二卷积层,得到输出层输出的类别概率,其中,所述第二卷积层的输出结果通过所述输出层输出,所述类别概率用于评估所述待处理图像的质量等级;在所述类别概率在预设类别概率阈值范围内的情况下,确定所述待处理图像所属的所述目标质量等级。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
通过对所述待处理图像进行缩放处理,得到符合目标尺寸要求的中间图像;
对所述中间图像进行特征识别,得到文本特征图,其中,所述文本区域特征包括所述文本特征图,所述文本特征图用于表示像素点处于字符中心的概率,所述字符中心为文本检测模型生成的包围所述文本区域中每个字符的多边形框的中心位置。
3.根据权利要求2所述的方法,其特征在于,所述对所述中间图像进行特征识别,得到文本特征图的步骤,包括:
利用文本检测模型对所述中间图像进行上采样,以提取单字符特征;
将提取到的多个单字符特征进行合并,得到多字符特征;
确定所述中间图像上的各个像素点属于所述多字符特征中每个字符中心的概率,得到所述文本特征图。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3,还包括:
将所述待处理图像输入目标分类模型,得到所述目标分类模型的第一卷积层输出的所述待处理图像的第二图像特征,其中,所述第二图像特征为对所述待处理图像进行特征预提取的结果;
将所述第二图像特征和所述文本区域特征输入所述目标分类模型的特征层,以将所述第二图像特征和所述文本区域特征进行特征融合,得到第三图像特征;
将所述第三图像特征输入所述目标分类模型的第二卷积层,得到输出层输出的类别概率,其中,所述第二卷积层的输出结果通过所述输出层输出,所述类别概率用于评估所述待处理图像的质量等级;
在所述类别概率在预设类别概率阈值范围内的情况下,确定所述待处理图像所属的所述目标质量等级。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二图像特征和所述文本区域特征进行特征融合,得到第三图像特征的步骤,包括以下方式中的至少一种:
将所述第二图像特征和所述文本区域特征进行缩放处理,以将所述第二图像特征和所述文本区域特征调整至大小一致;将大小一致的所述第二图像特征和所述文本区域特征相加,以进行特征拼接,得到所述第三图像特征;
将所述第二图像特征和所述文本区域特征相乘,得到特征矩阵;对所述特征矩阵进行池化运算,得到特征向量;对所述特征向量进行归一化,以进行双线性池化,得到所述第三图像特征。
6.根据权利要求1所述的方法,其特征在于,
所述步骤S2还包括:采用目标分类模型中的目标中间层对所述待处理图像进行特征提取,得到中间层特征图,其中,所述文本区域特征包括所述中间层特征图,所述目标中间层为所述目标分类模型中至少一层特征提取网络层,所述目标中间层为使用文本检测模型对训练数据提取所述文本区域特征作为监督标签进行监督训练得到的;
所述步骤S3还包括:确定所述中间层特征图与所述文本检测模型提取到的文本特征图的均方误差损失;确定所述目标分类模型对所述待处理图像进行识别得到的第一质量等级;将所述均方误差损失与所述第一质量等级的加权和作为所述待处理图像所属的所述目标质量等级。
7.根据权利要求1所述的方法,其特征在于,
在所述步骤S2之前,所述方法还包括:将文本检测模型的输出层替换为全连接层,并利用训练数据对所述文本检测模型进行分类任务的训练,得到目标分类模型,以将所述文本检测模型作为所述目标分类模型的预训练模型,并使用所述分类任务对所述文本检测模型的训练参数进行微调,所述分类任务为确定图像质量等级的任务;
所述步骤S2还包括:将所述待处理图像输入所述目标分类模型,以利用所述目标分类模型提取所述待处理图像的所述文本区域特征和所述整体图像特征;
所述步骤S3还包括:将所述文本区域特征和所述整体图像特征输入所述全连接层,得到所述全连接层输出的类别概率,所述类别概率用于评估所述待处理图像的质量等级;在所述类别概率在预设类别概率阈值范围内的情况下,确定所述待处理图像所属的所述目标质量等级。
8.一种图像质量等级的确定装置,其特征在于,包括:
图像获取模块,用于获取待处理图像,其中,所述待处理图像包括记录有目标业务的受理记录的文本区域;
文本特征提取模块,用于提取所述文本区域的文本区域特征,其中,所述文本区域特征用于描述所述文本区域内的像素点与字符之间的关系;
图像质量评估模块,用于在对所述待处理图像的质量等级进行评估时,基于所述待处理图像的整体图像特征和所述文本区域特征确定所述待处理图像所属的目标质量等级;
所述图像质量评估模块用于:将文本特征图进行缩放处理,以将所述文本特征图调整至与所述待处理图像的长度和宽度一致,所述文本区域特征包括所述文本特征图;将所述待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与所述待处理图像长度和宽度一致的所述文本特征图作为附加图像信息输入所述目标分类模型,以供所述目标分类模型利用所述文本特征图对所述待处理图像进行识别;根据所述目标分类模型利用所述文本特征图对所述待处理图像进行识别的识别结果,确定所述待处理图像所属的所述目标质量等级;
所述图像质量评估模块,具体还用于:将所述文本特征图和所述待处理图像输入所述目标分类模型的第一卷积层,得到第一图像特征;将所述第一图像特征输入所述目标分类模型的第二卷积层,得到输出层输出的类别概率,其中,所述第二卷积层的输出结果通过所述输出层输出,所述类别概率用于评估所述待处理图像的质量等级;在所述类别概率在预设类别概率阈值范围内的情况下,确定所述待处理图像所属的所述目标质量等级。
9.一种电子设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147351.7A CN112365451B (zh) | 2020-10-23 | 2020-10-23 | 图像质量等级的确定方法、装置、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147351.7A CN112365451B (zh) | 2020-10-23 | 2020-10-23 | 图像质量等级的确定方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365451A CN112365451A (zh) | 2021-02-12 |
CN112365451B true CN112365451B (zh) | 2024-06-21 |
Family
ID=74511910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011147351.7A Active CN112365451B (zh) | 2020-10-23 | 2020-10-23 | 图像质量等级的确定方法、装置、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365451B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222985B (zh) * | 2021-06-04 | 2022-01-21 | 中国人民解放军总医院 | 一种图像处理方法、装置、计算机设备和介质 |
CN113448925A (zh) * | 2021-06-25 | 2021-09-28 | 东莞市小精灵教育软件有限公司 | 试题图片优化方法、装置、计算机设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710882A (zh) * | 2018-05-11 | 2018-10-26 | 武汉科技大学 | 一种基于卷积神经网络的屏幕渲染文本识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0411245D0 (en) * | 2004-05-20 | 2004-06-23 | Enseal Systems Ltd | A method for the assessment of quality and usability of digital cheque images with minimal computational requirements |
CN106372651B (zh) * | 2016-08-22 | 2018-03-06 | 平安科技(深圳)有限公司 | 图片品质的检测方法及装置 |
CN107481238A (zh) * | 2017-09-20 | 2017-12-15 | 众安信息技术服务有限公司 | 图像质量评估方法及装置 |
CN107679490B (zh) * | 2017-09-29 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
CN110866471A (zh) * | 2019-10-31 | 2020-03-06 | Oppo广东移动通信有限公司 | 人脸图像质量评价方法及装置、计算机可读介质、通信终端 |
-
2020
- 2020-10-23 CN CN202011147351.7A patent/CN112365451B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710882A (zh) * | 2018-05-11 | 2018-10-26 | 武汉科技大学 | 一种基于卷积神经网络的屏幕渲染文本识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112365451A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及*** | |
CN104299006A (zh) | 一种基于深度神经网络的车牌识别方法 | |
CN111723822B (zh) | 一种基于多层次融合的rgbd图像显著性检测方法及*** | |
CN112365451B (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN112560831A (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN111553363B (zh) | 一种端到端的图章识别方法及*** | |
CN113688821B (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN113591866A (zh) | 基于db与crnn的特种作业证件检测方法及*** | |
CN110826609A (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN113920468A (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN115797731A (zh) | 目标检测模型训练方法、检测方法、终端设备及存储介质 | |
CN111814562A (zh) | 车辆的识别方法、车辆识别模型的训练方法及相关装置 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
Xiang et al. | Recognition of characters on curved metal workpiece surfaces based on multi-exposure image fusion and deep neural networks | |
CN112132867B (zh) | 一种遥感影像变化检测方法及装置 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN113378609B (zh) | 代理商代签名的识别方法及装置 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN115761552A (zh) | 面向无人机机载平台的目标检测方法、***、设备及介质 | |
CN115587994A (zh) | 基于多视角特征的模型融合图像篡改检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |