CN110163205A - 图像处理方法、装置、介质和计算设备 - Google Patents
图像处理方法、装置、介质和计算设备 Download PDFInfo
- Publication number
- CN110163205A CN110163205A CN201910374294.7A CN201910374294A CN110163205A CN 110163205 A CN110163205 A CN 110163205A CN 201910374294 A CN201910374294 A CN 201910374294A CN 110163205 A CN110163205 A CN 110163205A
- Authority
- CN
- China
- Prior art keywords
- image
- classification
- processed
- sample image
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明的实施方式提供了一种图像处理方法。该方法包括:提取待处理图像的图像特征,得到第一特征值矩阵;采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集,其中预定角度类别指示了偏移角度所在的角度区间;根据所述预测置信度集,确定所述待处理图像的偏移角度;以及根据所述偏移角度,旋转所述待处理图像。本发明的方法通过将图像的偏移角度确定问题转化为角度分类任务,可以有效降低计算复杂度,提高确定的偏移角度的准确性。此外,本发明的实施方式还提供了一种图像处理装置、介质和计算设备。
Description
技术领域
本发明的实施方式涉及图像处理领域,更具体地,本发明的实施方式涉及一种图像处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在工作生活中,常常需要识别提取图像中的文字,以编辑提取得到的文字;或者,在对图像进行识别处理时,对图像中文字的识别也是必不可少的。
通常,在识别图像中的文字时,往往采用光学字符识别(optical CharacterRecognition,OCR)方法。但图像中文字的角度对OCR方法识别文字的准确率影响较大。通常,在文字处于水平角度的情况下,OCR方法识别文字的准确率最高。
其中,在用户拍摄的图像中,往往存在文字相对于水平方向具有一定偏移角度的情况。则为了提高OCR方法识别文字的准确率,往往需要在采用OCR方法进行文字识别之前对图像进行纠偏,以将图像中文字的偏移角度尽可能的调至0°。现有技术中,在对图像进行纠偏时,往往需要数学建模、畸变函数参数的修正、计算反向影射坐标及图像恢复等步骤,其中的每一步都需要用到复杂的算法。因此,在存在大量的待纠偏图像时,采用上述方法会使得图像纠偏任务的执行效率低下。
发明内容
因此在现有技术中,采用现有的对图像进行纠偏,使得图像中文字的偏移角度趋近于0°的方法存在计算复杂度高的问题。
为此,非常需要一种图像处理方法,能够在保证纠偏效果较好的前提下,降低图像纠偏的计算复杂度。
在本上下文中,本发明的实施方式期望能够将图像纠偏任务转化为偏移角度的分类任务,以根据角度分类结果确定的偏移角度对图像进行旋转,从而降低图像纠偏的计算复杂度。
本发明实施方式的第一方面中,提供了一种图像处理方法,包括:提取待处理图像的图像特征,得到第一特征值矩阵;采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集,其中预定角度类别指示了偏移角度所在的角度区间;根据所述预测置信度集,确定所述待处理图像的偏移角度;以及根据所述偏移角度,旋转所述待处理图像。
在本发明的一个实施例中,在提取所述待处理图像的图像特征之前,所述图像处理方法还包括:确定所述待处理图像的最大内切圆;根据所述最大内切圆,对所述待处理图像做掩码处理;以及对掩码处理后的待处理图像进行归一化,得到归一化的待处理图像。其中,所述第一特征值矩阵根据所述归一化的待处理图像提取得到。
在本发明的另一个实施例中,所述图像处理方法还包括:提取样本图像的图像特征,得到第二特征值矩阵,所述样本图像具有对应的实际置信度集;根据所述第二特征值矩阵,采用所述分类预测模型,得到与所述样本图像对应的预测置信度集;根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用第一损失计算模型确定所述分类预测模型的分类损失值;以及根据所述分类损失值,采用反向传播算法优化所述分类预测模型。
在本发明的又一个实施例中,根据所述文本标注框,确定与所述样本图像对应的实际的文本信息矩阵包括:以所述文本标注框的中心点为放缩原点,根据预定比例缩小所述文本标注框;以及根据所述样本图像中各个像素点相对于缩小后的文本标注框及缩小前的文本标注框的分布,确定与所述样本图像中各个像素点对应的文本信息,得到与所述样本图像对应的实际的文本信息矩阵。
在本发明的再一个实施例中,采用第一损失计算模型确定所述分类预测模型的分类损失值包括:根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用归一化计算模型确定所述分类预测模型的角度分类损失值;根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用罚函数确定所述角度分类损失值的惩罚因子;以及将所述角度分类损失值和所述惩罚因子的乘积作为所述分类预测模型的分类损失值。
在本发明的再一个实施例中,根据所述预测置信度集,确定所述待处理图像的偏移角度包括:根据所述预测置信度集中的各个预测置信度,确定与所述待处理图像对应的预定角度类别;根据与所述待处理图像对应的预定角度类别和平滑因子,确定所述待处理图像的偏移角度。其中,所述平滑因子与所述角度区间的划分规则相对应。
在本发明实施方式的第二方面中,提供了一种图像处理装置,包括:特征提取模块,用于提取待处理图像的图像特征,得到第一特征值矩阵;预测置信度确定模块,用于采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集,其中所述预定角度类别指示了偏移角度所在的角度区间;偏移角度确定模块,用于根据所述预测置信度集,确定所述待处理图像的偏移角度;以及图像旋转模块,用于根据所述偏移角度,旋转所述待处理图像。
在本发明的一个实施例中,所述图像处理装置还包括预处理模块。该预处理模块包括:内切圆确定子模块,用于确定所述待处理图像的最大内切圆;处理子模块,用于根据所述最大内切圆,对所述待处理图像做掩码处理;以及归一化子模块,用于对掩码后的待处理图像进行归一化,得到归一化的待处理图像。其中,所述特征提取模块根据所述归一化的待处理图像提取得到所述第一特征值矩阵。
在本发明的另一个实施例中,所述特征提取模块还用于提取样本图像的图像特征,得到第二特征值矩阵,所述样本图像具有对应的实际置信度集;所述预测置信度确定模块还用于根据所述第二特征值矩阵,采用所述分类预测模型,得到与所述样本图像对应的预测置信度集。所述图像处理装置还包括:分类损失值确定模块,用于根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用第一损失计算模型确定所述分类预测模型的分类损失值;以及优化模块,用于根据所述分类损失值,采用反向传播算法优化所述分类预测模型。
在本发明的又一个实施例中,所述样本图像标注有文本标注框,所述图像处理装置还包括分割损失值确定模块,包括:实际文本信息确定子模块,用于根据所述文本标注框,确定与所述样本图像对应的实际的文本信息矩阵,所述文本信息矩阵中的一个文本信息指示所述样本图像中一个像素点是否包括文本;预测文本信息确定子模块,用于根据所述第二特征值矩阵及映射函数,确定与所述样本图像对应的预测的文本信息矩阵;以及分割损失值确定子模块,用于根据所述实际的文本信息矩阵及所述预测的文本信息矩阵,采用第二损失计算模型确定所述分类预测模型的分割损失值。其中,根据所述分类损失值及所述分割损失值,采用反向传播算法,优化所述分类预测模型。
在本发明的再一个实施例中,所述实际文本信息确定子模块包括:放缩单元,用于以所述文本标注框的中心点为放缩原点,根据预定比例缩小所述文本标注框;以及信息确定单元,用于根据所述样本图像中各个像素点相对于缩小后的文本标注框及缩小前的文本标注框的分布,确定与所述样本图像中各个像素点对应的文本信息,得到与所述样本图像对应的实际的文本信息矩阵。
在本发明的再一个实施例中,所述分类损失值确定模块包括:角度分类损失值确定子模块,用于根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用归一化计算模型确定所述分类预测模型的角度分类损失值;惩罚因子确定子模块,用于根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用罚函数确定所述角度分类损失值的惩罚因子;以及分类损失值确定子模块,用于将所述角度分类损失值和所述惩罚因子的乘积作为所述分类预测模型的分类损失值。
在本发明的再一个实施例中,所述偏移角度确定模块包括:角度类别确定子模块,用于根据所述预测置信度集中的各个预测置信度,确定与所述待处理图像对应的预定角度类别;以及偏移角度确定子模块,用于根据与所述待处理图像对应的预定角度类别和平滑因子,确定所述待处理图像的偏移角度。其中,所述平滑因子与所述角度区间的划分规则相对应。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令在被处理器执行时使处理器执行根据本发明实施方式的第一方面所提供的图像处理方法。
在本发明实施方式的第四方面中,提供了一种计算设备。该计算设备包括存储有可执行指令的一个或多个存储单元,以及一个或多个处理单元。该处理单元执行该可执行指令,用以实现根据本发明实施方式的第一方面所提供的图像处理方法。
根据本发明实施方式的图像处理方法、装置、介质和计算设备,在通过旋转图像来实现图像纠偏之前,先通过角度分类方法对图像的偏移角度进行分类,再根据分类结果来确定图像的偏移角度,最后根据偏移角度来旋转图像。从而可以将图像纠偏任务转化为角度分类任务,降低图像纠偏过程的计算复杂度,并因此提高图像纠偏的效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性示出了根据本发明实施方式的图像处理方法、装置、介质和计算机设备的应用场景;
图2A示意性示出了根据本发明第一实施例的图像处理方法的流程图;
图2B示意性示出了根据本发明实施例的确定待处理图像的偏移角度的流程图;
图3示意性示出了根据本发明第二实施例的图像处理方法的流程图;
图4A示意性示出了根据本发明第三实施例的图像处理方法的流程图;
图4B示意性示出了根据本发明实施例的确定分类损失值的流程图;
图5A示意性示出了根据本发明第四实施例的图像处理方法的流程图;
图5B示意性示出了根据本发明实施例的确定实际的文本信息矩阵的流程图;
图6示意性示出了根据本发明第五实施例的图像处理方法中计算损失值的流程图;
图7示意性示出了根据本发明一实施例的图像处理装置的方框图;
图8示意性示出了根据本发明一实施例的适于执行图像处理方法的程序产品的示意图;以及
图9示意性示出了根据本发明一实施例的适于执行图像处理方法的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种图像处理方法、装置、介质和计算设备。
此外,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在对图像进行纠偏时,可以将全角度0~360°分为若干个角度区间。则在图像纠偏时,可以先通过训练好的分类预测模型来确定图像的偏移角度所在的角度区间,再根据所在的角度区间来确定偏移角度,最后再根据偏移角度旋转图像实现图像纠偏。整个过程无需复杂的数学建模等计算,因此可以在一定程度上提高图像纠偏效率。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1。
图1示意性示出了根据本发明实施方式的图像处理方法、装置、介质和计算机设备的应用场景。需要注意的是,图1所示仅为可以应用本发明实施例的应用场景的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、***、环境或场景。
如图1所示,该应用场景100包括有终端设备111、112、113及多个图像120。
其中的终端设备111、112、113例如具有显示屏幕,以用于向用户展示多个图像120和/或展示对多个图像120进行纠偏处理后的图像。根据本发明的实施例,该终端设备111、112、113包括但不限于台式计算机、膝上型便携计算机、平板电脑、智能手机、智能可穿戴设备或智能家电等等。
其中,终端设备111、112、113例如可以具有输入功能和/或图像采集功能,以用于获取所述多个图像120。该终端设备111、112、113例如还可以具有处理功能,以用于对获取的多个图像120进行纠偏,得到纠偏后的图像。
其中,多个图像120例如可以是预先采集好的图像,也可以是实时采集获取的图像。该多个图像120中的至少一个图像例如可以具有文字,则在对该多个图像120纠偏后,图像中包括的文字应该为相对于水平方向正立的文字。
根据本发明的实施例,该应用场景100例如还可以具有网络130和服务器140。网络130用于在终端设备111、112、113和服务器140之间提供通信链路的介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器140可以是提供各种服务的服务器,例如对终端设备111、112、113获取的多个图像120进行纠偏处理,并将纠偏处理后的图像反馈给终端设备111、112、113(仅为示例)。或者,该服务器140例如还可以具有存储功能,用于存储图像。则该服务器140还可以用于向终端设备111、112、113提供未纠偏的多个图像,供终端设备111、112、113对该未纠偏的多个图像进行纠偏处理。
需要说明的是,本发明实施例所提供的图像处理方法一般可以由终端设备111、112、113或服务器140执行。相应地,本发明实施例所提供的图像处理装置一般可以设置于终端设备111、112、113或服务器140中。本发明实施例所提供的图像处理方法也可以由不同于服务器140且能够与终端设备111、112、113和/或服务器140通信的服务器或服务器集群执行。相应地,本发明实施例所提供的图像处理装置也可以设置于不同于服务器140且能够与终端设备111、112、113和/或服务器140通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络、服务器、图像的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、网络、服务器和图像。
示例性方法
下面结合图1的应用场景,参考图2A~图6来描述根据本发明示例性实施方式的图像处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2A示意性示出了根据本发明第一实施例的图像处理方法的流程图,图2B示意性示出了根据本发明实施例的确定待处理图像的偏移角度的流程图。
如图2A所示,本发明第一实施例的图像处理方法包括操作S201~操作S204。该图像处理方法例如可以由图1中的终端设备111、112、113或者服务器140执行。
在操作S201,提取待处理图像的图像特征,得到第一特征值矩阵。
根据本发明的实施例,提取的图像特征例如可以包括颜色特征、纹理特征、形状特征和/或空间关系特征等多类特征。其中,该多类特征中的每一类特征例如可以有多个特征,以表示待处理图像中每个像素点的特征。根据本发明的实施例,每个像素点的每个特征例如可以是用数值表示的。则每个像素点的多个特征的数值例如可以组成一个特征值向量,多个像素点的特征值向量例如可以拼接形成特征值矩阵。
根据本发明的实施例,该操作S201例如可以通过用于提取特征的神经网络来实现特征提取。具体即为:以待处理图像作为用于提取特征的神经网络的输入,通过用于提取特征的神经网络处理后输出得到第一特征值矩阵。其中,在待处理图像为多个图像120时,则可以逐图像的获取图像特征。其中,所述的用于提取特征的神经网络例如可以是卷积神经网络(CNN,Convolutional Neural Networks)或深度神经网络(DNN,Deep NeuralNetworks),该用于提取特征的神经网络是采用大量的具有特征值标签的样本图像训练得到的。其中,输出得到的第一特征值矩阵例如可以包括一个或多个特征值矩阵,该第一特征值矩阵包括的矩阵个数具体可以与用于提取图像特征的神经网络的最后一层的通道个数相同。
在操作S202,采用分类预测模型对第一特征值矩阵进行处理,确定待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集。
根据本发明的实施例,所述预定角度类别具体可以用于指示偏移角度所在的角度区间。其中的角度区间例如可以包括对全角度0°~360°均等划分得到的多个角度区间。例如,若将全角度0°~360°均等划分为120个角度区间,多个角度区间可以分别为[0°,3°]、(3°,6°]、...(357°,360°],多个预定角度类别例如可以包括类别1~类别120。其中,类别1指示偏移角度所在的角度区间为[0°,3°],以此类推,类别120则指示偏移角度所在的角度区间为(357°,360°]。相应地,待处理图像相对于类别1的预测置信度具体为待处理图像的偏移角度属于角度区间[0°,3°]的概率。将待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度组合即可形成预测置信度集。可以理解的是,上述角度区间的划分方法仅作为示例以利于理解本发明,本发明对此不作限定。该角度区间的划分方法例如可以根据文字识别方法的识别精度来确定。例如,若文字识别方法对偏移角度在±5°以内的文字识别精度最高,则可以将全角度0°~360°均等地划分为360/5=72个角度区间。
其中,分类预测模型例如可以是CNN模型,该分类预测模型例如可以是以具有角度类别标签的多个样本图像的特征值矩阵作为样本数据进行优化训练得到的。该分类预测模型中的最后一层例如可以为全连接层,该全连接层包括的神经元个数具体可以是根据预定角度类别的个数来设定,以使得该分类预测模型的输出为所述的预测置信度集。根据本发明的实施例,作为分类预测模型的CNN模型例如可以与操作S202中用于提取图像特征的神经网络模型集成为一个神经网络模型。根据本发明的实施例,该分类预测模型例如可以采用图4A描述的操作S408~操作S411训练优化得到。在此不再详述。
在操作S203,根据预测置信度集,确定待处理图像的偏移角度。
根据本发明的实施例,该操作S203具体可以包括以下步骤:先根据预测置信度集,确定预测置信度最大的预定角度类别指示的角度区间为待处理图像的偏移角度所在的角度区间;然后根据该偏移角度所在的角度区间来确定偏移角度。例如,若该预定角度区间包括120个区间,则当预测置信度集中预测置信度最大的预定角度类别为类别5时,可以确定待处理图像的偏移角度所在的角度区间为(12°,15°]。从而可以确定待处理图像的偏移角度为该角度区间(12°,15°]中的任意角度。
根据本发明的实施例,为了进一步提高确定的偏移角度的准确度,在操作S203中确定偏移角度时,还可以引入平滑因子。则如图2B所示,操作S203具体可以包括操作S2031~操作S2032。
在操作S2031,根据预测置信度集中的各个预测置信度,确定与待处理图像对应的预定角度类别。在操作S2032,根据与待处理图像对应的预定角度类别和平滑因子,确定待处理图像的偏移角度。
其中,操作S2031具体即为确定预测置信度最大的预定角度类别为与待处理图像对应的预定角度类别。操作S2032可以包括:先根据对应的预定角度类别来确定待处理图像的偏移角度所在的角度区间,然后再根据该角度区间与平滑因子,确定待处理图像的偏移角度。具体地,由于预定角度类别与角度区间是一一对应的,则操作S2032具体还可以通过以下公式来确定偏移角度:预定角度类别*离散化因子+平滑因子。其中,离散化因子的取值具体可以是角度区间的间隔值,平滑因子与所述角度区间的划分规则相对应。例如,若该预定角度区间总共包括120个区间,则离散化因子的取值为3,平滑因子的取值例如可以为离散化因子的1/2倍、1/3倍或2/3倍等。
在操作S204,根据所述偏移角度,旋转所述待处理图像。该操作S204具体即为将偏移角度作为旋转待处理图像的旋转角度,对待处理图像进行旋转。
综上可知,本发明实施例的图像处理方法,先采用分类预测模型对图像特征进行处理,以确定待处理图像的偏移角度所在的角度区间。再根据所在的角度区间确定待处理图像的偏移角度,以根据偏移角度对待处理图像进行旋转实现图像纠偏。因此本发明实施例的图像处理方法可以很好的将图像纠偏任务转化为角度分类任务。其中由于分类预测模型是预先训练好的,则在对图像处理的整个过程中,可以避免复杂计算的进行。因此,可以有效降低图像处理的计算复杂度。其中,通过平滑因子的引入,可以在一定程度上提高确定的偏移角度的准确性。
图3示意性示出了根据本发明第二实施例的图像处理方法的流程图。
根据本发明的实施例,为了提高提取的图像特征及预测置信度集中各个预测置信度的准确率,用于训练提取图像特征的神经网络的样本图像例如可以是经由预处理得到的。在通过操作S201~操作S204的方法对待处理图像进行处理之前,也可以相应地对该待处理数据进行预处理。则在执行操作S201~操作S204时,以预处理后得到的图像作为待处理图像进行处理。
根据本发明的实施例,如图3所示,本发明第二实施例的图像处理方法除了操作S201~操作S204外,还可以包括操作S305~操作S307,以对待处理图像进行预处理。
在操作S305,确定待处理图像的最大内切圆。在操作S306,根据最大内切圆,对待处理图像做掩码处理。在操作S307,对掩码处理后的待处理图像进行归一化,得到归一化的待处理图像。则操作S201在提取图像特征时,具体根据归一化的待处理图像提取得到第一特征值矩阵。
根据本发明的实施例,对待处理图像做掩码处理的操作可以是:将待处理图像中最大内切圆外的区域设置为掩码区域。具体例如可以为:将最大内切圆外的区域中各个像素点的像素值与0相乘,将最大内切圆内的区域中各个像素点的像素值与1相乘。即将最大内切圆外的区域中各个像素点的像素值修改为0。其中,对掩码处理后的待处理图像进行归一化具体可以是:将掩码处理后最大内切圆内的区域中和最大内切圆外的区域中的各个像素点的RGB值分别减去待处理图像中所有像素在各通道的均值,使得得到的归一化的待处理图像中的所有像素点的RGB值在各通道的均值为0。相应地,在对用于提取图像特征的神经网络进行训练之前,同样可以通过操作S305~操作S307对用于作为样本图像的图像做预处理,将预处理后的样本图像作为训练阶段的样本数据。
根据本发明的实施例,通过采用操作S305~操作S307的预处理得到的样本图像作为样本数据来训练用于提取图像特征的神经网络,可以提高提取得到的特征值矩阵的准确率。同时,以高准确率的特征值矩阵训练分类预测模型,可以提高训练得到的分类预测模型的精度。从而提高确定得到的待处理图像的偏移角度的准确率。
图4A示意性示出了根据本发明第三实施例的图像处理方法的流程图,图4B示意性示出了根据本发明实施例的确定分类损失值的流程图。
根据本发明的实施例,如图4A所示,本发明第三实施例的图像处理方法除了操作S201~操作S204外,例如还可以包括操作S408~操作S411。具体地,操作S203中的分类预测模型例如可以是通过操作S408~操作S411训练优化得到的。
在操作S408,提取样本图像的图像特征,得到第二特征值矩阵,该样本图像具有对应的实际置信度集。
根据本发明的实施例,操作S408中的样本图像例如可以是通过图3所示的操作S305~操作S307预处理得到的图像。
根据本发明的实施例,为了丰富样本数据库,对于偏移角度为0°的第一样本图像,在执行操作S305~操作S307所示的预处理之前,还可以对该第一样本图像进行任意角度的旋转,以得到与该第一样本图像为同一图像、但偏移角度不同的多个第二样本图像。则所述第一样本图像和第二样本图像均可通过图3所示的方法进行预处理,操作S408中的样本图像可以是预处理后的第一样本图像或预处理后的第二样本图像。
根据本发明的实施例,为了使得第一样本图像或第二样本图像能够作为样本数据来对分类预测模型进行训练,还应向该第一样本图像或第二样本图像标注标签,该标注的标签例如可以是指示该第一样本图像或第二样本图像的偏移角度所在的角度区间的预定角度类别。相应地,由于第一样本图像或第二样本图像标注有标签,则该第一样本图像或第二样本图像相对于其标签指示的预定角度类别的实际置信度即为1,而相对于除标签指示的预定角度类别外的其他预定角度类别的实际置信度为0。例如,若预定角度类别包括120个类别,第二样本图像的标签指示的预定角度类别为类别3,则该第二样本图像对应的实际置信度集中,应包括与所述120个类别一一对应的120个实际置信度。其中,相对于类别3的实际置信度为1,相对于类别1~2及类别4~120的实际置信度为0。
根据本发明的实施例,该操作S408提取图像特征的方法与操作S201描述的提取图像特征的方法相同或相似,得到的第二特征值矩阵与操作S201中描述的第一特征值矩阵相似,在此不再赘述。
在操作S409,根据第二特征值矩阵,采用分类预测模型,得到与样本图像对应的预测置信度集。
根据本公开的实施例,该操作具体可以是采用分类预测模型对第二特征值矩阵进行处理,以确定样本图像相对于多个预定角度类别中每个预定角度类别的预测置信度,得到预测置信度集。该操作S409得到与样本图像对应的预测置信度集的方法与操作S202中生成预测置信度集的方法相同或相似,在此不再赘述。
在操作S410,根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用第一损失计算模型确定分类预测模型的分类损失值。在操作S411,根据分类损失值,采用反向传播算法优化分类预测模型。
根据本发明的实施例,该操作S410具体例如可以通过以实际置信度集中的各个实际置信度和预测置信度集中的各个预测置信度作为第一损失计算模型中变量的值,来计算得到分类预测模型的分类损失值。具体地,若所述的多个预定角度类别包括120个类别,则可以将相对于该120个类别中每个类别的实际置信度和预测置信度作为第一计算模型中变量的值,计算得到分类预测模型的分类损失值。其中,第一损失计算模型例如可以采用二元交叉熵(binary cross entropy)损失函数或其他任意的分类损失函数等,本发明对此不作限定。具体地,此处以二元交叉熵损失函数为例进行详细描述。若所述的多个预定角度类别包括K个类别,将实际置信度集表示为:Y={y1,y2,......yi,......yK},将预测置信度集表示为:则计算分类损失值的第一损失计算模型可以表示为:
其中,yi为样本图像相对于多个预定角度类别中类别i的实际置信度,为样本图像相对于多个预定角度类别中类别i的预测置信度,其中,在多个预定角度类别包括120个类别的情况下,i的取值即为1~120的自然数。
根据本发明的实施例,为了提高训练效率,还可以同时采用N个样本图像对分类预测模型进行优化训练。此种情况下,针对N个样本图像中的样本图像j,实际置信度集可以表示为:Yj={y1j,y2j,.......yij,......yKj};相应地,预测置信度集可以表示为:其中,yij为样本图像j相对于类别i的实际置信度,为样本图像j相对于类别i的预测置信度。则在计算分类预测模型的分类损失值时,可以通过以下操作实现:先以每个样本图像的实际置信度集中的各个实际置信度和预测置信度集中的各个预测置信度为变量,采用公式(1)计算分类预测模型的分类损失值,总共得到N个分类损失值;然后再计算N个分类损失值的平均值,以计算得到的平均值作为分类预测模型最终的分类损失值。相应地,计算分类损失值的第一损失计算模型则可以表示为:
其中,j为1~N的自然数。
在计算得到分类损失值后,即可根据分类损失值,采用反向传播算法对分类预测模型中的各个参数进行调整。根据本公开的实施例,为了进一步地提高模型的准确率,例如还可以根据该分类损失值对用于提取图像特征的神经网络模型中各层的参数进行调节。
根据本公开的实施例,为了适应角度误差相对于绝对距离的大小关系,提高分类损失值的精确度,还可以为上述的二元交叉熵损失函数引入惩罚因子,以在分类预测模型将样本图像分类至与实际类别差别较大的类别时设置较大的分类损失值。则如图4B所示,操作S410中的分类损失值例如还可以通过操作S4101~操作S4103来确定。
在操作S4101,根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用归一化计算模型确定分类预测模型的角度分类损失值。根据本公开的实施例,该操作S4101具体例如可以采用上述的公式(1)或(2)来确定分类预测模型的角度分类损失值。
在操作S4102,根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用罚函数确定角度分类损失值的惩罚因子。根据本发明的实施例,该操作S4102具体可以包括:先根据实际置信度集,确定指示样本图像的偏移角度实际所在的角度区间的实际类别x,具体即为将值为1的实际置信度对应的类别确定为实际类别;然后根据预测置信度集,将值最大的预测置信度对应的类别确定为预测类别最后根据该实际类别x的类别值和预测类别的类别值作为罚函数的变量的值,计算得到惩罚因子
根据本发明的实施例,所述的罚函数例如可以表示为:
其中,a为多个预定角度类别包括的预定角度类别的个数,α的取值例如可以根据实际需求进行设定。例如当a为120时,γ的取值范围为[0,60],其中为了保证训练的稳定性,惩罚因子不能过大,例如可以将惩罚因子的值限定在[1,5],则α的取值可以为900。
在操作S4103,将角度分类损失值和惩罚因子的乘积作为分类预测模型的分类损失值。具体地,在样本图像为一个的情况下,分类预测模型的分类损失值具体即为上述公式(3)与公式(1)相乘计算得到的值。在样本图像为N个的情况下,计算分类预测模型的分类损失值的函数则可以表示为:
综上可知,本发明实施例的图像处理方法,通过惩罚因子的引入,可以在分类预测模型分类结果与实际结果差距大的情况下(即的值较大的情况下),设置更大的分类损失值。从而为分类结果差的分类预测模型设置更大的惩罚。则根据分类损失值对分类预测模型中计算待处理图像相对于多个预定角度类别中各个类别的预测置信度时用到的各个参数进行调整优化,可使得最终得到的分类预测模型中计算相对于多个预定角度类别中各个类别的参数更为准确,从而提高确定的偏移角度的准确性。
图5A示意性示出了根据本发明第四实施例的图像处理方法的流程图,图5B示意性示出了根据本发明实施例的确定实际的文本信息矩阵的流程图。
根据本发明的实施例,考虑到对于需要识别图像中文字的应用场景,则可以采用注意力机制使得用于提取图像特征的神经网络在提取特征时以图像中的文字区域为参照,并使得分类预测模型能够侧重于根据文字特征进行角度分类的预测。相应地,在对用于提取图像特征的神经网络和分类预测模型进行训练时,采用的具有文本(即具有文字)的样本图像例如还可以标注有文本标注框,以表征该样本图像中文本所在的区域。
因此,如图5A所示,本发明第四实施例的图像处理方法除了操作S201~操作S204及操作S408~操作S411外,还可以包括操作S512~操作S514。即确定分类预测模型的损失值时,还可以通过操作S512~操作S514来确定分割损失值。从而使得通过操作S204得到的旋转后的图像中包括的文字能够相对于水平方向正立,以在后续识别图像中文字的应用场景中,提高识别文字的准确率。
在操作S512,根据文本标注框,确定与样本图像对应的实际的文本信息矩阵,文本信息矩阵中的一个文本信息指示样本图像中一个像素点是否包括文本。
根据本公开的实施例,其中的文本信息具体例如可以包括指示像素点包括文字的信息、指示像素点不包括文字的信息。为了便于训练,在文本信息指示像素点包括文字时,可以将文本信息表示为1;在文本信息指示像素点不包括文字时,可以将文本信息表示为0。
具体地,考虑到某些特定像素点可能位于文字间隙处,从而使得该些特定像素点的部分区域包括文字,而部分区域不包括文字。此种情况下,仅用指示像素点包括文字的信息、指示像素点不包括文字的信息的文本信息无法很好的指示该些特定像素点。因此,所述的文本信息例如还可以包括指示像素点不一定包括文字的信息,该些特定像素点的文本信息例如可以表示为-1。
根据本发明的实施例,为了确定图像中的特定像素点,如图5B所示,操作S512具体可以包括操作S5121~操作S5122。在操作S5121,以文本标注框的中心点为放缩原点,根据预定比例缩小文本标注框。在操作S5122,根据样本图像中各个像素点相对于缩小后的文本标注框及缩小前的文本标注框的分布,确定与样本图像中各个像素点对应的文本信息,得到与样本图像对应的实际的文本信息矩阵。
其中,所述的预定比例例如可以为0.5,即缩小后的文本标注框内的像素点个数与缩小前的文本标注框内的像素点个数的0.25倍。可以理解的是,所述的预定比例具体可以根据实际需求进行设定,本发明对此不作限定,例如,该预定比例还可以为0.3。
根据本发明的实施例,例如可以确定通过操作S5121得到的缩小后的文本标注框与缩小前的文本标注框之间的像素点为前文描述的特定像素点。则操作S5122具体即可以为:确定样本图像中缩小前的文本标注框外的像素点对应的文本信息为0,缩小前的文本标注框与缩小后的文本标注框之间的像素点对应的文本信息为-1,缩小后的文本标注框内的像素点对应的文本信息为1。则样本图像中各个像素点对应的文本信息拼接即可形成与样本图像对应的实际的文本信息矩阵。例如,若样本图像的像素点个数为64*64,则该样本图像对应的实际的文本信息矩阵即为64*64的二维矩阵。
在操作S513,根据第二特征值矩阵及映射函数,确定与样本图像对应的预测的文本信息矩阵。
根据本发明的实施例,所述映射函数例如可以为sigmoid函数,则上述操作S513具体可以是:将第二特征值矩阵中的每个特征值分别作为sigmoid函数的变量的值,得到与所述每个特征值对应的预测的文本信息。则该第二特征值矩阵中所有的特征值对应的预测的文本信息即可拼接形成与样本图像对应的预测的文本信息矩阵。
根据本发明的实施例,在使用卷积神经网络提取样本图像的图像特征,得到所述第二特征值矩阵时,由于获得的特征值矩阵的个数与卷积神经网络的通道个数相等。例如当卷积神经网络具有M个通道时,得到的第二特征值矩阵即可包括M个特征值矩阵。则在计算每个特征值对应的预测的文本信息时,可以是将该M个特征值矩阵中位于特征值矩阵中同一位置的M个特征值的加权和作为sigmoid函数的变量的一个值,得到一个与所述位于同一位置的M个特征值对应的预测的文本信息。具体地,若所述M为3,且3个特征值矩阵可以分别表示为A、B、C,与样本图像对应的预测的文本信息矩阵表示为D,则以对Amn、Bmn、Cmn加权求和得到的值为sigmoid函数的变量的值,采用sigmoid函数计算得到的值即为D中位于第m行第n列的文本信息Dmn。其中,Amn、Bmn、Cmn分别为A、B、C中位于第m行第n列的特征值,m、n均为正整数。
在操作S514,根据实际的文本信息矩阵及预测的文本信息矩阵,采用第二损失计算模型确定分类预测模型的分割损失值。
根据本发明的实施例,该操作S514具体例如可以通过计算实际的文本信息矩阵与预测的文本信息矩阵的交叉熵,将计算得到的交叉熵作为分类预测模型的分割损失值。相应地,所述的第二损失计算模型即为交叉熵计算模型。
根据本发明的实施例,考虑到在采用卷积神经网络提取得到第二特征值矩阵时,卷积神经网络可能具有一定的放缩比,则得到第二特征值矩阵的大小由该样本图像包括的像素个数与卷积神经网络的放缩比相关。例如,若样本图像包括的像素个数为64*64,卷积神经网络的放缩比为4,则得到的第二特征值矩阵则为16*16的二维矩阵。相应地,通过操作S513确定的与样本图像对应的预测的文本信息矩阵也同样为16*16的二维矩阵。而根据前述操作S512的描述可知,得到的实际的文本信息矩阵为64*64的二维矩阵。则此种情况下,为了便于计算分割损失值,上述操作S514例如还可以包括对实际的文本信息矩阵进行放缩得到放缩矩阵的操作,对该矩阵进行放缩的矩阵放缩比与卷积神经网络的放缩比相同。
根据本发明的实施例,该对实际的文本信息矩阵进行放缩的操作具体可以包括:根据矩阵放缩比,将所述实际的文本信息矩阵均分为若干个小矩阵;然后依次根据每个小矩阵包括的实际的文本信息的值,确定放缩后的矩阵中与该每个小矩阵的位置相对应的位置的值,得到放缩矩阵。例如,若矩阵放缩比为4,实际的文本信息矩阵为64*64,则可以将该实际的文本信息矩阵均分为16*16个小矩阵。根据16*16个小矩阵中位于第一行第一列的小矩阵包括的4*4个实际的文本信息的值,确定放缩后的矩阵中第一行第一列的值;根据16*16个小矩阵中位于第一行第二列的小矩阵包括的4*4个实际的文本信息的值,确定放缩后的矩阵中第一行第二列的值;以此类推,得到16*16的放缩后的矩阵。
根据本发明的实施例,根据第一行第一列的小矩阵包括的4*4个实际的文本信息的值,确定放缩后的矩阵中第一行第一列的值可以包括:在4*4个实际的文本信息的值中包括1的情况下,确定放缩后的矩阵中第一行第一列的值为1;在4*4个实际的文本信息的值中不包括1,但包括-1的情况下,确定放缩后的矩阵中第一行第一列的值为-1;在4*4个实际的文本信息的值中仅包括0的情况下,确定放缩后的矩阵中第一行第一列的值为0。可以理解的是,上述确定放缩后的矩阵中值的方法仅作为示例以利于理解本发明,本发明对此不作限定。
可以理解的是,上述采用第二损失计算模型确定分类预测模型的分割损失值的计算方法仅作为示例以利于理解本发明,本发明对此不作限定。
根据本发明的实施例,在分类预测模型采用CNN模型时,上述操作S513在计算同一位置的M个特征值的加权和时采用的各个权重值具体可以为:分类预测模型中最后一层的多个神经元中用于计算预测的文本信息矩阵的神经元的参数值。则可以根据操作S514确定得到的分割损失值来对上述CNN模型中除最后一层之外的其他层的神经元的参数进行调整优化,以实现优化分类预测模型的目的。相应地,图4A中的操作S411具体例如可以是根据分类损失值及分割损失值,采用反向传播算法,优化分类预测模型。
根据本发明的实施例,操作S411具体可以为,先根据分类损失值和分割损失值,确定分类预测模型的总损失值;然后再根据总损失值采用反向传播算法来优化分类预测模型。其中,在分类损失值为公式(1)、公式(2)或公式(4)表示的值Lossclassification,且通过上述操作S514确定的分割损失值表示为Losssegmentation时,总损失值例如可以通过以下公式计算得到:
Losstotal=Lossclassification+β×Losssegmentation; (5)
其中,β为所述分割损失值的权重因子,该权重因子具体可以根据实际需求进行设定。例如,对于识别图像中的文字的应用场景,该β可以设定为1。
综上可知,本发明实施例通过所述分割损失值的引入,可以使得优化训练得到的分类预测模型能够更侧重于根据文字的偏移角度来确定图像的偏移角度的类别。并因此使得在根据操作S204得到的旋转后的图像进行文字识别时,能够提高文字识别的精度。同理,本公开实施例还可以根据该总损失值优化训练用于提取图像特征的神经网络,以使得在提取图像特征时能够以图像中占比较少的文字区域为参照,使得提取得到的图像特征能够更好的表达图像中的文字特征。
图6示意性示出了根据本发明第五实施例的图像处理方法中计算损失值的流程图。
如图6所示,本发明实施例的图像处理方法中,在对分类预测模型和用于提取图像特征的神经网络进行训练时,可以先确定损失值。其中,损失值的确定具体可以包括:首先获取样本图像;然后对样本图像做预处理,此处的预处理操作具体可以包括图3描述的操作S305~操作S307;然后以预处理后的样本图像输入用于提取图像特征的神经网络中,输出得到用于表征图像特征的第二特征值矩阵。然后将该第二特征值矩阵作为共享特征执行语义分割任务和角度分类任务,以分别计算得到分割损失值和角度分类损失值。其中,语义分割任务具体可以通过图5A~图5B描述的操作来执行,角度分类任务具体可以通过图4A~图4B描述的操作来执行。然后根据分割损失值和分类损失值采用公式(5)计算得到分类预测模型的总损失值。则在得到总损失值后,即可根据该总损失值对用于提取图像特征的神经网络以及用于执行操作S409和操作S513的分类预测模型进行优化训练。
在通过图6所示的方法训练得到优化的用于提取图像特征的神经网络和分类预测模型后,即可使用该用于提取图像特征的神经网络和分类预测模型来确定待处理图像的偏移角度所在的角度区间。具体可以包括:先对待处理图像通过图3描述的操作进行预处理,然后以预处理后图像作为用于提取图像特征的神经网络的输入,以提取预处理后图像的图像特征,得到第一特征值矩阵。然后以第一特征值矩阵作为分类预测模型的输入,处理得到待处理图像相对于多个预定角度类别的预测置信度集。以根据该预测置信度集确定待处理图像的偏移角度所在的角度区间,并确定该待处理图像的偏移角度以对该待处理图像进行纠偏。
综上可知,本发明实施例的图像处理方法,可以将图像纠偏任务转化为角度分类任务,并且在计算分类损失值时引入了惩罚因子,从而可以提高训练得到的用于提取图像特征的神经网络的特征提取准确率,提高训练得到的分类预测模型的分类准确率。再者,在对用于提取图像特征的神经网络和分类预测模型进行训练优化时,为角度分类任务引入了语义分割任务,以在训练阶段使得用于提取图像特征的神经网络和分类预测模型能够以图像中占比较少的文字区域为参照,使得用于提取图像特征的神经网络和分类预测模型对文字更敏感。则根据优化后的神经网络和分类预测模型来确定角度类别时,得到的角度类别能够以图像中的文字为依据。从而使得根据角度类别纠偏后的图像中的文字能够尽可能的相对于水平方向正立,以便于提高后续文字识别的准确率。同时,在采用用于提取图像特征的神经网络和分类预测模型来预测待处理图像的角度类别时则不再执行语义分割任务,因此可以提高图像纠偏效率。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图7对本发明示例性实施方式的图像处理装置进行说明。
图7示意性示出了根据本发明一实施例的图像处理装置的方框图。
如图7所示,根据本发明实施例,该图像处理装置700可以包括特征获取模块710、预测置信度确定模块720、偏移角度确定模块730和图像旋转模块740。该图像处理装置700可以用于实现根据本发明实施例的图像处理方法。
特征获取模块710用于提取待处理图像的图像特征,得到第一特征值矩阵(操作S201)。
预测置信度确定模块720用于采用分类预测模型对第一特征值矩阵进行处理,确定待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集(操作S202)。其中,预定角度类别指示了偏移角度所在的角度区间。
偏移角度确定模块730用于根据所述预测置信度集,确定所述待处理图像的偏移角度(操作S203)。
图像旋转模块740用于根据所述偏移角度,旋转所述待处理图像(操作S204)。
根据本发明的实施例,如图7所示,上述图像处理装置700还包括预处理模块750。该预处理模块750可以包括内切圆确定子模块751、处理子模块752以及归一化子模块753。内切圆确定子模块751用于确定待处理图像的最大内切圆(操作S305)。处理子模块752用于根据最大内切圆,对待处理图像做掩码处理(操作S306)。归一化子模块753用于对掩码后的待处理图像进行归一化,得到归一化的待处理图像(操作S307)。相应地,特征提取模块710用于根据归一化的待处理图像提取得到第一特征值矩阵。
根据本发明的实施例,上述特征提取模块710还用于提取样本图像的图像特征,得到第二特征值矩阵,其中,样本图像具有对应的实际置信度集(操作S408)。预测置信度确定模块720还用于根据第二特征值矩阵,采用分类预测模型,得到与样本图像对应的预测置信度集(操作S409)。如图7所示,上述图像处理装置700还可以包括分类损失值确定模块760和优化模块770。分类损失值确定模块760用于根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用第一损失计算模型确定分类预测模型的分类损失值(操作S410)。优化模块770用于根据分类损失值,采用反向传播算法优化分类预测模型(操作S411)。
根据本发明的实施例,上述样本图像标注有文本标注框。如图7所示,上述图像处理装置700还包括分割损失值确定模块780。该分割损失值确定模块780可以包括实际文本信息确定子模块781、预测文本信息确定子模块782和分割损失值确定子模块783。实际文本信息确定子模块781用于根据文本标注框,确定与样本图像对应的实际的文本信息矩阵,该文本信息矩阵中的一个文本信息指示样本图像中一个像素点是否包括文本(操作S512)。预测文本信息确定子模块782用于根据第二特征值矩阵及映射函数,确定与样本图像对应的预测的文本信息矩阵(操作S513)。分割损失值确定子模块783用于根据实际的文本信息矩阵及预测的文本信息矩阵,采用第二损失计算模型确定分类预测模型的分割损失值(操作S514)。其中,所述优化模块770具体用于根据分类损失值及分割损失值,采用反向传播算法,优化分类预测模型。
根据本发明的实施例,如图7所示,上述实际文本信息确定子模块781包括放缩单元7811和信息确定单元7812。放缩单元7811用于以文本标注框中心点为放缩原点,根据预定比例缩小文本标注框(操作S5121)。信息确定单元7812用于根据样本图像中各个像素点相对于缩小后的文本标注框及缩小前的文本标注框的分布,确定与样本图像中各个像素点对应的文本信息,得到与样本图像对应的实际的文本信息矩阵(操作S5122)。
根据本发明的实施例,如图7所示,上述分类损失值确定模块760包括角度分类损失值确定子模块761、惩罚因子确定子模块762和分类损失值确定子模块763。角度分类损失值确定子模块761用于根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用归一化计算模型确定分类预测模型的角度分类损失值(操作S4101)。惩罚因子确定子模块762用于根据与样本图像对应的实际置信度集,以及与样本图像对应的预测置信度集,采用罚函数确定角度分类损失值的惩罚因子(操作S4102)。分类损失值确定子模块763用于将角度分类损失值和惩罚因子的乘积作为分类预测模型的分类损失值(操作S4103)。
根据本发明的实施例,如图7所示,上述偏移角度确定模块730包括角度类别确定子模块731和偏移角度确定子模块732。角度类别确定子模块731用于根据预测置信度集中的各个预测置信度,确定与待处理图像对应的预定角度类别(操作S2031)。偏移角度确定子模块732用于根据与待处理图像对应的预定角度类别和平滑因子,确定待处理图像的偏移角度(操作S2032)。其中,平滑因子与角度区间的划分规则相对应。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的适于执行图像处理方法的计算机可读存储介质进行介绍。
根据本发明的实施例,还提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行根据本发明实施例的图像处理方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于执行图像处理方法中的步骤,例如,所述计算设备可以执行如图2A中所示的步骤S201:提取待处理图像的图像特征,得到第一特征值矩阵;步骤S202:采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集;步骤S203:根据所述预测置信度集,确定所述待处理图像的偏移角度;步骤S240:根据所述偏移角度,旋转所述待处理图像。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图8所示,描述了根据本发明的实施方式的适于执行图像处理方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图9对本发明示例性实施方式的适于执行图像处理方法的计算设备进行说明。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的步骤。例如,所述处理单元可以执行如图2A中所示的步骤S201:提取待处理图像的图像特征,得到第一特征值矩阵;步骤S202:采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集;步骤S203:根据所述预测置信度集,确定所述待处理图像的偏移角度;步骤S240:根据所述偏移角度,旋转所述待处理图像。
下面参照图9来描述根据本发明的这种实施方式的适于执行图像处理方法的计算设备900。如图9所示的计算设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算设备900以通用计算设备的形式表现。计算设备900的组件可以包括但不限于:上述至少一个处理单元901、上述至少一个存储单元902、连接不同***组件(包括存储单元902和处理单元901)的总线903。
总线903可以包括数据总线、地址总线和控制总线。
存储单元902可以包括易失性存储器,例如随机存取存储器(RAM)9021和/或高速缓存存储器9022,还可以进一步包括只读存储器(ROM)923。
存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025,这样的程序模块9024包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备900也可以与一个或多个外部设备904(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口905进行。并且,计算设备900还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器906通过总线903与计算设备900的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种图像处理方法,包括:
提取待处理图像的图像特征,得到第一特征值矩阵;
采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集,其中预定角度类别指示了偏移角度所在的角度区间;
根据所述预测置信度集,确定所述待处理图像的偏移角度;以及
根据所述偏移角度,旋转所述待处理图像。
2.根据权利要求1所述的方法,其中,在提取所述待处理图像的图像特征之前,所述方法还包括:
确定所述待处理图像的最大内切圆;
根据所述最大内切圆,对所述待处理图像做掩码处理;以及
对掩码处理后的待处理图像进行归一化,得到归一化的待处理图像,
其中,所述第一特征值矩阵根据所述归一化的待处理图像提取得到。
3.根据权利要求1所述的方法,还包括:
提取样本图像的图像特征,得到第二特征值矩阵,所述样本图像具有对应的实际置信度集;
根据所述第二特征值矩阵,采用所述分类预测模型,得到与所述样本图像对应的预测置信度集;
根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用第一损失计算模型确定所述分类预测模型的分类损失值;以及
根据所述分类损失值,采用反向传播算法优化所述分类预测模型。
4.根据权利要求3所述的方法,其中,所述样本图像标注有文本标注框,所述方法还包括:
根据所述文本标注框,确定与所述样本图像对应的实际的文本信息矩阵,所述文本信息矩阵中的一个文本信息指示所述样本图像中一个像素点是否包括文本;
根据所述第二特征值矩阵及映射函数,确定与所述样本图像对应的预测的文本信息矩阵;以及
根据所述实际的文本信息矩阵及所述预测的文本信息矩阵,采用第二损失计算模型确定所述分类预测模型的分割损失值,
其中,根据所述分类损失值及所述分割损失值,采用反向传播算法,优化所述分类预测模型。
5.根据权利要求4所述的方法,其中,根据所述文本标注框,确定与所述样本图像对应的实际的文本信息矩阵包括:
以所述文本标注框的中心点为放缩原点,根据预定比例缩小所述文本标注框;以及
根据所述样本图像中各个像素点相对于缩小后的文本标注框及缩小前的文本标注框的分布,确定与所述样本图像中各个像素点对应的文本信息,得到与所述样本图像对应的实际的文本信息矩阵。
6.根据权利要求3或4所述的方法,其中,采用第一损失计算模型确定所述分类预测模型的分类损失值包括:
根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用归一化计算模型确定所述分类预测模型的角度分类损失值;
根据与所述样本图像对应的实际置信度集,以及与所述样本图像对应的预测置信度集,采用罚函数确定所述角度分类损失值的惩罚因子;以及
将所述角度分类损失值和所述惩罚因子的乘积作为所述分类预测模型的分类损失值。
7.根据权利要求1所述的方法,其中,根据所述预测置信度集,确定所述待处理图像的偏移角度包括:
根据所述预测置信度集中的各个预测置信度,确定与所述待处理图像对应的预定角度类别;以及
根据与所述待处理图像对应的预定角度类别和平滑因子,确定所述待处理图像的偏移角度,
其中,所述平滑因子与所述角度区间的划分规则相对应。
8.一种图像处理装置,包括:
特征提取模块,用于提取待处理图像的图像特征,得到第一特征值矩阵;
预测置信度确定模块,用于采用分类预测模型对所述第一特征值矩阵进行处理,确定所述待处理图像相对于多个预定角度类别中每个预定角度类别的预测置信度并生成预测置信度集,其中所述预定角度类别指示了偏移角度所在的角度区间;
偏移角度确定模块,用于根据所述预测置信度集,确定所述待处理图像的偏移角度;以及
图像旋转模块,用于根据所述偏移角度,旋转所述待处理图像。
9.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时实现根据权利要求1~7所述的方法。
10.一种计算设备,包括:
一个或多个处理器,存储有可执行指令;以及
一个或多个处理器,执行所述可执行指令,以实现根据权利要求1~7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374294.7A CN110163205B (zh) | 2019-05-06 | 2019-05-06 | 图像处理方法、装置、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374294.7A CN110163205B (zh) | 2019-05-06 | 2019-05-06 | 图像处理方法、装置、介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163205A true CN110163205A (zh) | 2019-08-23 |
CN110163205B CN110163205B (zh) | 2021-05-28 |
Family
ID=67633381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910374294.7A Active CN110163205B (zh) | 2019-05-06 | 2019-05-06 | 图像处理方法、装置、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163205B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160352A (zh) * | 2019-12-27 | 2020-05-15 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及*** |
CN111368556A (zh) * | 2020-03-05 | 2020-07-03 | 深圳市腾讯计算机***有限公司 | 翻译模型的性能确定方法、置信度确定方法及装置 |
CN111402156A (zh) * | 2020-03-11 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种涂抹图像的复原方法、装置及存储介质和终端设备 |
CN111832561A (zh) * | 2020-07-03 | 2020-10-27 | 深圳思谋信息科技有限公司 | 基于计算机视觉的字符序列识别方法、装置、设备和介质 |
CN112597895A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 基于偏移量检测的置信度确定方法、路侧设备及云控平台 |
CN112733849A (zh) * | 2021-01-11 | 2021-04-30 | 浙江智慧视频安防创新中心有限公司 | 模型训练方法、图像旋转角度矫正方法及装置 |
CN113554558A (zh) * | 2020-04-26 | 2021-10-26 | 北京金山数字娱乐科技有限公司 | 一种图像处理的方法和装置 |
CN114494691A (zh) * | 2020-11-13 | 2022-05-13 | 瑞昱半导体股份有限公司 | 图像处理方法及图像处理*** |
CN114581887A (zh) * | 2022-03-07 | 2022-06-03 | 上海人工智能创新中心 | 车道线的检测方法、装置、设备和计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260705A (zh) * | 2015-09-15 | 2016-01-20 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员接打电话行为检测方法 |
KR20160042646A (ko) * | 2014-10-10 | 2016-04-20 | 인하대학교 산학협력단 | 얼굴 인식 방법 |
CN105608690A (zh) * | 2015-12-05 | 2016-05-25 | 陕西师范大学 | 一种基于图论和半监督学习相结合的图像分割方法 |
CN106980822A (zh) * | 2017-03-14 | 2017-07-25 | 北京航空航天大学 | 一种基于选择性集成学习的旋转机械故障诊断方法 |
WO2017131735A1 (en) * | 2016-01-29 | 2017-08-03 | Hewlett Packard Enterprise Development Lp | Image skew identification |
CN107066433A (zh) * | 2015-11-25 | 2017-08-18 | 柯尼卡美能达美国研究所有限公司 | 偏移图像中的旋转的表格 |
CN107247965A (zh) * | 2017-05-31 | 2017-10-13 | 安徽四创电子股份有限公司 | 一种基于自适应匹配和学习的失真图像处理方法及*** |
CN107590498A (zh) * | 2017-09-27 | 2018-01-16 | 哈尔滨工业大学 | 一种基于字符分割级联二分类器的自适应汽车仪表检测方法 |
CN108090470A (zh) * | 2018-01-10 | 2018-05-29 | 浙江大华技术股份有限公司 | 一种人脸对齐方法及装置 |
CN108427950A (zh) * | 2018-02-01 | 2018-08-21 | 北京捷通华声科技股份有限公司 | 一种文字行检测方法及装置 |
US10198648B1 (en) * | 2015-04-10 | 2019-02-05 | Digimarc Corporation | Decoding 1D-barcodes in digital capture systems |
-
2019
- 2019-05-06 CN CN201910374294.7A patent/CN110163205B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160042646A (ko) * | 2014-10-10 | 2016-04-20 | 인하대학교 산학협력단 | 얼굴 인식 방법 |
US10198648B1 (en) * | 2015-04-10 | 2019-02-05 | Digimarc Corporation | Decoding 1D-barcodes in digital capture systems |
CN105260705A (zh) * | 2015-09-15 | 2016-01-20 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员接打电话行为检测方法 |
CN107066433A (zh) * | 2015-11-25 | 2017-08-18 | 柯尼卡美能达美国研究所有限公司 | 偏移图像中的旋转的表格 |
CN105608690A (zh) * | 2015-12-05 | 2016-05-25 | 陕西师范大学 | 一种基于图论和半监督学习相结合的图像分割方法 |
WO2017131735A1 (en) * | 2016-01-29 | 2017-08-03 | Hewlett Packard Enterprise Development Lp | Image skew identification |
CN106980822A (zh) * | 2017-03-14 | 2017-07-25 | 北京航空航天大学 | 一种基于选择性集成学习的旋转机械故障诊断方法 |
CN107247965A (zh) * | 2017-05-31 | 2017-10-13 | 安徽四创电子股份有限公司 | 一种基于自适应匹配和学习的失真图像处理方法及*** |
CN107590498A (zh) * | 2017-09-27 | 2018-01-16 | 哈尔滨工业大学 | 一种基于字符分割级联二分类器的自适应汽车仪表检测方法 |
CN108090470A (zh) * | 2018-01-10 | 2018-05-29 | 浙江大华技术股份有限公司 | 一种人脸对齐方法及装置 |
CN108427950A (zh) * | 2018-02-01 | 2018-08-21 | 北京捷通华声科技股份有限公司 | 一种文字行检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
YANMIAO LI: "《Robust rotation estimation of slap fingerprint image for E-Commerce authentication》", 《2010 IEEE INTERNATIONAL CONFERENCE ON INFORMATION THEORY AND INFORMATION SECURITY》 * |
单苏苏: "《视频文本显著性分析与文本检测方法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王咸锋: "《基于OpenCV实现文档物体的纠偏方法》", 《电脑知识与技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160352B (zh) * | 2019-12-27 | 2023-04-07 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及*** |
CN111160352A (zh) * | 2019-12-27 | 2020-05-15 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及*** |
CN111368556A (zh) * | 2020-03-05 | 2020-07-03 | 深圳市腾讯计算机***有限公司 | 翻译模型的性能确定方法、置信度确定方法及装置 |
CN111368556B (zh) * | 2020-03-05 | 2024-03-26 | 深圳市腾讯计算机***有限公司 | 翻译模型的性能确定方法、置信度确定方法及装置 |
CN111402156A (zh) * | 2020-03-11 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种涂抹图像的复原方法、装置及存储介质和终端设备 |
CN113554558A (zh) * | 2020-04-26 | 2021-10-26 | 北京金山数字娱乐科技有限公司 | 一种图像处理的方法和装置 |
WO2022002262A1 (zh) * | 2020-07-03 | 2022-01-06 | 深圳思谋信息科技有限公司 | 基于计算机视觉的字符序列识别方法、装置、设备和介质 |
CN111832561B (zh) * | 2020-07-03 | 2021-06-08 | 深圳思谋信息科技有限公司 | 基于计算机视觉的字符序列识别方法、装置、设备和介质 |
CN111832561A (zh) * | 2020-07-03 | 2020-10-27 | 深圳思谋信息科技有限公司 | 基于计算机视觉的字符序列识别方法、装置、设备和介质 |
CN114494691A (zh) * | 2020-11-13 | 2022-05-13 | 瑞昱半导体股份有限公司 | 图像处理方法及图像处理*** |
CN112597895A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 基于偏移量检测的置信度确定方法、路侧设备及云控平台 |
CN112597895B (zh) * | 2020-12-22 | 2024-04-26 | 阿波罗智联(北京)科技有限公司 | 基于偏移量检测的置信度确定方法、路侧设备及云控平台 |
CN112733849A (zh) * | 2021-01-11 | 2021-04-30 | 浙江智慧视频安防创新中心有限公司 | 模型训练方法、图像旋转角度矫正方法及装置 |
CN112733849B (zh) * | 2021-01-11 | 2024-07-16 | 浙江智慧视频安防创新中心有限公司 | 模型训练方法、图像旋转角度矫正方法及装置 |
CN114581887A (zh) * | 2022-03-07 | 2022-06-03 | 上海人工智能创新中心 | 车道线的检测方法、装置、设备和计算机可读存储介质 |
CN114581887B (zh) * | 2022-03-07 | 2024-06-07 | 上海人工智能创新中心 | 车道线的检测方法、装置、设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110163205B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163205A (zh) | 图像处理方法、装置、介质和计算设备 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类***及相关设备 | |
CN110084216B (zh) | 人脸识别模型训练和人脸识别方法、***、设备及介质 | |
CN110443222B (zh) | 用于训练脸部关键点检测模型的方法和装置 | |
CN109034206A (zh) | 图像分类识别方法、装置、电子设备及计算机可读介质 | |
TW202207077A (zh) | 一種文本區域的定位方法及裝置 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN107832794A (zh) | 一种卷积神经网络生成方法、车系识别方法及计算设备 | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN109583367A (zh) | 图像文本行检测方法及装置、存储介质和电子设备 | |
CN113011568A (zh) | 一种模型的训练方法、数据处理方法及设备 | |
Li et al. | Findnet: Can you find me? boundary-and-texture enhancement network for camouflaged object detection | |
CN110909578A (zh) | 一种低分辨率图像识别方法、装置和存储介质 | |
CN115374304A (zh) | 数据处理方法、电子设备、存储介质及计算机程序产品 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN113496148A (zh) | 一种多源数据融合方法及*** | |
CN115063585A (zh) | 一种无监督语义分割模型的训练方法及相关装置 | |
CN111444335A (zh) | 中心词的提取方法及装置 | |
CN116431827A (zh) | 信息处理方法、装置、存储介质及计算机设备 | |
CN117216536A (zh) | 一种模型训练的方法、装置和设备及存储介质 | |
CN109871835B (zh) | 一种基于互斥正则化技术的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |