CN110321830B - 一种基于神经网络的中文字符串图片ocr识别方法 - Google Patents

一种基于神经网络的中文字符串图片ocr识别方法 Download PDF

Info

Publication number
CN110321830B
CN110321830B CN201910576921.5A CN201910576921A CN110321830B CN 110321830 B CN110321830 B CN 110321830B CN 201910576921 A CN201910576921 A CN 201910576921A CN 110321830 B CN110321830 B CN 110321830B
Authority
CN
China
Prior art keywords
picture
neural network
value
loss
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910576921.5A
Other languages
English (en)
Other versions
CN110321830A (zh
Inventor
胡铮
张春红
唐晓晟
李杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910576921.5A priority Critical patent/CN110321830B/zh
Publication of CN110321830A publication Critical patent/CN110321830A/zh
Application granted granted Critical
Publication of CN110321830B publication Critical patent/CN110321830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于神经网络的中文字符串图片OCR识别方法,属于光学字符识别领域。首先采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化;同时初始化神经网络模型的各类别,初始化每个类别的中心特征向量。然后将每张待识别图片中的归一化像素分别输入到神经网络模型中进行特征提取,得到各图片的深度特征矩阵,通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量。最后将特征向量划分为训练样本和测试样本,训练样本训练神经网络模型;每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,完成对各图片字符串的整体识别。本发明能够对整张字符串图片进行分类识别,识别精确度更高。

Description

一种基于神经网络的中文字符串图片OCR识别方法
技术领域
本发明属于光学字符识别领域,涉及针对特定的类别数目在有限范围内的中文字符串的内容识别,具体是一种基于神经网络的中文字符串图片OCR识别方法。
背景技术
对图片中的字符串进行识别,是大部分光学字符识别(OCR)技术的一个重要环节。字符串图片识别的技术常见的应用有:身份证号识别和车牌号识别等。常见的应用场景有单据信息识别和街景商店名称识别等。
传统的光学字符识别方法处理步骤为:将包含有文本的图片中的字符串通过字符串切割方法进行切割,得到多个仅包含单个字符的图片后再进行识别,最后将多个单字符图片的识别结果进行串接得到最终结果。
但是,上述先进行字符切割而后识别的方法存在以下问题:最后的识别结果很大程度上依赖于字符切割模型的效果,如果字符切割出现错误,则识别过程会产生一系列的错误;并且字符切割模型对于样本图片质量要求较高,且要求字符串本身可切割,对于一些字符串本身字符间存在粘连或者交叉的情况则无法正确处理。且传统的字符识别环节没有考虑到特定领域中文的特点,使用整个中文字符作为候选结果进行识别,使得识别结果较差。
因此基于先字符切割而后识别的方法,实验效果都不是很理想,误差的传播导致图片整体的识别效果比较差。
发明内容
本发明应用的场景是特定领域的中文字符串识别,采用了一种基于神经网络的中文字符串图片OCR识别方法,避免了字符切割环节从而去除了该环节出现错误对识别环节的影响,同时识别过程采用了整个字符串图片作为输入,识别的准确率也明显上升。
具体步骤如下:
步骤一、采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化。
归一化过程是:
首先,计算出每张图片上所有像素值的平均值、最小值和最大值。
然后,对每张图片上的每一个像素点的值先减去平均值,再除以最大值和最小值的差值。
Figure BDA0002112283880000011
img是图片上某个像素值;mean(img)是图片上所有像素的平均值;max(img)是图片上所有像素的最大值;min(img)是图片上所有像素的最小值;
步骤二、初始化神经网络模型的各类别,分别为每个类别初始化各自对应的类别中心特征向量。
类别中心特征向量集合为{C1,C2,....,Ci,...,Cn};Ci为第i个类别的中心特征向量;n为类别的中心特征向量的总数。
步骤三、将每张待识别图片中的所有归一化像素,分别输入到神经网络模型中,通过卷积层+池化层进行特征提取,得到各图片的深度特征矩阵。
针对采集的N张待识别图片,对应N个深度特征矩阵;
步骤四、针对每张待识别图片,将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量。
具体过程为:首先,将每个深度特征矩阵划分为长为w宽为h的网格;
然后,计算每个网格内所有像素值的最大值或者平均值,作为该网格的输出,从而得到长为w宽为h的深度特征矩阵。
最后将长为w宽为h的深度特征矩阵展平得到长度为L的特征向量。
N个待识别图片的特征向量集合为:L1,L2,...Lj,...LN
步骤五、将N个特征向量划分为训练样本和测试样本,每个训练样本分别标注所属的类别,训练神经网络模型;
具体训练过程如下:
步骤501、针对某个训练样本,将该样本的特征向量和标注的类别中心向量,计算平方差损失值;
针对第m个训练样本的特征向量为Lm,标注的类别中心特征向量为Cm,平方差损失计算公式如下:
Figure BDA0002112283880000021
步骤502、将每个训练样本的平方差损失值记录,作为Weighted-Center-Loss损失函数值,对神经网络模型进行优化;
Figure BDA0002112283880000022
其中,softmax函数通过对w作用,得到每个深度特征每个维度的权重,M为训练样本的数量;M<N。
步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层,得到各训练样本的预测输出向量;
步骤504、将每个训练样本标注的所属类别经过one-hot编码转化为K维向量;
步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量,共同输入到 softmax-Loss损失函数中,输出结果为softmax-Loss损失函数值;
步骤506、将Weighted-Center-Loss损失函数值与softmax-Loss损失函数值加权和,作为最终Loss损失值对神经网络模型进行优化。
最终Loss损失值计算公式如下:
Loss=softmax-Loss+λ*Weighted-Center-Loss
λ是加权系数。
步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,进而完成了对各图片字符串的整体识别。
将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中,在全连接层的节点上每个输出经过一个softmax函数进行分类,该全连接层神经元的个数与实际分类的类别数目一致。
softmax将全连接层的输出转化为概率,取概率最大的那一维作为输出类别。
本发明的优点在于:
1)、一种基于神经网络的中文字符串图片OCR识别方法,使用RoI Pooling方法对特征进行处理,对输入特征维度大小不敏感,从而使得模型可以处理不同尺寸大小的输入数据。
2)、一种基于神经网络的中文字符串图片OCR识别方法,结合Weighted-Center-Loss和 Softmax-Loss的损失函数来优化模型,可以使得模型优化得到的特征向量更加符合度量学习中类别与类别之间差异大,同类之间差异小的特点,从而使得模型可以得益于更好的特征向量进而取得更好的识别精确度。
3)、一种基于神经网络的中文字符串图片OCR识别方法,将特征向量连接到一个全连接层来得到输出,对整张输入图片只得到一个类别输出,从而使得模型能够对整张字符串图片进行分类识别。
附图说明
图1为本发明一种基于神经网络的中文字符串图片OCR识别方法的流程图;
图2为本发明不同尺寸的数据通过RoI Pooling后伸展得到统一的特征向量的示意图;
图3为本发明采集若干张白细胞图片,利用DCNN模型进行分类,得到各图片的输出类别的示意图;
图4为本发明和其他模型在精确率上的对比图;
图5为本发明列举了待识别的实例提高了精确率的示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明一种基于神经网络的中文字符串图片OCR识别方法,将字符串图片整体作为输入,经过卷积神经网络(Convolution Neural Network,以下称CNN)处理,得到图片的深度特征矩阵,使用区域池化(RoI Pooling)技术对该深度特征矩阵进行特征伸展,利用权重类别中心损失(Weighted Center Loss)函数计算模型的损失值,利用标注的数据集进行训练,将待处理任务的字符串图片输入训练好的神经网络模型进行识别,对模型输出的特征连接到一个全连接层进行softmax分类器进行分类,分类的具体类别则是处理的任务的中文字符串的实际类别,如街景商店名称识别任务中商店的名称,单据信息识别中化验单化验项目的名称;最终对字符串图片内容进行整体识别。
本发明使用RoI Pooling和Weighted Center Loss函数,无需对图片尺寸进行归一化,使模型能够处理不同尺寸数据的输入,在模型性能上能够取得更好的效果,并且可以对中文字符串图片进行整体识别,达到了高精确度的对中文字符串内容整体识别的效果,具有可以处理不同尺寸、输入精确度更高和能够对字符串图片进行整体识别的优势和意义。
具体步骤如图1所示,包括以下:
步骤一、采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化。
对图片的像素值进行归一化处理,是因为对于图片输入来说,像素值的分布一般在0-255 之间,并且图片的具体像素值并不重要,像素值之间的差值比例是比较重要,对于大多数神经网络模型来说,对于输入数据进行归一化也是基础操作。本发明的归一化方式与常见归一化方法不同,具体是:
首先,计算出每张图片上所有像素值的平均值、最小值和最大值。
然后,对每张图片上的每一个像素点的值先减去平均值,再除以最大值和最小值的差值。
Figure BDA0002112283880000041
img是图片上某个像素值;mean(img)是图片上所有像素的平均值;max(img)是图片上所有像素的最大值;min(img)是图片上所有像素的最小值;
步骤二、初始化神经网络模型的各类别,分别为每个类别初始化各自对应的类别中心特征向量。
类别中心特征向量集合为{C1,C2,....,Ci,...,Cn};Ci为第i个类别的中心特征向量;n为类别的中心特征向量的总数。
步骤三、将每张待识别图片中的所有归一化像素,分别输入到神经网络模型中,通过卷积层+池化层进行特征提取,得到各图片的深度特征矩阵。
神经网络模型的输入为每张待识别图片中的所有归一化像素构成的w1*h1*1的矩阵;w1 为待识别图片的宽占有的像素,h1为待识别图片的高占有的像素。通过5层卷积块(卷积层 +池化层)后得到图片的深度特征矩阵,深度特征矩阵的形状为(w2,h2,c2),w2为深度特征矩阵的宽;h2为深度特征矩阵的高;c2为深度特征矩阵的长。
针对采集的N张待识别图片,采用传统通用的卷积神经网络来对图像进行特征提取,对应N个深度特征矩阵;
步骤四、针对每张待识别图片,将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量。
如图2所示,使用RoI Pooling来对输入的深度特征矩阵进行处理得到形状大小统一的输出,从而实现了可以处理不同尺寸的数据输入。
具体过程为:首先,将每个深度特征矩阵划分为长为w宽为h的网格;
然后,计算每个网格内所有像素值的最大值或者平均值,作为该网格的输出,从而得到长为w宽为h的深度特征矩阵。
最后将长为w宽为h的深度特征矩阵展平得到长度为L的特征向量。
N个待识别图片的特征向量集合为:L1,L2,...Lj,...LN
步骤五、将N个特征向量划分为训练样本和测试样本,每个训练样本分别标注所属的类别,训练神经网络模型;
具体训练过程如下:
步骤501、针对某个训练样本,将该样本的特征向量和标注的类别中心向量,计算平方差损失值;
针对第m个训练样本的特征向量为Lm,标注的类别中心特征向量为Cm,平方差损失计算公式如下:
Figure BDA0002112283880000051
步骤502、将每个训练样本的平方差损失值记录,作为Weighted-Center-Loss损失函数值,对神经网络模型进行优化;
Figure BDA0002112283880000052
其中,softmax函数通过对w作用,得到每个深度特征每个维度的权重,M为训练样本的数量;M<N。
使用Weighted-Center-Loss损失函数作为优化目标来提高模型的训练效果。
步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层,得到各训练样本的预测输出向量;
步骤504、将每个训练样本标注的所属类别经过one-hot编码转化为K维向量;
步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量,共同输入到 softmax-Loss损失函数中,输出结果为softmax-Loss损失函数值;
步骤506、将Weighted-Center-Loss损失函数值与softmax-Loss损失函数值加权和,作为最终Loss损失值对神经网络模型进行优化。
最终Loss损失值计算公式如下:
Loss=softmax-Loss+λ*Weighted-Center-Loss
λ是加权系数,一般设置为0.1。通过最小化目标函数Loss训练神经网络模型。在训练的过程中,采用Adam优化器来进行梯度下降。这一步骤通过为神经网络模型设定了优化目标,并选择了相应的优化器对模型进行优化,实现了整个模型的训练,得到一个特定领域中文字符串OCR识别的模型。
步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,进而完成了对各图片字符串的整体识别。
将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中,在全连接层的节点上每个输出经过一个softmax函数进行分类,该全连接层神经元的个数与实际分类的类别数目一致。softmax将全连接层的输出转化为概率,取概率最大的那一维作为该测试样本的输出类别。
这一步骤通过将网络模型的输出连接到一个全连接层,而后将softmax函数作用于其上,从而实现了多分类,从整体流程上能够实现对中文字符串图片的整体识别。
实施例:
为了更好的展示本方法的有效性和创新性,特使用了一批数据来对本发明提出的模型的性能和效果进行了实验验证和评估。如图3所示,采集若干张白细胞计数的图片,利用本方法DCNN(RoI Pooling,Weighted Center Loss)的模型后,得到各图片的深度特征矩阵通过RoI Pooling伸展特征,得到各自对应的特征向量。网络模型输出部分使用softmax损失函数计算得到损失Softmax-Loss;使用Weighted Center Loss计算得到损失Weighted-Center-Loss,这两个损失值通过一个加权系数λ来完成求和,从而作为网络的优化目标。将待处理的各测试图片的特征向量分别输入到训练好的神经网络模型的全连接层中,在全连接层的节点上每个输出经过一个softmax函数进行分类,得到各图片的输出类别。
该数据上本模型取得的效果和其他模型取得效果的对比如图4所示,从图中可以看出,采用了本方法DCNN的模型取得了最高的准确率,由此可以知道本方法在模型的精确率上有更好的性能。
如图5所示,列举了一些识别的实例,从图中可以看到,通过使用本方法模型,能够实现对不同尺寸大小输入的图片都进行处理并识别出结果,并且最终的识别结果是整体识别而非逐个字符识别。而如果不使用本发明中的RoI Pooling方法,则模型无法处理不同尺寸大小的输入图片,而本发明中提出的使用Weighted Center Loss的方法则提高了模型的精确率,使得本模型的效果达到最优。并且,如果没有采用本发明中的中文字符串整体识别方法,则也无法对整个中文字符串进行整体识别。

Claims (4)

1.一种基于神经网络的中文字符串图片OCR识别方法,其特征在于,具体步骤如下:
步骤一、采集若干张待识别图片,将每个图片中的每个像素值分别进行归一化;
步骤二、初始化神经网络模型的各类别,分别为每个类别初始化各自对应的类别中心特征向量;
类别中心特征向量集合为{C1,C2,....,Ci,...,Cn};Ci为第i个类别的中心特征向量;n为类别的中心特征向量的总数;
步骤三、将每张待识别图片中的所有归一化像素,分别输入到神经网络模型中,通过卷积层+池化层进行特征提取,得到各图片的深度特征矩阵;
针对采集的N张待识别图片,对应N个深度特征矩阵;
步骤四、针对每张待识别图片,将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征,得到长度为L的特征向量;
步骤五、将N个特征向量划分为训练样本和测试样本,每个训练样本分别标注所属的类别,训练神经网络模型;
具体训练过程如下:
步骤501、针对某个训练样本,将该样本的特征向量和标注的类别中心向量,计算平方差损失值;
针对第m个训练样本的特征向量为Lm,标注的类别中心特征向量为Cm,平方差损失计算公式如下:
Figure FDA0002112283870000011
步骤502、将每个训练样本的平方差损失值记录,作为Weighted-Center-Loss损失函数值,对神经网络模型进行优化;
Figure FDA0002112283870000012
其中,softmax函数通过对w作用,得到每个深度特征每个维度的权重,M为训练样本的数量;M<N;
步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层,得到各训练样本的预测输出向量;
步骤504、将每个训练样本标注的所属类别经过one-hot编码转化为K维向量;
步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量,共同输入到softmax-Loss损失函数中,输出结果为softmax-Loss损失函数值;
步骤506、将Weighted-Center-Loss损失函数值与softmax-Loss损失函数值加权和,作为最终Loss损失值对神经网络模型进行优化;
最终Loss损失值计算公式如下:
Loss=softmax-Loss+λ*Weighted-Center-Loss
λ是加权系数;
步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层,输出各测试样本的类别,进而完成了对各图片字符串的整体识别;
将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中,在全连接层的节点上每个输出经过一个softmax函数进行分类,该全连接层神经元的个数与实际分类的类别数目一致。
2.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法,其特征在于,步骤一中所述的归一化过程是:
首先,计算出每张图片上所有像素值的平均值、最小值和最大值;
然后,对每张图片上的每一个像素点的值先减去平均值,再除以最大值和最小值的差值;
Figure FDA0002112283870000021
img是图片上某个像素值;mean(img)是图片上所有像素的平均值;max(img)是图片上所有像素的最大值;min(img)是图片上所有像素的最小值。
3.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法,其特征在于,所述的步骤四具体过程为:首先,将每个深度特征矩阵划分为长为w宽为h的网格;
然后,计算每个网格内所有像素值的最大值或者平均值,作为该网格的输出,从而得到长为w宽为h的深度特征矩阵;
最后将长为w宽为h的深度特征矩阵展平得到长度为L的特征向量;
N个待识别图片的特征向量集合为:L1,L2,...Lj,...LN
4.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法,其特征在于,步骤六中所述的softmax将全连接层的输出转化为概率,取概率最大的那一维作为输出类别。
CN201910576921.5A 2019-06-28 2019-06-28 一种基于神经网络的中文字符串图片ocr识别方法 Active CN110321830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910576921.5A CN110321830B (zh) 2019-06-28 2019-06-28 一种基于神经网络的中文字符串图片ocr识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910576921.5A CN110321830B (zh) 2019-06-28 2019-06-28 一种基于神经网络的中文字符串图片ocr识别方法

Publications (2)

Publication Number Publication Date
CN110321830A CN110321830A (zh) 2019-10-11
CN110321830B true CN110321830B (zh) 2020-11-13

Family

ID=68120591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910576921.5A Active CN110321830B (zh) 2019-06-28 2019-06-28 一种基于神经网络的中文字符串图片ocr识别方法

Country Status (1)

Country Link
CN (1) CN110321830B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826567B (zh) * 2019-11-06 2023-04-07 北京字节跳动网络技术有限公司 光学字符识别方法、装置、设备及存储介质
CN110889414A (zh) * 2019-11-27 2020-03-17 中国银行股份有限公司 光学字符识别方法及装置
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111401136B (zh) * 2020-02-22 2022-11-25 上海交通大学 一种柱塞泵空化程度检测方法、装置及终端
CN112364675B (zh) * 2020-10-28 2022-11-01 三维码(厦门)网络科技有限公司 一种基于三维码和图像识别的离线识读方法及装置
CN112613393B (zh) * 2020-12-18 2022-08-12 广西壮族自治区蚕业技术推广站 蚕病识别***
CN113723464B (zh) * 2021-08-02 2023-10-03 北京大学 一种遥感影像分类方法及装置
CN113792683B (zh) * 2021-09-17 2024-05-10 平安科技(深圳)有限公司 文本识别模型的训练方法、装置、设备以及存储介质
CN116152612B (zh) * 2023-04-21 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种长尾图像识别方法及相关装置
CN117315301B (zh) * 2023-10-07 2024-04-09 长春理工大学 一种基于图像识别的藏品信息匹配***和方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
CN106650741A (zh) * 2016-12-30 2017-05-10 深圳市捷顺科技实业股份有限公司 一种车牌字符识别方法及装置
CN109871843B (zh) * 2017-12-01 2022-04-08 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN109492618A (zh) * 2018-12-06 2019-03-19 复旦大学 基于分组扩张卷积神经网络模型的目标检测方法及装置

Also Published As

Publication number Publication date
CN110321830A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110321830B (zh) 一种基于神经网络的中文字符串图片ocr识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN108596154B (zh) 基于高维特征选择与多级融合的遥感图像分类方法
CN110197205B (zh) 一种多特征来源残差网络的图像识别方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及***
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN111723675A (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN111898621A (zh) 一种轮廓形状识别方法
CN111882554B (zh) 一种基于SK-YOLOv3的电力线故障智能检测方法
CN112200121A (zh) 基于evm和深度学习的高光谱未知目标检测方法
CN109815923B (zh) 基于lbp特征与深度学习的金针菇菇头分选识别方法
CN112464983A (zh) 一种用于苹果树叶病害图像分类的小样本学习方法
CN110414587A (zh) 基于渐进学习的深度卷积神经网络训练方法与***
Lin et al. Determination of the varieties of rice kernels based on machine vision and deep learning technology
CN115049952A (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN115409797A (zh) 一种基于改进深度学习算法的pcb缺陷图像检测方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN110533083B (zh) 基于SVM的Adaboost模型的铸件缺陷识别方法
CN116630700A (zh) 基于引入通道-空间注意力机制的遥感图像分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant