CN110674777A - 一种专利文本场景下的光学字符识别方法 - Google Patents

一种专利文本场景下的光学字符识别方法 Download PDF

Info

Publication number
CN110674777A
CN110674777A CN201910940612.1A CN201910940612A CN110674777A CN 110674777 A CN110674777 A CN 110674777A CN 201910940612 A CN201910940612 A CN 201910940612A CN 110674777 A CN110674777 A CN 110674777A
Authority
CN
China
Prior art keywords
text
lstm
output
network model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910940612.1A
Other languages
English (en)
Inventor
饶云波
郭毅
程亦茗
张孟涵
王艺霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910940612.1A priority Critical patent/CN110674777A/zh
Publication of CN110674777A publication Critical patent/CN110674777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于计算机视觉、图像处理、卷积神经网络技术领域,特别涉及一种专利文本场景下的光学字符识别方法。本发明将CNN和LSTM相结合,同时具备两者的优点,解决了CNN对序列相关性处理弱的问题,以及LSTM对图像特征提取不足的缺陷。本发明结合了新的损失函数计算方法CTC以一种不需要对齐的方式,解决了文本识别过程中难以对齐样本数据的问题。

Description

一种专利文本场景下的光学字符识别方法
技术领域
本发明属于计算机视觉、图像处理、卷积神经网络技术领域,特别涉及一种专利文本场景下的光学字符识别方法。
背景技术
随着计算机硬件,软件的不断更新,以及人工智能(Artificial Intelligence,AI)的逐步成熟化,将深度学习应用在光学字符识别领域具有十分现实的意义。光学字符识别是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使计算机识别的信息。因为其中影响因素太多,包括书写者的习惯,文件印刷品质、扫描仪的扫描品质、识别方法、学习及测试的样本等,都会影响其正确率。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将识别错误的文字更正,最终将结果输出。
OCR技术具有广阔的应用前景,目前文本识别的算法在工业界已经开始应用,市场上有不少针对光学字符识别的软件,充分说明光学字符领域具有较大的应用价值。
目前的OCR技术按照特征提取方法可以分为两类:
(1)传统方法:首先使用基于连通域分析的方法定位图片中文本位置,然后通过二值化、行列投影分析及规则进行行、列分割,最后通过语义纠错得到输出。存在的缺点主要有:(1)需要花费大量时间做特征提取,通常采用人工设计的特征(例如方向梯度直方图等)来训练字符识别模型,此类单一的特征在字体变化时泛化能力迅速下降。(2)过度依赖字符切分的结果,在有重叠、噪声干扰的情况下精度下降严重。(3)通常只能在简单场景下才能获得较好效果,在复杂场景下效果较差。
(2)基于深度学习的光学字符识别:字符识别引擎的训练是一个典型的图像分类问题。当前基于深度学习的方法,利用CNN在提取图像的高层语义方面的优势,以及LSTM在处理时间序列上的优势,舍弃手工设计特征和设计模板匹配的方式,通过神经网络进行一个端到端(End to End)的识别网络模型,其识别效果在简单场景下的识别效果通常能达到90%以上,在复杂场景下文本识别的效果相比于传统方法,提升更加显著。但是,由于参数太多,计算量太大,而且常常需要构建更深的网络结构来实现准确的特征提取,而且过深的网络结构存在梯度消失的问题。由于文本信息通常具有前后序列相关性,CNN在提取序列相关性特征上较弱,远不如LSTM。LSTM可以处理已有时间序列的特征提取,然而,传统的LSTM只能处理短时记忆,因为太长序列会导致梯度的消失。
发明内容
本发明的目的,主要基于深度学习,充分利用LSTM(RNN的一种)在处理和预测存在时间序列的事件上的有效性和CNN在提取深层语义上的优势,实现专利场景下的文本的高效精确识别,提高专利录入的自动化程度。
本发明的技术方案主要分为两部分,第一步是进行网络模型搭建和训练,整个网络模型分为文本检测网络和文本识别网络,第二步为是利用网络模型进行识别,总体算法框架图如附图1所示。具体由以下步骤实现:
样本集准备,采用tif格式的专利文本图片作为样本集,其中涵盖了中文、英文、数字、标点,同时通过拉伸、模糊、随机裁剪、透视变换、反色等图像处理方法进行数据增强,获得样本集。
搭建深度神经网络模型,整个网络模型由CNN和Bi-LSTM(长短期记忆神经网络)搭建,先生成文本区域再生成检测结果,网络结构如附图2所示。
文本检测网络模型,用3个卷积层和3个压缩激励模块(Sequeeze-and-Excitation,SE block)搭建全新的基础架构网络,每个压缩激励模块包括两个输出分支,一个分支不做任何处理,另一个分支一次经过池化层,全连接层,Relu激励层,全连接层,sigmoid激励层,最后将两个分支结果相加再进行输出。新的网络在计算时,给每个通道的特征赋予不同的权值,使得特征提取更加符合实际场景应用。基础架构网络如附图3所示。
文本检测网络,是一个目标检测领域的问题。较低层的网络能够更好的感受到小目标,较高层的网络能更高的感受到大目标,包括上下文。所以特征提取网络在设计时考虑到了多个特征输出,形成多尺度的特征提取网络。在实际问题中,不同通道所提取的特征不应该具有相同的权重,所以在网络提取过程中,我们把不同通道的特征设置不同的权重输出。
文本识别网络模型,使用Bi-LSTM和CNN搭建,使用CTC算法,取代传统的smothLoss损失函数。使用4个深度可分离模块和1个Bi-LSTM模块搭建网络。输入数据是文本检测网络输出的文本序列图片,首先经过深度可分离模块进行特征提取,将特征序列输入Bi-LSTM进行每一帧序列预测,然后通过CTC进行翻译,最后进行输出。文本识别网络模型结构如附图4所示。
使用数据集训练网络模型,迭代更新网络参数,得到最优模型。
模型训练包括两部分,文本检测网络的训练和文本识别网络的训练。
文本检测网络训练:
1.通过前向传播,利用卷积模块充分提取文本图片特征信息,经过基础网络模块提出的特征图大小为W,H,C。W为特征图宽度,H为特征图高度,C为输出的通道数。
2.经过C个3×3的卷积核,然后输入Bi-LSTM网络得到W×256维的输出。然后经过一个512维的全连接层。进行输出,输出层分为2个部分,第一部分用512×(4+10)进行坐标回归,512表示每个点有512中特征数,10表示每个点有10种预测框尺寸,生成10个不同尺度的候选框,4表示一个预测框尺度由一个四元组描述,分别是(xmin,xmax,ymin,ymax),代表两点的坐标。第二部分使用512×(2+10)进行类别预测,512和10的含义与第一部分相同,2表示是背景,或不是背景两种情况。
3.每张图片一共会生成W×H×10个预测框,使用NMS(极大值抑制)方法对框进行删选,阈值设置为0.7。
4.计算每个候选框中相对于真实框的偏移量,用于预测框回归。
5.根据类别得分和坐标,得到最终的预测框;总的损失函数由分类损失函数和回归预测函数相加组成,
Figure BDA0002222787150000031
代表分类损失函数,
Figure BDA0002222787150000032
代表回归损失函数,第一部分
Figure BDA0002222787150000033
使用softmax函数对anchor进行监督学习是否包含文本信息,si代表第i个类别的得分,s*={0,1}表示是否为真实值;第二部分
Figure BDA0002222787150000034
为L1smooth函数,用于学习包含文本的anchor在y方向的偏置回归,其中vj为第j个有文本的预测框尺寸,β表示任务权重,Ns和Nv是是归一化参数,表示对应任务的样本数量;公式如下:
Figure BDA0002222787150000035
Figure BDA0002222787150000041
Figure BDA0002222787150000042
6.将得到的预测框用文本线构造方法进行合并。递归的将两个框合并成一个组直到不能合并为止。合并条件为:1)离目标框最近且该距离小于50个像素;2)交并比大于0.7。
7.根据损失函数通过反向传播来更新各个网络层的权值参数。
至此,文本检测网络训练完成。
文本识别网络训练:
1.通过前向传播,输入图片大小为1×W×32,经过四个深度可分离卷积模块提取文本图片特征信息,最终输出大小为
Figure BDA0002222787150000043
2.由于CNN提取的特征无法直接输出给Bi-LSTM,需要提取特征向量序列,每一个特征向量在特征图上按行从左往右生成,每一列含有512个特征,每个特征向量为512维,这里一共得到
Figure BDA0002222787150000044
个特征向量。
3.然后经过1个隐藏结点为256的Bi-LSTM模块,在Bi-LSTM中每一个时间步传入一个特征向量,一共有
Figure BDA0002222787150000045
个,最终得到字符的softmax概率分布,形成一个
Figure BDA0002222787150000046
×字符类别数的后验概率矩阵,作为CTC算法的输入。
4.通过CTC算法,找到具有最高概率组合的标签序列,进行输出。
5.损失函数O公式如下所示,其中X为输入序列,Y为输出序列,p(l|x)表示在x字符下,输出序列l的概率。
Figure BDA0002222787150000047
6.同样,根据损失函数进行反向传播,更新网络权值参数。
本发明的有益效果为,不同于传统的方法,本发明通过使用Bi-LSTM和CNN进行特征训练,结合CNN和LSTM两种网络,提出新的网络结构模型,在字符输出的最后阶段使用CTC算法进行概率预测,最后通过传统方法对图像进行处理,使得最终专利场景下的光学字符的识别效果将会得到很大程度的提高。随着人工智能等技术的发展,将深度学习等方法从学术界引入工业界具有较强的现实意义。由于硬件和算法的进步,当前对于识别精度和自动化程度的需求也在逐步的增加。
本发明将CNN和LSTM相结合,同时具备两者的优点,解决了CNN对序列相关性处理弱的问题,以及LSTM对图像特征提取不足的缺陷。本发明结合了新的损失函数计算方法CTC以一种不需要对齐的方式,解决了文本识别过程中难以对齐样本数据的问题。针对专利场景下的光学字符识别问题,引入传统方法进行预处理以及特征区域进行拆分,当前多数OCR应用并没有对不规则图片进行背景检测,文字方向调整等操作,缺乏对专利图片光学字符识别的优化。由之前的示图可以看出,有无针对性处理,对最终效果影响很大。本发明所展现的应用前景广阔,基于深度学习的方法针对特定场景下的OCR应用和研究具有较好的实际价值和研究意义。
附图说明
图1是本发明的算法框架图;
图2是本发明的神经网络模型图;
图3是基础网络结构图;
图4是文本识别网络结构图;
图5是数据集和标签图,(a)是数据标签图,(b)是数据展示图;
图6是Train算法流程图;
图7是网络运行结果图;
图8是特征区域分割图;
图9是Excel类截图;
图10是写入模块效果展示图;
图11是测试图1,(a)是原始输入图,(b)是模型测试结果图;
图12是测试图2,(a)是原始输入图,(b)是模型测试结果图;
图13是模型效果对比图,(a)是原始输入图,(b)是使用预处理方法的模型测试结果图,(c)是未使用预处理方法的模型测试结果图。
具体实施方式
下面结合仿真示例说明本发明的实用性。
定义训练环境:
CPU-i7 8700k、GPU NVIDIA GeForce 2080Ti、OS ubuntu 16.0.4。
数据验证环境:
CPU 2.7GHz Intel Core i5、GPU Intel Iris Graphics 6100、Mac OS X10.14.6。
开发语言使用python3.5,使用开源框架Keras,Tensorflow作为后端,引入了Opencv,Numpy等第三方库。
1、数据集准备
采用tif格式的专利文本图片,数据集包括50万张原始图片,其中涵盖了中文、英文、数字、标点,同时通过拉伸、模糊、随机裁剪、透视变换、反色等图像处理方法进行数据增强,最终数据集共约300万张图片。数据集按照99:1的比例划分训练集和验证集,通过工具text_render制作数据标签,生成标注文件train.txt和图片数据,如附图5所示。
2、开始训练
将迭代次数epoch设置为4,batch-size设置为16,图片长宽分别限制为280×32。学习率lr根据epoch动态变化,具体公式如下。
lr=0.0006×0.3epoch
运行train.py文件后,首先创建一个session,然后载入网络结构、数据集路径,训练算法流程图如附图6所示。运行结果截图如附图7所示。
训练完成后得到weight.h5文件,然后进行专利文本字符的识别写入步骤。
3、将专利图片进行版面预处理,然后进行识别。
1)首先把输入的图片缩放裁剪成标准的224*224大小的图片。这一步是防止有不规范的图片导致精度的缺失。
2)将不规则图片使用滤波器去除图片噪声,进行二值化、旋转等,凸出光学字符的特征。
3)以左上角为原点建立坐标系,提取所需要识别内容所在区域的坐标。将对应区域进行裁剪,生成中间图片,这样放大了特征区域如附图8所示,减少了大量无关的信息。
4)写入excel文档,使用python包openpyxl进行Excel文档读写。需要写入的数据类如附图9所示。首先通过compare_excel(self,sheet)->bool函数判断是新建文档还是追加文档。由于专利图片类型较多,数据可能需要写入已经存在的一行或者新建一行,本发明通过关键字专利号,资料名称等集合进行多重判定。最后将数据写入Excel文档,如附图10。
经过一系列图像处理之后再使用网络模型进行识别,测试效果良好,如附图11,附图12所示。
由以上示图可见,本发明在识别精度上提升明显,算法识别结果将会作为中间输出流显示出来,可以进行人为修改,最终结果将会自动保存到Excel表格里面。最终的识别精度很高,基本可以进行工业部署应用。
本发明提出了新型的网络结构和算法模型:Bi-LSTM+CNN+CTC算法。文本检测网络采用SE-block结构,构建新的基础网络结构,用于特征提取,该模块在特征提取中充分考虑到不同通道维度对于特征的影响,相对于其他特征提取网络模型,在特征提取效果更好。文本识别网络使用新的depth-Conv模块构建CNN模块,损失函数计算使用全新的CTC算法取代smothLoss函数就算字符概率。在保持模型精度的情况下,大幅度减少了模型参数,减少了计算量。
本发明在识别阶段先对图片进行预处理,统一图片尺寸大小,然后识别特征区域和裁剪,使用训练好的网络模型进行识别,生成中间结果。由于光学字符识别目前没有办法做到百分之百的正确率,所以人工审核依然是必要的。若不经过图像预处理直接输入网络模型进行识别,效果较差,通过图13可以看出图像预处理对最终结果的重要性,经过图像预处理比不进行预处理直接进行识别的准确度得到了质的提升。

Claims (1)

1.一种专利文本场景下的光学字符识别方法,其特征在于,包括以下步骤:
S1、获取tif格式的专利文本图片,经过预处理后作为样本集;
S2、建立深度神经网络模型,包括文本检测网络模型和文本识别网络模型;
所述文本检测网络模型由3个卷积层、3个压缩激励模块和1个Bi-LSTM构成,一个卷积层连接一个压缩激励模块;每个压缩激励模块包括两个输出分支,一个分支不做任何处理,另一个分支依次经过池化层、全连接层、Relu激励层、全连接层和sigmoid激励层,最后将两个分支结果相加再进行输出;最后一个压缩激励模块经过3×3的卷积核之后,连接Bi-LSTM,最后经过全连接层进行输出;
所述文本识别网络模型由Bi-LSTM和CNN构成,该网络模型首先经过一个由CNN构成的深度可分离模块,该模块包括和输入通道数相同的3×3卷积层,叠加之后进行批量归一化,然后经过一个1×1卷积层,最后经过批量归一化、激活函数后和最大池化层后,输出给深度可分离模块;最后一个深度可分离模块连接Bi-LSTM模块,最后连接序列翻译模块;
S3、使用步骤S1获得的样本集对步骤S2的深度神经网络模型进行训练,获得训练好的神经网络模型,具体包括:
文本检测网络模型的训练:通过前向传播,利用卷积模块提取文本图片特征信息,经过基础网络模块提出的特征图大小为W,H,C;W为特征图宽度,H为特征图高度,C为输出的通道数;
经过C个3×3的卷积核和预先设定的预选框尺寸提取目标候选区域特征,然后输入Bi-LSTM网络得到W×256维的输出,然后经过一个512维的全连接层进行输出,输出层分为2个部分,第一部分用512×(4+10)进行坐标回归,512表示每个点有512种特征数,10表示每个点有10组预选框尺寸,4表示预选框尺寸的组成是(xmin,xmax,ymin,ymax),代表两点的坐标;第二部分使用512×(2+10)进行类别预测,512和10的含义与第一部分相同,2表示是背景或不是背景两种情况;
每张图片一共会生成W×H×10个不同的预选框,使用极大值抑制方法对框进行删选,阈值设置为0.7;
计算每个候选框中相对于真实框的偏移量,用于预测框回归;
根据类别得分和坐标,得到最终的预测框;总的损失函数由分类损失函数和回归预测函数相加组成,
Figure FDA0002222787140000021
代表分类损失函数,
Figure FDA0002222787140000022
代表回归损失函数,第一部分
Figure FDA0002222787140000023
使用softmax函数对预测框进行监督学习是否包含文本信息,si代表第i个类别的得分,s*={0,1}表示是否为真实值;第二部分
Figure FDA0002222787140000024
为L1smooth函数,用于学习包含文本的预测框在y方向的偏置回归,其中vj为第j个有文本的预测框尺寸,β表示任务权重,Ns和Nv是是归一化参数,表示对应任务的样本数量;公式如下:
Figure FDA0002222787140000025
Figure FDA0002222787140000026
Figure FDA0002222787140000027
将得到的预测框用文本线构造方法进行合并,递归的将两个框合并成一个组直到不能合并为止,合并条件为:1)离目标框最近且该距离小于50个像素;2)交并比大于0.7;
根据损失函数通过反向传播来更新各个网络层的权值参数;
文本识别网络模型的训练:
通过前向传播,输入图片大小为1×W×32,经过四个深度可分离卷积模块提取文本图片特征信息,最终输出大小为
Figure FDA0002222787140000028
由于CNN提取的特征无法直接输出给Bi-LSTM,需要提取特征向量序列,每一个特征向量在特征图上按行从左往右生成,每一列含有512个特征,每个特征向量为512维,一共得到
Figure FDA0002222787140000029
个特征向量;
然后经过1个隐藏结点为256的Bi-LSTM模块,在Bi-LSTM中每一个时间步传入一个特征向量,一共有个,最终得到字符的softmax概率分布,
Figure FDA00022227871400000211
Figure FDA00022227871400000212
作为CTC算法的输入;
通过CTC算法,找到具有最高概率组合的标签序列,进行输出;
损失函数O公式如下所示,其中X为输入序列,Y为输出序列,p(l|x)表示在x字符下,输出序列l的概率:
根据损失函数进行反向传播,更新网络权值参数;
S4、将待识别的专利文本图片输入训练好的神经网络模型,获得光学字符识别结果。
CN201910940612.1A 2019-09-30 2019-09-30 一种专利文本场景下的光学字符识别方法 Pending CN110674777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910940612.1A CN110674777A (zh) 2019-09-30 2019-09-30 一种专利文本场景下的光学字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910940612.1A CN110674777A (zh) 2019-09-30 2019-09-30 一种专利文本场景下的光学字符识别方法

Publications (1)

Publication Number Publication Date
CN110674777A true CN110674777A (zh) 2020-01-10

Family

ID=69080609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910940612.1A Pending CN110674777A (zh) 2019-09-30 2019-09-30 一种专利文本场景下的光学字符识别方法

Country Status (1)

Country Link
CN (1) CN110674777A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414908A (zh) * 2020-03-16 2020-07-14 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111985484A (zh) * 2020-08-11 2020-11-24 云南电网有限责任公司电力科学研究院 基于cnn-lstm的温度仪表数字识别的方法及装置
CN112052852A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112270174A (zh) * 2020-11-10 2021-01-26 清华大学深圳国际研究生院 一种谣言检测方法及计算机可读存储介质
CN112287934A (zh) * 2020-08-12 2021-01-29 北京京东尚科信息技术有限公司 识别字符和获取字符图像特征提取模型的方法和装置
CN112348007A (zh) * 2020-10-21 2021-02-09 杭州师范大学 一种基于神经网络的光学字符识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOLAN SU .ETC: ""Accurate recognition of words in scenes without character segmentation using recurrent neural network"", 《PATTERN RECOGNITION》 *
YANHUA SHAO .ETC: ""Using Multi-Scale Infrared Optical Flow-based Crowd motion estimation for Autonomous Monitoring UAV"", 《2018 CHINESE AUTOMATION CONGRESS(CAC)》 *
曾劲松 等: ""基于冲突博弈算法的海量信息智能分类"", 《计算机科学》 *
谭咏梅 等: ""基于CNN与双向LSTM的中文文本蕴含识别方法"", 《中文信息学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414908A (zh) * 2020-03-16 2020-07-14 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111414908B (zh) * 2020-03-16 2023-08-29 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111985484A (zh) * 2020-08-11 2020-11-24 云南电网有限责任公司电力科学研究院 基于cnn-lstm的温度仪表数字识别的方法及装置
CN112287934A (zh) * 2020-08-12 2021-01-29 北京京东尚科信息技术有限公司 识别字符和获取字符图像特征提取模型的方法和装置
CN112052852A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112052852B (zh) * 2020-09-09 2023-12-29 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112348007A (zh) * 2020-10-21 2021-02-09 杭州师范大学 一种基于神经网络的光学字符识别方法
CN112348007B (zh) * 2020-10-21 2023-12-19 杭州师范大学 一种基于神经网络的光学字符识别方法
CN112270174A (zh) * 2020-11-10 2021-01-26 清华大学深圳国际研究生院 一种谣言检测方法及计算机可读存储介质
CN112270174B (zh) * 2020-11-10 2022-04-29 清华大学深圳国际研究生院 一种谣言检测方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
Zhao et al. Document image binarization with cascaded generators of conditional generative adversarial networks
CN111652332B (zh) 基于二分类的深度学习手写中文字符识别方法及***
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、***及介质
CN112070768B (zh) 基于Anchor-Free的实时实例分割方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及***
CN113537227B (zh) 一种结构化文本识别方法及***
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN111666937A (zh) 一种图像中的文本识别方法及***
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN114155244A (zh) 缺陷检测方法、装置、设备及存储介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及***
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
Dipu et al. Bangla optical character recognition (ocr) using deep learning based image classification algorithms
Vinokurov Using a convolutional neural network to recognize text elements in poor quality scanned images
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
Lai et al. Robust text line detection in equipment nameplate images
CN115640401A (zh) 文本内容提取方法及装置
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
Zulkarnain et al. Table information extraction using data augmentation on deep learning and image processing
Ahmed et al. Sub-sampling approach for unconstrained Arabic scene text analysis by implicit segmentation based deep learning classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110