CN112836650B - 一种质量检验报告扫描图像表格语义解析方法与*** - Google Patents

一种质量检验报告扫描图像表格语义解析方法与*** Download PDF

Info

Publication number
CN112836650B
CN112836650B CN202110164862.8A CN202110164862A CN112836650B CN 112836650 B CN112836650 B CN 112836650B CN 202110164862 A CN202110164862 A CN 202110164862A CN 112836650 B CN112836650 B CN 112836650B
Authority
CN
China
Prior art keywords
quality inspection
character
text
inspection report
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110164862.8A
Other languages
English (en)
Other versions
CN112836650A (zh
Inventor
尹旷
喇元
叶建斌
张宇
朱博
苏海博
方健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110164862.8A priority Critical patent/CN112836650B/zh
Publication of CN112836650A publication Critical patent/CN112836650A/zh
Application granted granted Critical
Publication of CN112836650B publication Critical patent/CN112836650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种多方向可纠错的封闭开关设备质量检验报告扫描图像表格语义解析方法与***,具体包括1)对质量检验报告扫描图像表格进行图像预处理;2)对质量检验报告扫描图像不同角度切分表格的文字进行定位与识别;3)对质量检验报告扫描图像文字识别结果语义解析与纠错,得出结果。本发明的优点在于:利用表格线识别定位文字,去除扫描文档的阴影干扰;实现了倾斜文本和多尺度文本的检测;对文本识别的错字错词实现自动纠错。

Description

一种质量检验报告扫描图像表格语义解析方法与***
技术领域
本发明属于计算机及信息服务技术,特别涉及对特定扫描图像的表格内容语义解析的方法和***。
背景技术
语义解析是图像与文本理解中高层认知的重点和难点,对于封闭开关设备质量检验报告扫描图像表格,我们希望利用图像与文本理解算法识别扫描图像,并对识别结果进行语义解析,实现封闭开关设备的自动验收。
对于图像理解算法,可以对文字进行定位与识别。目前比较成熟的文本检测框架为CTPN(Connectionist Text Proposal Network),精确度较好,但是检测时间较长,只能检测水平方向的文本,有很大的优化空间。
对于文本理解算法,文本语义解析在扫描图像的表格内容中可进行信息抽取与文本纠错。目前文本语义解析的纠错模型包括了端到端的深度模型、CRF(conditionalrandom field)、seq2seq等。端到端的深度模型可以避免人工提取特征,减少人工工作量,CRF会计算全局最优输出节点的条件概率,对句子中特定错误类型的检测,会根据整句话判定该错误,seq2seq模型是使用encoder-decoder结构解决序列转换问题。
目前,现有的图像语义解析技术对于扫描图像文本的识别只能基于水平方向,对表格识别无法保留原来的结构化信息,且不包含对识别文字信息的语义解析,对于错误识别的内容没有配套的纠错方案。
发明内容
本发明针对现有技术的不足之处,提出一种多方向可纠错的扫描图像表格语义解析方法与***,并将其应用在封闭开关设备质量检验报告中,通过识别表格线来切分与定位文字,基于RRPN(Rotation Region Proposal Network)目标识别模型与DenseNet卷积神经网络实现多方向的文字识别,最后基于RNN(Recurrent Neural Network)序列模型实现文本纠错。
本发明提出一种质量检验报告扫描图像表格语义解析方法,包括以下步骤:
步骤1,对封闭开关设备质量检验报告扫描图像表格进行图像预处理,包括图像自适应的二值化、噪声去除,识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置;
步骤2,构建多方向文字定位模型实现切分表格的文字定位,设计带角度信息的倾斜候选框,实现对不同扫描角度的质量检验报告的文字定位;
步骤3,基于DenseNet构建文字识别模型对定位文字进行识别,设计卷积网络层之间的残差连接提高文字的识别率,实现质量检验报告的切片表格文字识别;
步骤4,对于识别后的文字部分,利用预训练的RNN模型进行表格文字的语义解析,构建针对封闭开关设备质量检验报告的快速文本修正模型;
步骤5,利用训练好的文本修正模型,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果,并实现检验报告的自动比对。
进一步的,步骤1中识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置,其具体实现步骤如下;
首先识别图像中的所有竖线,设定距离阈值,将在距离阈值内的竖线视为同一竖线,取坐标最高最低点作为竖线的起点和结点坐标;同理识别所有横线,定距离阈值,将在距离阈值内的横线视为同一横线,取坐标最左最右点作为竖线的起点和结点坐标,得到扫描表格的所有表格线;
计算所有横竖线的交点坐标,遍历除最右和最下面两条线上的所有交点,记遍历当前点为点A,记A点右侧和下方的点为B和C,若能找到成立矩形的第四个点D,则构成矩形切片,否则继续遍历,得到所有矩形切片即为所有表格切片;
进一步的,步骤2中构建多方向文字定位模型实现切分表格的文字定位,其具体实现方式如下,
整体模型分为三个部分,第一部分使用VGG网络对表格切片提取图像特征,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域,第三部分设计损失函数,训练得到多方向文字定位模型,实现对不同扫描角度的质量检验报告的文字定位;
其中,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域的具体实现方式如下,
设计文本区域的表现形式为:(x,y,w,h,θ),其中(x,y)表示文本区域的几何中心点坐标,(w,h)分别表示文本区域的长边和短边,θ表示文本区域长边与x正轴的夹角,通过θ+kπ将θ的范围控制在
Figure BDA0002937358620000031
之间;
设计旋转的Anchor,进行如下改进:1)选择六个旋转角度,分别是
Figure BDA0002937358620000032
2)选择三个比例分别为1:3,1:5,1:8;3)选择三个大小,分别为8,16,32像素。对于H×W的特征图上的每一个点共生成六个方向,三个宽高比,三个大小,一共54×H×W个Anchor;
第三部分损失函数设计如下,
L(p,l,v*,v)=Lcls(p,l)+λlLreg(v*,v)
其中参数l表示类别,其中对于文本l=1,对于背景l=0,参数p为softmax函数计算的类的概率,λ为平衡参数,v表示预测的文本区域,v*表示真实的文本区域;
类别l的分类损失定义如下,
Lcls(p,l)=-logpl
其中pl为类别l的softmax函数计算的概率;
边界回归的损失定义如下,
Figure BDA0002937358620000033
Figure BDA0002937358620000034
其中,i为由{x,y,w,h,θ}表示的一个文本区域。
进一步的,对于多方向文字定位模型采用单独训练的方式,选取IoU大于0.7且与真实框夹角小于
Figure BDA0002937358620000035
的标注框作为正样本,IoU小于0.3或IoU大于0.7但与真实框夹角大于
Figure BDA0002937358620000036
的标注框作为负样本,进行训练,得到多方向文字定位模型。
进一步的,步骤3中基于DenseNet构建文字识别模型对定位文字进行识别,其具体实现方式如下,
设输入图像为x0,第i层输出记为xi,输入图像经过1个卷积层,2个Dense Block,每个Dense Block之间含有1*1的卷积层和2*2的池化层作为过渡层,最后线性连接得到输出分类,通过网络训练得到文字识别模型,实现质量检验报告的切片表格文字识别;
其中,Dense Block以CNN卷积神经网络作为基础框架,包含五层卷积层,每层都设计了后续层的残差链路,即直接将该层网络特征矩阵传递给后续层,第i层获得所有前面特征映射作为输入,即
xi=Hi([x0,x1,x2…xi-1])
其中,Hi函数为非线性激活函数。
进一步的,步骤4的具体实现方式如下,
取步骤3所得文字识别结果,其中识别错误数据作为负样本,识别错误的数据进行修改后正确的数据作为正样本;
采用预训练的word2vec模型将文本数据转化为词向量,输入RNN网络,输入为错误数据负样本,输出为修改数据正样本,进行网络的训练,得到训练之后的文本纠错模型。
进一步的,步骤5的具体实现方式如下,
针对封闭开关设备质量检验报告扫描图像的表格切片文字识别结果,利用文本纠错模型进行文本纠错,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果;
根据表格的位置信息,将表格标题与对应属性值自动记录为键值对信息,针与封闭开关设备的标准信息自动比对,实现检验报告的自动验收。
此外,本发明还提供一种质量检验报告扫描图像表格语义解析***,包括以下模块:
数据处理模块,用于对封闭开关设备质量检验报告扫描图像表格进行图像预处理,包括图像自适应的二值化、噪声去除,识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置;
文字定位和识别模块,用于构建多方向文字定位模型实现切分表格的文字定位,设计带角度信息的倾斜候选框,实现对不同扫描角度的质量检验报告的文字定位;
文字纠错模块,对于识别后的文字部分,利用预训练的RNN模型进行表格文字的语义解析,构建针对封闭开关设备质量检验报告的快速文本修正模型;
数据输出模块,利用训练好的文本修正模型,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果;根据表格切片的位置信息,将表格标题与对应属性值自动记录为键值对信息,与标准化信息进行比对,实现封闭开关设备的自动验收。
与现有技术相比,本发明具有的优点和有益效果:
1)利用表格线识别定位文字,去除扫描文档的阴影干扰;
2)实现了倾斜文本和多尺度文本的检测;
3)可对文本识别的错字错词实现自动纠错。
附图说明
图1为本发明流程示意图;
图2为步骤2所述RRPN框架结构;
图3为步骤3所述DenseNet卷积神经网络框架结构;
图4为实例中获得的原始数据;
图5为实例中处理后数据。
具体实施方式
本发明基于RRPN目标识别模型、DenseNet卷积神经网络、RNN序列模型,提出一种质量检验报告扫描图像表格语义解析方法与***。通过本方法,可以将扫描图像表格的文本数据提取出来并加以纠错。
本发明提供的方法能够使用计算机软件技术实现流程,参见图1。实施例以一份封闭开关设备质量检验报告扫描图像表格为例对本发明的流程进行一个具体的阐述,如下:
1)对质量检验报告扫描图像表格进行图像预处理;
2)对质量检验报告扫描图像不同角度切分表格的文字进行定位与识别;
3)对质量检验报告扫描图像文字识别结果语义解析与纠错,得出结果;
实现该实例的质量检验报告扫描图像表格进行图像预处理,方法如下,
1-1)如图2所示的封闭开关设备质量检验报告图像表格中清晰度不够高,且扫描图像颜色偏灰,需首先对扫描图像进行图像自适应的二值化、噪声去除等处理。
1-2)得到处理后的扫描图像进行表格线的识别,识别图像中的所有竖线,设定距离阈值,将在距离阈值内的竖线视为同一竖线,取坐标最高最低点作为竖线的起点和结点坐标;同理识别所有横线,定距离阈值,将在距离阈值内的横线视为同一横线,取坐标最左最右点作为竖线的起点和结点坐标,得到扫描表格的所有表格线;
1-3)得到表格线后计算所有横竖线的交点坐标,遍历除最右和最下面两条线上的所有交点,记遍历当前点为点A,记A点右侧和下方的点为B和C,若能找到成立矩形的第四个点D,则构成矩形切片,否则继续遍历,得到所有矩形切片即为所有表格切片;
实现该实例质量检验报告扫描图像不同角度切分表格的文字定位与识别,方法如下,
2-1)基于RRPN目标识别模型设计多方向文字定位模型,整体网络分为三个部分,第一部分使用VGG网络对表格切片提取图像特征,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域,第三部分设计损失函数,实现对不同扫描角度的质量检验报告的文字定位。整体结构如图2所示。
其中,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域的具体实现方式如下,
设计文本区域的表现形式为:(x,y,w,h,θ)。其中(x,y)表示文本区域的几何中心点坐标,(w,h)分别表示文本区域的长边和短边,θ表示文本区域长边与x正轴的夹角,通过θ+kπ将θ的范围控制在
Figure BDA0002937358620000061
之间。
设计旋转的Anchor,进行如下改进:1)选择六个旋转角度,分别是
Figure BDA0002937358620000062
2)选择三个比例分别为1:3,1:5,1:8;3)选择三个大小,分别为8,16,32像素。对于H×W的特征图上的每一个点共生成六个方向,三个宽高比,三个大小,一共54×H×W个Anchor。
第二部分损失函数设计如下,
L(p,l,v*,v)=Lcls(p,l)+λlLreg(v*,v)
其中参数l表示类别(其中对于文本l=1,对于背景l=0),参数p为softmax函数计算的类的概率,λ为平衡参数,v表示预测的文本区域,v*表示真实的文本区域。
在本实验中,类别l的分类损失定义如下,
Lcls(p,l)=-logpl
其中pl为类别l的softmax函数计算的概率。
边界回归的损失定义如下,
Figure BDA0002937358620000063
Figure BDA0002937358620000071
其中,i为由{x,y,w,h,θ}表示的一个文本区域。
在本实验中,对于该部分网络采用单独训练的方式,选取IoU大于0.7且与真实框夹角小于
Figure BDA0002937358620000072
的标注框作为正样本,IoU小于0.3或IoU大于0.7但与真实框夹角大于
Figure BDA0002937358620000073
的标注框作为负样本,进行训练,得到多方向文字定位模型。
2-2)基于DenseNet构建文字识别模型对定位文字进行识别;设输入图像为x0,第i层输出记为xi。输入图像经过了1个卷积层,2个Dense Block,每个Dense Block之间含有1*1的卷积层和2*2的池化层作为过渡层,最后线性连接得到输出分类,通过网络训练得到文字识别模型,实现质量检验报告的切片表格文字识别。整体结构如图3所示。
其中,Dense Block以CNN卷积神经网络作为基础框架,包含五层卷积层,每层都设计了后续层的残差链路,即直接将该层网络特征矩阵传递给后续层。,第i层获得所有前面特征映射作为输入,即
xi=Hi([x0,x1,x2…xi-1])
其中,Hi函数为非线性激活函数,本实验中设计为ReLU函数加一层卷积核为3*3的卷积层。
在本实验中,对于该部分网络采用单独训练的方式,对封闭开关设备质量检验报告扫描图像进行人工单字标注,训练该部分网络以实现对扫描图像的文字识别。
2-3)表格切片的文字识别,基于已经训练好的文字定位模型和文字识别模型,对步骤1生成的扫描图像切片进行识别,得到封闭开关设备质量检验报告扫描图像的所有表格单元的文字识别结果。
实现该实例质量检验报告扫描图像文字识别结果语义解析与纠错,方法如下,
3-1)取步骤2所得文字识别结果,对文字识别的错误结果进行人工标注,其中识别错误数据作为负样本,识别错误的数据进行修改后正确的数据作为正样本。
3-2)词向量word2vec模型可以将自然语言转化为向量表示,而RNN模型可以实现的是序列到序列之间的转化,因此,采用预训练的word2vec模型将文本数据转化为词向量,输入RNN网络,输入为错误数据,输出为修改数据进行网络的训练,得到文本纠错模型。
3-3)对封闭开关设备质量检验报告扫描图像的表格切片文字识别结果,利用文本纠错模型进行文本纠错,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果。
3-4)根据表格切片的位置信息,将表格标题与对应属性值自动记录为键值对信息,与标准化信息进行比对,实现封闭开关设备的自动验收。
此外,本发明还提供一种质量检验报告扫描图像表格语义解析***,包括以下模块:
数据处理模块,用于对封闭开关设备质量检验报告扫描图像表格进行图像预处理,包括图像自适应的二值化、噪声去除,识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置;
文字定位和识别模块,用于构建多方向文字定位模型实现切分表格的文字定位,设计带角度信息的倾斜候选框,实现对不同扫描角度的质量检验报告的文字定位;
文字纠错模块,对于识别后的文字部分,利用预训练的RNN模型进行表格文字的语义解析,构建针对封闭开关设备质量检验报告的快速文本修正模型;
数据输出模块,利用训练好的文本修正模型,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果;根据表格切片的位置信息,将表格标题与对应属性值自动记录为键值对信息,与标准化信息进行比对,实现封闭开关设备的自动验收。
各模块的具体实现方式与各步骤相应,本发明不予撰述。本实例中原图、输入的扫描图像以及最终识别结果如图4、5所示。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种质量检验报告扫描图像表格语义解析方法,其特征在于,包括以下步骤:
步骤1,对封闭开关设备质量检验报告扫描图像表格进行图像预处理,包括图像自适应的二值化、噪声去除,识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置;
步骤2,构建多方向文字定位模型实现切分表格的文字定位,设计带角度信息的倾斜候选框,实现对不同扫描角度的质量检验报告的文字定位;
步骤3,基于DenseNet构建文字识别模型对定位文字进行识别,设计卷积层之间的残差连接提高文字的识别率,实现质量检验报告的切片表格文字识别;
步骤4,对于识别后的文字部分,利用预训练的RNN模型进行表格文字的语义解析,构建针对封闭开关设备质量检验报告的快速文本修正模型;
步骤5,利用训练好的文本修正模型,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果,并实现检验报告的自动比对。
2.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:步骤1中识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置,其具体实现步骤如下;
首先识别图像中的所有竖线,设定距离阈值,将在距离阈值内的竖线视为同一竖线,取坐标最高最低点作为竖线的起点和结点坐标;同理识别所有横线,定距离阈值,将在距离阈值内的横线视为同一横线,取坐标最左最右点作为竖线的起点和结点坐标,得到扫描表格的所有表格线;
计算所有横竖线的交点坐标,遍历除最右和最下面两条线上的所有交点,记遍历当前点为点A,记A点右侧和下方的点为B和C,若能找到成立矩形的第四个点D,则构成矩形切片,否则继续遍历,得到所有矩形切片即为所有表格切片。
3.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:步骤2中构建多方向文字定位模型实现切分表格的文字定位,其具体实现方式如下,
整体模型分为三个部分,第一部分使用VGG网络对表格切片提取图像特征,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域,第三部分设计损失函数,训练得到多方向文字定位模型,实现对不同扫描角度的质量检验报告的文字定位;
其中,第二部分在图像特征矩阵中生成带倾斜角的文本候选区域的具体实现方式如下,
设计文本区域的表现形式为:(x,y,w,h,θ),其中(x,y)表示文本区域的几何中心点坐标,(w,h)分别表示文本区域的长边和短边,θ表示文本区域长边与x正轴的夹角,通过θ+kπ将θ的范围控制在
Figure FDA0002937358610000021
之间;
设计旋转的Anchor,进行如下改进:1)选择六个旋转角度,分别是
Figure FDA0002937358610000022
2)选择三个比例分别为1:3,1:5,1:8;3)选择三个大小,分别为8,16,32像素;对于H×W的特征图上的每一个点共生成六个方向,三个宽高比,三个大小,一共54×H×W个Anchor;
第三部分损失函数设计如下,
L(p,l,v*,v)=Lcls(p,l)+λlLreg(v*,v)
其中参数l表示类别,其中对于文本l=1,对于背景l=0,参数p为softmax函数计算的类的概率,λ为平衡参数,v表示预测的文本区域,v*表示真实的文本区域;
类别l的分类损失定义如下,
Lcls(p,l)=-logpl
其中pl为类别l的softmax函数计算的概率;
边界回归的损失定义如下,
Figure FDA0002937358610000023
Figure FDA0002937358610000024
其中,i为由{x,y,w,h,θ}表示的一个文本区域。
4.根据权利要求3所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:对于多方向文字定位模型采用单独训练的方式,选取IoU大于0.7且与真实框夹角小于
Figure FDA0002937358610000031
的标注框作为正样本,IoU小于0.3或IoU大于0.7但与真实框夹角大于
Figure FDA0002937358610000032
的标注框作为负样本,进行训练,得到多方向文字定位模型。
5.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:步骤3中基于DenseNet构建文字识别模型对定位文字进行识别,其具体实现方式如下,
设输入图像为x0,第i层输出记为xi,输入图像经过1个卷积层,2个Dense Block,每个Dense Block之间含有1*1的卷积层和2*2的池化层作为过渡层,最后线性连接得到输出分类,通过网络训练得到文字识别模型,实现质量检验报告的切片表格文字识别;
其中,Dense Block以CNN卷积神经网络作为基础框架,包含五层卷积层,每层都设计了后续层的残差链路,即直接将该层网络特征矩阵传递给后续层,第i层获得所有前面特征映射作为输入,即
xi=Hi([x0,x1,x2…xi-1])
其中,Hi函数为非线性激活函数。
6.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:步骤4的具体实现方式如下,
取步骤3所得文字识别结果,其中识别错误数据作为负样本,识别错误的数据进行修改后正确的数据作为正样本;
采用预训练的word2vec模型将文本数据转化为词向量,输入RNN网络,输入为错误数据负样本,输出为修改数据正样本,进行网络的训练,得到训练之后的文本纠错模型。
7.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法,其特征在于:步骤5的具体实现方式如下,
针对封闭开关设备质量检验报告扫描图像的表格切片文字识别结果,利用文本纠错模型进行文本纠错,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果;
根据表格的位置信息,将表格标题与对应属性值自动记录为键值对信息,针与封闭开关设备的标准信息自动比对,实现检验报告的自动验收。
8.一种质量检验报告扫描图像表格语义解析***,其特征在于,包括以下模块:
数据处理模块,用于对封闭开关设备质量检验报告扫描图像表格进行图像预处理,包括图像自适应的二值化、噪声去除,识别扫描图像表格的表格线,以表格线交点作为判断依据切分表格,并记录每份切片所处的位置;
文字定位和识别模块,用于构建多方向文字定位模型实现切分表格的文字定位,设计带角度信息的倾斜候选框,实现对不同扫描角度的质量检验报告的文字定位;
文字纠错模块,对于识别后的文字部分,利用预训练的RNN模型进行表格文字的语义解析,构建针对封闭开关设备质量检验报告的快速文本修正模型;
数据输出模块,利用训练好的文本修正模型,结合切片位置信息还原表格文字布局,得到封闭开关设备质量检验报告扫描图像表格的最终识别结果;根据表格切片的位置信息,将表格标题与对应属性值自动记录为键值对信息,与标准化信息进行比对,实现封闭开关设备的自动验收。
CN202110164862.8A 2021-02-05 2021-02-05 一种质量检验报告扫描图像表格语义解析方法与*** Active CN112836650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110164862.8A CN112836650B (zh) 2021-02-05 2021-02-05 一种质量检验报告扫描图像表格语义解析方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110164862.8A CN112836650B (zh) 2021-02-05 2021-02-05 一种质量检验报告扫描图像表格语义解析方法与***

Publications (2)

Publication Number Publication Date
CN112836650A CN112836650A (zh) 2021-05-25
CN112836650B true CN112836650B (zh) 2022-12-06

Family

ID=75932445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110164862.8A Active CN112836650B (zh) 2021-02-05 2021-02-05 一种质量检验报告扫描图像表格语义解析方法与***

Country Status (1)

Country Link
CN (1) CN112836650B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537227B (zh) * 2021-06-28 2024-02-02 杭州电子科技大学 一种结构化文本识别方法及***
CN113706207B (zh) * 2021-08-31 2024-05-31 中国平安财产保险股份有限公司 基于语义解析的订单成交率分析方法、装置、设备及介质
CN113936286B (zh) * 2021-11-29 2024-06-14 中国平安人寿保险股份有限公司 图像文本识别方法、装置、计算机设备及存储介质
CN114580429A (zh) * 2022-01-26 2022-06-03 云捷计算机软件(江苏)有限责任公司 一种基于人工智能的语言和图像理解集成服务***
CN115618852B (zh) * 2022-11-22 2023-04-07 山东天成书业有限公司 一种文本数字化自动校对***
CN116168409B (zh) * 2023-04-20 2023-07-21 广东聚智诚科技有限公司 一种应用于标准、专利分析报告自动生成***
CN117237971B (zh) * 2023-11-10 2024-01-30 长威信息科技发展股份有限公司 基于多模态信息抽取的食品类质检报告数据抽取方法
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、***、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及***
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285746A1 (en) * 2005-06-17 2006-12-21 Sherif Yacoub Computer assisted document analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及***
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法

Also Published As

Publication number Publication date
CN112836650A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN112836650B (zh) 一种质量检验报告扫描图像表格语义解析方法与***
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅***
CN111709349A (zh) 一种针对带表格合同的ocr识别方法
Arai et al. Method for automatic e-comic scene frame extraction for reading comic on mobile devices
CN111626146A (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN114155527A (zh) 一种场景文本识别方法和装置
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和***
CN112085024A (zh) 一种罐表面字符识别方法
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN111027511A (zh) 基于感兴趣区块提取的遥感图像舰船检测方法
CN112818951A (zh) 一种票证识别的方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及***
CN114140803B (zh) 基于深度学习的文档单字坐标检测和修正方法及***
CN112580507A (zh) 一种基于图像矩矫正的深度学习文本字符检测方法
CN114419647A (zh) 一种表格信息提取方法及***
CN112307919A (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN113065396A (zh) 基于深度学习的扫描档案图像的自动化归档处理***及方法
CN115116074A (zh) 一种手写体文字识别、及模型训练方法和装置
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN115880566A (zh) 一种基于视觉分析的智能阅卷***
CN116758545A (zh) 一种基于深度学习的纸质医药包装钢印字符识别方法
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant