CN114842483A - 基于神经网络和模板匹配的标准文件信息提取方法及*** - Google Patents

基于神经网络和模板匹配的标准文件信息提取方法及*** Download PDF

Info

Publication number
CN114842483A
CN114842483A CN202210732053.7A CN202210732053A CN114842483A CN 114842483 A CN114842483 A CN 114842483A CN 202210732053 A CN202210732053 A CN 202210732053A CN 114842483 A CN114842483 A CN 114842483A
Authority
CN
China
Prior art keywords
file
data
term
information
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210732053.7A
Other languages
English (en)
Other versions
CN114842483B (zh
Inventor
周鸣乐
蔡明�
李刚
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210732053.7A priority Critical patent/CN114842483B/zh
Publication of CN114842483A publication Critical patent/CN114842483A/zh
Application granted granted Critical
Publication of CN114842483B publication Critical patent/CN114842483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及计算机和标准化领域,本发明的基于神经网络和模板匹配的标准文件信息提取方法及***,包括:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本;S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;S3.将归类后的数组结构化,形成结构化数据并存储;S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示。本方案将不可编辑的pdf文件数字化从而形成计算机可处理的结构化数据,实现了标准文件处理的信息化,极大减少了人工录入成本提高了效率。

Description

基于神经网络和模板匹配的标准文件信息提取方法及***
技术领域
本发明涉及计算机和标准化领域,具体涉及一种将不可编辑的pdf格式标准文件数字化以及提取其中关键指标信息的方法和***。
背景技术
国家标准指导文件简称标准文件,是规定各项技术实施标准、确定各项产品生产规格的指导性文件。标准文件大多是不可编辑的pdf格式,虽然防止了文件内容被篡改但也带来了文件内容提取的不便。以往标准文件的录入主要依靠人力手工录入,处理效率低、工作内容繁琐、信息化程度低等缺点亟待解决。当前,计算机技术特别是人工智能技术蓬勃发展,引领新一轮产业革命。其中光学字符识别技术可以将图片中文字识别成文本,为标准文件的处理引入信息化技术提供了技术保障。
发明内容
针对上述问题,本发明提供了基于神经网络和模板匹配的标准文件信息提取方法及***,将标准文件数字化为可编辑的结构化数据,实现了管理人员快捷提取标准文件关键指标信息的目的。
本发明提供如下技术方案:基于神经网络和模板匹配的标准文件信息提取方法,包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能,所述excel文件导出模块,将导出目标文件和标准文件的结构化数据上传至指标信息管理***。
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。选取若干若干感兴趣图片输入到预设ocr模型中识别图片中文字,所述文字包括待提取指标信息和冗余文字。
在步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
Figure 270840DEST_PATH_IMAGE001
图片只应包含待识别文本,对于与本次识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
Figure 656822DEST_PATH_IMAGE002
·
Figure 403936DEST_PATH_IMAGE003
Figure 799145DEST_PATH_IMAGE003
·
Figure 347938DEST_PATH_IMAGE004
式中,S是旋转矩阵
Figure 639242DEST_PATH_IMAGE005
分别是x轴、y轴方向上的缩放系数,
Figure 906275DEST_PATH_IMAGE006
是缩放点;
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场(Conditional Random Field,CRF)模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
输入:模型
Figure 574017DEST_PATH_IMAGE007
(A,B,
Figure 977317DEST_PATH_IMAGE008
)和观测矩阵O = (
Figure 705101DEST_PATH_IMAGE009
,...,
Figure 193851DEST_PATH_IMAGE010
)
输出:最优路径
Figure 665284DEST_PATH_IMAGE011
=(
Figure 923090DEST_PATH_IMAGE012
,...,
Figure 87355DEST_PATH_IMAGE013
)
(1)初始化
Figure 63401DEST_PATH_IMAGE014
...N
Figure 72946DEST_PATH_IMAGE015
(2)递推,对t = 2,3,...T
Figure 450837DEST_PATH_IMAGE016
(i) = max[
Figure 520424DEST_PATH_IMAGE017
Figure 485232DEST_PATH_IMAGE017
]
Figure 32888DEST_PATH_IMAGE018
(
Figure 530865DEST_PATH_IMAGE019
)(1
Figure 36933DEST_PATH_IMAGE020
),i = 1,2,...N
Figure 456413DEST_PATH_IMAGE021
(1
Figure 73339DEST_PATH_IMAGE022
),i=1,2,...N
(3)终止
Figure 160244DEST_PATH_IMAGE023
Figure 837213DEST_PATH_IMAGE024
(1
Figure 275147DEST_PATH_IMAGE025
)
(4)最优路径回溯,对t=T-1,T-2,...1,有
Figure 164606DEST_PATH_IMAGE026
=
Figure 371596DEST_PATH_IMAGE027
因此求得最优路径
Figure 219467DEST_PATH_IMAGE011
= (
Figure 879118DEST_PATH_IMAGE028
Figure 837847DEST_PATH_IMAGE028
,
Figure 633764DEST_PATH_IMAGE029
) 。
其中,A,B,
Figure 151071DEST_PATH_IMAGE008
分别表示状态转移概率矩阵,初始状态概率向量,观测概率矩阵。
状态转移概率矩阵是一个n阶方阵,矩阵每一个值
Figure DEST_PATH_IMAGE030
表示从状态j转移到状态i的概率;
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
观测概率矩阵是一个N*M的矩阵,每一个值
Figure 32440DEST_PATH_IMAGE031
表示t时刻处于i状态下生成观测状态j的概率。
Figure 794859DEST_PATH_IMAGE016
(i)是t时刻生成的状态值,依据此状态再结合状态转移矩阵可以计算下一状态概率值。
Figure 710863DEST_PATH_IMAGE032
是t时刻生成的路径,i代表顺序,取t时刻各个i的最大值max(
Figure 634956DEST_PATH_IMAGE032
)即可的t时刻输出路径。
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
指标归类,采用预设规则模板对文本行检测,如果某行文本能够匹配指标标题模板则认定是某类指标开始部分,将其存到到数组中;如果不与标题模板匹配则认定是某类属于其余部分同样将其放到数组中;当所有文本行被处理后某一指标的所有信息包括指标标题、指标名称、指标定义信息已被归类到同一数组中。
指标信息结构化,按照预设的指标标题规则、指标中文名规则、指标英文名规则分别提取出相应字段;将其余文本全部记作指标定义,如此就实现了指标的结构化。对于其余指标采用相同方法处理直至所有指标处理完毕。
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S45.以分组为单位对二进制流进行处理,每一分组
Figure 269200DEST_PATH_IMAGE033
都是经一压缩函数
Figure 569731DEST_PATH_IMAGE034
处理;
S46.获取加密后的结果,结果是加密后的二进制文件。
基于神经网络和模板匹配的标准文件信息提取***,包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;将文字按照位置归类,在同一行上的文字归为同一类;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;如果某一数组成员与术语中文名、术语英文名相匹配分别提取为术语中文名、术语英文名字段;对于既不是术语标题也不是术语中英名称的部分将其归类为术语定义;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;创建浏览器超链接标签并将链接指向导出数据;模拟点击超链接实现导出;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
通过上述描述可以看出,本方案获取目标文件;将文件切片并转换成图片格式;选取感兴趣图片输入到预设ocr模型中得到图片中文本;将所得文本处理,包括文本位置归一化、文本替换,使得原文件中在同一行的文字数字化后仍在同一行;文本结构化,生成包括术语中文名、术语英文名、术语定义的结构化数据;数据导出,将所得结构化数据导出为excel文件;数据加密与上传,将标准文件以及数字化的指标文件上传至文件管理平台实现了标准文件处理的数字化,将传统手工录入改造成信息化处理。本发明提供的方法和***使用简单识别精准可明显提高指标录入的效率,可以部署在笔记本电脑、平板电脑以及手机上,在这些设备上使用都是合理的。
附图说明
图1为本发明具体实施方式的流程图。
图2为本发明具体实施方式***的示意图。
具体实施方式
下面将结合本发明具体实施方式中的附图,对本发明具体实施方式中的技术方案进行清楚、完整地描述,显然,所描述的具体实施方式仅仅是本发明一种具体实施方式,而不是全部的具体实施方式。基于本发明中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
通过附图1和2可以看出,本发明基于神经网络和模板匹配的标准文件信息提取方法,其包括如下步骤:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
Figure 340241DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE035
表示两向量夹角的余弦值,a和b是根据预测出的文字框两条水平线构成的向量,
Figure 435236DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
a和b的长度。
图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
基于连接预选框网络的文本检测模型(Detecting Text in Natural Image withConnectionist Text Proposal Network,DTPN)高校场景文字识别模型(An Efficientand Accurate Scene Text)识别文本位置及内容;表格结构预测模型识别表格结构;ocr识别模型采用crnn网络输入为一包含文字的图像,输出为图片中文字。文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
Figure 291197DEST_PATH_IMAGE002
·
Figure 395419DEST_PATH_IMAGE003
·
Figure 20435DEST_PATH_IMAGE004
式中,S是旋转矩阵
Figure 551911DEST_PATH_IMAGE005
分别是x轴、y轴方向上的缩放系数,
Figure 396632DEST_PATH_IMAGE038
是缩放点;
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
输入:模型
Figure 304545DEST_PATH_IMAGE007
(A,B,
Figure DEST_PATH_IMAGE039
)和观测矩阵O=(
Figure 784068DEST_PATH_IMAGE009
,...,
Figure 486445DEST_PATH_IMAGE010
)
输出:最优路径
Figure 316998DEST_PATH_IMAGE040
=(
Figure 763023DEST_PATH_IMAGE012
,...,
Figure 362631DEST_PATH_IMAGE013
)
(1)初始化
Figure 235909DEST_PATH_IMAGE014
...N
Figure 819337DEST_PATH_IMAGE015
(2)递推,对t= 2,3,...T
Figure 537895DEST_PATH_IMAGE016
(i)=max[
Figure 257589DEST_PATH_IMAGE017
Figure 301768DEST_PATH_IMAGE017
]
Figure 106913DEST_PATH_IMAGE018
(
Figure 894741DEST_PATH_IMAGE019
)(1
Figure 468942DEST_PATH_IMAGE020
),i=1,2,...N
Figure 182557DEST_PATH_IMAGE021
(1
Figure 209419DEST_PATH_IMAGE020
),i=1,2,...N
(3)终止
Figure 66517DEST_PATH_IMAGE023
Figure 229645DEST_PATH_IMAGE041
(1
Figure 881206DEST_PATH_IMAGE025
)
(4)最优路径回溯,对t=T-1,T-2,...1,有
Figure 395364DEST_PATH_IMAGE026
=
Figure 524994DEST_PATH_IMAGE027
因此求得最优路径
Figure 808208DEST_PATH_IMAGE011
= (
Figure 896250DEST_PATH_IMAGE028
Figure 632124DEST_PATH_IMAGE029
) 。
A,B,
Figure 565445DEST_PATH_IMAGE042
分别表示状态转移概率矩阵,初始状态概率向量,观测概率矩阵。
状态转移概率矩阵是一个n阶方阵,矩阵每一个值
Figure 968745DEST_PATH_IMAGE043
表示从状态j转移到状态i的概率;
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
观测概率矩阵是一个N*M的矩阵,每一个值
Figure 696530DEST_PATH_IMAGE044
表示t时刻处于i状态下生成观测状态j的概率。
Figure DEST_PATH_IMAGE045
是初始状态概率向量中的一个元素;
其中
Figure 919700DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
分别代表矩阵A、
Figure 391133DEST_PATH_IMAGE048
的元素;
O表示输入到观测序列,
Figure DEST_PATH_IMAGE049
表示观测序列中的一个字符,在这里可以是图片中包含的文字序列。
max—最大值函数,对一组序列取其中最大值部分;
Figure 912306DEST_PATH_IMAGE050
—取得最大值函数的参数,即参数取何值时能获取最大值;
Figure DEST_PATH_IMAGE051
(i)是t时刻生成的状态值,依据此状态再结合状态转移矩阵可以计算下一状态概率值。
Figure 545412DEST_PATH_IMAGE052
是t时刻生成的路径,i代表顺序,取t时刻各个i的最大值
Figure DEST_PATH_IMAGE053
即可的t时刻输出路径。
Figure 255879DEST_PATH_IMAGE054
表示求得的最优路径的概率;
Figure DEST_PATH_IMAGE055
表示输出的最优路径序列;
Figure 265424DEST_PATH_IMAGE056
表示T时刻选择的最优路径上的节点。
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。将导出目标文件和标准文件的结构化数据上传至指标信息管理***。标准文件管理平台存放该加密文件的方式包括:在接收到加密文件后,采用预设的解密算法对该文件解密,得到解密后的文件。数据的显示包括web表格组件,组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的,不局限于某一具体组件。
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密算法可包括多种,不限于下面一种,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S45.以分组为单位对二进制流进行处理,每一分组
Figure DEST_PATH_IMAGE057
都是经一压缩函数
Figure 377736DEST_PATH_IMAGE058
处理;其中,MD是保存中间结果和最终计算哈希值的内存存储单元;每一分组
Figure DEST_PATH_IMAGE059
是文件按照预先设置文件块尺寸分割出的子文件;
Figure 916165DEST_PATH_IMAGE060
是加密函数;
S46.获取加密后的结果,结果是加密后的二进制文件。
对于某一指标信息标题可能是二级标题或三级标题,此时应根据预设置选择合适规则模板识别具体指标。对于标题与术语名不在同一行时,检验规则模板匹配结果长度是否某行输入文本长度相等,若相等即为术语开始部分;若不相等为术语其余部分。标题与术语名不在同一行时按照需要分两种情况:提取二级标题和一级标题,分别选择相应规则模板如果内容匹配规则模板则提取为术语开始部分。将结构化的数据显示并提供数据编辑、数据添加/删除功能,数据的显示包括一web表格组件,组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的,不局限于某一具体组件。
基于神经网络和模板匹配的标准文件信息提取***,包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
本发明的方案获取目标文件;将文件切片并转换成图片格式;选取感兴趣图片输入到预设ocr模型中得到图片中文本;将所得文本处理,包括文本位置归一化、文本替换,使得原文件中在同一行的文字数字化后仍在同一行;文本结构化,生成包括术语中文名、术语英文名、术语定义的结构化数据;数据导出,将所得结构化数据导出为excel文件;数据加密与上传,将标准文件以及数字化的指标文件上传至文件管理平台。
尽管已经示出和描述了本发明的具体实施方式,对于本领域的普通技术人员而言,可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.基于神经网络和模板匹配的标准文件信息提取方法,其特征在于包括如下步骤:
S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。
2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。
3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
4.根据权利要求3所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:
Figure 695135DEST_PATH_IMAGE001
5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
6.根据权利要求2或5所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:
Figure 744256DEST_PATH_IMAGE002
·
Figure 976654DEST_PATH_IMAGE003
·
Figure 217143DEST_PATH_IMAGE004
式中,S是旋转矩阵
Figure 167781DEST_PATH_IMAGE005
分别是x轴、y轴方向上的缩放系数,
Figure DEST_PATH_IMAGE006
是缩放点;
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,
输入:模型
Figure 519128DEST_PATH_IMAGE007
(A,B,
Figure 606033DEST_PATH_IMAGE008
)和观测矩阵O = (
Figure 283002DEST_PATH_IMAGE009
,...,
Figure 455357DEST_PATH_IMAGE010
)
输出:最优路径
Figure 610395DEST_PATH_IMAGE011
=(
Figure 551806DEST_PATH_IMAGE012
,...,
Figure 399677DEST_PATH_IMAGE013
)
(1)初始化
Figure 793749DEST_PATH_IMAGE014
...N
Figure 18057DEST_PATH_IMAGE015
(2)递推,对t = 2,3,...T
Figure 312510DEST_PATH_IMAGE016
(i) = max[
Figure 596861DEST_PATH_IMAGE017
]
Figure 743808DEST_PATH_IMAGE018
(
Figure 240649DEST_PATH_IMAGE019
)(1
Figure 156652DEST_PATH_IMAGE020
),i = 1,2,...N
Figure 346325DEST_PATH_IMAGE021
(1
Figure 980568DEST_PATH_IMAGE020
),i = 1,2,...N
(3)终止
Figure 281100DEST_PATH_IMAGE022
Figure 51610DEST_PATH_IMAGE023
(1
Figure 412184DEST_PATH_IMAGE024
)
(4)最优路径回溯,对t=T-1,T-2,...1,有
Figure 533724DEST_PATH_IMAGE025
=
Figure 372367DEST_PATH_IMAGE026
因此求得最优路径
Figure 262962DEST_PATH_IMAGE011
= (
Figure 794438DEST_PATH_IMAGE027
,
Figure 137694DEST_PATH_IMAGE028
),
其中,A,B,
Figure 45608DEST_PATH_IMAGE008
分别表示状态转移概率矩阵,初始状态概率向量,观测概率矩阵,
状态转移概率矩阵是一个n阶方阵,矩阵每一个值
Figure 790710DEST_PATH_IMAGE029
表示从状态i转移到状态j的概率;
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
观测概率矩阵是一个N*M的矩阵,每一个值
Figure 758666DEST_PATH_IMAGE030
表示t时刻处于i状态下生成观测状态j的概率,
Figure 825104DEST_PATH_IMAGE016
(i)是t时刻生成的状态值,依据此状态再结合状态转移矩阵可以计算下一状态概率值,
Figure 5550DEST_PATH_IMAGE031
是t时刻生成的路径,i代表顺序,取t时刻各个i的最大值max(
Figure 870737DEST_PATH_IMAGE032
)即可的t时刻输出路径。
7.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
8.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,
导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密时:
S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S45.以分组为单位对二进制流进行处理,每一分组
Figure 9595DEST_PATH_IMAGE033
都是经一压缩函数
Figure 61864DEST_PATH_IMAGE034
处理;
S46.获取加密后的结果,结果是加密后的二进制文件。
9.基于神经网络和模板匹配的标准文件信息提取***,其特征在于包括:
文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。
CN202210732053.7A 2022-06-27 2022-06-27 基于神经网络和模板匹配的标准文件信息提取方法及*** Active CN114842483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210732053.7A CN114842483B (zh) 2022-06-27 2022-06-27 基于神经网络和模板匹配的标准文件信息提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210732053.7A CN114842483B (zh) 2022-06-27 2022-06-27 基于神经网络和模板匹配的标准文件信息提取方法及***

Publications (2)

Publication Number Publication Date
CN114842483A true CN114842483A (zh) 2022-08-02
CN114842483B CN114842483B (zh) 2023-11-28

Family

ID=82574823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210732053.7A Active CN114842483B (zh) 2022-06-27 2022-06-27 基于神经网络和模板匹配的标准文件信息提取方法及***

Country Status (1)

Country Link
CN (1) CN114842483B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、***、存储介质及设备
CN115775391A (zh) * 2022-11-08 2023-03-10 北京博望华科科技有限公司 一种企业财务信息处理方法、***及计算机储存介质
CN115859380A (zh) * 2023-02-28 2023-03-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证关联方法
CN116628128A (zh) * 2023-07-13 2023-08-22 湖南九立供应链有限公司 一种供应链数据标准化方法、装置、设备及其存储介质
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和***
CN118210879A (zh) * 2024-05-20 2024-06-18 北京译图智讯科技有限公司 一种基于大语言模型的关键信息抽取方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법
CN109766898A (zh) * 2018-12-26 2019-05-17 平安科技(深圳)有限公司 图像文字识别方法、装置、计算机设备及存储介质
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、***及介质
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN114328845A (zh) * 2022-03-15 2022-04-12 北京译图智讯科技有限公司 一种文档图像关键信息自动结构化方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN109766898A (zh) * 2018-12-26 2019-05-17 平安科技(深圳)有限公司 图像文字识别方法、装置、计算机设备及存储介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、***及介质
CN114328845A (zh) * 2022-03-15 2022-04-12 北京译图智讯科技有限公司 一种文档图像关键信息自动结构化方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
杨恒杰;闫铮;邬宗玲;方定邦;段放;: "基于循环神经网络的图像特定文本抽取方法", 激光与光电子学进展, no. 24 *
林金朝;蔡元奇;庞宇;杨鹏;张焱杰;: "基于空间变换密集卷积网络的图片敏感文字识别", 计算机***应用, no. 01 *
王逸铭;于永洲;孙光峤;: "基于神经网络模型的扫描电镜图像字符识别方法", 制造业自动化, no. 07 *
黄胜;王博博;朱菁;: "基于文档结构与深度学习的金融公告信息抽取", 计算机工程与设计, no. 01 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、***、存储介质及设备
CN115775391A (zh) * 2022-11-08 2023-03-10 北京博望华科科技有限公司 一种企业财务信息处理方法、***及计算机储存介质
CN115859380A (zh) * 2023-02-28 2023-03-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证关联方法
CN116628128A (zh) * 2023-07-13 2023-08-22 湖南九立供应链有限公司 一种供应链数据标准化方法、装置、设备及其存储介质
CN116628128B (zh) * 2023-07-13 2023-10-03 湖南九立供应链有限公司 一种供应链数据标准化方法、装置、设备及其存储介质
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和***
CN117094304B (zh) * 2023-10-18 2024-01-23 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和***
CN118210879A (zh) * 2024-05-20 2024-06-18 北京译图智讯科技有限公司 一种基于大语言模型的关键信息抽取方法及***
CN118210879B (zh) * 2024-05-20 2024-07-16 北京译图智讯科技有限公司 一种基于大语言模型的关键信息抽取方法及***

Also Published As

Publication number Publication date
CN114842483B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN114842483B (zh) 基于神经网络和模板匹配的标准文件信息提取方法及***
Matsui et al. Sketch-based manga retrieval using manga109 dataset
US9710704B2 (en) Method and apparatus for finding differences in documents
EP1580666A2 (en) Method and apparatus for populating electronic forms from scanned documents
CN113378710B (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113901006B (zh) 大规模基因测序数据存储与查询***
JP4227432B2 (ja) 画像処理方法
WO2007023993A1 (en) Data organization and access for mixed media document system
Haque et al. Byte embeddings for file fragment classification
JP2005151127A5 (zh)
US20230138491A1 (en) Continuous learning for document processing and analysis
US11995889B2 (en) Cognitive generation of HTML pages based on video content
CN113887191A (zh) 文章的相似性检测方法及装置
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN116932499B (zh) 一种dwg格式文件批量修改标注的方法
CN116484833A (zh) 文档解析方法及装置
Suryawanshi Image Recognition: Detection of nearly duplicate images
JP2006134042A (ja) 画像処理システム
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2004334340A (ja) 画像処理方法及び装置
Sayyafzadeh et al. Forensic Analysis of Contents in Thumbnails Using Transfer Learning
CN116318985B (zh) 一种基于大数据的计算机网络安全预警***及方法
CN114692573A (zh) 文本结构化处理方法、装置、计算机设备、介质和产品
Prathima et al. A Novel Framework for Handling Duplicate Images using Hashing Techniques
CN116975363A (zh) 视频标签生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant