CN114842483A

CN114842483A - 基于神经网络和模板匹配的标准文件信息提取方法及***

Info

Publication number: CN114842483A
Application number: CN202210732053.7A
Authority: CN
Inventors: 周鸣乐; 蔡明�; 李刚; 李敏
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-08-02
Anticipated expiration: 2042-06-27
Also published as: CN114842483B

Abstract

本发明涉及计算机和标准化领域，本发明的基于神经网络和模板匹配的标准文件信息提取方法及***，包括：S1.获取目标识别图片，将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本；S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配，将某一指标同类信息归类后用一个数组存储；S3.将归类后的数组结构化，形成结构化数据并存储；S4.根据所述规则模板和结构化的文本数据，将结构化后的文本数据使用一个表格组件显示。本方案将不可编辑的pdf文件数字化从而形成计算机可处理的结构化数据，实现了标准文件处理的信息化，极大减少了人工录入成本提高了效率。

Description

基于神经网络和模板匹配的标准文件信息提取方法及***

技术领域

本发明涉及计算机和标准化领域，具体涉及一种将不可编辑的pdf格式标准文件数字化以及提取其中关键指标信息的方法和***。

背景技术

国家标准指导文件简称标准文件，是规定各项技术实施标准、确定各项产品生产规格的指导性文件。标准文件大多是不可编辑的pdf格式，虽然防止了文件内容被篡改但也带来了文件内容提取的不便。以往标准文件的录入主要依靠人力手工录入，处理效率低、工作内容繁琐、信息化程度低等缺点亟待解决。当前，计算机技术特别是人工智能技术蓬勃发展，引领新一轮产业革命。其中光学字符识别技术可以将图片中文字识别成文本，为标准文件的处理引入信息化技术提供了技术保障。

发明内容

针对上述问题，本发明提供了基于神经网络和模板匹配的标准文件信息提取方法及***，将标准文件数字化为可编辑的结构化数据，实现了管理人员快捷提取标准文件关键指标信息的目的。

本发明提供如下技术方案：基于神经网络和模板匹配的标准文件信息提取方法，包括如下步骤：

S1.获取目标识别图片，将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本，其中关键指标信息包括指标中文名、指标英文名、指标定义信息；

S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配，将某一指标同类信息归类后用一个数组存储；

S3.将归类后的数组结构化，将结果数据组按照术语标题、术语中文名、术语英文名、术语分类，形成结构化数据并存储；

S4.根据所述规则模板和结构化的文本数据，将结构化后的文本数据使用一个表格组件显示，所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能，所述excel文件导出模块，将导出目标文件和标准文件的结构化数据上传至指标信息管理***。

所述的目标为pdf文件，将目标pdf文件拆分成多页图片，得到多张可选目标图片，图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件；将若干个子文件转为png格式高清图片。选取若干若干感兴趣图片输入到预设ocr模型中识别图片中文字，所述文字包括待提取指标信息和冗余文字。

在步骤S1中，将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字，遍历识别后的每一行文字，将两两位置余弦夹角小于设定阈值的文字归为同一行，两向量余弦夹角计算公式为:

。

图片只应包含待识别文本，对于与本次识别无关的文字、表格均不应包含在内；若某一指标一张图无法完全包括全部内容则应将超出部分单独识别；对于表格结构重建所截图部分只应包含表格，对于多个表格如果一张图能完全覆盖那么可以放在一张图中，如果不能覆盖则必须分多次提取。

文字识别具体步骤包括：

S11.图像归一化，固定图像宽度不变，将高度缩放为32像素，其中图像的缩放计算公式为：

·

·

式中，S是旋转矩阵，

分别是x轴、y轴方向上的缩放系数，

是缩放点；

S12.获取特征图，使用卷积神经网络将图像处理成512通道数的特征图；

S13.将特征图转为维度为512的特征向量；

S14.将特征输入到BiLSTM模型中，对每一个特征向量预测出相应标签分布向量；

S15.使用条件随机场(Conditional Random Field,CRF)模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算，过程如下，

输入：模型

(A,B,

)和观测矩阵O = (

,...,

)

输出：最优路径

=(

,...,

)

(1)初始化

...N

(2)递推，对t = 2,3,...T

(i) = max[

]

(

)(1

),i = 1,2,...N

(1

),i=1,2,...N

(3)终止

(1

)

(4)最优路径回溯，对t=T-1,T-2,...1，有

=

因此求得最优路径

= (

,

) 。

其中，A，B，

分别表示状态转移概率矩阵，初始状态概率向量，观测概率矩阵。

状态转移概率矩阵是一个n阶方阵，矩阵每一个值

表示从状态j转移到状态i的概率；

初始状态概率向量是一个n*1的向量，向量的每一列值表示初始时每个可能状态概率大小；

观测概率矩阵是一个N*M的矩阵，每一个值

表示t时刻处于i状态下生成观测状态j的概率。

(i)是t时刻生成的状态值，依据此状态再结合状态转移矩阵可以计算下一状态概率值。

是t时刻生成的路径，i代表顺序，取t时刻各个i的最大值max(

)即可的t时刻输出路径。

步骤S2中，遍历识别结果的每一行，根据预设定的规则模板匹配如果该行与规则匹配，则将该行加入数组，指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。

指标归类，采用预设规则模板对文本行检测，如果某行文本能够匹配指标标题模板则认定是某类指标开始部分，将其存到到数组中；如果不与标题模板匹配则认定是某类属于其余部分同样将其放到数组中；当所有文本行被处理后某一指标的所有信息包括指标标题、指标名称、指标定义信息已被归类到同一数组中。

指标信息结构化，按照预设的指标标题规则、指标中文名规则、指标英文名规则分别提取出相应字段；将其余文本全部记作指标定义，如此就实现了指标的结构化。对于其余指标采用相同方法处理直至所有指标处理完毕。

导出为excel格式文件时，将数组转为excel文件所需sheet格式，将sheet转换成Blod二进制流，进行加密传输，加密时：

S41.以二进制方式读取文件流；

S42.长度填充，使得比特长在模512下为448，即填充后的二进制位数为512的某一倍数减64；

S43.文件信息填充，步骤S2中空余的64比特位用于记录文件信息；

S44.初始化MD缓存区，使用128比特长的缓存区存储中间结果和最终哈希值；

S45.以分组为单位对二进制流进行处理，每一分组

都是经一压缩函数

处理；

S46.获取加密后的结果，结果是加密后的二进制文件。

基于神经网络和模板匹配的标准文件信息提取***，包括：

文件读取模块，从若干待选文件中选择感兴趣文件读取到字节数组中；

文字识别模块，将选中文件输入到预设ocr模型中识别出图片中关键信息，所述关键信息包括术语标题、术语英文名、术语中文名、术语定义；

位置归一化模块，将识别出的文本按照位置信息归类，对于某一文本框将右上角和右下角两点位置求得一向量，对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中；将文字按照位置归类，在同一行上的文字归为同一类；

指标分类模块，依次读取识别识别文字的每一行，若某行与预设术语开始部分规则模板匹配则认定为术语开始部分，将其加入到数组；如果不匹配则认定为术语其余部分将其与该术语开始部分合并；

指标结构化模块，遍历分类后的数组，如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取；如果某一数组成员与术语中文名、术语英文名相匹配分别提取为术语中文名、术语英文名字段；对于既不是术语标题也不是术语中英名称的部分将其归类为术语定义；

数据显示模块，设置表格数据tableData，设置表格各列以及各列数据;设置表格高度以及表格边框，将结构化后的数据以表格形式显示，另外，对于识别并处理后的数据可能出现字符识别错误或归类错误，本模块实现了结果重编辑功能将错误更正；

文件导出模块，确认无误的结果通过本模块导出为excel或json文件，导出的文件可以二次编辑、复制、打印；创建浏览器超链接标签并将链接指向导出数据；模拟点击超链接实现导出；

表格识别模块，将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。

通过上述描述可以看出，本方案获取目标文件；将文件切片并转换成图片格式；选取感兴趣图片输入到预设ocr模型中得到图片中文本；将所得文本处理，包括文本位置归一化、文本替换，使得原文件中在同一行的文字数字化后仍在同一行；文本结构化，生成包括术语中文名、术语英文名、术语定义的结构化数据；数据导出，将所得结构化数据导出为excel文件；数据加密与上传，将标准文件以及数字化的指标文件上传至文件管理平台实现了标准文件处理的数字化，将传统手工录入改造成信息化处理。本发明提供的方法和***使用简单识别精准可明显提高指标录入的效率，可以部署在笔记本电脑、平板电脑以及手机上，在这些设备上使用都是合理的。

附图说明

图1为本发明具体实施方式的流程图。

图2为本发明具体实施方式***的示意图。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式。基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

通过附图1和2可以看出，本发明基于神经网络和模板匹配的标准文件信息提取方法，其包括如下步骤：S1.获取目标识别图片，将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本，其中关键指标信息包括指标中文名、指标英文名、指标定义信息；

所述的目标为pdf文件，将目标pdf文件拆分成多页图片，得到多张可选目标图片，图片为png格式或jpg格式。将pdf文件按页拆分为若干个子文件；将若干个子文件转为png格式高清图片。

将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字，遍历识别后的每一行文字，将两两位置余弦夹角小于设定阈值的文字归为同一行，两向量余弦夹角计算公式为:

。

其中

表示两向量夹角的余弦值，a和b是根据预测出的文字框两条水平线构成的向量，

和

a和b的长度。

图片包含待识别文本，与识别无关的文字、表格均不应包含在内；若某一指标一张图无法完全包括全部内容则应将超出部分单独识别；对于表格结构重建所截图部分只应包含表格，对于多个表格如果一张图能完全覆盖那么可以放在一张图中，如果不能覆盖则必须分多次提取。

基于连接预选框网络的文本检测模型（Detecting Text in Natural Image withConnectionist Text Proposal Network，DTPN）高校场景文字识别模型(An Efficientand Accurate Scene Text)识别文本位置及内容；表格结构预测模型识别表格结构；ocr识别模型采用crnn网络输入为一包含文字的图像，输出为图片中文字。文字识别具体步骤包括：

·

·

式中，S是旋转矩阵，

分别是x轴、y轴方向上的缩放系数，

是缩放点；

S13.将特征图转为维度为512的特征向量；

S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算，过程如下，

输入：模型

(A,B,

)和观测矩阵O=(

,...,

)

输出：最优路径

=(

,...,

)

(1)初始化

...N

(2)递推，对t= 2,3,...T

(i)=max[

]

(

)(1

),i=1,2,...N

(1

),i=1,2,...N

(3)终止

(1

)

(4)最优路径回溯，对t=T-1,T-2,...1，有

=

因此求得最优路径

= (

，

) 。

A，B，

状态转移概率矩阵是一个n阶方阵，矩阵每一个值

表示从状态j转移到状态i的概率；

观测概率矩阵是一个N*M的矩阵，每一个值

表示t时刻处于i状态下生成观测状态j的概率。

是初始状态概率向量中的一个元素；

其中

和

分别代表矩阵A、

的元素；

O表示输入到观测序列，

表示观测序列中的一个字符，在这里可以是图片中包含的文字序列。

max—最大值函数，对一组序列取其中最大值部分；

—取得最大值函数的参数，即参数取何值时能获取最大值；

是t时刻生成的路径，i代表顺序，取t时刻各个i的最大值

即可的t时刻输出路径。

表示求得的最优路径的概率；

表示输出的最优路径序列；

表示T时刻选择的最优路径上的节点。

S3.将归类后的数组结构化，将结果数据组按照术语标题、术语中文名、术语英文名、术语分类，形成结构化数据并存储；S4.根据所述规则模板和结构化的文本数据，将结构化后的文本数据使用一个表格组件显示，所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。将导出目标文件和标准文件的结构化数据上传至指标信息管理***。标准文件管理平台存放该加密文件的方式包括：在接收到加密文件后，采用预设的解密算法对该文件解密，得到解密后的文件。数据的显示包括web表格组件，组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的，不局限于某一具体组件。

导出为excel格式文件时，将数组转为excel文件所需sheet格式，将sheet转换成Blod二进制流，进行加密传输，加密算法可包括多种，不限于下面一种，加密时：

S41.以二进制方式读取文件流；

S45.以分组为单位对二进制流进行处理，每一分组

都是经一压缩函数

处理；其中，MD是保存中间结果和最终计算哈希值的内存存储单元；每一分组

是文件按照预先设置文件块尺寸分割出的子文件；

是加密函数；

S46.获取加密后的结果，结果是加密后的二进制文件。

对于某一指标信息标题可能是二级标题或三级标题，此时应根据预设置选择合适规则模板识别具体指标。对于标题与术语名不在同一行时，检验规则模板匹配结果长度是否某行输入文本长度相等，若相等即为术语开始部分；若不相等为术语其余部分。标题与术语名不在同一行时按照需要分两种情况：提取二级标题和一级标题，分别选择相应规则模板如果内容匹配规则模板则提取为术语开始部分。将结构化的数据显示并提供数据编辑、数据添加/删除功能，数据的显示包括一web表格组件，组件具有全选/部分选中、添加/删除一行、编辑数据功能。对该表格叙述是功能性的，不局限于某一具体组件。

基于神经网络和模板匹配的标准文件信息提取***，包括：

位置归一化模块，将识别出的文本按照位置信息归类，对于某一文本框将右上角和右下角两点位置求得一向量，对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中；

指标结构化模块，遍历分类后的数组，如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取；

文件导出模块，确认无误的结果通过本模块导出为excel或json文件，导出的文件可以二次编辑、复制、打印；

本发明的方案获取目标文件；将文件切片并转换成图片格式；选取感兴趣图片输入到预设ocr模型中得到图片中文本；将所得文本处理，包括文本位置归一化、文本替换，使得原文件中在同一行的文字数字化后仍在同一行；文本结构化，生成包括术语中文名、术语英文名、术语定义的结构化数据；数据导出，将所得结构化数据导出为excel文件；数据加密与上传，将标准文件以及数字化的指标文件上传至文件管理平台。

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。