CN116343237A

CN116343237A - 基于深度学习和知识图谱的票据识别方法

Info

Publication number: CN116343237A
Application number: CN202110883236.4A
Authority: CN
Inventors: 何坚; 杨洺; 余立
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-06-27

Abstract

基于深度学习和知识图谱的票据识别方法属于电子信息领域。***由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标，然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的文字进行预测，获得文本信息，同时将文本信息传输给关键信息提取模块。最后，关键信息提取模块根据文字的位置信息和对应文本信息预测出该文字片段所属的实体类别，并借助于票据知识图谱提炼票据中***编号、公司名称等关键信息与企查查等Web检索中获得的公司名称、地名等信息进行矫正和适配，进而提高票据识别的准确率。

Description

基于深度学习和知识图谱的票据识别方法

技术领域

本发明属于电子信息领域，是一种基于深度学习和知识图谱的OCR技术、应用于各类票据(***，火车票等)的结构化识别。

背景技术

传统财务***中原始票据需要财务人员手工录入，耗费工作人员大量时间和精力，并且容易发生录入错误。基于计算机视觉的文本检测识别技术发展为票据结构化识别提供了技术基础。但现有的方法只能识别出票据图像上的文字，但是无法理解文字的语义信息，因此，无法将识别的文字结构化。此外，真实票据图像存在打印墨迹过淡、文字位置偏移等现象，会导致文字检测查全率低和识别准确率低等问题。近年来文本检测识别和关键信息提取技术结合为上述问题的提供了新方法。采用关键信息提取方法对票据中的文字进行筛选，选出所关心的文本片段，并识别出该文本片段的实体属性(例如，增值税***中具有票号、抬头、纳税人、开票日期、金额等实体)。这些实体及相互之间的关系为票据的结构化识别提供了基础。此外，知识图谱可以高效地表示现实世界中实体与实体间的关系。因此，本发明引入知识图谱针对票据中的结构化和非结构化数据建模，并结合深度学习算法实现票据文字的准确检测识别与结构化解析。

发明内容

本发明针对传统票据识别方法存在的缺点，设计了基于深度学习的票据结构化识别技术。***由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标，然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的文字进行预测，获得文本信息，同时将文本信息传输给关键信息提取模块。最后，关键信息提取模块根据文字的位置信息和对应文本信息预测出该文字片段所属的实体类别，并借助于票据知识图谱提炼票据中***编号、公司名称等关键信息与企查查等Web检索中获得的公司名称、地名等信息进行矫正和适配，进而提高票据识别的准确率。本发明所涉及主要工作如下：

(1)如图1所示，设计了集成文字检测模块、文字识别模块、关键信息提取模块和使用知识图谱建模及纠错模块的票据结构化识别***。

(2)增加了***去除和图像对齐等预处理步骤，提高了模型检测和识别的准确率。

(3)为了使字间隔稍大的文本片段较准确地归入到一个文本框中，设计并应用基于竖直方向IOU和横向距离的文本框合并算法。

(4)设计了基于神经网络的关键信息提取流程。

(5)设计了基于知识图谱的识别误差校正流程。

典型的票据识别方法常常采用模板匹配的方法，对某种固定模板的票据以人工设定规则的方式确定关键区域的空间位置，然后通过文字识别算法提取对应的文字信息。但这种方法仍存在以下问题：生活中的纸质***大多在固定的票据模板上将关键信息进行二次打印，而不是一次打印就能生成完整的票据，所以存在二次打印的文字位置偏移问题。使用这种模板匹配的方法会经常丢失文字信息或匹配到错误的信息。

如果在票据识别过程中出现上述的文字位置偏移情况，则会严重影响票据识别的效果。所以本发明在前人研究成果基础上，结合并改进了基于卷积神经网络的文字检测算法，基于卷积神经网络和长短期记忆的文字识别算法，基于图卷积网络的关键信息提取算法。此外，对文字检测算法添加一个后处理步骤，将语义相近的两个文本片段合并到一个文本框中。还使用了知识图谱技术对识别有误的文字进行矫正，增加了识别的准确率。

本发明以真实的火车票、增值税***等票据的图像作为输入数据，实现对票据内容的结构化输出，具体步骤如下所示：

(1)构建票据知识图谱

针对各种票据以及该类票据的各关键字段建立合理的模型，以达到结构化输出和识别后纠错的目的。

(2)模板对齐

对真实***图片与预先构建好的空白***模板同时提取图像特征，根据特征点的特征描述进行特征点匹配，根据随机采样一致性原则计算得到最优变换矩阵，对***图片进行对应的仿射变换，使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。模板对齐示例见图2。

(3)纸质图像预处理

对纸质图像进行二值化，降噪处理，以提高后续检测和识别的准确率。

(4)***去除

使用阈值分割技术去除***图像中的红色***，防止***影响识别结果。

(5)文本检测

对该图像使用卷积神经网络提取特征，根据特征对每个位置进行预测该位置含有字符的概率，获取到每个文本片段在图中的位置信息。

(6)文字识别

然后将图片根据上述步骤获得的坐标进行剪裁，获取到文本区域的图片，将这些图片使用深度学习的方法预测出序列中的文字。

(7)关键信息提取

使用基于深度学习的方法，根据文本片段的位置信息和语义信息识别出该文本片段属于知识图谱中的哪个实体。

(8)使用知识图谱数据库对识别内容进行纠错

将识别后的关键文本与知识图谱中的实体匹配，通过检查识别内容是否满足该实体的共性特征、是否与实例库相匹配来确定识别内容是否正确，若不正确，使用某种规则将其更正。

发明难点

(1)现有针对票据的识别方法准确率不高，识别出结果后仍需人工复检，不足以满足全自动录入的需求。如何解决这一问题，是该领域一个难点。本发明设计了一种基于知识图谱票据识别纠错技术，可以提高票据识别准确率，甚至可以保证某些关键字段识别100％正确，可以满足全自动录入的需求。

(2)如何有效的预处理也是一个难点，本发明设计了一种新的去***方法，可以解决现有方法去除***后会降低识别准确率的问题。本发明将图像对齐算法加入到票据识别流程中，有效解决了票据褶皱，拍摄角度倾斜等现象对文字检测与识别造成干扰的问题。

(3)设计了针对票据的文本检测技术，难点在于对票据图像中大小文本区域的准确预测，同时也要保证低延迟要求。

附图说明

图1本发明的***结构示意图

图2模板对齐示例图

图3票据图像文本区域检测模块示意图

图4***去除流程图

具体实施方式

本发明核心算法

(1)票据文本检测网络RTDNN架构

票据文本检测网络(Receipt Text Detection Neural Networks)的核心思想是将一个character视为一个待检测的目标对象，而不是一个word(由character构成)，即不把文本框当作目标。它先检测单个字符(character region score)及字符间的连接关系(affinity score)，然后根据字符间的连接关系确定最终的文本行。使用这样的方式，不需要改变感受野的尺寸，只需要关注字符级别的内容而不需要关注整个文本行。可以更好的适用于不同大小和不同长度的票据文本。

模型结构分为3个部分。第一部分是Input端。第2部分是Backbone网络，该部分负责提取图片特征。第3部分是Prediction预测模块，该模块输出一个Region score图，用于预测各像素点处于字符中心的概率。3个部分的详细描述如下：

1)Input输入端，首先在输入神经网络时，先经过一个5*5*64，步长stride＝2的卷积层，再经过一个3*3，stride＝2的最大池化层max pool。

2)Backbone骨干网络，Backbone骨干网络借鉴了残差网络(ResNet)的思想，由4组卷积模块组成，各模块细节如下：

其中，structure中各项含义为:宽*高*通道数。

本发明设计的神经网络中所有的激活函数均采用Leaky_relu。该函数在输入值为负数时也具有小的正斜率，可以进行反向传播。本发明设计的Backbone骨干网络借鉴了卷积神经网络中经典的网络框架和优秀的网络设计思路，在保证高效提取图像特征的同时，可大幅度减少运算时间。

3)Prediction预测模块,该模块由1层平均池化层average pool和4层Conv构成。最终输出一个h*w*1的Region score map。Region score map表示该点是文字中心的概率。

本发明还设计了一种针对票据图像的文本框生成算法，该算法是以得到的Regionscore map为基础，通过设置阈值和计算IOU的方式得出最终的票据图像文本检测框。该算法详细介绍如下：

首先，在Regions score map中筛选出得分大于等于0.9的像素点，将这些点形成的集合记为S1。然后使用广度优先遍历的方式，将与集合S1相邻且得分大于0.6的点加入到S1中。计算出S1中每个孤立区域的最大外接矩形，然后通过如下方式合并属于同一个文本段的文本框：若两个文本框在竖直方向上的IOU大于等于0.8且水平距离小于30px，则将两个文本框合并为一个。生成的矩形框即为票据图像的文本检测结果。

(2)***去除算法

本发明设计了一种***去除算法。该算法流程如图4所示。算法的详细步骤如下：

1.将RGB图像映射到HSV空间，以便于更准确的提取图片中的红色区域。

计算公式如下：

Cmax＝max(R′,G′,B′)

Cmin＝min(R′,G′,B′)

Δ＝Cmax-Cmin

V＝Cmax

其中，R，G，B分别为票据图像R通道、G通道、B通道的像素值，经过如上步骤将其映射到HSV空间。H为色调，S为饱和度，V为明度。

2.红色在HSV空间的值域为[0,43,46]～[10,255,255]∪[156,43,46]～[180,255,255]，遍历整张图片，属于该值域的点的值设置为255，不属于该值域的点的值设为0。然后对此图片先腐蚀后膨胀，腐蚀是用于去除噪点，膨胀用于扩大扩大红色的范围，防止红色被遗漏。将获得的此图片记为Mask1。

3.提取票据图像R通道的图，将大于阈值(160)的像素点置为255，小于阈值的像素点置为0，得到图Mask2。

4.生成图像Mask，Mask中像素值计算方式如下：若该位置在Mask1和Mask2中对应的像素值都为255，则该点的值为255，否则为0。

5.遍历原始的票据图像，如果该位置在Mask中的值为255，则将该位置的RGB值设置为(255，255，255)。至此，红色***被去除。

本方法先将图像转化到HSV空间再提取红色，然后使用腐蚀膨胀的操作获取了***的大致区域。仅仅对这个区域做阈值分割，不会影响其它位置，与仅使用阈值分割的方式相比，大大降低了阈值分割对ocr的不利影响，提高了识别的准确率。

(3)基于CRNN和ACE的文字识别算法

架构如图5中票据文字识别网络模块所示。票据图像的文本识别网络中，首先对票据文本区域图像进行预处理，使数据更加规范，然后将处理后的图像输入到票据图像特征提取网络对票据图像的文本特征进行序列化编码，最后将序列化的编码通过字符识别器进行解码得到票据图像的文本识别结果。

本发明将采用聚合交叉熵(Aggregation Cross-Entropy，ACE)算法对票据文本的特征序列进行解码，以实现对票据图像文本的识别。经过上一步，会有T个时间步长的输出。经过如下四步，得到最终的交叉熵：

1)对全部时间步长的第k类字符的概率求和，得到y_k:

2)对y_k标准化：

3)设模型预测

的标注为N,标准化N:

4)计算ACE的Loss：

其中C_k为字符C的出现次数。

本算法解决了CTC算法计算过程非常复杂且耗时的问题，而且该算法不像注意机制依赖于复杂的注意力模块来实现其功能，所以不需要产生额外的网络参数，该算法为本发明解码票据图像文本特征序列提供了非常大的帮助。

(4)基于知识图谱的票据ocr结果纠错技术

本发明设计了一种文本纠错方法，详细的流程如图4所示。若某实体的ocr结果与知识图谱数据库中的数据不匹配，则判定该实体识别有误，针对识别有误的实体使用两个分支处理：

分支1：对该实体的候选词列表使用TF-IDF算法计算每个候选词与识别结果之间的相似度。筛选出与识别结果相似度高于0.8的词，将结果集记为C。

分支2：该分支的目标是预测某个汉字在OCR过程中出现错误的规律。本发明收集了一个错误转化映射集，包含201条实际OCR过程中出现的文字转化错误的映射，映射的格式为c->{c1，c2…cn}，c1为错误的字符，{c1，c2…cn}为正确的字符集合。通过对错误规则的统计分析，发现在OCR转换时识别有误的字与原字符在字体笔画结构上存在一定的相似性。例如，数字1经常被识别为“[”、“]”、“|”、“！”等。该发明利用这种规则，将识别错误的字进行预测，替换为正确的字。例如，存在金额实体，金额的真实值是“3001￥”,但是经过OCR识别出的结果是“300]羊”。而在构建好的知识图谱数据库中，金额由数字、小数点、特殊符号“￥”构成。显然，“]”和“羊”与数据库中的数据不匹配，需要将这两个字符替换为正确的字符。根据错误转化映射集替换原字符后获得的字符串集合记为S。在集合S和集合C的交集中找出相似度最高的值作为纠正后的值。

另外，公司名称一般是由地名、其它文字和有限公司这3部分中的一个或多个部分构成。地名可以与知识图谱数据库中的候选词进行相似度计算，替换为正确的地名，然后该字符串作为searchKey，发送http请求到企查查的http://api.qichacha.com/FuzzySearch/GetList接口进行模糊查询。请求返回的json数据中的Name字段即为可能正确的公司名，然后选择该集合中相似度最高的作为纠正的值。

具体实施方式

1.使用知识图谱对各类票据建模

首先针对生活中各类常见的票据使用知识图谱进行建模。将各种***类型作为主实体，票据中的关键字段类型作为主实体的子实体。对于每种关键字段，抽取出该字段的共性特征，作为子实体的属性。此外，针对某些关键实体，可以通过网络爬虫等方式进行获取该类实体的所有实例，并进行筛选处理，存储在数据库中。针对第三方资源，获取相应的数据访问接口，通过接口获取相应的数据。再通过合理的关系，链接这些实体。由此可以构建出票据的知识图谱。

本***主要包括知识获取与加工模块、知识存储模块、知识应用模块。其中基础层包含知识获取与加工模块，数据库层和缓存层包含知识存储模块，Service端和API端包含知识应用模块。

知识获取与加工模块，从票据实体的相关书籍、网站获得的Excel电子表格原始数据经过数据清洗、知识加工、知识表示三个过程，得到票据、票据实体、该实体对应的示例的关系网。

以火车票为例，火车票所需识别的实体如下表所示：

知识存储模块利用Neo4j图数据库提供票据知识图谱存储服务，保存票据类型与关键实体关系，其中，某几个实体的构成十分简单，如火车票ID、车次由字母和数字组成，time由数字、“：”、“年”、“月”、“日”组成。Price由数字和“￥”构成。此外，始发站和终点站可以通过https://www.12306.cn/index/网站的接口获取其所有实例。通过如上规则，可以构建出针对火车票的指示图谱。

知识应用模块包含了常用的用户服务，如：用户登录、用户注册、log管理、知识检索等。知识检索可以检索票据关键字段的属性信息。本***采用微服务的设计模式进行架构设计，基于SOA架构将***核心业务线划分为用户身份验证服务、用户权限控制服务、票据特征实体提取服务、票据知识检索服务、票据文本图像识别服务，并采用Restful规范设计并实现API接口，利用MySQL对象关系型数据库存储用户信息、***日志记录。考虑到平台的可扩展性与支持高并发性，利用Redis进行分布式缓存。利用Docker容器技术，将本***平台知识服务应用进行封装，方便分布式应用于部署，使得知识服务***具有高可移植性和高可扩展性。采用Kubernetes平台管理容器，使***平台实现自动部署、扩展和管理，使得本***具备高可用性。

2.模板对齐

使用openCV中的ORB特征点检测器，对真实***图片与预先构建好的空白***模板同时提取图像特征。

ORB特征点检测器由两部分组成：

1.***：这个模块要找到图片上具有旋转不变性、缩放不变性及仿射不变性的点。***找到这些点的横纵坐标。

2.描述子：得到特征点后我们需要以某种方式描述这些特征点的属性。这属性的输出我们称之为该特征点的描述子(Feature DescritorS).ORB采用BRIEF算法来计算一个特征点的描述子。BRIEF算法的核心思想是在关键点P的周围以一定模式选取N个点对，把这N个点对的灰度值的比较结果组合起来作为描述子。

根据特征点的特征描述进行特征点匹配，根据RANSAC原则计算得到单应性矩阵。对***图片根据单应性矩阵进行的仿射变换，使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。

3.***去除

将原始RGB图像映射到HSV空间中，根据值域筛选出图像中的红色部分，然后使用openCV中的腐蚀和膨胀操作对图像进行处理，腐蚀是用于去除噪点，膨胀用于扩大扩大红色的范围，防止红色被遗漏。然后使用本发明设计的***去除算法对票据图像进行处理，将红色***去除。

4.文本检测

对该图像使用卷积神经网络VGG-16提取特征，根据特征对每个位置进行预测，获得该位置含有字符的概率，然后对于含有字符的位置使用某种算法合并，获得图片中所有文本片段的位置坐标。然后将图片根据这些坐标进行剪裁，获取到文本区域的图片。

5.文字识别

文字识别阶段采用主流的CRNN网络模型。步骤如下：

1)将文字检测步骤获得的图片转化为任意宽度，高度为32像素的图片。然后输入到一个由7层卷积层，四层最大池化层，两层BatchNormalization层组成的CNN网络，输出一个尺寸为(512,1,40)的feature map。

2)将feature map输入到Map-to-Sequence层。将尺寸为(512，1，40)的featuremap重组为(512，40)的特征向量序列。

3)然后使用双向RNN(BLSTM)对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布。得到所有字符的softmax概率分布，这是一个长度为字符类别数的向量，作为CTC层的输入。

4)CTC层以每个‘-’为分隔符，合并分隔符内相同且相邻的字符。最后删除分隔符，最后的内容即为对文本的预测值。

6.关键信息提取

将使用文字检测技术获得的各文本区域的位置信息和文字识别技术获取到的语义信息根据某种映射关系转化成向量。然后训练一个神经网络，该神经网络将这两种向量作为输入，经过对文本位置特征和语义特征的提取和推导，输出一个前面建立的知识图谱中的关键字段实体构成的概率矩阵，使用此方法将关键信息提取转化成一个文本片段分类任务。

7.使用知识图谱技术对识别内容进行纠错

将识别后的关键文本与知识图谱中的实体匹配，若数据库中有与之相匹配的实体，则说明识别成功。若不存在与之相匹配的实体，则说明识别出现了错误。则需要在预先构建好的知识图谱数据库中挑选出最匹配的文本。针对候选文本的挑选算法选用TF-IDF算法，该算法的计算方法如下：

1)计算词频(Term Frequency，TF)，词频表示特征词在某个类别的文本中出现的频率，词频越高，则该特征词的重要性越高，计算方法如下：

2)计算逆文档频率(Inverse Document Frequency，IDF)，如果某个特征词在多个候选词中出现，含有该特征词的候选词越多，则该特征词对候选词的区分能力越低。计算方法如下：

3)计算TF-IDF：

TF-IDF＝TF*IDF

使用该算法得到识别文本和数据库中每个文本的相似程度，挑选出相似度最高的文本作为纠错后的结果。

Claims

1.基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：

(1)设计了集成文字检测模块、文字识别模块、关键信息提取模块和使用知识图谱建模及纠错模块的票据结构化识别***。

(2)增加了***去除和图像对齐预处理步骤，提高了模型检测和识别的准确率。

(3)设计并应用基于竖直方向IOU和横向距离的文本框合并算法。

(4)设计了基于神经网络的关键信息提取流程。

(5)设计了基于知识图谱的识别误差校正流程。

2.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：

(1)构建票据知识图谱

(2)模板对齐

对真实***图片与预先构建好的空白***模板同时提取图像特征，根据特征点的特征描述进行特征点匹配，根据随机采样一致性原则计算得到最优变换矩阵，对***图片进行对应的仿射变换，使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。

(3)纸质图像预处理

(4)***去除

使用阈值分割技术去除***图像中的红色***；

(5)文本检测

(6)文字识别

(7)关键信息提取

(8)使用知识图谱数据库对识别内容进行纠错

将识别后的关键文本与知识图谱中的实体匹配，通过检查识别内容是否满足该实体的共性特征、是否与实例库相匹配来确定识别内容是否正确，若不正确，将其更正。

3.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：

(1)票据文本检测网络RTDNN架构

其中，structure中各项含义为:宽*高*通道数。

神经网络中所有的激活函数均采用Leaky_relu。Prediction预测模块,该模块由1层平均池化层average pool和4层Conv构成。最终输出一个Region score map。Region scoremap表示该点是文字中心的概率。

针对票据图像的文本框生成算法，详细介绍如下：

(2)***去除算法

算法的详细步骤如下：

1)将RGB图像映射到HSV空间，以便于更准确的提取图片中的红色区域。计算公式如下：

Cmax＝max(R′,G′,B′)

Cmin＝min(R′,G′,B′)

Δ＝Cmax-Cmin

V＝Cmax

2)红色在HSV空间的值域为[0,43,46]～[10,255,255]∪[156,43,46]～[180,255,255]，遍历整张图片，属于该值域的点的值设置为255，不属于该值域的点的值设为0。然后对此图片先腐蚀后膨胀，腐蚀是用于去除噪点，膨胀用于扩大扩大红色的范围，防止红色被遗漏。将获得的此图片记为Mask1。

3)提取票据图像R通道的图，将大于阈值(160)的像素点置为255，小于阈值的像素点置为0，得到图Mask2。

4)生成图像Mask，Mask中像素值计算方式如下：若该位置在Mask1和Mask2中对应的像素值都为255，则该点的值为255，否则为0。

5)遍历原始的票据图像，如果该位置在Mask中的值为255，则将该位置的RGB值设置为(255，255，255)。至此，红色***被去除。

(3)基于CRNN和ACE的文字识别算法

票据图像的文本识别网络中，首先对票据文本区域图像进行预处理，然后将处理后的图像输入到票据图像特征提取网络对票据图像的文本特征进行序列化编码，最后将序列化的编码通过字符识别器进行解码得到票据图像的文本识别结果。

采用聚合交叉熵算法对票据文本的特征序列进行解码，以实现对票据图像文本的识别。经过上一步，会有T个时间步长的输出。经过如下四步，得到最终的交叉熵：

1)对全部时间步长的第k类字符的概率求和，得到y_k:

2)对y_k标准化：

3)设模型预测

的标注为N,标准化N:

4)计算ACE的Loss：

其中C_k为字符C的出现次数。

(4)基于知识图谱的票据ocr结果纠错

若某实体的ocr结果与知识图谱数据库中的数据不匹配，则判定该实体识别有误，针对识别有误的实体使用两个分支处理：

分支2：该分支的目标是预测某个汉字在OCR过程中出现错误的规律。收集了一个错误转化映射集，包含多条实际OCR过程中出现的文字转化错误的映射，映射的格式为c->{c1，c2…cn}，c1为错误的字符，{c1，c2…cn}为正确的字符集合。根据错误转化映射集替换原字符后获得的字符串集合记为S。在集合S和集合C的交集中找出相似度最高的值作为纠正后的值。

另外，公司名称一般是由地名、其它文字和有限公司这3部分中的一个或多个部分构成。地名可以与知识图谱数据库中的候选词进行相似度计算，替换为正确的地名，然后该字符串作为searchKey，发送http请求到企查查的接口进行模糊查询。请求返回的json数据中的Name字段即为可能正确的公司名，然后选择该集合中相似度最高的作为纠正的值。