CN117115839A

CN117115839A - 一种基于自循环神经网络的***字段识别方法和装置

Info

Publication number: CN117115839A
Application number: CN202311009068.1A
Authority: CN
Inventors: 谢方敏; 周峰; 郭陟; 李志权
Original assignee: Guangzhou Fangzhou Information Technology Co ltd
Current assignee: Guangzhou Fangzhou Information Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-24
Anticipated expiration: 2043-08-10
Also published as: CN117115839B

Abstract

本发明提供一种基于自循环神经网络的***字段识别方法和装置；其中方法包括步骤：获取***图像；对所述***图像进行预处理，获得预处理***图像；对所述预处理***图像进行OCR识别，得到文字内容块；所述文字内容块包括文本内容和文本矩形；所述文本矩形用四个端点坐标值表示；对所述文本矩形的坐标进行归一化处理，得到OCR文本区域；对文本内容进行向量化处理，得到文本编码向量；通过一深度神经网络对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配，得到识别结果。本发明的基于自循环神经网络的***字段识别方法和装置，能在样本量较小且***格式不统一的条件下能够取到较好的识别效果。

Description

一种基于自循环神经网络的***字段识别方法和装置

技术领域

本发明涉及机器视觉检测领域，特别是涉及一种基于自循环神经网络的***字段识别方法和装置。

背景技术

财务或客服人员在工作时经常需要查阅***。查阅***的传统方法是在一堆纸质***中逐个检查以查找出需要的***。这种查阅方法费事费力，还容易弄丢或损坏***。因此，公司的数字化***将***上的内容与***照片绑定。工作人员查阅***时，只需要搜索***上的内容信息，就能迅速找到对应的***照片，节省了人力物力。

在传统的数字化***中，***上的内容需要人工识别并输入至***。采用AI识别后，将***照片上传至***时，AI识别模型会自动识别***上的内容。但是，由于***照片的样本量较小，以及不同的商家提供的***格式不统一，现有的AI识别模型的识别效果较差。

发明内容

基于此，本发明的目的在于，提供一种在样本量较小且***格式不统一的条件下能够取到较好的识别效果的基于自循环神经网络的***字段识别方法和装置。

本发明提供一种基于自循环神经网络的***字段识别方法，包括步骤：

S1，获取***图像；

S2，对所述***图像进行预处理，获得预处理***图像；

S3，对所述预处理***图像进行OCR识别，得到文字内容块；所述文字内容块包括文本内容和文本矩形；所述文本矩形用四个端点坐标值表示；

S4，对所述文本矩形的坐标进行归一化处理，得到OCR文本区域；对文本内容进行向量化处理，得到文本编码向量；

S5，通过一深度神经网络对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配，得到识别结果。

本发明的基于自循环神经网络的***字段识别方法和装置，能够根据一张***图像自动识别出***上的文本内容和文本类别，无需人工输入，节省了人力物力。

进一步地，所述步骤S5具体包括以下步骤：

S5a，对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别，得到销售方或购买方的名称及其概率；

S5b1，识别所述预处理***图像中的文本区域，得到目标文本区域；

S5b2，对所述OCR文本区域和目标文本区域取交集，得到交集文本区域；

S5b3，对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别，得到每个交集文本区域对应的文本类别及其概率；

S5c，对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配，得到识别结果。

进一步地，所述步骤S5a具体为：计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率，并输出概率最高的若干个销售方或购买方的名称及其概率；

所述步骤S5b3具体为：根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率，识别每个交集文本区域对应的文本类别，计算每个交集文本区域对应着某一个文本类别的概率，输出概率最高的若干个文本类别及其概率。

进一步地，步骤S4具体包括：将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列，然后进行归一化处理，将端点坐标值数据归一化至0～1的区间内，得到OCR文本区域；对采用独热编码对所述文本内容进行SVM向量化处理，得到文本编码向量。

进一步地，在所述对文本矩形的坐标进行归一化处理得到OCR文本区域之前，还包括步骤：根据文本矩形的端点坐标，按照从上到下、从左到右的顺序，为每个文本矩形编号；所述编号为一个二维向量，表示该文本矩形位于第几行、第几列。

本发明还提供一种基于自循环神经网络的***字段识别装置，包括：

***图像获取模块，用于获取***图像；

预处理模块，用于对所述***图像进行预处理，获得预处理***图像；

OCR识别模块，用于对所述预处理***图像进行OCR识别，得到文字内容块；所述文字内容块包括文本内容和文本矩形；所述文本矩形用四个端点坐标值表示；

OCR数据处理模块，用于对所述文本矩形的坐标进行归一化处理，得到OCR文本区域；对文本内容进行向量化处理，得到文本编码向量；

深度神经网络，用于对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配，得到识别结果。

进一步地，所述深度神经网络包括：文字匹配模型，用于对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别，得到销售方或购买方的名称及其概率；

目标文本区域获取单元，用于识别所述预处理***图像中的文本区域，得到目标文本区域；

交集文本区域获取单元，用于对所述OCR文本区域和目标文本区域取交集，得到交集文本区域；

文本类别识别单元，用于对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别，得到每个交集文本区域对应的文本类别及其概率；

LSTM模型，用于对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配，得到识别结果。

进一步地，所述文字匹配模型具体计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率，并输出概率最高的若干个销售方或购买方的名称及其概率；所述文本类别识别单元具体根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率，识别每个交集文本区域对应的文本类别，计算每个交集文本区域对应着某一个文本类别的概率，输出概率最高的若干个文本类别及其概率。

进一步地，所述OCR数据处理模块包括：

坐标归一化模块，用于将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列，然后进行归一化处理，将端点坐标值数据归一化至0～1的区间内，得到OCR文本区域。内容向量化模块，用于采用独热编码对所述文本内容进行SVM向量化处理，得到文本编码向量。

本发明还提供一种计算机设备，包括：处理器；存储器，用于存储由所述处理器执行的计算机程序；其中，所述处理器执行所述计算机程序时实现上述的基于自循环神经网络的***字段识别方法。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明需要识别的一张***图像示意图；

图2为本发明的基于自循环神经网络的***字段识别装置模块图；

图3为本发明的基于自循环神经网络的***字段识别方法流程图；

图4为图1的***图像经过OCR识别得到的文本内容块示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

本申请通过OCR技术和深度神经网络分析***图像，自动识别出***图像中的内容。例如，对于如图1所示的一张***图像，本申请需要识别出以下信息：

购买方名称：A公司；

购买方纳税人识别号：AAAAAAAAAA；

销售方名称：B公司；

***代码：123456789876；

***号：87654321；

开票日期：2023年8月7日；

金额(价税合计)：-88888.88元；

对数字的识别一般不容易出错，提高识别准确率的难点在于对购买方名称、销售方名称这类文本信息的识别。由于在公司***内，购买方名称、销售方名称往往存在一个预设的名单，如果将购买方名称、销售方名称与名单中的某一个选项相匹配，其识别准确率会远高于单纯的文字识别。另外，由于公司业务内容不会一成不变，公司近期所收到的***与很久以前收到的***相比，其特征存在不同；使用LSTM(长短期记忆)网络可以帮助模型记住近期收到的***的特征，从而提高识别准确率。

下面基于上述发明构思，结合图2和图3，具体说明本发明的基于自循环神经网络的***字段识别方法和装置。图2为本发明的基于自循环神经网络的***字段识别装置模块图，图3为本发明的基于自循环神经网络的***字段识别方法流程图。

本发明的基于自循环神经网络的***字段识别装置，包括***图像获取模块1、预处理模块2、OCR识别模块3、OCR数据处理模块4和深度神经网络5。

所述***图像获取模块1，用于执行步骤S1：获取***图像。

所述预处理模块2，用于执行步骤S2：对所述***图像进行预处理，获得预处理***图像。具体地，所述预处理包括倾斜矫正，即旋转***图片以将文本字体摆正。在其他实施例中，所述预处理步骤还可以包括裁剪、图像大小标准化、对比度增强、二值化等。

所述OCR识别模块3，用于执行步骤S3：对所述预处理***图像进行OCR识别，得到文字内容块。所述文字内容块包括文本内容和文本矩形；所述文本矩形用四个端点坐标值表示。例如，OCR识别到销售方名称为“A药业公司”，“A药业公司”的文本内容位于预处理***图像上的一个文本矩形区域内，该文本矩形的四个端点的坐标分别为[466,96]，[1332,111]，[1330,177]和[465,163]。那么OCR识别得到的文字内容块的文本内容为“A药业公司”，文本矩形用端点坐标表示为[466,96]，[465,163]，[1332,111]和[1330,177]。

进一步地，在得到文本矩形后，还包括步骤：根据文本矩形的端点坐标，按照从上到下、从左到右的顺序，为每个文本矩形编号；所述编号为一个二维向量，表示该文本矩形位于第几行、第几列。请参阅图4，图4为图1的***图像经过OCR识别得到的文本内容块示意图，图中文本内容块上标注的编号表示该文本内容块的文本矩形位于第几行、第几列。例如，“***代码”的文本矩形编号为2-3，表示该文本矩形位于第2行、第3列。在不同***中，同一文本类别的文本矩形坐标是不一样的，但文本矩形编号却相对稳定，因此标记出文本矩形编号有助于后续对文本类别的识别。

所述OCR数据处理模块4，用于执行步骤S4：对文本矩形的坐标进行归一化处理，得到OCR文本区域；对文本内容进行向量化处理，得到文本编码向量。具体地，所述OCR数据处理模块4包括坐标归一化模块41和内容向量化模块42。

所述坐标归一化模块41，用于执行步骤S41：将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列，然后进行归一化处理，将端点坐标值数据归一化至0～1的区间内，得到OCR文本区域。例如，步骤S31得到的文本矩形的四个坐标值为[466,96]，[465,163]，[1332,111]和[1330,177]，按照从上到下、从左到右的顺序进行排列后得到[466,96]，[1332,111]，[1330,177]和[465,163]。所述归一化是对一张预处理***图像识别出的所有文本矩形端点坐标而言的。

所述内容向量化模块42，用于执行步骤S42：对所述文本内容进行SVM向量化处理，得到文本编码向量。在本实施例中，采用独热编码对文本内容进行SVM向量化处理。

所述深度神经网络5，用于执行步骤S5：对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配，得到识别结果。

具体地，所述深度神经网络5包括文字匹配模型5A、目标文本区域获取单元5B1、交集文本区域获取单元5B2、文本类别识别单元5B3和LSTM模型5C。

所述文字匹配模型5A，用于执行步骤S5a：对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别，得到销售方或购买方的名称及其概率。具体地，步骤S5a为：根据输入的文本编码向量，计算该文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率，并输出概率最高的若干个销售方或购买方的名称及其概率。由于销售方或购买方的名单是已知的，***图像上的销售方或购买方的名称只可能是预设的销售方或购买方名单中的一个。例如，预设的销售方名单包括“A12公司”、“B34公司”和“C56公司”，输入的编码向量对应的文本内容中销售方名称为“A13公司”，那么真实的销售方名称是“A12公司”的概率极高，是“B34公司”和“C56公司”的概率极小。在本实施例中，所述文字匹配模型采用结合了Jaccard相似系数算法的三层全连接模型。在其他实施例中，所述Jaccard相似系数可替换为余弦相似度(Cosine Similarity)、汉明距离(Hamming Distance)、编辑距离(Edit Distance)、皮尔逊相关系数(Pearson Correlation Coefficient)等其他算法。

所述目标文本区域获取单元5B1，用于执行步骤S5b1：识别所述预处理***图像中的文本区域，得到目标文本区域。所述目标文本区域与OCR文本区域一样，用文本矩形的四个端点坐标表示。

所述交集文本区域获取单元5B2，用于执行步骤S5b2：对所述OCR文本区域和目标文本区域取交集，得到交集文本区域。

所述文本类别识别单元5B3，用于执行步骤S5b3：对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别，得到每个交集文本区域对应的文本类别及其概率。具体地，步骤S5b3为：根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率，识别每个交集文本区域对应的文本类别，计算每个交集文本区域对应着某一个文本类别的概率，输出概率最高的若干个文本类别及其概率。例如，目标检测模型识别到文本内容为“A公司”的一个交集文本区域，该交集文本区域对应的文本类别是销售方或购买方名称的概率极大，是开票日期的概率极小。

进一步地，所述文本类别识别单元5B3还根据每个交集文本区域的文本矩形编号来识别每个交集文本区域对应的文本类别。所述交集文本区域的文本矩形编号是指步骤S32获得的文本矩形编号。

所述目标文本区域获取单元5B1、交集文本区域获取单元5B2和文本类别识别单元5B3所执行的步骤可以通过一目标检测模型实现。优选地，所述目标检测模型为MMDetection模型。在本实施例中，所述目标检测模型为CSPNeXt模型。

所述LSTM模型5C，用于执行步骤S5c：对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配，得到识别结果；所述识别结果包括最终文本内容、最终文本区域和最终文本类别。具体地，在执行步骤S5c之前，还包括步骤：将输入深度神经网络的OCR文本区域和文本编码向量、文字匹配模型输出的销售方或购买方的名称的概率列表和目标检测模型输出的交集文本区域和文本类别概率列表，以及数据库中的历史数据打包成一个四维向量；然后将所述四维向量输入至LSTM模型5C。所述四维向量的第一维是批次编号，第二维是输入深度神经网络的预处理***图像和文本编码向量，第三维是文字匹配模型输出的销售方或购买方的名称的概率列表和目标检测模型输出的交集文本区域和文本类别概率列表，第四维是数据库中历史数据。

进一步地，所述深度神经网络5，通过以下方法进行训练：

定时从数据库中随机抽取若干样本，每个样本均包括一预处理***图像及其对应的OCR文本区域、文本编码向量和真实识别结果；

将所述样本按批次输入至所述深度神经网络中，所述深度神经网络5根据预处理***图像及其对应的OCR文本区域和文本编码向量对输入的样本进行特征提取和匹配，得到识别结果；

对比识别结果和真实识别结果的差异，计算损失函数，将损失函数反向传播以优化所述深度神经网络的参数；

重复上述步骤，每处理一批次的样本都优化一次所述深度神经网络5的参数，直到所述深度神经网络5的识别准确率达到设定的阈值，则完成训练。

进一步地，所述数据库通过以下步骤搭建：

当步骤S5c中LSTM模型5C输出识别结果后，还进行以下步骤：人工审核所述识别结果是否正确；若识别结果正确，则将所述识别结果确认为真实识别结果，并将本次输入的预处理***图像、OCR文本区域、文本编码向量和真实识别结果加入至数据库中；若所述识别结果错误，则人工修改错误的内容，得到真实识别结果，并将本次输入的预处理***图像、OCR文本区域、文本编码向量、错误的识别结果和真实识别结果都加入至所述数据库中。

本发明的基于自循环神经网络的***字段识别方法和装置，能够根据一张***图像自动识别出***上的文本内容和文本类别，无需人工输入，节省了人力物力。本发明的基于自循环神经网络的***字段识别方法和装置通过预设的销售方或购买方的名单限定了销售方或购买方名称识别的边界，同时通过LSTM网络记住了近期获取的***图像的特征，在样本量较小且***格式不统一的条件下依旧能取得较高的识别准确率，克服了现有技术的缺陷。

基于本发明提供的一种基于自循环神经网络的***字段识别方法，本发明还提供了一种计算机设备，所述计算机设备可以是服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备，其包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现本发明的一种基于自循环神经网络的***字段识别方法。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现本发明实施例所述的一种基于自循环神经网络的***字段识别方法。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于自循环神经网络的***字段识别方法，包括步骤：

S1，获取***图像；

S2，对所述***图像进行预处理，获得预处理***图像；

2.根据权利要求1所述的基于自循环神经网络的***字段识别方法，其特征在于：所述步骤S5具体包括以下步骤：

3.根据权利要求2所述的基于自循环神经网络的***字段识别方法，其特征在于：

所述步骤S5a具体为：计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率，并输出概率最高的若干个销售方或购买方的名称及其概率；

4.根据权利要求3所述的基于自循环神经网络的***字段识别方法，其特征在于：步骤S4具体包括：

将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列，然后进行归一化处理，将端点坐标值数据归一化至0～1的区间内，得到OCR文本区域；

对采用独热编码对所述文本内容进行SVM向量化处理，得到文本编码向量。

5.根据权利要求4所述的基于自循环神经网络的***字段识别方法，其特征在于：在所述对文本矩形的坐标进行归一化处理得到OCR文本区域之前，还包括步骤：根据文本矩形的端点坐标，按照从上到下、从左到右的顺序，为每个文本矩形编号；所述编号为一个二维向量，表示该文本矩形位于第几行、第几列。

6.一种基于自循环神经网络的***字段识别装置，包括：

***图像获取模块，用于获取***图像；

7.根据权利要求6所述的基于自循环神经网络的***字段识别装置，其特征在于：所述深度神经网络包括：

文字匹配模型，用于对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别，得到销售方或购买方的名称及其概率；

8.根据权利要求7所述的基于自循环神经网络的***字段识别装置，其特征在于：

所述文字匹配模型具体计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率，并输出概率最高的若干个销售方或购买方的名称及其概率；

所述文本类别识别单元具体根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率，识别每个交集文本区域对应的文本类别，计算每个交集文本区域对应着某一个文本类别的概率，输出概率最高的若干个文本类别及其概率。

9.根据权利要求8所述的基于自循环神经网络的***字段识别装置，其特征在于：所述OCR数据处理模块包括：

坐标归一化模块，用于将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列，然后进行归一化处理，将端点坐标值数据归一化至0～1的区间内，得到OCR文本区域。

内容向量化模块，用于采用独热编码对所述文本内容进行SVM向量化处理，得到文本编码向量。

10.一种计算机设备，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1-5所述的任一种基于自循环神经网络的***字段识别方法。