CN117115839A - 一种基于自循环神经网络的***字段识别方法和装置 - Google Patents

一种基于自循环神经网络的***字段识别方法和装置 Download PDF

Info

Publication number
CN117115839A
CN117115839A CN202311009068.1A CN202311009068A CN117115839A CN 117115839 A CN117115839 A CN 117115839A CN 202311009068 A CN202311009068 A CN 202311009068A CN 117115839 A CN117115839 A CN 117115839A
Authority
CN
China
Prior art keywords
text
invoice
neural network
region
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311009068.1A
Other languages
English (en)
Other versions
CN117115839B (zh
Inventor
谢方敏
周峰
郭陟
李志权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Fangzhou Information Technology Co ltd
Original Assignee
Guangzhou Fangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Fangzhou Information Technology Co ltd filed Critical Guangzhou Fangzhou Information Technology Co ltd
Priority to CN202311009068.1A priority Critical patent/CN117115839B/zh
Publication of CN117115839A publication Critical patent/CN117115839A/zh
Application granted granted Critical
Publication of CN117115839B publication Critical patent/CN117115839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种基于自循环神经网络的***字段识别方法和装置;其中方法包括步骤:获取***图像;对所述***图像进行预处理,获得预处理***图像;对所述预处理***图像进行OCR识别,得到文字内容块;所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示;对所述文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量;通过一深度神经网络对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。本发明的基于自循环神经网络的***字段识别方法和装置,能在样本量较小且***格式不统一的条件下能够取到较好的识别效果。

Description

一种基于自循环神经网络的***字段识别方法和装置
技术领域
本发明涉及机器视觉检测领域,特别是涉及一种基于自循环神经网络的***字段识别方法和装置。
背景技术
财务或客服人员在工作时经常需要查阅***。查阅***的传统方法是在一堆纸质***中逐个检查以查找出需要的***。这种查阅方法费事费力,还容易弄丢或损坏***。因此,公司的数字化***将***上的内容与***照片绑定。工作人员查阅***时,只需要搜索***上的内容信息,就能迅速找到对应的***照片,节省了人力物力。
在传统的数字化***中,***上的内容需要人工识别并输入至***。采用AI识别后,将***照片上传至***时,AI识别模型会自动识别***上的内容。但是,由于***照片的样本量较小,以及不同的商家提供的***格式不统一,现有的AI识别模型的识别效果较差。
发明内容
基于此,本发明的目的在于,提供一种在样本量较小且***格式不统一的条件下能够取到较好的识别效果的基于自循环神经网络的***字段识别方法和装置。
本发明提供一种基于自循环神经网络的***字段识别方法,包括步骤:
S1,获取***图像;
S2,对所述***图像进行预处理,获得预处理***图像;
S3,对所述预处理***图像进行OCR识别,得到文字内容块;所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示;
S4,对所述文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量;
S5,通过一深度神经网络对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。
本发明的基于自循环神经网络的***字段识别方法和装置,能够根据一张***图像自动识别出***上的文本内容和文本类别,无需人工输入,节省了人力物力。
进一步地,所述步骤S5具体包括以下步骤:
S5a,对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别,得到销售方或购买方的名称及其概率;
S5b1,识别所述预处理***图像中的文本区域,得到目标文本区域;
S5b2,对所述OCR文本区域和目标文本区域取交集,得到交集文本区域;
S5b3,对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别,得到每个交集文本区域对应的文本类别及其概率;
S5c,对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配,得到识别结果。
进一步地,所述步骤S5a具体为:计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率,并输出概率最高的若干个销售方或购买方的名称及其概率;
所述步骤S5b3具体为:根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率,识别每个交集文本区域对应的文本类别,计算每个交集文本区域对应着某一个文本类别的概率,输出概率最高的若干个文本类别及其概率。
进一步地,步骤S4具体包括:将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列,然后进行归一化处理,将端点坐标值数据归一化至0~1的区间内,得到OCR文本区域;对采用独热编码对所述文本内容进行SVM向量化处理,得到文本编码向量。
进一步地,在所述对文本矩形的坐标进行归一化处理得到OCR文本区域之前,还包括步骤:根据文本矩形的端点坐标,按照从上到下、从左到右的顺序,为每个文本矩形编号;所述编号为一个二维向量,表示该文本矩形位于第几行、第几列。
本发明还提供一种基于自循环神经网络的***字段识别装置,包括:
***图像获取模块,用于获取***图像;
预处理模块,用于对所述***图像进行预处理,获得预处理***图像;
OCR识别模块,用于对所述预处理***图像进行OCR识别,得到文字内容块;所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示;
OCR数据处理模块,用于对所述文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量;
深度神经网络,用于对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。
进一步地,所述深度神经网络包括:文字匹配模型,用于对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别,得到销售方或购买方的名称及其概率;
目标文本区域获取单元,用于识别所述预处理***图像中的文本区域,得到目标文本区域;
交集文本区域获取单元,用于对所述OCR文本区域和目标文本区域取交集,得到交集文本区域;
文本类别识别单元,用于对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别,得到每个交集文本区域对应的文本类别及其概率;
LSTM模型,用于对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配,得到识别结果。
进一步地,所述文字匹配模型具体计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率,并输出概率最高的若干个销售方或购买方的名称及其概率;所述文本类别识别单元具体根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率,识别每个交集文本区域对应的文本类别,计算每个交集文本区域对应着某一个文本类别的概率,输出概率最高的若干个文本类别及其概率。
进一步地,所述OCR数据处理模块包括:
坐标归一化模块,用于将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列,然后进行归一化处理,将端点坐标值数据归一化至0~1的区间内,得到OCR文本区域。内容向量化模块,用于采用独热编码对所述文本内容进行SVM向量化处理,得到文本编码向量。
本发明还提供一种计算机设备,包括:处理器;存储器,用于存储由所述处理器执行的计算机程序;其中,所述处理器执行所述计算机程序时实现上述的基于自循环神经网络的***字段识别方法。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明需要识别的一张***图像示意图;
图2为本发明的基于自循环神经网络的***字段识别装置模块图;
图3为本发明的基于自循环神经网络的***字段识别方法流程图;
图4为图1的***图像经过OCR识别得到的文本内容块示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
本申请通过OCR技术和深度神经网络分析***图像,自动识别出***图像中的内容。例如,对于如图1所示的一张***图像,本申请需要识别出以下信息:
购买方名称:A公司;
购买方纳税人识别号:AAAAAAAAAA;
销售方名称:B公司;
***代码:123456789876;
***号:87654321;
开票日期:2023年8月7日;
金额(价税合计):-88888.88元;
对数字的识别一般不容易出错,提高识别准确率的难点在于对购买方名称、销售方名称这类文本信息的识别。由于在公司***内,购买方名称、销售方名称往往存在一个预设的名单,如果将购买方名称、销售方名称与名单中的某一个选项相匹配,其识别准确率会远高于单纯的文字识别。另外,由于公司业务内容不会一成不变,公司近期所收到的***与很久以前收到的***相比,其特征存在不同;使用LSTM(长短期记忆)网络可以帮助模型记住近期收到的***的特征,从而提高识别准确率。
下面基于上述发明构思,结合图2和图3,具体说明本发明的基于自循环神经网络的***字段识别方法和装置。图2为本发明的基于自循环神经网络的***字段识别装置模块图,图3为本发明的基于自循环神经网络的***字段识别方法流程图。
本发明的基于自循环神经网络的***字段识别装置,包括***图像获取模块1、预处理模块2、OCR识别模块3、OCR数据处理模块4和深度神经网络5。
所述***图像获取模块1,用于执行步骤S1:获取***图像。
所述预处理模块2,用于执行步骤S2:对所述***图像进行预处理,获得预处理***图像。具体地,所述预处理包括倾斜矫正,即旋转***图片以将文本字体摆正。在其他实施例中,所述预处理步骤还可以包括裁剪、图像大小标准化、对比度增强、二值化等。
所述OCR识别模块3,用于执行步骤S3:对所述预处理***图像进行OCR识别,得到文字内容块。所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示。例如,OCR识别到销售方名称为“A药业公司”,“A药业公司”的文本内容位于预处理***图像上的一个文本矩形区域内,该文本矩形的四个端点的坐标分别为[466,96],[1332,111],[1330,177]和[465,163]。那么OCR识别得到的文字内容块的文本内容为“A药业公司”,文本矩形用端点坐标表示为[466,96],[465,163],[1332,111]和[1330,177]。
进一步地,在得到文本矩形后,还包括步骤:根据文本矩形的端点坐标,按照从上到下、从左到右的顺序,为每个文本矩形编号;所述编号为一个二维向量,表示该文本矩形位于第几行、第几列。请参阅图4,图4为图1的***图像经过OCR识别得到的文本内容块示意图,图中文本内容块上标注的编号表示该文本内容块的文本矩形位于第几行、第几列。例如,“***代码”的文本矩形编号为2-3,表示该文本矩形位于第2行、第3列。在不同***中,同一文本类别的文本矩形坐标是不一样的,但文本矩形编号却相对稳定,因此标记出文本矩形编号有助于后续对文本类别的识别。
所述OCR数据处理模块4,用于执行步骤S4:对文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量。具体地,所述OCR数据处理模块4包括坐标归一化模块41和内容向量化模块42。
所述坐标归一化模块41,用于执行步骤S41:将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列,然后进行归一化处理,将端点坐标值数据归一化至0~1的区间内,得到OCR文本区域。例如,步骤S31得到的文本矩形的四个坐标值为[466,96],[465,163],[1332,111]和[1330,177],按照从上到下、从左到右的顺序进行排列后得到[466,96],[1332,111],[1330,177]和[465,163]。所述归一化是对一张预处理***图像识别出的所有文本矩形端点坐标而言的。
所述内容向量化模块42,用于执行步骤S42:对所述文本内容进行SVM向量化处理,得到文本编码向量。在本实施例中,采用独热编码对文本内容进行SVM向量化处理。
所述深度神经网络5,用于执行步骤S5:对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。
具体地,所述深度神经网络5包括文字匹配模型5A、目标文本区域获取单元5B1、交集文本区域获取单元5B2、文本类别识别单元5B3和LSTM模型5C。
所述文字匹配模型5A,用于执行步骤S5a:对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别,得到销售方或购买方的名称及其概率。具体地,步骤S5a为:根据输入的文本编码向量,计算该文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率,并输出概率最高的若干个销售方或购买方的名称及其概率。由于销售方或购买方的名单是已知的,***图像上的销售方或购买方的名称只可能是预设的销售方或购买方名单中的一个。例如,预设的销售方名单包括“A12公司”、“B34公司”和“C56公司”,输入的编码向量对应的文本内容中销售方名称为“A13公司”,那么真实的销售方名称是“A12公司”的概率极高,是“B34公司”和“C56公司”的概率极小。在本实施例中,所述文字匹配模型采用结合了Jaccard相似系数算法的三层全连接模型。在其他实施例中,所述Jaccard相似系数可替换为余弦相似度(Cosine Similarity)、汉明距离(Hamming Distance)、编辑距离(Edit Distance)、皮尔逊相关系数(Pearson Correlation Coefficient)等其他算法。
所述目标文本区域获取单元5B1,用于执行步骤S5b1:识别所述预处理***图像中的文本区域,得到目标文本区域。所述目标文本区域与OCR文本区域一样,用文本矩形的四个端点坐标表示。
所述交集文本区域获取单元5B2,用于执行步骤S5b2:对所述OCR文本区域和目标文本区域取交集,得到交集文本区域。
所述文本类别识别单元5B3,用于执行步骤S5b3:对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别,得到每个交集文本区域对应的文本类别及其概率。具体地,步骤S5b3为:根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率,识别每个交集文本区域对应的文本类别,计算每个交集文本区域对应着某一个文本类别的概率,输出概率最高的若干个文本类别及其概率。例如,目标检测模型识别到文本内容为“A公司”的一个交集文本区域,该交集文本区域对应的文本类别是销售方或购买方名称的概率极大,是开票日期的概率极小。
进一步地,所述文本类别识别单元5B3还根据每个交集文本区域的文本矩形编号来识别每个交集文本区域对应的文本类别。所述交集文本区域的文本矩形编号是指步骤S32获得的文本矩形编号。
所述目标文本区域获取单元5B1、交集文本区域获取单元5B2和文本类别识别单元5B3所执行的步骤可以通过一目标检测模型实现。优选地,所述目标检测模型为MMDetection模型。在本实施例中,所述目标检测模型为CSPNeXt模型。
所述LSTM模型5C,用于执行步骤S5c:对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配,得到识别结果;所述识别结果包括最终文本内容、最终文本区域和最终文本类别。具体地,在执行步骤S5c之前,还包括步骤:将输入深度神经网络的OCR文本区域和文本编码向量、文字匹配模型输出的销售方或购买方的名称的概率列表和目标检测模型输出的交集文本区域和文本类别概率列表,以及数据库中的历史数据打包成一个四维向量;然后将所述四维向量输入至LSTM模型5C。所述四维向量的第一维是批次编号,第二维是输入深度神经网络的预处理***图像和文本编码向量,第三维是文字匹配模型输出的销售方或购买方的名称的概率列表和目标检测模型输出的交集文本区域和文本类别概率列表,第四维是数据库中历史数据。
进一步地,所述深度神经网络5,通过以下方法进行训练:
定时从数据库中随机抽取若干样本,每个样本均包括一预处理***图像及其对应的OCR文本区域、文本编码向量和真实识别结果;
将所述样本按批次输入至所述深度神经网络中,所述深度神经网络5根据预处理***图像及其对应的OCR文本区域和文本编码向量对输入的样本进行特征提取和匹配,得到识别结果;
对比识别结果和真实识别结果的差异,计算损失函数,将损失函数反向传播以优化所述深度神经网络的参数;
重复上述步骤,每处理一批次的样本都优化一次所述深度神经网络5的参数,直到所述深度神经网络5的识别准确率达到设定的阈值,则完成训练。
进一步地,所述数据库通过以下步骤搭建:
当步骤S5c中LSTM模型5C输出识别结果后,还进行以下步骤:人工审核所述识别结果是否正确;若识别结果正确,则将所述识别结果确认为真实识别结果,并将本次输入的预处理***图像、OCR文本区域、文本编码向量和真实识别结果加入至数据库中;若所述识别结果错误,则人工修改错误的内容,得到真实识别结果,并将本次输入的预处理***图像、OCR文本区域、文本编码向量、错误的识别结果和真实识别结果都加入至所述数据库中。
本发明的基于自循环神经网络的***字段识别方法和装置,能够根据一张***图像自动识别出***上的文本内容和文本类别,无需人工输入,节省了人力物力。本发明的基于自循环神经网络的***字段识别方法和装置通过预设的销售方或购买方的名单限定了销售方或购买方名称识别的边界,同时通过LSTM网络记住了近期获取的***图像的特征,在样本量较小且***格式不统一的条件下依旧能取得较高的识别准确率,克服了现有技术的缺陷。
基于本发明提供的一种基于自循环神经网络的***字段识别方法,本发明还提供了一种计算机设备,所述计算机设备可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备,其包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现本发明的一种基于自循环神经网络的***字段识别方法。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现本发明实施例所述的一种基于自循环神经网络的***字段识别方法。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于自循环神经网络的***字段识别方法,包括步骤:
S1,获取***图像;
S2,对所述***图像进行预处理,获得预处理***图像;
S3,对所述预处理***图像进行OCR识别,得到文字内容块;所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示;
S4,对所述文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量;
S5,通过一深度神经网络对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。
2.根据权利要求1所述的基于自循环神经网络的***字段识别方法,其特征在于:所述步骤S5具体包括以下步骤:
S5a,对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别,得到销售方或购买方的名称及其概率;
S5b1,识别所述预处理***图像中的文本区域,得到目标文本区域;
S5b2,对所述OCR文本区域和目标文本区域取交集,得到交集文本区域;
S5b3,对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别,得到每个交集文本区域对应的文本类别及其概率;
S5c,对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配,得到识别结果。
3.根据权利要求2所述的基于自循环神经网络的***字段识别方法,其特征在于:
所述步骤S5a具体为:计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率,并输出概率最高的若干个销售方或购买方的名称及其概率;
所述步骤S5b3具体为:根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率,识别每个交集文本区域对应的文本类别,计算每个交集文本区域对应着某一个文本类别的概率,输出概率最高的若干个文本类别及其概率。
4.根据权利要求3所述的基于自循环神经网络的***字段识别方法,其特征在于:步骤S4具体包括:
将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列,然后进行归一化处理,将端点坐标值数据归一化至0~1的区间内,得到OCR文本区域;
对采用独热编码对所述文本内容进行SVM向量化处理,得到文本编码向量。
5.根据权利要求4所述的基于自循环神经网络的***字段识别方法,其特征在于:在所述对文本矩形的坐标进行归一化处理得到OCR文本区域之前,还包括步骤:根据文本矩形的端点坐标,按照从上到下、从左到右的顺序,为每个文本矩形编号;所述编号为一个二维向量,表示该文本矩形位于第几行、第几列。
6.一种基于自循环神经网络的***字段识别装置,包括:
***图像获取模块,用于获取***图像;
预处理模块,用于对所述***图像进行预处理,获得预处理***图像;
OCR识别模块,用于对所述预处理***图像进行OCR识别,得到文字内容块;所述文字内容块包括文本内容和文本矩形;所述文本矩形用四个端点坐标值表示;
OCR数据处理模块,用于对所述文本矩形的坐标进行归一化处理,得到OCR文本区域;对文本内容进行向量化处理,得到文本编码向量;
深度神经网络,用于对所述预处理***图像、OCR文本区域和文本编码向量进行特征提取和匹配,得到识别结果。
7.根据权利要求6所述的基于自循环神经网络的***字段识别装置,其特征在于:所述深度神经网络包括:
文字匹配模型,用于对所述文本编码向量对应的文字内容中销售方或购买方的名称进行识别,得到销售方或购买方的名称及其概率;
目标文本区域获取单元,用于识别所述预处理***图像中的文本区域,得到目标文本区域;
交集文本区域获取单元,用于对所述OCR文本区域和目标文本区域取交集,得到交集文本区域;
文本类别识别单元,用于对交集文本区域、文本编码向量和销售方或购买方的名称及其概率进行文本类别识别,得到每个交集文本区域对应的文本类别及其概率;
LSTM模型,用于对预处理***图像、文本编码向量、销售方或购买方的名称及其概率、每个交集文本区域对应的文本类别及其概率进行特征提取和匹配,得到识别结果。
8.根据权利要求7所述的基于自循环神经网络的***字段识别装置,其特征在于:
所述文字匹配模型具体计算所述文本编码向量对应的文本内容中销售方或购买方名称是预设的销售方或购买方的名单中的某一个销售方或购买方的概率,并输出概率最高的若干个销售方或购买方的名称及其概率;
所述文本类别识别单元具体根据所述文本编码向量和所述文字匹配模型输出的销售方或购买方的名称的概率,识别每个交集文本区域对应的文本类别,计算每个交集文本区域对应着某一个文本类别的概率,输出概率最高的若干个文本类别及其概率。
9.根据权利要求8所述的基于自循环神经网络的***字段识别装置,其特征在于:所述OCR数据处理模块包括:
坐标归一化模块,用于将所述文本矩形的四个端点坐标值按照从上到下、从左到右的顺序进行排列,然后进行归一化处理,将端点坐标值数据归一化至0~1的区间内,得到OCR文本区域。
内容向量化模块,用于采用独热编码对所述文本内容进行SVM向量化处理,得到文本编码向量。
10.一种计算机设备,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求1-5所述的任一种基于自循环神经网络的***字段识别方法。
CN202311009068.1A 2023-08-10 2023-08-10 一种基于自循环神经网络的***字段识别方法和装置 Active CN117115839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311009068.1A CN117115839B (zh) 2023-08-10 2023-08-10 一种基于自循环神经网络的***字段识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311009068.1A CN117115839B (zh) 2023-08-10 2023-08-10 一种基于自循环神经网络的***字段识别方法和装置

Publications (2)

Publication Number Publication Date
CN117115839A true CN117115839A (zh) 2023-11-24
CN117115839B CN117115839B (zh) 2024-04-16

Family

ID=88793963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311009068.1A Active CN117115839B (zh) 2023-08-10 2023-08-10 一种基于自循环神经网络的***字段识别方法和装置

Country Status (1)

Country Link
CN (1) CN117115839B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税***识别方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达***工程股份有限公司 一种基于深度学习的ocr方法
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、***、介质及应用
CN115359502A (zh) * 2022-08-02 2022-11-18 北京如布科技有限公司 一种图像处理方法、装置、设备以及存储介质
CN115457565A (zh) * 2022-09-13 2022-12-09 北京中电汇智科技有限公司 一种ocr文字识别方法、电子设备及存储介质
CN116343237A (zh) * 2021-08-02 2023-06-27 北京工业大学 基于深度学习和知识图谱的票据识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税***识别方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达***工程股份有限公司 一种基于深度学习的ocr方法
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取***及方法
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN116343237A (zh) * 2021-08-02 2023-06-27 北京工业大学 基于深度学习和知识图谱的票据识别方法
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、***、介质及应用
CN115359502A (zh) * 2022-08-02 2022-11-18 北京如布科技有限公司 一种图像处理方法、装置、设备以及存储介质
CN115457565A (zh) * 2022-09-13 2022-12-09 北京中电汇智科技有限公司 一种ocr文字识别方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张振宇;姜贺云;樊明宇;: "一种面向银行票据文字自动化识别的高效人工智能方法", 温州大学学报(自然科学版), no. 03, 25 August 2020 (2020-08-25), pages 51 - 60 *

Also Published As

Publication number Publication date
CN117115839B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
US20230021040A1 (en) Methods and systems for automated table detection within documents
RU2679209C2 (ru) Обработка электронных документов для распознавания инвойсов
CN113378710B (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
CN110675546B (zh) ***图片识别及验真方法、***、设备及可读存储介质
CN111639648A (zh) 证件识别方法、装置、计算设备和存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN113239227B (zh) 图像数据结构化方法、装置、电子设备及计算机可读介质
CN111881923B (zh) 一种基于特征匹配的票据要素提取方法
CN112418812A (zh) 分布式全链路自动化智能通关***、方法及存储介质
US20210334573A1 (en) Text line normalization systems and methods
CN111428656A (zh) 基于深度学习的移动端身份证识别方法、移动设备
CN113963147A (zh) 一种基于语义分割的关键信息提取方法及***
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
US20130218913A1 (en) Parsing tables by probabilistic modeling of perceptual cues
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
US20180018312A1 (en) System and method for monitoring electronic documents
CN111858977A (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN110796145A (zh) 基于智能决策的多证件分割关联方法及相关设备
CN117115839B (zh) 一种基于自循环神经网络的***字段识别方法和装置
WO2019071476A1 (zh) 一种基于智能终端的快递信息录入方法及录入***
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
CN114491134B (zh) 一种商标注册成功率分析方法及***
CN116311299A (zh) 表格的结构化数据识别方法、装置及***
US20230237272A1 (en) Table column identification using machine learning
US20170185832A1 (en) System and method for verifying extraction of multiple document images from an electronic document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant