CN112434555A - 键值对区域识别方法、装置、存储介质和电子设备 - Google Patents
键值对区域识别方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN112434555A CN112434555A CN202011114774.9A CN202011114774A CN112434555A CN 112434555 A CN112434555 A CN 112434555A CN 202011114774 A CN202011114774 A CN 202011114774A CN 112434555 A CN112434555 A CN 112434555A
- Authority
- CN
- China
- Prior art keywords
- key
- area
- value
- text
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000010586 diagram Methods 0.000 claims description 44
- 238000011176 pooling Methods 0.000 claims description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 14
- 230000036541 health Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种键值对区域识别方法。包括:获取目标图片,将目标图片输入键值对区域识别网络,识别目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及按文本属性划分的键区域和值区域,预先采用按照键值对组合分割的文本区域,以及文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到所述识别网络,可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种键值对区域识别方法、一种键值对区域识别装置、一种存储介质及一种电子设备。
背景技术
目前的票据、回单等的报销与数据梳理都是通过人工手工录入,不仅效率较慢,并且成本高。
OCR(Optical Character Recognition,光学字符识别)技术的算法,主要是依据卷积网络定位***上的文字位置,然后通过循环神经网络等识别文字。经过这些步骤后,可以得到孤立的图中的文字位置以及对应的文字识别结果,但其中的关系逻辑是缺失的,需要利用人工规则来区分识别的内容。对于格式较为简单的票据,例如,定额***、增值税***等版式固定的票据,目前主流技术在图像文字清晰可见的条件下,整张识别率可达到90%以上,但处理格式较为复杂,或需特殊规则的场景,例如,银行回单、保险单据等时,在与***同样的图像质量的情况下只有60%左右识别准确率。
总而言之,通过OCR技术和人工规则难以识别格式较为复杂的场景,仍然存在效率低、成本高的问题。
发明内容
鉴于上述问题,提出了一种键值对区域识别方法、一种键值对区域识别装置、存储介质及电子设备,以解决OCR技术和人工规则难以识别格式较为复杂的场景,仍然存在效率低、成本高的问题。
依据本发明的一个方面,提供了一种键值对区域识别方法,包括:
获取目标图片;
将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
可选地,所述由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域包括:
利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
根据所述特征图,生成按照键值对组合分割的文本区域;
对所述文本区域进行分割,生成所述键区域和值区域。
可选地,所述根据所述特征图,生成按照键值对组合分割的文本区域包括:
针对所述特征图上的每个像素点,生成多个候选区域;
识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
对所述目标候选区域进行合并,得到所述文本区域。
可选地,所述利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图包括:
对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
可选地,所述方法还包括:
对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
提供所述键信息和值信息。
可选地,若所述键区域包括多个,在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,所述方法还包括;
检测所述目标图片中的线条信息;
根据所述线条信息,确定所述键区域和值区域的位置信息;
所述提供所述键信息和值信息包括:
根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
可选地,所述目标图片包括用户健康数据、银行回单、财务***中至少一种。
依据本发明的另一个方面,提供了一种键值对区域识别装置,包括:
获取模块,用于获取目标图片;
输入模块,用于将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
识别模块,用于由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
可选地,所述识别模块包括:
特征提取子模块,用于利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
区域生成子模块,用于根据所述特征图,生成按照键值对组合分割的文本区域;
分割子模块,用于对所述文本区域进行分割,生成所述键区域和值区域。
可选地,所述区域生成子模块包括:
区域生成单元,用于针对所述特征图上的每个像素点,生成多个候选区域;
区域识别单元,用于识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
合并单元,用于对所述目标候选区域进行合并,得到所述文本区域。
可选地,所述特征提取子模块包括:
采样单元,用于对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
叠加单元,用于将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
可选地,所述装置还包括:
文本识别模块,用于对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
信息提供模块,用于提供所述键信息和值信息。
可选地,若所述键区域包括多个,所述装置还包括;
检测模块,用于在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,检测所述目标图片中的线条信息;
信息确定模块,用于根据所述线条信息,确定所述键区域和值区域的位置信息;
所述信息提供模块包括:
信息生成模块,用于根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
可选地,所述目标图片包括用户健康数据、银行回单、财务***中至少一种。
依据本发明的另一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述的一个或多个方法。
依据本发明的另一个方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如上述的一个或多个方法。
依据本发明实施例,通过获取目标图片,将所述目标图片输入键值对区域识别网络,由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域,采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到键值对区域识别网络,使得键值对区域识别网络可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例一的一种键值对区域识别方法的流程图;
图2是根据本发明实施例二的一种键值对区域识别方法的流程图;
图3是键值对区域识别过程的示意图;
图4是根据本发明实施例三的一种键值对区域识别装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一中的一种键值对区域识别方法的流程图,具体可以包括:
步骤101,获取目标图片。
目标图片可以包含键值对组合的信息,例如,各类票据、回单等,或者其他任意适用的图片,本发明实施例对此不做限制。
在本发明的一种实施例中,获取目标图片后,需要对目标图片进行预处理,对输入的RGB(RGB color mode,红绿蓝色彩模式)图像进行预处理操作,包括但不限于图像的锐化,去噪等处理。
例如,网络的输入为RGB三通道图像,由于计算能力以及模型推理速度的需要,需将图片尺寸缩放到512×512。
步骤102,将所述目标图片输入键值对区域识别网络。
在本发明实施例中,将目标图片输入训练好的键值对区域识别网络,键值对区域识别网络可以自动对目标图片进行处理,输出识别结果。
在本发明实施例中,在键值对区域识别网络的训练过程中,采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记。
在本发明实施例中,图片样本中可以包含键值对组合的信息,例如,身份证中“姓名”与“张三”互为一对key-value(键值对组合),姓名为key,张三为value。图片样本包括各类票据、回单等,或者其他任意适用的图片,本发明实施例对此不做限制。
在本发明实施例中,为了将每个包含键值对组合的文本区域作为一个目标进行检测,在网络训练时,将训练样本的所有文字区域按键值对组合进行分割,然后对各个键值对组合的文本区域进行标记,例如,将各个键值对组合的文本区域标记为1,将非键值对组合的文本区域标记为0。为了将文本区域做进一步分类,分为按照文本属性划分的键区域和值区域,其中,文本属性包括键值对组合中的键,和键值对组合中的值,在网络训练时,将每个键值对组合的文本区域划分为两个文本框,一个标记为键区域,一个标记为值区域,例如,将key-value区域内的两个文本框分别标记为key和value两个属性。
然后,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到键值对区域识别网络。
在本发明实施例中,将图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,预设的网络结构是一种机器学习模型,经过训练后,能够用来识别图像,在提供一个图像后,训练后的网络可以对图片进行分割,并输出各个区域的标签。采用图片样本以及标记的文本区域、键区域和值区域进行训练,得到的网络记为键值对区域识别网络。键值对区域识别网络可以输出图片中按照键值对组合分割的文本区域,以及文本区域中按照文本属性划分的键区域和值区域。
在本发明实施例中,预设的网络结构包括用于目标检测的网络,和用于图像分类的网络。网络层先对图片进行目标检测,输出图片中的键值对组合的文本区域,再对键值对组合的文本区域中的两个部分进行分类,输出文本区域中的键区域和值区域。在训练时使目标检测的目标函数和分类的目标函数的值最小化,即得到了达到性能目标的键值对区域识别网络。
步骤103,由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
在本发明实施例中,键值对区域识别网络可以识别目标图片中的键值对区域,包括按照键值对组合分割的文本区域,以及对文本区域进行分类,即文本区域中按文本属性划分的键区域和值区域。
例如,利用卷积神经网络对一张图片进行文字区域的检测以及文字区域内key,value项的分类,具体的,本方法首先通过卷积神经网络对输入图片进行多尺度的特征提取,再将不同尺度的特征进行融合,然后对融合后的特征图进行两步操作,第一步,对整张特征图的进行文字区域的分割,将每个包含key-value的文字区域作为一个目标进行检测,第二步,将第一步得到的文字区域做进一步的分类,将这些文字待选区域的文本做分类处理,将其分为key,value属性。
依据本发明实施例,通过获取目标图片,将所述目标图片输入键值对区域识别网络,由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域,采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到键值对区域识别网络,使得键值对区域识别网络可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
实施例二
参照图2,示出了本发明实施例二中的一种键值对区域识别方法的流程图,具体可以包括:
步骤201,获取目标图片。
步骤202,将所述目标图片输入键值对区域识别网络。
步骤203,利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图。
步骤204,根据所述特征图,生成按照键值对组合分割的文本区域。
步骤205,对所述文本区域进行分割,生成所述键区域和值区域。
在本发明实施例中,利用卷积神经网络对图片进行文字检测,构建一个卷积神经网络,该网络主要由三部分模块组成,模块一,通过对图片进行卷积以及融合操作,得到不同尺度的特征,模块二,从融合的特征上回归出含键值对组合的文本区域,模块三,对模块二的文本区域继续分类,将文本区域内的文本框分为键,值两种属性的区域,记为键区域和值区域。
例如,通过卷积神经网络提取不同尺度特征,例如,使用VGG(Visual GeometryGroup Network,视觉几何组网络),ResNet(Residual Networks,残差网络)等,并进行特征融合输出。如图3所示的键值对区域识别过程的示意图。
特征提取中的卷积池化1包括1个卷积层和1个池化层,采用64个3×3的卷积核和1个max pooling(最大采样)的池化层。
特征提取中的卷积池化2包括2个卷积层和1个池化层,采用128个3×3的卷积核和1个max pooling的池化层。
特征提取中的卷积池化3包括3个卷积层和1个池化层,先采用2层256个3×3的卷积核,再使用1层256个1×1的卷积层和1个max pooling的池化层。
特征提取中的卷积池化4包括3个卷积层和1个池化层,先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个max pooling的池化层。
特征提取中的卷积池化5包括3个卷积层和1个池化层,先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个max pooling的池化层。
在本发明的一种可选实施例中,利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图的一种实现方式中,可以包括:对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
上采样(或称为放大图像或图像插值)的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息,因此图像的质量将不可避免地受到影响。然而,确实有一些缩放方法能够增加图像的信息,从而使得缩放后的图像质量超过原图质量的。
例如,如图3所示,特征融合操作,将上述操作的最后一个池化层首先做一个上采样操作,将其尺寸恢复到与它卷积池化操作的上一步的结果,然后将其与卷积池化4中的池化层进行直接叠加得到一个新的特征图,再按同样的方式,与卷积池化3,卷积池化2中的特征图进行融合,得到融合后的特征图。
在本发明的一种可选实施例中,根据所述特征图,生成按照键值对组合分割的文本区域的一种实现方式中,可以包括:针对所述特征图上的每个像素点,生成多个候选区域;识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;对所述目标候选区域进行合并,得到所述文本区域。
如图3所示,键值对组合的待选区的生成,在上一步输出的特征图上,针对每个像素点生成8个待选的候选框,即候选区域。候选区域具有不同的尺寸。然后利用回归的方式,通过阈值过滤,回归出值为1的候选区域,即识别多个候选区域中与键值对组合匹配的待选区域,记为目标候选区域。然后利用NMS(Non-Maximum Suppression,非极大抑制)算法,将这些目标候选区域合并为键值对组合的文本区域。
下一步进行文本区域内的键,值分类,通常,在文本区域内含2个文本框。然后在每个文本区域内,利用回归的方法回归出键,值属性的文本框。
依据本发明实施例,通过获取目标图片,将所述目标图片输入键值对区域识别网络,利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图,根据所述特征图,生成按照键值对组合分割的文本区域,对所述文本区域进行分割,生成所述键区域和值区域,使得键值对区域识别网络可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
在本发明的一种可选实施例中,所述方法还包括:对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;提供所述键信息和值信息。
在得到文本区域,以及键区域和值区域后,通过文本识别,得到键区域内的键属性的键信息和值区域内的值属性的值信息,然后提供键信息和值信息。例如,结构化输出键信息和值信息。
在本发明的一种可选实施例中,若所述键区域包括多个,在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,所述方法还包括;检测所述目标图片中的线条信息;根据所述线条信息,确定所述键区域和值区域的位置信息;提供所述键信息和值信息的一种实现方式,包括:根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
如图3所示,若只有一对文本区域,则将这一对键值对组合的文本区域按类别输出,若含多个键区域,多是类似于表格区域的表头文本行,对此类区域需做以下操作,检测表格表头文本行下方的直线。然后利用图像处理的方式复原格式,得到表格的位置信息,然后利用表头的文本框来匹配表格内的每一个值区域,按行输出文本框,将表头的类别置为table-key,将表内内容置为table-value。将上述的key-value文本框进行识别,即得到结构化输出的结果。
在本发明的一种可选实施例中,目标图片包括用户健康数据、银行回单、财务***等,或者其他任意适用的图片,本发明实施例对此不做限制。
用户健康数据包括体检报告、诊断记录、人的各类健康指标和医疗记录等健康类影像数据。采用本发明的键值对区域识别网络可以识别到相应的键区域和值区域。具体可以采用用户健康数据、银行回单、财务***等中至少一种的样本数据训练键值对区域识别网络,也可以采用用户健康数据的样本数据,训练得到键值对区域识别网络用于识别用户健康数据,采用银行回单的样本数据,训练得到键值对区域识别网络用于识别银行回单,采用财务***的样本数据,训练得到键值对区域识别网络用于识别财务***。
实施例三
参照图4,示出了本发明实施三中的一种键值对区域识别装置的结构框图,具体可以包括:
获取模块301,用于获取目标图片;
输入模块302,用于将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
识别模块303,用于由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
可选地,所述识别模块包括:
特征提取子模块,用于利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
区域生成子模块,用于根据所述特征图,生成按照键值对组合分割的文本区域;
分割子模块,用于对所述文本区域进行分割,生成所述键区域和值区域。
可选地,所述区域生成子模块包括:
区域生成单元,用于针对所述特征图上的每个像素点,生成多个候选区域;
区域识别单元,用于识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
合并单元,用于对所述目标候选区域进行合并,得到所述文本区域。
可选地,所述特征提取子模块包括:
采样单元,用于对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
叠加单元,用于将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
可选地,所述装置还包括:
文本识别模块,用于对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
信息提供模块,用于提供所述键信息和值信息。
可选地,若所述键区域包括多个,所述装置还包括;
检测模块,用于在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,检测所述目标图片中的线条信息;
信息确定模块,用于根据所述线条信息,确定所述键区域和值区域的位置信息;
所述信息提供模块包括:
信息生成模块,用于根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
可选地,所述目标图片包括用户健康数据、银行回单、财务***中至少一种。
依据本发明实施例,通过获取目标图片,将所述目标图片输入键值对区域识别网络,由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域,采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到键值对区域识别网络,使得键值对区域识别网络可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例中,所述键值对区域识别网络生成装置包括处理器和存储器,上述模块以及子模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过获取目标图片,将所述目标图片输入键值对区域识别网络,由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域,采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到键值对区域识别网络,使得键值对区域识别网络可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述键值对区域识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述键值对区域识别方法。
本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取目标图片;
将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
可选地,所述由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域包括:
利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
根据所述特征图,生成按照键值对组合分割的文本区域;
对所述文本区域进行分割,生成所述键区域和值区域。
可选地,所述根据所述特征图,生成按照键值对组合分割的文本区域包括:
针对所述特征图上的每个像素点,生成多个候选区域;
识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
对所述目标候选区域进行合并,得到所述文本区域。
可选地,所述利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图包括:
对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
可选地,所述方法还包括:
对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
提供所述键信息和值信息。
可选地,若所述键区域包括多个,在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,所述方法还包括;
检测所述目标图片中的线条信息;
根据所述线条信息,确定所述键区域和值区域的位置信息;
所述提供所述键信息和值信息包括:
根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
可选地,所述目标图片包括用户健康数据、银行回单、财务***中至少一种。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种键值对区域识别方法,其特征在于,包括:
获取目标图片;
将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
2.根据权利要求1所述的方法,其特征在于,所述由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域包括:
利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
根据所述特征图,生成按照键值对组合分割的文本区域;
对所述文本区域进行分割,生成所述键区域和值区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述特征图,生成按照键值对组合分割的文本区域包括:
针对所述特征图上的每个像素点,生成多个候选区域;
识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
对所述目标候选区域进行合并,得到所述文本区域。
4.根据权利要求2所述的方法,其特征在于,所述利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图包括:
对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
提供所述键信息和值信息。
6.根据权利要求5所述的方法,其特征在于,若所述键区域包括多个,在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,所述方法还包括;
检测所述目标图片中的线条信息;
根据所述线条信息,确定所述键区域和值区域的位置信息;
所述提供所述键信息和值信息包括:
根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
7.根据权利要求1所述的方法,其特征在于,所述目标图片包括用户健康数据、银行回单、财务***中至少一种。
8.一种键值对区域识别装置,其特征在于,包括:
获取模块,用于获取目标图片;
输入模块,用于将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
识别模块,用于由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至7任一项所述的方法。
10.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114774.9A CN112434555B (zh) | 2020-10-16 | 2020-10-16 | 键值对区域识别方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114774.9A CN112434555B (zh) | 2020-10-16 | 2020-10-16 | 键值对区域识别方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434555A true CN112434555A (zh) | 2021-03-02 |
CN112434555B CN112434555B (zh) | 2024-04-09 |
Family
ID=74695658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011114774.9A Active CN112434555B (zh) | 2020-10-16 | 2020-10-16 | 键值对区域识别方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434555B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092948A (zh) * | 2021-11-24 | 2022-02-25 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
CN115116060A (zh) * | 2022-08-25 | 2022-09-27 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质和计算机程序产品 |
CN115546488A (zh) * | 2022-11-07 | 2022-12-30 | 北京百度网讯科技有限公司 | 信息分割方法、信息提取方法和信息分割模型的训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032842A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Performing optical character recognition using spatial information of regions within a structured document |
US20190050639A1 (en) * | 2017-08-09 | 2019-02-14 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
CN110569361A (zh) * | 2019-09-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN111177302A (zh) * | 2019-12-16 | 2020-05-19 | 金蝶软件(中国)有限公司 | 业务单据处理方法、装置、计算机设备和存储介质 |
CN111368527A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种键值匹配方法 |
US20200273078A1 (en) * | 2019-02-27 | 2020-08-27 | Google Llc | Identifying key-value pairs in documents |
-
2020
- 2020-10-16 CN CN202011114774.9A patent/CN112434555B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032842A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Performing optical character recognition using spatial information of regions within a structured document |
US20190050639A1 (en) * | 2017-08-09 | 2019-02-14 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
US20200273078A1 (en) * | 2019-02-27 | 2020-08-27 | Google Llc | Identifying key-value pairs in documents |
CN110569361A (zh) * | 2019-09-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN111177302A (zh) * | 2019-12-16 | 2020-05-19 | 金蝶软件(中国)有限公司 | 业务单据处理方法、装置、计算机设备和存储介质 |
CN111368527A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种键值匹配方法 |
Non-Patent Citations (1)
Title |
---|
ANOOP R KATTI ∗ ET AL.: "Chargrid: Towards Understanding 2D Documents", 《ARXIV》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092948A (zh) * | 2021-11-24 | 2022-02-25 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
WO2023093014A1 (zh) * | 2021-11-24 | 2023-06-01 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
CN114092948B (zh) * | 2021-11-24 | 2023-09-22 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
CN115116060A (zh) * | 2022-08-25 | 2022-09-27 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质和计算机程序产品 |
CN115116060B (zh) * | 2022-08-25 | 2023-01-24 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质 |
CN115546488A (zh) * | 2022-11-07 | 2022-12-30 | 北京百度网讯科技有限公司 | 信息分割方法、信息提取方法和信息分割模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112434555B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434555B (zh) | 键值对区域识别方法、装置、存储介质和电子设备 | |
CN107690657B (zh) | 根据影像发现商户 | |
CN111681273B (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
US20150287168A1 (en) | Duplicate check image resolution | |
CN113158895B (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN113505781B (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN111652266A (zh) | 用户界面组件的识别方法、装置、电子设备和存储介质 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN110879972A (zh) | 一种人脸检测方法及装置 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
CN114581928A (zh) | 一种表格识别方法及*** | |
CN113780116A (zh) | ***分类方法、装置、计算机设备和存储介质 | |
CN112396060A (zh) | 基于身份证分割模型的身份证识别方法及其相关设备 | |
Yue | Automated Receipt Image Identification, Cropping, and Parsing | |
CN111242112A (zh) | 一种图像处理方法、身份信息处理方法及装置 | |
CN113902938B (zh) | 一种图像的聚类方法和装置以及设备 | |
CN113888758B (zh) | 一种基于复杂场景中的弯曲文字识别方法和*** | |
Rahul et al. | Reading industrial inspection sheets by inferring visual relations | |
Antunes | OMECO: Generating personalized business card designs from images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |