CN115035539A - 文档异常检测网络模型构建方法、装置、电子设备及介质 - Google Patents

文档异常检测网络模型构建方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115035539A
CN115035539A CN202210964812.2A CN202210964812A CN115035539A CN 115035539 A CN115035539 A CN 115035539A CN 202210964812 A CN202210964812 A CN 202210964812A CN 115035539 A CN115035539 A CN 115035539A
Authority
CN
China
Prior art keywords
document
image
abnormal
network model
detection network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210964812.2A
Other languages
English (en)
Other versions
CN115035539B (zh
Inventor
冯德亮
孙铁
陈奕均
毛奔
冯伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210964812.2A priority Critical patent/CN115035539B/zh
Publication of CN115035539A publication Critical patent/CN115035539A/zh
Application granted granted Critical
Publication of CN115035539B publication Critical patent/CN115035539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimiles In General (AREA)

Abstract

本申请实施例提供了一种文档异常检测网络模型构建方法、装置、电子设备及介质,属于人工智能技术领域。其中方法包括:基于正常文档图像随机选取文字区域,根据文字区域生成文档异常图像样本集,文档异常图像样本集包括多个文档异常图像样本;对各文档异常图像进行文档异常打标,生成各打标后图像样本对应的打标信息文件;从多个打标信息文件中抽取第一样本数量的打标信息文件,根据第一样本数量的打标信息文件生成训练图像索引列表;根据真实边界框、训练图像索引列表、文档异常训练图像对初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。这样,可以通过模型对文档图像进行文档异常检测,提高文档异常检测的自动化程度和准确度。

Description

文档异常检测网络模型构建方法、装置、电子设备及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文档异常检测网络模型构建方法、装置、电子设备及介质。
背景技术
目前各类文档图像中包括由用户拍摄得到的文档图像和扫描得到的文档图像,由客户上传的文档图像存在文字重叠和文字被遮挡的情况,业内暂时还没有能较好直接将文字分离和将遮挡信息直接补全正确的方案。因此,亟需提供一种对文档图像的文字重叠和文字被遮挡等异常文字情况进行分析的方案。
发明内容
为了解决上述技术问题,本申请实施例提供了一种文档异常检测网络模型构建方法、装置、电子设备及介质。
第一方面,本申请实施例提供了一种文档异常检测网络模型构建方法,所述方法包括:
基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
第二方面,本申请实施例提供了一种文档图像的文档异常检测方法,所述方法包括:
向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据第一方面提供的文档异常检测网络模型构建方法获取得到;
通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
第三方面,本申请实施例提供了一种文档异常检测网络模型构建装置,所述装置包括:
选取模块,用于基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
打标模块,用于对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定模块,用于确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
训练模块,用于基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
第四方面,本申请实施例提供了一种文档图像的文档异常检测装置,所述装置包括:
输入模块,用于向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据第一方面提供的文档异常检测网络模型构建方法获取得到;
检测模块,用于通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
生成模块,用于根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
第五方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的文档异常检测网络模型构建方法,或执行第二方面提供的文档图像的文档异常检测方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的文档异常检测网络模型构建方法,或执行第二方面提供的文档图像的文档异常检测方法。
上述本申请提供的文档异常检测网络模型构建方法、装置、电子设备及介质,通过文档异常检测网络模型可以对文档图像进行文档异常检测,避免文字非常小的情况下难以定位、文字有缺失部分存在干扰等因素对文档异常检测的影响,提高文档异常检测的自动化程度和准确度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的文档异常检测网络模型构建方法的一流程示意图;
图2示出了本申请实施例提供的文档异常检测网络模型构建方法的另一流程示意图;
图3示出了本申请实施例提供的文档图像的文档异常检测方法的一流程示意图;
图4示出了本申请实施例提供的文档异常检测网络模型构建装置的一结构示意图;
图5示出了本申请实施例提供的文档图像的文档异常检测装置的一结构示意图;
图6示出了本申请实施例提供的电子设备的一结构示意图。
图标:400-文档异常检测网络模型构建装置,401-选取模块,402-打标模块,403-确定模块,404-训练模块,500-文档图像的文档异常检测装置,501-输入模块,502-检测模块,503-生成模块,600-电子设备,601-收发机,602-处理器,603-存储器。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
本公开实施例提供了一种文档异常检测网络模型构建方法。
参见图1,文档异常检测网络模型构建方法包括:
步骤S101,基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集。
在本实施例中,自动化地对正常文档图像随机挑选一个或多个位置区域,可以通过光学字符识别(Optical Character Recognition,OCR)确认文字位置,并获取文本内容组成的文本内部集合。所述文档异常图像样本集包括多个文档异常图像样本。需要说明的是,正常文档图像又可以称为正常文档影像,可以为扫描正常文档得到的正常文档扫描文件,也可以为用户拍照得到的正常文档照片,在此不做限制。
在一实施方式中,步骤S101中的根据所述文字区域生成文档异常图像样本集,包括:
通过OCR确定所述文字区域的文字位置,并获取所述文字位置对应的文本内容集合;
通过OPENCV图像处理算遮挡文本的打标过程,法获取所述文本内容集合在所述正常文档图像的背景和字体颜色,通过所述文字位置的宽高及文本行数计算字号,根据所述背景、所述字体颜色、所述字号构建边缘框;
根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本。
在本实施例中,OPENCV图像处理算法可以提供图像二值化处理、腐蚀处理、滤波处理和模糊处理等图像处理算法,通过OPENCV图像处理算法提供的各类处理算法可以文本内容集合在正常文档图像的背景和字体颜色,例如,文本内容集合为“今天天气晴”,OPENCV图像处理算法可以确定“今天天气晴”在原始的正常文档图像的背景为黑色背景,字体颜色为黄色。字号表示文字大小式样,例如4号字体。边缘框用于在正常文档图像的原文字框上滑动,通过边缘框与原文字框的交并比控制生成不同的文档异常图像样本。
在一实施方式中,所述文档异常图像样本包括文本重叠样本和/或文本遮挡样本,所述根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本,包括:
通过计算所述边缘框和原文字框的交并比构建所述文本重叠样本;和/或,
根据所述文本内容集合通过预设文本框对所述正常文档图像进行遮挡,得到所述文本遮挡样本。
在本实施例中,通过移动边缘框与原文字框的交并比控制文档重叠的面积,生成文本重叠样本。利用文本内容集合通过预设文本框左右随机进行一定范围的蒙层遮挡,生成文本遮挡样本。其中,文本遮挡样本均包含一个或多个异常区域,异常区域可以为文本重叠区域和文本遮挡区域。
步骤S102,对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件。
在一实施方式中,所述打标信息文件包括自定义图像对象名、图像文件名、图像文件路径、图像尺寸和文档异常坐标信息。
示范性的,采用开源labelImg工具进行打标,打标即用矩形框出遮挡位置区域,设置遮挡区域对象名如hid,然后根据遮挡位置区域、遮挡区域对象名生成打标信息文件,打标信息文件可以为打标xml文件。例如,打标xml文件内包含所打标的自定义图像对象名为photo1,图像文件名,图像文件路径,图像大小对应宽、高、深度,遮挡区域位置最小x坐标、最小y坐标、最大x坐标、最大y坐标,以及遮挡区域对象名为hid。将打标xml文件放在另一文件夹。
需要说明的是,重叠文本的打标过程、保存过程与遮挡文本的打标过程、保存过程具有相类似的步骤,同一个图像打标后的打标内容均保存在同一个打标xml文件下,打标时对应的遮挡和重叠的对象名标签也可以表示为0和1,也可以用英文命名为hid等,在此不做限制。
步骤S103,确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表。
示范性的,将训练样本和测试样本的比例设置为9:1,根据9:1的比例确定第一样本数量和第二样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,将第一样本数量的打标信息文件对应的打标后图像样本组成训练图像索引列表,根据所述训练图像索引列表查找对应的文档异常图像,根据查找到的文档异常图像生成文档异常图像训练集。
通过随机抽取打标信息文件,根据抽取到的打标信息文件确定图像文件名,去除图像文件名后缀(如.jpg)后,作为训练图像索引,将训练图像索引保存至txt,以单行形式保存,得到训练图像索引列表。根据训练图像索引列表能够同时获取打标信息文件对应的打标标签内容和原始图像。
步骤S104,基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
示范性的,采用YOLO框架基础,在Darknet53的每个大残差块上加上交叉阶段部分连接(CSP),对应layer0~layer104,构成骨干网络(backbone),增加空间金字塔池化来增加网络的感受野,实现对layer107进行5×5、9×9、13×13的最大池化,分别得到layer108、layer110和layer112,完成池化后,将其连接(concatenete),连接成layer114,并通过1×1降维到512个通道,在FPN基础之上,通过上采样(Upsample)之后,加上下采样(DownSample)的操作,由此实现特征融合,得到初始文档异常检测网络模型。
采用M60四卡训练,根据显存大小适当适配调整输入初始文档异常检测网络模型的图像大小为416×416,将待检测图像输入初始文档异常检测网络模型。对于训练模型参数来说,采用了Mosaic数据增强,label smoothing平滑,CIOU,学习率余弦退火衰减,Mish激活函数,另训练过程中,主干网络提取网络特征通用冻结训练可以加快训练速度,也可以在训练初期防止权值被破坏。示范性的,训练200个epoch(epoch即为一次训练过程),前100个epoch初始学习率设置为le-3,batch_size(batch_size即为每批数据量的大小)为4,后100个epoch经过尝试加快训练速度和让显存使用减少将初始学习率设置为le-4,batch_size为2。
请参阅图2,步骤S104中的根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,包括:
步骤S1041,通过所述初始文档异常检测网络模型加载所述训练图像索引列表对应的打标信息文件,获取加载到的打标信息文件的文档异常坐标信息,将所述真实边界框的尺寸信息作为K-means聚类的输入数据;
步骤S1042,根据所述文档异常坐标信息、所述真实边界框的尺寸信息和所述文档异常训练图像对所述初始文档异常检测网络模型进行训练。
示范性的,首先加载打标文件夹中的打标xml文件获取打标的各遮挡和重叠区域位置最小x坐标、最小y坐标、最大x坐标、最大y坐标,然后作为K-means聚类的输入数据是真实边界框(ground truth bounding box)的宽度和高度,考虑在不同尺寸下的场景,每个真实边界框的尺寸不一,非常有必要来标准化边界框的宽度和高度、以及标准化图像的宽度和高度。
需要补充说明的是,本实施例提供的文档异常检测网络模型构建方法,还包括:
将各所述文档异常图像存入图像文件夹;
将各所述打标信息文件存入打标文件夹,其中,所述打标文件夹下的各打标信息文件与所述图像文件夹下的各文档异常图像一一对应。
在本实施例中,将文本重叠样本、文本遮挡样本保存在同一个图像文件夹下。自动生成的文本重叠样本、文本遮挡样本均达万级,也可以更大规模数量,在此不做限制。示范性的,将打标xml文件放在打标文件夹中。
进一步补充说明的是,本实施例提供的文档异常检测网络模型构建方法,还包括:
确定文档异常图像测试集的第二样本数量;
从多个所述打标信息文件中抽取所述第二样本数量的打标信息文件,根据所述第二样本数量的打标信息文件生成测试图像索引列表;
通过所述文档异常检测网络模型根据所述测试图像索引列表对应的文档异常坐标信息和文档异常测试图像确定文档异常结果的误检率和漏检率。
本实施例提供的文档异常检测网络模型构建方法,基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型,通过文档异常检测网络模型可以对文档图像进行文档异常检测,提高文档异常检测的自动化程度和准确度。
实施例2
本公开实施例提供了一种文档图像的文档异常检测方法。
参见图3,文档图像的文档异常检测方法包括:
步骤S301,向文档异常检测网络模型输入待检测文档图像。
在本实施例中,所述文档异常检测网络模型根据实施例1提供的文档异常检测网络模型构建方法获取得到。
在本实施例中,采用实施例1提供的文档异常检测网络模型构建方法获取文档异常检测网络模型,详细过程参见实施例1,未避免重复,在此不做限制。
步骤S302,通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别。
示范性的,对象置信度(confidence)是一个边界框包含某个物体的可能性大小以及位置的准确性(即是否恰好包裹遮挡区域),其公式表达Pr(hid)×IOU,IOU为预测和真实值之间的交并比,在训练过程中其标签的Pr(hid)×IOU为1,在预测时,confidence为预测值;在预测是否是遮挡(遮挡区域对象名如hid)时,具有该文档异常类别的条件概率值,即在置信度confidence下的类别概率,所以最终的分值(scores)为置信度confidence×类别概率。通过类别概率大于预设置参数0.5进行初步筛选,得到初步筛选后的所有类别下全部预测结果,通过置信度confidence×类别概率的大小对剩余所有类别下全部预测结果进行排序,排序得到结果取出最大分值(scores),并同时满足非极大值抑制去除重合程度大于预设值参数0.4,得到最终各类别下最优预测结果。
步骤S303,根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
在一实施方式中,步骤S303包括:
根据文档异常坐标信息确定异常回归位置;
根据所述对象置信度和所述类别概率的积值确定文档异常分值;
根据所述所属类别确定各类别文档异常的数量。
示范性的,文档异常输出结果为(x1,y1,x2,y2,obj_conf,class_conf,class_pred),分别表示最小x坐标、最小y坐标、最大x坐标、最大y坐标,对象置信度,类别概率,所属类别。举例来说,文档遮挡异常的数量,即找到所属类别的遮挡区域对象hid的结果,判断对应结果数量,如果为0则没有文档遮挡异常。如果有N个,则对应文档遮挡异常的数量为N个;文档遮挡的位置可以从文档异常输出结果对应x1,y1,x2,y2直接获取,其最终的分值(scores)为文档异常输出结果中obj_conf×class_conf。
上述举例中,得到了文档遮挡回归位置、文档遮挡异常的数量及预测分值。文档重叠回归位置、文档重叠异常的数量及预测scores的获取方式与文档遮挡回归位置、文档遮挡异常的数量及预测分值相类似,在此不做赘述。
这样,实现文档重叠和文档遮挡等异常情况的检测,其误检和漏检率接近于0.1以下,对用户上传的文档图像提供了诊断能力,并让上传的文档图层提供质量保障。
本实施例提供的文档图像的文档异常检测方法,通过文档异常检测网络模型可以对文档图像进行文档异常检测,避免文字非常小的情况下难以定位、文字有缺失部分存在干扰等因素对文档异常检测的影响,提高文档异常检测的自动化程度和准确度。
实施例3
此外,本公开实施例提供了一种文档异常检测网络模型构建装置。
如图4所示,文档异常检测网络模型构建装置400包括:
选取模块401,用于基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
打标模块402,用于对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定模块403,用于确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
训练模块404,用于基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
在一实施方式中,训练模块404,还用于通过所述初始文档异常检测网络模型加载所述训练图像索引列表对应的打标信息文件,获取加载到的打标信息文件的文档异常坐标信息,将所述真实边界框的尺寸信息作为K-means聚类的输入数据;
根据所述文档异常坐标信息、所述真实边界框的尺寸信息和所述文档异常训练图像对所述初始文档异常检测网络模型进行训练。
在一实施方式中,选取模块401,还用于通过OCR确定所述文字区域的文字位置,并获取所述文字位置对应的文本内容集合;
通过OPENCV图像处理算法获取所述文本内容集合在所述正常文档图像的背景和字体颜色,通过所述文字位置的宽高及文本行数计算字号,根据所述背景、所述字体颜色、所述字号构建边缘框;
根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本。
在一实施方式中,所述文档异常图像样本包括文本重叠样本和/或文本遮挡样本,选取模块401,还用于通过计算所述边缘框和原文字框的交并比构建所述文本重叠样本;和/或,
根据所述文本内容集合通过预设文本框对所述正常文档图像进行遮挡,得到所述文本遮挡样本。
在一实施方式中,文档异常检测网络模型构建装置400还包括:
保存模块,用于将各所述文档异常图像存入图像文件夹;
将各所述打标信息文件存入打标文件夹,其中,所述打标文件夹下的各打标信息文件与所述图像文件夹下的各文档异常图像一一对应。
在一实施方式中,所述打标信息文件包括自定义图像对象名、图像文件名、图像文件路径、图像尺寸和文档异常坐标信息。
在一实施方式中,文档异常检测网络模型构建装置400还包括:
确定模块403,还用于确定文档异常图像测试集的第二样本数量;
从多个所述打标信息文件中抽取所述第二样本数量的打标信息文件,根据所述第二样本数量的打标信息文件生成测试图像索引列表;
通过所述文档异常检测网络模型根据所述测试图像索引列表对应的文档异常坐标信息和文档异常测试图像确定文档异常结果的误检率和漏检率。
本实施例提供的文档异常检测网络模型构建装置400可以实现实施例1所提供的文档异常检测网络模型构建方法,为避免重复,在此不再赘述。
本实施例提供的文档异常检测网络模型构建装置,基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型,通过文档异常检测网络模型可以对文档图像进行文档异常检测,提高文档异常检测的自动化程度和准确度。
实施例4
此外,本公开实施例提供了一种文档图像的文档异常检测装置。
如图5所示,文档图像的文档异常检测装置500包括:
输入模块501,用于向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据实施例1提供的文档异常检测网络模型构建方法获取得到;
检测模块502,用于通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
生成模块503,用于根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
在一实施方式中,生成模块503,还用于根据文档异常坐标信息确定异常回归位置;
根据所述对象置信度和所述类别概率的积值确定文档异常分值;
根据所述所属类别确定各类别文档异常的数量。
实施例5
此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的文档异常检测网络模型构建方法或实施例2所提供的文档图像的文档异常检测方法。
具体的,参见图6,所述电子设备600包括:收发机601、总线接口及处理器602,所述计算机程序在所述处理器602上运行时执行实施例1所提供的文档异常检测网络模型构建方法,具体的,所述处理器602,用于:基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
此外,所述计算机程序在所述处理器上运行时执行实施例2所提供的文档图像的文档异常检测方法,具体的,所述处理器602,还用于:向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据实施例1提供的文档异常检测网络模型构建方法获取得到;
通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
在本发明实施例中,电子设备600还包括:存储器603。在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器602代表的一个或多个处理器和存储器603代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机601可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线架构和通常的处理,存储器603可以存储处理器602在执行操作时所使用的数据。
本发明实施例提供的电子设备600,可以执行上述方法实施例1中的文档异常检测网络模型构建方法的步骤,或实施例2中的文档图像的文档异常检测方法的步骤,不再赘述。
本实施例提供的电子设备,基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型,通过文档异常检测网络模型可以对文档图像进行文档异常检测,提高文档异常检测的自动化程度和准确度。
实施例6
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的文档异常检测网络模型构建方法,或者实现实施例2所提供的文档图像的文档异常检测方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实现实施例1所提供的文档异常检测网络模型构建方法,或者实现实施例2所提供的文档图像的文档异常检测方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (13)

1.一种文档异常检测网络模型构建方法,其特征在于,所述方法包括:
基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
2.根据权利要求1所述的方法,其特征在于,所述根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常图像对所述初始文档异常检测网络模型进行训练,包括:
通过所述初始文档异常检测网络模型加载所述训练图像索引列表对应的打标信息文件,获取加载到的打标信息文件的文档异常坐标信息,将所述真实边界框的尺寸信息作为K-means聚类的输入数据;
根据所述文档异常坐标信息、所述真实边界框的尺寸信息和所述文档异常训练图像对所述初始文档异常检测网络模型进行训练。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文字区域生成文档异常图像样本,包括:
通过OCR确定所述文字区域的文字位置,并获取所述文字位置对应的文本内容集合;
通过OPENCV图像处理算法获取所述文本内容集合在所述正常文档图像的背景和字体颜色,通过所述文字位置的宽高及文本行数计算字号,根据所述背景、所述字体颜色、所述字号构建边缘框;
根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本。
4.根据权利要求3所述的方法,其特征在于,所述文档异常图像样本包括文本重叠样本和/或文本遮挡样本,所述根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本,包括:
通过计算所述边缘框和原文字框的交并比构建所述文本重叠样本;和/或,
根据所述文本内容集合通过预设文本框对所述正常文档图像进行遮挡,得到所述文本遮挡样本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将各所述文档异常图像存入图像文件夹;
将各所述打标信息文件存入打标文件夹,其中,所述打标文件夹下的各打标信息文件与所述图像文件夹下的各文档异常图像一一对应。
6.根据权利要求1所述的方法,其特征在于,所述打标信息文件包括自定义图像对象名、图像文件名、图像文件路径、图像尺寸和文档异常坐标信息。
7.根据权利要求1所述的方法,其特征在于,所述方法包括:
确定文档异常图像测试集的第二样本数量;
从多个所述打标信息文件中抽取所述第二样本数量的打标信息文件,根据所述第二样本数量的打标信息文件生成测试图像索引列表;
通过所述文档异常检测网络模型根据所述测试图像索引列表对应的文档异常坐标信息和文档异常测试图像确定文档异常结果的误检率和漏检率。
8.一种文档图像的文档异常检测方法,其特征在于,所述方法包括:
向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据权利要求1-7中任一项所述的文档异常检测网络模型构建方法获取得到;
通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
9.根据权利要求8所述的方法,其特征在于,所述根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果,包括:
根据文档异常坐标信息确定异常回归位置;
根据所述对象置信度和所述类别概率的积值确定文档异常分值;
根据所述所属类别确定各类别文档异常的数量。
10.一种文档异常检测网络模型构建装置,其特征在于,所述装置包括:
选取模块,用于基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;
打标模块,用于对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;
确定模块,用于确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;
训练模块,用于基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。
11.一种文档图像的文档异常检测装置,其特征在于,所述装置包括:
输入模块,用于向文档异常检测网络模型输入待检测文档图像,所述文档异常检测网络模型根据权利要求1-7中任一项所述的文档异常检测网络模型构建方法获取得到;
检测模块,用于通过所述文档异常检测网络模型对所述待检测文档图像进行检测,得到文档异常输出结果,所述文档异常输出结果包括文档异常坐标信息、对象置信度、类别概率和所属类别;
生成模块,用于根据文档异常坐标信息、对象置信度、类别概率和所属类别生成文档异常检测结果。
12.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的文档异常检测网络模型构建方法,或者执行权利要求8或9所述的文档图像的文档异常检测方法。
13.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的文档异常检测网络模型构建方法,或者执行权利要求8或9所述的文档图像的文档异常检测方法。
CN202210964812.2A 2022-08-12 2022-08-12 文档异常检测网络模型构建方法、装置、电子设备及介质 Active CN115035539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964812.2A CN115035539B (zh) 2022-08-12 2022-08-12 文档异常检测网络模型构建方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964812.2A CN115035539B (zh) 2022-08-12 2022-08-12 文档异常检测网络模型构建方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN115035539A true CN115035539A (zh) 2022-09-09
CN115035539B CN115035539B (zh) 2022-10-28

Family

ID=83130080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964812.2A Active CN115035539B (zh) 2022-08-12 2022-08-12 文档异常检测网络模型构建方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115035539B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116305172A (zh) * 2023-05-23 2023-06-23 北京安天网络安全技术有限公司 OneNote文档的检测方法、装置、介质及设备
CN116361193A (zh) * 2023-05-16 2023-06-30 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149865A1 (en) * 2004-01-06 2005-07-07 Microsoft Corporation Positionally encoded document image analysis and labeling
US20200202256A1 (en) * 2018-12-24 2020-06-25 Icertis, Inc. Automated training and selection of models for document analysis
US20220051043A1 (en) * 2020-08-11 2022-02-17 Nationstar Mortgage LLC, d/b/a/ Mr. Cooper Systems and methods for stamp detection and classification
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114419641A (zh) * 2022-03-15 2022-04-29 腾讯科技(深圳)有限公司 文本分离模型的训练方法、装置、电子设备和存储介质
CN114638957A (zh) * 2022-03-14 2022-06-17 北京感易智能科技有限公司 文本分离方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149865A1 (en) * 2004-01-06 2005-07-07 Microsoft Corporation Positionally encoded document image analysis and labeling
US20200202256A1 (en) * 2018-12-24 2020-06-25 Icertis, Inc. Automated training and selection of models for document analysis
US20220051043A1 (en) * 2020-08-11 2022-02-17 Nationstar Mortgage LLC, d/b/a/ Mr. Cooper Systems and methods for stamp detection and classification
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114638957A (zh) * 2022-03-14 2022-06-17 北京感易智能科技有限公司 文本分离方法、装置、电子设备和存储介质
CN114419641A (zh) * 2022-03-15 2022-04-29 腾讯科技(深圳)有限公司 文本分离模型的训练方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENRIQUEF. DE ARRUDA ET.AL: "Paragraph-based representation of texts: A complex networks approach", 《INFORMATION PROCESSING & MANAGEMENT》 *
刘一帆: "基于卷积网络的自然场景文本检测研究", 《中国优秀硕士学位论文全文数据库 基于卷积网络的自然场景文本检测研究 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361193A (zh) * 2023-05-16 2023-06-30 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置
CN116361193B (zh) * 2023-05-16 2023-08-22 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置
CN116305172A (zh) * 2023-05-23 2023-06-23 北京安天网络安全技术有限公司 OneNote文档的检测方法、装置、介质及设备
CN116305172B (zh) * 2023-05-23 2023-08-04 北京安天网络安全技术有限公司 OneNote文档的检测方法、装置、介质及设备

Also Published As

Publication number Publication date
CN115035539B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN115035539B (zh) 文档异常检测网络模型构建方法、装置、电子设备及介质
CN112016438B (zh) 一种基于图神经网络识别证件的方法及***
US8693790B2 (en) Form template definition method and form template definition apparatus
EP3869385A1 (en) Method for extracting structural data from image, apparatus and device
JP2005302011A (ja) スキャン・ドキュメントから電子フォームに取り込むための方法および装置
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
US20210056429A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN112668444A (zh) 一种基于YOLOv5的鸟类检测与识别方法
CN111275051A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
CN111414889B (zh) 基于文字识别的财务报表识别方法及装置
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN116050379A (zh) 文档对比方法及存储介质
CN114841974A (zh) 一种水果内部结构无损检测方法、***、电子设备及介质
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
EP2573694A1 (en) Conversion method and system
CN113496223A (zh) 文本区域检测模型的建立方法以及装置
CN116563869B (zh) 页面图像文字处理方法、装置、终端设备和可读存储介质
CN114422199B (zh) 一种cms识别方法及装置
CN117274817B (zh) 裂缝自动化识别方法、装置、终端设备及存储介质
EP4125066B1 (en) Method and system for table structure recognition via deep spatial association of words
CN116503721B (zh) 身份证篡改检测方法、装置、设备及存储介质
CN112825141B (zh) 识别文本的方法、装置、识别设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant