CN109344309A - 基于卷积神经网络堆叠泛化的文档图像分类方法和*** - Google Patents

基于卷积神经网络堆叠泛化的文档图像分类方法和*** Download PDF

Info

Publication number
CN109344309A
CN109344309A CN201811089962.3A CN201811089962A CN109344309A CN 109344309 A CN109344309 A CN 109344309A CN 201811089962 A CN201811089962 A CN 201811089962A CN 109344309 A CN109344309 A CN 109344309A
Authority
CN
China
Prior art keywords
file
picture
model
training
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811089962.3A
Other languages
English (en)
Inventor
姚毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wisdom-Only Laojian Information Technology Co Ltd
Original Assignee
Shanghai Wisdom-Only Laojian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wisdom-Only Laojian Information Technology Co Ltd filed Critical Shanghai Wisdom-Only Laojian Information Technology Co Ltd
Priority to CN201811089962.3A priority Critical patent/CN109344309A/zh
Publication of CN109344309A publication Critical patent/CN109344309A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于卷积神经网络堆叠泛化的文档图像分类方法和***,大幅提高文档图像分类识别的准确率和效率。其技术方案为:本发明将文档图像作为训练样本,对文档图像进行预处理分为多个训练样本,用训练样本分别训练卷积神经网络,经过优化、评估得到多个网络模型,然后通过训练后的模型去分类文档图像,最后将多个模型的结果进行堆叠泛化得到文档对应的类别和概率。

Description

基于卷积神经网络堆叠泛化的文档图像分类方法和***
技术领域
本发明涉及图像处理技术,尤其涉及基于卷积神经网络堆叠泛化对文档图像进行自动分类的技术。
背景技术
文档图像的分类是模式识别和人工智能领域的一个重要研究课题,它指的是从文档图像中提取文档的颜色、形状、纹理等特征信息,并基于特征信息将文档图像进行分类的图像处理技术。
随着数字化建设的不断推进,文档图像被广泛的应用于办公自动化、数字图书馆、工业自动化、互联网等各个领域。如何高效、准确的对海量的文档图像进行分类成为了人工智能图像处理的一个迫切需求。
文档图像的自动分类是各种文档图像处理任务(如文档检索、信息抽取和文本识别等)的有效初始步骤。文档图像处理***的性能可以通过将其输入文档的有效初始分类转化为若干预先确定的类别进行提升。自动分类在数字图书馆的文献标引中也起着重要的作用。
目前的文档图像分类方法主要有两种:基于光学字符识别(OCR)和基于卷积神经网络的文档图像分类方法。
基于光学字符识别(OCR)需要对文档图像先做二值化、噪声去除、倾斜校正等处理。基于光学字符识别(OCR)在规范的标准印刷体识别上有不错的效果,但文档图像通常受拍照条件的限制会出现倾斜、墨迹不清晰、DPI过低等情况,此时光学字符识别效果非常的差。同时对于手写和非字符文档图像的分类是光学字符识别无法逾越的技术障碍。
利用卷积神经网络进行文档图像分类是一种基于深度学习的图像处理方法。深度学习在图像处理领域取得巨大的进步,卷积神经网络可以很好的克服光学字符识别(OCR)的弱项,识别的精度和准确度都有非常大的提升。
文档图像种类和格式多种多样,有的宜用文件头分类、有的宜用文件底分类、有的宜用整个文档图像有的宜用部分分类。因此不同的文档用不同的模型会有不一样的分类精度。单一卷积神经网络模型无法适应繁多的文档图像种类,如何高精度分类多种文档图像依然是卷积神经网络的一个挑战。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基于卷积神经网络堆叠泛化的文档图像分类方法和***,解决了单一卷积神经网络模型适应性不好的缺点,具有文档图像分类准确性高、实用性好的优势,同时具有模型简单、容易实现、容易训练等特点,可以大幅提高文档图像分类识别的准确率和效率,具有很强的实用价值。
本发明的技术方案为:本发明揭示了一种基于卷积神经网络堆叠泛化的文档图像分类方法,包括:
将文档图像转换为与文档图像分类模型训练时一致的格式和大小,其中文档图像分类模型是基于卷积神经网络模型训练得到;
将转换后的文档图像经过文档图像分类模型处理得到多个包括类别和概率在内的分类结果;
将文档图像的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的一实施例,卷积神经网络模型训练得到文档图像分类模型进一步包括:
收集多个文档图像;
预处理收集到的文档图像;
对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
建立基于VGG卷积神经网络模型,并分别用上一步骤中的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
将上一步骤中的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的一实施例,预处理收集到的文档图像包括:
将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的一实施例,制作基于整体和部分的训练样本的步骤包括:
将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
本发明还揭示了一种基于卷积神经网络堆叠泛化的文档图像分类***,包括:
文档转换模块,用于将文档图像转换为与文档图像分类模型训练时一致的格式和尺寸;
模型处理模块,用于将文档转换模块处理后的文档图像经过模型构建***所构建的文档图像分类模型处理得到多个包括类别和概率在内的分类结果;
堆叠泛化处理模块,用于将文档图像经过模型处理模块处理后的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率;
模型构建***,用于基于卷积神经网络模型构建并训练得到文档图像分类模型。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类***的一实施例,模型构建***进一步包括:
文档图像收集单元,用于收集多个文档图像;
预处理单元,预处理收集到的文档图像;
训练样本制作单元,对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
模型训练单元,建立基于VGG卷积神经网络模型,并分别用训练样本制作单元所制作的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
堆叠泛化单元,将模型训练单元训练得到的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类***的一实施例,预处理单元将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
根据本发明的基于卷积神经网络堆叠泛化的文档图像分类***的一实施例,训练样本制作单元将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
本发明还揭示了一种文档图像分类***,包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行前述的方法。
本发明还揭示了一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行前述的方法。
本发明还揭示了一种文档图像分类模型的构建方法,包括:
收集多个文档图像;
预处理收集到的文档图像;
对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
建立基于VGG卷积神经网络模型,并分别用上一步骤中的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
将上一步骤中的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
根据本发明的文档图像分类模型的构建方法的一实施例,预处理收集到的文档图像包括:
将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
根据本发明的文档图像分类模型的构建方法的一实施例,制作基于整体和部分的训练样本的步骤包括:
将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
本发明还揭示了一种模型构建***,***包括:
文档图像收集单元,用于收集多个文档图像;
预处理单元,预处理收集到的文档图像;
训练样本制作单元,对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
模型训练单元,建立基于VGG卷积神经网络模型,并分别用训练样本制作单元所制作的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
堆叠泛化单元,将模型训练单元训练得到的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
根据本发明的模型构建***的一实施例,预处理单元将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
根据本发明的模型构建***的一实施例,训练样本制作单元将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
本发明还揭示了一种模型构建***,包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行前述的方法。
本发明还揭示了一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行前述的方法。
本发明对比现有技术有如下的有益效果:本发明采用卷积神经网络堆叠泛化,将单个模型分别进行单独训练,然后将不同卷积神经网络分类模型的分类结果进行整合以进行整体预测,具体而言是将文档图像作为训练样本,对文档图像进行预处理分为多个训练样本,用训练样本分别训练卷积神经网络,经过优化、评估得到多个网络模型,然后通过训练后的模型去分类文档图像,最后将多个模型的结果进行堆叠泛化得到文档对应的类别和概率。相对于传统的光学字符识别,本发明不需要繁杂的图像预处理,适用于手写的文档图像和非字符文档图像,同时分类的精度与广泛的文档图像种类适应性是光学字符识别无法比拟的。而与传统的卷积神经网络模型相比,本发明比单一的卷积神经网络模型有更高的准确率,同时对不同种类的文档图像有广泛的适应性。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的实施例的流程图。
图2示出了本发明的文档图像分类模型的构建方法的实施例的流程图。
图3示出了本发明的文档图像分类模型的构建方法的实施例的原理示意图。
图4示出了本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的实施例的原理示意图。
图5示出了本发明的基于卷积神经网络堆叠泛化的文档图像分类***的实施例的原理图。
图6示出了本发明的模型构建***的实施例的原理图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的基于卷积神经网络堆叠泛化的文档图像分类方法的实施例的流程。请参见图1,本实施例的文档图像分类方法的具体实施步骤详述如下。
步骤S1:将文档图像转换为与文档图像分类模型训练时一致的格式和大小。
文档图像分类模型的构建方法如图2所示。
步骤a:收集多个文档图像。
例如可以通过光学扫描仪将文档扫描为文档图像或者直接获取已有的文档图像。
步骤b:预处理收集到的文档图像。
预处理的内容包括将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个从0开始的编号,将处理后的文档图像缩放为统一的尺寸大小。这样预处理后的文档图像中的一部分可用于训练模型,另一部分可用于测试模型。
步骤c:对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本。
利用图像处理工具将用于训练模型的文档图像,按照50%的比例划分为头部、底部、左半部分、右半部分、整个图像,再分别按照上述的划分取出所有用于训练模型的文档图像中的数据,分别制作头部、底部、左半部分、右半部分、整体这5组训练样本,最后将这些训练样本转换为统一的尺寸大小(例如244×244)。
步骤d:建立基于VGG卷积神经网络模型,并分别用步骤c中的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化。
在本实施例中,建立VGG卷积神经网络模型,模型中的网络深度为16,卷积核大小为3×3,采用最大池化,激活函数采用ReLU。
ReLU(x)=max(0,x)
ReLU是在神经网络中广泛使用的一种激活函数,其中x表示输入。即:当输入x>0时输出等于输入,当输入x<0时输出是0。
分别用步骤c中的5组训练样本训练VGG卷积神经网络模型。
VGG卷积神经网络模型如图3所示,VGG-整体:表示用整体样本训练VGG模型。同理,VGG-头部、VGG-底部、VGG-左半部分、VGG-右半部,分别表示用头部、底部、左半部分、右半部分训练样本训练VGG卷积神经网络模型模型。
训练的梯度优化则采用Adam算法:
设梯度参数为Θ,在t时刻目标函数对于参数的一阶导数是gt则:
mt=β1mt-1+(1-β1)gt
其中,mt,vt分别是对梯度的一阶矩估计和二阶矩估计,是对期望E[gt],的近似;是对mt,vt的校正;α指的是学习率也称为步长因子,β12分别指的是一阶矩估计的指数衰减率和二阶矩估计的指数衰减率;∈是一个非常小的数,为了防止实现中出现除以0。参数的取值建议为:α=0.001,β1=0.9,β2=0.999,∈=10-8
步骤e:将步骤d中的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
首先,VGG卷积神经网络模型的输出用softmax函数将分类的数值转化为相对概率:
其中,Vi是分类器前级单元的输出,i表示类别索引,C表示类别个数,Si表示当前元素的指数与所有元素的指数和的比值,e是数学常数(自然对数的底数)。
然后,将各个模型(在本实施例中是图3所示的整体、头部、底部、左半部分、右半部分对应的VGG卷积神经网络模型)的输出进行堆叠泛化:
是由对应于c个类别的第j个数据样本的第i个分类器的预测概率值组成的C维向量;f(.)是元分类器并且n是基础分类器模型的数量,则元分类器学习映射为:
f:Rc×n→R
样本j的特征是:
其中,∧表示来自基本分类器的预测矢量的级联。即分类器的空间是每个基本模型的输出的总空间。
步骤S2:将转换后的文档图像经过文档图像分类模型处理得到多个包括类别和概率在内的分类结果。
步骤S3:将文档图像的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率。
将每个模型的分类结果作为堆叠泛化的输入,即:x。经过堆叠泛化f(x)后输出为文档分类最终的预测结果。堆叠泛化模型采用:argmax(.)。
即:根据每个子模型对文档进行分类的预测结果,取概率最大的类别作为模型最终的文档分类预测结果。
图5示出了本发明的基于卷积神经网络堆叠泛化的文档图像分类***的实施例的原理。请参见图5,本实施例的文档图像分类***包括文档转换模块、模型构建***、模型处理模块、堆叠泛化处理模块。
文档转换模块用于将文档图像转换为与文档图像分类模型训练时一致的格式和大小。
文档图像分类模型是在模型构建***中构建和训练的。
如图6所示,模型构建***包括文档图像收集单元、预处理单元、训练样本制作单元、模型训练单元、堆叠泛化单元。
文档图像收集单元用于收集多个文档图像。例如可以通过光学扫描仪将文档扫描为文档图像或者直接获取已有的文档图像。
预处理单元用于预处理收集到的文档图像。
预处理的内容包括将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个从0开始的编号,将处理后的文档图像缩放为统一的尺寸大小。这样预处理后的文档图像中的一部分可用于训练模型,另一部分可用于测试模型。
训练样本制作单元用于对用于训练模型的文档图像进行预处理,支制作基于整体和部分的训练样本。
利用图像处理工具将用于训练模型的文档图像,按照50%的比例划分为头部、底部、左半部分、右半部分、整个图像,再分别按照上述的划分取出所有用于训练模型的文档图像中的数据,分别制作头部、底部、左半部分、右半部分、整体这5组训练样本,最后将这些训练样本转换为统一的尺寸大小(例如244×244)。
模型训练单元用于建立基于VGG卷积神经网络模型,并分别用训练样本制作单元所制作的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化。
在本实施例中,建立VGG卷积神经网络模型,模型中的网络深度为16,卷积核大小为3×3,采用最大池化,激活函数采用ReLU。
ReLU(x)=max(0,x)
ReLU是在神经网络中广泛使用的一种激活函数,其中x表示输入。即:当输入x>0时输出等于输入,当输入x<0时输出是0。
分别用训练样本制作单元所制作的5组训练样本训练VGG卷积神经网络模型。
VGG卷积神经网络模型如图3所示,VGG-整体:表示用整体样本训练VGG模型。同理,VGG-头部、VGG-底部、VGG-左半部分、VGG-右半部,分别表示用头部、底部、左半部分、右半部分训练样本训练VGG卷积神经网络模型模型。
训练的梯度优化则采用Adam算法:
设梯度参数为Θ,在t时刻目标函数对于参数的一阶导数是gt则:
mt=β1mt-1+(1-β1)gt
其中,mt,vt分别是对梯度的一阶矩估计和二阶矩估计,是对期望E[gt],的近似;是对mt,vt的校正;α指的是学习率也称为步长因子,β12分别指的是一阶矩估计的指数衰减率和二阶矩估计的指数衰减率;∈是一个非常小的数,为了防止实现中出现除以0。参数的取值建议为:α=0.001,β1=0.9,β2=0.999,∈=10-8
堆叠泛化单元用于将模型训练单元训练得到的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
首先,VGG卷积神经网络模型的输出用softmax函数将分类的数值转化为相对概率:
其中,Vi是分类器前级单元的输出,i表示类别索引,C表示类别个数,Si表示当前元素的指数与所有元素的指数和的比值,e是数学常数(自然对数的底数)。
然后,将各个模型(在本实施例中是图3所示的整体、头部、底部、左半部分、右半部分对应的VGG卷积神经网络模型)的输出进行堆叠泛化:
是由对应于c个类别的第j个数据样本的第i个分类器的预测概率值组成的C维向量;f(.)是元分类器并且n是基础分类器模型的数量,则元分类器学习映射为:
f:Rc×n→R
样本j的特征是:
其中,∧表示来自基本分类器的预测矢量的级联。即分类器的空间是每个基本模型的输出的总空间。
模型处理模块用于将文档转换模块处理后的文档图像经过模型构建***所构建的文档图像分类模型处理得到多个包括类别和概率在内的分类结果。
堆叠泛化处理模块用于将文档图像经过模型处理模块处理后的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率。
将每个模型的分类结果作为堆叠泛化的输入,即:x。经过堆叠泛化f(x)后输出为文档分类最终的预测结果。堆叠泛化模型采用:argmax(.)。
即:根据每个子模型对文档进行分类的预测结果,取概率最大的类别作为模型最终的文档分类预测结果。
此外,本发明还公开了一种文档图像分类***,包括处理器和存储器。存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据。当这一系列计算机可执行的指令被处理器执行时,使得处理器进行如前述图1所示实施例的方法。
本发明还公开了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当这一系列可执行的指令被计算装置执行时,使得计算装置进行如前述图1所示实施例的方法。
本发明还公开了一种模型构建***,包括处理器和存储器。存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据。当这一系列计算机可执行的指令被处理器执行时,使得处理器进行如前述图2所示实施例的方法。
本发明还公开了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当这一系列可执行的指令被计算装置执行时,使得计算装置进行如前述图2所示实施例的方法。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (18)

1.一种基于卷积神经网络堆叠泛化的文档图像分类方法,其特征在于,包括:
将文档图像转换为与文档图像分类模型训练时一致的格式和大小,其中文档图像分类模型是基于卷积神经网络模型训练得到;
将转换后的文档图像经过文档图像分类模型处理得到多个包括类别和概率在内的分类结果;
将文档图像的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率。
2.根据权利要求1所述的基于卷积神经网络堆叠泛化的文档图像分类方法,其特征在于,卷积神经网络模型训练得到文档图像分类模型进一步包括:
收集多个文档图像;
预处理收集到的文档图像;
对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
建立基于VGG卷积神经网络模型,并分别用上一步骤中的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
将上一步骤中的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
3.根据权利要求2所述的基于卷积神经网络堆叠泛化的文档图像分类方法,其特征在于,预处理收集到的文档图像包括:
将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
4.根据权利要求3所述的基于卷积神经网络堆叠泛化的文档图像分类方法,其特征在于,制作基于整体和部分的训练样本的步骤包括:
将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
5.一种基于卷积神经网络堆叠泛化的文档图像分类***,其特征在于,包括:
文档转换模块,用于将文档图像转换为与文档图像分类模型训练时一致的格式和尺寸;
模型处理模块,用于将文档转换模块处理后的文档图像经过模型构建***所构建的文档图像分类模型处理得到多个包括类别和概率在内的分类结果;
堆叠泛化处理模块,用于将文档图像经过模型处理模块处理后的多个分类结果进行堆叠泛化得到文档图像最终的类别及其概率;
模型构建***,用于基于卷积神经网络模型构建并训练得到文档图像分类模型。
6.根据权利要求5所述的基于卷积神经网络堆叠泛化的文档图像分类***,其特征在于,模型构建***进一步包括:
文档图像收集单元,用于收集多个文档图像;
预处理单元,预处理收集到的文档图像;
训练样本制作单元,对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
模型训练单元,建立基于VGG卷积神经网络模型,并分别用训练样本制作单元所制作的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
堆叠泛化单元,将模型训练单元训练得到的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
7.根据权利要求6所述的基于卷积神经网络堆叠泛化的文档图像分类***,其特征在于,预处理单元将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
8.根据权利要求7所述的基于卷积神经网络堆叠泛化的文档图像分类***,其特征在于,训练样本制作单元将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
9.一种文档图像分类***,其特征在于,包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求1至4中任一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求1至4中任一项所述的方法。
11.一种文档图像分类模型的构建方法,其特征在于,包括:
收集多个文档图像;
预处理收集到的文档图像;
对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
建立基于VGG卷积神经网络模型,并分别用上一步骤中的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
将上一步骤中的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
12.根据权利要求11所述的文档图像分类模型的构建方法,其特征在于,预处理收集到的文档图像包括:
将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
13.根据权利要求12所述的文档图像分类模型的构建方法,其特征在于,制作基于整体和部分的训练样本的步骤包括:
将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
14.一种模型构建***,其特征在于,***包括:
文档图像收集单元,用于收集多个文档图像;
预处理单元,预处理收集到的文档图像;
训练样本制作单元,对用于训练模型的文档图像进行预处理,制作基于整体和部分的训练样本;
模型训练单元,建立基于VGG卷积神经网络模型,并分别用训练样本制作单元所制作的包括整体和部分在内的多个训练样本训练VGG卷积神经网络模型,并基于Adam算法进行训练的梯度优化;
堆叠泛化单元,将模型训练单元训练得到的VGG卷积神经网络模型的多个输出进行堆叠泛化,得到文档图像分类模型。
15.根据权利要求14所述的模型构建***,其特征在于,预处理单元将收集到的文档图像转换为统一的编码格式并按照类别进行分类,对每个类别都赋予一个编号,将处理后的文档图像缩放为统一的尺寸大小,预处理后的文档图像中的一部分用于训练模型,另一部分用于测试模型。
16.根据权利要求15所述的模型构建***,其特征在于,训练样本制作单元将用于训练模型的文档图像按一定比例划分为多部分图像,再分别按照上述划分方式取出所有用于训练模型的文档图像中的数据,分别制作对应该多部分的多组训练样本,最后将所述这些训练样本转换为统一的尺寸大小,其中多部分包括但不限于头部、底部、左半部分、右半部分、或整体。
17.一种模型构建***,其特征在于,包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求11至13中任一项所述的方法。
18.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求11至13中任一项所述的方法。
CN201811089962.3A 2018-09-18 2018-09-18 基于卷积神经网络堆叠泛化的文档图像分类方法和*** Pending CN109344309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811089962.3A CN109344309A (zh) 2018-09-18 2018-09-18 基于卷积神经网络堆叠泛化的文档图像分类方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811089962.3A CN109344309A (zh) 2018-09-18 2018-09-18 基于卷积神经网络堆叠泛化的文档图像分类方法和***

Publications (1)

Publication Number Publication Date
CN109344309A true CN109344309A (zh) 2019-02-15

Family

ID=65305683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811089962.3A Pending CN109344309A (zh) 2018-09-18 2018-09-18 基于卷积神经网络堆叠泛化的文档图像分类方法和***

Country Status (1)

Country Link
CN (1) CN109344309A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN113204478A (zh) * 2021-04-06 2021-08-03 北京百度网讯科技有限公司 测试单元的运行方法、装置、设备和存储介质
CN116071555A (zh) * 2023-03-15 2023-05-05 同心智医科技(北京)有限公司 一种建立WMHs分割模型的方法、WMHs分割方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403618A (zh) * 2017-07-21 2017-11-28 山东师范大学 基于堆叠基稀疏表示的音频事件分类方法及计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403618A (zh) * 2017-07-21 2017-11-28 山东师范大学 基于堆叠基稀疏表示的音频事件分类方法及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARINDAM DAS: "Document Image Classification with Intra-Domain Transfer Learning and Stacked Generalization of Deep Convolutional Neural Networks", 《24TH INTERNATIONAL CONFERENCE IN PATTERN RECOGNITION(ICPR)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110532448B (zh) * 2019-07-04 2023-04-18 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN113204478A (zh) * 2021-04-06 2021-08-03 北京百度网讯科技有限公司 测试单元的运行方法、装置、设备和存储介质
CN116071555A (zh) * 2023-03-15 2023-05-05 同心智医科技(北京)有限公司 一种建立WMHs分割模型的方法、WMHs分割方法及装置

Similar Documents

Publication Publication Date Title
CN107563381B (zh) 基于全卷积网络的多特征融合的目标检测方法
CN112990280B (zh) 面向图像大数据的类增量分类方法、***、装置及介质
CN110555060B (zh) 基于成对样本匹配的迁移学习方法
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN103116766B (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN108304573A (zh) 基于卷积神经网络和监督核哈希的目标检索方法
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN109344309A (zh) 基于卷积神经网络堆叠泛化的文档图像分类方法和***
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
CN112990378B (zh) 基于人工智能的场景识别方法、装置及电子设备
CN112308129A (zh) 一种基于深度学习的植物线虫数据自动标注和分类识别方法
CN114373099A (zh) 一种基于稀疏图卷积的三维点云分类方法
CN116309228A (zh) 基于生成对抗网络的可见光图像转换红外图像方法
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN116524521B (zh) 一种基于深度学习的英文字符识别方法和***
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN114611668A (zh) 一种基于异质信息网络随机游走的向量表示学习方法及***
CN111401519B (zh) 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN112001431A (zh) 一种基于梳状卷积的高效图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215