CN108460772A

CN108460772A - 基于卷积神经网络的广告骚扰传真图像检测***及方法

Info

Publication number: CN108460772A
Application number: CN201810150076.0A
Authority: CN
Inventors: 高圣翔; 万辛; 黄远; 李鹏; 安茂波; 孙晓晨; 计哲; 邓文兵; 沈亮; 侯炜
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2018-08-28
Anticipated expiration: 2038-02-13
Also published as: CN108460772B

Abstract

本发明提供了一种基于卷积神经网络的广告骚扰传真图像检测***及方法，包括关键字区域提取模块，所述关键字区域提取模块用于确定待检测传真图像的关键字可疑区域；神经网络置信度分析模块，所述神经网络置信度分析模块与所述关键字区域提取模块相连，所述神经网络置信度分析模块用于对所述关键字可疑区域的文字进行识别，实现传真图像的分类。本发明通过关键字区域提取模块对关键字可疑区域进行提取，自动化运行，工作效率高；通过神经网络置信度分析模块对关键字可疑区域的文字进行识别，实现广告骚扰传真的分类判断，节约时间，管控能力强，使得本发明具有工作效率高，管控能力强的特点。

Description

基于卷积神经网络的广告骚扰传真图像检测***及方法

技术领域

本发明属于图像分类技术领域，具体而言，涉及一种基于卷积神经网络的广告骚扰传真图像检测***及方法。

背景技术

随着互联网技术的普及，文本图像的数量日益增多，对文本图像进行自动处理是计算机应用领域的一项重要课题。文本图像的种类繁多，版面结构日趋复杂，不仅包含字号不一的文字区域，往往还包括图像、表格、图形等元素，文本图像的排版形式也多种多样，不仅有矩形版面，也有非矩形版面。要对文本图像进行自动化处理，版面分析是一个重要的环节。版面分析是利用计算机对文本图像进行处理，以确定文本图像的物理结构，将图像划分为文本、图像、图形、表格等不同属性的区域，满足文本图像字符识别、表格识别、图标识别等不同应用的需要。版面分析一直是文本图像处理领域的研究热点，作为文本图像的预处理过程，版面分析的结果直接影响到后续处理的准确性。传真图像是文本图像中重要的一类，利用传真图像中包含的电话号码、电子邮件地址等对传真图像进行检索和分类得到了广泛的关注。

传真图像本身具有颜色信息较少，空间分辨率较低等不同于一般光学图像的特点。这导致一般的光学图像分类方法直接用在传真图像分类问题上的效果并不好。受Hubel和Wiesel对猫视觉皮层电生理研究启发，有人提出卷积神经网络(CNN)，Yann Lecun最早将CNN用于手写数字识别。近年来卷积神经网络在多个方向持续发力，在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。而在传真图像识别方面，卷积神经网络的应用尚属空白。

随着互联网技术对社会生活的影响逐步深入，传真图像作为一种文字图像，其骚扰呈现上升趋势。近年来广告骚扰传真的影响日益严重，迫切需要一种实时、自动化程度高的传真图像检测技术。据了解，目前广告骚扰传真图像的分类基本依赖人工完成，存在自动化程度低、耗费时间、工作效率低下等问题，无法满足行业监管需要。

由以上分析可知，现有的广告骚扰传真图像检测方法存在以下不足：

1、现有的广告骚扰传真图像检测方法自动化程度低，工作效率低；

2、现有的广告骚扰传真图像检测方法耗费时间，防范能力差，不能满足行业监管需要。

发明内容

本发明提供了一种基于卷积神经网络的广告骚扰传真图像检测***及方法，能够有效解决现有的广告骚扰传真图像检测方法工作效率低的问题，还能够解决现有的广告骚扰传真图像检测方法管控能力差的问题。

为了解决以上问题，本发明提供了一种基于卷积神经网络的广告骚扰传真图像检测***及方法，技术方案如下：

一种基于卷积神经网络的广告骚扰传真图像检测***，包括关键字区域提取模块，所述关键字区域提取模块用于确定待检测传真图像的关键字可疑区域；神经网络置信度分析模块，所述神经网络置信度分析模块与所述关键字区域提取模块相连，所述神经网络置信度分析模块用于对所述关键字可疑区域的文字进行分类。

如上述的基于卷积神经网络的广告骚扰传真图像检测***，进一步优选为：所述关键字区域提取模块包括二值化模块和形态学腐蚀模块；所述二值化模块用于对所述关键字可疑区域进行判断；所述形态学腐蚀模块与所述二值化模块相连，所述形态学腐蚀模块用于对判断后的所述关键字可疑区域进行腐蚀。

如上述的基于卷积神经网络的广告骚扰传真图像检测***，进一步优选为：所述神经网络置信度分析模块包括输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块和神经网络特征分类器。

如上述的基于卷积神经网络的广告骚扰传真图像检测***，进一步优选为：所述神经网络置信度分析模块包括23层，所述输入层为所述神经网络置信度分析模块的第1层；所述第一卷积模块为所述神经网络置信度分析模块的第2至4层；所述第二卷积模块为所述神经网络置信度分析模块的第5至7层；所述第三卷积模块为所述神经网络置信度分析模块的第8至11层；所述第四卷积模块为所述神经网络置信度分析模块的第12至15层；所述第五卷积模块为所述神经网络置信度分析模块的第16至19层；所述神经网络特征分类器为所述神经网络置信度分析模块的第20至23层。

如上述的基于卷积神经网络的广告骚扰传真图像检测***，进一步优选为：所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块分别包括卷积层和池化层。

如上述的基于卷积神经网络的广告骚扰传真图像检测***的检测方法，包括如下步骤：

步骤一：对所述神经网络置信度分析模块的卷积神经网络进行训练(仅需在首次提取所述关键字可疑区域之前训练完毕即可)；

步骤二：提取所述关键字可疑区域；

步骤三：使用训练后的所述神经网络置信度分析模块对所述关键字可疑区域进行识别判断。

如上述的检测方法，进一步优选为：所述神经网络特征分类器对所述关键字可疑区域设有关键字置信度，所述关键字可疑区域的文字判断为关键词序列时，则判断所述待检测传真图像为广告骚扰图像，否则为正常图像。

如上述的检测方法，进一步优选为：在步骤二中，所述二值化模块进行基于OTSU的图像二值化操作，将所述待检测传真图像分为背景和目标，并得出最优二值化阈值；所述形态学腐蚀模块进行基于形态学腐蚀的目标压缩，对所述目标的像素进行压缩，采用所述最优二值化阈值对所述关键字可疑区域进行判断。

如上述的检测方法，进一步优选为：所述背景的颜色置255，所述目标的颜色置0。

如上述的检测方法，进一步优选为：在步骤三中，所述输入层输入所述关键字可疑区域，所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块依次对所述关键字可疑区域进行处理，所述神经网络特征分类器对所述关键字可疑区域进行判断。

分析可知，与现有技术相比，本发明的优点和有益效果在于：

1、本发明提供的基于卷积神经网络的广告骚扰传真图像检测***通过设置关键字区域提取模块，自动化程度高，无需人工操作，工作效率高；通过设置神经网络置信度分析模块，能够对待检测传真图像进行快速识别，节约时间，管控能力强，使得本发明具有工作效率高，管控能力强的特点。

2、本发明提供的基于卷积神经网络的广告骚扰传真图像检测***通过设置二值化模块能够有效对关键字可疑区域进行判断，通过设置形态学腐蚀模块，能够减少需要匹配的像素个数，处理速度快，通过对神经网络置信度分析模块进行划分，能够对关键字可疑区域进行依次处理，逻辑严密，从而使得本发明具有处理速度快、逻辑严密的特点。

3、本发明提供的基于卷积神经网络的广告骚扰传真图像检测***通过采用基于OTSU的图像二值化操作和基于形态学腐蚀的目标压缩，在提取关键字可疑区域时进行预处理，能够提高文字识别准确率，采用ReLU作为激活函数对关键字可疑区域进行处理，采用卷积神经网络对待检测传真图像进行分类，准确度高，使得本发明具有效率高、准确度高的特点。

附图说明

图1为本发明的基于卷积神经网络的广告骚扰传真图像检测***构成示意图。

图2为本发明的基于OTSU的图像二值化操作效果图。

图3为本发明的基于形态学腐蚀的示意图。

图4为本发明的神经网络置信度分析模块示意图。

图5为本发明进行的待检测传真图像进行形态学腐蚀处理前的示意图。

图6为本发明的形态学腐蚀处理效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于卷积神经网络的广告骚扰传真图像检测***，包括关键字区域提取模块，关键字区域提取模块用于确定待检测传真图像的关键字可疑区域；神经网络置信度分析模块，神经网络置信度分析模块与关键字区域提取模块相连，神经网络置信度分析模块用于对关键字可疑区域的文字进行分类。

具体而言，本发明通过设置关键字区域提取模块能够对待检测传真图像进行划分提取，获得关键字可疑区域，神经网络置信度分析模块能够对关键字可疑区域进行检测判断。本发明通过设置关键字区域提取模块，自动化程度高，无需人工操作，工作效率高；通过设置神经网络置信度分析模块，无需人工识别，能够对待检测传真图像进行快速识别，节约时间，管控能力强，从而使得本发明具有工作效率高，管控能力强的特点。

为了进一步提高本发明的工作效率，如图1所示，本发明的关键字区域提取模块包括二值化模块和形态学腐蚀模块；二值化模块用于对关键字可疑区域进行判断；形态学腐蚀模块与二值化模块相连，形态学腐蚀模块用于对判断后的关键字可疑区域进行腐蚀。本发明针对传真图像颜色信息少，背景简单，像素几何位置相对重要的特点，通过设置二值化模块能够有效对关键字可疑区域进行判断；通过设置形态学腐蚀模块，在关键字可疑区域几何骨架不变的前提下，能够减少需要匹配的像素个数，缩短处理时间，从而使得本发明具有工作效率高的特点。

为了进一步提高本发明的管控能力，如图1所示，本发明的神经网络置信度分析模块包括输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块和神经网络特征分类器。本发明通过对神经网络置信度分析模块进行划分，能够对关键字可疑区域进行依次处理，逻辑严密，能够有效的避免发生关键字可疑区域误判的情况，从而使得本发明具有管控能力强的特点。

为了对本发明的神经网络置信度分析模块进行工作分配，如图1所示，本发明的神经网络置信度分析模块包括23层，输入层为神经网络置信度分析模块的第1层；第一卷积模块为神经网络置信度分析模块的第2至4层；第二卷积模块为神经网络置信度分析模块的第5至7层；第三卷积模块为神经网络置信度分析模块的第8至11层；第四卷积模块为神经网络置信度分析模块的第12至15层；第五卷积模块为神经网络置信度分析模块的第16至19层；神经网络特征分类器为神经网络置信度分析模块的第20至23层。本发明通过对神经网络置信度分析模块进行合理划分，能够合理分配神经网络置信度分析模块每层的工作，提高工作效率，从而使得本发明具有工作效率高的特点。

为了简化本发明的参数运算，如图1所示，本发明的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块分别包括卷积层和池化层。本发明通过在每个卷积模块设置卷积层和池化层，大大简化了运算模型的复杂度，减少了模型的参数，从而使得本发明具有参数运算简便的特点。

如图1至图6所示，本发明还提供了一种基于卷积神经网络的广告骚扰传真图像检测***的检测方法，包括如下步骤：

步骤一：对神经网络置信度分析模块的卷积神经网络进行训练。

1.1求取初步训练模型：

选取一个包含1000个汉字的数据集，每个汉字有256张图像，图像采集自不同的手写文本，并进行归一化处理，得到初步训练模型。

1.2模型的二次训练：

在1.1的基础上，采取迁移学***翻转，得到8×2张图像。随机在[224,386]之间选择一个大小，并将每张图像resize(调整)到这个大小，在其上crop(获得)一个大小为(224,224)的区域作为输入。

1.3获得完整的卷积神经网络训练集：

将1.2组成的训练集随机打乱，计算训练集图像的均值并进行去均值操作，处理后的结果为卷积神经网络的完整训练集。

卷积神经网络在训练过程中，需要对训练集进行去均值处理，而在测试过程及***部署过程不需要进行去均值处理。网络训练的batch大小设为64，采用SGD(Stochasticgradient descent的简称，随机梯度下降)算法。动量设置为0.9，最大迭代次数为10万次，初始学习率为0.05，每1万次衰减0.0005。L2正则化的L2正则系数为0.1，降低过拟合采用了dropout方式，概率设为0.5。网络描述写入prototxt文件中，训练参数写入solver.prototxt文件中，调用caffe train命令进行训练，训练结束后保存的.caffemodel文件包含网络训练参数结果。

步骤二：提取关键字可疑区域。

2.1基于OTSU的图像二值化操作：

二值化模块进行基于OTSU的图像二值化操作，采用最大类间方差法(OTSU)在待检测传真图像中选取一个最优二值化阈值，将待检测传真图像分为背景和目标，目标颜色置0(黑)，背景颜色置255(白)，从而达到二值化，能够使得目标和背景之间相同类别的差距最小，不同类别间的差距最大。其中，最优二值化阈值求取方法为：

设f(x,y)表示像素点(x,y)处的灰度，g(x,y)表示(x,y)的3×3邻域灰度平均值，则g(x,y)可表示为：

设待检测传真图像的大小为M×N，0≤x+m≤M-1，0≤y+n≤N-1，令i＝f(x,y)和j＝g(x,y)组成向量(i,j)，设C_ij表示(i,j)出现的次数，则(i,j)出现的概率为：

设二值化阈值(s,t)将待检测传真图像分割成目标和背景，则这两部分出现的概率为：

灰度均值矢量为：

二维直方图上的均值矢量为：

类间方差为：

对于背景和目标，用类间方差δ描述这两类的相似程度，δ越大，背景和目标的差别就越大，反之则越小。若将背景区域归为目标区域或将目标区域归为背景区域，类间方差δ就会减小。因此，当目标和背景的类间方差最大而类内方差最小的时候，得到的分割结果效果最好。δ取最大值时对应的(s,t)值即为最优二值化阈值。处理效果如图2所示。

采用基于OTSU(最大类间方差法)的图像二值化操作，能够使得目标和背景之间相同类别的差距最小，不同类别间的差距最大，待检测传真图像中类间方差最大时这种方法效果最佳。Otsu以待检测传真图像的直方图为基础进行，运算简单快捷，故Otsu分割效率高，应用广泛。

2.2基于形态学腐蚀的目标压缩：

形态学腐蚀模块进行基于形态学腐蚀的目标压缩，对目标的像素进行压缩，形态学腐蚀的数学表达式为：

即移动结构B，如果结构B与结构A的交集完全位于结构A的区域内，则保存该位置点，所有满足条件的位置点构成结构A被结构B腐蚀的结果。当B为图3所示结构时，能对A起到压缩效果，处理原理如图3所示，在进行形态学腐蚀处理前如图5所示，处理效果如图6所示。形态学腐蚀在目标几何骨架不变的前提下，能够提取目标的连通区域骨架，减少需要匹配的像素个数，从而减少匹配操作的计算量，缩短计算时间。

2.3提取关键字可疑区域：

设需要识别的关键字集合为{A,B,C,D}，从每一个集合元素中随机选择一张待检测传真图像作为区域模板，经过步骤1.1和步骤1.2处理后，将所有模板求并得到关键字可疑区域，能够完成对待检测传真图像的分割，提取关键字可疑区域送入神经网络置信度分析模块进行分类。传真图像属于文字图像的一种，具有颜色信息少，背景简单，像素几何位置信息相对重要的特点。进行步骤1.1和步骤1.2能够提高文字识别准确率。

步骤三：对关键字可疑区域进行识别判断。

神经网络置信度分析模块采用ReLU作为激活函数进行关键字可疑区域处理，采用SOFTMAX算法对待检测传真图像进行分类。如图4所示，识别判断流程为：INPUT→[CONV×m→POOL]×5→FC×3→SOFTMAX，其中INPUT为输入层，CONV为卷积层，ReLU为非线性激活函数，POOL为池化层，FC为全连接层。

3.1输入关键字可疑区域：

神经网络置信度分析模块的第1层为输入层，输入层用于输入关键字可疑区域。

3.2对关键字可疑区域进行处理：

神经网络置信度分析模块的第2，3，4层为第一卷积模块，其中2，3层为卷积层，每层均有64个3×3大小的卷积核，能够保证上下，左右，中这些方向概念的最小感知视野大小，步进值为1，卷积操作采用补零的方式保证空间分辨率。第4层为2×2大小，步进值为2的池化层，采用最大化降采样的方式。

神经网络置信度分析模块的第5，6，7层为第二卷积模块，第5，6层卷积核数量变为128，能够弥补由于降采样导致的空间分辨率降低，第7层池化层同前。

神经网络置信度分析模块的第8，9，10，11层为第三卷积模块，第8，9，10层为卷积层，卷积数量增加为256，相比之前增加一层卷积层，第11层池化层同前。

神经网络置信度分析模块的第12，13，14，15层为第四卷积模块，第16，17，18，19层为第五卷积模块。第四卷积模块和第五卷积模块结构与第三卷积模块相同。

在神经网络置信度分析模块的卷积神经网络中，一个神经元只与部分神经元连接。在卷积神经网络的一个卷积层中，包含若干个特征平面，每个特征平面由一些矩形排列的神经元组成，同一特征平面的神经元共享卷积核。卷积核以随机矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享卷积核能够减少网络各层之间的连接，同时又降低了过拟合的风险。卷积神经网络采用局部感知野和卷积核共享的方式降低参数数目，只需要对待检测传真图像的局部进行感知，然后在更高层将局部的信息进行综合，从而得出待检测传真图像的全局信息，并且待检测传真图像的某一部分特征也能用在其另一部分上，对于待检测传真图像上的所有位置，能使用同样的学习特征。

3.3输出待检测传真图像识别结果：

神经网络置信度分析模块第20，21，22，23层为神经网络特征分类器，第20层和第21层均含有4096个参数单元，用来放置步骤2.2处理后的关键字可疑区域，第22层设有关键字置信度，第23层采用softmax算法输出待检测传真图像检测结果。关键字可疑区域的文字被第22层判断为关键词序列时，第23层则判断所述待检测传真图像为广告骚扰图像，否则为正常图像。

神经网络置信度分析模块用多层小卷积核(如3@3×3)代替单层大卷积核(1@7×7)。随着深度的增加，识别率有明显的改善，工作效率高，管控能力强。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明所包含。

Claims

1.一种基于卷积神经网络的广告骚扰传真图像检测***，其特征在于，包括：

关键字区域提取模块，所述关键字区域提取模块用于确定待检测传真图像的关键字可疑区域；

神经网络置信度分析模块，所述神经网络置信度分析模块与所述关键字区域提取模块相连，所述神经网络置信度分析模块用于对所述关键字可疑区域的文字进行分类。

2.根据权利要求1所述的基于卷积神经网络的广告骚扰传真图像检测***，其特征在于：

所述关键字区域提取模块包括二值化模块和形态学腐蚀模块；所述二值化模块用于对所述关键字可疑区域进行判断；所述形态学腐蚀模块与所述二值化模块相连，所述形态学腐蚀模块用于对判断后的所述关键字可疑区域进行腐蚀。

3.根据权利要求1所述的基于卷积神经网络的广告骚扰传真图像检测***，其特征在于：

所述神经网络置信度分析模块包括输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块和神经网络特征分类器。

4.根据权利要求3所述的基于卷积神经网络的广告骚扰传真图像检测***，其特征在于：

所述神经网络置信度分析模块包括23层，所述输入层为所述神经网络置信度分析模块的第1层；所述第一卷积模块为所述神经网络置信度分析模块的第2至4层；所述第二卷积模块为所述神经网络置信度分析模块的第5至7层；所述第三卷积模块为所述神经网络置信度分析模块的第8至11层；所述第四卷积模块为所述神经网络置信度分析模块的第12至15层；所述第五卷积模块为所述神经网络置信度分析模块的第16至19层；所述神经网络特征分类器为所述神经网络置信度分析模块的第20至23层。

5.根据权利要求4所述的基于卷积神经网络的广告骚扰传真图像检测***，其特征在于：

所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块分别包括卷积层和池化层。

6.根据权利要求1至5任意一项所述的基于卷积神经网络的广告骚扰传真图像检测***的检测方法，其特征在于，包括如下步骤：

步骤一：对所述神经网络置信度分析模块的卷积神经网络进行训练；

步骤二：提取所述关键字可疑区域；

7.根据权利要求6所述的检测方法，其特征在于：

所述神经网络特征分类器对所述关键字可疑区域设有关键字置信度，所述关键字可疑区域的文字判断为关键词序列时，则判断所述待检测传真图像为广告骚扰图像，否则为正常图像。

8.根据权利要求7所述的检测方法，其特征在于：

在步骤二中，所述二值化模块进行基于OTSU的图像二值化操作，将所述待检测传真图像分为背景和目标，并得出最优二值化阈值；所述形态学腐蚀模块进行基于形态学腐蚀的目标压缩，对所述目标的像素进行压缩，采用所述最优二值化阈值对所述关键字可疑区域进行判断。

9.根据权利要求8所述的基于卷积神经网络的广告骚扰传真图像检测***的检测方法，其特征在于：

所述背景的颜色置255，所述目标的颜色置0。

10.根据权利要求9所述的基于卷积神经网络的广告骚扰传真图像检测***的检测方法，其特征在于：

在步骤三中，所述输入层输入所述关键字可疑区域，所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块依次对所述关键字可疑区域进行处理，所述神经网络特征分类器对所述关键字可疑区域进行判断。