CN111460247B

CN111460247B - 网络图片敏感文字自动检测方法

Info

Publication number: CN111460247B
Application number: CN201910053775.8A
Authority: CN
Inventors: 蔡元奇; 林金朝; 庞宇; 杨鹏; 马坤阳; 张焱杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2022-07-01
Anticipated expiration: 2039-01-21
Also published as: CN111460247A

Abstract

本发明公开了一种网络图片敏感文字自动检测方法，对需要检测的含图片的网站进行抓取和下载，通过在线抓取和离线加载的方式对图片进行收集加入到数据库中；从图片数据库获取图片并对图片进行目标检测(文字区域定位，图片文字识别)和敏感文字信息检测等处理。使用基于区域建议网络(RPN)Faster R‑CNN深度网络架构，在敏感文字信息检测环节，采用两级敏感文字信息分类器。其中第一级分类器通过使用基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选。第二层过滤器基于情感极性词库与SVM分类器结合方式进行深层次的敏感文字信息语义精筛选，确认该文本信息是否为敏感信息。有效地实现了图片敏感文字自动检测，检测效率高，***反应时延快。

Description

网络图片敏感文字自动检测方法

技术领域

本发明涉及数字图像处理以及深度学习的相关算法，属于机器视觉及自然语言处理领域，具体是一种网络图片敏感文字自动检测方法。

背景技术

随着科学技术的进步，我国互联网行业进入一个飞速发展的阶段。其中包括斗鱼、虎牙在内的直播平台孕育而生，微信、微博和QQ等在线社交平台得到不断更新和完善，这些直播平台和在社交平台不但拥有巨大的用户群体，而且非常活跃，特别深受青年和青少年用户的喜爱。伴随着海量的数据信息传输，如此庞大的信息交互量使得人们可以轻易地在网络上获取多样化的数据信息，但是这些数据信息中往往充斥着大量的敏感信息。基于传统文本信息的敏感文字过滤技术相对成熟，而图像中所包含敏感信息的监控相对困难，因此敏感图像的传播也更为隐蔽。许多组织和个人为了逃避政府等监控部门对互联网信息的监管，改用图像***文本的形式散播敏感信息，包括色情信息、***信息和暴力信息等，这也成为当前敏感信息传播的主要途径之一。据相关调查表明，超过10％的网站含有敏感信息相关内容。不仅如此，很多不法分子通过腾讯QQ、微信、直播平台的用户头像进行敏感信息传播，这其中所充斥的色情敏感信息图像不仅对青少年的身心健康造成不利影响，同时包含的反动和暴力等相关的信息也有可能干扰到社会的稳定。网络自身所具备的数据共享、相互连接以及资源开放性等特点，是不法分子和组织敢于大肆传播敏感信息的根本原因。图片文字敏感信息主要特征在于：

(1)敏感信息的表现形式差异性大

敏感信息涉及的范围非常广泛，涵盖了思想政治问题、社会问题、文化问题等很多方面，而且不同主题的敏感信息，其表现形式有很大的差异性，既使同一主题在不同场合、不同文化背景下等方面的敏感度表现程度不同。类似“血洗”，“绝杀”等词汇，在体育为主题的信息中，大都表示比赛胜利的意思，而放在其他的主题中，很大可能是敏感信息的标志词。

(2)脱离原文的字符识别易造成显著的歧义

不法人员考虑到敏感文字内容存在违法的可能性，会刻意使用同义词、同音字、拼音、左右结构字形的隔开输入替换等规避的方式来制作敏感文字图片。这就给文字识别增加了难度。

由于网络上的图片形式各异，不同的图片在文字大小，文字颜色，文字尺寸，文字相对位置，文字字体等方面都有很大的不同，在识别其中的文字之前，需要先定位出图片中包含的文字区域部分，准确的图片文字区域定位是后续识别工作的基础。文字区域定位的传统方法有基于图像连通域特征的方法，基于图像纹理特征的方法、基于图像边缘特征的方法。随着机器学习技术的发展，近些年基于机器学习的图像特征目标检测算法效果得到了大幅度的提升。其中基于深度学习技术的方案检测效果十分显著。2014年Girshick率先提出了基于Region Proposal(候选区域)的RCNN(Region with CNN Features)方案。该方法的核心思想在于利用图像中具有代表性的部分候选区域代替公开数据集PASCAL VOC将最高检测率从35％提升至了53％。在2015年，该作者在RCNN的基础上又提出了一种新的检测方法fast RCNN。该方法在保证检测正确率与RCNN相当的情况下，大幅度降低了算法训练和测试的时间复杂度。检测***总的训练时间从84个小时降低到了9.5小时，测试时长从47秒降低到了约0.3秒。同年，该作者团队又提出了faster RCNN。此方法的核心在于将之前RCNN的几个主要模块全部整合到了同一个深度网络框架内进行端到端处理。在文字区域定位方面，可以通过提取图像内容特征(包括图像颜色特征、纹理特征以及边缘特征等)进行有关特征学习，根据所学到的相关特征对图像区域进行分类，实现对文字区域的判定。

综上所述，尽管图片敏感信息识别已取得了不少的研究成果，但仍都存在一定的局限性和不足。基于图片文字内容的敏感信息识别主要存在类似于自然场景图片文字信息的文字区域定位困难、文字识别精度低以及对短文本敏感信息判别的困难等不良影响。目前来讲，当前图片敏感信息识别着重关注和研究的领域，也是网络监管部门亟待提升技术手段进行解决的焦点问题。

发明内容

本发明的目的是为克服已有图片文字敏感信息检测技术的不足之处，本文主要研究改进后的Faster R-CNN，提高了对小目标区域检测效果的情况，改进的算法在网络图片文字检测与识别上具有更好的效果，其识别准确率会更高。针对基于短文本敏感信息多级分类器的方法研究，在原有的基础上拓展敏感字库，改进敏感文字分类器。本发明总体框图见附图1。

传统的图片敏感文字信息检测长期依赖人工监管和取缔，并且传统人工举报的检测时长一般在小时级别，而在发表图片到举报的这段时间间隔里敏感信息可能已经得到了广泛的传播，这种以图片文字形式存在的敏感信息正游走于监管的边缘地带，深刻地影响互联网的健康环境和广大网民的身心健康。本发明是基于深度学习算法和机器学习算法共同来实现对网络图片敏感文字的自动检测。

鉴于此，本发明采用的技术方案是：网络图片敏感文字自动检测方法，包括以下步骤：

步骤S1，使用网络爬虫对含有图片的网站进行图片抓取；并将图片的基本信息保存到数据源数据库中，同时将图片收集到图片数据库中，供后续使用；

步骤S2，从图片数据库获取图片并通过使用基于区域建议网络的FasterR-CNN深度网络，对图片进行文字目标检测，完成后将图片识别的文字信息进行提取转化为图片文本信息；

步骤S3，将提取到的图片文本信息使用分类器进行敏感文字信息检测，包括第一级分类器通过基于多维拓展敏感字库的方式对输入语句进行敏感词粗筛选，将粗筛选后的文本信息使用中文分词处理，然后通过基于情感极性词库与SVM分类器方式的二级分类器进行深层次的敏感信息精筛选，完成网络图片敏感文字信息的自动检测。

进一步，所述图片的基本信息包含图片的链接，图片的大小，图片的名称。

步骤S2中所述对图片进行文字目标检测的过程包括对区域建议网络的共享卷积层进行最大池化采样缩小和反卷积操作放大，然后对候选区域生成网络的特征映射层输出的特征图进行平均池化，生成固定大小的目标候选区域，候选区域优化网络的区域池化层根据候选区域生成网络输出的目标候选区域,对候选区域生成网络的特征映射层输出的特征图进行区域池化,生成固定大小的区域特征；

根据softmax层输出每个目标候选区域是否包含目标或背景的分类概率,只输出概率大于预设阈值的目标候选区域,即可排除大部分无效候选区域,得到优化后的目标候选区域，然后目标分类回归网络根据优化后的目标候选区域,从生成的共享特征图中提取区域特征,进行最终的目标文字类别判别以及目标边界框回归修正。

步骤S3中所述敏感信息精筛选，将情感极性词加入到现有敏感信息短文本的数据集当中，结合情感倾向判断，标记文本信息，使用SVM模型对含有情感极性词敏感信息短文本的数据集进行训练。

所述SVM分类器，将训练集进行中文分词处理，然后通过词向量的形式对训练集中的文本进行编码，利用多维向量的方式表征文本的词汇，并对其进行特征提取和模型训练，最后利用训练好的分类模型对粗筛选处理后的短文本进行判断，确认该短文本是否为敏感文字信息文本。利用libsvm的交叉验证功能来实现向量参数的寻优，通过搜索参数取值空间来获取最佳的参数值。经过文本预处理、特征提取、特征表示、归一化处理后，已经把原来的文本信息抽象成一个向量化的样本集，然后把此样本集与训练好的模板文件进行相似度计算，进一步确认该短文本是否为敏感文字信息文本。

还包括对于确定含有敏感文字信息的图片进行跟踪报警，显示该图片的地址链接、图片名称信息、图片大小信息。

本发明最终实现了图片敏感文字自动检测的功能，相较传统方法大大减少了***反应时延，提高***检测对图片类的敏感信息准确率。特别地，对于图片上的小目标区域文字、文字的倾斜问题、歧义文字和较复杂敏感语义下的文字识别与检测问题具有明显提升。

附图说明

图1为本发明图片文字目标检测流程图；

图2为本发明敏感文字信息检测流程图；

图3为第二级分类器网络结构图。

具体实施方式

本发明包括图片的目标检测(文字区域的定位与文字识别)和敏感文字信息检测两大部分。为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述，但并不用于限定本发明。

网络图片爬取模块通过使用网络爬虫对特定含有图片的网站进行图片抓取，并将图片的基本信息保存到数据源数据库中，同时将图片收集到图片数据库中供后续使用。对图片库中的图片进行适当地人工分类，以便后期检查与监管。首先设置在网站上抓取网站内容的图片获取规则,利用现有技术中的网络爬虫来通过网页的链接地址来寻找网页,一直循环下去,直到把这个网站所有的网页的图片都抓取完为止。在具体的应用实施过程中,为了更快的获取网站的图片,可以通过预先设置的信息获取规则来省略掉一些不需要获取的非图片等内容,来减少抓取内容的工作量。在本方法中使用的图片获取规则设定为每5分钟获取一次,获取的网站深度涉及到待检测网站的首页、首页上链接的第一层和第二层、后续页等，先对基本信息进行以文本格式的检测报告进行保存，可以想到的是,周期性的获取可以根据需要设置为更长或者更短一点的时间,根据检测的实际需要网站检测的深度可以将爬取的图片保存到图片数据库中，其它数据信息保存到数据源数据库中。

如图1所示的实施例，图片文字目标检测模块又包括包括区域候选网络提取部分(用于文字图像的空间特征)和Fast-R-CNN检测部分。图片文字目标检测模块主要具体步骤为：

(1)合理划分数据集，采用标准数据集，进行标准化，统一输入维度，加快训练速度；

(2)将不同层的卷积模块融合到一起，能提取多层特征，高层的抽象特征和底层的详细特征，把第一层的map做一个max pooling进行降采样来缩小，把最后一层的map做一个deconv(反卷积)进行上采样来放大，然后把前5层的卷积输出连接起来，连接1,3,5层的效果更好(因为中间有一个间隔层，各层之间的特征相互关联性小)。最后，我们使用局部响应标准化(LRN)来对多个feature maps进行归一化，若没有归一化，大的Feature会压制住小的feature。然后将多个feature maps合在一个单个的输出立方体，我们称为cube Featuremaps。最后一层加入反卷积层；

(3)操作并行卷积，在第二个卷积模块中，将5*5和7*7卷积进行并行，不同大小的卷积核提取的特征不同，进行差异化提取并融合；

(4)引入交叉卷积核，将方型卷积核转化为非对称卷积结构，5*5的卷积核转化为5*1和1*5的卷积核，进行最大池化采样缩小和反卷积操作操作放大；

(5)固定候选区域池化层，它的输入由多个不同深度卷积层得到的特征图组成，三个深度特征图共同作为候选区域池化层的输入，此层的目的是将尺寸不一的候选框，转化为输出特征图尺寸固定，以供下一步使用。然后对候选区域生成网络的特征映射层输出的特征图进行平均池化，生成固定大小的区域特征；

(6)候选区域优化网络采用零均值,标准差为a的高斯分布随机初始化,利用训练好的faster-R-CNN网络生成训练数据,单独训练候选区域优化网络,将训练集中的训练图片输入到网络中，候选区域生成网络输出的目标候选区域作为候选区域优化网络的训练数据。任一标注框的交并比IOU(交并比)大于目标候选区域的数据,作为正样本,与任一标注框的交并比IOU小于目标候选区域的数据,作为负样本；

(7)利用非极大值抑制取得分高的100个建议窗口，这些建议窗口基本可以覆盖所有出现的文字区域，如果选区过多会导致建议窗口重叠，会增加无用的计算量。进行边缘细化修正，它通过位置偏移量可以预测垂直方向的精确位置。公式如下：

其中x_side是最接近水平边到当前锚点的预测的x坐标，

是x轴的实际边缘坐标，它是从实际边界框和锚点位置预先计算的。

是x轴的锚点的中心，w^a是固定的锚点宽度w^a＝16。o、o^*分别表示预测和实际偏移量。使用边缘提议的偏移量来优化最终的文本行边界框。

我们采用多任务学习来联合优化模型参数。根据输出的数据来源，引入了三种损失函数：

分别表示的是文本/分文本的二分类损失，坐标损失和边缘细化损失。根据最小损失规则，最小化图像的总体目标函数(L)最小化：

其中每个锚点都是一个训练样本，i是一个小批量数据中一个锚点的索引。S_i是预测的锚点i作为实际文本的预测概率。k是边缘锚点的索引，其被定义为在实际文本行边界框的左侧或右侧水平距离(例如8个像素)内的一组锚点。o_k和

是与第k个锚点关联的x轴的预测和实际偏移量。

是我们使用Softmax损失区分文本和非文本的分类损失。

和

是回归损失。N_s,N_v,N_o是标准化参数，表示

分别使用的锚点总数。

最后通过文本线构造算法合并建议窗口，就是将每两个相近的8*h的小建议窗口组成一个对组，然后合并不同的对组直到无法再合并为止，最后生成一个完整的建议框。文本行的构建非常简单。文本行构建如下。首先，我们为提议定义B_i一个配对邻居(B_j,B_i)，作为B_j->B_i，当B_j是最接近B_i的水平距离，该距离小于50像素，并且它们的垂直重叠大于0.6时。其次，如果B_j->B_i和B_i->B_j，则将两个提议分组为一对。然后通过顺序连接具有相同提议的建议对来构建文本行，对进行完成的目标类别判别以及目标边界框回归修正。通过后续的CNN+CTC的方式完成了输入图像的深度特征提取，序列标签概率预测和标签转录功能。并在此基础上增加了Tesseract二次识别，Fast-R-CNN检测部分将识别后的文本行以字符串的形式输入到敏感文字信息检测模块进行文本敏感语义检测。

如图2所示的实施例，敏感文字信息检测模块包括第一级分类器、分词模块和第二级分类器。第一级分类器通过基于多维拓展敏感字库的文字规则过滤引擎方式对输入语句进行敏感词粗筛选。原有的敏感词进行多维拓展，具体包括同义词、同音字、拼音、旁半字等歧义方式以建立新的敏感信息词库，该词库包含反动、色情、暴力三大部分。分词模块的作用是对文本进行分词处理。由于中文文本中没有像西文中的空格分割方式，所以首先需要进行中文分词处理。第二级分类器将完成后训练集进行中文分词处理，然后通过词向量的形式对训练集中的文本进行编码，利用多维向量的方式表征文本的词汇，并对其进行特征提取和模型训练，最后利用训练好的分类模型对粗筛选处理后的短文本进行判断，确认该短文本是否为敏感文字信息文本。

如图3所示的实施例，二级分类器是SVM分类器。SVM是一个由分类超平面定义的判别分类器，也就是说给定一组带标签的训练样本，算法将会输出一个最优超平面对新样本(测试样本)进行分类，找一个超平面，并且它到离他最近的训练样本的距离要最大。即最优分割超平面最大化训练样本边界。

支持向量机分类，首先它是分类问题，对应着分类过程的两个重要的步骤，一个是使用训练数据集训练分类器，另一个就是使用测试数据集来评价分类器的分类精度。作为敏感信息类文本分类，基于libsvm实现文本分类实现的实现过程，如下所示：

(1)选择文本训练数据集和测试数据集：训练集和测试集都是类标签已知的；

(2)训练集文本预处理：这里主要包括中文分词、去停用词、建立词向量模型；

(3)选择文本分类使用的特征向量(词向量)：最终的目标是使得最终选出的特征向量在多个类别之间具有一定的类别区分度，以实现特征向量的分类筛选，由于中文分词后得到大量的词，通过选择降维技术能很好地减少计算量，还能维持分类的精度；

(4)输出libsvm支持的量化情感极性词的训练样本集文件：类别名称、特征向量中每个词元素分别到数字编号的映射转换，以及基于类别和特征向量来量化文本训练集，能够满足使用libsvm训练所需要的数据格式；

(5)测试数据集预处理：同样包括中文分词(需要和训练过程中使用的分词器一致)、去停用词、建立词向量模型(倒排表)，但是这时需要加载训练过程中生成的特征向量，用特征向量去排除多余的不在特征向量中的词(也称为降维)；

(6)输出libsvm支持的量化的测试样本集文件：输出格式和训练数据集的预处理阶段的输出相同。使用训练集预处理阶段输出的量化的情感极性词数据集文件，最终输出分类模型文件。使用libsvm工具包训练文本分类器，在使用libsvm的开始，需要做一个尺度变换操作，有利于libsvm训练出更好的模型。libsvm使用的训练数据格式都是数字类型的，所以需要对训练集中的文档进行量化处理，我们使用TF-IDF度量，表示词与文档的相关性指标。前面输出的数据中，每一维向量都使用了TF-IDF的值，但是TF-IDF的值可能在一个不规范的范围之内(依赖于TF和IDF的值)，例如0.19872～8.3233，所以可以使用libsvm将所有的值都变换到同一个范围之内，如0～1.0，或者-1.0～1.0，可以根据实际需要选择；

(7)使用libsvm验证分类模型的精度：使用测试集预处理阶段输出的量化的数据集文件和分类模型文件来验证分类的精度，选择合适的核函数，设置代价系数c，默认是1，表示在计算线性分类面时，可以容许一个点被分错。这时候，使用交叉验证(CrossValidation)来逐步优化计算，选择最合适的参数；

(8)分类模型参数寻优：如果经过libsvm训练出来的分类模型精度很差，可以通过libsvm自带的交叉验证功能来继续实现参数的寻优，通过搜索参数取值空间来获取最佳的参数值。经过文本预处理、特征提取、特征表示、归一化处理后，已经把原来的文本信息抽象成一个向量化的样本集，然后把此样本集与训练好的模板文件进行相似度计算，也就是确定待测文本与模板文件比较之后，敏感文字信息具体类别(色情，暴力，反动)的相似度概率。若不属于该类别，则与其他类别的模板文件进行计算，直到分进相应的具体类别；

(9)最后检测结果输出对图片敏感文字及其对应的网站地址等信息的检测报告进行跟踪报警，对于确定含有敏感文字信息的图片进行提示，在相关区域中显示该图片的地址链接、图片名称信息、图片大小等信息。

Claims

1.网络图片敏感文字自动检测方法，其特征在于，包括以下步骤：

步骤S2，从图片数据库获取图片并通过使用基于区域建议网络的Faster R-CNN深度网络，对图片进行文字目标检测，完成后将图片识别的文字信息进行提取转化为图片文本信息；

所述对图片进行文字目标检测的过程包括对区域建议网络的共享卷积层进行最大池化采样缩小和反卷积操作放大，然后对候选区域生成网络的特征映射层输出的特征图进行平均池化，生成固定大小的目标候选区域，候选区域优化网络的区域池化层根据候选区域生成网络输出的目标候选区域,对候选区域生成网络的特征映射层输出的特征图进行区域池化,生成固定大小的区域特征；

根据softmax层输出每个目标候选区域是否包含目标或背景的分类概率,只输出概率大于预设阈值的目标候选区域,目标分类回归网络根据优化后的目标候选区域,从生成的共享特征图中提取区域特征,进行最终的目标文字类别判别以及目标边界框回归修正；

2.根据权利要求1所述网络图片敏感文字自动检测方法，其特征在于：所述图片的基本信息包含图片的链接，图片的大小，图片的名称。

3.根据权利要求1所述网络图片敏感文字自动检测方法，其特征在于：步骤S3中所述多维拓展敏感字库将原有的敏感词多维拓展具体包括同义词、同音字、拼音、旁半字建立新的敏感信息词库，该词库包含反动、色情、暴力三大部分。

4.根据权利要求3所述网络图片敏感文字自动检测方法，其特征在于：步骤S3中所述敏感信息精筛选，将情感极性词加入到现有敏感信息短文本的数据集当中，结合情感倾向判断，标记文本信息，使用SVM模型对含有情感极性词敏感信息短文本的数据集进行训练。

5.根据权利要求4所述网络图片敏感文字自动检测方法，其特征在于：步骤S3中所述SVM分类器，将训练集进行中文分词处理，然后通过词向量的形式对训练集中的文本进行编码，利用多维向量的方式表征文本的词汇，并对其进行特征提取和模型训练，最后利用训练好的分类模型对粗筛选处理后的短文本进行判断，确认该短文本是否为敏感文字信息文本。

6.根据权利要求1-5任一项所述网络图片敏感文字自动检测方法，其特征在于：还包括对于确定含有敏感文字信息的图片进行跟踪报警，显示该图片的地址链接、图片名称信息、图片大小信息。