CN111538550A

CN111538550A - 一种基于图像检测算法的网页信息筛查方法

Info

Publication number: CN111538550A
Application number: CN202010307694.9A
Authority: CN
Inventors: 姜海强; 秦斌
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-14

Abstract

本发明公开了一种基于图像检测算法的网页信息筛查方法，包括以下步骤：步骤S1，预先获取待过滤目标网页链接信息并进行页面访问；步骤S3，对目标网页通过Splash框架进行渲染获取网页截图；步骤S7，引擎将获取的网页截图输送给预训练目标检测模型，获取检验目标结果，确定模型返回目标个数n；步骤S9，判断目标个数n与有效目标阈值m的关系，其中，若n小于有效目标阈值m。本发明通过对目标网页信息内容进行检测和筛查，过滤掉网络中的脏数据或无用的数据，不仅过滤网络垃圾图像，净化网络，优化网民的上网体验，而且工作人员可以对网络进行选择性过滤，只下载相关图像，节省网络带宽和后续数据清洗的成本。

Description

一种基于图像检测算法的网页信息筛查方法

技术领域

本发明涉及数据采集技术领域，具体来说，涉及一种基于图像检测算法的网页信息筛查方法。

背景技术

人工智能AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。

随着人工智能AI的高速发展，网站的公开数据对AI的发展至关重要，然而网站的公开数据中往往存在大量的垃圾数据或者算法不需要的数据。

现有的技术是通过网络爬虫技术将网站公开数据进行全量采集，之后在本机进行数据清洗，这样做不仅浪费网络资源，同时也增加了后期的清洗成本。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于图像检测算法的网页信息筛查方法，通过对目标网页信息内容进行检测和筛查，过滤掉网络中的脏数据或无用的数据，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种基于图像检测算法的网页信息筛查方法，包括以下步骤：

步骤S1，预先获取待过滤目标网页链接信息并进行页面访问；

步骤S3，对目标网页通过Splash框架进行渲染获取网页截图；

步骤S7，引擎将获取的网页截图输送给预训练目标检测模型，获取检验目标结果，确定模型返回目标个数n；

步骤S9，判断目标个数n与有效目标阈值m的关系，其中，若n小于有效目标阈值m，则该网页为无效网页，若n大于等于有效目标阈值m，则该网页为有效网页；

步骤S11，引擎将对有效网页进行解析和数据下载，对无效网页进行忽略，完成网页信息筛查。

进一步的，步骤S1，进一步包括以下步骤：

步骤S101，预先通过公开数据集获取目标信息，将其中的文本信息手动记录成文本列表；

步骤S102，通过Python库Request使用Post“目标信息关键字”到浏览器，获取网页服务器响应的信息，并将网页返回的信息转成Json格式，并解析Json获取其中目标信息的关键信息，存储到文本列表中；

步骤S103，将获取的文本列表中信息依次存储到基于内存读取的分布式数据库Redis中。

进一步的，步骤S7包括模型预训练和检测模块，其中；

所述模型预训练，用于通过公开测试集预训练一个目标检测模型；

所述检测模块，可以获取输入网页截图的检测框位置及个数以及确定模型返回目标个数n。

进一步的，所述检测模块包括图像预处理、神经网络推理和检测回归。

本发明的有益效果：

本发明通过对目标网页信息内容进行检测和筛查，过滤掉网络中的脏数据或无用的数据，不仅过滤网络垃圾图像，净化网络，优化网民的上网体验，而且工作人员可以对网络进行选择性过滤，只下载相关图像，节省网络带宽和后续数据清洗的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的流程示意图；

图2是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的模型预训练流程示意图；

图3是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的模型推理流程示意图；

图4是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的网页渲染截图示意图；

图5是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的检测结果示意图；

图6是根据本发明实施例的一种基于图像检测算法的网页信息筛查方法的MINI-SSD简要流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于图像检测算法的网页信息筛查方法。

如图1-图6所示，根据本发明实施例的基于图像检测算法的网页信息筛查方法，包括以下步骤：

步骤S3，对目标网页通过Splash框架进行渲染获取网页截图；

另外，步骤S1，进一步包括以下步骤：

另外，步骤S7包括模型预训练和检测模块，其中；

另外，所述检测模块包括图像预处理、神经网络推理和检测回归。

另外，本发明主要由种子模块、渲染模块、模型预训练、检测模块以及下载模块组成。

借助于上述方案，在一个实施例中，以汽车的品牌信息为例，种子模块具体如下：首先我们在公开数据集获取汽车的品牌信息，可以在百度、***中所搜关键词“汽车品牌”，将其中的文本信息手动记录成文本列表。通过Python库Request使用Post关键词“汽车品牌”，将网页返回的信息转成Json格式，并解析Json获取其中汽车品牌的关键信息，存储到文本列表中。将上述文本列表中信息依次存储到基于内存读取的分布式数据库Redis中，Redis的优势是基于内存读取，响应快，且调用方法简单。

另外，对于上述检测模块来说，首先通过公开汽车公开测试集CompCars数据集和BIT-Vehicle数据集预训练一个车辆检测模型。CompCars数据集包含来自两个场景的数据，包括来自网络性质和监视性质的图像。网络自然数据包含163辆汽车，1716辆车型。共有136726张图像捕获整个汽车，27618张图像捕捉汽车零件。完整的汽车图像标有边界框和视点。

另外，BIT-Vehicle数据集是由北京理工大学所收集，其车辆图片来源于道路监控。此数据集包含9580张车辆图片，共6类车型：客车、小型客车、小型货车、轿车、城市越野以及卡车。各类车型图片的数量是558，883，476，5922，1392和822。图片的尺寸分为2种：1600*1200和1600*1080，它们的取样在不同时间地点(包含白天与夜晚)的2个摄像头所获取。另外也可以选择除此以外的车辆公开测试集，如UA-DETRAC等。

另外，如图2所示，准备好公开数据集，并将公开数据集打包为深度学习框架Caffe易于加载的数据格式内存映射数据库LMDB，LMDB格式包含一个数据文件和一个锁文件，LMDB本质是将硬盘中的数据通过内存映射到内存中，在加载的过程中程序可以直接在内存中读取索引来进行文件寻址，避免遍历数据带来的IO瓶颈。

LMDB数据支持多进程并发读取，无需单独维护索引表。同时LMDB可以支持label、图像、二进制格式的转换，可以提供统一的读取接口，方便程序的管理。

另外，如图2-图3所示，计算公开数据集图像的均值，可选方法1：对所有图片的三通道(RGB)进行分别均值计算。可选方法2：随机采样图片进行三通道均值计算，有点在于计算速度快，但普适性较差。可选方法3：使用通用物体检测三通道默认均值(114，117，123)或者三通道统一使用均值(128，128，128)。减去均值有助于减少光线的干扰，消除公共部分，凸显个体关键特征域的表现，同时减均值、归一化操作有助于加速模型收敛速度。但通常均值参数的大小对检测结果的影响不大。

此外，对于上述模型预训练来说，本实施例中选择MobileNet-SSD神经网络预训练车辆检测模型，优势是MobileNet网络结构简单，推理速度较快。MobileNet-SSD主要由三部分组成，主干网络、FeatureMap层、Detection-out层。

主干网络是MobileNet网络结构将最后的全连接层(Fall connection)FC层去掉，之后添加8个卷积层，抽取6个卷积层当做检测的FeatureMap层。

此外，本发明要求程序的推理速度要很快，对检测框的回归精度要求不高。对此，本发明对主干网络mobilenet进行了优化和改良，使其运算速度更快，参数量更低，

如图6所示，本发明采用MINI-SSD，具体如下：

将MobilenetNet-SSD前5层至第9层中的conv、conv/bn、conv/scale、conv/relu层全部删除；MobileNet中引入两个超参数用于减少参数量与计算量：a)宽度乘数(WidthMultiplier)：减少输入输出的channels，本申请中将该参数设置为0.33。b)分辨率乘数(Resolution Multiplier)：减少输入输出的feature map的大小，该参数设置为1.5；删除第15～17层featureMap层，因为网页中的目标普遍较小，本申请中保留11、13、14层的featureMap，前几层中特征维度大，感受野较小适合小物体检测。

另外，针对网页中检测目标的形状，本申请将11、13、14层长宽比设置为3、1、1/2，其中尺度计算公式为：

其中，Smax表示最大尺度本申请为0.9，最小尺度为0.2，本申请中对应的尺度scale为8、16、32

本申请第11层featureMap尺寸为19*19，假设我们把每个特征点，当做卷积的检测框(bbox)的中心点(center)，而检测框的尺寸根据先验知识进行设定，本设计根据网页信息推断图片平均尺寸为(152*152)。

根据每个center生成n组不同长宽比(w*h)个default bounding box(x，y，w，h)，其中n表示上文中提到的三种不同长宽比。

每个图片都ground truth location(x1，y1，w1，h1)坐标，对应的我们增加4个偏移卷积和用于表示gt bbox和default bbox之间的偏移值。每个检测框有对应c个不同的分类，本申请中c为2，表示车、背景。

因此我们可以表示featureMap层中每层的参数量为P(x)＝(c+4)*n*w*h。

另外本申请对于输入原始网页图经过第11层(19*19)、13层(10*10)、14层(5*5)共产生19*19*3+10*10*3+5*5*3＝1458个候选框，输入到detection_out层进行筛序。

在detection_out层中将非极大值抑制(Non-Maximum Suppression，NMS)设置参数为重叠阈值设置为0.4表示将候选框和ground truth框之间的交并比(Intersection-over-Union，IoU)大于0.4进行保留。topk设置为400表示筛选后保留400个候选框。

在训练过程中，首先要确定训练图片中的ground truth(真实目标)与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。对于23中剩余的400个候选框，本申请中，SSD的先验框与ground truth的匹配原则主要有两点。1、对于图片中每个ground truth，找到与其IOU最大的先验框，该先验框与其匹配。这样，可以保证每个groundtruth一定与某个先验框匹配。通常称与ground truth匹配的先验框为正样本。反之，若一个先验框没有与任何ground truth进行匹配，那么该先验框只能与背景匹配，就是负样本。一个图片中ground truth是非常少的，而先验框却很多，如果仅按第一个原则匹配，很多先验框会是负样本，正负样本极其不平衡，第二个原则是：对于剩余的未匹配先验框，若某个ground truth的IOU大于某个阈值(一般是0.5)，那么该先验框也与这个ground truth进行匹配。这意味着某个ground truth可能与多个先验框匹配，这是可以的。

另外，先验框只能匹配一个ground truth，如果多个ground truth与某个先验框IOU大于阈值，那么先验框只与IOU最大的那个先验框进行匹配。第二个原则一定在第一个原则之后进行，仔细考虑一下这种情况，如果某个ground truth所对应最大小于阈值，并且所匹配的先验框却与另外一个ground truth的大于阈值，那么该先验框应该匹配谁，答案应该是前者，首先要确保某个ground truth一定有一个先验框与之匹配。但是，这种情况我觉得基本上是不存在的。由于先验框很多，某个ground truth的最大IOU肯定大于阈值。

为了保持训练样本的平衡，本发明在训练过程中采用了困难样本挖掘的方式，负样本进行抽样，抽样时按置信度误差进行排序，采取误差最大的若干样本为负样本。这样做可以保证正负样本比例保证在1:5～1:3一个较为合理的区间，防止最终训练过拟合，普适性差。通常我们以1:3为经验值。

在训练过程中，通过CNN网络对输入图像进行前向推理，计算训练样本与真实值(gt)之间的分类的置信度损失值(softmax Loss)以及检测的回归loss(Smooth L1 Loss)。

另外，加权损失函数可表示为：

其中L_conf(x,c)表示置信度分类损失，L_loc(x,l,g)表示预测框和真实框之间的smooth-L1损失值，N表示匹配默认框的数量(正负样本之和)，x表示输入样本，c表示置信度(confidence)，l(location)表示模型给定候选框的位置(x，y，w，h)其中(x，y)表示左上角的坐标，w表示宽，h表示高，g表示groundtruth(真实目标)。

另外，可选的，模型预训练过程中使用的模型，可以使用上述方式训练的精简网络模型。也可以选用Caffe Model Zoo中开源的预训练模型，基本覆盖了大部分的分类检测模型。主干网络中本申请为了追求速度并在一定程度上忽略精度，对此可以选用精度更高的ResNet结构、GoogleNet结构、ShuffleNet结构等。

此外，申请用于网页汽车数据检测，可以将本申请的结构拓展问线上数据过滤，将本申请中的汽车检测模型替换为诸如人脸检测、车牌检测、行人检测等模型进而挖掘出各种有效的线上公开数据。

另外，对于上述渲染模块来说，主要有数据库、控制引擎、渲染引擎组成，而数据库为上文说的Redis数据库，通过Redis的接口(api)获取搜索关键词(keyword)，由控制引擎使用关键词到浏览器进行搜索。

控制引擎由python的内置库requests实现，首先将keyword封装成json格式如params＝{‘keyword’:‘keys’，‘pages’：‘1’}，控制引擎通过post表单的方式发送给浏览器，获取浏览器的响应数据Response。将Response内容发送给解析器进行解析。解析器获取控制引擎的Response信息，将Response转为Json格式并进行解析。将解析结果中超文本标记语言(html)与js代码由渲染引擎进行渲染。

另外，如图4-图5所示，渲染引擎将渲染后的网页截图通过Post表单方式发送给检测引擎进行模型推理，检测引擎进行图3所示推理过程获取检测框目标数量。推理引擎将检测框数量通过Response的方式响应给渲染引擎。设定下载阈值，下载阈值表示一个渲染页面进行下载的最小目标数量，渲染引擎对检测结果进行判断，如果检测框数量大于下载阈值，返回1。如果检测框数量小于下载阈值，返回0。

另外，解析器根据上述返回结果进行处理，如果为0对该网页进行忽略，如果为1，发送给下载器进行下载。其中渲染引擎使用的是Splash框架，Splash是一个JavaScript渲染服务。它是一个实现了HTTP API的轻量级浏览器，Splash使用Python实现的，同时使用事件驱动的网络引擎框架(Twisted)和图形用户界面(QT)进行页面渲染的引擎。新型网页结构通过客户端浏览器进行动态渲染，无法通过解析网页的html获取内部信息，也无法直接下载网页图片内容到本地进行渲染，通过bottle提供web服务，接受图片输入图片，并将模型检测结果返回给请求端。

另外，推理引擎如图3，首先获取渲染引擎Post的图像Base64格式的数据，将说数据转成BGR格式。对图像各个通道减去对应的均值，其中均值为11中所述均值。公式表示为：

其中N表示新的图像，x表示输入图像，1～3表示图像的三维图通道，v(mean)表示每个通道全量数据统计的均值。

去均值后图像进行归一化(normalization)操作，公式表示为：

其中xi表示像素点的值，min(x)，max(x)分别表示图像像素的最大值和最小值，在本发明中选用(0，255)为最小最大值进行归一化。

另外，加载模型，载入数据进行前向推理，获取最终返回的结果。格式如

[[classify1，conf，x，y，w，h]…[classifyN，conf，x，y，w，h]]，其中Classify表示分类，本发明中分为“汽车为1”和“非汽车为0”，conf表示分类结果的置信度用小数表示如0.78，(x，y)表示检测框左上角的坐标，w表示检测框的宽度，h表示检测框的高度。计算上述结果列表中Classify为车辆的个数，公式表示为：

另外，解析器，根据上述公式计算出的网页渲染页面中检测目标框的数量与下载阈值做对比，本申请中下载阈值为5，超过阈值发送给下载器进行下载。如果小于下载阈值，则认为该网页中数据丰富度不足，进行忽略。

综上所述，借助于本发明的上述技术方案，通过对目标网页信息内容进行检测和筛查，过滤掉网络中的脏数据或无用的数据，不仅过滤网络垃圾图像，净化网络，优化网民的上网体验，而且工作人员可以对网络进行选择性过滤，只下载相关图像，节省网络带宽和后续数据清洗的成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像检测算法的网页信息筛查方法，其特征在于，包括以下步骤：

步骤S3，对目标网页通过Splash框架进行渲染获取网页截图；

2.根据权利要求1所述的基于图像检测算法的网页信息筛查方法，其特征在于，步骤S1，进一步包括以下步骤：

3.根据权利要求1所述的基于图像检测算法的网页信息筛查方法，其特征在于，步骤S7包括模型预训练和检测模块，其中；

4.根据权利要求3所述的基于图像检测算法的网页信息筛查方法，其特征在于，所述检测模块包括图像预处理、神经网络推理和检测回归。