CN110516074B

CN110516074B - 一种基于深度学习的网站主题分类方法及装置

Info

Publication number: CN110516074B
Application number: CN201911010407.1A
Authority: CN
Inventors: 沈毅; 马慧敏; 杨星; 潘祖烈; 王文浩; 郑超
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-01-21
Anticipated expiration: 2039-10-23
Also published as: CN110516074A

Abstract

本发明提出一种基于深度学习的网站主题分类方法及装置，所述方法包括：构建网站数据训练集；提取所述训练集中的类别关键字；基于所述关键字，将所述网站数据训练集的文本数值化；构建网站主题分类框架模型；用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练，形成可自主分类的网站主题分类模型，实现网站主题的自动化分类。

Description

一种基于深度学习的网站主题分类方法及装置

技术领域

本发明属于互联网信息处理和人工智能领域，涉及一种深度学习的网站主题分类方法及装置。

背景技术

网站分类需求伴随着互联网的诞生而产生，随着互联网的发展而发展。早期，网站规模较小，网站分类多采用人工分类的手段，通过网址大全、网址目录等导航网站等方式向用户呈现。随着互联网网站数量***性增长，人工分类的低效率已无法满足需求，因而出现了自动化网站分类技术，通过提取、分析网站域名、网页文本、网站标题、网站结构等网页及网页链接的结构特征，对网站进行自动化分类。网站分类技术被广泛应用于网站导航、搜索引擎和网站监管等领域。在网站导航领域，网站分类主要用于建立各行各业网站导航目录。在搜索引擎领域，网站分类主要用于标识网站类型，为搜索结果排序和分类提供参数。在网站监管领域，网站分类主要用于识别非法网站和恶意网站。

现有的网站自动化分类技术通常利用网站的多个特征：如URL（统一资源定位符）、网站的标题、关键词和描述信息等作为分类依据，需要人工或爬虫技术收集大量的网站特征作为数据集，然后使用机器学习方法进行建模。机器学习出来一套分类规则（分类模型），并通过文本分类算法，对网站进行分类。一般经常使用的文本分类的算法有朴素贝叶斯、KNN、支持向量机(SVM)算法。

虽然现有的自动化网站分类技术能解决数据量较大的问题，但是也存在明显的缺点和不足，主要有：（1）、结合各文本分类算法的性能比较，结果表明支持向量机（SVM）算法虽然适用于二分类且精度高，但是分类速度较慢，算法复杂度高，训练过程复杂；KNN 和朴素贝叶斯虽然分类速度快，但是精度较差；（2）、分类的类别数量不够多，难以满足多分类需求；（3）、机器学习模型训练使用的数据量偏少，用于分类依据的信息量不足；（4）、现有自动化分类技术所使用的方法和模型难以适用于对高维数据样本分类，提取特征和学习信息的能力不足。

发明内容

针对上述技术问题，旨在解决现有网站分类技术存在的针对大量网站分类的速度和精准度不能同时满足、机器学习模型训练数据量不够依据不足等问题。本发明提出了一种基于深度学习的网站主题分类方法。所述方法包括下述步骤：

步骤1：构建网站数据训练集；

步骤2：提取所述训练集中的类别关键字；

步骤3：基于所述关键字，将所述网站数据训练集的文本数值化；

步骤4：构建网站主题分类框架模型；

步骤5：用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练，形成可自主分类的网站主题分类模型，实现网站主题的自动化分类。

进一步的，在上述技术方案的基础上，所述步骤1还包括：

收集互联网网站的原始信息作为网站数据集；

分析所述收集的网站数据集的分布特征；

选取部分网站数据集进行分类，构建所述网站数据训练集。

进一步的，在上述技术方案的基础上，所述收集网站数据集还包括：

将收集的互联网网站的每个网页中的标签信息分段截取，并将所述标签信息存入到所述数据集的相应数据表的字段中。

进一步的，在上述技术方案的基础上，所述标签信息还包含网站的域名信息和内外链接统一资源定位符URL信息。

进一步的，在上述技术方案的基础上，所述选取部分网站数据集进行分类，构建所述网站数据训练集还包括：

根据所选取的网站数据集包含的所述标签信息，对网站数据通过人工标记的手段标记分类类型，并将所述标记的类型写入到所述数据表的相应字段中。

进一步的，在上述技术方案的基础上，所述步骤2还包括：

对所述训练集中的每个网站信息文本进行分词，基于词频-逆文本频率TF-IDF方法对每个分词进行统计，计算每个分词的词频tf _i,j：tf _i,j =(n _i,j)/(∑_k n _k,j)，其中n _i,j表示分词i在网站信息文本j中出现的次数，∑_k n _k,j表示所有分词在网站信息文本j中出现的次数之和；计算每个分词的逆文本频率idf _i : idf _i=log10*(|D|)/(1+|{j:i∈j}|)，其中|D|是指所述训练集中的网站信息文本总数，|{j:i∈j}|表示包含分词i的网站信息文本j的数量；计算tf _i,j与idf _i的乘积：tf _i,j *idf _i；

将网站信息文本j的所有分词按照tf _i,j *idf _i的值降序排序；

提取排序靠前的一定数量的分词作为网站信息文本j的类别关键字Keywords _j；

将上述类别关键字与用户提供的行业经验类别关键字Keywords _exp合并；

去除所述合并后的类别关键字中的停用词，构成合成类别关键字Keywords _com；

进一步的，在上述技术方案的基础上，所述一定数量的值不小于20。

进一步的，在上述技术方案的基础上，所述合成类别关键字Keywords _com的个数不超过20个。

进一步的，在上述技术方案的基础上，所述步骤3还包括：

将所述每个网站信息文本j的分词i与所述合成类别关键字Keywords _com比较；

如果所述分词i为所述合成类别关键字Keywords _com中的成员，即i∈Keywords _com，则所述分词i的权重设为K3，该分词对应的词频TF值按照如下计算公式修正：

tf _i,j修正 = tf _i,j+K3，其中，tf _i,j修正为修正后的分词i在网站信息文本j中出现的频率；

如果所述分词i不为所述合成类别关键字Keywords _com中的成员，即，但所述分词i的词频高于特定阈值，并且该分词也不为停用词，则所述分词i的权重设为K2，则该分词对应的词频TF值按照如下计算公式修正：

tf _i,j修正 = tf _i,j+K2，其中，tf _i,j修正为修正后的分词i在网站信息文本j中出现的频率；

如果所述分词i不为所述合成类别关键字Keywords _com中的成员，即

，但所述分词i的词频不高于特定阈值，且所述分词也不为停用词，则所述分词i的权重设为K1，则该分词i对应的词频TF值按照如下计算公式修正：

tf _i,j修正 = tf _i,j+K1，其中，tf _i,j修正为修正后的分词i在网站信息文本j中出现的频率；

根据修正后的TF值，重新计算每个分词的TF值与IDF的乘积，tf _i,j *idf _i，其中，K3>>K2>>K1>0。

根据重新计算的所述每个网站信息文本的分词的TF值与IDF的乘积实现所述每个网站信息文本的数值化。

进一步的，在上述方案的就基础上，所述阈值按照如下方式确定：

P=

,其中，P为所述阈值，W为所述每个网站信息文本的分词总数。

进一步的，在上述技术方案的基础上，所述数值化包括：

基于所述网站信息文本的分词重新计算的TF与IDF的乘积构建所述网站信息文本的数值向量。

进一步的，在上述技术方案的基础上，所述步骤4是基于TextCNN算法构建。

进一步的，在上述技术方案的基础上，所述基于TextCNN算法构建的步骤包括：

构建所述框架模型的输入层，所述输入层为一数字矩阵，矩阵的每行对应一个分词，每列对应一种网站的网站信息文本；

构建所述框架模型的卷积层，所述卷积层包括三个不同大小的卷积核；

构建所述框架模型的池化层；

构建所述框架模块的全连接层。

进一步的，在上述技术方案的基础上，所述步骤5还包括：

从所述训练集中人工筛选出多个样本对所述网站主题分类框架进行训练，训练完成后，获得所述网站主题分类模型，然后用所述网站主题分类模型对其他网站信息文本进行网站主题的自动分类，完成网站主题的自动分类。

进一步的，在上述技术方案的基础上，所述多个样本的数量不少于10000条，且所述多个样本能模拟所述训练集的分布特征。

另一方面，本发明还提出了一种基于深度学习的网站主题分类装置，包括处理器和存储器，所述存储器具有存储有程序代码的介质，当所述处理器读取所述介质存储的程序代码时，所述装置能够执行上述技术方案任一项所述的方法。

采用本发明提出的上述技术方案，实现如下技术效果：

（1）在选择人工智能分类算法时，组合升级使用多个算法,综合考虑了算法的准确性和计算复杂度，利用TFIDF算法与人工设定的关键词比对结合，确保分类的数目；且所选算法以词频TF进行统计，算法复杂度较低，计算和处理的周期短，对文本分类的流程、难度以及数据处理速度影响有限；在文本分类过程中，通过增加类别关键字的权重，使得文本向量化之后的结果更精准的代表所述文本信息，最终实现对大数量网站进行分类时，提取关键词特征高效准确、提取类别关键词全面精准、网站分类速度快。（2）保证了机器学习模型训练使用的网站数据的大数据量、多样性，分类的数目充足。（3）可组合方法和模型来适用于对高维数据样本分类，增强机器学习提取特征和学习信息的能力。

附图说明

图1为本发明提出的基于深度学习的网站主题分类方法的流程示意图；

图2为本发明提出的网站主题分类框架模型的示意图；

图3为本发明提出的网站主题分类框架模型的卷积层的示意图；

图4为本发明提出的网站主题分类模型在网站主题自动化分类的应用示意图。

具体实施方式

为了便于理解本发明的发明构思和技术方案，通过下述具体实施方式对本发明作进一步的描述。虽然本发明的典型但非限制性的实施例如下，但这里需要特别说明的是本发明说明书所列的实施方式仅是为了说明问题方便而给出的示例性实施方法，其不得理解为是本发明唯一正确的实施方式，更不得理解为是对本发明保护范围的限制性说明。

参见图1为本发明提出的基于深度学习的网站主题分类方法的流程示意图，包括：

S1：构建网站数据训练集；

S2：提取所述训练集中的类别关键字；

S3：基于所述关键字，将所述网站数据训练集的文本数值化；

S4：构建网站主题分类框架模型；

S5：用所述网站数据训练集的数值化文本对所述网站主题分类框架模型进行训练，形成可自主分类的网站主题分类模型，实现网站主题的自动化分类。

为了进一步理解本发明的提出的技术方案，以每个步骤的具体实施方式来说明，但值得注意的是，这些具体实施方式仅仅是一种优选的方式，并不代表是唯一的实施方式。

在步骤S1中，首先构建用于训练网站主题分类框架模型的训练集。可以根据现有大量互联网网站的原始信息作为网站数据集，先处理数据集，再结合真实数据集的分布特征，随机选取处理后的部分数据集人工分类，作为训练数据。

具体的，可先将收集的网站数据集进行整理。例如通过网络爬虫，将网站数据集的每个网页的URL、title、meta、body等标签内的信息分段截取，按字段名存入数据集数据表中。再通过人工随机选取多条数据，分别判断每条数据网页的URL和title、meta中包含的关键信息，结合这些信息，对选中的网站进行人工标记分类类型。例：URL中gov.cn结尾，政府网站特有，title标签包含“政府网”，meta标签包含“政府”、“机关”等，可人工分类为政府网站，并将“政府网站”标签存入数据表中此条网站的类别字段内。对数据量多的类样本进行降采样，或对少数类样本进行过采样，或二者结合，使得人工分类数据集不同类别之间的数量尽量均衡，依次人工生成大量训练数据。将各字段信息写入文本，形成每个网站信息文本。

在步骤S2中，对所述训练集中的每个网站信息文本进行分词，基于词频-逆文本频率TF-IDF方法对每个分词进行统计，计算每个分词的词频tf _i,j：tf _i,j =(n _i,j)/(∑_k n _k,j)，其中n _i,j表示分词i在网站信息文本j中出现的次数，∑_k n _k,j表示所有分词在网站信息文本j中出现的次数之和；计算每个分词的逆文本频率idf _i : idf _i=log10*(|D|)/(1+|{j:i∈j}|)，其中|D|是指所述训练集中的网站信息文本总数，

|{j:i∈j}|表示包含分词i的网站信息文本j的数量；计算tf _i,j与idf _i的乘积：tf _i,j *idf _i；

去除所述合并后的类别关键字中的停用词，构成合成类别关键字Keywords _com。

该步骤中，可使用开源的Jieba中文分词软件（可参考：https://pypi.org/project/jieba/）对网站信息文本进行分词，结合部分训练数据和用户提供的类别，提取出类别关键字。

具体的，先根据TFIDF算法（细节可参考：https://baike.***.com/item/tf- idf）计算tfidf值，将所述训练数据转成TFIDF向量的模式，按降序处理，取tfidf值靠前的若干个词语为类别关键字。将用户提供的类别关键字与根据TFIDF算法提取到的前N（N优选大于等于20）个类别关键字进行求同存异法合并，剔除停用词后，形成最终类别关键字。其中，所述停用词可提前设定，如“我们”、“这是”、“特别”、“一般”、“等等”这类使用频率较高，但又不具有网站分类含义的词语。每个类别设定以20个特征词为佳。例如：原提供政府类的关键词为1个：“政府”，此类网站信息文本中，TF-IDF值较大的与原设定不同词取前19个：“机关”、“管理局”、“政府信息公开”等等，最终提取政府网站类型的类别关键词为“政府”、“机关”、“管理局”、“政府信息公开”等20个。

在步骤S3中，使用修正的TFIDF词向量技术，实现文本数值化。

作为一个优选的实施方式，将所述每个网站信息文本j的分词i与所述合成类别关键字Keywords _com比较；

作为一个优选的实施方式，当K3值大于K2值1000倍以上时，可认为是远大于，K2值大于K1值1000倍以上时，可认为是远大于。通过对所述词语词频TF的修正，有效增加了类别关键词与其他词的权重区分度，进一步提高了分类准确率。

然后根据TFIDF算法公式重新计算TFIDF值，即TFIDF=TF * IDF，其中，TF采用上述修正后的TF值计算，并用每个分词重新计算的TFIDF值构建所述网站文本信息的分词向量，即所述网站文本信息可用由多个分词构成的多维向量表示，所述多维向量的每个元素的值用每个分词重新计算的TFIDF值表示，实现所述网站信息文本的数值化。

以一个简单网站信息文本为例，如一网站文本信息为： '学校教育的网站’，如所述网站文本的分词为：'学校'、'教育'、'网站'，对应的重新计算的TFIDF值分别为：0.2、0.37、0.3。则由这三个分词分别对应一个维度，构成三维的词向量，则所述网站信息文本的数值化后的结果为：[0.2,0.37,0.3]。

在其后的步骤，所使用的TFIDF值均为经过上述修正重新计算后得到的TFIDF值。

在步骤S4，可借助开源的深度学习框架，如tensorflow计算框架（具体细节可参考：https://tensorflow.***.cn/），搭建文本分类模型，所述模型可优选为Text-CNN模型（细节可参考Yoon Kim于2014发表的论文“Convolutional Neural Networks forSentence Classification”，https://arxiv.org/abs/1408.5882）。

具体的，在实现网站文本信息的数值化/向量化之后，通过Text-CNN文本分类算法，进行文本分类。优化输入层，向量维度K以上下文或上下文档计数，每行以本篇文档的每个词汇对应的TFIDF值来定义，这样结果会更符合此词在文档上下文的关系，提升输出类别的准确性。以一个简单的网站文本信息待分类为例，参见图2，包括输入层、卷积层、池化层和全连接层。其中：

（1）输入层：Text-CNN的输入层是一个数字矩阵，即每个样本应该是以一个矩阵，每行对应此文档的一个分词，即词汇（参见图2中的“词汇0、词汇1、词汇2，···词汇n-1”），每列表示一种不同的上下文或不同的网站信息文本，矩阵中的每个元素对应相关词和上下文的共现信息。通过神经网络的训练迭代更新分析样本数据集的长度来指定一个固定长度序列n，比n短的样本序列需要填充(填充的内容可自行定义，如“0”，其对最终结果不影响)，比n长的序列需要截取。最终输入层输入的是文本序列中各个词汇对应的分布式表示。得到一个合适的权重矩阵，如图2所示的一个n×K的维度，其中n为此文本输入序列最大长度、K为词向量的维度。仍以上例为基础，上步骤中举例的简单网站文本分词后的词汇为3个：“学校”、“教育”、“网站”，则n=3，如果有300个不同的网站信息文本，则K=300。

（2）卷积层：卷积层可设计成三个不同大小的卷积核，如：3×K，4×K，5×K，其中K=300，每个不同大小的卷积核各1024个,其中，3,4,5是根据现有网站文本信息要求设置，通常以1-5之间的值作为优选值。卷积后分别成为如图3所示的1998×1×128，1997×1×128，1996×1×128的特征图feature-map。Tensorflow框架的卷积方式可采用same 或者 valid的形式，具体计算参照现有的技术，此处不再赘述。

（3）池化层：在卷积层过程中由于使用了不同高度的卷积核，使得通过卷积层后得到的向量维度会不一致，所以在池化层中，使用1-Max-pooling对每个特征向量池化成一个值，即抽取每个特征向量的最大值表示该特征，将这个最大值作为最重要的特征。对所有特征向量进行1-Max-Pooling之后，还需要将每个值给拼接起来。得到池化层最终的特征。将上一步骤中得到的结果（参照图2和图3），进行三个池化层，来缩小特征图，这从卷积层的Feature Map中提取最大的值。例如，将卷积层的特征池化之后的图为：1×1×128，1×1×128，1×1×28，经过整形reshape维度合并成3×128，最终提取出来成为一个如图3所示的一维向量（参见图3中的“128×3”所示的一维向量）。

（4）全连接层：用于对前步骤的特征做加权和，池化之后的一维向量通过全连接的方式接入一个softmax层进行分类，并且在全连接部分使用Dropout,减少过拟合。具体细节为现有技术，此处不再赘述。最终输出的结果即是需要的准确分类，即对应的网站分类。例如，当输入的网站文本信息为“关于学校教育的网站”，输出的结果是“学校”的分类。

在步骤S5、通过对模型框架训练后，得到搭建好分类模型，以实现对输入的新的网站信息文本的自动分类。

具体的，参见图4，可将人工筛选的10000个样本站点的网络文本数据构建成训练集，对Text-CNN文本分类算法进行训练，使用训练完成的文本分类算法作为自动化分类的模型，通过搜索应用服务器solr调用全部网站站点未被分类的网络文本数据，并存放在网络指纹库中，将它们输入到所述训练完成的文本分类算法中，可以快速获得这些网络文本信息的分类信息。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于深度学习的网站主题分类方法，其特征在于所述方法包括下述步骤：

步骤1：构建网站数据训练集；

步骤2：提取所述训练集中的类别关键字，具体包括：对所述训练集中的每个网站信息文本进行分词，基于词频-逆文本频率TF-IDF方法对每个分词进行统计，计算每个分词的词频tf_i,j：tf_i,j＝(n_i,j)/(∑_kn_k,j)，其中n_i,j表示分词i在网站信息文本j中出现的次数，∑_kn_k,j表示所有分词在网站信息文本j中出现的次数之和；计算每个分词的逆文本频率idf_i:idf_i＝log10*(|D|)/(1+|{j:i∈j}|)，其中|D|是指所述训练集中的网站信息文本总数，|{j:i∈j}|表示包含分词i的网站信息文本j的数量；计算tf_i,j与idf_i的乘积：tf_i,j*idf_i；

将网站信息文本j的所有分词按照tf_i,j*idf_i的值降序排序；

提取排序靠前的一定数量的分词作为网站信息文本j的类别关键字Keywords_j；

将上述类别关键字与用户提供的行业经验类别关键字Keywords_exp合并；

去除所述合并后的类别关键字中的停用词，构成合成类别关键字Keywords_com；

步骤3：基于所述合成关键字Keywords_com，将所述网站数据训练集的文本数值化，具体包括：

将所述每个网站信息文本j的分词i与所述合成类别关键字Keywords_com比较；

如果所述分词i为所述合成类别关键字Keywords_com中的成员，即i∈Keywords_com，则所述分词i的权重设为K3，该分词i对应的词频TF值按照如下计算公式修正：

tf_i,j修正＝tf_i,j+K3，其中，tf_i,j修正为修正后的分词i在网站信息文本j中出现的频率；

如果所述分词i不为所述合成类别关键字Keywords_com中的成员，即

但所述分词i的词频高于特定阈值，并且该分词也不为停用词，则所述分词i的权重设为K2，则该分词对应的词频TF值按照如下计算公式修正：

tf_i,j修正＝tf_i,j+K2，其中，tf_i,j修正为修正后的分词i在网站信息文本j中出现的频率；

所述分词i的词频也不高于特定阈值，且所述分词也不为停用词，则所述分词i的权重设为K1，则该分词i对应的词频TF值按照如下计算公式修正：

tf_i,j修正＝tf_i,j+K1，其中，tf_i,j修正为修正后的分词i在网站信息文本j中出现的频率；

根据修正后的TF值，重新计算每个分词的TF值与IDF的乘积，tf_i,j*idf_i，其中，K3>>K2>>K1>0；

根据重新计算的所述每个网站信息文本的分词的TF值与IDF的乘积实现所述每个网站信息文本的数值化；

步骤4：构建网站主题分类框架模型；

2.如权利要求1所述的方法，其特征在于所述步骤1还包括：

收集互联网网站的原始信息作为网站数据集；

分析所述收集的网站数据集的分布特征；

选取部分网站数据集进行分类，构建所述网站数据训练集。

3.如权利要求2所述的方法，其特征在于所述收集网站数据集还包括：

将收集的互联网网站的每个网页中标签信息分段截取，并将所述标签信息存入到所述数据集的相应数据表的字段中。

4.如权利要求3所述的方法，其特征在于所述标签信息包含网站的域名信息和内外链接统一资源定位符URL信息。

5.如权利要求3所述的方法，其特征在于所述选取部分网站数据集进行分类，构建所述网站数据训练集还包括：

6.如权利要求5所述的方法，其特征在于所述特定阈值按照如下方式确定：

其中，P为所述特定阈值，W为所述每个网站信息文本的分词总数。

7.如权利要求6所述的方法，其特征在于所述数值化包括：

基于所述网站信息文本的分词重新计算的TF与IDF的积构建所述网站信息文本的数值向量。

8.如权利要求7所述的方法，其特征在于所述步骤4是基于TextCNN算法构建。

9.如权利要求8所述的方法，其特征在于所述基于TextCNN算法构建的步骤包括：

构建所述框架模型的池化层；

构建所述框架模块的全连接层。

10.如权利要求9所述的方法，其特征在于所述步骤5还包括：

11.如权利要求10所述的方法，其特征在于所述多个样本的数量不少于10000条。

12.一种基于深度学习的网站主题分类装置，包括处理器和存储器，所述存储器具有存储有程序代码的介质，当所述处理器读取所述介质存储的程序代码时，所述装置能够执行权利要求1-11任一项所述的方法。