CN109062972A

CN109062972A - 网页分类方法、装置及计算机可读存储介质

Info

Publication number: CN109062972A
Application number: CN201810694720.0A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-21
Also published as: WO2020000717A1

Abstract

本发明提供一种网页分类方法、装置及存储介质，该方法从种子网页中获取网页链接，从该网页链接所指向的待分类网页中获取网页源码后，对所述网页源码进行噪音过滤，获取每个待分类网页的筛选文本，对该筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合。之后，该方法从所述可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合，计算每个待分类网页的核心关键词词向量的平均值，并将该平均值输入训练得到的网页分类模型，得到每个待分类网页的分类结果。利用本发明，可以对种子网页的网页链接所指向的待分类网页实现自动分类。

Description

网页分类方法、装置及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种网页分类方法、装置及计算机可读存储介质。

背景技术

随着互联网技术和Web技术的高速发展，互联网上网页的数量在不断增加，数据资源在不断丰富，为各种数据密集型的应用提供了潜在的数据来源。然而，过大的信息量给人们处理数据信息带来了很多困难，传统的靠人工的信息处理方式显然已经无法满足大量数据处理的要求。在这一背景下，如何自动获取海量网页的有效文本内容，并对海量网页进行自动分类，是组织和管理网络资源的关键。

发明内容

鉴于以上原因，本发明提供一种网页分类方法、装置及计算机可读存储介质，其主要目的在于结合爬虫技术和神经网络模型，对网页进行自动分类。

为实现上述目的，本发明提供一种网页分类方法，该方法包括：

获取步骤：从种子网页中获取网页链接，从所述网页链接指向的待分类网页中获取网页源码；

预处理步骤：对所述网页源码进行噪音过滤，获取每个待分类网页的筛选文本，对该筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合；

提取步骤：从所述可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合；

计算步骤：计算每个待分类网页的核心关键词词向量的平均值，将该平均值输入预先训练得到的网页分类模型，得到每个待分类网页的分类结果；及

循环步骤：将获得分类结果的待分类网页作为新的种子网页，返回获取步骤。

优选地，所述网页分类模型的训练步骤包括：

为预先选取的预设数量的种子网页标注网页类型；

对所述种子网页的网页源码进行预处理，得到每个种子网页的可用词集合；

从所述可用词集合中提取核心关键词，得到每个种子网页的核心关键词集合；

计算每个种子网页的核心关键词词向量的平均值；及

利用每个种子网页的核心关键词词向量的平均值和对应的网页类型标注对神经网络模型进行训练，得到网页分类模型。

优选地，所述筛选文本包括网页源码中标题标签、关键词标签和描述标签中的文本部分，所述分词处理采用的分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。

优选地，该方法还包括：

设置所述循环步骤的执行次数，当满足设置要求时，终止所述循环步骤。

优选地，该方法还包括：

将具有网页类型标注的种子网页和获得分类结果的待分类网页对应的网页链接存储至数据库；

当获取的网页链接已在所述数据库中存在时，终止针对该网页链接的后续操作。

本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括网页分类程序，该网页分类程序被所述处理器执行时实现如下步骤：

优选地，所述网页分类模型的训练步骤包括：

为预先选取的预设数量的种子网页标注网页类型；

计算每个种子网页的核心关键词词向量的平均值；及

优选地，所述网页分类程序被所述处理器执行时还实现如下步骤：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括网页分类程序，该网页分类程序被所述处理器执行时实现如上所述的网页分类方法中的任意步骤。

本发明提出的网页分类方法、装置及计算机可读存储介质，通过从种子网页中获取网页链接，从网页链接指向的待分类网页中获取网页源码，然后对网页源码进行噪音过滤，得到包括标题标签、关键词标签和描述标签中文本部分的筛选文本，对筛选文本进行分词和去停用词处理，得到可用词集合，利用TF-IDF算法从可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合，然后计算每个待分类网页的核心关键词词向量的平均值，将其输入网页分类模型，得到待分类网页的分类结果。因为获得分类结果的待分类网页可以作为新的种子网页，重新获取其网页链接及对应的网页源码，所以利用本发明可以实现对大量网页的自动分类。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中网页分类程序的程序模块图；

图3为本发明网页分类方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，下面将结合若干附图及实施例，对本发明进行进一步详细说明。应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种电子装置。参照图1所示，为本发明电子装置1较佳实施例的示意图。在该实施例中，电子装置1利用爬虫技术爬取网页链接和网页源码，对网页源码进行预处理得到可用词，进而得到每个待分类网页的核心关键词集合，然后利用每个待分类网页核心关键词词向量的平均值和预先训练得到的网页分类模型得到每个待分类网页的分类结果。

所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。在一个实施例中，当电子装置1为服务器时，该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。

所述电子装置1包括存储器11、处理器12、网络接口13及通信总线14。

其中，存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储操作***、网页分类程序10、网页分类模型以及具有网页类型标注的种子网页和获得分类结果的待分类网页对应的网页链接等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行网页分类程序10等。

网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该服务器1与其他电子设备或***之间建立通信连接。

通信总线14用于实现上述组件之间的连接通信。

图1仅示出了具有组件11-14以及网页分类程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括显示器，也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动网页分类程序10。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的网页分类程序10时实现如下步骤：

关于上述步骤的详细介绍，请参照下述图2关于网页分类程序10较佳实施例的程序模块图以及图3关于网页分类方法较佳实施例的流程图的说明。

在其他实施例中，网页分类程序10可以被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为图1中网页分类程序10较佳实施例的程序模块图。在本实施例中，所述网页分类程序10可以被分割为：获取模块110、预处理模块120、提取模块130、计算模块140、模型训练模块150以及模型应用模块160。

获取模块110，用于获取网页链接和网页源码。例如，获取模块110利用通用网络爬虫从种子网页中获取网页链接，从该网页链接指向的待分类网页中获取网页源码。

预处理模块120，用于对网页源码进行预处理，得到每个待分类网页的可用词集合。在本实施例中，预处理模块120先使用正则表达式对网页源码进行噪音过滤，获取网页源码中标题标签、关键词标签和描述标签中的文本部分，即<title>、<keywords>、<description>中的文本部分，以此作为每个待分类网页的筛选文本，然后对筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合。

其中，所述正则表达式又称规则表达式，通常被用来检索、替换那些符合某个模式、规则的文本。每一个正则表达式都可以过滤掉与之对应的网页噪音，包括广告、导航栏、Javascript脚本代码、CSS样式代码、HTML标签、标点符号、特殊符号等。

分词是文本处理的基础，分词可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。其中，基于字符串匹配的分词方法也称为基于词典的分词算法。在本实施例中，可以使用结巴分词器对所述筛选文本进行分词处理。

停用词主要包括功能词，可以是连词、介词、助词、语气词等，有时也可以是代词、数次等。这些功能词通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，例如“那么”、“所以”、“在”、“的”、“啊”、“这”、“那”等等。在本实施例中，可以对照预设停用词表对所述筛选文本进行去停用词处理，得到每个待分类网页的可用词集合。

提取模块130，用于从可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合。在本实施例中，利用词频-逆文件频率(Term Frequency-Inverse DocumentFrequency，TF-IDF)算法和预设语料库(例如中文***语料库)，将TF-IDF值大于预设阈值的可用词作为核心关键词，得到每个待分类网页的核心关键词集合。

TF-IDF算法是一种统计方法，用来评估某词对于一个文件集或一个语料库中的其中一份文件的重要程度。具体的，在本实施例中，TF-IDF算法用来评估待分类网页的可用词对于待分类网页的重要程度，将TF*IDF的值大于预设阈值的可用词作为该待分类网页的核心关键词。其中，词频(Term Frequency，TF)表示可用词在网页中出现的频率，即某可用词在某待分类网页中出现的次数与该待分类网页中所有可用词出现的次数之商。逆文件频率(Inverse document frequency，IDF)可以看作某可用词对某待分类网页重要程度的权重，某可用词在某类网页中的词频越大，在所有网页中的词频越小，则IDF的值越大，该可用词对该待分类网页的重要程度越大。

计算模块140，用于将核心关键词映射为词向量，并计算每个网页的核心关键词词向量的平均值。在本实施例中，待分类网页的核心关键词词向量采用分布式表示。分布式词向量是一种低维实数向量，将所述核心关键词与低维空间中的点形成对应关系，这种向量的表示并不是唯一的，只为实现一定的区分性。分布式词向量之间的距离可以用传统的欧氏距离来衡量，也可以用余弦距离来衡量。用这种方式表示的向量，“麦克”和“话筒”的距离会远远小于“麦克”和“阳光”的距离。模型应用模块160正是利用上述性质实现对网页的分类。

模型训练模块150，用于利用每个预先选取的种子网页的核心关键词词向量的平均值和对应的网页类型标注对神经网络模型进行训练，得到网页分类模型。所述网页类型标注可以是人工标注，也可以是自动标注。例如，当预先选取的种子网页数量较大时，可以将从财经网站选取的种子网页自动标注为财经类型，将从体育网站选取的种子网页自动标注为体育类型。更精确的，可以通过人工标注的方式对预先选取的种子网页进行多层次标注，例如，将某种子网页标注为：体育-篮球-NBA，以便后续能更合理地利用网页资源，例如实现网页类型细分等。可以理解的是，网页类型标注还可以通过结合人工标注和自动标注的方式实现。

所述神经网络模型可以是基于神经网络的深度学***均值后，模型训练模块150以这些核心关键词词向量的平均值及对应的网页类型标注作为样本数据，通过训练和验证，调整模型参数，得到训练好的网页分类模型。

模型应用模块160，用于利用待分类网页的核心关键词词向量的平均值以及网页分类模型，得到待分类网页的分类结果。在本实施例中，将计算得到的待分类网页的核心关键词词向量的平均值作为待分类网页的特征向量，利用所述网页分类模型，通过计算待分类网页的核心关键词词向量的平均值与种子网页的核心关键词词向量的平均值之间的余弦距离，将余弦距离最小或小于阈值的种子网页对应的网页类型标注作为该待分类网页的网页类型。

在一个实施例中，所述网页分类模型包括多个网页类型的准入模型，可求出与待分类网页的核心关键词词向量的平均值距离最近的K个种子网页，统计出对应的网页类别和概率，依据概率从高到低，将该待分类网页的核心关键词词向量的平均值依次输入各种类别的准入模型，将网页分类这个多分类问题转化为多个二值分类问题。

在另一个实施例中，所述网页分类模型由其他程序训练得到，也就是说，所述网页分类程序10可以不包括所述模型训练模块150。

此外，本发明还提供一种网页分类方法。参照图3所示，为本发明网页分类方法的较佳实施例的流程图。电子装置1的处理器12执行存储器中存储的网页分类程序10时实现网页分类方法的如下步骤：

步骤S300，获取模块110从种子网页中获取网页链接，从该网页链接所指向的待分类网页中获取网页源码。例如，获取模块110利用通用网络爬虫从预先选取的预设数量的种子网页中获取所有网页链接，从网页链接指向的待分类网页中获取网页源码。

步骤S301，预处理模块120对所述网页源码进行噪音过滤，获取每个待分类网页的筛选文本，对该筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合。所述筛选文本包括网页源码中标题标签、关键词标签和描述标签中的文本部分，所述分词处理采用的分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。关于从网页源码中得到筛选文本的过程以及对筛选文本进行分词和去停用词处理的过程，可参照上述关于预处理模块120的详细介绍，在此不再赘述。

步骤S302，提取模块130从可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合。例如，提取模块130利用TF-IDF算法，结合中文***语料库，将TF*IDF的值大于预设阈值的可用词提取出来，作为待分类网页的核心关键词。

步骤S303，计算模块140计算每个待分类网页的核心关键词词向量的平均值，模型应用模块160将该平均值输入由模型训练模块150训练得到的网页分类模型，输出每个待分类网页的分类结果。

步骤S304，将获得分类结果的待分类网页作为新的种子网页，重复执行上述步骤S300-S303。

在其他实施例中，步骤S303和步骤S304之间还包括：

设置步骤S304的执行次数，当满足设置要求时，不再执行步骤S304，结束网页分类操作。

为了便于表述，此处我们将种子网页分为第一代种子网页、第二代种子网页和第三代种子网页等。类似地，可将待分类网页分为第一代待分类网页、第二代待分类网页等。其中，用于进行模型训练的种子网页属于第一代种子网页，所述第一代待分类网页指所述第一代种子网页中所有网页链接所指向的网页，其可作为第二代种子网页，以此类推，不再赘述。

例如，假设设置步骤S304的执行次数为2，则当得到每个第一代待分类网页的分类结果后，第一次执行步骤S304，将第一代待分类网页作为第二代种子网页，重复执行步骤S300-S303后，得到每个第二代待分类网页的分类结果，然后第二次执行步骤S304，直至得到每个第三代待分类网页的分类结果，不再执行步骤S304，结束网页分类操作。

在其他实施例中，还可以将具有网页类型标注的种子网页和获得分类结果的待分类网页对应的网页链接存储至数据库，当获取的网页链接已在所述数据库中存在时，终止针对该网页链接的后续操作。例如，当获取模块110从种子网页中获取网页链接后，在所述数据库中查询该网页链接，若查询成功，则该网页链接对应的网页已存在分类结果，无须重复操作，若查询失败，则正常执行后续步骤。

本实施例提出的网页分类方法，通过从种子网页中获取网页链接，从网页链接指向的待分类网页中获取网页源码，对网页源码进行噪音过滤，得到包括标题标签、关键词标签和描述标签中文本部分的筛选文本，对筛选文本进行分词和去停用词处理，得到可用词集合，利用TF-IDF算法从可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合，然后计算每个待分类网页的核心关键词词向量的平均值，将其输入网页分类模型，得到待分类网页的分类结果，再从所述待分类网页中获取网页链接，重复上述步骤。利用网络爬虫，可实现对网页源码和网页链接的深层爬取，获取大量网页数据，通过训练深度学习模型，可实现网页自动分类，因此，利用本发明，可以实现对大量网页的自动分类。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。

本发明之计算机可读存储介质的具体实施方式与上述网页分类方法和电子装置1的具体实施方式大致相同，请参相关介绍，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质中，包括若干指令用以使得服务器执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页分类方法，应用于电子装置，其特征在于，该方法包括：

2.如权利要求1所述的网页分类方法，其特征在于，所述网页分类模型的训练步骤包括：

为预先选取的预设数量的种子网页标注网页类型；

计算每个种子网页的核心关键词词向量的平均值；及

3.如权利要求1或2所述的网页分类方法，其特征在于，所述筛选文本包括网页源码中标题标签、关键词标签和描述标签中的文本部分，所述分词处理采用的分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。

4.如权利要求2所述的网页分类方法，其特征在于，该方法还包括：

5.如权利要求2所述的网页分类方法，其特征在于，该方法还包括：

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括网页分类程序，该网页分类程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述网页分类模型的训练步骤包括：

为预先选取的预设数量的种子网页标注网页类型；

计算每个种子网页的核心关键词词向量的平均值；及

8.如权利要求6或7所述的电子装置，其特征在于，所述筛选文本包括网页源码中标题标签、关键词标签和描述标签中的文本部分，所述分词处理采用的分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。

9.如权利要求6所述的电子装置，其特征在于，所述网页分类程序被所述处理器执行时还实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括网页分类程序，所述网页分类程序被处理器执行时，实现如权利要求1至5中任一项所述的网页分类方法的步骤。