CN108268466A

CN108268466A - 一种基于神经网络模型的网页排序方法和装置

Info

Publication number: CN108268466A
Application number: CN201611254100.2A
Authority: CN
Inventors: 单小红; 麻建; 吴剑文; 何伟潮
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268466B

Abstract

本发明公开一种基于神经网络模型的网页排序装置，包括：关键词预处理模块，用于提取关键词；聚类模块，用于将样品进行分类；PR值分析模块，用于获取网页的PR值；相关度分析模块，用于获取网页的主题相关度；BP神经网络模块，用于确定网页的排序位置；兴趣类判定模块，用于判定网页的兴趣类；样本模块，用于提供随机样本；网页输入模块，用于提供待排序的网页。与现有技术比较本发明的有益效果在于：该装置将网页通过用户兴趣类别进行了划分，将网页PR值、兴趣类别、检索词相关性作为BP神经网络模块的输入源，并根据BP神经网络模块的输出值对网页进行排序，很好地解决了PageRank排序方法会出现主题漂移的不足，提供给用户更好的网页推荐和上网服务。

Description

一种基于神经网络模型的网页排序方法和装置

技术领域

本发明涉及网页排序技术领域，具体涉及一种基于神经网络模型的网页排序方法和一种基于神经网络模型的网页排序装置。

背景技术

随着互联网的迅猛发展，互联网上的信息量以指数形式不停增长，互联网用户准确查询和获取信息的难度逐步加大，如何更快更准确的提供给互联网用户想要的信息则显得十分的重要。随着移动互联网深度普及，互联网产品正在经历一轮从“人找信息”向“信息找人”的升级过程。

在互联网信息检索和查询的领域中，网页排序方法具有重要意义，它影响着信息检索和查询的准确性和时效性。现有的网页排序方法有很多，例如，有利用网页与主题相关性进行排序的词频位置加权排序方法、基于反馈的Direct Hit排序方法、基于网页重要性的PageRank排序方法及HITS排序方法等。然而这些排序方法都太过单一，仅考虑的网页某一方面的特性，无法依据网页的多维特性来对网页进行智能分类，使得网页排序准确性较差。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于神经网络模型的网页排序方法，其特征在于，该方法包括以下步骤：

步骤S1，爬取待排序的网页，获取关键词、关键词权重和词频；

步骤S2，对用户兴趣进行聚类；

步骤S3，获取PR值；

步骤S4，获取主题相关度；

步骤S5，建立BP神经网络模型；

步骤S6，将网页归入距离最近的兴趣类；

步骤S7，将网页的兴趣类、PR值、主题相关度输入BP神经网络模型，按照输出值的大小对网页进行排序。

较佳的，所述步骤S1包括以下步骤：

步骤S101，爬取待排序的网页，通过正向最大匹配法分词，进而得到关键词；

步骤S102，根据爬取到的网页信息，从左到右获取字符，与词库匹配，若匹配成功，则继续获取字符；若失败，则将此字符切分开来，将后续字符与词库匹配；

步骤S103，过滤掉停用词；

步骤S104，获取词频，词频tfi_j表示为：

其中，n_ij为第i个词在第j文件中的出现次数，分母Σ_an_aj表示在第j个文件中所有字词的频数之和。tfi_j即第j个文件中第i个词出现的频率；

步骤S105，获取逆向文件频率，逆向文件频率g_i表示为：

其中，|D|为文件总数，|{j:t_i∈d_j}|为包含该词的文件数；

步骤S106，获取关键词权重h_ij表示：

h_ij＝tf_ij×g_i

步骤S107，关键词及其权重之间的关系函数，关键词及其权重之间的关系函数H_j表示为：

H_j＝{(h_1j,x₁),(h_2j,x₂),...,(h_nj,x_n)}

其中，x₁至x_n均表示关键词，h_1j至h_nj表示关键词权重。

较佳的，所述步骤S2包括以下步骤：

步骤S201，随机将样本模块7中的样本分为k类，将每一类的平均向量作为初始类中心；

步骤S202，获取样本到类中心的距离，样本到类中心的距离R_mk表示为：

其中，y_m是第m个样本的向量，y_m向量为列向量，第k类的类中心，为向量的转秩；

步骤S203，将每个样本划入距离最近的类中心；

步骤S204，更新类中心，以每一类的平均向量作为新的聚类中心；

步骤S205，重复上述步骤S201至步骤S204，直到判定各个样本与所在类均值的误差平方和ESS达最小，或没有新的样本重新划分到新的类，最后准确获取k个兴趣类，获取误差平方和ESS公式为：

其中，c(m)为包含y_m的类；

2.根据权利要求3所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S3包括以下步骤：

步骤S301，获取网页链入因子和网页链出因子。网页链入因子网页链出因子分别表示为：

其中，F(v)是网页v向前连接的网页集合；I_u是网页u的入度，O_u是网页u的出度，是网页链入因子，是网页链出因子；

步骤302，获取网页u的PR值；结合网页链入因子和链出因子对网页PR值进行分配，计算式如下：

其中α为阻尼系数，通常取值0.85，B(u)是所有链向网页u的网页集合。

较佳的，所述步骤S4包括以下步骤：

步骤S401，通过对检索关键词在网页中不同位置和版式，给予不同的权值。其中版式信息包含：是否是标题，是否为关键词，是否是正文，字体大小，是否加粗；

步骤S402，获取网页u与查询关键词Q的相关度度量，计算式如下：

其中X＝(x₁,x₂,...,x_n)，h_ij为关键词第i个关键词x_i在第j个文件中的关键词权重值；λ_ij为根据关键词x_i在网页u中依据不同位置和版式所赋予的权值。

较佳的，所述步骤S5包括以下步骤：

步骤S501，构建激活函数，激活函数为sigmiod函数。

步骤S502，设定输入层神经元个数为b，隐藏层神经元个数为p，输出层神经元个数为l；输入层和隐含层间的连接权值为ω₁，隐含层和输出层间的连接权值ω₂。

步骤S503，网络初始化，初始化输入层和隐含层间的连接权值，初始化隐含层和输出层间的连接权值。

具体的，将输入层和隐含层间的连接权值ω₁赋一个区间[-1,1,]内的随机数，隐含层和输出层间的连接权值ω₂赋一个区间[-1,1,]内的随机数。

步骤S504，获取网络关于整个样本的误差。

第s个样本的误差为E_s，误差E_s可以表示为：

其中，O_s表示输出层的实际输出，T_s表示输出层的期望输出。

网络关于整个样本的误差为

步骤S505，判定误差是否收敛，若误差收敛，则直接将O_s作为输出。否则，对输入层和隐含层间的连接权值ω₁和隐含层和输出层间的连接权值ω₂作出调整，直到误差收敛。

较佳的，所述步骤S505包括以下步骤：

步骤S506，更新隐含层和输出层间的连接权值ω₂。更新后的隐含层和输出层间的连接权值ω₂表示为：

ω₂＝ω′₂+Δω₂

Δω₂＝αδ₂O₂

δ₂＝F(O_s-T_s)

其中F为输出层的激活函数，α为学习速率，O₂为隐藏层的输出值，ω₂表示更新后隐含层和输出层间的连接权值，ω′₂表示更新前隐含层和输出层间的连接权值；

步骤S507，更新输入层和隐含层间的连接权值ω₁。输入层和隐含层间的连接权值ω₁表示为：

ω₁＝ω′₁+Δω₁

Δω₁＝αδ₁O₁

δ₁＝H(O₁)δ₂

其中H为隐含层的激活函数，α为学习速率，O₁为输入层的输出值，ω₁表示更新后输入层和隐含层间的连接权值，ω′₁表示更新前输入层和隐含层间的连接权值。

本发明还提供一种基于神经网络模型的网页排序装置，其包括：

关键词预处理模块，用于提取关键词；

聚类模块，用于将样品进行分类；

PR值分析模块，用于获取网页的PR值；

相关度分析模块，用于获取网页的主题相关度；

BP神经网络模块，用于确定网页的排序位置；

兴趣类判定模块，用于判定网页的兴趣类；

样本模块，用于提供随机样本；

网页输入模块，用于提供待排序的网页。

与现有技术比较本发明的有益效果在于：本发明提供的装置将网页通过用户兴趣类别进行了划分，将网页PR值、兴趣类别、检索词相关性作为BP神经网络模块的输入源，并根据BP神经网络模块的输出值对网页进行排序，很好地解决了PageRank排序方法会出现主题漂移的不足，提供给用户更好的网页推荐和上网服务。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是为本发明提供的网页排序装置的功能示意图；

图2是本发明的提供的网页排序方法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

实施例1

如图1所示，为本发明提供的网页排序装置的功能示意图。

本发明提供的一种基于神经网络模型的网页排序装置，其包括关键词预处理模块1，聚类模块2，PR值分析模块3，相关度分析模块4，BP神经网络模块5，兴趣类判定模块6，样本模块7，网页输入模块8。

关键词预处理模块1，用于提取关键词，获取关键词权重和词频。关键词预处理模块1分别与相关度分析模块4和网页输入模块8连接。

聚类模块2，用于将样品模块7输出的样品进行分类。聚类模块2分别与样品模块7和兴趣类判定模块6连接。

PR值分析模块3，用于获取网页输入模块8输出的网页的PR值。PR值分析模块3分别与网页输入模块8和BP神经网络模块5连接。

相关度分析模块4，用于获取网页输入模块8输出的网页的主题相关度。相关度分析模块4分别与关键词预处理模块1和BP神经网络模块5连接。

BP神经网络模块5，用于确定网页输入模块8输出的网页的排序位置。BP神经网络模块5分别与PR值分析模块3、相关度分析模块4、兴趣类判定模块6和样品模块7连接。

兴趣类判定模块6，用于判定网页输入模块8输出的网页的兴趣类。兴趣类判定模块6分别与BP神经网络模块5、网页输入模块8和聚类模块2连接。

样本模块7，用于提供随机样本。样本模块7分别与BP神经网络模块5和聚类模块2连接，样本模块7向聚类模块2提供样本。

网页输入模块8，用于提供待排序的网页。网页输入模块8分别与关键词预处理模块1、PR值分析模块3和兴趣类判定模块6连接，网页输入模块8向关键词预处理模块1、PR值分析模块3和兴趣类判定模块6提供待排序的网页。

如图2所示，是本发明的提供的网页排序方法的流程图。

本发明提供的一种基于神经网络模型的网页排序方法，具体包含步骤：

步骤S1，爬取待排序的网页，获取关键词、关键词权重和词频。

执行步骤S1过程中的具体步骤为：

步骤S102，根据爬取到的网页信息，从左到右获取字符，与词库匹配。若匹配成功，则继续获取字符；若失败，则将此字符切分开来，将后续字符与词库匹配；

步骤S103，过滤掉停用词；

步骤S104，获取词频，词频tf_ij表示为：

其中，n_ij为第i个词在第j文件中的出现次数，分母∑_an_aj表示在第j个文件中所有字词的频数之和。tf_ij即第j个文件中第i个词出现的频率。

步骤S105，获取逆向文件频率，逆向文件频率g_i表示为：

其中，|D|为文件总数，|{j:t_i∈d_j}|为包含该词的文件数。

步骤S106，获取关键词权重h_ij表示：

hi_j＝tfi_j×g_i

H_j＝{(h_1j,x₁),(h_2j,x₂),...,(h_nj,x_n)}

其中，x₁至x_n均表示关键词，h_1j至h_nj表示关键词权重。

具体的，应用关键词步骤预处理模块1能够完成上述步骤S101至步骤S107。

步骤S2，对用户兴趣进行聚类，准确获取k个兴趣类。

执行步骤S2过程中的具体步骤为：

步骤S201，随机将样本模块7中的样本分为k类，将每一类的平均向量作为初始类中心。

步骤S202，获取样本到类中心的距离。样本到类中心的距离R_mk表示为：

其中，y_m是第m个样本的向量，y_m向量为列向量，第k类的类中心，为向量的转秩。

步骤S203，将每个样本划入距离最近的类中心。

步骤S204，更新类中心，以每一类的平均向量作为新的聚类中心。

步骤S205，重复上述步骤S201至步骤S204，直到判定各个样本与所在类均值的误差平方和ESS达最小，或没有新的样本重新划分到新的类。最后准确获取k个兴趣类。

具体的，获取误差平方和ESS公式为：

其中，c(m)为包含y_m的类。

应用聚类模块2，能够完成上述步骤S201至步骤S205。

步骤S3，获取PR值。

执行步骤S3过程中的具体步骤为：

其中，F(v)是网页v向前连接的网页集合；I_u是网页u的入度，O_u是网页u的出度，是网页链入因子，是网页链出因子。

步骤302，获取网页u的PR值。

具体的，结合网页链入因子和链出因子对网页PR值进行分配，计算式如下：

具体的，应用PR值分析模块3能够完成上述步骤S301至步骤S302。

步骤S4，获取主题相关度。

执行步骤S4过程中的具体步骤为：

步骤S401，通过对检索关键词在网页中不同位置和版式，给予不同的权值。其中版式信息包含：是否是标题，是否为关键词，是否是正文，字体大小，是否加粗。

具体的，应用相关度分析模块4能够完成上述步骤S401至步骤S402。

步骤S5，建立BP神经网络模型，其中包含输入层、隐含层和输出层。

执行步骤S5过程中的具体步骤为：

步骤S501，构建激活函数，激活函数为sigmiod函数。

步骤S504，获取网络关于整个样本的误差。

第s个样本的误差为E_s，误差E_s可以表示为：

网络关于整个样本的误差为

具体的，对输入层和隐含层间的连接权值ω₁和隐含层和输出层间的连接权值ω₂调整的步骤包括：

ω₂＝ω′₂+Δω₂

Δω₂＝αδ₂O₂

δ₂＝F(O_s-T_s)

其中F为输出层的激活函数，α为学习速率，O₂为隐藏层的输出值，ω₂表示更新后隐含层和输出层间的连接权值，ω′₂表示更新前隐含层和输出层间的连接权值。

ω₁＝ω′₁+Δω₁

Δω₁＝αδ₁O₁

δ₁＝H(O₁)δ₂

应用BP神经网络模块5能够完成上述步骤S501至步骤S507。

步骤S6，将网页u归入距离最近的兴趣类。

兴趣类判定模块6，能够完成上述步骤S6。

应用兴趣类判定模块6，能够完成上述步骤S6。

步骤S7，将网页u的兴趣类、PR值、主题相关度输入BP神经网络模型，按照输出值的大小对网页进行排序。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于神经网络模型的网页排序方法，其特征在于，该方法包括以下步骤：

步骤S2，对用户兴趣进行聚类；

步骤S3，获取PR值；

步骤S4，获取主题相关度；

步骤S5，建立BP神经网络模型；

步骤S6，将网页归入距离最近的兴趣类；

2.根据权利要求1所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S1包括以下步骤：

步骤S103，过滤掉停用词；

步骤S104，获取词频，词频tf_ij表示为：

其中，n_ij为第i个词在第j文件中的出现次数，分母∑_an_aj表示在第j个文件中所有字词的频数之和，tf_ij即第j个文件中第i个词出现的频率；

步骤S105，获取逆向文件频率，逆向文件频率g_i表示为：

其中，|D|为文件总数，|{j:t_i∈d_j}|为包含该词的文件数；

步骤S106，获取关键词权重h_ij表示：

h_ij＝tf_ij×g_i

H_j＝{(h_1j,x₁),(h_2j,x₂),...,(h_nj,x_n)}

其中，x₁至x_n均表示关键词，h_1j至h_nj表示关键词权重。

3.根据权利要求2所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S2包括以下步骤：

其中，ym是第m个样本的向量，ym向量为列向量，第k类的类中心，为向量的转秩；

步骤S203，将每个样本划入距离最近的类中心；

其中，c(m)为包含y_m的类。

4.根据权利要求3所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S3包括以下步骤：

步骤S301，获取网页链入因子和网页链出因子，网页链入因子网页链出因子分别表示为：

5.根据权利要求4所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S4包括以下步骤：

步骤S401，通过对检索关键词在网页中不同位置和版式，给予不同的权值，其中版式信息包含：是否是标题，是否为关键词，是否是正文，字体大小，是否加粗；

6.根据权利要求5所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S5包括以下步骤：

步骤S501，构建激活函数，激活函数为sigmiod函数；

步骤S502，设定输入层神经元个数为b，隐藏层神经元个数为p，输出层神经元个数为l；输入层和隐含层间的连接权值为ω₁，隐含层和输出层间的连接权值ω₂；

步骤S503，网络初始化，初始化输入层和隐含层间的连接权值，初始化隐含层和输出层间的连接权值；

具体的，将输入层和隐含层间的连接权值ω₁赋一个区间[-1,1,]内的随机数，隐含层和输出层间的连接权值ω₂赋一个区间[-1,1,]内的随机数；

步骤S504，获取网络关于整个样本的误差；

第s个样本的误差为E_s，误差E_s可以表示为：

其中，O_s表示输出层的实际输出，T_s表示输出层的期望输出；

网络关于整个样本的误差为

步骤S505，判定误差是否收敛，若误差收敛，则直接将O_s作为输出；否则，对输入层和隐含层间的连接权值ω₁和隐含层和输出层间的连接权值ω₂作出调整，直到误差收敛。

7.根据权利要求6所述的一种基于神经网络模型的网页排序方法，其特征在于，所述步骤S505包括以下步骤：

步骤S506，更新隐含层和输出层间的连接权值ω₂；更新后的隐含层和输出层间的连接权值ω₂表示为：

ω₂＝ω₂′+Δω₂

Δω₂＝αδ₂O₂

δ₂＝F(O_s-T_s)

其中F为输出层的激活函数，α为学习速率，O₂为隐藏层的输出值，ω₂表示更新后隐含层和输出层间的连接权值，ω₂′表示更新前隐含层和输出层间的连接权值；

步骤S507，更新输入层和隐含层间的连接权值ω₁，输入层和隐含层间的连接权值ω₁表示为：

ω₁＝ω₁′+Δω₁

Δω₁＝αδ₁O₁

δ₁＝H(O₁)δ₂

其中H为隐含层的激活函数，α为学习速率，O₁为输入层的输出值，ω₁表示更新后输入层和隐含层间的连接权值，ω₁′表示更新前输入层和隐含层间的连接权值。

8.一种基于神经网络模型的网页排序装置，其特征在于，其包括：

关键词预处理模块，用于提取关键词；

聚类模块，用于将样品进行分类；

PR值分析模块，用于获取网页的PR值；

相关度分析模块，用于获取网页的主题相关度；

BP神经网络模块，用于确定网页的排序位置；

兴趣类判定模块，用于判定网页的兴趣类；

样本模块，用于提供随机样本；

网页输入模块，用于提供待排序的网页。