CN108268466A - 一种基于神经网络模型的网页排序方法和装置 - Google Patents

一种基于神经网络模型的网页排序方法和装置 Download PDF

Info

Publication number
CN108268466A
CN108268466A CN201611254100.2A CN201611254100A CN108268466A CN 108268466 A CN108268466 A CN 108268466A CN 201611254100 A CN201611254100 A CN 201611254100A CN 108268466 A CN108268466 A CN 108268466A
Authority
CN
China
Prior art keywords
webpage
keyword
module
sample
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611254100.2A
Other languages
English (en)
Other versions
CN108268466B (zh
Inventor
单小红
麻建
吴剑文
何伟潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254100.2A priority Critical patent/CN108268466B/zh
Publication of CN108268466A publication Critical patent/CN108268466A/zh
Application granted granted Critical
Publication of CN108268466B publication Critical patent/CN108268466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于神经网络模型的网页排序装置,包括:关键词预处理模块,用于提取关键词;聚类模块,用于将样品进行分类;PR值分析模块,用于获取网页的PR值;相关度分析模块,用于获取网页的主题相关度;BP神经网络模块,用于确定网页的排序位置;兴趣类判定模块,用于判定网页的兴趣类;样本模块,用于提供随机样本;网页输入模块,用于提供待排序的网页。与现有技术比较本发明的有益效果在于:该装置将网页通过用户兴趣类别进行了划分,将网页PR值、兴趣类别、检索词相关性作为BP神经网络模块的输入源,并根据BP神经网络模块的输出值对网页进行排序,很好地解决了PageRank排序方法会出现主题漂移的不足,提供给用户更好的网页推荐和上网服务。

Description

一种基于神经网络模型的网页排序方法和装置
技术领域
本发明涉及网页排序技术领域,具体涉及一种基于神经网络模型的网页排序方法和一种基于神经网络模型的网页排序装置。
背景技术
随着互联网的迅猛发展,互联网上的信息量以指数形式不停增长,互联网用户准确查询和获取信息的难度逐步加大,如何更快更准确的提供给互联网用户想要的信息则显得十分的重要。随着移动互联网深度普及,互联网产品正在经历一轮从“人找信息”向“信息找人”的升级过程。
在互联网信息检索和查询的领域中,网页排序方法具有重要意义,它影响着信息检索和查询的准确性和时效性。现有的网页排序方法有很多,例如,有利用网页与主题相关性进行排序的词频位置加权排序方法、基于反馈的Direct Hit排序方法、基于网页重要性的PageRank排序方法及HITS排序方法等。然而这些排序方法都太过单一,仅考虑的网页某一方面的特性,无法依据网页的多维特性来对网页进行智能分类,使得网页排序准确性较差。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于神经网络模型的网页排序方法,其特征在于,该方法包括以下步骤:
步骤S1,爬取待排序的网页,获取关键词、关键词权重和词频;
步骤S2,对用户兴趣进行聚类;
步骤S3,获取PR值;
步骤S4,获取主题相关度;
步骤S5,建立BP神经网络模型;
步骤S6,将网页归入距离最近的兴趣类;
步骤S7,将网页的兴趣类、PR值、主题相关度输入BP神经网络模型,按照输出值的大小对网页进行排序。
较佳的,所述步骤S1包括以下步骤:
步骤S101,爬取待排序的网页,通过正向最大匹配法分词,进而得到关键词;
步骤S102,根据爬取到的网页信息,从左到右获取字符,与词库匹配,若匹配成功,则继续获取字符;若失败,则将此字符切分开来,将后续字符与词库匹配;
步骤S103,过滤掉停用词;
步骤S104,获取词频,词频tfij表示为:
其中,nij为第i个词在第j文件中的出现次数,分母Σanaj表示在第j个文件中所有字词的频数之和。tfij即第j个文件中第i个词出现的频率;
步骤S105,获取逆向文件频率,逆向文件频率gi表示为:
其中,|D|为文件总数,|{j:ti∈dj}|为包含该词的文件数;
步骤S106,获取关键词权重hij表示:
hij=tfij×gi
步骤S107,关键词及其权重之间的关系函数,关键词及其权重之间的关系函数Hj表示为:
Hj={(h1j,x1),(h2j,x2),...,(hnj,xn)}
其中,x1至xn均表示关键词,h1j至hnj表示关键词权重。
较佳的,所述步骤S2包括以下步骤:
步骤S201,随机将样本模块7中的样本分为k类,将每一类的平均向量作为初始类中心;
步骤S202,获取样本到类中心的距离,样本到类中心的距离Rmk表示为:
其中,ym是第m个样本的向量,ym向量为列向量,第k类的类中心,向量的转秩;
步骤S203,将每个样本划入距离最近的类中心;
步骤S204,更新类中心,以每一类的平均向量作为新的聚类中心;
步骤S205,重复上述步骤S201至步骤S204,直到判定各个样本与所在类均值的误差平方和ESS达最小,或没有新的样本重新划分到新的类,最后准确获取k个兴趣类,获取误差平方和ESS公式为:
其中,c(m)为包含ym的类;
2.根据权利要求3所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S3包括以下步骤:
步骤S301,获取网页链入因子和网页链出因子。网页链入因子网页链出因子分别表示为:
其中,F(v)是网页v向前连接的网页集合;Iu是网页u的入度,Ou是网页u的出度,是网页链入因子,是网页链出因子;
步骤302,获取网页u的PR值;结合网页链入因子和链出因子对网页PR值进行分配,计算式如下:
其中α为阻尼系数,通常取值0.85,B(u)是所有链向网页u的网页集合。
较佳的,所述步骤S4包括以下步骤:
步骤S401,通过对检索关键词在网页中不同位置和版式,给予不同的权值。其中版式信息包含:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗;
步骤S402,获取网页u与查询关键词Q的相关度度量,计算式如下:
其中X=(x1,x2,...,xn),hij为关键词第i个关键词xi在第j个文件中的关键词权重值;λij为根据关键词xi在网页u中依据不同位置和版式所赋予的权值。
较佳的,所述步骤S5包括以下步骤:
步骤S501,构建激活函数,激活函数为sigmiod函数。
步骤S502,设定输入层神经元个数为b,隐藏层神经元个数为p,输出层神经元个数为l;输入层和隐含层间的连接权值为ω1,隐含层和输出层间的连接权值ω2
步骤S503,网络初始化,初始化输入层和隐含层间的连接权值,初始化隐含层和输出层间的连接权值。
具体的,将输入层和隐含层间的连接权值ω1赋一个区间[-1,1,]内的随机数,隐含层和输出层间的连接权值ω2赋一个区间[-1,1,]内的随机数。
步骤S504,获取网络关于整个样本的误差。
第s个样本的误差为Es,误差Es可以表示为:
其中,Os表示输出层的实际输出,Ts表示输出层的期望输出。
网络关于整个样本的误差为
步骤S505,判定误差是否收敛,若误差收敛,则直接将Os作为输出。否则,对输入层和隐含层间的连接权值ω1和隐含层和输出层间的连接权值ω2作出调整,直到误差收敛。
较佳的,所述步骤S505包括以下步骤:
步骤S506,更新隐含层和输出层间的连接权值ω2。更新后的隐含层和输出层间的连接权值ω2表示为:
ω2=ω′2+Δω2
Δω2=αδ2O2
δ2=F(Os-Ts)
其中F为输出层的激活函数,α为学习速率,O2为隐藏层的输出值,ω2表示更新后隐含层和输出层间的连接权值,ω′2表示更新前隐含层和输出层间的连接权值;
步骤S507,更新输入层和隐含层间的连接权值ω1。输入层和隐含层间的连接权值ω1表示为:
ω1=ω′1+Δω1
Δω1=αδ1O1
δ1=H(O12
其中H为隐含层的激活函数,α为学习速率,O1为输入层的输出值,ω1表示更新后输入层和隐含层间的连接权值,ω′1表示更新前输入层和隐含层间的连接权值。
本发明还提供一种基于神经网络模型的网页排序装置,其包括:
关键词预处理模块,用于提取关键词;
聚类模块,用于将样品进行分类;
PR值分析模块,用于获取网页的PR值;
相关度分析模块,用于获取网页的主题相关度;
BP神经网络模块,用于确定网页的排序位置;
兴趣类判定模块,用于判定网页的兴趣类;
样本模块,用于提供随机样本;
网页输入模块,用于提供待排序的网页。
与现有技术比较本发明的有益效果在于:本发明提供的装置将网页通过用户兴趣类别进行了划分,将网页PR值、兴趣类别、检索词相关性作为BP神经网络模块的输入源,并根据BP神经网络模块的输出值对网页进行排序,很好地解决了PageRank排序方法会出现主题漂移的不足,提供给用户更好的网页推荐和上网服务。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是为本发明提供的网页排序装置的功能示意图;
图2是本发明的提供的网页排序方法的流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
实施例1
如图1所示,为本发明提供的网页排序装置的功能示意图。
本发明提供的一种基于神经网络模型的网页排序装置,其包括关键词预处理模块1,聚类模块2,PR值分析模块3,相关度分析模块4,BP神经网络模块5,兴趣类判定模块6,样本模块7,网页输入模块8。
关键词预处理模块1,用于提取关键词,获取关键词权重和词频。关键词预处理模块1分别与相关度分析模块4和网页输入模块8连接。
聚类模块2,用于将样品模块7输出的样品进行分类。聚类模块2分别与样品模块7和兴趣类判定模块6连接。
PR值分析模块3,用于获取网页输入模块8输出的网页的PR值。PR值分析模块3分别与网页输入模块8和BP神经网络模块5连接。
相关度分析模块4,用于获取网页输入模块8输出的网页的主题相关度。相关度分析模块4分别与关键词预处理模块1和BP神经网络模块5连接。
BP神经网络模块5,用于确定网页输入模块8输出的网页的排序位置。BP神经网络模块5分别与PR值分析模块3、相关度分析模块4、兴趣类判定模块6和样品模块7连接。
兴趣类判定模块6,用于判定网页输入模块8输出的网页的兴趣类。兴趣类判定模块6分别与BP神经网络模块5、网页输入模块8和聚类模块2连接。
样本模块7,用于提供随机样本。样本模块7分别与BP神经网络模块5和聚类模块2连接,样本模块7向聚类模块2提供样本。
网页输入模块8,用于提供待排序的网页。网页输入模块8分别与关键词预处理模块1、PR值分析模块3和兴趣类判定模块6连接,网页输入模块8向关键词预处理模块1、PR值分析模块3和兴趣类判定模块6提供待排序的网页。
如图2所示,是本发明的提供的网页排序方法的流程图。
本发明提供的一种基于神经网络模型的网页排序方法,具体包含步骤:
步骤S1,爬取待排序的网页,获取关键词、关键词权重和词频。
执行步骤S1过程中的具体步骤为:
步骤S101,爬取待排序的网页,通过正向最大匹配法分词,进而得到关键词;
步骤S102,根据爬取到的网页信息,从左到右获取字符,与词库匹配。若匹配成功,则继续获取字符;若失败,则将此字符切分开来,将后续字符与词库匹配;
步骤S103,过滤掉停用词;
步骤S104,获取词频,词频tfij表示为:
其中,nij为第i个词在第j文件中的出现次数,分母∑anaj表示在第j个文件中所有字词的频数之和。tfij即第j个文件中第i个词出现的频率。
步骤S105,获取逆向文件频率,逆向文件频率gi表示为:
其中,|D|为文件总数,|{j:ti∈dj}|为包含该词的文件数。
步骤S106,获取关键词权重hij表示:
hij=tfij×gi
步骤S107,关键词及其权重之间的关系函数,关键词及其权重之间的关系函数Hj表示为:
Hj={(h1j,x1),(h2j,x2),...,(hnj,xn)}
其中,x1至xn均表示关键词,h1j至hnj表示关键词权重。
具体的,应用关键词步骤预处理模块1能够完成上述步骤S101至步骤S107。
步骤S2,对用户兴趣进行聚类,准确获取k个兴趣类。
执行步骤S2过程中的具体步骤为:
步骤S201,随机将样本模块7中的样本分为k类,将每一类的平均向量作为初始类中心。
步骤S202,获取样本到类中心的距离。样本到类中心的距离Rmk表示为:
其中,ym是第m个样本的向量,ym向量为列向量,第k类的类中心,向量的转秩。
步骤S203,将每个样本划入距离最近的类中心。
步骤S204,更新类中心,以每一类的平均向量作为新的聚类中心。
步骤S205,重复上述步骤S201至步骤S204,直到判定各个样本与所在类均值的误差平方和ESS达最小,或没有新的样本重新划分到新的类。最后准确获取k个兴趣类。
具体的,获取误差平方和ESS公式为:
其中,c(m)为包含ym的类。
应用聚类模块2,能够完成上述步骤S201至步骤S205。
步骤S3,获取PR值。
执行步骤S3过程中的具体步骤为:
步骤S301,获取网页链入因子和网页链出因子。网页链入因子网页链出因子分别表示为:
其中,F(v)是网页v向前连接的网页集合;Iu是网页u的入度,Ou是网页u的出度,是网页链入因子,是网页链出因子。
步骤302,获取网页u的PR值。
具体的,结合网页链入因子和链出因子对网页PR值进行分配,计算式如下:
其中α为阻尼系数,通常取值0.85,B(u)是所有链向网页u的网页集合。
具体的,应用PR值分析模块3能够完成上述步骤S301至步骤S302。
步骤S4,获取主题相关度。
执行步骤S4过程中的具体步骤为:
步骤S401,通过对检索关键词在网页中不同位置和版式,给予不同的权值。其中版式信息包含:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗。
步骤S402,获取网页u与查询关键词Q的相关度度量,计算式如下:
其中X=(x1,x2,...,xn),hij为关键词第i个关键词xi在第j个文件中的关键词权重值;λij为根据关键词xi在网页u中依据不同位置和版式所赋予的权值。
具体的,应用相关度分析模块4能够完成上述步骤S401至步骤S402。
步骤S5,建立BP神经网络模型,其中包含输入层、隐含层和输出层。
执行步骤S5过程中的具体步骤为:
步骤S501,构建激活函数,激活函数为sigmiod函数。
步骤S502,设定输入层神经元个数为b,隐藏层神经元个数为p,输出层神经元个数为l;输入层和隐含层间的连接权值为ω1,隐含层和输出层间的连接权值ω2
步骤S503,网络初始化,初始化输入层和隐含层间的连接权值,初始化隐含层和输出层间的连接权值。
具体的,将输入层和隐含层间的连接权值ω1赋一个区间[-1,1,]内的随机数,隐含层和输出层间的连接权值ω2赋一个区间[-1,1,]内的随机数。
步骤S504,获取网络关于整个样本的误差。
第s个样本的误差为Es,误差Es可以表示为:
其中,Os表示输出层的实际输出,Ts表示输出层的期望输出。
网络关于整个样本的误差为
步骤S505,判定误差是否收敛,若误差收敛,则直接将Os作为输出。否则,对输入层和隐含层间的连接权值ω1和隐含层和输出层间的连接权值ω2作出调整,直到误差收敛。
具体的,对输入层和隐含层间的连接权值ω1和隐含层和输出层间的连接权值ω2调整的步骤包括:
步骤S506,更新隐含层和输出层间的连接权值ω2。更新后的隐含层和输出层间的连接权值ω2表示为:
ω2=ω′2+Δω2
Δω2=αδ2O2
δ2=F(Os-Ts)
其中F为输出层的激活函数,α为学习速率,O2为隐藏层的输出值,ω2表示更新后隐含层和输出层间的连接权值,ω′2表示更新前隐含层和输出层间的连接权值。
步骤S507,更新输入层和隐含层间的连接权值ω1。输入层和隐含层间的连接权值ω1表示为:
ω1=ω′1+Δω1
Δω1=αδ1O1
δ1=H(O12
其中H为隐含层的激活函数,α为学习速率,O1为输入层的输出值,ω1表示更新后输入层和隐含层间的连接权值,ω′1表示更新前输入层和隐含层间的连接权值。
应用BP神经网络模块5能够完成上述步骤S501至步骤S507。
步骤S6,将网页u归入距离最近的兴趣类。
兴趣类判定模块6,能够完成上述步骤S6。
应用兴趣类判定模块6,能够完成上述步骤S6。
步骤S7,将网页u的兴趣类、PR值、主题相关度输入BP神经网络模型,按照输出值的大小对网页进行排序。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (8)

1.一种基于神经网络模型的网页排序方法,其特征在于,该方法包括以下步骤:
步骤S1,爬取待排序的网页,获取关键词、关键词权重和词频;
步骤S2,对用户兴趣进行聚类;
步骤S3,获取PR值;
步骤S4,获取主题相关度;
步骤S5,建立BP神经网络模型;
步骤S6,将网页归入距离最近的兴趣类;
步骤S7,将网页的兴趣类、PR值、主题相关度输入BP神经网络模型,按照输出值的大小对网页进行排序。
2.根据权利要求1所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S1包括以下步骤:
步骤S101,爬取待排序的网页,通过正向最大匹配法分词,进而得到关键词;
步骤S102,根据爬取到的网页信息,从左到右获取字符,与词库匹配,若匹配成功,则继续获取字符;若失败,则将此字符切分开来,将后续字符与词库匹配;
步骤S103,过滤掉停用词;
步骤S104,获取词频,词频tfij表示为:
其中,nij为第i个词在第j文件中的出现次数,分母∑anaj表示在第j个文件中所有字词的频数之和,tfij即第j个文件中第i个词出现的频率;
步骤S105,获取逆向文件频率,逆向文件频率gi表示为:
其中,|D|为文件总数,|{j:ti∈dj}|为包含该词的文件数;
步骤S106,获取关键词权重hij表示:
hij=tfij×gi
步骤S107,关键词及其权重之间的关系函数,关键词及其权重之间的关系函数Hj表示为:
Hj={(h1j,x1),(h2j,x2),...,(hnj,xn)}
其中,x1至xn均表示关键词,h1j至hnj表示关键词权重。
3.根据权利要求2所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S2包括以下步骤:
步骤S201,随机将样本模块7中的样本分为k类,将每一类的平均向量作为初始类中心;
步骤S202,获取样本到类中心的距离,样本到类中心的距离Rmk表示为:
其中,ym是第m个样本的向量,ym向量为列向量,第k类的类中心,向量的转秩;
步骤S203,将每个样本划入距离最近的类中心;
步骤S204,更新类中心,以每一类的平均向量作为新的聚类中心;
步骤S205,重复上述步骤S201至步骤S204,直到判定各个样本与所在类均值的误差平方和ESS达最小,或没有新的样本重新划分到新的类,最后准确获取k个兴趣类,获取误差平方和ESS公式为:
其中,c(m)为包含ym的类。
4.根据权利要求3所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S3包括以下步骤:
步骤S301,获取网页链入因子和网页链出因子,网页链入因子网页链出因子分别表示为:
其中,F(v)是网页v向前连接的网页集合;Iu是网页u的入度,Ou是网页u的出度,是网页链入因子,是网页链出因子;
步骤302,获取网页u的PR值;结合网页链入因子和链出因子对网页PR值进行分配,计算式如下:
其中α为阻尼系数,通常取值0.85,B(u)是所有链向网页u的网页集合。
5.根据权利要求4所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S4包括以下步骤:
步骤S401,通过对检索关键词在网页中不同位置和版式,给予不同的权值,其中版式信息包含:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗;
步骤S402,获取网页u与查询关键词Q的相关度度量,计算式如下:
其中X=(x1,x2,...,xn),hij为关键词第i个关键词xi在第j个文件中的关键词权重值;λij为根据关键词xi在网页u中依据不同位置和版式所赋予的权值。
6.根据权利要求5所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S5包括以下步骤:
步骤S501,构建激活函数,激活函数为sigmiod函数;
步骤S502,设定输入层神经元个数为b,隐藏层神经元个数为p,输出层神经元个数为l;输入层和隐含层间的连接权值为ω1,隐含层和输出层间的连接权值ω2
步骤S503,网络初始化,初始化输入层和隐含层间的连接权值,初始化隐含层和输出层间的连接权值;
具体的,将输入层和隐含层间的连接权值ω1赋一个区间[-1,1,]内的随机数,隐含层和输出层间的连接权值ω2赋一个区间[-1,1,]内的随机数;
步骤S504,获取网络关于整个样本的误差;
第s个样本的误差为Es,误差Es可以表示为:
其中,Os表示输出层的实际输出,Ts表示输出层的期望输出;
网络关于整个样本的误差为
步骤S505,判定误差是否收敛,若误差收敛,则直接将Os作为输出;否则,对输入层和隐含层间的连接权值ω1和隐含层和输出层间的连接权值ω2作出调整,直到误差收敛。
7.根据权利要求6所述的一种基于神经网络模型的网页排序方法,其特征在于,所述步骤S505包括以下步骤:
步骤S506,更新隐含层和输出层间的连接权值ω2;更新后的隐含层和输出层间的连接权值ω2表示为:
ω2=ω2′+Δω2
Δω2=αδ2O2
δ2=F(Os-Ts)
其中F为输出层的激活函数,α为学习速率,O2为隐藏层的输出值,ω2表示更新后隐含层和输出层间的连接权值,ω2′表示更新前隐含层和输出层间的连接权值;
步骤S507,更新输入层和隐含层间的连接权值ω1,输入层和隐含层间的连接权值ω1表示为:
ω1=ω1′+Δω1
Δω1=αδ1O1
δ1=H(O12
其中H为隐含层的激活函数,α为学习速率,O1为输入层的输出值,ω1表示更新后输入层和隐含层间的连接权值,ω1′表示更新前输入层和隐含层间的连接权值。
8.一种基于神经网络模型的网页排序装置,其特征在于,其包括:
关键词预处理模块,用于提取关键词;
聚类模块,用于将样品进行分类;
PR值分析模块,用于获取网页的PR值;
相关度分析模块,用于获取网页的主题相关度;
BP神经网络模块,用于确定网页的排序位置;
兴趣类判定模块,用于判定网页的兴趣类;
样本模块,用于提供随机样本;
网页输入模块,用于提供待排序的网页。
CN201611254100.2A 2016-12-30 2016-12-30 一种基于神经网络模型的网页排序方法和装置 Active CN108268466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254100.2A CN108268466B (zh) 2016-12-30 2016-12-30 一种基于神经网络模型的网页排序方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254100.2A CN108268466B (zh) 2016-12-30 2016-12-30 一种基于神经网络模型的网页排序方法和装置

Publications (2)

Publication Number Publication Date
CN108268466A true CN108268466A (zh) 2018-07-10
CN108268466B CN108268466B (zh) 2020-11-06

Family

ID=62754317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254100.2A Active CN108268466B (zh) 2016-12-30 2016-12-30 一种基于神经网络模型的网页排序方法和装置

Country Status (1)

Country Link
CN (1) CN108268466B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710755A (zh) * 2018-11-22 2019-05-03 合肥联宝信息技术有限公司 训练bp神经网络模型方法和装置以及基于bp神经网络进行文本分类的方法和装置
CN110297900A (zh) * 2019-07-01 2019-10-01 广州需你计算机服务有限公司 一种基于神经网络的Web文本信息过滤方法
CN110555522A (zh) * 2019-09-23 2019-12-10 北京中科寒武纪科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨楠: "基于用户习惯的网页排序算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邓辉: "网页学习排序算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710755A (zh) * 2018-11-22 2019-05-03 合肥联宝信息技术有限公司 训练bp神经网络模型方法和装置以及基于bp神经网络进行文本分类的方法和装置
CN110297900A (zh) * 2019-07-01 2019-10-01 广州需你计算机服务有限公司 一种基于神经网络的Web文本信息过滤方法
CN110555522A (zh) * 2019-09-23 2019-12-10 北京中科寒武纪科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN108268466B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN105005589B (zh) 一种文本分类的方法和装置
CN102779193B (zh) 自适应个性化信息检索***及方法
CN104598611B (zh) 对搜索条目进行排序的方法及***
CN104199822B (zh) 一种识别搜索对应的需求分类的方法和***
CN108268466A (zh) 一种基于神经网络模型的网页排序方法和装置
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及***
KR20190118477A (ko) 엔티티 추천 방법 및 장치
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN103593474B (zh) 基于深度学习的图像检索排序方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及***
CN106815252A (zh) 一种搜索方法和设备
CN1702654A (zh) 计算显示页面中块的重要度的方法和***
CN105095444A (zh) 信息获取方法和装置
CN108763367B (zh) 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN103902694B (zh) 基于聚类和查询行为的检索结果排序方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN106156333A (zh) 一种融合社会化信息的改进单类协同过滤方法
CN105809473A (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN113051370A (zh) 基于数学表达式评估语言的相似性测度方法
CN111160859A (zh) 一种基于svd++和协同过滤的人力资源岗位推荐方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant