CN111177514B

CN111177514B - 基于网站特征分析的信源评价方法、装置及存储设备、程序

Info

Publication number: CN111177514B
Application number: CN201911423156.XA
Authority: CN
Inventors: 尹宝生; 张龙龙; 徐文文; 秦航
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-06-09
Anticipated expiration: 2039-12-31
Also published as: CN111177514A

Abstract

本发明涉及网页内容推送技术领域，具体涉及基于网站特征分析的信源评价方法、装置及存储设备、程序，该方法包括：通过搜索引擎获取用户输入关键词对应的前n个网站的URL；对所获得的网页进行深度爬取，获取所对应网页的HTML信息；根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取；根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；结合BM25算法与余弦距离计算的相关度，根据网站的打分值得到相关网站信源的排序结果。该方法能充分利用网页特征，并且结合网站内容的语义信息，提高了网站信源评价算法的质量。

Description

基于网站特征分析的信源评价方法、装置及存储设备、程序

技术领域

本发明涉及网页内容推送技术领域，具体涉及一种基于网站特征分析的信源评价方法、装置及存储设备、程序。

背景技术

随着网络和信息技术的快速发展，互联网上的信息数量呈***式增长，每天都有无数信息扩充其中。如何在短时间内从海量的信息中找出自己所需要的信息成为了不可避免的问题。一般情况下用户都是通过搜索引擎获得自己需要的信息，在搜索结果中逐条找出自己感兴趣的内容所对应的网页。此外，对用户来说，他们更倾向于点击排名结果靠前的网页，网页相对的点击数量随着排名的降低而下降。但是，搜索引擎排名靠前的网页可能并不是用户所期待的结果，并且用户有时并不清楚自己想要知道与搜索关键词相关的哪方面的内容，可能更希望搜索引擎推荐与关键词相关的整个网站，从而在最相关的网站获取更加全面的信息。

现有的信源发现技术主要是针对网页查询问题。当用户输入想要查询的关键词时，通过***返回的是对应的单个网页内容。由于网页内页内容具有单一性，所含内容较少，用户获取到的网页内容可能与用户想要查询的内容并不相关。所以，根据调查研究发现，当根据搜索关键词返回多个网站的排序结果时，用户能有效根据对应的网站找出自己所需要的信息。第二，针对网页排序问题，有基于内容的方法和基于链接的方法两种。对于基于链接的排序方法来说，由于方法中过于强调链接的重要性，当网页由于一些人为因素链接到其他高质量的站时，对此种网页的排序效果不好，同时基于链接的网页排序算法无法有效的解决领域漂移问题。对于基于内容的网页排序算法来说，主要是利用TF-IDF算法和BM25等基于内容的算法。当用户查询的关键词不在网页中直接出现时，排序的效果不好。

发明内容

本发明提供了一种基于网站特征分析的信源评价方法、装置及存储设备、程序，克服了现有信息检索问题只是找出关键词对应的单一网页，而不能找出与其相关网站信源的问题。

为了达到上述技术效果，本发明包括以下技术方案：

第一方面，本发明提供了一种基于网站特征分析的信源评价方法，包括如下步骤：

(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL；

(2)对所获得的网页进行深度爬取，获取所对应网页的HTML信息；

(3)根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取；

(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；

(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；

(6)结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果。

所述根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取，包括：

1)通过URLIO工具获取每个URL对应的Date、Content、Title内容；

2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。

第二方面，本发明提供了一种基于网站特征分析的信源评价装置，包括：

网站的URL获取单元：用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL；

网页的HTML信息获取单元：用于对所获得的网页进行深度爬取，获取所对应网页的HTML信息；

网站特征信息内容获取单元：根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取；

第一计算单元：用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；

第二计算单元：用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；

第三计算单元：用于结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述的基于网站特征分析的信源评价方法。

第四方面，本发明提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述的信源评价方法。

采用上述技术方案，包括以下有益效果：本发明所提供的基于网站特征分析的信源评价方法、装置及存储设备、程序，先通搜索引擎获取关键词对应的数个网页，然后通过爬虫程序获取网页所属网站的内容并且提取其中的特征，然后结合BM25算法与余弦距离计算相关度，最终根据网站的打分值得到相关网站信源的排序结果。同时结合用户浏览网站时间的隐性反馈行为，动态地调节网站排序结果，使搜索结果富有个性化。该方法能充分利用网页特征，并且结合网站内容的语义信息，提高了网站信源评价算法的质量。

附图说明

图1为本发明所提供的基于网站特征分析的信源评价方法的总流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

实施例1：

本实施例提供了一种基于网站特征分析的信源评价方法，包括如下步骤：步骤S1、通过搜索引擎获取用户输入关键词对应的前n个网站的URL；首先根据用户所输入的关键词在搜索引擎中进行搜索结果，搜索引擎可以为百度引擎。这里以“人工智能”关键词为例，在搜索引擎中结果中，去除广告、百度百科等干扰选项，筛选出其中的前10个搜索结果，获取结果对应的URL。以此URL为基准，

步骤S2：对所获得的网页进行深度爬取，获取所对应网页的HTML信息；利用爬虫程序进行depth＝2的深度优先爬取，获取depth＝1、depth＝2、和所有外部链接，并且进行编号存储。

步骤S3：根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取，包括：

1)通过URLIO工具获取每个URL对应的Date、Content、Title内容；

2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。并且其中的数据内容都按照字典存储，具体的存储格式为：

{

“ID”:”编号”,”html_content”:

{

“data”:”网页发布日期”,

”content”:”网页中文章内容”,

”title”:”网页文章标题”

},

”anchor”:”锚文本内容”,

”html_title”:”网页html中title属性”,

”html_meta”:”网页html中meta属性”

}

步骤S4：根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；同时，对于一些网站，只有一部分可用特征，造成网页中内容虽少，但是对网站整体相关度的贡献比大的问题，为此设立了一个惩罚项。根据全部语料信息进行Word2Vec词向量的计算，生成100维的词向量，然后根据余弦距离以及所选网站特征信息内容加权求和，计算用户所输入的关键词与网站特征信息内容的相关程度。具体为：

1)计算公式为：

f_title＝cos(key_word,title_vec)

f_ID[n]＝w_datef_date+w_contentf_content+...+w_{html_meta}f_{html_meta}-score_cur

其中，len(html_meta)为处理之后meta文本的长度，title_vec为title数据组成句子向量的向量值。score_cur为网页的惩罚项，w₄为权重参数，f_ID[n]为当前深度网页的得分值。最终网页的得分值为各个特征分值之和减去惩罚项的值。实验表明，当wdate、wcontent、wtitle、wanchor、whtml_title、whtml_meta分别为1，0.15，0.35，0.25，0.15，0.1时，网站排序效果最好。

2)根据爬虫程序进行depth＝2的深度搜索时，不同深度的网页应占有不同的权重，得到对应的权重结果，计算公式为：

score_web＝w₁{f_ID[1]}+w₂{f_ID[2]}+w₃{f_ID[w]}

其中，f_Id[1]、f_Id[2]、f_Id[w]分别为depth＝1的网页数据、depth＝2的网页数据、外部链接的网页数据，权重w_n满足约束w₁+w₂+w₃＝100。根据实验得出，当w₁,w₂,w₃分别为45,45,10时，排序的效果最好。

步骤S5:用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；

步骤S6:结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果，使其同时结合了深层的语义信息以及用户所输入关键词复现的重要程度。

具体公式为：

score＝score_BM25+score_web

实施例2：

由于网页中有些信息比如网页Content信息，其所含内容较多，但有用的信息较少，所以对获取到的网站特征信息内容进行预处理，并且编号存储，所述预处理方法的步骤为：用TextRank算法提取出其中的多个关键词，所述的TextRank计算公式如下：

其中，d为阻尼系数，通常取0.85，w_ji为两词语v_i和v_j之间边的权重。一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重，以及j这个点到其他边的权重之和。

本实施例用TextRank算法提取出其中的20个关键词来代替整个文本进行实施例1中步骤S3后的相关度计算，可以有效节约程序运行时间并且不会损失太多的语义信息。

对于网站中有些数据所含的无用信息很多，文本长度一般，比如网站meta数据。本实施例先进行词性标注，选出其中的名词来代替整句中的语义信息。因为对于中文来说，所蕴含实际的信息的词语大多是名词。

对于推荐算法来说，比较重要的一点就是网站内容的“新鲜程度”。根据网站对应网页的发布时间，来进行网页发布时间对网站影响的计算。所涉及到的计算公式如下：

无法获取网页时间时，网页的时间因素对网站的影响为：

可以获取网页的时间时，网页的时间因素对网站的影响为：

其中，ave_time为当不能获取网页的时间时，用网站中所有网页距当前时间的平均值来计算时间。differ_time为网页发布时间距离当前时间的差值。

实施例3：

通过用户浏览网页的习惯可知，如果用户对某个网站感兴趣，使用浏览器浏览该网站的时间理应较长，所以可以根据用户浏览网站的时间，适当调整网站的评分值。因为网站的初始评分本身就是不同的，所以通过增加当前网站初始评分的百分比来适当调整网站的权重。

在上述实施例的基础上，所述步骤S6后还包括如下步骤：结合用户浏览网站时间的隐性反馈行为，动态地调节网站排序结果,调节公式如下，

其中，t为用户浏览网页的时间，单位为秒，w₅是一个调节权重。

实验表明，当w₅＝1的时候，通过用户浏览反馈，能及时准确地调整网站评分。当用户浏览时间少于一分钟的时候则为正常时间，时间大于60分钟的时候则考虑用户可能忘记关闭网页。所以，仅考虑用户浏览时间大于1分钟，小于60分钟的情况，即60s＝<t<＝3600s。在用户下次检索同类关键词时，结合当前用户反馈结果，起到动态调整排序结果的作用。

实施例4：

本实施例提供了一种基于网站特征分析的信源评价装置，所述基于网站特征分析的信源评价装置包括网站的URL获取单元、网页的HTML信息获取单元、网站特征信息内容获取单元、第一计算单元、第二计算单元、和第三计算单元，所述网站的URL获取单元用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL；网页的HTML信息获取单元用于对所获得的网页进行深度爬取，获取所对应网页的HTML信息；网站特征信息内容获取单元根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取；第一计算单元用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；第二计算单元用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；第三计算单元用于结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果。

实施例5：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于网站特征分析的信源评价方法，该方法包括：通过搜索引擎获取用户输入关键词对应的前n个网站的URL；对所获得的网页进行深度爬取，获取所对应网页的HTML信息；根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取；根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度；用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度；结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网站特征分析的信源评价方法，其特征在于，包括如下步骤：

(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL；

(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度，包括：

根据全部语料信息进行Word2Vec词向量的计算，生成100维的词向量，然后根据余弦距离以及所选网站特征信息内容加权求和，计算用户所输入的关键词与网站特征信息内容的相关程度；具体为：

1)计算公式为：

f_title＝cos(key_word,title_vec)

其中，len(html_meta)为处理之后meta文本的长度，title_vec为title数据组成句子向量的向量值，score_cur为网页的惩罚项，w₄为权重参数，f_ID[n]为当前深度网页的得分值，最终网页的得分值为各个特征分值之和减去惩罚项的值；

score_web＝w₁{f_ID[1]}+w₂{f_ID[2]}+w₃{f_ID[w]}

其中，f_Id[1]、f_Id[2]、f_Id[w]分别为depth＝1的网页数据、depth＝2的网页数据、外部链接的网页数据，权重w_n满足约束w₁+w₂+w₃＝100；

2.根据权利要求1所述的方法，其特征在于，所述根据爬虫程序获取的对应网站中的HTML信息，采用正则表达式提取其中的URL链接，进行其中网站特征信息内容的获取，包括：

1)通过URLIO工具获取每个URL对应的Date、Content、Title内容；

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)后还包括如下步骤：对获取到的网站特征信息内容进行预处理，并且编号存储，所述预处理方法的步骤为：用TextRank算法提取出其中的多个关键词，所述的TextRank计算公式如下：

其中，d为阻尼系数，w_ji为两词语v_i和v_j之间边的权重，一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重，以及j这个点到其它边的权重之和。

4.根据权利要求1所述的方法，其特征在于，所述步骤(6)中结合BM25算法与余弦距离计算的相关度，最终根据网站的打分值得到相关网站信源的排序结果，具体公式为：

score＝score_BM25+score_web。

5.根据权利要求1所述的方法，其特征在于，所述步骤(6)后还包括如下步骤：结合用户浏览网站时间的隐性反馈行为，动态地调节网站排序结果,调节公式如下，

6.一种基于网站特征分析的信源评价装置，其特征在于，包括：

第二计算单元：用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度，包括：

1)计算公式为：

f_title＝cos(key_word,title_vec)

score_web＝w₁{f_ID[1]}+w₂{f_ID[2]}+w₃{f_ID[w]}

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-5任一项所述的基于网站特征分析的信源评价方法。