CN111177514B - 基于网站特征分析的信源评价方法、装置及存储设备、程序 - Google Patents

基于网站特征分析的信源评价方法、装置及存储设备、程序 Download PDF

Info

Publication number
CN111177514B
CN111177514B CN201911423156.XA CN201911423156A CN111177514B CN 111177514 B CN111177514 B CN 111177514B CN 201911423156 A CN201911423156 A CN 201911423156A CN 111177514 B CN111177514 B CN 111177514B
Authority
CN
China
Prior art keywords
website
content
user
webpage
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911423156.XA
Other languages
English (en)
Other versions
CN111177514A (zh
Inventor
尹宝生
张龙龙
徐文文
秦航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN201911423156.XA priority Critical patent/CN111177514B/zh
Publication of CN111177514A publication Critical patent/CN111177514A/zh
Application granted granted Critical
Publication of CN111177514B publication Critical patent/CN111177514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及网页内容推送技术领域,具体涉及基于网站特征分析的信源评价方法、装置及存储设备、程序,该方法包括:通过搜索引擎获取用户输入关键词对应的前n个网站的URL;对所获得的网页进行深度爬取,获取所对应网页的HTML信息;根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;结合BM25算法与余弦距离计算的相关度,根据网站的打分值得到相关网站信源的排序结果。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。

Description

基于网站特征分析的信源评价方法、装置及存储设备、程序
技术领域
本发明涉及网页内容推送技术领域,具体涉及一种基于网站特征分析的信源评价方法、装置及存储设备、程序。
背景技术
随着网络和信息技术的快速发展,互联网上的信息数量呈***式增长,每天都有无数信息扩充其中。如何在短时间内从海量的信息中找出自己所需要的信息成为了不可避免的问题。一般情况下用户都是通过搜索引擎获得自己需要的信息,在搜索结果中逐条找出自己感兴趣的内容所对应的网页。此外,对用户来说,他们更倾向于点击排名结果靠前的网页,网页相对的点击数量随着排名的降低而下降。但是,搜索引擎排名靠前的网页可能并不是用户所期待的结果,并且用户有时并不清楚自己想要知道与搜索关键词相关的哪方面的内容,可能更希望搜索引擎推荐与关键词相关的整个网站,从而在最相关的网站获取更加全面的信息。
现有的信源发现技术主要是针对网页查询问题。当用户输入想要查询的关键词时,通过***返回的是对应的单个网页内容。由于网页内页内容具有单一性,所含内容较少,用户获取到的网页内容可能与用户想要查询的内容并不相关。所以,根据调查研究发现,当根据搜索关键词返回多个网站的排序结果时,用户能有效根据对应的网站找出自己所需要的信息。第二,针对网页排序问题,有基于内容的方法和基于链接的方法两种。对于基于链接的排序方法来说,由于方法中过于强调链接的重要性,当网页由于一些人为因素链接到其他高质量的站时,对此种网页的排序效果不好,同时基于链接的网页排序算法无法有效的解决领域漂移问题。对于基于内容的网页排序算法来说,主要是利用TF-IDF算法和BM25等基于内容的算法。当用户查询的关键词不在网页中直接出现时,排序的效果不好。
发明内容
本发明提供了一种基于网站特征分析的信源评价方法、装置及存储设备、程序,克服了现有信息检索问题只是找出关键词对应的单一网页,而不能找出与其相关网站信源的问题。
为了达到上述技术效果,本发明包括以下技术方案:
第一方面,本发明提供了一种基于网站特征分析的信源评价方法,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
第二方面,本发明提供了一种基于网站特征分析的信源评价装置,包括:
网站的URL获取单元:用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
网页的HTML信息获取单元:用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
网站特征信息内容获取单元:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
第一计算单元:用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
第二计算单元:用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
第三计算单元:用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的基于网站特征分析的信源评价方法。
第四方面,本发明提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的信源评价方法。
采用上述技术方案,包括以下有益效果:本发明所提供的基于网站特征分析的信源评价方法、装置及存储设备、程序,先通搜索引擎获取关键词对应的数个网页,然后通过爬虫程序获取网页所属网站的内容并且提取其中的特征,然后结合BM25算法与余弦距离计算相关度,最终根据网站的打分值得到相关网站信源的排序结果。同时结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,使搜索结果富有个性化。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。
附图说明
图1为本发明所提供的基于网站特征分析的信源评价方法的总流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
实施例1:
本实施例提供了一种基于网站特征分析的信源评价方法,包括如下步骤:步骤S1、通过搜索引擎获取用户输入关键词对应的前n个网站的URL;首先根据用户所输入的关键词在搜索引擎中进行搜索结果,搜索引擎可以为百度引擎。这里以“人工智能”关键词为例,在搜索引擎中结果中,去除广告、百度百科等干扰选项,筛选出其中的前10个搜索结果,获取结果对应的URL。以此URL为基准,
步骤S2:对所获得的网页进行深度爬取,获取所对应网页的HTML信息;利用爬虫程序进行depth=2的深度优先爬取,获取depth=1、depth=2、和所有外部链接,并且进行编号存储。
步骤S3:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。并且其中的数据内容都按照字典存储,具体的存储格式为:
{
“ID”:”编号”,”html_content”:
{
“data”:”网页发布日期”,
”content”:”网页中文章内容”,
”title”:”网页文章标题”
},
”anchor”:”锚文本内容”,
”html_title”:”网页html中title属性”,
”html_meta”:”网页html中meta属性”
}
步骤S4:根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;同时,对于一些网站,只有一部分可用特征,造成网页中内容虽少,但是对网站整体相关度的贡献比大的问题,为此设立了一个惩罚项。根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度。具体为:
1)计算公式为:
Figure GDA0004177160520000051
ftitle=cos(key_word,titlevec)
Figure GDA0004177160520000052
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值。scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值。最终网页的得分值为各个特征分值之和减去惩罚项的值。实验表明,当wdate、wcontent、wtitle、wanchor、whtml_title、whtml_meta分别为1,0.15,0.35,0.25,0.15,0.1时,网站排序效果最好。
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100。根据实验得出,当w1,w2,w3分别为45,45,10时,排序的效果最好。
步骤S5:用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
步骤S6:结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果,使其同时结合了深层的语义信息以及用户所输入关键词复现的重要程度。
具体公式为:
score=scoreBM25+scoreweb
实施例2:
由于网页中有些信息比如网页Content信息,其所含内容较多,但有用的信息较少,所以对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:
Figure GDA0004177160520000061
其中,d为阻尼系数,通常取0.85,wji为两词语vi和vj之间边的权重。一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其他边的权重之和。
本实施例用TextRank算法提取出其中的20个关键词来代替整个文本进行实施例1中步骤S3后的相关度计算,可以有效节约程序运行时间并且不会损失太多的语义信息。
对于网站中有些数据所含的无用信息很多,文本长度一般,比如网站meta数据。本实施例先进行词性标注,选出其中的名词来代替整句中的语义信息。因为对于中文来说,所蕴含实际的信息的词语大多是名词。
对于推荐算法来说,比较重要的一点就是网站内容的“新鲜程度”。根据网站对应网页的发布时间,来进行网页发布时间对网站影响的计算。所涉及到的计算公式如下:
无法获取网页时间时,网页的时间因素对网站的影响为:
Figure GDA0004177160520000071
可以获取网页的时间时,网页的时间因素对网站的影响为:
Figure GDA0004177160520000072
其中,ave_time为当不能获取网页的时间时,用网站中所有网页距当前时间的平均值来计算时间。differ_time为网页发布时间距离当前时间的差值。
实施例3:
通过用户浏览网页的习惯可知,如果用户对某个网站感兴趣,使用浏览器浏览该网站的时间理应较长,所以可以根据用户浏览网站的时间,适当调整网站的评分值。因为网站的初始评分本身就是不同的,所以通过增加当前网站初始评分的百分比来适当调整网站的权重。
在上述实施例的基础上,所述步骤S6后还包括如下步骤:结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,调节公式如下,
Figure GDA0004177160520000073
其中,t为用户浏览网页的时间,单位为秒,w5是一个调节权重。
实验表明,当w5=1的时候,通过用户浏览反馈,能及时准确地调整网站评分。当用户浏览时间少于一分钟的时候则为正常时间,时间大于60分钟的时候则考虑用户可能忘记关闭网页。所以,仅考虑用户浏览时间大于1分钟,小于60分钟的情况,即60s=<t<=3600s。在用户下次检索同类关键词时,结合当前用户反馈结果,起到动态调整排序结果的作用。
实施例4:
本实施例提供了一种基于网站特征分析的信源评价装置,所述基于网站特征分析的信源评价装置包括网站的URL获取单元、网页的HTML信息获取单元、网站特征信息内容获取单元、第一计算单元、第二计算单元、和第三计算单元,所述网站的URL获取单元用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;网页的HTML信息获取单元用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;网站特征信息内容获取单元根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;第一计算单元用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;第二计算单元用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;第三计算单元用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
实施例5:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的基于网站特征分析的信源评价方法,该方法包括:通过搜索引擎获取用户输入关键词对应的前n个网站的URL;对所获得的网页进行深度爬取,获取所对应网页的HTML信息;根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度,包括:
根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度;具体为:
1)计算公式为:
Figure FDA0004177160510000011
ftitle=cos(key_word,titlevec)
Figure FDA0004177160510000012
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值,scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值,最终网页的得分值为各个特征分值之和减去惩罚项的值;
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
2.根据权利要求1所述的方法,其特征在于,所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)后还包括如下步骤:对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:
Figure FDA0004177160510000021
其中,d为阻尼系数,wji为两词语vi和vj之间边的权重,一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其它边的权重之和。
4.根据权利要求1所述的方法,其特征在于,所述步骤(6)中结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果,具体公式为:
score=scoreBM25+scoreweb
5.根据权利要求1所述的方法,其特征在于,所述步骤(6)后还包括如下步骤:结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,调节公式如下,
Figure FDA0004177160510000022
其中,t为用户浏览网页的时间,单位为秒,w5是一个调节权重。
6.一种基于网站特征分析的信源评价装置,其特征在于,包括:
网站的URL获取单元:用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
网页的HTML信息获取单元:用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
网站特征信息内容获取单元:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
第一计算单元:用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
第二计算单元:用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度,包括:
根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度;具体为:
1)计算公式为:
Figure FDA0004177160510000031
ftitle=cos(key_word,titlevec)
Figure FDA0004177160510000032
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值,scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值,最终网页的得分值为各个特征分值之和减去惩罚项的值;
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100;
第三计算单元:用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-5任一项所述的基于网站特征分析的信源评价方法。
CN201911423156.XA 2019-12-31 2019-12-31 基于网站特征分析的信源评价方法、装置及存储设备、程序 Active CN111177514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423156.XA CN111177514B (zh) 2019-12-31 2019-12-31 基于网站特征分析的信源评价方法、装置及存储设备、程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423156.XA CN111177514B (zh) 2019-12-31 2019-12-31 基于网站特征分析的信源评价方法、装置及存储设备、程序

Publications (2)

Publication Number Publication Date
CN111177514A CN111177514A (zh) 2020-05-19
CN111177514B true CN111177514B (zh) 2023-06-09

Family

ID=70649146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423156.XA Active CN111177514B (zh) 2019-12-31 2019-12-31 基于网站特征分析的信源评价方法、装置及存储设备、程序

Country Status (1)

Country Link
CN (1) CN111177514B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076773B (zh) * 2023-08-23 2024-05-28 上海兰桂骐技术发展股份有限公司 一种基于互联网信息的数据源筛选优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN107220307A (zh) * 2017-05-10 2017-09-29 清华大学 网页搜索方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222621A1 (en) * 2011-07-06 2014-08-07 Hirenkumar Nathalal Kanani Method of a web based product crawler for products offering
US20160034514A1 (en) * 2014-08-04 2016-02-04 Regents Of The University Of Minnesota Providing search results based on an identified user interest and relevance matching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN107220307A (zh) * 2017-05-10 2017-09-29 清华大学 网页搜索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑国良 ; 叶飞跃 ; 张滨 ; 林国俊 ; .基于网页内容和链接价值的相关度方法的实现.计算机工程与设计.2008,(第23期),全文. *
项田帅 ; 尹宝生 ; 季铎 ; 蔡东风 ; .基于web的日英词典自动获取技术的研究.沈阳航空航天大学学报.2012,(第02期),全文. *

Also Published As

Publication number Publication date
CN111177514A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Xue et al. Optimizing web search using web click-through data
Cai et al. Personalized search by tag-based user profile and resource profile in collaborative tagging systems
Bilenko et al. Mining the search trails of surfing crowds: identifying relevant websites from user activity
US8538989B1 (en) Assigning weights to parts of a document
US8650483B2 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
Bedi et al. Focused crawling of tagged web resources using ontology
US20130024448A1 (en) Ranking search results using feature score distributions
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
Makvana et al. A novel approach to personalize web search through user profiling and query reformulation
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Bouadjenek et al. Using social annotations to enhance document representation for personalized search
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
Bibi et al. Web search personalization using machine learning techniques
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Ibrahim et al. Scientometric re-ranking approach to improve search results
Baker et al. A novel web ranking algorithm based on pages multi-attribute
Sivaramakrishnan et al. Validating effective resume based on employer’s interest with recommendation system
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
Garg Automatic text summarization of video lectures using subtitles
Akhmadeeva et al. Ontology-based information extraction for populating the intelligent scientific internet resources
CN102495844B (zh) 用于构建用户模型的改进的GuTao法
Divya et al. Onto-search: An ontology based personalized mobile search engine
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Musto et al. A tag recommender system exploiting user and community behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant