CN105095368A - 一种对新闻信息进行排序的方法及装置 - Google Patents
一种对新闻信息进行排序的方法及装置 Download PDFInfo
- Publication number
- CN105095368A CN105095368A CN201510369637.2A CN201510369637A CN105095368A CN 105095368 A CN105095368 A CN 105095368A CN 201510369637 A CN201510369637 A CN 201510369637A CN 105095368 A CN105095368 A CN 105095368A
- Authority
- CN
- China
- Prior art keywords
- news information
- news
- importance degree
- information
- headline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012163 sequencing technique Methods 0.000 title abstract 3
- 238000013507 mapping Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 32
- 238000012544 monitoring process Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000011524 similarity measure Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000032683 aging Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 5
- 239000010931 gold Substances 0.000 description 5
- 229910052737 gold Inorganic materials 0.000 description 5
- 230000009189 diving Effects 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的实施例公开一种对新闻信息进行排序的方法及装置。方法包括:按照抓取周期抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;依据记录的新闻属性信息,分别计算每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;将计算得到的结果进行加权求和,获取该每一新闻信息重要度;对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。应用本发明,可降低用户获取重要时效性新闻信息所需的时间,提升用户阅读新闻信息的效率。
Description
技术领域
本发明涉及互联网应用技术,尤其涉及一种对新闻信息进行排序的方法及装置。
背景技术
随着通信技术,尤其是移动第三代移动通信(3G,3rdGeneration)、4G通信技术的发展,互联网速度得到了极大的提升,用户通过移动电子设备,例如,智能移动电话、个人数字助理、掌上电脑,可以越来越方便、快捷地接入互联网,享受快速网速带来的冲浪,并可从互联网获取大量的信息,满足用户日常生活、休闲娱乐和工作的需要。
但互联网在带给用户方便、快捷的同时,由于互联网信息的***式增长,也给用户从海量的互联网信息中获取所需的信息带来了不便。以新闻信息为例,由于目前互联网上新闻类网页越来越多,新闻信息处于过载的程度,大量不重要的新闻信息充斥在各类新闻网页上,用户如果需要从新闻网页获取有用的新闻信息,需要浏览整个新闻网页,才能从中选择出对用户有用的新闻信息。这样,获取用户所需的信息时间较长,严重干扰了用户正常的阅读、浪费了用户宝贵的时间,降低了用户的阅读效率,因而,为了避免用户阅读过量的信息,向用户提供重要的新闻信息,成为各类新闻网页提升网页品质、强化用户体验的研究热点。
目前,对于一般的网页,在用户通过输入搜索关键词搜索相应网页时,采用计算网页重要度的方法对搜索得到的各网页进行排序,按照排序结果将网页向用户展示,以使用户依据排序选取排序靠前的网页进行阅读,从而使用户可以避免浏览或阅读一些包含较多无用信息的网页,降低用户获取所需信息所需的时间,达到提升用户阅读效率的目的。该方法中,一个网页(页面)的网页重要度由所有链向该网页的超链接数量来决定,链向该网页的每一超链接,相当于对该网页投一票,如果该网页中,包含的链向该网页的超链接数越多,则该网页重要度越高,在排序中的排序位越靠前,即该网页的等级越高;如果该网页中包含的链向该网页的超链接数越少,表明该网页重要度越低,在排序中的排序位越靠后,即该网页的等级越低,对于网页中包含的链向该网页的超链接数为零的情形,表明该网页的网页重要度最低,该网页没有等级。
但上述采用计算网页重要度的方法,对于新闻信息(新闻网页)来说,由于新闻信息的时效性要求非常高,而新发布的新闻信息,是用户需要获取的有用的新闻信息,但由于在较短时间内,该新闻网页(新闻信息)并没有足够的超链接数来提升新闻网页(新闻信息)重要度,因而,在排序中,往往排名靠后,不能及时向用户提供有用的新闻信息;而在较长时间后,当该新闻网页(新闻信息)有足够的超链接数来提升新闻网页(新闻信息)重要度后,该新闻信息已过了时效性,使得新闻信息的重要度迅速下降,用户再获取该新闻信息,已无多大意义。
由上述可见,现有技术中,对于新闻信息,还没提出一种有效的过滤方法,向用户提供具有时效性的新闻信息,使得用户获取有用的时效性新闻信息所需的时间较长,用户阅读新闻信息的效率低。
发明内容
有鉴于此,本发明实施例提供一种对新闻信息进行排序的方法及装置,降低用户获取重要时效性新闻信息所需的时间,提升用户阅读新闻信息的效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明实施例提供一种对新闻信息进行排序的方法,包括:
按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
将计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
本发明实施例提供的对新闻信息进行排序的方法,通过按照抓取周期动态抓取新闻信息,并通过网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度四个维度对新闻信息重要度进行加权计算,并将新闻信息按照新闻信息重要度从高到低进行排序,并将排序的新闻信息输出给用户,从而可以对时效新闻的新闻信息重要度进行动态、多维度评估,使得新闻信息重要度的计算结果更加准确,降低用户获取重要时效性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
另一方面,本发明实施例提供一种对新闻信息进行排序的装置,包括:新闻信息抓取模块、新闻信息维度计算模块、新闻信息重要度获取模块以及新闻信息排序模块,其中,
新闻信息抓取模块,用于按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
新闻信息维度计算模块,用于针对新闻信息抓取模块每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
新闻信息重要度获取模块,用于将新闻信息维度计算模块计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
新闻信息排序模块,用于对新闻信息重要度获取模块获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
本发明实施例提供的对新闻信息进行排序的装置,新闻信息抓取模块通过按照抓取周期动态抓取新闻信息,新闻信息维度计算模块以及新闻信息重要度获取模块通过网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度四个维度对新闻信息重要度进行加权计算,新闻信息排序模块将新闻信息按照新闻信息重要度从高到低进行排序,并将排序的新闻信息输出给用户,从而可以对时效新闻的新闻信息重要度进行动态、多维度评估,使得新闻信息重要度的计算结果更加准确,降低用户获取重要时效性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例对新闻信息进行排序的方法流程示意图;
图2为本发明实施例对新闻信息进行排序的逻辑架构示意图;
图3为本发明实施例对新闻信息进行排序的装置结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例对新闻信息进行排序的方法流程示意图。参见图1,该方法包括:
步骤101,按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
本步骤中,抓取周期可以根据实际需要进行设置,例如,可以设置为10分钟、20分钟等。
本发明实施例中,新闻信息包括:新闻标题以及新闻内容。
新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信息在新闻网页的版面信息等。其中,
新闻信息在新闻网页的版面信息包括:新闻标题字号、图片尺寸、新闻内容文字属性等。其中,新闻内容文字属性可以是新闻内容中的文字是否加粗、文字是否为斜体或具有下划线或为不同颜色等区别于普通新闻网页中文字的一些属性信息。
较佳地,新闻信息与新闻属性信息形成一一对应关系。
作为一可选实施例,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息包括:
利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的新闻信息,提取抓取的新闻信息的发布时间,过滤在上一抓取周期之前发布的新闻信息。
本步骤中,通过网络爬虫,收集各新闻网页发布的新闻信息。其中,网络爬虫是一个自动提取网页的程序,能够按照预先设置的规则,自动抓取网页的程序或脚本,通过分析抓取的程序或脚本,获取所需的信息。关于网络爬虫抓取网页的程序或脚本为公知技术,在此略去详述。当然,实际应用中,也可以通过其他方式实现新闻信息的抓取。
步骤102,针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
本步骤中,通过四个维度对新闻信息重要度进行分析,即通过识别新闻信息来源网页的重要性(网页重要度)、新闻信息在新闻网页的版面位置的重要性(版面重要度)、新闻信息发布时间的重要性(新闻信息发布时间重要度)以及同类主题的新闻信息数量的重要性(新闻信息聚类结果重要度),对新闻信息进行表征,从而对新闻信息重要度进行动态评估,以更有效向用户提供重要时效性的新闻信息,降低用户获取重要时效性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
计算该每一新闻信息的网页重要度包括:
A11,提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信息,确定提取的新闻网页信息所属的新闻网站;
本步骤中,对于抓取的每一新闻信息,对应有一新闻属性信息,从新闻属性信息中,可以提取出发布该新闻信息的新闻网页信息,根据提取的新闻网页信息,可以确定该新闻网页信息所属的新闻网站。例如,对于统一资源定位符中包含有sina.com字符的新闻网页信息,可以确定该新闻网页信息属于新浪网站。
A12,查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的网页重要度。
本步骤中,预先获取的网站排名库中存储有各网站的网站排名。作为一可选实施例,网站排名可以是网页级别(PR,PageRank)值,PR值越高,表明网站在排名中的地位越重要。作为另一可选实施例,网站排名也可以是Alexa排名值。
当然,实际应用中,还可以结合PageRank值和Alexa排名值计算新闻信息的网页重要度,计算公式如下:
φi=αβi+(1-α)δi
式中,
φi为第i个新闻信息的网页重要度;
α为网页级别系数,0παπ1;
βi为第i个新闻信息所属新闻网站的网页级别,0≤βi≤9,且βi为整数;
δi为第i个新闻信息所属新闻网站的Alexa排名值。
本发明实施例中,采用现有技术中网站的PageRank值、和/或,Alexa排名值计算新闻信息的网页重要度,实际应用中,也可以采用网站的其他排名方式来计算新闻信息的网页重要度。对于同一新闻网页中的所有新闻信息,具有相同的网页重要度。
计算新闻信息的版面重要度包括:
查询版面重要级别映射库,分别获取新闻属性信息中的新闻标题字号、图片尺寸以及新闻内容文字属性对应的版面重要级别,将获取的各版面重要级别进行加权求和,得到新闻信息的版面重要度。
本步骤中,网络爬虫在对新闻网页中的新闻信息进行抓取时,通过对网页中不同版面位置的新闻图片大小、标题字号、新闻内容文字属性(例如,是否加粗)等进行识别,得到新闻信息在新闻网页的版面信息并进行记录。
本发明实施例中,如果标题字号越大、图片越大、新闻内容文字属性为文字加粗,表明该新闻信息被新闻网站认为是重要新闻信息的概率越大,因而,对应的版面重要级别也越高。
版面重要级别映射库中,设置有各版面信息对应的版面重要级别,例如,设置标题字号为三号对应的版面重要级别为5,标题字号为小四对应的版面重要级别为4,标题字号为四号对应的版面重要级别为3,...,大小超过100x100的图片对应的版面重要级别为5,大小在100x100与80x80之间的图片对应的版面重要级别为4等。
当然,实际应用中,对于版面重要级别的最大值,也可以根据实际需要进行设置,例如,可以设置版面重要级别的最大值与网页级别的最大值相同,版面重要级别的最小值与网页级别的最小值相同。而且,对于标题字号、图片、新闻内容文字属性对应的版面重要级别的最大值以及最小值,可以相同,也可以不同。
作为一可选实施例,如果新闻属性信息中包含有新闻标题字号、图片尺寸以及新闻内容文字属性,则新闻信息的版面重要度可以利用下式进行计算:
式中,
为第i个新闻信息的版面重要度;
λ1为新闻标题字号权重系数,0πλ1π1;
θi为第i个新闻标题字号对应的版面重要级别;
λ2为图片权重系数,0πλ2π1;
γi为第i个新闻信息中的图片尺寸对应的版面重要级别;
λ3为新闻内容文字属性权重系数,0πλ3π1,且λ1+λ2+λ3=1;
χi为第i个新闻内容文字属性对应的版面重要级别。
当然,实际应用中,上述的权重系数也可以根据实际需要进行设置,而无需进行归一化处理。
计算新闻信息发布时间重要度包括:
计算当前时间与记录的该新闻信息对应的新闻属性信息中发布新闻信息的时间的时间差,查询预先设置的时间差与时间重要级别的映射关系表,获取计算的时间差映射的时间重要级别,作为新闻信息发布时间重要度。
本步骤中,由于新闻信息的时效性,随着时间的推移,新闻信息的重要度会越来越低,因而,本发明实施例中,通过计算当前时间与发布新闻信息的时间(新闻信息发布时间的差值)的时间差值,为新闻信息发布时间重要度进行评估。例如,在时间差与时间重要级别的映射关系表中,可以设置时间差在5分钟之内,映射的时间重要级别为9,时间差大于5分钟小于10分钟,映射的时间重要级别为8等。
计算新闻信息聚类结果重要度包括:
A21,对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;
本步骤中,关于分词切分处理为公知技术,在此略去详述。
A22,统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;
A23,统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
本步骤中,对于抓取到的新闻信息,通过对新闻标题和新闻内容进行分词切分处理,得到分词词组,并统计每一分词词组在该新闻信息中出现的频次,如果某一分词词组出现的次数越多,认为该新闻信息与该分词词组的相关度越高。将出现次数排名前N位的词组作为该新闻信息的主题,其中,N可根据实际需要设置。例如,对某一新闻信息进行上述处理,新闻信息主题可以是“亚运会跳水中国金牌”,如果设置N=3,则该新闻信息主题为“亚运会跳水中国”。
作为可选实施例,确定所述相近似新闻信息主题包括:
A231,在抓取的各新闻信息中,计算该新闻信息主题中各分词词组的特征值,并以计算得到的特征值组成该新闻信息主题的空间权重向量;
本步骤中,计算新闻信息主题中各分词词组的特征值包括:
分别获取所述新闻信息主题中各分词词组在抓取的新闻信息中出现的频次,将每一分词词组的频次应用于逆文档频率计算公式,得到该分词词组的特征值。
本步骤中,例如,对于新闻信息主题“亚运会跳水中国金牌”,各分词词组分别为:亚运会、跳水、中国以及金牌,统计亚运会在各抓取的新闻信息中出现的频次,将统计的频次应用于逆文档频率计算公式,得到该分词词组亚运会的特征值。其它分词词组的特征值获取方法与分词词组亚运会的特征值获取方法相同,在此略去详述。其中,将统计的频次应用于逆文档频率计算公式,得到分词词组的特征值为公知技术,在此不再赘述。
本发明实施例中,作为可选实施例,以计算得到的特征值组成该新闻信息主题的空间权重向量包括:
获取各新闻信息主题中的分词词组,合并相同的分词词组,以合并相同分词词组得到的分词词组构建空间向量,将计算得到的特征值至于空间向量中相应分词词组位置。
本步骤中,将各新闻信息主题中具有相同的分词词组进行合并,即对于相同的分词词组,只保留一个。本发明实施例中,假设经过合并相同分词词组,得到的向量空间为A[亚运会,跳水,中国,金牌],其中,分词词组在空间向量中的位置可以随机。
本发明实施例中,假设计算得到的亚运会、跳水、中国以及金牌的特征值分别为3、4、2、3,则由各分词词组的特征值组成的该新闻信息主题的空间权重向量可以记为:[3,4,2,3]。
A232,计算该新闻信息主题的空间权重向量与其他新闻信息主题的空间权重向量的相似度,如果相似度大于预先设置的相似度阈值,确定两个新闻信息主题相近似。
本步骤中,假设经过特征值计算,有其他四个新闻信息主题(B1~B4)的空间权重向量分别为:
B1的空间权重向量:[3,4,1,3];
B2的空间权重向量:[3,4,5,2];
B3的空间权重向量:[0,0,1,3];
B4的空间权重向量:[4,0,3,2]。
则本发明实施例中,利用夹角余弦公式计算该新闻信息主题A的空间权重向量与其他新闻信息主题(B1~B4)的空间权重向量的相似度,即分别计算B1与A、B2与A、B3与A、B4与A的空间夹角余弦值,也就是计算相似性得分Score(A,B1)、Score(A,B2)、Score(A,B3)、Score(A,B4),计算公式如下:
本发明实施例中,如果预先设置的相似度阈值为0.85,则经过上述计算,表明新闻信息主题B1、B2分别与新闻信息主题A相近似,可以认为是具有相近似新闻内容的新闻信息。
本发明实施例中,对于不同新闻网页对相近似新闻信息主题的新闻进行报道的情形,如果报道与该新闻信息主题相近似新闻信息主题的新闻信息数量越多,认为该新闻信息越重要,因而,对应的聚类重要级别也越高。例如,在新闻信息数量与聚类重要级别的映射关系表中,可以设置新闻信息数量大于1000的,映射的聚类重要级别为9,新闻信息数量大于500小于1000的,映射的聚类重要级别为8等。
本发明实施例中,对于包含有相近似新闻信息主题的新闻信息,其新闻信息聚类结果重要度可以相同,也可以不同。
步骤103,将计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
本步骤中,可以利用下式计算新闻信息重要度:
式中,
ψi为第i个新闻信息的新闻信息重要度;
ξ1为第i个新闻信息的版面重要度的权重系数;
ξ2为第i个新闻信息的版面重要度的权重系数;
ξ3为第i个新闻信息的新闻信息发布时间重要度的权重系数;
ωi为第i个新闻信息的新闻信息发布时间重要度;
ξ4为第i个新闻信息的新闻聚类结果重要度的权重系数;
τi为第i个新闻信息的新闻聚类结果重要度。
较佳地,0πξ1π1,0πξ2π1,0πξ3π1,0πξ4π1,且ξ1+ξ2+ξ3+ξ4=1。
步骤104,对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
本步骤中,对抓取的新闻信息,按照该新闻信息的新闻信息重要度进行排序,在向用户返回排序的新闻信息重要度对应的新闻信息时,可以选取排序前M位的新闻信息重要度对应的新闻信息,其中,M为自然数。
作为一可选实施例,对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息可以包括:
A31,构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
本步骤为对获取的新闻信息重要度进行排序的具体流程。
本发明实施例中,进行排序的新闻信息重要度,包括当前抓取周期对应的新闻信息重要度以及当前抓取周期之前对应的新闻信息重要度。
A32,接收用户的新闻信息请求,将排序列表返回至用户;
A33,监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
作为另一可选实施例,对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息也可以包括:
A41,在抓取的新闻信息中,将排序前M位的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;
本步骤中,为排序前M位的新闻信息重新设置超链接信息,即将该新闻信息作为一个新的新闻网页,并分配超链接信息。这样,在后续应用中,可以只将该新闻信息向用户展示,而无需将发布该新闻信息的新闻网页向用户展示,可以有效减少用户的阅读量,从而降低用户阅读所需的时间,提升用户阅读效率。
A42,构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
A43,接收用户的新闻信息请求,将排序列表返回至用户;
A44,监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
本发明实施例中,由于是针对新闻信息进行排序,可能是的对于同一新闻主题的新闻信息在排序列表中处于较靠前位置,导致用户浏览具有相似内容的新闻信息,从而减少了向用户展示其它新闻信息的概率。因而,作为可选实施例,在对获取的新闻信息重要度进行排序后,该方法还可以进一步包括:
在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主题的其它新闻标题,并按照新闻信息重要度排序的方式补充新的新闻标题。这样,在得到的排序列表中,对于同一新闻信息主题,只包含排序最前的新闻信息主题对应的新闻信息。
作为可选实施例,该方法还可以进一步包括:
A51,将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
本步骤中,将相近似的多个新闻信息主题对应的新闻信息归于一类,作为一类新闻信息。
A52,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度。
这样,所述对获取的新闻信息重要度进行排序可以包括:
构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页。
作为另一可选实施例,该方法还可以进一步包括:
将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度。
这样,所述对获取的新闻信息重要度进行排序还可以包括:
在抓取的新闻信息中,将排序前M位的新闻信息集中排序最高的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页。
图2为本发明实施例对新闻信息进行排序的逻辑架构示意图。参见图2,首先获取数据(新闻信息)来源,其次,依据数据来源进行新闻信息重要度计算,包括四个方面的影响因素,分别为:
1、网站重要度(网页重要度),计算规则为:1、网站PR值(0~9);2、网站Alexa排名高低;
2、版面重要度,计算规则为:文章(新闻信息)在网站版面的位置重要度;
3、新闻发布时间(新闻信息发布时间重要度),计算规则为:新闻的发布时间,发布越早新闻重要性越低;
4、新闻聚类结果(新闻信息聚类结果重要度),计算规则为:计算属于同一个主题的新闻,新闻数量越多,新闻重要度越高。
最后,依据四个方面的影响因素,获取计算结果(新闻信息重要度):将新闻重要度的计算结果,以分值(0~1)从高至低进行排列,每10分钟重新计算一次,当应用端(用户)请求数据时,按照分值从高至低的顺序进行输出。
由上述可见,本发明实施例对新闻信息进行排序的方法,通过按照抓取周期动态抓取新闻信息,并通过网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度四个维度对新闻信息进行表征,每一维度对应计算出一个分值,通过对四个分值的加权计算,得出每一新闻信息总的分数作为新闻信息重要度,并将新闻信息按照新闻信息重要度从高到低进行排序,新闻信息重要度分值越高的新闻信息,重要度也就越高,从而可以对时效新闻的新闻信息重要度进行动态评估,当用户请求新闻信息时,按照新闻信息重要度从高到低,将新闻信息输出给用户。通过动态、多维度对新闻信息进行重要度计算,使得新闻信息重要度的计算结果更加准确,可以更有效向用户提供重要时效性的新闻信息,降低用户获取重要时效性新闻信息所需的时间,进而提升用户阅读新闻信息的效率。
图3为本发明实施例对新闻信息进行排序的装置结构示意图。参见图3,该装置包括:新闻信息抓取模块、新闻信息维度计算模块、新闻信息重要度获取模块以及新闻信息排序模块,其中,
新闻信息抓取模块,用于按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
本发明实施例中,新闻信息与新闻属性信息形成一一对应关系,其中,
新闻信息包括:新闻标题以及新闻内容。
新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信息在新闻网页的版面信息等。其中,
新闻信息在新闻网页的版面信息包括:新闻标题字号、图片尺寸、新闻内容文字属性等。
作为可选实施例,新闻信息抓取模块包括:抓取单元、提取过滤单元以及记录单元(图中未示出),其中,
抓取单元,用于利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的新闻信息;
提取过滤单元,用于提取抓取的新闻信息的发布时间,依据提取的发布时间,过滤在上一抓取周期之前发布的新闻信息;
记录单元,用于记录提取过滤单元过滤得到的新闻信息的新闻属性信息。
新闻信息维度计算模块,用于针对新闻信息抓取模块每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
本发明实施例中,作为可选实施例,新闻信息维度计算模块包括:网页重要度计算单元、版面重要度计算单元、发布时间重要度计算单元以及新闻信息聚类结果重要度计算单元(图中未示出),其中,
网页重要度计算单元,用于提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信息,确定提取的新闻网页信息所属的新闻网站;查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的网页重要度;
本发明实施例中,网站排名库中存储有各网站的网站排名。网站排名可以是网页级别值,也可以是Alexa排名值,还可以是网页级别值和Alexa排名值的加权值。
版面重要度计算单元,用于查询版面重要级别映射库,分别获取新闻属性信息中的新闻标题字号、图片尺寸以及新闻内容文字属性对应的版面重要级别,将获取的各版面重要级别进行加权求和,得到新闻信息的版面重要度;
本发明实施例中,版面重要级别映射库中,设置有各版面信息对应的版面重要级别。
发布时间重要度计算单元,用于计算当前时间与记录的该新闻信息对应的新闻属性信息中发布新闻信息的时间的时间差,查询预先设置的时间差与时间重要级别的映射关系表,获取计算的时间差映射的时间重要级别,作为新闻信息发布时间重要度;
新闻信息聚类结果重要度计算单元,用于对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
本发明实施例中,对于抓取到的新闻信息,通过对新闻标题和新闻内容进行分词切分处理,得到分词词组,并统计每一分词词组在该新闻信息中出现的频次,如果某一分词词组出现的次数越多,认为该新闻信息与该分词词组的相关度越高,将出现次数排名前N位的词组作为该新闻信息的主题。
作为可选实施例,新闻信息聚类结果重要度计算单元包括:切分子单元、新闻信息主题确定子单元、空间权重向量子单元、相似性计算子单元以及新闻信息聚类结果重要度获取子单元,其中,
切分子单元,用于对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;
新闻信息主题确定子单元,用于统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;
空间权重向量子单元,用于在抓取的各新闻信息中,计算该新闻信息主题中各分词词组的特征值,并以计算得到的特征值组成该新闻信息主题的空间权重向量;
本发明实施例中,计算新闻信息主题中各分词词组的特征值包括:
分别获取所述新闻信息主题中各分词词组在抓取的新闻信息中出现的频次,将每一分词词组的频次应用于逆文档频率计算公式,得到该分词词组的特征值。
相似性计算子单元,用于计算该新闻信息主题的空间权重向量与其他新闻信息主题的空间权重向量的相似度,如果相似度大于预先设置的相似度阈值,确定两个新闻信息主题相近似;
新闻信息聚类结果重要度获取子单元,用于统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
新闻信息重要度获取模块,用于将新闻信息维度计算模块计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
本发明实施例中,可以利用下式计算新闻信息重要度:
式中,
ψi为第i个新闻信息的新闻信息重要度;
ξ1为第i个新闻信息的版面重要度的权重系数;
ξ2为第i个新闻信息的版面重要度的权重系数;
ξ3为第i个新闻信息的新闻信息发布时间重要度的权重系数;
ωi为第i个新闻信息的新闻信息发布时间重要度;
ξ4为第i个新闻信息的新闻聚类结果重要度的权重系数;
τi为第i个新闻信息的新闻聚类结果重要度。
较佳地,0πξ1π1,0πξ2π1,0πξ3π1,0πξ4π1,且ξ1+ξx+ξ3+ξ4=1。
新闻信息排序模块,用于对新闻信息重要度获取模块获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
本发明实施例中,较佳地,作为一可选实施例,新闻信息排序模块包括:第一排序列表构建单元、第一请求处理单元以及第一监测单元(图中未示出),其中,
第一排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
本发明实施例中,进行排序的新闻信息重要度,包括当前抓取周期对应的新闻信息重要度以及当前抓取周期之前对应的新闻信息重要度。
第一请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第一监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
作为另一可选实施例,新闻信息排序模块也可以包括:链接信息重设置单元、第二排序列表构建单元、第二请求处理单元以及第二监测单元(图中未示出),其中,
链接信息重设置单元,用于在抓取的新闻信息中,将排序前M位的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;
第二排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
第二请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第二监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
较佳地,新闻信息排序模块还可以进一步包括:
更新单元,用于在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主题的其它新闻标题,并按照新闻信息重要度排序的方式补充新的新闻标题。
作为再一可选实施例,新闻信息排序模块也可以包括:分类新闻信息集归类单元、新闻信息集重要度计算单元、第三排序列表构建单元、第三请求处理单元以及第三监测单元(图中未示出),其中,
分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
第三排序列表构建单元,用于构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
第三请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第三监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
作为再一可选实施例,新闻信息排序模块也可以包括:分类新闻信息集归类单元、新闻信息集重要度计算单元、第四排序列表构建单元、第四请求处理单元以及第四监测单元(图中未示出),其中,
分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
第四排序列表构建单元,用于在抓取的新闻信息中,将排序前M位的新闻信息集中排序最高的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
第四请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第四监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (23)
1.一种对新闻信息进行排序的方法,其特征在于,该方法包括:
按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
针对每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
将计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
2.根据权利要求1所述的方法,其特征在于,所述新闻信息包括:新闻标题以及新闻内容,所述新闻属性信息包括:发布新闻信息的新闻网页信息、发布新闻信息的时间、新闻信息在新闻网页的版面信息。
3.根据权利要求2所述的方法,其特征在于,所述抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息包括:
利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的新闻信息,提取抓取的新闻信息的发布时间,过滤在上一抓取周期之前发布的新闻信息。
4.根据权利要求2所述的方法,其特征在于,所述计算该每一新闻信息的网页重要度包括:
提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信息,确定提取的新闻网页信息所属的新闻网站;
查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的网页重要度。
5.根据权利要求2所述的方法,其特征在于,所述计算新闻信息的版面重要度包括:
查询版面重要级别映射库,分别获取新闻属性信息中的新闻标题字号、图片尺寸以及新闻内容文字属性对应的版面重要级别,将获取的各版面重要级别进行加权求和,得到新闻信息的版面重要度。
6.根据权利要求2所述的方法,其特征在于,所述计算新闻信息发布时间重要度包括:
计算当前时间与记录的该新闻信息对应的新闻属性信息中发布新闻信息的时间的时间差,查询预先设置的时间差与时间重要级别的映射关系表,获取计算的时间差映射的时间重要级别,作为新闻信息发布时间重要度。
7.根据权利要求2所述的方法,其特征在于,所述计算新闻信息聚类结果重要度包括:
对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;
统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;
统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
8.根据权利要求7所述的方法,其特征在于,确定所述相近似新闻信息主题包括:
在抓取的各新闻信息中,计算该新闻信息主题中各分词词组的特征值,并以计算得到的特征值组成该新闻信息主题的空间权重向量;
计算该新闻信息主题的空间权重向量与其他新闻信息主题的空间权重向量的相似度,如果相似度大于预先设置的相似度阈值,确定两个新闻信息主题相近似。
9.根据权利要求8所述的方法,其特征在于,所述以计算得到的特征值组成该新闻信息主题的空间权重向量包括:
获取各新闻信息主题中的分词词组,合并相同的分词词组,以合并相同分词词组得到的分词词组构建空间向量,将计算得到的特征值至于空间向量中相应分词词组位置。
10.根据权利要求8所述的方法,其特征在于,所述方法进一步包括:
将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
所述对获取的新闻信息重要度进行排序包括:
构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页。
11.根据权利要求8所述的方法,其特征在于,所述方法进一步包括:
将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
所述对获取的新闻信息重要度进行排序包括:
在抓取的新闻信息中,将排序前M位的新闻信息集中排序最高的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页。
12.根据权利要求1至9任一项所述的方法,其特征在于,所述对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息包括:
构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
接收用户的新闻信息请求,将排序列表返回至用户;
监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
13.根据权利要求12所述的方法,其特征在于,所述方法进一步包括:
在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主题的其它新闻标题,并按照新闻信息重要度排序的方式补充新的新闻标题。
14.根据权利要求1至9任一项所述的方法,其特征在于,所述对获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息包括:
在抓取的新闻信息中,将排序前M位的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;
构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
接收用户的新闻信息请求,将排序列表返回至用户;
监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
15.一种对新闻信息进行排序的装置,其特征在于,该装置包括:新闻信息抓取模块、新闻信息维度计算模块、新闻信息重要度获取模块以及新闻信息排序模块,其中,
新闻信息抓取模块,用于按照预先设置的抓取周期,抓取网页中在上一抓取周期至当前抓取周期发布的新闻信息,记录抓取的新闻信息的新闻属性信息;
新闻信息维度计算模块,用于针对新闻信息抓取模块每一抓取的新闻信息,依据记录的该每一新闻信息对应的新闻属性信息,分别计算该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻信息聚类结果重要度;
新闻信息重要度获取模块,用于将新闻信息维度计算模块计算得到的该每一新闻信息的网页重要度、版面重要度、新闻信息发布时间重要度以及新闻聚类结果重要度进行加权求和,获取该每一新闻信息重要度;
新闻信息排序模块,用于对新闻信息重要度获取模块获取的新闻信息重要度进行排序,以在接收到用户的新闻信息请求时,向用户返回排序的新闻信息重要度对应的新闻信息。
16.根据权利要求15所述的装置,其特征在于,所述新闻信息抓取模块包括:抓取单元、提取过滤单元以及记录单元,其中,
抓取单元,用于利用网络爬虫,抓取预先设置的新闻网页库中各链接信息对应的新闻网页发布的新闻信息;
提取过滤单元,用于提取抓取的新闻信息的发布时间,依据提取的发布时间,过滤在上一抓取周期之前发布的新闻信息;
记录单元,用于记录提取过滤单元过滤得到的新闻信息的新闻属性信息。
17.根据权利要求15所述的装置,其特征在于,所述新闻信息维度计算模块包括:网页重要度计算单元、版面重要度计算单元、发布时间重要度计算单元以及新闻信息聚类结果重要度计算单元,其中,
网页重要度计算单元,用于提取该每一新闻信息对应的新闻属性信息中的发布新闻信息的新闻网页信息,确定提取的新闻网页信息所属的新闻网站;查询预先获取的网站排名库,获取确定的新闻网站的网站排名作为该每一新闻信息的网页重要度;
版面重要度计算单元,用于查询版面重要级别映射库,分别获取新闻属性信息中的新闻标题字号、图片尺寸以及新闻内容文字属性对应的版面重要级别,将获取的各版面重要级别进行加权求和,得到新闻信息的版面重要度;
发布时间重要度计算单元,用于计算当前时间与记录的该新闻信息对应的新闻属性信息中发布新闻信息的时间的时间差,查询预先设置的时间差与时间重要级别的映射关系表,获取计算的时间差映射的时间重要级别,作为新闻信息发布时间重要度;
新闻信息聚类结果重要度计算单元,用于对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
18.根据权利要求17所述的装置,其特征在于,所述新闻信息聚类结果重要度计算单元包括:切分子单元、新闻信息主题确定子单元、空间权重向量子单元、相似性计算子单元以及新闻信息聚类结果重要度获取子单元,其中,
切分子单元,用于对新闻信息中的新闻标题以及新闻内容进行分词切分处理,得到分词词组;
新闻信息主题确定子单元,用于统计每一分词词组在新闻信息中出现的频次,选取出现频次前N位的分词词组作为该新闻信息主题,其中,N为自然数;
空间权重向量子单元,用于在抓取的各新闻信息中,计算该新闻信息主题中各分词词组的特征值,并以计算得到的特征值组成该新闻信息主题的空间权重向量;
相似性计算子单元,用于计算该新闻信息主题的空间权重向量与其他新闻信息主题的空间权重向量的相似度,如果相似度大于预先设置的相似度阈值,确定两个新闻信息主题相近似;
新闻信息聚类结果重要度获取子单元,用于统计包含相近似新闻信息主题的新闻信息数量,查询预先设置的新闻信息数量与聚类重要级别的映射关系表,获取统计的新闻信息数量映射的聚类重要级别,作为该新闻信息聚类结果重要度。
19.根据权利要求15所述的装置,其特征在于,所述新闻信息排序模块包括:第一排序列表构建单元、第一请求处理单元以及第一监测单元,其中,
第一排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
第一请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第一监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
20.根据权利要求15所述的装置,其特征在于,所述新闻信息排序模块包括:链接信息重设置单元、第二排序列表构建单元、第二请求处理单元以及第二监测单元,其中,
链接信息重设置单元,用于在抓取的新闻信息中,将排序前M位的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;
第二排序列表构建单元,用于构建按照新闻信息重要度进行排序的排序列表,在排序列表中,显示新闻信息的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
第二请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第二监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
21.根据权利要求19或20所述的装置,其特征在于,所述新闻信息排序模块进一步包括:
更新单元,用于在排序列表中,删除与排序最前的新闻标题具有相同新闻信息主题的其它新闻标题,并按照新闻信息重要度排序的方式补充新的新闻标题。
22.根据权利要求15所述的装置,其特征在于,所述新闻信息排序模块包括:分类新闻信息集归类单元、新闻信息集重要度计算单元、第三排序列表构建单元、第三请求处理单元以及第三监测单元,其中,
分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
第三排序列表构建单元,用于构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至发布该新闻信息的新闻网页;
第三请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第三监测单元,用于监测到用户点击排序列表中的新闻标题,加载该新闻标题超链接的发布该新闻信息的新闻网页。
23.根据权利要求15所述的装置,其特征在于,所述新闻信息排序模块包括:分类新闻信息集归类单元、新闻信息集重要度计算单元、第四排序列表构建单元、第四请求处理单元以及第四监测单元,其中,
分类新闻信息集归类单元,用于将相近似的新闻信息主题对应的新闻信息进行归类,得到分类新闻信息集;
新闻信息集重要度计算单元,对于每一分类新闻信息集,对各新闻信息的新闻信息重要度进行加权求和,获取该新闻信息集重要度;
第四排序列表构建单元,用于在抓取的新闻信息中,将排序前M位的新闻信息集中排序最高的新闻信息重要度对应的新闻信息设置为新闻标题超链接的网页;构建按照新闻信息集重要度进行排序的排序列表,在排序列表的新闻信息集重要度排序栏中,显示该新闻信息集中排序最高的新闻信息重要度对应的新闻标题,并设置新闻标题超链接至设置的超链接对应的网页;
第四请求处理单元,用于接收用户的新闻信息请求,将排序列表返回至用户;
第四监测单元,用于监测到用户点击排序列表中的新闻标题,加载设置的该新闻标题超链接的网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510369637.2A CN105095368B (zh) | 2015-06-29 | 2015-06-29 | 一种对新闻信息进行排序的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510369637.2A CN105095368B (zh) | 2015-06-29 | 2015-06-29 | 一种对新闻信息进行排序的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095368A true CN105095368A (zh) | 2015-11-25 |
CN105095368B CN105095368B (zh) | 2018-07-31 |
Family
ID=54575805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510369637.2A Expired - Fee Related CN105095368B (zh) | 2015-06-29 | 2015-06-29 | 一种对新闻信息进行排序的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095368B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389397A (zh) * | 2015-12-22 | 2016-03-09 | 北京奇虎科技有限公司 | 对新闻进行排序的方法和装置 |
CN105808761A (zh) * | 2016-03-16 | 2016-07-27 | 山东大学 | 一种基于大数据Solr网页排序优化方法 |
CN106843702A (zh) * | 2017-02-23 | 2017-06-13 | 北京多格科技有限公司 | 信息展示*** |
CN107103071A (zh) * | 2017-04-21 | 2017-08-29 | 安徽大学 | 一种基于直接优化pauc算法的新闻信息分类方法 |
CN108595534A (zh) * | 2018-03-30 | 2018-09-28 | 北京金堤科技有限公司 | 一种资讯刷新的方法及装置 |
CN108664535A (zh) * | 2017-04-01 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN109101648A (zh) * | 2018-08-22 | 2018-12-28 | 歌尔科技有限公司 | 一种新闻播放方法和装置 |
CN109558531A (zh) * | 2018-10-26 | 2019-04-02 | 平安科技(深圳)有限公司 | 新闻信息推送方法、装置以及计算机设备 |
CN110929018A (zh) * | 2019-12-04 | 2020-03-27 | Oppo(重庆)智能科技有限公司 | 文本处理方法、装置、存储介质及电子设备 |
US11308164B2 (en) | 2018-09-17 | 2022-04-19 | Yandex Europe Ag | Method and system for generating push notifications related to digital news |
JP2022115160A (ja) * | 2021-01-28 | 2022-08-09 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
CN116340639A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 新闻召回方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100281012A1 (en) * | 2009-04-29 | 2010-11-04 | Microsoft Corporation | Automatic recommendation of vertical search engines |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104331419A (zh) * | 2014-10-13 | 2015-02-04 | 北京奇虎科技有限公司 | 衡量新闻重要性的方法和装置 |
-
2015
- 2015-06-29 CN CN201510369637.2A patent/CN105095368B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100281012A1 (en) * | 2009-04-29 | 2010-11-04 | Microsoft Corporation | Automatic recommendation of vertical search engines |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104331419A (zh) * | 2014-10-13 | 2015-02-04 | 北京奇虎科技有限公司 | 衡量新闻重要性的方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107695A1 (zh) * | 2015-12-22 | 2017-06-29 | 北京奇虎科技有限公司 | 对新闻进行排序的方法和装置 |
CN105389397A (zh) * | 2015-12-22 | 2016-03-09 | 北京奇虎科技有限公司 | 对新闻进行排序的方法和装置 |
CN105808761A (zh) * | 2016-03-16 | 2016-07-27 | 山东大学 | 一种基于大数据Solr网页排序优化方法 |
CN106843702A (zh) * | 2017-02-23 | 2017-06-13 | 北京多格科技有限公司 | 信息展示*** |
CN108664535A (zh) * | 2017-04-01 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN108664535B (zh) * | 2017-04-01 | 2022-08-12 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN107103071A (zh) * | 2017-04-21 | 2017-08-29 | 安徽大学 | 一种基于直接优化pauc算法的新闻信息分类方法 |
CN108595534A (zh) * | 2018-03-30 | 2018-09-28 | 北京金堤科技有限公司 | 一种资讯刷新的方法及装置 |
CN109101648A (zh) * | 2018-08-22 | 2018-12-28 | 歌尔科技有限公司 | 一种新闻播放方法和装置 |
US11308164B2 (en) | 2018-09-17 | 2022-04-19 | Yandex Europe Ag | Method and system for generating push notifications related to digital news |
CN109558531A (zh) * | 2018-10-26 | 2019-04-02 | 平安科技(深圳)有限公司 | 新闻信息推送方法、装置以及计算机设备 |
CN110929018A (zh) * | 2019-12-04 | 2020-03-27 | Oppo(重庆)智能科技有限公司 | 文本处理方法、装置、存储介质及电子设备 |
CN110929018B (zh) * | 2019-12-04 | 2023-03-21 | Oppo(重庆)智能科技有限公司 | 文本处理方法、装置、存储介质及电子设备 |
JP2022115160A (ja) * | 2021-01-28 | 2022-08-09 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |
JP7287992B2 (ja) | 2021-01-28 | 2023-06-06 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
CN115658887B (zh) * | 2022-09-28 | 2024-04-26 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
CN116340639A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 新闻召回方法、装置、设备及存储介质 |
CN116340639B (zh) * | 2023-03-31 | 2023-12-12 | 北京百度网讯科技有限公司 | 新闻召回方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105095368B (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095368A (zh) | 一种对新闻信息进行排序的方法及装置 | |
CN106709052B (zh) | 一种基于关键词的主题网络爬虫设计方法 | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN101908071B (zh) | 一种提高搜索引擎搜索效率的方法及其*** | |
CN101079064B (zh) | 一种网页排序方法及装置 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN103294681B (zh) | 一种搜索结果的生成方法和装置 | |
CN105574047A (zh) | 一种基于网站主页特征分析的中文网站分类方法和*** | |
CN102693304B (zh) | 一种搜索引擎的反馈信息处理方法及搜索引擎 | |
CN101794311A (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN101788988B (zh) | 信息抓取方法 | |
CN103049542A (zh) | 一种面向领域的网络信息搜索方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN102779169A (zh) | 一种基于html标签的网页正文提取方法及装置 | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN108737423A (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及*** | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN111726336B (zh) | 一种联网智能设备识别信息提取方法及*** | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及*** | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN107193987A (zh) | 获取与页面相关的搜索词的方法、装置和*** | |
CN101963965A (zh) | 基于搜索引擎的文档索引方法、数据查询方法及服务器 | |
CN110543595A (zh) | 一种站内搜索***及方法 | |
CN109345006A (zh) | 一种基于区域发展目标的招商政策分析优化方法及*** | |
CN106649498A (zh) | 一种基于爬虫和文本聚类分析的网络舆情分析*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180731 |