CN105045890A - 确定目标新闻源中的热点新闻的方法与设备 - Google Patents

确定目标新闻源中的热点新闻的方法与设备 Download PDF

Info

Publication number
CN105045890A
CN105045890A CN201510456929.XA CN201510456929A CN105045890A CN 105045890 A CN105045890 A CN 105045890A CN 201510456929 A CN201510456929 A CN 201510456929A CN 105045890 A CN105045890 A CN 105045890A
Authority
CN
China
Prior art keywords
news
hot
hot news
block
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510456929.XA
Other languages
English (en)
Inventor
邢皖甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510456929.XA priority Critical patent/CN105045890A/zh
Publication of CN105045890A publication Critical patent/CN105045890A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明的目的是提供一种用于确定目标新闻源中的热点新闻的方法与设备。具体地,确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。与现有技术相比,本发明通过确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块,从而根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻,实现了热点新闻的自动化挖掘,提高了热点新闻的识别率,并降低了识别成本,也提高了用户获取热点新闻的效率,并提升了用户体验。

Description

确定目标新闻源中的热点新闻的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于确定目标新闻源中的热点新闻的技术。
背景技术
热点新闻的确定与提供极大地方便了用户对新闻信息的获取。然而,现有技术中,通常采用人工整理的方式来确定热点新闻,这种方式显然需要较大人力成本,且时效性较差,不能及时为用户提供热点新闻,相应地,也降低了用户获取热点新闻的效率。
发明内容
本发明的一个目的是提供一种用于确定目标新闻源中的热点新闻的方法与设备。
根据本发明的一个方面,提供了一种用于确定目标新闻源中的热点新闻的方法,其中,该方法包括:
确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;
根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
根据本发明的另一方面,还提供了一种用于确定目标新闻源中的热点新闻的热点确定设备,其中,该热点确定设备包括:
用于确定目标新闻源中的候选热点新闻的装置,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;
用于根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻的装置。
与现有技术相比,本发明的一个实施例通过确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块,从而根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻,实现了热点新闻的自动化挖掘,提高了热点新闻的识别率,并降低了识别成本,也提高了用户获取热点新闻的效率,并提升了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于确定目标新闻源中的热点新闻的热点确定设备的设备示意图;
图2示出根据本发明一个优选实施例的一种用于确定目标新闻源中的热点新闻的热点确定设备的设备示意图;
图3示出根据本发明另一个方面的一种用于确定目标新闻源中的热点新闻的方法流程图;
图4示出根据本发明一个优选实施例的一种用于确定目标新闻源中的热点新闻的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于确定目标新闻源中的热点新闻的热点确定设备1,其中,热点确定设备1包括用于确定目标新闻源中的候选热点新闻的装置(以下简称“候选确定装置11”),其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;用于根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻的装置(以下简称“热点确定装置12”)。
具体地,候选确定装置11确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;热点确定装置12根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
在此,热点确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(CloudComputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、智能手机、PDA、可穿戴设备、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。本领域技术人员应能理解上述热点确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,候选确定装置11确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块。
在此,所述目标新闻源是指能够登载新闻供网络用户浏览的网站(如国家大型新闻门户、商业门户、地方新闻门户等)、页面、新闻app等。
在此,所述候选热点新闻是指有可能是热点新闻的新闻。
在此,所述热点新闻块是指所述目标新闻源中指定的、或者是对目标新闻源进行页面分析得到的,登载热点新闻的区域。
本领域技术人员应能理解上述目标新闻源、热点新闻块仅为举例,其他现有的或今后可能出现的目标新闻源或热点新闻块如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,对于目标新闻源如新闻网站news-page1,该网站中预定的热点新闻块为焦点新闻模块hot-news-module,则候选确定装置11可将新闻网站news-page1中位于热点新闻块即焦点新闻模块hot-news-module的所有新闻如new1-new10均作为该新闻网站news-page1的候选热点新闻。
本领域技术人员应能理解上述确定目标新闻源中的候选热点新闻的方式仅为举例,其他现有的或今后可能出现的确定目标新闻源中的候选热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
热点确定装置12根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
在此,所述热点新闻是指比较受用户关注或者欢迎的新闻。
在此,所述候选热点新闻的访问特征信息是指用户对该候选热点新闻的访问反馈信息,如阅读量/阅读频率、评论数量/评论频率、分享量/分享频率等。本领域技术人员应能理解上述访问特征信息仅为举例,其他现有的或今后可能出现的访问特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,热点确定装置12从所述候选热点新闻中确定热点新闻的方式包括但不限于以下至少任一项:
1)根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的时效特征信息,从所述候选热点新闻中确定热点新闻。
在此,所述候选热点新闻的时效特征信息是指该候选热点新闻的发布时间和/或从其发布到能够从网络上被抓取到的所经历的时间等。在具体实施例中,候选热点新闻的发布时间相对越靠近当前时刻,其属于热点新闻的概率就越大;候选热点新闻从其发布到能够从网络上被抓取到的所经历的时间越短,其属于热点新闻的概率也越大。
例如,对于目标新闻源如新闻网站news-page1,候选确定装置11确定该目标新闻源中的候选热点新闻为new1-new10,假设候选热点新闻new1-new10中new2-new5的发布时间相对比较靠近当前时刻,则热点确定装置12确定候选热点新闻new2-new5为热点新闻。
2)根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的热点等级信息,从所述候选热点新闻中确定热点新闻。
例如,对于目标新闻源如新闻网站news-page1,候选确定装置11确定该目标新闻源中的候选热点新闻为new1-new10,假设候选热点新闻new1-new10中new3-new5的热点等级高于其他候选热点新闻,则热点确定装置12可确定候选热点新闻new3-new5为热点新闻。
本领域技术人员应能理解上述从候选热点新闻中确定热点新闻的方式仅为举例,其他现有的或今后可能出现的从候选热点新闻中确定热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本领域技术人员应当理解,在具体实施例中,本发明还可将所述访问特征信息、所述时效特征信息和所述热点等级信息三者结合起来确定候选热点新闻是否为热点新闻。
优选地,热点确定设备1还包括用于根据所述候选热点新闻在相关新闻源中被发布的发布操作量信息,确定所述热点等级信息的装置(以下简称“热点等级确定装置”,未示出)。具体地,热点等级确定装置根据所述候选热点新闻在相关新闻源中被发布的发布操作量信息,确定所述热点等级信息。
在此,所述相关新闻源是指不同于所述目标新闻源的其他新闻源。在此,所述发布操作量信息是指所述候选热点新闻在相关新闻源中被发布的总次数、发布/更新频率等信息。在具体实施例中,所述热点等级信息可与所述发布操作量信息具有一定对应关系,如热点等级为I级的新闻具有某范围的发布操作量信息。本领域技术人员应能理解上述发布操作量信息仅为举例,其他现有的或今后可能出现的发布操作量信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,对于候选热点新闻new2和new3,假设候选热点新闻new2在相关新闻源中被发布的总次数为100次,而候选热点新闻new3在相关新闻源中被发布的总次数为30次,热点等级为I级的新闻对应的在相关新闻源中被发布的总次数为[50,+∞),而热点等级为II级的新闻对应的在相关新闻源中被发布的总次数为[20,50),则热点等级确定装置可确定候选热点新闻new2和new3的热点等级信息分别为I级和II级。
本领域技术人员应能理解上述确定所述热点等级信息的方式仅为举例,其他现有的或今后可能出现的确定所述热点等级信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明实现了热点新闻的自动化挖掘,提高了热点新闻的识别率,并降低了识别成本。
热点确定设备1的各个装置之间是持续不断工作的。具体地,候选确定装置11持续确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;热点确定装置12持续根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。在此,本领域技术人员应理解,所述“持续”是指热点确定设备1的各装置之间分别不断地进行候选热点新闻的确定、热点新闻的确定,直至热点确定设备1在较长时间内停止确定所述候选热点新闻。
优选地,热点确定设备1还包括用于根据从多个新闻源中确定的热点新闻,建立或更新热点新闻库的装置(以下简称“热点新闻库建立装置”,未示出)。具体地,热点新闻库建立装置根据从多个新闻源中确定的热点新闻,建立或更新热点新闻库,如按热点新闻的热点等级信息为顺序,将从多个新闻源中确定的热点信息进行排列。
在此,所述热点新闻库可用于当用户访问新闻网站或打开新闻app客户端时,将热点新闻库中的热点等级较高的新闻主动提供给用户,还可用于当用户查询热点新闻时,从该库中进行匹配查询,以提高向用户提供热点新闻的效率及所提供的热点新闻的准确度。
图2示出根据本发明一个优选实施例的一种用于确定目标新闻源中的热点新闻的热点确定设备的设备示意图,其中,热点确定设备1包括候选确定装置11’和热点确定装置12’,其中,候选确定装置11’包括用于确定目标新闻源中的热点新闻块的单元(以下简称“第一确定单元111’”)和用于确定所述热点新闻块中的候选热点新闻,以作为所述目标新闻源中的候选热点新闻的单元(以下简称“第二确定单元112’”)。具体地,第一确定单元111’确定目标新闻源中的热点新闻块;第二确定单元112’确定所述热点新闻块中的候选热点新闻,以作为所述目标新闻源中的候选热点新闻;热点确定装置12’根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。在此,本领域技术人员应当理解,热点确定装置12’与图1实施例中对应装置的内容相同或基本相同,为简明起见,故在此不再赘述。
具体地,第一确定单元111’确定目标新闻源中的热点新闻块,如将目标新闻源中的指定块作为所述热点新闻块,或者,还可根据目标新闻源中的新闻块是否满足预定的热点块判断规则,确定该目标新闻源中的热点新闻块;其中,所述预定的热点块判断规则包括以下至少任一项:
-若所述新闻块包含预定热点块标识信息,则该新闻块属于热点新闻块;
-若所述新闻块属于指定的热点块,则该新闻块属于热点新闻块。
例如,对于目标新闻源如新闻网站news-page1,假设第一确定单元111’对该新闻网站进行页面分析,诸如根据页面的css或DOM树节点发现该网站中的新闻块news-module-1包含预定热点块标识信息,则第一确定单元111’确定新闻块news-module-1为新闻网站news-page1中的热点新闻块。在此,所述预定热点块标识信息用于标识新闻块是否属于热点新闻块,其可以是hot字符标识、!号标识等。在此,本领域技术人员应能理解上述热点块标识信息仅为举例,其他现有的或今后可能出现的热点块标识信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
再如,对于目标新闻源如新闻网站news-page1,假设该网站中的新闻块news-module-2属于指定的热点块,如是人工配置的热点块,则第一确定单元111’确定新闻块news-module-2为新闻网站news-page1中的热点新闻块。
本领域技术人员应能理解上述确定目标新闻源中的热点新闻块的方式仅为举例,其他现有的或今后可能出现的确定目标新闻源中的热点新闻块的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
第二确定单元112’确定所述热点新闻块中的候选热点新闻,如将所述热点新闻块中的所有新闻均作为所述候选热点新闻,以作为所述目标新闻源中的候选热点新闻;或者,还可根据所述热点新闻块中新闻的热点特征信息,确定所述候选热点新闻。优选地,所述热点特征信息包括以下至少任一项:
-所述热点新闻块中新闻的标题样式信息;
-所述热点新闻块中新闻的热点标识信息。
在此,所述标题样式信息包含标题的字体大小、字体是否加粗、标题是否高亮显示等信息。
在此,所述热点标识信息用于标识新闻是否属于热点新闻,其可以是hot字符标识、!号标识、红色小方块等任何标识。
例如,对于目标新闻源如新闻网站news-page1,其热点新闻块为新闻块news-module-1,假设第二确定单元112’发现该热点新闻块中的新闻new1’和new2’的标题为高亮显示,或者,标题的字体是加粗的,或者,具有热点标识信息如hot标识等,则第二确定单元112’可确定新闻new1’和new2’为新闻块news-module-1中的候选热点新闻,从而得到目标新闻源如新闻网站news-page1的候选热点新闻。
本领域技术人员应能理解上述确定所述热点新闻块中的候选热点新闻的方式仅为举例,其他现有的或今后可能出现的确定所述热点新闻块中的候选热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图3示出根据本发明另一个方面的一种用于确定目标新闻源中的热点新闻的方法流程图。
其中,该方法包括步骤S1和步骤S2。具体地,在步骤S1中,热点确定设备1确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;在步骤S2中,热点确定设备1根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
在此,热点确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(CloudComputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、智能手机、PDA、可穿戴设备、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。本领域技术人员应能理解上述热点确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,热点确定设备1确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块。
在此,所述目标新闻源是指能够登载新闻供网络用户浏览的网站(如国家大型新闻门户、商业门户、地方新闻门户等)、页面、新闻app等。
在此,所述候选热点新闻是指有可能是热点新闻的新闻。
在此,所述热点新闻块是指所述目标新闻源中指定的、或者是对目标新闻源进行页面分析得到的,登载热点新闻的区域。
本领域技术人员应能理解上述目标新闻源、热点新闻块仅为举例,其他现有的或今后可能出现的目标新闻源或热点新闻块如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,对于目标新闻源如新闻网站news-page1,该网站中预定的热点新闻块为焦点新闻模块hot-news-module,则在步骤S1中,热点确定设备1可将新闻网站news-page1中位于热点新闻块即焦点新闻模块hot-news-module的所有新闻如new1-new10均作为该新闻网站news-page1的候选热点新闻。
本领域技术人员应能理解上述确定目标新闻源中的候选热点新闻的方式仅为举例,其他现有的或今后可能出现的确定目标新闻源中的候选热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,热点确定设备1根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
在此,所述热点新闻是指比较受用户关注或者欢迎的新闻。
在此,所述候选热点新闻的访问特征信息是指用户对该候选热点新闻的访问反馈信息,如阅读量/阅读频率、评论数量/评论频率、分享量/分享频率等。本领域技术人员应能理解上述访问特征信息仅为举例,其他现有的或今后可能出现的访问特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,在步骤S2中,热点确定设备1从所述候选热点新闻中确定热点新闻的方式包括但不限于以下至少任一项:
1)根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的时效特征信息,从所述候选热点新闻中确定热点新闻。
在此,所述候选热点新闻的时效特征信息是指该候选热点新闻的发布时间和/或从其发布到能够从网络上被抓取到的所经历的时间等。在具体实施例中,候选热点新闻的发布时间相对越靠近当前时刻,其属于热点新闻的概率就越大;候选热点新闻从其发布到能够从网络上被抓取到的所经历的时间越短,其属于热点新闻的概率也越大。
例如,对于目标新闻源如新闻网站news-page1,在步骤S1中,热点确定设备1确定该目标新闻源中的候选热点新闻为new1-new10,假设候选热点新闻new1-new10中new2-new5的发布时间相对比较靠近当前时刻,则在步骤S2中,热点确定设备1确定候选热点新闻new2-new5为热点新闻。
2)根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的热点等级信息,从所述候选热点新闻中确定热点新闻。
例如,对于目标新闻源如新闻网站news-page1,在步骤S1中,热点确定设备1确定该目标新闻源中的候选热点新闻为new1-new10,假设候选热点新闻new1-new10中new3-new5的热点等级高于其他候选热点新闻,则在步骤S2中,热点确定设备1可确定候选热点新闻new3-new5为热点新闻。
本领域技术人员应能理解上述从候选热点新闻中确定热点新闻的方式仅为举例,其他现有的或今后可能出现的从候选热点新闻中确定热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本领域技术人员应当理解,在具体实施例中,本发明还可将所述访问特征信息、所述时效特征信息和所述热点等级信息三者结合起来确定候选热点新闻是否为热点新闻。
优选地,该方法还包括步骤S3(未示出)。具体地,在步骤S3中,热点确定设备1根据所述候选热点新闻在相关新闻源中被发布的发布操作量信息,确定所述热点等级信息。
在此,所述相关新闻源是指不同于所述目标新闻源的其他新闻源。在此,所述发布操作量信息是指所述候选热点新闻在相关新闻源中被发布的总次数、发布/更新频率等信息。在具体实施例中,所述热点等级信息可与所述发布操作量信息具有一定对应关系,如热点等级为I级的新闻具有某范围的发布操作量信息。本领域技术人员应能理解上述发布操作量信息仅为举例,其他现有的或今后可能出现的发布操作量信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,对于候选热点新闻new2和new3,假设候选热点新闻new2在相关新闻源中被发布的总次数为100次,而候选热点新闻new3在相关新闻源中被发布的总次数为30次,热点等级为I级的新闻对应的在相关新闻源中被发布的总次数为[50,+∞),而热点等级为II级的新闻对应的在相关新闻源中被发布的总次数为[20,50),则在步骤S3中,热点确定设备1可确定候选热点新闻new2和new3的热点等级信息分别为I级和II级。
本领域技术人员应能理解上述确定所述热点等级信息的方式仅为举例,其他现有的或今后可能出现的确定所述热点等级信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明实现了热点新闻的自动化挖掘,提高了热点新闻的识别率,并降低了识别成本。
该方法的各个步骤之间是持续不断工作的。具体地,在步骤S1中,热点确定设备1持续确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;在步骤S2中,热点确定设备1持续根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。在此,本领域技术人员应理解,所述“持续”是指该方法的各步骤之间分别不断地进行候选热点新闻的确定、热点新闻的确定,直至热点确定设备1在较长时间内停止确定所述候选热点新闻。
优选地,热点确定设备1还包括步骤S4(未示出)。具体地,在步骤S4中,热点确定设备1根据从多个新闻源中确定的热点新闻,建立或更新热点新闻库,如按热点新闻的热点等级信息为顺序,将从多个新闻源中确定的热点信息进行排列。
在此,所述热点新闻库可用于当用户访问新闻网站或打开新闻app客户端时,将热点新闻库中的热点等级较高的新闻主动提供给用户,还可用于当用户查询热点新闻时,从该库中进行匹配查询,以提高向用户提供热点新闻的效率及所提供的热点新闻的准确度。
图4示出根据本发明一个优选实施例的一种用于确定目标新闻源中的热点新闻的方法流程图。
其中,该方法包括步骤S1’和步骤S2’,其中,步骤S1’包括步骤S11’和步骤S12’。具体地,在步骤S11’中,热点确定设备1确定目标新闻源中的热点新闻块;在步骤S12’中,热点确定设备1确定所述热点新闻块中的候选热点新闻,以作为所述目标新闻源中的候选热点新闻;在步骤S2’中,热点确定设备1根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。在此,本领域技术人员应当理解,步骤S2’与图3实施例中对应步骤的内容相同或基本相同,为简明起见,故在此不再赘述。
具体地,在步骤S11’中,热点确定设备1确定目标新闻源中的热点新闻块,如将目标新闻源中的指定块作为所述热点新闻块,或者,还可根据目标新闻源中的新闻块是否满足预定的热点块判断规则,确定该目标新闻源中的热点新闻块;其中,所述预定的热点块判断规则包括以下至少任一项:
-若所述新闻块包含预定热点块标识信息,则该新闻块属于热点新闻块;
-若所述新闻块属于指定的热点块,则该新闻块属于热点新闻块。
例如,对于目标新闻源如新闻网站news-page1,假设在步骤S11’中,热点确定设备1对该新闻网站进行页面分析,诸如根据页面的css或DOM树节点发现该网站中的新闻块news-module-1包含预定热点块标识信息,则在步骤S11’中,热点确定设备1确定新闻块news-module-1为新闻网站news-page1中的热点新闻块。在此,所述预定热点块标识信息用于标识新闻块是否属于热点新闻块,其可以是hot字符标识、!号标识等。在此,本领域技术人员应能理解上述热点块标识信息仅为举例,其他现有的或今后可能出现的热点块标识信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
再如,对于目标新闻源如新闻网站news-page1,假设该网站中的新闻块news-module-2属于指定的热点块,如是人工配置的热点块,则在步骤S11’中,热点确定设备1确定新闻块news-module-2为新闻网站news-page1中的热点新闻块。
本领域技术人员应能理解上述确定目标新闻源中的热点新闻块的方式仅为举例,其他现有的或今后可能出现的确定目标新闻源中的热点新闻块的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S12’中,热点确定设备1确定所述热点新闻块中的候选热点新闻,如将所述热点新闻块中的所有新闻均作为所述候选热点新闻,以作为所述目标新闻源中的候选热点新闻;或者,还可根据所述热点新闻块中新闻的热点特征信息,确定所述候选热点新闻。优选地,所述热点特征信息包括以下至少任一项:
-所述热点新闻块中新闻的标题样式信息;
-所述热点新闻块中新闻的热点标识信息。
在此,所述标题样式信息包含标题的字体大小、字体是否加粗、标题是否高亮显示等信息。
在此,所述热点标识信息用于标识新闻是否属于热点新闻,其可以是hot字符标识、!号标识、红色小方块等任何标识。
例如,对于目标新闻源如新闻网站news-page1,其热点新闻块为新闻块news-module-1,假设在步骤S12’中,热点确定设备1发现该热点新闻块中的新闻new1’和new2’的标题为高亮显示,或者,标题的字体是加粗的,或者,具有热点标识信息如hot标识等,则在步骤S12’中,热点确定设备1可确定新闻new1’和new2’为新闻块news-module-1中的候选热点新闻,从而得到目标新闻源如新闻网站news-page1的候选热点新闻。
本领域技术人员应能理解上述确定所述热点新闻块中的候选热点新闻的方式仅为举例,其他现有的或今后可能出现的确定所述热点新闻块中的候选热点新闻的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于确定目标新闻源中的热点新闻的方法,其中,该方法包括:
确定目标新闻源中的候选热点新闻,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;
根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻。
2.根据权利要求1所述的方法,其中,确定目标新闻源中的候选热点新闻包括:
-确定目标新闻源中的热点新闻块;
-确定所述热点新闻块中的候选热点新闻,以作为所述目标新闻源中的候选热点新闻。
3.根据权利要求2所述的方法,其中,确定目标新闻源中的热点新闻块包括:
-根据目标新闻源中的新闻块是否满足预定的热点块判断规则,确定该目标新闻源中的热点新闻块;
其中,所述预定的热点块判断规则包括以下至少任一项:
-若所述新闻块包含预定热点块标识信息,则该新闻块属于热点新闻块;
-若所述新闻块属于指定的热点块,则该新闻块属于热点新闻块。
4.根据权利要求2或3所述的方法,其中,确定所述热点新闻块中的候选热点新闻包括:
-根据所述热点新闻块中新闻的热点特征信息,确定所述候选热点新闻。
5.根据权利要求4所述的方法,其中,所述热点特征信息包括以下至少任一项:
-所述热点新闻块中新闻的标题样式信息;
-所述热点新闻块中新闻的热点标识信息。
6.根据权利要求1至5中任一项所述的方法,其中,从所述候选热点新闻中确定热点新闻包括:
-根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的时效特征信息,从所述候选热点新闻中确定热点新闻。
7.根据权利要求1至6中任一项所述的方法,其中,从所述候选热点新闻中确定热点新闻包括:
-根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的热点等级信息,从所述候选热点新闻中确定热点新闻。
8.根据权利要求7所述的方法,其中,该方法还包括:
-根据所述候选热点新闻在相关新闻源中被发布的发布操作量信息,确定所述热点等级信息。
9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括:
根据从多个新闻源中确定的热点新闻,建立或更新热点新闻库。
10.一种用于确定目标新闻源中的热点新闻的热点确定设备,其中,该热点确定设备包括:
用于确定目标新闻源中的候选热点新闻的装置,其中,所述候选热点新闻位于所述目标新闻源中的热点新闻块;
用于根据所述候选热点新闻的访问特征信息,从所述候选热点新闻中确定热点新闻的装置。
11.根据权利要求10所述的热点确定设备,其中,确定目标新闻源中的候选热点新闻的装置包括:
-用于确定目标新闻源中的热点新闻块的单元;
-用于确定所述热点新闻块中的候选热点新闻,以作为所述目标新闻源中的候选热点新闻的单元。
12.根据权利要求11所述的热点确定设备,其中,确定目标新闻源中的热点新闻块的单元用于:
-根据目标新闻源中的新闻块是否满足预定的热点块判断规则,确定该目标新闻源中的热点新闻块;
其中,所述预定的热点块判断规则包括以下至少任一项:
-若所述新闻块包含预定热点块标识信息,则该新闻块属于热点新闻块;
-若所述新闻块属于指定的热点块,则该新闻块属于热点新闻块。
13.根据权利要求11或12所述的热点确定设备,其中,确定所述热点新闻块中的候选热点新闻的单元用于:
-根据所述热点新闻块中新闻的热点特征信息,确定所述候选热点新闻。
14.根据权利要求13所述的热点确定设备,其中,所述热点特征信息包括以下至少任一项:
-所述热点新闻块中新闻的标题样式信息;
-所述热点新闻块中新闻的热点标识信息。
15.根据权利要求10至14中任一项所述的热点确定设备,其中,从所述候选热点新闻中确定热点新闻的装置用于:
-根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的时效特征信息,从所述候选热点新闻中确定热点新闻。
16.根据权利要求10至15中任一项所述的热点确定设备,其中,从所述候选热点新闻中确定热点新闻的装置用于:
-根据所述候选热点新闻的访问特征信息,结合所述候选热点新闻的热点等级信息,从所述候选热点新闻中确定热点新闻。
17.根据权利要求16所述的热点确定设备,其中,该热点确定设备还包括:
-用于根据所述候选热点新闻在相关新闻源中被发布的发布操作量信息,确定所述热点等级信息的装置。
18.根据权利要求10至17中任一项所述的热点确定设备,其中,该热点确定设备还包括:
用于根据从多个新闻源中确定的热点新闻,建立或更新热点新闻库的装置。
CN201510456929.XA 2015-07-29 2015-07-29 确定目标新闻源中的热点新闻的方法与设备 Pending CN105045890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510456929.XA CN105045890A (zh) 2015-07-29 2015-07-29 确定目标新闻源中的热点新闻的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510456929.XA CN105045890A (zh) 2015-07-29 2015-07-29 确定目标新闻源中的热点新闻的方法与设备

Publications (1)

Publication Number Publication Date
CN105045890A true CN105045890A (zh) 2015-11-11

Family

ID=54452437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510456929.XA Pending CN105045890A (zh) 2015-07-29 2015-07-29 确定目标新闻源中的热点新闻的方法与设备

Country Status (1)

Country Link
CN (1) CN105045890A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN108897774A (zh) * 2018-05-31 2018-11-27 腾讯科技(深圳)有限公司 一种获取新闻热点的方法、设备及存储介质
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及***
CN102436601A (zh) * 2011-11-09 2012-05-02 江苏联著实业有限公司 一种移动互联网新闻价值评判***
CN103020090A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种提供链接推荐的方法及装置
CN103164427A (zh) * 2011-12-13 2013-06-19 ***通信集团公司 新闻聚合方法及装置
CN103324637A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种热点信息挖掘方法和***
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索***及热点话题搜索方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及***
CN103020090A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种提供链接推荐的方法及装置
CN102436601A (zh) * 2011-11-09 2012-05-02 江苏联著实业有限公司 一种移动互联网新闻价值评判***
CN103164427A (zh) * 2011-12-13 2013-06-19 ***通信集团公司 新闻聚合方法及装置
CN103324637A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种热点信息挖掘方法和***
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索***及热点话题搜索方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN108897774A (zh) * 2018-05-31 2018-11-27 腾讯科技(深圳)有限公司 一种获取新闻热点的方法、设备及存储介质
US11308164B2 (en) 2018-09-17 2022-04-19 Yandex Europe Ag Method and system for generating push notifications related to digital news

Similar Documents

Publication Publication Date Title
EP2940557B1 (en) Method and device used for providing input candidate item corresponding to input character string
CN112597182B (zh) 数据查询语句的优化方法、装置、终端及存储介质
CN103699619A (zh) 一种用于提供搜索结果的方法及装置
CN102035883A (zh) 一种在网络设备中用于优化网页的方法和设备
CN104899220A (zh) 应用程序推荐方法和***
CN106991175B (zh) 一种客户信息挖掘方法、装置、设备以及存储介质
CN103838754A (zh) 信息搜索装置及方法
CN107908616B (zh) 预测趋势词的方法和装置
CN105045890A (zh) 确定目标新闻源中的热点新闻的方法与设备
CN105243058A (zh) 一种网页内容翻译方法及电子设备
CN104090904A (zh) 一种用于提供目标搜索结果的方法与设备
CN104361092A (zh) 搜索方法及装置
CN105302461A (zh) 一种用于在移动应用中提供目标页面的方法与设备
CN102402553B (zh) 一种用于对推广账户的运营质量进行分析的方法与设备
CN103136213A (zh) 一种提供相关词的方法及装置
CN113190741A (zh) 搜索方法、装置、电子设备及存储介质
CN106599246A (zh) 一种显示内容的拦截方法、移动终端及控制服务器
CN102541282A (zh) 利用图标移动对已完成词汇再编辑的方法、装置及***
CN102999576A (zh) 用于确定目标页面所对应的页面描述信息的方法和设备
CN104809207A (zh) 一种搜索方法及装置
CN107735785B (zh) 自动信息检索
CN107294905B (zh) 一种识别用户的方法及装置
CN103631796A (zh) 网址分类管理方法及电子装置
CN105224654A (zh) 一种网页浏览模式切换方法及电子设备
CN102982135A (zh) 一种用于提供呈现信息的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151111