CN103853822A - 一种在浏览器中推送新闻信息的方法和装置 - Google Patents

一种在浏览器中推送新闻信息的方法和装置 Download PDF

Info

Publication number
CN103853822A
CN103853822A CN201410062789.3A CN201410062789A CN103853822A CN 103853822 A CN103853822 A CN 103853822A CN 201410062789 A CN201410062789 A CN 201410062789A CN 103853822 A CN103853822 A CN 103853822A
Authority
CN
China
Prior art keywords
label
news information
information
webpage
active user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410062789.3A
Other languages
English (en)
Inventor
宁敢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410062789.3A priority Critical patent/CN103853822A/zh
Publication of CN103853822A publication Critical patent/CN103853822A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种在浏览器中推送新闻信息的方法和装置,所述方法包括:接收用户提交的加载网页的请求;在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;在所述加载的网页上生成第一展示窗口;在所述第一展示窗口显示所述主题信息。本发明可以根据网页的标签查找其他平台中关联的新闻信息进行推送,避免了单平台新闻信息的单一性和片面性,可以利用他人和集体的智慧,弥补了自身定义、自己人工的不足,大大减少了人工运营成本。

Description

一种在浏览器中推送新闻信息的方法和装置
技术领域
本发明涉及数据推送的技术领域,具体涉及一种在浏览器中推送新闻信息的方法和一种在浏览器中推送新闻信息的装置。
背景技术
为了提升用户粘度,许多网页平台都会推送一些新闻信息给用户。但是这些业务对象都是归属于当前平台的,具有很大的局限性。
以新闻信息为例,现有的新闻信息推送的模式主要有:当用户访问某个网页时,该网页归属的平台(即运行商)就会将该页面相关的新闻信息推送在当前网页的某个位置。
这种以当前平台为主的推送模式,推送的业务对象的形式单一、业务对象的覆盖率低、在推送的过程中没有考虑每个用户自身的情况,因此无法向每个用户提供匹配用户个性化需求的新闻信息,而不匹配用户需求的新闻信息往往会被用户当作垃圾信息或恶意行为进行拦截,十分影响用户的上网体验。
一方面,这些不匹配用户需求的新闻信息不仅占用了平台服务器的资源,而且还占用了浏览器的资源,造成不必要的资源占用与浪费。另一方面,用户需要获取自己感兴趣的新闻信息,会再次在搜索引擎中搜索业务对象,搜索引擎要再次进行海量信息的搜索、对比、筛选等获取相关的新闻信息的信息,不仅用户操作更加繁琐,耗费用户的时间,而且将大大增加搜索引擎的负担,耗费更多客户端与搜索引擎的资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种在浏览器中推送新闻信息的方法和相应的一种在浏览器中推送新闻信息的装置。
依据本发明的一个方面,提供了一种在浏览器中推送新闻信息的方法,包括:
接收用户提交的加载网页的请求;
在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
在所述加载的网页上生成第一展示窗口;
在所述第一展示窗口显示所述主题信息。
可选地,所述获取与所述网页对应的新闻信息的步骤包括:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
可选地,所述提取所述网页的标签的步骤包括:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
可选地,所述提取所述网页的标签的步骤包括:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
可选地,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
可选地,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
可选地,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
可选地,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
可选地,所述新闻信息还包括内容信息;所述方法还包括:
当所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
在所述第二展示窗口展示所述内容信息。
可选地,还包括:
当所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
可选地,还包括:
建立当前用户标识与所述标签的关联关系;
将所述关联关系存储在所述标签数据库中;
统计当前用户标识针对所述标签的使用频率和/或使用量。
根据本发明的另一方面,提供了一种在浏览器中推送新闻信息的装置,包括:
请求接收模块,适于接收用户提交的加载网页的请求;
新闻信息获取模块,适于在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
第一展示窗口生成模块,适于在所述加载的网页上生成第一展示窗口;
第一新闻信息显示模块,适于在所述第一展示窗口显示所述主题信息。
可选地,所述新闻信息获取模块还适于:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
可选地,所述新闻信息获取模块还适于:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
可选地,所述新闻信息获取模块还适于:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
可选地,所述新闻信息获取模块还适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
可选地,所述新闻信息获取模块还适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
可选地,所述新闻信息获取模块还适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
可选地,所述新闻信息获取模块还适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
可选地,所述新闻信息还包括内容信息;所述装置还包括:
第二展示窗口生成模块,适于在所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
第二新闻信息显示模块,适于在所述第二展示窗口展示所述内容信息。
可选地,还包括:
网页加载模块,适于在所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
可选地,还包括:
关联关系建立模块,适于建立当前用户标识与所述标签的关联关系;
存储模块,适于将所述关联关系存储在所述标签数据库中;
统计模块,适于统计当前用户标识针对所述标签的使用频率和/或使用量。
本发明可以根据网页的标签查找其他平台中关联的新闻信息进行推送,避免了单平台新闻信息的单一性和片面性,可以利用他人和集体的智慧,弥补了自身定义、自己人工的不足,大大减少了人工运营成本。同时,找到的新闻信息,可以包括新、奇、特等各种新闻信息,更好的提升了新闻信息的覆盖率和满足用户的需求,实用性强。进一步地,新闻信息与当前用户标识关联,更能反映用户个性化兴趣爱好,以此推送新闻信息提高了用户兴趣爱好和新闻信息的匹配率,从而可以提高推送新闻信息的成功率。用户获得自己感兴趣的新闻信息,无需再手动搜索信息并进行过滤,减少了获取感兴趣信息的搜索、对比、筛选等操作步骤,提高了用户获取感兴趣信息的效率,同时,由于用户的操作步骤减少了,浏览器和服务器的资源耗费也降低了。
本发明可以按照标签的使用频率获取关联的新闻信息,可以充分发挥时效性,适应网络环境的变化对当前用户造成的影响,进一步提高了新闻信息推送的准确性。
本发明可以按照标签的使用量获取关联的新闻信息,可以充分考虑用户的偏好,以适应不同用户的个性化需求,进一步提高了新闻信息推送的准确性。
本发明可以按照标签关联的子标签获取关联的新闻信息,避免了新闻信息的空泛化,提高了新闻信息的覆盖率,进一步提高了新闻信息推送的准确性。
本发明可以在第一展示窗口展示主题信息时触发第二展示窗口,在第二展示窗口中可以展示内容信息,从主题信息到内容信息的阶梯级展示,不仅节约了浏览器资源的占用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种在浏览器中推送新闻信息的方法实施例1的步骤流程图;
图2示出了根据本发明一个实施例的一种网页结构示例图;
图3示出了根据本发明一个实施例的一种在浏览器中推送新闻信息的方法实施例2的步骤流程图;以及
图4示出了根据本发明一个实施例的一种在浏览器中推送新闻信息的装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种新闻信息的推送方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,接收用户提交的加载网页的请求;
网页的加载请求可以是指用户发出的加载某个网页的指示。例如,用户可以通过点击某链接来打开一个网页,或者在地址栏输入网址来打开一个网页等等。当用户点击某链接时,就相当于接收到了加载网页的请求;同样,当在地址栏输入某网址并点击确定按钮或按下回车键时,也相当于接收到了加载网页的请求。
步骤102,在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息可以包括主题信息;
主题信息可以集中体现对获取的新闻信息的认识、理解和评价,可以为文字、图片、flash等多种形式。
在本发明的一种优选实施例中,所述网页可以为新闻网页,所述步骤102具体可以包括如下子步骤:
子步骤S110,获取所述新闻网页中的新闻信息;所述新闻信息包括所述新闻网页的简要内容。
应用本发明实施例,可以预先对新闻网页进行采集,然后通过人工或者预设规则进行简要内容的提取。
具体实现中,由于网络问题而使得新闻网页加载过慢,或者,新闻网页的内容过于繁杂,本发明实施例中,可以获取该新闻网页的简要信息并进行显示,帮助用户进行新闻网页的阅读,方便用户操作。
在本发明的一种优选实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S210,接收服务器发送的新闻信息;所述新闻信息为所述服务器在监测到自然灾害信息发布平台发布的自然灾害信息,和/或,新闻发布平台发布的重大事件信息时,提取所述自然灾害信息和/或所述重大事件信息所生成的新闻信息;
或者,
子步骤S220,监测到自然灾害信息发布平台发布的自然灾害信息,和/或,新闻发布平台发布的重大事件信息时,获取所述自然灾害信息和/或所述重大事件信息生成新闻信息。
在本发明实施例中,可以在服务器侧,也可以在浏览器侧监测自然灾害信息发布(例如地震局的网站、气象局的网站等等)和/或新闻发布平台(例如***的网站等等),当发布自然灾害信息和/或重大事件信息时,在当前浏览器中进行显示。
浏览器是用户最常使用的网络工具,本发明实施例基于浏览器对自然灾害信息和/或重大事件信息进行显示,提高了自然灾害信息和/或重大事件信息的覆盖率,提高了用户的生命和财产的安全性。
在本发明的一种优选实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S310,提取所述网页的标签;网页的标签(tag)可以为一个或多个能够标识出网页主题的信息。
在本发明的一种优选实施例中,所述子步骤S310具体可以包括如下子步骤:
子步骤S11,提取所述网页的标题;
子步骤S12,对所述标题映射为分词;
子步骤S13,采用所述分词在预置的标签列表中进行匹配;
子步骤S14,当匹配成功时,采用匹配成功的分词作为标签。
在一种情形中,可以在网页的HTML(HyperText Markup Language,超文本标记语言)文本中的<head>字段中提取标题。<head>字段中包括标记符<head>和</head>,这两个标记符分别表示头部信息的开始和结尾。头部中包含的标记是页面的标题、序言、说明等内容,它本身不作为内容来显示,但影响网页显示的效果。
在另外一种情形中,对于新闻、用户的发贴等可以从网页中直接提取网页的标题。网页按照功能可以划分为多个区域,以某一个论坛(Bulletin Board System,BBS)的页面为例,如图2所示,该页面可以划分为导航块(1)、垃圾块(2、4)、翻页块(3)、标题块(5)、作者信息块(6)、发表日期块(7)、正文块(8)。其中,导航块可以位于网页页眉顶部,或者banner(网页的横幅广告)下部,用于指向网页的信息栏目。垃圾块可以为与网页主题相关度很低的页面元素所在的区域,例如“发帖”、“回复”等功能按钮。翻页块可以为指示翻页的区域。标题块可以为网页主题的标题(例如图2所示的“安全浏览器聚集黑色星期四”)所在的区域。作者信息块为记载该网页主题作者信息的区域。正文块为记载该网页主题正文的区域。
将标题映射为分词,即进行分词处理,具体可以采用最大匹配、词库、停止词等手段,映射为分词后,去除脏词、修饰词、宽泛词等,最后得到一个分词的集合。例如对于停止词,可以是一些常见的词,用于做分词找停止位的标准。比如,“的”、“我”、“你”等。
需要说明的是,将标题映射为分词时,可以进行归一化处理。例如可以将“中秋”、“月饼节”或者“八月十五”等表示中秋节的分词归一化为“中秋节”。
在本发明实施例中,标签列表可以为搜索引擎预先采集的能够标识出网页主题的信息所生成的列表。
当分词在标签列表中时,表示该分词可以能够标识出网页主题。例如图2所示的标题“安全浏览器聚集黑色星期四”中,“黑色星期四”可以作为该网页的标签。
在本发明的一种优选实施例中,所述子步骤S310具体可以包括如下子步骤:
子步骤S21,提取所述网页的URL;
子步骤S22,从所述网页的URL中提取根域名和/或子域名;
子步骤S23,采用所述根域名和/或子域名在预置的标签列表中进行匹配;
子步骤S24,当匹配成功时,在所述标签列表中提取对应的标签。
域名(Domain Name),是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位。具体可以包括根域名和子域名,例如,网页的地址为news.xxx.com/g/laliga,则对所述网页地址进行结构分析,则所述网页地址所属的子域名为sports.xxx.com,所述网页地址所属的根域名为xxx.com。
在本发明实施例中,标签列表可以为搜索引擎预先采集的能够标识出网页主题的信息所生成的列表,其中该信息可以与网页的根域名和/或子域名对应。
对于某些大型的门户网站,其信息分类一般是按照子域名划分的。例如,上述子域名sports.xxx.com可以为播放体育信息的频道,可以采用“体育”作为标签。又例如,对于sports.xxx.com/g/laliga可以为播放西班牙甲级足球联赛信息的频道,可以采用“西班牙甲级足球联赛”作为标签。
对于某些专题性的网站,整个网站都是围绕某个主题的。例如,为某个漫画而专门建立的网站,其主题为该漫画,根域名和子域名对应的标签可以为该漫画的名称。
子步骤S320,依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;
应用本发明实施例,标签数据库可以在预设的时间(例如每天早上6点)向服务器请求各个标签对应的新闻信息。
服务器也可以在预设的时间(例如每天早上6点)主动从标签数据库采集当前用户标识对应的标签,推送该标签对应的新闻信息至标签数据库。标签数据库为了保证用户的隐私权和知情权,在服务器得到授权后可以采集该标签数据库上的标签。具体地,可以先检查该标签数据库用户是否加入了指定计划,如果是,则确认该标签数据库用户对服务器端的标签采集进行了授权,服务器可以继续执行采集标签的流程,如果该标签数据库用户没有加入执行计划,则确认该标签数据库用户未对服务器端的标签采集进行授权,服务器端不可以获取该标签数据库上的标签。这样,在匹配到该标签时,就可以根据本地保存的网页相关信息向用户进行展现了
当然,为了避免对标签数据库存储空间造成过度的占用,可以仅针对部分标签进行对应的新闻信息的下载。例如,仅将使用频率高于预设的第一阈值或第二阈值、使用量为前M个或前N个的标签对应的新闻信息从服务器下载到本地进行保存,等等。
需要说明的是,新闻信息可以为服务器采集的多个不同平台的新闻信息。
用户标识可以为一个唯一能够标识出用户身份的信息。
在具体实现中,所述用户标识可以包括用户账号和/或终端标识。
在一种情形中,用户进行登录时,则可以采用登录的用户账号作为用户标识。
在另外一种情形中,用户未进行登录时,则可以采用终端标识作为用户标识,例如,终端的IP地址、COOKIE ID等等。
在本发明的一种优选实施例中,所述子步骤S320具体可以包括如下子步骤:
子步骤S31,在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
子步骤S32,当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
在本发明实施例中,标签数据库记载有用户标识、标签及标签的使用频率。其中,使用频率可以为在预设时间段(例如最近15天)的使用量与该时间段的比值。
例如标签数据库记载的示例如下表:
表1、标签数据库中的使用量及使用频率记录表
Figure BDA0000468921940000121
应用本发明实施例,在服务器侧,网络爬虫根据标签数据库中存储标签,抓取与新闻信息对应的网页数据,抓取后会对网页数据进行分析并拍照,形成该网页对应的数据快照。该数据快照中包含该标签,因此,将该数据快照作为该标签对应的查询结果,与该关键词一起关联存储在缓存数据库中。其中,数据快照具体用来存储网页的裸数据或html数据,采用数据快照进行存储的方式具有访问速度快、便于显示的优点。
具体存储时,为了方便查找,通过键值对(key-value)的方式存储,即,将标签作为key,将该标签对应的查询结果(即数据快照)作为value。或者,也对标签及该标签所属的分类进行加密运算,将得到的加密结果作为key,将该关键词对应的查询结果作为value。例如,假设标签为“枫叶”,其所属的分类为图片,加密运算为md5运算,则只需对“枫叶”和“图片”进行md5运算,将得到的运算结果作为key即可。键值对其实是指一种数据存储方式,该数据存储方式能够通过key-value的模式实现直接映射,具体实现时,按照redis结构将键值对存储在内存中即可。通过键值对的方式进行存储的存储速度快,且读取效率高。
服务器侧在接收到客户端发送的包含标签的新闻信息获取请求时,将获取请求分发到上述的缓存数据库中,并在上述的缓存数据库中按照预设的匹配规则查找与标签相匹配的关键词,以及该关键词对应的查询结果。
服务器侧在接收到包含标签的新闻信息获取请求后,需要在缓存数据库中查找与该标签相匹配的关键词。本实施例中在判断标签与关键词是否匹配时,是根据预设的匹配规则进行判断的。
其中,该预设的匹配规则是自然语言处理分析规则(简称NLP),或者,也是正则表达式规则,或者,也是二者的结合。其中,自然语言处理分析规则大致分为两个层面,一个是浅层分析,如分词,词性标注,通常只需对句子的局部范围进行分析处理;另一个层面是对语言进行深层的处理,需要对句子进行全局分析,在分析时通常对句法、语义以及语用这三个层次进行分析。正则表达式规则一般是通过一些具有特定含义的字符来表示匹配规则的,例如,字符“^”匹配一个输入或一行的开头,如“^a”匹配“an A”,而不匹配“An a”;字符“$”匹配一个输入或一行的结尾,如“a$”匹配“An a”,而不匹配“an A”;字符“*”匹配前面元字符0次或多次,如“ba*”将匹配“b”,“ba”,“baa”以及“baaa”等。通常情况下,自然语言处理分析规则主要用来解决同义词的问题,正则表达式规则主要用来处理长尾词。另外,还自定义一些匹配规则。例如,在本实施例中,预先定义“手机卫士”以及“手机卫士”都对应“360手机卫士”。通过匹配规则的设置,准确地确定与用户输入的搜索词相匹配的关键词,而且,当用户输入搜索词时有少许偏差,例如,搜索词中有一个错别字或丢掉了一个字,这时,根据自然语言处理分析规则,仍然确定出用户实际想要的关键词。
通俗地说,这种按照预设的匹配规则在缓存数据库中查找与该标签相匹配的关键词的实现方式,就相当于预先在缓存数据库中建立了一个“词池”(即以键值对方式存储的关键词的集合),该“词池”中预先存储了所有热门的关键词,这些关键词按照redis结构分类存储。当获取到获取请求中的标签之后,按照一定的模式识别方式(例如正则表达式匹配)在这个“词池”中查找与该标签匹配的关键词,并获取该关键词对应的查询结果。
通过上述匹配规则确定出与标签相匹配的关键词之后,进一步在缓存数据库中查找该关键词的查询结果。
服务器侧将查找到的与标签相匹配的关键词以及该关键词的查询结果发送给该客户端。
客户端接收到该关键词以及该关键词的查询结果后,将查询结果显示给用户。
通过上面的步骤就实现了本发明提供的用于对数据进行搜索的方法。可选地,由于某些类型的关键词的查询结果是与地域相关的,例如,对于“天气预报”这一关键词来说,北京的天气与深圳的天气通常是不同的,因此,“天气预报”这一关键词的查询结果就是与地域相关的,对于这样的关键词,在缓存数据库中存储对应的查询结果时,需要分别存储与各个地域相对应的查询结果,即:需要同时存储北京、深圳甚至其他地区的天气情况。相应地,当标签与地域相关时,例如,当标签为“天气”时,本实施例中的方法进一步包括:根据包含“天气”这一标签的获取请求中携带的IP地址来确定发送搜索请求的客户端所处的地域,然后,在缓存数据库中查找与该地域相对应的查询结果。例如,如果发送获取请求的客户端的IP地址显示为北京,则向该客户端返回的查询结果默认为北京的天气情况。通过判断客户端的IP地址,并提供与该IP地址相对应的查询结果,使查询结果更加符合用户的需求。
将获取请求分发到搜索服务器,获取搜索服务器从外部的数据来源服务器查找到的标签对应的查询结果。相应地,当在缓存数据库中按照预设的匹配规则查找到的与标签相匹配的关键词及其对应的查询结果的数量少于预设数量时,该方法进一步包括:将获取的搜索服务器的查询结果发送给客户端,其中,搜索服务器的查询结果用于作为缓存数据库的查询结果的补充。,每当获取到获取请求后,同时将该获取请求分发给搜索服务器,由该搜索服务器直接访问外部的数据来源服务器,得到查询结果,然后,对从缓存数据库中获取的查询结果以及搜索服务器中获取的查询结果进行合并,并根据需要选择是否采用自然搜索服务器的查询结果作为对缓存数据库中的查询结果的补充。例如,当从缓存数据库中获取的查询结果的数量少于预设数量时,将获取的搜索服务器的查询结果发送给客户端作为补充。举例来说,假设客户端的结果显示页面中通常在一页上显示10条查询结果,这样,如果从缓存数据库中获取的查询结果不足十个(例如查询结果小于10个,甚至查询结果为0),则需要从搜索服务器获取的查询结果中挑选一定数量的查询结果进行补充,具体挑选时,根据查询结果的相关度或热门度确定挑选顺序。通过这样的方式,由于搜索服务器从外部的数据来源服务器进行更广泛地搜索,因而既在通常情况下(即:缓存数据库缓存了用户要查找的词汇)为用户提供更加高效快捷的服务,又在特殊情况下(即:缓存数据库没有缓存用户要查找的词汇或缓存内容的数量不够丰富),实现更加全面地搜索,以满足用户多样化的搜索需求。
应用本发明实施例,可以在当前用户访问网页后,提取该网页的标签,进行标签的使用频率的统计。
如表1所示,当前用户对于标签“曼德拉”和“雾霾”的总使用量(可以是全部时间内的使用量,或者某个较长的预设时间段内的使用量)低,但是其使用频率高,可以反映出当前用户对于曼德拉逝世以及雾霾天气等时效性较强的信息的关注。
本发明可以按照标签的使用频率获取关联的新闻信息,可以充分发挥时效性,适应网络环境的变化对当前用户造成的影响,进一步提高了新闻信息推送的准确性。
在本发明的一种优选实施例中,所述子步骤S320具体可以包括如下子步骤:
子步骤S41,在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
子步骤S42,当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
在本发明实施例中,N为正整数,标签数据库记载有用户标识、标签及标签的使用量。其中,使用量可以是全部时间内的使用量,或者某个较长的预设时间段(比计算使用频率的预设时间段要长)内的使用量。
应用本发明实施例,可以在当前用户访问网页后,提取该网页的标签,进行标签的使用量的统计。
如表1所示,当前用户对于标签“军事”和“海贼王”的总使用量高,但是其使用频率较低,可以反映出当前用户对于军事信息、海贼王的动漫信息等的爱好。
本发明可以按照标签的使用量获取关联的新闻信息,可以充分考虑用户的偏好,以适应不同用户的个性化需求,进一步提高了新闻信息推送的准确性。
在本发明的一种优选实施例中,所述子步骤S320具体可以包括如下子步骤:
子步骤S51,查找所述标签关联的一个或多个子标签;
子步骤S52,在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
子步骤S53,当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
某些标签由于涉及范围广等原因,可以查找关联的子标签。例如,对于标签“手机”,可以查找关联子标签“小米”、“Iphone5S”、“三星”等。
需要说明的是,子标签是相对于关联的操作而言的,其实质也是标签。由于子步骤S52-S53与子步骤S31-S32的应用是基本相似的,相关之处可以参照子步骤S31-S32的部分说明即可,本发明实施例在此不加以详述。
本发明可以按照标签关联的子标签获取关联的新闻信息,避免了新闻信息的空泛化,提高了新闻信息的覆盖率,进一步提高了新闻信息推送的准确性。
在本发明的一种优选实施例中,所述子步骤S320具体可以包括如下子步骤:
子步骤S61,查找所述标签关联的一个或多个子标签;
子步骤S62,在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
子步骤S63,当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
需要说明的是,M为正整数,由于子步骤S61与子步骤S51的应用、子步骤S62-S63与子步骤S41-S42的应用是基本相似的,相关之处可以参照子步骤S51和子步骤S41-S42的部分说明即可,本发明实施例在此不加以详述。
步骤103,在所述加载的网页上生成第一展示窗口;
步骤104,在所述第一展示窗口展示所述主题信息。
在本发明实施例中,第一展示窗口可以根据主题信息的内容进行增大或缩小进行匹配。第一展示窗口可以以任意形式、在任意位置生成,本发明实施例对此不加以限制。
例如,对于标签“曼德拉”所获取的新闻信息的主题信息可以为“南非前总统曼德拉逝世(1918-2013)”。
在本发明的一种优选实施例中,所述新闻信息还可以包括内容信息,该内容信息可以为不同网页的摘要信息,则所述方法具体还可以包括如下步骤:
步骤105,当所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
步骤106,在所述第二展示窗口展示所述内容信息。
在具体实现中,可以在第一展示窗口嵌入控件,用户可以通过鼠标点击、hover悬停事件、指定的控件、指定的键盘按键等方式触发第一展示窗口,生成第二展示窗口。
在本发明实施例中,第二展示窗口可以根据内容信息的内容进行增大或缩小进行匹配。第二展示窗口可以以任意形式、在任意位置生成,可选地,第二展示窗口可以在第一展示窗口下生成进行关联显示,本发明实施例对此不加以限制。
例如,对于标签“曼德拉”所获取的新闻信息的内容信息可以为:
“91国出席追悼会
已有91个国家元首和政府领导人确认参加已故南非前总统曼德拉的官方追悼活动。详情>>”
在本发明的一种优选实施例中,所述的方法还可以包括如下步骤:
步骤107,当所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
在本发明实施例中,新闻信息可以包括URL(Uniform ResourceLocator,统一资源定位符)信息,在第二展示窗口的内容信息中嵌入对应的URL信息,当用户通过点击等方式触发时,向浏览器发起针对该URL信息的访问。
本发明可以在第一展示窗口展示主题信息时触发第二展示窗口,在第二展示窗口中可以展示内容信息,从主题信息到内容信息的阶梯级展示,不仅节约了浏览器资源的占用。
本发明可以根据网页的标签查找其他平台中关联的新闻信息进行推送,避免了单平台新闻信息的单一性和片面性,可以利用他人和集体的智慧,弥补了自身定义、自己人工的不足,大大减少了人工运营成本。同时,找到的新闻信息,可以包括新、奇、特等各种新闻信息,更好的提升了新闻信息的覆盖率和满足用户的需求,实用性强。进一步地,新闻信息与当前用户标识关联,更能反映用户个性化兴趣爱好,以此推送新闻信息提高了用户兴趣爱好和新闻信息的匹配率,从而可以提高推送新闻信息的成功率。用户获得自己感兴趣的新闻信息,无需再手动搜索信息并进行过滤,减少了获取感兴趣信息的搜索、对比、筛选等操作步骤,提高了用户获取感兴趣信息的效率,同时,由于用户的操作步骤减少了,浏览器和服务器的资源耗费也降低了。
参照图3,示出了根据本发明一个实施例的一种在浏览器中推送新闻信息的方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤301,接收用户提交的加载网页的请求;
步骤302,在加载所述请求对应的网页时,提取所述网页的标签;
步骤303,依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息;所述新闻信息包括主题信息;
步骤304,在所述加载的网页上生成第一展示窗口;
步骤305,在所述第一展示窗口显示所述主题信息;
步骤306,建立当前用户标识与所述标签的关联关系;
步骤307,将所述关联关系存储在所述标签数据库中;
步骤308,统计当前用户标识针对所述标签的使用频率和/或使用量。
在本发明实施例中,可以在当前用户访问网页,提取该网页的标签时,建立用户标识与标签的关联关系,其中关联关系可以包括使用标签的时间(即请求访问网页的时间,例如2013年12月10日)。
若该用户标识与该标签的关联关系已经存在于标签数据库中,则将当前关联关系存在对应的位置,若该用户标识与该标签的关联关系不存在于标签数据库中,则在标签数据库中新建一个位置存储该关联关系。
统计第一预设时间段和第二预设时间段内该标签的使用量,其中,第一预设时间段可以为全部的记录时间,或者较长的一段记录时间,第二时间段可以为近期较短的一段记录时间,第一预设时间段可以大于第二预设时间段。
将第一预设时间段内的使用量进行排序,标识出前M个和前N个(M和N可以相同,也可以不同)使用量最大的标签。
将第二预设时间段内的使用量除以第二预设时间段获得使用频率,标识出使用频率大于第一阈值和第二阈值(第一阈值和第二阈值可以相同,也可以不同)的标签。
需要说明的是,本发明实施例可以在空闲的时间段(例如没有其他任务)内进行使用量和/或使用频率的统计。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了根据本发明一个实施例的一种在浏览器中推送新闻信息的装置实施例的结构框图,具体可以包括如下模块:
请求接收模块401,适于接收用户提交的加载网页的请求时;
新闻信息获取模块402,适于在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
第一展示窗口生成模块403,适于在所述加载的网页上生成第一展示窗口;
第一新闻信息显示模块404,适于在所述第一展示窗口显示所述主题信息。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
在本发明的一种优选实施例中,所述网页为新闻网页,所述新闻信息获取模块402还可以适于:
获取所述新闻网页中的新闻信息;所述新闻信息包括所述新闻网页的简要内容。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
接收服务器发送的新闻信息;所述新闻信息为所述服务器在监测到自然灾害信息发布平台发布的自然灾害信息,和/或,新闻发布平台发布的重大事件信息时,提取所述自然灾害信息和/或所述重大事件信息所生成的新闻信息;
或者,
监测到自然灾害信息发布平台发布的自然灾害信息,和/或,新闻发布平台发布的重大事件信息时,获取所述自然灾害信息和/或所述重大事件信息生成新闻信息。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
在本发明的一种优选实施例中,所述标新闻信息获取模块402还可以适于:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
在本发明的一种优选实施例中,所述用户标识可以包括用户账号和/或终端标识。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
在本发明的一种优选实施例中,所述新闻信息获取模块402还可以适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
在本发明的一种优选实施例中,所述新闻信息还可以包括内容信息;所述装置还可以包括如下模块:
第二展示窗口生成模块,适于在所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
第二新闻信息显示模块,适于在所述第二展示窗口展示所述内容信息。
在本发明的一种优选实施例中,还可以包括如下模块:
网页加载模块,适于在所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
在本发明的一种优选实施例中,还可以包括如下模块:
关联关系建立模块,适于建立当前用户标识与所述标签的关联关系;
存储模块,适于将所述关联关系存储在所述标签数据库中;
统计模块,适于统计当前用户标识针对所述标签的使用频率和/或使用量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的在浏览器中推送新闻信息的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明的实施例公开了A1、一种在浏览器中推送新闻信息的方法,包括:
接收用户提交的加载网页的请求;
在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
在所述加载的网页上生成第一展示窗口;
在所述第一展示窗口显示所述主题信息。
A2、如A1所述的方法,所述获取与所述网页对应的新闻信息的步骤包括:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
A3、如A2所述的方法,所述提取所述网页的标签的步骤包括:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
A4、如A2所述的方法,所述提取所述网页的标签的步骤包括:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
A5、如A2所述的方法,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
A6、如A2所述的方法,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
A7、如A2所述的方法,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
A8、如A2所述的方法,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
A9、如A1至A8任一项所述的方法,所述新闻信息还包括内容信息;所述方法还包括:
当所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
在所述第二展示窗口展示所述内容信息。
A10、如A9所述的方法,还包括:
当所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
A11、如A2所述的方法,还包括:
建立当前用户标识与所述标签的关联关系;
将所述关联关系存储在所述标签数据库中;
统计当前用户标识针对所述标签的使用频率和/或使用量。
本发明的实施例还公开了B12、一种在浏览器中推送新闻信息的装置,包括:
请求接收模块,适于接收用户提交的加载网页的请求;
新闻信息获取模块,适于在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
第一展示窗口生成模块,适于在所述加载的网页上生成第一展示窗口;
第一新闻信息显示模块,适于在所述第一展示窗口显示所述主题信息。
B13、如B12所述的装置,所述新闻信息获取模块还适于:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
B14、如B13所述的装置,所述新闻信息获取模块还适于:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
B15、如B13所述的装置,所述新闻信息获取模块还适于:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
B16、如B13所述的装置,所述新闻信息获取模块还适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
B17、如B13所述的装置,所述新闻信息获取模块还适于:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
B18、如B13所述的装置,所述新闻信息获取模块还适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
B19、如B13所述的装置,所述新闻信息获取模块还适于:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
B20、如B12至B19任一项所述的装置,所述新闻信息还包括内容信息;所述装置还包括:
第二展示窗口生成模块,适于在所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
第二新闻信息显示模块,适于在所述第二展示窗口展示所述内容信息。
B21、如B22所述的装置,还包括:
网页加载模块,适于在所述第二展示窗口的内容信息被触发时,在所述浏览器中加载所述新闻信息对应的网页。
B32、如B13所述的装置,还包括:
关联关系建立模块,适于建立当前用户标识与所述标签的关联关系;
存储模块,适于将所述关联关系存储在所述标签数据库中;
统计模块,适于统计当前用户标识针对所述标签的使用频率和/或使用量。

Claims (10)

1.一种在浏览器中推送新闻信息的方法,包括:
接收用户提交的加载网页的请求;
在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
在所述加载的网页上生成第一展示窗口;
在所述第一展示窗口显示所述主题信息。
2.如权利要求1所述的方法,其特征在于,所述获取与所述网页对应的新闻信息的步骤包括:
提取所述网页的标签;
依据所述标签在预置的标签数据库中查找当前用户标识对应的新闻信息;其中,所述标签数据库包括当前用户标识的标签,以及,从服务获取的所述标签对应的新闻信息。
3.如权利要求2所述的方法,其特征在于,所述提取所述网页的标签的步骤包括:
提取所述网页的标题;
对所述标题映射为分词;
采用所述分词在预置的标签列表中进行匹配;
当匹配成功时,采用匹配成功的分词作为标签。
4.如权利要求2所述的方法,其特征在于,所述提取所述网页的标签的步骤包括:
提取所述网页的URL;
从所述网页的URL中提取根域名和/或子域名;
采用所述根域名和/或子域名在预置的标签列表中进行匹配;
当匹配成功时,在所述标签列表中提取对应的标签。
5.如权利要求2所述的方法,其特征在于,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第一阈值时,获取所述标签关联的新闻信息。
6.如权利要求2所述的方法,其特征在于,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
在预置的标签数据库中查询所述标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前N个使用量时,获取所述标签关联的新闻信息。
7.如权利要求2所述的方法,其特征在于,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用频率;
当所述使用频率大于预设的第二阈值时,获取所述子标签关联的新闻信息。
8.如权利要求2所述的方法,其特征在于,所述依据所述标签查找当前用户标识对应的新闻信息的步骤包括:
查找所述标签关联的一个或多个子标签;
在预置的标签数据库中查询所述子标签对应的当前用户标识的使用量;
当所述使用量为当前用户标识对应的最多的前M个使用量时,获取所述子标签关联的新闻信息。
9.如权利要求1至8任一项所述的方法,其特征在于,所述新闻信息还包括内容信息;所述方法还包括:
当所述第一展示窗口中的主题信息被触发时,在所述浏览器中生成与所述内容信息匹配的第二展示窗口;
在所述第二展示窗口展示所述内容信息。
10.一种在浏览器中推送新闻信息的装置,包括:
请求接收模块,适于接收用户提交的加载网页的请求;
新闻信息获取模块,适于在加载所述请求对应的网页时,获取与所述网页对应的新闻信息;所述新闻信息包括主题信息;
第一展示窗口生成模块,适于在所述加载的网页上生成第一展示窗口;
第一新闻信息显示模块,适于在所述第一展示窗口显示所述主题信息。
CN201410062789.3A 2014-02-24 2014-02-24 一种在浏览器中推送新闻信息的方法和装置 Pending CN103853822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410062789.3A CN103853822A (zh) 2014-02-24 2014-02-24 一种在浏览器中推送新闻信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410062789.3A CN103853822A (zh) 2014-02-24 2014-02-24 一种在浏览器中推送新闻信息的方法和装置

Publications (1)

Publication Number Publication Date
CN103853822A true CN103853822A (zh) 2014-06-11

Family

ID=50861477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410062789.3A Pending CN103853822A (zh) 2014-02-24 2014-02-24 一种在浏览器中推送新闻信息的方法和装置

Country Status (1)

Country Link
CN (1) CN103853822A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268295A (zh) * 2014-10-24 2015-01-07 迈普通信技术股份有限公司 一种数据查询方法及装置
CN104571813A (zh) * 2014-12-12 2015-04-29 百度在线网络技术(北京)有限公司 一种信息的显示方法及装置
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
CN105677857A (zh) * 2016-01-01 2016-06-15 广州筷子信息科技有限公司 一种关键词与营销落地页的精准匹配方法和装置
CN107222559A (zh) * 2017-06-30 2017-09-29 江西博瑞彤芸科技有限公司 信息调用方法
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN107911448A (zh) * 2017-11-14 2018-04-13 北京金山安全软件有限公司 一种内容推送方法及装置
CN108270765A (zh) * 2017-09-21 2018-07-10 广州市动景计算机科技有限公司 实时新闻信息播报方法、装置和终端
CN108491502A (zh) * 2018-03-21 2018-09-04 腾讯科技(深圳)有限公司 一种新闻追踪的方法、终端、服务器及存储介质
CN109002465A (zh) * 2017-06-06 2018-12-14 万事达卡国际公司 用于具有智能众包选项的对话输入设备的方法和***
CN109145218A (zh) * 2018-09-10 2019-01-04 北京点网聚科技有限公司 一种文章推荐方法及装置
CN109564570A (zh) * 2016-08-18 2019-04-02 电子湾有限公司 使用频繁模式挖掘的浏览节点创建
CN109582898A (zh) * 2018-10-25 2019-04-05 北京奇虎科技有限公司 一种新闻网页页面的生成方法及装置
CN112101022A (zh) * 2020-08-12 2020-12-18 新华智云科技有限公司 一种地震事件实体链接方法
CN112445967A (zh) * 2019-08-30 2021-03-05 腾讯科技(深圳)有限公司 信息推送的方法、装置、可读存储介质及信息推送***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256589A (zh) * 2008-03-31 2008-09-03 腾讯科技(深圳)有限公司 一种服务信息的推送方法及推送***
CN101847160A (zh) * 2010-05-19 2010-09-29 深圳市五巨科技有限公司 一种移动终端个性化页面推送方法和装置
CN102629273A (zh) * 2012-03-19 2012-08-08 奇智软件(北京)有限公司 基于浏览器的广告信息推送方法、装置及浏览器***
CN103327049A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 基于浏览器地址栏的富内容推送方法及***
CN103559265A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种手机客户端个性化推送方法
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256589A (zh) * 2008-03-31 2008-09-03 腾讯科技(深圳)有限公司 一种服务信息的推送方法及推送***
CN101847160A (zh) * 2010-05-19 2010-09-29 深圳市五巨科技有限公司 一种移动终端个性化页面推送方法和装置
CN102629273A (zh) * 2012-03-19 2012-08-08 奇智软件(北京)有限公司 基于浏览器的广告信息推送方法、装置及浏览器***
CN103327049A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 基于浏览器地址栏的富内容推送方法及***
CN103559265A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种手机客户端个性化推送方法
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268295A (zh) * 2014-10-24 2015-01-07 迈普通信技术股份有限公司 一种数据查询方法及装置
CN104571813B (zh) * 2014-12-12 2019-03-29 百度在线网络技术(北京)有限公司 一种信息的显示方法及装置
CN104571813A (zh) * 2014-12-12 2015-04-29 百度在线网络技术(北京)有限公司 一种信息的显示方法及装置
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
CN105468668B (zh) * 2015-10-13 2019-09-20 清华大学 一种官方媒体新闻中话题的推送方法及装置
CN105677857A (zh) * 2016-01-01 2016-06-15 广州筷子信息科技有限公司 一种关键词与营销落地页的精准匹配方法和装置
CN105677857B (zh) * 2016-01-01 2019-12-06 广州筷子信息科技有限公司 一种关键词与营销落地页的精准匹配方法和装置
CN107526744B (zh) * 2016-06-21 2022-11-18 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN109564570A (zh) * 2016-08-18 2019-04-02 电子湾有限公司 使用频繁模式挖掘的浏览节点创建
CN109002465B (zh) * 2017-06-06 2022-03-22 万事达卡国际公司 用于具有智能众包选项的对话输入设备的方法和***
CN109002465A (zh) * 2017-06-06 2018-12-14 万事达卡国际公司 用于具有智能众包选项的对话输入设备的方法和***
US11537644B2 (en) 2017-06-06 2022-12-27 Mastercard International Incorporated Method and system for conversational input device with intelligent crowd-sourced options
CN107222559B (zh) * 2017-06-30 2020-08-04 江西博瑞彤芸科技有限公司 信息调用方法
CN107222559A (zh) * 2017-06-30 2017-09-29 江西博瑞彤芸科技有限公司 信息调用方法
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN108270765A (zh) * 2017-09-21 2018-07-10 广州市动景计算机科技有限公司 实时新闻信息播报方法、装置和终端
CN107911448A (zh) * 2017-11-14 2018-04-13 北京金山安全软件有限公司 一种内容推送方法及装置
CN107911448B (zh) * 2017-11-14 2021-10-29 北京金山安全软件有限公司 一种内容推送方法及装置
CN108491502A (zh) * 2018-03-21 2018-09-04 腾讯科技(深圳)有限公司 一种新闻追踪的方法、终端、服务器及存储介质
CN109145218A (zh) * 2018-09-10 2019-01-04 北京点网聚科技有限公司 一种文章推荐方法及装置
CN109145218B (zh) * 2018-09-10 2021-11-02 北京一点网聚科技有限公司 一种文章推荐方法及装置
CN109582898A (zh) * 2018-10-25 2019-04-05 北京奇虎科技有限公司 一种新闻网页页面的生成方法及装置
CN112445967A (zh) * 2019-08-30 2021-03-05 腾讯科技(深圳)有限公司 信息推送的方法、装置、可读存储介质及信息推送***
CN112445967B (zh) * 2019-08-30 2023-09-26 腾讯科技(深圳)有限公司 信息推送的方法、装置、可读存储介质及信息推送***
CN112101022A (zh) * 2020-08-12 2020-12-18 新华智云科技有限公司 一种地震事件实体链接方法
CN112101022B (zh) * 2020-08-12 2024-02-20 新华智云科技有限公司 一种地震事件实体链接方法

Similar Documents

Publication Publication Date Title
CN103853822A (zh) 一种在浏览器中推送新闻信息的方法和装置
Rogers Digital methods
Nath et al. SmartAds: bringing contextual ads to mobile apps
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和***
CN104471582B (zh) 对搜索引擎跟踪的防御
CN102930054A (zh) 数据搜索方法及***
CN107103016A (zh) 基于关键词表示使图像与内容匹配的方法
CN102939601A (zh) 启动字体子集
CN102483745A (zh) 共同选择图像分类
Chyrun et al. Web Content Monitoring System Development.
CN102171689A (zh) 响应于搜索查询提供针对讨论话题的帖子
US20090171986A1 (en) Techniques for constructing sitemap or hierarchical organization of webpages of a website using decision trees
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN107766399A (zh) 用于使图像与内容项目匹配的方法和***及机器可读介质
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理***
US20090259649A1 (en) System and method for detecting templates of a website using hyperlink analysis
US20240211496A1 (en) Systems and Methods for Determining Entity Attribute Representations
Park SEO for an open access scholarly information system to improve user experience
US20150161116A1 (en) Searching based on audio and/or visual features of documents
CN103577566A (zh) 一种网页阅读内容加载方法和装置
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN103617390A (zh) 一种恶意网页判断方法、装置和***
US10698904B1 (en) Apparatus and method for acquiring, managing, sharing, monitoring, analyzing and publishing web-based time series data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140611

RJ01 Rejection of invention patent application after publication