CN101583945A - 提供虚拟的真正简单聚合(rss)订阅源 - Google Patents

提供虚拟的真正简单聚合(rss)订阅源 Download PDF

Info

Publication number
CN101583945A
CN101583945A CNA2007800497703A CN200780049770A CN101583945A CN 101583945 A CN101583945 A CN 101583945A CN A2007800497703 A CNA2007800497703 A CN A2007800497703A CN 200780049770 A CN200780049770 A CN 200780049770A CN 101583945 A CN101583945 A CN 101583945A
Authority
CN
China
Prior art keywords
rss
feed
key word
virtual
information subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800497703A
Other languages
English (en)
Inventor
K·T·法鲁吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101583945A publication Critical patent/CN101583945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种用于向作出请求的用户提供虚拟的RSS订阅源的***、方法和计算机可读介质。在一方面,该方法的一实施例可包括接收对一个或多个虚拟的真正简单聚合订阅源的搜索查询。该方法还包括将关键字与同虚拟的真正简单聚合订阅源相关联的关键字数据库进行比较。另外,该方法包括确定相关联的关键字中哪些与关键字匹配。此外,该方法包括提供对应于匹配关键字的相关联的虚拟的真正简单聚合订阅源。

Description

提供虚拟的真正简单聚合(RSS)订阅源
背景
当今,因特网上的许多内容发布者能够以真正简单聚合(RSS)订阅源的形式发布最近的文章或对文章的改变的列表。RSS订阅源可通过在因特网上访问所发布的URL来访问。RSS订阅源一般是包含由内容发布者发布的最近的文章和对文章的改变的XML文件。RSS订阅源的内容可包括例如,由内容发布者发布的关于各种感兴趣话题的一系列小片段(例如一个或两个段落)。片段可被称为“原子”。RSS订阅源的原子可包括例如,整篇文章或博客发表,或者它可包括文章或博客贴文的仅仅一部分。
通常,用户可去到RSS订阅源的URL并通过将该URL的链接复制到RSS阅读器中来取得该RSS订阅源。RSS阅读器可以是供用户使用的、在用户界面中一次性提供该用户所订阅的多个RSS订阅源的内容的有组织的视图的程序或网页。有了RSS阅读器,用户可去到单个网页或者可打开管理该用户所订阅的多个RSS订阅源的单个程序。RSS阅读器可具有与XML文件相关联的URL的列表,并且可周期性地去到XML文件的URL以阅读该XML文件并确定内容自它上一次检查该文件以来是否已改变。如果RSS阅读器确定内容已改变,则它知道存在新的文章并可显示该RSS订阅源的XML文件中所指定的新的文章/博客贴文或其子集。
当前RSS订阅源的问题在于它们不提供对用户感兴趣的特定话题的更新,而是给出由支持网站提供的可包括其他项信息的关于各种话题的更新资料。例如,用户可能对购买新蜂窝电话感兴趣并且可选择订阅各种科技网站的RSS订阅源以获取蜂窝电话行业中的最新信息。但可能向用户提供可能与蜂窝电话无关的大量信息,而不是仅提供关于蜂窝电话的信息。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
公开了一种用于提供虚拟RSS订阅源的***、方法和计算机可读介质。在一方面,该方法可包括从实际/物理RSS订阅源的XML文件创建虚拟RSS订阅源。虚拟RSS订阅源可通过从XML文件中提取信息子集,为每一个信息子集确定关键字、将关键字与每一个对应的信息子集相关联,以及将关键字和信息子集存储在数据库中来生成。一旦创建了虚拟RSS订阅源的数据库,该***就可响应来自用户的对虚拟RSS订阅源的搜索查询。
附图简述
以下将参考所附附图详细描述本发明的各说明性实施例,附图通过引用结合于此,并且其中:
图1是用于实现本发明的示例性网络环境的框图。
图2是用于实现本发明的一实施例的***的框图。
图3是用于提供虚拟RSS订阅源的示例性方法的流程图。
图4是用于提供虚拟RSS订阅源的示例性方法的另一流程图。
图5是用于提供虚拟RSS订阅源的示例性方法的又一流程图。
详细描述
如本领域技术人员可以理解地,本发明的各实施例可被特别具体化为:方法、***或计算机程序产品。因此,这些实施例可采用硬件实施例、软件实施例或者结合软件和硬件的实施例的形式。在一个实施例中,本发明采用包括其上包含计算机可使用指令的一个或多个计算机可读介质的计算机程序产品的形式。
计算机可读介质包括易失性和非易失性介质两者、可移动和不可移动介质,并构想可由数据库、交换机和各种其他网络设备读取的介质。网络交换机、路由器以及相关组件本质上是常规的,通信手段也相同。作为示例而非限制,计算机可读介质包括计算机存储介质和通信介质。
计算机存储介质或机器可读介质包括以用于存储信息的任何方法或技术来实现的介质。存储信息的示例包括计算机可使用指令、数据结构、程序模块以及其他数据表示。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)、全息介质或其它光盘存储、磁带盒、磁带、磁盘存储、以及其它磁存储设备。这些存储器组件可瞬间、临时或永久地存储数据。
通信介质通常将计算机可使用指令(包括数据结构和程序模块)存储在已调制数据信号中。术语“已调制数据信号”指的是设置或更改其一个或多个特征以在信号中编码信息的已传播信号。示例性已调制数据信号包括载波或其他传输机制。通信介质包括任何信息传递介质。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接连线连接,以及无线介质,诸如声学、红外线、无线电、微波、扩展频谱和其它无线介质技术。以上介质的组合被包括在计算机可读介质的范围内。
最初参考图1,示出了用于实现本发明的示例性网络环境的框图并将其笼统地指定为网络环境100。网络环境100只是合适的环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该把网络环境100解释为对所示出的任一元件或其组合有任何依赖性或要求。
本发明可以在计算机代码或机器可使用指令的一般上下文中描述,机器可使用指令包括由计算机或诸如个人数据助理或其它手持式设备等其它机器执行的诸如程序模块等的计算机可执行指令。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种***配置中实现,包括手持式设备、消费电子产品、通用计算机、专用计算设备、服务器等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。
网络环境100包括经由通信接口来耦合到网络104的客户机102。该通信接口可以是可允许客户机直接连接到任何其他设备或允许客户机102通过网络104来连接到设备的接口。网络104可包括,例如,局域网(LAN)、广域网(WAN)、或因特网(或万维网)。在一实施例中,客户机102可经由无线接口通过无线网络104来连接到另一设备。
一个或多个服务器经由网络104使用诸如超文本传输协议(HTTP)(一种因特网上常用的用于交换信息的协议)等协议来与客户机102进行通信。在所示实施例中,前端服务器106和后端服务器108(例如,web服务器或网络服务器)被耦合到网络104。客户机102使用网络104、前端服务器106和后端服务器108来访问存储在例如中央数据索引(索引)110中的网页数据。
本发明的各实施例通过准许响应于用户指定的搜索请求(例如,搜索查询)来向用户112显示搜索结果来提供对相关数据的搜索。在一个实施例中,用户112使用客户机102来输入搜索请求,该请求包括关于感兴趣的特定话题的一个或多个项,针对这些项该用户112想要标识相关电子文档(例如,网页)。例如,前端服务器106可响应客户机102以便认证用户112并将该来自用户112的请求重定向到后端服务器108。
后端服务器108可使用索引110来处理所提交的查询。以此方式,后端服务器108可取得可能与该用户相关的电子文档数据(即,搜索结果)。索引110包含关于诸如可经由因特网来获得的网页等电子文档的信息。此外,索引110可包括诸如位置(例如,链接或URL)、元标签、文本和文档类别等与电子文档相关联的各种其他数据。在图1的示例中,在散布搜索结果并经由客户机102向用户112显示所散布的搜索结果的上下文中描述网络。值得注意的是,尽管前端服务器106和后端服务器108被描述为不同的组件,但可以理解,单个服务器可执行两者的功能。
搜索引擎应用程序(应用程序)114由后端服务器108执行以便响应于从客户机102接收的搜索请求来标识网页等(即,电子文档)。更具体而言,应用程序114从索引110中标识对应于搜索请求中所包括的一个或多个项的相关文档,并选择将要经由客户机102来向用户112显示的最相关的网页。
图2是用于实现本发明的一实施例的***200的框图。***200可包括客户机202、搜索引擎204、RSS模块206、RSS存储218、广告数据库220和网络222。每一个设备202、204、206、218和220都可包括用于通过网络222来与一个或多个其他设备进行通信的通信接口。网络222可以与来自图1的网络104相同。
客户机202可以是或者可包括用于执行包括web浏览、搜索、电子邮件(email)和其他任务在内的各种任务、应用程序以及功能的台式或膝上型计算机、启用网络的蜂窝电话(具有或不具有媒体捕捉/回放能力)、无线电子邮件客户端或其他客户端、机器、或者设备。客户机202还可以是任何便携式媒体设备,诸如数码相机设备、数字摄像机(具有或不具有静止图像捕捉功能)、诸如个人音乐播放器和个人视频播放器等媒体播放器、以及任何其他便携式媒体设备。客户机202还可以是或者可包括诸如工作站等运行微软MacOSTM、UnixTM、Linux、XenixTM、IBM AIXTM、惠普UXTM、Novell NetwareTM、Sun微***SolarisTM、OS/2TM、BeOSTM、MachTM、ApacheTM、OpenStepTM或其他操作***或平台的服务器。
搜索引擎204、RSS模块206、RSS存储218和广告数据库220可以是或者可包括诸如工作站等运行微软
Figure A20078004977000102
MacOSTM、UnixTM、Linux、XenixTM、IBM AIXTM、惠普UXTM、Novell NetwareTM、Sun微***SolarisTM、OS/2TM、BeOSTM、MachTM、ApacheTM、OpenStepTM或其他操作***或平台的服务器。搜索引擎204可包括来自图1的组件106、108、110和114。在一实施例中,搜索引擎204不包括前端服务器106。在一实施例中,管理搜索引擎204的实体与管理RSS模块206、RSS存储218和广告数据库220的实体是同一个实体。在这一实施例中,RSS模块206、RSS存储218和广告数据库220中的一个或多个可位于搜索引擎204中。在另一实施例中,RSS模块206、RSS存储218和广告数据库220中的一个或多个可在处于搜索引擎204的外部的同时相互集成。搜索引擎204还可包括可用于生成用户界面(UI)的RSS阅读器应用程序224,该用户界面(UI)供用户提供该搜索引擎的RSS订阅源,或供管理该搜索引擎的实体进行管理。
RSS存储218是用于存储与由搜索引擎204管理的RSS订阅源相关的内容的数据库。在一实施例中,RSS存储218可以是存储RSS订阅源的XML文件内容的本地副本的高速缓存。RSS存储218可例如以类似于散列表的方式来配置。在这一示例中,RSS存储的散列关键码可以是特定RSS订阅源的URL并且存储在散列表中的数据可包括RSS订阅源的经更新内容和新内容。
在一实施例中,在创建RSS存储218时,搜索引擎204可使用一个或多个web爬行器来在最初定位整个web上的订阅源。在这一实施例中,web爬行器可检查在web上找到的大量链接以确定这些链接中的任一个是否指向实际上是具有揭示RSS订阅源的首部的XML文件的网页。一旦web爬行器定位这些XML文件,该web爬行器就可将这些XML文件及其URL转发到RSS模块206以供处理以便被存储在RSS存储218中。在创建RSS存储218的另一实施例中,搜索引擎可基于用户请求来将RSS订阅源添加到RSS存储218。例如,用户可利用搜索引擎的RSS阅读器224通过向搜索引擎204提供感兴趣的特定RSS订阅源的URL来将该用户想要该搜索引擎管理的一个或多个RSS订阅源通知给该搜索引擎。一旦搜索引擎204具有所需RSS订阅源的URL,该搜索引擎204就可将这些URL和对应的XML文件转发到RSS模块206以供在存储到RSS存储218中之前进行处理。
RSS模块206可被配置成接收与由搜索引擎204聚集的RSS订阅源相关的内容。在一实施例中,这些内容可包括RSS订阅源的URL和XML文件。本发明的目标是提供更贴合用户需求或感兴趣话题的RSS订阅源。在实现该目标时,本发明从实际RSS订阅源中创建为用户感兴趣的特定话题定制的动态创建的虚拟RSS订阅源。
为了创建这些虚拟RSS订阅源,将实际RSS订阅源的XML文件中的内容分成一个或多个较小的信息集。每一个单独的、较小的信息集被称为“原子”。原子可以是来自XML文件中的博客贴文或文章的信息的子集。例如,原子可以是来自一篇文章中的几行。在其他实施例中,原子可以是对相关视频或音频的引用。在又一实施例中,原子也可以是整篇博客贴文或文章。RSS模块206可使用原子提取组件208来从RSS订阅源的XML文件中提取原子。一旦从RSS订阅源的XML文件中提取出原子,就可将该原子存储在RSS存储218中。
关于每一个原子的核心元数据也可与原子一起存储在RSS存储218中。核心元数据可用于在排序应用程序中确定原子的相关性。这一核心元数据可包括但不限于,原子所属的RSS订阅源、原子何时被创建或存储在RSS存储218中的时间戳、访问过该原子的用户数量、用户花费在查看该原子上的平均时间量、点击过与该原子相关联的链接的人数、以及用户给予该原子的评级。
继续实现提供更贴合用户可能感兴趣的话题的虚拟RSS订阅源的目标,还使关键字相关联并将其与每一个原子一起存储在RSS存储218中。关键字可用于标识原子内容与其相关的特定话题/观点/主题。例如,如果一特定原子是关于即将进入市场的新蜂窝电话的,则可与该原子相关联的某些关键字可以是“GSM”、“移动电话”和“即将到来”。RSS模块206可采用关键字模块210来将关键字与将被存储在RSS存储218中的原子相关联。
关键字模块210可使用用于生成与原子相关联的关键字的若干技术。在第一技术中,关键字模块可被配置成提取由XML文件的作者所提供的关键字。在这一技术中,内容作者可在其RSS订阅源的XML文件的首部中提供他们相信是相关的关键字。关键字模块210然后可被配置成检查这些XML文件的首部,提取所提供的关键字并将这些关键字与对应的原子相关联。
在另一技术中,关键字模块210可使用一种或多种关键字提取算法来从原子中提取相关关键字。存在当前在web搜索技术中使用的若干已知关键字提取算法。这些已知算法可由关键字模块210用来提取关键字并将其与对应的原子相关联。
在又一技术中,本发明可被配置成允许用户提交他们相信是与特定原子相关的关键字。例如,RSS阅读器224可被配置成在用户的客户机设备上向用户呈现包括自由形式的文本框的UI。用户可提交该自由形式的文本框中的所建议的关键字。这些建议的关键字可被发送到关键字模块210以便与原子相关联并与其一起存储在RSS存储218中。关键字模块210可被配置成在将关键字与原子相关联之前需要最少N个唯一的最终用户提议相同的关键字。可利用反垃圾信息(Anti-spamming)模块214来帮助确保***不会因欺诈性关键字提交而陷入垃圾信息中。反垃圾信息模块214可采用诸如但不限于,IP地址检测以及要求用户登录并在被授权提交所建议的关键字之前进行自我认证的机制等技术。一旦关键字模块210获得有效关键字,它就可将这些关键字与对应的原子相关联。在一实施例中,关键字模块210可使用以上提到的关键字判定技术中的一种或多种的组合来为每一个原子生成关键字。
有时用户可能不知道如何定位向该用户提供感兴趣信息的RSS订阅源。在这些情况下,本发明可被配置成允许用户提交包括对应于感兴趣话题的关键字的、对与其兴趣相关的虚拟RSS订阅源的搜索查询。在一实施例中,用户可在由RSS阅读器224生成的客户机侧UI中提交搜索查询。在响应该搜索查询时,搜索引擎204可采用RSS模块206基于该搜索查询的关键字来定位RSS存储218中包括原子和与原子存储在一起的其他信息的虚拟RSS订阅源。RSS模块可利用关键字模块210来将搜索查询中的关键字与相关联原子的关键字进行比较以找出紧密地匹配用户请求的原子。关键字被认为是匹配所必须具有的相似性程度可使用如由***管理员或开发者确定的算法来确定。
一旦生成匹配原子的列表,关键字模块210就可将该列表发送到排序组件212以便在将该列表发送给用户之前按相关性次序来对这些匹配原子进行排序。排序组件212可使用用于对原子进行排序的若干技术。在第一技术中,排序组件212可使用来自先前已对原子进行评级的用户所接收到的显式评级提交的信息。例如,在用户通过RSS阅读器224的UI来查看特定原子时,该RSS阅读器可在该UI中展示允许该用户显式地陈述其对该原子的感受的区域。在一个示例中,可存在允许用户挑选表示该用户对原子的满意度水平的数字的标号的评定标度。在另一示例中,可存在用户可选择的、定义其对原子的满意度水平的一组预定义回答。例如,用户能够选择以下各项中的一个作为显式评级:“极其满意”、“比较满意”和“不满意”。在又一示例中,可以向用户呈现允许该用户自由地键入其对原子的看法的自由形式的文本框。也可采用反垃圾信息模块214来反对用户的欺诈性提交以进行保护。这些显式评级提交可以与每一个对应的原子相关联并与其一起存储在RSS存储218中,并可由排序组件212在其必须对一组原子进行排序时取得。
在另一技术中,排序组件212可基于来自先前已查看过原子的用户的隐式评级提交来对原子进行排序。隐式评级可包括在用户查看原子时获取的信息而不必使得用户显式地陈述其对原子的感受。例如,这些隐式评级提交可包括访问过该原子的用户数量、用户花费在查看该原子上的平均时间量以及点击过与该原子相关联的链接的人数。这些隐式评级提交可以与每一个对应的原子相关联并与其一起存储在RSS存储218中,并可由排序组件212在其必须对一组原子进行排序时取得。
在又一技术中,排序组件212可基于网页排名来对原子进行排序。网页排名详述了链接到特定原子或该原子的实际/物理RSS订阅源的其他源(网页/网站)的数量。搜索引擎204可使用例如web爬行器来确定链接到原子或原子的实际/物理RSS订阅源的源的数量。网页排名可以与每一个对应的原子相关联并与其一起存储在RSS存储218中,并可由排序组件212在其必须对一组原子进行排序时取得。在一实施例中,排序组件212可使用以上提到的各排序技术的组合来对原子进行排序。
本发明解决的另一方面是RSS阅读器UI中的有效广告以及对导出虚拟RSS订阅源的实际/物理RSS订阅源的内容提供者的适当支付。当前,可存在显示在内容提供者的网站上的若干广告,当用户点击这些广告时可以为内容提供者产生收入。然而,可能存在虚拟RSS订阅源可能由于提供丰富的体验而无需用户去到内容提供者的实际网站而变得非常有吸引力的问题。如果这是真的,则内容提供者可能由于其网站上的未使用广告而损失一大笔收入。这可能导致内容提供者避免在其RSS订阅源中发布文章的全部内容而同时将大部分内容留在其自己的网站上。例如,内容提供者可将可以是当天最新新闻信息中的两段的文章放在其网站上。然而,他们发布在RSS订阅源中的信息可能仅包括该文章的前两行而不是完整的两段。内容提供者可以这么做,并希望前几行引起读者的注意并将说服读者点击到该内容提供者的网站的链接,这样就有了该用户将点击该网站上的他们的广告中的一个的可能性和希望。如果越来越多的内容提供者为了广告而将业务量驱动回他们自己的网页,则存在极大地降低RSS阅读器和虚拟RSS订阅源的价值的风险。
本发明提供了用于通过允许内容提供者向其RSS订阅源的XML文件中所包括的当前标准字段集添加扩展来解决该潜在问题的方法。本发明允许内容提供者提供关于他们想要如何获得通过用户在与内容提供者的实际/物理RSS订阅源相关的虚拟RSS订阅源与显示在RSS阅读器的UI中的广告一起显示时访问这些广告而产生的收入分成的支付的信息。这一支付信息可被包括在其RSS订阅源的XML文件的首部中。例如,在向用户提供虚拟RSS订阅源的原子时,广告模块216可被配置成在广告数据库220中搜索与所提供原子相关的广告。在一实施例中,相关广告可通过将先前由关键字模块210生成的关联于原子的关键字与关联于广告并同其一起存储在广告数据库220中的关键字进行比较来确定。广告模块216可在广告数据库中搜索与原子的关键字紧密匹配的关键字并可在UI中将对应的广告与原子一起提供给用户。关键字被认为是匹配所必须具有的相似性程度可使用如由***管理员或开发者确定的算法来确定。在另一实施例中,与原子一起显示的广告的类型可由管理员或开发者而并非基于关键字来预定。在任一实施例中,搜索引擎204或RSS模块206可监视用户在特定原子被显示在RSS阅读器224的UI中时点击广告的次数并将其存储在存储器中。可将该数字输入到用于确定内容提供者对广告所产生的收入的货币分成的算法中。一旦确定了金额,管理搜索引擎的实体就可以按内容提供者在其RSS订阅源的XML文件的首部中所陈述的方式将付款发送到该内容提供者。
使用了该方法,内容提供者不应感到需要隐藏新文章或已更新文章的重要信息或大部分信息以为了用户将点击其网页上的广告链接的希望而尝试说服用户来到其网站。相反,内容提供者应当友善并提供其所有信息,并且满足于用户可能阅读整篇文章而从不去该内容提供者的网站,因为内容提供者在用户点击RSS阅读器中的广告的情况下仍将得到收入分成。另外,内容提供者现在将具有在其RSS订阅源中发布尽可能相关且引人注目的内容的另一动机。这一动机可以是使得用户将花费更多的时间阅读其订阅源,这可使其订阅源能够由于由排序组件212用来对虚拟RSS订阅源进行排序的显式和隐式评级提交而比其他订阅源排名更高。通过保持更多的人参与订阅源,这进而可通过增加用户将点击与虚拟RSS订阅源一起显示的广告的机会来帮助产生甚至更多的收入。
图3是用于提供虚拟RSS订阅源的示例性方法的框图300。在操作302,确定RSS订阅源的XML文件中存在新内容。该新内容可包括在先前检查文件时未存在于该XML文件中的信息。该新内容可使用搜索引擎的web爬行器来确定。在操作304,标识XML文件中的信息子集。该信息子集可以是例如,信息原子。在操作306,为每一个信息子集确定一个或多个关键字。可使用关键字模块来使用先前所讨论的内容提供者关键字提交、算法关键字提取或者用户关键字提交技术来确定关键字。在操作308,将所确定的关键字与信息子集相关联。在操作310,基于一个或多个排序因素来对信息子集进行排序。信息子集可由例如排序组件212来进行排序。排序因素可包括以上所讨论的显式评级提交、隐式评级提交和网页排名中的一个或多个。在操作312,在RSS阅读器的UI中将经排序的信息子集作为虚拟RSS订阅源提供给用户。
图4是用于提供虚拟RSS订阅源的示例性方法400的另一流程图。图4另外描述了一种用于提供虚拟RSS订阅源的方法,其中用户提供他/她想要予以监视的实际/物理RSS订阅源。在操作402,接收监视与由内容提供者发布在因特网上的内容相关的感兴趣的特定话题以及XML文件的请求。该请求可包括与感兴趣话题相关的文本以及与XML文件的位置相关的URL。在操作404,确定XML文件内容中的改变。该改变可包括XML文件中的新信息或已更新信息并且可使用搜索引擎的web爬行器来确定。在操作406,从与XML文件相关的信息子集确定关键字。信息子集可以是原子。可使用关键字模块来使用先前所讨论的内容提供者关键字提交、算法关键字提取或者用户关键字提交技术来确定关键字。在操作408,将关键字与感兴趣话题进行比较以确定与该感兴趣话题相关的信息子集。例如,可使用关键字模块来使用关键字提取算法来从接收到的感兴趣话题中提取关键字。一旦已从感兴趣话题中提取出关键字,就可将其与信息子集的关键字进行比较以找出互相匹配的关键字。关键字被认为是匹配所必须具有的相似性程度可使用如由***管理员或开发者确定的算法来确定。在操作410,在RSS阅读器的UI中将匹配的信息子集作为虚拟RSS订阅源提供给用户。
图5是用于提供虚拟RSS订阅源的方法500的又一流程图。图5另外描述了一种用于向可能不知道什么虚拟RSS订阅源将最符合其需求的用户提供虚拟RSS订阅源的方法。在操作502,接收对一个或多个虚拟RSS订阅源的请求。该请求可包括对应于用户感兴趣的话题的一个或多个关键字,并且可在RSS阅读器的UI中接收。在操作504,将搜索查询的关键字与同多个虚拟RSS订阅源相关联的关键字数据库进行比较。关键字可使用RSS模块的关键字模块来进行比较。在操作506,确定数据库中的哪些关键字匹配搜索查询中的关键字。关键字被认为是匹配所必须具有的相似性程度可使用如由***管理员或开发者确定的算法来确定。在操作508,在RSS阅读器的UI中提供对应于匹配关键字的相关联的虚拟RSS订阅源。
虽然已在此详细示出并描述了本发明的具体实施例,但应该理解,可对本发明做出各种改变和修改而不背离本发明的范围和意图。此处所描述的实施例在所有方面都旨在是说明性而非限制性的。没有背离本发明范围情况下的本发明的各替换实施例对本领域技术人员将变得显而易见。
从前述内容可知,本发明很好地适用于实现前述的所有目的和目标,并且具有对于该***和方式是显而易见的和固有的其他优点。可以理解,特定的特征和子组合是有用的,并且可以使用而无需参考其他特征和子组合并且被认为在权利要求书的范围之内。这是可构想的并且在所附权利要求的范围内。

Claims (20)

1.一种用于提供虚拟的真正简单聚合订阅源的方法,包括:
确定由内容提供者发布在因特网(104、222)上的至少一个XML文件中存在新内容(302),其中所述新内容包括在先前检查所述至少一个XML文件时未存在于所述至少一个XML文件中的信息;
标识所述至少一个XML文件中的至少一个信息子集(304);
基于一种或多种关键字计算技术来为所述至少一个信息子集确定一个或多个关键字(306);
将所述一个或多个关键字与所述至少一个信息子集相关联(308);
基于一个或多个排序因素来对所述至少一个信息子集进行排序(212)(310);以及
提供至少一个经排序的信息子集(312)。
2.如权利要求1所述的方法,其特征在于,还包括将搜索查询中的至少一个关键字与所述一个或多个关键字进行比较以标识供响应所述搜索查询的对应信息子集。
3.如权利要求1所述的方法,其特征在于,所述一种或多种关键字计算技术包括内容提供者关键字提交、算法关键字提取以及用户关键字提交中的至少一种。
4.如权利要求1所述的方法,其特征在于,所述一个或多个排序因素包括显式评级提交、隐式评级提交以及网页排名中的至少一个。
5.如权利要求1所述的方法,其特征在于,还包括将一个或多个广告与所述至少一个经排序的信息子集一起提供。
6.如权利要求5所述的方法,其特征在于,还包括检查所述至少一个XML文件的首部以确定一种向所述内容提供者付费的方法。
7.如权利要求6所述的方法,其特征在于,所述付费基于用户访问所述一个或多个广告的次数。
8.一种用于提供虚拟的真正简单聚合订阅源的方法,包括:
接收监视对于与由一个或多个内容提供者发布的内容相关的一个或多个XML文件的至少一个指定感兴趣话题的请求(402);
确定所述一个或多个XML文件中的内容中的改变(404);
从与所述一个或多个XML文件中的每一个相关联的至少一个信息子集确定一个或多个关键字(406);
确定与所述感兴趣话题相关的至少一个匹配的信息子集(408);以及提供所述至少一个匹配的信息子集(410)。
9.如权利要求8所述的方法,其特征在于,至少一个XML文件是真正简单聚合订阅源。
10.如权利要求9所述的方法,其特征在于,还包括基于显式评级提交、隐式评级提交以及网页排名中的至少一个来对所述至少一个匹配的信息子集进行排序。
11.如权利要求8所述的方法,其特征在于,所述一个或多个关键字根据内容提供者关键字提交、算法关键字提取以及用户关键字提交中的至少一个来确定。
12.如权利要求8所述的方法,其特征在于,所述至少一个信息子集是文章和博客贴文中的至少一个的子集。
13.如权利要求8所述的方法,其特征在于,还包括基于所述匹配的信息子集的一个或多个关键字来将广告与所述至少一个匹配的信息子集一起提供。
14.一种或多种其上存储有计算机可使用指令的计算机可读介质,所述指令用于执行一种用于提供虚拟的真正简单聚合订阅源的方法,所述方法包括:
接收对一个或多个虚拟的真正简单聚合订阅源的搜索查询(114、204)(502),所述搜索查询包括至少一个关键字;
将所述至少一个关键字与同所述一个或多个虚拟的真正简单聚合订阅源相关联的关键字数据库进行比较(210)(504);
确定相关联的关键字中哪些与所述至少一个关键字匹配(506);以及
提供对应于匹配关键字的相关联的虚拟的真正简单聚合订阅源(508)。
15.如权利要求14所述的介质,其特征在于,还包括按经排序的次序来提供对应于所述匹配关键字的虚拟的真正简单聚合订阅源。
16.如权利要求15所述的介质,其特征在于,所述经排序的次序基于显式评级提交。
17.如权利要求15所述的介质,其特征在于,所述经排序的次序基于隐式评级提交。
18.如权利要求15所述的介质,其特征在于,所述经排序的次序基于网页排名。
19.如权利要求14所述的介质,其特征在于,所提供的虚拟的真正简单聚合订阅源包括来自文章和博客贴文中的至少一个的信息。
20.如权利要求14所述的计算机可读介质,其特征在于,还包括基于所述匹配关键字来将广告与所述相关联的虚拟的真正简单聚合订阅源一起提供。
CNA2007800497703A 2007-01-12 2007-12-04 提供虚拟的真正简单聚合(rss)订阅源 Pending CN101583945A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/622,822 US7930290B2 (en) 2007-01-12 2007-01-12 Providing virtual really simple syndication (RSS) feeds
US11/622,822 2007-01-12

Publications (1)

Publication Number Publication Date
CN101583945A true CN101583945A (zh) 2009-11-18

Family

ID=39618541

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800497703A Pending CN101583945A (zh) 2007-01-12 2007-12-04 提供虚拟的真正简单聚合(rss)订阅源

Country Status (4)

Country Link
US (1) US7930290B2 (zh)
CN (1) CN101583945A (zh)
TW (1) TW200834358A (zh)
WO (1) WO2008088616A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521270A (zh) * 2010-11-22 2012-06-27 微软公司 用于有效预先计算的可分解的分级
CN105009118A (zh) * 2013-02-25 2015-10-28 谷歌公司 定制的内容消费界面
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
CN105808618A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 Feed 数据的存储和查询方法及其装置
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
CN108702300A (zh) * 2016-01-07 2018-10-23 国际商业机器公司 基于云的聚合通知服务

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101779201A (zh) * 2007-05-21 2010-07-14 尼尔森(美国)有限公司 互联网发布内容的监控方法和装置
KR20090011232A (ko) * 2007-07-25 2009-02-02 삼성전자주식회사 정보 검색방법 및 이를 적용한 방송 수신장치
US20090112833A1 (en) * 2007-10-30 2009-04-30 Marlow Keith A Federated search data normalization for rich presentation
KR101508246B1 (ko) * 2008-01-17 2015-04-06 삼성전자주식회사 휴대용 디바이스가 rss 서비스를 제공하는 방법 및 이를위한 장치
US7822868B2 (en) * 2008-01-30 2010-10-26 Alcatel Lucent Method and apparatus for targeted content delivery based on RSS feed analysis
US20090210391A1 (en) * 2008-02-14 2009-08-20 Hall Stephen G Method and system for automated search for, and retrieval and distribution of, information
WO2009131800A2 (en) * 2008-04-20 2009-10-29 Tigerlogic Corporation Systems and methods of identifying chunks from multiple syndicated content providers
JP4600528B2 (ja) * 2008-06-16 2010-12-15 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置、公開情報収集装置、印刷方法、公開情報収集方法、およびコンピュータプログラム
US20090327043A1 (en) * 2008-06-25 2009-12-31 Maheshinder Singh Sekhon Method And System Of Ranking A Document
WO2010044868A1 (en) 2008-10-14 2010-04-22 Brand Affinity Technologies Inc. Apparatus, system and method for a brand affinity engine using positive and negative mentions and indexing
JP4710971B2 (ja) * 2008-12-26 2011-06-29 ブラザー工業株式会社 通信装置およびプログラム
US8838778B2 (en) * 2009-04-28 2014-09-16 International Business Machines Corporation Automated feed reader indexing
US9020959B2 (en) * 2009-12-07 2015-04-28 International Business Machines Corporation Contextual support for publish-subscribe systems
US9183308B1 (en) * 2010-05-28 2015-11-10 Sri International Method and apparatus for searching the internet
TWI455058B (zh) * 2010-10-25 2014-10-01 Trade Van Information Services Co Trade electronic document processing system
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9053184B2 (en) * 2011-04-14 2015-06-09 International Business Machines Corporation On-demand generation of correlated collections of mashable data from distributed, non-homogeneous data sources
US8438165B2 (en) 2011-05-12 2013-05-07 Microsoft Corporation Interest tracking using shared search queries and interactions
US8983924B2 (en) * 2011-05-12 2015-03-17 Microsoft Technology Licensing, Llc Sharing public search queries and interactions
US8751591B2 (en) 2011-09-30 2014-06-10 Blackberry Limited Systems and methods of adjusting contact importance for a computing device
TWI448962B (zh) * 2011-10-28 2014-08-11 Cal Comp Electronics & Comm Co 內建有真正簡易聚合閱讀器的多功能事務機
US10454992B2 (en) * 2016-04-14 2019-10-22 International Business Machines Corporation Automated RSS feed curator
US20180225378A1 (en) * 2017-02-06 2018-08-09 Flipboard, Inc. Boosting ranking of content within a topic of interest

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381592B1 (en) * 1997-12-03 2002-04-30 Stephen Michael Reuning Candidate chaser
US7539656B2 (en) * 2000-03-06 2009-05-26 Consona Crm Inc. System and method for providing an intelligent multi-step dialog with a user
US7912868B2 (en) * 2000-05-02 2011-03-22 Textwise Llc Advertisement placement method and system using semantic analysis
US20040236673A1 (en) * 2000-10-17 2004-11-25 Eder Jeff Scott Collaborative risk transfer system
US7089309B2 (en) * 2001-03-21 2006-08-08 Theplatform For Media, Inc. Method and system for managing and distributing digital media
US7412463B2 (en) * 2002-01-11 2008-08-12 Bloomberg Finance L.P. Dynamic legal database providing historical and current versions of bodies of law
JP2004005439A (ja) * 2002-03-28 2004-01-08 Matsushita Electric Ind Co Ltd コンテンツ検索装置およびコンテンツ検索方法
US8200775B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Enhanced syndication
US20050165615A1 (en) * 2003-12-31 2005-07-28 Nelson Minar Embedding advertisements in syndicated content
US8020106B2 (en) * 2004-03-15 2011-09-13 Yahoo! Inc. Integration of personalized portals with web content syndication
EP1577791B1 (en) * 2004-03-16 2011-11-02 Microdasys Inc. XML content monitoring
US20050262049A1 (en) * 2004-05-05 2005-11-24 Nokia Corporation System, method, device, and computer code product for implementing an XML template
US7865511B2 (en) * 2004-06-25 2011-01-04 Apple Inc. News feed browser
KR100628555B1 (ko) 2004-07-26 2006-09-26 정윤돈 블로그 문서 자동 등록 방법 및 그 장치
US20060106668A1 (en) * 2004-11-12 2006-05-18 Kim John S Method for creating an on-line leads marketplace
US8595093B2 (en) * 2004-11-15 2013-11-26 Microsoft Corporation Program interface for a business management application and an accounting application
US20060230416A1 (en) * 2005-03-02 2006-10-12 Robert Brazell Systems and methods for event triggered advertising
US20060206803A1 (en) * 2005-03-14 2006-09-14 Smith Jeffrey C Interactive desktop wallpaper system
US20060242663A1 (en) * 2005-04-22 2006-10-26 Inclue, Inc. In-email rss feed delivery system, method, and computer program product
KR100758024B1 (ko) 2005-07-08 2007-09-11 주식회사 인터파크지마켓 웹 사이트에서 중개를 통한 수익배분시스템 및 방법
US20070027932A1 (en) * 2005-07-29 2007-02-01 Q2 Labs, Llc System and method of creating a single source rss document from multiple content sources
WO2008005102A2 (en) * 2006-05-13 2008-01-10 Sap Ag Consistent set of interfaces derived from a business object model

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8805755B2 (en) 2010-11-22 2014-08-12 Microsoft Corporation Decomposable ranking for efficient precomputing
CN102521270B (zh) * 2010-11-22 2015-04-01 微软公司 用于有效预先计算的可分解的分级
US10437892B2 (en) 2010-11-22 2019-10-08 Microsoft Technology Licensing, Llc Efficient forward ranking in a search engine
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
CN102521270A (zh) * 2010-11-22 2012-06-27 微软公司 用于有效预先计算的可分解的分级
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
CN105009118B (zh) * 2013-02-25 2017-04-12 谷歌公司 定制的内容消费界面
US9710472B2 (en) 2013-02-25 2017-07-18 Google Inc. Customized content consumption interface
CN105009118A (zh) * 2013-02-25 2015-10-28 谷歌公司 定制的内容消费界面
CN105808618A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 Feed 数据的存储和查询方法及其装置
CN105808618B (zh) * 2014-12-31 2019-10-22 阿里巴巴集团控股有限公司 Feed数据的存储和查询方法及其装置
CN108702300A (zh) * 2016-01-07 2018-10-23 国际商业机器公司 基于云的聚合通知服务

Also Published As

Publication number Publication date
TW200834358A (en) 2008-08-16
US7930290B2 (en) 2011-04-19
WO2008088616A1 (en) 2008-07-24
US20080172370A1 (en) 2008-07-17

Similar Documents

Publication Publication Date Title
CN101583945A (zh) 提供虚拟的真正简单聚合(rss)订阅源
US20210334451A1 (en) Uniform resource locator subscription service
US8438469B1 (en) Embedded review and rating information
US8019777B2 (en) Digital content personalization method and system
US8768772B2 (en) System and method for selecting advertising in a social bookmarking system
US10607235B2 (en) Systems and methods for curating content
US10268641B1 (en) Search result ranking based on trust
Kolbitsch et al. The transformation of the Web: How emerging communities shape the information we consume.
US8301623B2 (en) Probabilistic recommendation system
US9396485B2 (en) Systems and methods for presenting content
US10713666B2 (en) Systems and methods for curating content
US20080222105A1 (en) Entity recommendation system using restricted information tagged to selected entities
US20120203733A1 (en) Method and system for personal cloud engine
US20090164438A1 (en) Managing and conducting on-line scholarly journal clubs
US20110246485A1 (en) Systems and methods for grouping users based on metadata tag relevance ratings
US20070067217A1 (en) System and method for selecting advertising
US20120246139A1 (en) System and method for resume, yearbook and report generation based on webcrawling and specialized data collection
CN101568921A (zh) 数字内容的动态定价模型
KR20080002879A (ko) 정보를 전자 문서와 연관시키기 위한 시스템 및 방법
Sohail Search Engine Optimization Methods & Search Engine Indexing for CMS Applications
US20150363477A1 (en) Methods and apparatus for information organization and exchange
Ji et al. A study on recommendation features for an RSS reader
CN109408725B (zh) 用于确定用户兴趣的方法和装置
Wen Development of personalized online systems for web search, recommendations, and e-commerce
KR20120020558A (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091118