CN1664819A - 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法 - Google Patents

通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法 Download PDF

Info

Publication number
CN1664819A
CN1664819A CN2005100531853A CN200510053185A CN1664819A CN 1664819 A CN1664819 A CN 1664819A CN 2005100531853 A CN2005100531853 A CN 2005100531853A CN 200510053185 A CN200510053185 A CN 200510053185A CN 1664819 A CN1664819 A CN 1664819A
Authority
CN
China
Prior art keywords
news
information
contribution
novelty
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2005100531853A
Other languages
English (en)
Inventor
E·J·霍维兹
E·加布里洛维奇
S·T·杜梅斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1664819A publication Critical patent/CN1664819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

提供了一种***和方法,用于根据信息新颖性的统计测量来过滤诸如新闻报道等时间性信息流。各种不同的技术可以被应用来基于一个用户已经评审过的信息因人而异地定制新闻馈送或者其他类型的信息。提供了分析信息新颖性的方法和通过标识在他们已经评审过的报道的上下文环境中各报道的新颖性为用户个性化并过滤信息的***。该***采用了把稿件表示成大量字词和命名实体的新颖性分析算法。这个算法通过考虑信息如何从一篇稿件到另一篇稿件以及在个别稿件内部是如何随时间进展而演化的来分析文档内和文档间动态学。

Description

通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
相关申请
本申请要求于2004年3月2日提交的序号为60/549,371、发明名称为“通过对新信息和动态学的分析来个性化新闻馈送的原理和方法(PRINCIPLESANDMETHODS FOR PERSONALIZEING NEWSFEEDS VIA AN ANALYSISOF INFORMATION DYNAMICS)”的美国临时专利申请的优先权,该专利申请整体引用在此作为参考。
(1)技术领域
本发明一般地涉及计算机***,尤其涉及通过信息动态学(Dynamics)自动化分析来个性化诸如新闻之类的信息时间流的***和方法。
(2)背景技术
就在十年以前,诸如新闻馈送(news feeds)的大规模信息流动被专门进行信息供应的组织所拥有、监控和过滤。万维网Web给所有有兴趣的用户带来了管理和吸取新闻馈送的挑战和机遇。识别“重要”信息成为了Web搜索和文本归纳概括的研究中一个基本的方面。搜索方法关注于最大程度满足用户亟需需求的文档集。归纳概括工作努力地将大数量的文本压缩成更加简洁的程式。在缺少与文本相关联的识别深层语义的自动化方法的情况下,以前的归纳概括工作一般是在完整句子的级别上操作,把最具有代表性的句子交织在一起以创建一篇摘要。对搜索和概括的研究一般忽视了情报内容随时间持续到达的动态学方面(Dynamics)。
(3)发明内容
以下是本发明的一个简要概括,以便提供对本发明中一些方面的基本理解。这个部分不是本发明的规范纵览。它并不是要确定出本发明中的重要/关键元素或者描绘其范围。它唯一的目的是用一种简化的形式给出本发明的一些概念,作为后续更详尽说明的序幕。
本发明提供了识别信息新颖性的***和方法,以及这些方法如何被应用于管理随时间变化的信息内容的***和方法。提供了一个一般框架用来比较文档集,借此框架可假定文档能按照它们的内容或来源来编组,并可分析出组间和组内的差异与共性。例如,将两组属于相同主题但得自不同来源的文档并列起来,诸如,在世界不同区域的对某一个事件的消息覆盖能揭示对情势的观点和总体阐述方面的差异。从静态文集过渡到随时间产生的稿件集,可以对内容的演化进行研究。例如,可以研究在一个时期就同一个故事形成的一系列新闻稿件,以期凸显真正有内容的信息更新并滤除大量的在很大程度重复“炒冷饭”的稿件。
可以搜集有关诸文档集中的词频(word occurence)的详细统计数据,以表征这些文档集之间的差异性和相似性。各种的字词模型可以通过提取表示人物、组织和地理位置的名称的命名实体来增强。由于缺少充足的统计数据,词组和搭配的区别性语义属性往往被胜出(outweighed),与此形成对比的是,命名实体识别那些相对固定的被许多作者在一个特定主题中以一种普遍的方式使用的记号(token),因此他们的使用贡献了相当数量的消息。例如,所提供的一种类型的分析用在其中发现的命名实体来表示这些稿件。分析可以关注于当前的新闻流或其它主题。当前新闻流形成对研究急切的挑战和机遇。新闻馈送涵盖大量的信息、给出丰富的想法和观点、也包含有丰富多彩形式和内容,从即时新闻的简短的最新消息、到故事展开的重要的摘要、再到单纯的对一再报到的“陈年旧事”的喋喋不休。
可以开发确定所追踪的故事的重要更新的算法,把用户们从必须详审一长串从不同的来源到达的相似稿件中解放出来。根据本发明所提供的方法提供了个性化新闻门户和新闻快报服务的基础,它们寻求对需要跟踪演化中的新闻报道的用户最大限度地减少时间和中断。
本发明提供各种为用户分析信息和过滤内容的体系结构组件。首先,提供了一个框架,用于通过分析字词和已识别的命名实体的分布来标识文档集中的差异。该框架可被应用于比较单个的文档、文档集、或一个文档和一个文档集。(例如,一篇新稿件对一个有关该主题的先前评审过的新闻稿件集)。其次,在当前新闻流(或其他时间演化流)上进行操作的一个算法集向用户提供个性化新闻经历。这些算法已经在一个把最有内容的信息更新呈现给用户的叫做NewsJunkie的示例***中实现了。用户可以每隔一段用户定义的时间或每到有关故事的报道突发的时候请求更新。用户也可以调节这些更新与核心报道的相关性到所需程度,以允许递送与相关或相似故事的衍生性稿件。而且,提供了一种评估方法,该方法向用户提供单个种子报道以及和多组根据不同新颖性评估度量(metrics)排列的稿件,且该方法寻求理解参与者是如何感知在种子报道的上下文环境中的这些文档集的新颖性的。
为达到前述的和相关的目标,本发明的特定说明性方面结合下列描述和附图来进行描述。这些方面指示了本发明可被实践的各种方式,所有这些方式都由本发明所涵盖。结合附图阅读以下本发明的详细描述,本发明的其他优点和新颖性特征会变得更清楚。
(4)附图说明
图1是一个示意图,例示了根据本发明的一个方面的信息动态学***。
图2是一个框图,例示了根据本发明的一个方面的用于比较文本集的框架。
图3是一个流程图,例示了根据本发明的一个方面的信息新颖性过程。
图4是一个图表,例示了根据本发明的一个方面的结果排序。
图5例示了根据本发明的一个方面的个性化的更新过程。
图6例示了根据本发明的一个方面的新颖性信号。
图7例示了根据本发明的一个方面的示例稿件关系。
图8-11例示了根据本发明的一个方面的示例用户接口。
图12是一个示意性框图,例示了根据本发明的一个方面的合适的操作环境。
图13是一个本发明能可与其交互的样品计算环境的示意框图。
(5)具体实施方式
本发明涉及识别信息的新颖性并在信息随时间而演化的时候对其内容进行管理的***和方法。在一个方面,提供了一种***用于分配个性化信息。该***包括确定两个或更多信息项目之间的差异的组件。部分地基于所确定的差异并随着与信息项目有关的数据随时间而演化,一分析器确定出信息项目的一个子集。还提供了各种不同的方法。在一个方面,用于创建个性化信息的方法包括自动分析来自不同信息源的文档并自动确定文档的新颖性。然后,基于文档的新颖性向用户提供个性化的信息馈送。
本发明的***和方法可被应用于多个不同的应用上。这些应用包括有助于对有关某一个主题的尚未看过的新闻报道以理想的阅读序列或路径进行设计的应用,指的是在从现在起的不同的时间范围里面未读的。为了设计赶上新闻潮流(catch up on news)的序列,诸应用考虑最近的新闻报道而且同时考虑一定时间上的新闻猝发,以帮助人们理解新闻报道的来龙去脉并按主要的事件/更新来导航故事的历史。其他的应用包括开发不同类型的显示设计和隐喻(metaphor),比如时间线视图(time-line view)的使用或其他的方面诸如时间群概念。涉及到在一个主题里面在即时新闻报道(breaking news story)的桌面和移动设定的理想快报,一个应用允许用户指定主题或关键字,但是只有当给用户所读的有足够的新颖性时才给出快报。对于以关键字为基础的方法,如果信息新颖性足够,当一个新闻报道中有关键字出现的时候,才提供快报,因此这一方法比简单的关键字为中心的快报方案更为有用。
如在本申请中所用,术语“组件”、“对象”、“分析器”、“***”等等是用来指代与计算机相关的实体,或者是硬件、硬件与软件相结合、软件、或者是正在运行中的软件。例如,一个组件可以是,  但并不限于是,在一个处理器上运行的进程、一个处理器、一个对象、可执行的一条执行线程、一个程序、和/或一部计算机。作为一个例示,在服务器上运行的应用程序与服务器都可以是一个组件。一个或更多的组件可以驻留于一个进程和/或执行的的一条线程,而且一个组件可以在一部计算机上被局域化和/或在两个或更多的计算机之间分布。同时,这些组件能在其上存储有各种数据结构的计算机可读媒质上执行。这些组件可以经由局部的和/或远程的进程进行通信,诸如根据一个拥有一个或多个数据分组的信号(例如,来自通过该信号与在一本地***、分布式***中的另一组件交互的一个组件的、和/或通过因特网等网络与其他***交互的一个组件的数据)。
参照图1,根据明本发明的一个方面例示了一个信息动态学***100。本发明提供了***和方法,用于识别信息新颖性,以及这些方法是如何被用于管理那些随时间推移而变化的信息内容。提供了一个一般的框架100用于通过比较器114来比较诸文档集110,借助比较器114,根据其各自的内容或来源120,诸文档被分成组,并由分析器130来进行组内与组间差异性与共性的分析。例如,将两个或多个关于相同主题但来源不同的两组或多组文档或文件进行并置,例如,世界不同地区对于同一件事件的新闻报道,可以显示出各地之间对于这一事件的观点和总体诠释方面有趣的差异。从静态的收集过渡到随时间的变迁而产生的各种文章的集合,可以对内容的演化加以研究。例如,可以对同一个故事在不同的时间所发的一系列新闻稿件加以研究,目的是凸显那些真正具启示性内容的更新,并藉由与分析器130协作的信息过滤器140滤除大量的文章,以在150处递传出个性化的信息。
可以对诸文档集中的词频收集详细的统计数据,以便表征这些文档集之间的差异性和相似性。例如,基于字的模型可藉由提取表示人物、组织和地理位置名称的命名实体而被增强。与片语和搭配相反—其区别性语意属性通常由于统计不足而被忽略—命名实体标识相对较稳定的记号(token),这些记号是许多作者在一给定主题上以一种通用的方式使用是,因此它们的使用就贡献相当数量的信息。所提供的一种分析类型使用在文章中发现的命名实体来代表文章。分析可以把重心集中在新闻的当前流或其它数据时间流上。在一个例子中,新闻馈送中涵盖了大量的信息,呈现出多个意见和观点,而且包括丰富多彩格式和内容,从有关即时新闻的简短快讯,到故事发展的重要的摘要,再到旧的事实的一再重复。
可以在比较器114、分析器130、和/或过滤器140中提供在下面将被更详细地描述的算法,该算法标识有关报道或追踪中的流的更新,从而把用户从必须筛选一大串来自不同新闻来源的相似的文章的困扰中解放出来。在150,各种不同的方法提供基础给个性化的新闻门户和新闻快报服务,其目的是能够最大限度地减少希望要追踪一个故事的发展过程的用户在时间和中断方面的麻烦。需要了解的是,虽然本发明的一个方面可以适用于分析和过滤信息,例如新闻,但实质上任何在时间上演化的信息流都可以根据本发明来处理。同时,可以从不同的信息来源收集信息,例如从用户的膝上型电脑、移动装置、台式计算机,其中此类信息可以被高速缓存(例如,集中性的服务器)并依照用户先前已观察的信息加以分析。同样地,信息可以从多个来源中生成,例如因特网,或在一个公司局域网之类的局部环境中生成。
现在参照图2,根据本发明的一个方面示出了用于比较文本集的框架210。如果有两个或更多的文本内容的集合,要确定是如何表征诸集合之间的差异的。确定差异在多中应用方面都是有用的,包括文本集的自动简介与比较、文本所反映的不同观点、范围与兴趣的自动标示以及新信息的自动标识。一般而言,“差异”的若干方面可以调查如下:
在220,内容的差异可反映一个特别的人或事件在诸文档集中被描述的不同方式。例如,考虑分析预定分区中的差异,例如,比较美国和欧洲的关于各种不同的政治议题的报告,或比较美国东海岸和西海岸的新闻来源对于东海岸的停电的报导。
在230,结构性组织上的差异可能不止于在文本内容,还要考虑网站的链接结构,例如,比较IBM网站和Intel网站。
在240,在时间上的差异(即,内容差异的时间方面)能揭示在一系列文档的主题上的有趣改变。这种类型的分析可用于将一个月或一年以前的新闻与今天的新闻相比较,以便追踪搜索引擎的询问日值随时间的改变,或者以便识别在用户的个人电子邮件的主题方面随时间的改变。
时间上的差异包括自动评估来自当前新闻馈送的询问稿件的新颖性(或其他类型的信息)随时间的变化。具体地,考虑下列各方面:
在250,在新闻报道中表征新颖性,允许将新闻稿件排序以便每个稿件向先前阅读的或呈现的项目(集合)添加最多的信息。
在260,随时间的变化分析主题的演化,这使得能够对新闻更新的重要性及相关性进行定量化、授予用户对这些参数的控制而且提供他们一种个性化的新闻体验。
图3是一种方法学300,举例说明根据本发明的一个方面来表征新颖性的过程。尽管为了解释的简洁起见,这种方法是通过一系列动作来表示并加以描述的,但应该理解的是本发明不受动作顺序的限制,根据本发明,某些动作可以不同顺序进行,和/或同时与这里描述的其他动作同时进行。例如,本领域技术人员会懂得,方法学可以另外以一系列相关状态或事件的形式来加以表达,例如作为状态图表。而且,不是所有的动作都要用在实现根据本发明的方法之中。
进行到310,开发了各种工具来实现并测试算法的性能。一个这样的软件工具集被命名为“NewsJunkie”,它实现了一个算法集和众多可视化选项用于对文本集进行比较。NewsJunkie将文档表现为一组字词,这些字词被从文本中提取出的命名实体所加强(augmented)。普通的提取工具也应用于此目的,可以标识人物、组织以及地理位置的名称。
在320,确定要在文档里比较的元素。一般而言,文档组包括有共同属性的文档,而且构成比较的基本单位。共同属性的例子可以是新闻的特定主题或来源(例如,来自东海岸新闻机构的停电报道)。通过为每一组建立一个模型来对文档组之间的差异作出推论,然后用如下所述的相似性度量来对这些模型进行比较。为了方便探究多种模型,NewsJunkie将文档要么描述为对于所有特征(字词+命名实体)的修匀几率分布,要么描述为加权特征的矢量扮演重要角色(在同一特征空间)。权重可以按照流行的TF.IDF函数族来赋值,TF.IDF函数是用分量(component)来代表一个文档中的词频以及在文档间词频的反数(inverse frequency of term occurrence)。也可以用几率加权函数。不同的修匀选项可被实现以改善词语项的估算。例如,拉普拉斯连续性定律(Laplace′s lawof succesion),或者与整个文本集中的字词几率进行线性修匀;后一选项在下面描述的实验都用了。注意,不止一个修匀选项可在此***中实施。
在图3中的330,确定了相似性度量以确定信息项目之间的差异。一种通常的情形就是在世界的某个地方有有趣的事发生,该事件就被新闻媒体所报道。如果事件能够引起充分的民众兴趣,那么其接踵而来的发展也在新闻中被追踪。假如读到了开始的报导,稍后,用户就会有兴趣跟上故事的发展。因为有了汇集数以千计新闻来源的因特网,用户敏锐的寻求信息的目标有多种方式可以满足,而且其更新之多甚至最热望的新闻读者都没有时间一一过目。从大量文档中筛选有关某一个问题的真正最新信息的自动工具也就具有很大的价值。
因此,避免冗余和重叠能帮助将与追踪新闻报道相关联的开销减到最少。通常,新闻报道中充斥着冗余。例如,当预期有新的发展或调查结果,但是尚未获得新的信息时,新闻机构时常用早期发展的摘要来填补这一空白直到有了新的信息。有一个现实使情形被进一步恶化:许多新闻机构的部分内容通常从一些主要的跨国新闻机构诸如路透社或***获得的。新闻网站的用户不想反反复复地阅读每一条信息。用户主要对新的东西感兴趣。因此,按照新颖性来对新闻稿件进行排序一定会是有用的。
在330,许多的文档相似性度量可以被用来识别与一给定的文档集(例如,先前已读过的文档集)差异最大的诸文档,其中,定义了一个术语“距离”度量来强调这样一个事实,即所要搜寻的是与一个文档集在最大程度上不相似的文档。
以下各项距离度量可被实现:
·Kullback-Leibler(KL)发散,一个经典的不对称信息论尺度。假定计算文档d和一文档集R之间的距离。用pd和pR来分别表示在d(一个文档)和R(一组文档)中字词(以及命名实体,如果有的话)的几率分布。那么,
dist KL ( p d ; p R ) = Σ w ∈ words ( { d } ∪ R ) p d ( w ) log p d ( w ) p R ( w ) · 注意算式 log p d ( w ) p R ( w ) 的计算需要把两个分布都进行修匀以减少零值(对应于在d中出现但是不在R中出现的字词,反之亦然)。
·Jensen-Shannon(JS)发散,KL发散的一个对称变体。使用先前的项目定义,
dist JS ( p d , p R ) = dist KL ( p d , q ) + dist KL ( p R , q ) 2 , 其中 q = p d + p R 2 ·
·原始几率矢量的余弦(计算不需要修匀的几率)。
·TF.IDF特征权重矢量的余弦。
·一个定制度量,制定来测量一个稿件(称为NE)中先前未见过的命名实体的密度。对于这个度量的直感是基于这样一个的猜想:新信息时常是通过引入新命名实体来传达的,诸如人物、组织和地点的名称。NE度量可定义如下:令NE(R)为一组文档R中有的一组命名实体。令NEu(R1;R2)是一组在一组文档R1中出现并且在组R2中没有出现的独特的命名实体。即,
Figure A20051005318500141
Figure A20051005318500142
则distNE(d;R)=NEu({d},R)/length(d)。
用文档长度进行标准化通常是必要的,因为如果不进行标准化,NE的得分往往随长度而增加,由于长度对于观察到另外的命名实体的几率是有影响的:文档越长,它包含较多命名实体的几率就越大。
在图3中的340,距离度量可被利用来为向用户呈现而识别新信息内容。在NewsJunkie应用中,以迭代方式应用一个新颖性排序算法以产生一小组一个读者可能感兴趣的稿件。采用一项希望、递分析法。该算法最初实质上把所有可得更新与用户已读的种子(seed)报道进行比较,且选择与它相似性最小的稿件。该稿件然后被添加到种子报道(形成一个包括两个文档的组),该算法寻找与这些被组合的稿件最不相似的下一个更新,等等。该排序算法的伪码被概略说明在以下的算法RANKNEWSBYNOVELTY中。
算法RANKNEWSBYNOVELTY(dist,seed,D,n)
R←seed//initialization
for i=1 to min(n,|D|)do
d ← arg max d i ∈ D { dist ( d i , R ) }
R←R∪{d);D←D\{d}
其中dist是距离度量,seed是种子报道,D是一组相关的更新,n是要选择的期望更新的数量,R是按新颖性排序的稿件列表。
为了验证以上给出的算法和距离度量,做了一个实验,要求对象对按许多距离度量排序的询问报道集进行评估。
对于在此处描述的实验,使用了一个聚集来自超过4000个英特网源的新闻稿件的当前新闻馈送。采用了一个来自Moreover Technologies公司的新闻馈送(newsfeed),尽管任何其他新闻或RSS馈送都能使用。使用一个聚类算法使报道分成讨论相同事件(以下称为“主题”)的小组。用了十二个组群来对应于在2003年九月中旬的新闻中报导过的主题。这12个主题涵盖了跨越了2到9天的新闻报道,且代表36到328份稿件。主题包括了新加坡爆发的SARS、加州州长的罢免、教皇对斯洛文尼亚的访问、等等。
一般,判断新颖性是一个主观性的工作。要获得统计学上有意义的结果的一种方式是把一组用户的判断取平均值。为了要比较不同的新颖性排序度量,参加者被要求阅读按交替度量排序的若干组稿件并确定哪些组承载最新颖性的信息。注意,该场景通常要求评估者一直紧记他们读过的稿件集直到对它们做出等级估价。因为难以牢记若干组有关一个不熟悉的主题的稿件,实验就被限制到评估下列三个度量:
1.KL发散由于它的信息论基础(KL)吸引人而被选中。
2.计数命名实体的度量被选中作为一个语言学动机的替代选择(NE)。
3.稿件的按年代排序被当作基线使用(ORG)。
就这12个主题中的每个而言,第一个报道被选作种子报道(seed story),使用以上描述的三个度量通过RANKNEWSBYNOVELTY算法按新颖性对其余稿件做出排序。这个算法首先选择对于种子报道为最新颖的稿件。该稿件然后被添加到种子报道以形成一个用户所熟悉情况的新模型,然后是选择下一个最新颖性的稿件。有三个稿件以该方式为三个度量中的每一个和12个主题中的每一个选择。对于每个主题,对象首先被要求阅读种子报道来得到有关主题的背景。然后向他们显示稿件的三个组合(每个组合按度量之一选择),而且要求他们按照从最新颖性的组合到最不新颖性的组合做出分级估价。给他们的指令是要求把任务考虑成他们要为一个审查过种子报道而现在需要了解有什么新东西的朋友确定选择的稿件组。从按三个度量生成的呈现顺序在参与者之间进行随机化处理。
图4是一个曲线图400,举例说明了根据本发明的一个方面的结果排序。总体上,得到了12个主题的111个用户判断,平均每主题9-10个判断。图4显示了每个度量被估价为最新颖、中等新颖、最不新颖的次数。从曲线图400可看出,由KL和NE度量产生的组合按比基线度量(ORG)产生的组合被更多地估价出为新颖。
主题ID 主题说明 #最新颖的次数KL         NE        ORG        平均等级KL        NE        ORG
主题1 比萨抢劫 5  4  1  1.7  1.6  2.7
主题2 RIAA诉MP3用户 2  7  0  1.8  1.2  3.0
主题3 沙龙访问印度 2  3  4  2.6  1.7  1.8
主题4 教皇访问斯洛文尼亚 9  0  0  1.0  2.2  2.8
主题5 瑞典外相被杀 5  4  0  1.4  1.6  3.0
主题6 Al-Quaeda 8  1  0  1.1  2.1  2.8
主题7 加州州长罢免 4  2  3  1.7  2.2  2.1
主题8 微软故障 3  5  1  1.9  1.6  2.6
主题9 新加坡爆发SARS 7  1  1  1.3  2.0  2.7
主题10 伊朗开发*** 3  5  2  2.2  1.7  2.1
主题11 NASA调查 2  5  3  2.1  1.6  2.3
主题12 伊莎贝尔飓风 4  5  0  1.9  1.6  2.6
                             表1:按主题排列的结果
表1表示每一主题的结果。三个倒数第二栏显示了每个度量被估价为每个主题的最新颖的次数。最后三栏显示了度量的平均等级,假定最新颖的为1,中等新颖的为2,和最不新颖性的为3。用Wilcoxon Signed Ranks Test(威尔考克森符号等级测试法)来估定实验结果的统计学意义。就所有主题对度量的平均等级(如图4所所归纳)进行比较,发现KL和NE优于ORG,p<0.001。考虑个别的分主题结果,度量ORG没有达到所有三个度量的最低(=最好)等级。在六种情况下(主题2,4,5,6,9,12),在ORG和得分最低的度量之间的平均等级的差异在p<0.05时是具有统计学重要性的,在一个附加的情形中,有重要意义的是在p=0.068(主题8)的边界线。比较两个最好的度量(KL对NE),有利于KL的差异是在p<0.05上对主题4和6有统计学重要性,对主题9的有边界线重要性(p=0.083)。在平均等级上有利于NE的差异对主题2和3有边界线重要性(分别为p=0.096和p=0.057)。
图5举例说明了根据本发明一个方面的个性化更新过程500。在先前部分中呈现且评估的算法RANKNEWSBYNOVELTY往往是在一个假定下工作,即用户是希望在最初读过某篇报道之后要跟上最新的故事发展。在这种情况下,算法按照与种子报道相比较的新颖性排序最近的稿件,然后用户根据他或她能为阅读分派多少空余时间来阅读而选择一定数量的得分最高的稿件。
然而,如果用户想要随着新发展的实际发生而连续地得到更新又会怎样?诸如文档集服务器的后方支持要追踪用户阅读的稿件,以便对在新闻或信息馈送中流传送的新根据进行新颖性评估。基于用户的个人偏爱,例如,用户多久会对得到故事的更新感兴趣,服务器确定显示哪些稿件。因此,可提供一个在线确定机制,确定是否一个稿件包含有充足的新信息来保证向用户的递送。在一个对快报的成本效益较为一般的分析中,有机会基于他们的环境用中断用户的代价去平衡特定稿件或稿件组的信息价值。
以下讨论用当前新闻更新用户的不同场景。在510的单一场景更新中,***假设用户对得到周期性更新感兴趣,而第二个场景通过在520监控新到达的新闻寻找新颖信息的猝发来持续不断地更新用户。同时,可提供一个机制,允许用户控制期望被更新的稿件的新颖性(更详细地在下面描述)的类型且在530阐述为用类型表征稿件。
关于在510的单一更新,考虑当用户希望看到的不超过故事的周期性更新的情形。达成这一个目标的一个方式是使用类似于RANKNEWSBYNOVELTY的一个算法,亦即,累积在过去的几天内内收到的报道,通过计算今天到达的每个新报道对于所累积的报道集的距离来评估每一报道的新颖性。这种方式的一个问题就是集中的报道越多,从任何的新报道到累积集的距离的重要性越差。在稿件几天的稿件被累积之后,甚至是主要的更新也将会被看到几乎不是是新的了。
为了要避免这个缺陷,原始的新颖性算法被修正如下,提取一个周期性的更新。作为一个具体的例子,用的时间段是一天,因此,算法为用户识别每日的更新。在给定了用户和他们的选择追踪的主题后,算法PICKDAILYUPDATE把今天收到的稿件和一天以前收到的稿件全集做比较。该算法尝试选择与昨天已经知道的东西相比最具情报性的更新并且将它展示给用户看,条件是该更新传达出充足的新信息(即,它估计的新颖性高于用户个性化的阈值)。如此调节赋予了***向用户提供情报性的更新而滤除那些对先前熟知的细节只做摘要的稿件的能力。该算法可以推而广之以识别一天n个最具情报性的更新。
可能有人会争辩,通过忽略在前一天之前的所有各天,算法PICKDAILYUPDATE也可能把那些摘要几天之前已说过的内容的稿件考虑为新颖性的。在实践中很少发生这样的事情,因为大部份稿件的撰写方式是把新信息与之前发展的一些背景穿插在一起。可以理解的是,可以提供更精细的距离度量,考虑与主题相关的所有在前稿件但是其权重随时间而减损。
算法PICKDAILYUPDATE(dist,Bg,D,thresh)
d ← arg max d i ∈ D { dist ( di , Bg ) }
If dist(d,Bg)>thresh then display(d)
Bg←D
其中dist是距离度量,Bg是背景参考组(在前一天收到的有关稿件的全集),D是在今天收到的一组新稿件,thresh是用户定义的敏感性阈值。
以上在510呈现的算法可能主要地是“脱机”程序,因为它以预定的时间间隔更新用户。铁杆新闻迷可能会认为等候每日预定新闻更新是让人感到沮丧的。对于一些人来说,可能期望一项更具反应性的分析形式。
在极端情形中,比较每个稿件和一个在前的稿件可能无法很好地工作,因为***有可能会把几乎每个稿件预期成新颖的。相反地,可在图5的520处理即时新闻事件,其中使用了一个涵盖一定数量的先前稿件的滑动窗口来估计当前稿件的新颖性。需要留意的是,比较稿件和固定长度的前一窗口之间的距离促进方便了得分的比较,对窗口长度在20-60个稿件的不同窗户进行了评估。结果发现,长度为40左右的在实践中一般效果好些。
与算法PICKDAILYUPDATE相反,现在的背景参考组变得短多了,即,40个稿件代替了一整天的内容。这增加了一种可能性,即窗口不够长,无法包括在故事被最初报导之后很长时间后的延迟报告和摘要。为了要滤除此类重复,应当了解新闻报告的性质。
当出现一个事件或有关一个重要事件的信息更新时,许多新闻机构看到此新发展并且在一个相当短的时间内报导它。如果一个人连续地用图标出每份稿件和在前窗口之间的距离,会发现这种新信息的抵达将产生一个曲线图的峰值。此类峰值被称为新颖性的猝发。在每个猝发的开始处,附加稿件往往增加新细节,引起曲线图上升。随时间的推移,滑动窗口覆盖越来越多的传达该最新发展的稿件,且随后的各稿件不具有相同的新颖性;结果是,被计算的新颖性方向向下,象征着猝发的结束。
延迟的事件报告以及有关故事的摘要在不同来源之间不太可能会在时间上的有相关性。此类报告和之前的窗口比较可能显示出新颖性,但是,因为它们通常是孤立的,他们通常引起新颖性上的尖峰。为了要丢弃此类孤立的失峰而且接收它们作为真正的更新,新颖性信号应该适当地过滤。
中值过滤器通过减少信号的噪音而提供该功能性。过滤器连续地考虑信号中的每一信息点而且使它做出适应以更好地仿造(resemble)它的环境,有效地修匀(smoothing)原始信号并去除异常值。特别地,一个宽度为w的中值过滤器首先对在以当前点为中心的窗口里的w个数据点进行分类(sort),且然后用这些点的中值代替后者。
在计算了稿件和覆盖了之前稿件的滑动窗口之间的距离之后,使所得信号通过一个中值过滤器。所考虑过的过滤器包括3-7的宽度;宽度为5的过滤器似乎在大多数情形中工作良好。
算法IDENTIFYBREAKINGNEWS(dist;D;l;fw;thresh)
Window←∪l i=1di∈D
for i=l+1 to |D| do
       Scoresi←dist(di,Window)
       Window←(Window\di-1)∪di
Scoresfilt←MedianFilter(Scores,fw)
For j=1 to |Scoresfilt| do
    if Scoresfilt j>thresh then
       display(dj+1)
       skip to the beginning of the next burst
其中dist是距离度量,D是有关稿件的序列,l是滑动窗口长度,fw是中值过滤器宽度,thresh是用户定义的敏感性阈值。
注意,中值过滤器的使用可能会延迟向用户路由新颖性的稿件,因为会需要考虑随后的若干个稿件以便可靠地探测出新猝发的开始。然而,发现这样的延迟是相当小的(所使用的中值过滤器宽度的一半),过滤器的效益远超过这一不便。如果用户乐意容忍附加的延迟,那么该算法可以从猝发开始的时刻向前扫描几十个稿件,以便选择最具情报性的更新而不只是捡取使猝发开始的那一个。不同方法的组合也是可行的,诸如提供即时新闻的早期更新,然后等待一项信息量更大的猝发分析以发送有关发展的最佳稿件。以上的算法显示了用于实现新闻快报猝发分析的IDENTIFYBREAKINGNEWS算法的伪代码。
图6所示是将算法IDENTIFYBREAKINGNEWS应用于一个样本主题。所涉及的主题是发生在美国宾夕法尼亚州伊利湖的银行抢劫案,在那里,一群罪犯抓住了一个送比萨饼的男子,把一个炸弹装置锁在他的脖子上,并且,依照该男子的陈述,强迫他抢劫了一个当地银行。该男子迅即被警方逮捕,但不久之后该装置引爆而且杀死了他。该异乎寻常的初始报道及随之发生的调查从2003年九月开始连续几个星期受到诸多新闻机构的追踪。图中x轴对应于稿件到达的时间序列,y轴上标的是(原始的和经中值过滤的)在给定之前的滑动窗口时每个稿件的距离值。原始距离得分用一条虚线表示,而经过滤后得分用一条实线。附图6中的文本框是在对应于所确定的新猝发的真实事件的注释,并表示出了哪一个潜在的假峰被过滤器丢弃了。修匀后的新颖性得分,是考虑了中值过滤器的,捕获到了这一故事的主要进展(对朋友的采访、有关武器的细节、对两个嫌疑犯的联邦调查局公告,和一个盲目模仿案例),而同时滤除了新颖性的假峰。
回到图5中的530,考虑稿件类型的表征和用户控制。在一些情形中,不应当仅仅依靠新颖性得分作为唯一的选择标准;一些稿件因主题上的改变而被确认为新颖的。为了更进一步地改善情报性新颖性的分析,制定了新颖性类型的分类体系,基础是一个稿件和一个种子报道或感兴趣的主题之间的不同关系。关系的类的例子包括:
1.摘要(recap)稿是那些相关的,但是通常只提供已经报导的内容的回顾并且很少有新信息的稿件。
2.详述(elaboration)稿向种子报道所描述主题增加新的相关信息。
3.衍生(offshoot)稿也是与主流讨论有关的,但是它们所增加的新信息和在种子报道中报导的有很大差异,足以保证展开一个新的相关主题。
4.不相关(irrelevant)稿件是那些远离所关注的主题的稿件。它们可能会因为聚类或剖析等问题而产生。注意,可定义和处理四个以上的类。
在这些类中,关系类型2和3或许是用户在跟踪一个主题的时候大多数用户想看到的。为了达成这一目标,可以提供一种新的文档分析类型,细查文档内动态学。和早先在整个文档之间进行比较的分析的类型相反,这项技术“放大进入(zoom into)”文档内部,评估它们部份之间的相关性。
一般而言,为每个文档构造一个模型,使用固定的距离度量,例如,KL发散。然后,对于每个文档,计算在文档中的字词滑动窗口(sliding window)相对于种子报道的距离得分。字词窗口的得分可被解释为窗口中的每个单词相对于种子报道的点态得分和,就象由使用所选度量比较文档内窗口模型与种子报道模型而确定的。考虑了一些不同的窗口长度,20被发现在实践中工作良好。
这项技术的一个有益属性是它超越了众所周知的“大量字词(bag ofwords)”的概念且在它们最初的上下文环境里考虑这些文档字词。选择使用滑动文本窗口而非表面上更吸引人的段落单元,因为使用固定长度的窗户使得距离得分可直接用于比较。比较单位的另外一个明显选择会是个别的句子。然而,在句子水平上进行这项分析考虑的信息会太少,可能的得分范围会因为太大而无用。
图7表示的是文档内分析的样本结果。这项分析的种子报道是关于在新加坡新发现了一例SARS的报告。对已被描述过的内容进行摘要的稿件通常的动态范围有限、绝对得分低。详述稿通常绝对得分较高,反映出他们承载的新信息。该故事的一个详述稿报导该病患的妻子正处于隔离之下。沿着这一思路,那些可定性为衍生稿但是仍与种子报道中描述的事件关联的稿件动态范围更宽些。一个衍生稿件是一篇把重心集中在亚洲股市受SARS影响的报道,另一篇是有关SARS疫苗的进展的报道。这两篇衍生稿件都把最近的案例作为出发点,但却实际上都是关于一个相关主题的。分析文档内动态学,比如新颖性得分的动态范围和模式对于标识读者想要跟踪的信息的不同类型方面是有用的。
万维网已经向用户提供一组丰富的信息源。对于在英特网上冲浪的人们而言,一个假相是,为了追求新闻更新而浏览众多来源是简那么地单,然而,在大量新闻中做筛选可能涉及要阅读大量的冗余材料。已经呈现了一系列算法,用来分析新闻馈送且在假定用户以前已经看过的内容的模型的情况下标识出承载最多新颖性信息的稿件。为此目的,用从文本中提取的命名实体来扩展基于字词的表示。使用这个表示,采用了多种距离度量来估计每个新闻稿件和一个稿件集合(例如,先前读过的报道)之间的差异。作为该算法基础的技术通过研究信息递送从稿件到稿件、以及在上下文字词窗口的水平上在每篇个别稿件内是是如何随时间进展的,对文档间动态学和文档内动态学进行分析。
新闻浏览器或纳入了这些算法的基于服务器的服务可向用户提供一种个性化的新闻体验,给用户调节所需新闻更新的频率以及调节这些更新与种子报道应当有多大程度的类似性的能力,途径是在新颖性约束上施加控制。可以提供更加复杂的距离度量,以引入在此描述的基本度量中的一部分,以及文档内模式的更详细的轮廓。
图8-11所示是根据本发明一个方面的示例性用户接口。图8在810例示了一连串的新闻报道,其中在810从新闻报道中选择出了一个特别主题并在820显示出来(例如,调查员探查(Investigators Probe)……)。当在810选择了一个主题,显示820即显示与挑选的主题有关的感兴趣的新闻。在830,一个在820处的列表里被选择的具体新闻被显示。图9所示是在一个主题被选择之后,它可以被列在910处已读部分之下。图10所示是后续新稿件是如何出现在1010处然后在1020被检查或阅读的。图11表示的是1020的被读新闻是如何随后被放置到1110的已读位置的。
参照图12,用于实现本发明各种方面的示例性环境1210包括一计算机1212。计算机1212包括一个处理单元1214、***存储器1216、***总线1218。***总线1218将包括—但不限于—***存储器1216在内的***组件连接到处理器单元1214。处理器单元1214可以是各种可用处理器中的任何一种。双微处理器和其它多重微处理器架构都可用做处理单元1214。
***总线1218可以是几种类型总线结构中的任意一个,包括存储器总线或存储器控制器、***总线或外部总线、和/或使用各种可用总线架构中的任何架构的本地总线,这种架构包括但不限于,16-位总线、工业标准结构(“ISA”)总线、微信道体系结构(“MCA”)总线、扩展的ISA(“EISA”)总线、集成驱动器电子电路(IDE)总线、VESA局部总线(VLB)、外设组件互连(PCI)总线、通用串行总线(USB)、加速图形端口(AGP)总线、个人计算机存储卡国际协会(PCMCIA)总线、小型计算机***接口(SCSI)总线。
***存储器1216包括易失性存储器1210和非易失性存储器1222。基本输入/输出***(BIOS)存储在非易失性存储器1212中,它包含帮助在比如启动过程中在计算机1212内的部件之间传输信息的基本例程。作为例子而非限制,非易失性存储器1222包括只读存储器(ROM)、可编程只读存储器(PROM)、电子可编程只读存储器(EPROM)、电子可擦除只读存储器(EEPROM)或闪存。易失性存储器1220包括随机存取存储器(RAM)、它起到外部高速缓存存储器的作用。作为例示而非限制,RAM有多种形式,诸如同步随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双数据速率同步动态随机存取存储器(DDR SDRAM)、增强同步动态随机存取存储器(ESDRAM)、同步链动态随机存取存储器(SLDRAM)直接存储器总线式随机存取存储器(DRRAM)。
计算机1212也可以包括可移动/不可移动、易失/非易失性的计算机存储介质。例如,图12例示了盘存储器1224。盘存储器1224包括但不限于以下设备:磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡、或记忆棒。此外,盘存储器1224包括独立于或结合于其它存储介质的存储介质,所谓其它出介质包括但不限于诸如CD-ROM设备、CD-R驱动器、CD-RW驱动器或DVD-ROM的光盘驱动器。为了方便盘存储器设备1224连接至***总线1218,通常使用可移动或不可移动的接口,比如接口1226。
应当理解,图12描述了在用户和以适当的运行环境1210的形式叙述的计算机资源之间充当中介的软件。此类软件包括操作***1228。可以存储在盘存储器1224上的操作***1228控制并分配计算机***1212的资源。***应用1230通过程序模块1232和程序数据1234来利用操作***1228对资源的管理,程序模块和程序数据存储在***存储器1216中或者存储在盘存储器1224中。应当理解,本发明在以在各种操作***或者操作***的组合中实现。
用户可以通过(一个或多个)输入设备1236把命令或信息输入到计算机1212。输入设备1236包括但不限于:鼠标、跟踪球等定位设备、输入笔、触摸板、键盘、麦克风、操纵杆、游戏垫、卫星天线、扫描仪、电视调谐卡、数码相机、数码录像机、web照相机、等等。这些和其它输入设备通过***总线1218经由(诸)接口端口1238连接到处理单元1214。接口端口1238包括,例如,串行口、并行口、游戏口、通用串行口(USB)。输出设备1240使用与输入设备1236相同类型的部分端口。由此,例如,USB端口可以用来向计算机1212提供输入,也可以用来从计算机1212向输出设备1240输出信息。设置输出适配器1242是为了说明有部分的输出设备1240,像监视器、扬声器、打印机以及其它输出设备1240等会要求特殊的适配器。输出适配器1242,作为例子而非限制,包括在输出设备1240和相同总线1218之间提供连接手段的声像卡。应当注意,其它设备和/或设备体系既提供输入能力也提供输出能力,比如远程计算机1244。
计算机1212可以工作在使用到一个或多个远程计算机如远程计算机1244的逻辑连接的网络化环境中。远程计算机1244可以是个人计算机、服务器、路由器、网络计算机、工作站、基于微处理器的家用电器、对等设备或其它公共网络节点和类似设备,通常可包括与计算机1212相关来描述的许多或所有的要素。为了简洁起见,远程计算机1244只例示了一个存储器装置1246。远程计算机1244通过网络接口1248逻辑逻辑到计算机1212,然后经由通信连接1250进行物理连接。网络接口1248囊括了局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE1102.3、令牌环/IEEE1102.5、综合业务数字网络(ISDN)等回路交换网络以及其变型、分组交换网络、数字用户线(DSL)。
通信连接1250是指用来把网络接口1248连接到总线1218的软件/硬件。尽管为了清楚起见把通信1250连接例示在计算机1212之中,它也可以是在计算机1212之外。连接到网络接口1248所必须的软件/硬件包括—仅为示例性目的—内设技术和外设技术,诸如调制解调器,包括常规电话级调制解调器、电缆式调制解调器、DSL调制解调器、ISDN适配器、以太网卡。
图13是样本计算环境1300的一个示意框图,本发明可与其交互。***1300包括一个或多个的客户1310。客户1310可以是硬件和/或软件(,线程、进程、计算装置)。***1300也包括一个或多个服务器1330。服务器1330也可是硬件和/或软件(如,线程、进程、计算装置)。服务器1330可容纳线程以采用本发明来执行变换。客户1310和服务器1330之间可能的一种通信形式是适应于在两个或多个计算机进程之间传输的数据分组。***1300包括一通信框架1350,它可被用来促进客户1310和服务器1330之间的通信。客户1310被可操作性地连接到一个或多个用来储存本地信息给客户1310的客户信息存储器1360。类似地,服务器1330被可操作性地连接到一个或多个用来储存本地信息给服务器1330的服务器数据存储器1340。
以上所述包括有本发明的例子。当然,为了描述本发明的目的,描述每个可以想见的组件或方法的组合是不现实的,但是,本领域技术人员会认识到,许多进一步的组合和轮换对本发明来说是可能的。因此,本发明旨在包含所有这样的落在所附潜力要求书的精神和范围之内的变更、改进和变化。此外,以本说明书和权利要求书为限,术语“具有”类似于术语“包括”。

Claims (40)

1.一种用于分布个性化信息的***,其特征在于,它包括:
一比较器,其确定两个或多个信息项目之间的差异;以及
一分析器,其自动地、部分地基于所述差异并随着与所述信息项目有关的数据随时间的演化来确定所述信息项目的子集作为个性化信息。
2.如权利要求1所述的***,其特征在于还包括一过滤器,以丢弃在前观测的信息。
3.如权利要求1所述的***,其特征在于所述信息项目涉及新闻流。
4.如权利要求1所述的***,其特征在于还包括至少一个服务器,以收集所述信息项目用于由所述分析器进一步处理。
5.如权利要求1所述的***,其特征在于,所述比较器处理就各组文档中的词频所搜集的详细统计数据以表征各文档组间的差异和相似性。
6.如权利要求1所述的***,其特征在于还包括一字词模型,其采用表示人物、组织或地理位置的命名实体。
7.如权利要求1所述的***,其特征在于还包括一个性化新闻门户或新闻资料快报,其寻求将用户的时间和中断最小化。
8.如权利要求1所述的***,其特征在于还包括一框架,用于确定众多应用中的差异,包括文本集的自动扼要描述和比较、不同新闻的自动标识、文本中反映出的范围和兴趣、或新信息的自动标识。
9.如权利要求1所述的***,其特征在于,所述比较器确定在内容上的差异、结构组织上的差异和时间上的差异中的至少一个。
10.如权利要求9所述的***,其特征在于还包括一组件,用于表征新闻故事的新颖性并用于将新闻稿排序,使得每篇新闻稿向先前已阅稿中添加最多信息。
11.如权利要求9所述的***,其特征在于还包括一组件,用于分析话题随时间的演化,以便能够将新闻更新的重要性和相关性定量化。
12.如权利要求11所述的***,其特征在于还包括提供话题参数的用户控制,以便提供个性化新闻经验。
13.一种在其上存储有用于实现如权利要求1所述的组件的计算机可读指令。
14.一种创建个性化信息的方法,其特征在于,它包括:
自动分析来自不同信息源的文档;
自动确定所述文档的新颖性;以及
基于所述文档的新颖性创建个性化信息馈送。
15.如权利要求14所述的方法,其特征在于还包括通过为每个文档组建立一模型以推断文档组之间的差异,且随后用相似性度量来比较所述模型。
16.如权利要求15所述的方法,其特征在于,所述模型采用在字词特征上的修匀几率分布或在同一特征空间内的权重矢量。
17.如权利要求15所述的方法,其特征在于,相似性度量还包括KL发散、JS发散、矢量计算的余弦、特征权重矢量的余弦和对先前未见过的命名实体的密度衡量中的至少一种。
18.如权利要求17所述的方法,还包括提供一新颖性排序算法,该算法被迭代式地应用以产生一个读者可能会感兴趣的稿件小集。
19.如权利要求18所述的方法,还包括以下至少之一:提供一希望递增分析和将实际可用的更新与用户已阅的种子报道进行比较,选择与种子报道最不相似的稿件。
20.如权利要求19所述的方法,还包括下列算法:
算法RANKNEWSBYNOVELTY(dist,seed,D,n)
R←seed//initialization
for i=1 to min(n,|D|)do
d ← arg max d i ∈ D { dist ( d i , R ) }
R←R∪{d};D←D\{d}
其中dist是距离度量,seed是种子报道,D是一组相关更新,n是所期望选择的更新数量,R是根据新颖性排序的稿件集。
21.如权利要求19所述的方法,还包括提供用户快报的效益对于成本的一般分析以基于用户的上下文考虑而用中断用户的代价平衡特定稿件或稿件组的信息价值。
22.如权利要求19所述的方法,还包括将在一个时期中收到稿件与定期收到的稿件集合进行比较。
23.如权利要求22所述的方法,还包括确定考虑了与主题相关的先前稿件但按时间减损其度量权重的距离度量。
24.如权利要求19所述的方法,还包括下列算法:
算法PICKDAILYUPDATE(dist,Bg,D,thresh)
d ← arg max d i ∈ D { dist ( di , Bg ) }
If dist(d,Bg)>thresh then display(d)
Bg←D
其中dist是距离度量,Bg是背景参考集,包括在前一天收到的有关稿件的集合,D是在今天收到的一组新稿件,thresh是用户定义的敏感性阈值。
25.如权利要求19所述的方法,还包括确定新颖性的猝发。
26.如权利要求25所述的方法,还包括确定一宽度为w的中值过滤器,其对以当前点为中心的窗口内的w个数据点进行分类。
27.如权利要求26所述的方法,还包括下列算法:
算法IDENTIFYBREAKINGNEWS(dist;D;l;fw;thresh)
Window←∪l i=1di∈D
for i=l+1 to|D|do
Scoresi←dist(di,Window)
Window←(Window\di-1)Udi
Scoresfilt←MedianFilter(Scores,fw)
For j=1 to |Scoresfilt|do
If Scoresfilt j>thresh then
      display(dj+1)
      skip to the beginning of the next burst
其中dist是距离度量,D是有关稿件的序列,l是滑动窗口长度,fw是中值过滤器宽度,thresh是用户定义的敏感性阈值。
28.如权利要求19所述的方法,还包括确定摘要稿件、详述稿件、衍生稿件和无关稿件中的至少一个。
29.一种进行文档分析的方法,包括:
为一组文档中的每份文档构造一个语言模型;
确定一固定距离度量以分析所述文档;和
在文档中的字词上至少滑动一个窗口。
30.如权利要求29所述的方法,还包括将所述窗口的距离得分相对于种子报道做图。
31.如权利要求29所述的方法,还包括按照通过使用选定的度量比较当前文档的语言模型与种子报道的语言模型而规定的,来确定每个字词相对于种子报道的点态得分和。
32.如权利要求31所述的方法,还包括采用约为20的窗口长度参数。
33.如权利要求29所述的方法,还包括在从现在时间起算的不同的新时间范围内,协助对当前未读的有关主题的新闻报道的理想阅读顺序或路径的设计。
34.如权利要求29所述的方法,还包括为跟上新闻而设计顺序,考虑最近的新闻和一段时间内的新闻猝发,以帮助人们认识新闻报道的演化并通过主要事件或更新来导航报道的历史。
35.如权利要求29所述的方法,还包括开发不同类型的显示设计和隐喻。
36.如权利要求35所述的方法,所述类型包括使用时间线视图或者时间上的组群。
37.如权利要求29所述的方法,还包括在桌面设定或者移动设定中提供一个主题的即时新闻报道的理想化快报。
38.如权利要求37所述的方法,还包括允许用户指定主题或关键字,当给定用户已经阅读的内容有充足新颖性时,则向用户做快报。
39.如权利要求37所述的方法,还包括当带有关键字的新闻报道出现时,如果该信息的新颖性高于预定新颖性阈值,则向用户做快报。
40.一种创建个性化信息的***,包括:
用于分析多个来自不同信息源的文档的装置;
用于确定所述文档相似性的装置;和
用于基于所确定的文档相似性上的差异提供信息的个性化馈送的装置。
CN2005100531853A 2004-03-02 2005-03-02 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法 Pending CN1664819A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US54937104P 2004-03-02 2004-03-02
US60/549,371 2004-03-02
US10/827,729 US7293019B2 (en) 2004-03-02 2004-04-20 Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US10/827,729 2004-04-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2008100907009A Division CN101256591B (zh) 2004-03-02 2005-03-02 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法

Publications (1)

Publication Number Publication Date
CN1664819A true CN1664819A (zh) 2005-09-07

Family

ID=34915631

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2005100531853A Pending CN1664819A (zh) 2004-03-02 2005-03-02 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
CN2008100907009A Expired - Fee Related CN101256591B (zh) 2004-03-02 2005-03-02 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2008100907009A Expired - Fee Related CN101256591B (zh) 2004-03-02 2005-03-02 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法

Country Status (9)

Country Link
US (1) US7293019B2 (zh)
EP (1) EP1571579A1 (zh)
JP (1) JP4845392B2 (zh)
KR (1) KR101114012B1 (zh)
CN (2) CN1664819A (zh)
AU (1) AU2005200877B2 (zh)
BR (1) BRPI0500612A (zh)
CA (1) CA2498376C (zh)
RU (1) RU2382401C2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102257487A (zh) * 2008-10-07 2011-11-23 惠普开发有限公司 分析事件
JP2016505995A (ja) * 2013-01-14 2016-02-25 ドロップボックス, インコーポレイテッド 複数のクライアントデバイスに亘る通知フィード
CN105637448A (zh) * 2013-10-17 2016-06-01 三星电子株式会社 利用移动设备脉络化传感器数据、服务数据和设备数据
CN109635089A (zh) * 2018-12-14 2019-04-16 苏州阳澄湖数字文化创意园投资有限公司 一种基于语义网络的文学作品新颖度评价***和方法
CN112668726A (zh) * 2020-12-25 2021-04-16 中山大学 一种高效通信且保护隐私的个性化联邦学习方法
CN114090771A (zh) * 2021-10-19 2022-02-25 广州数说故事信息科技有限公司 一种基于大数据的传播主张和消费者故事分析方法及***

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US8959019B2 (en) * 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US20060240851A1 (en) * 2003-03-21 2006-10-26 Vocel, Inc. Interactive messaging system
US7599938B1 (en) 2003-07-11 2009-10-06 Harrison Jr Shelton E Social news gathering, prioritizing, tagging, searching, and syndication method
CA2686618A1 (en) 2003-07-17 2005-01-17 At&T Corp. Method and apparatus for windowing in entropy encoding
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7865511B2 (en) * 2004-06-25 2011-01-04 Apple Inc. News feed browser
US20050289147A1 (en) * 2004-06-25 2005-12-29 Jessica Kahn News feed viewer
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
AU2006225078B2 (en) * 2005-03-16 2008-11-06 Airscape Technology Pty. Limited Method for distributing computing between server and client
US20060235885A1 (en) * 2005-04-18 2006-10-19 Virtual Reach, Inc. Selective delivery of digitally encoded news content
US20070174286A1 (en) * 2005-05-17 2007-07-26 Yahoo!, Inc. Systems and methods for providing features and user interface in network browsing applications
US9582602B2 (en) * 2005-05-17 2017-02-28 Excalibur Ip, Llc Systems and methods for improving access to syndication feeds in network browsing applications
US20060265472A1 (en) * 2005-05-17 2006-11-23 Yahoo! Inc. Systems and methods for providing short message service features and user interfaces therefor in network browsing applications
US7958446B2 (en) * 2005-05-17 2011-06-07 Yahoo! Inc. Systems and methods for language translation in network browsing applications
US9268867B2 (en) * 2005-08-03 2016-02-23 Aol Inc. Enhanced favorites service for web browsers and web applications
US7702675B1 (en) * 2005-08-03 2010-04-20 Aol Inc. Automated categorization of RSS feeds using standardized directory structures
US8739020B2 (en) 2005-08-03 2014-05-27 Aol Inc. Enhanced favorites service for web browsers and web applications
US20070033290A1 (en) * 2005-08-03 2007-02-08 Valen Joseph R V Iii Normalization and customization of syndication feeds
US8190997B2 (en) * 2005-10-07 2012-05-29 Google Inc. Personalized content feed suggestions page
US8949154B2 (en) * 2005-10-07 2015-02-03 Google Inc. Content feed user interface with gallery display of same-type items
US7853485B2 (en) 2005-11-22 2010-12-14 Nec Laboratories America, Inc. Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis
KR100684160B1 (ko) 2005-12-08 2007-02-20 한국전자통신연구원 개체명 인식을 이용한 대화 분석 장치 및 방법
US8327297B2 (en) * 2005-12-16 2012-12-04 Aol Inc. User interface system for handheld devices
US20070143300A1 (en) * 2005-12-20 2007-06-21 Ask Jeeves, Inc. System and method for monitoring evolution over time of temporal content
US20070218900A1 (en) 2006-03-17 2007-09-20 Raj Vasant Abhyanker Map based neighborhood search and community contribution
US9459622B2 (en) 2007-01-12 2016-10-04 Legalforce, Inc. Driverless vehicle commerce network and community
US8874489B2 (en) 2006-03-17 2014-10-28 Fatdoor, Inc. Short-term residential spaces in a geo-spatial environment
JP4542993B2 (ja) * 2006-01-13 2010-09-15 株式会社東芝 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
US20070192401A1 (en) * 2006-02-16 2007-08-16 Gordon Weakliem System and method for synchronizing syndicated content over multiple locations
US9037516B2 (en) 2006-03-17 2015-05-19 Fatdoor, Inc. Direct mailing in a geo-spatial environment
US9064288B2 (en) 2006-03-17 2015-06-23 Fatdoor, Inc. Government structures and neighborhood leads in a geo-spatial environment
US9098545B2 (en) 2007-07-10 2015-08-04 Raj Abhyanker Hot news neighborhood banter in a geo-spatial social network
US9070101B2 (en) 2007-01-12 2015-06-30 Fatdoor, Inc. Peer-to-peer neighborhood delivery multi-copter and method
US9071367B2 (en) 2006-03-17 2015-06-30 Fatdoor, Inc. Emergency including crime broadcast in a neighborhood social network
US9373149B2 (en) 2006-03-17 2016-06-21 Fatdoor, Inc. Autonomous neighborhood vehicle commerce network and community
US8738545B2 (en) 2006-11-22 2014-05-27 Raj Abhyanker Map based neighborhood search and community contribution
US8965409B2 (en) 2006-03-17 2015-02-24 Fatdoor, Inc. User-generated community publication in an online neighborhood social network
US9002754B2 (en) 2006-03-17 2015-04-07 Fatdoor, Inc. Campaign in a geo-spatial environment
US20080201156A1 (en) * 2007-02-21 2008-08-21 Fatdoor, Inc. User-generated community publication in a geo-spatial environment
US8732091B1 (en) 2006-03-17 2014-05-20 Raj Abhyanker Security in a geo-spatial environment
US7451120B1 (en) 2006-03-20 2008-11-11 Google Inc. Detecting novel document content
US20070265870A1 (en) * 2006-04-19 2007-11-15 Nec Laboratories America, Inc. Methods and systems for utilizing a time factor and/or asymmetric user behavior patterns for data analysis
US20070260586A1 (en) * 2006-05-03 2007-11-08 Antonio Savona Systems and methods for selecting and organizing information using temporal clustering
US8010645B2 (en) * 2006-05-12 2011-08-30 Sharp Laboratories Of America, Inc. Method and apparatus for providing feeds to users
US7831928B1 (en) 2006-06-22 2010-11-09 Digg, Inc. Content visualization
US7865513B2 (en) * 2006-06-30 2011-01-04 Rearden Commerce, Inc. Derivation of relationships between data sets using structured tags or schemas
US20080005148A1 (en) * 2006-06-30 2008-01-03 Rearden Commerce, Inc. Automated knowledge base of feed tags
US20080026742A1 (en) * 2006-07-28 2008-01-31 Sony Ericsson Mobile Communications Ab Information nugget sharing among mobile phones
US8271429B2 (en) 2006-09-11 2012-09-18 Wiredset Llc System and method for collecting and processing data
US7801901B2 (en) * 2006-09-15 2010-09-21 Microsoft Corporation Tracking storylines around a query
US8230361B2 (en) * 2006-09-28 2012-07-24 Google Inc. Content feed user interface
US8645497B2 (en) * 2006-09-28 2014-02-04 Google Inc. Bookmark-based access to content feeds
US8694607B2 (en) * 2006-10-06 2014-04-08 Google Inc. Recursive subscriptions to content feeds
US20080091828A1 (en) * 2006-10-16 2008-04-17 Rearden Commerce, Inc. Method and system for fine and course-grained authorization of personal feed contents
US7752328B2 (en) * 2006-10-16 2010-07-06 Rearden Commerce, Inc. System and method for view of transactions and events with dynamic updates
US8863245B1 (en) 2006-10-19 2014-10-14 Fatdoor, Inc. Nextdoor neighborhood social network method, apparatus, and system
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
US8025220B2 (en) * 2006-11-10 2011-09-27 Fair Isaac Corporation Cardholder localization based on transaction data
US8316000B2 (en) 2006-12-07 2012-11-20 At&T Intellectual Property Ii, L.P. Method and apparatus for using tag topology
US20080155118A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Really simple syndication (rss) feed customization
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US20080294663A1 (en) * 2007-05-14 2008-11-27 Heinley Brandon J Creation and management of visual timelines
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US20090030889A1 (en) * 2007-07-25 2009-01-29 Ehud Chatow Viewing of feeds
US9405792B2 (en) * 2007-08-14 2016-08-02 John Nicholas and Kristin Gross Trust News aggregator and search engine using temporal decoding
WO2009023828A1 (en) * 2007-08-15 2009-02-19 Indiana University Research & Technology Corporation System and method for measuring clarity of images used in an iris recognition system
JP5000427B2 (ja) * 2007-08-21 2012-08-15 京セラドキュメントソリューションズ株式会社 自動原稿給送装置および画像形成装置
US20090070346A1 (en) * 2007-09-06 2009-03-12 Antonio Savona Systems and methods for clustering information
US8060634B1 (en) 2007-09-26 2011-11-15 Google Inc. Determining and displaying a count of unread items in content feeds
US8024347B2 (en) 2007-09-27 2011-09-20 International Business Machines Corporation Method and apparatus for automatically differentiating between types of names stored in a data collection
US10025871B2 (en) 2007-09-27 2018-07-17 Google Llc Setting and displaying a read status for items in content feeds
US20090089380A1 (en) * 2007-09-28 2009-04-02 Microsoft Corporation Aggregating and Delivering Information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8671104B2 (en) * 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8073682B2 (en) 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US20090100031A1 (en) * 2007-10-12 2009-04-16 Tele Atlas North America, Inc. Method and System for Detecting Changes in Geographic Information
US8280885B2 (en) 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US8494978B2 (en) 2007-11-02 2013-07-23 Ebay Inc. Inferring user preferences from an internet based social interactive construct
EP2218019A4 (en) 2007-11-02 2012-04-18 Hunch Inc INTERACTIVE AUTOMATIC LEARNING ADVICE INSTALLATION
US8484142B2 (en) * 2007-11-02 2013-07-09 Ebay Inc. Integrating an internet preference learning facility into third parties
US9159034B2 (en) 2007-11-02 2015-10-13 Ebay Inc. Geographically localized recommendations in a computing advice facility
US8666909B2 (en) 2007-11-02 2014-03-04 Ebay, Inc. Interestingness recommendations in a computing advice facility
US11263543B2 (en) 2007-11-02 2022-03-01 Ebay Inc. Node bootstrapping in a social graph
US8032480B2 (en) * 2007-11-02 2011-10-04 Hunch Inc. Interactive computing advice facility with learning based on user feedback
US8375073B1 (en) 2007-11-12 2013-02-12 Google Inc. Identification and ranking of news stories of interest
US20090144226A1 (en) * 2007-12-03 2009-06-04 Kei Tateno Information processing device and method, and program
US7814108B2 (en) * 2007-12-21 2010-10-12 Microsoft Corporation Search engine platform
US7996379B1 (en) 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
US7970739B2 (en) * 2008-04-30 2011-06-28 International Business Machines Corporation Method and system for maintaining profiles of information channels
US20090292688A1 (en) * 2008-05-23 2009-11-26 Yahoo! Inc. Ordering relevant content by time for determining top picks
US8725716B1 (en) * 2008-05-30 2014-05-13 Google Inc. Customized web summaries and alerts based on custom search engines
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8010545B2 (en) 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US9411877B2 (en) * 2008-09-03 2016-08-09 International Business Machines Corporation Entity-driven logic for improved name-searching in mixed-entity lists
CN102176936B (zh) * 2008-10-10 2014-01-15 甘布罗伦迪亚股份公司 换热器及换热方法
US20100094822A1 (en) * 2008-10-13 2010-04-15 Rohit Dilip Kelapure System and method for determining a file save location
US20100114887A1 (en) * 2008-10-17 2010-05-06 Google Inc. Textual Disambiguation Using Social Connections
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8914359B2 (en) * 2008-12-30 2014-12-16 Microsoft Corporation Ranking documents with social tags
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8583603B2 (en) 2009-04-02 2013-11-12 Microsoft Corporation Employing user-context in connection with backup or restore of data
KR100910718B1 (ko) * 2009-04-28 2009-08-04 황건하 동적 순위 갱신 시스템 및 그 갱신 방법
US8407212B2 (en) 2009-05-20 2013-03-26 Genieo Innovation Ltd. System and method for generation of a customized web page based on user identifiers
US9026641B2 (en) * 2009-05-20 2015-05-05 Genieo Innovation Ltd. System and method for management of information streams delivered for use by a user
US8560575B2 (en) 2009-11-12 2013-10-15 Salesforce.Com, Inc. Methods and apparatus for selecting updates to associated records to publish on an information feed in an on-demand database service environment
US8429170B2 (en) * 2010-02-05 2013-04-23 Yahoo! Inc. System and method for discovering story trends in real time from user generated content
US20110219016A1 (en) * 2010-03-04 2011-09-08 Src, Inc. Stream Mining via State Machine and High Dimensionality Database
US8260789B2 (en) * 2010-04-01 2012-09-04 Microsoft Corporation System and method for authority value obtained by defining ranking functions related to weight and confidence value
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US9361130B2 (en) * 2010-05-03 2016-06-07 Apple Inc. Systems, methods, and computer program products providing an integrated user interface for reading content
WO2011149961A2 (en) 2010-05-24 2011-12-01 Intersect Ptp, Inc. Systems and methods for identifying intersections using content metadata
US8566348B2 (en) 2010-05-24 2013-10-22 Intersect Ptp, Inc. Systems and methods for collaborative storytelling in a virtual space
US20110302103A1 (en) * 2010-06-08 2011-12-08 International Business Machines Corporation Popularity prediction of user-generated content
US8560554B2 (en) 2010-09-23 2013-10-15 Salesforce.Com, Inc. Methods and apparatus for selecting updates to associated records to publish on an information feed using importance weights in an on-demand database service environment
US9076146B2 (en) * 2010-10-15 2015-07-07 At&T Intellectual Property I, L.P. Personal customer care agent
US9286643B2 (en) 2011-03-01 2016-03-15 Applaud, Llc Personalized memory compilation for members of a group and collaborative method to build a memory compilation
US8615518B2 (en) * 2011-04-11 2013-12-24 Yahoo! Inc. Real time association of related breaking news stories across different content providers
EP2702481A4 (en) * 2011-04-26 2014-10-01 Hewlett Packard Development Co METHOD AND SYSTEM FOR HIERARCHICAL PREDICTION
US9195771B2 (en) 2011-08-09 2015-11-24 Christian George STRIKE System for creating and method for providing a news feed website and application
US8782042B1 (en) * 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8713028B2 (en) * 2011-11-17 2014-04-29 Yahoo! Inc. Related news articles
US8572107B2 (en) * 2011-12-09 2013-10-29 International Business Machines Corporation Identifying inconsistencies in object similarities from multiple information sources
US9633118B2 (en) 2012-03-13 2017-04-25 Microsoft Technology Licensing, Llc. Editorial service supporting contrasting content
US9189473B2 (en) * 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference
US10275521B2 (en) * 2012-10-13 2019-04-30 John Angwin System and method for displaying changes in trending topics to a user
US9146969B2 (en) * 2012-11-26 2015-09-29 The Boeing Company System and method of reduction of irrelevant information during search
US10580243B2 (en) 2013-04-16 2020-03-03 Imageware Systems, Inc. Conditional and situational biometric authentication and enrollment
US9286528B2 (en) 2013-04-16 2016-03-15 Imageware Systems, Inc. Multi-modal biometric database searching methods
US10635732B2 (en) 2013-09-19 2020-04-28 Facebook, Inc. Selecting content items for presentation to a social networking system user in a newsfeed
US9665828B2 (en) 2014-01-16 2017-05-30 International Business Machines Corporation Using physicochemical correlates of perceptual flavor similarity to enhance, balance and substitute flavors
US9439367B2 (en) 2014-02-07 2016-09-13 Arthi Abhyanker Network enabled gardening with a remotely controllable positioning extension
US9457901B2 (en) 2014-04-22 2016-10-04 Fatdoor, Inc. Quadcopter with a printable payload extension system and method
US9004396B1 (en) 2014-04-24 2015-04-14 Fatdoor, Inc. Skyteboard quadcopter and method
US9022324B1 (en) 2014-05-05 2015-05-05 Fatdoor, Inc. Coordination of aerial vehicles through a central server
JP6209492B2 (ja) * 2014-06-11 2017-10-04 日本電信電話株式会社 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
US9971985B2 (en) 2014-06-20 2018-05-15 Raj Abhyanker Train based community
US9441981B2 (en) 2014-06-20 2016-09-13 Fatdoor, Inc. Variable bus stops across a bus route in a regional transportation network
US10601749B1 (en) 2014-07-11 2020-03-24 Twitter, Inc. Trends in a messaging platform
US10592539B1 (en) * 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
US9451020B2 (en) 2014-07-18 2016-09-20 Legalforce, Inc. Distributed communication of independent autonomous vehicles to provide redundancy and performance
US20160055164A1 (en) * 2014-08-25 2016-02-25 Tll, Llc News alert system and method
US10592841B2 (en) 2014-10-10 2020-03-17 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing online feed items
US9984166B2 (en) * 2014-10-10 2018-05-29 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
CN105335467A (zh) * 2015-09-25 2016-02-17 苏州天梯卓越传媒有限公司 一种用于出版行业热点选题的新颖性判断方法与***
EP3360058A1 (en) * 2015-10-07 2018-08-15 Koninklijke Philips N.V. Device, system, and method for determining information relevant to a clinician
US10372813B2 (en) * 2017-01-17 2019-08-06 International Business Machines Corporation Selective content dissemination
US10621177B2 (en) * 2017-03-23 2020-04-14 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
US11009886B2 (en) 2017-05-12 2021-05-18 Autonomy Squared Llc Robot pickup method
US10698876B2 (en) 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content
US11244013B2 (en) 2018-06-01 2022-02-08 International Business Machines Corporation Tracking the evolution of topic rankings from contextual data
CN111507110B (zh) * 2019-01-30 2022-10-18 国家计算机网络与信息安全管理中心 一种突发事件检测方法、装置、设备及存储介质
WO2020185110A1 (ru) * 2019-03-14 2020-09-17 Публичное Акционерное Общество "Сбербанк России" Способ и система поиска релевантных новостей
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US40591A (en) * 1863-11-10 Improvement in gas-heating apparatus
US52963A (en) * 1866-03-06 Improvement in carts
US7364A (en) * 1850-05-14 Preventing fibers from winding ob drawing rollers in spinning
US43232A (en) * 1864-06-21 Improvement in preserving fruits
US99817A (en) * 1870-02-15 of chicago
US87525A (en) * 1869-03-02 George tefft
US78204A (en) * 1868-05-26 Improved lounge
US83025A (en) * 1868-10-13 Improved sofa-bedstead
US46401A (en) * 1865-02-14 Improved milling-machine
US54130A (en) * 1866-04-24 Improvement in lever-power of windlasses
US80155A (en) * 1868-07-21 brisk ell
US40590A (en) * 1863-11-10 Improvement in wrenches
US34078A (en) * 1862-01-07 Improvement in scroll-saws
US80156A (en) * 1868-07-21 James k
US32689A (en) * 1861-07-02 Improvement in projectiles for ordnance
US83158A (en) * 1868-10-20 Frank a
US154476A (en) * 1874-08-25 Improvement in sulky-plows
US54174A (en) * 1866-04-24 Improved sad-iron
US52930A (en) * 1866-02-27 Improvement in wrenches
US44152A (en) * 1864-09-13 Improved tile-machine
US43231A (en) * 1864-06-21 Improved tire or hoop bender
US5434777A (en) * 1992-05-27 1995-07-18 Apple Computer, Inc. Method and apparatus for processing natural language
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5555376A (en) * 1993-12-03 1996-09-10 Xerox Corporation Method for granting a user request having locational and contextual attributes consistent with user policies for devices having locational attributes consistent with the user request
US5812865A (en) * 1993-12-03 1998-09-22 Xerox Corporation Specifying and establishing communication data paths between particular media devices in multiple media device computing systems based on context of a user or users
US5493692A (en) * 1993-12-03 1996-02-20 Xerox Corporation Selective delivery of electronic messages in a multiple computer system based on context and environment of a user
US6035104A (en) 1996-06-28 2000-03-07 Data Link Systems Corp. Method and apparatus for managing electronic documents by alerting a subscriber at a destination other than the primary destination
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6209023B1 (en) * 1998-04-24 2001-03-27 Compaq Computer Corporation Supporting a SCSI device on a non-SCSI transport medium of a network
US6421711B1 (en) * 1998-06-29 2002-07-16 Emc Corporation Virtual ports for data transferring of a data storage system
US6470397B1 (en) * 1998-11-16 2002-10-22 Qlogic Corporation Systems and methods for network and I/O device drivers
US6363427B1 (en) * 1998-12-18 2002-03-26 Intel Corporation Method and apparatus for a bulletin board system
US6513046B1 (en) * 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US6791580B1 (en) * 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US7137069B2 (en) 1998-12-18 2006-11-14 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US7055101B2 (en) 1998-12-18 2006-05-30 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6812937B1 (en) * 1998-12-18 2004-11-02 Tangis Corporation Supplying enhanced computer user's context data
US7076737B2 (en) 1998-12-18 2006-07-11 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6466232B1 (en) 1998-12-18 2002-10-15 Tangis Corporation Method and system for controlling presentation of information to a user based on the user's condition
US6801223B1 (en) * 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US6747675B1 (en) 1998-12-18 2004-06-08 Tangis Corporation Mediating conflicts in computer user's context data
US7107539B2 (en) 1998-12-18 2006-09-12 Tangis Corporation Thematic response to a computer user's context, such as by a wearable personal computer
US6842877B2 (en) * 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US6389432B1 (en) * 1999-04-05 2002-05-14 Auspex Systems, Inc. Intelligent virtual volume access
WO2001075676A2 (en) 2000-04-02 2001-10-11 Tangis Corporation Soliciting information based on a computer user's context
JP3562572B2 (ja) 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
CN1336610A (zh) * 2000-07-27 2002-02-20 国际商业机器公司 网上商务交易的广告方法及其***
US20030046401A1 (en) 2000-10-16 2003-03-06 Abbott Kenneth H. Dynamically determing appropriate computer user interfaces
US20020054130A1 (en) 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
US20020044152A1 (en) 2000-10-16 2002-04-18 Abbott Kenneth H. Dynamic integration of computer generated and real world images
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
US6801917B2 (en) * 2001-11-13 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for partitioning a plurality of items into groups of similar items in a recommender of such items
JP2003162639A (ja) * 2001-11-28 2003-06-06 Fujitsu Ltd 銘柄選択支援装置
JP4452012B2 (ja) 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102257487A (zh) * 2008-10-07 2011-11-23 惠普开发有限公司 分析事件
US8655800B2 (en) 2008-10-07 2014-02-18 Hewlett-Packard Development Company, L.P. Distance based visualization of event sequences
CN102257487B (zh) * 2008-10-07 2015-07-01 惠普开发有限公司 分析事件
JP2016505995A (ja) * 2013-01-14 2016-02-25 ドロップボックス, インコーポレイテッド 複数のクライアントデバイスに亘る通知フィード
CN105637448A (zh) * 2013-10-17 2016-06-01 三星电子株式会社 利用移动设备脉络化传感器数据、服务数据和设备数据
CN109635089A (zh) * 2018-12-14 2019-04-16 苏州阳澄湖数字文化创意园投资有限公司 一种基于语义网络的文学作品新颖度评价***和方法
CN109635089B (zh) * 2018-12-14 2023-09-05 李华康 一种基于语义网络的文学作品新颖度评价***和方法
CN112668726A (zh) * 2020-12-25 2021-04-16 中山大学 一种高效通信且保护隐私的个性化联邦学习方法
CN112668726B (zh) * 2020-12-25 2023-07-11 中山大学 一种高效通信且保护隐私的个性化联邦学习方法
CN114090771A (zh) * 2021-10-19 2022-02-25 广州数说故事信息科技有限公司 一种基于大数据的传播主张和消费者故事分析方法及***

Also Published As

Publication number Publication date
CN101256591B (zh) 2011-02-23
US7293019B2 (en) 2007-11-06
BRPI0500612A (pt) 2005-11-08
JP2005251203A (ja) 2005-09-15
KR20060043331A (ko) 2006-05-15
CA2498376C (en) 2013-10-22
AU2005200877B2 (en) 2011-02-03
AU2005200877A1 (en) 2005-09-22
RU2382401C2 (ru) 2010-02-20
US20050198056A1 (en) 2005-09-08
CA2498376A1 (en) 2005-09-02
RU2005105751A (ru) 2006-08-10
EP1571579A1 (en) 2005-09-07
JP4845392B2 (ja) 2011-12-28
KR101114012B1 (ko) 2012-03-13
CN101256591A (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
CN1664819A (zh) 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
JP5247475B2 (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN1841380B (zh) 用于改进搜索引擎相关性的数据挖掘技术
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
DE112016003112T5 (de) Modellieren persönlicher Entitäten
CN105069103B (zh) App搜索引擎利用用户评论的方法及***
US20080168070A1 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
US20060095852A1 (en) Information storage and retrieval
US20160055164A1 (en) News alert system and method
CN1694101A (zh) 用于搜索术语建议的多种类型数据的加强群集
CN112131449A (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN102945269A (zh) 上下文感知加标签接口
WO2006099621A2 (en) Topic specific language models built from large numbers of documents
CN1629844A (zh) 动态内容聚类
CN112749328B (zh) 搜索方法、装置和计算机设备
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
Schinas et al. Mgraph: multimodal event summarization in social media using topic models and graph-based ranking
CN110889034A (zh) 数据分析方法及数据分析***
CN1495647A (zh) 信息存储和检索
CN116932906A (zh) 一种搜索词推送方法、装置、设备及存储介质
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
US8886651B1 (en) Thematic clustering
CN116738036B (zh) 基于大数据的用户行为分析方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20050907