CN1629844A - 动态内容聚类 - Google Patents

动态内容聚类 Download PDF

Info

Publication number
CN1629844A
CN1629844A CNA2004101020460A CN200410102046A CN1629844A CN 1629844 A CN1629844 A CN 1629844A CN A2004101020460 A CNA2004101020460 A CN A2004101020460A CN 200410102046 A CN200410102046 A CN 200410102046A CN 1629844 A CN1629844 A CN 1629844A
Authority
CN
China
Prior art keywords
information
neighborhood
cluster
document
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004101020460A
Other languages
English (en)
Other versions
CN100565503C (zh
Inventor
C·B·威尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1629844A publication Critical patent/CN1629844A/zh
Application granted granted Critical
Publication of CN100565503C publication Critical patent/CN100565503C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了动态更新用于在因特网上发布的信息的一种方法和***。从来自诸如新闻社的多个源的接收的信息中提取富有意义的内容。该信息包括文本、声音、图像和视频。可确定该接收的信息的一组表征性特征。有共同表征性特征的信息被归组成多个聚类。在归组步骤中获得的信息可用于确定如何基于客户的信息请求来发布聚类中所包含的信息。这种客户请求可基于查询或分配给该客户的用户提问单。

Description

动态内容聚类
(1)技术领域
本发明涉及为文档自动分类和再版所进行的文档分析。
(2)背景技术
希望从诸如因特网的数据源中找到相关的最新信息的用户不断地面对的是新内容的纷至沓来。通过把相似内容归组(group together),在这大量数据中从头至尾进行拣选的任务即可得到简化。
现有技术已被用来自动分拣基于web的原始文档。Lin等所著的题为“从web文档中发现报道性内容块”(Discovering Informative ContentBlocks from Web Documents)的文章描述了从web文本的富有意义内容中自动移除冗余数据的过程。该文的目的是从网页上所显示的冗余的、重复的、和通常不受关注的数据中分拣出有意义数据。
一旦冗余数据从网页中被剥离,网页的文字内容就可使用已知索引技术来进行分类了。然后,被索引后的网页可通过诸如Google、MSN或Yahoo的现有网页搜索引擎来评估。Lin等所著文章丢弃了被认为有冗余数据的网页不相关部分,但并未改变被发现含有有意义信息的文本页面的索引或评估。
Watters等著的题为“根据相似性对新闻文档分级”(Rating NewsDocuments for Similarity)的文章涉及新闻文档的个性化传送***。该文讨论了基于特征短语的提取把新闻文档相关联的一套方法,其中特征短语标识日期、地点、人物、和组织。从这些特征短语可创建新闻表示,用来定义可对其进行比较和分级从而发现相关新闻报道的新闻对象。
在更大的搜索问题上下文中,本发明提供了一种方法,用户可由此快速浏览大量信息并通过仅显示概念上有显著性的内容来锁定他们所关注的事项。
(3)发明内容
本发明揭示了自动更新用于发布的信息的方法和***。富有意义的内容从接收自多种来源的信息中被提取。该信息可包含文本、声音、图像和视频。所收到信息的一组表征性特征被确定。有相同表征性特征的信息被归组到一定数目的聚类之中。在归组步骤中获得的信息被用来确定如何基于客户信息要求来发布聚类中所包含的信息。此客户要求可基于查询或分配给该客户的客户提问单。
本发明的一种用途是用于Newsbot自动化新闻门户,其使用动态内容聚类,来不断地标识和改变全球范围的基于web的新闻网站所呈显的大量新闻故事。当文章进入Newsbot***,如果它们是以先前涉及的故事为中心内容,就被分配到已先存在的聚类中去,否则它们就被分配到新的聚类中去。Newsbot***中聚类的状态每隔几分钟就被记录到用于建立各种Newsbot网页的目录文件中去。
参照附图阅读所附示例性实施例,这些和其他目标、优点和特征将能得到更好的理解。
(4)附图说明
图1是实现本发明示例性实施例组件的一种代表性计算机***;以及
图2是用来向请求者呈现数据的基于互联网的文档检索***示意性表示;
图3-5是为了请求者的有效访问而对那些文档进行分类的过程中所执行的文档处理步骤流程图;以及
图6A和6B是关联在一起形成此类数据聚类的邻域的文档数据聚类示意图;以及
图7是交叠的聚类邻域的示意图。
(5)具体实施方式
实践本发明的示例***
图2描绘的是基于用户的信息请求来评估文档并返回结果的代表性***1。该***具有在带有用于从多个文档源4之一接收文档3的数据存储器的后端服务器5上实现的预处理器。后端服务器5对该文档进行评估用于随后的发布。图1描绘了可用于实现后端服务器的代表性计算机的架构。尽管本发明并不限于文本文档的评估,但在一示例性实施例中,所接收文档包含“XML”格式的文本。例如,当世界各地发生新闻时,新闻文档由***、路透社、***、CNN等(代表性源4)制作并被定期提供给***1。
示例性预处理器是后端服务器计算机5的一部分,该计算机运行诸如Windows Server软件等操作***,并具有存有大量被评估和分类文档的存储器。每个接收到的XML文档中所包含的文本数据被评估或分类。在web服务器7中维护所接收文档的数据库。文档数据库的分类被更新,使得文档的输入请求(例如来自用户)可通过发布基于以下讨论的标准被认为是最适当的文档以最新的信息来响应。后端服务器5通过把有共同点的文档归组成被称作文档目录的众多文档聚类来完成评估或分类。
图2的web服务器7使用来自后端服务器5的聚类数据更新目录。网络服务器7把包含在聚类中的被网络服务器判断为最相关的文档提供给用户或客户8。相关性的判断基于众多标准,其中部分标准可能包括特定客户提供给web服务器的信息。
计算机***
图1描绘了一种示例性数据处理***。诸如图1所示***的数据处理***可充当后端服务器5和网络服务器7。该***具有常规计算机20形式的通用计算设备,它包括一个或多个处理单元21、***存储器22、和耦合各种***组件包括将***存储器耦合到处理单元21的***总线23。***总线23可以是若干类型总线结构的任一种,包括存储器总线或存储器控制器、***总线、和使用各种总线架构的任一种的本地总线。
***存储器包括只读存储器(ROM)24和随机存取存储器(RAM)25。包含帮助在计算机20元件间传送信息(如起动时)的基本例程的基本输入/输出***26(BIOS)存储在ROM 24中。
计算机20还包括读取和写入硬盘(未示出)的硬盘驱动器27,读取和写入可移动磁盘29的磁盘驱动器28,读取和写入可移动光盘31,如CDROM或其它光学介质的光盘驱动器30。硬盘驱动器27、磁盘驱动器28、和光盘驱动器30分别由硬盘驱动器接口32、磁盘驱动器接口33和光盘驱动器接口34连接到***总线23。驱动器及其相关联的计算机可读介质为计算机20提供计算机可读指令、数据结构、程序模块、和其它数据的非易失存储。尽管在此所述的该示例性环境采用了硬盘、可移动磁盘29、和可移动光盘31,但本邻域技术人员应明白计算机可访问的可存储数据的其它类型计算机可读介质,如磁带、闪存卡、数字化视频光盘、Bernoulli盘、随机存取存储器(RAM)、只读存储器(ROM)等等,也可被用于该示例性操作环境中。
众多程序模块,包括操作***35、一个或多个应用程序36、其它程序模块37、和程序数据38,可存储于硬盘、磁盘29、光盘31、ROM 24、或RAM 25中。用户可通过输入设备如键盘40和定位装置42向计算机20输入命令和信息。其它输入设备(未示出)可包括麦克风、游戏杆、游戏垫、***、扫描仪等等。这些和其它输入设备通常通过与***总线耦合的串行端口接口46连接到处理单元21,但也可通过其它接口相连,如并行端口、游戏端口或通用串行总线(USB)。监视器47或其它类型显示设备也通过接口,如视频适配器48和***总线23相连。除了显示器742,个人计算机通常还包括其它***输出装置(未示出),如扬声器和打印机。
计算机20可以在使用与一台或多台远程计算机,诸如远程计算机49的逻辑连接的网络化环境中运行。远程计算机49可以是另一台个人计算机、服务器、路由器、网络PC、对等装置或其它普通网络节点,且通常包括上述与计算机20相关的许多或全部元件,尽管在图1中仅示出存储器存储设备50。图1的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这样的网络化环境在办公室、企业范围计算机网络、企业内部互联网和因特网上是常见的。
当用于LAN网络化环境时,计算机20通过网络接口或适配器53与本地网51连接。当用于WAN网络化环境时,计算机20通常包括调制解调器54或其它用于在广域网52中建立通讯的设备。可以内置或外置的调制解调器54通过串行端口接口46连接到***总线23。在网络化环境中,与计算机20相关的所描述程序模块或其部分模块,可存储在远程存储设备中。可以理解的是,所示网络连接是示例性的,并且也可以使用在计算机间建立通讯连接的其它方法。
图3-5描绘了由后端服务器5对输入信息所执行的过程。该过程分成三个阶段:输入阶段110、合并阶段140、和分配阶段160。在输入阶段110中,带有内容的数据进入该***。在合并阶段,示例性***通过把数据聚类将共同的数据归组,并将其存储在数据库中。在分配阶段,***将内容分配给聚类邻域。这种分配也被维护在描述输入内容的一个或多个聚类及邻域的记录数据库中。
本发明三个阶段的职责由两个主要组件完成:分析组件、和聚类组件。分析组件负责把内容中所含数据缩减成为在该内容中出现的最重要N个权标(token)的相关性排序列表。分析在输入阶段110中进行。内容可以是文本、视频、音频等等。用于缩减的具体技术取决于内容的类型。聚类组件负责将内容分配到聚类中,并负责归组相似聚类。
输入阶段110
考虑一种文本内容的分析组件。这种分析的一个应用是结合新闻分析域来使用,以向用户提供一个相关新闻文章清单。该分析组件在字—权标级上工作。
“权标”被认为是代表单一概念的一个或多个字。例如,“球”、“***”、“航天飞机”都是指单一概念。一篇给定文章中的文本用以下方式被缩减成权标的相关性排序阵列:
·注意每个权标在文本里出现的位置和频率。
·如果权标出现在标题中,那么向该权标的字计数增加T出现次(occurrence),且该权标的起始位置设置为零。
·权标i的相关性设置为e(-α*P0i)*Ni*Ri,其中α为权标相似性的衰变率,它是与文本起始点距离的函数,P0i是权标i第一次出现在文章中的位置,Ni是权标i在给定文章中的出现次数而Ri是权标i文档频率倒数的对数,其中频率可用该字出现在文档中的次数除以在代表性文集中所含的文档数。通常,用近期文章的集合作为代表性文集。
·每条内容的最高K个权标—相关性对被发送到聚类引擎中。相关性之和被归一化为1.0(L1归一)。
考虑以下短新闻故事;
Shuttle Disintegrates on Re-Entry
At 12:08 this afternoon,NASA announced that the space shuttle
Discovery disintegrated as it was re-entering the earth’s atmosphere.
Witnesses in a remote area of Texas saw remnants of what was believed
to be the doomed shuttle disintegrate in long white plumes that
extended across the blue sky.Discovery’s mission had been plagued
with difficulties for the entire two weeks it had been in space.Just
yesterday,Commander Smith of Discovery was quoted by
communications specialists at NASA’s mission control as saying“this
has been a tough ride and on behalf of my crew I want to thank you
guys for all the help you have given us.”Smith along with the seven
other mission specialists are presumed dead and NASA has confirmed
that it has contacted the families of all eight crew members.In the post
9/11 sensitivity to terrorist activity,NASA made it clear there was no
evidence of tampering or attacks on the space craft.President Bush has
already scheduled a news conference tomorrow evening(Wednesday
8:00PM EST)and it is speculated that by the time of the new
conference NASA may have more information regarding the cause of
this disaster.
考虑此故事中的字“shuttle”。在示例性***中,字中字母的大小写被认为是不重要的,因此Shuttle和shuttle是一样的。注意,除了在文章正文中找到的正常频率次数外,术语Shuttle在标题中的出现增加了频率次数。假设T=2。在此新闻故事中,术语shuttle出现六次(真实的四次和因为出现在标题中的两次)。另外,因为“shuttle”出现在标题中,其起始位置设置为零,使得e(-α*P0i)等于1。
当收到文档时,根据其来源它已被归类为“新闻”文档。其它类别为“运动”、“娱乐”、“旅游”等或这些类别下的小类别。运行于后端服务器上的预处理器软件维护着新闻类文档的数据库。该数据库具有当前在目录中的新闻文档中所包含的数以千计的字的文档频率数据。对于近来发生的新闻故事中某些字的频率可能起始时较低,而随时间流逝增长。对于新近收到的新闻故事,Shuttle在所有目录中的新闻文档中的出现率低,从而其倒数的对数值高。基于这些因素,相当肯定的是此故事中K个最高相关性权标之一为字“shuttle”。
对于一给定新闻文章,这种分析的结果是一尺寸为K的(权标,相关性)对的向量,其中K是向量中这种对的数量。形式为 X → = ( W i , X i ) 的向量形成。相关性最高的K个权标或字W分别对该向量有所贡献,而权标的值X由以上相关性公式确定。该向量的值被归一化,从而N项或N个权标的相关性因子值Xi的和为1.0。基于粗略检查,最高N项中出现的其它权标为“NASA”、“Space”和“Discovery”。
预处理器的聚类组件采用了一种改进的“模糊K中数”聚类技术(fuzzyK means clustering)。K中数聚类是一种基于数据的相似性将数据归组的著名方法。K中数聚类在例如2000年1月授权给Fayyad等人的6,012,058号美国专利中有描述。该专利在此引入作为参考。
聚类是在包括数据挖掘、统计学数据分析、和数据压缩在内的各种技术的重要应用领域。很多流行的聚类技术使用基本K中数法,其中数据聚类被初始化而且数据以硬方式添加到初始化聚类中,也就是说,每个数据项属于且仅属于一个聚类。根据该示例性实施例,一个信息内容项或文档可属于一个以上聚类。
根据示例性实施例,每个聚类由以下信息来表示:
·以用于由web服务器发布的形式分配给聚类中的内容项(例如文本文档)。
·代表该聚类的K个最高权标-相关性对(归一化使相关性因子之和为1.0)。这些组对被称为聚类中数。
·该聚类最高的L个所需权标。为了使一条内容,比如一个文本文档,能添加到该聚类中去,该内容必须在其K个最高权标-相关性对中包含所有的L个所需权标。L是比K小的数字,且可以是对所有聚类而言相同的一个固定预设定值。在一示例性实施例中,L的值被设定为取决于文档语言和类别的值。值3就曾在一***中成功用于分类新闻文档。
当首次从自源4收到一个文档,该文档被评估并分配到一个现有聚类中。如果无法将其分配到一个聚类中,则它形成自己的包含一个文档的聚类。当给定内容的权标—相关性对进入聚类组件时,遵从图3所示过程110:
·检索当前内容可能会属于其的所有候选聚类,即其L个所需权标在当前内容中出现的所有聚类。
·计算该内容和候选聚类之间的权标—相关性对的内积。内积也称为两个向量的点积。这一计算使后端服务器能作出内容是否加入聚类的决定(112)。
·在上述内积超过给定阈值T时,内容添加到每个聚类中(114)。在一示例性***中,如果内积超过一经验确定值,则做出添加的决定。此值基于在组或聚类中维持适当数量文档的同时,文档类别必须集中到什么程度来确定,且此值可动态变化。
·当一条信息被添加到聚类中时,聚类中数通过对分配到该聚类中所有内容的所有权标—相关性对取和重新进行计算;选择K个最高权标—相关性对;将结果的和归一为1.0。来自L个最高权标—相关性对的权标成为聚类的所需权标。
·如果没有聚类匹配输入内容,则为该内容创建一个新的聚类。该单个文档聚类的中数是K个权标—相关性对。来自L个最高权标—相关性对的权标成为该聚类的所需权标。
合并阶段140
在周期性间隔上(在本发明的新闻收集实施例中为每隔几分钟),在所谓发布周期期间,对聚类进行检查(图4)以了解是否应将先前独立的聚类归组成一个邻域(neighborhood)。这个过程在“合并阶段”140期间发生。用于发现输入内容聚类的相同过程在此阶段使用,即聚类中数的内积被确定。但是,在找到匹配时所发生的就不相同了。
当两个或多个聚类被合并时,聚类的中数(归一化的权标/相关性对)没有改变。然而,导致合并的聚类被选为父聚类。这个“多个聚类的聚类”称为邻域。一个邻域可包含一个或多个聚类。
如果聚类B合并到聚类A中,即聚类B现在以聚类A为父,则所有以聚类B为父的聚类现在以聚类A为父,并属于A的同一邻域。
当聚类成员改变,即新聚类加入邻域,或老邻域过期,则原来分配到该邻域的内容(例如文本文档)被分配到空邻域(在内容首次进入聚类***时它也被分配到空邻域)。在上例中,当聚类B合并到聚类A中,B和A的所有内容被分配到空邻域。类似地,如果由于时间流逝邻域过期,该邻域所有聚类的内容被分配到空邻域中。邻域过期意味着其相关性下降到低于阈值,如下所述。
考虑如图6A所示的三个聚类142,144,146。这三个聚类包含具有相似内容的文档。但是,这三个文档经其中数内积衡量并未相似到可以称为一个邻域。换一种说法,聚类的内积没有超过所确立的将聚类归组的阈值。这一阈值通常与为把文档分类到聚类而确立的阈值相同。现假定聚类148被创建,且彼此相似的文档被添加到该聚类中。在图4流程图的执行过程中,聚类148被选择(141),且该过程检查邻居142,144,146(及更多远距离聚类,注意,当其内积较小时聚类被视作远距离)(143),确定这四个聚类142,144,146,148足够相似以保证邻域150的创建(图6B)。如在图4流程图中所见,其评估导致邻域建立的聚类148被选作邻域150的父聚类。
分配阶段160
尽管内容在输入阶段被分配到多个聚类,该内容(文档)还未被分配到一邻域中。
在每个发布周期中,有一个分配阶段160。该分配阶段确定一条内容应从属于哪个邻域。回想一下,在输入阶段时,一条内容可被分配到多个聚类中去。考虑图7的情况。文档165被分配到聚类148及第二个邻域中的第二个聚类170。因此,有时就是这种情形,在合并合并阶段140中将内容或文档分配到其中的聚类分别属于独立邻域,诸如邻域150、175。因此在发布给用户时,有必要选择该内容属于哪个邻域。
在分配阶段160中,所有分配给空邻域的内容被选中。对于每一条内容,计算该内容和该内容被分配的每个聚类的内积。有最高内容—聚类内积的聚类所属的邻域是该内容被分配的邻域(见图5)。回想一下,有两种类型的聚类,一种类型是内容可以归属的低级聚类。实际上内容可属于若干个这种低级聚类。第二种类型是作为“多个聚类的聚类”的邻域。一条内容仅可属于一个邻域。当内容被带入***、或当邻域过期、或当邻域被拆分或组合,邻域的成员被设置为空。这样,***知道哪些内容需要被重新分配,即先前从属于已改变的邻域之一的内容需要进行重新分配。***使用以上过程来了解该内容从属于哪个聚类,以确定该内容应重新分配到哪个邻域。在过期邻域情形中,重新分配是必须的。在被改变邻域的情形中,对邻域的改变可导致在一个邻域中的内容要重新进行分配。
用户或客户8希望以文档的邻域形式从web服务器7得到信息。在典型实例中,文档的这些邻域显示在网络浏览器上,诸如互联网浏览器(IE)或众多其它适于在通过公司内部互联网或诸如因特网的广域网而网络化的计算机上作文档显示的众多浏览器之一。在图2中,网络服务器7和客户8之间的信息交换通过请求进行。服务器通过发布最相关邻域中所包含的众多文档来对这个请求作出响应。
客户8可提供给服务器7关于该特定客户的翔实信息。例如,如果该客户用其.Net密码登录他或她的计算机。从客户8处可得到的信息包括客户过去的浏览器行为。更具体地,所提供的信息是涉及不同类型文档的各种链接的鼠标点击形式的过去行为。因此,如果客户是体育迷,文档的类别可能都涉及“棒球”。如果客户是投资家,文档类别绝大多数是“股市新闻”相关类的。如果用户未以网络服务器借以标识具体过去行为的方式登录他或她的计算机,则客户请求即以一般方式对待,且被赋予所有这种一般用户的过去行为。
其它信息也可自动提供给网络服务器7。请求的源可被编码为客户唯一互联网地址的一部分。如果这样,客户的独特语言和国别也可作为与该请求一并提供的信息的一部分。请该求包括具体查询也是可能的。因而,该请求可包括一的直接指示:客户对近期涉及航天飞机事件的所有文章感兴趣。这个请求可能会导致网络服务器向用户发布以上所摘录的那则样本新闻。基于网络服务器7可得到的信息,服务器7通过发布被判断为与该请求最为相关的邻域来响应该请求。网络服务器维护着每个文档邻域的相关性因子。
邻域的相关性会随着时间改变。旧新闻对搜寻有关当前事件信息的人们而言,不会引起多少兴趣。然而,旧文档会与对涉及某一事件、地方或人物的历史或事件年表感兴趣的人特别相关。为确定邻域的相关数或相关因子,必须一开始就考虑文章或文档的相关性。
文章的相关性Ar如下:
A r = ( A · N ) * e ( - t l a ) * ICB a * P R a
A是代表文章A关键字的向量,其中每一元素对应于一个字,元素的大小对应于字的相关性。
N是代表该文章父邻域的向量。此向量基于组成该邻域的所有文档的中数。A和N间的内积(写作A·N)是A和N间的相似性度量。
la是文章衰变率,为时间t的函数。
ICBa是奖励从代表性市场向用户显示的文章的因子。例如,如果文章是向英国的用户或客户8发布,而文章的发布者或源4也来自英国,那么ICBa的值将设为大值,即10.0,否则,ICBa通常取1.0。
PRa是奖励来自重要源的文章的因子。该值代表发布者的值。例如,来自BBC的文章的点击率比随机选择的发布者平均点击率高两倍。因此,来自BBC的文章的PRa值将为2.0。
文章的相关性在以下所示用来确定文档邻域相关性的计算中使用。
进入***的某些文章因为缺乏中心而从来未获发布。这些文档可能是关于多种话题的。文章的中心由文章中最相关关键字的相关性值给出。如果此值过低,它表示对文章是围绕单个主题的假设可能是假的。因此,邻域不会考虑包含该文章。当前,使用的值为0.1。接近0.05的值表示根本不存在必需的中心,其它关键词关联性也是0.05,因此该文章没有中心。
另外,两天后,因为缺乏中心而未被分配到邻域中的文章被丢弃。它将永远不会被发布。
邻域相关性Nr如下:
N r = Σ A r * e - t l n * Sr n
Ar的和是基于以邻域N为父的所有文章求和。
la是邻域衰变率,为时间t的函数。
Srn是从其它类别文档对邻域加权的因子。例如,体育新闻的分级可有1.0的值,而世界新闻的分级可能有10.0的值。Srn因子可以是邻域默认的,或是基于经特定客户过去的行为而确定的特定用户或客户兴趣而赋值的。
一旦邻域的相关性随时间流逝降到阈值以下,或取决于网络服务器接收的用户请求,该邻域不再通过相关性测试,并不再因回应请求而返回。
尽管本发明进行了一定程度的详细描述,本发明旨在包括所有在所附权利要求的精神或范围内的更改和变化。

Claims (41)

1.一种动态更新用于发布的信息的方法,其特征在于,它包括:
a)从接收的信息中抽取一套表征所述接收的信息的表征性特征;
b)将有共同表征性特征的接收的信息归组成多个聚类;以及
c)使用在归组步骤中的所获信息,基于客户的信息请求发布包含在一聚类中的信息。
2.如权利要求1所述的方法,其特征在于,所述接收的信息包括文本数据、图形数据、或视频数据中的一种或多种的组合。
3.如权利要求1所述的方法,其特征在于,所述接收的信息包括一给定类型的多个特征,且其中,在特征被提取时对所述多个特征按重要性进行了分级。
4.如权利要求3所述的方法,其特征在于,一个聚类具有对聚类特征的归纳,且还包括:通过取对新接收的信息共同的特征与归纳所述聚类的特征的内积,来对归纳新接收的信息的特征和归纳于聚类中的特征进行比较,以及在所述内积超过一阈值时将所述新接收的信息并入聚类。
5.如权利要求1所述的方法,其特征在于,对新接收信息的K个最高特征与一聚类的K个最高特征进行比较,以确定所述信息是否加入聚类中。
6.如权利要求5所述的方法,其特征在于,每一特征都有一借以对所述特征进行衡量的相关性因子,且还包括在将所述接收的信息添加到一聚类中前,确定聚类和新接收信息是否至少有L个具非零相关性因子的共同特征。
7.如权利要求1所述的方法,其特征在于,还包括将具有共同特征的聚类归组,以产生一响应客户请求而全部发布的聚类的邻域。
8.如权利要求7所述的方法,其特征在于,所述接收的信息是一包含文档的文本,且邻域的相关性被用于确定是否对客户发布邻域中的文档。
9.如权利要求8所述的方法,其特征在于,所述相关性取决于该文档被分配到该邻域的时间长短而变化。
10.如权利要求8所述的方法,其特征在于,所述相关性根据信息请求中所包含的信息而变化。
11.如权利要求7所述的方法,其特征在于,一条接收的信息可被归组到一个以上聚类中,但仅在一个邻域中发布。
12.如权利要求11所述的方法,其特征在于,还包括维护有一空邻域,并且在开始接收所述信息时,将接收的信息添加到所述空邻域中。
13.如权利要求11所述的方法,其特征在于,还包括维护有一空邻域,并且在因为所述邻域的重新构建而使邻域内容改变时,将接收的信息添加到所述空邻域中。
14.如权利要求11所述的方法,其特征在于,还包括维护有一空邻域,并且当接收的信息变成与一邻域不相关时,将接收的信息添加到所述空邻域中。
15.一种评估文档的过程,其特征在于,它包括:
a)基于文档中权标的出现频率,通过提取K个有最高权标-相关性因子的权标,为随后的发布评估包含文本数据的多个文档;
b)把具有大于一阈值的所述文本数据共性的文档进行归组,以提供所述文档的多个文档聚类;所述归组执行如下:
i)将一候选文档的K个权标与权标文档聚类的一个表征性权标组进行比较;
ii)如果所述比较表示候选文档和文档聚类间有充分的相似度,把该候选文档添加到所述文档聚类中去;
iii)考虑所添加的候选文档,更新文档聚类归纳;以及
c)基于一请求发布分配到指定的一个或多个文档聚类中的文档。
16.如权利要求15所述的过程,其特征在于,文档有文档类别,且对权标-相关性因子的评估包括确定一文档类别中权标的类别频率,并基于所述类别频率将相关性因子分配给所述权标。
17.如权利要求16所述的过程,其特征在于,基于在所述文档中权标的位置,向权标赋予相关性因子。
18.如权利要求15所述的过程,其特征在于,如果所述候选文档不充分相似于一聚类,它形成自己新聚类的基础。
19.如权利要求15所述的过程,其特征在于,权标-相关性因子由关系式e(-α*P0i)*Ni*Ri确定,其中α为权标相似性的衰变率,它是与文档D文本起始点距离的函数,P0i是权标i第一次出现在文本中的位置,Ni是权标i的出现次数而Ri是权标i在文档D所属文档类别中文档频率倒数的对数。
20.如权利要求15所述的过程,其特征在于,文档的聚类被聚集在一起,以形成文档要分配到其中的邻域。
21.如权利要求16所述的过程,其特征在于,邻域被赋予随时间而改变的邻域相关性因子,所述邻域相关性因子被用来确定邻域向谁发布。
22.如权利要求21所述的过程,其特征在于,所述邻域相关性值还随着组成邻域的文档之文档相关性因子而变化。
23.如权利要求22所述的过程,其特征在于,所述文档相关性因子取决于文档源的质量。
24.如权利要求22所述的过程,其特征在于,所述文档相关性因子取决于文档源的位置和请求者的位置。
25.如权利要求21所述的过程,其特征在于,所述邻域相关性因子随着分配给所述邻域的文档类别而变化。
26.一种用于评估文档的***,其特征在于,它包括:
a)一预处理器,用于从多个文档源之一接收文本文档、并评估包含在每个接收的文档中的文本数据以确定基于一请求对文档进行随后发布的合适性;所述预处理器将其共性大于阈值的诸文档归组,以提供多个所述文档的聚类;以及
b)一web服务器,可从所述预处理器访问聚类数据,使一请求者可基于该请求者的请求和指定的一个或多个聚类的文档中所包含文本的归纳之间的比较获得聚类中包含的文档。
27.如权利要求26所述的***,其特征在于,所述预处理器可将聚类归组成一聚类邻域,且其中,邻域中的文档可为请求者所用。
28.如权利要求26所述的***,其特征在于,基于整个聚类的聚类相关性,文档聚类可从网络服务器的发布中移除。
29.一种包含用于动态更新用于发布的信息的指令的计算机可读介质,其特征在于,它包括指令用来:
a)从接收的信息中提取一组表征所述接收的信息的表征性特征;
b)把有共同表征性特征的所述接收的信息归组成多个聚类;
c)使用在归组过程中获得的信息,基于客户的信息请求发布聚类中所有的信息。
30.如权利要求29所述的计算机可读介质,其特征在于,所述接收的信息包括文本数据、图像数据或视频数据中的一种或多种的组合。
31.如权利要求29所述的计算机可读介质,其特征在于,所述接收的信息包括一给定类型的多个特征,且其中在特征被提取时所述多个特征按重要性进行分级。
32.如权利要求29所述的计算机可读介质,其特征在于,一聚类包括对聚类特征的归纳,并且还包括通过取对新接收的信息共同的特征与归纳所述聚类的特征的内积,对归纳新接收的信息的特征和归纳在聚类中的特征进行比较,以及当所述内积超过一阈值时将新接收的信息加入聚类。
33.如权利要求29所述的计算机可读介质,,其特征在于,新接收的信息的K个最高特征与一聚类的K个最高特征相比较,以确定所述信息是否加入聚类中。
34.如权利要求29所述的计算机可读介质,其特征在于,每一特征都有所述特征得以衡量的一相关性因子,且包括在将所述接收的信息添加到一聚类中前,确定聚类和新接收的信息是否至少有L个具非零相关性因子的共同特征。
35.如权利要求29所述的计算机可读介质,其特征在于,包括一附加步骤:把有共同特征的聚类归组,以便产生响应于客户请求可全部发布的一聚类邻域。
36.如权利要求35所述的计算机可读介质,其特征在于,邻域的相关性被用于确定是否向客户发布在邻域中文档。
37.如权利要求36所述的计算机可读介质,其特征在于,所述相关性随着文档在邻域中的时间长短而变化。
38.如权利要求36所述的计算机可读介质,其特征在于,所述相关性根据信息请求中所包含信息而变化。
39.如权利要求35所述的计算机可读介质,其特征在于,还包括维护有一空邻域,并且在开始接收所述信息时,将接收的信息添加到所述空邻域中。
40.如权利要求35所述的计算机可读介质,其特征在于,还包括维护有一空邻域,并且在因为所述邻域的重新构建而使邻域内容改变时,将接收的信息添加到所述空邻域中。
41.如权利要求35所述的计算机可读介质,其特征在于,还包括维护有一空邻域,并且当一邻域与接收信息变成不相关时,将接收信息添加到所述空邻域中。
CNB2004101020460A 2003-12-15 2004-12-15 动态内容聚类 Expired - Fee Related CN100565503C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/735,999 US7333985B2 (en) 2003-12-15 2003-12-15 Dynamic content clustering
US10/735,999 2003-12-15

Publications (2)

Publication Number Publication Date
CN1629844A true CN1629844A (zh) 2005-06-22
CN100565503C CN100565503C (zh) 2009-12-02

Family

ID=34523110

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004101020460A Expired - Fee Related CN100565503C (zh) 2003-12-15 2004-12-15 动态内容聚类

Country Status (6)

Country Link
US (1) US7333985B2 (zh)
EP (1) EP1544752A3 (zh)
JP (1) JP4627656B2 (zh)
CN (1) CN100565503C (zh)
BR (1) BRPI0405741A (zh)
CA (1) CA2490451C (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100458788C (zh) * 2006-09-25 2009-02-04 北京搜狗科技发展有限公司 一种互联网音频文件的聚类方法、搜索方法及***
CN101000627B (zh) * 2007-01-15 2010-05-19 北京搜狗科技发展有限公司 一种相关信息的发布方法和装置
CN102063485A (zh) * 2010-12-29 2011-05-18 深圳市永达电子股份有限公司 一种在线分析网络流中短文本信息聚类的方法
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN103399884A (zh) * 2013-07-14 2013-11-20 王国栋 一种随机新闻***及其自动刷新方法
CN110019800A (zh) * 2017-11-30 2019-07-16 腾讯科技(深圳)有限公司 分发内容处理方法、装置、计算机设备和存储介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138049A1 (en) * 2003-12-22 2005-06-23 Greg Linden Method for personalized news
US7523109B2 (en) * 2003-12-24 2009-04-21 Microsoft Corporation Dynamic grouping of content including captive data
US9760629B1 (en) 2004-12-29 2017-09-12 Google Inc. Systems and methods for implementing a news round table
US20080243799A1 (en) * 2007-03-30 2008-10-02 Innography, Inc. System and method of generating a set of search results
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US8495074B2 (en) * 2008-12-30 2013-07-23 Apple Inc. Effects application based on object clustering
US8533318B2 (en) * 2009-10-06 2013-09-10 International Business Machines Corporation Processing and presenting multi-dimensioned transaction tracking data
WO2012032535A1 (en) * 2010-09-08 2012-03-15 Anuroop Iyengar An intelligent portable e-book/ e- reader
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US8798366B1 (en) 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9026591B2 (en) 2011-02-28 2015-05-05 Avaya Inc. System and method for advanced communication thread analysis
US9881009B1 (en) * 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US9026519B2 (en) 2011-08-09 2015-05-05 Microsoft Technology Licensing, Llc Clustering web pages on a search engine results page
US20130157234A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Storyline visualization
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
US9176969B2 (en) 2013-08-29 2015-11-03 Hewlett-Packard Development Company, L.P. Integrating and extracting topics from content of heterogeneous sources
US9971594B2 (en) * 2016-08-16 2018-05-15 Sonatype, Inc. Method and system for authoritative name analysis of true origin of a file
US10353928B2 (en) 2016-11-30 2019-07-16 International Business Machines Corporation Real-time clustering using multiple representatives from a cluster
CN109325524A (zh) * 2018-08-31 2019-02-12 中国科学院自动化研究所 事件追踪与变化阶段划分方法、***及相关设备
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
US11295398B2 (en) 2019-10-02 2022-04-05 Snapwise Inc. Methods and systems to generate information about news source items describing news events or topics of interest
US11341203B2 (en) 2019-10-02 2022-05-24 Snapwise Inc. Methods and systems to generate information about news source items describing news events or topics of interest
US11250200B2 (en) * 2020-03-16 2022-02-15 Shopify Inc. Systems and methods for generating digital layouts with feature-based formatting

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US6539115B2 (en) * 1997-02-12 2003-03-25 Fujitsu Limited Pattern recognition device for performing classification using a candidate table and method thereof
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US5864690A (en) * 1997-07-30 1999-01-26 Integrated Device Technology, Inc. Apparatus and method for register specific fill-in of register generic micro instructions within an instruction queue
JP2000181936A (ja) * 1998-12-17 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置および文書分類装置
US6678681B1 (en) * 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6615209B1 (en) * 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
JP2001283184A (ja) * 2000-03-29 2001-10-12 Matsushita Electric Ind Co Ltd クラスタリング装置
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US8001118B2 (en) * 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US20050022114A1 (en) * 2001-08-13 2005-01-27 Xerox Corporation Meta-document management system with personality identifiers
AU2003207856A1 (en) * 2002-02-04 2003-09-02 Cataphora, Inc A method and apparatus to visually present discussions for data mining purposes
JP2003256466A (ja) * 2002-03-04 2003-09-12 Denso Corp 適応的情報検索システム
US7523109B2 (en) * 2003-12-24 2009-04-21 Microsoft Corporation Dynamic grouping of content including captive data

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100458788C (zh) * 2006-09-25 2009-02-04 北京搜狗科技发展有限公司 一种互联网音频文件的聚类方法、搜索方法及***
CN101000627B (zh) * 2007-01-15 2010-05-19 北京搜狗科技发展有限公司 一种相关信息的发布方法和装置
CN102063485A (zh) * 2010-12-29 2011-05-18 深圳市永达电子股份有限公司 一种在线分析网络流中短文本信息聚类的方法
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN102654881B (zh) * 2011-03-03 2014-10-22 富士通株式会社 用于名称消岐聚类的装置和方法
CN103399884A (zh) * 2013-07-14 2013-11-20 王国栋 一种随机新闻***及其自动刷新方法
CN110019800A (zh) * 2017-11-30 2019-07-16 腾讯科技(深圳)有限公司 分发内容处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP4627656B2 (ja) 2011-02-09
EP1544752A2 (en) 2005-06-22
US20050131932A1 (en) 2005-06-16
CA2490451A1 (en) 2005-06-15
CN100565503C (zh) 2009-12-02
BRPI0405741A (pt) 2005-08-02
CA2490451C (en) 2014-01-28
EP1544752A3 (en) 2007-10-31
US7333985B2 (en) 2008-02-19
JP2005182808A (ja) 2005-07-07

Similar Documents

Publication Publication Date Title
CN100565503C (zh) 动态内容聚类
US10095725B2 (en) Combinators
JP5185498B2 (ja) エンティティ固有の調整された検索
CN100405366C (zh) 用于为一组搜索结果生成精细化类别的***和方法
KR100898454B1 (ko) 통합 검색 서비스 시스템 및 방법
US5659742A (en) Method for storing multi-media information in an information retrieval system
US7966337B2 (en) System and method for prioritizing websites during a webcrawling process
US5721902A (en) Restricted expansion of query terms using part of speech tagging
US8352452B2 (en) Methods and apparatus for employing usage statistics in document retrieval
US8195671B2 (en) Method for distributing services for knowledge management processing
US7523109B2 (en) Dynamic grouping of content including captive data
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US20040163034A1 (en) Systems and methods for labeling clusters of documents
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US20040249808A1 (en) Query expansion using query logs
US20090259651A1 (en) Search results ranking using editing distance and document information
JP2006018829A (ja) 自動分類生成
CN104838413A (zh) 基于用户提交来调整内容递送
CN1811767A (zh) 用于提供带有自动搜索菜单的用户界面的***和方法
MX2007014899A (es) Mecanismo de concesion para busqueda.
US9244963B2 (en) Systems and methods for rapid delivery of tiered metadata
US20100082628A1 (en) Classifying A Data Item With Respect To A Hierarchy Of Categories
RU2556425C1 (ru) Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Sinka et al. Evolving Better Stoplists for Document Clustering and Web Intelligence.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091202

Termination date: 20191215