CN100378713C - 为对象分类的自动确定显著特点的方法和装置 - Google Patents

为对象分类的自动确定显著特点的方法和装置 Download PDF

Info

Publication number
CN100378713C
CN100378713C CNB02829663XA CN02829663A CN100378713C CN 100378713 C CN100378713 C CN 100378713C CN B02829663X A CNB02829663X A CN B02829663XA CN 02829663 A CN02829663 A CN 02829663A CN 100378713 C CN100378713 C CN 100378713C
Authority
CN
China
Prior art keywords
unique features
list
data object
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB02829663XA
Other languages
English (en)
Other versions
CN1669023A (zh
Inventor
D·P·卢力奇
F·G·吉拉克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1669023A publication Critical patent/CN1669023A/zh
Application granted granted Critical
Publication of CN100378713C publication Critical patent/CN100378713C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

提供了为对象分类而自动确定显著特点的方法和装置。根据一个实施例,从第一内容对象组中提取一个或多个独特特点以形成第一特点列表,再从第二非内容对象组中提取一个或多个独特特点以形成第二特点列表。然后在第一特点列表的独特特点和第二特点列表的独特特点间采用统计区分法产生一分级特点列表。然后从所得的分级特点列表中识别出显著特点集。

Description

为对象分类的自动确定显著特点的方法和装置
发明背景
1.发明领域
本发明涉及数据处理领域。更具体说,本发明涉及用于将对象分组的对象特点的自动选择。
2.背景信息
万维网提供了重要的信息源,估计已可在线阅览下载数十亿页的信息。但为了有效的利用此信息,必需要有一切合实际的方法用于指引此海量数据。
在互联网冲浪的初期,发展了两种基本方法用于网上搜索。在第一种方法里,根据由自动搜索引擎收集在一起的网页内容产生索引数据,搜索引擎在网上“爬行以寻找新的独特的页面。然后,此数据库可用各种质询技术搜索,而且通常数据可根据质询形式的相似性分级。在第二个方法中,网页分组成一分层结构,往往以一棵树的形式呈现。然后当顺着此分层结构下行时,使用者便作出一系列的选择,在代表决定点之下的子树之间显著区别的每一级别上作出两个或更多的选择,最终达至包含文本和/或多媒体内容页面的叶节点。
例如,图1说明一典型的现有技术分层结构102,其中多个决定节点(下称“节点”)130-136分层排列成多个父/或子节点,每一节点均与一独特的学科类别相联系。例如,节点130为节点131与132的父节点,而节点131与132则为节点130的子节点。因为节点131与132都是同一节点(节点130)的子节点,节点131与132互为兄弟。在102学科分层结构中其他的兄弟对包括节点133与134,还有节点135与136。由图1可见,节点130形成学科分层结构102的第一级137,而节点131-132形成学科分层结构102的第二级138。节点133-136则形成学科分层结构102的第三级139。此外,节点130被认为是学科分层结构102的根节点,因为它不是其他任何节点的子节点。
将网页分层分类的过程面临多重挑战。首先,分层结构的性质必须界定。通常这是由专门学科领域中的专家人工完成的,有点像为图书馆做杜威十进制***的分类。然后这些类别加上说明标签提交出来,以便使用者和分类者在指向此分层结构时能作出适当的决定。然后,例如,以个别电子文档形式呈现的内容可用在分类***中人工搜索的方法放进多个类别中去。
近年来人们的注意力已转向这一过程各个阶段的自动化。现已存在从批量文档中将文档自动分类的***。例如,某些***应用与文档有联系的关系字将相似文档自动集合成组群。这些组群又能多次反复组成超级组群,从而产生分层结构,然而,这些***需要人工***关键字,产生的是一个没有***性结构的分层结构。如果此分层结构用于人工搜索,就必须人工检查子节点或叶文档以识别公共特点,从而对分层结构的节点贴上标签。
许多分类***应用字列表将文档分类,通常,显著字可以预先界定,也可从正在处理的文档中选择,以便更为准确地表征文档。一般这些显著字列表是用对一组文档中的每一个文档数全部字的出现频率来产生。然后根据一个或多个判据将字从字列表中移出。往往,在一批文档中出现次数太少的字被剔除,因为这些字用得太少不足以可靠地区分类别,但出现得太频繁的字也要剔除,因为在各类文档中都要出现。
再者,“无用字”与词干也往往从特点列表中剔除以更利于显著特点的确定。无用字包括语言中的普通字,诸如“a”,“the”,“his”与“and”,这些字让人感觉并不具有语义学内容,词干则指诸如“-ing”,“-is”与“-able”等词尾。可惜,生成无用字列表与词干列表是一项语言专业性的任务,要求有语法、文档和习语方面的专业知识,而这些又是会随时间变化的。因此,就要求有一个更为灵巧的方法来确定显著特定。
附图简要说明
本发明将通过示例性实施例来描述,但并无限制,并用附图说明,其中相同的标号表示相似的要素,附图中:
图1说明一包括多个决定节点的示例性现有技术分层结构;
图2(A-C)根据本发明的一个实施例说明显著特点确定功能的操作流程;
图3根据一个实施例说明本发明显著特定确定设备的应用实例;
图4根据本发明的一个实施例说明图3的分类器训练服务的功能框图;
图5根据本发明的一个实施例举例说明适于用作确定显著特点的计算***。
发明的详细描述
下文将描述本发明的各个方面。然而,本领域的技术人员可以清楚,本发明可以仅用其某些或全部方面而实施。为便于解释,专门的数字、材料与结构均予以阐明以便提供对本发明的透彻了解。然而,本领域的技术人员也清楚,本发明无需这些细节也可实施。在其他情形,众所周知的特点予以忽略或简化,以免说不清楚本发明。
描述的有些部分以用基于处理器的设备实施的操作表达,使用诸如数据,存贮、选择、确定、计算等术语,与本领域技术人员通常使用的相符,以便将他们工作的基本内容传给本领域的其它技术人员。本领域的技术人员可以理解,数量可取能贮存,传输或者通过基于处理器的设备中的机械及电学元件操控的电学、磁学或光学信号的形式;而这里处理器一词包括微处理器、微控制器、数字信号处理器等,可以是独立的,也可以是辅助的或嵌入式的。
各个操作按各个分立步骤依次描述,以便最有助于了解本发明,然而,描述的顺序不应理解为意味着这些操作必与顺序相关。实际上,这些操作无须按所呈现的顺序执行。再者,描述反复使用短语“在一个实施例中”,但并不一定都指同一实施例,虽然可以如此。
根据本发明的一个实施例,从第一个对象组中提取一个或多个独特的特点以形成第一特点集,再从第二个对象组中提取一个或多个独特特点以形成第二特点集。然后在第一特定集的独特特点与第二特点集的独特特点间采用统计区分法产生一分级特点列表。然后,从这样得到的分级特定列表中即可识别出一组显著特点。
在一个实施例中,显著特点的确定有利于对数据对象的有效分类,对象包括(但不限于)文本文档、图象文档、音频序与视频序列,在甚大规模的分层分类树中,也在诸如平坦文档的非分级数据结构中这些数据对象既包括专利格式也包括非专利格式。例如在一文本文档中,特点可取字的形式,而术语“字”通常理解为在给定的语言中代表一组字母,具有某种语义学的意义。更一般地说,一个特点可以是一个N-标记语法(N-token gram),一个标记就是语言的一个微小元素,例如,包括英语中的N-字母语法和N-字语法,也包括亚洲语言中的N-表意符语法。又如在音频序列中,音调、速度、音延、音高、音量以及诸如此类都可用作对声音分类的特点,而在视频序列与静止图像中,各个像素属性,诸如角度和亮度级即可用作特点。根据本发明的一个实施例,一旦一个特点组从一组(比如说)电子文档中被识别出来,然后就可确定出这些特点的一个子集对于给定数据对象组的分类而言是显著的。本文中的术语“电子文档”广泛用于描述一族数据对象,诸如以上所描述的包括一个或多个构成特点的那一些。虽然电子文档可包括文本,也同样可包括音频和/或视频内容,即可取代文本,也可附加于文本。
特点选择的判据一经确定(就是说哪些不同文本/音频/视频的属性在数据对象集中用作确定性特点),本发明的显著特点确定过程即可实施。显著特点确定过程一开始,所考虑的数据对象分成两组。然后对这两组数据对象应用代表“实用可能性”的方程(见方程1),这里0(d)代表一给定数据对象作为第一数据对象组之成员的可能性,P(R|d)代表此数据对象作为此第一组成员的概率,而P(R′|d)则代表此数据对象作为第二组成员的概率。
O ( d ) = P ( R | d ) P ( R ′ | d ) - - - ( 1 )
因为数据对象的人工分组并不提供用于计算实用可能性的概率,方程(1)便可充分利用来估计此值。相应的,对数函数连同Baye公式可一起应用于方程(1)的两边,给出方程(2):
logO(d)=logP(d|R)-logP(d|R′)+logP(R)-logP(R′)(2)
如此,一数据对象假设由一组特点{Fj}组成;并且Xi要么是1要么是0,分别代表给定特点fi在或者不在一数据对象内,则
log O ( d ) = Σ i [ log P ( X i | R ) - log P ( X i | R ′ ) ] + log P ( R ) - log P ( R ′ ) - - - ( 3 )
因为logP(R)与logP(R′)都是常数,与数据对象中选作显著的特点无关,便可规定一新量g(d):
g ( d ) = Σ i [ log P ( X i | R ) - log P ( X i | R ′ ) ] - - - ( 4 )
如设pi=P(Xi=1/R)代表一给定特点(fi)出现在第一数据组中的一个数据对象中的概率,而qi=P(xi=1/R′)代表给定特点(fi)出现在第二数据对象组中的一个数据对象中的概率,则经代入化简可得方程(5):
g ( d ) = Σ i [ X i log p i ( 1 - q i ) q i ( 1 - p i ) + Σ i [ log 1 - p i 1 - q i ] - - - ( 5 )
因为第二项中的求和并不依赖于特点在数据对象中的出现情形,可将之除去而得方程(6):
log p i ( 1 - q i ) q i ( 1 - p i ) - - - ( 6 )
因为对数函数是单调函数,方程(7)
p i ( 1 - q i ) q i ( 1 - p i ) - - - ( 7 )
的比值最大化即足以使相应的对数值最大化。根据本发明的一项具体体现,对两组数据对象,对组合特点列表中的每个特点应用方程(7)以利于显著特点的识别。为此,应计算pi,代表在第一数据对象组中至少包含特点fi一次的数据对象数除以第一数据对象文档组中数据对象的总数。同样,应计算qi,qi代表第二数据对象组中至少包含特点fi一次的数据对象数除以第二组数据对象组中数据对象的总数。
图2(A-C)根据本发明的一个实施例说明显著特点确定功能的操作流程。一开始,先检查第一集数据对象以产生一特点列表,该列表由出现在至少是来自第一数据对象集的一个或多个数据对象的独特特点组成,见方框210。对每一个识别过的独特特点,应用方程(7)以产生一分组特点列表,见方框220,此分组特点列表中的至少一个子集选作显著特点,见方框230。显著特点可包含由分级特点列表中选出的一个或多个相邻或非相邻的元素组。在一个实施例中,分级特点列表中的前N个元素选作显著的,而N可根据***的需要而变化。在另一实施例中,分级特点列表中的最后的M个元素选作显著的,而M亦根据***的需要而变化。
根据本发明的一个实施例,当产生特点列表(见方框210)时,包含在每一个数据对象组中的数据对象的总数得以确定,见方框212,对在至少是第一数据对象组中识别的每一个独特特点,包含此独特特点的数据对象总数亦能确定,见方框214。此外,独特特点列表可根据所需要不同的判据过滤,见方框216。例如,独特特点列表可删减除去那些并未发现为不管怎样出现的次数最少的数据对象的特点,那些短于经确定的某一最小长度的特点,和/或出现的次数比配额少的特点也被去除。
根据本发明的一个实施例,应用统计区分的方法获得分级特点列表,如同就图2A中的方框220描述的那样,还进一步包括在同2C中说明的那些过程。就是说,在应用统计区分法(即如方程(7)所示)时就作出一项决定,即确定在第一个数据对象集中的哪一些经识别的独特特点也出现在第二个数据对象集中,见方框221,同样地确定出在第一数据对象集中的哪一些经识别的独特特点不出现在第二文档集中,见方框222。根据所说明的具体体现,当通过统计区分法(即方程(7))作出决定时,那些确定为只出现在一个数据对象集中而不出现在其他集中的特点便被在分组特定列表中定为较高的相对级别,见方框223,而那些确定为在两个数据对象集中都出现的特点则定为相对较低的级别,见方框224。有时,根据包含每一个相应特点的数据对象的总数,分级特点列表中的特点还可进一步分级。
应用示例
现参见图3,在其中根据一个实施例,以一例示出本发明用于确定显著特点的设备。如图所示,分类器300用来有效地对数据对象分类,诸如在一大类包括甚大规模级别分类树及平坦文档格式的数据结构中的电子文档,包括(但不限于)文本文档,图像文档,音频序列与视频序列,既包含专利性格式也包含非专利性格式。分类器300包括分类器训练服务305,用以为训练分类器300根据从以前已分类过的数据分层结构中提取的分类规则对新的数据对象分类;也包括分类器分类服务315用以对输入进分类器300的新数据对象进行分类。
分类器训练服务305的功能包括聚集功能306,本发明的显著特点确定功能308,以及节点特征化功能309。根据所示的实施例,来自前已分类的数据分层结构的内容在分层结构的每个节点处通过聚集功能306聚焦,以同时形成数据的内容组与非内容组。然后由每个数据组提取特点并用显著特点确定功能308的方法确定那些特点是显著的一个特点子集。节点特征化功能309用来对前已分类过的数据分层结构的每个节点根据显著特点特征化,也用以在数据贮存310中贮存这些分类特征化,例如,以便为分类器分类服务315作进一步使用。
关于包括分类器训练设备305和分类器分类设备315的分类器300的其他资料在与此同时提交的编号为<<51026,P004>>的美国专利申请书中描述,题为“Very-Large-Scale Automatic Categorizer For Web Content(为网上内容的甚大规模自动分类器)”,共同地转让本申请的受让人,该申请通过引用完全结合于此。
分类器训练服务
图4根据本发明的一个实施例画出图3中的分类训练服务305的功能方框图。如图4所示,前已分类的数据分层结构402用以输入至分类器300的分类训练服务305。前已分类的数据分层结构400代表一个诸如音频、视频和/或文本对象的数据对象集,这些数据对象前已分类并将其归入一主题分层结构(通常由人工完成)。前已分类的数据分层结构402可以代表一个或多个前已经web门户或搜索引擎分类过的电子文档集。
根据业已说明的例子,聚集功能406将来自前已分类的数据分层结构402的内容聚集至内容和非内容组,这样就在分层结构的每个级别的兄弟节点间增加了差别。显著特点确定功能408的作用是从内容与非内容数据组中提取特点并确定哪些提取的特点(409)可被定为显著的(409′)。
此外,根据已说明的例子,图3中的节点特征化功能309的作用是对内容及非内容数据组特征化。在一个实施例中,内容与非内容数据是根据已确定的显著特点而特征化的。在一个实施例中,特征化的结果贮存在数据贮存设备310中,这可以任何种数据结构的形式实施,诸如数据库、目录结构,或是简单的查验列表。在本发明的一个实施例中对每个节点分类器的参数都贮存在一类似于前已分类的数据分层结构的文件结构的级别分类树中。
计算机***示例
图5说明适于根据本发明的一个实施例用以确定显著特点的一例计算机***。如图所示,计算机***500包括一个或多个处理器502及***存储器504。此外,计算机***500还包括大容量的存贮设备506(诸如磁盘、硬驱、CDROM等)、输入/输出设备508(诸如键盘、光标控制器等)以及通信接口510(诸如网络接口卡、调制解调器等)。各部分通过***总线512相互耦合,***总线可代表一个或多个总线。当***总线512代表多个总线时,彼此间由一个或多个总线桥(未画出)相连接。
每一个部分都行使本领域中已知的寻常功能。具体来说,***存储器504与大容量存储设备506用来贮存实施本发明的分类***的编程指令的一个工作副本和一个永久副本。编程指令的永久性副本可在出厂前即加载入大容量存储设备506中;或在现场载入,如前所述,通过一分配介质(未画出)或通过通信接口510(来自一分配服务器(未画出))加载。这些部分502~512的结构都是已知的,无须进一步描述。
结论和后记
因此,由以上描述可见,用以为对象分类的自动确定显著特点的新方法及装置已描述出来。虽然本发明用上述实施例描述,本领域的技术人员会认识到,本发明并不局限于所描述的实施例。本发明亦可用修改和替换方案来实施,但必须在所附权利要求书的精神和范围之内。因此本描述应认为是关于本发明的说明性而非约束性描述。

Claims (34)

1.一种方法,包括:
从数据对象的第一内容组中提取一个或多个独特特点以形成第一特点列表;
从数据对象的第二非内容组中提取一个或多个独特特点以形成第二特点列表;
通过在所述第一特点列表的独特特点和所述第二特点列表的独特特点间应用统计区分法产生一分级特点列表;以及
从所述分级特点列表中识别出显著特点集,
其中,产生所述分级列表包含:
将不出现在所述第二特点列表中的所述第一特点列表的那些独特特点识别为排它特点;
将也出现在所述第二特点列表中的所述第一特点列表的那些独特特点识别为公共特点;以及
对所述分级列表排序,以使与所述公共特点相比,在所述分级列表中所述排它特点的级别较高。
2.如权利要求1所述的方法,其特征在于,所述数据对象的第一内容组和所述数据对象的第二非内容组中的每一个均包含一个或多个电子文档。
3.如权利要求1所述的方法,其特征在于,还包含:
确定构成数据对象的第一内容组的第一数据对象总数;以及
确定构成数据对象的第二非内容组的第二数据对象总数。
4.如权利要求3所述的方法,其特征在于,还包含:
对形成所述第一特点列表的所述一个或多个独特特点中的每一个,确定数据对象的所述第一内容组中含有所述第一特点列表中每个相应的所述一个或多个独特特点的至少一个实例的第一数据对象数;以及
对形成所述第二特点列表的所述一个或多个独特特点中的每一个,确定数据对象的所述第二非内容组中含有所述第二特点列表中每个相应的所述一个或多个独特特点的至少一个实例的第二数据对象数。
5.如权利要求4所述的方法,其特征在于,还包含:
对每一个所述公共特点应用概率性函数以获得一结果矢量,其中,所述概率性函数包含所述第一数据对象数除以所述第一数据对象总数的结果与所述第二数据对象数除以所述第二数据对象总数的结果的比值;以及
至少部分地基于所述概率性函数的结果矢量,对所述分级列表中的所述公共特点排序。
6.如权利要求4所述的方法,其特征在于,基于所述第一数据对象数对所述排它特点进一步分级。
7.如权利要求1所述的方法,其特征在于,从所述分级特点列表中识别出显著特点集包含:选择所述分级特点列表中前N个连续特点,其中N是小于所述分级特点列表中的特点数的自然数。
8.如权利要求1所述的方法,其特征在于,从所述分级特点列表中识别出显著特点集包含:选择所述分级特点列表中的最后M个连续特点,其中M是小于所述分级特点列表中的特点数的自然数。
9.如权利要求1所述的方法,其特征在于,每一个所述独特特点都包含由一个或多个字母数字字符组成的组。
10.如权利要求1所述的方法,其特征在于,还包含:
至少部分地基于所述显著特点集,将一新的数据对象分类成与数据对象的所述第一内容组及数据对象的所述第二非内容组中的一个的关系最密切。
11.如权利要求1所述的方法,其特征在于,数据对象的所述第一内容组包含那些对应于具有多个节点的主题分层结构中选出的节点以及与选出的节点相关联的任何子节点的数据对象;以及
其中,数据对象的所述第二非内容组包含那些对应于与选出的节点相关联的任何兄弟节点以及与兄弟节点相关联的任何子节点的数据对象。
12.一种识别显著特点的方法,所述方法包含:
识别作为第一数据类的成员的一个或多个独特特点;
检查第二数据类以识别所述一个或多个独特特点中也是所述第二数据类的成员的那些独特特点,以及所述一个或多个独特特点中不是所述第二数据类的成员的那些独特特点;
产生独特特点的分级列表,此分级列表有一基于所述第二数据类中每一个所述一个或多个独特特点的成员身份的顺序;以及
将所述独特特点的分级列表中的一个或多个独特特点识别为显著的。
13.如权利要求12所述的方法,其特征在于,还包含:
对所述独特特点的分级列表中的每一个独特特点,确定所述第一数据类中包含每个相应的独特特点的对象数。
14.如权利要求13所述的方法,其特征在于,产生分级列表还包含:将所述独特特点中不是所述第二数据类成员的那些独特特点在所述分级列表中的级别定为比所述独特特点中也是所述第二数据类成员的那些独特特点的级别高。
15.如权利要求14所述的方法,其特征在于,产生分级列表还包含:将所述独特特点中属于所述第一数据类的较多数目对象的那些独特特点在所述分级列表中的级别定为比所述独特特点中属于所述第一数据类中较少数目对象的那些独特特点的级别高。
16.如权利要求12所述的方法,其特征在于,识别为显著的包含:从所述独特特点的分级列表中选出前N个连续特点,其中N是所述分级特点列表中的特点数的自然数。
17.如权利要求12所述的方法,其特征在于,识别为显著的包含:从所述独特特点的分级列表中选出最后M个连续特点,其中M是所述分级特点列表中的特点数的自然数。
18.一种设备,包含:
用于从数据对象的第一内容组中提取一个或多个独特特点以形成第一特点列表的装置;
用于从数据对象的第二非内容组中提取一个或多个独特特点以形成第二特点列表的装置;
用于通过在所述第一特点列表的独特特点和所述第二特点列表的独特特点间应用统计区分法产生一分级特点列表的装置;以及
从所述分级特点列表中识别出显著特点集的装置,
其中,产生所述分级列表的装置包含:
用于将不出现在所述第二特点列表中的所述第一特点列表的那些独特特点识别为排它特点的装置;
用于将也出现在所述第二特点列表中的所述第一特点列表的那些独特特点识别为公共特点的装置;以及
用于对所述分级列表排序的装置,以使与所述公共特点相比,在所述分级列表中所述排它特点的级别较高。
19.如权利要求18所述的设备,其特征在于,所述数据对象的第一内容组和所述数据对象的第二非内容组中的每一个均包含一个或多个电子文档。
20.如权利要求18所述的设备,其特征在于,还包含:
用于确定构成数据对象的第一内容组的第一数据对象总数的装置;以及
用于确定构成数据对象的第二非内容组的第二数据对象总数的装置。
21.如权利要求18所述的设备,其特征在于,还包含:
用于对形成所述第一特点列表的所述一个或多个独特特点中的每一个,确定数据对象的所述第一内容组中包含所述第一特点列表中每个相应的所述一个或多个独特特点的至少一个实例的第一数据对象数的装置;以及
用于对形成所述第二特点列表的所述一个或多个独特特点中的每一个,确定数据对象的所述第二非内容组中包含所述第二特点列表中每个相应的所述一个或多个独特特点的至少一个实例的第二数据对象数的装置。
22.如权利要求21所述的设备,其特征在于,还包含:
对每一个所述公共特点应用概率性函数以获得一结果矢量的装置,其中,所述概率性函数包含所述第一数据对象数除以所述第一数据对象总数的结果与所述第二数据对象数除以所述第二数据对象总数的结果的比值的装置;以及
至少部分地基于所述概率性函数的结果矢量,对所述分级列表中的所述公共特点排序的装置。
23.如权利要求21所述的设备,其特征在于,基于所述第一数据对象数对所述排它特点进一步分级。
24.如权利要求18所述的设备,其特征在于,所述用于从所述分级特点列表中识别出显著特点集的装置包含:用于选择所述分级特点列表中前N个连续特点的装置,其中N是所述分级特点列表中的特点数的自然数。
25.如权利要求18所述的设备,其特征在于,所述用于从所述分级特点列表中识别出显著特点集的装置包含:用于选择所述分级特点列表中的最后M个连续特点的装置,其中M是所述分级特点列表中的特点数的自然数。
26.如权利要求18所述的设备,其特征在于,每一个所述独特特点都包含由一个或多个字母数字字符组成的组。
27.如权利要求18所述的设备,其特征在于,还包含:
至少部分地基于所述显著特点集,将一新的数据对象分类成与数据对象的所述第一内容组及数据对象的所述第二非内容组中的一个关系最密切的装置。
28.如权利要求18所述的设备,其特征在于,数据对象的所述第一内容组包含那些对应于具有多个节点的主题分层结构中选出的节点以及与选出的节点相关联的任何子节点的数据对象;以及
其中,数据对象的所述第二非内容组包含那些对应于与选出的节点相关联的任何兄弟节点以及与兄弟节点相关联的任何子节点的数据对象。
29.一种识别显著特点的设备,包含:
用于识别作为第一数据类的成员的一个或多个独特特点的装置;
用于检查第二数据类以识别所述一个或多个独特特点中也是所述第二数据类的成员的那些独特特点,以及所述一个或多个独特特点中不是所述第二数据类的成员的那些独特特点的装置;
用于产生独特特点的分级列表的装置,此分级列表有一基于所述第二数据类中每一个所述一个或多个独特特点的成员身份的顺序;以及
用于将所述独特特点的分级列表中的一个或多个独特特点识别为显著的装置。
30.如权利要求29所述的设备,其特征在于,还包含:
用于对所述独特特点的分级列表中的每一个独特特点,确定所述第一数据类中包含每个相应的独特特点的对象数的装置。
31.如权利要求30所述的设备,其特征在于,所述用于产生分级列表的装置还包含:用于将所述独特特点中不是所述第二数据类成员的那些独特特点在所述分级列表中的级别定为比所述独特特点中也是所述第二数据类成员的那些独特特点的级别高的装置。
32.如权利要求31所述的设备,其特征在于,所述用于产生分级列表的装置还包含:将所述独特特点中属于所述第一数据类的较多数目对象的那些独特特点在所述分级列表中的级别定为比所述独特特点中属于所述第一数据类中较少数目对象的那些独特特点的级别高的装置。
33.如权利要求29所述的设备,其特征在于,所述用于识别为显著的装置包含:用于从所述独特特点的分级列表中选出前N个连续特点的装置,其中N是所述分级特点列表中的特点数的自然数。
34.如权利要求29所述的设备,其特征在于,所述用于识别为显著的装置包含:用于从所述独特特点的分级列表中选出最后M个连续特点的装置,其中N是所述分级特点列表中的特点数的自然数。
CNB02829663XA 2002-09-25 2002-09-25 为对象分类的自动确定显著特点的方法和装置 Expired - Fee Related CN100378713C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2002/030457 WO2004029826A1 (en) 2002-09-25 2002-09-25 Method and apparatus for automatically determining salient features for object classification

Publications (2)

Publication Number Publication Date
CN1669023A CN1669023A (zh) 2005-09-14
CN100378713C true CN100378713C (zh) 2008-04-02

Family

ID=32041246

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB02829663XA Expired - Fee Related CN100378713C (zh) 2002-09-25 2002-09-25 为对象分类的自动确定显著特点的方法和装置

Country Status (8)

Country Link
EP (1) EP1543437A4 (zh)
JP (1) JP2006501545A (zh)
CN (1) CN100378713C (zh)
AU (1) AU2002334669A1 (zh)
BR (1) BR0215899A (zh)
CA (1) CA2500264A1 (zh)
MX (1) MXPA05003249A (zh)
WO (1) WO2004029826A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7576755B2 (en) 2007-02-13 2009-08-18 Microsoft Corporation Picture collage systems and methods
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
EP2160677B1 (en) * 2007-06-26 2019-10-02 Endeca Technologies, INC. System and method for measuring the quality of document sets
US9307107B2 (en) * 2013-06-03 2016-04-05 Kodak Alaris Inc. Classification of scanned hardcopy media
US20220309384A1 (en) * 2021-03-25 2022-09-29 International Business Machines Corporation Selecting representative features for machine learning models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1190764A (zh) * 1997-02-12 1998-08-19 富士通株式会社 利用候选表进行分类的模式识别设备及其方法
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
AU2001280572A1 (en) * 2000-07-17 2002-01-30 Asymmetry, Inc. System and methods for web resource discovery

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
CN1190764A (zh) * 1997-02-12 1998-08-19 富士通株式会社 利用候选表进行分类的模式识别设备及其方法
US6018733A (en) * 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques

Also Published As

Publication number Publication date
EP1543437A1 (en) 2005-06-22
JP2006501545A (ja) 2006-01-12
EP1543437A4 (en) 2008-05-28
CN1669023A (zh) 2005-09-14
BR0215899A (pt) 2005-07-26
CA2500264A1 (en) 2004-04-08
MXPA05003249A (es) 2005-07-05
WO2004029826A1 (en) 2004-04-08
AU2002334669A1 (en) 2004-04-19

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
US7971150B2 (en) Document categorisation system
US6938025B1 (en) Method and apparatus for automatically determining salient features for object classification
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN107506472B (zh) 一种学生浏览网页分类方法
CN107193915A (zh) 一种企业信息分类方法及装置
CN109446423B (zh) 一种新闻以及文本的情感判断***及方法
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和***
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN114997288A (zh) 一种设计资源关联方法
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN100378713C (zh) 为对象分类的自动确定显著特点的方法和装置
CN115496066A (zh) 文本分析***、方法、电子设备及存储介质
Asirvatham et al. Web page categorization based on document structure
Triwijoyo et al. Analysis of Document Clustering based on Cosine Similarity and K-Main Algorithms
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
CN103714051B (zh) 一种待译文档的预处理方法
CN110750963A (zh) 一种新闻文档去重的方法、装置及存储介质
KR102695536B1 (ko) 부정/불량 식품 모니터링 장치 및 방법
CN103729350B (zh) 多维度待译文档的预处理方法
Bozdogan et al. Comparison of Traditional and Modern Topic Model Algorithms in Terms of Topic Determination in Official Documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080402

Termination date: 20190925