CN1612134A

CN1612134A - 分类评估***、方法和程序

Info

Publication number: CN1612134A
Application number: CNA2004100981935A
Authority: CN
Inventors: 川谷隆彦
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2003-10-31
Filing date: 2004-10-29
Publication date: 2005-05-04
Also published as: JP2005158010A; US20050097436A1; EP1528486A2; EP1528486A3; KR20050041944A

Abstract

文档分类***通过将输入文档匹配于类别模型而自动将输入文档分类为预先确定的文档类别。输入文档的内容随时间而改变并且类别模型也退化。相对于每个类别计算训练文档组和实际文档组(其分类为多个类别)之间的相似性。选择具有低相似性的类别。可选地，通过计算每个单独类别中的训练文档组和所有其他类别中的实际文档组之间的相似性来检测已发生退化的类别。计算具有低相似性的类别对。通过计算训练文档组和所有类别对之间的相似性来检测相近主题的类别对。选择具有低相似性的类别对。

Description

分类评估***、方法和程序

技术领域

本发明涉及对文档和其他模式进行分类的技术。更为具体地，本发明目的在于每种情况来实现对类别(class)模型的适当性的正确评估，从而提高运行效率。

背景技术

文档分类是将文档分类为预定组的技术，并随着信息交流的日益增长而变得更为重要。就文档分类而言，各种方法-例如向量空间模型、k最近邻域法(KNN法)、朴素贝叶斯方法(native Bayes)、决策树方法、向量支持机方法以及助推(boosting)方法，已经在此之前研究和开发过。文档分类处理的新趋势已在日本信息处理学会(IPSJ)杂志第42卷第1期(2001年1月)中Masaaki Nagata和Hirotoshi Taira的“学习理论的文本分类示范(Text Classification-Showcase of LeamingTheories)”一文中详细描述。在每一种这样的分类方法中，关于文档类别的信息以特定的形式描述并且与输入文档相匹配。该信息在下文中将被称做“类别模型”。

类别模型使用例如属于向量空间模型中每个类别的文档的平均向量来表示，一组文档向量属于kNN方法中的每个类别，和所述助推方法中的一系列简单假设。为获得精确的分类，所述类别模型必须精确地描述每个类别。类别模型通常是利用大量文档作为每个类别的训练(training)数据而加以构建的。

文档分类是基于识别技术的，正像符号识别和语音识别一样。然而，在与符号识别和语音识别相比时，在以下情形中文档分类是独特的。

(1).就字符识别和语音识别而言，不可能想像逐秒的变化出现在属于相同类别的模式中。属于类别“2”的字符模式在现在和一年前应该是相同的。然而，就文档而言，即使在相同类别中文档的内容也将逐秒地发生变化。例如，如果一个人设想一个称为“国际政治”的类别，那么属于这个类别的文档主题在***战争前后会发生显著地变化。因此，“国际政治”使用的类别模型必须要随着时间的推移而加以重建。

(2).就字符和语音表达而言，一个人能够立即判断出输入的字符或语音表达属于哪个类别。因此，收集训练数据以构建类别模型并不难。然而，就文档而言，在不阅读输入的文档的情况下，不可能判断出输入的文档属于哪个类别。即使是浏览的话，对一个人而言也需要花费大量的时间来阅读文档。因此，就文档而言，在收集大量，可靠的训练数据时存在极大的负担。

(3)由于原因(2)中所述的相同原因，就文档分类而言，难以知道如何对大量的未知文档正确地进行分类。

(4).就字符和语音表达而言，输入的字符和语音表达存在于什么类别事实上是不言而喻的。例如，就字符识别而言，对识别数字而言有10个类别。然而，文档识别的类别可以自由设置，并且使用的类别的形式由用户的需要，***设计者的目标等确定。

因此，就文档识别而言，原因(1)要求类别模型的频繁重建以在实际操作中根据每种情况正确地对文档进行分类。然而，由于原因(2)，类别模型的重建并不容易。为了减轻重建类别模型中的负担，不重建所有的类别是优选的。更为合适地，只重建其中类别模型已退化(deteriorate)的那些类别是优选的。然而，原因(3)也使得难于检测到在哪个类别中已出现退化。由于这些原因，文档分类中实际操作的费用并不便宜。

而且，就文档分类而言，当由人为确定的类别所代表的主题彼此之间差别很大(也就是，不同)之时，不存在任何问题，但具有存在类别对(class-pair)的情况，该类别对代表彼此相近(也就是，类似)的主题。这样的类别对会在类别对之间导致误分类的出现，并会导致***性能的退化。因此，当设计文档分类***时，尽快地检测主题上相近的类别对并重新考虑该类别是很必要的。为此，在设计文档分类***之后，可以通过使用测试数据执行评估来检测有问题的类别对，但是这需要人力和时间。令人期待的是，就在训练数据准备好之后，也就是说，一旦收集了训练数据并完成了每个文档的类别标注(label)就检测这些主题上相近的类别对。

发明内容

本发明的目的在于能够对主题上相近的类别对和其中类别模型已退化的类别进行容易的检测，从而减轻设计文档分类***的负担和重建类别模型的负担。

首先，对于类别模型退化作出一些评论。对于类别“A”的类别模型退化会以两种情况表现其影响。一种情况是，属于类别A的输入文档不会被检测为属于类别A。另一种情况是，该文档被误分类为类别“B”而不是“A”。假设将类别A的“查全率(recall)”定义为经判断属于类别A的文档数量与属于类别A的文档数量的比率，并且将类别A的“精确度”定义为在经判断属于类别A的文档中实际上属于类别A的文档数量的比率。因此，类别模型退化的影响表现为在查全率或精确度上的下降。因此，问题在于如何检测查全率和精确度都已降低的类别。本发明使用了以下方法。(这里假设即使当指定类别的查全率和精确度下降，还仍存在许多正确分类为相应类别的文档。)

在类别A的查全率已经降低的情况下，可以想像在属于类别A的输入文档的主题与类别A的类别模型所代表的主题之间将会出现失配。当类别模型被构建时，类别模型中所代表的类别A的主题由训练数据确定。在文档分类***的实际操作过程中分类于类别A的一组文档称为“类别A实际文档组”。上述失配是否已出现是由类别A实际文档组和用于构建类别A的类别模型的训练文档组之间的紧密度(也就是说“相似性”)来确定的。如果相似性高，那么类别A实际文档组的内容和用于构建类别模型的训练文档组的内容是彼此相近的。因此，可以判断出没有出现退化。相反，如果相似性低，那么属于类别A的输入文档的主题已经发生变化。因此，可以判断出类别模型已经退化。对判断出已出现退化的类别，必须要重建类别模型。

而且，如果在许多情况中，属于类别A的输入文档误分类为类别B，那么可以理解为，属于类别A的文档所代表的主题已经发生变化，并且已经变得与类别B的类别模型极为相似。因此，可以理解为在类别A实际文档组和用于构建类别B类别模型的训练文档组之间的紧密度(也就是“相似性”)是很高的。因此，高相似性证明了属于类别A的文档的主题内容与类别B相近。当这发生时，可以判断出在类别A和类别B的类别模型中都已出现了退化。因此，重建类别A和类别B的类别模型是必要的。

接下来，对于主题上彼此相近的类别对给出解释。当类别对主题上彼此相近时，该类别的文档组之间的相似性必定是高的。因此，通过获取所有类别对之间的相似性，并选择具有高于指定值的相似性的那些类别对，判断出这些类别是具有彼此相近主题的那些类别。对于这些类别对，有必要重新考虑是否适当进行了类别设置，类别的定义是否合适，以及类似的考虑。

如上所述，本发明不仅为每个类别收集了训练文档组，也为每个类别收集了实际文档组，并接着获取所有类别对的训练文档组之间的相似性，所有类别的训练文档组和实际文档组之间的相似性，以及所有类别对的训练文档组和实际文档组之间的相似性。这使得对有必要重新构建和重新考虑的类别进行检测，从而能够对文档分类***设计和类别模型的重建进行极为简易的修改。

本发明提供如下***、方法和存储介质：

(一)、一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该***包括：

(a)第一计算器，用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及

(b)检测器，用于检测相似性大于阈值的类别对。

(二).一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该***包括：

(a)第一构建器，用于基于训练文档组为每个文档类别构建类别模型；

(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；

(c)计算器，用于相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性；以及

(d)检测器，用于检测相似性小于阈值的类别。

(三).一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，以执行对输入文档的分类，该***包括：

(c)计算器，用于计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性；以及

(d)检测器，用于检测相似性大于第三阈值的类别对。

(四).一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，来执行对输入文档的分类，该程序进一步使计算机如下运行：

(a)计算器，用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及

(b)检测器，用于检测相似性大于阈值的类别对。

(五).一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行：

(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组：

(d)检测器，用于检测相似性小于阈值的类别。

(六).一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行：

(d)检测器，用于检测相似性大于第三阈值的类别对。

(七).一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及(b)检测相似性大于阈值的类别对。

(八).一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)基于训练文档组为每个文档类别构建类别模型；

(b)通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；

(c)相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性；以及

(d)检测相似性小于阈值的类别。

(九).一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)基于训练文档组为每个文档类别构建类别模型；

(c)计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性；以及

(d)检测相似性大于第三阈值的类别对。

(十).一种存储模式分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(a)计算器，用于通过使用每个类别的训练模式组计算相对于所有类别对的相似性；以及

(b)检测器，用于检测相似性大于阈值的类别对。

(十一).一种模式分类评估程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(a)第一构建器，用于基于训练模式组为每个模式类别构建类别模型；

(b)第二构建器，用于通过将输入模式匹配于分类的类别模型并将输入模式分类于该输入模式所属的模式类别中，来构建实际模式组；

(c)计算器，用于相对于所有模式类别计算训练模式组和相同类别中的实际模式组之间的相似性；以及

(d)检测器，用于检测第二相似性小于第二阈值的类别。

(十二).一种存储模式分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(c)计算器，用于计算每个单独模式类别的训练模式组和所有其他模式类别的实际模式组之间的相似性；以及

(d)检测器，用于检测相似性大于阈值的类别对。

附图说明

在附图中：

图1是执行本发明优选实施例的***结构框图；

图2是本发明优选实施例的方块图。

图3是从给定的训练文档组中检测相似主题的类别对的本发明优选实施例的流程图。

图4A和4B是包括文档组、文档和文档段向量之间的关系的框图。

图5A是根据本发明优选实施例，检测类别模型已经退化的类别的流程图，正如本发明的实施例2。

图5B是根据本发明优选实施例，检测类别模型已经退化的类别的流程图，正如本发明实施例3。

图6是包括训练文档组跨越的类别(水平轴)的相似性对于测试文档组跨越的类别(垂直轴)的错误率之间的关系的图表。

图7是训练文档组和在相同类别(水平轴)中的测试文档组之间的相似性对于测试文档组(垂直轴)之间的关系的图表。

具体实施方式

图1是示意图，包括机壳100，该机壳中容纳处理器布置，所述处理器布置包括存储器设备110、主存储器120、输出设备130、中央处理单元(CPU)140、控制台150和输入设备160。中央处理单元(CPU)140从主存储器120读取控制程序，并遵从由控制台150输入的指令以利用从输入设备160输入的文档数据和存储在存储器设备110中的训练文档和实际文档的信息执行信息处理从而检测相近主题的类别对，退化的文档类别等，并将这些输出至输出设备130。

图2是方块图，包括文档输入块210；文档预处理块220；文档信息处理单元230；训练文档信息的存储块240；实际文档信息地存储块250；不适当的文档类别的输出块260。用户希望处理的一组文档被输入到文档输入块210。在文档预处理块220，对输入文档执行词语(term)提取、形态分析、文档向量构建以及类似处理。文档向量每个分量的值是根据相应词语在文本中出现的频率和其他信息而确定的。训练文档信息存储块240存储预先准备好的每个类别的训练文档信息。实际文档信息存储块250存储基于分类结果而获得的每个类别的实际文档信息。文档信息处理单元230计算所有类别对之间的训练文档组的相似性，并计算每个类别中训练文档组和相同类别中实际文档组之间的相似性，还计算每个类别中训练文档组和所有其他类别中实际文档组之间的相似性，例如，以获取相似主题的类别对和退化的类别。不适当的文档类别的输出块260将由文档信息处理单元230获取的结果输出到诸如显示器之类的输出设备。

图3是图1中处理器所执行的操作的实施例1的流程图，以在给定的训练文档组中检测相似主题的类别对。图3的方法通常在通用计算机上通过运行***的程序而实现。图3是计算机运行这样的程序的操作流程图。块21表示训练文档组的输入。块22表示类别标注。块23表示文档预处理。块24表示对每个类别的训练文档数据库的构建。块25表示训练文档组的类别对的相似性的计算。块26表示相似性和阈值之间的比较。块27表示具有超出阈值的相似性的类别对的输出。块28表示一种处理，该处理检测是否完成了对所有类别对的处理。在下文中，利用英语文本文档为例描述实施例1。

首先，在块21(输入训练文档组)，输入建立文档分类***的文档组。在块22(类别标注)，根据预先对类别的定义将文档所属的类别名称指派给每个文档。在某些情况下，为一个文档指派2个或多个类别名称。在块23(文档预处理)，对每个输入的文档执行预处理，所述预处理包括词语提取，形态分析，文档向量构建以及类似处理。在某些情况中，将文档分成段并构建文档段向量，以致通过一组文档段向量来表示文档。词语提取涉及在每个输入文档中搜索字词、数字公式、一系列符号等等。这里，“字词”，“一系列符号”等等统称为“词语”。在英语文本文档中，因为已经建立了符号表示法，在符号表示法中字词是独立的，所以易于提取词语。

接下来，形态分析是通过每个输入文档中加标记的词类而执行的。首先通过确定向量的维数，所述向量将由出现在整个文档中的词语中产生，并且通过确定每个维与每个词语之间的对应而构建文档向量。向量分量不必与出现在文档中的每个词语相对应。更确切地讲，向量分量足以使用词类加标记的结果以构建例如只使用被判断为名词或动词的那些词语的向量。然后，出现在每个文档中的词语的频率值或者由处理那些值所得到的值被指派给相应文档的向量分量。每个输入文档可以分为文档段。文档段是组成文档的元素，而且它们最基本的单位是句子。就英语文本文档而言，句子以句号结束并且空格跟随其后，因此使得能够容易地提取句子。将文档分成文档段的其他方法还包括将复杂的句子分成主句和至少一个从句的方法，将多个句子收集到文档段以使文档段的词语数量基本上一致的方法，以及文档从头分起而不考虑句子以使文档段中包括的词语数量基本上一致的方法。

构建文档段向量与构建文档向量相类似。也就是说，出现在每个文档中的词语的频率值或者由处理那些值所得到的值被指派给为相应文档的向量分量。作为示例，假设将用于分类中的词语的类型数目是M，那么M维向量被用于表示文档向量。让d_r作为给定文档的向量。假设“0”表示词语不存在，而“1”表示词语存在。那么向量可以表示为d_r＝(1，0，0...，1)^T，其中T表示向量的转置。可选地，当根据词语的频率而指派向量分量的值时，向量可以表示为d_r＝(2，0，1...，4)^T。在块24(构建每个类别的训练文档数据库)，每个文档的预处理结果都基于类别被分类，并基于块22的结果存储于数据库中。在块25(计算训练文档组的类别对的相似性)，训练文档组被用于计算指定的类别对的相似性。对于第一次重复，类别对是预定的；从第二次以后，类别对是根据块28的指令而指定的。

用于导出文档组之间的相似性的各种方法是已知的。例如，让Ω_A和Ω_B分别作为类别A和类别B的文档组。将d_r定义为文档r的文档向量。以下公式能够用于定义在类别A和类别B中的平均文档向量d_A和d_B：

d_{A} = \underset{r &Element; Ω_{A}}{Σ} d_{r} / | Ω_{A} |

d_{B} = \underset{r &Element; Ω_{B}}{Σ} d_{r} / | Ω_{B} |

在这些公式中，和

每个分别表示文档组Ω_A和Ω_B中的文档数。类别A和类别B中训练文档组之间的相似性表示为sim(Ω_A，Ω_B)，是利用余弦如下述方式获得相似性的：

(1)sim(Ω_A，Ω_B)＝ d_A ^Td_B/(‖d_A‖‖d_B‖)

在公式中，‖d_A‖表示向量d_A的模。由公式(1)定义的相似性不反映词语同现的信息。下列计算方法能够用于获得反映文档段中词语同现的信息的相似性。假设文档组Ω_A中的第r文档(文档r)具有Y个文档段。让d_ry表示第y文档段的向量。在图4A中，文档组Ω_A由从文档1到文档R的一组文档构成。在图4B中，文档组Ω_A中的文档r进一步由Y个文档段组成。图4B是文档段向量d_ry如何从第y文档段产生出来的概念视图。这里，由下列公式定义的文档r的矩阵称为“同现矩阵”。

S_{r} = Σ_{y = 1}^{γ} d_{ry} {d_{ry}}^{T}

当将类别A中文档的同现矩阵的和矩阵与类别B中文档的同现矩阵的和矩阵分别定义为S^A和S^B时，矩阵由下列公式获得：

(2) - - - S^{A} = \underset{r &Element; Ω_{A}}{Σ} S_{r}

(3) - - - S^{B} = \underset{r &Element; Ω_{B}}{Σ} S_{r}

在这种情况下，类别A和B中训练文档组之间的相似性sim(Ω_A，Ω_B)由下列公式使用矩阵S^A和矩阵S^B的分量来定义：

(4) - - - sim (Ω_{A}, Ω_{B}) = Σ_{m = 1}^{M} Σ_{n = 1}^{M} {S^{A}}_{mn} {S^{B}}_{mn} / \sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{M} {({S^{A}}_{mn})}^{2} Σ_{m = 1}^{M} Σ_{n = 1}^{M} {({S^{B}}_{mn})}^{2}}

在公式中，S^A _mn表示在矩阵S^A中第m行和第n列的分量值。M表示文档段向量的维数，也就是，出现在文档中的词语的类型数目。如果文档段向量的分量是二进制的(也就是，如果“1”表示第m词语的存在而“0”表示不存在)，那么S^A _mn和S^B _mn表示第m词语和第n词语分别同现于类别A和类别B的训练文档组中的文档段的数目。这从公式(2)和公式(3)中可以清楚地看出。因此，可以理解为，词语同现的信息已经反映在公式(4)中。通过获得词语同现信息，能够高度准确地获取相似性。注意的是，当矩阵S^A和S^B中的非对角分量不用于公式(4)中时，可以获得与在公式(1)中所定义的相似性基本上等效的值。

在块26，判断相似性(第一相似性)是否超出了预定的阈值(第一阈值)。在块27，如果在指定的类别之间的训练文档组相似性没超出预先已指定的阈值，那么所涉及的类别对被检测为相近主题的类别对。更为具体地，附带条件α表示阈值，如果满足下述关系，

sim(Ω_A，Ω_B)＞α

那么认为类别A和B之间主题是相近(类似)的。α的值可以通过使用具有已知主题内容的训练文档组的实验而容易地设置。关于被检测的相近主题的类别对，必须相对于该类别对的定义进行再检查，应该重新考虑是否要创建那些类别，并且证实那些训练文档的标注的适当性。在块28，执行检验以证实块25、26和27的处理是否是对所有类别对执行的。如果没有未处理的类别对，那么处理结束。如果有未处里的类别对，那么指定下一个类别对并且处理返回到块25。

图5A和5B是图1的处理器为实施例2和3执行操作的流程图。图5A和5B是在实际文档分类***中实施时检测退化的类别的操作。该方法也可以在通用计算机上通过运行图5A和5B的程序而实现。首先，给出对于图5A所示的实施例2的解释。块31表示文档组输入。块32表示文档预处理。块33表示文档分类处理。块34表示构建每个类别的实际文档数据库。块35表示计算训练文档组和相同类别中的实际文档组之间的相似性。块36表示相似性和阈值的比较。块37表示在每个类别中的训练文档组和在相同类别中的实际文档组之间的相似性超过了阈值的情况下执行的处理。块38表示一种处理，该处理用于检测是否完成了对所有类别的处理。

在下文中，对于图5A的流程图给出详细说明。首先，在块31，将实际上要被分类的文档提供给处于运行状态的文档分类***。在块32，执行与图2中块23相同的文档预处理，并在块33，对输入文档执行文档分类处理。用于分类文档的各种方法已被开发，包括：向量空间模型、k最近邻域法(kNN法)、朴素贝叶斯方法、决策树方法、向量支持机方法以及助推方法等。这些方法的任何一种可以用于块33。在块34，使用在块33执行文档分类处理所得到的结果为每个类别构建实际文档数据库。分类为类别A和类别B的实际文档组分别表示为Ω’_A和Ω’_B。

在块35，计算在指定的类别的训练文档组和相同类别的实际文档组之间的相似性。对于第一次重复，类别是预先指定的；从第二次重复以后，根据块38的指令对类别对进行指定。类别A的训练文档组Ω_A和相同类别的实际文档组Ω’_A之间的相似性sim(Ω_A，Ω’_A)(也就是第二相似性)以与公式(1)和(4)类似的方式获取。

然后，在块36，相似性与阈值进行比较，接着，在块37，执行检测以找到退化的类别。附带条件这次用的阈值定义为β，当满足下列关系时，

sim(Ω_A，Ω’_A)＜β

认为应该在类别A中的实际文档的主题发生了变化，并判断出类别A的类别模型是退化的。在块38，执行检验以证实是否已经对所有类别执行了块35、36和37的处理。如果没有未处理的类别，那么处理结束。如果有未处理的类别，那么指定下一个类别并且处理返回到块35。

接下来，参照图5B给出关于实施例3的说明。块31至34与图5A的那些步骤相类似，因此这里省略对那部分的说明。在块39，计算每个类别的训练文档组与所有其他类别的实际文档组之间的相似性。块40和块41对应在这种情况下执行的处理：每个类别的训练文档组与其他类别的实际文档组之间的相似性超过了阈值。块42表示一种处理，该处理用于检验是否完成了对所有类别对的处理。

类别A的训练文档组Ω_A和类别B的实际文档组Ω’_B之间的相似性sim(Ω_A，Ω’_B)(第三相似性)是在块40和41利用公式(1)和(4)获得的。对于第一次重复，类别对是预先指定的；从第二次重复以后，根据块42的指令对类别对进行指定。附加条件块40和41中的阈值定义为γ，当满足下列关系时：

sim(Ω_A，Ω’_B)＞γ

类别B的文档主题与类别A的文档主题相类似，并且判断出类别A和类别B这二者的类别模型都退化了。

块42是结束处理。执行检验以证实是否已对所有类别对执行了块39、40和41的处理。如果没有未处理的类别对，那么处理结束。如果有未处理的类别对，那么指定下一个类别对并且处理返回到块39。在实施例2和3中使用的值β和γ必须通过使用具有已知主题内容的训练文档组的实验而预先设置。

如上所述，实施例1，2和3容易地将相近主题的类别对和退化类别检测为不适当的类别。现参照广泛用于文档分类研究的Reuters-21578文档全集来讨论实验结果。kNN方法用作文档分类方法。图6是每个类别对的主题相似程度和错误率之间的关系的示意图。每个点对应具体的类别对。

图6的水平轴以百分比表示类别之间训练文档组的相似性。垂直轴以百分比表示两个类别之间的测试文档组的错误率。在Reuters-21578文档全集中命名为训练文档组和测试文档组，因此将测试文档组作为实际文档组对待。类别A和类别B之间的错误率是通过将误分类为类别B文档的类别A文档的数量和误分类为类别A文档的类别B文档的数量之和除以类别A和类别B的文档之和而得到的值。图6表示具有训练文档组的高相似性的类别对(也就是，相似主题的类别对)对于测试文档组也具有高错误率。图6证明实施例2和3能够容易地检测相近主题的类别对。通过重复构建那些类别的类别模型，将会提高文档分类***的性能。

图7是示例检测退化的类别的示意图。在图7中，水平轴以百分比表示训练文档组和相同类别中的测试文档组之间的相似性。垂直轴以百分比表示关于测试文档组的查全率。图7表示了相似性和查全率之间的关系。每个点对应一个类别。如图7中所示，在查全率低的类别，训练文档组和测试文档组之间的相似性也低。因此，通过选择具有比阈值低的相似性的类别，能够容易地检测到退化的类别。只需要为那些退化的类别的类别模型进行更新。与必须为所有的类别更新类别模型相比，这能够显著地降低花费。

上述实施例已经利用文本文档作为例子进行了说明。然而，本发明的原理也可以应用于用相同方式表达并具有与实施例中所讨论的文档相同特点的模式。更为具体地，当实施例中所述的“文档”由模式所代替，“词语”由模式的组成元素所代替，“训练文档”由训练模式所代替，“文档段”由模式段所代替，以及“文档段向量”由模式段向量所代替等等时，本发明能以相同的方式应用。

Claims

1.一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该***包括：

(b)检测器，用于检测相似性大于阈值的类别对。

2.根据权利要求1所述的文档分类评估***，其中第一计算器包括：

(a)第一选择器，用于检测和选择用于从每个训练文档中检测类别对的词语；

(b)第一划分器，用于将每个训练文档划分为文档段；

(c)第一向量产生器，为每个训练文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及

(d)第二计算器，用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。

3.一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该***包括：

(d)检测器，用于检测相似性小于阈值的类别。

4.一种文档分类评估***，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，以执行对输入文档的分类，该***包括：

(d)检测器，用于检测相似性大于第三阈值的类别对。

5.根据权利要求4所述的文档分类评估***，其中计算器包括：

(a)选择器，用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；

(b)划分器，用于将每个训练文档和每个实际文档划分为文档段；

(c)向量产生器，用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及

(d)另一计算器，用于根据每个训练文档和每个实际文档的文档段向量计算相似性。

6.根据权利要求3所述的文档分类评估***，其中计算器包括：

7.根据权利要求5所述的文档分类评估***，还包括另一计算器，根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

其中词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为d_y＝(d_y1，...，d_yM)^T，此处T代表向量转置。

8.根据权利要求1所述的文档分类评估***，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

9.根据权利要求3所述的文档分类评估***，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

10.根据权利要求4所述的文档分类评估***，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

11.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，来执行对输入文档的分类，该程序进一步使计算机如下运行：

(b)检测器，用于检测相似性大于阈值的类别对。

12.根据权利要求11所述的介质或设备，其中文档分类评估程序使计算器包括：

(a)选择器，用于检测和选择用于从每个训练文档中检测类别对的词语；

(b)划分器，用于将每个训练文档划分为文档段；

(c)向量产生器，用于为每个训练文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及

(d)另一计算器，用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。

13.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行：

(d)检测器，用于检测相似性小于阈值的类别。

14.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行：

(d)检测器，用于检测相似性大于第三阈值的类别对。

15.根据权利要求14所述的存储文档分类评估程序的存储介质或存储器设备，其中所述计算器包括：

16.根据权利要求13所述的存储文档分类评估程序的存储介质或存储器设备，其中所述计算器包括：

17.根据权利要求11所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，假设文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

其中出现的词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为d_y＝(d_y1，...，d_yM)^T，此处T代表向量转置。

18.根据权利要求13所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，假设文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

19.根据权利要求14所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，假设文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

其中出现的词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)^T，此处T代表向量转置。

20.根据权利要求15所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，假设文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

21.一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及

(b)检测相似性大于阈值的类别对。

22.根据权利要求21所述的文档分类评估方法，其中计算相似性的步骤包括以下步骤：

(a)检测和选择用于从每个训练文档中检测类别对的词语；

(b)将每个训练文档划分为文档段；

(c)为每个训练文档产生文档段向量，该文档段向量的相应分量具有与出现在文档段中的词语的出现频率相关的值；以及

(d)根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。

23.一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)基于训练文档组为每个文档类别构建类别模型；

(d)检测相似性小于阈值的类别。

24.一种文档分类评估方法，通过将输入文档匹配于基于每个类别的训练文档信息所构造的类别的类别模型，执行对输入文档的分类，该方法包括以下步骤：

(a)基于训练文档组为每个文档类别构建类别模型；

(d)检测相似性大于第三阈值的类别对。

25.根据权利要求24所述的文档分类评估方法，其中计算相似性的步骤包括以下步骤：

(a)检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；

(b)将每个训练文档和每个实际文档划分为文档段；

(c)为每个训练文档和每个实际文档产生文档段向量，该文档段向量的分量具有与出现在文档段中的词语的出现频率相关的值；以及

(d)根据每个训练文档和每个实际文档的文档段向量计算相似性。

26.根据权利要求23所述的文档分类评估方法，其中计算相似性的步骤包括以下步骤：

(b)将每个训练文档和每个实际文档划分为文档段；

27.根据权利要求25所述的文档分类评估方法，进一步包括根据两个和矩阵之间的相应分量的乘积和计算相似性的步骤，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

28.根据权利要求24所述的文档分类评估方法，进一步包括根据两个和矩阵之间的相应分量的乘积和计算相似性的步骤，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

29.根据权利要求23所述的文档分类评估方法，进一步包括根据两个和矩阵之间的相应分量的乘积和计算相似性的步骤，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

30.根据权利要求21所述的文档分类评估方法，进一步包括根据两个和矩阵之间的相应分量的乘积和计算相似性的步骤，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为：

S = Σ_{y = 1}^{y} d_{y} {d_{y}}^{T}

31.一种存储模式分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(b)检测器，用于检测相似性大于阈值的类别对。

32.根据权利要求31的介质或设备，其中模式分类评估程序使计算器包括：

(a)选择器，用于检测和选择用于从每个训练模式中检测类别对的组成成分；

(b)划分器，用于将每个训练模式划分为模式段；

(c)向量产生器，用于为每个训练模式产生一个模式段向量，该模式段向量的相应分量具有与出现在模式段中的组成成分的出现频率相关的值；以及

(d)另一计算器，用于根据每个训练模式的模式段向量计算所有类别对的训练模式组之间的相似性。

33.一种模式分类评估程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(a)第一构建器，用于基于训练模式组为每个模式类别构建类别模型，

(d)检测器，用于检测第二相似性小于第二阈值的类别。

34.一种存储模式分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入模式匹配于基于每个类别的训练模式信息所构建的类别的类别模型，执行对输入模式的分类，该程序进一步使计算机如下运行：

(d)检测器，用于检测相似性大于阈值的类别对。

35.根据权利要求34所述的介质或设备，其中模式分类评估程序使所述计算器包括：

(a)选择器，用于检测和选择用于从每个训练模式和每个实际模式中检测类别和类别对之一的组成成分；

(b)划分器，用于将每个训练模式和每个实际模式划分为模式段；

(c)向量产生器，用于为每个训练模式和每个实际模式产生模式段向量，该模式段向量的相应分量具有与出现在模式段中的组成成分的出现频率相关的值；以及

(d)另一计算器，用于根据每个训练模式和每个实际模式的模式段向量计算第二相似性和第三相似性的其中一个。

36.根据权利要求33所述的介质或设备，其中模式分类评估程序使所述计算器包括：